construction et utilisation d’une base de connaissances

209
HAL Id: tel-01748450 https://tel.archives-ouvertes.fr/tel-01748450v2 Submitted on 20 Oct 2008 HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés. Construction et utilisation d’une base de connaissances pharmacogénomique pour l’intégration de données et la découverte de connaissances Adrien Coulet To cite this version: Adrien Coulet. Construction et utilisation d’une base de connaissances pharmacogénomique pour l’intégration de données et la découverte de connaissances. Interface homme-machine [cs.HC]. Uni- versité Henri Poincaré - Nancy 1, 2008. Français. NNT: 2008NAN10047. tel-01748450v2

Upload: others

Post on 18-Jun-2022

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Construction et utilisation d’une base de connaissances

HAL Id tel-01748450httpstelarchives-ouvertesfrtel-01748450v2

Submitted on 20 Oct 2008

HAL is a multi-disciplinary open accessarchive for the deposit and dissemination of sci-entific research documents whether they are pub-lished or not The documents may come fromteaching and research institutions in France orabroad or from public or private research centers

Lrsquoarchive ouverte pluridisciplinaire HAL estdestineacutee au deacutepocirct et agrave la diffusion de documentsscientifiques de niveau recherche publieacutes ou noneacutemanant des eacutetablissements drsquoenseignement et derecherche franccedilais ou eacutetrangers des laboratoirespublics ou priveacutes

Construction et utilisation drsquoune base de connaissancespharmacogeacutenomique pour lrsquointeacutegration de donneacutees et la

deacutecouverte de connaissancesAdrien Coulet

To cite this versionAdrien Coulet Construction et utilisation drsquoune base de connaissances pharmacogeacutenomique pourlrsquointeacutegration de donneacutees et la deacutecouverte de connaissances Interface homme-machine [csHC] Uni-versiteacute Henri Poincareacute - Nancy 1 2008 Franccedilais NNT 2008NAN10047 tel-01748450v2

Departement de formation doctorale en informatique Ecole doctorale IAEM Lorraine

UFR STMIA

Construction et utilisation

drsquoune Base de Connaissances

pharmacogenomique

pour lrsquointegration de donnees

et la decouverte de connaissances

THESE

presentee et soutenue publiquement le 10 octobre 2008

pour lrsquoobtention du

Doctorat de lrsquouniversite Henri Poincare ndash Nancy 1

(specialite informatique)

par

Adrien Coulet

Composition du jury

Rapporteurs Mohand-Saıd Hacid Professeur Universite Claude Bernard Lyon 1

Alain Viari Directeur de Recherche INRIA

Examinateurs Nacer Boudjlida Professeur Nancy Universites

Marie-Dominique Devignes Chargee de Recherche CNRS

Chantal Reynaud Professeur Universite Paris-Sud 11

Malika Smaıl-Tabbone Maıtre de conference Nancy Universites

Invites Pascale Benlian Maıtre de conference - Praticien hospitalier

Universite Pierre et Marie Curie Paris 6

Amedeo Napoli Directeur de Recherche CNRS

Laboratoire Lorrain de Recherche en Informatique et ses Applications mdash UMR 7503

Mis en page avec la classe thloria

i

Remerciements

Je remercie M Nacer Boudjlida drsquoavoir accepteacute de preacutesider le jury de cette thegravese M Mohand-SaiumldHacid et M Alain Viari pour lrsquoattention et la curiositeacute manifestes avec lesquelles ils ont jugeacute ce manuscrit

Je remercie Mme Chantal Reynaud qui a accepteacute drsquoexaminer mon travailJe remercie le Dr Pascale Benlian drsquoavoir bien voulu participer au jury de cette thegravese drsquoavoir toujours

fait preuve drsquoenthousiasme vis agrave vis de mon travail et de mrsquoavoir fait partager sa passion contagieuse pourson domaine de recherche

Je tiens agrave remercier vivement M Amedeo Napoli de mrsquoavoir accueilli au sein de son eacutequipe drsquoOr-pailleurs drsquoavoir souvent trouveacute les mots justes aux moments ougrave il me fallait les entendre

Bien eacutevidement je remercie Mme Marie-Dominique Devignes et Mme Malika Smaiumll-Tabbone pourleur accompagnement leurs conseils et leurs nombreux enseignements tant scientifiques qursquohumains Jeles emporte et les garderai avec moi

Je remercie lrsquoANRT Oseacuteo les socieacuteteacutes KIKA Medical et Phenosystems drsquoavoir financeacute et participeacuteau projet GenNet agrave lrsquooriginie de cette thegravese

Je remercie M Alexandre Durand-Salmon de mrsquoavoir fait confiance au deacutebut de ce projet M RomainDumoustier de mrsquoavoir laisser le temps de le convaincre de lrsquointeacuterecirct des ontologies Merci agrave M NicolasDubost M Benoicirct Lopez et Mlle Adeline Maguiegravere de KIKA Medical pour lrsquointeacuterecirct dont ils mrsquoont faitpart jusqursquoau dernier jour du projet

Je remercie M David Atlan pour les discussions stimulantes que nous avons pu partagerJe tiens agrave ne pas oublier tous ceux qui mrsquoont transmis volontairement ou involontairement le virus de

la bioinformatique parmi eux merci notamment agrave Benjamin Leblanc Jean-Paul Leonetti Erwan ReguerFranccedilois Rechenmann Michel Seve

Partager le quotidien des Orpailleurs me fut aussi agreacuteable qursquoenrichissant merci agrave eux et notammentagrave Nizar Salhia Zaiumlnab Nada Laszlo Sandy Rokia

Merci agrave tous ceux qui mrsquoont manifesteacute leur amitieacute pendant la thegravese Je pense en particulier agrave SebManue Audrey Greacutegoire Michaeumll Claire Momo Fred Lynda Solegravene Feacute Yann Walid Nico P NicoN Erwan Gilles Merci aux ouvriers du TGV Est et agrave Philippe Katrine

Je remercie la famille Martin pour ses encouragements Je remercie ma famille petits et grands pourmrsquoavoir construit et me consolider

Merci agrave toi lecteur qui aura le cœur de deacutepasser cette page

Et merci Aude de bousculer ma vie

ii

Table des matiegraveres

Table des figures vii

Liste des tableaux xi

Introduction 1

1 Des donneacutees aux connaissances 1

2 Des connaissances pour de nouvelles connaissances 5

3 La pharmacogeacutenomique 6

4 Le projet GenNet 7

5 Probleacutematique 8

6 Approche et principales contributions 9

7 Plan du manuscrit 9

1 Contexte biologique et applicatif 11

1 Geacutenotype et pheacutenotype 11

11 Deacutefinitions 11

12 Transcription et traduction premiegraveres eacutetapes de la deacutefinition drsquoun pheacutenotype 11

13 Les relations geacutenotypendashpheacutenotype 12

14 Les sources de donneacutees et les vocabulaires controcircleacutes relatifs aux relations geacutenotypendash

pheacutenotype 13

2 Les variations geacutenomiques 15

21 Deacutefinitions 15

22 Les sources de donneacutees relatives aux variations geacutenomiques 15

23 Heacuteteacuterogeacuteneacuteiteacute des donneacutees relatives aux variations geacutenomiques 16

24 Les haplotypes 18

3 La pharmacogeacutenomique 20

31 Deacutefinition 20

32 Les sources de donneacutees relatives agrave la pharmacogeacutenomique 21

4 Inteacuterecirct de lrsquoutilisation de connaissances en pharmacogeacutenomique 22

iii

iv Table des matiegraveres

2 Etat de lrsquoart 23

1 Extraction de Connaissances agrave partir de Bases de Donneacutees ndash 23

11 Motivation et objectifs 23

12 Preacuteparation des donneacutees 24

13 Fouille de donneacutees 27

14 Interpreacutetation en uniteacutes de connaissances 38

15 Reacuteutilisation des uniteacutes extraites 39

2 Repreacutesentation des connaissances et ontologies 40

21 La Repreacutesentation des Connaissances par Objets 40

22 Les Logiques de Descriptions 41

23 Ontologies et Bases de Connaissances 44

3 Utilisation des ontologies pour lrsquointeacutegration de donneacutees heacuteteacuterogegravenes 49

31 Les systegravemes drsquointeacutegration de donneacutees 49

32 Problegraveme drsquoheacuteteacuterogeacuteneacuteiteacute et inteacutegration seacutemantique 52

33 Le mapping donneacuteesndashconnaissances 53

34 Utilisation des ontologies en bioinformatique inteacutegration de donneacutees et plus si

affiniteacutes 54

35 Vers une inteacutegration semi-automatique de sources 58

4 Extraction de Connaissances guideacutee par les Connaissances du Domaine ndash 60

41 Preacuteparation de donneacutees guideacutee par les connaissances 60

42 Fouille de donneacutees guideacutee par les connaissances 62

43 Interpreacutetation guideacutee par les connaissances 64

3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique 67

1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre 67

11 Meacutethodologie de construction manuelle drsquoontologies pour lrsquointeacutegration de donneacutees 68

12 Construction drsquoune ontologie pour les variations geacutenomiques SNP-Ontology 73

13 Construction drsquoune ontologie pour la pharmacogeacutenomique SO-Pharm 79

2 Inteacutegration de donneacutees guideacutee par une ontologie 85

21 Description geacuteneacuterale de lrsquoapproche proposeacutee 85

22 Deacutefinition des mappings donneacuteesndashassertions 86

23 Description de lrsquointeraction wrapperndashmeacutediateur 88

24 Bilan 88

3 Expeacuterimentation 90

31 Inteacutegration de donneacutees relatives aux variations geacutenomiques SNP-Converter 90

32 Inteacutegration de donneacutees pharmacogeacutenomiques iSO-Pharm 99

4 Discussion 101

v

4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances 103

1 Seacutelection de donneacutees guideacutee par les connaissances du domaine 103

11 Motivation 103

12 Meacutethode proposeacutee 105

13 Expeacuterimentation pour la deacutecouverte de relations geacutenotypendashpheacutenotype 111

14 Bilan 116

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 118

21 Description geacuteneacuterale 118

22 Application conjointe des Logiques de Descriptions et de lrsquoAnalyse de Concepts

Formels dans le contexte de lrsquo 118

23 Analyse des Assertions de Rocircles ndash 121

24 Expeacuterimentation en pharmacogeacutenomique 130

25 Travaux similaires 143

3 Discussion 148

Conclusion et perspectives 151

A Algorithme de recherche des RMN et des RMNR 153

B Constructeurs en 155

C Exemple de code OWL 159

D Modegravele conceptuel de SO-Pharm 161

E Captures drsquoeacutecrans de SNP-Converter 163

F Algorithme de parcours drsquoun graphe drsquoassertions 167

G Captures drsquoeacutecrans du plugin de Proteacutegeacute 4 pour lrsquoAAR 171

H RMNR extraites de la relative agrave lrsquoinvestigation clinique du montelukast 173

Bibliographie 177

vi Table des matiegraveres

Table des figures

1 Repreacutesentation scheacutematique et naiumlve du processus de transformation de donneacutees en infor-mation puis en connaissances A gauche un processus en pyramide et agrave droite en boucleLa lettre C repreacutesente les connaissances 2

2 La repreacutesentation classique du processus drsquoExtraction de Connaissances agrave partir desBases de Donneacutees () (drsquoapregraves [FPSS96]) 3

3 Une annotation humoristique du geacutenome humain par Matt Davies The Journal NewsLos

Angeles Times Syndicate 2000 44 Repreacutesentation scheacutematique de la relation entre meacutedicament geacutenotype pheacutenotype eacutetudieacutee

en pharmacogeacutenomique 65 Trois exemples de relations pharmacogeacutenomiques particuliegraveres entre un traitement de

codeacuteine la version du gegravene CYP2D6 et lrsquoeffet de la codeacuteine En fonction de la version dugegravene la reacuteponse est diffeacuterente De gauche agrave droite le cas de meacutetaboliseurs lents normauxou leacutegegraverement rapides et ultra-rapides Il est inteacuteressant de noter que lrsquoadministrationdrsquoune dose de codeacuteine plus eacuteleveacutee (50 mg par exemple) aux meacutetaboliseurs lents permet decompenser la limitation de lrsquoactiviteacute enzymatique et drsquoobtenir lrsquoeffet analgeacutesique attendu 7

11 Repreacutesentation simplifieacutee des deux eacutetapes de transcription et de traduction pour deuxseacutequences drsquoADN drsquoun gegravene (ie deux allegraveles) hypotheacutetique A (agrave gauche lrsquoallegravele 1 agravedroite lrsquoallegravele 2) ne diffeacuterant qursquoen une seule position En haut de la figure lrsquoADN estrepreacutesenteacutee sous sa forme native qui est celle drsquoun double brin dans lequel les nucleacuteotidessont apparieacutes selon les regravegles suivantes A avec T et C avec G On dit que les deux brinsdrsquoADN ont des seacutequences compleacutementaires et on parle de paire de nucleacuteotides agrave chaqueposition de la seacutequence Les paires qui distinguent les deux allegraveles sur la figure sont G Cpour lrsquoallegravele 1 et T A pour lrsquoallegravele 2 Au cours de la transcription la copie de lrsquoun desbrins de lrsquoADN produit lrsquoARNm dans lequel la diffeacuterence entre les deux allegraveles est con-serveacutee Enfin la traduction convertit lrsquoARNm en une proteacuteine dont les acides amineacutes sontenchaicircneacutes les uns aux autres en fonction de lrsquoordre des triplets sur la seacutequence de lrsquoARNm

et selon la correspondance donneacutee par le code geacuteneacutetique La diffeacuterence drsquoun nucleacuteotideentre les deux ARNm est ainsi lue comme une diffeacuterence entre deux triplets GGC et GUCqui produit une diffeacuterence entre les proteacuteines traduites une diffeacuterence drsquoacide amineacute Gly(Glycine) en Val (Valine) Ainsi des geacutenotypes diffeacuterents porteacutes par lrsquoADN sont exprimeacutesgracircce au double processus de transcription-traduction en deux proteacuteines diffeacuterentes quipourront ecirctre responsables de deux pheacutenotypes diffeacuterents au niveau des fonctionnaliteacutesdrsquoune cellule drsquoun organe ou drsquoun organisme 12

12 Diverses descriptions ou reacutefeacuterences pour une mecircme variation geacutenomique 1713 Haplotypes tag-SNP et leur composition agrave partir des allegraveles de SNP voisins sur dif-

feacuterentes versions drsquoun mecircme chromosome Source http wwwhapmaporg 18

vii

viii Table des figures

14 Repreacutesentation originale du scheacutema repreacutesentant les diffeacuterentes cateacutegories (CO PD PKFA GN) associeacutees aux donneacutees de PharmGKB et leurs principales associations (doublesflegraveches noires) Source http wwwpharmgkborg 21

21 Repreacutesentation simplifieacutee du processus drsquo 24

22 Diffeacuterentes repreacutesentations du treillis associeacute au contexte K repreacutesenteacute dans le Tableau21 De gauche agrave droite le treillis des parties associeacute au contexte (ougrave tous les sous-ensembles drsquoattributs sont repreacutesenteacutes) treillis de Galois associeacute au mecircme contexte treillis de Galois en notation reacuteduite associeacute au mecircme contexte 31

23 Treillis des parties associeacute au contexte K repreacutesenteacute Tableau 22 La ligne de seacuteparationsymbolise le support minimum (min_supp = 3

5 ) dissociant les motifs non freacutequents audessus de la ligne des motifs freacutequents en dessous Le chiffre associeacute agrave chaque motifcorrespond au nombre drsquooccurences du motif dans K Source exemple extrait de [Sza06] 34

24 Classes drsquoeacutequivalence motifs fermeacutes freacutequents et geacuteneacuterateurs freacutequents associeacutes au con-texte K repreacutesenteacute Tableau 22 (min_supp = 2

5 ) Les relations de subsomption entreclasses drsquoeacutequivalence sont deacuteduites du treillis repreacutesenteacute Figure 23 Source exempleextrait de [Sza06] 36

25 Repreacutesentation des inclusions successives de lrsquoensemble des Regravegles Minimales Non-redondantes Reacuteduites (RMNR) dans lrsquoensemble des Regravegles Minimales Non-redondantes(RMN) puis de ce dernier ensemble dans celui de toutes les regravegles drsquoassociation 38

26 Cycle de vie drsquoune ontologie Source [DCGR98] 47

27 Architecture drsquoun systegraveme drsquointeacutegration de donneacutees suivant lrsquoapproche entrepocirct 49

28 Architecture drsquoun systegraveme drsquointeacutegration de donneacutees suivant lrsquoapproche meacutediateur 51

29 Extrait de la G O 56

210 Lrsquoontologie OntoDataClean preprocessing ontology preacutesenteacutee par Perez-Rey et al [PRAC06]Les ellipses griseacutees sont les concepts et les rectangles blancs leurs instances Les lignessimples sont des relations de subsomption ou des assertions de concepts Les lignesfleacutecheacutees sont les rocircles 61

211 Taxonomie T 64

212 Mapping simple proposeacute dans [SRR05] pour guider lrsquointerpreacutetation des reacutesultats de fouille 65

31 Extrait drsquoun diagramme de classes UML illustrant les relations de geacuteneacuteralisation entre unconcept issu drsquoun vocabulaire controcircleacute Sequence Ontology (SO) un concept drsquoune on-tologie de domaine SNP-Ontology (SNPO) et un concept drsquoune meacuteta-ontologie BasicFormal Ontology (BFO) 70

32 Diagramme UML repreacutesentant la reacutepartition des diagrammes de classes en quatre pa-quets (packages en anglais) Le concept de variant peut ecirctre associeacute aux seacutequencesgeacutenomiques sur lesquels ils sont localiseacutes originellement mais aussi aux seacutequences tran-scrites et proteacuteiques sur lesquelles sont observeacutees les conseacutequences des variations geacutenomiques 75

33 Diagramme de classes UML conceptualisant un variant la variation observeacutee pour unvariant et sa position sur une seacutequence 75

34 Diagramme de classes UML relatif aux seacutequences associeacutees agrave un variant 75

35 Repreacutesentation partielle de la hieacuterarchie de concepts de SNP-Ontology impleacutementeacutee enOWL 77

ix

36 Repreacutesentation scheacutematique de quelques concepts et rocircles de SNP-Ontology impleacutemen-teacutes en OWL NB en OWL les concepts sont appeleacutes des classes et les rocircles sont soitdes proprieacuteteacutes drsquoobjets (ObjectProperty) soit des proprieacuteteacutes de type de donneacutees (Object-

DataTypeProperty) Les rocircles preacutesentent un domaine et un co-domaine (noteacutes respective-ment owl domain et owl range) et parfois une contrainte de cardinaliteacute (owl minCar-

dinality par exemple) 7737 Diagramme de classes UML centreacute sur la conceptualisation des items cliniques 8238 Diagramme de classes UML centreacute sur la conceptualisation drsquoessais cliniques 8239 Diagramme de classes UML centreacute sur la conceptualisation drsquoun protocole drsquoessai clinique 82310 Architecture geacuteneacuterale de notre systegraveme drsquointeacutegration de donneacutees Lrsquoontologie utiliseacutee par

le meacutediateur est la mecircme que celle qui constitue la TBox de la Base de Connaissances 85311 Architecture de SNP-Converter suivant celle proposeacutee Figure 310 91312 Les diffeacuterentes eacutetapes du processus de conversion de la description drsquoune variation geacutenomique

pris en charge par SNP-Converter 92313 Exemple de conversion de la description drsquoune variation geacutenomique reacutealiseacutee par SNP-

Converter 92314 Utilisation du SNP-Converter comme wrapper et meacutediateur pour le peuplement drsquoune

base de connaissances relative aux variations geacuteneacutetiques du gegravene LDLR 98315 Diagramme de Venn repreacutesentant le recouvrement des trois jeux de donneacutees utiliseacutees

pour peupler la base de connaissances SNP-KB 98316 Architecture de iSO-Pharm instanciant lrsquoarchitecture geacuteneacuterale deacutecrite Figure 310 99

41 Description geacuteneacuterale de la meacutethode de seacutelection de donneacutees guideacutee par les connaissances 10642 Positionnement et relations des trois mappings Mdminusa Mdminusd et Miminusd Les mappings

Mdminusa sont deacutefinis entre un scheacutema de bases de donneacutees et la Base de ConnaissanceLes mappingMdminusd sont deacutefinis entre les scheacutemas des bases de donneacutees et la relation dujeu de donneacutees intial Le mapping Miminusd est deacuteduit des deux preacuteceacutedents Les fonctionssymboliques associeacutees aux mappings sont repreacutesenteacutees La forme geacuteneacuterale des fonctionsassocieacutees au mappingMiminusd est la composition de lrsquoinverse de fi et de h j 110

43 Approche pour la seacutelection de donneacutees (Figure 41) utiliseacutee pour lrsquoexpeacuterimentation ie

la recherche de relations geacutenotypendashpheacutenotype lieacutees agrave lrsquoHF 11244 Concepts de SNP-Ontology instancieacutes par des individus repreacutesentant des variations geacutenomiques

(rs_001 rs_002 rs_003 et rs_004) et un haplotype (NA_01234) Leacutegende les ovalespleins sont des concepts les ovales en tirets sont des individus la ligne pleine est unerelation de subsomption les lignes en tirets ronds sont des rocircles les lignes en tirets platssont des assertions 115

45 LrsquoExtraction de Connaissances agrave partir drsquoune Base de Connaissances ou 11946 LrsquoAnalyse des Assertions de Rocircles () et des ses diffeacuterentes eacutetapes 12247 Capture drsquoeacutecran du plugin de Proteacutegeacute 4 pour lrsquoAnalyse drsquoAssertions de Rocircles 13248 Un jeu de donneacutees exemple concernant la morphologie de cellules soumis agrave COBWEB

la hieacuterarchie de cluster produite et la hieacuterarchie de concepts (ou classes) RDF deacuteduite[CCH01] 143

49 Un treillis de concepts notation reacuteduite produit agrave partir de textes (agrave gauche) et la hieacuterar-chie de concepts en laquelle il est transformeacute (agrave droite) suivant la meacutethode proposeacutee dans[CHS05] 144

410 Un treillis de concepts notation reacuteduite produit agrave partir de textes (agrave gauche) et la hieacuterar-chie de concepts instancieacutee en laquelle il est transformeacute (agrave droite) suivant lrsquoalternativeproposeacutee dans [BTN08] 145

x Table des figures

411 Les diffeacuterences drsquoorganisation des domaines dans une sous-famille de proteacuteines phos-phatases les reacutecepteurs tyrosines phosphatases Ces organisations sont repreacutesenteacuteesdans lrsquoontologie des phosphatases et utiliseacutees pour la classification automatique de nou-velles proteacuteines [WLT+06] 146

C1 Code OWL qui correspond agrave la repreacutesenteacutee dans le Tableau 24 Ce code est enregistreacutedans le fichier ldquoexemple_de_bcowlrdquo 160

D1 Diagramme de classes UML donnant une vue geacuteneacuterale mais partielle de la conceptual-isation de SO-Pharm 162

E1 Capture drsquoeacutecran de SNP-Converter Lrsquoonglet preacutesenteacute srsquointitule Data integration Il pro-pose de seacutelectionner une liste de sources de donneacutees et une portion du geacutenome unexon un intron un gegravene entier ou un espace situeacute entre deux nucleacuteotides Lrsquoexeacutecutionde la fonction drsquointeacutegration de donneacutees de SNP-Converter par le bouton Run permetlrsquoinstanciation drsquoune Base de Connaissances SNP-KB qui permet drsquoeacutevaluer le recouvre-ment des donneacutees contenues dans les diffeacuterentes sources et repreacutesenteacutees dans le cadreintituleacute Database overlapp Par exemple le premier variant de la liste est initialementpreacutesent dans les 4 sources de donneacutees seacutelectionneacutees le second est preacutesent uniquementdans PharmGKB le troisiegraveme est dans HGVBase et PharmGKB 164

E2 Capture drsquoeacutecran de SNP-Converter Lrsquoonglet preacutesenteacute srsquointitule Conversion Il propose desaisir la descritpion drsquoun variant ici Chr6 18251934GgtC et de choisir un type de de-scription diffeacuterent pour deacutecrire le variant ici la position par rapport agrave lrsquoexon Lrsquoexeacutecutionpar le biais du bouton Run construit la description du variant donneacutee selon la descrip-tion demandeacutee TPMT_exon_6 129GgtC Le variant donneacute en entreacutee peut ecirctre soit unidentifiant drsquoune base de donneacutees soit ecirctre deacutecrit suivant la nomenclature HGVS 165

E3 Capture drsquoeacutecran de SNP-Converter Lrsquoonglet est le mecircme que celui preacutesenteacute dans laFigure E2 Cette figure repreacutesente en plus les diffeacuterents type de description suivantlesquelles il est possible de convertir le variant donneacute nomenclature HGVS du variantpositionneacute relativement agrave la seacutequence du chromosome de contigs de lrsquoexon de lrsquointronde la proteacuteine ou encore lrsquoidentifiant du variant dans dbSNP 165

G1 Capture drsquoeacutecran du plugin de Proteacutegeacute 4 pour lrsquoAnalyse drsquoAssertions de Rocircles 172

Liste des tableaux

21 Un premier exemple de contexte formel K 29

22 Un second exemple de contexte formel K 32

23 Syntaxe et seacutemantique associeacutees aux constructeurs de concepts les plus simples en Les constructeurs disponibles dans la logique de baseAL nrsquoont pas de symbole proprepour les autres le symbole correspondant est donneacute dans la quatriegraveme colonne Lrsquoan-nexe B deacutecrit une liste plus complegravete des constructeurs de concepts ainsi que de certainsconstructeurs de rocircles 42

24 Un exemple de Base de Connaissances eacutecrite en 42

25 Syntaxe et seacutemantique associeacutees aux axiomes terminologiques et assertionels en 43

26 Base de donneacuteesD 64

27 Regravegles conserveacutees (supportmin=03 confiancemin=06) apregraves geacuteneacuteralisation 64

31 Liste des sources exploreacutees pour enrichir la liste de termes relatifs aux variations geacutenomiquesLa troisiegraveme colonne preacutecise si la source de variations geacutenomiques concerne uniquementun locus particulier (source Locus Speacutecifique ou LS) uniquement lrsquohumain ou si elle estgeacuteneacuterique (multi-locus et multi-espegraveces) 74

32 Les deux ontologies articuleacutees avec SNP-Ontology 74

33 Liste des axiomes deacutecrivant les relations entre concepts propres agrave SNP-Ontology (SNPO)et concepts externes importeacutes de AA Ontology (AAO) et Sequence Ontology (SO) Lesidentifiants des concepts de SO sont donneacutes entre parenthegraveses 76

34 Liste des sources exploreacutees pour enrichir la liste de termes relatifs aux sous-domainesde la pharmacogeacutenomique La troisiegraveme colonne preacutecise le sous-domaine que la sourceconcerne Les vocabulaires controcircleacutes eacutetoileacutes () sont des ontologies OBO 80

35 Les 15 ontologies articuleacutees avec SO-Pharm Le preacutefixe repreacutesenteacute par le symbole ~correspond agrave lrsquoURL http wwwloriafr~coulet 81

36 Les principaux axiomes deacutecrivant des relations entre les concepts propres agrave SO-Pharm(SOPHARM) et les concepts externes des ontologies articuleacutees (voir Tableau 35) Lesidentifiants des concepts associeacutes sont donneacutes entre parenthegraveses lorsqursquoils existent Laliste complegravete inclut eacutegalement des axiomes qui formalisent des relations entre rocircles 83

41 Forme geacuteneacuterale du jeu de donneacutees eacutetudieacute dans le sceacutenario 104

42 Caracteacuterisation quantitative des reacutesultats bruts de fouille de donneacutees en fonction du nom-bre drsquoattribut seacutelectionneacutes 114

43 Contexte formel K(GMI) reacutesultat de lrsquoexploration des graphes drsquoassertions 125

xi

xii Liste des tableaux

44 Groupes de geacutenotypes associeacutes au sein des gegravenes eacutetudieacutes dans lrsquoinvestigation cliniquede Lima et al [LZG+06] La colonne de gauche preacutesente les trois groupes de geacutenotypesmis en eacutevidence par Lima et al par la mesure des deacuteseacutequilibres de liaison (Linkage

Desquilibrium ou LD en anglais) La colonne de droite preacutesente les groupes que nousavons mis en eacutevidence agrave partir du mecircme jeu de donneacutees avec lrsquo Cette deuxiegravemecolonne preacutesente dans certains cas deux associations de geacutenotypes diffeacuterents pour unmecircme groupe de variations (gegravene ABCC1 et CYSLTR1) Les regravegles dont sont extraits ces7 groupes sont reporteacutees en Annexe H 137

45 Geacutenotypes speacutecifiques aux pheacutenotypes preacutesenteacutes dans la colonne de gauche La colonnedu centre repreacutesente les geacutenotypes speacutecifiques mis en eacutevidence dans Lima et al parmeacutethodes statistiques(χ2 et rapport de vraisemblance) [LZG+06] La colonne de droiterepreacutesente les variations mises en eacutevidence par notre approche drsquoAnalyse des Assertionsde Rocircles Les regravegles qui mettent en eacutevidence ces associations sont reporteacutees en Annexe H 139

B1 Constructeurs de concepts en Logique de Descriptions et leurs correspondances enOWL C et D sont des concepts (respectivement C et D sont des classes) T est un conceptparticulier qui correspond agrave un type de donneacutees (un Datatype en OWL) n est un nombrea et b sont des individus R un rocircle (une proprieacuteteacute drsquoobjet ou ObjectProperty en OWL) etS un rocircle dont le co-domaine correspond agrave un concept de mecircme type que T (une proprieacuteteacutede donneacutees ou DatatypeProperty en OWL) 156

B2 Constructeurs de rocircles en Logique de Descriptions et leurs correspondances en OWLR et Q sont des rocircles (des proprieacuteteacutes drsquoobjet ou ObjectProperty en OWL) 157

Introduction

Ce chapitre est une introduction geacuteneacuterale agrave la thegravese Les sections 1ndash3 deacutecrivent le contexte scien-tifique de la thegravese la deacutecouverte de connaissances pour la pharmacogeacutenomique La section 4 preacutesentele contexte industriel qui a motiveacute cette thegravese La section 5 introduit sa probleacutematique puis la section 6lrsquoapproche adopteacutee et les principales contributions Enfin la section 7 preacutesente un reacutesumeacute des chapitresde la thegravese

1 Des donneacutees aux connaissances

Lrsquoexpansion du nombre de sources de donneacutees disponibles en particulier gracircce au Web et la quantiteacutede donneacutees geacutereacutees au sein de ces sources ont rendu indispensable la mise au point de systegravemes capablesdrsquoextraire de faccedilon automatique ou semi-automatique des connaissances disponibles mais cacheacutees parla complexiteacute des donneacutees Cette complexiteacute est principalement due agrave lrsquoheacuteteacuterogeacuteneacuteiteacute la diversiteacute ladispersion et le grand volume des donneacutees Le processus drsquoExtraction de Connaissances agrave partir de Basesde Donneacutees () deacutecrit par Frawley et al [FPSM91] a justement pour but la deacutecouverte drsquouniteacutes deconnaissances agrave partir drsquoensembles de bases de donneacutees volumineuses

Avant de deacutefinir et deacutetailler le processus drsquo il convient de preacuteciser la distinction que nous faisonsdans cette thegravese entre donneacutees information et connaissances De nombreuses tentatives de deacutefinition ontvu le jour notamment dans le domaine des sciences cognitives ougrave lrsquoexploitation drsquoinformations diversespar un systegraveme complexe permet lrsquoacquisition de connaissances capables de diriger la mise en œuvredrsquoactions Nous nous limiterons aux deacutefinitions accepteacutees de maniegravere geacuteneacuterale dans le domaine de lrsquoin-formatique exprimeacutees par Kayser de la faccedilon suivante [Kay97]

ndash les donneacutees sont le reacutesultat drsquoobservationsndash les informations sont le reacutesultat de lrsquointerpreacutetation de ces donneacuteesndash les connaissances deacutefinissent la faccedilon drsquoutiliser les donneacutees et informations

Cette distinction est preacutesenteacutee de faccedilon plus formelle par Devlin Schreiber et Wille [Dev99 SAA+99Wil02] de la faccedilon suivante

ndash donneacutees = signes + syntaxendash information = donneacutees + sens (ou seacutemantique)ndash connaissances = information assimileacutee et interpreacuteteacutee + possibiliteacute de mise en action de lrsquoinforma-

tion interpreacuteteacutee

Prenons un exemple relevant du domaine de la geacuteneacutetique et consideacuterons la seacutequence drsquoADN consti-tutive drsquoun gegravene au cœur drsquoune cellule A ce niveau la seacutequence de nucleacuteotides ie lrsquoenchaicircnement deplusieurs milliers drsquoA C G et T peut ecirctre consideacutereacutee comme des donneacutees brutes En revanche le fait

1

2 Introduction

que lrsquoon sache que cette seacutequence est reconnue par la machinerie cellulaire comme un gegravene particulierest une information Enfin les regravegles de fontionnement de la machinerie cellulaire et particuliegraverement lecode geacuteneacutetique de la cellule constituent les connaissances qui permettent drsquointerpreacuteter ce gegravene commeune proteacuteine utiliseacutee ensuite dans la mise en œuvre de fonctions biologiques

Dans un ordinateur les donneacutees informations et connaissances peuvent ecirctre repreacutesenteacutees selon lesformes suivantes

ndash donneacutees un nombre une image une chaicircne de caractegraveres par exemple ldquoATCGGCTAGCTTATATC-GATCGATrdquo

ndash information des donneacutees dans une base de donneacutees ou sous forme de tableau associeacutees auxmeacutetadonneacutees neacutecessaires agrave leur interpreacutetation souvent sous la forme drsquoun couple attributndashvaleurcomme par exemple ldquosequence_du_gene = ATCGGCTAGCTTATATCGATCGATrdquo

ndash connaissances des contraintes des regravegles des axiomes logiques utilisables par des programmespour exploiter les informations dans le cadre de la reacutealisation drsquoune action par exemple lrsquoaide agravela deacutecision le pilotage drsquoun robot la deacutecouverte de nouvelles connaissances

F 1 ndash Repreacutesentation scheacutematique et naiumlve du processus de transformation de donneacutees en informationpuis en connaissances A gauche un processus en pyramide et agrave droite en boucle La lettre C repreacutesenteles connaissances

Drsquoun point de vue opeacuterationnel il est inteacuteressant drsquoenvisager les processus qui permettent de passerde donneacutees agrave lrsquoinformation puis aux connaissances De faccedilon naiumlve ce processus peut ecirctre repreacutesenteacutesous forme de pyramide ougrave les connaissances occupent la place la plus haute pour souligner le fait quede nombreuses donneacutees sont neacutecessaires agrave lrsquoacquisition drsquoune connaissance [SAA+99 Wil02] Il noussemble plus exact de proposer un scheacutema composeacute drsquoune boucle dans la mesure ougrave les connaissancesexistantes peuvent servir pour associer un sens (ie une seacutemantique) agrave des donneacutees (voir Figure 1)

Nous remarquerons toutefois qursquoen informatique la distinction donneacuteesndashinformation est artificiellepuisque les programmes ne manipulent que des donneacutees (le nom drsquoun attribut ou une valeur attribueacuteeagrave celui-ci) Comme observe Guus Schreiber dans son livre sur la meacutethodologie de gestion des connais-sances CommonKADS que ce soit pour un programme ou un humain la frontiegravere entre donneacutees et infor-mation nrsquoest pas franche car elle est fortement deacutependante du contexte drsquoutilisation [SAA+99] Ainsi lesens associeacute agrave une donneacutee peut ecirctre diffeacuterent drsquoun pays agrave lrsquoautre drsquoun domaine professionnel agrave lrsquoautreDe mecircme des donneacutees peuvent ecirctre chargeacutees de sens pour un utilisateur averti et agrave ce titre constituerune source drsquoinformation alors qursquoelles nrsquoauront aucun sens et resteront au stade de donneacutees pour unutilisateur non averti

Les connaissances constituent une notion nettement distincte de celles de donneacutees et drsquoinformation

1 Des donneacutees aux connaissances 3

Donneacuteestransformeacutees

Inteacuterepreacutetation Eacutevaluation

Fouillede donneacutees

Transformation

Seacutelection

Base de donneacuteesheacuteteacuterogegravenes

Donneacuteesseacutelectionneacutees

(i) Preparation

des donnees

(ii) Fouille

de donnees(iii)Interpretation

Modegraveles

Connaissance InteacutegrationNettoyage

Donneacuteesinteacutegreacutees

F 2 ndash La repreacutesentation classique du processus drsquoExtraction de Connaissances agrave partir des Bases deDonneacutees () (drsquoapregraves [FPSS96])

qui restent purement descriptives De faccedilon diffeacuterente les connaissances se distinguent par leur caractegraveredynamique orienteacutees vers lrsquoaction comme par exemple la prise de deacutecision ou lrsquoacquisition de nouvellesconnaissances Ainsi la repreacutesentation des connaissances en informatique est toujours associeacutee agrave des meacute-canismes de raisonnement qui permettent la reacutesolution de problegravemes

Dans cette thegravese nous nous inteacuteressons particuliegraverement au processus drsquo Celui-ci a justementpour but la deacutecouverte drsquouniteacutes drsquoinformation (ou uniteacutes extraites) agrave partir drsquoensembles de bases dedonneacutees volumineuses Ces uniteacutes drsquoinformation pourront ensuite ecirctre interpreacuteteacutees comme des uniteacutesde connaissance non triviales potentiellement utiles et reacuteutilisables Geacuteneacuteralement le processus drsquoest appliqueacute agrave la fois de faccedilon iteacuterative et interactive Iteacuterative car les reacutesultats produits peuvent ecirctrereacuteutiliseacutes lors des iteacuterations suivantes du processus Interactive car le processus drsquo est reacutealiseacute sousle controcircle drsquoun expert du domaine eacutetudieacute lrsquoanalyste Crsquoest lui qui guide le processus en fonction deses objectifs de ses propres connaissances du domaine et des reacutesultats obtenus lors des preacuteceacutedentesiteacuterations de lrsquoextraction

Nous distinguons trois eacutetapes principales dans le processus repreacutesenteacutees Figure 2 ndash (i) la preacuteparation des donneacutees incluant leur seacutelection leur inteacutegration et leur nettoyage en vue de

leur utilisation par les algorithmes de fouille de donneacuteesndash (ii) lrsquoopeacuteration de fouille de donneacutees proprement dite conduisant agrave lrsquoextraction drsquouniteacutes drsquoinfor-

mation preacutesentes sous forme de reacutegulariteacutes dans les donneacutees etndash (iii) lrsquointerpreacutetation des uniteacutes drsquoinformation extraites en terme de connaissanceLes uniteacutes de connaissance ainsi produites peuvent ecirctre exprimeacutees dans un formalisme de repreacutesen-

tation des connaissances afin de pouvoir ecirctre utiliseacutees dans des systegravemes fondeacutes sur les connaissancesDans la suite de cette thegravese nous ne consideacutererons pas la notion drsquoinformation tregraves deacutependante de lrsquoin-

terpreacutetation individuelle Plutocirct que drsquoemployer le terme drsquouniteacute drsquoinformation nous preacutefeacutererons parlerdrsquouniteacutes extraites par la fouille de donneacutees qui peuvent revecirctir diffeacuterentes formes selon lrsquoalgorithme defouille utiliseacute un motif freacutequent un concept formel une regravegle drsquoassociation un cluster etc En revanchenous nous attacherons agrave eacutetudier ce qui distingue les donneacutees des connaissances le couple ltsyntaxe seacute-mantique formellegt et comment ce couple est exploiteacute par des meacutecanismes de raisonnement pour mettreen action les connaissances

4 Introduction

F 3 ndash Une annotation humoristique du geacutenome humain par Matt Davies The Journal NewsLos Angeles

Times Syndicate 2000

Dans le domaine de la geacutenomique et plus geacuteneacuteralement de la biologie moleacuteculaire les progregravesbiotechnologiques ont meneacute agrave lrsquoacquisition de larges volumes de donneacutees puis agrave leur enregistrementdans des centaines de bases de donneacutees creacuteeacutees speacutecialement [Bat08] Par exemple les techniques deseacutequenccedilage moleacuteculaire de lrsquoADN ont permis le deacutecryptage drsquoune premiegravere version du geacutenome hu-main en 2001 mis ensuite agrave la disposition de la communauteacute scientifique dans trois bases de donneacutees[ea01 Con01]

ndash Genome Browser1 de lrsquoUCSD (University of California Santa Cruz)ndash Ensembl2 de lrsquoEBI (European Bioinformatics Institute) etndash Map Viewer3 du NCBI (National Center for Biotechnology Information)Drsquoautres projets depuis srsquointeacuteressent agrave affiner la seacutequence du geacutenome et agrave lrsquoannoter (ie la carac-

teacuteriser) en explorant entre autres les variations geacutenomiques le transcriptome le proteacuteome La Figure 3repreacutesente de faccedilon humoristique des annotations du geacutenome humain De faccedilon plus seacuterieuse le pro-jet international HapMap termineacute en 2007 et le projet 1000 genomes initieacute en 2008 explorent lesvariations inter-individuelles du geacutenome humain avec entre autres lrsquoobjectif drsquoenrichir son annotation[Con03 Spe08] La somme de donneacutees collecteacutees est particuliegraverement inteacuteressante en geacutenomique fonc-tionnelle ou en geacutenomique inteacutegrative qui eacutetudie lrsquoimpact sur le fonctionnement du geacutenome de facteursenvironnementaux comme lrsquoalimentation un traitement meacutedicamenteux ou des habitudes de vie

Cependant les meacutedecins et les biologistes qui utilisent quotidiennement ces bases de donneacutees dansleur activiteacute de diagnostic et de recherche sont limiteacutes par la complexiteacute des donneacutees Premiegraverement lenombre et la dispersion des sources compliquent les tacircches de collecte manuelle de donneacutees Seconde-ment le volume ainsi que des consideacuterations plus speacutecifiques aux sciences du vivant comme la grande

1httpgenomeucsceducgi-binhgGateway2httpwwwensemblorgHomo_sapiensindexhtml3httpwwwncbinlmnihgovprojectsmapview

2 Des connaissances pour de nouvelles connaissances 5

varieacuteteacute des donneacutees leur tendance agrave ecirctre fortement interconnecteacutees et leurs reacutefeacuterences agrave des domainesspeacutecialiseacutes compliquent lrsquoanalyse et lrsquointerpreacutetation

Face agrave cette difficulteacute lrsquo propose un cadre meacutethodologique qui a eacuteteacute appliqueacute avec succegraves enbiologie pour inteacutegrer les donneacutees repreacutesenteacutees dans des formats heacuteteacuterogegravenes et disperseacutees dans dif-feacuterentes sources [GS08] et analyser les donneacutees par des meacutethodes de fouille afin drsquoen extraire des reacutegu-lariteacutes (ou des irreacutegulariteacutes) [WZTS05]

Cependant rares sont les travaux qui reacuteutilisent effectivement les connaissances extraites ou qui tirentparti des connaissances deacutejagrave existantes pour faire face agrave la complexiteacute des donneacutees post-geacutenomiques

2 Des connaissances pour de nouvelles connaissances

Un axe de recherche de lrsquoeacutequipe-projet INRIA Orpailleur est de guider le processus drsquo non plusseulement par les connaissances de lrsquoanalyste mais eacutegalement par des connaissances exprimeacutees dansun langage de repreacutesentation des connaissances particulier interpreacutetable par une machine [LNST08]Le processus drsquo ainsi guideacute par les connaissances du domaine est appeleacute pour Extraction de

Connaissance guideacutee par les Connaissances du Domaine (ou en anglais pour Knowledge Discovery

guided by Domain Knowledge)De nombreux travaux en intelligence artificielle se sont inteacuteresseacutes agrave la repreacutesentation formelle de

connaissances dans lrsquoobjectif de rendre celles-ci interpreacutetables aussi bien par une machine que par unecirctre humain Crsquoest notamment lrsquoobjectif du Web seacutemantique tel que le deacutecrit Tim Berners-Lee [BLHL01]de proposer une extension du Web actuel dans laquelle les machines ldquocomprennentrdquo les informationsauxquelles elles accegravedent et sont ainsi en mesure de les manipuler en tant que connaissances au sein demeacutecanismes de raisonnement automatiques

A la base de lrsquoinfrastructure drsquoapplications fondeacutees sur les connaissances comme le Web seacutemantiquese trouvent les ontologies Le terme ontologie fait reacutefeacuterence agrave diverses notions connexes branche dela philosophie vocabulaire controcircleacute taxonomie ordre partiel par exemple Aussi la deacutefinition adopteacuteedans cette thegravese est celle de Thomas Gruber qui vaut pour les ontologies des applications fondeacutees surles connaissances selon laquelle une ontologie est une description formelle des concepts relatifs agrave undomaine et des relations entre ces concepts [Gru93]

Le Web Seacutemantique et lrsquoeffervescence qursquoil suscite ont meneacute la communauteacute scientifique au deacuteveloppe-ment de standards notamment pour la repreacutesentation des connaissances Le langage OWL (Web Ontology

Language) est ainsi le langage standard pour la repreacutesentation des ontologies du Web Seacutemantique OWLest issu agrave la fois des langages du Web (HTML XML RDF) et de formalismes logiques tels que leslogiques de descriptions

Des centaines drsquoontologies exprimeacutees en OWL sont partageacutees publiquement via le Web En bioin-formatique le besoin de modeacutelisation et drsquointeropeacuterabiliteacute des modegraveles biologiques en particulier pourrendre possible lrsquointeacutegration de donneacutees a favoriseacute le partage et le deacuteveloppement communautaire debio-ontologies via des portails Web comme le Bioportal ou lrsquoOBO-Foundry [RMKM08 SAR+07]

Il est eacutetabli que les meacutethodes de repreacutesentation des connaissances constituent un atout pour par-ticiper au deacutecryptage des masses de donneacutees collecteacutees en sciences du vivant en grande partie car ellespermettent la modeacutelisation de leur diversiteacute et de leur heacuteteacuterogeacuteneacuteiteacute [Rec00 Ste08] Les applications Ri-boWeb et EcoCyc illustrent notamment comment des bio-ontologies peuvent ecirctre utiliseacutees pour favoriserlrsquoexploitation de donneacutees biologiques [ABC+99 KACV+04] Le langage OWL comme standard et lesportails comme zone de partage et de structuration des connaissances en sciences du vivant sont deuxavanceacutees qui doivent favoriser le succegraves des approches fondeacutees sur les connaissances pour la deacutecouvertede connaissances en biologie

Ainsi lrsquoobjectif geacuteneacuteral de cette thegravese est drsquoeacutetudier comment les connaissances formaliseacutees dans

6 Introduction

Meacutedicament

Geacutenotype Pheacutenotype

F 4 ndash Repreacutesentation scheacutematique de la relation entre meacutedicament geacutenotype pheacutenotype eacutetudieacutee enpharmacogeacutenomique

une ontologie peuvent faciliter le processus de deacutecouverte de connaissances et cela notamment dans ledomaine de la pharmacogeacutenomique

3 La pharmacogeacutenomique

La pharmacogeacutenomique eacutetudie comment certaines variations geacuteneacutetiques inter-individuelles impliquentune variabiliteacute dans les reacuteponses entre individus agrave un mecircme traitement meacutedicamenteux [Web97]

La distinction classique entre la pharmacogeacuteneacutetique et la pharmacogeacutenomique preacutesente la phar-macogeacuteneacutetique comme lrsquoeacutetude des caractegraveres heacutereacuteditaires associeacutes agrave la pharmacologie et la pharma-cogeacutenomique comme lrsquoeacutetude au niveau moleacuteculaire de ces facteurs geacuteneacutetiques de leurs interactionsmutuelles et de leurs conseacutequences multiples tant au niveau macroscopique qursquoau niveau microscopique(moleacuteculaire cellulaire tissulaire) Ainsi une deacutefinition plus complegravete de la pharmacogeacutenomique com-prend lrsquoeacutetude de lrsquoensemble des gegravenes ayant une influence sur la pharmacologie des manifestations deleurs variations geacutenomiques de lrsquointeraction de ces variations dans la production de pheacutenotypes et delrsquoinfluence drsquoun tel pheacutenotype sur la reacuteponse agrave un meacutedicament [AK02]

La pharmacogeacutenomique peut ecirctre scheacutematiquement repreacutesenteacutee comme lrsquoeacutetude des relations ter-naires existant entre un traitement meacutedicamenteux un geacutenotype et un pheacutenotype (Figure 4)

ndash Typiquement le traitement meacutedicamenteux correspond agrave lrsquoadministration drsquoune (ou plusieurs)moleacutecule(s) avec une certaine dose une certaine freacutequence et via une certaine voie drsquoadministra-tion

ndash Le geacutenotype correspond agrave une (ou plusieurs) version(s) drsquoune variation geacutenomique Le plus sou-vent il srsquoagit du geacutenotype (ie deux allegraveles pour les espegraveces diploiumldes) observeacute sur le site drsquounevariation ponctuelle du geacutenome ie un Single Nucleotide Polymorphism (SNP)

ndash Le pheacutenotype distingue geacuteneacuteralement trois classes qui correspondent agrave trois types de reacuteponses aumeacutedicament la reacuteponse attendue lrsquoabsence drsquoeffet une reacuteponse adverse au meacutedicament

Un exemple drsquointeraction pharmacogeacutenomique deacutecrite par Desmeules et al [DGDM91] et Gascheet al [GDF+04] est lrsquoinfluence des variations du gegravene CYP2D6 dans la reacuteponse agrave un traitement decodeacuteine La codeacuteine est un opiaceacute prescrit entre autres pour son pouvoir analgeacutesique La codeacuteine estphysiologiquement meacutetaboliseacutee dans le foie en morphine responsable de son effet analgeacutesique Il ex-iste plusieurs versions fonctionnelles du gegravene CYP2D6 (ie plusieurs variants du gegravene) dont les produitsagissent diffeacuteremment sur la transformation de codeacuteine en morphine et permettent de distinguer plusieurscateacutegories drsquoindividus (Figure 5) les meacutetaboliseurs lents (porteurs de variants agrave activiteacute faible) lesmeacutetaboliseurs rapides (porteurs de variants agrave activiteacute normale ou forte) les meacutetaboliseurs ultra-rapides(porteurs de copies multiples de variants agrave activiteacute normale ou forte) Les meacutetaboliseurs lents sont inca-pables de meacutetaboliser efficacement la codeacuteine en morphine et en conseacutequence ne preacutesentent pas lrsquoeffetanalgeacutesique attendu Les meacutetaboliseurs ultra-rapides meacutetabolisent la codeacuteine avec une efficaciteacute accrue

3 La pharmacogeacutenomique 7

Codeacuteine25mg voie orale

Codeacuteine25mg voie orale

Codeacuteine

CYP2D64 Aucun effet Effetanalgeacutesique

Taux de morphinetoxique

25mg voie orale

CYP2D6UMCYP2D61

F 5 ndash Trois exemples de relations pharmacogeacutenomiques particuliegraveres entre un traitement de codeacuteinela version du gegravene CYP2D6 et lrsquoeffet de la codeacuteine En fonction de la version du gegravene la reacuteponse estdiffeacuterente De gauche agrave droite le cas de meacutetaboliseurs lents normaux ou leacutegegraverement rapides et ultra-rapides Il est inteacuteressant de noter que lrsquoadministration drsquoune dose de codeacuteine plus eacuteleveacutee (50 mg par ex-emple) aux meacutetaboliseurs lents permet de compenser la limitation de lrsquoactiviteacute enzymatique et drsquoobtenirlrsquoeffet analgeacutesique attendu

qui entraicircne une intoxication agrave la morphine

Les reacutesultats des projets de collecte de donneacutees agrave haut deacutebit comme le seacutequenccedilage du geacutenomede ses variations lrsquoeacutetude des transcriptome et proteacuteome alimentent le deacuteveloppement de la pharma-cogeacutenomique Le beacuteneacutefice des meacutethodes deacuteveloppeacutees et des connaissances ainsi acquises constitue uncatalyseur pour les chercheurs en biologie meacutedicale qui voient lagrave une occasion de beacuteneacuteficier des deacutecou-vertes en biologie moleacuteculaire pour obtenir des reacutesultats en pratique clinique [ER99] Ce type drsquoimpor-tation des deacutecouvertes ldquotheacuteoriquesrdquo pour le monde clinique srsquoinscrit dans un effort geacuteneacuteral de recherchebiomeacutedicale appeleacute la meacutedecine translationelle (traduit directement de lrsquoanglais translational medicine)[Mar03] Il est inteacuteressant de noter que la recherche translationelle srsquointeacuteresse eacutegalement au cheminementinverse crsquoest agrave dire agrave eacutetudier comment des deacutecouvertes et des pratiques cliniques peuvent ecirctre utiles pourprogresser en biologie moleacuteculaire

Une application attendue de la pharmacogeacutenomique au niveau des pratiques cliniques est la geacuteneacuterali-sation des prescriptions meacutedicales individualiseacutees prenant en consideacuteration une exploration preacutealable dugeacutenotype du patient Ceci permettrait drsquooptimiser lrsquoefficaciteacute du traitement et drsquoen preacutevenir les reacuteponsesadverses [ER04] Cette application appeleacutee meacutedecine individualiseacutee (individualized medicine an anglais)inteacuteresse les pouvoirs publics qui y voient un inteacuterecirct eacuteconomique eacutevident La pharmacogeacutenomique in-teacuteresse eacutegalement les industries pharmaceutiques dans la mesure ougrave les variations inter-individuelles dansles reacuteponses aux meacutedicaments peuvent expliquer pourquoi des moleacutecules efficaces sur un panel restreintsrsquoavegraverent apregraves de coucircteux deacuteveloppements inefficaces (voire dangereuses) au sein drsquoune populationplus vaste Crsquoest justement le cas du BiDil un meacutedicament deacuteveloppeacute pour reacuteduire le risque drsquoaccidentscardio-vasculaires Le BiDil srsquoeacutetait reacuteveacuteleacute inefficace lors des phases finales de son programme de misesur le marcheacute puis apregraves avoir eacuteteacute mis quelques temps de cocircteacute il a eacuteteacute montreacute qursquoil eacutetait particuliegravere-ment efficace pour un groupe particulier de population les afro-ameacutericains [TZY+04] Cet exemplealimente par ailleurs un deacutebat eacutethique sur les deacuterives qui pourraient ecirctre associeacutees au deacuteveloppement et agravela prescription de moleacutecules reacuteserveacutees agrave des sous-groupes de populations [SHSD08]

En conclusion la pharmacogeacutenomique est un domaine qui preacutesente un fort inteacuterecirct meacutedical et quibeacuteneacuteficie de bases de donneacutees biologiques et de meacutethodes informatiques innovantes [AK02] Ces deuxarguments font de la pharmacogeacutenomique un domaine drsquoapplication pertinent pour ce travail de thegravese

8 Introduction

4 Le projet GenNet

Le travail preacutesenteacute dans cette thegravese a eacuteteacute initieacute dans le cadre drsquoun projet europeacuteen EUREKA intituleacuteGenNet impliquant les socieacuteteacutes KIKA Medical Phenosystems et lrsquoeacutequipe Orpailleur du LORIA

Lrsquoideacutee drsquoorigine du projet est baseacutee sur le constat qursquoun nombre grandissant drsquoessais cliniques in-clut parmi les variables exploreacutees des donneacutees geacuteneacutetiques les reacutesultats de geacutenotypage de marqueursbiologiques chez les patients eacutetudieacutes Le projet GenNet se proposait de deacutevelopper une infrastructure quidans ce contexte soit capable

(1) drsquoenregistrer conjointement donneacutees cliniques classiques (pression arteacuterielle mesure du cholesteacuteroltotal dans le sang etc) et donneacutees geacuteneacutetiques (ici le geacutenotype de variations geacutenomiques) relativesagrave un groupe de patients et

(2) drsquoanalyser les relations entre les variables ainsi collecteacutees

Dans ce contexte un sujet de thegravese a eacuteteacute proposeacute pour explorer deux problegravemes connexes au projetindustriel

(a) compleacuteter les donneacutees de lrsquoessai clinique avec des donneacutees issues de bases de donneacutees biologiquespubliques ou priveacutees Ces nouvelles donneacutees constituent un ensemble drsquoannotations4 issues destravaux de recherche en biologie moleacuteculaire qui peuvent srsquoaveacuterer utiles dans lrsquoanalyse des donneacuteesrelatives agrave la population eacutetudieacutee Ces annotations suppleacutementaires peuvent par exemple permettrede mieux caracteacuteriser un sous-groupe de patients

(b) proposer une approche drsquoanalyse originale qui utilise les connaissances du domaine pour faire faceagrave la complexiteacute speacutecifique des donneacutees biologiques en terme drsquoheacuteteacuterogeacuteneacuteiteacute de varieacuteteacute de speacuteci-ficiteacute et en extraire des connaissances potentiellement utiles

Il est possible drsquoimaginer que des reacutesultats ainsi obtenus puissent agrave leur tour ecirctre agrave la base de travauxen biologie moleacuteculaire et ainsi boucler la boucle de la meacutedecine translationelle deacutecrite en section 3 decette introduction

5 Probleacutematique

Pour extraire des connaissances agrave partir de donneacutees heacuteteacuterogegravenes et srsquoaider pour cela des connais-sances existantes notamment dans le domaine de la pharmacogeacutenomique nous nous sommes interesseacutesagrave deux problegravemes principaux le premier consiste en la reacuteconciliation indispensable des diffeacuterentes don-neacutees selon une syntaxe et une seacutemantique commune le second consiste agrave eacutetendre les meacutethodes drsquoextrac-tion de connaissances pour leur permettre non seulement de travailler avec des donneacutees mais eacutegalementavec une seacutemantique associeacutee aux donneacutees

Le premier problegraveme se pose lorsque lrsquoon souhaite inteacutegrer des donneacutees provenant de sources auxscheacutemas distincts Il est dans ce cas neacutecessaire de deacuteterminer des correspondances entre les entiteacutes eacutequiv-alentes repreacutesenteacutees dans les diffeacuterents scheacutemas Ce problegraveme est accentueacute par le fait que souvent laseacutemantique associeacutee aux entiteacutes repreacutesenteacutees agrave travers les scheacutemas des sources de donneacutees nrsquoest paseacutenonceacutee clairement Par exemple le nom drsquoun attribut et les valeurs qursquoil prend ne suffisent pas agrave deacuteter-miner preacutecisement ce que repreacutesente le couple attributndashvaleur et laisse ainsi une part de liberteacute agrave lrsquoin-terpreacutetation de lrsquoutilisateur Une seacutemantique preacutecise peut ecirctre associeacutee aux attributs et agrave leurs valeurs agravelrsquoaide de descriptions formelles eacutetablies dans une ontologie Une telle association neacutecessite la mise en

4De faccedilon tregraves geacuteneacuterale une annotation est une donneacutees associeacutee agrave une seacutequence constitutive du geacutenome pour permettre soninterpreacutetation par des biologistes

6 Approche et principales contributions 9

correspondance non triviale drsquoune part des scheacutemas des sources de donneacutees et drsquoautre part des conceptset relations deacutefinies dans une ontologie

Le second problegraveme se pose lorsque lrsquoon souhaite utiliser des connaissances de domaine pour guiderlrsquoextraction de connaissances En effet mecircme lorsque les scheacutemas de donneacutees sont associeacutes aux conceptsdrsquoune ontologie les algorithmes de fouille de donneacutees au coeur du processus ne sont pas capables deprendre en consideacuteration cette association De plus si les uniteacutes extraites par la fouille sont de maniegravereassez naturelle reacuteutiliseacutees par lrsquoanalyste lors des iteacuterations successives du processus drsquo il est plus rareque le soient des uniteacutes de connaissances valideacutees et potentiellement formaliseacutees selon une seacutemantiquepreacutecise Cela neacutecessiterait soit lrsquoadaptation des diverses eacutetapes du processus drsquo pour qursquoagrave chaqueeacutetape les connaissances disponibles puissent ecirctre reacuteutiliseacutees soit de proposer des meacutethodes alternativescapables de prendre en entreacutee des donneacutees et des connaissances preacutealablement mises en correspondance

6 Approche et principales contributions

Pour traiter les deux problegravemes deacutegageacutes dans la section preacuteceacutedente nous proposons dans cette thegraveseune approche centreacutee sur une Base de Connaissances (ou ) ie une ontologie agrave laquelle est associeacuteela description drsquoun eacutetat particulier du domaine repreacutesenteacute sous la forme drsquoassertions La premiegravere partiede cette approche consiste agrave reacuteconcilier des donneacutees contenues dans des sources heacuteteacuterogegravenes en les exp-rimant selon les termes de lrsquoontologie La seconde partie de lrsquoapproche consiste agrave extraire de nouvellesconnaissances de la Base de Connaissances en exploitant conjointement les reacutegulariteacutes preacutesentes dansles donneacutees (et conserveacutees dans la Base de Connaissances) et les connaissances du domaines declareacuteesexplicitement dans cette base

Inteacutegration de donneacutees guideacutee par une ontologie Nous avons construit deux ontologies en OWLrelatives aux domaines des variations geacutenomiques et de la pharmacogeacutenomique suivant une meacutethodologierigoureuse Nous proposons une approche drsquointeacutegration de donneacutees qui exploite ces ontologies originalespour guider lrsquointeacutegration des donneacutees relatives agrave ces domaines Les donneacutees et leurs scheacutemas sont utiliseacutespour peupler les Bases de Connaissances associeacutees aux ontologies agrave lrsquoaide de mises en correspondance etde fonctions de transformation entre donneacutees et connaissances Les Bases de Connaissances reacutesultantesoffrent une vue indirecte mais homogegravene sur lrsquoensemble de ces donneacutees et nous a permis entre autresdrsquoeacutevaluer le taux de recouvrement des sources inteacutegreacutees

Extraction de connaissances agrave partir drsquoune Base de Connaissances Nous proposons une meacutethodeoriginale drsquoextraction de connaissances qui utilise la seacutemantique associeacutee aux instances drsquoune Base deConnaissances obtenue suivant lrsquoapproche drsquointeacutegration deacutecrite ci-dessus Cette meacutethode appelleacutee Anal-yse des Assertions de Rocircles srsquoattache agrave explorer les reacutegulariteacutes dans les assertions drsquoune Base de Connais-sances Les uniteacutes de connaissances produites sont exprimeacutees suivant le mecircme formalisme que celui dela Base de Connaissances ce qui permet ensuite leur manipulation par des meacutecanismes de raisonnementpour leur inteacutegration coheacuterente agrave lrsquoensemble des connaissances preacutealables

7 Plan du manuscrit

Ce manuscrit est organiseacute en 4 chapitres Les deux premiers fixent le contexte biologique et lrsquoeacutetat delrsquoart relatifs agrave la probleacutematique de la thegravese Les deux suivants preacutesentent les contributions de la thegravese Laderniegravere partie est une conclusion du travail

10 Introduction

Chapitre 1 Contexte biologique et applicatif Dans ce chapitre nous preacutesentons les notions bi-ologiques utiliseacutes dans la thegravese les relations geacutenotypendashpheacutenotype les variations geacutenomiques et lapharmacogeacutenomique

Chapitre 2 Etat de lrsquoart Ce chapitre preacutesente le processus drsquoExtraction de Connaissances agrave partir

de Bases de Donneacutees () puis deux systegravemes de repreacutesentation des connaissances en rapport avec lescontributions de cette thegravese Il illustre ensuite comment une repreacutesentation des connaissances peut ecirctreutiliseacutee pour guider lrsquoextraction de connaissances tout drsquoabord lors de lrsquoeacutetape drsquointeacutegration de donneacuteespuis plus geacuteneacuteralement lors de chacune des eacutetapes du processus drsquoextraction de connaissances

Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique Ce chapitre preacutesentela premiegravere contribution agrave savoir lrsquoutilisation drsquoontologies originales construites dans le cadre de lathegravese pour lrsquointeacutegration de donneacutees pharmacogeacutenomiques Il est donc deacutedieacute premiegraverement agrave la preacutesen-tation de nos ontologies SNP-Ontology et SO-Pharm et agrave la meacutethode rigoureuse mise en œuvre pourles construire Deuxiegravemement il deacutecrit lrsquoapproche proposeacutee pour inteacutegrer des donneacutees agrave lrsquoaide de cesontologies Troisiegravemement sa derniegravere section preacutesente les expeacuterimentations meneacutees dans le cadre delrsquointeacutegration de donneacutees relatives aux variations geacutenomiques et agrave la pharmacogeacutenomique

Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances Ce chapitredeacutetaille les deuxiegraveme et troisiegraveme contributions de la thegravese agrave savoir deux utilisations originales debases de connaissances pour guider lrsquoextraction de connaissances La premiegravere se concentre sur lrsquoeacute-tape de seacutelection des donneacutees agrave consideacuterer et est illustreacutee par des sceacutenarios de recherche de relationsgeacutenotypendashpheacutenotype La seconde quant agrave elle deacutecrit la meacutethode drsquoAnalyse des Assertions de RocirclesNous proposons par cette meacutethode drsquoextraire des connaissances agrave partir drsquoune Base de ConnaissancesUne expeacuterimentation sur lrsquoextraction de connaissances agrave partir de connaissances en pharmacogeacutenomiquetermine ce chapitre

Conclusion et perspectives Cette derniegravere partie conclut ce travail et en deacutegage les perspectives

Chapitre 1

Contexte biologique et applicatif

Ce chapitre est une introduction aux notions de biologie abordeacutees dans cette thegravese La premiegraveresection deacutefinit les notions de geacutenotype et de pheacutenotype et introduit les relations existant entre ces deuxnotions et lrsquointeacuterecirct de les eacutetudier La deuxiegraveme section preacutesente les variations geacutenomiques qui consistenten des variations de la composition moleacuteculaire du geacutenotype et qui peuvent expliquer des modificationsdu pheacutenotype La troisiegraveme et derniegravere section de ce chapitre preacutesente la pharmacogeacutenomique domainedrsquoapplication de ce travail de thegravese Les probleacutematiques biologiques propres agrave ce domaine motiventnotamment de larges parties de ce travail

1 Geacutenotype et pheacutenotype

11 Deacutefinitions

Le geacutenotype drsquoun individu est lrsquoensemble des donneacutees porteacutees par le geacutenome de cet individu endrsquoautres termes lrsquoensemble de son mateacuteriel geacuteneacutetique Pour la plupart des organismes ce mateacuteriel geacuteneacute-tique est codeacute sous forme de seacutequences drsquoAcide Deacutesoxyribonucleacuteique ou ADN composeacutees par lrsquoenchaicircne-ment de quatre moleacutecules particuliegraveres les nucleacuteotides noteacutes A C G et T (abreacuteviations de leurs nomscomplets Adeacutenine Cytosine Guanine et Thymine) Chez lrsquohomme et les eucaryotes en geacuteneacuteral lrsquoADNest porteacute par les chromosomes eux mecircme situeacutes dans le noyau de chaque cellule Le geacutenotype constitueles donneacutees de bases exploiteacutees par les cellules pour deacutefinir les caractegraveres drsquoun individu

Le pheacutenotype est quant agrave lui lrsquoensemble des traits observables drsquoun individu et reacutesulte de lrsquoexpres-sion de son geacutenotype Il est important de preacuteciser que lrsquoexpression du geacutenotype et donc le pheacutenotype quien reacutesulte sont sensibles agrave lrsquoinfluence de facteurs multiples le moment de la vie lrsquoenvironnement lanutrition le stress la maladie ou un traitement meacutedicamenteux

12 Transcription et traduction premiegraveres eacutetapes de la deacutefinition drsquoun pheacutenotype

Lrsquoexpression du geacutenotype en un ensemble de traits observables se fait suivant deux eacutetapes princi-pales la transcription et la traduction repreacutesenteacutees Figure 11 de faccedilon simple Lrsquouniteacute fonctionnelle dugeacutenome consideacutereacutee par la cellule lors de la transcription est le gegravene qui est donc deacutelimiteacute sur lrsquoADNpar des signaux de deacutebut et de fin de transcription Aussi suivant cette premiegravere eacutetape un gegravene est tran-scrit crsquoest agrave dire converti en une seacutequence de nucleacuteotides dont la composition diffegravere leacutegegraverement decelle de lrsquoADN par le fait que les nucleacuteotides T (les Thymines) sont transcrits en nucleacuteotides U (abreacutevia-tion drsquoUracile) Cette nouvelle moleacutecule appeleacutee ARNm pour Acide Ribonucleacuteique Messager peut sortirdu noyau de la cellule ougrave reste lrsquoADN pour ensuite subir une nouvelle transformation la traduction

11

12 Chapitre 1 Contexte biologique et applicatif

LrsquoARNm est traduit selon la correspondance eacutetablie par le code geacuteneacutetique5 en une seacutequence non plus denucleacuteotides mais drsquoacides amineacutes pour constituer une proteacuteine ou parfois une version preacuteliminaire inac-tive drsquoune proteacuteine La seacutequence drsquoADN qui sert agrave la deacutetermination de la seacutequence drsquoacides amineacutes de laproteacuteine est appeleacutee seacutequence codante Les proteacuteines sont les moleacutecules actives de lrsquoorganisme capablesdrsquointeractions pour reacutealiser des fonctions complexes qui peuvent conduire agrave la composition de multiplestraits constitutifs du pheacutenotype Des technologies comme les puces agrave ADN (microarray en anglais) ou laspectromeacutetrie de masse permettent drsquoobserver de faccedilon qualitative et quantitative les produits de la tran-scription ie le transcriptome et de la traduction ie le proteacuteome A ce titre transcriptome et proteacuteomesont partie inteacutegrante au niveau moleacuteculaire du pheacutenotype

F 11 ndash Repreacutesentation simplifieacutee des deux eacutetapes de transcription et de traduction pour deux seacutequencesdrsquoADN drsquoun gegravene (ie deux allegraveles) hypotheacutetique A (agrave gauche lrsquoallegravele 1 agrave droite lrsquoallegravele 2) ne diffeacuterantqursquoen une seule position En haut de la figure lrsquoADN est repreacutesenteacutee sous sa forme native qui est celledrsquoun double brin dans lequel les nucleacuteotides sont apparieacutes selon les regravegles suivantes A avec T et Cavec G On dit que les deux brins drsquoADN ont des seacutequences compleacutementaires et on parle de paire denucleacuteotides agrave chaque position de la seacutequence Les paires qui distinguent les deux allegraveles sur la figure sontG C pour lrsquoallegravele 1 et T A pour lrsquoallegravele 2 Au cours de la transcription la copie de lrsquoun des brins delrsquoADN produit lrsquoARNm dans lequel la diffeacuterence entre les deux allegraveles est conserveacutee Enfin la traductionconvertit lrsquoARNm en une proteacuteine dont les acides amineacutes sont enchaicircneacutes les uns aux autres en fonction delrsquoordre des triplets sur la seacutequence de lrsquoARNm et selon la correspondance donneacutee par le code geacuteneacutetiqueLa diffeacuterence drsquoun nucleacuteotide entre les deux ARNm est ainsi lue comme une diffeacuterence entre deux tripletsGGC et GUC qui produit une diffeacuterence entre les proteacuteines traduites une diffeacuterence drsquoacide amineacute Gly(Glycine) en Val (Valine) Ainsi des geacutenotypes diffeacuterents porteacutes par lrsquoADN sont exprimeacutes gracircce au doubleprocessus de transcription-traduction en deux proteacuteines diffeacuterentes qui pourront ecirctre responsables de deuxpheacutenotypes diffeacuterents au niveau des fonctionnaliteacutes drsquoune cellule drsquoun organe ou drsquoun organisme

13 Les relations geacutenotypendashpheacutenotype

Lrsquoeacutetude des relations entre geacutenotype et pheacutenotype remonte aux expeacuteriences du moine Mendel en1853 En croisant des souches de petits pois lisses ou rideacutes il mit en eacutevidence la transmission heacutereacuteditaire

5Le code geacuteneacutetique eacutelucideacute dans les anneacutees 60 met en correspondance de faccedilon non ambigueuml mais redondante les 64triplets de nucleacuteotides que lrsquoon peut former agrave partir des 4 nucleacuteotides constitutifs des ARNm (A C G U) et les 20 acidesamineacutes constitutifs des proteacuteines (httpenwikipediaorgwikiGenetic_code) Les triplets (ou codons) sont ainsilus et deacutecodeacutes par la machinerie cellulaire de biosynthegravese des proteacuteines qui enchaicircne les uns aux autres les acides amineacutescorrespondants selon lrsquoordre deacutefini par la seacutequence de lrsquoARNm Le site de deacutemarrage de la traduction sur une seacutequence drsquoARNmest le plus souvent deacutetermineacute par le triplet drsquoinitiation AUG La traduction srsquoarrecircte lorsque la machinerie cellulaire rencontreun triplet dit non-sens qui ne correspond agrave aucun acide amineacute (UAA UAG ou UGA)

1 Geacutenotype et pheacutenotype 13

de facteurs geacuteneacutetiques ie le geacutenotype responsable de lrsquoapparition de traits observables ie le pheacuteno-type Au deacutebut du XXiegraveme siegravecle le biologiste Morgan fonda la theacuteorie chromosomique de lrsquoheacutereacutediteacuteen associant des alteacuterations visibles des chromosomes geacuteants drsquoune espegravece de mouche (Drosophila

melanogaster) agrave des modifications du pheacutenotype (yeux blancs au lieu de rouges) Ensuite les micro-biologistes Griffith et Avery en 1928 deacutemontregraverent en manipulant deux souches de pneumocoques que lamoleacutecule drsquoADN eacutetait le support du mateacuteriel geacuteneacutetique Ces trois deacutecouvertes novatrices de la geacuteneacutetiqueont ouvert la voie agrave lrsquoeacutetude des relations geacutenotypendashpheacutenotype qui vise agrave comprendre la part deacutetermineacuteepar le mateacuteriel geacuteneacutetique dans les traits qui composent un individu

En meacutedecine lrsquoeacutetude des relations geacutenotypendashpheacutenotype a donneacute lieu agrave lrsquoexploration du domaine desmaladies geacuteneacutetiques Un exemple classique drsquoune telle maladie est la dreacutepanocytose causeacutee par la mod-ification ou mutation drsquoun seul nucleacuteotide sur le gegravene de lrsquoheacutemoglobine Cette mutation observeacutee chezles individus malades entraicircne une anomalie dans la proteacuteine heacutemoglobine alors responsable de la dreacute-panocytose Les conseacutequences au niveau du pheacutenotype peuvent ecirctre observeacutees agrave lrsquoeacutechelle microscopiqueagrave commencer par la structure anormale de la proteacuteine puis la deacuteformation des globules rouges qursquoelleinduit Les conseacutequences de celles-ci sont observeacutees agrave une eacutechelle macroscopique crsquoest le cas drsquoocclu-sions des capillaires sanguins provoqueacutees par la forme anormale (en faucille) des globules rouges ouencore une reacutesistance agrave la malaria eacutegalement expliqueacutee par cette forme originale

Les technologies drsquoexploration des geacutenomes transcriptomes et proteacuteomes permettent lrsquoacquisitionde nouvelles connaissances sur la seacutequence du geacutenome et sur la reacuteelle complexiteacute des meacutecanismes dereacutegulation de son expression En effet les relations geacutenotypendashpheacutenotype sont plus compliqueacutees qursquoil nrsquoapu paraicirctre dans un premier temps Ainsi il faut souvent que coexistent plusieurs facteurs geacuteneacutetiquespour expliquer un trait du pheacutenotype [vHY04] Parmi ces facteurs geacuteneacutetiques certains ont des rocirclesmodulateurs parfois indirects sur le pheacutenotype De plus le pheacutenotype associeacute agrave une maladie peut reacutesulterde la co-occurence complexe de nombreux traits ou signes cliniques (crsquoest notamment le cas du syndrome

meacutetabolique [Mau06]) Dans ce cas lrsquoapparition de chaque signe clinique composant le pheacutenotype peutecirctre associeacutee agrave de multiples facteurs drsquoorigine geacuteneacutetique chacun soumis agrave lrsquointeraction drsquoautres facteursgeacuteneacutetiques mais eacutegalement agrave celle de facteurs environnementaux et comportementaux

La caracteacuterisation des relations geacutenotypendashpheacutenotype constitue lrsquoun des enjeux majeurs de la geacutenomiqueEn effet son objectif ne se limite pas agrave lrsquoeacutetude du geacutenome comme entiteacute isoleacutee mais srsquoeacutetend agrave lrsquoeacuteluci-dation des relations complexes qui existent entre la seacutequence et la structure du mateacuteriel geacuteneacutetique et ledeacuteploiement des fonctions des moleacutecules biologiques dans la cellule et lrsquoorganisme

14 Les sources de donneacutees et les vocabulaires controcircleacutes relatifs aux relations geacutenotypendashpheacutenotype

Nous distinguons ici deux cateacutegories de sources de donneacutees reacutepertoriant des relations geacutenotypendashpheacutenotype Premiegraverement des sources constitueacutees sur la base de publications scientifiques rapportant desrelations geacutenotypendashpheacutenotype et deuxiegravemement des sources regroupant des jeux de donneacutees brutes quiont permis de deacuteriver de telles relations Les deux sources eacutevoqueacutees ci-dessous illustrent respectivementces deux cateacutegories

OMIM La base de donneacutees OMIM6 (Online Mendelian Inheritance in Man) regroupe de nombreusesdonneacutees sur les relations geacutenotypendashpheacutenotype mises en eacutevidence dans le cadre de lrsquoeacutetude des maladiesgeacuteneacutetiques La plupart des entreacutees drsquoOMIM deacutecrivent soit un gegravene et deacutetaillent alors son implicationdans une ou plusieurs maladies soit une maladie et deacutetaillent les rocircles respectifs dans celle-ci de un ouplusieurs gegravenes Le contenu de cette base de donneacutees est relativement peu structureacute puisque ses entreacutees se

6httpwwwncbinlmnihgovomim

14 Chapitre 1 Contexte biologique et applicatif

composent de textes courts en langage naturel reacutepartis en diffeacuterentes cateacutegories (entre autres signes clin-iques mode de transmission explication moleacuteculaire correacutelations geacutenotypendashpheacutenotype) OMIM srsquoap-puie sur les publications scientifiques deacutecrivant ces associations et reacutesulte drsquoun travail de collecte initieacutedans les anneacutees 60 drsquoabord sous la forme drsquoun catalogue papier [McK98]

dbGaP Une source de donneacutees apparue plus reacutecemment est dbGaP7(database of Genotype and Pheno-

type) dont lrsquoobjectif est le regroupement et le partage de jeux de donneacutees reacutecolteacutes pour mettre en eacutevidencedes associations geacutenotypendashpheacutenotype [MFJ+07]

Une limite actuelle de ces ressources est la faible structuration des donneacutees et notamment celle destermes utiliseacutes pour deacutecrire la notion complexe de pheacutenotype En effet la description drsquoun pheacutenotype estconstruite sur des observations soumises agrave la subjectiviteacute de lrsquoobservateur Lrsquoun des objectifs de dbGaPest de reacuteduire ce biais gracircce agrave la mise agrave disposition des donneacutees brutes dont sont issues les descriptionsdes pheacutenotypes De faccedilon compleacutementaire une maniegravere drsquohomogeacuteneacuteiser la description de pheacutenotypes estde proposer un vocabulaire de reacutefeacuterence (ou vocabulaire controcircleacute) dont les termes pourront ecirctre utiliseacuteset composeacutes pour deacutecrire de faccedilon structureacutee un pheacutenotype Suivant cet objectif diffeacuterents groupes derecherche srsquoemploient agrave construire des vocabulaires plus ou moins consensuels pour permettre une de-scription homogegravene des pheacutenotypes Crsquoest par exemple le cas des vocabulaires controcircleacutes PATO8 Mam-

malian Phenotype9 ou Plant Trait10

7httpwwwncbinlmnihgovsitesentrezdb=gap8httpbioontologyorgwikiindexphpPATOMain_Page9httpwwwinformaticsjaxorgsearchesMP_formshtml

10httpwwwgrameneorgplant_ontology

2 Les variations geacutenomiques 15

2 Les variations geacutenomiques

Au sein drsquoune mecircme espegravece le geacutenome preacutesente de grandes similitudes crsquoest pourquoi on parle parexemple du geacutenome humain ou du geacutenome de la mouche agrave fruit (Drosophila melanogaster) Cepen-dant chaque ecirctre humain preacutesente une version unique de ce geacutenome humain11 Pour donner un ordre degrandeur certains auteurs estiment agrave 999 le taux de nucleacuteotides12 similaires parmi les 32 milliardsqui composent le geacutenome humain ce qui signifie que le 01 restant suffit agrave deacuteterminer les diffeacuterencesentre les ecirctres humains [KN01]

21 Deacutefinitions

Les variations geacutenomiques sont des reacutegions du geacutenome clairement localiseacutees dont la composition ennucleacuteotides est susceptible de varier entre les individus drsquoune mecircme espegravece

La notion drsquoallegravele correspond agrave la version drsquoun gegravene et par extension agrave la version drsquoune variationgeacutenomique Les organismes diploiumldes comme lrsquoecirctre humain possegravedent deux versions diffeacuterentes dugeacutenome une premiegravere heacuteriteacutee de la megravere et une deuxiegraveme du pegravere Aussi un ecirctre humain est susceptiblede porter deux versions diffeacuterentes ie deux allegraveles diffeacuterents de chaque gegravene Si deux allegraveles distinctspeuvent ecirctre porteacutes par un mecircme individu de nombreuses autres versions peuvent ecirctre observeacutees chezdes individus distincts Les parties gauche et droite de la Figure 11 montrent deux allegraveles drsquoun mecircmegegravene dont la diffeacuterence repose sur la substitution drsquoun seul nucleacuteotide un A agrave gauche et un C agrave droite13

La majeure partie des variations geacutenomiques (plus de 90) se limite agrave la variation drsquoun seul nu-cleacuteotide entre deux allegraveles Ce type particulier de variation est appeleacute Single Nucleotide Polymorphism

en anglais ou SNP [KN01] ie au sens strict un substitution drsquoun seul nucleacuteotide dont la freacutequence estsupeacuterieure agrave 1 dans la population dans laquelle il est eacutetudieacute Dans cette thegravese nous ne ferons pas cettedistinction tregraves deacutependante de lrsquoeacutechantillon des individus observeacutes et appellerons variation geacutenomiqueou variant lrsquoensemble des variations inter-individuelles du geacutenome et SNP les variations ponctuelles sansprendre en consideacuteration leur freacutequence En revanche nous eacuteviterons le terme mutation heacuteriteacute de lrsquoeacutetudedes maladies geacuteneacutetiques et qui agrave ce titre correspond agrave une variation geacutenomique associeacutee agrave la survenuedrsquoune maladie

22 Les sources de donneacutees relatives aux variations geacutenomiques

Les meacutethodes de seacutequenccedilage et drsquohybridation moleacuteculaire permettent lrsquoacquisition agrave haut deacutebit dedonneacutees relatives aux variations inter-individuelles drsquoun geacutenome Les donneacutees reacutesultant de ce genre drsquo-analyse du geacutenome sont stockeacutees et parfois partageacutees dans diverses bases de donneacutees dont le contenu serecouvre partiellement Certaines de ces bases relatives agrave lrsquoecirctre humain sont preacutesenteacutees ci-apregraves

dbSNP La base de donneacutees dbSNP14 du NCBI contient plus de 9 millions de variations geacutenomiqueshumaines et constitue la plus grande source de variations disponible sur le Web [SWK+01] En plus decontenir les variations qui lui sont directement soumises dbSNP integravegre des donneacutees provenant drsquoautres

11Abstraction faite des clones et des vrais jumeaux12Pour ecirctre exact il srsquoagit de paires de nucleacuteotides puisque lrsquoADN est composeacute drsquoun double brin de nucleacuteotides compleacutemen-

taires13Pour ecirctre exact il srsquoagit de la substitution des paires de nucleacuteotides compleacutementaires A-T et C-G Par convention seul

le nucleacuteotide du brin sens est utiliseacute pour deacutecrire lrsquoallegravele Ce brin sens est celui dont la seacutequence est transcrite en ARNm puistraduite pour donner la proteacuteine

14httpwwwncbinlmnihgovprojectsSNP

16 Chapitre 1 Contexte biologique et applicatif

grandes bases de donneacutees de variations geacutenomiques comme les bases NCI CGAP-GAI15 HGVBase16HapMap17 Perlgen18 Une fois inteacutegreacutees agrave dbSNP certaines de ces bases sont ameneacutees agrave disparaicirctre Unavantage strateacutegique de dbSNP est de faire partie inteacutegrante des bases de donneacutees du NCBI (avec entreautres GenBank PubMed Gene Human Genome Project Data) et agrave ce titre drsquoecirctre interrogeable par lesystegraveme feacutedeacutereacute Entrez [Bax06] Lrsquoalimentation de dbSNP par des processus automatiques le manquedrsquoannotations manuelles des entreacutees rendent ineacutegales la qualiteacute et la validation des donneacutees qursquoelle con-tient [MZCC04] Il est important de noter que malgreacute son nom dbSNP ne reacutepertorie pas seulement lesSNP comme ils sont deacutefinis au sens strict ie la substitution drsquoun seul nucleacuteotide dont la freacutequence estsupeacuterieur agrave 1 En effet dbSNP reacutepertorie les polysubstitutions les insertionsdeacuteleacutetions et les variationsplus complexes quelque soit leur freacutequence drsquoobservation dans les populations

OMIM Comme deacutecrit dans la section 14 de ce chapitre OMIM contient des donneacutees relatives auxallegraveles de gegravenes impliqueacutes dans des maladies geacuteneacutetiques La description moleacuteculaire des diffeacuterencesentre allegraveles est ineacutegale selon les entreacutees De faccedilon encore assez rare certains allegraveles reacutepertorieacutes dansOMIM sont relieacutes agrave la variation geacutenomique correspondante reacutepertorieacutee par dbSNP

Les bases de donneacutees locus speacutecifiques De nombreuses bases de donneacutees locus speacutecifiques ie rel-atives uniquement aux variations drsquoun locus19 se sont deacuteveloppeacutees de faccedilon indeacutependante Celles-cicontiennent le plus souvent les reacutesultats drsquoinvestigations drsquoun groupe de recherche biomeacutedicale (voirdrsquoun consortium) speacutecialiseacute dans lrsquoeacutetude drsquoun gegravene drsquoune fonction biologique ou drsquoune maladie geacuteneacute-tique Les initiatives intituleacutees HGMD20 (Human Gene Mutation Database) et The Way Station21 tententde feacutedeacuterer et de rendre public le contenu de ces nombreuses bases speacutecialiseacutees [GSC+08]

23 Heacuteteacuterogeacuteneacuteiteacute des donneacutees relatives aux variations geacutenomiques

Une variation geacutenomique est localiseacutee sur une position preacutecise drsquoune seacutequence geacutenomique (ie

drsquoADN) Cependant lorsqursquoelle affecte une reacutegion transcrite la variation est propageacutee sur la seacutequencetranscrite (drsquoARN) et si elle affecte une reacutegion codante elle est propageacutee eacutegalement dans la proteacuteine(seacutequence drsquoacides amineacutes) Ceci est illustreacute dans la Figure 11 Les bases de donneacutees biologiquesrepreacutesentent indiffeacuteremment les variations sur lrsquoADN lrsquoARN ou les proteacuteines en fonction souvent dutype de seacutequence sur lequel elles ont eacuteteacute observeacutees De fait ces bases repreacutesentent aussi bien la variationoriginale que ses reacutepercussions En guise drsquoillustration la substitution drsquoune guanine en une thyminepeut ecirctre repreacutesenteacutee par GT dans une seacutequence drsquoADN GGCGTC dans le codon concerneacute gu danslrsquoARN correspondant GlyVal dans la proteacuteine traduite Drsquoune faccedilon similaire les repreacutesentations de laposition de la variation diffegraverent drsquoune base de donneacutees agrave lrsquoautre en fonction de la seacutequence de reacutefeacuterenceet de la version de cette seacutequence Pour exemple la substitution GT est localiseacutee agrave la position 11 087877 sur la seacutequence geacutenomique du chromosome 19 dont le numeacutero drsquoaccession dans la base de donneacuteesRefSeq22 est NC_000019 agrave la position 2 489 679 dans la seacutequence du contig NT_011295 et agrave la position565 dans la proteacuteine NP_000518 (sur le second nucleacuteotide du codon qui code pour le 565iegraveme acide am-ineacute) La mecircme substitution peut eacutegalement ecirctre localiseacutee agrave la position 26 747 dans une seacutequence associeacuteeau gegravene LDLR ou encore agrave la position 108 dans le onziegraveme exon de ce gegravene

15httpgaincinihgovcgap-gai16httpwwwhgvbaseg2porgindex17httpwwwhapmaporg18httpgenomeperlegencom19Un locus est une reacutegion deacutetermineacutee sur le geacutenome pouvant contenir aucun un ou plusieurs gegravenes20httpwwwhgmdcfacuk21httpwwwcentralmutationsorg22httpwwwncbinlmnihgovRefSeq

2 Les variations geacutenomiques 17

En plus des multiples reacutefeacuterentiels utiliseacutes pour deacutecrire les variations srsquoajoute lrsquoutilisation drsquoidentifi-ants (ou numeacuteros drsquoaccession) propres agrave chaque base de donneacutees Ainsi la variation deacutecrite preacuteceacutedem-ment est identifieacutee dans dbSNP comme le polymorphisme rs28942082 Une syntaxe geacuteneacuterique est recom-mandeacutee par la Socieacuteteacute pour lrsquoeacutetude des Variation du Geacutenome Humain23 (HGVS pour Human Genome

Variation Society) selon laquelle notre variation est deacutecrite par lrsquoexpression suivante

NC_0000198g11087877GgtT

ougrave NC_0000198 est le numeacutero drsquoaccession unique dans RefSeq de la seacutequence utiliseacutee pour positionnerle variant la lettre lsquogrsquo signifie que la seacutequence en question est geacutenomique par opposition agrave lsquoprsquo utiliseacuteepour les seacutequences proteacuteiques 11087877 correspond agrave la position dans la seacutequence de reacutefeacuterence et GgtTdeacutecrit la variation de nucleacuteotide observeacutee [dDA00] En pratique lrsquoutilisation de cette nomenclature estrestreinte agrave certains auteurs qui lrsquoutilisent pour deacutecrire les variations de faccedilon univoque dans le texte deleurs publications scientifiques Drsquoautres nomenclatures lieacutees au contexte historique de lrsquoobservation desvariations persistent agrave la fois dans la litteacuterature et les bases de donneacutees Par exemple notre variant estpreacutesenteacute dans OMIM comme la variation FH NAPLES ou ldquoLDLR Gly544Valrdquo crsquoest agrave dire selon desdescriptions associeacutees aux circonstances de sa premiegravere observation

Enfin les bases de donneacutees priveacutees ou les bases de donneacutees locus speacutecifiques utilisent encore drsquoautresnotations dites non-conventionnelles qui viennent grossir le nombre de descriptions possibles pour unemecircme variation La Figure 12 illustre les nombreuses faccedilons de deacutesigner une variation geacutenomique dansles bases de donneacutees publiques et priveacutees

c

d

b

a

NP_000518pG564V

CCDS122541c1694GgtT

NM_0005272c1787GgtT

NT_0000198g24897679GgtT

Chr1911087877 GT

Chr1911087877minus11087877 GT

nonminusconventionellesNotations

Syntaxe HGVS

au genomeminusbrowserSyntaxe similaire

Identifiants de basesde donneacutees publiques

LDLR11EXON108Thetero

LDLR Gly564Val

rldl11108exonGT

LDLR Gly544Val

0014 FH NAPLES (dans OMIM)

rs28942082 (dans dbSNP)

PA123456 (dans PharmGKB)

F 12 ndash Diverses descriptions ou reacutefeacuterences pour une mecircme variation geacutenomique

Lrsquoune des raisons expliquant lrsquoheacuteteacuterogeacuteneacuteiteacute de ces descriptions est leur origine (1) certains pro-jets de seacutequenccedilage identifient de faccedilon exhaustive les zones variables drsquoun geacutenome ou de lrsquoune de sesportions (2) tandis que drsquoautres eacutetudes plus cibleacutees identifient ponctuellement des mutations geacuteneacutetiquesie des variations eacutetroitement associeacutees agrave la survenue drsquoune pathologie [Bar02] Lrsquoidentification de mu-tations geacuteneacutetiques a deacutebuteacute preacutealablement agrave lrsquoeacutemergence des meacutethodes de seacutequenccedilage et a abouti agrave laconstitution de nombreuses bases de donneacutees speacutecialiseacutees et riches dont le spectre se limite aux mutationsassocieacutees agrave un locus ou une maladie

Lrsquoeacutevaluation preacutecise du recouvrement des contenus des bases de donneacutees de variations geacutenomiquesest crucial dans le cadre du deacuteveloppement de diagnostics geacuteneacutetiques et de lrsquoexploration du variome (ie

23httpwwwhgvsorgrechtml

18 Chapitre 1 Contexte biologique et applicatif

lrsquoensemble des variations du geacutenome humain) [dDP03 RKC06 Spe08] Cette tacircche est rendue partic-uliegraverement deacutelicate en raison du nombre important de descriptions diffeacuterentes et pourtant eacutequivalentes

24 Les haplotypes

Un haplotype est un ensemble drsquoallegraveles de SNP (et eacuteventuellement de gegravenes) voisins transmis con-jointement agrave travers les geacuteneacuterations Les haplotypes sont des constructions statistiques eacutetablies sur unepopulation donneacutee et obtenues par lrsquoestimation des deacuteseacutequilibres de liaison entre les allegraveles de SNPvoisins Bien qursquoelles soient artificielles ces constructions reflegravetent la reacutealiteacute biologique selon laquelle lemateacuteriel geacuteneacutetique est transmis drsquoune geacuteneacuteration agrave lrsquoautre par blocs de seacutequences geacutenomiques[Con05]Ainsi les variations geacutenomiques preacutesentes sur un mecircme bloc preacutesentent des valeurs qui sont lieacutees lesunes aux autres au fil des geacuteneacuterations En drsquoautres termes on nrsquoobserve pas une distribution aleacuteatoiredes valeurs prises par les allegraveles au sein de ces blocs de seacutequences geacutenomiques mais au contraire unnombre fini de combinaisons de ces valeurs Partant de ce principe ces blocs sont reconstruits agrave partir delrsquoobservation dans une population de groupes drsquoallegraveles associeacutes pour des variations qui sont physique-ment proches sur une seacutequence drsquoADN La Figure 13 illustre la notion drsquohaplotype et comment ils sontcomposeacutes agrave partir des allegraveles preacutesenteacutes par des SNP voisins

F 13 ndash Haplotypes tag-SNP et leur composition agrave partir des allegraveles de SNP voisins sur diffeacuterentesversions drsquoun mecircme chromosome Source http wwwhapmaporg

Le fait qursquoun haplotype soit ainsi composeacute drsquoun ensemble associeacute drsquoallegraveles rend possible la distinc-tion de certains allegraveles particuliers dont le geacutenotypage suffit agrave deacuteterminer les allegraveles preacutesenteacutes par le blocde variations impliqueacutees dans lrsquohaplotype Des outils statistiques permettent drsquoidentifier ces SNP parti-culiers appeleacutes tag-SNP qui reacutesument au mieux la composition drsquoun haplotype et de le distinguer desautres haplotypes observeacutes sur un mecircme bloc Des exemples de tag-SNP sont repreacutesenteacutes Figure 13

HapMap est un projet de cartographie des haplotypes humains agrave partir du geacutenotypage de variationsgeacutenomiques dans 5 populations distinctes [Con03] Les variations observeacutees ainsi que leur freacutequencedrsquoobservation sont disponibles dans la base de donneacutees associeacutee au projet24 Ces donneacutees sont util-iseacutees pour construire les haplotypes et identifier les tag-SNP agrave lrsquoaide par exemple de lrsquooutil HaploView

[BFMD05]

24httpwwwhapmaporg

2 Les variations geacutenomiques 19

La notion drsquohaplotype est freacutequemment utiliseacutee pour reacuteduire le nombre de variations geacutenomiques agraveanalyser dans des eacutetudes (notamment sur les relations geacutenotypendashpheacutenotype) qui srsquointeacuteressent aux varia-tions de larges portions du geacutenome En effet lrsquoidentification et le geacutenotypage des seuls tag-SNP permet-tent de repreacutesenter les variations de blocs complets du geacutenome et ainsi de reacuteduire le nombre de variationsgeacutenomiques agrave analyser Lrsquoallegravele preacutesenteacute par chaque variation membre drsquoun haplotype peut par la suiteecirctre deacuteduit agrave partir de lrsquoallegravele des tag-SNP et de la composition des haplotypes

20 Chapitre 1 Contexte biologique et applicatif

3 La pharmacogeacutenomique

La reacuteponse agrave un traitement meacutedicamenteux est un pheacutenotype particulier qui lui aussi est soumis agravelrsquoinfluence des facteurs geacuteneacutetiques La pharmacogeacutenomique srsquoattache agrave eacutetudier ces facteurs geacuteneacutetiquesparticuliers et la faccedilon avec laquelle ils influencent la reacuteponse aux meacutedicaments

31 Deacutefinition

La pharmacogeacutenomique est lrsquoeacutetude de lrsquoensemble des gegravenes ayant une influence sur la pharmacolo-gie elle srsquointeacuteresse notamment aux manifestations des variations geacutenomiques de ces gegravenes agrave lrsquointeractionde ces variations dans la production drsquoun pheacutenotype et agrave lrsquoinfluence drsquoun tel pheacutenotype sur la reacuteponse agraveun meacutedicament [AK02] Scheacutematiquement la pharmacogeacutenomique peut ecirctre repreacutesenteacutee comme lrsquoeacutetudedes relations ternaires existant entre un traitement meacutedicamenteux un geacutenotype et un pheacutenotype (Fig-ure 4) Selon cette repreacutesentation il est possible de consideacuterer le traitement meacutedicamenteux comme unfacteur exteacuterieur venant influencer la relation geacutenotypendashpheacutenotype

Lrsquoideacutee selon laquelle les gegravenes influencent la reacuteponse aux meacutedicaments date des anneacutees 50 durantlesquelles il fut observeacute que des reacuteponses particuliegraveres aux meacutedicaments pouvaient ecirctre transmises au seindrsquoune mecircme famille ou eacutetaient plus freacutequentes au sein de certaines ethnies Depuis des eacutetudes statistiquesfamiliales et biochimiques ont renforceacute cette hypothegravese [ER04] Cependant crsquoest seulement en 1988 quelrsquoinfluence drsquoune variation dans la seacutequence drsquoADN drsquoun gegravene sur le meacutetabolisme drsquoun meacutedicament aeacuteteacute mise en eacutevidence [GSK+88] De nombreuses variations geacutenomiques ont par la suite eacuteteacute isoleacutees etassocieacutees agrave des effets diffeacuterents drsquoun mecircme meacutedicament La faciliteacute grandissante agrave caracteacuteriser les vari-ations geacutenomiques inter-individuelles stimule lrsquoinvestigation de la dimension geacuteneacutetique dans les essaiscliniques des meacutedicaments Certains gegravenes impliqueacutes dans les principales voies biologiques de transportou drsquoeacutelimination des meacutedicaments sont plus particuliegraverement analyseacutes

Suivant cette eacutevolution historique lrsquoeacutetude initiale des caractegraveres heacutereacuteditaires associeacutes agrave la pharma-cologie fut appeleacutee pharmacogeacuteneacutetique Lrsquoeacutemergence de la geacutenomique a conduit agrave lrsquoapparition du con-cept de pharmacogeacutenomique avec lrsquoideacutee que la geacutenomique offre la possibiliteacute drsquoeacutetudier lrsquoorigine et lesconseacutequences des caractegraveres heacutereacuteditaires au niveau moleacuteculaire

Un exemple drsquointeraction pharmacogeacutenomique deacutecrite par Desmeules et al [DGDM91] et Gascheet al [GDF+04] est lrsquoinfluence des variations du gegravene CYP2D6 dans la reacuteponse agrave un traitement decodeacuteine La codeacuteine est un opiaceacute prescrit entre autres pour son pouvoir analgeacutesique La codeacuteine estphysiologiquement meacutetaboliseacutee dans le foie en morphine responsable de son effet analgeacutesique Il ex-iste plusieurs versions fonctionnelles du gegravene CYP2D6 dont les produits agissent diffeacuteremment sur latransformation de codeacuteine en morphine et permettent de distinguer plusieurs cateacutegories drsquoindividus (5)

ndash les meacutetaboliseurs lents porteurs de variants agrave activiteacute faible par exemple Chr22 40856638CgtTet Chr22 40854891GgtA

ndash les meacutetaboliseurs rapides porteurs de variants agrave activiteacute normale ou forte Chr22 40853887CgtTet les versions consideacutereacutees normales des variations associeacutees

ndash les meacutetaboliseurs ultra-rapides porteurs de copies multiples de variants agrave activiteacute normale ouforte)

Les meacutetaboliseurs lents sont incapables de meacutetaboliser efficacement la codeacuteine en morphine et enconseacutequence ne preacutesentent pas lrsquoeffet analgeacutesique attendu Les meacutetaboliseurs ultra-rapides quant agrave euxmeacutetabolisent la codeacuteine avec une efficaciteacute accrue qui entraicircne une intoxication agrave la morphine

En pharmacogeacutenomique le pheacutenotype est eacutegalement deacutependant de la dose de meacutedicament admin-istreacutee Ainsi suivant notre exemple une dose plus eacuteleveacutee de codeacuteine peut entraicircner un effet analgeacutesiquechez les meacutetaboliseurs lents et un effet toxique chez les meacutetaboliseurs rapides De nombreux exemplesdrsquointeractions de ce type peuvent ecirctre trouveacutes dans lrsquoouvrage Pharmacogenetics de Weber [Web97]

3 La pharmacogeacutenomique 21

Certains des enjeux meacutedicaux et industriels de la pharmacogeacutenomique ont eacuteteacute abordeacutes dans lrsquoin-troduction de cette thegravese Les reacutefeacuterences suivantes [Flo05 NMG05 WMF+08] preacutecisent ces enjeux etpreacutesentent les perspectives actuelles de la pharmacogeacutenomique

32 Les sources de donneacutees relatives agrave la pharmacogeacutenomique

OMIM Les entreacutees de la base de donneacutees OMIM contiennent certaines donneacutees pharmacogeacutenomiquesEn effet dans OMIM les reacuteactions adverses agrave des meacutedicaments qui ont une origine geacuteneacutetique sontconsideacutereacutees au mecircme titre que des maladies geacuteneacutetiques classiques

PharmGKB PharmGKB25 (PharmacoGenomics Knowledge Base) est la principale source de don-neacutees publique pour la pharmacogeacutenomique [HBWCH+08] PharmGKB reacutepertorie tout drsquoabord des don-neacutees sur les relations entre meacutedicament pheacutenotype et gegravenes donneacutees qui sont extraites manuellementde la litteacuterature De plus PharmGKB contient des donneacutees sur les variations geacutenomiques les reacuteseauxmeacutetaboliques impliqueacutes dans ces relations et des jeux de donneacutees reacuteelles mecirclant les donneacutees cliniqueset geacuteneacutetiques de patients qui illustrent des eacuteleacutements de connaissance pharmacogeacutenomique A ce titrePharmGKB peut ecirctre consideacutereacutee comme une source de donneacutee particuliegravere de variations geacutenomiques etde relations geacutenotypendashpheacutenotype Une partie des variations geacutenomiques reacutepertorieacutees dans PharmGKBest relieacutee aux variations correspondantes dans dbSNP mais un nombre eacutegalement important de celles-cisont soumises directement agrave PharmGKB et nrsquoont pas de correspondant dans les autres bases de donneacutees

F 14 ndash Repreacutesentation originale du scheacutema repreacutesentant les diffeacuterentes cateacutegories (CO PD PK FAGN) associeacutees aux donneacutees de PharmGKB et leurs principales associations (doubles flegraveches noires)Source http wwwpharmgkborg

Le scheacutema figurant sur la page drsquoaccueil de PharmGKB et reproduit Figure 14 illustre assez bienla faccedilon selon laquelle sont associeacutees entre elles les donneacutees de PharmGKB et leur organisation endiffeacuterentes cateacutegories

ndash CO manifestations cliniques ou en anglais Clinical Outcomendash PD Pharmacodynamique et reacuteponse au meacutedicament en anglais Pharmacodynamics and Drug

responsesndash PK Pharmacocineacutetique en anglais PharmacoKinetics

25httpwwwpharmgkborg

22 Chapitre 1 Contexte biologique et applicatif

ndash FA Tests fonctionnels agrave lrsquoeacutechelle moleacuteculaire et cellulaire en anglais molecular and cellular

Functional Assaysndash GN Geacutenotype en anglais GenotypePharmGKB contenait en janvier 2008 des relations manuellement annoteacutees entre plus de 600 gegravenes

porteurs de variations 450 maladies et 500 meacutedicaments [HBWCH+08] Lrsquoameacutelioration continue desannotations relatives aux reacuteseaux meacutetaboliques lrsquoenrichissement de celles relatives aux variations geacuteno-miques la mise en correspondance des variations geacutenomiques reacutepertorieacutees avec celles drsquoautres sources(dbSNP par exemple) et le deacuteveloppement de nouvelles campagnes drsquoinvestigations cliniques pour al-imenter les jeux de donneacutees et lrsquoeacutetat des connaissances [ORT08] font de PharmGKB une source quifeacutedegravere et stimule la recherche en pharmacogeacutenomique

4 Inteacuterecirct de lrsquoutilisation de connaissances en pharmacogeacutenomique

Les initiateurs de PharmGKB preacutevoyaient agrave lrsquoorigine du projet la constitution non pas drsquoune basede donneacutees relationnelle mais drsquoune base de connaissances srsquoappuyant sur un langage de repreacutesentationdes connaissances et associeacutee agrave des meacutecanismes de raisonnement (comme nous le preacutesentons chapitre2 section 23) [ORS+02] Face aux difficulteacutes de mise en œuvre drsquoune telle approche une architecturerelationnelle plus classique a finalement eacuteteacute adopteacutee Nous pensons qursquoune approche agrave base de con-naissances comme celle initialement preacutevue pour PharmGKB preacutesente un inteacuterecirct particulier pour cedomaine

Lrsquoeacutetat des connaissances en pharmacogeacutenomique devrait beacuteneacuteficier des donneacutees issues de lrsquoexplo-ration du geacutenome En effet des masses de donneacutees pertinentes pour ce domaine sont disponibles reacutesul-tantes de lrsquoeacutetude des variations geacutenomique des relations geacutenotypendashpheacutenotype ou encore de la pharma-cologie (voir par exemple les sources de donneacutees preacutesenteacutees dans les diffeacuterentes sections de ce chapitre)Cependant lrsquointeraction entre ces sous-domaines nrsquoa pas forcement eacutetait consideacutereacutee lors de leur explo-ration ou de la constitution des sources de donneacutees associeacutees Ainsi il reste deacutelicat drsquoanalyser des reacutesul-tats drsquoeacutetudes pharmacogeacutenomiques en prenant en consideacuteration simultaneacutement les donneacutees associeacutees agravechacun de ces sous-domaines

De plus les meacutethodes drsquoanalyses les plus utiliseacutees dans le cadre de la pharmacogeacutenomique demeureles meacutethodes statistiques classiquement utiliseacutes pour les essais cliniques (les tests de correacutelation de reacute-gression le deacuteseacutequilibre de liaison par exemple [HJ02]) Ces derniers preacutesentent des inteacuterecircts certainsmais ne permettent pas toujours drsquoappreacutecier ou drsquoexplorer les larges volumes de donneacutees interconnecteacuteestels que les bases de donneacutees biologiques ou les reacutesultats drsquoune eacutetude incluant le geacutenotypage de lrsquoensem-ble du geacutenome drsquoun panel de patient [YHTL08]

Lrsquoun des deacutefis de la pharmacogeacutenomique est justement de prendre en consideacuteration de larges vol-umes de donneacutees issues de diffeacuterents sous-domaines speacutecialiseacutes et interconnecteacutes pour leur associer unsens [AK02] Gaines titre lrsquoun de ses article par lrsquoaffirmation imageacutee selon laquelle une once de con-

naissances vaut mieux que des tonnes de donneacutees [Gai89] Le travail preacutesenteacute dans cette thegravese srsquoinscritdans cette ideacutee et srsquoappuie sur lrsquohypothegravese que la pharmacogeacutenomique et plus geacuteneacuteralement la biolo-gie moleacuteculaire peuvent tirer parti des meacutethodes de repreacutesentation des connaissances et drsquoextractionde connaissances Un point commun agrave ces deux meacutethodes est en effet de permettre la deacutecouverte deconnaissances implicites voire nouvelles

Chapitre 2

Etat de lrsquoart

Ce chapitre preacutesente en section 1 le processus drsquoExtraction de Connaissances agrave partir de Bases deDonneacutees () puis en section 2 deux systegravemes de repreacutesentation des connaissances en rapport avecles travaux meneacutes dans cette thegravese Les sections 3 et 4 preacutesente lrsquoeacutetat de lrsquoart des domaines concerneacutespar les contributions de cette thegravese premiegraverement lrsquoutilisation drsquoune repreacutesentation des connaissancescodeacutee sous la forme drsquoune ontologie pour guider lrsquointeacutegration de donneacutees (section 3) secondement lanotion drsquoExtraction de Connaissances guideacutee par les Connaissances du Domaine ()

1 Extraction de Connaissances agrave partir de Bases de Donneacutees ndash

11 Motivation et objectifs

LrsquoExtraction de Connaissances agrave partir des Bases de Donneacutees () est deacutefinie par Frawley et al

comme le processus non trivial drsquoidentification de reacutegulariteacutes (ou drsquoirreacutegulariteacutes) valides nouvelles po-tentiellement utiles et porteuses de sens au sein des donneacutees [FPSM91] Concregravetement il srsquoagit delrsquoutilisation de meacutethodes (souvent simplement drsquoalgorithmes) de fouille de donneacutees associeacutees agrave unepreacuteparation des donneacutees preacutealables et agrave une interpreacutetation des reacutesultats de fouille afin drsquoextraire desconnaissances pertinentes au regard des objectifs viseacutes par lrsquoanalyste Nous distinguons ainsi

(i) lrsquoensemble du processus drsquo qui inclut la preacuteparation des donneacutees et lrsquointerpreacutetation des reacutegu-lariteacutes extraites sous forme de connaissances et

(ii) lrsquoeacutetape particuliegravere de fouille de donneacutees dont le but unique et lrsquoidentification de reacutegulariteacutes dansles donneacutees brutes

La mise en œuvre de meacutethodes de fouille de donneacutees de faccedilon ldquoaveuglerdquo ie sans eacutetape de preacuteparationapproprieacutee des donneacutees ni drsquointerpreacutetation experte des reacutegulariteacutes extraites est une utilisation dangereuse(compareacutee dans la litteacuterature agrave une ldquopecirccherdquo ou une ldquodraguerdquo) qui peut mener agrave lrsquoextraction de reacutegulariteacutesinvalides porteuses drsquoerreurs et ainsi agrave des interpreacutetations inexactes

Lrsquo est un processus comprenant plusieurs eacutetapes dont certaines impliquent une prise de deacutecisionde lrsquoutilisateur ie lrsquoanalyste qui conduit le processus La Figure 21 preacutesenteacutee dans lrsquointroduction de lathegravese deacutetaille le deacutecoupage classique du processus drsquo en plusieurs eacutetapes Du fait que la distinction etlrsquoordre des opeacuterations de preacuteparation de donneacutees peut fortement varier nous proposons dans la Figure 21une repreacutesentation simplifieacutee du processus centreacutee sur lrsquoeacutetape de fouille de donneacutees ougrave nous distinguonsune eacutetape preacutealable globale de preacuteparation des donneacutees et une eacutetape finale drsquointerpreacutetation Le rocircle dechacune de ces trois eacutetapes ainsi que les opeacuterations auxquelles elles font appel sont deacutecrits dans lessections suivantes

23

24 Chapitre 2 Etat de lrsquoart

(ii) Fouille

Analyste

Uniteacute de

Base de donneacuteesheacuteteacuterogegravenes

(i) Preacuteparation

des donneacutees de donneacutees(iii)Interpreacutetation connaissance

F 21 ndash Repreacutesentation simplifieacutee du processus drsquo

12 Preacuteparation des donneacutees

La preacuteparation des donneacutees (ou preprocessing en anglais) est deacutefinie par lrsquoensemble des opeacuterationsqui permettent de convertir les donneacutees brutes en donneacutees preacutepareacutees et adapteacutees agrave la meacutethode de fouilleenvisageacutee Lrsquointeacuterecirct principal de cette eacutetape est drsquoameacuteliorer la qualiteacute des donneacutees (tout au moins en vuede la meacutethode de fouille choisie) et ainsi drsquoameacuteliorer lrsquoefficaciteacute du processus drsquo Les opeacuterationsde preacuteparation peuvent ecirctre de diffeacuterents types lrsquointeacutegration des donneacutees le nettoyage des donneacutees lareacuteduction des donneacutees la transformation des donneacutees Lrsquoordre de ces opeacuterations varie souvent selon lastrateacutegie drsquo adopteacutee De la mecircme faccedilon il nrsquoest pas toujours eacutevident de faire clairement la distinc-tion entre les diffeacuterentes opeacuterations qui sont parfois entrelaceacutees ou combineacutees Par exemple lrsquoopeacuterationdrsquointeacutegration de donneacutees neacutecessite souvent une eacutetape preacutealable de nettoyage la reacuteduction des donneacuteespeut consister en leur transformation en un format particulier aussi le nettoyage peut conduire au finalagrave une reacuteduction de celles-ci

Une bonne description de lrsquoimportance de ces eacutetapes dans un processus drsquo est le chapitre deBrachman et Anand [BA96] du livre de Fayyad et al [FPSSU96] Un compleacutement sur la mise en œuvrede ces opeacuterations est le chapitre 3 du livre de Han et Kamber [HK01]

Les sections suivantes deacutetaillent quatre types drsquoopeacuterations relatives agrave la preacuteparation des donneacutees

121 Inteacutegration de donneacutees

Un systegraveme drsquointeacutegration de donneacutees a pour rocircle drsquooffrir agrave un utilisateur ou agrave une machine un accegravesuniforme et transparent agrave un ensemble heacuteteacuterogegravene de donneacutees Lrsquointeacutegration de donneacutees est alors leprocessus qui permet agrave un tel systegraveme lrsquoaccegraves homogegravene agrave un ensemble de donneacutees aux formats et auxlocalisations heacuteteacuterogegravenes

Crsquoest une eacutetape preacuteliminaire neacutecessaire agrave la fouille de donneacutees En effet si les donneacutees agrave inclure danslrsquoanalyse sont reacuteparties dans des sources distinctes il est neacutecessaire de les inteacutegrer preacutealablement afinque lrsquoalgorithme de fouille puisse les prendre en compte simultaneacutement

Lrsquointeacutegration de donneacutees est drsquoautant plus inteacuteressante que ses applications deacutepassent le cadre delrsquo Ce processus est utiliseacute eacutegalement dans le cadre de la recherche drsquoinformation lrsquoinformatique deacute-cisionnelle et lrsquoeacutetude des flux drsquoinformation (ou workflow en anglais) et trouve des applications dans denombreux domaines ougrave lrsquoanalyse des nombreuses donneacutees collecteacutees preacutesente un inteacuterecirct la finance lesassurances les systegravemes de surveillance le commerce la meacutedecine en sont des exemples En bioinforma-tique lrsquointeacutegration de donneacutees est une probleacutematique de recherche active dont un des but est notammentde permettre lrsquoutilisation conjointe des nombreuses sources de donneacutees biologiques qui ont vu le jour defaccedilon indeacutependante et sans concertation [GS08]

La section 3 de ce chapitre propose un eacutetat de lrsquoart sur les meacutethodes drsquointeacutegration de donneacutees etpreacutesente des solutions proposeacutees dans le cadre de la bioinformatique En effet la contribution preacutesenteacutee

1 Extraction de Connaissances agrave partir de Bases de Donneacutees ndash 25

chapitre 3 est preacuteciseacutement une proposition et lrsquoapplication drsquoune meacutethode drsquointeacutegration opeacuterationnellefondeacutee sur des ontologies originales dans le domaine des variations geacutenomiques et de la pharmaco-geacutenomique

122 Nettoyage des donneacutees

En pratique les donneacutees brutes sont souvent incomplegravetes bruiteacutees voire incoheacuterentes Lrsquoopeacuterationde nettoyage a pour but de remplacer les valeurs manquantes de filtrer le bruit (par exemple en eacuteliminantles cas extrecircmes) et de corriger les incoheacuterences [HK01]

Lrsquoefficaciteacute de certains algorithmes de fouille est tregraves sensibles aux valeurs manquantes Diffeacuterentesapproches peuvent ecirctre adopteacutees

ndash ignorer les tuples dans lesquels des valeurs manquent Cela peut srsquoaveacuterer probleacutematique lorsque lejeu de donneacutees initial est de petite taille

ndash remplacer les valeurs manquantes par une valeur particuliegravere par exemple ldquoUnknownrdquo ldquo rdquo Cettemeacutethode peut biaiser les reacutesultats des algorithmes de fouille qui pourront consideacuterer la valeurutiliseacutee par deacutefaut disons ldquoUnknownrdquo comme repreacutesentative drsquoun concept inteacuteressant

ndash remplacer les valeurs manquantes par une valeur arbitraire Ce peut ecirctre la moyenne des valeursdonneacutees agrave lrsquoattribut dans le jeu de donneacutees ou la moyenne drsquoautres attributs relatifs au tupleconsideacutereacute ou encore une valeur probable preacutedite par des meacutethodes drsquoinfeacuterence de reacutegressiondrsquoinduction sur la base drsquoautres donneacutees

Les donneacutees brutes et plus particuliegraverement celles mesureacutees expeacuterimentalement sont souvent ac-compagneacutees de bruit Tout un ensemble de meacutethodes de filtrage et de lissage peut ecirctre mis en œuvre pourdiminuer les effets de ce bruit

Les incoheacuterences dans les donneacutees peuvent ecirctre corrigeacutees par des meacutethodes de comparaison avec lessources drsquoorigine des donneacutees ou si elles existent par veacuterification des contraintes ou des deacutependancesconnues entre donneacutees

123 Reacuteduction des donneacutees

La reacuteduction de donneacutees vise agrave limiter la taille de la description des donneacutees en portant le moinspossible atteinte agrave lrsquointeacutegriteacute de lrsquoinformation qursquoelles contiennent Diverses motivations peuvent ameneragrave reacuteduire les donneacutees

ndash Certains algorithmes de fouilles de donneacutees produisent des reacutesultats particuliegraverement volumineuxet par conseacutequent compliqueacutes et longs agrave interpreacuteter La reacuteduction de donneacutees est une opeacuterationdeacutecisive dans un processus drsquo qui fait intervenir de tels algorithmes

ndash Drsquoautres algorithmes sont particuliegraverement gourmands en capaciteacute de calcul et peuvent en fonc-tion de la taille du jeu de donneacutees neacutecessiter des temps de calcul ou un espace meacutemoire incom-patibles avec les conditions expeacuterimentales (ie le temps et les machines disponibles)

ndash Certains jeux de donneacutees preacutesentent un deacuteseacutequilibre entre le nombre de tuples relativement faibleet le nombre de valeurs distinctes relativement eacuteleveacute que peuvent prendre les attributs associeacutesIl est possible drsquoimaginer le cas extrecircme ougrave un jeu de donneacutees ne contient que des attributs agravevaleurs nominales et que chaque tuple preacutesente une valeur diffeacuterente pour chaque attribut Dansce cas particulier les meacutethode de fouille ne pourront distinguer aucune reacutegulariteacute particuliegravere sanslrsquoutilisation drsquoune meacutethode exteacuterieure Des meacutethodes de reacuteduction peuvent ici permettre de reacuteduirela diversiteacute entre les attributs qui caracteacuterisent les tuples (en utilisant des valeurs plus geacuteneacuterales quiseront partageacutees par plusieurs tuples par exemple)

Les strateacutegies de reacuteduction de donneacutees incluent entre autres

26 Chapitre 2 Etat de lrsquoart

Lrsquoagreacutegation par cubes de donneacutees Ce type de meacutethode souvent appliqueacute aux entrepocircts de donneacuteesutilise des cubes de donneacutees qui permettent drsquoagreacuteger des donneacutees multidimensionnelles dans lecadre drsquoanalyses de type OLAP [AAD+96] Par exemple des donneacutees relatives aux ventes journal-iegraveres drsquoune chaicircne de grands magasins contenant des millions de transactions peuvent ecirctre agreacutegeacuteesen ventes mensuelles de certaines cateacutegories speacutecifiques de produits

La reacuteduction de dimension Ce type de reacuteduction consiste agrave encoder les donneacutees dans un format pluscompact entraicircnant ou non une perte drsquoinformation Par exemple lrsquoanalyse en composante prin-

cipale est une meacutethode utiliseacutee pour la reacuteduction de dimension qui applique des projections desdonneacutees initiales dans un espace de dimension infeacuterieure

La discreacutetisation Il srsquoagit drsquoun ensemble de meacutethodes utiliseacutees pour reacuteduire le nombre de valeurs quepeut prendre un attribut Certaines meacutethodes automatiques de discreacutetisation srsquoappliquent aux at-tributs numeacuteriques et continus qursquoelles partitionnent reacutecursivement selon un eacutechelonnage adapteacute aunombre etou agrave la reacutepartition des valeurs Ainsi lrsquoeacuteventail des valeurs que peut prendre un attributcomme la concentration drsquoune certaine substance pourra ecirctre diviseacute en plusieurs intervalles selonune construction drsquohistogramme Certaines meacutethodes manipulant les histogrammes permettent parexemple de construire iteacuterativement des histogrammes doteacutes drsquointervalles de plus en plus impor-tants permettant ainsi un ajustement de la discreacutetisation Ces meacutethodes ne peuvent pas srsquoappliqueraux attributs discrets ou nominaux quand leur valeurs ne sont pas ordonneacutees (exemples couleur

= rouge vert bleu ou allegravele observeacute = AA AT AC AG TT TC TG CC CG GG) Dansce cas il est cependant possible de construire manuellement un eacutechelonnage ou une hieacuterarchie desattributs avec lrsquoaide drsquoexperts du domaines etou de meacutethodes heuristiques [HF94]

La seacutelection La seacutelection de donneacutees a pour but drsquoidentifier des sous-ensembles reacuteduits de donneacuteessans en alteacuterer la repreacutesentation originale Il est possible de distinguer deux familles principales demeacutethodes de seacutelection de donneacutees [GE03 SIL05] ndash Les meacutethodes de filtrage qui la plupart du temps estiment un score drsquointeacuterecirct pour les attributs

du jeu de donneacutees qui permet de les classer et drsquoen supprimer les moins inteacuteressants avant deles soumettre agrave la fouille Lrsquoestimation du score peut ecirctre assureacutee agrave lrsquoaide de meacutethodes heuris-tiques qui se fondent sur des mesures de significativiteacute des attributs ou drsquoentropie comme parexemple le gain drsquoinformation [KJ97] Les meacutethodes de filtrage les plus eacutevolueacutees sont capa-bles drsquoidentifier les deacutependances entre attributs et drsquointroduire cette composante dans le calculdu score drsquointeacuterecirct (voir [YL04] pour un exemple) Le principal inconveacutenient de ces meacutethodesest qursquoelles sont indeacutependantes de la meacutethode de fouille utiliseacutee et ainsi qursquoelles conduisentagrave estimer lrsquointeacuterecirct des attributs selon des critegraveres diffeacuterents de ceux utiliseacutes par la meacutethode defouille

ndash Les meacutethodes enveloppantes et inteacutegreacutees (wrapper et embedded methods en anglais) quant agraveelles sont deacutependantes de la meacutethode de fouille consideacutereacutee De faccedilon simplifieacutee leur principerepose sur la constitution drsquoun ensemble fini de sous-ensembles de donneacutees qui seront cha-cun soumis agrave lrsquoalgorithme de fouille consideacutereacute Alors le reacutesultat de la fouille de chaque sous-ensemble de donneacutees est eacutevalueacute et compareacute aux autres afin de constituer de nouveaux sous-ensembles de donneacutees qui seront agrave leur tour testeacutes lors drsquoune nouvelle iteacuteration De faccedilon nonformelle ces meacutethodes peuvent ecirctre consideacutereacutees elles-mecircmes comme des meacutethodes de fouilleappliqueacutees agrave des reacutesultats partiels de la meacutethode de fouille consideacutereacutee Ces meacutethodes sont par-ticuliegraverement coucircteuses en calcul et le sont drsquoautant plus que le nombre drsquoattributs est eacuteleveacute etque la meacutethode de fouille consideacutereacutee demande elle-mecircme des ressources importantes de calculLes algorithmes geacuteneacutetiques sont par exemple utiliseacutes pour ce type de meacutethode de seacutelection dedonneacutees [SIL05]

Dans le chapitre 4 nous proposons une approche de seacutelection dont la particulariteacute est de tirer

1 Extraction de Connaissances agrave partir de Bases de Donneacutees ndash 27

beacuteneacutefice des connaissances du domaine disponibles

Les connaissances de lrsquoanalyste peuvent aussi guider manuellement la seacutelection des donneacutees Lasection 4 de lrsquoeacutetat de lrsquoart illustrera entre autres comment des connaissances formaliseacutees peuventecirctre utiliseacutees par lrsquoanalyste ou par des programmes en vue de la seacutelection des donneacutees A cestravaux encore peu abondants srsquoajoute la deuxiegraveme contribution de cette thegravese qui consiste agrave pro-poser une approche de seacutelection des donneacutees guideacutee par les connaissances du domaine (chapitre 4section 1)

124 Transformation des donneacutees

La transformation des donneacutees consiste en leur modification en une forme adapteacutee agrave la meacutethode defouille envisageacutee

Un premier exemple est la normalisation des donneacutees qui reacuteside en leur eacutechelonnage (scaling enanglais) sur diffeacuterents intervalles ou ensembles de valeurs comme de -10 agrave 10 de 00 agrave 10 ou 0 1ou encore sous-exprimeacute exprimeacute sur-exprimeacute

Un second exemple de transformation est la geacuteneacuteralisation qui srsquoappuyant sur une hieacuterarchie determes ou de concepts permet de remplacer les valeurs drsquoattributs par leurs parents dans la hieacuterarchiece qui permet souvent de restreindre le nombre de valeurs possibles pour le nouvel attribut Consid-eacuterons par exemple un attribut ldquointeraction avec un meacutedicamentrdquo associeacutee agrave une relation qui deacutecrit desvariations geacutenomiques et peut prendre comme valeur les types de meacutedicament avec lesquels la variationinteragit Les variations interagissant avec la codeacuteine ou avec la morphine preacutesentent la valeur ldquocodeacuteinerdquoou ldquomorphinerdquo pour cet attribut Si ces deux exemple de valeurs sont remplaceacutees par la valeur uniqueplus geacuteneacuterale ldquoopiaceacuterdquo selon une hieacuterarchie de termes les tuples (ie les variations) preacutesentant la valeurldquoopiaceacuterdquo pour cet attribut constitue un ensemble plus important que celles qui initialement avaient deuxvaleurs distinctes ldquocodeacuteinerdquo et ldquomorphinerdquo Cela peut permettre de reacuteduire les diffeacuterentes valeurs pos-sibles pour certains attributs Par contre cette geacuteneacuteralisation empecircche alors de distinguer les variants quiinteragissent avec la codeacuteine de ceux qui interagissent avec la morphine

Lrsquoagreacutegation est une transformation eacutegalement inteacuteressante lorsque les donneacutees peuvent ecirctre reacute-sumeacutees ou agreacutegeacutees pour ecirctre eacutetudieacutees dans une dimension diffeacuterente Par exemple le nombre de crisesdrsquoasthme drsquoun patient par semaine peut ecirctre agreacutegeacute pour ecirctre eacutetudieacute au niveau mensuel ou annuel

Le lissage qui revient agrave appliquer aux donneacutees une fonction drsquoapproximation dans lrsquoobjectif drsquoeacutelim-iner les pheacutenomegravenes locaux et de mettre en eacutevidence les caracteacuteristiques geacuteneacuterales de celle-ci ou encorela construction drsquoattributs sont drsquoautres exemples de transformation de donneacutees [HK01]

13 Fouille de donneacutees

La fouille de donneacutees est lrsquoeacutetape de lrsquo qui vise agrave extraire des reacutegulariteacutes (ou des irreacutegulariteacutes) delrsquoensemble de donneacutees preacutepareacutees Il existe de nombreuses meacutethodes de fouille diffeacuterentes Le choix dela meacutethode est deacuteterminant et se fait essentiellement en fonction de lrsquoobjectif viseacute par lrsquoanalyste

Les diffeacuterents objectifs (ou mining tasks en anglais) de la fouille sont [HK01] ndash La description de classes (ou concepts) qui permet la caracteacuterisation de classes ou la discrimination

entre diffeacuterentes classesndash La recherche drsquoassociations entre des attributs qui prennent des valeurs particuliegraveres de faccedilon

concomitantendash La classification et la preacutediction baseacutees sur la deacutefinition drsquoun modegravele agrave partir drsquoun jeu de donneacutees

drsquoapprentissagendash La construction de clusters qui regroupent les donneacutees en diffeacuterents groupes selon des mesures de

similariteacute

28 Chapitre 2 Etat de lrsquoart

ndash La deacutetection de cas extrecircmes reacuteveacutelant une forme drsquoirreacutegulariteacuteEn pharmacogeacutenomique par exemple les cliniciens sont inteacuteresseacutes par la deacutecouverte de facteurs

permettant la discrimination drsquoun groupe de patients reacuteagissant de faccedilon adverse agrave un traitement par rap-port agrave ceux pour qui aucune reacuteaction neacutefaste nrsquoest observeacutee Les biologistes plus directement inteacuteresseacutespar lrsquoeacutetude du processus moleacuteculaire des reacuteactions pharmacogeacutenomiques peuvent ecirctre inteacuteresseacutes par larecherche drsquoassociations entre par exemple un variant geacuteneacutetique la reacuteduction de lrsquoactiviteacute drsquoune en-zyme et la concentration eacuteleveacutee drsquoune moleacutecule dans le sang

Les meacutethodes de fouille de donneacutees sont souvent classifieacutees en fonction des divers objectifs exposeacutesci-dessus Il est eacutegalement possible de distinguer les meacutethodes numeacuteriques des meacutethodes symboliquesen fonction du type de donneacutees qursquoelles manipulent Cette distinction implique une diffeacuterence dans lesmodaliteacutes de repreacutesentation de manipulation et de comparaison des donneacutees et des reacutegulariteacutes reacutesul-tantes

ndash Les meacutethodes de fouille numeacuteriques comprennent entre autres les chaicircnes de Markov les reacuteseauxde neurones les K-plus proches voisins lrsquoanalyse en composante principale (ACP) les reacuteseauxbayeacutesiens les algorithmes geacuteneacutetiques

ndash Les meacutethodes de fouille symboliques comprennent entre autres lrsquoextraction de motifs freacutequentsla recherche de regravegles drsquoassociation lrsquoAnalyse de Concepts Formels ()

Une autre distinction est faite entre les meacutethodes dites superviseacutees et celles dites non-superviseacuteesUne meacutethode superviseacutee va proposer une classification des tuplesobjets drsquoun jeu de donneacutees en srsquoap-puyant sur un modegravele preacuteeacutetabli agrave partir drsquoune base drsquoexemples ou drsquoeacutechantillons de tuplesobjets seacutelec-tionneacutes au hasard Inversement une meacutethode non-superviseacutee va produire un modegravele sans apriori sur laseule information que lui apportent les tuplesobjets Dans ce cas la consideacuteration de nouveaux tuplesob-jets entraicircnera la mise agrave jour du modegravele

Lrsquoapprentissage est un domaine de recherche proche de la fouille de donneacutees utilisant des meacutethodessimilaires mais avec une eacutechelle et un objectif leacutegegraverement diffeacuterents puisque les travaux drsquoapprentissagene srsquointeacuteressent pas forceacutement aux larges volumes de donneacutees et que les reacutesultats obtenus sont destineacutesplus particuliegraverement agrave la reacutesolution de problegravemes et agrave la prise de deacutecision

Les sections suivantes preacutesentent trois meacutethodes de fouille de donneacutees symboliques qui extraient agravepartir de bases de donneacutees binaires soit un ensemble de concepts organiseacutes en un treillis (ie un ordre

partiel) soit des motifs freacutequents soit des regravegles drsquoassociation Ces meacutethodes sont justement utiliseacuteesdans le chapitre 4 de cette thegravese La construction de treillis est preacutesenteacutee dans la section suivante (131)et les extractions de motifs et la recherche de regravegles sont deacutecrites en la section 132 Enfin la recherchede regravegles drsquoassociation particuliegraveres dites Minimales Non-Redondantes est preacutesenteacutee section 133

131 La classification par construction de treillis

Certaines meacutethodes de fouille de donneacutees srsquoapparentent agrave une classification et analyse des corre-spondances binaires entre une classe drsquoobjets (ou individus) et une classe drsquoattributs (ou proprieacuteteacutes)informant ainsi pour chaque paire objet-attribut si lrsquoattribut est observeacute pour lrsquoobjet ou non [GVM93GW99] Les attributs sont des proprieacuteteacutes qui qualifient les objets soit par leur preacutesence ou leur ab-sence soit par une valeur qui a eacuteteacute discreacutetiseacutee sous forme de plusieurs variables binaires Ces variablessont regroupeacutees dans des tableaux binaires (eacutegalement appeleacutes bases de donneacutees binaires ou contexteformel) qui deacutecrivent les relations entre un ensemble drsquoobjets et un ensemble drsquoattributs ougrave par exemple(ij) = 1 deacutetermine que lrsquoobjet i preacutesente lrsquoattribut j Cette relation est alors mateacuterialiseacutee par unecroix ldquotimesrdquo dans le tableau binaire correspondant

LrsquoAnalyse de Concepts Formels () est une meacutethode drsquoanalyse de donneacutees fondeacutee sur les treillisde concepts (ou treillis de Galois) [GW99] Lrsquo a pour principe la transformation drsquoun contexte formel

1 Extraction de Connaissances agrave partir de Bases de Donneacutees ndash 29

G

MA B C

1 times times

2 times times

3 times

T 21 ndash Un premier exemple de contexte formel K

en un ensemble de concepts formels organiseacutes en un treillis Lrsquoadjectif formel souligne ici le fait que lescontextes et concepts sont manipuleacutes en tant qursquoentiteacutes matheacutematiques

Pour deacutefinir la notion de treillis il est neacutecessaire drsquointroduire au preacutealable les notions de borne

infeacuterieure et de borne supeacuterieure

Deacutefinition 21 Soit (Mle) un ordre partiel et A un sous-ensemble de M Une borne infeacuterieure de A est

un eacuteleacutement s de M tel que s le a foralla isin A Une borne supeacuterieure de A peut ecirctre deacutefinie dualement Srsquoil

existe un eacuteleacutement plus grand dans lrsquoensemble des bornes infeacuterieures celui-ci est lrsquoinfimum de A et noteacute

inf A ou andA dualement une borne supeacuterieure moindre est appeleacutee supremum et est noteacutee sup A ou orA

Si A = x y lrsquoinfimum inf A est eacutegalement noteacute x and y et le supremum sup A est eacutegalement noteacute x or y

Alors de faccedilon geacuteneacuterale un treillis est un ordre (B⊑) ougrave la relation ⊑ appeleacutee relation de subsomp-

tion deacutecrit un ordre partiel tel que chaque paire drsquoeacuteleacutement xy deB possegravede une borne supeacuterieure xory

et une borne infeacuterieure x and y

Deacutefinition 22 Un ordre B ≔ (B le) est un treillis si pour chaque paire drsquoeacuteleacutements x minus y il existe

toujours un infimum x and y et un supremum x or y B est un treillis complet si son infimum andX et son

supremum orX existent pour chaque sous-ensemble X deB Tout treillis completB a un plus petit eacuteleacutement

unique andB et un plus grand eacuteleacutement unique orB

Dans le cadre de lrsquo un treillis est construit agrave partir drsquoun contexte formel deacutefini comme suit

Deacutefinition 23 (contexte formel) Un contexte formel K(GMI) consiste en deux ensembles G et M

et en une relation binaire I sube G timesM entre G etM G est lrsquoensemble des objets etM lrsquoensemble des

attributs du contexte26 I est la relation drsquoincidence qui entre un objet g et un attribut m se note gIm ou

(gm) isin I

Comme lrsquoillustre le Tableau 21 un contexte formel est une base de donneacutees binaire qui peut ecirctresimplement repreacutesenteacutee par un ldquotableau de croixrdquo ie un tableau dans lequel les en-tecirctes de lignes cor-respondent aux noms drsquoobjets celles des colonnes aux noms drsquoattributs La preacutesence drsquoune croix aucroisement de la ligne i et de la colonne j signifie que lrsquoobjet i preacutesente lrsquoattribut j

La construction drsquoun treillis agrave partir drsquoun contexte formel se fonde sur la deacutefinition drsquoune fonctionduale particuliegravere qui permet drsquoassocier agrave nrsquoimporte quel sous-ensemble drsquoobjets un sous-ensemble drsquoat-tributs drsquoune part et drsquoautre part agrave nrsquoimporte quel sous-ensemble drsquoattributs un sous ensemble drsquoobjets

Deacutefinition 24 Pour un sous-ensemble quelconque drsquoobjets A sube G nous deacutefinissons

Aprime ≔ m isin M | forallg isin A (gm) isin I (21)

26Plus preacuteciseacutement nous devrions dire ldquoobjets formelsrdquo et ldquoattributs formelsrdquo

30 Chapitre 2 Etat de lrsquoart

qui repreacutesente lrsquoensemble des attributs communs aux objets de A Pour un sous-ensemble quelconque

drsquoattributs B sube M nous deacutefinissons de faccedilon similaire

Bprime ≔ g isin G | forallm isin B (gm) isin I (22)

qui repreacutesente lrsquoensemble des objets qui preacutesentent tous les attributs de B

La double utilisation de lrsquoopeacuterateur prime noteacute primeprime (prime 2G rarr 2M et prime 2M rarr 2G) constitue la connexion de

Galois Il peut ecirctre montreacute que lrsquoopeacuterateur primeprime 2G rarr 2G de mecircme que primeprime 2M rarr 2M sont des opeacuterateurs

de fermeture

Deacutefinition 25 (opeacuterateur de fermeture) Soit X X1 et X2 trois sous-ensembles de E (par exemple G ou

M) Un opeacuterateur de fermeture h est une fonction (i) monotone croissante ie X1 sube X2 rArr h(X1) sube h(X2)(ii) extensive ie X sube h(X) et (iii) idempotente ie h(X) = h[h(X)]

Alors un ensemble X de E est fermeacute si et seulement si X = h(X)

Deacutefinition 26 (concept formel) Un concept formel du contexte K(GMI) est une paire (A B) avec

A sube G B sube M et pour lequel la relation entre A et B est deacutecrite par lrsquoopeacuterateur prime tel que

Aprime = B et Bprime = A (23)

A est appeleacute lrsquoextension du concept (A B) et B est appeleacutee son intensionB(GMI) appeleacute lrsquoensemble

des parties de K est lrsquoensemble de tous les concepts formels du contexte K(GMI)

Les proprieacuteteacutes particuliegraveres de lrsquoopeacuterateur de fermeture primeprime permettent de relier agrave chaque concept leconcept fermeacute associeacute et permettent eacutegalement de deacutefinir une relation drsquoordre entre les concepts

Deacutefinition 27 Si (A1 B1) et (A2 B2) sont des concepts drsquoun contexte K(GMI) si A1 sube A2 (et donc

B2 sube B1) alors (A1 B1) est appeleacute le sous concept de (A2 B2) et (A2 B2) le super concept de (A1 B1)

Il en reacutesulte la relation drsquoordre partiel qui induit une hieacuterarchie entre ces deux concepts noteacute le

(A1 B1) le (A2 B2) (24)

Lrsquoensemble des parties (ie de tous les concepts) B(GMI) du contexte K organiseacute selon cet ordre et

noteacute B(GMI) est le treillis de concept (ou treillis de Galois) du contexte K

Un treillis peut ecirctre repreacutesenteacute de diffeacuterentes faccedilons plus ou moins reacuteduites Un mode de repreacutesentationrelativement riche inclut lrsquoensemble des concepts drsquoun contexte ie chaque intension possible est deacute-clineacutee pour former un concept Cela permet la constitution du treillis des parties du contexte dont unexemple est repreacutesenteacute agrave gauche dans la Figure 22 Un mode plus classique et plus reacuteduit consiste agrave nerepreacutesenter que les concepts fermeacutes Suivant lrsquoexemple donneacute Figure 22 le concept (2C) preacutesentdans le treillis des parties est eacutelimineacute et repreacutesenteacute par son fermeacute (2AC) dans le treillis du centrede la figure Un dernier mode appeleacutee notation reacuteduite drsquoun treillis et deacutefinie dans [GW99] preacutesente laparticulariteacute de ne signaler les objets que dans lrsquoextension du concept le plus speacutecifique (ie le conceptqui preacutesente le plus drsquoattributs) dans lequel est inclus cet objet Inversement les attributs ne sont signaleacutesque dans lrsquointension du concept le plus geacuteneacuteral (ie celui qui preacutesente le moins drsquoattributs) dans lequelils sont preacutesents Le treillis de droite de la Figure 22 est la notation reacuteduite des deux premiers treillis

La construction de treillis peut preacutesenter diffeacuterents avantages dans un processus drsquo [SWW98Wil02 VMG04]

1 Extraction de Connaissances agrave partir de Bases de Donneacutees ndash 31

( 12B)

(123)

(AC)

(ABC)

(2C)(13A)

(2BC)(1AB)

( 12B)

(123)

(ABC)

(13A)

(2BC)(1AB)

(B)(3A)

(1) (2C)

F 22 ndash Diffeacuterentes repreacutesentations du treillis associeacute au contexteK repreacutesenteacute dans le Tableau 21 Degauche agrave droite le treillis des parties associeacute au contexte (ougrave tous les sous-ensembles drsquoattributs sontrepreacutesenteacutes) treillis de Galois associeacute au mecircme contexte treillis de Galois en notation reacuteduite associeacuteau mecircme contexte

ndash La structuration logique des donneacutees en concepts reflegravete la faccedilon avec laquelle les humains con-ceptualisent un domaine La proposition drsquoune hieacuterarchisation en concepts construite sans aprioriagrave partir des seules donneacutees peut aider un analyste dans le cadre de lrsquoextraction de connaissances

ndash La formalisation des concepts peut permettre de proposer une traduction de la structure du treillisselon un formalisme logique afin de pouvoir y appliquer des meacutecanismes automatiques de raison-nement

ndash La construction du treillis peut servir drsquoeacutetape preacuteliminaire pour des algorithmes de fouille pluscomplexes Ces algorithmes pourront alors tirer parti de lrsquoorganisation des concepts pour ameacuteliorerla rapiditeacute de leur exeacutecution la gestion de la meacutemoire ou les reacutesultats produits

ndash Les treillis sont eacutegalement utiliseacutes en recherche drsquoinformation () [CR04 MDNST05] Lrsquoutili-sation de lrsquo en est entre autres motiveacutee par lrsquoanalogie eacutevidente entre les associations ob-jetattribut de lrsquo et documentterme en Selon cette analogie les concepts formels peuventecirctre consideacutereacutes comme des classes de documents qui correspondent agrave une requecircte de lrsquoutilisateurAlors les documents sont les objets caracteacuteriseacutes par des attributs qui sont les termes utiliseacutes pourune requecircte La relation de subsomption permet de guider le raffinement ou la geacuteneacuteralisation dela requecircte (en y ajoutantsupprimant des termes) poseacutee par un utilisateur en lui permettant de nav-iguer drsquoun concept agrave un autre

ndash Lrsquo est de plus en plus populaire en acquisition de connaissances agrave partir de textes Le treil-lis peut constituer un compleacutement aux meacutethodes de Traitement Automatique des Langues ()en proposant une structure hieacuterarchique entre les concepts acquis par Les associations entretermes organiseacutees en concepts dans un treillis peuvent permettre lrsquoidentification de nouveaux con-cepts ou drsquoinstancier des concepts existants dans des processus de peuplement ou de constructiondrsquoontologies [CHST04 BTN08]

R Nous distinguons dans cette thegravese la notion de concept formel entiteacute matheacutematique reacute-sultant drsquoun processus drsquo dont lrsquointension est une liste drsquoattributs et les concepts utiliseacutes en repreacutesen-tation de connaissances notamment en Logique de Descriptions () Eleacutements de base drsquoune ontologieces concepts ont pour intension une description formelle en qui deacutefinit les conditions drsquoappartenance agravece concept selon une certaine interpreacutetation (voir section 22) Cependant une certaine analogie a pu con-duire agrave des rapprochements entre ces deux notions et agrave des travaux situeacutes agrave lrsquointersection des domaines de

32 Chapitre 2 Etat de lrsquoart

G

MA B C D E

1 times times times times

2 times times

3 times times times times

4 times times times

5 times times times times

T 22 ndash Un second exemple de contexte formel K

lrsquo et des De tels travaux [Rud06 BGSS07] deacutetailleacutes au chapitre 4 sont agrave lrsquoorigine de la troisiegravemecontribution de cette thegravese qui propose drsquoutiliser lrsquo pour deacutecouvrir de nouvelles connaissances au seindrsquoune base de connaissance formaliseacutee en

132 Motifs freacutequents et regravegles drsquoassociation

En partant du mecircme type de tableau binaire agrave partir duquel il est possible de construire un treillisil est eacutegalement possible drsquoextraire des motifs freacutequents et de rechercher des regravegles drsquoassociation Cettesection preacutesente rapidement ces deux meacutethodes

Lrsquoextraction des motifs freacutequents permet drsquoisoler depuis un contexte formel des ensembles drsquoat-tributs appeleacutes motifs en accord avec un certain support Ce support correspond au nombre drsquoobjets quipartagent les attributs drsquoun motif et celui-ci doit ecirctre supeacuterieur agrave un certain seuil le support minimumpour que le motif soit freacutequent

Sur la base des motifs freacutequents il est possible de construire des regravegles drsquoassociation de formegeacuteneacuterale A rarr B qui associe un sous-ensemble drsquoattributs A avec un second sous-ensemble drsquoattributsB La regravegle peut alors ecirctre interpreacuteteacutee comme le fait que lrsquoensemble des objets avec les attributs de A

preacutesente eacutegalement les attributs de B selon un certain support et une certaine confiance (deacutefninie plusloin)

Lrsquoextraction de motifs freacutequents

Deacutefinition 28 (motif freacutequent) Soit un contexte K(GMI) avec G un ensemble drsquoobjets et M un

ensemble drsquoattributs Un motif est un ensemble drsquoattributs preacutesenteacute par un objet Il est dit que lrsquoobjet

contient le motif Le nombre drsquoattributs dans un motif deacutetermine la longueur du motif Lrsquoimage du motif

correspond agrave lrsquoensemble des objets qui contiennent le motif

Le support drsquoun motif T est le nombre relatif drsquoobjets qui contiennent ce motif parmi le nombre total

drsquoobjets |G| dans le contexte consideacutereacute K ainsi

supp =|Image(T )||G|

(25)

Le support peut ecirctre compareacute agrave la probabiliteacute P(T ) de trouver un objet contenant le motif T parmi

lrsquoensemble des objets du contexte Un motif est dit freacutequent si son support est supeacuterieur ou eacutegal agrave un

seuil de freacutequence arbitraire appeleacute support minimum (noteacute min_supp)

Par exemple si lrsquoon considegravere le contexte formel repreacutesenteacute Tableau 22 et un min_supp = 35 A

est un motif freacutequent de longueur 1 et de support 45 AB est de longueur 2 de support 3

5 et freacutequent ABC est de longueur 3 de support 2

5 et non freacutequent ABCDE est de longueur 5 de support 0 etnon freacutequent On peut remarquer que le support diminue lorsque la longueur du motif augmente

1 Extraction de Connaissances agrave partir de Bases de Donneacutees ndash 33

Si le nombre drsquoattributs de M est eacutegal agrave n le nombre de motifs possibles est 2n (ie le nombre desous-ensembles possibles agrave partir deM) Aussi une extraction des motifs freacutequents par le test systeacutema-tique de la freacutequence de chaque motif nrsquoest pas envisageable Cependant des algorithmes qui permettentde ne tester que certains sous-ensembles de motifs ont eacuteteacute deacuteveloppeacutes et permettent drsquoextraire les mo-tifs freacutequents de grandes bases de donneacutees Lrsquoalgorithme Apriori est un outil classique drsquoextraction demotifs freacutequents qui suit ce mode opeacuteratoire [AIS93] Apriori srsquoappuie sur deux principes fondamen-taux (i) tout sous-motif drsquoun motif freacutequent est un motif freacutequent et (ii) tout super-motif drsquoun motif nonfreacutequent est non freacutequent Apriori peut ecirctre reacutesumeacute par ces deux opeacuterations principales

1 Lrsquoextraction des motifs freacutequents commence par la recherche des motifs de longueur 1

2 Les motifs freacutequents sont enregistreacutes et combineacutes entre eux pour former des motifs candidats delongueur supeacuterieure les motifs non freacutequents en 1 sont eacutelimineacutes et par conseacutequent aucun de leursuper-motif nrsquoest consideacutereacute La freacutequence des motifs candidats est testeacutee pour constituer un nouvelensemble de motifs freacutequents et lrsquoalgorithme continue tant que de nouveaux candidats peuvent ecirctreformeacutes

Lrsquoalgorithme 21 preacutesenteacute plus loin dans ce chapitre en section 42 permet de suivre la succession desopeacuterations de lrsquoalgorithme Apriori (la version preacutesenteacutee est enrichie par certaines opeacuterations speacutecifiquesagrave la probleacutematique de cette section 42)

En guise drsquoexemple nous pouvons reacutealiser pas agrave pas Apriori sur le contexte du Tableau 22 avecmin_supp = 3

5 Les motifs freacutequents de longueur 1 sont A( 45 ) B( 4

5 ) C( 45 ) E( 4

5 ) Le motifD( 1

5 ) nrsquoest pas freacutequent et est eacutelimineacute Dans un second temps les motifs candidats de longueur 2 sontformeacutes en combinant les motifs freacutequents de longueur 1 AB AC AE BC BE puisleur freacutequence est testeacutee Ainsi les motifs freacutequents de longueurs 2 sont AB( 3

5 ) AC( 35 ) AE( 3

5 )BC( 3

5 ) BE( 45 ) CE( 3

5 ) De la mecircme faccedilon les motifs candidats de longueur 3 sont formeacutes puistesteacutes pour donner les motifs freacutequents de longueur 3 suivants ABE( 3

5 ) BCE( 35 ) Enfin le seul

motif candidat ABCE de longueur 4 est formeacute et testeacute mais son support ( 25 ) est infeacuterieur agrave min_supp

Il est donc eacutelimineacute Il nrsquoy a plus de candidat lrsquoalgorithme se termineSuivant un algorithme diffeacuterent les motifs freacutequents peuvent facilement ecirctre extraits agrave partir drsquoun

treillis Lrsquoeacutetape la plus contraignante est alors la construction du treillis agrave partir duquel lrsquoextraction desmotifs freacutequents est ensuite triviale Elle correspond agrave un parcours en largeur dans le treillis en partantdu bas La Figure 23 permet de distinguer facilement les motifs freacutequents du contexte du Tableau 22 etde min_supp = 3

5

La recherche de regravegles drsquoassociation

Deacutefinition 29 Une regravegle drsquoassociation est de forme T1 rarr T2 ougrave T1 et T2 sont des motifs T1 est appeleacute

la preacutemisse ou partie gauche de la regravegle et T2 est la conclusion ou partie droite de la regravegle Le support

de la regravegle T1 rarr T2 est deacutefinie comme le support du motif T1 cup T2 ainsi pour un contexte K(GMI)

supp(T1 rarr T2) =|Image(T1 cup T2)|

|G|(26)

La confiance drsquoune regravegle T1 rarr T2 est le rapport entre le support de la regravegle et le support de sa preacutemisse

con f (T1 rarr T2) =|Image(T1 cup T2)||Image(T1)|

(27)

La confiance peut ecirctre compareacutee agrave la probabiliteacute conditionnelle P(T2|T1) ie la probabiliteacute de trouver

parmi les objets du contexte qui contiennent le motif T1 un objet contenant eacutegalement le motif T2

34 Chapitre 2 Etat de lrsquoart

F 23 ndash Treillis des parties associeacute au contexte K repreacutesenteacute Tableau 22 La ligne de seacuteparation sym-bolise le support minimum (min_supp = 3

5 ) dissociant les motifs non freacutequents au dessus de la lignedes motifs freacutequents en dessous Le chiffre associeacute agrave chaque motif correspond au nombre drsquooccurencesdu motif dans K Source exemple extrait de [Sza06]

Une regravegle est dite valide si sa confiance est supeacuterieure ou eacutegale agrave un seuil de confiance arbitraire

appeleacute confiance minimum (noteacute min_conf) et si son support est supeacuterieur ou eacutegal au support minimum

(min_supp) Ainsi toute regravegle valide T1 rarr T2 est baseacutee sur un motif freacutequent T1cupT2 Une regravegle est exacte

si sa confiance est eacutegale agrave 1 ie supp(T1 cup T2) = supp(T1) sinon la regravegle est approximative Les regravegles

exactes sont eacutegalement appeleacutees des implications

Si lrsquoon considegravere agrave nouveau le contexte du Tableau 22 avec min_supp = 35 et min_con f = 3

5 ABest freacutequent et la regravegle Ararr B est valide (supp = 3

5 et con f = 34 ) La regravegle BrarrA est eacutegalement valide

(supp = 35 et con f = 3

4 ) Si lrsquoon diminue le support de sorte que min_supp = 25 et min_con f = 3

5 lemotif ABCE est freacutequent les regravegles ABrarrCE CErarrAB ACrarrBE sont valides (supp = 2

5 et con f = 23

pour les trois) mais la regravegle BErarrAC nrsquoest pas valide (supp = 25 et con f = 2

4 )La construction des regravegles drsquoassociation valides depuis un motif freacutequent (de longueur supeacuterieure ou

eacutegale agrave deux) se fait de faccedilon similaire agrave lrsquoextraction de motifs freacutequents A partir drsquoun motif freacutequent laconstruction des regravegles deacutebute par les regravegles dont la conclusion est de longueur 1 noteacutees P irarri ougravei est un attribut seul et P i repreacutesente le motif P sans lrsquoattribut i Une fois ces regravegles construitesleur conclusions sont combineacutees pour donner de nouvelles regravegles candidates dont la conclusion est delongueur 2 noteacutees P ijrarrij Ces nouvelles regravegles sont testeacutees et le processus continue tant qursquoilest possible de construire de nouvelles regravegles candidates

Par exemple pour le contexte manipuleacute preacuteceacutedemment et min_supp = 25 et min_con f = 2

5 quand P =AB les regravegles valides construites sont ArarrB (min_supp = 3

5 min_con f = 34 ) et BrarrA ( 3

5 34 ) Quand P

= ABC( 25 ) les regravegles construites sont drsquoabord ABrarrC( 2

5 23 ) ACrarrB( 2

5 23 ) BCrarrA( 2

5 23 )

qui sont trois regravegles valides Leurs conclusions peuvent donc ecirctre combineacutees pour produire les nou-velles conclusions ABACBC et les regravegles correspondantes CrarrAB( 2

5 24 ) BrarrAC( 2

5 24 )

ArarrBC( 25 2

4 ) qui sont eacutegalement trois regravegles valides

1 Extraction de Connaissances agrave partir de Bases de Donneacutees ndash 35

Le nombre de motifs et de regravegles geacuteneacutereacutees est drsquoautant plus grand que le contexte permet drsquoassocierun grand nombre drsquoobjets et drsquoattributs Cela rend deacutelicate lrsquoeacutetape drsquointerpreacutetation des uniteacutes extraitesqui dans la plupart des cas est assureacutee par un analyste Pour cette raison il est crucial dans un processusdrsquo et plus particuliegraverement lorsqursquoil met en œuvre une extraction de motifs (ou une recherche deregravegle) de disposer de meacutethodes de filtrage des uniteacutes extraites Dans ce but de nombreux travaux se sontattacheacutes agrave eacutetudier les diverses mesures qui peuvent qualifier une regravegle [Fre98 LFZ99 TKS02 McG05]En partant du fait que la confiance drsquoune regravegle ArarrB peut ecirctre consideacutereacutee comme la probabiliteacute condition-nelle P(B|A) (ie la probabiliteacute de B sachant A) certaines de ces mesures peuvent ecirctre le fruit de calculsde probabiliteacutes comme par exemple lrsquointeacuterecirct la conviction ou la deacutependance drsquoune regravegle Une autre cateacute-gorie de mesures utilise des connaissances du domaine pour eacuteliminer certaines regravegles [LHCM00 Sah02]Ces meacutethodes sont alors dites subjectives par oppositions aux premiegraveres qualifieacutees drsquoobjectives

De la mecircme faccedilon que pour les motifs freacutequents la recherche de regravegles drsquoassociation ainsi que lecalcul de mesures peuvent ecirctre facilement meneacutes agrave partir drsquoun treillis de Galois

La construction drsquoun treillis est une opeacuteration coucircteuse en ressources informatiques et nrsquoest pasneacutecessaire agrave lrsquoextraction de motifs freacutequents ou de regravegles valides pour lesquels des algorithmes plus effi-caces existent Cependant la structure matheacutematique qursquooffre un treillis est inteacuteressante pour caracteacuteriserdes groupes particuliers de motifs et ainsi isoler diffeacuterentes familles de motifs et de regravegles Par exemplele treillis proposeacute Figure 23 permet drsquoidentifier de faccedilon assez intuitive les regravegles exactes qui existententre les motifs freacutequents directement relieacutes et de mecircme support De cette faccedilon les motifs BCE etCE directement relieacutes et de mecircme support ( 3

5 ) traduisent lrsquoexistence de la regravegle exacte CErarrB Lasection suivante introduit une famille de regravegles particuliegraveres ainsi que la meacutethode qui permet drsquoen isolerles membres

133 La famille des Regravegles Minimales Non-Redondantes

Cette section preacutesente la famille particuliegravere des regravegles drsquoassociation Minimales Non-Redondantes(noteacutees RMN) [Kry02 Sza06] Le terme famille de regravegles vient du fait que nous distinguons cinq en-sembles de regravegles parmi les Regravegles Minimales Non-Redondantes

Briques neacutecessaires agrave la deacutefinition des RMNPour pouvoir distinguer ces cinq ensembles particuliers de regravegles nous avons besoin de deacutecrire des en-sembles de motifs appeleacutes classes drsquoeacutequivalence et des motifs particuliers les motifs fermeacutes freacutequents

et les geacuteneacuterateurs freacutequents

Deacutefinition 210 (classe drsquoeacutequivalence) Soit f une fonction qui associe agrave chaque motif P sube T lrsquoensemble

de tous les objets qui contiennent le motif P f(P)=g isin G | g contient P Alors deux motifs P Q sube T

sont eacutequivalents (noteacute P Q) si et seulement si f(P) = f(Q) Lrsquoensemble des motifs eacutequivalant agrave un motif

P est appeleacute la classe drsquoeacutequivalence de P et est noteacutee

[P] = Q sube A | P Q (28)

Deacutefinition 211 (motif fermeacute freacutequent) La fermeture drsquoun motif X noteacutee α(X) est le plus grand super

motif de X de mecircme support que X

Un motif X est alors un motif fermeacute si il nrsquoexiste pas de super motif Y de X (ie X sub Y) de support

identique agrave celui de X Dans ce cas X = α(X) Les motifs fermeacutes sont les motifs de longueur maximale au

sein drsquoune classe drsquoeacutequivalence parfois noteacutee max[P] pour une classe drsquoeacutequivalence [P]

36 Chapitre 2 Etat de lrsquoart

F 24 ndash Classes drsquoeacutequivalence motifs fermeacutes freacutequents et geacuteneacuterateurs freacutequents associeacutes au contexteK repreacutesenteacute Tableau 22 (min_supp = 2

5 ) Les relations de subsomption entre classes drsquoeacutequivalencesont deacuteduites du treillis repreacutesenteacute Figure 23 Source exemple extrait de [Sza06]

Un motif agrave la fois fermeacute et freacutequent suivant la Deacutefinition 28 est un motif fermeacute freacutequent

Deacutefinition 212 (geacuteneacuterateur freacutequent) Un motif P isin [P] est appeleacute geacuteneacuterateur si P nrsquoa pas de sous-

motif dans [P] ie si P nrsquoa pas de sous-motif de support identique agrave P En drsquoautres termes les geacuteneacuterateurs

sont les motifs de longueur minimale au sein drsquoune classe drsquoeacutequivalence

Un geacuteneacuterateur freacutequent est un geacuteneacuterateur dont le support est supeacuterieur ou eacutegale agrave min_supp

Deacutefinition 213 (relation de subsomption entre classes drsquoeacutequivalence) Soit une classe drsquoeacutequivalence

[P] La classe drsquoeacutequivalence [Q] est ascendant ou subsumant de [P] si max[P] sub max[Q] La classe

drsquoeacutequivalence [Q] est ascendant direct ou subsumant direct de [P] si [Q] est un ascendant de [P] et

qursquoil nrsquoexiste aucune classe drsquoeacutequivalence [R] telle que max[P] sub max[R] sub max[Q] La relation de

subsomption sur les classes drsquoeacutequivalence est transitive

La Figure 24 repreacutesente les classes drsquoeacutequivalence les motifs fermeacutes freacutequents les geacuteneacuterateursfreacutequents et les relations de subsomption entre classes pour le contexte repreacutesenteacute Tableau 22 et unsupport minimum de 2

5 Dans cette figure la classe drsquoeacutequivalence dont le fermeacute est C est directementsubsumeacutee par la classe dont le fermeacute est BCE qui elle mecircme est subsumeacutee par la classe dont le fermeacuteest ABCE En revanche il nrsquoexiste aucune relation de subsomption entre les classes drsquoeacutequivalencedont les fermeacutes sont BCE et ABE

Les RMN

Deacutefinition 214 (Base geacuteneacuterique des regravegles exactes) Soit FC lrsquoensemble des motifs fermeacutes freacutequents

Pour chaque motif freacutequent f isin FC FG f est lrsquoensemble des geacuteneacuterateurs freacutequents de f Nous deacutefinissons

1 Extraction de Connaissances agrave partir de Bases de Donneacutees ndash 37

alors la base geacuteneacuterique comme suit

BG = r grarr ( f g) | f isin FC and g isin FG f and f g (29)

Deacutefinition 215 (Base informative des regravegles approximatives) Soit FC lrsquoensemble des motifs fermeacutes

freacutequents et FG lrsquoensemble des geacuteneacuterateurs freacutequents Le motif noteacute α(g) repreacutesente le fermeacute de g La

base informative est alors

BI = r grarr ( f g) | f isin FC and g isin FG and α(g) sub f (210)

Deacutefinition 216 (Reacuteduction transitive de la base informative) Soit BI la base informative drsquoun en-

semble de regravegles approximatives et FC lrsquoensemble des motifs fermeacutes freacutequents La reacuteduction transitive

de la base informative est

BIR = r grarr ( f g) isin BI | α(g) est le sous-motif maximal de f dans FC (211)

Deacutefinition 217 (RMN) Lrsquoensemble des Regravegles Minimales Non-redondantes (RMN) est deacutefini comme

RMN = BG cup BI (212)

Ainsi lrsquoensemble des RMN regroupe lrsquoensemble des regravegles exactes (BG) et des regravegles approximatives(BI)

Deacutefinition 218 (RMNR) Lrsquoensemble des Regravegles Minimales Non-redondantes Reacuteduites (RMNR) cor-

respond agrave la reacuteduction transitive des RMN

RMNR = BG cup BIR (213)

Les RMN constitue lrsquoensemble le plus grand de regravegles de cette famille etBGBIBIR et RMNRen sont des sous-ensembles Aussi il est facile agrave partir des deacutefinitions preacuteceacutedentes de deacuteduire les inclu-sions suivantes

BIR sube BI RMNR sube RMN

BG sube RMNR BI sube RMN

BIR sube RMNR

La Figure 25 illustre la position relative des RMN et des RMNR par rapport agrave lrsquoensemble des regraveglesdrsquoassociation

Calcul des RMNNous pouvons remarquer que les deacutefinitions des RMN ne font intervenir que les deux ensembles demotifs particuliers les motifs fermeacutes freacutequents et leur geacuteneacuterateurs De la mecircme faccedilon lesRMN peuventecirctre calculeacutees agrave partir de ces deux seuls ensembles Lrsquoalgorithme Zart deacutecrit par Szathmary et al [Sza06SNK07] permet drsquoisoler ces deux ensembles pour ensuite isoler les RMN Nous proposons en AnnexeA un algorithme qui recherche les RMN et les RMNR agrave partir des motifs fermeacutes freacutequents et de leurgeacuteneacuterateurs

Suivons un exemple agrave partir du contexteK (Tableau 22) avec min_supp = 25 La figure 24 permet de

visualiser les motifs fermeacutes freacutequents et leurs geacuteneacuterateurs dont nous allons nous servir pour cet exempleAinsi si nous consideacuterons le geacuteneacuterateur E de la Figure 24 deux types de regravegles peuvent ecirctre isoleacutesUn premier type correspond aux regravegles isoleacutees au sein drsquoune classe drsquoeacutequivalence et constitue la BaseGeacuteneacuterique (BG) qui sont des regravegles exactes En partant de E la regravegle exacte Erarr B peut ainsi ecirctre isoleacuteeLe second type de regravegles correspond aux regravegles isoleacutees agrave partir des relations entre classes drsquoeacutequivalence et

38 Chapitre 2 Etat de lrsquoart

F 25 ndash Repreacutesentation des inclusions successives de lrsquoensemble des Regravegles Minimales Non-redondantes Reacuteduites (RMNR) dans lrsquoensemble des Regravegles Minimales Non-redondantes (RMN) puisde ce dernier ensemble dans celui de toutes les regravegles drsquoassociation

constitue la Base Informative (BI) qui sont des regravegles approximatives Le geacuteneacuterateur E permet drsquoisolerles regravegles Erarr AB Erarr BC et Erarr ABC Ensuite pour isoler les RMNR lrsquoespace de recherche (desmotifs fermeacutes freacutequents qui sont eacutegalement super motifs du geacuteneacuterateur consideacutereacute) est reacuteduit aux classesdrsquoeacutequivalence qui sont relieacutees par une relation de subsomption directe (voir Deacutefinition 213) ie lesrelations de subsomption transitives ne sont plus consideacutereacutees De cette faccedilon le geacuteneacuterateur E ne permetdrsquoisoler que trois regravegles Erarr B Erarr AB et Erarr BC La regravegle Erarr ABC isoleacutee agrave partir drsquoune relation desubsomption indirecte nrsquoest plus consideacutereacutee Aussi si lrsquoon retire les regravegles exacte des RMNR (Erarr Bselon notre exemple) nous obtenons la Base Informative Reacuteduite (BIR)

Inteacuterecirct des RMNKryszkiewicz a deacutemontreacute que les RMN et les RMNR constituent des repreacutesentations de lrsquoensembledes regravegles drsquoassociation qui sont sans perte (ie elles permettent de deacuteriver la totaliteacute des regravegles valides)consistantes (ie elles empecircchent de deacuteriver des regravegles non valides) et informatives (ie elles permettentde deacuteterminer les paramegravetres des regravegles comme leur support et leur confiance) Lrsquoavantage principal desRMNR est de constituer lrsquoensemble le plus concis des regravegles drsquoassociation qui peuvent ecirctre extraitesdrsquoun contexte formel sans perte drsquoinformation

Crsquoest pour cette raison que nous utilisons la recherche des RMNR agrave partir drsquoun treillis comme meacuteth-ode de fouille dans un processus drsquoExtraction de Connaissances agrave partir drsquoune Base de Connaissancespreacutesenteacute au chapitre 4 section 23

14 Interpreacutetation en uniteacutes de connaissances

Lrsquoeacutetape drsquointerpreacutetation du processus drsquo est eacutegalement appeleacutee le post processing en anglaisElle consiste en la prise en charge des reacutesultats bruts de la fouille de donneacutees les uniteacutes extraites en leurtransformation pour leur interpreacutetation et validation par lrsquoanalyste en uniteacutes de connaissance

Cette eacutetape est particuliegraverement limitante dans le processus drsquo car elle demande une implica-tion importante de lrsquoanalyste qui doit interpreacuteter des reacutesultats de fouille potentiellement volumineuxLa forme des uniteacutes extraites est diffeacuterente selon la meacutethode de fouille utiliseacutee motif freacutequent con-cept formel regravegle drsquoassociation cluster par exemple Drsquoun point de vue pratique lrsquoeacutetape drsquointerpreacutetationdeacutepend fortement de la meacutethode de fouille utiliseacutee puisque la forme des uniteacutes extraites deacutepend de celle-ci Afin de faciliter lrsquointerpreacutetation les reacutesultats sont transformeacutes pour faire lrsquoobjet drsquoune visualisation

1 Extraction de Connaissances agrave partir de Bases de Donneacutees ndash 39

graphique par exemple sous la forme drsquoun arbre de deacutecision drsquoune hieacuterarchie de clusters drsquoun reacuteseau deneurones drsquoun treillis de concepts

Une mecircme forme drsquouniteacutes extraites peut ecirctre utiliseacutee pour eacutetudier diffeacuterents types de reacutegulariteacutesCrsquoest lrsquoobjectif de la fouille qui dans ce cas oriente la lecture des uniteacutes extraites (ie du modegravele) parlrsquoanalyste La caracteacuterisation la discrimination la recherche drsquoassociation la classification le clusteringou la deacutetection des cas extrecircmes sont les objectifs les plus souvent viseacutes Alors suivant lrsquoobjectif choisilrsquoanalyste srsquointeacuteresse agrave lrsquoune ou lrsquoautre des reacutegulariteacutes observables agrave partir des uniteacutes extraites Par ex-emple les uniteacutes extraites reacutesultant drsquoun clustering des K-plus proches voisins peuvent selon lrsquoobjectifecirctre utiliseacutees pour caracteacuteriser des groupes de donneacutees speacutecifiques ou pour deacutecrire des associations entredonneacutees

Au delagrave de lrsquoobjectif de la fouille les connaissances attendues par lrsquoanalyste orientent lrsquointerpreacutetationLrsquoanalyste peut alors ecirctre ameneacute agrave filtrer parmi les uniteacutes extraites celles qursquoil juge triviales redondantesdeacutenueacutees drsquointeacuterecirct fausses en comparaison de ce qursquoil souhaite trouver Par exemple dans le cadre drsquounerecherche de regravegles drsquoassociation un analyste souhaite deacutecouvrir des associations entre un pheacutenotype ungeacutenotype et un traitement meacutedicamenteux Il peut eacuteliminer les regravegles qui ne contiennent pas agrave la fois uncritegravere correspondant agrave la classe ltdonneacutee du pheacutenotypegt (preacutealablement deacutefinie) un critegravere de la classeltdonneacutee du geacutenotypegt et un critegravere de la classe lttraitementgt Ce genre de filtrage sur les reacutesultats defouille peut ecirctre assureacute par un systegraveme qui tire parti de connaissances du domaine pour permettre parexemple de distinguer les donneacutees qui relegravevent du pheacutenotype de celles qui relegravevent du geacutenotype ou drsquountraitement

15 Reacuteutilisation des uniteacutes extraites

Les uniteacutes extraites finalement valideacutees par lrsquoanalyste sont consideacutereacutees comme uniteacutes de connais-sance Selon le processus drsquo initialement deacutecrit par Frawley et al [FPSM91] puis repris par Fayyadet al [FPSS96] lrsquoidentification drsquoune uniteacute de connaissance constitue un aboutissement du processus etest rarement reacuteutiliseacutee En revanche les uniteacutes extraites sont classiquement reacuteutiliseacutees lors des iteacuterationssuccessives du processus

Le travail deacutecrit dans cette thegravese srsquoinscrit dans lrsquoideacutee que les uniteacutes de connaissances doivent ecirctreformaliseacutees dans un langage de repreacutesentation des connaissances et enregistreacutees dans une Base de Con-naissances () de sorte agrave pouvoir ecirctre reacuteutiliseacutees tout drsquoabord lors des iteacuterations suivantes du processuset ensuite dans le cadre drsquoautres applications qui peuvent tirer parti de connaissances formaliseacutees Nouspreacutesentons dans la section suivante 2 quelques notions de repreacutesentation des connaissances

40 Chapitre 2 Etat de lrsquoart

2 Repreacutesentation des connaissances et ontologies

Nous avons preacutesenteacute dans lrsquointroduction la distinction entre donneacutees information et connaissanceAinsi les bases de donneacutees eacutetudieacutees depuis plusieurs deacutecennies en informatique permettent de structureret de stocker des donneacutees brutes qui peuvent dans le domaine de la geacutenomique par exemple ecirctre lesreacutesultats drsquoun seacutequenccedilage automatique drsquoADN drsquoune analyse sur puce du niveau drsquoexpression des gegravenesdrsquoun tissu ou encore drsquoune analyse par spectromeacutetrie de masse du contenu proteacuteique drsquoun eacutechantillondu mecircme tissu Une Base de Connaissances () est capable de stocker des donneacutees mais est eacutegalementcapable de leur associer une repreacutesentation formelle ie associeacutee agrave une seacutemantique clairement deacutefinie etconccedilue pour ecirctre interpreacuteteacutee par des programmes Les connaissances peuvent ainsi speacutecifier des relationset des contraintes sur les donneacutees de telle sorte que les programmes puissent raisonner sur ces donneacuteespour en deacuteduire de nouvelles connaissances Les bases de connaissances srsquoappuyent sur des langages de

repreacutesentation des connaissances afin non seulement de fournir une structure approprieacutee pour stocker lesdonneacutees mais surtout pour leur associer une interpreacutetation du domaine consideacutereacute

Cette section preacutesente drsquoabord deux familles de langages de repreacutesentation des connaissances quisont les Repreacutesentations des Connaissances par Objet () et les Logiques de Descriptions () avantde deacutefinir les notions drsquoontologie et de Base de Connaissances

21 La Repreacutesentation des Connaissances par Objets

Le succegraves des Langages de Programmation agrave Objets () en informatique est souvent expliqueacute parles beacuteneacutefices qursquoils offrent en matiegravere de geacutenie logiciel gracircce entre autres agrave la modulariteacute lrsquoextensibiliteacuteou la reacuteutilisabiliteacute des ldquoobjets informatiquesrdquo Cependant ce succegraves est certainement eacutegalement ducirc agrave leurcapaciteacute naturelle agrave repreacutesenter les ldquoobjets du monde reacuteelrdquo [NED00] Cette capaciteacute nrsquoa pas seulement fa-voriseacute lrsquoadoption des mais a eacutegalement contribueacute au deacuteveloppement drsquoune famille de Repreacutesentation(ou de systegravemes de repreacutesentation) des Connaissances par Objets (ou ) comme [DQ86] [ER95] et [PGC+01] Le coteacute intuitif de ces langages de a notamment eacuteteacute utiliseacute pour perme-ttre la repreacutesentation et la manipulation drsquoentiteacutes biologiques complexes dans [MVB+95] et [CCQF05]qui mettent respectivement en œuvre et

Objet classe attribut facette et association Dans un formalisme de lrsquoeacuteleacutement de base est lrsquoobjetUne classe permet de regrouper un ensemble drsquoobjets ayant des proprieacuteteacutes communes appeleacutes attributsLes classes associent des facettes aux attributs pour les speacutecifier Les facettes permettent (1) le typage desattributs ie la preacutecision drsquoun type ou drsquoun domaine de valeurs possibles pour un attribut (2) lrsquoinfeacuterence

de valeur pour un attribut ie lrsquoassociation agrave des meacutecanismes capables de rattacher agrave une valeur agrave unattribut selon certaines contraintes ou calculs deacutefinis

Les relations entre objets sont deacutecrites par des associations qui peuvent ecirctre de deux types Premiegravere-ment les attributs-liens pour les relations binaires qui prennent la forme drsquoun attribut speacutecifique dont lavaleur sera lrsquoinstance drsquoune classe Deuxiegravemement la reacuteification drsquoassociation pour les relations n-airesqui revient agrave consideacuterer une association comme une classe dont les attributs sont les liens entre objets oudes attributs speacutecifiques qui qualifient lrsquoassociation

Speacutecialisation partie-tout et instanciation Les classes deacutefinies selon un sont organiseacutees selonune hieacuterarchie fondeacutee sur une relation de speacutecialisation (apparenteacutee agrave la subsomption deacutecrite dans lasection suivante) Une classe descendante drsquoune autre dans cette hieacuterarchie possegravede tous ses attributs (onparle alors drsquoheacuteritage) et peut eacutegalement preacutesenter des attributs suppleacutementaires qui lui sont propres

Les classes peuvent eacutegalement ecirctre relieacutees selon des relations de composition ou drsquoagreacutegation par larelation partie-tout pour repreacutesenter le fait qursquoun objet puisse ecirctre composeacute drsquoautres objets

2 Repreacutesentation des connaissances et ontologies 41

Les classes des preacutesentent la proprieacuteteacute de pouvoir ecirctre instancieacutees par un objet Lrsquoobjet en ques-tion devra alors preacutesenter des valeurs pour les attributs deacutefinis dans la classe Si au moins un attribut nrsquoestpas valueacute alors lrsquoinstanciation est dite incomplegravete Lrsquoensemble des objets qui instancient une classe estappeleacutee lrsquoextension de cette classe

Meacutecanismes de raisonnement Comme tout langage de repreacutesentation des connaissances les ontpour principal objectif de permettre le raisonnement sur les connaissances Divers meacutecanismes de raison-nement sont associeacutes aux langages de

ndash la veacuterification de coheacuterence qui teste les relations de speacutecification entre classes et drsquoinstanciationentre classe et objet

ndash la classification drsquoinstances qui permet de trouver les classes auxquelles une instance peut ap-partenir

ndash la classification de classes qui trouve les classes dont une classe particuliegravere peut ecirctre la speacuteciali-sation

ndash le filtrage qui recherche lrsquoensemble des objets satisfaisant des caracteacuteristiques deacutefinies dans unfiltre

ndash le raisonnement par classification qui positionne une entiteacute (une classe ou un objet) dans unehieacuterarchie de classes

Les systegravemes de preacutesentent lrsquoavantage de proposer des meacutecanismes de raisonnement inteacuteres-sants et de permettre une conceptualisation intuitive des entiteacutes consideacutereacutees Cette conceptualisation peuteacutegalement facilement ecirctre repreacutesenteacutee voir automatiquement traduite dans des repreacutesentations scheacutema-tiques particuliegraverement lisibles comme le langage de modeacutelisation UML [RBJ00] Leur inconveacutenientest de ne pas preacutesenter de veacuteritable assise logique et de ne disposer que drsquoune expressiviteacute relativementlimiteacutee notamment compareacute aux Logiques de Descriptions () preacutesenteacutees dans la section suivante

22 Les Logiques de Descriptions

Les Logiques de Descriptions () constituent une famille de langages de repreacutesentation des con-naissances fondeacutee sur un formalisme logique Les langages de sont des heacuteritiers du systegraveme K-Odeacutecrit en 1985 notamment pour surmonter les ambiguiumlteacutes seacutemantiques que preacutesentaient les systegravemes derepreacutesentations des connaissances preacuteexistants (ie les reacuteseaux seacutemantiques et les systegravemes agrave base deframe) [BS85]

Comme les autres langages de repreacutesentation de connaissances les sont utiliseacutees pour repreacutesenterla conceptualisation drsquoun domaine drsquoapplication de faccedilon structureacutee et en suivant une certaine seacuteman-tique Leur avantage est premiegraverement que cette seacutemantique est clairement deacutefinie et deuxiegravemementqursquoelles disposent de constructeurs logiques varieacutes assurant une expressiviteacute relativement riche (par ex-emple par rapport agrave la plupart des langages de )

Les diffeacuterents membres de la famille des se distinguent les uns des autres notamment par la listedes constructeurs qursquoils proposent Le Tableau 23 liste les constructeurs de base communs agrave la plupartdes Les constructeurs sont associeacutes agrave des symboles (ALU C ) qui sont assembleacutes pour former lesnoms des qui les contiennent De cette faccedilon une logique de descriptions de base appeleacuteeAL nrsquoinclutpas lrsquounion de concepts comme constructeur (associeacute au symbole U) mais la logique qui contient lesconstructeurs inclus dansAL associeacute au constructeur permettant lrsquounion de concept existe eacutegalement etsrsquoappelle ALU Le lecteur pourra trouver une note complegravete sur les conventions de nommage des dans les annexes de [BCM+03] (page 504)

TBox et ABox concept rocircle individu et axiome Une Base de Connaissances () en est com-poseacutee de deux eacuteleacutements la TBox et la ABox Le Tableau 24 est un exemple de exprimeacutee en

42 Chapitre 2 Etat de lrsquoart

Nom du constructeur Syntaxe Seacutemantique Symbole

Concept universel ⊤ ∆I AL

Bottom perp empty AL

Intersection C ⊓ D CI cap DI AL

Union C ⊔ D CI cup DI U

Neacutegation notC ∆I CI C

Restriction universelle forallRC x isin ∆I|forally (x y) isin RI rarr y isin CI AL

Restriction existentielle existRC x isin ∆I|existy (x y) isin RI E

T 23 ndash Syntaxe et seacutemantique associeacutees aux constructeurs de concepts les plus simples en Lesconstructeurs disponibles dans la logique de base AL nrsquoont pas de symbole propre pour les autres lesymbole correspondant est donneacute dans la quatriegraveme colonne Lrsquoannexe B deacutecrit une liste plus complegravetedes constructeurs de concepts ainsi que de certains constructeurs de rocircles

(Ax1) Personne ⊑ ⊤(Ax2) TraitementMeacutedicamenteux ⊑ ⊤(Ax3) Patient ⊑ Personne(Ax4) PatientSousTraitement equiv Patient ⊓ exist aPourTraitement TraitementMeacutedicamenteux

TBox

(Ax5) Patient(adrien)(Ax6) TraitementMeacutedicamenteux(cureDAntibiotique)(Ax7) aPourTraitement(adrien cureDAntibiotique)

ABox

T 24 ndash Un exemple de Base de Connaissances eacutecrite en

La TBox constitue une terminologie ie le vocabulaire drsquoun domaine drsquoapplication Ce vocabulaireest constitueacute (i) de concepts qui correspondent agrave un ensemble drsquoindividus et peuvent ecirctre compareacutes auxpreacutedicats unaires des logiques des preacutedicats et (ii) de rocircles qui repreacutesentent des relations binaires entreles individus et peuvent ecirctre compareacutes agrave des preacutedicats binaires Une particulariteacute des notamment parrapport aux langages de est que deux types de concepts et de rocircles sont distingueacutes les concepts etrocircles atomiques et les concepts et rocircles deacutefinis

ndash les concepts et rocircles atomiques sont deacutecrits seulement par leur nom comme par exemple le conceptPersonne et le rocircle estTraiteacute dans la repreacutesenteacutee Tableau 24

ndash les concepts et rocircles deacutefinis sont deacutecrits par leur nom auquel est associeacute une description com-plexe Dans la proposeacutee en exemple le concept PatientSousTraitement est le seul conceptdeacutefini Le langage avec lequel sont deacutecrits les concepts et rocircles est la choisie pour cette Cesdescriptions complexes sont appeleacutees les axiomes terminologiques

La seacutemantique associeacutee aux concepts est deacutefinie par le biais drsquoune interpreacutetation I = (∆I middotI) Ledomaine drsquointerpreacutetation ∆I de I est un ensemble non vide et la fonction drsquointerpreacutetation middotI associeagrave chaque concept atomique A un ensemble AI sube ∆I et agrave chaque rocircle atomique R une relation binaireRI sube ∆I times ∆I Lrsquoextension de la fonction drsquointerpreacutetation aux concepts (et rocircles) deacutefinis est deacuteduite defaccedilon inductive par la seacutemantique associeacutee aux constructeurs de concepts (et de rocircles) preacutesenteacutes Tableau23

2 Repreacutesentation des connaissances et ontologies 43

Type drsquoaxiome Syntaxe Seacutemantique

Deacutefinition de concept C equiv D CI = DI

Deacutefinition de rocircle R equiv S RI = SI

Inclusion de concept C ⊑ D CI sube DI

Inclusion de rocircle R ⊑ S RI sube SI

Assertion de concept C(a) aI isin CI

Assertion de rocircle R(a b) (aI bI) isin RI

T 25 ndash Syntaxe et seacutemantique associeacutees aux axiomes terminologiques et assertionels en

La ABox quant agrave elle repreacutesente un eacutetat particulier du domaine deacutecrit par la TBox Elle est constitueacuteedrsquoaxiomes assertionnels qui adoptent la forme soit drsquoassertions de concepts agrave lrsquoaide drsquoindividus soitdrsquoassertions de rocircles agrave lrsquoaide de paires drsquoindividus

Deacutefinition speacutecialisation et assertion Les axiomes terminologiques (ie contenus dans la TBox) sontde deux formes

ndash Les eacutegaliteacutes de la forme geacuteneacuterale C equiv D (R equiv S) ougrave C D sont des concepts (et R S des rocircles) Lesdeacutefinitions de concepts (et de rocircles) sont des eacutegaliteacutes particuliegraveres de la forme A equiv C (Q equiv R) ougrave Aest un concept atomique et C une description de concept (et Q un rocircle atomique et R une descriptionde rocircle) Lrsquoaxiome (Ax4) dans la du Tableau 24 est un exemple de deacutefinition de concept

ndash Les inclusions ou subsomption de la forme geacuteneacuterale C ⊑ D (R ⊑ S) ougrave C D sont des concepts(et R S des rocircles) Les speacutecialisations de concepts (et de rocircles) sont des inclusions particuliegraveresdont la partie gauche est un concept (un rocircle) atomique de la mecircme faccedilon que pour les deacutefinitionsCette speacutecialisation est quelque peu diffeacuterente de la speacutecialisation des puisque celle-ci signifiesimplement que tout individu appartenant agrave lrsquointerpreacutetation de C appartient eacutegalement agrave lrsquointerpreacute-tation de D Ainsi lrsquoaxiome (Ax3) dans la exemple est une speacutecialisation

Les axiomes assertionnels (de la ABox) peuvent ecirctre de deux types diffeacuterents selon qursquoil srsquoagisse delrsquoassertion drsquoun concept ou drsquoun rocircle

ndash une assertion de concept noteacutee C(a) statue sur lrsquoappartenance27 drsquoun individu a au concept C28comme crsquoest par exemple le cas pour lrsquoindividu cureDAntibiotique qui instancie le conceptTraitementMeacutedicamenteux selon lrsquoaxiome (Ax6) de la Tableau 24

ndash une assertion de rocircle noteacutee R(a b) statue sur le fait que b est relieacute agrave lrsquoindividu a par la relation RDe cette faccedilon lrsquoaxiome (Ax7) Tableau 24 indique que lrsquoindividu adrien est traiteacute par un individuappeleacute cureDAntibiotique

Le Tableau 25 repreacutesente la seacutemantique associeacutee aux diffeacuterents axiomes drsquoune en Les axiomesconstituent en un sens lrsquoeacuteleacutement de base de repreacutesentation drsquoune connaissance agrave ce titre nous consideacuteronsdans le cadre des un axiome comme une uniteacute de connaissance

Meacutecanismes de raisonnement Si le rocircle drsquoune en se limite au stockage des TBox et ABox sonprincipal avantage est de pouvoir ecirctre associeacutee agrave des meacutecanismes de raisonnement Ces meacutecanismessrsquoappuyent sur les deux premiegraveres opeacuterations suivantes qui servent de briques de bases aux suivantes

ndash le test de subsomption qui veacuterifie qursquoun concept C subsume un concept D noteacute |= D ⊑ C Ainsi surla prise en exemple la reacuteponse au test de subsomption suivant |= PatientSousTraitement ⊑

27Par analogie avec les langages de on parle eacutegalement drsquoinstanciation28Pour ecirctre tout agrave fait exact il faudrait dire ldquolrsquointerpreacutetation de a qui appartient agrave lrsquointerpreacutetation de Crdquo

44 Chapitre 2 Etat de lrsquoart

Patient est vrai Cette subsomption nrsquoest pas explicitement eacutecrite dans la Cependant la deacutef-inition de lrsquoaxiome (Ax4) signifie que toute instance du concept PatientSousTraitement esteacutegalement instance du concept Patient (ainsi que du concept exist estTraiteacute TraitementMeacutedica-menteux) ce qui permet aux meacutecanismes de raisonnement de deacuteduire la reacuteponse

ndash Le test de satisfiabiliteacute qui veacuterifie qursquoun concept peut admettre des instancesndash La classification des concepts qui permet de deacuteterminer la position relative de chaque concept dans

la hieacuterarchie de conceptsndash La classification drsquoinstances qui permet de deacuteterminer pour un individu les concepts dont il est

instance Suivant ce meacutecanisme il est possible de deacuteterminer sur la base de la exemple quelrsquoindividu adrien est eacutegalement instance du concept PatientSousTraitement ce qui nrsquoest pasexplicitement deacutecrit En effet lrsquoinstance adrien remplit lrsquoensemble des conditions neacutecessaires et

suffisantes agrave lrsquoappartenance agrave ce concept ie en termes informels ecirctre un patient et ecirctre traiteacute parquelque chose qui est un traitement meacutedicamenteux

ndash La recherche drsquoinstances (ou instance retrieval en anglais) qui permet de deacuteterminer pour unconcept lrsquoensemble des individus qui en sont instances

Lrsquoefficaciteacute de certains meacutecanismes de raisonnement plus complexes est conditionneacutee par la choisie Parmi ceux lagrave nous citerons

ndash la recherche du concept le plus speacutecifique (ou most specific concept) qui consiste agrave deacuteterminerpour un concept (ou un individu) quel est le concept le plus speacutecifique qui le subsume (ou quel estle concept le plus speacutecifique dont il est instance)

ndash la recherche du subsumant commun le plus speacutecifique (ou least common subsumer) qui recherchele concept le plus speacutecifique qui subsume en mecircme temps deux concepts donneacutes (ou dont deuxindividus donneacutes sont instances)

Lrsquoutilisation de ces derniers meacutecanismes de raisonnement plus complexes est discuteacutee dans [BCM+03]Lrsquoeffervescence autour du Web Seacutemantique et lrsquoadoption pour ce dernier drsquoun langage standard

(le OWL preacutesenteacute dans la section 231) contenant une ont favoriseacute les travaux de recherche et lesavanceacutees en Malgreacute leur manque de convivialiteacute les logiques de descriptions constituent un moyende repreacutesenter les connaissances actuellement preacutefeacutereacute aux langages de Cependant les preacutesententdes avantages qui pourraient inspirer des eacutevolutions des par exemple en ce qui concerne les meacutethodesde raisonnement telles que lrsquoinfeacuterence de valeur

Pour plus de deacutetails sur la comparaison entre et nous conseillons la reacutefeacuterence [Duc00] deDucourneau et al

23 Ontologies et Bases de Connaissances

Le terme ontologie est un emprunt agrave la philosophie au sein de laquelle lrsquoontologie est une branche dela meacutetaphysique deacutedieacutee agrave lrsquoeacutetude des proprieacuteteacutes de ce qui est de ce qui existe

En informatique une ontologie est une repreacutesentation de connaissances Cependant la notion drsquoon-tologie est utiliseacutee pour deacutesigner diffeacuterentes formes de repreacutesentation de connaissances Ceci est parti-culiegraverement vrai en bioinformatique ougrave le terme drsquoontologie est utiliseacute selon diffeacuterentes consideacuterations[GW04] Ainsi pour certains une ontologie peut se limiter agrave un vocabulaire controcircleacute ie une liste de ter-mes consensus en rapport avec un domaine Ce peut ecirctre un vocabulaire controcircleacute associeacute agrave une hieacuterarchie

comme crsquoest le cas pour la G O [ABB+00] Il peut eacutegalement ecirctre associeacute agrave ces vocabulairesdes listes de synonymes qui permettent de mettre en correspondance un terme arbitraire avec le termechoisi comme reacutefeacuterence De faccedilon plus complexe et aussi plus complegravete une ontologie peut ecirctre unerepreacutesentation des concepts drsquoun domaine ainsi que des relations qui existent entre ces concepts Alorsla notion de concept repreacutesente un ensemble fini ou infini ainsi par exemple le concept de proteacuteine

2 Repreacutesentation des connaissances et ontologies 45

repreacutesente (intuitivement) lrsquoensemble des proteacuteinesCrsquoest agrave cette derniegravere forme drsquoontologie que nous nous reacutefeacuterons dans cette thegravese en accord avec la

deacutefinition de Gruber pour qui une ontologie est

ldquoune speacutecification formelle et explicite drsquoune conceptualisation partageacuteerdquo [Gru93]

Les concepts et leurs relations repreacutesenteacutes dans une ontologie peuvent ecirctre deacutefinis de faccedilon plusou moins preacutecise selon le formalisme (lrsquoensemble de symboles et de regravegles de syntaxe) utiliseacute pour lesdeacutecrire Lrsquoutilisation de langages de repreacutesentation des connaissances permet drsquoassocier aux concepts etaux relations une description formelle qui fait reacutefeacuterence agrave une seacutemantique clairement deacutefinie dans le casdes (voir la section 22) Lrsquoavantage de lrsquoutilisation drsquoune telle seacutemantique est de pouvoir associer auxconcepts et relations de lrsquoontologie une interpreacutetation unique qui puisse ainsi ecirctre comprise de la mecircmefaccedilon par deux humains ou par un humain et une machine Ce point est important dans la repreacutesenta-tion des connaissances biologiques car drsquoune part il est neacutecessaire pour un utilisateur de comprendrele modegravele biologique exprimeacute et drsquoautre part il est important que les entiteacutes biologiques repreacutesenteacuteespuissent ecirctre exploiteacutees par des programmes bioinformatiques

R Le fait qursquoune ontologie soit associeacutee agrave une seule interpreacutetation ne veut pas dire quepour un domaine il nrsquoexiste qursquoune seule conceptualisation et qursquoune seule interpreacutetation admissiblesAu contraire un domaine peut donner lieu agrave plusieurs interpreacutetations qui peuvent alors mener agrave la creacutea-tion drsquoontologies diffeacuterentes Les ontologies alors coexistantes reflegravetent les diffeacuterentes perspectives quiexistent sur le domaine en question Par exemple le domaine de la pharmacogeacutenomique peut ecirctre con-ceptualiseacute selon la perspective des cliniciens ou celle des biologistes moleacuteculaires Pour les premiers lapharmacogeacutenomique est consideacutereacutee du cocircteacute de la meacutedecine personnaliseacutee et des relations entre un diag-nostic geacuteneacutetique un traitement meacutedicamenteux et un pheacutenotype macroscopique (une pression arteacuterielleeacuteleveacutee par exemple) Pour les seconds la pharmacogeacutenomique est consideacutereacutee agrave un niveau moleacuteculaireimpliquant notamment les relations entre un groupe de SNP une moleacutecule (le principe actif du meacutedica-ment) et un pheacutenotype moleacuteculaire (la modulation du taux drsquoexpression drsquoun gegravene par exemple)

De faccedilon formelle nous deacutefinissons une ontologie drsquoune faccedilon similaire agrave [ES07] comme suit

Deacutefinition 219 (Ontologie) Une ontologie O est un systegraveme de symboles (Sc Sr H A) consistant en

ndash un ensemble Sc de concepts et un ensemble Sr de relations binaires (DR) entre deux concepts

DR sub Sc appeleacutes le domaine et le co-domaine (domain et range en anglais)

ndash une hieacuterarchie H ougrave les concepts et relations sont hieacuterarchiquement relieacutes par la relation de sub-

somption ie une relation drsquoordre partiel noteacute ⊑ ougrave C1 ⊑ C2 signifie que C1 est un sous-concept

de C2 et r1 ⊑ r2 signifie que r1 est une sous-relation de r2

ndash un ensemble drsquoaxiomes A qui deacutecrivent des contraintes sur les concepts et les relations

Les ontologies auxquelles nous ferons allusion dans la suite de cette thegravese sont des ontologiesrepreacutesenteacutees en Or en le terme ontologie est traditionnellement peu employeacute Les notions de TBox

et ABox clairement deacutefinies lui sont preacutefeacutereacutees Pour cela il est important de preacuteciser que dans cette thegraveseune ontologie en correspond agrave une TBox alors qursquoune Base de Connaissance () pour sa part faitreacutefeacuterence agrave lrsquoensemble TBox ndash ABox

231 OWL et le Web seacutemantique

Le Web seacutemantique est drsquoabord une ideacutee ou une vision du Web selon laquelle le contenu des ressourcesdiffuseacutees sur le Web est rendu accessible aux programmes informatiques de faccedilon agrave ce que ceux-ci soientmieux agrave mecircme de reacutepondre aux besoins des utilisateurs humains [BLHL01] Il srsquoagit de deacutecrire ces

46 Chapitre 2 Etat de lrsquoart

ressources ou plutocirct les donneacutees qursquoelles contiennent selon une repreacutesentation formelle crsquoest agrave dire enlien avec une seacutemantique clairement deacutefinie et conccedilue pour ecirctre interpreacuteteacutee par des programmes Ceux-cipourraient alors manipuler sous forme de connaissances les donneacutees disponibles sur le Web pour deacute-couvrir des connaissances implicites ou nouvelles via des meacutecanismes de raisonnement A la base delrsquoinfrastructure du Web seacutemantique se trouvent les ontologies Celles-ci apportent les eacuteleacutements essentielsqui permettent lrsquointroduction des donneacutees du Web dans un contexte agrave base de connaissances

OWL (Web Ontology Language) est le langage choisi comme standard par le W3C29 pour la diffusiondes ontologies sur le Web et constitue en ce sens la principale technologie sur lequel repose le Webseacutemantique OWL srsquoappuie agrave la fois sur les technologies du Web (comme HTML XML et RDF) et surdes langages de repreacutesentation des connaissances tels que les systegravemes de et les

La speacutecification initiale de OWL reposait sur les exigences suivantes ndash le langage doit ecirctre associeacute agrave une seacutemantique standard et formellement deacutefinie permettant la mise

en œuvre de meacutecanismes de raisonnement maicirctriseacutesndash le langage doit ecirctre tregraves expressif pour prendre en compte la varieacuteteacute des domaines et des applica-

tions envisageacutes dans le cadre du Web seacutemantiqueCes deux eacuteleacutements expliquent en partie le choix des pour repreacutesenter les connaissances en OWLLrsquoAnnexe B propose une correspondance entre les constructeurs de et les constructeurs OWL Dela mecircme faccedilon qursquoil existe plusieurs sous-familles de il existe diffeacuterents profils OWL (OWL-LiteOWL-DL et OWL Full en sont les trois principaux) dont les diffeacuterences reacutesident dans les constructeursqursquoil proposent Par exemple le profil OWL-DL propose un ensemble de constructeurs qui correspond agravela logique SHOIN(D)

Le langage OWL est difficile agrave eacutecrire et lire directement il est donc plus geacuteneacuteralement deacuteveloppeacute eteacutediteacute agrave travers des eacutediteurs drsquoontologie ou de comme Proteacutegeacute [KFNM04] ou Swoop [KPS+06] Nousproposons en Annexe C le code OWL qui correspond agrave la repreacutesenteacutee dans le Tableau 24

FaCT++ [TH06] Pellet [SP04] et RacerPro [HM03] sont des logiciels qui permettent de mettre enœuvre les meacutecanismes de raisonnement standards en sur une ontologie (ou une ) implanteacutee en OWL

232 Construction drsquoontologies

De nombreuses meacutethodes pour le deacuteveloppement drsquoontologies ont eacuteteacute proposeacutees [UK95 FGPJ97NM01] Nous ne cherchons ici ni agrave les passer en revue ni agrave les comparer mais plutocirct agrave faire ressortirles opeacuterations importantes agrave mettre en œuvre lors de la construction manuelle ou semi-automatiquedrsquoontologies Pour une vue drsquoensemble des meacutethodes de construction drsquoune ontologie nous orientons lelecteur vers le chapitre 3 du livre de Goacutemez-Peacuterez [GPCGFL03]

Lrsquoensemble de ces meacutethodes srsquoinspire du geacutenie logiciel comme lrsquoillustre le cycle de vie drsquoune on-tologie proposeacute par Dieng et al [DCGR98] et repreacutesenteacute Figure 26 qui met en avant le cocircteacute iteacuteratif dela construction ainsi que ses principales eacutetapes

La construction drsquoune ontologie est un processus collaboratif ougrave les experts du domaine (et eacuteventuelle-ment des systegravemes drsquoapprentissage) doivent ecirctre fortement impliqueacutes Nous nous inteacuteressons plus parti-culiegraverement aux eacutetapes de speacutecification des besoins de conception et drsquoeacutevaluation de lrsquoontologie

Speacutecification Cette eacutetape consiste agrave deacutefinir en eacutetroite collaboration avec les experts du domaine ledomaine et lrsquoobjectif de lrsquoontologie

Concernant le domaine il srsquoagit de preacuteciser drsquoabord le domaine de connaissances que lrsquoontologiedoit repreacutesenter mais aussi avec quel niveau de granulariteacute celui-ci doit ecirctre repreacutesenteacute Ainsi pour

29World Wide Web Consortium consortium international pour la standardisation et la promotion des technologies du Webhttpwwww3org

2 Repreacutesentation des connaissances et ontologies 47

F 26 ndash Cycle de vie drsquoune ontologie Source [DCGR98]

la creacuteation drsquoune ontologie des proteacuteines il est important de preacuteciser clairement les limites du do-maine agrave repreacutesenter par exemple les proteacuteines humaines ou les proteacuteines phosphatases (humaine etnon-humaine) Le niveau de granulariteacute souhaiteacute doit alors preacuteciser le niveau de deacutetail attendu dans larepreacutesentation du domaine Pour une ontologie des proteacuteines il faut speacutecifier par exemple que seulesleurs annotations fonctionnelles et leur masse est importante ou alternativement qursquoune description plusfine est neacutecessaire impliquant la repreacutesentation de la composition en acides amineacutes des groupementsfonctionnels de ces acides amineacutes et de leurs proprieacuteteacutes physico-chimiques

La deacutefinition de lrsquoobjectif de lrsquoontologie doit deacuteterminer les applications pour lesquelles lrsquoontologieest construite Savoir agrave quoi va servir lrsquoontologie est deacuteterminant pour deacuteterminer les concepts agrave repreacutesen-ter et le point de vue selon lequel les repreacutesenter Ainsi cette opeacuteration doit permettre de deacuteterminer sinotre ontologie des proteacuteines doit servir agrave lrsquoannotation de bases de donneacutees agrave la classification de pro-teacuteines ou encore agrave lrsquoextraction de connaissances relatives aux conseacutequences fonctionnelles des variationsgeacutenomiques Pour formaliser les objectifs et pour permettre lrsquoeacutevaluation de lrsquoontologie il est possible dedeacutefinir des questions de compeacutetence qui sont des exemples concrets de questions auxquelles lrsquoontologiedoit permettre de reacutepondre [Gan05] Veacuterifier que lrsquoontologie une fois construite y reacutepond correctementest un critegravere drsquoeacutevaluation de cette derniegravere

Une opeacuteration importante de la phase de speacutecification est le recensement systeacutematique des ressourcesde donneacutees ou de connaissances deacutejagrave existantes Ces ressources peuvent ecirctre des sources de donneacutees desscheacutemas de sources des vocabulaires controcircleacutes des ontologies de domaines incluses recouvrant ouchevauchant le domaine consideacutereacute Ce recensement a deux buts Le premier est drsquoavoir une vue globaledes donneacutees et connaissances manipuleacutees dans le domaine de sorte agrave consideacuterer leur repreacutesentationdans lrsquoontologie Le second est de reacuteutiliser au maximum lrsquoexistant Pour reprendre notre exemple drsquouneontologie des proteacuteines lrsquoanalyse des donneacutees et des scheacutemas des bases de donneacutees UniProt30 PDB31

donne une vue sur un certain nombre de proprieacuteteacutes des proteacuteines Aussi la consideacuteration de lrsquoontologieappeleacutee PRotein Ontology32 (PRO) et de lrsquoontologie Phosphatase Ontology33 permet de srsquoinspirer ou dereacuteutiliser les repreacutesentations existantes des connaissances

Cette eacutetape est eacutegalement le moment approprieacute pour lrsquoadoption de regravegles de nomenclature strictespour nommer les concepts et rocircles de lrsquoontologie

30Universal Protein Resource httpwwwuniprotorg31Protein Data Bank httpwwwrcsborg32httppirgeorgetownedupro33httpwwwbioinfmanchesteracukphosphabase

48 Chapitre 2 Etat de lrsquoart

Conception La conception de lrsquoontologie comprend trois opeacuterations principales ndash La conceptualisation elle consiste en lrsquoidentification des concepts du domaine et des relations

entre ces concepts Elle peut commencer par la deacutefinition de listes de termes propres au domainetermes qui serviront agrave lrsquoidentification et agrave la deacutefinition des concepts de leurs relations et de leurarticulation avec des ontologies existantes

ndash la formalisation crsquoest la traduction de la conceptualisation dans un formalisme de repreacutesentationdes connaissances par exemple une

ndash lrsquoimpleacutementation il srsquoagit de coder lrsquoontologie formaliseacutee en un langage de repreacutesentation desconnaissances par exemple OWL

En pratique les eacutetapes de formalisation et drsquoimpleacutementation sont souvent meneacutees de front

Eacutevaluation Classiquement lrsquoeacutetape drsquoeacutevaluation fournit des mesures sur lrsquoontologie selon des critegraveresstructurels et fonctionnels [GCCL06] Lrsquoideacuteal est que ces critegraveres drsquoeacutevaluation soient deacutefinis durant lrsquoeacute-tape de speacutecification de lrsquoontologie Crsquoest typiquement le cas des questions de compeacutetence auxquelleslrsquoontologie doit permettre de reacutepondre

Selon Dellschaft et Staab [DS08] les critegraveres structurels et fonctionnels sont utiliseacutes dans trois typesdrsquoeacutevaluations

ndash lrsquoeacutevaluation rapporteacutee agrave la tacircche ougrave lrsquoon mesure essentiellement comment lrsquoontologie ameacuteliorela reacutealisation drsquoune tacircche

ndash lrsquoeacutevaluation rapporteacutee au corpus ougrave lrsquoon mesure la capaciteacute de lrsquoontologie agrave repreacutesenter les con-naissances drsquoun domaine en se reacutefeacuterant au contenu drsquoun corpus de documents repreacutesentatif dudomaine

ndash lrsquoeacutevaluation rapporteacutee aux critegraveres ougrave ce sont des critegraveres objectifs le plus souvent drsquoordre struc-tural qui sont mesureacutes

Eacutevidement lrsquoeacutevaluation rapporteacutee agrave la tacircche peut ecirctre consideacutereacutee comme la plus importante puisquecrsquoest celle-ci qui donne la mesure de lrsquoefficaciteacute de lrsquoontologie dans la tacircche agrave laquelle on lrsquoa assigneacuteeCependant les deux autres types drsquoeacutevaluations sont des moyens ponctuels drsquoeacutevaluer certains aspects delrsquoontologie dont deacutependra forcement son efficaciteacute agrave reacutesoudre une tacircche particuliegravere

Ideacutealement lrsquoeacutevolution drsquoune ontologie est un processus continu qui suit de pregraves lrsquoeacutevolution de lrsquoeacutetatdes connaissances qursquoelle repreacutesente

Le deacuteveloppement complet drsquoune ontologie mecircme semi-automatique est un tacircche longue qui meacuteriteune grande attention La contrepartie des efforts demandeacutes pour son deacuteveloppement reacuteside notammentdans la seacutemantique qursquoelle fournit qui peut ecirctre utiliseacutee par des meacutecanismes de raisonnement mais passeulement Les sections suivantes de ce chapitre preacutesentent lrsquoutilisation drsquoontologies dans le cadre drsquoin-teacutegration de donneacutees (section 3) puis plus geacuteneacuteralement dans le cadre de lrsquo (section 4)

3 Utilisation des ontologies pour lrsquointeacutegration de donneacutees heacuteteacuterogegravenes 49

3 Utilisation des ontologies pour lrsquointeacutegration de donneacutees heacuteteacuterogegravenes

Lrsquoobjectif de cette section est drsquointroduire la notion drsquointeacutegration seacutemantique ie drsquointeacutegration dedonneacutees fondeacutees sur lrsquoutilisation de connaissances du domaine et de meacutecanismes de raisonnement Auvu de cet objectif nous nrsquoentreprendrons pas un eacutetat de lrsquoart exhaustif sur lrsquointeacutegration de donneacutees maisnous nous focaliserons seulement sur deux systegravemes concurrents (lrsquoapproche entrepocirct et lrsquoapproche meacute-

diateur) parce qursquoils neacutecessitent la deacutefinition de mapping crsquoest agrave dire de mise en correspondance entre lesdonneacutees et qursquoils ont donneacute lieu agrave quelques systegravemes opeacuterationnels Ces deux approches nous paraissentaujourdrsquohui les plus propices agrave supporter des approches agrave base de connaissance telles que celle qui faitlrsquoobjet du chapitre 3

31 Les systegravemes drsquointeacutegration de donneacutees

Les deux approches principales pour lrsquointeacutegration de donneacutees se distinguent essentiellement par lalocalisation des donneacutees manipuleacutees par le systegraveme [Hal01]

ndash lrsquointeacutegration mateacuterialiseacutee pour laquelle les donneacutees sont dans un entrepocirct de donneacutees ougrave elles sontrapatrieacutees depuis leur source drsquoorigine

ndash lrsquointeacutegration virtuelle pour laquelle les donneacutees restent dans les sources drsquoorigine ougrave elles sontmanipuleacutees par le biais drsquoun meacutediateur

311 Lrsquointeacutegration mateacuterialiseacutee ou entrepocirct

Lrsquoapproche mateacuterialiseacutee ou entrepocirct de donneacutees consiste en la construction drsquoune base de donneacuteesreacuteelle appeleacutee entrepocirct pour stocker les donneacutees provenant de diffeacuterentes sources Les entrepocircts de don-neacutees sont souvent choisis dans lrsquoindustrie pour le support drsquoaide agrave la deacutecision qursquoils constituent notam-ment gracircce agrave leur association aux techniques OLAP [AAD+96] Un systegraveme drsquointeacutegration suivant unetelle approche est constitueacute de trois parties repreacutesenteacutees Figure 27 lrsquoentrepocirct de donneacutees proprementdit les sources de donneacutees et les magasins de donneacutees

F 27 ndash Architecture drsquoun systegraveme drsquointeacutegration de donneacutees suivant lrsquoapproche entrepocirct

50 Chapitre 2 Etat de lrsquoart

Dans une approche entrepocirct de donneacutees lrsquointeacutegration srsquoappuie sur un scheacutema global deacutefini pourlrsquoentrepocirct Les donneacutees sont extraites des sources transformeacutees en un format de repreacutesentation compati-ble avec le scheacutema de lrsquoentrepocirct eacuteventuellement filtreacutees et inseacutereacutees dans lrsquoentrepocirct par des extracteursLrsquoutilisateur peut interroger directement lrsquoentrepocirct en utilisant les techniques classiques drsquointerrogationde base de donneacutees Lrsquoutilisateur peut eacutegalement interagir avec lrsquoentrepocirct par lrsquointermeacutediaire des ma-gasins de donneacutees dont lrsquoobjectif est de proposer des vues particuliegraveres sur les donneacutees qui pourrontfaciliter leur analyse dans un processus drsquoaide agrave la deacutecision Lrsquoentrepocirct G est un exemple de miseen œuvre de lrsquoapproche entrepocirct pour lrsquointeacutegration et lrsquoanalyse de donneacutees relatives au transcriptomehumain [GMB+05] Le systegraveme BM et BW sont des systegravemes plus geacuteneacuteriques deacutedieacutes agravelrsquointeacutegration de donneacutees biologiques suivant une approche entrepocirct [KKS+04 KLW08]

Une limite principale agrave cette approche reacuteside dans le deacuteveloppement neacutecessaire de meacutethodes drsquoex-traction et drsquointeacutegration des donneacutees capables de rafraicircchir peacuteriodiquement le contenu de lrsquoentrepocirct touten tenant compte de la mise agrave jour des sources

312 Lrsquointeacutegration virtuelle ou meacutediateur

Dans lrsquoapproche meacutediateur lrsquointeacutegration de donneacutees est fondeacutee sur la deacutefinition drsquoun scheacutema globalunifiant les scheacutemas heacuteteacuterogegravenes des sources agrave inteacutegrer La description drsquoun tel scheacutema implique la miseau point de mappings (parfois preacutesenteacutes sous la forme de vues) Un mapping est la description du contenudrsquoune source dans le vocabulaire unique imposeacute par le scheacutema global Lrsquoarchitecture meacutediateur classiquesrsquoarticule suivant trois niveaux repreacutesenteacutes Figure 28 le meacutediateur les wrappers et les sources Auniveau du meacutediateur le scheacutema global fournit un vocabulaire unique qui sert agrave (1) lrsquoexpression desrequecirctes de lrsquoutilisateur et (2) agrave la deacutefinition de mappings ie la description du contenu de chaque sourceLes wrappers (eacutegalement appeleacutes adaptateurs pour eacuteviter lrsquoanglicisme) srsquoappuyent sur la deacutefinition desmappings pour (a) traduire les requecirctes exprimeacutees dans les termes du vocabulaire du scheacutema global endes requecirctes exprimeacutees selon le vocabulaire des sources (b) traduire les reacuteponses aux requecirctes locales(ie sur les sources) en des reacuteponses compatibles avec le scheacutema global du meacutediateur

La constitution drsquoun mapping se fait par la deacutefinition de multiples mises en correspondances entreles relations (au sens des bases de donneacutees relationnelles) du scheacutema global et les relations du scheacutemalocal Ces mises en correspondance peuvent ecirctre deacutecrites suivant deux approches diffeacuterentes [Len02] Lapremiegravere approche est appeleacutee Global As View (ou GAV) selon laquelle les relations du scheacutema globalsont exprimeacutees en fonction des relations du scheacutema local La seconde est lrsquoapproche Local As View (ouLAV) ougrave inversement dans un premier temps un scheacutema global est deacutefini de faccedilon indeacutependante puisau niveau local les relations des scheacutemas locaux sont reformuleacutes dans les termes du scheacutema global Lecontenu des sources est deacutecrit par un ensemble de mappings sur les relations du scheacutema global

Selon Lenzerini [Len02] la description drsquoun systegraveme drsquointeacutegration de donneacutees peut ecirctre formaliseacuteeselon un triplet (GSM) regroupant ses trois composants principaux

ndash le scheacutema global Gndash les scheacutemas des sources S etndash le mappingM entre G et S deacutecrit par un ensemble de correspondances de la forme suivante

qG qS ouqS qG

ougrave qG et qS sont deux requecirctes respectivement sur le scheacutema global et sur le scheacutema des sources

La tacircche du meacutediateur consiste agrave reformuler agrave lrsquoaide des mappings les requecirctes qui lui sont poseacuteesdans les termes du scheacutema global en des requecirctes exprimeacutees dans les termes des scheacutemas des sources

3 Utilisation des ontologies pour lrsquointeacutegration de donneacutees heacuteteacuterogegravenes 51

F 28 ndash Architecture drsquoun systegraveme drsquointeacutegration de donneacutees suivant lrsquoapproche meacutediateur

de donneacutees et inversement Cette tacircche de reformulation est appeleacutee la reacuteeacutecriture de requecirctes Le projetP constitue un exemple drsquoarchitecture meacutediateur originale notamment parce qursquoelle propose uneapproche hybride GAV-LAV ainsi qursquoun scheacutema global exprimeacute suivant un formalisme de repreacutesentationdes connaissances appeleacute [RFG+02] Le travail de Mougin et al [MBB+08] est une illustration delrsquoapproche meacutediateur appliqueacutee agrave des bases de donneacutees biologiques et dont la particulariteacute est de proposerdes meacutethodes semi-automatiques pour faciliter la deacutefinition des mappings neacutecessaires

Les limites de lrsquoapproche meacutediateur reacutesident suivant une approche GAV principalement dans la miseagrave jour du scheacutema global lors de lrsquointeacutegration drsquoune nouvelle source ou suivant une approche LAV dansla reacuteeacutecriture des requecirctes Que lrsquoapproche adopteacutee soit GAV ou LAV le travail le plus important demeurepremiegraverement la deacutefinition des mappings qui peut demander lrsquointervention drsquoun expert du domaine drsquoap-plication et deuxiegravemement la conception des wrappers toujours deacutependante du type de source consideacutereacute

Lrsquoapproche entrepocirct preacutesente deux avantages principaux Le premier est lieacute au fait que les donneacuteesinteacutegreacutees sont agrave disposition au sein de lrsquoentrepocirct speacutecifiquement creacuteeacutee ce qui permet de les transformeret les adapter directement et facilement agrave lrsquoutilisation que lrsquoon souhaite en faire Le second avantageest lieacute au fait que les donneacutees soient regroupeacutees dans une seule source ce qui facilite lrsquoexploitation dusystegraveme

Cependant compareacutee agrave lrsquoapproche meacutediateur lrsquoapproche entrepocirct preacutesente une contrainte majeure les reacuteponses aux requecirctes ne proviennent pas directement des sources mais des donneacutees mateacuterialiseacuteesau sein de lrsquoentrepocirct Ceci implique la mise agrave jour de lrsquoentrepocirct agrave chaque modification des sources ordans certains domaines comme les sciences du vivant les sources sont parfois soumises agrave une eacutevolutionhebdomadaire voir quotidienne

R Les architectures orienteacutes services (ou SOA pour Service Oriented Architecture en anglais)sont des formes particuliegraveres drsquoarchitecture meacutediateur dont les diffeacuterents composants sont associeacutes agrave descomposants logiciels (ie les services) qui interagissent entre eux La communication entre les diffeacuterentsservices srsquoappuie sur un vocabulaire partageacute qui peut ecirctre compareacute agrave un scheacutema global Lrsquoutilisation

52 Chapitre 2 Etat de lrsquoart

drsquoontologie pour la description du scheacutema global peut faciliter la deacutecouverte de services ainsi que leurutilisation dans la deacutefinition de workflows Les articles [MD07a MD07b DPW08] peuvent servir drsquoin-troduction agrave cette probleacutematique

Lrsquoimportance prise par le Web a conduit notamment au deacuteveloppement de nombreuses deacuteclinaisons etvariantes des approches drsquointeacutegration meacutediateur et entrepocirct [Hac04] Un exemple notable est le deacutevelopppe-ment drsquoapproches adapteacutees agrave la structure particuliegravere du Web qui pour cela utilise une architecture paire

agrave paire [CGLR04 RAC+06]

32 Problegraveme drsquoheacuteteacuterogeacuteneacuteiteacute et inteacutegration seacutemantique

321 Heacuteteacuterogeacuteneacuteiteacute de donneacutees et de scheacutemas

La probleacutematique premiegravere de lrsquointeacutegration de donneacutees est lrsquoheacuteteacuterogeacuteneacuteiteacute des donneacutees et lrsquoheacuteteacutero-

geacuteneacuteiteacute des scheacutemas qursquoil est neacutecessaire de reacutesoudre pour mettre en correspondance les sources et au-toriser lrsquointerrogation et la reacuteponse aux requecirctes de faccedilon transparente [Hal05 Saiuml07]

Lrsquoheacuteteacuterogeacuteneacuteiteacute des donneacutees est due au fait que deux bases de donneacutees nrsquoutilisent pas le mecircme vocab-ulaire ou reacutefeacuterentiel pour repreacutesenter une mecircme donneacutee Par exemple le fait qursquoun nucleacuteotide clairementpositionneacute sur le geacutenome humain puisse ecirctre soit une Adeacutenine (A) soit une Guanine (G) selon les in-dividus est noteacute ldquoAGrdquo dans la base de donneacutees dbSNP Cependant il existe un reacutefeacuterentiel diffeacuterent lecode IUPAC34 utiliseacute dans drsquoautres bases de donneacutees biologiques selon lequel le fait qursquoun nucleacuteotidepuisse ecirctre soit une Adeacutenine soit une Guanine est simplement noteacute par la lettre R (pour faire reacutefeacuterenceaux Purines)

Lrsquoheacuteteacuterogeacuteneacuteiteacute des scheacutemas provient quant agrave elle du fait que deux bases de donneacutees peuvent proposerdeux conceptualisations diffeacuterentes drsquoune mecircme entiteacute Cela peut correspondre agrave lrsquoutilisation de nomsdrsquoattributs diffeacuterents Crsquoest par exemple le cas pour lrsquoattribut faisant reacutefeacuterence agrave lrsquoalternative possibleentre deux nucleacuteotides pour un variant geacutenomique qui est nommeacute ldquoAllelerdquo dans la dbSNP et ldquoVariationrdquodans la base PharmGKB De faccedilon plus complexe lrsquoheacuteteacuterogeacuteneacuteiteacute peut reacutesider dans la notion mecircme devariant geacutenomique qui peut diverger entre deux sources Crsquoest justement le cas pour dbSNP et Uniprotqui considegraverent respectivement un variant soit comme une alternative entre deux nucleacuteotides pour unemecircme position sur une seacutequence drsquoADN soit comme une alternative entre deux acides amineacutes pour uneposition sur une seacutequence proteacuteique

Les ontologies peuvent contribuer agrave la reacutesolution du problegraveme drsquoheacuteteacuterogeacuteneacuteiteacute des donneacutees et desscheacutemas En effet elles permettent la description formelle des concepts drsquoun certain domaine ainsi quedes relations existant entre ces concepts Un utilisateur ou un concepteur peut deacutecrire une donneacutee unerelation preacutesentes dans une source gracircce agrave une deacutefinition formelle agrave laquelle est associeacutee une seacutemantiqueclairement eacutetablie Ensuite il peut exploiter cette deacutefinition pour inteacutegrer (ou seulement partager) defaccedilon non ambigueuml le contenu de la source en question Deacutefinitions formelles et seacutemantique peuvent enpratique ecirctre repreacutesenteacutees sous la forme drsquoaxiomes logiques composant une ontologie crsquoest pourquoi onparle drsquoapproche drsquointeacutegration fondeacutee sur une ontologie ou drsquointeacutegration seacutemantique

322 Enjeux de lrsquointeacutegration seacutemantique

Nous discernons cinq problegravemes dont les reacutesolutions constituent les principaux enjeux pour la miseau point drsquoun systegraveme drsquointeacutegration de donneacutees seacutemantique [PLC+08]

1 Permettre la gestion de grands volumes de donneacutees en utilisant la repreacutesentation formelle drsquouneontologie En effet il existe un fosseacute entre lrsquoeacutechelle des systegravemes de gestion de bases de donneacutees

34httpwwwdnaaffrcgojpmiscMPsrchInfoIUPAChtml

3 Utilisation des ontologies pour lrsquointeacutegration de donneacutees heacuteteacuterogegravenes 53

capables de geacuterer efficacement des quantiteacutes de donneacutees importantes et lrsquoeacutechelle des systegravemes agravebase de connaissance pour qui geacuterer une ontologie ou une trop volumineuse reste probleacutematique

2 Permettre des requecirctes sur les donneacutees selon le langage de repreacutesentation et les termes de lrsquoontolo-gie Ceci implique la mise en correspondance entre le langage de repreacutesentation des connaissanceset un langage de requecircte adapteacute aux sources

3 Choisir le langage de repreacutesentation des connaissances Plus un langage est expressif plus il seracomplexe de raisonner sur ce langage Il faut donc trouver un compromis entre une expressiviteacutesuffisante pour repreacutesenter correctement le domaine et une complexiteacute compatible avec les besoinsen raisonnement lieacutes agrave la reacuteponse aux requecirctes

4 Deacutecrire le mapping donneacutees-ontologie Cela revient agrave mettre en correspondance les donneacutees dessources avec les instances des concepts et rocircles de lrsquoontologie ou en drsquoautres termes agrave relier laseacutemantique implicite des donneacutees agrave la seacutemantique explicite de lrsquoontologie

5 Reacutesoudre le problegraveme drsquoimpeacutedance Le problegraveme drsquoimpeacutedance (impedance mismatch en anglais)reacuteside dans le fait qursquoil nrsquoexiste pas une correspondance exacte entre la faccedilon dont sont repreacutesenteacuteesles informations dans une base de donneacutees relationnelle (par la paire attribut-valeur) et la faccedilondont elle peuvent lrsquoecirctre en terme drsquoobjets (par la paire classe-objet) et donc drsquoinstances de conceptsdans une ontologie Il en reacutesulte le besoin de meacutecanismes capables de faire correspondre valeurset objets

Les reacuteponses aux problegravemes 1 et 2 sont en partie apporteacutees par des solutions technologiques is-sues de travaux sur le Web seacutemantique Ainsi diffeacuterents outils et meacutethodes permettent de geacuterer des volumineuses notamment en permettant leur enregistrement dans des systegravemes de gestion de bases dedonneacutees relationnelles S [BKvH02] I S [HLTB04] en sont des exemples et les reacutesul-tats du challenge intituleacute ldquoBillion triplet challengerdquo35 laisse preacutesager des solutions techniques promet-teuses Concernant les requecirctes sur les notons que le langage SPARQL commence agrave eacutemerger parmiles diverses propositions anteacuterieures (OWL Abstract Syntax36 par exemple) puisqursquoil fait lrsquoobjet drsquounerecommandation du W3C depuis janvier 200837

Concernant le 3iegraveme problegraveme la communauteacute des a chercheacute agrave comparer les langages de repreacutesen-tation drsquoune pour montrer lequel pouvait ecirctre le plus adapteacute agrave un accegraves agrave de grands volumes de donneacuteesLes travaux de Hustadt et al et Calvanese et al montrent notamment qursquoune requecircte38 mecircme sur une exprimeacutee en un profil simple du OWL (OWL-Lite et OWL-DL) est trop complexe (co-NP complexe)pour ecirctre envisageable sur de larges volumes de donneacutees [HMS05 CGL+06] Une solution proposeacuteepour garantir la reacuteponse aux requecirctes dans un temps fini (polynocircmial) est lrsquoutilisation de logiques dedescriptions restreintes (ie agrave lrsquoexpressiviteacute restreinte) comme par exemple EL++ [BBL05] Dans cettemecircme ideacutee le W3C travaille notamment au deacuteveloppement drsquoun profil de OWL appeleacute OWL-R39 moinsexpressif que OWL-Lite agrave partir duquel la recherche drsquoinstance pourrait ecirctre faciliteacutee

Les travaux reacutealiseacutes dans lrsquooptique de reacutesoudre les problegravemes 4 et 5 relatifs agrave la deacutefinition drsquounmapping donneacuteesndashconnaissances sont preacutesenteacutes dans la section suivante

33 Le mapping donneacuteesndashconnaissances

Lrsquoutilisation drsquoune ontologie pour lrsquointeacutegration de donneacutees est possible uniquement agrave partir du mo-ment ougrave il existe un mapping entre donneacutees et connaissances ie un ensemble de mises en correspon-

35httpwwwmindswaporgblog20071205announcing-the-open-web-billion-triple-challenge-iswc-0836httpwwww3orgTRowl-semantics37httpwwww3orgTRrdf-sparql-query38Une requecircte en est le plus souvent consideacutereacutee comme un meacutecanisme de raisonnement de recherche drsquoinstance39httpwwww3orgTR2008WD-owl2-profiles-20080411OWL-R_Full

54 Chapitre 2 Etat de lrsquoart

dance entre des donneacutees drsquoune source drsquoun cocircteacute et les instances des concepts et rocircles drsquoune ontologie delrsquoautre

introduit par Rousset et al [RFG+02] ou R2O introduit par Barrasa et al [BCGP04] sont despropositions de langages speacutecifiques pour la description de mappings donneacuteesndashontologie

Cependant ces approches ne prennent pas en consideacuteration le problegraveme drsquoimpeacutedance entre valeurs etobjets Ce problegraveme requiert la deacutefinition de meacutecanismes capables de faire correspondre les valeurs desdonneacutees aux objets de lrsquoontologie et notamment de preacuteciser comment les identifiants des objets peuventecirctre construits agrave partir des valeurs de donneacutees Ce genre de meacutecanismes a par contre eacuteteacute deacutecrit dans lecadre drsquoapproches entrepocirct faisant intervenir des bases de donneacutees objets [HY90 CGL+01] Il srsquoagit alorsde deacutefinir des fonctions symboliques (par exemple de conversion) et de les associer agrave une liste drsquoattributsagrave consideacuterer pour construire lrsquoidentifiant de lrsquoobjet correspondant Le mecircme genre de fonction est deacutefinipour reacuteconcilier des donneacutees heacuteteacuterogegravenes issues de diverses sources et permettre une inteacutegration dansune repreacutesentation homogegravene

De plus des formalismes comme SHOIN(D) ou DL-LiteA permettent drsquoassocier aux instancesde concepts des valeurs [HPSvH03 CGL+07] Par exemple la logique SHOIN(D) qui est la logiquesur laquelle srsquoappuie le profil OWL-DL de OWL permet la manipulation des concepts particuliers quicorrespondent aux types de donneacutees (le D signifie datatype en anglais) Ainsi associer une instance agraveune valeur revient en SHOIN(D) agrave instancier un rocircle associant cette instance et une instance du typede donneacutees (entier chaicircne de caractegravere etc) auquel correspond la valeur en question

Le travail reacutecent de Poggi et al utilise les outils preacutesenteacutes dans cette section (langage formel pourla description de mapping fonction de conciliation valeur-objet manipulant des valeurs) pour deacutecrirede faccedilon theacuteorique un systegraveme drsquointerrogation de donneacutees fondeacute sur une ontologie [PLC+08] Nous noussommes baseacutes sur cette approche theacuteorique et lrsquoavons adapteacutee de sorte agrave la rendre opeacuterationnelle et agravelrsquoaccorder agrave nos objectifs drsquointeacutegration de donneacutees dans le contexte drsquoune Ainsi nous proposonsdans le chapitre 3 une approche originale drsquointeacutegration de donneacutees qui srsquoinspire de lrsquoapproche meacutediateurdont lrsquoobjectif principal nrsquoest pas la reacuteponse agrave une requecircte mais le peuplement drsquoune

34 Utilisation des ontologies en bioinformatique inteacutegration de donneacutees et plus si affiniteacutes

Lrsquoutilisation principale des ontologies en bioinformatique est lrsquointeacutegration de donneacutees mais ce nrsquoestpas la seule Ainsi cette section preacutesente non seulement lrsquoutilisation des ontologies pour lrsquointeacutegration dedonneacutees en bioinformatique mais aborde eacutegalement leurs autres applications toutes relativement con-nexes agrave lrsquointeacutegration

Dans une revue reacutecente Daniel Rubin et al recensent les utilisations des ontologies en bioinforma-tique selon six cateacutegories [RSN07]

ndash la repreacutesentation de connaissances encyclopeacutediquesndash le Traitement Automatique des Langues ()ndash la recherche et lrsquointerrogation de donneacutees biomeacutedicales heacuteteacuterogegravenesndash lrsquoeacutechange de donneacutees entre applicationsndash lrsquointeacutegration de donneacutees etndash lrsquoutilisation de meacutecanismes de raisonnement

Les sections suivantes illustrent ces diffeacuterentes applications

3 Utilisation des ontologies pour lrsquointeacutegration de donneacutees heacuteteacuterogegravenes 55

341 La repreacutesentation de connaissances encyclopeacutediques

De nombreuses ontologies en biologie sont partageacutees sur le Web via des portails deacutedieacutes comme lesite de lrsquoOBO Foundry40 ou le BioPortal41 [SAR+07 RMKM08] Ceci permet agrave des personnes de reacuteu-tiliser des ontologies sans avoir agrave construire celles-ci au preacutealable Cependant la construction reste laphase preacuteliminaire indispensable agrave toute utilisation ou reacuteutilisation drsquoune ontologie La richesse des con-naissances disponibles dans certains domaines comme lrsquoanatomie humaine par exemple la complexiteacutedrsquoautres comme lrsquoeacutepigeacutenomique ou encore la co-existence de plusieurs theacuteories pour un mecircme domainecomme la psychiatrie imposent lrsquoutilisation de meacutethodologies rigoureuses et parfois le deacuteveloppementdrsquooutils particuliers (eg des outils collaboratifs) pour la repreacutesentation des connaissances en biologie defaccedilon encyclopeacutedique ce qui en fait une discipline agrave part entiegravere Les efforts de deacuteveloppement mis enœuvre notamment pour lrsquoontologie FMA (Foundational Model of Anatomy) disponible sur les portailsciteacutes preacuteceacutedemment ou ceux mis en œuvre pour le deacuteveloppement de lrsquoontologie NeuroWeb illustrentdes meacutethodes et outils speacutecialement deacuteveloppeacutes [RMM+98 CMF+07]

En plus drsquoheacuteberger et de partager des bio-ontologies les initiatives OBO Foundry et du BioPortalparticipent agrave leur deacuteveloppement LrsquoOBO Foundry milite pour favoriser le suivi de standards de qualiteacutesdans le deacuteveloppement des bio-ontologies [Fou08] Le BioPortal et plus particuliegraverement sa version2042 propose un ensemble drsquooutils pour faciliter la navigation dans les ontologies le deacuteveloppementcollaboratif la deacutefinition et le partage de mappings Notons que si de nombreuses bio-ontologies sontde simples taxonomies ou des vocabulaires controcircleacutes les reacutesultats de travaux reacutecents permettent de lestransformer en OWL [Hor07 AEB+08]

342 Le Traitement Automatique des Langues

Les ontologies sont de plus en plus utiliseacutees de faccedilon systeacutematique dans les meacutethodes de Le rocircledes ontologies deacutepend alors de lrsquoexpressiviteacute des langages utiliseacutes pour les eacutecrire Pour les cas les plussimples lrsquoontologie est un lexique qui permet de reconnaicirctre les entiteacutes ou les concepts eacutevoqueacutes dansles textes [MKS04] Pour les cas plus complexes lrsquoontologie guide la reconnaissance de connaissancesstructureacutees dans les textes en fournissant un modegravele des connaissances en question [RKK+00]

343 La recherche et lrsquointerrogation de donneacutees

Le challenge releveacute par les ontologies est la recherche et lrsquointerrogation de faccedilon homogegravene de di-verses sources de donneacutees au sein desquelles les entiteacutes biologiques par exemple une association agrave unemaladie ou une implication dans un processus sont nommeacutees de faccedilon diffeacuterentes dans les sources Eneffet en biologie de nombreux synonymes acronymes abreacuteviations peuvent faire reacutefeacuterence agrave une mecircmeentiteacute Un premier exemple est les diffeacuterents noms donneacutes au processus de fabrication du glucose dansun organisme (en gardant les termes anglo-saxons utiliseacutes dans les sources)ldquoglucose synthesisrdquo ldquoglu-cose biosynthesisrdquo ldquoglucose formationrdquo ldquoglucose anabolismrdquo et ldquoglucogenesisrdquo Un second exempleconcerne la preacutesence drsquoun variant geacuteneacutetique agrave la position 2377 du gegravene TMPT ie le fait que le nu-cleacuteotide agrave cette position du geacutenome puisse ecirctre diffeacuterent pour deux individus Ce variant est identifieacute parldquors1142345rdquo dans la base de donneacutees dbSNP ldquoTPMT3Crdquo dans la base OMIM ldquoChr6 18238897 AGrdquodans PharmGKB et ldquoNC_0000610g 18238897AgtGrdquo dans certaines publications scientifiques Uneontologie peut proposer un identifiant unique sous la forme drsquoun terme ou de lrsquoidentifiant drsquoun conceptpour chaque entiteacute et peut eacutegalement lui associer lrsquoensemble de deacutenominations alternatives Dans ce cas

40httpobofoundryorg41httpwwwbioontologyorgtoolsportalbioportalhtml42httpwwwbioontologyorgtoolsalphahtml

56 Chapitre 2 Etat de lrsquoart

F 29 ndash Extrait de la G O

lrsquoontologie peut se preacutesenter comme un vocabulaire controcircleacute recouvrant un certain domaine et auquelpeuvent ecirctre associeacutes des ensembles de synonymes acronymes et abreacuteviations Les identifiants utiliseacutesdans lrsquoontologie permettent alors drsquoidentifier de faccedilon consensuelle les entiteacutes biologiques repreacutesenteacuteesdans diffeacuterentes sources

Lrsquoexemple le plus connu de vocabulaire controcircleacute utiliseacute en biologie est la G O ()[ABB+00] Les entiteacutes biologiques pour lesquelles elle propose un terme unique sont organiseacutees selontrois hieacuterarchies relatives respectivement aux fonctions moleacuteculaires aux composants cellulaires et auxprocessus biologiques Ces termes sont supposeacutes qualifier les produits de gegravenes et plus preacuteciseacutement leurfonction ougrave ils lrsquoexercent et comment La Figure 29 donne un aperccedilu des termes constituant la hieacuterarchiedes composants cellulaires Le succegraves de la revient agrave sa large utilisation pour lrsquoannotation de produitsde gegravenes dans diverses bases de donneacutees A partir de cette annotation les termes sont utiliseacutes pourinterroger de faccedilon transparente et homogegravene plusieurs sources de donneacutees mais aussi pour analyser lesreacutesultats drsquoexpeacuterimentations agrave haut-deacutebit

344 Lrsquoeacutechange de donneacutees entre applications

La deacutefinition drsquoune ontologie peut avoir comme objectif de speacutecifier un format drsquoeacutechange standardpour un domaine Il srsquoagit alors pour lrsquoontologie de deacutecrire preacuteciseacutement les donneacutees leurs types etleurs relations Ce genre drsquoapplication est inteacuteressant lorsque les langages de repreacutesentation du Webseacutemantique (OWL) faciles agrave publier et agrave eacutechanger sur le Web sont utiliseacutes Les ontologies construitesbeacuteneacuteficient au final de lrsquoensemble des technologies du Web seacutemantique nouvellement deacuteveloppeacutees etpeuvent ecirctre utiliseacutees de surcroicirct pour lrsquointeacutegration et lrsquoanalyse de donneacutees

MAG_OM [BB06] et BioPAX [BC08] sont deux standards speacutecifieacutes sous forme drsquoune ontologie etdeacutefinis pour lrsquoeacutechange de donneacutees Le premier est un modegravele qui deacutecrit les conditions expeacuterimentales etles reacutesultats drsquoexpeacuterience drsquohybridation moleacuteculaire en transcriptomique Il est utiliseacute pour le partage dece type de reacutesultats entre chercheurs mais eacutegalement pour la communication entre bases de donneacutees Le

3 Utilisation des ontologies pour lrsquointeacutegration de donneacutees heacuteteacuterogegravenes 57

second BioPAX est un standard drsquoeacutechange drsquoinformations sur les reacuteseaux biologiques Aussi il nrsquoa paseacuteteacute conccedilu comme une repreacutesentation des connaissances du domaine mais son deacuteveloppement en OWLlaisse la possibiliteacute de le consideacuterer comme tel et de lrsquoemployer pour des usages autres que lrsquoeacutechange dedonneacutees Par exemple le fait que des sources de donneacutees sur les reacuteseaux biologiques (comme Human-CyC Reactome) fournissent un accegraves agrave leur contenu dans le format BioPAX a permis lrsquoeacutemergence drsquounsystegraveme drsquointeacutegration de donneacutees relatif aux reacuteseaux appeleacute Pathway Commons43

345 Lrsquointeacutegration de donneacutees

Les ontologies ont la capaciteacute de fournir une repreacutesentation du contenu de plusieurs bases de donneacuteesbiologiques et des relations entre les contenus des diffeacuterentes bases Les meacutecanismes de raisonnementpeuvent ensuite utiliser de telles repreacutesentations pour face une requecircte poseacutee deacuteterminer quelles sont lesressources utiles pour y reacutepondre et en extraire les eacuteleacutements de reacuteponse

Lrsquoun des premiers systegravemes agrave utiliser une bio-ontologie pour lrsquointeacutegration de donneacutees est RW[ABC+99] Lrsquoontologie utiliseacutee dans RW composeacutee de quatre parties repreacutesente dans le langageO [FFR97] agrave la fois le domaine biologique consideacutereacute (le ribosome) et les meacutethodes drsquoanalysepossibles sur les donneacutees relatives agrave ce domaine Lrsquoontologie est instancieacutee agrave partir de diverses ressourcesdisponibles sur le Web et relatives au ribosome pour constituer la RW Les avantages de lrsquoutil-isation drsquoune ontologie sont ici essentiellement de proposer une repreacutesentation des donneacutees non seule-ment inteacutegreacutee mais eacutegalement associeacutee agrave une seacutemantique (de faccedilon manuelle) Lrsquooriginaliteacute principalede RW reacuteside dans son utilisation concomitante drsquoune repreacutesentation des entiteacutes biologiques maiseacutegalement des meacutethodes et objectifs drsquoanalyse de ces entiteacutes qui facilitent cette analyse et lrsquointerpreacutetationde ses reacutesultats est un systegraveme prototypique drsquointeacutegration de donneacutees qui suit une approche meacutediateur [SBB+00]

inclut notamment ndash une ontologie appeleacutee ontologyndash une appeleacutee le ldquomodegravele conceptuel biologiquerdquo qui fournit agrave lrsquoutilisateur les concepts neacuteces-

saires agrave la construction de requecirctesndash un ensemble de mappings entre les concepts du ldquomodegravele conceptuel biologiquerdquo et les scheacutemas

des sources inteacutegreacutees etndash une interface graphique agrave partir de laquelle lrsquoutilisateur peut deacutefinir sa requecircte

Lrsquoutilisation de suit le processus suivant Dans un premier temps lrsquoutilisateur utilise lrsquointerfacegraphique pour construire une requecircte La requecircte correspond agrave la description drsquoun concept de hautniveau formeacute agrave partir de concepts du ldquomodegravele conceptuel biologiquerdquo que lrsquoutilisateur trouve en nav-iguant dans la hieacuterarchie de lrsquoontologie et de constructeurs drsquoune La requecircte ci-dessous est un ex-emple construit avec dans laquelle les termes en gras sont des noms individus de la ceux enitalique sont des constructeurs de la proposeacutee celui entre guillemets est une valeur et les autres sontdes rocircles de lrsquoontologie

protein which

isHomologousTo protein which

hasName ldquoprotein name lardrdquoand

functionsInProcess apoptosis

Cette requecircte correspond agrave la question ldquoquelles sont les proteacuteines qui sont homologues agrave la proteacuteinelard et dont la fonction est impliqueacutee dans le processus biologique drsquoapoptoserdquo

43httpwwwpathwaycommonsorg

58 Chapitre 2 Etat de lrsquoart

Dans un second temps le systegraveme analyse les concepts utiliseacutes dans la requecircte pour deacuteterminerles sources pertinentes agrave interroger et construit ensuite un plan de requecirctes individuelles (ie chacunesur une seule source) en fonction des caracteacuteristiques de la source et des contraintes exprimeacutees dans larequecircte Dans un troisiegraveme temps le systegraveme exeacutecute les requecirctes propres agrave chaque source et collecte lesreacutesultats pour les retourner agrave lrsquoutilisateur La collecte des reacutesultats se fait par le biais de wrappers adapteacutesspeacutecialement agrave chaque source consideacutereacutee Lrsquoavantage principal de est de permettre lrsquoexpression derequecirctes complexes compareacute agrave des systegravemes standard comme SRS44 [EA93] ou Entrez45 [Bax06] et cegracircce agrave lrsquoutilisation des constructeurs de Son inconveacutenient majeur survient lorsque lrsquoon souhaite ladeacuteployer agrave lrsquoeacutechelle du Web et eacutetendre la liste des sources qursquoelle integravegre En effet un tel rafraicircchissementdemande lrsquoenrichissement de lrsquoontologie de la la creacuteation de nouveaux mappings et de nouveauxwrappers La liste des sources inteacutegreacutees par est tregraves reacuteduite ce qui fait de cet inconveacutenient unelimite majeure agrave son utilisation

Depuis de nombreux systegravemes utilisant des ontologies pour lrsquointeacutegration de donneacutees bi-ologiques ont vu le jour Nous citerons seulement [KPL03] et BGSRS [CBBDF07] quise distinguent notamment par le fait qursquoils sont opeacuterationnels

346 Les meacutecanismes de raisonnement

Lrsquoutilisation des meacutecanismes de raisonnement associeacutes aux ontologies constitue une application par-ticuliegraverement prometteuse mais encore peu reacutepandue Nous citerons ici deux travaux de Wolstencroft et

al [WMS+05 WLT+06] Dans le premier il est fait usage des meacutecanismes de veacuterification de consistance

et de classification de concepts sur une ontologie pour assister la construction du scheacutema drsquoune nouvellebase de donneacutees relatives aux familles de proteacuteines phosphatases Le second deacutetailleacute chapitre 4 section252 utilise les meacutecanismes de classification de concepts et drsquoinstances pour permettre la classificationautomatique de proteacuteines phosphatases dans leur famille et sous-famille

Dans le domaine biomeacutedical des meacutecanismes de raisonnement sont eacutegalement utiliseacutes pour deacuteduireles conseacutequences physiologiques de lrsquoendommagement drsquoartegraveres coronaires [RDM05] Dans ce travaillrsquoontologie (Foundational Model of Anatomy) [RMM+98] est utiliseacutee comme base pour repreacutesenteren OWL

ndash la relation entre chaque artegravere coronaire et la zone du tissu cardiaque qursquoelle vascularisendash lrsquoarborescence des artegraveres vascularisant le cœur notamment par une relation de continuiteacute asso-

ciant les artegraveres connecteacuteesndash lrsquoocclusion drsquoune artegraverendash lrsquoischeacutemie du tissu cardiaqueUn service de raisonnement associeacute agrave lrsquoontologie permet drsquoinfeacuterer par un meacutecanisme de classifica-

tion le type de conseacutequence sur les tissus cardiaques que peut avoir un endommagement des artegraveresLe systegraveme Kasimir utilise quant agrave lui le raisonnement agrave partir de cas en plus des meacutecanismes de

raisonnement associeacutes aux [dLN07] Ces meacutecanismes sont appliqueacutes agrave des protocoles de soins ducancer du sein repreacutesenteacutes en OWL pour lrsquoaide au diagnostic

35 Vers une inteacutegration semi-automatique de sources

Les sections preacuteceacutedentes montrent que lrsquointeacutegration de donneacutees mecircme lorsqursquoelle srsquoappuie sur desontologies preacutesente encore de nombreuses limites tout en posant dans lrsquoindustrie comme dans la recherchedes deacutefis cruciaux Il est illusoire drsquoespeacuterer voir agrave court terme lrsquoeacutemergence drsquooutils par exemple baseacutes surles technologies du Web seacutemantique capables drsquointeacutegrer de faccedilon entiegraverement automatique des sources

44httpsrsebiacuk45httpwwwncbinlmnihgovEntrez

3 Utilisation des ontologies pour lrsquointeacutegration de donneacutees heacuteteacuterogegravenes 59

de donneacutees heacuteteacuterogegravenes Cependant les avanceacutees dans le domaine de lrsquoalignement drsquoontologie con-stituent des pistes qui peuvent tout au moins reacuteduire lrsquointervention manuelle neacutecessaire agrave lrsquointeacutegration dedonneacutees Ainsi An et al deacutecrivent un outil semi-automatique appeleacute qui permet la mise en cor-respondance entre des scheacutemas de bases de donneacutees (relationnelles ou XML) et une ontologie [AMB06]Le travail de Leser et Naumann [LN05] constitue un proposition comparable appliqueacutee agrave lrsquointeacutegration debases de donneacutees biologiques Une direction inteacuteressante eacutevoqueacutee par Euzenat et al pour la deacutefinitionsemi-automatique de tels mappings est lrsquoutilisation des capaciteacutes de raisonnement associeacutees aux formal-ismes logiques [ES07]

La section 2 de ce chapitre preacutesentait les ontologies comme un moyen de repreacutesenter les connais-sances drsquoun domaine Une ontologie peut notamment ecirctre utiliseacutee dans le cadre de lrsquointeacutegration de don-neacutees ougrave elle peut jouer un rocircle analogue agrave un scheacutema global comme eacutevoqueacute dans cette section Dans cecas les avantages agrave utiliser une ontologie sont multiples celle-ci est associeacutee agrave une seacutemantique claire-ment deacutefinie suivant laquelle il est possible de mettre en accord les scheacutemas de sources heacuteteacuterogegravenes ellepermet lrsquoutilisation de meacutecanismes de raisonnement capables de veacuterifier la consistance de lrsquoontologie pour une ontologie du Web seacutemantique elle srsquoappuie sur un ensemble de technologies qui facilitent sonpartage et son deacuteveloppement

La contribution preacutesenteacutee dans le chapitre 3 propose une utilisation drsquoontologies originales pourlrsquointeacutegration de donneacutees La contribution preacutesenteacutee chapitre 4 reacuteutilise les mecircme ontologies ainsi que lereacutesultat de lrsquointeacutegration pour guider lrsquoextraction de connaissances La section suivante (4) est un eacutetat delrsquoart de lrsquoutilisation des ontologies pour guider lrsquoextraction de connaissances

60 Chapitre 2 Etat de lrsquoart

4 Extraction de Connaissances guideacutee par les Connaissances du Domainendash

Diffeacuterents auteurs dont Anand [ABH95] Phillips [PB01] Gottgtroy [GKM04] Cespivova [CRS+04]Lieber [LNST08] et plus geacuteneacuteralement les ateliers internationaux SWM [SHB01 BHS02] KDO [BFG+04ABG+06] et PriCKL [BSc07] se sont inteacuteresseacutes agrave lrsquoutilisation de connaissances du domaine formaliseacuteesdans des ontologies pour guider lrsquoanalyste et les machines dans le processus drsquoextraction de connais-sances

Crsquoest notamment sur cette ideacutee geacuteneacuterale qursquoest fondeacute le processus drsquoExtraction de Connaissances

guideacutee par les Connaissances du Domaine ( ou pour Knowledge Discovery guided by Domain

Knowledge en anglais) deacutecrit par Lieber et al [LNST08] Dans lrsquo les uniteacutes de connaissances ex-traites et valideacutees sont exprimeacutees dans un formalisme de repreacutesentation des connaissances afin drsquoecirctreinteacutegreacutees agrave une ontologie du domaine Lrsquoontologie ainsi enrichie est alors reacuteutiliseacutee lors des iteacuterationssuivantes du processus Lors de chaque iteacuteration du processus chacune des eacutetapes peut beacuteneacuteficier drsquoaborddes connaissances initiales et ensuite des connaissances nouvellement acquises

(i) Lors de lrsquoeacutetape de preacuteparation des donneacutees les connaissances facilitent lrsquointeacutegration de donneacuteesheacuteteacuterogegravenes et aident agrave la seacutelection de sous-ensembles de donneacutees plus pertinents agrave fouiller

(ii) Lors de lrsquoeacutetape de fouille de donneacutees les connaissances permettent de speacutecifier des contraintespour par exemple circonscrire ou au contraire eacutelargir lrsquoespace de recherche des algorithmes

(iii) Lors de lrsquoeacutetape drsquointerpreacutetation des uniteacutes extraites les connaissances aident agrave la visualisationet la validation des reacutesultats

Lrsquoontologie de domaine est associeacutee en permanence agrave des meacutecanismes de raisonnement capables deproduire des regravegles drsquoinfeacuterence potentiellement utiles Suivant ce cadre geacuteneacuteral deacutecrit par lrsquo dif-feacuterents travaux se sont appliqueacutes agrave eacutetudier comment en pratique lrsquoextraction de connaissances pouvaittirer parti de connaissances formaliseacutees plus ou moins preacuteciseacutement Les sections suivantes reacutesument ceuxqui nous ont paru les plus inteacuteressants que ce soit lors de la preacuteparation de la fouille ou de lrsquointerpreacuteta-tion

41 Preacuteparation de donneacutees guideacutee par les connaissances

Il est ici question de lrsquoutilisation de connaissances formaliseacutees dans des ontologies pour assister lestacircches drsquointeacutegration de nettoyage de transformation et de reacuteduction de donneacutees preacutesenteacutees chapitre 2section 1

Inteacutegration Lrsquoutilisation drsquoontologies lors de lrsquoextraction et lrsquointeacutegration de donneacutees largement eacutetudieacuteea eacuteteacute abordeacutee dans la section 3 de ce chapitre

Nettoyage Perez-Rey et al ont deacuteveloppeacute lrsquooutil OntoDataClean qui utilise lrsquoontologie OntoData-

Clean preprocessing ontology repreacutesenteacutee Figure 210 pour aider au cours de lrsquoeacutetape de nettoyage desdonneacutees agrave reacutesoudre les problegravemes drsquoinconsistance ou de donneacutees manquantes [PRAC06] Pour utilisercet outil lrsquoanalyste doit deacutecrire dans lrsquoontologie (ie en instanciant les concepts et rocircles) lrsquoenchaicircnementdes opeacuterations qursquoil souhaite appliquer aux diverses bases de donneacutees consideacutereacutees Ces opeacuterations sontpar exemple le remplacement des valeurs manquantes ou la suppression de tuples trop bruiteacutes Le sys-tegraveme est ensuite capable en se reacutefeacuterant aux opeacuterations deacutecrites dans lrsquoontologie de nettoyer les donneacuteesde faccedilon automatique Lrsquoontologie est ainsi utiliseacutee pour aider lrsquoanalyste agrave comprendre les diffeacuterentesopeacuterations possibles lors de cette eacutetape et agrave garder une trace des diffeacuterentes strateacutegies adopteacutees

4 Extraction de Connaissances guideacutee par les Connaissances du Domaine ndash 61

F 210 ndash Lrsquoontologie OntoDataClean preprocessing ontology preacutesenteacutee par Perez-Rey et al

[PRAC06] Les ellipses griseacutees sont les concepts et les rectangles blancs leurs instances Les lignessimples sont des relations de subsomption ou des assertions de concepts Les lignes fleacutecheacutees sont lesrocircles

Transformation Dans le cadre du projet MiningMart Euler et Scholz proposent un outil drsquoaide agrave latransformation de donneacutees qui utilise deux ontologies La premiegravere ontologie doit ecirctre manuellementconstruite en fonction du domaine eacutetudieacute Son but est double (a) fournir un modegravele plus proche de laconceptualisation du domaine de lrsquoanalyste et (b) fournir un modegravele du domaine mettant en valeur lesdeacutependances ou relations qursquoil explore La seconde ontologie doit permettre de deacutecrire les opeacuterationsneacutecessaires et leur enchaicircnement afin de rendre possible la transformation des donneacutees originales dansun modegravele qui correspond agrave la premiegravere ontologie (de domaine) speacutecialement construite Lrsquoutilisation decette ontologie a un rocircle similaire agrave celui de Perez-Rey et al lrsquoappreacutehension des opeacuterations possibles etla documentation des transformations effectueacutees

Bernstein et al utilisent une ontologie qui repreacutesente les meacutethodes de preacuteparation et de fouille de don-neacutees pour aider lrsquoanalyste agrave deacutefinir une strateacutegie drsquo optimale [BPH05] Pour cela lrsquoanalyste deacutecritla strateacutegie drsquo de son choix (objectifs jeux de donneacutees etc) avec les concepts de lrsquoontologie Lesystegraveme appeleacute Intelligent Discovery Assistant relieacute agrave lrsquoontologie propose une liste drsquoenchaicircnement demeacutethodes de preacuteparation et de fouille compatibles entre eux et avec le format initial des donneacutees puisfournit un classement des enchaicircnements proposeacutes selon des critegraveres objectifs comme le temps drsquoexeacutecu-tion ou la preacutecision des reacutesultats

Reacuteduction Liu et al [LY05] ainsi que Guyon et al [GE03] suggegraverent drsquoutiliser les connaissances dudomaine en premiegravere intension pour reacuteduire le jeu de donneacutees en eacuteliminant les attributs qui ne sont paspertinents En pratique de nombreuses approches drsquo utilisent de faccedilon implicite les connaissancesde lrsquoanalyste lors drsquoune seacutelection manuelle drsquoattributs drsquointeacuterecirct Cheng et al [CWT06] comparent defaccedilon empirique les meacutethodes automatiques de seacutelection (preacutesenteacutees en section 1) agrave une meacutethode faisant

62 Chapitre 2 Etat de lrsquoart

intervenir lrsquoexpertise de lrsquoanalyste Dans le cadre de cette eacutetude la seconde meacutethode montre une ameacutelio-ration de la sensibiliteacute de la classification proposeacutee Cependant cette preacuteparation manuelle se limite auxconnaissances propres de lrsquoanalyste sans se reacutefeacuterer aux connaissances potentiellement disponibles parailleurs Certaines eacutetudes suggegraverent lrsquoutilisation de connaissances mises agrave disposition de lrsquoexpert sousforme de listes drsquoattributs drsquointeacuterecirct ou de listes de phrases pour ameacuteliorer les reacutesultats de meacutethode drsquoou de fouille de texte [Gai89 AFC99 CFCH01] Dans ces cas la seacutelection (ou lrsquoannotation drsquoun doc-ument) reste manuelle mais lrsquoanalyste se reacutefegravere agrave une source de donneacutees exteacuterieure qursquoil interpregravete enterme de connaissances

Wilcox et al et Yu et al ont proposeacute drsquoutiliser des connaissances repreacutesenteacutees sous forme de con-traintes ou de regravegles de telle sorte agrave ce que le systegraveme puisse aider agrave la seacutelection de donneacutees [WH03YSS07] Wilcox et al ont montreacute dans le cadre de leur eacutetude de classification de documents que lrsquou-tilisation de connaissances est un critegravere plus important que le choix de la meacutethode de classificationemployeacutee (pour un ensemble de meacutethodes seacutelectionneacutees pour ecirctre traditionnellement utiliseacutees pour cettetacircche) Le travail de Yu et al preacutesente la particulariteacute de coupler une meacutethode de seacutelection automatiquebaseacutee sur une meacutethode agrave noyau et lrsquoutilisation de connaissances Les principales critiques qui peuventecirctre faites agrave ces deux travaux sont lrsquoabsence drsquoune seacutemantique associeacutee aux connaissances consideacutereacuteesla faible implication de lrsquoanalyste dans le processus de seacutelection et la propension agrave seacutelectionner desattributs qui permettront la deacutecouverte de connaissances plus attendues que nouvelles et surprenantes

Un travail reacutecent propose lrsquoutilisation drsquoune ontologie en pour guider la seacutelection drsquoattributs dansle cadre drsquoune opeacuteration appeleacutee le design de tacircche (task design) [SRR05] Lrsquoontologie sert alors agrave par-titionner lrsquoensemble des attributs en diffeacuterentes classes par le biais drsquoun mapping donneacutees-ontologie etpermet ainsi agrave la fouille de travailler sur des partitions plus homogegravenes et donc plus riches en reacutegulariteacutesCette meacutethode semble particuliegraverement pertinente puisqursquoelle combine connaissances drsquoune ontologie etorientation de la seacutelection selon lrsquoobjectif de lrsquoanalyste Toutefois la meacutethode proposeacutee reste tregraves geacuteneacuteraleet sa mise en œuvre contraignante puisque la mise en correspondance des donneacutees agrave fouiller et des con-cepts de lrsquoontologie deacutepend du domaine et est donc reacutealiseacutee de maniegravere ad hoc) et que la description despartitions potentiellement porteuses de reacutegulariteacutes est manuelle

Hormis celles qui concernent lrsquointeacutegration de donneacutees les meacutethodes faisant usage drsquoontologies pourguider la preacuteparation des donneacutees sont finalement peu reacutepandues La preacuteparation est pourtant une phasedeacuteterminante pour la suite du processus durant laquelle lrsquoanalyste est particuliegraverement solliciteacute Crsquoestparticuliegraverement le cas lors de la seacutelection de donneacutees eacutetape cruciale lorsque les meacutethodes de fouillesgeacutenegraverent des reacutesultats volumineux La seacutelection de donneacutees est justement une tacircche ougrave les connais-sances du domaine sont particuliegraverement utiles ce qui justifie leur utilisation de faccedilon semi-automatiquelorsqursquoelles sont formaliseacutees dans une relative au domaine eacutetudieacute

Dans la section 1 du chapitre 4 nous proposons pour guider la seacutelection drsquoutiliser une baseacutee surune ontologie de domaine et instancieacutee agrave partir du contenu des bases de donneacutees relatives De cette faccedilonlrsquoanalyste peut seacutelectionner un jeu de donneacutees agrave fouiller en prenant en compte ses propres connaissancescelles formaliseacutees dans la et beacuteneacuteficier des meacutecanismes de raisonnement associeacutes (subsomption clas-sification)

42 Fouille de donneacutees guideacutee par les connaissances

Faire usage de connaissances formaliseacutees au moment de lrsquoeacutetape centrale de fouille est deacutelicat puisquecela neacutecessite la conception ou la modification drsquoun algorithme de fouille de sorte que celui-ci prenne enconsideacuteration des eacuteleacutements de connaissance Nazeri et Bloedorn preacutesentent dans [NB04] des modifica-tions des algorithmes Apriori et C45 qui visent agrave produire des en prenant en compte des eacuteleacutementsde connaissance du domaine Les eacuteleacutements de connaissance sont dans ce cas des listes de regravegles (que

4 Extraction de Connaissances guideacutee par les Connaissances du Domaine ndash 63

nous appellerons aussi BC) repreacutesenteacutees selon un formalisme deacutefini preacuteciseacutement et non associeacute agrave uneseacutemantique Dans la version originale drsquoApriori le seul critegravere drsquoinclusion drsquoun motif46 est son sup-port Dans la version modifieacutee proposeacutee crsquoest drsquoabord la classe agrave laquelle le motif appartient dans la lorsqursquoil y est repreacutesenteacute qui est deacuteterminante Ainsi

ndash si le motif est dans la et appartient agrave la classe ldquomotifs inteacuteressantsrdquo alors il est conserveacute pourproduire les quelque soit son support

ndash inversement si le motif appartient agrave la classe ldquomotifs ininteacuteressantsrdquo alors il est eacutelimineacute quelquesoit son support

Lrsquoalgorithme 21 repreacutesente simplement lrsquoalgorithme Apriori et les modifications (en gras) proposeacuteespar Nazeri et Bloedorn Dans le cadre drsquoexpeacuterimentations meneacutees par les auteurs avec Apriorimodifieacutele nombre de regravegles ininteacuteressantes diminue sans que ne soient perdues les regravegles inteacuteressantes par rapportagrave lrsquoutilisation drsquoApriori classique

Algorithme 21

geacuteneacuterer les motifs freacutequents de longueur 1

Pour (n=2 agrave max) faire

geacuteneacuterer les motifs candidats de longueur n

Pour (chaque nouveau candidat) faire

veacuterifier si le motif est dans la bc

Si (motif isin ldquomotifs ininteacuteressantsrdquo)

eacuteliminer le motif

Sinon si (motif isin ldquomotifs inteacuteressantsrdquo)

conserver le motif

Sinon

Si (support(motif) gt supportmin)

conserver le motif

geacuteneacuterer les ra

Dans le cas de lrsquoalgorithme C45 qui est une meacutethode de construction drsquoarbre de deacutecision le choixde lrsquoordre des attributs qui permet la construction de lrsquoarbre de deacutecision est modifieacute de telle sorte que desattributs ayant un score faible soient choisis en prioriteacute En effet la associe agrave certains attributs un scoreutiliseacute pour pondeacuterer le classement initial des attributs et ainsi lrsquoordre des attributs choisis pour construirelrsquoarbre De nouvelles associations sont deacuteduites de lrsquoarbre puis utiliseacutees pour modifier les scores associeacutesaux attributs dans la afin drsquoecirctre pris en compte lors des exeacutecutions suivantes

Karel et Kleacutema [KK07] proposent eacutegalement de contraindre un algorithme de fouille (de recherchede quantitatives) en reacuteduisant lrsquoespace de recherche Le jeu de donneacutees exploreacute relatif agrave la transcrip-tomique est composeacute drsquoattributs correspondant agrave des niveaux drsquoexpression de gegravenes Les eacuteleacutements deconnaissance sur lesquels srsquoappuyent les auteurs sont les hieacuterarchies de termes de la Gene Ontology ()Les termes de annotent (ie caracteacuterisent) les gegravenes dans des bases de donneacutees de la mecircme faccedilonque les niveaux drsquoexpression viennent caracteacuteriser ces mecircme gegravenes Ceci permet drsquoassocier les annota-tions et les attributs relatifs au niveau drsquoexpression de gegravenes La hieacuterarchie de lrsquoontologie sert alorsagrave deacutefinir une mesure de similariteacute entre gegravenes qui repreacutesente le fait qursquoil est plus ou moins ldquoplausiblerdquoqursquoun couple de gegravene soit co-exprimeacute Lorsque les sont produites celles qui proposent drsquoassocier desgegravenes dont la co-expression est plausible sont preacutefeacutereacutees aux autres

46Les motifs sont les eacuteleacutements de base pour la geacuteneacuteration des avec lrsquoalgorithme Apriori

64 Chapitre 2 Etat de lrsquoart

Blouson Pantalon de ski

Chemise Tennis Chaussures

Chaussures

de randoneacuteedrsquoexterieur

Vecirctement

Vecirctement

F 211 ndash Taxonomie T

Transaction Produits acheteacutes100 Chemise200 Blouson Chaussures de randonneacutee300 Pantalon de ski Chaussure de randonneacutee400 Chaussures500 Chaussures600 Blouson

T 26 ndash Base de donneacuteesD

43 Interpreacutetation guideacutee par les connaissances

Les meacutethodes de fouille sont susceptibles de produire des quantiteacutes de reacutesultats importantes quirendent la tacircche drsquointerpreacutetation fastidieuse pour lrsquoanalyste Crsquoest notamment le cas de la recherche deregravegles drsquoassociation () qui produit des regravegles agrave la fois nombreuses et redondantes Pour reacutesoudre ceproblegraveme drsquoanalyse des de nombreuses mesures drsquointeacuterecirct objectives et subjectives ont eacuteteacute proposeacuteespour permettre le classement des regravegles [TKS02 McG05 Bri06] Lrsquointeacuterecirct drsquoune regravegle est un paramegravetreen partie subjectif lieacute aux attentes de lrsquoanalyste agrave ses propres connaissances mais aussi potentiellementlieacute aux connaissances du domaine disponibles Une taxonomie peut ainsi ecirctre utiliseacutee pour lrsquoanalyse des et la geacuteneacuteralisation des regravegles [SA95] Suivant cette meacutethode un ensemble de regravegles R = cup(Pi rarr Ci)dont lrsquoensemble des preacutemisses cupPi sont fils drsquoune mecircme classe Pp de la taxonomie et dont lrsquoensembledes conclusions cupCi sont eacutegalement fils drsquoune mecircme classe Cp ces regravegles peuvent ecirctre geacuteneacuteraliseacutees enune seule regravegle de forme Pp rarr Cp Par exemple le Tableau 26 repreacutesente une base de donneacutees D detransactions de magasin et la Figure 211 une taxonomie des produits du magasin Avec un support de 03(ie 2 transactions) et une confiance de 06 les quatre regravegles obtenues en utilisant la geacuteneacuteralisation sontrepreacutesenteacutees dans le Tableau 27 Les regravegles ltPantalon de skirArr Chaussure de randonneacuteegt et ltBlousonrArr Chaussures de randonneacuteegt ne satisfont pas les support et confiance minimums (respectivement 1

6et 1

6 ) ce qui en revanche est le cas de la regravegle plus geacuteneacuterale ltVecirctement drsquoexteacuterieur rArr Chaussures derandonneacuteegt (support = 2

6 )

Regravegle Support ConfianceVecirctement drsquoexteacuterieurrArr Chaussures de randonneacutee 033 066Vecirctement drsquoexteacuterieurrArr Chaussures 033 066Chaussures de randonneacuteerArr Vecirctement drsquoexteacuterieur 033 1Chaussures de randonneacuteerArr Vecirctement 033 1

T 27 ndash Regravegles conserveacutees (supportmin=03 confiancemin=06) apregraves geacuteneacuteralisation

4 Extraction de Connaissances guideacutee par les Connaissances du Domaine ndash 65

Individu A

Attribut X

Individu B

Attribut YRelation empirique

donneacuteesminusontologie

Relation seacutemantique

Mapping

Base deconnaissances

Base dedonneacutees

F 212 ndash Mapping simple proposeacute dans [SRR05] pour guider lrsquointerpreacutetation des reacutesultats de fouille

En plus drsquoune taxonomie Liu et al [LHCM00] utilisent un formalisme particulier pour repreacutesenterdes modegraveles de regravegles que lrsquoanalyste srsquoattend agrave deacutecouvrir Le modegravele geacuteneacuteral drsquoune regravegle est de la forme

ltP1 P2 Pn rArr C1C2 Cngt [support][con f iance]

ougrave les eacuteleacutements de P1 P2 Pn et C1C2 Cn sont soit un attribut (et un terme de la taxonomie) soitun motif soit une expression reacuteguliegravere pour deacutecrire une classe de motifs Le systegraveme associeacute mesure unedistance entre chaque regravegle trouveacutee et les modegraveles proposeacutes de faccedilon agrave chiffrer le caractegravere inattendu desregravegles trouveacutees Les regravegles les plus diffeacuterentes des modegraveles de regravegles proposeacutes par lrsquoanalyste sont les plusinattendues Par exemple un modegravele deacutefini comme suit

ltChaussures de randonneacutee Chaussure+rArr Chemise+ gt

signifie que les regravegles associant au moins un des attributs Chaussures de randonneacutee ou Chaussure avecau moins lrsquoattribut Chemise sont attendues Ceci permet par exemple de mettre en avant le caractegravereinattendu de la regravegle

ltChaussures de randonneacuteerArr Vecirctement drsquoexteacuterieurgt

dont la conclusion ne contient pas lrsquoattribut ChemiseUn autre moyen de faciliter lrsquointerpreacutetation est le deacuteveloppement drsquooutils de visualisation et de vali-

dation des reacutesultats Svatek et al [SRR05] ou Vanzin et al [VB05] proposent des systegravemes fondeacutes sur lemecircme principe drsquoun mapping donneacutees-ontologie preacutealablement eacutetabli Celui-ci permet drsquoexploiter les re-lations de lrsquoontologie et la seacutemantique associeacutee pour aider lrsquoanalyste agrave interpreacuteter les relations empiriquesmises en eacutevidence lors de la fouille (voir Figure 212)

Lrsquooutil de visualisation inclus dans le systegraveme permet drsquoeacutevaluer et drsquointerpreacuteter les reacutesultats de fouilleen affichant et en permettant la navigation au travers des relations de lrsquoontologie associeacutees aux reacutesultats

Les approches preacutesenteacutees dans cette section montrent la neacutecessiteacute de deacutefinir un mapping entre lesdonneacutees analyseacutees et lrsquoontologie La deacutefinition de tels mappings a eacuteteacute abordeacutee dans la section concernantlrsquoutilisation des ontologies pour guider lrsquointeacutegration de donneacutees (section 33) Dans le cas des travaux re-latifs agrave lrsquoextraction de connaissances nous observons qursquoil srsquoagit le plus souvent de meacutethodes heuristiqueset qursquoaucune approche geacuteneacuterale nrsquoest proposeacutee pour la deacutefinition ou la formalisation de tels mappingsDe plus la difficulteacute agrave faire correspondre des valeurs (les donneacutees) et des objets (les instances de lrsquoontolo-gie) au sein des mappings nrsquoest pas abordeacutee dans ces travaux Cela nous conduit agrave proposer drsquoexploiter

66 Chapitre 2 Etat de lrsquoart

les reacutesultats des travaux sur lrsquointeacutegration seacutemantique pour deacutevelopper des strateacutegies drsquoutilisation desconnaissances dans un processus drsquo (Chapitre 4)

Par ailleurs il est possible de distinguer deux types drsquoexploitation de la seacutemantique associeacutees auxontologies selon le type drsquoontologie consideacutereacutee Drsquoune part les ontologies qui ne sont pas associeacutees agraveune seacutemantique preacutecise comme les taxonomies ou les vocabulaires controcircleacutes preacutesentent lrsquoavantage drsquoecirctrefaciles agrave manipuler et ainsi de tirer parti au maximum du peu de seacutemantique qui leur est associeacute Parexemple elle peuvent ecirctre facilement associeacutees au contenu de bases de donneacutees ou de pages Web qursquoilest alors possible drsquoanalyser en consideacuterant la structure de lrsquoontologie comme un lien entre tuples oupages Web Crsquoest notamment le cas pour les bases de donneacutees biologiques annoteacutees avec la et letravail de Karel et Klema [KK07] Drsquoautre part les travaux usant drsquoontologies repreacutesenteacutees selon unformalisme associeacute agrave une seacutemantique preacutecise comme les font un usage minimal de cette seacutemantiquemalgreacute les contraintes imposeacutees par leur exploitation La capaciteacute naturelle des objets agrave repreacutesenter undomaine (ainsi agrave mieux le comprendre et agrave le faire comprendre) et lrsquoorganisation hieacuterarchique demeurentles deux principales proprieacuteteacutes utiliseacutees pour faciliter lrsquoextraction de connaissances En revanche lespossibiliteacutes offertes par lrsquoexpressiviteacute des formalismes utiliseacutes et par les meacutecanismes de raisonnementsont quant agrave elles plus rarement utiliseacutees

Nous pensons que le deacuteveloppement des technologies du Web seacutemantique est une opportuniteacute quioffre la possibiliteacute de tirer le meilleur parti drsquoune seacutemantique formelle et des meacutecanismes de raisonnementassocieacutes Lrsquoobjectif de cette thegravese est notamment drsquoexploiter au maximum ces possibiliteacutes pour guider ladeacutecouverte de connaissances en biologie

Chapitre 3

Ontologies pour lrsquointeacutegration de donneacuteesen pharmacogeacutenomique

Ce chapitre preacutesente le construction de deux ontologies originales SNP-Ontology et SO-Pharm etleur utilisation pour lrsquointeacutegration de donneacutees pharmacogeacutenomiques La particulariteacute principale de lrsquoap-proche utiliseacutee pour lrsquointeacutegration est de transformer les reacutesultats de requecirctes pour peupler une Base deConnaissance () qui servira par la suite agrave guider lrsquoextraction de connaissances (voir chapitre 4)

La section 1 de ce chapitre deacutecrit tout drsquoabord la meacutethodologie rigoureuse adopteacutee pour construirenos ontologies puis deacutetaille chacune des eacutetapes de cette meacutethodologie mises en œuvre dans le cas dela construction de lrsquoontologie SNP-Ontology puis de lrsquoontologie SO-Pharm La section 2 propose unemeacutethode drsquointeacutegration de donneacutees qui utilise les ontologies drsquoune faccedilon similaire agrave un scheacutema globaldans une approche drsquointeacutegration de type meacutediateur Les sections 31 et 32 deacutecrivent les applications decette meacutethode et les expeacuterimentations conduites avec des donneacutees relatives aux variations geacutenomiques etpharmacogeacutenomiques Enfin la section 4 discute les reacutesultats obtenus

1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre

Avant de pouvoir utiliser une ontologie il est eacutevidemment neacutecessaire de la construire Une telle con-struction est un travail long et deacutelicat qui demande une collaboration entre ingeacutenieurs des connaissancesmaicirctrisant les meacutethodes de repreacutesentation des connaissances et experts du domaine maicirctrisant les con-naissances agrave repreacutesenter Afin de valoriser les efforts engageacutes lors de leur construction des ontologiesexistantes sont partageacutees dans des bibliothegraveques drsquoontologies sur le Web comme crsquoest par exemple le casdans le domaine de la biologie avec les sites OBO Foundry47 et BioPortal48 La mise agrave disposition de cesontologies peut en theacuteorie eacuteviter la reconstruction de nouvelles ontologies pour les domaines deacutejagrave cou-verts Cependant la conceptualisation drsquoune ontologie deacutepend eacutetroitement de la deacutefinition du domaineqursquoelle repreacutesente et des objectifs lieacutes agrave sa construction crsquoest pourquoi il est rare en pratique qursquouneontologie existante convienne en mecircme temps au domaine et aux objectifs drsquoun nouveau travail Dansun premier cas extrecircme aucune ontologie ne correspond au domaine et objectifs il est alors neacutecessairede construire entiegraverement une nouvelle ontologie Dans un deuxiegraveme cas plus courant les ontologiesexistantes couvrent partiellement le domaine et reacutepondent partiellement aux exigences imposeacutees par lesobjectifs Une deacutemarche rationnelle consiste alors agrave reacuteutiliser les ontologies existantes en les adaptant agraveses propres domaine et objectifs

47httpobofoundryorg48httpwwwbioontologyorgtoolsportalbioportalhtml

67

68 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

Cette section preacutesente drsquoabord une meacutethodologie de construction drsquoontologie inspireacutee des meacutethodesdeacutecrites dans la litteacuterature mais adapteacutee agrave notre propos Une des particulariteacutes de cette meacutethodologieest drsquoinclure une eacutetape de formalisation des relations eacuteventuelles avec drsquoautres ontologies existantesest formellement deacutecrite avant leur impleacutementation Nous preacutesentons ensuite (sections 12 et 13) lesparticulariteacutes associeacutees agrave la mise en œuvre de cette meacutethode lors de la construction de deux ontologies SNP-Ontology qui repreacutesente des connaissances relatives aux variations geacutenomiques (ou variants) etSO-Pharm qui englobe plus geacuteneacuteralement le domaine de la pharmacogeacutenomique

11 Meacutethodologie de construction manuelle drsquoontologies pour lrsquointeacutegration de donneacutees

Des meacutethodes semi-automatiques comme la classification la fouille de textes peuvent ecirctre utiliseacuteespour construire une ontologie [Ome01 BCM05] Ces meacutethodes sont inteacuteressantes pour constituer unerepreacutesentation des connaissances agrave partir de scheacutemas de bases de donneacutees ou de corpus de textes Enrevanche elles sont peu compatibles avec lrsquoobjectif principal de nos ontologies qui est de proposer unerepreacutesentation des connaissances qui soit la plus proche possible des connaissances de lrsquoexpert et leplus indeacutependante possible de la structures des bases de donneacutees existantes avec lrsquoideacutee que ceci facilitelrsquointeacutegration de donneacutees et lrsquoExtraction de Connaissances agrave partir de Bases de Donneacutees ()

Les ontologies construites par des meacutethodes semi-automatiques proposent une repreacutesentation desconnaissances marqueacutee par la structuration et le format des sources de donneacutees qursquoelles exploitent In-versement nous souhaitons une repreacutesentation la plus neutre possible vis agrave vis des sources de maniegravereagrave laisser possible la mise en correspondance de lrsquoontologie obtenue avec le contenu drsquoun maximum desources heacuteteacuterogegravenes existantes ou agrave venir De plus la construction semi-automatique drsquoontologie est unchamp de recherche agrave part entiegravere Les meacutethodes qui en eacutemergent sont souvent deacutependantes drsquoun domaineet drsquoun format de source et leur utilisation neacutecessite en conseacutequence une adaptation et une eacutevaluationcoucircteuses en temps qui sortent du cadre de nos travaux Pour ces diffeacuterentes raisons nous preacutefeacuteronsune construction manuelle suivant une meacutethodologie deacutefinie de faccedilon rigoureuse (deacutecrite ci-apregraves) etimpliquant des experts du domaine

La meacutethodologie adopteacutee correspond agrave lrsquoadaptation agrave notre contexte des processus de constructioniteacuteratifs deacutecrits classiquement [UK95 FGPJ97 NM01] De cette meacutethodologie ressortent cinq eacutetapes la speacutecification la conceptualisation la formalisation lrsquoimpleacutementation et enfin lrsquoeacutevaluation dont lesreacutesultats conduisent agrave une nouvelle iteacuteration

111 Speacutecification

Le domaine couvert par lrsquoontologie doit ecirctre clairement deacutefini avec les experts Cette deacutefinition inclutla preacutecision des limites du domaine eacuteventuellement de ce que ne couvre pas lrsquoontologie et du niveau degranulariteacute demandeacute pour repreacutesenter les connaissances du domaine Les objectifs pour lesquels lrsquoon-tologie est construite doivent aussi ecirctre preacuteciseacutement deacutetermineacutes avec les experts

Durant cette eacutetape il est important de deacutefinir les critegraveres drsquoeacutevaluation selon lesquels lrsquoontologie serajugeacutee agrave la fin de chaque iteacuteration du processus de construction Dans notre cas ces critegraveres sont (1) laconsistance49 de lrsquoontologie (2) la capaciteacute agrave reacutepondre aux questions de compeacutetence ie une liste dequestions auxquelles lrsquoontologie doit permettre de reacutepondre (3) la capaciteacute agrave repreacutesenter explicitement

des connaissances implicites contenues dans des bases de donneacutees ou des publications scientifiquesDes regravegles de nommage (deacutebut du nom avec ou sans majuscule sans espace liste des caractegraveres

accepteacutes etc) sont adopteacutees pour les noms de concepts de relations entre concepts drsquoindividus et lesvaleurs qui seront utiliseacutes lors de la construction

49Une ontologie est consistante si tous ces concepts peuvent ecirctre instancieacutes

1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre 69

Ensuite deux listes sont eacutetablies en parallegravele une liste des termes du domaine eacutetablie par lrsquoexpertet une liste des sources de donneacutees et de connaissances relatives au domaine Les sources contenuesdans la seconde liste peuvent ecirctre de nature tregraves diffeacuterente comme un modegravele conceptuel (en UML ouen un langage apparenteacute) un scheacutema XML une base de donneacutees une ontologie OWL ou encore unvocabulaire controcircleacute Des exemples concrets de telles listes de sources sont donneacutes dans la suite de cechapitre Les sources de cette liste sont par la suite exploreacutees pour enrichir la liste initiale de termes

Dans un deuxiegraveme temps la liste des sources est utiliseacutee pour identifier les sources de connaissancesqui peuvent ecirctre reacuteutiliseacutees pour la construction de lrsquoontologie Les sources de connaissances sont seacutelec-tionneacutees notamment en fonction de leur pertinence par rapport aux objectifs fixeacutes et en fonction de leurqualiteacute Les critegraveres de qualiteacute preacuteconiseacutes par lrsquoinitiative OBO Foundry50 constituent une liste de critegraveressur lesquels il est possible de srsquoappuyer pour choisir les meilleures sources agrave reacuteutiliser Dans le cas ougraveaucune source de connaissances nrsquoest suffisamment pertinente pour ecirctre reacuteutiliseacutee dans la constructionde lrsquoontologie alors lrsquoontologie doit ecirctre entiegraverement construite

112 Conceptualisation

La conceptualisation du domaine se fait agrave lrsquoaide de diagrammes de classes UML [RBJ00] Lrsquoex-pressiviteacute offerte par UML lrsquoadaptation des classes (ie de la repreacutesentation par objets) pour repreacutesenterles concepts et lrsquoouverture du langage UML font de ce type de diagramme un outil adapteacute agrave la con-ceptualisation drsquoune ontologie [KCH+02] La liste de termes est utiliseacutee pour identifier les concepts delrsquoontologie sous la forme de classes UML auxquels sont assigneacutes un nom et une deacutefinition preacutecise sousla forme drsquoun texte libre Une fois ces concepts identifieacutes leurs relations hieacuterarchiques et non hieacuterar-chiques sont modeacuteliseacutees sous forme drsquoassociations dans les diagrammes de classes

Les relations entre les concepts propres agrave la nouvelle ontologie et les concepts externes des ontologiesreacuteutiliseacutees sont eacutegalement deacutefinies durant la conceptualisation en diagramme de classes Dans le caspreacutesent les relations proposeacutees entre concepts propres et concepts externes sont restreintes agrave trois typesparticuliers de relations la geacuteneacuteralisation lrsquoeacutequivalence et lrsquoagreacutegation

Geacuteneacuteralement le choix du type de relation entre deux concepts est deacutetermineacute par les experts qui pren-nent en consideacuteration leurs connaissances du domaine et les deacutefinitions des deux concepts Cependantdans certains cas le choix du type de relation entre deux concepts provenant de deux bio-ontologies estorienteacute par le type des ontologies consideacutereacutees En effet les ontologies utiliseacutees dans le domaine biomeacutedi-cal peuvent ecirctre diviseacutees en trois cateacutegories principales [RKM+05]

ndash les meacuteta-ontologies qui deacutecrivent des concepts et rocircles indeacutependants du domaine qui servent demodegravele ou de composant pour les ontologies plus speacutecifiques (par exemple DOLCE51 SUMO52)

ndash les ontologies de domaines qui repreacutesentent un certain domaine drsquoapplication et deacutecrivent les en-titeacutes qui lui sont relatives suivant un formalisme de repreacutesentation des connaissances (comme uneLogique de Descriptions )

ndash les vocabulaires controcircleacutes speacutecialiseacutes souvent deacuteveloppeacutes manuellement par un consortium drsquoex-perts pour lrsquoannotation des bases de donneacutees (par exemple G O)

Typiquement une ontologie de domaine en va geacuteneacuteraliser les concepts drsquoun vocabulaire speacutecialiseacutecrsquoest agrave dire que la description formelle drsquoun concept va geacuteneacuteraliser un ensemble de concepts speacutecial-iseacutes De faccedilon similaire des ontologies dont le niveau drsquoabstraction est plus eacuteleveacute peuvent agrave leur tourgeacuteneacuteraliser les deacutefinitions des concepts de lrsquoontologie de domaine Les ontologies que nous souhaitonsconstruire sont des ontologies de domaine en qui proposent des relations vers des vocabulaires con-trocircleacutes Lrsquoassociation de ces deux types drsquoontologie permet de beacuteneacuteficier conjointement de la seacutemantique

50le principes de qualiteacute de lrsquoOBO Foundry httpobofoundryorgcritshtml (derniegravere visite le 17072008)51httpwwwloa-cnritDOLCE52httpwwwontologyportalorg

70 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

F 31 ndash Extrait drsquoun diagramme de classes UML illustrant les relations de geacuteneacuteralisation entre un con-cept issu drsquoun vocabulaire controcircleacute Sequence Ontology (SO) un concept drsquoune ontologie de domaineSNP-Ontology (SNPO) et un concept drsquoune meacuteta-ontologie Basic Formal Ontology (BFO)

associeacutee aux et de la richesse et de lrsquoexpertise associeacutees aux vocabulaires controcircleacutesPar exemple comme lrsquoillustre la Figure 31 le concept propre de lrsquoontologie de domaine SNP-

Ontology S NPO variant geacuteneacuteralise le concept externe S O substitution et ses descendants issusdu vocabulaire controcircleacute Sequence Ontology Par ailleurs le mecircme concept S NPO variant est luimecircme geacuteneacuteraliseacute par le concept externe BFO Ob ject importeacute drsquoune meacuteta-ontologie et ainsi heacuterite etreacuteutilise les deacutefinitions formelles du concept qui y est deacutecrit

113 Formalisation

La formalisation de lrsquoensemble de lrsquoontologie en (SHOIN(D)) est meneacutee de front avec son im-pleacutementation en OWL-DL sauf pour ce qui concerne la formalisation des relations entre concept propreet concept externe (appartenant agrave une autre ontologie) qui est eacutetablie en au preacutealable En fonction dutype de relation choisi entre un concept propre et un concept externe lors de la conceptualisation unaxiome est deacutecrit entre les concepts de correspondants noteacutes Cprop et Cext

ndash la geacuteneacuteralisation drsquoun concept propre par un concept externe est traduite par la relation de sub-somption

Cprop ⊑ Cext

ndash inversement la speacutecialisation drsquoun concept propre par un concept externe est traduite par lrsquoinversede la subsomption

Cprop ⊒ Cext

ndash lrsquoeacutequivalence entre deux concepts est formaliseacutee par lrsquoaxiome

Cprop equiv Cext

ndash la formalisation drsquoune relation drsquoagreacutegation entre deux concepts est noteacutee

Cprop ⊑ existisPartOfCext

ou lrsquoinverse si crsquoest le concept externe qui est une partie du concept propreLrsquoexemple de relations entre concepts propres et externes repreacutesenteacute Figure 31 peut ainsi ecirctre noteacute

comme suit

SNPO variant ⊑ BFO objectSNPO variant ⊒ SO substitution

1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre 71

Des exemples concrets et plus varieacutes des diffeacuterents types drsquoaxiomes possibles sont donneacutes dans lasuite de ce chapitre

Les domaines appeleacutes en anglais ontology matching ontology alignment ou ontology mapping srsquoin-teacuteressent au deacuteveloppement de systegravemes drsquoalignement drsquoontologies Ces systegravemes visent agrave eacutetablir laplupart du temps de faccedilon semi-automatique des relations de geacuteneacuteralisation ou drsquoeacutequivalence entre lesconcepts de deux ontologies distinctes Ils exploitent pour cela la similariteacute des noms de concepts deleurs deacutefinitions formelles (mais aussi de leurs extensions de leurs positions relatives dans une structureetc) pour proposer des relations entre concepts issus drsquoontologies distinctes [ES07] Nous privileacutegionsici la deacutefinition manuelle par les experts du domaine des relations entre concepts drsquoontologies distinctes

Des initiatives reacutecentes notamment le C-OWL [BGvH+03] clarifient la seacutemantique et enrichissentles types de relations possibles pour articuler des concepts drsquoontologies distinctes

114 Impleacutementation

La formalisation en et lrsquoimpleacutementation en OWL-DL sont imbriqueacutees Sur la base des diagrammesde classes les concepts et leurs relations sont deacutecrits formellement sous forme de concepts et rocircles en agrave lrsquoaide de lrsquoeacutediteur drsquoontologie Proteacutegeacute [KFNM04]

Malheureusement il nrsquoexiste pas de systegraveme automatique de conversion des diagrammes de classesUML en axiomes OWL Aussi la conversion est faite manuellement Les concepts et relations simplesen UML sont directement traduits en revanche les concepts plus complexes neacutecessitent une attentionparticuliegravere Par exemple les ne permettent que la repreacutesentation de relations binaires Cela rendrelativement complexe la formalisation des relations n-aires repreacutesenteacutees en UML Le moyen le pluscourant pour surmonter ce problegraveme est appeleacute la reacuteification [NR06] Celle-ci permet drsquoeacuteviter lrsquoutilisationde relations n-aires lors de la conceptualisation en preacutefeacuterant la construction de concepts suppleacutementaireset notamment des concepts qui deacutecrivent une relation n-aire et la deacutecomposent en plusieurs relationsbinaires

Pour ecirctre articuleacutees avec la nouvelle ontologie les ontologies preacuteceacutedemment seacutelectionneacutees doiventecirctre impleacutementeacutees dans le mecircme langage ie en OWL Cela neacutecessite leur conversion lorsqursquoelles nesont pas directement disponibles dans ce langage Elles sont ensuite importeacutees et relieacutees agrave lrsquoontologie parlrsquoimpleacutementation en OWL des axiomes deacutefinis lors de lrsquoeacutetape preacuteceacutedente Pour que lrsquoimpleacutementation deces axiomes soit possible il est neacutecessaire que les diffeacuterentes ontologies articuleacutees par les axiomes soientphysiquement mises en preacutesences Il est alors neacutecessaire de speacutecifier le chemin drsquoaccegraves et lrsquoespace denommage unique (namespace en anglais) des ontologies relieacutees de telle sorte que leurs concepts et rocirclespuissent ecirctre eacutevoqueacutes dans les descriptions de concepts propres agrave lrsquoontologie en construction

Drsquoun point de vue theacuteorique il est possible de consideacuterer la liste drsquoaxiomes entre concepts propreset externes comme une TBox agrave part entiegravere Crsquoest notamment ce qui semble le plus pertinent du faitque ceci permet drsquoeacuteviter drsquoavoir agrave incorporer des concepts externes dans la TBox drsquoune ontologie et deainsi garantir lrsquointeacutegriteacute de lrsquoontologie produite aussi bien que celle des ontologies articuleacutees Cepen-dant les contraintes qursquoimposent la mise en œuvre drsquoune telle modularisation des ontologies limite sonimpleacutementation dans les outils standards drsquoeacutedition drsquoontologie tel que Proteacutegeacute

115 Eacutevaluation

Elle se fait suivant les trois critegraveres deacutefinis lors de la speacutecification consistance questions de compeacute-

tence et capaciteacute agrave repreacutesenter des connaissances du domaineLa consistance de lrsquoontologie et la classification de ses concepts sont veacuterifieacutees reacuteguliegraverement au fur

et agrave mesure et agrave lrsquoissue de la formalisationimpleacutementation agrave lrsquoaide des meacutecanismes de raisonnement

72 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

standards impleacutementeacutes dans RacerPro [HM03]La qualiteacute des reacuteponses aux questions de compeacutetences est eacutevalueacutee selon des critegraveres deacutefinis lors de

la speacutecification Dans notre cas les reacuteponses agrave ces questions ne deacutependent pas seulement de lrsquoontologiemais eacutegalement du systegraveme dans lequel elle est impliqueacutee un systegraveme drsquointeacutegration de donneacutees oudrsquoextraction de connaissances

La capaciteacute de lrsquoontologie agrave repreacutesenter des connaissances eacutetablies du domaine est eacutevalueacutee par lrsquoin-stanciation manuelle de lrsquoontologie agrave partir drsquoexemples de connaissances de deux origines diffeacuterentesElles peuvent ecirctre soit extraites de bases de donneacutees soit extraites de publications scientifiques du do-maine

Lrsquoeacutevaluation de lrsquoontologie suivant lrsquoensemble de ces critegraveres permet drsquoidentifier des concepts et desrocircles absents ou mal deacutecrits dans lrsquoontologie Ceux-ci sont alors pris en consideacuteration pour ameacuteliorer lesspeacutecification conceptualisation et impleacutementation lors de lrsquoiteacuteration suivante du processus de construc-tion

Il nrsquoy a pas agrave proprement parler de critegravere drsquoarrecirct de la constrution drsquoune ontologie Certain auteursutilisent comme en geacutenie logiciel la notion de cycle de vie [DCGR98] Un premier cycle de vie delrsquoontologie se termine lorsque celle-ci est exploiteacutee dans le cadre de lrsquoutilisation pour laquelle elle aeacuteteacute deacuteveloppeacutee Cependant cette utilisation nrsquoest pas forcement un aboutissement et peut donner lieu agravelrsquoidentification drsquoimperfections qursquoun nouveau cycle drsquoameacutelioration et drsquoenrichissement de lrsquoontologievisera agrave corriger

1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre 73

12 Construction drsquoune ontologie pour les variations geacutenomiques SNP-Ontology

121 Speacutecification

Domaine couvert par SNP-Ontology Lrsquoobjet de SNP-Ontology est de proposer une repreacutesentationformelle des variations geacutenomiques Ces variations geacutenomiques sont des reacutegions du geacutenome clairementlocaliseacutees dont la composition en nucleacuteotides est susceptible de varier entre les individus drsquoune mecircmeespegravece La section 2 du chapitre 1 donne plus de deacutetails sur les variations geacutenomiques La majoriteacutede ces variations (environ 90 selon Kruglyak et Nickerson [KN01]) sont des variations ponctuellesie limiteacutees agrave un nucleacuteotide alors appeleacutees SNP pour Single Nucleotide Polymorphism Malgreacute son nomSNP-Ontology ne se limite pas agrave la repreacutesentation des SNP mais repreacutesente les variations geacutenomiques ausens large Elle permet de repreacutesenter sans ambiguiumlteacute une variation geacutenomique localiseacutee sur une seacutequencedrsquoADN ainsi que les conseacutequences que cette variation peut avoir au niveau du transcriptome (sur uneseacutequence drsquoARN) et du proteacuteome (sur une seacutequence drsquoacides amineacutes) SNP-Ontology est deacuteveloppeacutee defaccedilon volontairement geacuteneacuterale afin de permettre la repreacutesentation des variations du geacutenome de diffeacuterentsorganismes ainsi que les variations relativement agrave diffeacuterentes versions drsquoun mecircme geacutenome Une tellerepreacutesentation nrsquoeacutetait jusqursquoalors pas disponible (tout au moins publiquement)

Les derniegraveres versions de SNP-Ontology permettent de repreacutesenter les haplotypes et les variationsdu nombre de copies [RIF+06] La repreacutesentation de notions complexes comme lrsquoinfluence drsquoune vari-ation geacutenomique sur lrsquoeacutepissage [HRT+05] ou encore sur la quantiteacute de proteacuteines traduites ne sont pasrepreacutesenteacutees mais constituent des pistes drsquoeacutevolution pour ses versions futures

Objectifs de SNP-Ontology La repreacutesentation non ambigueuml des variations dans SNP-Ontology a pourobjectif de permettre lrsquointeacutegration de donneacutees heacuteteacuterogegravenes relatives aux variations geacutenomiques et agraveleurs conseacutequences Pour cela lrsquoontologie doit permettre (1) la repreacutesentation des variations suivantdiffeacuterents modes de description existants (2) la repreacutesentation de lrsquoeacutequivalence entre deux descriptionsdistinctes drsquoune mecircme variation ainsi que (3) la correspondance entre une variation geacutenomique et sesconseacutequences aux niveaux du transcriptome et du proteacuteome Par exemple la variation noteacutee TPMT3C

est eacutequivalente agrave celle noteacutee Chr6 18238897 AG et induit au niveau proteacuteique une variation deacutecritepar TPMT TYR240CYS Lrsquoobjectif geacuteneacuteral de SNP-Ontology est de faciliter chaque eacutetape du processusdrsquo preacuteparation (y compris lrsquointeacutegration) fouille et interpreacutetation

Critegraveres drsquoeacutevaluation particuliers Des exemples de questions de compeacutetence auxquelles SNP-Ontologydoit reacutepondre sont

ndash Le gegravene humain CYP2D6 preacutesente-t-il des variations geacutenomiques ndash Si oui certaines drsquoentre elles sont elles reacutepertorieacutees agrave la fois dans les bases dbSNP et OMIM ndash Certaines sont elles reacutepertorieacutees dans la base PharmGKB et dans aucune autre ndash Parmi ces mecircmes variations lesquelles sont non-synonymes ie localiseacutees dans une reacutegion codante

et qui entraicircne une variation drsquoacides amineacutes dans la proteacuteine reacutesultante ndash Certaines de ces variations sont elles localiseacutees agrave une distance infeacuterieure agrave 50 nucleacuteotides en amont

ou en aval des exons du gegravene TPMT ndash Est-il possible de deacuteterminer un ensemble de tag-SNP qui marquent les haplotypes auxquels ap-

partiennent les variants de lrsquoensemble initial

SNP-Ontology doit permettre de repreacutesenter les connaissances qui peuvent ecirctre extraites des bases dedonneacutees que lrsquoon souhaite inteacutegrer ie les connaissances relatives aux variations geacutenomiques enregistreacuteesdans les bases dbSNP OMIM PharmGKB HapMap et dans des bases de donneacutees locus speacutecifiques

74 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

Listes de termes et de sources de donneacutees et de connaissances relatives Une liste des termes utiliseacutesdans le domaine et une liste des source de donneacutees et de connaissances relatives au domaine sont con-stitueacutees La liste des sources utiliseacutees pour enrichir la liste des termes relatifs aux variations geacutenomiquesest preacutesenteacutee dans le Tableau 31 Seules deux sources de connaissances preacutesentent un inteacuterecirct agrave ecirctre ar-ticuleacutees avec SNP-Ontology AA Ontology et Sequence Ontology dont une bregraveve description est donneacuteeTableau 32

Nom de la source Type de source URL

AA Ontology Ontologie OWL geacuteneacuterique http wwwco-odeorgontologiesamino-acid

dbSNP scheacutema XML modegravele de donneacutees geacuteneacuterique http wwwncbinlmnihgovprojectsSNP

HapMap scheacutema XML humain http wwwhapmaporg

HGVBase DTD modegravele de donneacutees humain http hgvbasecgbkise

BD inserm umrs538 DTD modegravele de donneacutees humain LS priveacutee

MECV Vocabulaire controcircleacute geacuteneacuterique http wwwebiacukmutations

OMG SNP Modegravele de donneacutees geacuteneacuterique http wwwomgorgtechnologydocumentsformalsnphtm

OMIM Source de donneacutees humain http wwwncbinlmnihgovomim

PharmGKB scheacutema XML modegravele de donneacutees humain http wwwpharmgkborg

Sequence Ontology Vocabulaire controcircleacute geacuteneacuterique http songsourceforgenet

LOVD Source de donneacutees humain LS http wwwuclacukldlrLOVDv110

UMD LDLR Source de donneacutees humain LS http wwwumdbeLDLR

Uniprot Source de donneacutees geacuteneacuterique http wwwuniprotorg

T 31 ndash Liste des sources exploreacutees pour enrichir la liste de termes relatifs aux variations geacutenomiquesLa troisiegraveme colonne preacutecise si la source de variations geacutenomiques concerne uniquement un locus par-ticulier (source Locus Speacutecifique ou LS) uniquement lrsquohumain ou si elle est geacuteneacuterique (multi-locus etmulti-espegraveces)

Ontologie Domaine Pre f ixe Namespace

AA Ontology acides amineacutes AAO http wwwco-odeorgontologiesamino-acid20051011amino-acidowl

Sequence Ontology Seacutequences et variations SO http purlorgoboowlSO

T 32 ndash Les deux ontologies articuleacutees avec SNP-Ontology

122 Conceptualisation

La Figure 32 repreacutesente la reacutepartition sous forme de quatre paquets (ou packages en anglais) desdiagrammes de classes correspondant agrave SNP-Ontology Les Figures 33 et 34 sont deux exemples dediagrammes de classes centreacutes respectivement sur le concept de variant et sur celui de seacutequence Ainsi laFigure 33 repreacutesente un variant comme un concept associeacute agrave une certaine position dans une seacutequence etassocieacute agrave une variation observeacutee (ObservedVariation) qui peut ecirctre soit une variation de nucleacuteotide (Nu-cleotideVariation) soit une variation drsquoacide amineacutes (AAVariation) selon le type de seacutequence sur laquellele variant est observeacute La Figure 34 repreacutesente notamment les seacutequences de nucleacuteotide leur compositionen nucleacuteotide le fait qursquoil peut srsquoagir soit drsquoune seacutequence drsquoADN (DNASequence) soit drsquoune seacutequencedrsquoARNm (mRNASequence) et entre autres que les seacutequence drsquoADN compose les chromosomes et lesgegravenes

1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre 75

F 32 ndash Diagramme UML repreacutesentant la reacutepartition des diagrammes de classes en quatre paquets(packages en anglais) Le concept de variant peut ecirctre associeacute aux seacutequences geacutenomiques sur lesquelsils sont localiseacutes originellement mais aussi aux seacutequences transcrites et proteacuteiques sur lesquelles sontobserveacutees les conseacutequences des variations geacutenomiques

Sequence

InSequencePosition

AASequence

NucleotideVariation

AAVariation

NucleotideSequence

ObservedVariationVariant

0150

is observed in

2

is present in lt=

is observed in

F 33 ndash Diagramme de classes UML conceptualisant un variant la variation observeacutee pour un variantet sa position sur une seacutequence

mRNA ProteinChromosomeContig ExonIntronGene Transcript

mRNASequence

AASequence

Sequence

InSequencePosition

Nucleotide

Variant

DNASequence

NucleotideSequence AminoAcid

is present in lt=

11 1 1

1 115001

1

1 1

includes

F 34 ndash Diagramme de classes UML relatif aux seacutequences associeacutees agrave un variant

76 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

123 Formalisation

Les relations deacutecrites entre concepts propres agrave SNP-Ontology et concepts externes sont traduits en sous forme drsquoaxiomes Le Tableau 33 liste les axiomes reliant SNP-Ontology agrave lrsquoAA Ontology etSequence Ontology

SNPO amino_acid equiv AAO AminoAcidSNPO assembly equiv SO assembly (SO 0000353)SNPO contig equiv SO contig (SO 0000149)SNPO chromosome equiv SO chromosome (SO 0000340)SNPO codon ⊒ SO transcription_start_site (SO 0000315)SNPO codon ⊒ SO transcription_stop_site (SO 0000616)SNPO exon ⊒ SO exon (SO 0000147)SNPO intron ⊒ SO intron (SO 0000188)SNPO gene equiv SO gene (SO 0000704)SNPO genome equiv SO genome (SO 0001026)SNPO promotor equiv SO promotor (SO 0000167)SNPO terminator equiv SO terminator (SO 0000141)SNPO cnvr equiv SO copy_number_variation (SO 0001019)SNPO repeated_segment ⊒ SO repeat_region (SO 0000657)SNPO haplotype equiv SO haplotype (SO 0001024)SNPO transcript_region equiv SO transcript_region (SO 0000833)SNPO mature_mrna equiv SO RNA (SO 0000356)SNPO transcript equiv SO transcript (SO 0000673)SNPO genomic_region ⊒ SO QTL (SO 0000771)SNPO genomic_region ⊒ SO pseudogenic_region (SO 0000462)SNPO genomic_region ⊒ SO intergenic_region (SO 0000605)SNPO genomic_region ⊒ SO regulatory_region (SO 0005836)SNPO genomic_region ⊒ SO binding_site (SO 0000409)SNPO genomic_region ⊒ SO haplotype_block (SO 0000355)SNPO genomic_region ⊒ SO chromosome_part (SO 0000830)SNPO genomic_region ⊒ SO regulatory_region (SO 0005836)

T 33 ndash Liste des axiomes deacutecrivant les relations entre concepts propres agrave SNP-Ontology (SNPO) etconcepts externes importeacutes de AA Ontology (AAO) et Sequence Ontology (SO) Les identifiants desconcepts de SO sont donneacutes entre parenthegraveses

124 Impleacutementation

Les Figures 35 et 36 scheacutematisent certains concepts et rocircles de SNP-Ontology Ces deux figurespeuvent ecirctre compareacutees aux diagrammes de classes UML (Figures 33 et 34) pour illustrer la conversionentre diagrammes de classes UML et SNP-Ontology est disponible en OWL-DL sur le Web agrave lrsquoadressesuivante httpwwwloriafr~couletsnpontology14_descriptionphp

Sa version 14 contient 69 concepts dont 21 concepts deacutefinis et 59 rocirclesConcernant la conversion en OWL des ontologies articuleacutees AA Ontology est deacuteveloppeacutee en OWL

donc elle ne neacutecessite aucune conversion En revanche Sequence Ontology est deacuteveloppeacutee dans un for-

1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre 77

Variant

owl Thing

AAVariation

NucelotideVariation

ObservedVariation

Sequence

AASequence

NucleotideSequence

mRNASequence

DNASequence

isminusa

isminusa

isminusa

isminusa

isminusa

isminusa

isminusa

isminusa

isminusa

isminusaSequencePosition

F 35 ndash Repreacutesentation partielle de la hieacuterarchie de concepts de SNP-Ontology impleacutementeacutee en OWL

Variant

Sequence

AAVariation

SequencePosition

inRefSequence

hasSequence

hasAAVariation

stopPosition

owl Class owl ObjectProperty

startPosition

owl DatatypeProperty

1

2

owl ObjectProperty

includeSubSequence

isOneObservedAllele

isObservedIn

hasVariant hasPosition

owl domain

owl range

owl range

owl range

owl range

owl range

owl range

owl range

owl range

owl domain

owl domain

owl domain

owl domain

owl domain

owl domain

owl domain owl range

owl range

owl cardinality

owl minCardinality

owl maxCardinality

intdatatype

rdf

F 36 ndash Repreacutesentation scheacutematique de quelques concepts et rocircles de SNP-Ontology impleacutementeacutes enOWL NB en OWL les concepts sont appeleacutes des classes et les rocircles sont soit des proprieacuteteacutes drsquoobjets(ObjectProperty) soit des proprieacuteteacutes de type de donneacutees (ObjectDataTypeProperty) Les rocircles preacutesententun domaine et un co-domaine (noteacutes respectivement owl domain et owl range) et parfois une contraintede cardinaliteacute (owl minCardinality par exemple)

78 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

mat particulier appeleacute OBO53 il est donc neacutecessaire de la convertir en OWL Cette conversion est reacutealiseacuteeagrave lrsquoaide du plugin BONG de Proteacutegeacute [WSGA03] puis valideacutee manuellement

125 Eacutevaluation

SNP-Ontology et ses relations avec les ontologies externes sont consistantesAssocieacutee agrave un ensemble de wrappers deacuteveloppeacutes speacutecialement et agrave lrsquoapplication SNP-Converter

deacutecrite section 312 SNP-Ontology permet de reacutepondre aux questions de compeacutetence speacutecifieacuteesSNP-Ontology permet de repreacutesenter les connaissances relatives aux variations geacutenomiques qui peu-

vent ecirctre extraites de dbSNP OMIM PharmGKB HapMap et des bases de donneacutees locus speacutecifiquesCes reacutesultats ne sont pas plus deacutetailleacutes ici car lrsquoutilisation de SNP-Ontology pour lrsquointeacutegration de

donneacutees relatives aux variations geacutenomiques (section 31) illustre son eacutevaluation

126 Discussion

SNP-Ontology constitue une premiegravere repreacutesentation formelle des variations geacutenomiques mise agravedisposition via diverses bibliothegraveques drsquoontologies notamment le BioPortal Sa disponibiliteacute lui permetdrsquoecirctre reacuteutiliseacutee discuteacutee et modifieacutee librement par les membres de la communauteacute des bio-ontologies

Un autre atout de lrsquoontologie provient des choix faits lors de sa construction qui sont notamment la prise en compte du contenu des principales bases de donneacutees de variations pour le choix des conceptset lrsquoeacutevaluation de sa capaciteacute agrave ecirctre instancieacutee avec le contenu de ces bases De ces choix reacutesulte unerelative faciliteacute agrave eacutetablir des correspondances entre les donneacutees des bases drsquoune part et les concepts etrocircles de lrsquoontologie drsquoautre part Ce genre de correspondance est indispensable pour deacutefinir les mappingsdonneacutees-ontologie sur lesquels srsquoappuie le processus drsquointeacutegration de donneacutees agrave lrsquoaide drsquoune ontologiedeacutecrit dans la section 2 de ce chapitre Enfin la deacutefinition de relations avec des concepts provenantdrsquoontologies externes permet de reacuteutiliser de faccedilon coheacuterente dans le cadre de SNP-Ontology lrsquoensembledes connaissances speacutecialiseacutees eacutelaboreacutees par des consortiums drsquoexperts comme le -consortium54

53Format OBO httpwwwgeneontologyorgGOformatobo-1_2shtml (Derniegravere visite le 27072008)54-consortium httpwwwgeneontologyorgGOconsortiumlistshtml (Derniegravere visite le 27072008)

1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre 79

13 Construction drsquoune ontologie pour la pharmacogeacutenomique SO-Pharm

131 Speacutecification

Domaine couvert par SO-Pharm SO-Pharm (pour Suggested Ontology for Pharmacogenomics) estune proposition de repreacutesentation formelle des connaissances pharmacogeacutenomiques SO-Pharm articuleplusieurs ontologies des sous-domaines compleacutementaires de la pharmacogeacutenomique ie relatives auxgeacutenotype pheacutenotype meacutedicaments et essais cliniques Elle permet de repreacutesenter des relations phar-macogeacutenomiques entre un meacutedicament une variation geacutenomique et un trait du pheacutenotype SO-Pharmpermet de repreacutesenter eacutegalement des patients et plus geacuteneacuteralement des panels impliqueacutes dans des essaiscliniques et des populations SO-Pharm permet de repreacutesenter les variables mesureacutees chez ces patientscomme lrsquoobservation drsquoun pheacutenotype ou le geacutenotypage de variations geacutenomiques Elle inclut des con-naissances relatives aux eacutetudes de cas agrave lrsquoinvestigation clinique et au test de nouvelles hypothegraveses enpharmacogeacutenomique

Objectifs de SO-Pharm SO-Pharm comme SNP-Ontology est conccedilue pour faciliter lrsquointeacutegration de

donneacutees et lrsquoextraction de connaissances en pharmacogeacutenomique SO-Pharm est notamment deacuteveloppeacuteepour pallier lrsquoabsence drsquoontologie elle regroupe dans une repreacutesentation coheacuterente les ontologies dessous-domaines de la pharmacogeacutenomique

Critegraveres drsquoeacutevaluation particuliers Des exemples de questions de compeacutetence auxquelles SO-Pharmdoit reacutepondre sont

ndash Un patient qui prend un traitement de codeacuteine par voie orale avec une posologie de 50 mg troisfois par jours preacutesente-t-il un risque de faire une reacuteaction adverse

ndash Des troubles neurologiques peuvent-ils ecirctre une conseacutequence drsquoun traitement agrave la codeacuteine ndash Existe-t-il des variations geacutenomiques du gegravene CYP2D6 qui sont associeacutees agrave lrsquoabsence drsquoeffet anal-

geacutesique en reacuteponse agrave la codeacuteine ndash La reacuteponse agrave un traitement de statines est il soumis agrave lrsquoinfluence de facteurs geacuteneacutetiques SO-Pharm doit permettre de repreacutesenter les connaissances pharmacogeacutenomiques qui peuvent ecirctre

extraites de OMIM et PharmGKB ainsi que des connaissances extraites de la litteacuterature du domaine parexemple les reacutesultats rapporteacutes dans [DGDM91 MTB+99 HVK+02 MMK+03]

Liste de sources de donneacutees et de connaissances relatives Dans le cas de SO-Pharm les experts dudomaine ont deacutefini quatre listes de termes relative chacune agrave la description drsquoun sous-domaine diffeacuterent geacutenotype pheacutenotype meacutedicament et essai clinique La liste des sources de donneacutees et de connaissancesrepreacutesenteacutee Tableau 34 est eacutetablie pour enrichir les quatre listes de termes Certaines sources ont eacuteteacuteajouteacutees au cours des diffeacuterentes iteacuterations du processus de construction de SO-Pharm Lrsquoajout drsquounesource peut amegravener agrave lrsquoajout de nouveaux termes de nouveaux concepts et agrave lrsquoarticulation avec denouvelles ontologies Le Tableau 35 repreacutesente les sources de connaissances seacutelectionneacutees pour ecirctrearticuleacutees avec SO-Pharm

132 Conceptualisation

Les trois Figures 37 38 et 39 sont trois diagrammes de classes construits pour la conceptualisationde SO-Parm Ils preacutesentent respectivement la conceptualisation adopteacutee pour la notion drsquoitem clinique

(ie une donneacutee enregistreacutee relative agrave un patient) celle drsquoessai clinique et celle de protocole La FigureD1 en Annexe D propose une vue plus geacuteneacuterale du modegravele conceptuel et permet notamment de situerles uns par rapport aux autres les trois diagrammes de classes preacutesenteacutes La Figure 37 repreacutesente entre

80 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

Nom de la source Type de source Domaine URL

dbSNP Scheacutema XML modegravele de donneacutees geacutenotype http wwwncbinlmnihgovprojectsSNP

HapMap Scheacutema XML geacutenotype http wwwhapmaporg

HGVBase DTD modegravele de donneacutees geacutenotype http hgvbasecgbkise

OMIM Source de donneacutees geacutenotypepheacutenotype

http wwwncbinlmnihgovomim

OMG SNP modegravele de donneacutees geacutenotype http wwwomgorgtechnologydocumentsformalsnphtm

MECV Controlled vocabulary geacutenotype http wwwebiacukmutations

SNP-Ontology Ontologie OWL geacutenotype

AA Ontology Ontologie OWL geacutenotype http wwwco-odeorgontologiesamino-acid

PharmGKB Scheacutema XML modegravele de donneacutees geacutenotypemeacutedicamentpheacutenotype

http wwwpharmgkborg

PharmacogeneticsOntology

Vocabulaire controcircleacute genotypepheacutenotype

http wwwpharmgkborghomeprojectsproject-pojsp

Sequence Ontology Vocabulaire controcircleacute geacutenotype http songsourceforgenet

Gene Ontology Vocabulaire controcircleacute geacutenotype http wwwgeneontologyorg

PubChem Source de donneacutees meacutedicament http pubchemncbinlmnihgov

RX-Norm Vocabulaire controcircleacute meacutedicament http wwwnlmnihgovresearchumlsrxnormindexhtml

ChEBI Vocabulaire controcircleacute meacutedicament http wwwebiacukchebi

CDISC Scheacutema XML pheacutenotype http wwwcdiscorg

ICD-10 Vocabulaire controcircleacute pheacutenotype http wwwwhointclassificationsicd

Disease Ontology Vocabulaire controcircleacute pheacutenotype http diseaseontologysourceforgenet

Mammalian Phenotype Vocabulaire controcircleacute pheacutenotype http wwwinformaticsjaxorgsearchesMP_formshtml

PATO Vocabulaire controcircleacute pheacutenotype http obosourceforgenet

Unit Ontology Vocabulaire controcircleacute pheacutenotype http obosourceforgenet

Pathway Ontology Vocabulaire controcircleacute geacutenotypepheacutenotype

http rgdmcwedutoolsontology

SNOMED-Clinical Vocabulaire controcircleacute pheacutenotype http wwwsnomedorgsnomedctglossaryhtml

Family Bond Ontology Ontologie OWL essaiclinique

http wwwloriafrsimcouletontologyfamilybondversion01f-amilybondowl

Clinical Trial Ontology Ontologie OWL essaiclinique

http wwwbioontologyorgwikiindexphpCTO Main_Page

Ontology of BiomedicalInvestigations

Ontologie OWL essaiclinique

http obisourceforgenet

OBO relationship types Vocabulaire controcircleacute meacuteta-ontologie

http wwwobofoundryorgro

Basic Formal Ontology Ontologie OWL meacuteta-ontologie

http wwwifomisorgbfo

T 34 ndash Liste des sources exploreacutees pour enrichir la liste de termes relatifs aux sous-domaines de lapharmacogeacutenomique La troisiegraveme colonne preacutecise le sous-domaine que la source concerne Les vocab-ulaires controcircleacutes eacutetoileacutes () sont des ontologies OBO

autres les deux types principaux drsquoitem cliniques les items relatifs au geacutenotype (Genotype item) et lesitems relatifs au pheacutenotype (Phenotype item) Les premiers peuvent ecirctre des variants comme deacutefinis pourSNP-Ontology Les seconds peuvent ecirctre composeacutes agrave lrsquoaide des concepts deacutecrits pour lrsquoontologie PATOLa Figure 38 preacutesente notamment qursquoun item clinique (Clinical item) est mesureacute durant un eacutevenement(Clinical trial event) deacutefini dans le cadre drsquoun essai clinique est mesureacute chez un individu (Individual)

1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre 81

Nom Description Pre f ixe Namespace

SNP-Ontology Variations geacutenomiques SNPO ~ontologysnpontologyversion15snpontology_fullowl

Mutation Event Ont Classification des variations MEO ~ontologymeoversion10meoowl

AA Ontology acides amineacutes AAO http wwwco-odeorgontologiesamino-acid20051011a-mino-acidowl

Sequence Ontology Seacutequences et variations SO http purlorgoboowlSO

Pharmacogenetics Ont Meacutethodes de geacutenotypage etde mesures

PGO ~ontologysopharmversion20pharmacogeneticsontologyowl

Disease Ontology Classification des maladies DOID ~ontologysopharmversion20diseaseontologyowl

Mammalian Phenotype Critegraveres relatifs au pheacutenotype MP http purlorgoboowlMP

PATO Attributes et valeurs pour lepheacutenotype

PATO ~ontologypatoversion133qualityowl

Unit Ontology Uniteacutes de mesures UO ~ontologyunitversion19unitowl

ChEBI Composeacute moleacuteculaires CHEBI ~ontologysopharmversion20chebiowl

Family Bond Ont Liens de parenteacute FB ~ontologyfamilybondversion01familybondowl

Clinical Trial Ontology Protocole CTO http wwwowl-ontologiescomOntology1178899652owl

Ontology of BiomedicalInvestigation

Protocole OBI http obisourceforgenetontologyOBIowl

Relationship Ontology Types de relation OBO_REL http wwwobofoundryorgroroowl

Biomedical FunctionOntology

Meacuteta-ontologie BFO http wwwifomisorgbfo10

T 35 ndash Les 15 ontologies articuleacutees avec SO-Pharm Le preacutefixe repreacutesenteacute par le symbole ~ correspondagrave lrsquoURL http wwwloriafr~coulet

et est mesureacute selon une meacutethode (Measurement method) deacutefinie dans le cadre drsquoun protocole (Clinicaltrial protocole)La Figure 39 repreacutesente notamment qursquoun protocole peut ecirctre composeacute drsquoun traitementmeacutedicamenteux (Drug treatment) composeacute drsquoun meacutedicament (Drug) et drsquoune posologie (Posology) preacute-cise

133 Formalisation

La formalisation des relations avec les concepts des ontologies seacutelectionneacutees est rapporteacutee dans leTableau 36

134 Impleacutementation

SO-Pharm est disponible en OWL sur le Web agrave lrsquoadresse suivante httpwwwloriafr~couletsopharm20_descriptionphp

La version 20 alpha contient 70 concepts dont 37 concepts deacutefinis et 56 rocircles En incluant les on-tologies articuleacutees avec SO-Pharm le nombre de concepts srsquoeacutelegraveve agrave 84786 et celui des rocircles agrave 189 Cenombre important de concepts est en grande partie ducirc au nombre eacuteleveacute de concepts deacuteriveacutes des vocabu-laires speacutecialiseacutes comme ChEBI ou Disease Ontology dont le nombre de termes atteint par exemple 15192 pour la version 46 de ChEBI

Concernant la conversion en OWL des ontologies articuleacutees elle deacutepend du format drsquoorigine dechaque ontologie Par exemple sont disponibles en OWL et ne neacutecessitent donc aucune conversionSNP-Ontology AA Ontology CTO OBI BFO Les ontologies disponibles dans le format OBO sontconverties agrave lrsquoaide du plugin BONG de Proteacutegeacute [WSGA03] puis valideacutees manuellement Les ontologies

82 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

F 37 ndash Diagramme de classes UML centreacute sur la conceptualisation des items cliniques

F 38 ndash Diagramme de classes UML centreacute sur la conceptualisation drsquoessais cliniques

F 39 ndash Diagramme de classes UML centreacute sur la conceptualisation drsquoun protocole drsquoessai clinique

1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre 83

SOPHARM phenotype_item ⊒MP phenotype_ontology (MP 0000001)SOPHARM disease_diagnostic ⊒ DOID disease_and_injuries (DOID 952)SOPHARM surgical_operation ⊒ DOID procedures (DOID 1008)SOPHARM drug ⊒ CHEBI drug (CHEBI 23888)SOPHARM chemical_compound ⊒ CHEBI molecular_entities (CHEBI 23367)SOPHARM chemical_compound ⊒ CHEBI unclassified (CHEBI 27189)SOPHARM chemical_compound ⊒ OBI ChEBI_objects (OBI 263)SOPHARM chromosome_variation ⊒ SO chromosome_variation (SO 0000240)SOPHARM genomic_variation ⊑ SNPO variantSOPHARM genomic_variation ⊒MEO genomic_variation (MEO 001)SOPHARM observed_allele equiv SNPO sequence ⊓ forall isPartOfSOPHARM genomic_genotypeSOPHARM population ⊒ SNPO populationSOPHARM genotype_measurement_method ⊒ PGO genotyping_methodsSOPHARM phenotype_measurement_method ⊒ PGO phenotyping_methodsSOPHARM phenotype_measurement_method ⊒ CTO observationsSOPHARM phenotype_item ⊑(forall PATO is_magnitude_ofPATO quality ⊓ =1 PATO is_magnitude

_of) ⊔ (forall PATO is_measurement_ofPATO quantitative ⊓ =1 PATO is_measurement_of)SOPHARM phenotype_item ⊑ forall PATO has_unitUO unit ⊓ =1 PATO has_unitSOPHARM drug_dose ⊑ PATO physical_quality ⊓ BFO qualitySOPHARM drug_dose ⊑ forall PATO has_unitUO unit ⊓ =1 PATO has_unitSOPHARM administration_frequency ⊑ PATO frequency ⊓ BFO qualitySOPHARM administration_frequency ⊑ forall PATO has_unitUO unit ⊓ =1 PATO has_unitSOPHARM person ⊑ FB family_member

T 36 ndash Les principaux axiomes deacutecrivant des relations entre les concepts propres agrave SO-Pharm(SOPHARM) et les concepts externes des ontologies articuleacutees (voir Tableau 35) Les identifiants desconcepts associeacutes sont donneacutes entre parenthegraveses lorsqursquoils existent La liste complegravete inclut eacutegalementdes axiomes qui formalisent des relations entre rocircles

disponibles sous drsquoautres formats sont converties manuellement Crsquoest le cas de lrsquoontologie Pharmaco-

genetics Ontology disponible en HTML ou de lrsquoontologie Mutation Event Ontology construite agrave partirdu vocabulaire controcircleacute Mutation Event Controlled Vocabulary et drsquoune partie de Sequence Ontology

135 Eacutevaluation

Le grand nombre de concepts articuleacutes limite lrsquoutilisation des meacutecanismes de raisonnement qui per-mettent la validation de la consistance et la classification des concepts Les impleacutementations actuelles deces meacutecanismes sont sensibles agrave la complexiteacute de la utiliseacutee (ici SHOIN(D)) mais aussi au nombrede concepts de lrsquoontologie Aussi pour valider la consistance et permettre la classification des conceptssur une station de travail (CPU Intel Pentium M 18GHz RAM 2 Go) nous avons utiliseacute les meacutecan-ismes de raisonnement sur lrsquoensemble des paires drsquoontologies possibles (SO-Pharm ndash Disease Ontologypuis SO-Pharm ndash ChEBI puis etc)

Associeacutee agrave un ensemble de wrappers deacuteveloppeacutes speacutecialement SO-Pharm permet de reacutepondre auxquestions de compeacutetences speacutecifieacutees Lrsquoutilisation de SO-Pharm dans le cadre drsquoextraction de connais-sances en pharmacogeacutenomique (voir section 24 du chapitre 4) permet notamment de mieux reacutepondre agraveces questions

SO-Pharm permet de repreacutesenter les connaissances pharmacogeacutenomiques qui peuvent ecirctre extraites

84 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

de OMIM et PharmGKB ainsi que des connaissances extraites de la litteacuterature du domaine par exempleles reacutesultats rapporteacutes dans [DGDM91 MTB+99 HVK+02 MMK+03] SO-Pharm permet eacutegalement derepreacutesenter de nouvelles hypothegraveses de connaissances pharmacogeacutenomiques comme lrsquoassociation entreune variation geacutenomique un traitement et un ensemble de signes relevant drsquoun pheacutenotype Lrsquoutilisationde SO-Pharm dans lrsquoobjectif drsquoextraire des connaissances deacutecrite chapitre 4 a permi lrsquoeacutevaluation puislrsquoameacutelioration de lrsquoontologie

136 Discussion

Au final la construction manuelle de lrsquoontologie SO-Pharm propose une mise en correspondancecoheacuterente de quinze ontologies seacutelectionneacutees Lrsquoavantage est la maicirctrise de la coexistence de conceptsdont lrsquointerpreacutetation est eacutequivalente ou se recouvre de maniegravere plus ou moins partielle et surtout demaniegravere plus ou moins ambigueuml La construction et la mise en correspondance manuelles demandentun effort important qui est justifieacute par la possibiliteacute reacutesultante de repreacutesenter des connaissances phar-macogeacutenomiques en instanciant des relations existant entre plusieurs ontologies de sous-domaines etde raisonner sur ces connaissances de faccedilon coheacuterente par les meacutecanismes de raisonnement classiquesDe faccedilon similaire agrave SNP-Ontology SO-Pharm preacutesente lrsquoavantage de proposer agrave la communauteacute unepremiegravere repreacutesentation formelle de son domaine avec lrsquoobjectif de faciliter sa reacuteutilisation et son eacutevo-lution Pour aller dans ce sens les derniegraveres versions de SO-Pharm satisfont aux exigences de qualiteacuteproposeacutees par lrsquoOBO Foundry Ces deacuteveloppements permettent agrave SO-Pharm de faire partie de lrsquoOBOFoundry55 Des indications sur la faccedilon dont SO-Pharm reacutepond aux critegraveres de cette forge particuliegraveresont disponibles en ligne httpwwwloriafr~couletontologysopharmversion20foundry_requirementsphpIl est inteacuteressant de noter que certains de ces critegraveres font deacutebat et notamment le principe drsquoorthogona-

liteacute selon lequel le domaine recouvert par une nouvelle ontologie ne doit pas chevaucher celui des on-tologies existantes dans la forge Ce principe cherche agrave favoriser lrsquoameacutelioration des ontologies existantesde faccedilon communautaire plutocirct qursquoau deacuteveloppement drsquoontologies concurrentes pour un mecircme domaineCe point est discutable drsquoune part parce que la notion drsquoorthogonaliteacute nrsquoest pas deacutefinie de faccedilon preacuteciseet drsquoautre part parce qursquoune ontologie est une repreacutesentation drsquoun domaine selon un point de vue parti-culier Par conseacutequent deux ontologies peuvent repreacutesenter selon deux points de vues diffeacuterents un seulet mecircme domaine Pour cette raison les critegraveres drsquoinclusion drsquoOBO-Foundry sont discuteacutes au sein de lacommunauteacute et sont ameneacutes agrave eacutevoluer

55httpobofoundryorgcgi-bindetailcgiid=pharmacogenomics

2 Inteacutegration de donneacutees guideacutee par une ontologie 85

2 Inteacutegration de donneacutees guideacutee par une ontologie

21 Description geacuteneacuterale de lrsquoapproche proposeacutee

F 310 ndash Architecture geacuteneacuterale de notre systegraveme drsquointeacutegration de donneacutees Lrsquoontologie utiliseacutee par lemeacutediateur est la mecircme que celle qui constitue la TBox de la Base de Connaissances

Malgreacute lrsquoexistence drsquoarchitectures de reacutefeacuterence ([CGL+98] par exemple) il nrsquoexiste pas drsquoarchi-tecture standard pour les systegravemes drsquointeacutegration de donneacutees fondeacutes sur une ontologie Lrsquoarchitecturerepreacutesenteacutee Figure 310 que nous avons choisie peut ecirctre compareacutee agrave celle drsquoune approche meacutediateurcomme deacutecrit dans le chapitre 2 les diffeacuterentes sources sont mises en correspondance avec un vocabu-laire global dont la particulariteacute ici est drsquoecirctre une ontologie lrsquoextraction des donneacutees est prise en chargepar des wrappers et centraliseacutee sous forme drsquoune reacuteponse unique par le meacutediateur Des mappings deacutefinisentre chaque source de donneacutees et lrsquoontologie permettent la traduction de requecirctes pour lrsquointerrogationdes sources puis en sens inverse la traduction des reacuteponses aux requecirctes Crsquoest dans cette derniegravere phaseque reacuteside la distinction et lrsquoapport majeur de notre approche En effet le meacutediateur eacutelabore agrave lrsquoaide deswrappers en reacuteponse agrave une requecircte utilisateur une liste drsquoassertions qui sert agrave instancier (ou peupler) la associeacutee agrave lrsquoontologie

Le deacuteclanchement de lrsquointeacutegration consiste en la soumission drsquoune requecircte par lrsquoutilisateur La re-quecircte initiale est deacutecrite dans les termes de lrsquoontologies et le meacutediateur la traduit en requecirctes sur lesscheacutemas locaux des sources de donneacutees la traduction de la requecircte de lrsquoutilisateur dans les termes desscheacutemas locaux suit des approches deacutejagrave deacutecrites [CGLV01 Len02] nous ne deacutetaillons pas cette pre-miegravere phase En revanche les sections suivantes preacutesentent plus amplement la faccedilon dont sont deacutefinisles mappings entre les sources de donneacutees et lrsquoontologie puis deacutecrit lrsquointeraction entre les wrappers et lemeacutediateur

Dans la suite de cette section nous consideacuterons chacune des sources comme une base de donneacutees

posseacutedants un scheacutema propre sur lequel il est possible drsquoexeacutecuter des requecirctes

R Nous nous limitons ici agrave lrsquoutilisation des bases de donneacutees mais il pourrait ecirctre envis-ageable de deacutevelopper des wrappers mettant en oeuvre des meacutethodes de Traitement Automatique de laLangue (TAL) pour peupler la

86 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

22 Deacutefinition des mappings donneacuteesndashassertions

Pour chaque base de donneacutees consideacutereacutee la deacutefinition drsquoune requecircte dans les termes de son scheacutemaet la transformation de la reacuteponse agrave cette requecircte en une liste drsquoassertions srsquoappuient sur un mappingdonneacutees-assertions [PLC+08] Ces mappings sont deacutefinis au preacutealable manuellement et en consideacuterationdes connaissances drsquoexperts du domaine

Deacutefinition 31 (Mapping donneacutees ndash assertions) Soit un quadruplet (SMdminusa FO) ougrave

ndash S est le scheacutema drsquoune base de donneacutees ie un ensemble de relations n-aires de la forme R(A1 A2

An) et de domainenprod

i=1Di tels que Ai est lrsquoattribut drsquoindice i et de domaine Di

ndash O est une ontologie ie les concepts drsquoun domaine et les rocircles qui deacutecrivent les relations entre ces

concepts

ndash Mdminusa est un ensemble drsquoassociations entre des donneacutees et des assertions dont chacune est de la

forme

Φ Ψ

ougrave Φ est une requecircte arbitraire sur la base de donneacutees de scheacutema S et Ψ est un ensemble drsquoasser-

tions de concepts et drsquoassertions de rocircles de lrsquoontologie O

ndash Enfin F un ensemble de fonctions de la forme fi(v) applicables aux diffeacuterentes valeurs reacutesultant

des requecirctes Φ pour les transformer en noms drsquoindividus dans Ψ

Les fonctions de F appliqueacutees sur les valeurs des attributs sont deacutefinies de telle sorte que ndash deux valeurs drsquoattribut distinctes dans une ou plusieurs bases de donneacutees donnent lieu agrave deux noms

drsquoindividus distincts dans la ndash deux valeurs drsquoattributs potentiellement distinctes mais qui font reacutefeacuterence agrave la mecircme entiteacute dans

des bases de donneacutees diffeacuterentes donnent lieu agrave la creacuteation drsquoun seul et mecircme nom drsquoindividundash pour chaque mapping impliquant fi isin F il est possible de deacutefinir une fonction inverse noteacutee f minus1

i

qui permet agrave partir drsquoun identifiant drsquoindividu de la de retrouver la valeur correspondante dansune base de donneacutees

Les fonctions peuvent ecirctre deacutefinie soit manuellement soit par des heuristiques Comme lrsquoillustre lasuite de la thegravese (chapitre 3 section 31 et chapitre 4 section 1) une fonction peut notamment ecirctre unecomposition drsquoautres fonctions ou prendre en compte les valeurs prises par drsquoautres attributs

Lrsquoeacutetape de peuplement de la associeacutee agrave lrsquoontologie O revient agrave ajouter agrave la pour lrsquoensembledes n-uplets reacuteponses aux requecirctes Φ lrsquoensemble des assertions de concepts et des assertions de rocircles Ψdu mappingMdminusa deacutefini entre le scheacutema S et lrsquoontologie O Les individus impliqueacutes dans les assertionsdu mapping qui nrsquoexistent pas encore dans la associeacutee agrave O sont creacuteeacutes De cette faccedilon les fonctionsappliqueacutees aux valeurs drsquoattributs peuvent ecirctre utiliseacutees pour nettoyer transformer homogeacuteneacuteiser le con-tenu des bases de donneacutees lors de lrsquoinstanciation

Exemple Soit BD1 et BD2 deux bases de donneacutees dont les scheacutemas S1 et S2 contiennent respective-ment les deux relations suivantes R1 et R2

R1 (A1 A2 A3)R2 (A1 B2 B3)

Dans cet exemple nous consideacuterons que les attributs A1 de R1 et de R2 sont identiques ils ont le mecircmenom font reacutefeacuterence au mecircme concept et leurs valeurs sont repreacutesenteacutees en suivant la mecircme syntaxeLes attributs A2 et B2 font reacutefeacuterence agrave un mecircme concept mais leurs valeurs sont repreacutesenteacutees suivant dessyntaxes diffeacuterentes ce qui rend neacutecessaire lrsquoutilisation de fonctions diffeacuterentes ( f2 et f4) pour qursquoelles

2 Inteacutegration de donneacutees guideacutee par une ontologie 87

soient transformeacutees en identifiants drsquoindividus qui suivent une syntaxe homogegravene Les attributs A3 et B3

font reacutefeacuterence agrave des concepts diffeacuterentsDeux exemples de deacutefinition de mapping possibles Mdminusa A entre la base de donneacutees BD1 et lrsquoon-

tologie O et Mdminusa B entre BD2 et la mecircme ontologie O sont preacutesenteacutes ci-apregraves sous la forme de lrsquoas-sociation entre une requecircte SQL et une liste drsquoassertions en Les notations sont inspireacutees de Poggi et

al [PLC+08] En particulier on utilise la notation f1(A1) pour repreacutesenter de faccedilon geacuteneacuterique le nom dechaque individu ce qui correspond agrave lrsquoimage de la fonction f1 associeacutee agrave chaque valeur prise par lrsquoattributA1 dans la requecircte SQL

Mdminusa 1 ConceptUn( f1(A1))ConceptDeux( f2(A2))

SELECT A1 A2 A3 RoleUnVersDeux( f1(A1) f2(A2))FROM R1 RoleUnVersDeuxminus( f2(A2) f1(A1))

ConceptTrois( f3(A3))RoleUnVersTrois( f1(A1) f3(A3))RoleUnVersTroisminus( f3(A3) f1(A1))

Mdminusa 2 ConceptUnS peci f ique( f1(A1))ConceptDeux( f4(B2))

SELECT A1 B2 B3 RoleUnVersDeux( f1(A1) f4(B2))FROM R2 RoleUnVersDeuxminus( f4(B2) f1(A1))WHERE B3 =ldquoaSpecificValuerdquo ConceptQuatre( f5(B3))

RoleUnVersQuatre( f1(A1) f5(B3))RoleUnVersQuatreminus( f5(B3) f1(A1))

Suivant notre exemple consideacuterons les deux tuples suivants reacuteponses respectives aux requecirctes deMdminusa 1 etMdminusa 2 sur BD1 et BD2 et les listes drsquoassertions qui leurs sont associeacutees suivant les mappings

ConceptUn(a_1)ConceptDeux(a_2)RoleUnVersDeux(a_1 a_2)

(a1a2a3) RoleUnVersDeuxminus(a_2 a_1)ConceptTrois(a_3)RoleUnVersTrois(a_1 a_3)RoleUnVersTroisminus(a_3 a_1)

ConceptUnS peci f ique(a_1)ConceptDeux(a_2)RoleUnVersDeux(a_1 a_2)

(a1b2b3) RoleUnVersDeuxminus(a_2 a_1)ConceptQuatre(b_3)RoleUnVersQuatre(a_1 b_3)RoleUnVersQuatreminus(b_3 a_1)

Ainsi les deux valeurs respectives a2 et b2 des deux attributs A2 et B2 sont transformeacutes par lesfonctions f2 et f4 en un mecircme nom drsquoindividu a_2 ce qui permet la creacuteation drsquoun seul individu identifieacutepar a_2 et instance du concept ConceptDeux dans la

ConceptDeux(a_2)

88 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

Aussi si

ConceptUnS peci f ique ⊑ ConceptUn

le deuxiegraveme mapping apporte une nouvelle connaissance de par le fait que a_1 instancie non seulementConceptUn mais eacutegalement ConceptUnS peci f ique Les assertions du rocircle RoleUnVersDeux et de soninverse proposeacutees par le deuxiegraveme mapping (Mdminusa 2) sont redondantes avec les assertions proposeacutees parle premier mapping (Mdminusa 1) En conseacutequence elles ne seront pas ajouteacutees agrave la En revanche le deux-iegraveme mapping apporte une nouvelle connaissance en instanciant avec a_1 le rocircle RoleUnVersQuatre etson inverse Un exemple concret de mapping est donneacute dans ce chapitre en section 312

Il est important de remarquer que la deacutefinition drsquoun mapping en collaboration avec lrsquoexpert neacutecessitelrsquoexistence dans lrsquoontologie O des concepts et des rocircles approprieacutes qui pourront ecirctre instancieacutes dans la Si les concepts et le rocircles adeacutequats nrsquoexistent pas la deacutefinition du mapping constitue une motivationpour la mise agrave jour et lrsquoameacutelioration de lrsquoontologie

Compareacute au triplet (GSM) (associant un scheacutema global les scheacutemas des sources et les mappingsentre G et S voir section 312 du chapitre 2 et [Len02]) qui suffit agrave deacutecrire les eacuteleacutements de base drsquoun sys-tegraveme drsquointeacutegration notre approche inclut de faccedilon suppleacutementaire un ensemble de fonctions qui garantitla transformation des valeurs en identifiants drsquoindividus Le fait que chaque ensemble de fonctions soitpropre agrave une base de donneacutees et deacutefini sans ambiguiteacute permet que chaque fonction soit capable inverse-ment de transformer un identifiant drsquoindividu en une valeur de la base

23 Description de lrsquointeraction wrapperndashmeacutediateur

La premiegravere interaction entre meacutediateur et wrapper intervient lorsqursquoun utilisateur eacutemet une requecirctePar exemple ldquoQuelles sont les variations geacutenomiques et les meacutedicaments associeacutes agrave la maladie appeleacutee

Hypercholesteroleacutemie Familialerdquo Suivant le fonctionnement classique le meacutediateur prend en charge larequecircte et lrsquoadapte au scheacutema de chaque base de donneacutees Les wrappers exeacutecutent les requecirctes adapteacuteesaux diffeacuterents scheacutemas et reacutecupegraverent les donneacutees en reacuteponse

Ensuite le meacutediateur permet gracircce aux mappingsMdminusa (deacutetailleacutes dans la deacutefinition 31) drsquoinstancierla associeacutee agrave lrsquoontologie en transformant de faccedilon indeacutependante la reacuteponse transmise par un wrapper enune liste drsquoassertions de concepts et drsquoassertions de rocircles ajouteacutee agrave la Les wrappers ne communiquentpas entre eux mais le meacutediateur interagit avec la et adapte ainsi lrsquoinstanciation au contenu de la qui se peuple progressivement Si lrsquoon reprend lrsquoexemple de la requecircte relative agrave lrsquoHypercholesteacuteroleacutemieFamiliale lorsque le wrapper 2 extrait des donneacutees relatives agrave une variation geacutenomique il est possibleque le meacutediateur ait deacutejagrave creacuteeacute des individus relatifs agrave la mecircme variation en conseacutequence des donneacuteestransmises par le wrapper 1 Dans ce cas le meacutediateur nrsquoeacutecrase pas les connaissances deacutejagrave disponiblesdans la mais les complegravete si possible Au final le meacutediateur enchaicircne une seacuterie drsquoinstanciations co-heacuterentes entre elles et avec lrsquoontologie pour inteacutegrer les reacuteponses successives des diffeacuterentes bases dedonneacutees

24 Bilan

Lrsquoapproche drsquointeacutegration de donneacutees proposeacutee dans cette section srsquoinspire amplement (1) des archi-tectures classiques des systegravemes drsquointeacutegration de donneacutees [Hal01 CG05] et (2) de reacutesultats theacuteoriquesdeacutecrit reacutecemment sur la formalisation des mappings donneacuteesndashontologies [PLC+08] La principale orig-inaliteacute proposeacutee ici est drsquoutiliser et drsquoadapter ces reacutesultats theacuteoriques au cadre drsquoune architecture opeacutera-

2 Inteacutegration de donneacutees guideacutee par une ontologie 89

tionnelle qui peut ainsi articuler ainsi agrave la fois base de donneacutees et Base de Connaissances

Lrsquoapproche proposeacutee a comme principal inconveacutenient qursquoelle neacutecessite pour chaque source dedeacutefinir un mapping donneacuteesndashassertions adapteacute et de deacutevelopper le wrapper associeacute En contre-partiecette meacutethode beacuteneacuteficie des avantages de lrsquoapproche meacutediateur en terme drsquoindeacutependance vis agrave vis dessources de nouvelles sources peuvent ecirctre inteacutegreacutees sans que lrsquoontologie ne soit transformeacutee Cepen-dant si une source contient des donneacutees encore non consideacutereacutees qursquoil se reacutevegravele inteacuteressant drsquointeacutegrerlrsquoontologie peut neacutecessiter drsquoecirctre enrichie par lrsquoaddition de concepts rocircles axiomes de telle sorte que lesnouvelles donneacutees puissent correspondre agrave des assertions de la

Une autre limite provient des technologies actuelles de gestion de Les opeacuterations de raisonnementet notamment drsquointerrogation sur une sont probleacutematiques lorsque la TBox ou la ABox deviennent tropvolumineuses Cette limite est accentueacutee lorsque le langage de repreacutesentation des connaissances est drsquouneexpressiviteacute plus importante et les meacutecanismes de raisonnement plus complexes Notre approche eacutevite lepeuplement drsquoune trop volumineuse comme cela pourrait ecirctre le cas par une approche entrepocirct Ainsiune requecircte tregraves speacutecifique dont la reacuteponse contient un nombre de tuples restreint entraicircne la constitutiondrsquoune tout aussi speacutecifique et peu volumineuse Une requecircte plus geacuteneacuterale donnera une reacuteponse doteacuteede plus de tuples et constituera une eacutegalement plus geacuteneacuterale et plus volumineuse En revanche notreapproche permet drsquointeacutegrer successivement les reacuteponses de diffeacuterentes requecirctes dans la mecircme dont lecontenu srsquoeacutelargira au fur et agrave mesure De ce point de vue notre approche preacutesente certains des avantagesdes approches drsquointeacutegration type entrepocirct puisque la peupleacutee par une ou plusieurs requecirctes beacuteneacuteficiedrsquoune part de lrsquointeacutegration de donneacutees et drsquoautre part de la seacutemantique associeacutee aux donneacutees

Le fait de disposer des donneacutees inteacutegreacutees sous forme drsquoassertions dans une nous inteacuteresse partic-uliegraverement puisque cela permet tout drsquoabord de repreacutesenter des relations qui ne peuvent pas lrsquoecirctre dansle cadre drsquoune base de donneacutees relationnelle classique comme par exemple repreacutesenter le fait que deuxrepreacutesentations distinctes (par exemple de deux variations geacutenomiques) font reacutefeacuterence agrave une seule etmecircme entiteacute Cela permet eacutegalement agrave lrsquoaide des meacutecanismes de raisonnement de valider la consistancedu modegravele de classifier les individus de lrsquoontologie Enfin comme nous lrsquoexposons dans le chapitre 4la seacutemantique associeacutee agrave la peut ecirctre utiliseacutee pour guider lrsquoextraction de connaissances implicites ounouvelles et potentiellement utiles par exemple en utilisant des meacutethodes de fouille de donneacutees sur lesassertions de la

Les deux sections suivantes (31 et 32) illustrent lrsquoutilisation pour lrsquointeacutegration de donneacutees des deuxontologies dont la construction est deacutecrite en section 1

90 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

3 Expeacuterimentation

Cette section preacutesente les reacutesultats drsquoimpleacutementation et de mise en œuvre de lrsquoapproche proposeacuteesection 2 pour lrsquointeacutegration de donneacutees guideacutee par une ontologie Les reacutesultats rapporteacutes ont eacuteteacute obtenusdans le cadre drsquoexpeacuterimentation sur des donneacutees relatives aux variations geacutenomiques tout drsquoabord puisagrave la pharmacogeacutenomique

31 Inteacutegration de donneacutees relatives aux variations geacutenomiques SNP-Converter

La section 23 du chapitre 1 et notamment sa Figure 12 illustre les nombreuses faccedilons de deacutesignerde faccedilon unique une variation geacutenomique dans les bases de donneacutees publiques et priveacutees Il est importantde noter que certaines notations non-conventionnelles (regroupeacutees sous la section c dans la Figure 12)sont ambigueumls la premiegravere description ne mentionne pas le nucleacuteotide de reacutefeacuterence la troisiegraveme et laquatriegraveme font reacutefeacuterence agrave deux versions diffeacuterentes de la mecircme proteacuteine sans preacuteciser de quelle versionil srsquoagit

Lrsquoeacutevaluation preacutecise du recouvrement entre les bases de donneacutees de variations geacutenomiques est cru-ciale dans le cadre du deacuteveloppement de diagnostics geacuteneacutetiques et de lrsquoexploration du variome (ie

lrsquoensemble des variations du geacutenome humain) [dDP03 RKC06 Spe08] Cette tacircche est rendue partic-uliegraverement deacutelicate agrave cause du nombre important de repreacutesentations diffeacuterentes et pourtant eacutequivalentesAussi un systegraveme capable drsquoeacutetablir cette eacutequivalence est neacutecessaire pour des investigations impliquant lrsquoanalyse de variations geacutenomiques et de cette faccedilon est neacutecessaire comme base agrave une exploration avanceacuteede la pharmacogeacutenomique qui prend en consideacuteration les nombreuses donneacutees recueillies dans le do-maine [AK02]

311 Les solutions drsquointeacutegration existantes

Une premiegravere solution au problegraveme de la repreacutesentation heacuteteacuterogegravene des variations consiste en laconstruction drsquoune base de donneacutees unique qui permette un accegraves agrave lrsquoensemble des variants contenus ini-tialement dans diffeacuterentes sources Crsquoest lrsquoobjectif de la base de donneacutees dbSNP du NCBI qui est la plusgrande source de variations disponible sur le Web (voir la section 22 du chapitre 1) En plus de contenirles variations qui lui sont directement soumises dbSNP integravegre des donneacutees provenant drsquoautres grandesbases de donneacutees de variations geacutenomiques comme la base NCI CGAP-GAI HGVBase HapMap Perl-gen Un avantage strateacutegique de dbSNP est de faire partie des bases de donneacutees du NCBI (entre autresGenBank PubMed Gene Human Genome Project Data) et agrave ce titre drsquoecirctre interrogeable par le systegravemefeacutedeacutereacute Entrez [Bax06] Un inconveacutenient de dbSNP est de ne pas permettre la coexistence de donneacuteespubliques et de donneacutees priveacutees relatives agrave des variations que les biologistes ne souhaitent pas diffuser(par exemple une nouvelle variation ou une nouvelle annotation)

TAMAL (Time and Money are Limiting) [HSS06] et LS-SNP (Large-Scale annotation of coding non-

synonymous SNPs) [KDK+05] sont des systegravemes drsquointeacutegration de donneacutees alternatifs principalementbaseacutes sur le contenu de dbSNP mais dont lrsquoavantage est de proposer des annotations suppleacutementaireset des faciliteacutes de seacutelection de SNP drsquointeacuterecirct pour la conception drsquoeacutetudes cliniques Ces SNP drsquointeacuterecirctpeuvent ecirctre les SNP susceptibles drsquoecirctre associeacutes agrave une maladie et donc inteacuteressants agrave geacutenotyper chezles patients enrocircleacutes Ces deux systegravemes partagent lrsquoinconveacutenient de dbSNP qui est de ne pas permettrelrsquointeacutegration de donneacutees tierces

312 SNP-Converter un systegraveme de conversion et drsquointeacutegration de variations geacutenomiques

SNP-Converter est un outil original deacuteveloppeacute pour lrsquointeacutegration de donneacutees relatives aux variationsgeacutenomique en suivant lrsquoapproche deacutecrite section 2 (voir Figure 311) SNP-Converter utilise lrsquoontologie

3 Expeacuterimentation 91

F 311 ndash Architecture de SNP-Converter suivant celle proposeacutee Figure 310

SNP-Ontology pour repreacutesenter par un ensemble drsquoassertions de concepts et de rocircles nrsquoimporte quelvariant quelle que soit sa description initiale Gracircce agrave cette capaciteacute des donneacutees contenues dans dessources heacuteteacuterogegravenes peuvent ecirctre mises correspondance avec les concepts et rocircles de SNP-Ontologypar lrsquointermeacutediaire de mappings donneacuteesndashassertions Suivant ces mappings SNP-Converter permet lepeuplement drsquoune associeacutee agrave SNP-Ontology et appeleacutee SNP-KB

Tels qursquoils sont deacutecrits dans la deacutefinition 31 les mappings donneacutees-assertions sont associeacutes agrave un en-semble de fonction F qui assure la transformation des valeurs des bases de donneacutees en noms drsquoindividusqui viennent peupler la De part lrsquoheacuteteacuterogeacuteneacuteiteacute des donneacutees relatives aux variations geacutenomiques cetensemble de fonction est particuliegraverement important dans SNP-Converter puisqursquoelles sont utiliseacutees pourreacutealiser la conversion de la description drsquoune variation geacutenomique en une autre Ensuite lrsquointeacutegration

proprement dite est effectueacutee par SNP-Converter qui est capable drsquoestimer lrsquoeacutequivalence entre deux de-scriptions converties en un format pivot ie un jeu de quatre attributs (deacutecrit ci-apregraves) qui identifie defaccedilon unique une variation geacutenomique

Reacutealiser la conversion de la description drsquoune variation geacutenomique en une autre ou eacutetablir lrsquoeacutequiv-alence entre deux descriptions sont des opeacuterations qui font intervenir des connaissances explicites dudomaine des connaissances relatives agrave la structure du gegravene la deacutefinition drsquoun transcrit ou encore aucode geacuteneacutetique Lrsquoune des raisons qui a motiveacute la construction de SNP-Ontology eacutetait justement defournir une repreacutesentation de ces connaissances sur laquelle srsquoappuyer afin de permettre la conversionla comparaison et au final lrsquointeacutegration de ce type de donneacutees

Un variant est une variation observeacutee localiseacutee sur une position preacutecise le long drsquoune seacutequence Lavariation observeacutee peut ecirctre une variation de nucleacuteotides ou drsquoacides amineacutes selon que la seacutequence quisert de reacutefeacuterence agrave sa localisation est un acide nucleacuteique (ie ADN ou ARN) ou une proteacuteine Cettedeacutefinition reflegravete agrave la fois le standard proposeacute par la nomenclature HGVS et la conceptualisation deSNP-Ontology Elle implique qursquoune variation soit deacutecrite au minimum par un jeu de quatre attributs

(i) lrsquoidentifiant drsquoune seacutequence de reacutefeacuterence (ie son numeacutero drsquoaccession dans une base de donneacuteespublique)

(ii) le type de la seacutequence en question geacutenomique codanteADNc ARNm ou proteacuteine respective-ment abreacutegeacute par les lettres g c r p suivant le standard de lrsquoHGVS

(iii) la position du variant sur la seacutequence de reacutefeacuterence (iv) la variation observeacutee (GT G- -T GTAG gu GlyVal par exemple)

92 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

La conjonction de ces quatre attributs permet une description univoque du variantComme mentionneacute dans la section 23 un mecircme variant peut ecirctre deacutecrit par diffeacuterentes compositions

de ce jeu de quatre attributs selon la seacutequence de reacutefeacuterence choisie Le principe geacuteneacuteral du SNP-Converterest de prendre en entreacutee un jeu drsquoattributs et de le convertir en un jeu drsquoattributs alternatif qui repreacutesentele mecircme variant

SNP-Converter pour la conversion de formatLe processus mis en œuvre par SNP-Converter lors de la conversion de la description drsquoune variationpeut ecirctre deacutecomposeacute en quatre eacutetapes deacutetailleacutees dans la suite de cette section et illustreacutees par les Figures312 et 313

ENDONNEacuteES

ENTREacuteE

JEU DrsquoATTRIBUTS

INITIAL

JEU DrsquoATTRIBUTS

PIVOT

JEU DrsquoATTRIBUTS

FINALEN

SORTIE

DONNEacuteES(2) (4)

(4)

(1) (3)

Descriptiondu format drsquoentreacutee

Seacutelection drsquoune seacutequence de reacutefeacuterence particuliegravere

Seacutelection duformat de sortie

F 312 ndash Les diffeacuterentes eacutetapes du processus de conversion de la description drsquoune variation geacutenomiquepris en charge par SNP-Converter

NT_011295

248976

GgtT

g

11087877

GgtT

NC_000019

g

(3)

CCDS12254

c

1694

GgtT

(4)NT_011295 g 2489769 GgtT

(1a) (2)CCDS12254c1694GgtT

Descriptiondu format HGVS du format HGVS

Seacutelection de la seacutequencede reacutefeacuterence codante

CCDS12254

Seacutelection

F 313 ndash Exemple de conversion de la description drsquoune variation geacutenomique reacutealiseacutee par SNP-Converter

(1) Lrsquoeacutetape de preacuteparationCertaines descriptions ne deacutecrivant pas explicitement les quatre attributs il est neacutecessaire drsquoin-clure dans lrsquoapplication une eacutetape de preacuteparation Cette eacutetape consiste en lrsquoextraction des quatreattributs initiaux et en conseacutequence est speacutecifique agrave chaque format de source de donneacutees Lrsquoeacutetapede preacuteparation est diffeacuterente selon que la description du variant est explicite (comme la syntaxeHGVS ou la syntaxe similaire agrave celle du genome-browser) ou implicite (un identifiant de basede donneacutees) Quand la description est explicite (1a) les quatre attributs peuvent ecirctre directementobtenus en parcourant la description et en en extrayant chacun des attributs Quand la description

3 Expeacuterimentation 93

est implicite (1b) les attributs initiaux sont obtenus par une requecircte sur la base de donneacutees con-cerneacutee Par exemple si la description de deacutepart est un identifiant dbSNP il est utiliseacute durant lrsquoeacutetapede preacuteparation pour interroger dbSNP et extraire le jeu drsquoattributs initial Lrsquoeacutetape de preacuteparationpermet eacutegalement de compleacuteter une description ambigueuml (1c) soit en compleacutetant automatique-ment les donneacutees manquantes drsquoune base de donneacutees lorsque crsquoest possible soit en compleacutetantmanuellement la description

Lrsquoimpleacutementation actuelle de cette eacutetape de preacuteparation permet lrsquoextraction des quatre attributs agravepartir des entreacutees de dbSNP HGVBase HapMap PharmGKB et de fichiers plats de deux basesde donneacutees priveacutees qui suivent des repreacutesentations non-conventionnelles correspondant aux deuxpremiers exemples de la section c de la Figure 12

(2) La conversion du jeu drsquoattributs initial en un jeu pivotLe jeu drsquoattributs pivot consiste en une version particuliegravere des quatre attributs pour laquelle lrsquoi-dentifiant de la seacutequence de reacutefeacuterence est celui de la seacutequence complegravete du chromosome (ie unnumeacutero drsquoaccession RefSeq de la forme NC_0000198) qui contient la variation En conseacutequencele type de seacutequence dans le jeu pivot est geacutenomique Les deux attributs restant doivent quant agrave euxecirctre calculeacutes La position relative de la seacutequence de reacutefeacuterence initiale sur la seacutequence complegravetedu chromosome est rechercheacutee dans la base de donneacutees adapteacutee Par exemple la position relativedrsquoun gegravene peut ecirctre trouveacutee agrave partir du symbole du gegravene dans lrsquoentreacutee RefSeq du chromosomecomplet (dans la section ldquoFEATURESgenerdquo) La position geacutenomique des exons peut eacutegalementy ecirctre retrouveacutee dans la section ldquoFEATURESmRNArdquo Si la position du variant est donneacutee parrapport au deacutebut de la seacutequence traduite ie du codon start ATG les coordonneacutees des morceauxde seacutequences codantes peuvent ecirctre trouveacutees dans la base de donneacutees CCDS56 du NCBI La posi-tion exacte de la variation sur la seacutequence complegravete du chromosome peut ecirctre calculeacutee agrave partir deces donneacutees et de la position de la variation sur la seacutequence de reacutefeacuterence initiale Enfin lrsquoattributcorrespondant agrave la variation observeacutee doit ecirctre converti en une variation de seacutequence geacutenomiqueSi la variation observeacutee est initialement deacutecrite sur une seacutequence drsquoADN elle reste identique saufdans le cas exceptionnel ougrave elle est observeacutee sur le brin anti-sens auquel cas elle est convertieAutrement si la variation observeacutee lrsquoest sur une seacutequence drsquoARN les uraciles (U) doivent ecirctreconvertis en thymines (T) Une variation observeacutee au niveau drsquoune proteacuteine est convertie suiv-ant le code geacuteneacutetique En raison de la deacutegeacuteneacuterescence du code geacuteneacutetique plusieurs codons codentpour le mecircme acide amineacute ainsi la conversion acide amineacute rarr nucleacuteotide peut geacuteneacuterer plusieurspropositions de variations SNP-Converter geacutenegravere toutes les possibiliteacutes

(3) La conversion optionnelle en un jeu drsquoattributs finalCette conversion est optionnelle puisque dans le cas ougrave la description deacutesireacutee correspond au jeupivot elle est inutile Cela est notamment le cas dans le processus drsquointeacutegration de donneacutees quenous deacutetaillons par la suite qui se base sur le jeu pivot Si ce nrsquoest pas le cas lrsquoutilisateur doitseacutelectionner une seacutequence de reacutefeacuterence drsquoADN ARNc ARNm ou proteacuteique sur laquelle doit ecirctrepositionneacutee la variation Le processus de conversion suit alors exactement le mecircme raisonnementque pour la conversion preacuteceacutedente afin de deacuteterminer la nouvelle position relative et la variationobserveacutee en fonction de la seacutequence de reacutefeacuterence choisie

(4) Le formatage des donneacutees de sortieDans le cas de lrsquointeacutegration de donneacutees illustreacutee dans la section suivante cette derniegravere eacutetapeconsiste en la transformation du jeu drsquoattributs en un ensemble drsquoassertions en qui viendrontinstancier une Cependant SNP-Converter peut ecirctre utiliseacute comme simple convertiseur de for-mat indeacutependemment de tout systegraveme drsquointeacutegration Dans ce cas les donneacutees de sorties peuvent

56httpwwwncbinlmnihgovCCDS

94 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

ecirctre formateacutees selon lrsquousage qursquoil est preacutevu drsquoen faire Un premier choix peut ecirctre lrsquoeacutedition simpledu jeu drsquoattributs final suivant la syntaxe HGVS Un second choix est la creacuteation drsquoun fichier con-tenant la description de la variation dans le format speacutecifique de soumission agrave une base de donneacuteescomme par exemple le format XML de soumission agrave dbSNP

SNP-Converter a donneacute lieu au deacuteveloppement drsquoun prototype en java dont plusieurs copies drsquoeacutecransont preacutesenteacutees en Annexe E A lrsquoaide de cette impleacutementation SNP-Converter a eacuteteacute expeacuterimenteacute surles variations du gegravene LDLR contenues dans dbSNP (au format XML) et de variations du mecircme gegravenedeacutecrites de faccedilon non-conventionnelle dans des sources priveacutees sous forme de fichiers textes Lrsquoobjectifeacutetait alors de mesurer le taux de recouvrement entre les trois bases de donneacutees et plus speacutecifiquementdrsquoidentifier les variations des bases de donneacutees priveacutees qui ne sont pas enregistreacutees dans dbSNP afindrsquoenvisager leur soumission

Pour reacutealiser cette expeacuterimentation SNP-Converter a drsquoabord eacuteteacute utiliseacute pour convertir les variationscontenues dans les trois sources en leur description par le jeu pivot pour ensuite comparer les reacutesultatset eacutevaluer leur eacutequivalence potentielle La fonction du SNP-Converter permettant drsquoinstancier une aeacuteteacute utiliseacutee pour inteacutegrer les diffeacuterentes descriptions de variations et leurs eacutequivalences Lrsquoinstanciationde la et les reacutesultats obtenus sont preacutesenteacutes dans la section suivante

SNP-Converter pour lrsquointeacutegration de donneacutees

Lrsquoutilisation du SNP-Converter pour lrsquointeacutegration peut ecirctre consideacutereacutee comme un mapping indirectentre le scheacutema des sources de donneacutees initiales et lrsquoontologie Dans ce sens le mapping indirect srsquoap-puie alors sur un ensemble de fonctions de convertion des descriptions heacuteteacuterogegravenes Dans lrsquooptique drsquoin-teacutegrer un maximum de donneacutees relatives aux variations nous utilisons SNP-Converter de telle sorte quelorsqursquoil instancie un nouveau variant dans la il lui associe non seulement les attributs du jeu initialmais eacutegalement les attributs pivots calculeacutes par SNP-Converter Dans la mecircme optique de lrsquointeacutegrationdrsquoun maximum de donneacutees il est eacutegalement inteacuteressant pour chaque variation drsquointeacutegrer dans la SNP-KBdrsquoune part le jeu des quatre attributs et drsquoautre part des attributs suppleacutementaires associeacutes agrave la variation enquestion (par exemple lrsquoorganisme eacutetudieacute ou sa freacutequence drsquoobservation dans une population) Dans cecas les attributs suppleacutementaires sont extraits au mecircme titre que ceux du jeu drsquoattributs consideacutereacute maisne sont soumis agrave aucune conversion En revanche pour qursquoils puissent donner lieu agrave lrsquoinstanciation de la il faut qursquoils soient inclus dans la description du mapping donneacutees-assertions (voir section 22)

Si lrsquoon considegravere les deux bases de donneacutees PharmGKB et dbSNP dont les scheacutemas contiennentrespectivement les deux relations suivantes RPharmGKB et RdbS NP

RPharmGKB (Submission_Id GP_Position assembly Strand Variant Feature Nb_Of_Chr Frequencygene_symbole)

RdbS NP (dbSNP_Id organism genome_build alleles contig_accession contig_position functiongene_symbole)

Deux exemples de mappingMdminusa (voir deacutefinition 31) possibles entre ces bases de donneacutees et lrsquoontologieSNP-OntologyMdminusa 1 etMdminusa 2 sont deacutefinis ici par lrsquoassociation entre une requecircte SQL et des assertionsen

3 Expeacuterimentation 95

Mdminusa 1 Variant( f1(Submission_Id))Position( f2(GP_Position))

SELECT Submission_Id GP_Position Variant hasPosition( f1(Submission_Id) f2(GP_Position))FROM RPharmGKB hasPositionminus( f2(GP_Position) f1(Submission_Id))

Variation( f3(Variant))hasVariation( f1(Submission_Id) f3(Variant))hasVariationminus( f3(Variant) f1(Submission_Id))

Mdminusa 2 NonS ynonymousVariant( f4(dbSNP_Id))Position( f5(contig_position))

SELECT dbSNP_Id contig_position alleles hasPosition( f4(dbSNP_Id) f5(contig_position))FROM RdbS NP hasPositionminus( f5(contig_position) f5(dbSNP_Id))WHERE function =ldquonon-synonymousrdquo Variation( f6(alleles))

hasVariation( f4(dbSNP_Id) f6(alleles))hasVariationminus( f6(alleles) f4(dbSNP_Id))

Chaque variant reacuteponse agrave lrsquoune des deux requecirctes preacuteceacutedentes est converti par SNP-Converter (S C)en quatre valeurs correspondant au jeu drsquoattributs pivot Il est alors possible drsquoappliquer agrave ce jeu drsquoat-tributs particulier le mapping appeleacuteMdminusa S C dont un exemple est preacutesenteacute ci-apregraves Les fonctions de laforme sci repreacutesentent alors les opeacuterations de conversion reacutealiseacutees sur les valeurs des attributs du jeu ini-tial Le reacutesultat de ces fonctions constitue le jeu drsquoattributs pivot Respectivement sc1 extrait lrsquoidentifiantde la seacutequence de reacutefeacuterence sc2 la position sur cette seacutequence sc3 le type de la seacutequence de reacutefeacuterenceet sc4 la variation observeacutee Lrsquoexemple proposeacute deMdminusa S C preacutesente la particulariteacute que reacutefeacuterence po-sition et type de seacutequence soient extraits agrave partir du mecircme attribut GP_Position Les fonctions fi sont lesfonctions classiquement deacutefinies dans le cadre des mappings La fonction f7 preacutesente la particulariteacute deprendre 4 attributs en paramegravetre car elle construit un identifiant unique de variant sur la base des valeursdes quatre attributs du jeu pivot Dans un souci de clarteacute nous remplacerons dans le mapping la notation

f7(sc1(GP_Position) sc2(GP_Position) sc3(GP_Position) sc4(Variant)) = f7(jeu_pivot)

Mdminusa S C Variant( f7(jeu_pivot))S equence( f8(sc1(GP_Position)))

SELECT Submission_Id S C sc1(GP_Position) isLocatedOn( f7(jeu_pivot) f8(sc1(GP_Position))GP_Position rarr sc2(GP_Position) isLocatedOnminus( f8(sc1(GP_Position) f7(jeu_pivot))Variant sc3(GP_Position) Position( f9(sc2(GP_Position)))

FROM RPharmGKB sc4(Variant) hasPosition( f7(jeu_pivot) f9(sc2(GP_Position))hasPositionminus( f9(sc2(GP_Position) f7(jeu_pivot))Variation( f10(sc4(Variant)))hasVariation( f7(jeu_pivot))) f10(sc4(Variant))hasVariationminus( f10(sc4(Variant) f7(jeu_pivot)))

Dans le cas du second mappingMdminusa 2 les attributs de RdbS NP pris en paramegravetre par les fonctionssci sont diffeacuterents mais le mapping vers les assertions est identique

Lrsquoeacutetape drsquoinstanciation de la SNP-KB revient agravendash (1) ajouter pour lrsquoensemble des n-uplets reacuteponses aux requecirctes lrsquoensemble des assertions de con-

cepts et des assertions de rocircles du mappingMdminusa deacutefini entre SNP-Ontology et le scheacutema S de labases de donneacutees consideacutereacutee

96 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

ndash (2) agrave partir des n-uplets reacuteponses aux requecirctes extraire et convertir les valeurs en celles correspon-dant au jeu drsquoattributs pivot

ndash (3) ajouter pour lrsquoensemble des quadruplets reacutesultant lrsquoensemble des assertions du mappingMdminusa S C ndash (4) enfin deacutefinir dans la lrsquoeacutequivalence entre le variant deacutecrit par ses attributs initiaux et le

variant deacutecrit par les attributs pivot

Le fait que SNP-Converter instancie dans la eacutegalement le jeu pivot permet de tester lrsquoeacutequivalencede deux variants dont les descriptions initiales eacutetaient diffeacuterentes mais dont la description pivot est iden-tique Le test drsquoeacutequivalence peut ecirctre consideacutereacute comme une extension proceacutedurale des meacutecanismes deraisonnement classiques Le reacutesultat de ce test aboutit agrave lrsquoenrichissement de la

Pour terminer notre exemple consideacuterons les deux tuples suivants reacuteponses respectives aux requecirctesdeMdminusa 1 etMdminusa 2 sur dbSNP et PharmGKB et les assertions associeacutees

Variant(135411387_01)Position(Chr6_18247207)hasPosition(135411387 Chr6_18247207)

(135411387Chr6 18247207AG) hasPositionminus(Chr6_18247207 135411387)Variation(A_G)hasVariation(135411387_01 A_G)hasVariationminus(A_G 135411387_01)

NonS ynonymousVariant(rs1800460_01)Position(8997479)hasPosition(rs1800460_01 8997479)

(rs18004608997479GgtA) hasPositionminus(8997479 rs1800460_01)Variation(A_G)hasVariation(rs1800460_01 A_G)hasVariationminus(A_G rs1800460_01)

Ainsi les deux attributs rsquoAGrsquo et rsquoGgtArsquo sont transformeacutes par les fonctions f3 et f6 en un mecircme nomdrsquoindividu rsquoA_Grsquo et permettent ainsi la creacuteation drsquoun seul individu identifieacute par lsquoA_Grsquo qui est instancedu concept Variation dans la

3 Expeacuterimentation 97

Mdminusa S C Variant(ch6_18247207_c_A_G)S equence(NC_000006)

(135411387 S C sc1(Chr6 18247207) isLocatedOn(NC_000006 ch6_18247207_c_A_G)Chr6 18247207 rarr sc2(Chr6 18247207) isLocatedOnminus(ch6_18247207_c_A_G NC_000006)AG) sc3(Chr6 18247207) Position(18247207)

sc4(AG) hasPosition(ch6_18247207_c_A_G 18247207)hasPositionminus(18247207 ch6_18247207_c_A_G)Variation(A_G)hasVariation(ch6_18247207_c_A_G A_G)hasVariationminus(A_G ch6_18247207_c_A_G)

Mdminusa S C Variant(ch6_18247207_c_A_G)S equence(NC_000006)

(rs1800460 S C sc1(NT_007592) isLocatedOn(NC_000006 ch6_18247207_c_A_G)8997479 rarr sc2(8997479) isLocatedOnminus(ch6_18247207_c_A_G NC_000006)GgtA) sc3(NT_007592) Position(18247207)

sc4(GgtA) hasPosition(ch6_18247207_c_A_G 18247207)hasPositionminus(18247207 ch6_18247207_c_A_G)Variation(A_G)hasVariation(ch6_18247207_c_A_G A_G)hasVariationminus(A_G ch6_18247207_c_A_G)

Les deux variants exemples sont convertis (S C) puis sont mis en correspondance par le mapping (Mdminusa S C)agrave des assertions qui font reacutefeacuterence agrave un mecircme variant En pratique le variant ch6_18247207_c_A_G estinstancieacute dans la une premiegravere fois Puis la connaissance sur lrsquoeacutequivalence entre le variant initial135411387_01 et le variant ldquopivotrdquo ch6_18247207_c_A_G est ajouteacute agrave la

135411387_01 ch6_18247207_c_A_G

(ou en OWL 135411387_01 owl sameAs ch6_18247207_c_A_G)

Ensuite lors du traitement de variant rs1800460_01 celui-ci est converti (SC) et mis en correspon-dance (Mdminusa S C) agrave la liste drsquoassertion relatives mais SNP-Converter veacuterifie dans la si le variant ldquopiv-otrdquo ch6_18247207_c_A_G lui correspondant est deacutejagrave repreacutesenteacute Si crsquoest le cas il nrsquoy est pas instancieacuteagrave nouveau et seule la connaissance sur leur eacutequivalence est ajouteacutee

rs1800460_01 ch6_18247207_c_A_G

Ceci permet drsquoinduire par un raisonnement baseacute sur la transitiviteacute de lrsquoopeacuterateur la connaissancesuivante

135411387_01 rs1800460_01

SNP-Converter a eacuteteacute utiliseacute dans le cadre drsquoune expeacuterimentation drsquointeacutegration meneacutee sur les varia-tions geacutenomiques speacutecifique au gegravene LDLR Les Figures 314 et 315 illustrent les reacutesultats obtenus Troisjeux de donneacutees ont eacuteteacute soumis au SNP-Converter Ceux-ci sont constitueacutes tout drsquoabord de deux basesde donneacutees priveacutees fournies par lrsquouniteacute UMRS 538 de lrsquoINSERM contenant 274 et 55 variants deacutecrits

98 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

suivant deux formes non-conventionnelles Ensuite le troisiegraveme jeu de donneacutees est constitueacute des vari-ants situeacutes sur le gegravene LDLR contenu dans dbSNP en format XML (377) Parmi les 706 (274+55+377)variants diffeacuterents utiliseacutes pour peupler la 634 sont consideacutereacutes comme des individus uniques ie

repreacutesenteacutes une seule fois dans la ) et 35 autres sont repreacutesenteacutes 2 ou 3 fois selon des repreacutesentationsdiffeacuterentes au sein de la reacutesultante Ces derniers variants sont donc originellement contenus dans 2 ou3 des jeux de donneacutees de deacutepart

55 377

SNPminusConverter

assertions

706 assertions =

274 variants du gegravene LDLR

existencedu variant

SNPminusKB634 individus originaux +

Base deBase dedbSNP

35 individus agrave eacutequivalents

umrs538donneacutees 1

umrs538donneacutees 2

F 314 ndash Utilisation du SNP-Converter comme wrapper et meacutediateur pour le peuplement drsquoune basede connaissances relative aux variations geacuteneacutetiques du gegravene LDLR

244

224 5

4

346

44

dbSNP (377)

Base de donneacutees 1umrs538 (274) umrs538 (55)

Base de donneacutees 2

F 315 ndash Diagramme de Venn repreacutesentant le recouvrement des trois jeux de donneacutees utiliseacutees pourpeupler la base de connaissances SNP-KB

3 Expeacuterimentation 99

32 Inteacutegration de donneacutees pharmacogeacutenomiques iSO-Pharm

La pharmacogeacutenomique est un domaine drsquoeacutetude qui manipule des donneacutees complexes La consideacutera-tion de sous-domaines (la pharmacologie la biologie moleacuteculaire la meacutedecine clinique la geacuteneacutetique despopulations lrsquoeacutepigeacutenomique entre autres) aux outils objectifs et sources de donneacutees distincts constitueun premier facteur de complexiteacute Les multiples niveaux de granulariteacute entre ces sous-domaines voire ausein drsquoun sous-domaine sont eacutegalement facteurs de complexiteacute Nous pouvons ajouter que ces donneacuteessont freacutequemment interconnecteacutees

Ces diffeacuterents facteurs de complexiteacute justifient la construction drsquoun systegraveme drsquointeacutegration de donneacuteesrelatives agrave la pharmacogeacutenomique Une motivation suppleacutementaire vient du fosseacute existant entre drsquoun cocircteacuteles donneacutees sur les connaissances pharmacogeacutenomiques geacuteneacuterales et de lrsquoautre les observations cliniquesqui ont permis de connaicirctre ces relations Un tel manque de relations peut ecirctre observeacute dans la base dedonneacutees PharmGKB ougrave coexistent sans relation des associations gegravenendashmeacutedicamentndashmaladie et des jeuxde donneacutees patients contenant des donneacutees relatives aux geacutenotype pheacutentoype et traitement de patientsLe mecircme genre de lacune existe dans la base OMIM dont les entreacutees relatives aux maladies (survenantparfois dans le cadre drsquoun traitement) preacutesentent une section ldquoClinical Synopsisrdquo dont les donneacutees nesont pas relieacutees aux variations geacutenomiques associeacutees par exemple reacutefeacuterenceacutees dans dbSNP voire mecircmedans OMIM

iSO-Pharm (pour instanciate SO-Pharm en anglais) est un systegraveme qui integravegre selon la meacutethodeproposeacutee section 2 et dans le contexte drsquoune base de connaissances des sources de donneacutees pharma-cogeacutenomiques relatives drsquoune part aux relations connues entre geacutenotypendashmeacutedicamentndashpheacutenotype etdrsquoautre part agrave des donneacutees cliniques observeacutees chez des patients La Figure 316 repreacutesente lrsquoarchitecturede ce systegraveme Elle preacutecise les sources de donneacutees inteacutegreacutees le rocircle central de lrsquoontologie SO-Pharm etde mappings deacutefinis entre donneacutees (des sources) et assertions (associeacutees agrave SO-Pharm) Il faut noter quechaque jeu de donneacutees de PharmGKB inteacutegreacute neacutecessite la deacutefinition drsquoun mapping particulier de par lefait que chaque jeu est structureacute suivant un scheacutema particulier

F 316 ndash Architecture de iSO-Pharm instanciant lrsquoarchitecture geacuteneacuterale deacutecrite Figure 310

Lrsquoobjectif drsquoun tel systegraveme est drsquointeacutegrer agrave la fois des donneacutees cliniques (ie des donneacutees relativesau pheacutenotype et au geacutenotype de patients) et des donneacutees biologiques (ie enregistreacutees dans les bases dedonneacutees biologiques et souvent issues drsquoexpeacuterience en biologie moleacuteculaire) dans le cadre drsquoune detelle sorte qursquoil soit possible drsquoutiliser la seacutemantique associeacutee aux donneacutees pour lrsquoextraction de connais-sances en pharmacogeacutenomique Cet objectif est expeacuterimenteacute dans la section 24 du chapitre 4 La base de

100 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

lrsquoexpeacuterimentation deacutecrite dans cette section est justement le peuplement drsquoune pharmacogeacutenomique agravepartir

ndash de donneacutees cliniques de PharmGKB consigneacutees dans le cadre de lrsquoinvestigation clinique desreacuteponses de 61 patients asthmatiques agrave un meacutedicament appeleacute le montelukast et

ndash de donneacutees biologiques de PharmGKB dbSNP OMIM Gene57 et KEGG Pathway58Le peuplement de la associeacutee agrave cette expeacuterimentation megravene notamment agrave la creacuteation de 61 assertionsdu concept ldquopatientrdquo (deacutefini dans SO-Pharm) de 127 assertions du concept ldquoclinical_itemrdquo ou de sesdescendants et des nombreuses assertions du rocircle ldquopresents_clinical_itemrdquo qui permet drsquoassocier lesinstances des concepts ldquopatientrdquo et ldquoclinical_itemrdquo conformeacutement aux reacutesultats de lrsquoinvestigation clin-ique Les donneacutees biologiques permettent de creacuteer des assertions de concepts et de rocircles relatives auxvariations geacutenomiques aux gegravenes aux meacutedicaments aux pheacutenotypes et agrave des reacuteseaux meacutetaboliques

57httpwwwncbinlmnihgovsitesentrezdb=gene58httpwwwgenomejpkeggpathwayhtml

4 Discussion 101

4 Discussion

Il est possible de confronter deux faccedilons de conceptualiser des connaissances la premiegravere part desdonneacutees pour deacutefinir des concepts crsquoest en un sens le cas des meacutethodes semi-automatiques de construc-tion drsquoontologie la seconde quant agrave elle part des concepts eux-mecircmes auxquels des donneacutees peuvent ecirctreassocieacutees par la suite Cette derniegravere est plus proche drsquoune construction manuelle dirigeacutee par les connais-sances drsquoun expert Une mise en perspective proposeacutee et illustreacutee dans lrsquointroduction de la thegravese de SRudolph fait le lien entre ces deux faccedilons de conceptualiser le monde et les doctrines philosophiquesinspireacutees des penseacutees drsquoAristote et Platon lrsquoempirisme et le rationalisme [Rud06]

Un premier choix fort fait dans cette thegravese est celui drsquoopter pour une construction manuelle des on-tologies Nous justifions celui-ci par deux arguments Premiegraverement les constructions drsquoontologies quenous avons meneacutees sont orienteacutees vers deux objectifs preacutecis qui sont lrsquointeacutegration de donneacutees et la deacutecou-verte de connaissances Nous pensons que lrsquoutilisation de meacutethodes de construction semi-automatiquesagrave partir de donneacutees ou de textes introduisent un biais dans la repreacutesentation des connaissances trop con-traignant vis agrave vis de nos objectifs Notons que les bio-ontologies partageacutees sur les portails OBO-Foundryet BioPortal sont construites manuellement Un second argument allant contre une construction semi-automatique est que les sources de donneacutees disponibles en pharmacogeacutenomique ne recouvrent chacuneque partiellement ce domaine en rapide eacutevolution

En revanche nous consideacuterons lrsquoutilisation des donneacutees et des textes comme le mode principal drsquoeacute-valuation de la construction En effet le fait que les concepts et rocircles drsquoune ontologie permettent larepreacutesentation des connaissances informelles contenues dans les bases de donneacutees et les textes est in-dispensable agrave lrsquoaccomplissement de nos deux objectifs (inteacutegration de donneacutees et deacutecouverte de con-naissances) Crsquoest principalement par le test de cette capaciteacute agrave repreacutesenter les connaissances que sonteacutevalueacutees SNP-Ontology et SO-Pharm

En ce qui concerne lrsquoarticulation des ontologies existantes avec les ontologies construites nous avonsaussi preacutefeacutereacute deacutefinir manuellement la liste drsquoaxiomes qui deacutecrivent les relations entre concepts de dif-feacuterentes ontologies Les raisons de ce choix sont similaires agrave celles qui motivent le choix drsquoune construc-tion manuelle Il est possible de consideacuterer cette liste drsquoaxiomes comme une TBox agrave part entiegravere (ie uneontologie indeacutependante) Sur le plan theacuteorique crsquoest notamment ce qui semble le plus pertinent car celaeacutevite drsquoavoir agrave incorporer des concepts externes dans lrsquoontologie garantissant ainsi son inteacutegriteacute (aussibien que celle des ontologies articuleacutees) Ceci eacutevite eacutegalement drsquoimporter une ontologie volumineuselorsque seules certaines branches de sa hieacuterarchie sont utiles Cependant cela impose une modularisa-

tion des ontologies qui nrsquoest pas geacutereacutee actuellement par les outils standards utiliseacutes pour la constructiondrsquoontologies tels que OWL ou Proteacutegeacute La solution que nous avons adopteacutee est ainsi lrsquoimportation des on-tologies articuleacutees dans leur globaliteacute comme lrsquoautorisent ces outils Associeacutes agrave cette probleacutematique lestravaux reacutecents de Konev et al proposent de deacutefinir des modules drsquoontologies en qui pourraient ecirctreextraits et utiliseacutes indeacutependemment [KLWW08] Ceci permettrait drsquoutiliser les meacutecanismes de raison-nement sur SO-Pharm de faccedilon moins contraignante

Les propositions reacutecentes concernant la repreacutesentation du temps en sont des progregraves eacutegalementprofitables agrave la formalisation de domaines comme la pharmacogeacutenomique et par conseacutequent profitablesaux futures versions de SO-Pharm [BGL08 LWZ08]

Lrsquoutilisation drsquoontologies pour lrsquointeacutegration de donneacutees est freacutequemment discuteacutee dans la litteacuterature[CG05] Notre motivation pour ce choix est ici renforceacutee par le fait que le second objectif de notretravail qui fait suite agrave lrsquointeacutegration de donneacutees est lrsquoeacutetude de lrsquoutilisation de connaissances formaliseacuteespour guider la deacutecouverte de connaissances (preacutesenteacutee chapitre 4)

La meacutethode drsquointeacutegration que nous proposons peut ecirctre consideacutereacutee comme un intermeacutediaire entre uneapproche meacutediateur et une approche entrepocirct En effet elle est comparable agrave une approche entrepocirct dans

102 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

le sens ougrave les reacutesultats de lrsquointeacutegration sont mateacuterialiseacutes puis reacuteutiliseacutes notamment pour ecirctre analyseacutes(voir chapitre 4) Neacuteanmoins nous la comparons eacutegalement agrave lrsquoapproche meacutediateur pour souligner (1) lefait que les donneacutees manipuleacutees restent dans les sources drsquoorigine ce qui est mateacuterialiseacute est un ensembledrsquoassertions et (2) lrsquoaspect dynamique de lrsquoinstanciation de lrsquoontologie qui srsquoeffectue en reacuteponse agrave unerequecircte et permet de cette faccedilon de creacuteer des diffeacuterentes en reacuteponse agrave diffeacuterentes requecirctes

Dans sa thegravese soutenue en 2007 F Saiumls deacutecrit une approche drsquointeacutegration seacutemantique fondeacutee surun enrichissement seacutemantique des donneacutees [Saiuml07] Cet enrichissement consiste en lrsquoajout de termesdeacutecrivant les concepts et rocircles drsquoune ontologie pour annoter les donneacutees Lrsquoassociation donneacuteendashterme estalors reacutealiseacutee au travers drsquoun scheacutema XML speacutecifique Le systegraveme drsquointeacutegration prend ensuite comptedes annotations pour inteacutegrer les donneacutees entre elles Pour utiliser un vocabulaire comparable agrave celui deF Saiumls nous pouvons dire non pas que notre approche enrichit les donneacutees agrave lrsquoaide de connaissancesmais qursquoinversement nous enrichissons des connaissances agrave lrsquoaide de donneacutees Dans ce sens lrsquoajout dansune drsquoassertions de concepts et de rocircles preacutealablement associeacutees agrave des donneacutees dans des mappingspeut ecirctre consideacutereacute comme un enrichissement de la

Les contributions preacutesenteacutees dans ce chapitre ont donneacute lieu agrave deux publications La premiegravere preacutesenteSNP-Converter et la seconde expose les meacutethodes associeacutees agrave la construction et agrave la validation de lrsquoon-tologie SO-Pharm [CSTB+06 CSTND06]

Ce chapitre preacutesente une approche drsquointeacutegration de donneacutees centreacutee sur une base de connaissances() dont le reacutesultat consiste en le peuplement de cette Lrsquoobjectif de cette inteacutegration est non seulementdrsquointeacutegrer des donneacutees issues de sources heacuteteacuterogegravenes mais eacutegalement de leur associer une seacutemantiquedeacutefinie dans le cadre de la repreacutesentation des connaissances relatives agrave leur domaine De fait cette seacute-mantique est utile pour inteacutegrer les donneacutees mais nous inteacuteresse plus particuliegraverement pour ameacuteliorerles reacutesultats drsquoun processus drsquoextraction de connaissances agrave partir des donneacutees inteacutegreacutees Nous abordonsdans le chapitre suivant (chapitre 4) la faccedilon dont une peut ecirctre associeacutee agrave un processus drsquo pouren faciliter chacune des eacutetapes mais aussi comment elle peut ecirctre utiliseacutee comme eacuteleacutement central drsquountel processus en appliquant les meacutethodes de fouille sur son contenu afin de beacuteneacuteficier des connaissancesaussi bien que des donneacutees disponibles

Chapitre 4

Extraction de connaissances dans lecontexte drsquoune Base de Connaissances

Nous avons deacutefini et illustreacute la notion drsquoExtraction de Connaissances guideacutee par les Connaissances

du Domaine () dans le chapitre 2 section 4 Dans ce chapitre nous proposons et expeacuterimentons unemeacutethode drsquo dans laquelle les connaissances du domaine sont utiliseacutees pour guider lrsquoeacutetape de seacutelec-

tion de donneacutees du processus (section 1) Ensuite nous introduisons la notion nouvelle drsquoExtraction deConnaissances agrave partir drsquoune Base de Connaissances () que nous proposons comme une approcheparticuliegravere drsquoExtraction de Connaissances guideacutee par les Connaissances du Domaine (section 2) Nouspreacutesentons une meacutethode particuliegravere drsquo appeleacutee Analyse des Assertions de Rocircles () qui explore lesreacutegulariteacutes existant dans les instanciations des rocircles drsquoune en pour en extraire de nouvelles connais-sances (23) Nous illustrons cette meacutethode par une expeacuterimentation pour la deacutecouverte de connaissancesen pharmacogeacutenomique 24 Enfin la section 3 est une discussion de lrsquoutilisation des connaissances pourla deacutecouverte de connaissances

1 Seacutelection de donneacutees guideacutee par les connaissances du domaine

Dans cette section 1 nous proposons une meacutethode de seacutelection de donneacutees guideacutee par les connais-sances Celle-ci repose sur la deacutefinition de diffeacuterents ensembles de mappings entre des sources de don-neacutees et une Lrsquoapport principal de cette meacutethode est de guider lrsquoanalyste dans la seacutelection de donneacuteesagrave lrsquoaide

ndash de donneacutees disponibles dans un ensemble de sources de donneacutees heacuteteacuterogegravenes connexes au domaineeacutetudieacute

ndash de lrsquoexpressiviteacute des langages de et des meacutecanismes de raisonnement qui leur sont associeacutes

11 Motivation

Les meacutethodes de fouille de donneacutees et plus particuliegraverement les meacutethodes symboliques geacutenegraverentdes reacutesultats volumineux redondants et complexes Il en reacutesulte une phase drsquointerpreacutetation longue etfastidieuse qui limite le succegraves de lrsquoapproche

Ce problegraveme met en avant lrsquoimportance de la premiegravere eacutetape de lrsquo qursquoest la preacuteparation desdonneacutees De cette eacutetape deacutepend la suite du processus depuis le parameacutetrage et le temps de calcul ausuccegraves mecircme de lrsquoextraction de connaissance utiles Dans le cadre de la deacutecouverte de connaissances

103

104 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

en pharmacogeacutenomique Altman et Klein [AK02] soulignent lrsquoimportance du choix de sous-ensemblesde donneacutees parmi la montagne de donneacutees post-geacutenomiques disponibles La reacuteduction des donneacutees agraveprendre en compte pour la fouille a une influence directe sur le volume et la pertinence des reacutesultatsCette reacuteduction est drsquoautant plus cruciale en biologie que les sources de donneacutees sont de plus en plusnombreuses et volumineuses [Bat08]

Reacuteduire la quantiteacute de donneacutees agrave fouiller par une opeacuteration de seacutelection permet de prendre en compteles connaissances (subjectives) des experts avant drsquoeffectuer la fouille (voir chapitre 2 section 123)Lrsquoobjectif drsquoune telle seacutelection est de reacuteduire le temps de calcul et le volume des reacutesultats produits sansen eacuteliminer les eacuteleacutements inteacuteressants ce qui facilite indirectement lrsquointerpreacutetation Il srsquoagit donc drsquoeacutelim-iner progressivement et en accord avec les objectifs de la fouille les eacuteleacutements redondants triviaux etdeacutenueacutes drsquointeacuterecirct Les connaissances alors utiliseacutees le sont habituellement de faccedilon manuelle agrave partir deconnaissances propres agrave lrsquoanalyste et des informations qursquoil peut collecter dans les bases de donneacutees

Lrsquoutilisation de systegravemes empiriques baseacutes sur des meacutethodes statistiques etou drsquoapprentissage est unpremier moyen drsquoassister lrsquoanalyste dans la seacutelection de donneacutees Une vue drsquoensemble de ces meacutethodesest proposeacutee dans [SIL05] ainsi que dans la section 1 du chapitre 2

Dans cette derniegravere section il est question drsquoun second moyen drsquoassister lrsquoanalyste par lrsquoutilisationde connaissances cependant les connaissances utiliseacutees ne sont jamais repreacutesenteacutees dans un formalismequi permette la mise en œuvre de meacutecanismes de raisonnement Ce qui nous inteacuteresse ici est justementlrsquoutilisation de connaissances dans le cadre de systegravemes de seacutelection de donneacutees avec comme objectifde tirer parti des connaissances formaliseacutees dans une en afin de guider agrave la fois le systegraveme (pardes meacutecanismes de raisonnement) et celui qui le pilote Le sceacutenario drsquoextraction de connaissances enbiologie exposeacute ci-apregraves illustre la distinction entre le rocircle des connaissances de lrsquoexpert le contenu debases de donneacutees et lrsquoutilisation drsquoune

variable_clin01 variable_clin m variant01 variant02 variant p

patient01

patient02

patient n

T 41 ndash Forme geacuteneacuterale du jeu de donneacutees eacutetudieacute dans le sceacutenario

Sceacutenario drsquoextraction de connaissancesUn biologiste eacutetudie la pharmacogeacutenomique lieacutee au traitement de lrsquoHypercholesteacuteroleacutemie Familiale (HF)agrave partir de donneacutees biologiques et geacutenomiques pour un panel de patients traiteacutes Le jeu de donneacutees dont

il dispose preacutesente pour chaque patient un ensemble de variables cliniques et plus de 500 geacutenotypes de

variants geacutenomiques localiseacutes sur diffeacuterents gegravenes (Tableau 41)

Pour seacutelectionner un sous-ensemble de donneacutees le biologiste peut utiliser

sa propre connaissance pour seacutelectionner les reacutegions du geacutenome ougrave les variants sont susceptibles de

lrsquointeacuteresser les gegravenes impliqueacutes dans lrsquoHF (LDLR APOE APOB LPL) et plus particuliegraverement

les exons les promoteurs et les reacutegions flanquantes des exons de ces gegravenes Cependant le biolo-

giste est incapable sur la base de sa seule connaissance drsquoassocier aux variants les reacutegions sur

lesquels ils sont situeacutes

le contenu de bases de donneacutees par exemple Genome Browser ou dbSNP lui permettent drsquoidentifier

parmi les variants exploreacutes dans son panel lesquels sont localiseacutes dans les reacutegions qui lrsquoin-

teacuteressent

1 Seacutelection de donneacutees guideacutee par les connaissances du domaine 105

lrsquoutilisation drsquoune Base de Connaissances lui permet potentiellement de savoir que les gegravenes en re-

lation avec la pharmacogeacutenomique de lrsquoHF sont plus nombreux et incluent eacutegalement les gegravenes

MTTP et ESR1 Il peut alors seacutelectionner les variants localiseacutes sur sa nouvelle liste de gegravenes sans

passer par une base de donneacutees Le biologiste peut eacutegalement observer qursquoil existe au sein des

variants des sous-ensembles pertinents les tag-SNP et les variants non-synonymes qursquoil peut

eacutegalement isoler directement gracircce agrave la Il peut seacutelectionner les variants des gegravenes qui codent

pour des proteacuteines impliqueacutees dans les reacuteactions du meacutetabolisme de lrsquoatorvastatine59 ou plus

geacuteneacuteralement du meacutetabolisme drsquoune statine (classe agrave laquelle appartient lrsquoatorvastatine)

Parce qursquoelle integravegre et structure les connaissances du domaine auquelle elle rattache les donneacuteesbrutes qursquoelle utilise un formalisme expressif et parce qursquoelle peut ecirctre associeacutee agrave des meacutecanismes deraisonnement la est un outil preacutecieux pour guider lrsquoanalyste dans un processus semi-automatique deseacutelection de donneacutees

Lrsquoanalyste aussi expert soit-il peut tirer parti de la repreacutesentation des connaissances encyclopeacutediquesdrsquoune ontologie pour orienter ses choix lors de la seacutelection De plus la somme de connaissances disponibleslaisse envisager que des tacircches demandant moins drsquoexpertise (comme par exemple la tacircche de seacutelectionmoins ldquopointuerdquo que la tacircche drsquointerpreacutetation) puissent ecirctre reacutealiseacutee par un analyste dont le niveau drsquoex-pertise est infeacuterieur mais capable de srsquoappuyer sur le reacuteferentiel deacutejagrave existant (ie la )

12 Meacutethode proposeacutee

La meacutethode preacutesenteacutee ici a pour objectif lors de lrsquoeacutetape de preacuteparation dans un processus drsquodrsquoaider lrsquoanalyste agrave seacutelectionner un sous-ensemble pertinent de donneacutees agrave fouiller que lrsquoensemble com-plet Cette approche se veut indeacutependante de la suite du processus et notamment de la meacutethode de fouilleutiliseacutee

Le principe est de permettre agrave lrsquoanalyste de faire cette seacutelection en prenant en compte les connais-sances du domaine formaliseacutees dans une preacutealablement deacuteveloppeacutee Pour cela un mapping entrechaque base de donneacutees consideacutereacutee et la doit ecirctre reacutealiseacute en collaboration avec un expert du domaineLa figure 41 deacutecrit les quatre eacutetapes principales de lrsquoapproche

1 La premiegravere est lrsquoinstanciation de la Celle-ci se fait suivant la meacutethode deacutecrite dans le chapitre 3section 2 ie sur la base de mappings deacutefinis entre les scheacutemas de bases de donneacutees et lrsquoontologieCes mappings sont exploiteacutes par des wrappers qui instancient les concepts et rocircles de lrsquoontologie agravepartir des tuples des bases de donneacutees consideacutereacutees Cette phase peut neacutecessiter diverses opeacuterationsde nettoyage et de transformation des donneacutees

2 La deuxiegraveme eacutetape consiste en la deacutefinition drsquoun jeu de donneacutee initial ensemble de donneacutees extraitdrsquoune ou plusieurs bases de donneacutees qui constite lrsquoensemble initial de donneacutees agrave analyser

3 Lrsquoeacutetape suivante est la deacutefinition drsquoun mapping entre la et le jeu de donneacutee initial Ce mappingnrsquoest pas deacutefini manuellement mais est deacuteduit des deux premiegraveres eacutetapes Son objectif est de per-mettre la reacutepercussion drsquoune seacutelection drsquoindividus dans la en une reacuteduction en largeur (ie dunombre drsquoattributs) ou en longueur (ie des tuples) du jeu de donneacutees initial

4 La derniegravere eacutetape est la seacutelection par lrsquoanalyste drsquoun ensemble drsquoindividus de la menant ainsiagrave la reacuteduction du jeu de donneacutee initial en un jeu de donneacutees reacuteduit Lrsquoanalyste ne seacutelectionne pasdirectement des donneacutees mais des individus de la agrave lrsquoaide du contenu des TBox et ABox Il estensuite possible gracircce au mapping preacuteceacutedent de faire correspondre agrave la seacutelection drsquoindividus uneseacutelection de donneacutees

59Lrsquoatorvastatine est un meacutedicament de la classe des statines preacutescrit notamment pour preacutevenir la survenue drsquoaccidentscardio-vasculaires

106 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

F 41 ndash Description geacuteneacuterale de la meacutethode de seacutelection de donneacutees guideacutee par les connaissances

Finalement le jeu de donneacutees reacuteduit peut ecirctre soumis aux eacutetapes suivantes de lrsquo la fouille etlrsquointerpreacutetation Les quatre eacutetapes de la meacutethode de seacutelection proposeacutee sont deacutetailleacutees dans la suite decette section Celles-ci font notamment intervenir trois mappings positionneacutes Figure 42

121 Instanciation de la

La premiegravere eacutetape drsquoinstanciation de la suit la meacutethode drsquointeacutegration guideacutee par une ontologieproposeacutee chapitre 3 section 2

Pour chaque base de donneacutees consideacutereacutee en entreacutee du processus drsquo un mapping entre le scheacutemade la base de donneacutees et les concepts rocircles et individus de lrsquoontologie doit ecirctre deacutefini par un expert dudomaine Ce mapping suit la deacutefinition 31 du mapping donneacutees-assertionsMdminusa deacutecrit dans le chapitre3

Il reacutesulte de ce processus une instancieacutee agrave partir des donneacutees des bases de donneacutees consideacutereacutees

122 Deacutefinition du jeu de donneacutees initial

Le jeu de donneacutees initial est deacutefini comme un ensemble de n-uplets suivant une relation n-aire uniqueRinit(B1 B2 Bm) Les attributs Bi de Rinit peuvent ecirctre issus de diffeacuterentes bases de donneacutees crsquoestpourquoi la deacutefinition du jeu de donneacutees initial neacutecessite la deacutefinition drsquoun mapping entre les scheacutemasdes bases de donneacutees consideacutereacutees pour lrsquo et la relation du jeu de donneacutees initial

Deacutefinition 41 (Mapping donneacutees ndash donneacutees) Soit un quadruplet (SMdminusdHRinit) ougrave

ndash S est le scheacutema drsquoune base de donneacutees ie un ensemble de relations n-aires de la forme R(A1 A2

An) et de domainenprod

i=1Di tels que Ai est lrsquoattribut drsquoindice i et de domaine Di

ndash Rinit est la relation n-aire unique qui deacutecrit le jeu de donneacutees initial Rinit(B1 B2 Bm)

1 Seacutelection de donneacutees guideacutee par les connaissances du domaine 107

ndash Mdminusd est une association entre les donneacutees de la base de donneacutees de scheacutema S et les donneacutees du

jeu de donneacutee initial structureacutees selon son unique relation Rinit

Φ Υ (41)

ougrave Φ est une requecircte relationnelle arbitraire sur la base de donneacutees de scheacutema S et Υ est un

ensemble drsquoinsertions de tuples dans la relation unique Rinit du jeu de donneacutees initial

ndash Enfin H un ensemble de fonctions de la forme hi(v) applicables aux diffeacuterentes valeurs reacutesultant

des requecirctes Φ pour les transformer dans le format de valeurs adeacutequat agrave leur insertion dans Rinit

deacutecrit dans Υ

Exemple Soit deux relations Rclinique et Rgenetique issues de deux bases de donneacutees dont on souhaiteextraire une partie des donneacutees pour constituer le jeu de donneacutees initial qui suit la relation Rinit

Rclinique (Patient_id Age LDL_c HDL_c TG_c xanthome arc_corneen)Rgenetique (Patient_id rs28942078 rs28942079 rs28942080)

Rinit (Patient_id LDL_c_mgl xanthome rs28942076 rs28942078 rs28942079 rs28942080 rs28942081 rs28942082rs28942083 rs28942084 rs28942085)

Deux exemples de mappings possiblesMdminusd associent une requecircte SQL sur Rclinique ou Rgenetique agraveune insertion dans Rinit

Mdminusd 1 SELECT Patient_id LDL_c INSERT INTO Rinit(Patient_id LDL_c_mgl xanthome)xanthome VALUES (h1(Patient_id) h2(LDL_c) h3(xanthome))

FROM Rclinique

WHERE Age ge 18

Mdminusd 2 SELECT Patient_id rs28942078 INSERT INTO Rinit(Patient_id rs28942078 rs28942079rs28942079 rs28942080 rs28942080)

FROM Rgenetique VALUES (h1(Patient_id) h4(rs28942078)h4(rs28942079) h4(rs28942080))

Un tel mapping preacutesente lrsquoavantage de permettre de deacutefinir un jeu de donneacutees initial agrave partir dedonneacutees issues de diffeacuterentes bases et de permettre leur transformation Le mapping Mdminusd 1 met enœuvre une transformation de donneacutees entre autres par lrsquoutilisation de la fonction gprime qui transforme lesvaleurs de concentration en LDL cholesteacuterol circulant en mollminus1 ie lrsquoattribut LDL_c en valeurs de lamecircme mesure mais avec une uniteacute diffeacuterente le mglminus1 ie lrsquoattribut LDL_c_mgl

Lrsquoensemble des mappings Mdminusd impliquant les bases de donneacutees consideacutereacutees dans le processusdrsquo permet de constituer le jeu de donneacutees initial Celui-ci peut ecirctre vu comme un tableau dont lescolonnes seraient les attributs et les lignes seraient les n-uplets de la relation Rinit En suivant lrsquoexemplepreacuteceacutedent ce tableau est conforme agrave la forme geacuteneacuterale proposeacutee dans le Tableau 41

R Pour ecirctre tout agrave fait complet dans la description de la seacutelection de donneacutees il faut noterlrsquoexistence drsquoune premiegravere eacutetape de seacutelection preacutealable agrave lrsquoapproche que nous deacutecrivons Celle-ci con-siste dans le choix des bases de donneacutees agrave consideacuterer pour lrsquo Nous ne la discutons pas dans cetravail

108 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

123 Mapping entre la et le jeu de donneacutees initial

Les deux premiers mappings entre donneacutees et assertions puis entre donneacutees et donneacutees permettent dedeacuteduire un mapping entre les donneacutees du jeu de donneacutees initial et les individus de lrsquoontologie Lrsquoinversionde ce mapping fournit une correspondance entre certains individus de la et lrsquoensemble des attributs etn-uplets du jeu de donneacutees initial

Lrsquoeacutetablissement du mapping entre la et le jeu de donneacutees srsquoappuie sur le fait que le jeu de don-neacutees initial est constitueacute agrave partir de sous-ensembles de donneacutees qui ont servi agrave instancier la Drsquounemaniegravere informelle la deacuteduction du mapping suit les phases suivantes dans un premier temps le map-ping donneacuteesndashassertionsMdminusa geacuteneacuteral est reacuteduit aux seules donneacutees du jeu de donneacutees initial ensuitedepuis le mapping reacuteduit sont extraites des associations entre attributs du jeu de donneacutees et individusde la Ces associations sont finalement inverseacutees sous forme de relations entre individus et attributsSi un individu est associeacute agrave lrsquoattribut cleacute du jeu de donneacutees lrsquoassociation individu-attribut est eacutetendue agravelrsquoensemble du tuple

Ces phases peuvent ecirctre formaliseacutees selon les deacutefinitions suivantes

Deacutefinition 42 (Mapping donneacutees ndash assertions indirect) A partir des deux quadruplets (SMdminusa FO)et (SMdminusdHRinit) suivant les deacutefinitions 31 et 41 nous deacutefinissons le quintuplet intermeacutediaire

(RinitMdminusa FHO)

ougrave

ndash Mdminusa est lrsquoassociation entre les donneacutees du jeu de donneacutees initial et un ensemble drsquoassertions de

lrsquoontologie O

Φ Ψ

ougrave Φ est une requecircte relationnelle arbitraire sur la relation Rinit etΨ est un ensemble drsquoassertions

de concepts et drsquoassertions de rocircles de lrsquoontologie O

ndash Enfin un ensemble de fonctions composeacutees agrave partir des ensembles H et F de la forme fi(hminus1j

(v))applicables aux diffeacuterents types de valeurs v reacutesultant des requecirctes Φ sur le jeu de donneacutees initial

pour les transformer en noms drsquoindividus dans Ψ h j(v) est une fonction de transformation des

valeurs v issues des bases de donneacutees consideacutereacutees en leur format dans le jeu de donneacutee initial

(voir deacutefinition 41) hminus1j

(v) est lrsquoinverse de cette fonction fi(v) est une fonction de transformation

des valeurs v reacuteponses de Φ en noms drsquoindividus (voir deacutefinition 31)

Deacutefinition 43 (Mapping donneacutees ndash individus) Soit (RinitMdminusi FHO) un autre quintuplet suivant la

deacutefinition 42 avecMdminusi un mapping extrait deMdminusa qui est deacutefini comme un ensemble drsquoassociations

1 n entre un attribut Bi de la relation Rinit du jeu de donneacutees initial et un ou plusieurs individus a j de O

Bi a j

Les attributs Bi peuvent ecirctre indiffeacuteremment des cleacutes de la relation Rinit ou non

La deacutefinition de ce mapping permet que chaque n-uplet (ie chaque cleacute) et que chaque attribut du jeude donneacutees initial soit associeacute agrave un ou plusieurs individus de la

Deacutefinition 44 (Mapping individus ndash donneacutees) Selon la deacutefinition 43 du quintuplet (RinitMdminusi FHO)nous deacutefinissons le quintuplet (RinitMiminusd FHO) ougrave

1 Seacutelection de donneacutees guideacutee par les connaissances du domaine 109

ndash Miminusd inverse deMdminusi (Mdminusi =Mminus1iminusd

) est un ensemble drsquoassociations binaires bijectives (1 1)

entre un individu de la et un attribut Bi du jeu de donneacutees initial

a Bi

Bi peut ecirctre une cleacute de la relation Rinit

Exemple Une partie du mapping Mdminusi deacuteduit entre Rinit (voir lrsquoexemple de la section 122) et lrsquoon-tologie SNP-Ontology est

Patient_id f1 (hminus11 (Patient_id)) = patient_id

LDL_c_mgl f2 (hminus12 (LDL_c_mgl)) = f2 hminus1

2 (LDL_c_mgl)) = f2 (LDL_c) = ldl_c_mol_lxanthome f3 (hminus1

3 (xanthome)) = xanthome

rs28942076 f4 (hminus14 (rs28942076)) = rs28942076_01

Si lrsquoon observe le mapping proposeacute pour lrsquoattribut LDL_c il faut drsquoabord rappeler que lrsquoattribut LDL_c de larelation Rclinique avait eacuteteacute transformeacute par la fonction h2 en LDL_c_mgl dans Rinit hminus1

2 assure ainsi la premiegraveretransformation inverse pour retrouver le format originel de lrsquoattribut LDL_c Ensuite la fonction g permetde transformer les valeurs de lrsquoattribut en noms drsquoindividus dans la ie ldl_c_mol_l

La partie correspondante du mapping inverseMiminusd entre individus et attributs est simplement

patient_id Patient_id

ldl_c_mol_l LDL_c_mgl = h2 f minus12 (ldl_c_mol_l)

xanthome xanthome

rs28942076_01 rs28942076

La Figure 42 positionne les mappingsMdminusaMdminusdMiminusd deacutefinis pour la seacutelection drsquoun jeu de don-neacutees guideacutee par les connaissances du domaine ainsi que la forme des fonctions utiliseacutees pour transformerles valeurs drsquoattributs en nom drsquoindividus

124 Seacutelection drsquoindividus et reacuteduction du jeu de donneacutees initial

La reacuteduction du jeu de donneacutees initial repose sur une seacutelection reacutealiseacutee par lrsquoanalyste drsquoindividusde la Pour cela lrsquoanalyste deacutecrit un concept C0 agrave partir des concepts et des rocircles de lrsquoontologie Leconcept C0 peut ainsi ecirctre explicitement deacutefini dans lrsquoontologie ou correspondre agrave la description drsquounnouveau concept (impliquant connecteurs logiques concepts rocircles et individus) ou mecircme le concept ⊤Le meacutecanisme de raisonnement de recherche drsquoinstances (instance retrieval en anglais) permet ensuitedrsquoindiquer quels sont les individus instances de C0

Deacutefinition 45 (A0) SoitA0 lrsquoensemble des individus a instances de C0 tels que

a isin A0 si O C0(a) (42)

Les technologies du Web seacutemantique proposent diffeacuterents langages de requecircte qui permettent de retrouverles individus instances drsquoun concept drsquoune ontologie comme par exemple SPARQL

Crsquoest lorsqursquoil seacutelectionne ainsi des individus dans la que lrsquoanalyste peut beacuteneacuteficier des connais-sances formaliseacutees dans lrsquoontologie

110 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

F 42 ndash Positionnement et relations des trois mappings Mdminusa Mdminusd et Miminusd Les mappings Mdminusa

sont deacutefinis entre un scheacutema de bases de donneacutees et la Base de Connaissance Les mappingMdminusd sontdeacutefinis entre les scheacutemas des bases de donneacutees et la relation du jeu de donneacutees intial Le mappingMiminusd

est deacuteduit des deux preacuteceacutedents Les fonctions symboliques associeacutees aux mappings sont repreacutesenteacutees Laforme geacuteneacuterale des fonctions associeacutees au mappingMiminusd est la composition de lrsquoinverse de fi et de h j

ndash Lrsquoanalyste peut utiliser la hieacuterarchie de concepts pour seacutelectionner un ensemble drsquoindividus in-stances drsquoun concept plus ou moins speacutecifique La seacutelection progressive de concepts de plus enplus speacutecifiques au fur et agrave mesure des diffeacuterentes iteacuterations du processus permet de circonscrireun type drsquoindividu afin drsquoen eacutetudier les proprieacuteteacutes propres A lrsquoinverse il est possible de seacutelection-ner des concepts de plus en plus geacuteneacuteraux afin de valider la geacuteneacuteraliteacute drsquoune proprieacuteteacute mise eneacutevidence sur un ensemble restreint drsquoindividus

ndash Lrsquoanalyste peut utiliser les rocircles et les restrictions associeacutees pour seacutelectionner des individus preacutesen-tant des proprieacuteteacutes particuliegraveres

Une fois les individus seacutelectionneacutes le jeu de donneacutees peut ecirctre reacuteduit agrave lrsquoaide de A0 et du mappingindividu-donneacuteesMiminusd selon les regravegles deacutefinies comme suit

Deacutefinition 46 (Regravegles de reacuteduction) Soit Bi un attribut drsquoune relation Rinit a un individu drsquoune ontolo-

gie O le quintuplet (RinitMiminusd FHO) comme donneacute dans la deacutefinition 44 et un ensemble drsquoindividus

A0 instances drsquoun concept C0 Si

a Bi isin Miminusd

a lt A0 et

Bi cle de Rinit

(43)

alors le n-uplet dont Bi est la cleacute est supprimeacute du jeu de donneacutees initial

De faccedilon similaire si

a Bi isin Miminusd

a lt A0 et

Bi non cle de Rinit

(44)

alors lrsquoattribut Bi est supprimeacute du jeu de donneacutees initial

En fonction du type drsquoindividus seacutelectionneacutes le jeu de donneacutees est reacuteduit selon une dimension ou uneautre

1 Seacutelection de donneacutees guideacutee par les connaissances du domaine 111

Exemple Si le concept initial C0 est deacutefini par lrsquoanalyste comme suit

C0 equiv administrative_item ⊔ phenotype_item

pour les quatres individus impliqueacutes dans le mappingMiminusd proposeacute dans lrsquoexemple preacuteceacutedent les meacute-canismes de raisonnement sur SNP-Ontology donne les reacutesultats suivant

SNP-Ontology C0(patient_id)SNP-Ontology C0(ldl_c_mol_l)SNP-Ontology C0(xanthome)SNP-Ontology 2 C0(rs28942076_01)

alorspatient_id ldl_c_mol_l xanthome isin A0

rs28942076_01 lt A0

et si lrsquoon considegravere lrsquoensemble desMdminusiA0 et Rinit qui deacuteteacutermine les regravegles de reacuteduction seul lrsquoindividurs28942076_01 est inclu dans le mapping mais pas dans la seacutelection drsquoinstance

rs28942076_01 rs28942076 isin Miminusd

rs28942076_01 lt A0 et

rs28942076 non cle de Rinit

En conseacutequence lrsquoattribut rs28942076 de Rinit est supprimeacute En revanche les attributs Patient_id LDL_c_mglxanthome sont conserveacutes pour constituer une nouvelle relation Rreduit Les autres attributs de Rinit relatif augeacutenotype sont eacutegalement supprimeacutes de la relation du jeu de donneacutees initial Au final la transistion entreRinit et le schema Rreduit du jeu de donneacutee reacuteduit est

Rinit (Patient_id LDL_c_mgl xanthome rs28942076 rs28942078 rs28942079 rs28942080 rs28942081 rs28942082rs28942083 rs28942084 rs28942085)

darr

Rreduit (Patient_id LDL_c_mgl xanthome)

Les sceacutenarios preacutesenteacutes dans la section 13 illustrent lrsquoutilisation par un biologiste des connaissances dudomaine pour reacuteduire en limitant la perte drsquoinformation le nombre de n-uplets ou drsquoattributs dans le jeude donneacutees initial

13 Expeacuterimentation pour la deacutecouverte de relations geacutenotypendashpheacutenotype

131 Motivation

Nous preacutesentons dans cette section des sceacutenarios drsquoutilisation de notre approche de seacutelection dedonneacutees guideacutee par les connaissances pour la recherche de relations geacutenotypendashpheacutenotype introduiteschapitre 1 section 13

Lrsquoapproche que nous proposons pour guider lrsquoanalyste dans sa seacutelection de donneacutees vise agrave srsquoappuyerde faccedilon semi-automatique sur les connaissances disponibles du domaine Ceci se justifie pleinement enbiologie ougrave de plus en plus drsquoontologies sont construites et rendues disponibles sur Internet comme surles portails OBO Foundry et Bioportal eacutevoqueacutes chapitre 2 section 34

Afin drsquoalleacuteger la lecture les mappings deacutefinis pour cette expeacuterimentation et ayant donneacute lieu audeacuteveloppement de wrappers ne sont pas repreacutesenteacutes Cependant des exemples de ces mappings ont eacuteteacuteproposeacutes dans la section preacuteceacutedente (section 12)

112 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

F 43 ndash Approche pour la seacutelection de donneacutees (Figure 41) utiliseacutee pour lrsquoexpeacuterimentation ie larecherche de relations geacutenotypendashpheacutenotype lieacutees agrave lrsquoHF

132 Hypercholesteroleacutemie Familiale sources de donneacutees et de connaissances

Notre expeacuterimentation srsquoinscrit dans le cadre de la recherche de nouvelles connaissances relatives agravelrsquohypercholesteacuteroleacutemie familiale (HF) LrsquoHF est un deacutesordre meacutetabolique drsquoorigine geacuteneacutetique autosomaldominant causeacute par diffeacuterentes mutations du gegravene LDLR [BDdG94] Elle est caracteacuteriseacutee principalementpar une augmentation importante de la concentration en cholesteacuterol LDL (Low Density Lipoprotein) dansle sang

Lrsquoobjectif du processus drsquo mis en oeuvre ici est drsquoextraire des relations entre des variants

geacutenomiques (ie le geacutenotype) et des traits pheacutenotypiques (ie le pheacutenotype) Des relations drsquointeacuterecirct sontpar exemple celles qui impliquent des variants geacutenomiques modulateurs ie un variant (ou un groupe devariants) qui a(ont) un effet modulateur sur la graviteacute de la pathologie eacutetudieacutee (lrsquoHF par exemple) ou surun symptocircme lieacute agrave celle-ci

Par exemple il existe diffeacuterents niveaux de seacuteveacuteriteacute de lrsquoHF qui sont fonctions de lrsquoallegravele observeacutepour deux variants geacutenomiques du gegravene APOE (rs7412 et rs429358) [NBS+06] Ces variants modula-teurs preacutesentent un inteacuterecirct particulier en pharmacogeacutenomique puisqursquoils sont souvent impliqueacutes dans lamodulation du meacutetabolisme et de lrsquoeffet des meacutedicaments [GBe07]

Les sources de donneacutees exploreacutees dans le cadre de cette expeacuterimentation ont deux origines dif-feacuterentes (i) deux jeux de donneacutees priveacutes reacutesultats drsquoinvestigations cliniques relatives agrave lrsquoHF (ii) desbases de donneacutees publiques (dbSNP HapMap OMIM PharmGKB et des bases de donneacutees ldquoLocus Speacute-cifiquesrdquo60) dont certaines parties ont eacuteteacute utiliseacutees pour instancier la SNP-Ontology Cette instanciationsuit lrsquoapproche deacutecrite dans la section 121 La Figure 43 deacutecrit la meacutethode (comme la Figure 41) dansle cas preacutecis de la recherche de relations geacutenotypendashpheacutenotype lieacutees agrave lrsquoHF

De lrsquoensemble des sources de donneacutees consideacutereacutees est extrait un jeu de donneacutees initial appeleacute HFinitial

constitueacute de 125 n-uplets correspondant agrave 125 patients impliqueacutes dans une eacutetude clinique lieacutee agrave lrsquoHF et

60The WayStation http wwwcentralmutationsorg

1 Seacutelection de donneacutees guideacutee par les connaissances du domaine 113

de 304 attributs relatifs au geacutenotype (292304) et au pheacutenotype (12304) des patientsLe jeu de donneacutees HFinitial implique (α) des patients atteints drsquoune hypercholesteacuteroleacutemie drsquoorigine geacuteneacutetique (ie lrsquoHF)(β) des patients atteints drsquoune hypercholesteacuteroleacutemie drsquoorigine non-geacuteneacutetique et(γ) des patients sainsLa majoriteacute des attributs geacuteneacutetiques (289293) provient du geacutenotypage (ie les allegraveles porteacutes) de

chaque patient pour les variations geacutenomiques du gegravene LDLR exploreacutees Un exemple drsquoattribut geacuteneacutetiquede ce type sont les allegraveles observeacutes pour la variation situeacutee agrave la position Chr19 11085058 (eg AA) Lesattributs relatifs au pheacutenotype deacutecrivent les variables habituellement observeacutees ou mesureacutees dans le cadrede lrsquoexploration du meacutetabolisme des lipides par exemple la concentration en cholesteacuterol LDL circulant(eg [LDL]c=3glminus1) ou la preacutesenceabsence de xanthome61 chez le patient

133 Meacutethodes de fouille

Pour eacutevaluer la quantiteacute de reacutesultats de fouille de donneacutees dans le cadre de cette expeacuterimentationnous utilisons deux meacutethodes de fouille de donneacutees

ndash lrsquoextraction des motifs freacutequents preacutesenteacutee dans la section 132 du chapitre 2ndash la classification hieacuterarchique non superviseacutee COBWEB [Fis87]La premiegravere meacutethode produit des motifs freacutequents (MF) agrave partir desquels peuvent ecirctre isoleacutes des sous

ensembles de motifs non-redondants les motifs fermeacutes freacutequents (MFF) Nous utilisons le nombre demotifs produits pour donner une estimation de la quantiteacute de reacutesultats agrave interpreacuteter et le ratio du nombrede MF sur celui de MFF ( |MF|

|MFF|) pour donner une estimation de la redondance des reacutesulats

COBWEB produit un ensemble de clusters organiseacutes selon une hieacuterarchie Le nombre de clustersnous sert drsquoindice pour juger de la complexiteacute des reacutesultats

134 Seacutelection progressive de variants speacutecifiques ndash guideacutee par la subsomption

Le premier sceacutenario srsquoappuie sur lrsquohypothegravese que des relations geacutenotypendashpheacutenotype pertinentes peu-vent ecirctre plus facilement extraites drsquoun sous-ensemble de donneacutees ne contenant que les variants codants62

ou les variants des domaines proteacuteiques conserveacutes63 Selon notre approche ce genre de seacutelection reacutesultede la seacutelection dans lrsquoontologie SNP-Ontology des individus instances du concept le plus speacutecifique quicorrespond au type de variant choisi Cette seacutelection peut se faire par une navigation progressive dans lahieacuterarchie de lrsquoontologie en suivant les relations de subsomption Le Tableau 42 illustre une seacutelectionsuccessive (au cours de diffeacuterentes iteacuterations du processus drsquoECBD) des individus instances du conceptvariant puis de ses sous-concepts les plus speacutecifiques successivement variant puis coding_variant etenfin conserved_domain_variant La seacutelection progressive drsquoun nombre deacutecroissant drsquoindividus se reacuteper-cute en une diminution du nombre des attributs dans HFinitial respectivement 289 231 et 126 attributsLes attributs relatifs aux variants non-codants sont eacutelimineacutes dans un premier temps puis sont eacutecarteacutes lesvariants codants localiseacutes hors des reacutegions correspondant aux domaines proteacuteiques conserveacutes

En pratique la seacutelection de classes plus ou moins speacutecifiques en suivant lrsquoorganisation hieacuterarchiqueproposeacutee par lrsquoontologie se fait par lrsquointermeacutediaire drsquoune partie drsquoun plug-in de Proteacutegeacute 4 que nous avonsdeacuteveloppeacute et dont lrsquointerface graphique est repreacutesenteacutee en Annexe G

Les conseacutequences que peut avoir la reacuteduction du jeu de donneacutees sur la quantiteacute et la significativiteacute desreacutesultats bruts de la fouille de donneacutees sont illustreacutees dans le Tableau 42 Pour cela les diffeacuterents jeuxde donneacutees reacuteduits obtenus ont eacuteteacute soumis aux deux meacutethodes de fouille de donneacutees utiliseacutes pour eacutevaluer

61Un xanthome est une tumeur beacutenigne cutaneacutee souvent signe drsquoune anomalie des lipides62Localiseacutes dans les reacutegions codantes pour ecirctre preacutecis63Dont les conseacutequences proteacuteiques se localisent dans des domaines conserveacutes pour ecirctre preacutecis

114 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

C0 variant coding_variant conserved_domain_variant tag_snp

Nombre drsquoattributs 289 231 126 198

() 6928 (255) 314 (24) 304 (12) 300 (28)ratio 2717 1308 2533 1071

Clusters 194 186 56 40

T 42 ndash Caracteacuterisation quantitative des reacutesultats bruts de fouille de donneacutees en fonction du nombredrsquoattribut seacutelectionneacutes

la quantiteacute de reacutesultats produits lrsquoextraction des motifs freacutequents (avec lrsquoalgorithme Zart [SNK07]) etCOBWEB (avec lrsquoalgorithme implanteacute dans Weka64) Quand tous les variants sont consideacutereacutes (colonnevariant du Tableau 42) le nombre total de motifs freacutequents () est de 6928 et le nombre de clusters deCOBWEB est 194 Dans leur eacutetat brut ces reacutesultats de fouille sont complexes agrave interpreacuteter Le nombrede variables impliqueacutees est important et il nrsquoy a pas excepteacute leur nom drsquoinformations contextuelles a

priori qui permettent de les diffeacuterencier Par exemple les variants codants ne peuvent pas ecirctre distingueacutesdes non-codants

La quantiteacute de reacutesultats de fouille de donneacutees diminue progressivement lorsque moins drsquoindividusdonc moins drsquoattributs sont seacutelectionneacutes (colonnes coding_variant et conserved_domain_variant) Ainsile nombre de passe de 6928 agrave 304 et le nombre de clusters de 194 agrave 56

Lrsquoorganisation hieacuterarchique mateacuterialiseacutee par la relation de subsomption est une des connaissancesdu domaine qui peut ecirctre utiliseacutee pour reacuteduire le volume du jeu de donneacutees agrave fouiller Cependant unetelle seacutelection oblige agrave un compromis sur le type de variants agrave inclure dans lrsquoeacutetude

135 Unification des variants agrave lrsquoaide des Tag-SNP ndash guideacutee par les rocircles et la compostion de rocircles

Les reacutesultats de la fouille du jeu de donneacutees HFinitial preacutesentent un proportion importante de triviaux ou redondants Ceci est ducirc en partie au fait que certains variants du jeu de donneacutees appartiennentaux mecircmes haplotypes Comme deacutecrit dans la section 24 du chapitre 1 un haplotype deacutesigne un groupede variants transmis conjointement et de faccedilon homogegravene agrave travers les geacuteneacuterations Il est possible drsquoi-dentifier au sein des haplotypes un ensemble minimal de variants appeleacutees Tag-SNP dont lrsquoobservationsuffit agrave preacutedire lrsquoallegravele preacutesenteacute par les autres variants de lrsquohaplotype Reacuteduire un ensemble de variantsmembres drsquoun haplotype agrave ses tag-SNP permet de reacuteduire les relations qui traduisent la deacutependance entreces variants et ainsi reacuteduit la redondance des reacutesultats

La Figure 44 montre un haplotype et sa repreacutesentation dans lrsquoontologie SNP-Ontology Cet haplo-type est composeacute des variants rs_001 rs_002 rs_003 et rs_004 et peut ecirctre remplaceacute par son uniquetag-SNP rs_004 La description drsquoun haplotype (ici le NA01234) met en lumiegravere lrsquoexistence drsquounedeacutependance fonctionnelle entre un (ou plusieurs) tag-SNP (rs_004) et les autres membres de lrsquohaplo-type (rs_001 rs_002 rs_003) Cette deacutependance est repreacutesenteacutee dans la SNP-Ontology comme suit

rs_001 rs_002 rs_003 ≔ exist isHaplotypeMemberO f haplotype_NA01234 ⊓exist isHaplotypeMemberO f isTaggedBy rs_004

64http wwwcswaikatoacnzmlweka

1 Seacutelection de donneacutees guideacutee par les connaissances du domaine 115

F 44 ndash Concepts de SNP-Ontology instancieacutes par des individus repreacutesentant des variationsgeacutenomiques (rs_001 rs_002 rs_003 et rs_004) et un haplotype (NA_01234) Leacutegende les ovales pleinssont des concepts les ovales en tirets sont des individus la ligne pleine est une relation de subsomptionles lignes en tirets ronds sont des rocircles les lignes en tirets plats sont des assertions

et inversementrs_004 ≔ exist tags haplotype_NA01234 ⊓

exist tags containsVariants rs_001 ⊓exist tags containsVariants rs_002 ⊓exist tags containsVariants rs_003

Lrsquoontologie contient lrsquoensemble des descriptions des haplotypes des gegravenes geacutenotypeacutes pour la pop-ulation eacutetudieacutee dans lrsquoeacutetude HFinitial Les connaissances sur les haplotypes sont inteacutegreacutees agrave lrsquoontologielors de la phase drsquoinstanciation de notre approche agrave partir des donneacutees du projet HapMap et de donneacuteesissues du logiciel Haploview [Con03 BFMD05]

Le concept de tag-SNP est explicitement deacutecrit dans SNP-Ontology de la faccedilon suivante

tag_snp equiv exist tags containsVariantVariant (45)

Ainsi en limitant la deacutefinition du concept C0 agrave la deacutefinition des tag-SNP (ie C0 equiv tag_snp) lrsquoanalysteentraicircne la suppression au sein du jeu de donneacutees des attributs qui ne concernent pas des tag-SNP Suiv-ant notre exemple baseacute sur lrsquohaplotype NA01234 ceci revient finalement agrave la suppression des colonnesrs_001 rs_002 et rs_003 du jeu de donneacutee HFinitial Au niveau de lrsquoensemble du jeu de donneacutees HFinitialle Tableau 42 montre qursquoune telle seacutelection reacuteduit le nombre drsquoattributs (289 agrave 198) et diminue consid-eacuterablement la quantiteacute de reacutesultats produits par les deux meacutethodes de fouille La reacuteduction des reacutesultatsde fouille est due premiegraverement agrave la reacuteduction du nombre drsquoattributs et deuxiegravemement agrave la reacuteductiondu nombre drsquoassociations lieacutees agrave la deacutependance fonctionnelle (ie la co-segreacutegation) entre les variantsdrsquoun mecircme haplotype Le ratio |||| donne une ideacutee de la redondance65 qui existe au sein des motifsextraits lors de lrsquoextraction de motifs freacutequents et indique ainsi que la redondance entre les diminuelorsque le jeu de donneacutees est reacuteduit en utilisant les tag-SNP

R Les haplotypes sont des constructions statistiques dont la preacutecision est deacutependante delrsquoeacutechantillon drsquoindividus utiliseacute La reacuteduction du jeu de donneacutees sur la base de la composition des haplo-types souffre donc du mecircme biais

65Un motif est drsquoautant plus redondant qursquoil retrouveacute comme sous-motif drsquoun grand nombre drsquoautres motifs

116 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

136 Seacutelection de patients ndash guideacutee par la deacutefinition de concepts

Les deux premiers sceacutenarios visaient agrave reacuteduire le nombre drsquoattributs (relatifs au geacutenotypage de vari-ants geacutenomiques) Le troisiegraveme sceacutenario deacutecrit dans cette section illustre quant agrave lui la reacuteduction dunombre de n-uplets (ie de patients) du jeu de donneacutees HFinitial Pour ce faire lrsquoanalyste seacutelectionnedes individus instances des concepts deacutecrits non plus dans lrsquoontologie SNP-Ontology mais deacutecrit dansSO-Pharm dont la SNP-Ontology ne constitue qursquoune partie (voir chapitre 3 section 13)

Les concepts rocircles et individus de SO-Pharm permettent de deacutecrire de nouveaux concepts qui peu-vent preacutesenter un inteacuterecirct particulier dans le cadre de lrsquoexploration de lrsquoHF Le jeu de donneacutees regroupenotamment trois classes diffeacuterentes de patients (α β et γ) qui ne sont pas initialement repreacutesenteacutees dansSO-Pharm mais qursquoil est inteacuteressant de regrouper dans le cadre de lrsquoeacutetude afin drsquoen explorer les pro-prieacuteteacutes caracteacuteristiques et discriminantes Pour cela lrsquoanalyste peut utiliser SO-Pharm et les individuscreacuteeacutes lors de lrsquoeacutetape drsquoinstanciation pour deacutefinir le concept C0 correspondant agrave la classe de patients qursquoilveut eacutetudier

patients α C0 equiv patient ⊓

exist hasGenotypeItem LDLR_mutation

patients β C0 equiv patient ⊓

exist hasGenotypeItem no_LDLR_mutation ⊓

exist hasPhenotypeItem high_LDL_in_blood

patients γ C0 equiv patient ⊓

exist hasGenotypeItem no_LDLR_mutation ⊓

exist hasPhenotypeItem normal_LDL_in_blood

Lrsquoutilisation du meacutecanisme de recherche drsquoinstances permet de deacuteterminer quelles sont les instancesdu concept C0 Selon lrsquoapproche deacutecrite cela a se reacutepercute au niveau des donneacutees qui vont ecirctre reacuteduitesagrave un sous-ensemble de n-uplets qui partagent un attribut en commun ou qui appartiennent agrave une mecircmeclasse de patients Lrsquointeacuterecirct principal de cette reacuteduction est qursquoelle peut se faire agrave lrsquoaide drsquoattributs ou declasses qui ne sont pas preacutesents dans le jeu de donneacutees initial HFinitial mais qui sont repreacutesenteacutees danslrsquoontologie SO-Pharm

En pratique la deacutefinition de C0 srsquoeffectue de la mecircme maniegravere que dans le premier sceacutenario gracircce agravelrsquoutilisation drsquoun plug-in de Proteacutegeacute 4 (voir Annexe G)

14 Bilan

Nous avons preacutesenteacute dans cette section une meacutethode de seacutelection de donneacutees qui moyennant ladeacutefinition par lrsquoanalyste drsquoun ensemble de mappings adeacutequats lui permet de beacuteneacuteficier du contenu de la pour reacuteduire intelligemment un jeu de donneacutee initial avant la fouille

La proposition deacutecrite dans cette section pour guider la seacutelection de donneacutees agrave lrsquoaide des connais-sances du domaine et son illustration par des sceacutenarios de recherche de relations geacutenotypendashpheacutenotypeont eacuteteacute publieacutees dans le journal BMC Bioinformatics [CSTB+08]

Dans lrsquoideacutee drsquoaller plus loin dans lrsquoutilisation des connaissances disponibles pour lrsquoextraction de con-naissances la section suivante preacutesente une approche inteacutegreacutee drsquoExtraction de Connaissance agrave partir deBase de Connaissance () ougrave lrsquoensemble du processus drsquo est revisiteacute en preacutesence drsquoune Cetteapproche preacutesente en outre lrsquoavantage drsquoalleacuteger le travail de lrsquoanalyste en nrsquoexigeant que la deacutefinition

1 Seacutelection de donneacutees guideacutee par les connaissances du domaine 117

des mappings donneacuteesndashassertions (Mdminusa) neacutecessaires au peuplement de la agrave partir drsquoun ensemble debases de donneacutees heacuteteacuterogegravenes

118 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash

Nous proposons une approche particuliegravere drsquoExtraction de Connaissances guideacutee par les Connais-sances du Domaine () appelleacutee lrsquoExtraction de Connaisances agrave partir drsquoune Base de Connaissances() La nouveauteacute de celle-ci est que la nrsquoest plus positionneacutee en marge du processus mais estlrsquoeacuteleacutement central dont sont agrave la fois extraits les eacuteleacutements agrave fouiller et les connaissances pour guider lafouille

21 Description geacuteneacuterale

Nous proposons une approche drsquo dont lrsquooriginaliteacute principale est de travailler agrave partir des TBox

et ABox drsquoune Lrsquohypothegravese sous-jacente est lrsquoexistence de reacutegulariteacutes porteuses de connaissancesnouvelles et significatives dans lrsquoinstanciation (deacutefinie et induite) drsquoune

Il srsquoagit donc drsquoappliquer des meacutethodes de fouille de donneacutees sur un ensemble drsquoassertions de la dans le but de deacuteceler des reacutegulariteacutes interpreacutetables sous forme de connaissances pertinentes quiraffineront la Nous appelons cette approche lrsquoExtraction de Connaissances agrave partir drsquoune Base deConnaissance () par distinction avec lrsquoExtraction de Connaissances agrave partir de Bases de Donneacutees()

Deux obstacles se posent agrave la mise en œuvre drsquoune telle approche ndash premiegraverement les ne contiennent souvent qursquoune quantiteacute de connaissances restreinte compareacute

au contenu de bases de donneacutees ou de corpus de textes ndash deuxiegravemement les algorithmes de fouille de donneacutees sont deacuteveloppeacutes pour manipuler des donneacutees

et non des assertions de plus les reacutesultats de ces algorithmes ne sont pas repreacutesenteacutes suivant unformalisme de repreacutesentation des connaissances

Nous proposons de deacutepasser la premiegravere limite en deacuteveloppant des mappings entre le contenu desbases de donneacutees du domaine et lrsquoontologie (ou TBox) (0) Ces mappings serviront de base agrave des wrappers

deacuteveloppeacutes speacutecialement pour peupler lrsquoontologie agrave partir du contenu de bases de donneacuteesPour surmonter la deuxiegraveme limite il est neacutecessaire de reacutealiser une eacutetape de transformation (i) des as-

sertions de lrsquoontologie en un format compatible avec le format drsquoentreacutee de la meacutethode de fouille choisieApregraves lrsquoeacutetape de fouille proprement dite (ii) il est eacutegalement neacutecessaire de reacutealiser une eacutetape de transfor-mation inverse (iii) des reacutesultats de fouille en axiomes et assertions dans le formalisme de lrsquoontologie

Notre meacutethode se divise ainsi en 4 eacutetapes principales (0 i ii iii) dont les 3 derniegraveres peuventecirctre compareacutees aux trois eacutetapes principales du processus drsquo (i) la preacuteparation des donneacutees (ii)

la fouille et (iii) lrsquointerpreacutetation Nous supposons ici que la TBox de la est deacutejagrave construite La Figure45 repreacutesente scheacutematiquement cette approche iteacuterative et interactive

22 Application conjointe des Logiques de Descriptions et de lrsquoAnalyse de Concepts Formelsdans le contexte de lrsquo

Lrsquoexistant le plus proche de la meacutethode drsquo proposeacutee ci-dessus vient de travaux qui font inter-venir conjointement des formaliseacutees en et des meacutethodes drsquoAnalyse de Concepts Formels ()(chapitre 2 section 131) et partagent malgreacute des diffeacuterences fondamentales deux principes la notion de concept et lrsquoorganisation hieacuterarchique de ces concepts Bien que diffeacuterente en et en la notion de concept repose sur la mecircme ideacutee fondamentale de collection drsquoobjets partageant un certainnombre de proprieacuteteacutes Aussi lrsquoorganisation en hieacuterarchie des concepts formels produite par lrsquo preacutesentedes similitudes avec lrsquoorganisation des concepts drsquoune ontologie en Ces similitudes rendent possible

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 119

F 45 ndash LrsquoExtraction de Connaissances agrave partir drsquoune Base de Connaissances ou

lrsquoutilisation conjointe de meacutethodes ou outils provenant des deux domaines Toutefois les diffeacuterencesprincipales entre concepts en et concepts formels sont premiegraverement la faccedilon dont ils sont obtenus etdeuxiegravemement la faccedilon de les deacutecrire

En les concepts sont obtenus de faccedilon manuelle ou semi-automatique par un expert du domaineeacutetudieacute dans lrsquoobjectif de formaliser les concepts drsquointeacuterecirct du domaine en question La descriptiondrsquoun concept en est construite agrave partir de concepts atomiques (des preacutedicats unaires) de rocirclesatomiques (des preacutedicats binaires) et des constructeurs de concepts fournis par le langage de utiliseacute (existforall par exemple) Les concepts deacutecrits ainsi que les rocircles servent dans un second tempsagrave la speacutecification des proprieacuteteacutes des objets Pour plus de deacutetails voir la section 22 du chapitre 2 ou[BCM+03]

En les concepts formels sont obtenus agrave partir de contextes formels qui speacutecifient les attributs (ouproprieacuteteacute) preacutesenteacutes par chaque objet Dans un tel contexte un concept formel est deacutecrit par unensemble drsquoobjets (son extension) et un ensemble drsquoattributs (son intension) de telle sorte que lrsquoin-tension contienne exactement lrsquoensemble des attributs que les objets de lrsquoextension ont en communet qursquoinversement lrsquoextension contienne exactement lrsquoensemble des objets qui partagent tous lesattributs de lrsquointension Pour plus de deacutetails voir la section 131 du chapitre 2 ou [GW99]

Dans les deux cas les descriptions associeacutees aux concepts permettent de les organiser en une hieacuterar-chie Toutefois les deux types de concept deacutecrits de faccedilons distinctes produisent deux types de hieacuterar-chies distinctes

R Certains auteurs utilisent eacutegalement les notions drsquointension et drsquoextension concernantles concepts de Dans ce cas lrsquointension du concept est la description du concept et lrsquoextension estlrsquoensemble des individus (ie des objets) instances du concept en question

Baader et al utilisent lrsquo pour construire en partant du bas une hieacuterarchie de concepts agrave partirdrsquoun ensemble fini de concepts C1 Cn [BS04] Le principe de la meacutethode repose sur la deacutefinitiondrsquoun contexte formel agrave partir de lrsquoensemble de concepts de deacutepart et soit de leurs conjonctions soitde leurs subsumants communs les plus speacutecifiques La meacutethode drsquo utiliseacutee sur le contexte est lrsquoal-gorithme drsquoexploration drsquoattributs de Ganter [Gan84] qui permet de deacuteterminer des implications de laforme B1 rarr B2 Les implications permettent de deacuteriver des relations de subsomption entre les concepts

120 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

de deacutepart et leurs conjonctions (par exemple B1 ⊑ B2) ou entre les subsumants communs les plus speacute-cifiques des concepts de deacutepart et les concepts de deacutepart de sorte agrave geacuteneacuterer progressivement et de basen haut une hieacuterarchie En pratique ce travail est tregraves peu exploitable car les hieacuterarchies geacuteneacutereacutees au-tomatiquement sont volumineuses en raison du fait que tous les concepts qursquoil est possible de deacutecrire agravepartir des concepts de deacutepart sont construits et inclus dans la hieacuterarchie De plus la meacutethode srsquoappuiesur lrsquohypothegravese forte qursquoun subsumant commun le plus speacutecifique existe toujours et peut toujours ecirctretrouveacute ce qui nrsquoest pas le cas en pratique Enfin ce travail prend en compte la TBox sans exploiter lesconnaissances de la ABox

Des reacutesultats plus exploitables dans le cadre de lrsquo reacutesultent de deux travaux qui se complegravetent lrsquoExploration Relationnelle (que nous noterons )[Rud06] et la proposition de compleacutetion des en par Baader et al [BGSS07]

LrsquoExploration Relationnelle () deacutecrite par Rudolph srsquoappuie sur une extension de lrsquoalgorithme drsquoex-ploration drsquoattributs dans un contexte de Pour cela lrsquo se base sur la deacutefinition du contexte lieacuteagrave lrsquointerpreacutetation I en

Deacutefinition 47 (Contexte - ) Soit I une interpreacutetation sur le domaine ∆ M un ensemble de

description de concepts de ce domaine en et Ic une relation drsquoincidence Le contexteKI(M) lieacute

agrave lrsquointerpreacutetation I est deacutefini par le triplet (∆M Ic) ougrave quand la relation drsquoincidence Ic associe

agrave un individu δ de ∆ une description de concept C de M alors lrsquoindividu δ est instance du concept

CI Plus formellement

δIcCI hArr δ isin CI

A partir de cette deacutefinition il est deacutemontreacute que les implications extraites de KI par lrsquoexplorationdes attributs coiumlncident avec certains axiomes valides selon I (voir [Rud06]) Ainsi si CD sube M

alors lrsquoimplication C rarr D est extraite de KI si et seulement si I satisfait lrsquoaxiome C ⊑ DLrsquo permet drsquoexplorer les axiomes drsquoinclusion par cette correspondance et de veacuterifier leur validiteacutedans le domaine (selon I) agrave travers un systegraveme de questions-reacuteponses agrave un expert du domaineSi lrsquoassertion proposeacutee nrsquoest pas explicitement deacutecrite dans la TBox et ne peut pas ecirctre induitepar le meacutecanisme de raisonnement de subsomption alors lrsquoexpert est interrogeacute sur sa validiteacute Silrsquoassertion est vraie selon lrsquoexpert elle vient enrichir la TBox Si elle est fausse lrsquoexpert doitfournir un contre exemple qui sera ajouteacute agrave la ABox de la De cette faccedilon lrsquoimplication ne seraplus extraite lors drsquoune exploration suivante et la (TBox et ABox ) est progressivement raffineacutee

La compleacutetion des en proposeacutee par Baader et al [BGSS07] propose des ameacuteliorations permet-tant la mise en oeuvre effective de lrsquo Premiegraverement elle formalise lrsquoutilisation de lrsquo sur descontextes partiels Cette utilisation est neacutecessaire agrave la prise en consideacuteration drsquoobjets partiellementdeacutecrits par les meacutethodes de comme lrsquoexploration drsquoattributs Suivant lrsquohypothegravese du mondeouvert (deacutetailleacutee chapitre 2 section 22) les individus drsquoune en sont justement des objetspartiellement deacutecrits Deuxiegravemement la meacutethode limite agrave la seule subsomption les constructeurslogiques autoriseacutes dans les descriptions de concepts consideacutereacutes par la contexte (ie les conceptsde M de KI) Ceci permet de reacuteduire le nombre drsquoimplications et donc de questions poseacutees agravelrsquoexpert

Le beacuteneacutefice commun des reacutesultats de ces deux travaux est illustreacute par une meacutethode drsquoacquisitionsemi-automatique drsquoaxiomes en agrave partir de corpus de textes dans [VR08]

Une premiegravere limite des meacutethodes baseacutees sur lrsquoExploration drsquoAttributs est de nrsquoexploiter que lesimplications du contexte ie les regravegles dont la confiance est eacutegale agrave 1 Crsquoest justement ce qui permetdrsquoexclure un axiome C ⊑ D lorsque lrsquoexpert donne un contre-exemple agrave un axiome cela revient agrave

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 121

ajouter un objet au contexte qui preacutesente la proprieacuteteacute C sans la D ou inversement Ce nouvel objet rendforceacutement la confiance de la regravegle C rarr D infeacuterieure agrave 1 ce qui eacutevite lrsquoimplication entre C et D Nouspensons que cette limite est trop forte et peut empecirccher la mise en eacutevidence de concepts inteacuteressants agraveinclure dans la TBox Quand une est peupleacutee de nombreux individus quelque soit le mode utiliseacute pourson peuplement (manuel ou automatique) elle reste une repreacutesentation drsquoune reacutealiteacute particuliegravere soumiseaux nombreux arteacutefacts que cela implique par exemple le biais dans la repreacutesentation des connaissancesla reproduction ou lrsquointroduction de bruit drsquoerreurs lors du peuplement de la la difficulteacute agrave prendreen consideacuteration les cas extrecircmes

De plus selon la configuration de la (et notamment de son peuplement) le nombre drsquoimplicationset donc de questions poseacutees agrave lrsquoexpert peut ecirctre tregraves eacuteleveacute sans que celles-ci nrsquoapportent aucun beacuteneacuteficedans la repreacutesentation des connaissances qui inteacuteressent lrsquoexpert Par exemple un clinicien qui exploreune repreacutesentant les patients drsquoun hocircpital leurs dossiers meacutedicaux et administratifs peut selon la faccedilonavec laquelle a eacuteteacute peupleacute la geacuteneacuterer de nombreuses implications eacutevoquant des connaissances drsquoordreadministratif (ldquochocircmeurrdquo rarr ldquoassureacuteCMUrdquo ou ldquotransportEnAmbulancerdquo rarr ldquoActeDeRadiographierdquo) etfinalement tregraves peu de connaissances drsquoordre meacutedical qui puissent lrsquointeacuteresser

Nous proposons dans la section suivante une meacutethode drsquo qui utilise la compleacutementariteacute des etde lrsquo commme Rudolph et al et Baader et al Notre meacutethode se distingue notamment par

ndash la transcription des connaissances en donneacutees accessibles agrave la fouillendash la meacutethode de fouille utiliseacuteendash la position de lrsquoanalyste

et srsquooriente plus particuliegraverement vers une mise en application opeacuterationnelle sur des donneacutees reacuteeacutelles

23 Analyse des Assertions de Rocircles ndash

LrsquoAnalyse des Assertions de Rocircles ndash ougrave ndash est une approche particuliegravere drsquoExtraction de Con-naissances agrave partir de Bases de Connaissances () Lrsquo explore les reacutegulariteacutes dans les relationsdirectes et indirectes entre instances drsquoune en ie les reacutegulariteacutes des assertions de rocircles et de leurcomposition La section 231 deacutecrit lrsquo drsquoun point de vue geacuteneacuteral puis la section 232 la deacutetaille eacutetapepar eacutetape Enfin la section 24 preacutesente des reacutesultats expeacuterimentaux obtenues en pharmacogeacutenomique par

231 Description geacuteneacuterale

Lrsquo srsquoattache agrave analyser les reacutegulariteacutes preacutesentes dans la ABox (ie les assertions de concepts et de

rocircles) drsquoune ontologie en en utilisant les meacutethodes drsquoAnalyse de Concept Formel () et drsquoextractionde Regravegles Minimales Non-Redondantes Reacuteduites (RMNR) Ces reacutegulariteacutes sont susceptibles de refleacuteterlrsquoexistence de connaissances implicites dans la et de mettre en lumiegravere des relations inteacuteressantes

(selon lrsquoanalyste) mais masqueacutees qui prennent la forme de relations indirectes ou complexes entre lesindividus de la Une relation est indirecte si sa repreacutesentation neacutecessite lrsquoenchaicircnement de plusieursrocircles une relation est complexe si elle implique des relations vers plusieurs individus distincts

Pour cela nous proposons drsquoutiliser dans le cadre drsquoun processus semi-automatique et iteacuteratif leformalisme des pour deacutefinir des attributs analyseacutes par lrsquoexploration par nous permet de soncocircteacute drsquoobtenir ou drsquoaffiner des descriptions en De faccedilon informelle les exploitent les reacutesultatsobtenus par pour acqueacuterir interactivement des connaissances et lrsquo beacuteneacuteficie des pour exprimerdes connaissances relationnelles ie des connaissances sur les relations entre individus [Rud06]

Le preacuterequis indispensable agrave une telle approche est eacutevidemment de disposer drsquoune ontologie en instancieacutee pour pouvoir en utiliser les assertions Ensuite lrsquo se deacutecompose scheacutematiquement en trois

122 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

F 46 ndash LrsquoAnalyse des Assertions de Rocircles () et des ses diffeacuterentes eacutetapes

parties principalesndash La premiegravere partie (Figure 46 (i) Preacuteparation) vise agrave transformer les assertions en un contexte

formel format de donneacutees compatible avec les meacutethodes drsquo et drsquoextraction des RMNRndash La deuxiegraveme partie est lrsquoextraction desRMNR agrave partir du contexte formel et agrave lrsquoaide des meacutethodes

drsquo (Figure 46 (ii) Fouille)ndash Enfin la partie finale de lrsquo est la transformation des regravegles en concepts rocircles et assertions

de rocircles qui srsquoils sont jugeacutes inteacuteressants vis agrave vis des objectifs de lrsquoexpert et des connaissancespreacutesentes dans la de deacutepart y seront inseacutereacutes (Figure 46 (iii) Interpreacutetation)

Lrdquoiteacuteration suivante de lrsquo pourra alors prendre en entreacutee lrsquoontologie ainsi raffineacuteeNous fixons un ensemble de constructeurs minimal obligatoire pour la utiliseacutee puisque que la mise

en œuvre de lrsquo neacutecessite les constructeurs de conjonction existentiel nominal et de rocircle inverse ce quicorrespond agrave la ELOI La seule limite agrave lrsquoutilisation de plus expressives est la complexiteacute associeacuteeagrave la mise en œuvre des meacutecanismes de raisonnement utiliseacutes (notamment la recherche drsquoinstances)

Les sections suivantes deacutetaillent les eacutetapes permettant la mise en oeuvre de ces opeacuterations et pourchaque eacutetape le rocircle de lrsquoanalyste

232 Lrsquo eacutetape par eacutetape

Etapes preacuteliminaires construction et peuplement drsquoune Base de Connaissances La constructiondrsquoontologies et le peuplement de la associeacutee agrave partir du contenu de bases de donneacutees ont eacuteteacute deacuteveloppeacutesdans le chapitre 4

Etape 1 Seacutelection des instances de C0

La premiegravere eacutetape drsquoune iteacuteration drsquo est la description en par lrsquoanalyste drsquoun concept C0Il nrsquoy a pas de contrainte particuliegravere concernant la deacutefinition de C0 ce peut ecirctre le concept ⊤ un

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 123

concept atomique ou deacutefini dans la ou encore la description drsquoun concept non nommeacute dans la maisdeacutefini pour lrsquooccasion agrave partir de la et des constructeurs disponibles dans la logique choisie (ELOISHOIN(D) par exemple)

La deacutefinition de C0 sert agrave deacutelimiter les assertions qui seront analyseacutees et les concepts de la quiseront concerneacutes par lrsquoextraction de connaissances

La description de C0 permet drsquoobtenir un ensemble drsquoindividus A0 instances de C0 (voir deacutefinition45) Ces individus constituent la base de lrsquoanalyse puisque lrsquoapproche va srsquoattacher agrave eacutetudier commentceux-ci sont relieacutes aux autres individus de la et agrave mettre en eacutevidence des reacutegulariteacutes remarquables danslrsquoensemble de ces relations

Etape 2 Transformation des connaissances exploration des graphes drsquoassertions

Lrsquoobjectif de lrsquoeacutetape de transformation est de repreacutesenter dans un contexte formel (ie des donneacutees)les connaissances relatives aux relations de chaque individu deA0 avec lrsquoensemble des autres individusde la consideacutereacutee Pour ce faire nous deacutefinissons la notion de graphe drsquoassertions

Deacutefinition 48 (Graphe drsquoassertions) Soit a un individu de la O Ga(V E) est un graphe drsquoorigine

a isin V eacutetiqueteacute cyclique appeleacute le graphe drsquoassertions de a dans O ougrave

ndash V est lrsquoensemble des nœuds de Ga ougrave chaque nœud v est un individu de O relieacute agrave a directement

ou indirectement par un arc E

ndash E est lrsquoensemble des arcs de Ga ougrave chaque arc E(v1 v2) partant de v1 vers v2 est une assertion

du rocircle E entre les individus v1 et v2 dans O Les arcs sont nommeacutes par le nom du rocircle dont ils

repreacutesentent une instance Lrsquoarc E(v1 v2) peut ecirctre parcouru en sens inverse de v2 vers v1 on

note alors Eminus(v2 v1) Les arcs sont nommeacutes par le nom du rocircle dont ils repreacutesentent une instance

Le graphe Ga de a dans O contient lrsquoensemble des chemins possibles entre lrsquoindividu a et tout autreindividu v de O auquel il est relieacute directement ou indirectement par n rocircles Ei (n isin N) De cette faccedilonchacune des relations existant entre a et les autres individus de O est repreacutesenteacutee dans le graphe par unchemin de a vers un autre individu v nœud de Ga

Proprieacuteteacute 41 (Interpreacutetation drsquoun chemin dans Ga) Srsquoil existe un chemin entre lrsquoindividu a et lrsquoin-

dividu v passant successivement par les rocircles E1 E2 En alors cela signifie que a est instance drsquoun

concept noteacute Ca de forme exist E1 E2 Env ou encore

exist E1 E2 Env (a) (46)

Proprieacuteteacute 42 Soit C un concept R un rocircle et a v deux individus de la O Alors si

O exist R v (a) et O C(v)

alors exist R v ⊑ exist RC et donc

O exist RC (a) (47)

Nous proposons pour chaque individu ai isin A0 de parcourir selon un algorithme simple tous leschemins et sous-chemins possibles dans son graphe drsquoassertions Gai

Lrsquoobjectif est drsquoassocier agrave chaqueindividu ai un ensemble de chemins donc selon la Proprieacuteteacute 41 un ensemble de descriptions de conceptsCai j dont ai est instance A partir de cette association nous proposons de construire un contexte formeldont chaque objet fait reacutefeacuterence agrave un individu ai isin A0 et dont les attributs font reacutefeacuterence aux diffeacuterentsconcepts Cai j dont les ai sont instances

Pour explorer lrsquoensemble des chemins possibles dans les graphes drsquoassertions nous utilisons un algo-rithme de parcours en profondeur (deacutecrit en Annexe F) fonction drsquoun paramegravetre la profondeur maximale

du parcours pmax deacutefinie par lrsquoanalyste en deacutebut de processus et de deux restrictions

124 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

(1) un mecircme chemin ne peut pas passer deux fois par le mecircme nœud(2) apregraves avoir emprunteacute un arc qui correspond agrave un rocircle E lrsquoalgorithme interdit lors de lrsquoeacutetape

suivante drsquoemprunter un arc de mecircme label en sens inverse qui correspond au rocircle inverse EminusLe paramegravetre pmax limite le nombre maximum drsquoarcs qursquoun seul chemin peut contenir et limite ainsi

la progression en profondeur de lrsquoalgorithme La premiegravere contrainte (1) garantie lrsquoabsence de cycle dansles chemins parcourus La seconde contrainte (2) est un choix heuristique qui limite la taille finale ducontexte formel geacuteneacutereacute

Dans ce dernier cas et dans la limite de la profondeur maximale il peut ecirctre deacutemontreacute que lrsquoalgo-rithme parcourt de faccedilon complegravete le graphe drsquoassertions ie parcourt tous les nœuds et arcs eacuteloigneacutes demoins de pmax arcs [RN03]

A la fin du parcours de graphes drsquoassertions des individus de A0 agrave chaque individu ai isin A0 estassocieacute un ensemble de chemins et donc un ensemble de concepts Cai j dont ai est instance A partir decette association est alors construit un contexte formel K(GMI)

ndash Chaque individu ai entraicircne la creacuteation drsquoun objet gi isin G dont le nom est celui de ai

ndash Chaque concept Cai j dont ai est instance entraicircne la creacuteation rArr drsquoun attribut mv isin M dont le nom est la description en du concept Cai j

A la notation classiqueexist E1 E2 En v

nous preacutefeacuterons ici la notation eacutequivalente qui utilise le constructeur de concept nominal suivant(appeleacute filler en anglais)

E1 E2 En vplus court et plus simple agrave transformer en une chaicircne de caractegraveres Ainsi le nom de mv est dela forme E1_o_E2_o__o_En v Lorsque Cai j equiv Cak j ie lorsque les individus ai et ak

sont instances drsquoun mecircme concept alors mv nrsquoest creacuteeacute que la premiegravere fois

rArr drsquoune relation giImv entre lrsquoobjet gi et lrsquoattribut mv

rArr de n attributs mC dont le nom est de la forme E1_o_E2_o__o_En Cv par similariteacute avecle nom de lrsquoattribut mv mais ougrave Cv fait reacutefeacuterence agrave un concept Cv dont v est instance

rArr des n relations giImC correspondantes

Les attributs mC et les relations relatives giImC sont creacuteeacutes dans le but drsquoaugmenter le nombredrsquoattributs et de relations dans le contexte K Leur creacuteation suit la Proprieacuteteacute 42 qui dit que si vest instance drsquoun concept quelconque Cv j alors a est eacutegalement instance de existE1 E2 EnCvAinsi pour chaque concept Cv j dont v est instance et tant que Cv j ne preacutesente pas de sous-conceptdont v est eacutegalement instance ie

2 Cvk ⊑ Cv j forallk j (48)

les attributs mC et les relations giImC correspondants sont ajouteacutes au contexte K

Le Tableau 43 repreacutesente le contexte formel K reacutesultant de lrsquoexploration des graphes drsquoassertionsdes individus deA0

La taille du contexte geacuteneacutereacute selon lrsquoexploration de graphes drsquoassertions deacutepend

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 125

G

Mmv1 mC11 mC1q1

mv j mC jk mvm mCm1 mCmqm

g1 times times times times times times times times

gi times times

gn times times times times times times

T 43 ndash Contexte formel K(GMI) reacutesultat de lrsquoexploration des graphes drsquoassertions

ndash suivant la dimension des objets du nombre drsquoindividus dansA0 (n dans le Tableau 43) etndash suivant la dimension des attributs premiegraverement du nombre de nœuds dans le graphe lui mecircme

deacutependant de la valeur de pmax (m dans le Tableau 43) et deuxiegravemement du nombre de conceptsnon ascendants (voir Eacutequation 48) dont les individus v sont instances (q dans le Tableau 43)

Etape 3 Analyse du contexte formel ACF et RMNR

Les meacutethodes drsquoAnalyse de Concepts Formels () introduites dans la section 131 du chapitre2 permettent la construction drsquoune repreacutesentation des donneacutees eacutetudieacutees sous la forme drsquoun treillis deconcepts ie un ensemble de concepts formels organiseacutes selon une structure hieacuterarchique Cette structurereacutesulte drsquoune analyse automatique des reacutegulariteacutes existantes entre donneacutees ces reacutegulariteacutes reacutesultent dufait que des objets distincts ont des attributs en commun et inversement que des attributs distincts sontpreacutesenteacutes par un mecircme objet

Lrsquoobjectif de notre approche est justement de comparer la repreacutesentation reacutesultant du processus au-tomatique drsquo agrave la repreacutesentation reacutesultant drsquoun processus de modeacutelisation dirigeacute par lrsquohumain lrsquoon-tologie de domaine Pour ce faire nous proposons dans un premier temps de construire le treillis puisdrsquoutiliser les RMNR pour caracteacuteriser lrsquoorganisation en concepts formels du treillis afin lors des eacutetapessuivantes de permettre la comparaison de cette repreacutesentation agrave celle de lrsquoontologie associeacutee agrave la

La construction du treillis peut ecirctre reacutealiseacutee par lrsquoutilisation de lrsquoalgorithme classique Next Closure

Algorithm deacutecrit par Ganter [Gan84] Kuznetsov et Obiedkov ont reacutecemment affineacute cet algorithme etreacutealiseacute une comparaison des diffeacuterentes meacutethodes de construction de treillis dans [KO02]

Une fois le treillis de concepts construit son organisation peut ecirctre caracteacuteriseacutee selon diffeacuterentesmesures ou meacutethodes La mesure du stabiliteacute drsquoun treillis proposeacutee par Kuznetsov [Kuz07] permet decaracteacuteriser la faccedilon dont la description (le couple extension intension) drsquoun concept est deacutependante dechacun des objets qui compose son extension Cette mesure a eacuteteacute utiliseacutee par Jay et al [JKN08] pourdeacutecrire des groupes sociaux drsquointeacuterecirct agrave partir de concepts formels stables ie dont lrsquoexistence ne reposepas uniquement sur quelques facteurs speacutecifiques Nous proposons une meacutethode diffeacuterente lrsquoutilisationdes Regravegles Minimales Non-Redondantes Reacuteduites (RMNR voir section 132) pour caracteacuteriser les as-pects du treillis qui nous inteacuteressent plus particuliegraverement crsquoest agrave dire les relations entre les conceptsformels et le nombre drsquoobjets qui participe agrave la deacutefinition des concepts et des relations

La recherche des Regravegles drsquoAssociations () est un moyen drsquoextraire drsquoun treillis ce genre drsquoinforma-tion de faccedilon exhaustive Cependant les produites preacutesentent lrsquoinconveacutenient drsquoecirctre particuliegraverementvolumineuses et redondantes Nous preacutefeacuterons donc nous limiter agrave lrsquoextraction drsquoune famille particuliegraverede les RMNR Ce type de regravegles preacutesentent un premier avantage qui est drsquoecirctre un sous-ensembledes reacuteduit et concis ce qui facilite lrsquoeacutetape suivante drsquointerpreacutetation des regravegles par lrsquoanalyste En effetlrsquoensemble des RMNR est le plus petit ensemble de regravegles suffisant pour geacuteneacuterer lrsquoensemble des

126 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

Le deuxiegraveme avantage des RMNR est drsquoecirctre particuliegraverement repreacutesentatives de la structure du treillispuisqursquoune RMNR est produite agrave partir de la description drsquoun seul concept ou du regroupement de deuxconcepts directement relieacutes dans le treillis (ie un concept et son super- ou son sous-concept)

R En fonction de lrsquoobjectif de lrsquoanalyste il peut ecirctre inteacuteressant non pas de chercher lesregravegles freacutequentes drsquoun contexte ( ou RMNR) mais de chercher un autre type de reacutegulariteacute commepar exemple les regravegles rares [SNV07] De plus lrsquoutilisation drsquoautres meacutethodes de fouille comme leclustering hieacuterarchique [Fis87] peut proposer une repreacutesentation des donneacutees suivant une organisationdiffeacuterente de celle du treillis qursquoil est eacutegalement pertinent selon les objectifs de comparer agrave lrsquoontologiede domaine

Etape 4 Interpreacutetation des reacutegulariteacutes en terme de concepts et de rocircles

A lrsquoinverse de lrsquoeacutetape preacuteceacutedente qui est automatique cette eacutetape implique lrsquoanalyste degraves son deacutebutLrsquoanalyste doit choisir pour chaque RMNR et parmi les attributs Mr qui la composent un ensembledrsquoattributs Ms sube Mr pertinents qui servira de base agrave la creacuteation de nouveaux concepts de nouveauxrocircles etou de nouvelles assertions de rocircles

Etape 4a Description de nouveaux concepts Selon un meacutecanisme inverse agrave celui opeacutereacute durantla phase de preacuteparation (Figure 46 (i)) les attributs seacutelectionneacutes au sein drsquoune regravegle sont traduits en ladescription en du concept auquel ils font reacutefeacuterence Ainsi on distingue les attributs

mv avec un nom de la forme E1_o_E2_o__o_En v qui sont traduits en exist E1 E2 En vmC avec un nom de la forme E1_o_E2_o__o_En Cv qui sont traduits en existE1 E2 EnCv

Un nouveau concept Cnew est alors deacutefini par la conjonction des descriptions de concepts correspon-dant aux attributsMs drsquoune mecircme regravegle Par exemple si dans la regravegle de la forme ltmb rarr md me m fgtles deux attributs mb et md ont eacuteteacute seacutelectionneacutes (ieMs = mbmd)

mb nommeacute R_o_S b est traduit en exist R S bmd nommeacute T_o_U_o_V d est traduit en existS T U d

et leur conjonction permet de deacutefinir

Cnew equiv exist R S b ⊓ existS T U d

Etape 4b Creacuteation de nouveaux rocircles etou drsquoassertions de rocircles Les attributs seacutelectionneacutes parlrsquoanalyste Ms permettent eacutegalement la creacuteation de nouveaux rocircles etou assertions de rocircles Dans cetobjectif ces attributs sont traduits de la mecircme faccedilon que pour la creacuteation de nouveaux concepts hormisle fait qursquoils ne sont pas associeacutes pour creacuteer une nouvelle description et que seuls les concepts dont ladescription met en jeu le constructeur nominal (ie exist Rv ou R v) sont utiliseacutes Si parmi les descriptionsde concepts traduits depuis les attributs deMs au moins deux font intervenir un constructeur nominalavec deux nominaux diffeacuterents alors chaque paire de nominaux est utiliseacutee pour la construction drsquoun rocircleet de deux assertions de rocircles dans la Ainsi pour chaque paire de nominaux nous deacutefinissons Rnew unrocircle atomique dont le domaine et le co-domaine sont les concepts les plus speacutecifiques dont les nominauxsont instances et deux assertions de rocircle la premiegravere de Rnew et la seconde de son inverse Rminusnew par lecouple de nominaux

Par exemple si mb et md sont deux attributs seacutelectionneacutes dans une mecircme regravegle alors la paire (b d)qursquoils constituent est agrave la base de la deacutefinition du rocircle atomique Rnew dont le domaine et le co-domaine

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 127

sont respectivement le concept le plus speacutecifique dont b est instance et le concept le plus speacutecifique dontd est instance La paire (b d) est utiliseacutee pour deux instanciations de rocircles Rnew(b d) et Rminusnew(d b)

R Les nominaux peuvent ecirctre instances de plusieurs concepts sans qursquoil ne soit possibledrsquoeacutetablir une relation de subsomption entre ces concepts (ie C(a) et D(a) mais 2 D ⊑ C et 2 C ⊑ D)Dans ce cas il nrsquoexiste pas un concept unique plus speacutecifique et lrsquoanalyste est solliciteacute pour statuer surle concept agrave choisir entre C et D pour le domaine (ou le co-domaine) de Rnew

Dans le cadre de notre approche nous utilisons les regravegles (RMNR) comme un moyen de caracteacuterisa-tion de la structure du treillis La seacutemantique attacheacutee agrave une regravegle est utiliseacutee pour caracteacuteriser lrsquoextensiondrsquoun concept formel (pour les regravegles certaines) et les relations avec ses concepts voisins (pour les regraveglesapproximatives) Cependant elle nrsquoest pas utiliseacutee directement pour deacutefinir des axiomes drsquoinclusion (⊑)mais des axiomes assertionels (ie les assertions de rocircles) En revanche lrsquoeacutetape suivante permet lrsquoinser-tion des nouveaux concepts dans la initiale par la description drsquoaxiomes drsquoinclusion

Etape 5 Insertion des nouvelles connaissances

Il srsquoagit dans cette eacutetape de comparer les concepts et rocircles (Cnew et Rnew) creacuteeacutes lors de lrsquoeacutetapepreacuteceacutedente agrave ceux existants dans la de deacutepart Cette comparaison deacutetermine si les nouveaux conceptset rocircles nrsquoexistent pas deacutejagrave dans la (ie qursquoils sont veacuteritablement nouveaux) et dans le cas neacutegatifpermet de deacutefinir la faccedilon de les inseacuterer de faccedilon coheacuterente dans la

Etape 5a Insertion de concepts Le subsumant le plus speacutecifique Csubs du concept Cnew proposeacuteest rechercheacute dans lrsquoontologie associeacutee agrave la Si Cnew equiv Csubs le concept existe deacutejagrave dans lrsquoontologieet Cnew nrsquoest pas ajouteacute agrave lrsquoontologie Sinon Cnew ⊑ Csubs (sans que Csubs ⊑ Cnew) alors lrsquoanalyste adeux alternatives concernant la faccedilon drsquoinseacuterer le nouveau concept

ndash selon lrsquoanalyste Cnew est effectivement un sous-concept de Csubs Cnew est inseacutereacute par lrsquoajoutdans lrsquoontologie de lrsquoaxiome suivant Cnew ⊑ Csubs Lrsquoanalyste peut alors attribuer un nomCnew

ndash selon lrsquoanalyste les deacutefinitions de lrsquoontologie de deacutepart ne sont pas parfaites et Cnew est unedescription plus fine (ou plus exacte) de ce qui est censeacute ecirctre repreacutesenteacute par le concept CsubsDans ce cas Cnew est ajouteacute agrave lrsquoontologie par lrsquoaxiome suivant Cnew equiv Csubs

Etape 5b Insertion de rocircle Selon lrsquoexistence ou non dans lrsquoontologie de rocircles avec les mecircmesdomaine et co-domaine que Rnew une suite drsquoopeacuterations diffeacuterentes est mise en œuvre Dans le premiercas ougrave de tels rocircles existent deacutejagrave lrsquoanalyste est solliciteacute Si un des rocircles de la liste correspond agrave laseacutemantique souhaiteacutee pour Rnew il le choisit Aucun rocircle nrsquoest creacuteeacute dans lrsquoontologie le rocircle choisi et soninverse sont alors instancieacutes En revanche si aucun rocircle de la liste nrsquoest satisfaisant un nouveau rocircle estcreacuteeacute puis instancieacute

Dans le second cas ougrave aucun rocircle existant ne partage les domaine et co-domaine de Rnew un nouveaurocircle est automatiquement creacuteeacute et instancieacute Lrsquoanalyse nrsquointervient que pour nommer le nouveau rocircle

Enfin une classification drsquoinstances par les meacutecanismes de raisonnement classiques sur la raffineacuteepermet drsquoinstancier les concepts Cnew avec les individus qui en sont instances

Les deux derniegraveres eacutetapes ie lrsquointerpreacutetation des regravegles en termes de concepts et rocircles en puisleur insertion par la deacutefinition de nouveaux axiomes dans lrsquoontologie associeacutee agrave la sont formaliseacuteesdans deux algorithmes preacutesenteacutes ci apregraves le premier (Algorithme 41) deacutecrit lrsquointerpreacutetation des regraveglesen terme de nouveaux concepts de la et le second (Algorithme 42) deacutecrit lrsquointerpreacutetation des regravegles

128 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

en de nouveaux rocircles et assertions de rocircles

Algorithme 41 Depuis les attributsseacutelectionneacutes dans une regravegle agrave un nouveau concept1 Entreacutee O = (T A )K = (GMI)M0

ontologie contexte et attributs seacutelectionneacutees3 pour chaque mi deM0

4 si Cnew equivperp nouveau concept en DL5 Cnew ≔ toDL(mi) toDL retourne

la deacutescription en DL6 sinon7 Cnew ≔ Cnew ⊓ toDL(mi)8 fin si9 fin pour chaque10 si ∄ D isin T Cnew equiv D si Cnew nrsquoexist pas 11 Csubs ≔ subs(O Cnew) subs retourne le

subsumant direct de Cnew12 Question agrave lrsquoanalyste

13 selon analyste14 cas 1 insert un nouveau concept15 Cnew ⊑ Csubs16 cas 2 complegravete la definition de concept17 Csubs equiv Csubs ⊓ Cnew18 fin selon19 fin si20 Sortie O Ontologie raffineacutee

En bilan nous proposons la liste suivantes des eacutetapes de lrsquo qui tirent parti des meacutecanismes deraisonnement associeacutes agrave la

ndash lors de la seacutelection des instances la recherche drsquoinstances permet de deacuteterminer lrsquoensemble desindividus instances du concept initial C0

ndash lors de la transformation des connaissances la recherche du concept le plus speacutecifique permet dedeacuteterminer lrsquoidentiteacute du concept Cv dont v est instance pour la deacutefinition des attributs mC de laforme E1_o_E2_o__o_En Cv

ndash lors de lrsquoinsertion drsquoun nouveau concept dans la la classification des concepts (et plus exacte-ment la recherche du concept le plus speacutecifique) permet de positionner un nouveau concept deacutefiniCnew dans la hieacuterarchie de concepts

ndash apregraves lrsquoinsertion de nouveaux concepts de nouveaux rocircles et de nouvelles assertions de rocircles laclassification drsquoinstances permet de deacuteterminer pour lrsquoensemble des individus srsquoils sont instancesdrsquoun nouveau concept et pour les individus impliqueacutes dans une nouvelle assertion de rocircle srsquoilssont instances drsquoun concept ancien ou nouveau

Les deux derniegraveres utilisations des meacutecanismes de raisonnement permettent drsquoinfeacuterer de nouveauxaxiomes terminologiques et assertionnels ie de nouvelles uniteacutes de connaissances qui viennent raffiner

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 129

Algorithme G2 Depuis les attributsseacutelectionneacutes agrave de nouveaux rocircles1 Entreacutee O = (T A )K = (GMI)M0

ontologie contexte et attributs seacutelectionneacutees2 CnewR0 ≔ empty ensembles de concepts et de rocircles3 Cnew ≔perp nouveau concept4 pour chaque mi deM0

5 Cnew ≔ toDL(mi) toDL retournela description en DL

6 Cnew ≔ Cnew cup Cnew

7 fin pour chaque8 pour chaque Ci de Cnew

9 pour chaque Cj de Cnew iteacuterations emboicircteacuteespour compareacute chaque concept agrave tous les autres

10 si 2O Ci equiv Cj11 b ≔ getFiller(Ci)12 c ≔ getFiller(Cj) getFiller

retourne le ldquonominalrdquo drsquoune description de concept13 R0 ≔ domCodom(O Csubs(b) Csubs(c))

domCodom retourne lrsquoensemble des rocirclesavec domain et codomain

14 si R0 = empty description de nouveaux rocircles15 domain(Rnew) codomain(Rminusnew) ≔ Csubs(b)16 domain(Rminusnew) codomain(Rnew) ≔ Csubs(c)17 Question agrave lrsquoanalyste si Rnew est pertinent18 si pertinent19 T ≔ T cup Rnew R

minusnew nouvau rocircles

20 A ≔ A cup Rnew(b c) Rminusnew(c b)21 fin si22 sinon un rocircle existe23 pour chaque Rk de R0

24 Question agrave lrsquoanalyste est ce que Rk est pertinent 25 si pertinent26 A ≔ A cup Rk(b c) Rminus

k(c b)

27 fin si fin pour chaque fin si28 fin pour chaque fin pour chaque fin si29 Sortie O Ontologie raffineacutee

la initiale Crsquoest lrsquoinsertion de ces nouveaux axiomes dans la qui nous permet de dire que la meacutethodedrsquo autorise la deacutecouverte de connaissances implicites et nouvelles

La description de la meacutethode drsquo et son illustration avec un exemple pharmacogeacutenomique ontdonneacute lieu agrave deux publications [CSTND08b] et [CSTND08a]

La section 24 preacutesente une expeacuterimentation de la meacutethode drsquo meneacutee agrave partir de connaissancespharmacogeacutenomiques

130 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

24 Expeacuterimentation en pharmacogeacutenomique

Cette section preacutesente une expeacuterimentation de la meacutethode drsquoExtraction de Connaissance agrave partir

drsquoune Base de Connaissances () lrsquo Cette expeacuterimentation commence par le peuplement drsquoune pharmacogeacutenomique reacutealiseacute agrave lrsquoaide de lrsquooutil iSO-Pharm (preacutesenteacute section 32 chapitre 3) puis continuepar la mise en œuvre agrave partir de cette de la meacutethode drsquo (preacutesenteacutee section 23 de ce chapitre)

Cette expeacuterimentation srsquointeacuteresse aux donneacutees reacutesultant drsquoune investigation clinique des reacuteponses depatients asthmatiques agrave un meacutedicament appeleacute le montelukast Le deacuteroulement de notre expeacuterimentationest deacuteveloppeacute ci-dessous avec lrsquoobjectif drsquoillustrer et eacutevaluer la capaciteacute de lrsquo agrave (1) retrouver lesreacutesultats obtenus avec des meacutethodes statistiques classiques et (2) extraire de nouvelles connaissancesNotre motivation nrsquoest pas de discuter les reacutesultats de lrsquoinvestigation initiale mais plutocirct de donner unedeuxiegraveme vie agrave ces reacutesultats en les eacutetudiant selon une perspective diffeacuterente

241 Sources de donneacutees et de connaissances

Investigation clinique du montelukast La principale source de donneacutees exploiteacutee correspond auxdonneacutees recueillies au cours drsquoune investigation clinique meneacutee dans le cadre de lrsquoeacutetude de la diversiteacutede reacuteponses des patients asthmatiques au montelukast Des premiers reacutesultats de cette investigation onteacuteteacute publieacutes en 2006 par le groupe drsquoinvestigateurs Lima et al [LZG+06] Ces reacutesultats ont eacuteteacute mis en eacutev-idence agrave partir de donneacutees geacuteneacutetiques et cliniques recueillies sur un sous-ensemble du panel recruteacute pourcette investigation et constitueacute de 61 patients Les variables mesureacutees pour ces patients correspondentaux geacutenotypes de 26 SNP et agrave lrsquoenregistrement de deux signes cliniques principaux

ndash la survenue ou non drsquoune crise drsquoasthme durant les 6 mois de traitement noteacute ldquoExardquo pour exac-

erbation en anglais et pouvant prendre les valeurs Yes No ndash le pourcentage de modification apregraves 6 mois de traitement du Volume Expiratoire Maximum

Seconde66 (VEMS ou FEV en anglais) mesureacute par rapport au Volume Expiratoire Maximum Sec-onde preacutedit agrave 6 mois Cet attribut est noteacute ldquoPerrdquo pour percent change in predicted FEV1 est unpourcentage diviseacute par cent Ses valeurs sont comprises dans lrsquointervalle [-016 116]

Les SNP geacutenotypeacutes sont localiseacutes sur cinq gegravenes impliqueacutes dans la voie des leukotriegravenes67 ABCC1ALOX5 CYSLTR1 LTA4H et LTC4S localiseacutes respectivement sur les chromosomes 16 10 X 5 et 12

Autres sources de donneacutees Pour peupler la nous extrayons en plus des donneacutees de lrsquoinvestigationdes donneacutees des bases de donneacutees PharmGKB dbSNP OMIM Gene et KEGG Pathway relatives no-tamment aux gegravenes impliqueacutes dans la voie des leukotriegravenes leurs structures leurs variations geacutenomiquesles reacuteseaux meacutetaboliques dans lesquels ils sont impliqueacutes

242 Preacuteparation des donneacutees

Inteacutegration des donneacutees geacutenotypiques et pheacutenotypiques Les donneacutees geacuteneacutetiques et cliniques con-cernant les patients de lrsquoinvestigation sont disponibles publiquement dans deux fichiers distincts dans labase de donneacutees PharmGKB68 (preacutesenteacutee chapitre 1 section 32) Pour des raisons de confidentialiteacute lespatients sont identifieacutes dans chacun de ces deux fichiers par un identifiant distinct Une premiegravere eacutetape depreacuteparation des donneacutees est la mise en correspondance des donneacutees contenues dans ces fichiers Celle-ciest possible agrave lrsquoaide drsquoune table de correspondance entre les identifiants des patients

66Le VEMS correspond au volume expireacute pendant la premiegravere seconde drsquoune expiration forceacutee67httpwwwmedscapecomviewarticle444395_568httpwwwpharmgkborgdoserveobjId=PA142628130

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 131

Discreacutetisation des attributs Nous discreacutetisons les valeurs numeacuteriques de lrsquoattribut ldquoPerrdquo en deuxclasses Les valeurs de ldquoPerrdquo infeacuterieures ou eacutegales agrave 08 sont transformeacutees en ldquo6008rdquo et les valeurssupeacuterieures agrave 08 en ldquogt009rdquo Ces deux nouvelles valeurs de ldquoPerrdquo sont transformeacutees par le systegraveme drsquoen deux valeurs qui sont retrouveacutees dans les reacutesultats respectivement ldquoPer__-inf-008_rdquo et ldquoPer__009-inf_rdquo

Peuplement drsquoune Base de Connaissances Lrsquooutil iSO-Pharm introduit chapitre 3 section 32 estutiliseacute pour peupler une pharmacogeacutenomique notamment agrave partir des donneacutees de lrsquoeacutetude issues dePharmGKB Les 61 patients de lrsquoeacutetude et les donneacutees cliniques (pheacutenotypiques et geacutenotypiques) qui leursont associeacutees servent notamment agrave la creacuteation de 61 assertions du concept ldquopatientrdquo de 127 assertions duconcept ldquoclinical_itemrdquo ou de ses descendants et de nombreuses assertions du rocircle ldquopresents_clinical_ite-mrdquo Ce dernier rocircle permet drsquoassocier les instances des concepts ldquopatientrdquo et ldquoclinical_itemrdquo conformeacute-ment aux donneacutees de lrsquoinvestigation clinique Les donneacutees des autres bases (dbSNP OMIM Gene etKEGG Pathway) permettent drsquoinstancier des concepts et des rocircles relatifs aux variations geacutenomiquesaux gegravenes aux meacutedicaments aux pheacutenotypes et agrave des reacuteseaux meacutetaboliques

243 Plug-in Proteacutegeacute pour lrsquo

La version 4 de lrsquoeacutediteur de Proteacutegeacute69 donne la possibiliteacute drsquointerfacer avec les fonctionnaliteacutesnatives de Proteacutegeacute des outils externes ou plug-in La meacutethode drsquo deacutetailleacutee en section 23 de ce chapitreest impleacutementeacutee sous la forme drsquoun plug-in de Proteacutegeacute Une copie drsquoeacutecran de lrsquointerface graphique delrsquoonglet associeacute au plug-in est repreacutesenteacutee en Figure 47 Le plug-in comme son interface est diviseacute entrois parties distinctes qui permettent de reacutealiser respectivement les eacutetapes de preacuteparation (au centre delrsquointerface) de fouille (en haut agrave droite) et drsquointerpreacutetation (en bas agrave droite) de lrsquo

ndash La partie deacutedieacutee agrave la preacuteparation permet de deacutecrire un concept C0 et de seacutelectionner ses instancesde deacutefinir une profondeur maximale dmax et sur cette base de construire un contexte formel Unefois le contexte construit cette partie permet eacutegalement de retirer du contexte les attributs qui nesemblent pas pertinents pour la fouille

ndash La partie deacutedieacutee agrave la fouille permet de lancer une recherche des RMNR selon un support et uneconfiance minimums min_supp et conf_min Notre plug-in utilise la boite agrave outils pourrechercher ces regravegles particuliegraveres [Sza06]

ndash La partie deacutedieacutee agrave lrsquointerpreacutetation permet la visualisation des regravegles la seacutelection de regravegles puisla seacutelection drsquoattributs au sein des regravegles seacutelectionneacutees Les attributs seacutelectionneacutes servent alors agraveconstruire et inseacuterer dans la initiale de nouveaux concepts de nouveaux rocircles et de nouvellesinstances de rocircles

244 Reacutesultats

Lrsquoexpeacuterimentation meneacutee est reacutealiseacutee suivant plusieurs iteacuterations du processus drsquo sur la peu-pleacutee Les reacutesultats obtenus lors drsquoune iteacuteration deacutependent des reacutesultats des iteacuterations preacuteceacutedentes Pourcette raison nous les deacutetaillons dans lrsquoordre de leur apparition

Premiegravere iteacuteration La premiegravere iteacuteration de lrsquo est meneacutee avec les paramegravetres suivants ndash C0 equiv patient ⊓ is_enrolled_in montelukast_studyndash dmax= 2ndash min_supp = 08

69httpprotegewikistanfordeduindexphpProtege4UserDocs

132 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

F 47 ndash Capture drsquoeacutecran du plugin de Proteacutegeacute 4 pour lrsquoAnalyse drsquoAssertions de Rocircles

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 133

ndash min_conf = 08La premiegravere RMNR produite preacutesente un support et une confiance de 1 Sa composition est la

suivante

Regravegle 1

=gt is_enrolled_in_o_is_composed_of initial_visit

is_part_of RacWithe

is_enrolled_in_o_is_composed_of six_month_visit

is_enrolled_in montelukast_study

is_enrolled_in_o_is_defined_by montelukast_sty_protocol

Le symbole (qui constitue la preacutemisse de la regravegle) repreacutesente lrsquoensemble de tous les attributs ducontexte formel Cette premiegravere regravegle du fait que la confiance est eacutegale agrave 1 peut ecirctre interpreacuteteacutee commele fait que tous les individus instances de C0 sont aussi instances des concepts deacutecrits par les attributsde la conclusion de la regravegle Dans ce premier cas tous les attributs nous inteacuteressent pour constituer unnouveau concept Alors aucun attribut de la regravegle nrsquoest exclu par lrsquoutilisateur et la regravegle 1 est transformeacuteepar le systegraveme en sous la forme de la deacutefinition de concept suivante

Cnew1 equiv is_enrolled_in is_composed_of initial_visit ⊓is_part_of RacWithe ⊓is_enrolled_in is_composed_of six_month_visit ⊓is_enrolled_in montelukast_study ⊓is_enrolled_in is_defined_by montelukast_sty_protocol

On peut tout drsquoabord remarquer que la quatriegraveme ligne de la deacutefinition de Cnew1 correspond agraveune partie de la description de C0 De faccedilon informelle le concept Cnew1 peut ecirctre interpreacuteteacute commeldquolrsquoensemble des individus qui sont recruteacutes dans lrsquoeacutetude du montelukast qui sont recruteacutes dans quelquechose qui est composeacute drsquoune visite initiale et drsquoune visite agrave six mois qui sont drsquoune ethnie blanche70et qui sont recruteacutes dans quelque chose qui est deacutefini par le protocole de lrsquoeacutetude du montelukastrdquo Cecicorrespond finalement agrave une description preacutecise des patients qui sont impliqueacutees dans lrsquoeacutetude du mon-telukast Une telle description nrsquoexiste pas dans la dans laquelle la description des patients se limite agravela deacutefinition du concept patient et agrave son concept parent person

Alors le nouveau concept Cnew1 est inseacutereacute dans la Pour cela un nom plus explicite que Cnew1lui est attribueacute par lrsquoutilisateur montelukast_study_patient Le systegraveme le branche dans un premiertemps agrave la racine des concepts de la ⊤ Dans un deuxiegraveme temps lrsquoutilisation du meacutecanisme de clas-sification permet de proposer un nouveau positionnement au concept montelukast_study_patientdans la hieacuterarchie de concepts Le reacutesultat est le suivant

montelukast_study_patient ⊑ patient

Ce positionnement srsquoexplique par (1) la deacutefinition du concept patient initiale dans lrsquoontologie SO-Pharm qui contient lrsquoaxiome

patient equiv exist is_enrolled_inclinical_trial ⊔ exist is_part_ofclinical_trial_panel

et (2) lrsquoaxiome drsquoassertion

clinical_trial(montelukast_study)

70La notion drsquoethniciteacute est rapporteacutee dans lrsquoeacutetude selon les recommandations de lrsquoInstitut National de la Santeacute eacutetats-unien (leNIH) httpgrants2nihgovgrantsguidenotice-filesNOT-OD-01-053html

134 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

selon lequel lrsquoindividu montelukast_study est une instance du concept clinical_trial suite aupeuplement de la A partir de ces deux eacuteleacutements le systegraveme peut deacuteteacuterminer que la deacutefinition dunouveau concept contient un condition suffisante pour infeacuterer que toutes ses instances sont eacutegalementinstances de patient

A ce niveau lrsquoutilisateur doit deacuteterminer si le nouveau concept est une meilleure deacutefinition de ce quidevrait ecirctre repreacutesenteacute par son subsumant le plus speacutecifique ou bien si le nouveau concept est effective-ment un sous-concept de celui-ci De par le fait que le nouveau concept (montelukast_study_patient)est effectivement un concept diffeacuterent de son subsumant le plus speacutecifique (patient) le nouveau conceptest positionneacute dans la par lrsquoinsertion de lrsquoaxiome drsquoinclusion de concept proposeacute par le systegraveme

Concernant la potentielle creacuteation de nouveaux rocircles et de nouvelles assertions de rocircles les couplespossibles entre les individus impliqueacutes dans la regravegle sont examineacutes par le systegraveme Il existe deacutejagrave desassertions de rocircles entre initial_visit six_month_visit et montelukast_sty_protocol dansla aussi la possibiliteacute de creacuteer des assertions associant ces individus est rejeteacutee Les relations possiblesentre les autres individus ne paraissent pas suffisamment inteacuteressantes agrave lrsquoutilisateur pour donner lieu agravela creacuteation de rocircles ou drsquoassertions de rocircles Au final aucun rocircle ou assertion de rocircle nrsquoest creacuteeacute agrave partirde cette regravegle

Les paramegravetres de cette iteacuteration et son premier reacutesultat sont illustreacutes sur la repreacutesentation de lrsquointer-face graphique du plug-in de Proteacutegeacute deacutedieacute agrave lrsquo preacutesenteacute dans la Figure 47

Lors de cette premiegravere iteacuteration la profondeur dmax utiliseacutee est eacutegale agrave 2 Aussi les rocircles impliqueacutesdans la deacutefinition du concept sont constitueacutes au maximum drsquoune seule composition de rocircles Augmenterla profondeur de recherche dans les graphes drsquoassertions permet de geacuteneacuterer des attributs qui correspon-dent agrave des compositions multiples de rocircles (par exemple 3 compositions de rocircle au maximum pourdmax=4) Ceci est illustreacute par lrsquoiteacuteration suivante du processus drsquo qui aboutit agrave lrsquoenrichissement de ladeacutefinition de notre nouveau concept montelukast_study_patient

Deuxiegraveme iteacuteration Les paramegravetres deacutefinis pour cette deuxiegraveme iteacuteration sont identiques agrave ceux utiliseacutespreacuteceacutedemment excepteacute pour la profondeur dmax qui est augmenteacutee De cette faccedilon nous avons

ndash C0 equiv patient ⊓ is_enrolled_in montelukast_studyndash dmax= 3ndash min_supp = 08ndash min_conf = 08Preacutealablement agrave la fouille nous excluons un sous-ensemble drsquoattributs non pertinents afin de deacutecharger

le nombre drsquoattributs dans les regravegles Une des premiegraveres regravegles geacuteneacutereacutees preacutesentant un support et uneconfiance de 1 est la suivante

Regravegle 2

=gt presents_clinical_item_o_is_the_observed_genotype_for_o_isVariantIn CYSLTR1

presents_clinical_item_o_is_the_observed_genotype_for_o_isVariantIn ALOX5

presents_clinical_item_o_is_the_observed_genotype_for_o_isStoredInVarDb ncbi_dbsnp_125

presents_clinical_item_o_is_the_observed_genotype_for_o_isVariantIn LTA4H

presents_clinical_item_o_is_the_observed_genotype_for_o_isVariantIn ABCC1

is_enrolled_in montelukast_study

presents_clinical_item_o_is_the_observed_genotype_for_o_isVariantIn LTC4S

is_enrolled_in_o_is_defined_by_o_is_composed_of montelukast_treatment

La seacutelection drsquoattributs explique notamment que les attributs de la regravegle 1 (exclus lors de cette nou-velle iteacuteration) nrsquoapparaissent pas dans la regravegle 2 (sauf le sixiegraveme) En revanche les attributs ici associeacutes

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 135

nrsquoapparaissaient pas dans la regravegle 1 car les rocircles qursquoils invoquent impliquent lrsquoenchaicircnement de deuxcompositions de rocircle

Cette regravegle illustre le fait que chaque individu instance de C0 est associeacute agrave des items cliniques qui sontdes geacutenotypes observeacutes pour des variants localiseacutes sur cinq gegravenes CYSLTR1 ALOX5 LTA4H ABCC1

LTC4S Dans le cas de notre eacutetude sur le montelukast savoir que tous les patients ont des variantsgeacutenotypeacutes sur chacun de ces cinq gegravenes nrsquoest pas une connaissance nouvelle puisque celle-ci est deacutecritedans les meacuteta-donneacutees dont nous disposons agrave propos de lrsquoeacutetude (lrsquoarticle de Lima et al et les meacuteta-donneacutees associeacutees aux fichiers dans PharmGKB) Cependant la reacutegulariteacute exprimeacutee par cette regravegle peutpermettre de formaliser cette connaissance de faccedilon explicite dans la Pour cette raison nous proposonsun nouveau concept Cnew2 sur la base de cette regravegle Par ailleurs il est facile drsquoimaginer des cas ougrave lesmeacuteta-donneacutees disponibles sur les variants exploreacutes sont partielles ou inexistantes ou encore des cas ougravele nombre de variants exploreacutes est trop grand pour que ces meacuteta-donneacutees soient facilement exploitablesDans ces cas le concept traduit agrave partir de cette regravegle peut ecirctre porteur drsquoune connaissance nouvelle

Cnew2 equiv presents_clinical_item is_the_observed_genotype_for isVariantIn CYSLTR1 ⊓presents_clinical_item is_the_observed_genotype_for isVariantIn ALOX5 ⊓presents_clinical_item is_the_observed_genotype_for isVariantIn LTA4H ⊓presents_clinical_item is_the_observed_genotype_for isVariantIn ABCC1 ⊓is_enrolled_in montelukast_study ⊓presents_clinical_item is_the_observed_genotype_for isVariantIn LTC4S ⊓is_enrolled_in is_defined_by is_composed_of montelukast_treatment

Nous remarquons que le troisiegraveme attribut impliqueacute dans la conseacutequence de la regravegle 2 nrsquoa pas eacuteteacuteutiliseacute par le systegraveme dans la deacutefinition du nouveau concept Ceci est la conseacutequence de son exclusionpar lrsquoutilisateur comme le permet lrsquointerface graphique du plug-in lors de lrsquointerpreacutetation des regraveglesLa raison de ce choix deacutepend du contexte de lrsquoexpeacuterimentation pour lequel nous ne consideacuterons paspertinent le fait que tous les patients puissent ecirctre geacutenotypeacutes pour au moins un variant reacutepertorieacute dansdbSNP

Le positionnement proposeacute par le systegraveme pour ce nouveau concept dans la hieacuterarchie de conceptsde la est

Cnew2 ⊑ montelukast_study_patient

Dans ce cas le nouveau concept ne constitue pas aux yeux de lrsquoutilisateur un sous-ensemble des in-dividus deacutefinis par le concept montelukast_study_patient mais plutocirct une description diffeacuterente dece concept De fait nous choisissons drsquoenrichir la deacutefinition de montelukast_study_patient commele permet le systegraveme en positionnant Cnew2 par lrsquoajout dans la de lrsquoaxiome suivant

Cnew2 equiv montelukast_study_patient

Aucun rocircle nrsquoest creacuteeacute ou instancieacute agrave partir de cette regravegle

Les deux premiegraveres iteacuterations permettent drsquoillustrer deux fonctionnaliteacutes de lrsquo ndash premiegraverement lrsquoaugmentation du paramegravetre dmax permet drsquoextraire des connaissances qui mettent

en jeu des individus indirectement associeacutes dans la Lrsquoexemple preacutesenteacute ici illustre la deacutefinitiondrsquoun nouveau concept agrave partir de connaissances construites avec des donneacutees de lrsquoinvestigation dumontelukast et drsquoannotations sur la position des variants issues de dbSNP

ndash Deuxiegravemement une nouvelle description de concepts peut venir soit srsquoinseacuterer dans la hieacuterarchiede concepts (Cnew1) soit enrichir un deacutefinition existante (Cnew2)

136 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

Troisiegraveme iteacuteration Nous poursuivons lrsquoexploration de la avec le mecircme concept initial C0 la mecircmeprofondeur dmax = 3 mais nous diminuons le support minimum agrave 03 Les paramegravetres utiliseacutes cette foissont

ndash C0 equiv patient ⊓ is_enrolled_in montelukast_studyndash dmax= 3ndash min_supp = 03ndash min_conf = 08La recherche des RMNR reacutevegravele alors de nombreuses associations entre geacutenotypes Nous seacutelec-

tionnons les regravegles qui associent des geacutenotypes observeacutes sur le mecircme gegravene La regravegle 3 (support=031confiance=095) en est un exemple

Regravegle 3

presents_clinical_item chrX_77389891A-G

presents_clinical_item chrX_77367837A-G =gt presents_clinical_item chrX_77334462A-G

Ce genre de regravegle nous inteacuteresse particuliegraverement pour eacutetudier les geacutenotypes qui seacutegregravegent ensembleie qui sont transmis de faccedilon groupeacutee agrave la maniegravere des haplotypes Dans leur travaux Lima et al

mettent en eacutevidence trois groupes de geacutenotypes fortement associeacutes par deacuteseacutequilibre de liaison (Linkage

Desquilibrium ou LD en anglais) Ceux-ci sont reporteacutes dans la colonne de gauche du Tableau 44Suivant notre meacutethode nous isolons parmi la centaine de regravegles produites 7 regravegles qui nous permettentdrsquoisoler 7 groupes La regravegle 3 ci-dessus en est un exemple Lrsquoensemble de ces regravegles est reporteacute en AnnexeH avec leurs supports et confiances La colonne de droite du Tableau 44 repreacutesente les 7 groupes degeacutenotype associeacutes agrave partir de ces regravegles

Par ailleurs ce sont les associations entre les individus eacutevoqueacutes dans ces regravegles que nous souhaitonsinseacuterer dans la Aussi pour chaque regravegle nous ne construisons pas un nouveau concept mais cherchonsagrave instancier des rocircles entre les individus correspondant aux geacutenotypes

SO-Pharm ne dispose drsquoaucun rocircle dont le domaine et le co-domaine sont deacutefinis par le mecircme con-cept genomic_genotype ce qui permettrait drsquoassocier deux instances de ce concept auxquelles fontreacutefeacuterence les attributs des regravegles Aussi notre systegraveme drsquo propose automatiquement lors du traitementde la premiegravere regravegle associant des geacutenotypes la creacuteation drsquoun nouveau rocircle avec genomic_genotype endomaine et co-domaine Celui-ci est appeleacute par lrsquoutilisateur segregates_with Ensuite ce rocircle et soninverse (ie lui mecircme dans le cas particulier de segregates_with) sont instancieacutes avec chaque pairede geacutenotypes inclus dans une regravegle De cette faccedilon la regravegle 3 entraicircne apregraves validation de lrsquoutilisateurlrsquoinsertion dans la des 6 assertions de rocircles suivantes

segregates_with (chrX_77389891A-G chrX_77367837A-G)segregates_withminus(chrX_77389891A-G chrX_77367837A-G)

segregates_with (chrX_77389891A-G chrX_77334462A-G)segregates_withminus(chrX_77389891A-G chrX_77334462A-G)

segregates_with (chrX_77367837A-G chrX_77334462A-G)segregates_withminus(chrX_77367837A-Gbdquo chrX_77334462A-G)

Au total les 7 regravegles entraicircnent lrsquoinsertion dans la drsquoun nouveau rocircle (segregates_with) et de26 assertions de ce nouveau rocircle

Nous retrouvons les mecircmes groupes que Lima et Al Nos groupes sont plus restreints notammentpour le premier groupe du gegravene ABCC1 et celui du gegravene ALOX5 Cependant nous mettons en eacutevidence

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 137

Gegravene Geacutenotypes associeacutes Geacutenotypes associeacuteesLima et al (LD) Analyse des Assertions de Rocircles

ABCC1 Chr16 15986618G-G Chr16 15986618G-GChr16 15994334C-C Chr16 15994334C-CChr16 16016395A-A

Chr16 16045823T-T Chr16 16045823T-T Chr16 16045823C-TChr16 16047215T-T Chr16 16047215T-T Chr16 16047215C-T

ALOX5 Chr10 45190694C-T Chr10 45190694C-TChr10 45211490A-G Chr10 45211490A-G Chr10 45211490A-GChr10 45221095A-A Chr10 45221095A-G Chr10 45221095A-GChr10 45198914A-G Chr10 45198914A-AChr10 45237098A-G

CYSLTR1 empty ChrX 77346486T-TChrX 77356650G-GChrX 77389891G-G ChrX 77389891A-GChrX 77367837A-A ChrX 77367837A-GChrX 77334462A-A ChrX 77334462A-G

LTA4H empty empty

LTC4S empty empty

T 44 ndash Groupes de geacutenotypes associeacutes au sein des gegravenes eacutetudieacutes dans lrsquoinvestigation clinique de Limaet al [LZG+06] La colonne de gauche preacutesente les trois groupes de geacutenotypes mis en eacutevidence par Limaet al par la mesure des deacuteseacutequilibres de liaison (Linkage Desquilibrium ou LD en anglais) La colonnede droite preacutesente les groupes que nous avons mis en eacutevidence agrave partir du mecircme jeu de donneacutees aveclrsquo Cette deuxiegraveme colonne preacutesente dans certains cas deux associations de geacutenotypes diffeacuterents pourun mecircme groupe de variations (gegravene ABCC1 et CYSLTR1) Les regravegles dont sont extraits ces 7 groupessont reporteacutees en Annexe H

deux groupes particuliers qui correspondent agrave des allegraveles diffeacuterents de variations deacutejagrave impliqueacutees dansun groupe le couple Chr16 16045823C-T Chr16 16047215C-T et le triplet ChrX 77334462A-GChrX 77367837A-G ChrX 77389891A-G De plus nous mettons en eacutevidence une association entredeux groupes de geacutenotypes du gegravene CYSLTR1 absents des reacutesultats de Lima et al Les supports etconfiances de chaque regravegle reporteacutes en Annexe H permettent de juger la freacutequence dans la populationde ces associations

Quatriegraveme iteacuteration Nous poursuivons encore lrsquoexploration de la avec le mecircme concept initial C0

et la mecircme profondeur dmax en diminuant le support minimum cette fois agrave 02 Les paramegravetres utiliseacutessont ainsi

ndash C0 equiv patient ⊓ is_enrolled_in montelukast_studyndash dmax= 3ndash min_supp = 02ndash min_conf = 08Lrsquoobjectif de cette nouvelle iteacuteration est drsquoisoler des regravegles associant un attribut relatif au pheacutenotype

(Per= ldquogt009rdquo ldquo6008rdquo ou Exa=ldquoNordquo ldquoYesrdquo) et un ou plusieurs attributs deacutecrivant un geacutenotypespeacutecifique agrave ce pheacutenotype

138 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

Avec un support minimum de 02 le nombre de regravegles devient important (proche de 3000 regravegles)cependant les regravegles impliquant un attribut relatif au pheacutenotype sont relativement rares dans cet ensemble(lt5) Pour trouver ces regravegles plus facilement nous utilisons un systegraveme de filtres simples semblablesagrave ceux deacutecrits dans la section 14 du chapitre 2 Nous isolons au final 5 regravegles qui correspondent aumodegravele imposeacute par les filtres La regravegle 4 (support=026 confiance=080) ci-dessous en est un exempleLrsquoensemble des regravegles isoleacutees est reporteacute en Annexe H

Regravegle 4presents_clinical_item chrX_77334462A-G =gt presents_clinical_item chrX_77367837A-G

presents_clinical_item Per__-inf-008_

is_enrolled_in_o_is_defined_by_o_is_composed_of

montelukast_treatment

Le fait que la regravegle 2 ait un support et une confiance eacutegaux agrave 1 permet de deacuteduire que lrsquoattribut de saconclusion is_enrolled_in_o_is_de f ined_by_o_is_composed_o f montelukast_treatment est preacutesentdans toutes les regravegles Cet attribut nrsquoapparaicirct pas dans la regravegle 3 car nous lrsquoavions exclu de la recherchede regravegles comme le systegraveme le permet afin drsquoalleacuteger le nombre drsquoattributs dans les regravegles Nous nouspermettons cette exclusion car drsquoune part nous savons que cet attribut est preacutesent pour chaque objet ducontexte et drsquoautre part lors de lrsquoiteacuteration preacuteceacutedente nous ne cherchions pas de regravegles impliquant untraitement mais uniquement des geacutenotypes

Des cinq regravegles isoleacutees nous sommes capables drsquoidentifier quatre geacutenotypes et une paire de geacuteno-types speacutecifiques de trois pheacutenotypes diffeacuterents La colonne de droite du Tableau 45 preacutesente ces geacuteno-types La colonne de gauche de ce Tableau preacutesente les reacutesultats rapporteacutes dans Lima et al en utilisantdeux tests statistiques χ2 et le rapport de vraisemblance Avec lrsquo nous retrouvons deux des cinq geacuteno-types qursquoils associent agrave un pheacutenotype particulier (Chr5 179153244A-C et Chr12 94941021A-G) Lestrois geacutenotypes non retrouveacutes (Chr10 45221095G-G Chr16 15994335C-T et Chr12 94941021G-G)sont observeacutes dans Lima et al sur des sous-groupes de patients particuliegraverement restreints (respective-ment n = 6 8 et 5) Les donneacutees manquantes et le seuil utiliseacute (008) pour discreacutetiser lrsquoattribut ldquoPerrdquoramegravenent dans notre jeu de donneacutees ces populations agrave n= 4 5 et 5 Sur une population totale de 61patients la probabiliteacute drsquoobservation de ces geacutenotypes en mecircme temps que le pheacutenotype associeacute est alorsinfeacuterieure agrave 005 Pour les retrouver ensemble dans des regravegles il nous faudrait reacuteduire le support mini-mum en dessous de cette valeur Ceci aurait pour conseacutequence un accroissement important du nombrede regravegles et par conseacutequent du temps neacutecessaire pour isoler les regravegles pertinentes qui correspondent aumodegravele rechercheacute

Nous identifions cependant lors de cette iteacuteration quatre geacutenotypes speacutecifiques agrave des pheacutenotypes quine lrsquoavaient pas eacuteteacute par Lima et al

Au niveau de la chaque regravegle isoleacutee permet la creacuteation drsquoun nouveau concept Lrsquoutilisateur luiassocie un nom et le systegraveme lrsquoinsegravere dans la hieacuterarchie de concepts de la Par exemple la regravegle 4permet de deacutefinir le concept suivant nommeacute patient_with_low_chge_in_fev_grp2 par lrsquoutilisateur

patient_with_low_chge_in_fev_2 equiv presents_clinical_item chrX_77334462A-G ⊓presents_clinical_item chrX_77367837A-G ⊓presents_clinical_item Per__-inf-008_ ⊓

is_enrolled_in is_defined_by is_composed_of montelukast_treatment

De plus pour chaque regravegle des assertions des sous-rocircles du rocircle interacts_with sont creacuteeacutees enfonction des concepts dont sont instances les paires drsquoindividus consideacutereacutes De cette faccedilon la regravegle 4permet drsquoinseacuterer dans la entre autres les axiomes assertionnels suivants

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 139

Pheacutenotype Geacutenotypes speacutecifiques Geacutenotypes speacutecifiquesLima et al (χ2 rapport de vraisemblance) Analyse des Assertions de Rocircles

Per=ldquogt009rdquo Chr10 45221095G-G empty

Chr16 15994335C-TPer=ldquo6008rdquo empty Chr10 45211490A-A

ChrX 77334462A-GChrX 77367837A-G

Exa=ldquoNordquo Chr5 179153244A-C Chr5 179153244A-C

Chr16 161443440C-GExa=ldquoYesrdquo Chr12 94941021A-G Chr12 94941021A-G

Chr12 94941021G-G

T 45 ndash Geacutenotypes speacutecifiques aux pheacutenotypes preacutesenteacutes dans la colonne de gauche La colonne ducentre repreacutesente les geacutenotypes speacutecifiques mis en eacutevidence dans Lima et al par meacutethodes statistiques(χ2

et rapport de vraisemblance) [LZG+06] La colonne de droite repreacutesente les variations mises en eacutevidencepar notre approche drsquoAnalyse des Assertions de Rocircles Les regravegles qui mettent en eacutevidence ces associa-tions sont reporteacutees en Annexe H

interacts_with_phenotype (chrX_77334462A-G Per__-inf-008_)interacts_with_phenotypeminus(chrX_77334462A-G Per__-inf-008_)

interacts_with_drug_treatment (chrX_77334462A-G montelukast_treatment)interacts_with_drug_treatmentminus(chrX_77334462A-G montelukast_treatment)

ainsi que des axiomes de la mecircme forme impliquant le second geacutenotype (chrX_77367837A-G) etdrsquoautres agrave partir de Per__-inf-008_ et de montelukast_treatment

Au final les cinq regravegles sont agrave lrsquoorigine de cinq deacutefinitions de concepts et 68 assertions de rocirclesinseacutereacutes dans la

La classification drsquoinstances sur la permet de repreacutesenter explicitement les geacutenotypes pheacutenotypeset traitements qui interviennent dans une reacuteaction pharmacogeacutenomique agrave un traitement SO-Pharm con-tient initialement trois concepts deacutefinis de faccedilon symeacutetrique

ndash pharmacogenomic_genotype_itemndash pharmacogenomic_phenotype_item etndash pharmacogenomic_drug_treatment

Par exemple un geacutenotype qui intervient dans une reacuteaction pharmacogeacutenomique est deacutefini comme ungeacutenotype qui interagit agrave la fois avec un pheacutenotype et un traitement de la faccedilon suivante

pharmacogenomic_genotype_item equiv gt 1 interacts_with_phenotype ⊓gt 1 interacts_with_drug_treatment

Ainsi agrave partir de cette deacutefinition il est infeacutereacute que lrsquoindividu chrX_77334462A-G deacutejagrave instance degenotype_item est eacutegalement instance de pharmacogenomic_genotype_item

De la mecircme faccedilon la classification qui termine cette iteacuteration permet de statuer sur le fait quendash 6 individus instances de genotype_item sont aussi instances de pharmacogenomic_genotype_item

140 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

ndash 4 individus instances de phenotype_item sont instances de pharmacogenomic_phenotype_itemndash 1 individu instance de drug_treatment (montelukast_treatment) est eacutegalement instance depharmacogenomic_drug_treatment

245 Bilan et discussion

Lrsquo nous a permis drsquoextraire et de formaliser un certain nombre drsquouniteacutes de connaissances soitsous la forme drsquoaxiomes terminologiques (ie impliquant equiv ou ⊑) soit sous la forme drsquoaxiomes asser-tionnels (ie les assertions de rocircles et drsquoinstances) Ces uniteacutes de connaissances nrsquoeacutetaient preacutealablementpas preacutesentes dans la par conseacutequent nous les qualifions de nouvelles En outre lrsquoanalyste a lui mecircmejugeacute inteacuteressant de les inseacuterer dans la par conseacutequent nous les qualifions eacutegalement de pertinentesDe fait lrsquoexpeacuterimentation montre que lrsquo permet de retrouver lrsquoessentiel des reacutesultats qui avaient eacuteteacutemanuellement extrait par des meacutethodes statistiques classiques dans [LZG+06] des associations fortesentre geacutenotypes des associations geacutenotypendashpheacutenotype Notre meacutethode permet drsquoaller plus loin dans lrsquo-exploitation des donneacutees analyseacutees en isolant en plus de ces reacutesultats de nouvelles associations entregeacutenotypes de nouvelles relations geacutenotypendashpheacutenotype et des relations geacutenotypendashtraitementndashpheacutenotypeLrsquoensemble de ces reacutesultats est repreacutesenteacute de faccedilon formelle dans la qui peut ecirctre enrichie avec denouvelles donneacutees ou donner lieu agrave de nouvelles expeacuterimentations

Lrsquoexpeacuterimentation montre que la preacuteparation des donneacutees le parameacutetrage lrsquoexclusion drsquoattributspermettent drsquoorienter et de controcircler lrsquo Lrsquoinfluence de ces diffeacuterentes opeacuterations sur les reacutesultats delrsquoanalyse est discuteacutee dans la suite de cette section

La discreacutetisation des valeurs de lrsquoattribut ldquoPerrdquo effectueacutee lors de lrsquoeacutetape de preacuteparation des donneacuteesest un premier facteur jouant sur les reacutesultats En effet le choix drsquoun seuil moins eacuteleveacute pour la discreacuteti-sation par exemple 004 au lieu de 008 permettrait drsquoaugmenter le nombre drsquoobjets qui preacutesentent unevaleur au dessus de ce seuil et par conseacutequent drsquoaugmenter le nombre drsquoobjets qui peuvent preacutesenter agravela fois une valeur de ldquoPerrdquo au dessus du seuil et un geacutenotype particulier La valeur choisie pour ce seuilexplique en partie pourquoi contrairement agrave Lima et al nous ne retrouvons pas de geacutenotype speacutecifiqueau pheacutenotype Per=ldquogt009rdquo Lrsquoautre explication reacuteside dans le faible nombre de cas sur lesquels se basentLima et al pour estimer ces associations

Il apparaicirct au cours de lrsquoexpeacuterimentation que lrsquoexclusion des attributs les moins pertinents du con-texte facilite lrsquoeacutetape drsquointerpreacutetation Le moyen proposeacute drsquoexclure des attributs dans lrsquoimpleacutementationactuelle est entiegraverement manuel Il serait certainement inteacuteressant drsquoadapter lrsquoapproche de seacutelection dedonneacutees guideacutee par les connaissances proposeacutee dans la section 1 de ce chapitre pour faciliter lrsquoexclusiondrsquoattributs du contexte manipuleacute en

Le nombre de regravegles produites est un facteur important de la difficulteacute agrave interpreacuteter les reacutesultats Cenombre de regravegle est tout drsquoabord sensible au nombre drsquoattributs consideacutereacutes pour la recherche des regraveglesmais aussi sensible agrave drsquoautres paramegravetres Ainsi la profondeur dmax entraicircne la constitution drsquoun con-texte plus volumineux et par conseacutequent une production de regravegles souvent plus nombreuses Enfin lessupport et confiance minimums permettent de moduler le nombre de regravegles Hypotheacutetiquement il pour-rait eacutegalement ecirctre envisageacute de contraindre le parcours des graphes drsquoassertions de sorte agrave ce que seulsles chemins associeacutes agrave une seacutemantique deacutefinie soient parcourus En conseacutequence le contexte reacutesultant nepreacutesenterait que les attributs geacuteneacutereacutes agrave partir du parcours de ces chemins speacutecifiques

Voici un ordre de grandeur du nombre de regravegles produites lors des diffeacuterentes iteacuterations preacutesenteacutees

premiegravere iteacuteration lt 10 regraveglesdeuxiegraveme iteacuteration lt 20 regraveglestroisiegraveme iteacuteration lt 100 regraveglesquatriegraveme iteacuteration lt 3000 regravegles

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 141

Lorsque le support est diminueacute en deccedila de 02 le nombre de regravegles augmente davantage et lrsquointerpreacutetationdevient deacutelicate malgreacute lrsquoutilisation de filtres Ceci est en partie ducirc agrave la meacutethode de fouille utiliseacutee dontlrsquoobjectif est la recherche de regravegles freacutequentes Dans le cas ougrave les regravegles rechercheacutees apparaissent avecun support de 01 lrsquoutilisation drsquoune meacutethode baseacutee sur la notion de freacutequence est fortement discutableCependant lrsquoaspect iteacuteratif de notre approche peut ecirctre utiliseacute pour mettre en œuvre une nouvelle iteacuterationdans laquelle le concept initial C0 peut seacutelectionner un ensemble drsquoindividus plus restreints au sein duquelpeut se reacuteveacuteler freacutequente une association peu freacutequente sur un ensemble plus large drsquoindividus

Une piste particuliegraverement inteacuteressante est la mise en eacutevidence des geacutenotypes fortement associeacutes agraveun pheacutenotype rare Pour cela une meacutethode particuliegravere de recherche drsquoassociations dont le support estfaible est la recherche de regravegles rares ie drsquoassociations qui contrairement aux regravegles drsquoassociationssurviennent avec une freacutequence infeacuterieure agrave un seuil deacutefini [SNV07] Cette expeacuterimentation confirmeque les regravegles rares avec une confiance eacuteleveacutee semblent propices agrave lrsquoextraction des connaissances enpharmacogeacutenomique ougrave la notion drsquointeacuterecirct nrsquoest pas forcement coupleacutee agrave celle de freacutequence eacuteleveacutee

Actuellement seule lrsquoapparition simultaneacutee drsquoattributs dans une regravegle est utiliseacutee On peut supposeragrave premiegravere vue que lrsquoextraction de motifs freacutequents (par exemple les motifs fermeacutes freacutequents) pourraitecirctre suffisante agrave lrsquoobtention des mecircmes reacutesultats puisque la notion de regravegle (et notamment le fait qursquounattribut soit en preacutemisse ou en conclusion) nrsquoest pas exploiteacutee Cependant nous utilisons tout drsquoabordla mesure de la confiance propre aux regravegles drsquoassociations comme une marge permettant agrave supportconstant de trouver des associations non systeacutematiques entre les attributs Lrsquoexistence de donneacutees man-quantes ou entacheacutees drsquoerreurs dans les jeux de donneacutees biologiques manipuleacutes est agrave lrsquoorigine de cetteconsideacuteration Ensuite et surtout la seacutemantique associeacutee agrave une regravegle bien qursquoencore inexploiteacutee dans ladescription actuelle de lrsquo est une des eacutevolutions que nous souhaiterions apporter agrave cette meacutethodeDans ce sens Rudolph et Voumllker exploitent par exemple la seacutemantique des implications entre attributs dela forme A rarr B ougrave A et B sont deux ensembles drsquoattributs pour deacutefinir des nouveaux axiomes en dela faccedilon suivante A ⊑ B ougrave A et B sont les concepts qui correspondent aux ensembles drsquoattributs A et B

[VR08] Les reacutesultats tregraves reacutecents preacutesenteacutes par Kroumltzsch et al sur la description en de la seacutemantiqueassocieacutee agrave des regravegles constituent une base solide pour appuyer une telle eacutevolution [MK08]

Il est important de noter que la meacutethode deacutecrite nrsquoa pas la preacutetention de remplacer les meacutethodesstatistiques classiques drsquoanalyse de donneacutees En revanche nous pensons et lrsquoexpeacuterimentation preacutesenteacuteeva dans ce sens que cette meacutethode peut ecirctre utiliseacutee de faccedilon compleacutementaire en deuxiegraveme approchepour venir enrichir des reacutesultats initiaux et orienter de nouvelles investigations cliniques ou biologiques

Des expeacuterimentations suppleacutementaires non deacutecrites dans le cadre de cette section nous encouragentdans cette direction puisqursquoelles permettent drsquoutiliser les annotations des variants des gegravenes des reacuteseauxmeacutetaboliques inteacutegreacutees agrave la pour mettre en eacutevidence des reacutegulariteacutes entre un pheacutenotype intervenantdans une reacuteaction pharmacogeacutenomique et la reacutegion particuliegravere de certains gegravenes (voir regravegle 5) ou encoredes reacutegulariteacutes entre un groupe de pheacutenotypes et des variations geacutenomiques localiseacutees sur des gegravenesimpliqueacutes dans une voie meacutetabolique particuliegravere (voir regravegle 6) Les deux exemples de regravegles preacutesenteacutesci-apregraves obtenus par illustrent ce genre drsquoassociations

Regravegle 5isVariantIn_o_interacts_with Per__-inf-008_ =gt isDnaVariantIn intron

isVariantIn_o_interacts_with_o_interacts_with ALOX5

isVariantIn_o_interacts_with_o_interacts_with CYSLTR1

142 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

Regravegle 6isVariantIn_o_interacts_with exacerbation =gt isVariantIn_o_interacts_with arachidonic_acid_metabolism

isVariantIn_o_interacts_with_o_interacts_with LTC4S

isVariantIn_o_interacts_with_o_interacts_with eicosanoid_pathway

isVariantIn_o_interacts_with_o_interacts_with LTA4H

Lrsquo permet ici lrsquoacquisition et lrsquoinsertion de connaissances implicites et nouvelles dans une rel-ative agrave la variabiliteacute de reacuteponses au traitement par montelukast Ces connaissances sont acquises agrave partirdes reacutesultats drsquoune investigation particuliegravere et sont deacutefinies en tant que telle dans la Une prolonga-tion inteacuteressante de lrsquoutilisation de ce genre de connaissances serait leur interpreacutetation et leur validationexpeacuterimentale par des biologistes Ceci pourraient sur cette base geacuteneacuteraliser les connaissances mises eneacutevidence par sur un panel restreint puis les inseacuterer dans la avant de les soumettre agrave PharmGKB

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 143

25 Travaux similaires

Pour comparer agrave lrsquoexistant la meacutethode drsquo que nous proposons il est neacutecessaire de consideacutererseacuteparement lrsquoeacutetape preacuteliminaire de peuplement de la et la phase drsquoextraction de connaissances Lapremiegravere eacutetape de peuplement de lrsquoontologie (0) est abordeacutee dans le Chapitre 2 section 32 nous nrsquoyrevenons pas ici Par contre nous distinguerons deux grands groupes de travaux qui manipulent conjoin-tement meacutethodes de fouille de donneacutees et repreacutesentation des connaissances

ndash Le premier regroupe des travaux sur lrsquoacquisition de connaissances formelles agrave partir de donneacuteesde textes ou de pages Web Ils ne supposent pas lrsquoexistence de connaissances deacutejagrave formaliseacuteesagrave lrsquoorigine du travail Ces travaux megravenent le processus drsquo agrave son terme ougrave les reacutesultats de lafouille sont interpreacuteteacutes et formaliseacutes dans des langages de repreacutesentation des connaissances

ndash Le second regroupe des travaux qui tirent parti de connaissances deacutejagrave formaliseacutees pour la miseen oeuvre de meacutethodes drsquoextraction de connaissances Lrsquoobjectif de ce second type de travaux estgeacuteneacuteralement lrsquoenrichissement des connaissances initialement disponibles

251 Lrsquoacquisition de connaissances

Lrsquoacquisition de connaissances agrave partir de donneacutees de textes ou de pages Web est eacutegalement appeleacuteeapprentissage drsquoontologie (traduction de ontology learning en anglais) [BCM05] Les sources de donneacuteeset les meacutethodes de fouilles utiliseacutees dans ce cadre sont diverses Un exemple simple est lrsquoutilisation quefont Clerkin et al [CCH01] de lrsquoalgorithme COBWEB pour organiser des donneacutees selon une hieacuterarchiede clusters qui est ensuite transformeacutee en une hieacuterarchie de concepts (ou classes) sous forme drsquoun grapheRDF reprenant la structure hieacuterarchique des clusters La Figure 48 repreacutesente lrsquoexemple de geacuteneacuterationdrsquoontologie avec COBWEB donneacutee par Clerkin et al

F 48 ndash Un jeu de donneacutees exemple concernant la morphologie de cellules soumis agrave COBWEB lahieacuterarchie de cluster produite et la hieacuterarchie de concepts (ou classes) RDF deacuteduite [CCH01]

Si le nombre et le volume des bases de donneacutees ont consideacuterablement augmenteacute ces derniegraveres anneacuteesdans beaucoup de domaines un volume consideacuterable de connaissances nrsquoest encore disponible que sousforme de texte en langage naturel et notamment drsquoarticles de revues speacutecialiseacutees En conseacutequence denombreux travaux ce sont inteacuteresseacutes agrave extraire et formaliser des connaissances contenues dans des corpus

144 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

F 49 ndash Un treillis de concepts notation reacuteduite produit agrave partir de textes (agrave gauche) et la hieacuterarchie deconcepts en laquelle il est transformeacute (agrave droite) suivant la meacutethode proposeacutee dans [CHS05]

de textes (voir [BCM05] pour une vue drsquoensemble) Dans cette optique Cimiano et al deacuterivent agrave partir detextes une hieacuterarchie de concepts [CHS05] Pour cela ils construisent dans un premier temps un contexteformel agrave lrsquoaide de meacutethodes de TAL qui leur permettent drsquoextraire des relations entre termes associeacutesdans les textes Dans un deuxiegraveme temps le contexte formel construit est soumis agrave des meacutethodes drsquopour produire un treillis ensuite transformeacute et compacteacute en un ordre partiel speacutecifique qui constitue uneontologie Un exemple de treillis produit et la hieacuterarchie de concepts en laquelle il est transformeacute sontrepreacutesenteacutes Figure 49 La transformation du treillis revient agrave (1) retirer le concept bottom (2) creacuteer unconcept dit ontologique pour chaque concept formel avec comme nom lrsquointension du concept formel et(3) creacuteer un sous-concept relieacute au preacuteceacutedent pour chaque eacuteleacutement preacutesent dans lrsquoextension du conceptformel en question La hieacuterarchie produite est finalement reacuteduite afin de limiter le nombre potentiellementtregraves eacuteleveacute de concepts qui reacutesultent de la transformation drsquoun grand treillis Pour cela les concepts ditontologiques qui ont la mecircme extension en terme de concepts terminaux que leurs sous-concepts (ie

les mecircmes nœuds feuilles dans la hieacuterarchie) sont supprimeacutes Dans lrsquoexemple repreacutesenteacute Figure 49 leconcept rideable serait de cette faccedilon supprimeacute de la hieacuterarchie

Bendaoud et al ont proposeacute plus reacutecemment une meacutethode drsquoacquisition de connaissances agrave partirde textes qui srsquoappuie sur lrsquo Celle ci preacutesente deux avantages principaux par rapport agrave [BCM05] Lepremier est de produire non seulement une hieacuterarchie de concepts mais eacutegalement des instances asso-cieacutees aux concepts Ici le concept bottom est eacutelimineacute et les eacuteleacutements de lrsquoextension drsquoun concept formelservent eacutegalement agrave deacutecrire en les concepts de la hieacuterarchie comme dans [BCM05] En revanche leseacuteleacutements de lrsquointension des concepts formels servent agrave la creacuteation drsquoindividus qui instancient le conceptcorrespondant agrave lrsquoeacuteleacutement deacutecrit en extension La Figure 410 illustre cette transformation drsquoun treillisen une hieacuterarchie de concepts plus instances elle peut ecirctre compareacutee agrave la Figure 49 Dans un sens lafaccedilon de deacutecrire en les concepts formels deacutepend de la faccedilon dont les connaissances contenues dansles textes est codeacutee dans le contexte formel Cependant les correspondances entre drsquoabord lrsquoextensionde concepts formels et la description de concepts en et ensuite entre intension et instances semblentrelativement naturelles Le deuxiegraveme avantage de cette meacutethode consiste en lrsquoenrichissement de la hieacuterar-

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 145

F 410 ndash Un treillis de concepts notation reacuteduite produit agrave partir de textes (agrave gauche) et la hieacuterarchie deconcepts instancieacutee en laquelle il est transformeacute (agrave droite) suivant lrsquoalternative proposeacutee dans [BTN08]

chie de concepts par des rocircles entre les concepts en utilisant une meacutethode formelle appeleacutee lrsquoAnalyse deRelationnelle de Concepts ou Cet enrichissement preacutesente la particulariteacute de prendre en compte lahieacuterarchie des concepts pour la geacuteneacuteralisation de relations extraites des textes

Les connaissances sur la structuration des documents analyseacutes peuvent eacutegalement servir agrave guiderle processus drsquoacquisition de connaissance Crsquoest notamment le cas dans [KAB06] ougrave la connaissancedrsquoexperts sur la structuration des documents HTML est utiliseacutee pour favoriser la construction de clustersde termes homogegravenes agrave partir de pages Web

Cette cateacutegorie de travaux rassembleacutee sous le titre acquisition de connaissances peut ecirctre compareacuteeagrave lrsquoenchaicircnement des eacutetapes (ii) et (iii) de notre meacutethode drsquo Ces travaux permettent la formalisationde connaissances contenues dans des donneacutees des textes ou des pages Web et ce agrave lrsquoaide de meacutethodesde fouille de donneacutees et eacuteventuellement de repreacutesentations des connaissances du domaine pour [KAB06BTN08] Dans tous les cas les connaissances acquises par le processus sont enregistreacutees mais ne sontpas consideacutereacutees de sorte agrave pouvoir ecirctre reacuteutiliseacutees dans les opeacuterations drsquoacquisition de connaissancessuivantes Finalement ces meacutethodes considegraverent de faccedilon seacutepareacutee sources de donneacutees (bases de donneacuteestextes pages Web) et repreacutesentation des connaissances du domaine sans prendre en compte lrsquoexistencedes ontologies du domaine existant

252 La manipulation de connaissances pour extraire de nouvelles connaissances

Utilisation des meacutecanismes de raisonnement comme meacutethode drsquoapprentissage Un moyen originalde se servir de connaissances formaliseacutees pour lrsquoextraction de connaissances potentiellement utiles estlrsquoutilisation de meacutecanismes de raisonnement comme meacutethode drsquoapprentissage sur une plutocirct quedrsquoalgorithmes de fouille sur des bases de donneacutees Ce sont alors les concepts rocircles instances et axiomesde la qui sont directement manipuleacutes par ces meacutecanismes de raisonnement En pratique ceux-ci sontappliqueacutes agrave des en pour formaliser explicitement des connaissances implicites Le plus souventils mettent en lumiegravere des eacuteleacutements de connaissance eacutevidents pour lrsquoanalyste (humain) et sont rarementefficaces pour la deacutecouverte de connaissances dans le cadre de lrsquoECBD Un travail qui fait exception estla classification des proteacuteines phosphatases proposeacutee par Wostencroft et al [WLT+06] Les auteurs sebasent sur une ontologie en qui deacutecrit la composition en domaines des proteacuteines de la famille des phos-

146 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

F 411 ndash Les diffeacuterences drsquoorganisation des domaines dans une sous-famille de proteacuteines phosphatases les reacutecepteurs tyrosines phosphatases Ces organisations sont repreacutesenteacutees dans lrsquoontologie des phos-phatases et utiliseacutees pour la classification automatique de nouvelles proteacuteines [WLT+06]

phatases (voir Figure 411) Une proteacuteine y est repreacutesenteacutee comme un individu instance de lrsquoontologieauquel est associeacute la description de sa composition en domaines proteacuteiques Ils appliquent alors sur la associeacutee un meacutecanisme de raisonnement classique de classification drsquoinstances La comparaison drsquouneproteacuteine (donc drsquoun individu) aux descriptions des familles des phosphatases (ie des concepts deacutefinis)permet ainsi sa classification automatique dans la famille agrave laquelle elle appartient La classification reacute-sultante a permis drsquoaffiner la classification des phosphatases deacutefinie par les experts et de corriger pourcertaines proteacuteines lrsquoannotation qui indique leur appartenance agrave une famille ou agrave une autre

Moyennant quelques adaptations il est eacutegalement possible de transformer (ou coder) certains eacuteleacute-ments de connaissance afin que ceux ci puissent-ecirctre consideacutereacutes par des meacutethodes de fouille de donneacutees

Fouille de bases de cas Les eacuteleacutements de connaissances fouilleacutees par le systegraveme CA preacutesenteacutedans [dBL+07] sont des cas ie des couples (problegraveme solution) regroupeacutes dans une base de cas Lafouille de la base de cas par lrsquoextraction des motifs fermeacutes freacutequents a pour objectif la deacutecouverte deconnaissances drsquoadaptation ie un eacuteleacutement de connaissance qui deacutecrit comment eacutevolue la solution entredeux couples (problegraveme solution) quand le problegraveme eacutevolue Les reacutesultats extraits prennent la formede motifs fermeacutes freacutequents dont chaque eacuteleacutement deacutecrit lrsquoadaptation drsquoune proprieacuteteacute et dont lrsquoensemblepermet de deacuteduire des connaissances drsquoadaptation potentiellement utiles [dBL+07] propose dans lecontexte de bases de cas de traitement du cancer du sein un exemple de connaissance drsquoadaptationextraite et son interpreacutetation

Clustering conceptuel Les eacuteleacutements de connaissance peuvent eacutegalement ecirctre les individus drsquoune en comme dans [FdE08] pour lequel les auteurs proposent une meacutethode de clustering hieacuterarchique baseacuteesur une distance seacutemantique mesureacutee entre individus En accord avec cette distance deux individus quiappartiennent agrave un grand nombre de concepts communs dans la sont proches et inversement deuxindividus qui ne peuvent pas appartenir agrave des concepts communs sont eacuteloigneacutes (voir [FdE08] pour ladeacutefinition formelle de la distance) Le calcul de la distance neacutecessite lrsquointervention de meacutecanismes deraisonnement pour deacuteterminer lrsquoinstanciation des concepts (instance checking) Une meacutethode de cluster-ing inspireacutee des K-plus proches voisins utilise ensuite les distances entre individus pour construire unehieacuterarchie de clusters Les clusters construits peuvent ecirctre annoteacutes avec une description en qui carac-teacuterise au mieux les individus preacutesents dans le cluster en question tout en discriminant les individus desclusters de mecircme niveau dans la hieacuterarchie Cette description correspond au subsumeur commun le plus

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 147

speacutecifique de lrsquoensemble des concepts les plus speacutecifiques de chaque individu du cluster La descriptionreacutesultante est une approximation et demeure deacutependante de la description des concepts et de la reacutepar-tition des individus dans la (ie de la conceptualisation) Lrsquoajout de nouveaux individus dans la induit des modifications dans la structure hieacuterarchique en terme soit de nouveau cluster soit de nouvelledescription drsquoun cluster existant Cependant la modification de la TBox initiale agrave la vue de clusters et deleur description en associeacutee nrsquoest pas consideacutereacutee

Ces deux derniegraveres approches manipulent des connaissances repreacutesenteacutees formellement dans une mais ne reacuteutilisent pas (ou partiellement) les reacutesultats de fouille pour raffiner ou enrichir la analyseacutee

En revanche les travaux theacuteoriques de Rudolph et al [Rud06] et de Baader et al [BGSS07] (preacutesen-teacutes dans la section 22) et notre meacutethode drsquo (section 23) autorisent lrsquoenrichissement de la initiale

R Le travail de Ferreacute et al est agrave noter eacutegalement Ils utilisent aussi et conjointementmais dans un objectif inverse au nocirctre [FRS05] Lrsquoobjectif nrsquoest pas drsquoenrichir une ontologie (ou une )agrave partir de reacutesultats drsquo mais drsquoenrichir un treillis de concepts agrave lrsquoaide de la seacutemantique associeacutee aux

148 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

3 Discussion

Cette section discute dans un premier temps la meacutethode drsquoAnalyse des Assertions de Rocircles ()preacutesenteacutee dans la section 23 puis dans un second temps la proposition plus geacuteneacuterale drsquoExtraction deConnaissances agrave partir de Base de Connaissances ()

Lrsquo srsquoappuie sur un meacutecanisme qui transforme des connaissances repreacutesenteacutees en sous la formedrsquoun contexte formel manipulable par les meacutethodes drsquo Cette transformation permet de repreacutesen-ter dans le contexte formel produit (1) des assertions de rocircles qui relient les individus dans un graphedrsquoassertions (2) les assertions de concepts repreacutesenteacutees par les attributs du contexte Ainsi cette repreacutesen-tation des connaissances est une repreacutesentation partielle du contenu de la Par exemple les relations desubsomption entre concepts et entre rocircles ne sont pas repreacutesenteacutees dans le contexte Il peut pourtant ap-paraicirctre inteacuteressant de les consideacuterer dans lrsquoideacutee de retranscrire de faccedilon plus complegravete les connaissancescontenues dans la

Une meacutethode alternative agrave lrsquoexploration des graphes drsquoassertions pour retranscrire de faccedilon systeacutema-tique les connaissances drsquoune dans un format manipulable par des meacutethodes de fouille pourrait ecirctrelrsquoutilisation de la meacutethode drsquoAnalyse Relationnelle de Concept () [HHNV07] Cette meacutethode peutecirctre utiliseacutee pour consideacuterer lrsquoensemble des connaissances drsquoune agrave condition de retranscrire celles-cidans plusieurs contextes formels (par exemple un contexte pour les assertions de concepts un autre pourles assertions de rocircles encore un autre pour la hieacuterarchie de concepts etc) Lrsquo permet ensuite surla base des reacutegulariteacutes preacutesentes dans les contextes de geacuteneacuterer de nouvelles descriptions de concepts en qui prennent en consideacuteration les relations entre les eacuteleacutements impliqueacutes dans diffeacuterents contextes Lacontrainte importante associeacutee agrave lrsquoutilisation de lrsquo est la deacutefinition manuelle des contextes de leursrelations et enfin lrsquointerpreacutetation des nombreux concepts produits automatiquement En comparaisonavec lrsquo notre meacutethode drsquo propose un compromis qui permet une retranscription partielle des con-naissances de la et la production drsquoun contexte de taille raisonnable Une des hypothegraveses de deacutepartde lrsquo est notamment que les assertions de rocircles directes et indirectes peuvent deacutecrire des relationsplus ou moins freacutequentes entre diffeacuterentes cateacutegories drsquoindividus et par ce biais sont des connaissancessusceptibles drsquoecirctre porteuses de connaissances nouvelles

Un moyen drsquoeacutevaluer concregravetement lrsquoapport de lrsquo serait de comparer les reacutesultats drsquoune recherchedes RMNR sur un jeu de donneacutees brut par exemple les reacutesultats de lrsquoinvestigation clinique du mon-telukast utiliseacutee pour lrsquoexpeacuterimentation preacutesenteacutee section 24 avec les regravegles et reacutesultats produits parlrsquo Cette expeacuterimentation pourrait permettre de justifier lrsquoeffort que neacutecessite la construction de lrsquoon-tologie et la deacutefinition des mappings donneacutees-assertions pour la deacutecouverte de connaissances

Une utilisation inteacuteressante de lrsquo pourrait consister agrave positionner le concept initial C0 agrave la racine dela TBox (C0 equiv ⊤) puis agrave recueillir la totaliteacute des nouveaux concepts deacuteriveacutes des RMNR dans une nou-velle TBox vierge La comparaison entre la hieacuterarchie de concepts obtenue apregraves classification de cettenouvelle TBox et la hieacuterarchie de concepts de la initiale permettrait drsquoeacutevaluer en un sens la capaciteacutedes assertions de rocircles drsquoune agrave refleacuteter la repreacutesentation des connaissances eacutetablies et agrave en proposer denouvelles Dans une ideacutee proche les meacutethodes drsquoeacutevaluation drsquoontologies pourraient permettre de mesurerla progression entre la initiale et la finale apregraves [GCCL06]

Lrsquo (deacutetailleacutee et expeacuterimenteacutee sections 23 et 24) se veut une illustration de la proposition plusgeacuteneacuterale drsquo En effet lrsquo peut ecirctre mise en œuvre agrave lrsquoaide de diffeacuterentes meacutethodes Par exempledes meacutethodes de fouille de donneacutees alternatives agrave la recherche des RMNR pourraient ecirctre utiliseacuteesEn fonction de la meacutethode choisie il serait alors indispensable drsquoadapter les eacutetapes de preacuteparation etdrsquointerpreacutetation des reacutesultats de fouille qui deacutependent respectivement des formats drsquoentreacutee et du typedrsquouniteacutes drsquoinformation produit par la fouille Des meacutethodes de fouille alternatives qursquoil semble pertinent

3 Discussion 149

drsquoexpeacuterimenter sont par exemple la construction drsquoarbres de deacutecision ou le clustering conceptuel Unsystegraveme de repreacutesentation des connaissances diffeacuterent des pourrait eacutegalement ecirctre envisageacute

Suivant lrsquoexemple de lrsquo le processus drsquoextraction de connaissances reste centreacute sur un algorithmede fouille de donneacutees qui prend en entreacutee des connaissances preacutealablement preacutepareacutees en un format com-patible et produit en sortie des uniteacutes drsquoinformation extraites agrave interpreacuteter formaliser et inseacuterer dans la Malgreacute diffeacuterents essais cela reste un deacutefi de consideacuterer des meacutethodes drsquoapprentissage capables demanipuler les axiomes drsquoune ie capables de tenir compte de la seacutemantique qui leur est associeacutee etde leur reacutegulariteacutes [Mug91 Nap92 Ser07]

150 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

Conclusion et perspectives

Lrsquoensemble de la thegravese preacutesenteacutee dans ce manuscrit conforte la conviction selon laquelle lrsquoExtractionde Connaissances agrave partir de Bases de Donneacutees () doit ecirctre guideacutee agrave partir des connaissances dudomaine Dans ce contexte nous avons proposeacute et mis en œuvre un ensemble coheacuterent de meacutethodes afinde formaliser les connaissances drsquoun domaine inteacutegrer des donneacutees heacuteteacuterogegravenes relatives agrave ce domaineau sein drsquoune Base de Connaissances () et enfin analyser le contenu de cette pour en extraire denouvelles connaissances

La premiegravere contribution deacutecrit une meacutethode de construction drsquoontologie qui favorise la reacuteutilisationdrsquoontologies deacutejagrave existantes en les inteacutegrant au processus de construction De plus cette meacutethode inclutlrsquoeacutevaluation de la capaciteacute de lrsquoontologie construite agrave repreacutesenter les connaissances du domaine

Ensuite nous deacutecrivons une approche drsquointeacutegration de donneacutees qui srsquoappuie sur une formalisationtheacuteorique de la mise en correspondance de donneacutees et de connaissances La mise en œuvre de cetteapproche conduit agrave associer une seacutemantique preacutealablement deacutefinie agrave des donneacutees heacuteteacuterogegravenes afin de lesinteacutegrer au sein drsquoune

La reacutesultante constitue lrsquoeacuteleacutement central du processus drsquoExtraction de Connaissances agrave partir

drsquoune Base de Connaissances () Lrsquoideacutee originale ici est drsquoexplorer les reacutegulariteacutes drsquoune par oppo-sition agrave la recherche de reacutegulariteacutes agrave partir de bases de donneacutees Nous rapportons des reacutesultats prometteurssur la deacutefinition et la mise en œuvre drsquoune meacutethode drsquo particuliegravere appeleacutee lrsquoAnalyse drsquoAssertionsde Rocircles () Cette meacutethode srsquoattache agrave explorer les reacutegulariteacutes dans les assertions drsquoune Les uniteacutesde connaissances produites sont exprimeacutees suivant le mecircme formalisme que celui de la ce qui permetensuite leur manipulation par des meacutecanismes de raisonnement en vue de leur inteacutegration coheacuterente dansla Cette derniegravere contribution propose ainsi un moyen de mettre en œuvre un processus drsquoExtractionde Connaissance guideacutee par les Connaissances du Domaine

Ces reacutesultats illustrent que lrsquo peut ecirctre employeacutee avec succegraves pour la deacutecouverte de connaissancesen pharmacogeacutenomique De plus le cadre geacuteneacuteral de lrsquo peut ecirctre reacuteutiliseacute pour deacutecrire de nouvellesde meacutethodes diffeacuterentes de la nocirctre

Par ailleurs lrsquoensemble coheacuterent des meacutethodes deacutecrites dans la thegravese a eacuteteacute appliqueacute au domainede la pharmacogeacutenomique Nous avons ainsi construit deux ontologies de domaine La premiegravere SNP-Ontology formalise les connaissances sur les variations geacutenomiques La seconde SO-Pharm formaliseles connaissances du domaine de la pharmacogeacutenomique SNP-Ontology et SO-Pharm ont reccedilu un ac-cueil favorable par la communauteacute scientifique inteacuteresseacutee par la mise agrave disposition et le partage desbio-ontologies

Nous avons ensuite employeacute ces ontologies pour inteacutegrer selon lrsquoapproche drsquointeacutegration proposeacuteedes donneacutees pharmacogeacutenomiques issues de bases de donneacutees heacuteteacuterogegravenes Le reacutesultat de cette inteacutegra-tions est le peuplement de Bases de Connaissances relatives agrave ce domaine particuliegraverement concerneacute parle problegraveme de lrsquointeacutegration de donneacutees Dans le cas de donneacutees relatives au geacutenotype notre systegravemeSNP-Converter permet de reacuteconcilier les diffeacuterentes repreacutesentations des variations geacutenomiques Dans lecas drsquoinvestigations cliniques notre systegraveme iSO-Pharm permet de cumuler des donneacutees relatives augeacutenotype au pheacutenotype et au meacutedicament provenant drsquoinvestigations reacuteelles

151

152 Conclusion et perspectives

Enfin nous avons expeacuterimenteacute notre meacutethode drsquo lrsquo dans le contexte drsquoune instancieacutee pariSO-Pharm agrave partir drsquoune investigation clinique particuliegravere et de donneacutees compleacutementaires provenantde bases de donneacutees publiques Nos reacutesultats confortent et enrichissent les reacutesultats publieacutes sur cet essaiqui ont eacuteteacute obtenus gracircce aux meacutethodes statistiques classiques pour ce genre drsquoeacutetudes De plus lrsquointer-preacutetation des reacutesultats de la fouille a permis drsquoinseacuterer de nouvelles connaissances dans la initiale

Les perspectives susciteacutees par ce travail sont nombreuses En premier lieu il conviendrait de deacutefinirune proceacutedure drsquoeacutevaluation de la pertinence et de la nouveauteacute des uniteacutes de connaissances deacutecou-vertes par lrsquoapproche drsquo proposeacutee dans cette thegravese Une telle proceacutedure pourrait srsquoappuyer sur desmesures comparant les uniteacutes de connaissances au contenu preacutealable de la pour aider lrsquoexpert dansla tacircche de validation des reacutesultats de fouille Une deuxiegraveme perspective plus vaste porte sur lrsquoeacutelar-gissement du domaine drsquoapplication consideacutereacute ie la pharmacogeacutenomique agrave lrsquoeacutetude plus globale desinteractions gegravenes-environnement En effet les traitements meacutedicamenteux et les facteurs geacuteneacutetiquesne sont pas les seuls eacuteleacutements ayant un impact sur les traits du pheacutenotype Par exemple lrsquoeacutetat nutri-tionnel les micro-organismes intestinaux les maladies veacutecues lrsquoacircge drsquoun individu ont des impacts surson pheacutenotype et donc sur sa reacuteponse agrave un meacutedicament Dans cette direction il est possible drsquoeacutetendreles connaissances repreacutesenteacutees dans SO-Pharm pour consideacuterer les influences possibles de nouveauxfacteurs Il serait alors possible drsquoenvisager de peupler la version eacutetendue de SO-Pharm agrave partir des reacute-sultats drsquoessais ou de cohortes eacutetudiant de faccedilon plus geacuteneacuterales ces interactions gegravenes-environnement[Mau06 CLC+06 ORT08 RLSN08] La base de connaissances reacutesultante pourrait ecirctre utiliseacutee suivantlrsquoapproche drsquo proposeacutee dans cette thegravese avec comme objectif drsquoanalyser simultaneacutement les influ-ences quantitatives et qualitatives des divers facteurs sur le pheacutenotype Suivant cette ideacutee il serait in-teacuteressant drsquoutiliser des meacutethodes de fouilles de donneacutees alternatives agrave celles expeacuterimenteacutees dans le cadrede lrsquo Par exemple lrsquoextraction de motifs rares la classification hieacuterarchique la fouille de donneacuteestemporelles sont des meacutethodes qui paraissent adapteacutees aux particulariteacutes du domaine Lrsquoutilisation desconnaissances agrave priori pour la deacutecouverte de connaissances sur les interactions gegravenes-environnement re-pose eacutegalement sur la formalisation de la notion de pheacutenotype de ces diffeacuterents niveaux de granulariteacutede ces variations inter-individuelles et temporelles Une troisiegraveme perspective porte sur lrsquoappropriationpar les experts des outils de gestion des connaissances Les nombreux travaux exploitant les technologiesdu Web seacutemantiques laissent preacutesager lrsquoeacutemergence de systegravemes permettant de compleacuteter et drsquointerrogerune via un environnement de visualisation intuitif qui exploite par exemple la structure en grapheinheacuterente agrave une impleacutementeacutee en OWL ou encore les capaciteacutes drsquointerrogation du langage SPARQL[RMKM08 BdLM08] Lrsquointeacutegration de ces avanceacutees au niveau drsquoune interface utilisateur permettrait agravelrsquoexpert drsquoecirctre plus autonome tout au long du processus drsquo Enfin une quatriegraveme perspective est lrsquoap-plication de lrsquoapproche drsquo agrave des domaines diffeacuterents de celui de la pharmacogeacutenomique De tellesexpeacuterimentations permettraient drsquoeacutevaluer agrave quel point notre approche est geacuteneacuterique

Au terme de ce travail il apparaicirct que les contributions apporteacutees tant au domaine de lrsquoinforma-tique qursquoagrave celui de la pharmacogeacutenomique sont fructueuses et prometteuses Le caractegravere particuliegravere-ment interdisciplinaire de cette thegravese nous a conduit au deacuteveloppement de systegravemes opeacuterationnels pourla pharmacogeacutenomique agrave partir de technologies du Web seacutemantique Cependant le rocircle de la pharma-cogeacutenomique dans ce travail de thegravese ne se limite pas agrave un simple domaine drsquoapplication Par la com-plexiteacute de ses probleacutematiques ce domaine a orienteacute et motiveacute les approches informatiques proposeacutees quiresteront applicables agrave drsquoautres domaines Nous espeacuterons ainsi avoir contribueacute agrave la concreacutetisation du Webseacutemantique en deacutepassant le niveau du Web de donneacutees (en anglais Web of data)

Annexe A

Algorithme de recherche des RMN et desRMNR

153

154 Annexe A Algorithme de recherche des RMN et des RMNR

Description

Cet algorithme permet la recherche des Regravegles Minimales Non-redondantes (RMN) et des RegraveglesMinimales Non-Redondantes Reacuteduites (RMNR) [Sza06] Pour cela il prend en entreacutee trois paramegravetres (1) les motifs fermeacutes freacutequents (MFF) (2) les geacuteneacuterateurs freacutequents (GF) et (3) les valeurs du supportdes motifs Pour deacutecrire cet algorithme nous utilisons deux fonctions

getProperSuperSet prend deux paramegravetres un ensemble S de motifs et un motif p La fonctionretourne le super motif direct de p dans S Cette fonction peut tirer parti drsquoune structuration desmotifs sous forme drsquoun treillis

getSupportOf prend en paramegravetre un motif quelconque et renvoie son support Cette fonction peuteacutegalement tirer parti de lrsquoorganisation en treillis des motifs

R Lrsquoalgorithme peut ecirctre facilement adapteacute pour isoler les ensembles de regravegles qui corre-spondent agrave la Base Geacuteneacuterique (BG) la Base Informative (BI) et la Base Informative Reacuteduite (BIR)[Sza06]

Algorithme

Algorithme A1 Recherche des RMN et des RMNR

Entreacutee MFF GF valeurs de support des motifsSortie ensemble des RMN et des RMNR

1 Pour chaque geacuteneacuterateur g

2 CG larr getProperSuperSet(MFFg) retourne le super motif de g parmi les MFF3 4 Pour chaque eacutelement c de CG

5 premisselarr g

6 conclusionlarr (cg)7 supportPremisselarr gsupport8 supportConclusionlarr getSupportOf(conclusion)9 10 reglelarr (premisserarr conclusion)11 12 si conf(regle) ge min_con f conf(regle)=supp(csupp(g))13 Lrsquoeacutetape suivante est optionnelle Elle doit ecirctre exeacutecuteacutee14 si lrsquoon souhaite extraire les RMNR au lieu des RMN15 si conf(regle) 1016 CG larr CGgetProperSuperSet(MFFc) le supermotif de c est eacutelimineacute de CG17 fin si18 Rlarr R cup regle19 fin si20 Pour chaque22 Pour chaque23 Retourner R

Annexe B

Constructeurs en

155

156 Annexe B Constructeurs en

Nom du syntaxe syntaxe seacutemantique associeacuteeconstructeur en OWLConcept C C (URI) CI sube ∆I

Concept universel ⊤ owlThing ⊤I = ∆I

Bottom perp owlNothing perpI= empty

Intersection C ⊓ D intersectionOf(C D) (C ⊓ D)I = CI cap DI

Union C ⊔ D unionOf(C D) (C ⊔ D)I = CI cup DI

Neacutegation notC complementOf(C) (notC)I = ∆I CI

Enumeacuteration a b oneOf(a b ) a b I = aI bI

Quantificateur existRC restriction(R (existRC)I = x|existy (x y) isin RI and y isin CI

existentiel someValuesFrom(C))Quantificateur forallRC restriction(R (forallRC)I = x|forally (x y) isin RI rarr y isin CI

universel allValuesFrom(C))Restriction agrave ni Ra restriction(R (ni Ra)I = x|(x aI) isin RI

une valeur ou Ra hasValue(a))Restrictions = n R restriction(R (= n R)I = x| cardy|(x y) isin RI = n

non qualifieacutees cardinality(C))de cardinaliteacute gt n R restriction(R (gt n R)I = x| cardy|(x y) isin RI gt n

minCardinality(C))6 n R restriction(R (6 n R)I = x| cardy|(x y) isin RI 6 n

maxCardinality(C))Quantificateur existST restriction(S (existST)I = x|existy (x y) isin SI and y isin TI

existentiel someValuesFrom(T ))Quantificateur forallST restriction(S (forallST)I = x|forally (x y) isin SI rarr y isin TI

universel allValuesFrom(T ))Restriction agrave ni Sa restriction(S (ni Sa)I = x|(x aD) isin SI

une valeur ou Sa hasValue(a))Restriction = n S restriction(S (= n S)I = x| cardy|(x y) isin SI = n

non qualifieacutee cardinality(T ))de cardinaliteacute gt n S restriction(S (gt n S)I = x| cardy|(x y) isin SI gt n

minCardinality(T ))6 n S restriction(S (6 n S)I = x| cardy|(x y) isin SI 6 n

maxCardinality(T ))

T B1 ndash Constructeurs de concepts en Logique de Descriptions et leurs correspondances en OWLC et D sont des concepts (respectivement C et D sont des classes) T est un concept particulier qui cor-respond agrave un type de donneacutees (un Datatype en OWL) n est un nombre a et b sont des individus R unrocircle (une proprieacuteteacute drsquoobjet ou ObjectProperty en OWL) et S un rocircle dont le co-domaine correspond agrave unconcept de mecircme type que T (une proprieacuteteacute de donneacutees ou DatatypeProperty en OWL)

157

nom du constructeur syntaxe en syntaxe abstraite OWL seacutemantique associeacuteeRocircle inverse Rminus inverseOf(R) (Rminus)I = (x y) | (y x) isin RIComposition de R Q ndash (R Q)I = (x z) | existy(x y) isin RI

rocircle and(y z) isin QI

T B2 ndash Constructeurs de rocircles en Logique de Descriptions et leurs correspondances en OWL R etQ sont des rocircles (des proprieacuteteacutes drsquoobjet ou ObjectProperty en OWL)

158 Annexe B Constructeurs en

Annexe C

Exemple de code OWL

159

160 Annexe C Exemple de code OWL

F C1 ndash Code OWL qui correspond agrave la repreacutesenteacutee dans le Tableau 24 Ce code est enregistreacute dansle fichier ldquoexemple_de_bcowlrdquo

Annexe D

Modegravele conceptuel de SO-Pharm

161

162 Annexe D Modegravele conceptuel de SO-Pharm

F D1 ndash Diagramme de classes UML donnant une vue geacuteneacuterale mais partielle de la conceptualisationde SO-Pharm

Annexe E

Captures drsquoeacutecrans de SNP-Converter

163

164 Annexe E Captures drsquoeacutecrans de SNP-Converter

F E1 ndash Capture drsquoeacutecran de SNP-Converter Lrsquoonglet preacutesenteacute srsquointitule Data integration Il propose deseacutelectionner une liste de sources de donneacutees et une portion du geacutenome un exon un intron un gegravene entierou un espace situeacute entre deux nucleacuteotides Lrsquoexeacutecution de la fonction drsquointeacutegration de donneacutees de SNP-Converter par le bouton Run permet lrsquoinstanciation drsquoune Base de Connaissances SNP-KB qui permetdrsquoeacutevaluer le recouvrement des donneacutees contenues dans les diffeacuterentes sources et repreacutesenteacutees dans lecadre intituleacute Database overlapp Par exemple le premier variant de la liste est initialement preacutesent dansles 4 sources de donneacutees seacutelectionneacutees le second est preacutesent uniquement dans PharmGKB le troisiegravemeest dans HGVBase et PharmGKB

165

F E2 ndash Capture drsquoeacutecran de SNP-Converter Lrsquoonglet preacutesenteacute srsquointitule Conversion Il propose de saisirla descritpion drsquoun variant ici Chr6 18251934GgtC et de choisir un type de description diffeacuterent pourdeacutecrire le variant ici la position par rapport agrave lrsquoexon Lrsquoexeacutecution par le biais du bouton Run construitla description du variant donneacutee selon la description demandeacutee TPMT_exon_6 129GgtC Le variantdonneacute en entreacutee peut ecirctre soit un identifiant drsquoune base de donneacutees soit ecirctre deacutecrit suivant la nomenclatureHGVS

F E3 ndash Capture drsquoeacutecran de SNP-Converter Lrsquoonglet est le mecircme que celui preacutesenteacute dans la FigureE2 Cette figure repreacutesente en plus les diffeacuterents type de description suivant lesquelles il est possiblede convertir le variant donneacute nomenclature HGVS du variant positionneacute relativement agrave la seacutequence duchromosome de contigs de lrsquoexon de lrsquointron de la proteacuteine ou encore lrsquoidentifiant du variant dansdbSNP

166 Annexe E Captures drsquoeacutecrans de SNP-Converter

Annexe F

Algorithme de parcours drsquoun graphedrsquoassertions

167

168 Annexe F Algorithme de parcours drsquoun graphe drsquoassertions

Description

Lrsquoalgorithme suivant permet lrsquoexploration en profondeur drsquoun graphe drsquoassertions Ga(V E) avec ndash une profondeur maximale pmax la longueur maximale drsquoun chemin est limiteacutee par pmax dont la

valeur est preacuteciseacutee par lrsquoanalyste en deacutebut de processusndash lrsquointerdiction de faire des boucles lrsquoalgorithme interdit agrave un mecircme chemin de passer deux fois

par le mecircme nœudndash lrsquointerdiction de revenir en arriegravere apregraves avoir emprunteacute un arc dans un sens lrsquoalgorithme interdit

drsquoemprunter lors de lrsquoeacutetape suivante un arc avec le mecircme label en sens inverseCet algorithme correspond agrave une exploration iteacuterative en profondeur limiteacutee notamment par les trois

critegraveres eacutenumeacutereacutes ci-dessus Pour plus de lisibiliteacute nous articulons notre algorithme en trois fonctions ndash Exploration-graphe-d-assertionndash Exploration-profondeur-limiteacutee etndash EPL-reacutecursive

La description de ces trois fonctions srsquoinspire des algorithmes drsquoexploration en profondeur limiteacutee pro-poseacutees dans le livre de Russel et Norvig [RN03]

169

Algorithme

Algorithme F1 Parcours en profondeur drsquoun graphe drsquoassertions

1 fonction Exploration-graphe-d-assertion(Ga dmax)retourne un ensemble de chemins

2 ensembleDeChemins ≔ empty initialisation3 pour chaque pro f ondeur 6 dmax

4 si Exploration-profondeur-limiteacutee interruption5 ensembleDeChemins ≔ ensembleDeChemins

cup Exploration-profondeur-limiteacutee(Ga pro f ondeur)6 fin si7 fin pour8 retourner ensembleDeChemins

9 fonction Exploration-profondeur-limiteacutee(Ga pro f ondeur)retourne un ensemble de chemins pour une profondeur donneacutee ou interruption

10 a ≔ Nœud-racine[Ga] a est le nœud racine du graphe Ga11 Vvisiteacute[Ga]≔ Vvisiteacute[Ga] cup b ensemble de nœud visiteacutes11 retourner EPL-reacutecursive(Ga a pro f ondeur) reacutesultat de la fonction EPL-reacutecursive

12 fonction EPL-reacutecursive(Ga x pro f ondeur)retourne un chemin ou interruption

13 Rminus ≔ NIL initialisation drsquoun arc Rminus14 pour chaque b isin Adjacent[x] pour chaque nœud adjacent agrave x15 si b lt Vvisiteacute[Ga] le nœud adjacent nrsquoa pas eacuteteacute visiteacute

et (x b) Rminus lrsquoarc (x b) nrsquoest pas lrsquoinverse du dernier arc emprunteacuteet Profondeur[b] 6 pro f ondeur lrsquoexploration respecte la limite

16 Vvisiteacute[Ga]≔ Vvisiteacute[Ga] cup a17 Rminus ≔ Inverse[(x b)] Rminus est lrsquoarc inverse de celui emprunteacute18 chemin ≔ AjouterNœud(chemin b)19 EPL-reacutecursive(Ga b pro f ondeur)20 retourner chemin

21 sinon22 retourner interruption23 fin si24 fin pour

170 Annexe F Algorithme de parcours drsquoun graphe drsquoassertions

Annexe G

Captures drsquoeacutecrans du plugin de Proteacutegeacute 4pour lrsquoAAR

171

172 Annexe G Captures drsquoeacutecrans du plugin de Proteacutegeacute 4 pour lrsquoAAR

F G1 ndash Capture drsquoeacutecran du plugin de Proteacutegeacute 4 pour lrsquoAnalyse drsquoAssertions de Rocircles

Annexe H

RMNR extraites de la relative agravelrsquoinvestigation clinique du montelukast

173

174 Annexe H RMNR extraites de la relative agrave lrsquoinvestigation clinique du montelukast

Regravegles associant des geacutenotypes

Regravegle H1 (supp=049 conf=1)

presents_clinical_item chr16_16045823T-T =gt presents_clinical_item chr16_16047215T-T

Regravegle H2 (supp=038 conf=96)

presents_clinical_item chr16_16047215C-T =gt presents_clinical_item chr16_16045823C-T

Regravegle H3 (supp=064 conf=095)

presents_clinical_item chr16_15994334C-C =gt presents_clinical_item chr16_15986618G-G

Regravegle H4 (supp=044 conf=090)

presents_clinical_item chr10_45190694C-T

presents_clinical_item chr10_45211490A-G =gt presents_clinical_item chr10_45221095A-G

Regravegle H5 (supp=041 conf=1)

presents_clinical_item chr10_45198914A-A

presents_clinical_item chr10_45221095A-G =gt presents_clinical_item chr10_45211490A-G

Regravegle H6 (supp=039 conf=086)

presents_clinical_item chrX_77367837A-A =gt presents_clinical_item chrX_77346486T-T

presents_clinical_item chrX_77389891G-G

presents_clinical_item chrX_77356650G-G

presents_clinical_item chrX_77334462A-A

Regravegle H7 (supp=031 conf=095)

presents_clinical_item chrX_77389891A-G

presents_clinical_item chrX_77367837A-G =gt presents_clinical_item chrX_77334462A-G

Regravegles associant geacutenotype pheacutenotype et traitement

Regravegle H8 (supp=020 conf=080)

presents_clinical_item chr12_94941021A-A

presents_clinical_item chr16_16143440C-G =gt presents_clinical_item ExaNo

is_enrolled_in_o_is_defined_by_o_is_composed_of

montelukast_treatment

175

Regravegle H9 (supp=021 conf=081)

presents_clinical_item chr10_45211490A-A =gt presents_clinical_item Per__-inf-008_

is_enrolled_in_o_is_defined_by_o_is_composed_of

montelukast_treatment

Regravegle H10 (supp=026 conf=080)

presents_clinical_item chrX_77334462A-G =gt presents_clinical_item chrX_77367837A-G

presents_clinical_item Per__-inf-008_

is_enrolled_in_o_is_defined_by_o_is_composed_of

montelukast_treatment

Regravegle H11 (supp=020 conf=1)

presents_clinical_item chr12_94941021A-G

presents_clinical_item ExaYes =gt presents_clinical_item chr16_16024772C-C

is_enrolled_in_o_is_defined_by_o_is_composed_of

montelukast_treatment

Regravegle H12 (supp=026 conf=075)

presents_clinical_item chr5_179153244A-C

presents_clinical_item ExaNo =gt presents_clinical_item chr16_16024772C-C

is_enrolled_in_o_is_defined_by_o_is_composed_of

montelukast_treatment

176 Annexe H RMNR extraites de la relative agrave lrsquoinvestigation clinique du montelukast

Bibliographie

[AAD+96] S Agarwal R Agrawal P Deshpande A Gupta JF Naughton R Ramakrishnan andS Sarawagi On the computation of multidimensional aggregates In VLDB rsquo96 Pro-

ceedings of the 22th International Conference on Very Large Data Bases pages 506ndash521San Francisco CA USA 1996 Morgan Kaufmann Publishers Inc

[ABB+00] M Ashburner CA Ball JA Blake D Botstein H Butler JM Cherry APDavis K Dolinski SS Dwight JT Eppig MA Harris DP Hill L Issel-TarverA Kasarskis S Lewis JC Matese JE Richardson M Ringwald GM Rubin andG Sherlock Gene Ontology tool for the unification of biology Nat Genet 25(1) 25ndash29 2000

[ABC+99] RB Altman M Bada XJ Chai M Whirl Carrillo RO Chen and NF Abernethy Ri-boWeb An ontology-based system for collaborative molecular biology IEEE Intelligent

Systems 14(5) 68ndash76 1999

[ABG+06] M Ackermann B Berendt Marko Grobelnik A Hotho D Mladenic G SemeraroM Spiliopoulou G Stumme V Svaacutetek and M van Someren editors Semantics Web

and Mining Joint International Workshops EWMF 2005 and KDO 2005 Porto Portu-

gal October 3 and 7 2005 Revised Selected Papers volume 4289 of Lecture Notes in

Computer Science Springer 2006

[ABH95] SS Anand DA Bell and JG Hughes The role of domain knowledge in data miningIn CIKMrsquo95 Proceedings of the fourth international conference on Information and

knowledge management pages 37ndash43 New York NY USA 1995 ACM

[AEB+08] E Antezana M Egantildea B De Baets M Kuiper and V Mironov ONTO-PERL AnAPI for supporting the development and analysis of bio-ontologies Bioinformatics24(6) 885ndash887 2008

[AFC99] DB Aronow F Fangfang and WB Croft Ad hoc classification of radiology reportsJ Am Med Inform Assoc 6(5) 393ndash411 1999

[AIS93] R Agrawal T Imielinski and AN Swami Mining association rules between sets ofitems in large databases In P Buneman and S Jajodia editors SIGMOD Conferencepages 207ndash216 ACM Press 1993

[AK02] RB Altman and T Klein Challenges for biomedical informatics and pharmacoge-nomics Annu Rev Pharmacol Toxicol 42 113ndash33 2002

[AMB06] Y An J Mylopoulos and A Borgida Building semantic mappings from databases toontologies In AAAI AAAI Press 2006

[BA96] RJ Brachman and T Anand The process of knowledge discovery in databases InUM Fayyad G Piatetsky-Shapiro P Smyth and R Uthurusamy editors Advances in

Knowledge Discovery and Data Mining pages 37ndash57 AAAIMIT Press 1996

177

178 Bibliographie

[Bar02] MR Barnes SNP and mutation data on the Web - hidden treasures for uncoveringComp Funct Genomics 3(1) 67ndash74 2002

[Bat08] A Bateman Editorial Nucleic Acids Research 36(Database issue D1) 2008

[Bax06] AD Baxevanis Searching the NCBI databases using Entrez Curr Protoc Bioinfor-

matics 1(3) 2006

[BB06] CA Ball and A Brazma Mged standards work in progress Omics 10 138ndash44 2006

[BBL05] F Baader S Brandt and C Lutz Pushing the EL envelope In Kaelbling and Saffiotti[KS05] pages 364ndash369

[BC08] BioPAX Consortium BioPAX Biological pathways exchange http wwwbiopaxorg(derniegravere consultation 14 juillet 2008)

[BCBF08] A Bairoch S Cohen-Boulakia and C Froidevaux editors Data Integration in the

Life Sciences 5th International Workshop DILS 2008 Evry France June 25-27 2008

Proceedings volume 5109 of Lecture Notes in Computer Science Springer 2008

[BCGP04] J Barrasa O Corcho and A Goacutemez-Peacuterez R2O an extensible and semantically baseddatabase-to-ontology mapping language In Semantic Web and Databases Second Inter-

national Workshop SWDB 2004 Toronto Canada 2004

[BCM+03] F Baader D Calvanese DL McGuinness D Nardi and PF Patel-Schneider editorsThe Description Logic Handbook Theory Implementation and Applications Cam-bridge University Press 2003

[BCM05] P Buitelaar P Cimiano and B Magnini Ontology Learning from Text Methods Eval-

uation and Applications volume 123 of Frontiers in Artificial Intelligence IOS Press2005

[BDdG94] P Benlian F Dairou and JL de Gennes Apports de la geacuteneacutetique moleacuteculaire dans leshypercholesteacuteroleacutemies pures primitives Bulletin de lrsquoAcadeacutemie nationale de meacutedecine178(3) 393ndash404 Mar 1994

[BdLM08] F Badra M drsquoAquin J Lieber and T Meilender EdHibou a customizable interfacefor decision support in a semantic portal In International Semantic Web Conference

poster 2008

[BFG+04] P Buitelaar J Franke M Grobelnik G Paass and V Svatek editors Proceedings of

the Workshop on Knowledge Discovery and Ontologies at ECMLPKDDrsquo04 Pisa ItalySeptember 2004

[BFMD05] J C Barrett B Fry J Maller and M J Daly Haploview analysis and visualization ofLD and haplotype maps Bioinformatics 21(2) 263ndash5 Jan 2005

[BGL08] F Baader S Ghilardi and C Lutz LTL over description logic axioms In Baader et al[BLM08]

[BGSS07] F Baader B Ganter B Sertkaya and U Sattler Completing description logic knowl-edge bases using formal concept analysis In MM Veloso editor IJCAI pages 230ndash2352007

[BGvH+03] P Bouquet F Giunchiglia F van Harmelen L Serafini and H Stuckenschmidt C-owl Contextualizing ontologies In D Fensel KP Sycara and J Mylopoulos editorsInternational Semantic Web Conference volume 2870 of Lecture Notes in Computer

Science pages 164ndash179 Springer 2003

[BHS02] B Berendt A Hotho and G Stumme editors Proceedings of the Workshop on Semantic

Web Mining (SWMrsquo02 at ECMLPKDDrsquo02) Helsinki Finland August 2002

179

[BKvH02] J Broekstra A Kampman and F van Harmelen Sesame A generic architecture forstoring and querying RDF and RDF Schema In I Horrocks and JA Hendler editorsInternational Semantic Web Conference volume 2342 of Lecture Notes in Computer

Science pages 54ndash68 Springer 2002

[BLHL01] T Berners-Lee J Hendler and O Lassila The semantic Web Scientific American284(5) 35ndash43 May 2001

[BLM08] F Baader C Lutz and B Motik editors Proceedings of the 21st International Workshop

on Description Logics (DL2008) Dresden Germany May 13-16 2008 volume 353 ofCEUR Workshop Proceedings CEUR-WSorg 2008

[BPH05] A Bernstein FJ Provost and S Hill Toward intelligent assistance for a data min-ing process An ontology-based approach for cost-sensitive classification IEEE Trans

Knowl Data Eng 17(4) 503ndash518 2005

[Bri06] L Brisson Inteacutegration de connaissances expertes dans un processus de fouille de don-

neacutees pour lrsquoextraction drsquoinformations pertinentes Thegravese en informatique Universiteacute deNice - Sophia Antipolis France Deacutec 2006

[BS85] RJ Brachman and JG Schmolze An overview of the KL-ONE knowledge representa-tion system Cognitive Science 9(2) 171ndash216 1985

[BS04] F Baader and B Sertkaya Applying formal concept analysis to description logics InEklund [Ekl04] pages 261ndash286

[BSc07] B Berendt V Svagravetek and F Zelezny editors Proceedings of the Workshop on Prior

Conceptual Knowledge in Machine Learning and Knowledge Discovery (PriCKLrsquo07) at

ECMLPKDDrsquo07 Warsaw Poland September 2007

[BTN08] R Bendaoud Y Toussaint and A Napoli PACTOLE A methodology and a systemfor semi-automatically enriching an ontology from a collection of texts In PW Eklundand O Haemmerleacute editors ICCS volume 5113 of Lecture Notes in Computer Sciencepages 203ndash216 Springer 2008

[CBBDF07] S Cohen-Boulakia O Biton SB Davidson and C Froidevaux BioGuideSRS query-ing multiple sources with a user-centric perspective Bioinformatics 23(10) 1301ndash13032007

[CCH01] P Clerkin P Cunningham and P Hayes Ontology discovery for the semantic Webusing hierarchical clustering In Bettina Berendt Gerd Stumme Andreas Hotho editorProceedings of the Workshop on Semantic Web Mining (SWMrsquo01 at ECMLPKDDrsquo01)pages 27ndash38 Freiburg Germany September 2001

[CCQF05] J Chabalier C Capponi Y Quentin and G Fichant ISYMOD a knowledge warehousefor the identification assembly and analysis of bacterial integrated systems Bioinformat-

ics 21(7) 1246ndash1256 2005

[CFCH01] WW Chapman M Fizman BE Chapman and PJ Haug A comparison of classifica-tion algorithms to automatically identify chest x-ray reports that support pneumonia J

Biomed Inform 34(1) 4ndash14 2001

[CG05] D Calvanese and G De Giacomo Data integration A logic-based perspective AI

Magazine 26(1) 59ndash70 2005

[CGL+98] D Calvanese G De Giacomo M Lenzerini D Nardi and R Rosati Description logicframework for information integration In KR pages 2ndash13 1998

180 Bibliographie

[CGL+01] D Calvanese G De Giacomo M Lenzerini D Nardi and R Rosati Data integrationin data warehousing Int J Cooperative Inf Syst 10(3) 237ndash271 2001

[CGL+06] D Calvanese G De Giacomo D Lembo M Lenzerini and R Rosati Data complexityof query answering in description logics In P Doherty J Mylopoulos and CA Weltyeditors KR pages 260ndash270 AAAI Press 2006

[CGL+07] D Calvanese G De Giacomo D Lembo M Lenzerini and R Rosati Tractable rea-soning and efficient query answering in description logics The l-lite family J Autom

Reasoning 39(3) 385ndash429 2007

[CGLR04] D Calvanese G De Giacomo M Lenzerini and R Rosati Logical foundations ofpeer-to-peer data integration In A Deutsch editor PODS pages 241ndash251 ACM 2004

[CGLV01] D Calvanese G De Giacomo M Lenzerini and MY Vardi View-based query answer-ing and query containment over semistructured data In G Ghelli and G Grahne editorsDBPL volume 2397 of Lecture Notes in Computer Science pages 40ndash61 Springer 2001

[CHS05] P Cimiano A Hotho and S Staab Learning concept hierarchies from text corporausing formal concept analysis Journal of the Artifical Intelligence Research 24 305ndash339 2005

[CHST04] P Cimiano A Hotho G Stumme and J Tane Conceptual knowledge processing withformal concept analysis and ontologies In Eklund [Ekl04] pages 189ndash207

[CLC+06] TA Clayton JC Lindon O Cloarec H Antti C Charuel G Hanton JP Provost JLLe Net D Baker RJ Walley JR Everett and JK Nicholson Pharmaco-metabonomicphenotyping and personalized drug treatment Nature 440(7087) 1073ndash1077 2006

[CMF+07] G Colombo D Merico G Frisoni M Antoniotti F De Paoli and G Mauri An on-tological modeling approach to neurovascular disease study the NEUROWEB case InProceedings of the International Workshop on Network Tools and Applications in Biol-

ogy (NETTABrsquo07) pages 177ndash186 Pisa Italy 2007

[Con01] The International Human Genome Sequencing Consortium Initial sequencing and anal-ysis of the human genome Nature 409 860ndash921 2001

[Con03] The International HapMap Consortium The International HapMap Project Nature426 789ndash796 2003

[Con05] The International HapMap Consortium A second generation human haplotype map ofover 31 million snps Nature 449(7164) 851ndash861 2005

[CR04] C Carpineto and G Romano Concept Data Analysis Theory and Applications JohnWiley amp Sons Chichester England 2004

[CRS+04] H Cespivova J Rauch V Svatek M Kejkula and M Tomeckova Roles of medical on-tology in association mining CRISP-DM Cycle In P Buitelaar J Franke M GrobelnikG Paass and V Svatek editors Proceedings of the Workshop on Knowledge Discovery

and Ontologies at ECMLPKDDrsquo04 Pisa Italy September 2004

[CSTB+06] A Coulet M Smaiumll-Tabbone P Benlian A Napoli and MD Devignes SNP-Converter An ontology-based solution to reconcile heterogeneous SNP descriptions forpharmacogenomic studies In U Leser F Naumann and BA Eckman editors DILSvolume 4075 of Lecture Notes in Computer Science pages 82ndash93 Springer 2006

[CSTB+08] A Coulet M Smaiumll-Tabbone P Benlian A Napoli and MD Devignes Ontology-guided data preparation for discovering genotype-phenotype relationships BMC Bioin-

formatics 9(Suppl 4) S3 2008

181

[CSTND06] A Coulet M Smaiumll-Tabbone A Napoli and MD Devignes Suggested Ontologyfor Pharmacogenomics (SO-Pharm) Modular construction and preliminary testing InProceedings of the International Workshop on Knowledge Systems in Bioinformatics -

KSinBITrsquo06 volume LNCS 4277 pages 648ndash57 2006

[CSTND08a] A Coulet M Smaiumll-Tabbone A Napoli and MD Devignes Ontology refinementthrough Role Assertion Analysis Example in pharmacogenomics In Baader et al[BLM08]

[CSTND08b] A Coulet M Smaiumll-Tabbone A Napoli and MD Devignes Role Assertion Analysis a proposed method for ontology refinement through assertion learning In Proceedings

of the Fourth Starting AI Researchersrsquo Symposium (STAIRS 2008) pages 47ndash58 IOSPress 2008

[CWT06] TH Cheng CP Wei and VS Tseng Feature selection for medical data mining Com-parisons of expert judgment and automatic approaches In CBMS pages 165ndash170 IEEEComputer Society 2006

[dBL+07] M drsquoAquin F Badra S Lafrogne J Lieber A Napoli and L Szathmary Case basemining for adaptation knowledge acquisition In Proc of the 20th Intl Joint Conf on

Artificial Intelligence (IJCAIrsquo07) pages 750ndash755 Hyderabad India Jan 2007 MorganKaufmann Inc

[DCGR98] R Dieng O Corby A Giboin and M Ribiegravere Methods and tools for corporate knowl-edge management Technical Report RR-3485 INRIA 1998

[dDA00] J den Dunnen and S Antonarakis Mutation nomenclature extensions and suggestions todescribe complex mutations a discussion Hum Mutat 15(1) 7ndash12 2000

[dDP03] J den Dunnen and M Paalman Standardizing mutation nomenclature why bother Hum Mutat 22(3) 181ndash182 2003

[Dev99] KJ Devlin Infosense Turning Information into Knowledge W H Freeman amp CoNew York NY USA 1999

[DGDM91] J Desmeules MP Gascon P Dayer and M Magistris Impact of environmental andgenetic factors on codeine analgesia Eur J Clin Pharmacol 41(1) 23ndash6 1991

[dLN07] M drsquoAquin J Lieber and A Napoli La repreacutesentation de points de vue dans le systegravemedrsquoaide agrave la deacutecision en canceacuterologie KASIMIR In Special issue Vues Points de vue

rocircles et paradigmes proches Du concept agrave son exploitation volume 13 pages 143ndash175Hermes - Lavoisier 2007

[DMS05] F Dau ML Mugnier and G Stumme editors Conceptual Structures Common Se-

mantics for Sharing Knowledge 13th International Conference on Conceptual Struc-

tures ICCS 2005 Kassel Germany July 18-22 2005 Proceedings volume 3596 ofLecture Notes in Computer Science Springer-Verlag Berlin Heidelberg 2005

[DPW08] M Dibernardo R Pottinger and M Wilkinson Semi-automatic Web service compo-sition for the life sciences using the BioMoby semantic Web framework J Biomed

Inform March 2008

[DQ86] R Ducournau and J Quinqueton encore un langage agrave objets agrave base de framesTechnical Report 72 INRIA 1986

[DS08] K Dellschaft and S Staab Strategies for the Evaluation of Ontology Learning IOSPress 2008

182 Bibliographie

[Duc00] R Ducournau Des langages agrave objets aux logiques terminologiques les systegravemes clas-sificatoires In Rapport de Recherche 96ndash030 LIRMM Montpellier 2000

[EA93] T Etzold and P Argos SRS - an indexing and retrieval tool for flat file data librariesComputer Applications in the Biosciences 9(1) 49ndash57 1993

[ea01] J Craig Venter et al The sequence of the human genome Science 291 1304ndash13512001

[Ekl04] PW Eklund editor Concept Lattices Second International Conference on Formal Con-

cept Analysis ICFCA 2004 Sydney Australia February 23-26 2004 Proceedings vol-ume 2961 of Lecture Notes in Computer Science Springer 2004

[ER95] J Euzenat and F Rechenmann SHIRKA 10 ans crsquoest TROPES In A Napoli editorLMO pages 13ndash34 INRIA 1995

[ER99] WE Evans and MV Relling Pharmacogenomics translating functional genomics intorational therapeutics Science 286(5439) 487ndash91 1999

[ER04] WE Evans and MV Relling Moving towards individualized medicine with pharma-cogenomics Nature 429 464ndash468 2004

[ES07] J Euzenat and P Shvaiko Ontology Matching Springer 2007

[FdE08] N Fanizzi C drsquoAmato and F Esposito Conceptual clustering and its application toconcept drift and novelty detection In S Bechhofer M Hauswirth J Hoffmann andM Koubarakis editors ESWC volume 5021 of Lecture Notes in Computer Sciencepages 318ndash332 Springer 2008

[FFR97] A Farquhar R Fikes and J Rice The Ontolingua Server a tool for collaborativeontology construction Int J Hum-Comput Stud 46(6) 707ndash727 1997

[FGPJ97] M Fernandez A Gomez-Perez and N Juristo METHONTOLOGY from ontologicalart towards ontological engineering In Proceedings of the AAAI97 Spring Symposium

Series on Ontological Engineering pages 33ndash40 Stanford USA 1997

[Fis87] DH Fisher Knowledge acquisition via incremental conceptual clustering Machine

Learning 2(2) 139ndash172 1987

[Flo05] CS Flordellis The emergence of a new paradigm of pharmacogenomics Pharmacoge-

nomics 6(5) 515ndash526 2005

[Fou08] The OBO Foundry OBO Foundry policy document Technical report 2008

[FPSM91] WJ Frawley G Piatetsky-Shapiro and CJ Matheus Knowledge discovery indatabases An overview In Knowledge Discovery in Databases pages 1ndash30 AAAIMITPress 1991

[FPSS96] UM Fayyad G Piatetsky-Shapiro and P Smyth From data mining to knowledgediscovery An overview In Fayyad et al [FPSSU96] pages 1ndash34

[FPSSU96] UM Fayyad G Piatetsky-Shapiro P Smyth and R Uthurusamy editors Advances in

Knowledge Discovery and Data Mining AAAIMIT Press 1996

[Fre98] AA Freitas On objective measures of rule surprisingness In Zytkow and Quafafou[ZQ98] pages 1ndash9

[FRS05] S Ferreacute O Ridoux and B Sigonneau Arbitrary relations in formal concept analysisand logical information systems In Dau et al [DMS05] pages 166ndash180

183

[Gai89] BR Gaines An ounce of knowledge is worth a ton of data quantitative studies ofthe trade-off between expertise and data based on statistically well-founded empiricalinduction In Proceedings of the sixth international workshop on Machine learningpages 156ndash159 San Francisco CA USA 1989 Morgan Kaufmann Publishers Inc

[Gan84] B Ganter Two basic algorithms in concept analysis Technical report TechnischeHochschule Darmstadt 1984

[Gan05] A Gangemi Ontology design patterns for semantic Web content In Y Gil E MottaV Richard Benjamins and MA Musen editors International Semantic Web Confer-

ence volume 3729 of Lecture Notes in Computer Science pages 262ndash276 Springer2005

[GBe07] KM Giacomini CM Brett and RB Altman et al The pharmacogenetics researchnetwork from SNP discovery to clinical drug response Clinical pharmacology and ther-

apeutics 81(3) 328ndash45 2007

[GCCL06] A Gangemi C Catenacci M Ciaramita and J Lehmann Modelling ontology evalua-tion and validation In Y Sure and J Domingue editors ESWC volume 4011 of Lecture

Notes in Computer Science pages 140ndash154 Springer 2006

[GDF+04] Y Gasche Y Daali M Fathi A Chiappe S Cottini P Dayer and J DesmeulesCodeine intoxication associated with ultrarapid cyp2d6 metabolism N Engl J Med351(27) 2827ndash31 2004

[GE03] I Guyon and A Elisseeff An introduction to variable and feature selection Journal of

Machine Learning Research 3 1157ndash1182 2003

[GKM04] P Gottgtroy N Kasabov and S MacDonell An ontology driven approach for knowl-edge discovery in biomedicine In Proceedings of the 8th Pacific Rim International Con-

ference on Artificial Intelligence volume LNAI 3157 pages 53ndash67 Berlin Germany2004 Springer

[GMB+05] E Gueacuterin G Marquet A Burgun O Loreacuteal L Berti-Equille U Leser and F Mous-souni Integrating and warehousing liver gene expression data and related biomedicalresources in gedaw In B Ludaumlscher and L Raschid editors DILS volume 3615 ofLecture Notes in Computer Science pages 158ndash174 Springer 2005

[GPCGFL03] A Gomez-Perez O Corcho-Garcia and M Fernandez-Lopez Ontological Engineer-

ing Springer-Verlag New York Inc Secaucus NJ USA 2003

[Gru93] TR Gruber A translation approach to portable ontology specifications Knowledge

Acquisition 5(2) 199ndash220 1993

[GS08] C Goble and R Stevens State of the nation in data integration for bioinformatics J

Biomed Inform February 2008

[GSC+08] RA George TD Smith S Callaghan L Hardman C Pierides O Horaitis MAWouters and Cotton RG General mutation databases analysis and review Journal

of Medical Genetics 45(2) 65ndash70 2008

[GSK+88] FJ Gonzalez RC Skoda S Kimura M Umeno UM Zanger DW Nebert HVGelboin JP Hardwick and UA Meyer Characterization of the common genetic defectin humans deficient in debrisoquine metabolism Nature 331(6155) 442ndash446 1988

[GVM93] A Gueacutenoche and I Van Mechelen Galois approach to the induction of concepts InCategories and concepts Theorical views and inductive data analysis pages 287ndash308Academic Press 1993

184 Bibliographie

[GW99] B Ganter and R Wille Formal Concept Analysis Mathematical Foundations Springer1999

[GW04] C Goble and C Wroe The Montagues and the Capulets Conference papers Comp

Funct Genomics 5(8) 623ndash632 2004

[Hac04] MS Hacid Special issue on Web data integration Introduction Information Systems29(1) 1ndash2 2004

[Hal01] AY Halevy Answering queries using views A survey VLDB J 10(4) 270ndash294 2001

[Hal05] AY Halevy Why your data wonrsquot mix ACM Queue 3(8) 50ndash58 2005

[HBWCH+08] T Hernandez-Boussard M Whirl-Carrillo JM Hebert L Gong R Owen M GongW Gor F Liu C Truong R Whaley M Woon T Zhou RB Altman and TEKlein The pharmacogenetics and pharmacogenomics knowledge base accentuatingthe knowledge Nucleic Acids Res 36(Database issue) D913ndashD918 2008

[HF94] J Han and Y Fu Dynamic generation and refinement of concept hierarchies for knowl-edge discovery in databases In Proceedings of AAAIrsquo94 Workshop on Knowledge Dis-

covery in Databases (KDDrsquo94) pages 157ndash168 1994

[HHNV07] M Rouane Hacene M Huchard A Napoli and P Valtchev A proposal for combin-ing formal concept analysis and description logics for mining relational data In SOKuznetsov and S Schmidt editors ICFCA volume 4390 of Lecture Notes in Computer

Science pages 51ndash65 Springer 2007

[HJ02] HJMotulsky Biostatistique une approche intuitive De Boeck Universiteacute 2002

[HK01] J Han and M Kamber Data Mining Concepts and Techniques Morgan Kaufmann2001

[HLTB04] I Horrocks L Li D Turi and S Bechhofer The Instance Store DL reasoning withlarge numbers of individuals In V Haarslev and R Moumlller editors Description Logicsvolume 104 of CEUR Workshop Proceedings CEUR-WSorg 2004

[HM03] V Haarslev and R Moumlller Racer A core inference engine for the semantic WebIn Y Sure and O Corcho editors EON volume 87 of CEUR Workshop ProceedingsCEUR-WSorg 2003

[HMS05] U Hustadt B Motik and U Sattler Data complexity of reasoning in very expressivedescription logics In Kaelbling and Saffiotti [KS05] pages 466ndash471

[Hor07] I Horrocks OBO flat file format syntax and semantics and mapping to OWL Webontology language Technical report University of Manchester 2007

[HPSvH03] I Horrocks P F Patel-Schneider and F van Harmelen FromSHIQ and RDF to OWL the making of a web ontology language J Web Sem 1(1) 7ndash26 2003

[HRT+05] ML Hastings N Rest D Traum A Stella G Guanti and AR Krainer An LKBI AT-AC intron mutation causes Peutz-Jeghers syndrome via splicing at noncanonical crypticsplice site Struct Mol Biol 12(1) 54ndash59 2005

[HSS06] BM Hemminger B Saelim and PF Sullivan TAMAL an integrated approach tochoosing SNPs for genetic studies of human complex traits Bioinformatics 22(5) 626ndash627 2006

[HVK+02] MK Higashi DL Veenstra LM Kondo AK Wittkowsky SL SrinouanprachanhFM Farin and AE Rettie Association between CYP2C9 genetic variants andanticoagulation-related outcomes during warfarin therapy JAMA 287(13) 1690ndash16982002

185

[HY90] R Hull and M Yoshikawa Ilog Declarative creation and manipulation of object iden-tifiers In D McLeod R Sacks-Davis and HJ Schek editors VLDB pages 455ndash468Morgan Kaufmann 1990

[JKN08] N Jay F Kohler and A Napoli Analysis of social communities with iceberg andstability-based concept lattices In Medina and Obiedkov [MO08] pages 258ndash272

[KAB06] L Karoui MA Aufaure and N Bennacer Context-based hierarchical clustering for theontology learning In Web Intelligence pages 420ndash427 IEEE Computer Society 2006

[KACV+04] PD Karp M Arnaud J Collado-Vides J Ingraham IT Paulsen and MH Jr SaierThe E coli EcoCyc database No longer just a metabolic pathway database ASM News70(1) 25ndash30 2004

[Kay97] D Kayser La repreacutesentation des connaissances collection informatique hermegraves edi-tion 1997

[KCH+02] P Kogut S Cranefield L Hart M Dutra K Baclawski M Kokar and J Smith UMLfor ontology development Knowl Eng Rev 17(1) 61ndash64 2002

[KDK+05] R Karchin M Diekhans L Kelly DJ Thomas U Pieper N Eswar D Haussler andA Sali LS-SNP large-scale annotation of coding non-synonymous SNPs based onmultiple information sources Bioinformatics 21(12) 2814ndash2820 2005

[KFNM04] H Knublauch RW Fergerson N Fridman Noy and MA Musen The Proteacutegeacute OWLplugin An open development environment for semantic Web applications In SA McIl-raith D Plexousakis and F van Harmelen editors International Semantic Web Confer-

ence volume 3298 of Lecture Notes in Computer Science pages 229ndash243 Springer2004

[KJ97] R Kohavi and GH John Wrappers for feature subset selection Artif Intell 97(1ndash2) 273ndash324 1997

[KK07] F Karel and J Klema Quantitative association rule mining in genomics using apri-ori knowledge In Workshop on Prior Conceptual Knowledge in Machine Learning

and Knowledge Discovery (PriCKLrsquo07) at ECMLPKDD 2007 pages 53ndash64 WarsawPoland September 2007

[KKS+04] A Kasprzyk D Keefe D Smedley D London W Spooner C Melsopp M HammondP Rocca-Serra T Cox and E Birney Ensmart A generic system for fast and flexibleaccess to biological data Genome Res 14(1) 160ndash169 2004

[KLW08] PD Karp TJ Lee and V Wagner BioWarehouse Relational integration of elevenbioinformatics databases and formats In Bairoch et al [BCBF08] pages 5ndash7

[KLWW08] B Konev C Lutz D Walther and F Wolter Semantic modularity and module extractionin description logics In ECAI 2008 18th European Conference on Artificial Intelligence

Patras Greece Proceedings pages 55ndash59 2008

[KN01] L Kruglyak and DA Nickerson Variation is the spice of life Nature Genetics 27 234ndash236 2001

[KO02] SO Kuznetsov and SA Obiedkov Comparing performance of algorithms for generat-ing concept lattices J Exp Theor Artif Intell 14(2ndash3) 189ndash216 2002

[KPL03] J Koumlhler S Philippi and M Lange SEMEDA ontology based semantic integration ofbiological databases Bioinformatics 19(18) 2420ndash2427 2003

[KPS+06] A Kalyanpur B Parsia E Sirin B Cuenca Grau and JA Hendler Swoop A Webontology editing browser J Web Sem 4(2) 144ndash153 2006

186 Bibliographie

[Kry02] M Kryszkiewicz Concise representations of association rules In Proceedings of the

ESF Exploratory Workshop on Pattern Detection and Discovery pages 92ndash109 LondonUK 2002 Springer-Verlag

[KS05] L Pack Kaelbling and A Saffiotti editors IJCAI-05 Proceedings of the Nineteenth

International Joint Conference on Artificial Intelligence Edinburgh Scotland UK July

30-August 5 2005 Professional Book Center 2005

[Kuz07] SO Kuznetsov On stability of a formal concept Ann Math Artif Intell 49(1ndash4) 101ndash115 2007

[Len02] M Lenzerini Data integration A theoretical perspective In L Popa editor PODSpages 233ndash246 ACM 2002

[LFZ99] N Lavrac PA Flach and B Zupan Rule evaluation measures A unifying view InS Dzeroski and PA Flach editors ILP volume 1634 of Lecture Notes in Computer

Science pages 174ndash185 Springer 1999

[LHCM00] B Liu W Hsu S Chen and Y Ma Analyzing the subjective interestingness of associ-ation rules IEEE Intelligent Systems 15(5) 47ndash55 2000

[LN05] U Leser and F Naumann (almost) hands-off information integration for the life sci-ences In CIDR pages 131ndash143 2005

[LNST08] J Lieber A Napoli L Szathmary and Y Toussaint First elements on KnowledgeDiscovery guided by Domain Knowledge (kddk) In S B Yahia E M Nguifo andR Belohlavek editors Concept Lattices and Their Applications (CLA 06) Lecture Notesin Artificial Intelligence 4923 pages 22ndash41 Springer Berlin 2008

[LWZ08] C Lutz F Wolter and M Zakharyaschev Temporal description logics A survey InProceedings of the 15th International Symposium on Temporal Representation and Rea-

soning time pages 3ndash14 2008

[LY05] H Liu and L Yu Toward integrating feature selection algorithms for classification andclustering IEEE Trans Knowl Data Eng 17(4) 491ndash502 2005

[LZG+06] JJ Lima S Zhang A Grant L Shao KG Tantisira H Allayee J Wang J SylvesterJ Holbrook R Wise ST Weiss and K Barnes Influence of leukotriene pathwaypolymorphisms on response to montelukast in asthma Am J Respir Crit Care Med173(4) 379ndash85 2006

[Mar03] FM Marincola Translational medicine A two-way road Journal of Translational

Medicine 1(1) 1 2003

[Mau06] S Maumus Approche de la complexiteacute du syndrome meacutetabolique et de ses indicateurs

de risque par la mise en oeuvre de meacutethodes numeacuteriques et symboliques de fouille de

donneacutees Thegravese en eacutepideacutemiologie et santeacute publique Universiteacute Henri Poincareacute ndash Nancy1 France Nov 2006

[MBB+08] F Mougin A Burgun O Bodenreider J Chabalier O Loreacuteal and P Le Beux Auto-matic methods for integrating biomedical data sources in a mediator-based system InBairoch et al [BCBF08] pages 61ndash76

[McG05] Ken McGarry A survey of interestingness measures for knowledge discovery The

Knowledge Engineering Review 20(1) 39ndash61 2005

[McK98] VA McKusick Mendelian inheritance in man a catalog of human genes and geneticdisorders 1998

187

[MD07a] D Martin and J Domingue Semantic Web services Part 1 IEEE Intelligent Systems22(5) 12ndash17 2007

[MD07b] D Martin and J Domingue Semantic Web services Part 2 IEEE Intelligent Systems22(6) 8ndash15 2007

[MDNST05] N Messai MD Devignes A Napoli and M Smaiumll-Tabbone Querying a bioinformaticdata sources registry with concept lattices In Dau et al [DMS05] pages 323ndash336

[MFJ+07] MD Mailman M Feolo Y Jin M Kimura K Tryka R Bagoutdinov L HaoA Kiang J Paschall L Phan N Popova S Pretel L Ziyabari M Lee Y Shao ZYWang K Sirotkin M Ward M Kholodov K Zbicz J Beck M Kimelman S ShevelevD Preuss E Yaschenko A Graeff J Ostell and ST Sherry The NCBI dbGaP databaseof genotypes and phenotypes Nat Genet 39(10) 1181ndash1186 2007

[MK08] P Hitzler M Kroumltzsch S Rudolph Description logic rules In ECAI 2008 18th Eu-

ropean Conference on Artificial Intelligence 2008 Patras Greece Proceedings pages80ndash84 2008

[MKS04] HM Muumlller EE Kenny and PW Sternberg Textpresso an ontology-based infor-mation retrieval and extraction system for biological literature PLoS Biol 2(11) e3092004

[MMK+03] RH Mathijssen S Marsh MO Karlsson R Xie SD Baker J Verweij A Spar-reboom and HL McLeod Irinotecan pathway genotype analysis to predict pharma-cokinetics Clin Cancer Res 9(9) 3246ndash3253 2003

[MO08] R Medina and SA Obiedkov editors Formal Concept Analysis 6th International Con-

ference ICFCA 2008 Montreal Canada February 25-28 2008 Proceedings volume4933 of Lecture Notes in Computer Science Springer 2008

[MTB+99] I Martinelli E Taioli P Bucciarelli S Akhavan and PM Mannucci Interaction be-tween the G20210A mutation of the prothrombin gene and oral contraceptive use in deepvein thrombosis Arterioscler Thromb Vasc Biol 19(3) 700ndash703 1999

[Mug91] Stephen Muggleton Inductive Logic Programming New Generation Comput 8(4) 2951991

[MVB+95] C Meacutedigue T Vermat G Bisson A Viari and A Danchin Cooperative computersystem for genome sequence analysis In CJ Rawlings DA Clark RB AltmanL Hunter T Lengauer and SJ Wodak editors ISMB pages 249ndash258 AAAI 1995

[MZCC04] AA Mitchell ME Zwick A Chakravarti and DJ Cutler Discrepancies in dbSNPconfirmation rates and allele frequency distributions from varying genotyping error ratesand patterns Bioinformatics 20(7) 1022ndash1032 2004

[Nap92] A Napoli Repreacutesentations agrave objets et raisonnement par classification en intelligence ar-

tificielle Doctorat drsquoeacutetat egraves sciences matheacutematiques Universiteacute Henri Poincareacute ndash Nancy1 France Jan 1992

[NB04] Z Nazeri and E Bloedorn Exploiting available domain knowledge to improve min-ing aviation safety and network security data In P Buitelaar J Franke M GrobelnikG Paass and V Svatek editors Proceedings of the Workshop on Knowledge Discovery

and Ontologies at ECMLPKDDrsquo04 Pisa Italy September 2004

[NBS+06] MCY Ng L Baum WY So VKL Lam Y Wang E Poon B Tomlinson S ChengK Lindpaintner and JCN Chan Association of lipoprotein lipase S447X apolipopro-tein E exon 4 and apoC3 -455T-C polymorphisms on the susceptibility to diabeticnephropathy Clin Genet 70 20ndash28 2006

188 Bibliographie

[NED00] A Napoli J Euzenat and R Ducournau Les repreacutesentations des connaissances parobjets Technique et Science Informatiques 19(1ndash3) 387ndash394 2000

[NM01] N F Noy and D McGuinness Ontology development 101 A guide to creating yourfirst ontology Technical report 2001

[NMG05] AC Need AG Motulsky and DB Goldstein Priorities and standards in pharmacoge-netic research Nat Genet 37(7) 671ndash81 2005

[NR06] N F Noy and A Rector Defining n-ary relations on the semantic Web Technical reportW3C 2006

[Ome01] B Omelayenko Learning of ontologies for the Web the analysis of existent approaches2001

[ORS+02] DE Oliver DL Rubin JM Stuart M Hewett TE Klein and RB Altman On-tology development for a pharmacogenetics knowledge base In Pacific Symposium on

Biocomputing pages 65ndash76 2002

[ORT08] RP Owen Altman RB and Klein TE PharmGKB and the international warfarinpharmacogenetics consortium the changing role for pharmacogenomic databases andsingle-drug pharmacogenetics Hum Mutat 29(4) 456ndash460 2008

[PB01] J Phillips and BG Buchanan Ontology-guided knowledge discovery in databasesIn K-CAPrsquo01 Proceedings of the 1st international conference on Knowledge capturepages 123ndash130 New York NY USA 2001 ACM

[PGC+01] M Page J Gensel C Capponi C Bruley P Genoud D Zieacutebelin D Bardou andV Dupierris A new approach in object-based knowledge representation The AROMsystem In L Monostori J Vaacutencza and M Ali editors IEAAIE volume 2070 of Lec-

ture Notes in Computer Science pages 113ndash118 Springer 2001

[PLC+08] A Poggi D Lembo D Calvanese G De Giacomo M Lenzerini and R Rosati Link-ing data to ontologies J Data Semantics 10 133ndash173 2008

[PRAC06] D Peacuterez-Rey A Anguita and J Crespo Ontodataclean Ontology-based integrationand preprocessing of distributed data In N Maglaveras I Chouvarda V Koutkias andRW Brause editors ISBMDA volume 4345 of Lecture Notes in Computer Sciencepages 262ndash272 Springer 2006

[RAC+06] MC Rousset P Adjiman P Chatalic F Goasdoueacute and L Simon Somewhere in thesemantic Web In J Wiedermann G Tel J Pokornyacute M Bielikovaacute and J Stuller editorsSOFSEM volume 3831 of Lecture Notes in Computer Science pages 84ndash99 Springer2006

[RBJ00] J Rumbaugh G Booch and I Jacobson Le guide de lrsquoutilisateur UML Eyrolles 2000

[RDM05] DL Rubin O Dameron and MA Musen Use of description logic classification toreason about consequences of penetrating injuries In Proceedings of the AMIA Annu

Symp pages 649ndash653 2005

[Rec00] F Rechenmann From data to knowledge Bioinformatics 16(5) 411 2000

[RFG+02] MC Rousset C Froidevaux H Gagliardi F Goasdoueacute C Reynaud and B Sa-far Construction de meacutediateurs pour inteacutegrer des sources drsquoinformation multiples etheacuteteacuterogegravenes le projet PICSEL Revue I3 2(1) 2002

[RIF+06] R Redon S Ishikawa KR Fitch L Feuk GH Perry and et al Global variation incopy number in the human genome Nature 444 444ndash454 2006

189

[RKC06] HZ Ring PY Kwok and RG Cotton Human variome project an international col-laboration to catalogue human genetic variation Pharmacogenomics 7(7) 969ndash9722006

[RKK+00] A Rzhetsky T Koike S Kalachikov SM Gomez M Krauthammer SH KaplanP Kra JJ Russo and C Friedman A knowledge model for analysis and simulation ofregulatory networks Bioinformatics 16(11) 1120ndash1128 2000

[RKM+05] C Rosse A Kumar JL Mejino DL Cook LT Detwiler and B Smith A strategyfor improving and integrating biomedical ontologies In Proceedings of the AMIA Annu

Symp pages 639ndash643 2005

[RLSN08] MJ Rieder RJ Livingston IB Stanaway and DA Nickerson The environmentalgenome project reference polymorphisms for drug metabolism genes and genome-wideassociation studies Drug Metabolism Review 40(2) 241ndash261 2008

[RMKM08] DL Rubin DA Moreira PP Kanjamala and Musen MA BioPortal A Web portalto biomedical ontologies 2008 AAAI Spring Symposium Series Symbiotic Relationships

between Semantic Web and Knowledge Engineering 2008

[RMM+98] C Rosse JL Mejino BR Modayur R Jakobovits KP Hinshaw and JF BrinkleyMotivation and organizational principles for anatomical knowledge representation thedigital anatomist symbolic knowledge base J Am Med Informx Assoc 5(1) 1998

[RN03] S Russell and P Norvig Artificial Intelligence - A modern approch Englewood CliffsNJ Prentice-Hall (2d Edition) 2003

[RSN07] DL Rubin NH Shah and NF Noy Biomedical ontologies a functional perspectiveBriefings in Bioinformatics 9(1) 75ndash90 2007

[Rud06] S Rudolph Relational Exploration Combining Description Logics and Formal Con-

cept Analysis for Knowledge Specification Thegravese en informatique Technischen Univer-sitaumlt ndash Dresden Germany Dec 2006

[SA95] R Srikant and R Agrawal Mining generalized association rules In U Dayal PMDGray and S Nishio editors VLDB pages 407ndash419 Morgan Kaufmann 1995

[SAA+99] G Schreiber H Akkermans A Anjewierden R Dehoog N Shadbolt W Vande-velde and B Wielinga Knowledge Engineering and Management The CommonKADS

Methodology The MIT Press December 1999

[Sah02] S Sahar Exploring interestingness through clustering A framework In ICDM pages677ndash680 IEEE Computer Society 2002

[SAR+07] B Smith M Ashburner C Rosse J Bard W Bug W Ceusters LJ Goldberg K Eil-beck A Ireland CJ Mungall The OBI Consortium N Leontis P Rocca-Serra A Rut-tenberg SA Sansone RH Scheuermann N Shah PL Whetzel and S Lewis TheOBO Foundry coordinated evolution of ontologies to support biomedical data integra-tion Nature Biotechnology 25(11) 1251ndash1255 2007

[Saiuml07] F Saiumls Inteacutegration seacutemantique de donneacutees guideacutee par une ontologie Thegravese en informa-tique Universiteacute Paris-Sud France Deacutec 2007

[SBB+00] R Stevens PG Baker S Bechhofer G Ng A Jacoby NW Paton CA Goble andA Brass Tambis Transparent access to multiple bioinformatics information sourcesBioinformatics 16(2) 184ndash186 2000

[Ser07] B Sertkaya Formal Concept Analysis Methods for Description Logics Thegravese en infor-matique Technischen Universitaumlt ndash Dresden Germany Nov 2007

190 Bibliographie

[SHB01] G Stumme A Hotho and B Berendt editors Proceedings of the Workshop on Semantic

Web Mining (SWMrsquo01 at ECMLPKDDrsquo01) Freiburg Germany September 2001

[SHSD08] B Seacuteguin B Hardy PA Singer and AS Daar Bidil recontextualizing the race debateThe Pharmacogenomics Journal 8 169ndash173 2008

[SIL05] Y Saeys I Inza and P Larrantildeaga A review of feature selection techniques in bioinfor-matics Bioinformatics 23(19) 2507ndash2517 2005

[SNK07] L Szathmary A Napoli and S O Kuznetsov ZART A Multifunctional Itemset MiningAlgorithm In Proc of the 5th Intl Conf on Concept Lattices and Their Applications

(CLArsquo07) pages 26ndash37 Montpellier France Oct 2007

[SNV07] L Szathmary A Napoli and P Valtchev Towards Rare Itemset Mining In Proc of the

19th IEEE Intl Conf on Tools with Artificial Intelligence (ICTAIrsquo07) volume 1 pages305ndash312 Patras Greece Oct 2007

[SP04] E Sirin and B Parsia Pellet An OWL DL reasoner In Proceedings of the International

Workshop on Description Logics (DL2004) 2004

[Spe08] G Spencer International consortium announces the 1000 genomes project EMBAR-

GOED 2008

[SRR05] V Svaacutetek J Rauch and M Ralbovskyacute Ontology-enhanced association mining InAckermann et al [ABG+06] pages 163ndash179

[Ste08] LD Stein Towards a cyberinfrastructure for the biological sciences progress visionsand challenges Nature Genetics 9(9) 678ndash688 2008

[SWK+01] ST Sherry MH Ward M Kholodov J Baker L Phan EM Smigielski andK Sirotkin dbSNP the NCBI database of genetic variation Nucleic Acids Res29(1) 308ndash311 2001

[SWW98] G Stumme R Wille and U Wille Conceptual knowledge discovery in databases usingformal concept analysis methods In Zytkow and Quafafou [ZQ98] pages 450ndash458

[Sza06] L Szathmary Symbolic Data Mining Methods with the Coron Platform Thegravese eninformatique Universiteacute Henri Poincareacute ndash Nancy 1 France Nov 2006

[TH06] D Tsarkov and I Horrocks FaCT++ description logic reasoner System descrip-tion In Proceedings of the International Joint Conference on Automated Reasoning

(IJCAR 2006) volume 4130 of Lecture Notes in Artificial Intelligence pages 292ndash297Springer 2006

[TKS02] PN Tan V Kumar and J Srivastava Selecting the right interestingness measure forassociation patterns In KDDrsquo02 Proceedings of the eighth ACM SIGKDD international

conference on Knowledge discovery and data mining pages 32ndash41 New York NY USA2002 ACM

[TZY+04] AL Taylor S Ziesche C Yancy P Carson R Jr DrsquoAgostino K Ferdinand M TaylorK Adams M Sabolinski M Worcel JN Cohn and African-American Heart Fail-ure Trial Investigators Combination of isosorbide dinitrate and hydralazine in blackswith heart failure N Engl J Med 351(20) 2049ndash57 2004

[UK95] M Uschold and M King Towards a methodology for building ontologies In Proceed-

ings of the IJCAI Workshop on Basic Ontological Issues in Knowledge Sharing 1995

[VB05] M Vanzin and K Becker Ontology-based rummaging mechanisms for the interpretationof Web usage patterns In Ackermann et al [ABG+06] pages 180ndash195

191

[vHY04] V van Heyningen and PL Yeyati Mechanisms of non-mendelian inheritance in geneticdisease Human Molecular Genetics 13(RI2) R225ndashR233 2004

[VMG04] P Valtchev R Missaoui and R Godin Formal concept analysis for knowledge discov-ery and data mining The new challenges In Eklund [Ekl04] pages 352ndash371

[VR08] J Voumllker and S Rudolph Lexico-logical acquisition of OWL DL axioms [MO08]pages 62ndash77

[Web97] WW Weber Pharmacogenetics Oxford University Press New York NY 1997

[WH03] AB Wilcox and G Hripcsak The role of domain knowledge in automating medical textreport classification J Am Med Inform Assoc 10(4) 330ndash338 2003

[Wil02] R Wille Why can concept lattices support knowledge discovery in databases J Exp

Theor Artif Intell 14(2ndash3) 81ndash92 2002

[WLT+06] K Wolstencroft P Lord L Tabernero A Brass and R Stevens Protein classificationusing ontology classification Bioinformatics 22(14) e530ndashe538 2006

[WMF+08] ST Weiss HL McLeod DA Flockhart ME Dolan NL Benowitz JA JohnsonMJ Ratain and KM Giacomini Creating and evaluating genetic tests predictive ofdrug response Nat Rev Drug Discov 7(7) 568ndash74 2008

[WMS+05] K Wolstencroft R McEntire R Stevens L Tabernero and A Brass Constructingontology-driven protein family databases Bioinformatics 21(8) 1685ndash1692 2005

[WSGA03] C Wroe R Stevens CA Goble and M Ashburner A methodology to migrate the geneontology to a description logic environment using daml+oil In Pacific Symposium on

Biocomputing pages 624ndash635 2003

[WZTS05] JTL Wang MJ Zaki HTT Toivonen and DE (Eds) Shasha Data Mining in Bioin-

formatics Springer 2005

[YHTL08] HH Yang N Hu PR Taylor and MP Lee Whole genome-wide association studyusing affymetrix SNP chip a two-stage sequential selection method to identify genesthat increase the risk of developing complex diseases Methods Mol Med 141 23ndash352008

[YL04] L Yu and H Liu Efficient feature selection via analysis of relevance and redundancyJournal of Machine Learning Research 5 1205ndash1224 2004

[YSS07] T Yu SJ Simoff and D Stokes Incorporating prior domain knowledge into a kernelbased feature selection algorithm In ZH Zhou H Li and Q Yang editors PAKDDvolume 4426 of Lecture Notes in Computer Science pages 1064ndash1071 Springer 2007

[ZQ98] JM Zytkow and M Quafafou editors Principles of Data Mining and Knowledge Dis-

covery Second European Symposium PKDD rsquo98 Nantes France September 23-26

1998 Proceedings volume 1510 of Lecture Notes in Computer Science Springer 1998

192 Bibliographie

Reacutesumeacute

Cette thegravese porte sur lrsquoutilisation drsquoontologies et de bases de connaissances pour guider diffeacuterenteseacutetapes du processus drsquoextraction de connaissances agrave partir de bases de donneacutees (ECBD) et une applica-tion dans le domaine de la pharmacogeacutenomique Les donneacutees relatives agrave ce domaine sont heacuteteacuterogegravenescomplexes et distribueacutees dans diverses bases de donneacutees ce qui rend cruciale lrsquoeacutetape preacuteliminaire depreacuteparation et drsquointeacutegration des donneacutees agrave fouiller Je propose pour guider cette eacutetape une approche orig-inale drsquointeacutegration de donneacutees qui srsquoappuie sur une repreacutesentation des connaissances du domaine sousforme de deux ontologies en logiques de description SNP-Ontology et SO-Pharm Cette approche a eacuteteacuteimpleacutementeacutee gracircce aux technologies du Web seacutemantique et conduit au peuplement drsquoune base de con-naissances pharmacogeacutenomique Le fait que les donneacutees agrave fouiller soient alors disponibles dans une basede connaissances entraicircne de nouvelles potentialiteacutes pour le processus drsquoextraction de connaissances Jeme suis drsquoabord inteacuteresseacute au problegraveme de la seacutelection des donneacutees les plus pertinentes agrave fouiller en mon-trant comment la base de connaissances peut ecirctre exploiteacutee dans ce but Ensuite jrsquoai deacutecrit et appliqueacuteagrave la pharmacogeacutenomique une meacutethode qui permet lrsquoextraction de connaissances directement agrave partir

drsquoune base de connaissances Cette meacutethode appeleacutee Analyse des Assertions de Rocircles (ou AAR) permetdrsquoutiliser des algorithmes de fouille de donneacutees sur un ensemble drsquoassertions de la base de connaissancespharmacogeacutenomique et drsquoexpliciter des connaissances nouvelles et pertinentes qui y eacutetaient enfouies

Mots-cleacutes extraction de connaissances agrave partir de bases de donneacutees inteacutegration de donneacutees seacutelectionde donneacutees repreacutesentation des connaissances ontologie base de connaissances logiques de descriptionSNP pharmacogeacutenomique

Abstract

This thesis studies the use of ontology and knowledge base for guiding various steps of the Knowl-edge Discovery in Databases (KDD) process in the domain of pharmacogenomics Data related to thisdomain are heterogeneous complex and disseminated through several data sources Consequently thepreliminary step that consists in the preparation and the integration of data is crucial For guiding thisstep an original approach is proposed based on a knowledge representation of the domain within twoontologies in description logics SNP-Ontology and SO-Pharm This approach has been implementedusing semantic Web technologies and leads finally to populating a pharmacogenomic knowledge baseAs a result data to analyze are represented in the knowledge base which is a benefit for guiding fol-lowing steps of the knowledge discovery process Firstly I study this benefit for feature selection byillustrating how the knowledge base can be used for this purpose Secondly I describe and apply topharmacogenomics a new method named Role Assertion Analysis (or RAA) that enables knowledgediscovery directly from knowledge bases This method uses data mining algorithms over assertions ofour pharmacogenomic knowledge base and results in the discovery of new and relevant knowledge

Keywords knowledge discovery in databases data integration feature selection knowledge represen-tation ontology knowledge base description logics SNP pharmacogenomics

Page 2: Construction et utilisation d’une base de connaissances

Departement de formation doctorale en informatique Ecole doctorale IAEM Lorraine

UFR STMIA

Construction et utilisation

drsquoune Base de Connaissances

pharmacogenomique

pour lrsquointegration de donnees

et la decouverte de connaissances

THESE

presentee et soutenue publiquement le 10 octobre 2008

pour lrsquoobtention du

Doctorat de lrsquouniversite Henri Poincare ndash Nancy 1

(specialite informatique)

par

Adrien Coulet

Composition du jury

Rapporteurs Mohand-Saıd Hacid Professeur Universite Claude Bernard Lyon 1

Alain Viari Directeur de Recherche INRIA

Examinateurs Nacer Boudjlida Professeur Nancy Universites

Marie-Dominique Devignes Chargee de Recherche CNRS

Chantal Reynaud Professeur Universite Paris-Sud 11

Malika Smaıl-Tabbone Maıtre de conference Nancy Universites

Invites Pascale Benlian Maıtre de conference - Praticien hospitalier

Universite Pierre et Marie Curie Paris 6

Amedeo Napoli Directeur de Recherche CNRS

Laboratoire Lorrain de Recherche en Informatique et ses Applications mdash UMR 7503

Mis en page avec la classe thloria

i

Remerciements

Je remercie M Nacer Boudjlida drsquoavoir accepteacute de preacutesider le jury de cette thegravese M Mohand-SaiumldHacid et M Alain Viari pour lrsquoattention et la curiositeacute manifestes avec lesquelles ils ont jugeacute ce manuscrit

Je remercie Mme Chantal Reynaud qui a accepteacute drsquoexaminer mon travailJe remercie le Dr Pascale Benlian drsquoavoir bien voulu participer au jury de cette thegravese drsquoavoir toujours

fait preuve drsquoenthousiasme vis agrave vis de mon travail et de mrsquoavoir fait partager sa passion contagieuse pourson domaine de recherche

Je tiens agrave remercier vivement M Amedeo Napoli de mrsquoavoir accueilli au sein de son eacutequipe drsquoOr-pailleurs drsquoavoir souvent trouveacute les mots justes aux moments ougrave il me fallait les entendre

Bien eacutevidement je remercie Mme Marie-Dominique Devignes et Mme Malika Smaiumll-Tabbone pourleur accompagnement leurs conseils et leurs nombreux enseignements tant scientifiques qursquohumains Jeles emporte et les garderai avec moi

Je remercie lrsquoANRT Oseacuteo les socieacuteteacutes KIKA Medical et Phenosystems drsquoavoir financeacute et participeacuteau projet GenNet agrave lrsquooriginie de cette thegravese

Je remercie M Alexandre Durand-Salmon de mrsquoavoir fait confiance au deacutebut de ce projet M RomainDumoustier de mrsquoavoir laisser le temps de le convaincre de lrsquointeacuterecirct des ontologies Merci agrave M NicolasDubost M Benoicirct Lopez et Mlle Adeline Maguiegravere de KIKA Medical pour lrsquointeacuterecirct dont ils mrsquoont faitpart jusqursquoau dernier jour du projet

Je remercie M David Atlan pour les discussions stimulantes que nous avons pu partagerJe tiens agrave ne pas oublier tous ceux qui mrsquoont transmis volontairement ou involontairement le virus de

la bioinformatique parmi eux merci notamment agrave Benjamin Leblanc Jean-Paul Leonetti Erwan ReguerFranccedilois Rechenmann Michel Seve

Partager le quotidien des Orpailleurs me fut aussi agreacuteable qursquoenrichissant merci agrave eux et notammentagrave Nizar Salhia Zaiumlnab Nada Laszlo Sandy Rokia

Merci agrave tous ceux qui mrsquoont manifesteacute leur amitieacute pendant la thegravese Je pense en particulier agrave SebManue Audrey Greacutegoire Michaeumll Claire Momo Fred Lynda Solegravene Feacute Yann Walid Nico P NicoN Erwan Gilles Merci aux ouvriers du TGV Est et agrave Philippe Katrine

Je remercie la famille Martin pour ses encouragements Je remercie ma famille petits et grands pourmrsquoavoir construit et me consolider

Merci agrave toi lecteur qui aura le cœur de deacutepasser cette page

Et merci Aude de bousculer ma vie

ii

Table des matiegraveres

Table des figures vii

Liste des tableaux xi

Introduction 1

1 Des donneacutees aux connaissances 1

2 Des connaissances pour de nouvelles connaissances 5

3 La pharmacogeacutenomique 6

4 Le projet GenNet 7

5 Probleacutematique 8

6 Approche et principales contributions 9

7 Plan du manuscrit 9

1 Contexte biologique et applicatif 11

1 Geacutenotype et pheacutenotype 11

11 Deacutefinitions 11

12 Transcription et traduction premiegraveres eacutetapes de la deacutefinition drsquoun pheacutenotype 11

13 Les relations geacutenotypendashpheacutenotype 12

14 Les sources de donneacutees et les vocabulaires controcircleacutes relatifs aux relations geacutenotypendash

pheacutenotype 13

2 Les variations geacutenomiques 15

21 Deacutefinitions 15

22 Les sources de donneacutees relatives aux variations geacutenomiques 15

23 Heacuteteacuterogeacuteneacuteiteacute des donneacutees relatives aux variations geacutenomiques 16

24 Les haplotypes 18

3 La pharmacogeacutenomique 20

31 Deacutefinition 20

32 Les sources de donneacutees relatives agrave la pharmacogeacutenomique 21

4 Inteacuterecirct de lrsquoutilisation de connaissances en pharmacogeacutenomique 22

iii

iv Table des matiegraveres

2 Etat de lrsquoart 23

1 Extraction de Connaissances agrave partir de Bases de Donneacutees ndash 23

11 Motivation et objectifs 23

12 Preacuteparation des donneacutees 24

13 Fouille de donneacutees 27

14 Interpreacutetation en uniteacutes de connaissances 38

15 Reacuteutilisation des uniteacutes extraites 39

2 Repreacutesentation des connaissances et ontologies 40

21 La Repreacutesentation des Connaissances par Objets 40

22 Les Logiques de Descriptions 41

23 Ontologies et Bases de Connaissances 44

3 Utilisation des ontologies pour lrsquointeacutegration de donneacutees heacuteteacuterogegravenes 49

31 Les systegravemes drsquointeacutegration de donneacutees 49

32 Problegraveme drsquoheacuteteacuterogeacuteneacuteiteacute et inteacutegration seacutemantique 52

33 Le mapping donneacuteesndashconnaissances 53

34 Utilisation des ontologies en bioinformatique inteacutegration de donneacutees et plus si

affiniteacutes 54

35 Vers une inteacutegration semi-automatique de sources 58

4 Extraction de Connaissances guideacutee par les Connaissances du Domaine ndash 60

41 Preacuteparation de donneacutees guideacutee par les connaissances 60

42 Fouille de donneacutees guideacutee par les connaissances 62

43 Interpreacutetation guideacutee par les connaissances 64

3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique 67

1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre 67

11 Meacutethodologie de construction manuelle drsquoontologies pour lrsquointeacutegration de donneacutees 68

12 Construction drsquoune ontologie pour les variations geacutenomiques SNP-Ontology 73

13 Construction drsquoune ontologie pour la pharmacogeacutenomique SO-Pharm 79

2 Inteacutegration de donneacutees guideacutee par une ontologie 85

21 Description geacuteneacuterale de lrsquoapproche proposeacutee 85

22 Deacutefinition des mappings donneacuteesndashassertions 86

23 Description de lrsquointeraction wrapperndashmeacutediateur 88

24 Bilan 88

3 Expeacuterimentation 90

31 Inteacutegration de donneacutees relatives aux variations geacutenomiques SNP-Converter 90

32 Inteacutegration de donneacutees pharmacogeacutenomiques iSO-Pharm 99

4 Discussion 101

v

4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances 103

1 Seacutelection de donneacutees guideacutee par les connaissances du domaine 103

11 Motivation 103

12 Meacutethode proposeacutee 105

13 Expeacuterimentation pour la deacutecouverte de relations geacutenotypendashpheacutenotype 111

14 Bilan 116

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 118

21 Description geacuteneacuterale 118

22 Application conjointe des Logiques de Descriptions et de lrsquoAnalyse de Concepts

Formels dans le contexte de lrsquo 118

23 Analyse des Assertions de Rocircles ndash 121

24 Expeacuterimentation en pharmacogeacutenomique 130

25 Travaux similaires 143

3 Discussion 148

Conclusion et perspectives 151

A Algorithme de recherche des RMN et des RMNR 153

B Constructeurs en 155

C Exemple de code OWL 159

D Modegravele conceptuel de SO-Pharm 161

E Captures drsquoeacutecrans de SNP-Converter 163

F Algorithme de parcours drsquoun graphe drsquoassertions 167

G Captures drsquoeacutecrans du plugin de Proteacutegeacute 4 pour lrsquoAAR 171

H RMNR extraites de la relative agrave lrsquoinvestigation clinique du montelukast 173

Bibliographie 177

vi Table des matiegraveres

Table des figures

1 Repreacutesentation scheacutematique et naiumlve du processus de transformation de donneacutees en infor-mation puis en connaissances A gauche un processus en pyramide et agrave droite en boucleLa lettre C repreacutesente les connaissances 2

2 La repreacutesentation classique du processus drsquoExtraction de Connaissances agrave partir desBases de Donneacutees () (drsquoapregraves [FPSS96]) 3

3 Une annotation humoristique du geacutenome humain par Matt Davies The Journal NewsLos

Angeles Times Syndicate 2000 44 Repreacutesentation scheacutematique de la relation entre meacutedicament geacutenotype pheacutenotype eacutetudieacutee

en pharmacogeacutenomique 65 Trois exemples de relations pharmacogeacutenomiques particuliegraveres entre un traitement de

codeacuteine la version du gegravene CYP2D6 et lrsquoeffet de la codeacuteine En fonction de la version dugegravene la reacuteponse est diffeacuterente De gauche agrave droite le cas de meacutetaboliseurs lents normauxou leacutegegraverement rapides et ultra-rapides Il est inteacuteressant de noter que lrsquoadministrationdrsquoune dose de codeacuteine plus eacuteleveacutee (50 mg par exemple) aux meacutetaboliseurs lents permet decompenser la limitation de lrsquoactiviteacute enzymatique et drsquoobtenir lrsquoeffet analgeacutesique attendu 7

11 Repreacutesentation simplifieacutee des deux eacutetapes de transcription et de traduction pour deuxseacutequences drsquoADN drsquoun gegravene (ie deux allegraveles) hypotheacutetique A (agrave gauche lrsquoallegravele 1 agravedroite lrsquoallegravele 2) ne diffeacuterant qursquoen une seule position En haut de la figure lrsquoADN estrepreacutesenteacutee sous sa forme native qui est celle drsquoun double brin dans lequel les nucleacuteotidessont apparieacutes selon les regravegles suivantes A avec T et C avec G On dit que les deux brinsdrsquoADN ont des seacutequences compleacutementaires et on parle de paire de nucleacuteotides agrave chaqueposition de la seacutequence Les paires qui distinguent les deux allegraveles sur la figure sont G Cpour lrsquoallegravele 1 et T A pour lrsquoallegravele 2 Au cours de la transcription la copie de lrsquoun desbrins de lrsquoADN produit lrsquoARNm dans lequel la diffeacuterence entre les deux allegraveles est con-serveacutee Enfin la traduction convertit lrsquoARNm en une proteacuteine dont les acides amineacutes sontenchaicircneacutes les uns aux autres en fonction de lrsquoordre des triplets sur la seacutequence de lrsquoARNm

et selon la correspondance donneacutee par le code geacuteneacutetique La diffeacuterence drsquoun nucleacuteotideentre les deux ARNm est ainsi lue comme une diffeacuterence entre deux triplets GGC et GUCqui produit une diffeacuterence entre les proteacuteines traduites une diffeacuterence drsquoacide amineacute Gly(Glycine) en Val (Valine) Ainsi des geacutenotypes diffeacuterents porteacutes par lrsquoADN sont exprimeacutesgracircce au double processus de transcription-traduction en deux proteacuteines diffeacuterentes quipourront ecirctre responsables de deux pheacutenotypes diffeacuterents au niveau des fonctionnaliteacutesdrsquoune cellule drsquoun organe ou drsquoun organisme 12

12 Diverses descriptions ou reacutefeacuterences pour une mecircme variation geacutenomique 1713 Haplotypes tag-SNP et leur composition agrave partir des allegraveles de SNP voisins sur dif-

feacuterentes versions drsquoun mecircme chromosome Source http wwwhapmaporg 18

vii

viii Table des figures

14 Repreacutesentation originale du scheacutema repreacutesentant les diffeacuterentes cateacutegories (CO PD PKFA GN) associeacutees aux donneacutees de PharmGKB et leurs principales associations (doublesflegraveches noires) Source http wwwpharmgkborg 21

21 Repreacutesentation simplifieacutee du processus drsquo 24

22 Diffeacuterentes repreacutesentations du treillis associeacute au contexte K repreacutesenteacute dans le Tableau21 De gauche agrave droite le treillis des parties associeacute au contexte (ougrave tous les sous-ensembles drsquoattributs sont repreacutesenteacutes) treillis de Galois associeacute au mecircme contexte treillis de Galois en notation reacuteduite associeacute au mecircme contexte 31

23 Treillis des parties associeacute au contexte K repreacutesenteacute Tableau 22 La ligne de seacuteparationsymbolise le support minimum (min_supp = 3

5 ) dissociant les motifs non freacutequents audessus de la ligne des motifs freacutequents en dessous Le chiffre associeacute agrave chaque motifcorrespond au nombre drsquooccurences du motif dans K Source exemple extrait de [Sza06] 34

24 Classes drsquoeacutequivalence motifs fermeacutes freacutequents et geacuteneacuterateurs freacutequents associeacutes au con-texte K repreacutesenteacute Tableau 22 (min_supp = 2

5 ) Les relations de subsomption entreclasses drsquoeacutequivalence sont deacuteduites du treillis repreacutesenteacute Figure 23 Source exempleextrait de [Sza06] 36

25 Repreacutesentation des inclusions successives de lrsquoensemble des Regravegles Minimales Non-redondantes Reacuteduites (RMNR) dans lrsquoensemble des Regravegles Minimales Non-redondantes(RMN) puis de ce dernier ensemble dans celui de toutes les regravegles drsquoassociation 38

26 Cycle de vie drsquoune ontologie Source [DCGR98] 47

27 Architecture drsquoun systegraveme drsquointeacutegration de donneacutees suivant lrsquoapproche entrepocirct 49

28 Architecture drsquoun systegraveme drsquointeacutegration de donneacutees suivant lrsquoapproche meacutediateur 51

29 Extrait de la G O 56

210 Lrsquoontologie OntoDataClean preprocessing ontology preacutesenteacutee par Perez-Rey et al [PRAC06]Les ellipses griseacutees sont les concepts et les rectangles blancs leurs instances Les lignessimples sont des relations de subsomption ou des assertions de concepts Les lignesfleacutecheacutees sont les rocircles 61

211 Taxonomie T 64

212 Mapping simple proposeacute dans [SRR05] pour guider lrsquointerpreacutetation des reacutesultats de fouille 65

31 Extrait drsquoun diagramme de classes UML illustrant les relations de geacuteneacuteralisation entre unconcept issu drsquoun vocabulaire controcircleacute Sequence Ontology (SO) un concept drsquoune on-tologie de domaine SNP-Ontology (SNPO) et un concept drsquoune meacuteta-ontologie BasicFormal Ontology (BFO) 70

32 Diagramme UML repreacutesentant la reacutepartition des diagrammes de classes en quatre pa-quets (packages en anglais) Le concept de variant peut ecirctre associeacute aux seacutequencesgeacutenomiques sur lesquels ils sont localiseacutes originellement mais aussi aux seacutequences tran-scrites et proteacuteiques sur lesquelles sont observeacutees les conseacutequences des variations geacutenomiques 75

33 Diagramme de classes UML conceptualisant un variant la variation observeacutee pour unvariant et sa position sur une seacutequence 75

34 Diagramme de classes UML relatif aux seacutequences associeacutees agrave un variant 75

35 Repreacutesentation partielle de la hieacuterarchie de concepts de SNP-Ontology impleacutementeacutee enOWL 77

ix

36 Repreacutesentation scheacutematique de quelques concepts et rocircles de SNP-Ontology impleacutemen-teacutes en OWL NB en OWL les concepts sont appeleacutes des classes et les rocircles sont soitdes proprieacuteteacutes drsquoobjets (ObjectProperty) soit des proprieacuteteacutes de type de donneacutees (Object-

DataTypeProperty) Les rocircles preacutesentent un domaine et un co-domaine (noteacutes respective-ment owl domain et owl range) et parfois une contrainte de cardinaliteacute (owl minCar-

dinality par exemple) 7737 Diagramme de classes UML centreacute sur la conceptualisation des items cliniques 8238 Diagramme de classes UML centreacute sur la conceptualisation drsquoessais cliniques 8239 Diagramme de classes UML centreacute sur la conceptualisation drsquoun protocole drsquoessai clinique 82310 Architecture geacuteneacuterale de notre systegraveme drsquointeacutegration de donneacutees Lrsquoontologie utiliseacutee par

le meacutediateur est la mecircme que celle qui constitue la TBox de la Base de Connaissances 85311 Architecture de SNP-Converter suivant celle proposeacutee Figure 310 91312 Les diffeacuterentes eacutetapes du processus de conversion de la description drsquoune variation geacutenomique

pris en charge par SNP-Converter 92313 Exemple de conversion de la description drsquoune variation geacutenomique reacutealiseacutee par SNP-

Converter 92314 Utilisation du SNP-Converter comme wrapper et meacutediateur pour le peuplement drsquoune

base de connaissances relative aux variations geacuteneacutetiques du gegravene LDLR 98315 Diagramme de Venn repreacutesentant le recouvrement des trois jeux de donneacutees utiliseacutees

pour peupler la base de connaissances SNP-KB 98316 Architecture de iSO-Pharm instanciant lrsquoarchitecture geacuteneacuterale deacutecrite Figure 310 99

41 Description geacuteneacuterale de la meacutethode de seacutelection de donneacutees guideacutee par les connaissances 10642 Positionnement et relations des trois mappings Mdminusa Mdminusd et Miminusd Les mappings

Mdminusa sont deacutefinis entre un scheacutema de bases de donneacutees et la Base de ConnaissanceLes mappingMdminusd sont deacutefinis entre les scheacutemas des bases de donneacutees et la relation dujeu de donneacutees intial Le mapping Miminusd est deacuteduit des deux preacuteceacutedents Les fonctionssymboliques associeacutees aux mappings sont repreacutesenteacutees La forme geacuteneacuterale des fonctionsassocieacutees au mappingMiminusd est la composition de lrsquoinverse de fi et de h j 110

43 Approche pour la seacutelection de donneacutees (Figure 41) utiliseacutee pour lrsquoexpeacuterimentation ie

la recherche de relations geacutenotypendashpheacutenotype lieacutees agrave lrsquoHF 11244 Concepts de SNP-Ontology instancieacutes par des individus repreacutesentant des variations geacutenomiques

(rs_001 rs_002 rs_003 et rs_004) et un haplotype (NA_01234) Leacutegende les ovalespleins sont des concepts les ovales en tirets sont des individus la ligne pleine est unerelation de subsomption les lignes en tirets ronds sont des rocircles les lignes en tirets platssont des assertions 115

45 LrsquoExtraction de Connaissances agrave partir drsquoune Base de Connaissances ou 11946 LrsquoAnalyse des Assertions de Rocircles () et des ses diffeacuterentes eacutetapes 12247 Capture drsquoeacutecran du plugin de Proteacutegeacute 4 pour lrsquoAnalyse drsquoAssertions de Rocircles 13248 Un jeu de donneacutees exemple concernant la morphologie de cellules soumis agrave COBWEB

la hieacuterarchie de cluster produite et la hieacuterarchie de concepts (ou classes) RDF deacuteduite[CCH01] 143

49 Un treillis de concepts notation reacuteduite produit agrave partir de textes (agrave gauche) et la hieacuterar-chie de concepts en laquelle il est transformeacute (agrave droite) suivant la meacutethode proposeacutee dans[CHS05] 144

410 Un treillis de concepts notation reacuteduite produit agrave partir de textes (agrave gauche) et la hieacuterar-chie de concepts instancieacutee en laquelle il est transformeacute (agrave droite) suivant lrsquoalternativeproposeacutee dans [BTN08] 145

x Table des figures

411 Les diffeacuterences drsquoorganisation des domaines dans une sous-famille de proteacuteines phos-phatases les reacutecepteurs tyrosines phosphatases Ces organisations sont repreacutesenteacuteesdans lrsquoontologie des phosphatases et utiliseacutees pour la classification automatique de nou-velles proteacuteines [WLT+06] 146

C1 Code OWL qui correspond agrave la repreacutesenteacutee dans le Tableau 24 Ce code est enregistreacutedans le fichier ldquoexemple_de_bcowlrdquo 160

D1 Diagramme de classes UML donnant une vue geacuteneacuterale mais partielle de la conceptual-isation de SO-Pharm 162

E1 Capture drsquoeacutecran de SNP-Converter Lrsquoonglet preacutesenteacute srsquointitule Data integration Il pro-pose de seacutelectionner une liste de sources de donneacutees et une portion du geacutenome unexon un intron un gegravene entier ou un espace situeacute entre deux nucleacuteotides Lrsquoexeacutecutionde la fonction drsquointeacutegration de donneacutees de SNP-Converter par le bouton Run permetlrsquoinstanciation drsquoune Base de Connaissances SNP-KB qui permet drsquoeacutevaluer le recouvre-ment des donneacutees contenues dans les diffeacuterentes sources et repreacutesenteacutees dans le cadreintituleacute Database overlapp Par exemple le premier variant de la liste est initialementpreacutesent dans les 4 sources de donneacutees seacutelectionneacutees le second est preacutesent uniquementdans PharmGKB le troisiegraveme est dans HGVBase et PharmGKB 164

E2 Capture drsquoeacutecran de SNP-Converter Lrsquoonglet preacutesenteacute srsquointitule Conversion Il propose desaisir la descritpion drsquoun variant ici Chr6 18251934GgtC et de choisir un type de de-scription diffeacuterent pour deacutecrire le variant ici la position par rapport agrave lrsquoexon Lrsquoexeacutecutionpar le biais du bouton Run construit la description du variant donneacutee selon la descrip-tion demandeacutee TPMT_exon_6 129GgtC Le variant donneacute en entreacutee peut ecirctre soit unidentifiant drsquoune base de donneacutees soit ecirctre deacutecrit suivant la nomenclature HGVS 165

E3 Capture drsquoeacutecran de SNP-Converter Lrsquoonglet est le mecircme que celui preacutesenteacute dans laFigure E2 Cette figure repreacutesente en plus les diffeacuterents type de description suivantlesquelles il est possible de convertir le variant donneacute nomenclature HGVS du variantpositionneacute relativement agrave la seacutequence du chromosome de contigs de lrsquoexon de lrsquointronde la proteacuteine ou encore lrsquoidentifiant du variant dans dbSNP 165

G1 Capture drsquoeacutecran du plugin de Proteacutegeacute 4 pour lrsquoAnalyse drsquoAssertions de Rocircles 172

Liste des tableaux

21 Un premier exemple de contexte formel K 29

22 Un second exemple de contexte formel K 32

23 Syntaxe et seacutemantique associeacutees aux constructeurs de concepts les plus simples en Les constructeurs disponibles dans la logique de baseAL nrsquoont pas de symbole proprepour les autres le symbole correspondant est donneacute dans la quatriegraveme colonne Lrsquoan-nexe B deacutecrit une liste plus complegravete des constructeurs de concepts ainsi que de certainsconstructeurs de rocircles 42

24 Un exemple de Base de Connaissances eacutecrite en 42

25 Syntaxe et seacutemantique associeacutees aux axiomes terminologiques et assertionels en 43

26 Base de donneacuteesD 64

27 Regravegles conserveacutees (supportmin=03 confiancemin=06) apregraves geacuteneacuteralisation 64

31 Liste des sources exploreacutees pour enrichir la liste de termes relatifs aux variations geacutenomiquesLa troisiegraveme colonne preacutecise si la source de variations geacutenomiques concerne uniquementun locus particulier (source Locus Speacutecifique ou LS) uniquement lrsquohumain ou si elle estgeacuteneacuterique (multi-locus et multi-espegraveces) 74

32 Les deux ontologies articuleacutees avec SNP-Ontology 74

33 Liste des axiomes deacutecrivant les relations entre concepts propres agrave SNP-Ontology (SNPO)et concepts externes importeacutes de AA Ontology (AAO) et Sequence Ontology (SO) Lesidentifiants des concepts de SO sont donneacutes entre parenthegraveses 76

34 Liste des sources exploreacutees pour enrichir la liste de termes relatifs aux sous-domainesde la pharmacogeacutenomique La troisiegraveme colonne preacutecise le sous-domaine que la sourceconcerne Les vocabulaires controcircleacutes eacutetoileacutes () sont des ontologies OBO 80

35 Les 15 ontologies articuleacutees avec SO-Pharm Le preacutefixe repreacutesenteacute par le symbole ~correspond agrave lrsquoURL http wwwloriafr~coulet 81

36 Les principaux axiomes deacutecrivant des relations entre les concepts propres agrave SO-Pharm(SOPHARM) et les concepts externes des ontologies articuleacutees (voir Tableau 35) Lesidentifiants des concepts associeacutes sont donneacutes entre parenthegraveses lorsqursquoils existent Laliste complegravete inclut eacutegalement des axiomes qui formalisent des relations entre rocircles 83

41 Forme geacuteneacuterale du jeu de donneacutees eacutetudieacute dans le sceacutenario 104

42 Caracteacuterisation quantitative des reacutesultats bruts de fouille de donneacutees en fonction du nom-bre drsquoattribut seacutelectionneacutes 114

43 Contexte formel K(GMI) reacutesultat de lrsquoexploration des graphes drsquoassertions 125

xi

xii Liste des tableaux

44 Groupes de geacutenotypes associeacutes au sein des gegravenes eacutetudieacutes dans lrsquoinvestigation cliniquede Lima et al [LZG+06] La colonne de gauche preacutesente les trois groupes de geacutenotypesmis en eacutevidence par Lima et al par la mesure des deacuteseacutequilibres de liaison (Linkage

Desquilibrium ou LD en anglais) La colonne de droite preacutesente les groupes que nousavons mis en eacutevidence agrave partir du mecircme jeu de donneacutees avec lrsquo Cette deuxiegravemecolonne preacutesente dans certains cas deux associations de geacutenotypes diffeacuterents pour unmecircme groupe de variations (gegravene ABCC1 et CYSLTR1) Les regravegles dont sont extraits ces7 groupes sont reporteacutees en Annexe H 137

45 Geacutenotypes speacutecifiques aux pheacutenotypes preacutesenteacutes dans la colonne de gauche La colonnedu centre repreacutesente les geacutenotypes speacutecifiques mis en eacutevidence dans Lima et al parmeacutethodes statistiques(χ2 et rapport de vraisemblance) [LZG+06] La colonne de droiterepreacutesente les variations mises en eacutevidence par notre approche drsquoAnalyse des Assertionsde Rocircles Les regravegles qui mettent en eacutevidence ces associations sont reporteacutees en Annexe H 139

B1 Constructeurs de concepts en Logique de Descriptions et leurs correspondances enOWL C et D sont des concepts (respectivement C et D sont des classes) T est un conceptparticulier qui correspond agrave un type de donneacutees (un Datatype en OWL) n est un nombrea et b sont des individus R un rocircle (une proprieacuteteacute drsquoobjet ou ObjectProperty en OWL) etS un rocircle dont le co-domaine correspond agrave un concept de mecircme type que T (une proprieacuteteacutede donneacutees ou DatatypeProperty en OWL) 156

B2 Constructeurs de rocircles en Logique de Descriptions et leurs correspondances en OWLR et Q sont des rocircles (des proprieacuteteacutes drsquoobjet ou ObjectProperty en OWL) 157

Introduction

Ce chapitre est une introduction geacuteneacuterale agrave la thegravese Les sections 1ndash3 deacutecrivent le contexte scien-tifique de la thegravese la deacutecouverte de connaissances pour la pharmacogeacutenomique La section 4 preacutesentele contexte industriel qui a motiveacute cette thegravese La section 5 introduit sa probleacutematique puis la section 6lrsquoapproche adopteacutee et les principales contributions Enfin la section 7 preacutesente un reacutesumeacute des chapitresde la thegravese

1 Des donneacutees aux connaissances

Lrsquoexpansion du nombre de sources de donneacutees disponibles en particulier gracircce au Web et la quantiteacutede donneacutees geacutereacutees au sein de ces sources ont rendu indispensable la mise au point de systegravemes capablesdrsquoextraire de faccedilon automatique ou semi-automatique des connaissances disponibles mais cacheacutees parla complexiteacute des donneacutees Cette complexiteacute est principalement due agrave lrsquoheacuteteacuterogeacuteneacuteiteacute la diversiteacute ladispersion et le grand volume des donneacutees Le processus drsquoExtraction de Connaissances agrave partir de Basesde Donneacutees () deacutecrit par Frawley et al [FPSM91] a justement pour but la deacutecouverte drsquouniteacutes deconnaissances agrave partir drsquoensembles de bases de donneacutees volumineuses

Avant de deacutefinir et deacutetailler le processus drsquo il convient de preacuteciser la distinction que nous faisonsdans cette thegravese entre donneacutees information et connaissances De nombreuses tentatives de deacutefinition ontvu le jour notamment dans le domaine des sciences cognitives ougrave lrsquoexploitation drsquoinformations diversespar un systegraveme complexe permet lrsquoacquisition de connaissances capables de diriger la mise en œuvredrsquoactions Nous nous limiterons aux deacutefinitions accepteacutees de maniegravere geacuteneacuterale dans le domaine de lrsquoin-formatique exprimeacutees par Kayser de la faccedilon suivante [Kay97]

ndash les donneacutees sont le reacutesultat drsquoobservationsndash les informations sont le reacutesultat de lrsquointerpreacutetation de ces donneacuteesndash les connaissances deacutefinissent la faccedilon drsquoutiliser les donneacutees et informations

Cette distinction est preacutesenteacutee de faccedilon plus formelle par Devlin Schreiber et Wille [Dev99 SAA+99Wil02] de la faccedilon suivante

ndash donneacutees = signes + syntaxendash information = donneacutees + sens (ou seacutemantique)ndash connaissances = information assimileacutee et interpreacuteteacutee + possibiliteacute de mise en action de lrsquoinforma-

tion interpreacuteteacutee

Prenons un exemple relevant du domaine de la geacuteneacutetique et consideacuterons la seacutequence drsquoADN consti-tutive drsquoun gegravene au cœur drsquoune cellule A ce niveau la seacutequence de nucleacuteotides ie lrsquoenchaicircnement deplusieurs milliers drsquoA C G et T peut ecirctre consideacutereacutee comme des donneacutees brutes En revanche le fait

1

2 Introduction

que lrsquoon sache que cette seacutequence est reconnue par la machinerie cellulaire comme un gegravene particulierest une information Enfin les regravegles de fontionnement de la machinerie cellulaire et particuliegraverement lecode geacuteneacutetique de la cellule constituent les connaissances qui permettent drsquointerpreacuteter ce gegravene commeune proteacuteine utiliseacutee ensuite dans la mise en œuvre de fonctions biologiques

Dans un ordinateur les donneacutees informations et connaissances peuvent ecirctre repreacutesenteacutees selon lesformes suivantes

ndash donneacutees un nombre une image une chaicircne de caractegraveres par exemple ldquoATCGGCTAGCTTATATC-GATCGATrdquo

ndash information des donneacutees dans une base de donneacutees ou sous forme de tableau associeacutees auxmeacutetadonneacutees neacutecessaires agrave leur interpreacutetation souvent sous la forme drsquoun couple attributndashvaleurcomme par exemple ldquosequence_du_gene = ATCGGCTAGCTTATATCGATCGATrdquo

ndash connaissances des contraintes des regravegles des axiomes logiques utilisables par des programmespour exploiter les informations dans le cadre de la reacutealisation drsquoune action par exemple lrsquoaide agravela deacutecision le pilotage drsquoun robot la deacutecouverte de nouvelles connaissances

F 1 ndash Repreacutesentation scheacutematique et naiumlve du processus de transformation de donneacutees en informationpuis en connaissances A gauche un processus en pyramide et agrave droite en boucle La lettre C repreacutesenteles connaissances

Drsquoun point de vue opeacuterationnel il est inteacuteressant drsquoenvisager les processus qui permettent de passerde donneacutees agrave lrsquoinformation puis aux connaissances De faccedilon naiumlve ce processus peut ecirctre repreacutesenteacutesous forme de pyramide ougrave les connaissances occupent la place la plus haute pour souligner le fait quede nombreuses donneacutees sont neacutecessaires agrave lrsquoacquisition drsquoune connaissance [SAA+99 Wil02] Il noussemble plus exact de proposer un scheacutema composeacute drsquoune boucle dans la mesure ougrave les connaissancesexistantes peuvent servir pour associer un sens (ie une seacutemantique) agrave des donneacutees (voir Figure 1)

Nous remarquerons toutefois qursquoen informatique la distinction donneacuteesndashinformation est artificiellepuisque les programmes ne manipulent que des donneacutees (le nom drsquoun attribut ou une valeur attribueacuteeagrave celui-ci) Comme observe Guus Schreiber dans son livre sur la meacutethodologie de gestion des connais-sances CommonKADS que ce soit pour un programme ou un humain la frontiegravere entre donneacutees et infor-mation nrsquoest pas franche car elle est fortement deacutependante du contexte drsquoutilisation [SAA+99] Ainsi lesens associeacute agrave une donneacutee peut ecirctre diffeacuterent drsquoun pays agrave lrsquoautre drsquoun domaine professionnel agrave lrsquoautreDe mecircme des donneacutees peuvent ecirctre chargeacutees de sens pour un utilisateur averti et agrave ce titre constituerune source drsquoinformation alors qursquoelles nrsquoauront aucun sens et resteront au stade de donneacutees pour unutilisateur non averti

Les connaissances constituent une notion nettement distincte de celles de donneacutees et drsquoinformation

1 Des donneacutees aux connaissances 3

Donneacuteestransformeacutees

Inteacuterepreacutetation Eacutevaluation

Fouillede donneacutees

Transformation

Seacutelection

Base de donneacuteesheacuteteacuterogegravenes

Donneacuteesseacutelectionneacutees

(i) Preparation

des donnees

(ii) Fouille

de donnees(iii)Interpretation

Modegraveles

Connaissance InteacutegrationNettoyage

Donneacuteesinteacutegreacutees

F 2 ndash La repreacutesentation classique du processus drsquoExtraction de Connaissances agrave partir des Bases deDonneacutees () (drsquoapregraves [FPSS96])

qui restent purement descriptives De faccedilon diffeacuterente les connaissances se distinguent par leur caractegraveredynamique orienteacutees vers lrsquoaction comme par exemple la prise de deacutecision ou lrsquoacquisition de nouvellesconnaissances Ainsi la repreacutesentation des connaissances en informatique est toujours associeacutee agrave des meacute-canismes de raisonnement qui permettent la reacutesolution de problegravemes

Dans cette thegravese nous nous inteacuteressons particuliegraverement au processus drsquo Celui-ci a justementpour but la deacutecouverte drsquouniteacutes drsquoinformation (ou uniteacutes extraites) agrave partir drsquoensembles de bases dedonneacutees volumineuses Ces uniteacutes drsquoinformation pourront ensuite ecirctre interpreacuteteacutees comme des uniteacutesde connaissance non triviales potentiellement utiles et reacuteutilisables Geacuteneacuteralement le processus drsquoest appliqueacute agrave la fois de faccedilon iteacuterative et interactive Iteacuterative car les reacutesultats produits peuvent ecirctrereacuteutiliseacutes lors des iteacuterations suivantes du processus Interactive car le processus drsquo est reacutealiseacute sousle controcircle drsquoun expert du domaine eacutetudieacute lrsquoanalyste Crsquoest lui qui guide le processus en fonction deses objectifs de ses propres connaissances du domaine et des reacutesultats obtenus lors des preacuteceacutedentesiteacuterations de lrsquoextraction

Nous distinguons trois eacutetapes principales dans le processus repreacutesenteacutees Figure 2 ndash (i) la preacuteparation des donneacutees incluant leur seacutelection leur inteacutegration et leur nettoyage en vue de

leur utilisation par les algorithmes de fouille de donneacuteesndash (ii) lrsquoopeacuteration de fouille de donneacutees proprement dite conduisant agrave lrsquoextraction drsquouniteacutes drsquoinfor-

mation preacutesentes sous forme de reacutegulariteacutes dans les donneacutees etndash (iii) lrsquointerpreacutetation des uniteacutes drsquoinformation extraites en terme de connaissanceLes uniteacutes de connaissance ainsi produites peuvent ecirctre exprimeacutees dans un formalisme de repreacutesen-

tation des connaissances afin de pouvoir ecirctre utiliseacutees dans des systegravemes fondeacutes sur les connaissancesDans la suite de cette thegravese nous ne consideacutererons pas la notion drsquoinformation tregraves deacutependante de lrsquoin-

terpreacutetation individuelle Plutocirct que drsquoemployer le terme drsquouniteacute drsquoinformation nous preacutefeacutererons parlerdrsquouniteacutes extraites par la fouille de donneacutees qui peuvent revecirctir diffeacuterentes formes selon lrsquoalgorithme defouille utiliseacute un motif freacutequent un concept formel une regravegle drsquoassociation un cluster etc En revanchenous nous attacherons agrave eacutetudier ce qui distingue les donneacutees des connaissances le couple ltsyntaxe seacute-mantique formellegt et comment ce couple est exploiteacute par des meacutecanismes de raisonnement pour mettreen action les connaissances

4 Introduction

F 3 ndash Une annotation humoristique du geacutenome humain par Matt Davies The Journal NewsLos Angeles

Times Syndicate 2000

Dans le domaine de la geacutenomique et plus geacuteneacuteralement de la biologie moleacuteculaire les progregravesbiotechnologiques ont meneacute agrave lrsquoacquisition de larges volumes de donneacutees puis agrave leur enregistrementdans des centaines de bases de donneacutees creacuteeacutees speacutecialement [Bat08] Par exemple les techniques deseacutequenccedilage moleacuteculaire de lrsquoADN ont permis le deacutecryptage drsquoune premiegravere version du geacutenome hu-main en 2001 mis ensuite agrave la disposition de la communauteacute scientifique dans trois bases de donneacutees[ea01 Con01]

ndash Genome Browser1 de lrsquoUCSD (University of California Santa Cruz)ndash Ensembl2 de lrsquoEBI (European Bioinformatics Institute) etndash Map Viewer3 du NCBI (National Center for Biotechnology Information)Drsquoautres projets depuis srsquointeacuteressent agrave affiner la seacutequence du geacutenome et agrave lrsquoannoter (ie la carac-

teacuteriser) en explorant entre autres les variations geacutenomiques le transcriptome le proteacuteome La Figure 3repreacutesente de faccedilon humoristique des annotations du geacutenome humain De faccedilon plus seacuterieuse le pro-jet international HapMap termineacute en 2007 et le projet 1000 genomes initieacute en 2008 explorent lesvariations inter-individuelles du geacutenome humain avec entre autres lrsquoobjectif drsquoenrichir son annotation[Con03 Spe08] La somme de donneacutees collecteacutees est particuliegraverement inteacuteressante en geacutenomique fonc-tionnelle ou en geacutenomique inteacutegrative qui eacutetudie lrsquoimpact sur le fonctionnement du geacutenome de facteursenvironnementaux comme lrsquoalimentation un traitement meacutedicamenteux ou des habitudes de vie

Cependant les meacutedecins et les biologistes qui utilisent quotidiennement ces bases de donneacutees dansleur activiteacute de diagnostic et de recherche sont limiteacutes par la complexiteacute des donneacutees Premiegraverement lenombre et la dispersion des sources compliquent les tacircches de collecte manuelle de donneacutees Seconde-ment le volume ainsi que des consideacuterations plus speacutecifiques aux sciences du vivant comme la grande

1httpgenomeucsceducgi-binhgGateway2httpwwwensemblorgHomo_sapiensindexhtml3httpwwwncbinlmnihgovprojectsmapview

2 Des connaissances pour de nouvelles connaissances 5

varieacuteteacute des donneacutees leur tendance agrave ecirctre fortement interconnecteacutees et leurs reacutefeacuterences agrave des domainesspeacutecialiseacutes compliquent lrsquoanalyse et lrsquointerpreacutetation

Face agrave cette difficulteacute lrsquo propose un cadre meacutethodologique qui a eacuteteacute appliqueacute avec succegraves enbiologie pour inteacutegrer les donneacutees repreacutesenteacutees dans des formats heacuteteacuterogegravenes et disperseacutees dans dif-feacuterentes sources [GS08] et analyser les donneacutees par des meacutethodes de fouille afin drsquoen extraire des reacutegu-lariteacutes (ou des irreacutegulariteacutes) [WZTS05]

Cependant rares sont les travaux qui reacuteutilisent effectivement les connaissances extraites ou qui tirentparti des connaissances deacutejagrave existantes pour faire face agrave la complexiteacute des donneacutees post-geacutenomiques

2 Des connaissances pour de nouvelles connaissances

Un axe de recherche de lrsquoeacutequipe-projet INRIA Orpailleur est de guider le processus drsquo non plusseulement par les connaissances de lrsquoanalyste mais eacutegalement par des connaissances exprimeacutees dansun langage de repreacutesentation des connaissances particulier interpreacutetable par une machine [LNST08]Le processus drsquo ainsi guideacute par les connaissances du domaine est appeleacute pour Extraction de

Connaissance guideacutee par les Connaissances du Domaine (ou en anglais pour Knowledge Discovery

guided by Domain Knowledge)De nombreux travaux en intelligence artificielle se sont inteacuteresseacutes agrave la repreacutesentation formelle de

connaissances dans lrsquoobjectif de rendre celles-ci interpreacutetables aussi bien par une machine que par unecirctre humain Crsquoest notamment lrsquoobjectif du Web seacutemantique tel que le deacutecrit Tim Berners-Lee [BLHL01]de proposer une extension du Web actuel dans laquelle les machines ldquocomprennentrdquo les informationsauxquelles elles accegravedent et sont ainsi en mesure de les manipuler en tant que connaissances au sein demeacutecanismes de raisonnement automatiques

A la base de lrsquoinfrastructure drsquoapplications fondeacutees sur les connaissances comme le Web seacutemantiquese trouvent les ontologies Le terme ontologie fait reacutefeacuterence agrave diverses notions connexes branche dela philosophie vocabulaire controcircleacute taxonomie ordre partiel par exemple Aussi la deacutefinition adopteacuteedans cette thegravese est celle de Thomas Gruber qui vaut pour les ontologies des applications fondeacutees surles connaissances selon laquelle une ontologie est une description formelle des concepts relatifs agrave undomaine et des relations entre ces concepts [Gru93]

Le Web Seacutemantique et lrsquoeffervescence qursquoil suscite ont meneacute la communauteacute scientifique au deacuteveloppe-ment de standards notamment pour la repreacutesentation des connaissances Le langage OWL (Web Ontology

Language) est ainsi le langage standard pour la repreacutesentation des ontologies du Web Seacutemantique OWLest issu agrave la fois des langages du Web (HTML XML RDF) et de formalismes logiques tels que leslogiques de descriptions

Des centaines drsquoontologies exprimeacutees en OWL sont partageacutees publiquement via le Web En bioin-formatique le besoin de modeacutelisation et drsquointeropeacuterabiliteacute des modegraveles biologiques en particulier pourrendre possible lrsquointeacutegration de donneacutees a favoriseacute le partage et le deacuteveloppement communautaire debio-ontologies via des portails Web comme le Bioportal ou lrsquoOBO-Foundry [RMKM08 SAR+07]

Il est eacutetabli que les meacutethodes de repreacutesentation des connaissances constituent un atout pour par-ticiper au deacutecryptage des masses de donneacutees collecteacutees en sciences du vivant en grande partie car ellespermettent la modeacutelisation de leur diversiteacute et de leur heacuteteacuterogeacuteneacuteiteacute [Rec00 Ste08] Les applications Ri-boWeb et EcoCyc illustrent notamment comment des bio-ontologies peuvent ecirctre utiliseacutees pour favoriserlrsquoexploitation de donneacutees biologiques [ABC+99 KACV+04] Le langage OWL comme standard et lesportails comme zone de partage et de structuration des connaissances en sciences du vivant sont deuxavanceacutees qui doivent favoriser le succegraves des approches fondeacutees sur les connaissances pour la deacutecouvertede connaissances en biologie

Ainsi lrsquoobjectif geacuteneacuteral de cette thegravese est drsquoeacutetudier comment les connaissances formaliseacutees dans

6 Introduction

Meacutedicament

Geacutenotype Pheacutenotype

F 4 ndash Repreacutesentation scheacutematique de la relation entre meacutedicament geacutenotype pheacutenotype eacutetudieacutee enpharmacogeacutenomique

une ontologie peuvent faciliter le processus de deacutecouverte de connaissances et cela notamment dans ledomaine de la pharmacogeacutenomique

3 La pharmacogeacutenomique

La pharmacogeacutenomique eacutetudie comment certaines variations geacuteneacutetiques inter-individuelles impliquentune variabiliteacute dans les reacuteponses entre individus agrave un mecircme traitement meacutedicamenteux [Web97]

La distinction classique entre la pharmacogeacuteneacutetique et la pharmacogeacutenomique preacutesente la phar-macogeacuteneacutetique comme lrsquoeacutetude des caractegraveres heacutereacuteditaires associeacutes agrave la pharmacologie et la pharma-cogeacutenomique comme lrsquoeacutetude au niveau moleacuteculaire de ces facteurs geacuteneacutetiques de leurs interactionsmutuelles et de leurs conseacutequences multiples tant au niveau macroscopique qursquoau niveau microscopique(moleacuteculaire cellulaire tissulaire) Ainsi une deacutefinition plus complegravete de la pharmacogeacutenomique com-prend lrsquoeacutetude de lrsquoensemble des gegravenes ayant une influence sur la pharmacologie des manifestations deleurs variations geacutenomiques de lrsquointeraction de ces variations dans la production de pheacutenotypes et delrsquoinfluence drsquoun tel pheacutenotype sur la reacuteponse agrave un meacutedicament [AK02]

La pharmacogeacutenomique peut ecirctre scheacutematiquement repreacutesenteacutee comme lrsquoeacutetude des relations ter-naires existant entre un traitement meacutedicamenteux un geacutenotype et un pheacutenotype (Figure 4)

ndash Typiquement le traitement meacutedicamenteux correspond agrave lrsquoadministration drsquoune (ou plusieurs)moleacutecule(s) avec une certaine dose une certaine freacutequence et via une certaine voie drsquoadministra-tion

ndash Le geacutenotype correspond agrave une (ou plusieurs) version(s) drsquoune variation geacutenomique Le plus sou-vent il srsquoagit du geacutenotype (ie deux allegraveles pour les espegraveces diploiumldes) observeacute sur le site drsquounevariation ponctuelle du geacutenome ie un Single Nucleotide Polymorphism (SNP)

ndash Le pheacutenotype distingue geacuteneacuteralement trois classes qui correspondent agrave trois types de reacuteponses aumeacutedicament la reacuteponse attendue lrsquoabsence drsquoeffet une reacuteponse adverse au meacutedicament

Un exemple drsquointeraction pharmacogeacutenomique deacutecrite par Desmeules et al [DGDM91] et Gascheet al [GDF+04] est lrsquoinfluence des variations du gegravene CYP2D6 dans la reacuteponse agrave un traitement decodeacuteine La codeacuteine est un opiaceacute prescrit entre autres pour son pouvoir analgeacutesique La codeacuteine estphysiologiquement meacutetaboliseacutee dans le foie en morphine responsable de son effet analgeacutesique Il ex-iste plusieurs versions fonctionnelles du gegravene CYP2D6 (ie plusieurs variants du gegravene) dont les produitsagissent diffeacuteremment sur la transformation de codeacuteine en morphine et permettent de distinguer plusieurscateacutegories drsquoindividus (Figure 5) les meacutetaboliseurs lents (porteurs de variants agrave activiteacute faible) lesmeacutetaboliseurs rapides (porteurs de variants agrave activiteacute normale ou forte) les meacutetaboliseurs ultra-rapides(porteurs de copies multiples de variants agrave activiteacute normale ou forte) Les meacutetaboliseurs lents sont inca-pables de meacutetaboliser efficacement la codeacuteine en morphine et en conseacutequence ne preacutesentent pas lrsquoeffetanalgeacutesique attendu Les meacutetaboliseurs ultra-rapides meacutetabolisent la codeacuteine avec une efficaciteacute accrue

3 La pharmacogeacutenomique 7

Codeacuteine25mg voie orale

Codeacuteine25mg voie orale

Codeacuteine

CYP2D64 Aucun effet Effetanalgeacutesique

Taux de morphinetoxique

25mg voie orale

CYP2D6UMCYP2D61

F 5 ndash Trois exemples de relations pharmacogeacutenomiques particuliegraveres entre un traitement de codeacuteinela version du gegravene CYP2D6 et lrsquoeffet de la codeacuteine En fonction de la version du gegravene la reacuteponse estdiffeacuterente De gauche agrave droite le cas de meacutetaboliseurs lents normaux ou leacutegegraverement rapides et ultra-rapides Il est inteacuteressant de noter que lrsquoadministration drsquoune dose de codeacuteine plus eacuteleveacutee (50 mg par ex-emple) aux meacutetaboliseurs lents permet de compenser la limitation de lrsquoactiviteacute enzymatique et drsquoobtenirlrsquoeffet analgeacutesique attendu

qui entraicircne une intoxication agrave la morphine

Les reacutesultats des projets de collecte de donneacutees agrave haut deacutebit comme le seacutequenccedilage du geacutenomede ses variations lrsquoeacutetude des transcriptome et proteacuteome alimentent le deacuteveloppement de la pharma-cogeacutenomique Le beacuteneacutefice des meacutethodes deacuteveloppeacutees et des connaissances ainsi acquises constitue uncatalyseur pour les chercheurs en biologie meacutedicale qui voient lagrave une occasion de beacuteneacuteficier des deacutecou-vertes en biologie moleacuteculaire pour obtenir des reacutesultats en pratique clinique [ER99] Ce type drsquoimpor-tation des deacutecouvertes ldquotheacuteoriquesrdquo pour le monde clinique srsquoinscrit dans un effort geacuteneacuteral de recherchebiomeacutedicale appeleacute la meacutedecine translationelle (traduit directement de lrsquoanglais translational medicine)[Mar03] Il est inteacuteressant de noter que la recherche translationelle srsquointeacuteresse eacutegalement au cheminementinverse crsquoest agrave dire agrave eacutetudier comment des deacutecouvertes et des pratiques cliniques peuvent ecirctre utiles pourprogresser en biologie moleacuteculaire

Une application attendue de la pharmacogeacutenomique au niveau des pratiques cliniques est la geacuteneacuterali-sation des prescriptions meacutedicales individualiseacutees prenant en consideacuteration une exploration preacutealable dugeacutenotype du patient Ceci permettrait drsquooptimiser lrsquoefficaciteacute du traitement et drsquoen preacutevenir les reacuteponsesadverses [ER04] Cette application appeleacutee meacutedecine individualiseacutee (individualized medicine an anglais)inteacuteresse les pouvoirs publics qui y voient un inteacuterecirct eacuteconomique eacutevident La pharmacogeacutenomique in-teacuteresse eacutegalement les industries pharmaceutiques dans la mesure ougrave les variations inter-individuelles dansles reacuteponses aux meacutedicaments peuvent expliquer pourquoi des moleacutecules efficaces sur un panel restreintsrsquoavegraverent apregraves de coucircteux deacuteveloppements inefficaces (voire dangereuses) au sein drsquoune populationplus vaste Crsquoest justement le cas du BiDil un meacutedicament deacuteveloppeacute pour reacuteduire le risque drsquoaccidentscardio-vasculaires Le BiDil srsquoeacutetait reacuteveacuteleacute inefficace lors des phases finales de son programme de misesur le marcheacute puis apregraves avoir eacuteteacute mis quelques temps de cocircteacute il a eacuteteacute montreacute qursquoil eacutetait particuliegravere-ment efficace pour un groupe particulier de population les afro-ameacutericains [TZY+04] Cet exemplealimente par ailleurs un deacutebat eacutethique sur les deacuterives qui pourraient ecirctre associeacutees au deacuteveloppement et agravela prescription de moleacutecules reacuteserveacutees agrave des sous-groupes de populations [SHSD08]

En conclusion la pharmacogeacutenomique est un domaine qui preacutesente un fort inteacuterecirct meacutedical et quibeacuteneacuteficie de bases de donneacutees biologiques et de meacutethodes informatiques innovantes [AK02] Ces deuxarguments font de la pharmacogeacutenomique un domaine drsquoapplication pertinent pour ce travail de thegravese

8 Introduction

4 Le projet GenNet

Le travail preacutesenteacute dans cette thegravese a eacuteteacute initieacute dans le cadre drsquoun projet europeacuteen EUREKA intituleacuteGenNet impliquant les socieacuteteacutes KIKA Medical Phenosystems et lrsquoeacutequipe Orpailleur du LORIA

Lrsquoideacutee drsquoorigine du projet est baseacutee sur le constat qursquoun nombre grandissant drsquoessais cliniques in-clut parmi les variables exploreacutees des donneacutees geacuteneacutetiques les reacutesultats de geacutenotypage de marqueursbiologiques chez les patients eacutetudieacutes Le projet GenNet se proposait de deacutevelopper une infrastructure quidans ce contexte soit capable

(1) drsquoenregistrer conjointement donneacutees cliniques classiques (pression arteacuterielle mesure du cholesteacuteroltotal dans le sang etc) et donneacutees geacuteneacutetiques (ici le geacutenotype de variations geacutenomiques) relativesagrave un groupe de patients et

(2) drsquoanalyser les relations entre les variables ainsi collecteacutees

Dans ce contexte un sujet de thegravese a eacuteteacute proposeacute pour explorer deux problegravemes connexes au projetindustriel

(a) compleacuteter les donneacutees de lrsquoessai clinique avec des donneacutees issues de bases de donneacutees biologiquespubliques ou priveacutees Ces nouvelles donneacutees constituent un ensemble drsquoannotations4 issues destravaux de recherche en biologie moleacuteculaire qui peuvent srsquoaveacuterer utiles dans lrsquoanalyse des donneacuteesrelatives agrave la population eacutetudieacutee Ces annotations suppleacutementaires peuvent par exemple permettrede mieux caracteacuteriser un sous-groupe de patients

(b) proposer une approche drsquoanalyse originale qui utilise les connaissances du domaine pour faire faceagrave la complexiteacute speacutecifique des donneacutees biologiques en terme drsquoheacuteteacuterogeacuteneacuteiteacute de varieacuteteacute de speacuteci-ficiteacute et en extraire des connaissances potentiellement utiles

Il est possible drsquoimaginer que des reacutesultats ainsi obtenus puissent agrave leur tour ecirctre agrave la base de travauxen biologie moleacuteculaire et ainsi boucler la boucle de la meacutedecine translationelle deacutecrite en section 3 decette introduction

5 Probleacutematique

Pour extraire des connaissances agrave partir de donneacutees heacuteteacuterogegravenes et srsquoaider pour cela des connais-sances existantes notamment dans le domaine de la pharmacogeacutenomique nous nous sommes interesseacutesagrave deux problegravemes principaux le premier consiste en la reacuteconciliation indispensable des diffeacuterentes don-neacutees selon une syntaxe et une seacutemantique commune le second consiste agrave eacutetendre les meacutethodes drsquoextrac-tion de connaissances pour leur permettre non seulement de travailler avec des donneacutees mais eacutegalementavec une seacutemantique associeacutee aux donneacutees

Le premier problegraveme se pose lorsque lrsquoon souhaite inteacutegrer des donneacutees provenant de sources auxscheacutemas distincts Il est dans ce cas neacutecessaire de deacuteterminer des correspondances entre les entiteacutes eacutequiv-alentes repreacutesenteacutees dans les diffeacuterents scheacutemas Ce problegraveme est accentueacute par le fait que souvent laseacutemantique associeacutee aux entiteacutes repreacutesenteacutees agrave travers les scheacutemas des sources de donneacutees nrsquoest paseacutenonceacutee clairement Par exemple le nom drsquoun attribut et les valeurs qursquoil prend ne suffisent pas agrave deacuteter-miner preacutecisement ce que repreacutesente le couple attributndashvaleur et laisse ainsi une part de liberteacute agrave lrsquoin-terpreacutetation de lrsquoutilisateur Une seacutemantique preacutecise peut ecirctre associeacutee aux attributs et agrave leurs valeurs agravelrsquoaide de descriptions formelles eacutetablies dans une ontologie Une telle association neacutecessite la mise en

4De faccedilon tregraves geacuteneacuterale une annotation est une donneacutees associeacutee agrave une seacutequence constitutive du geacutenome pour permettre soninterpreacutetation par des biologistes

6 Approche et principales contributions 9

correspondance non triviale drsquoune part des scheacutemas des sources de donneacutees et drsquoautre part des conceptset relations deacutefinies dans une ontologie

Le second problegraveme se pose lorsque lrsquoon souhaite utiliser des connaissances de domaine pour guiderlrsquoextraction de connaissances En effet mecircme lorsque les scheacutemas de donneacutees sont associeacutes aux conceptsdrsquoune ontologie les algorithmes de fouille de donneacutees au coeur du processus ne sont pas capables deprendre en consideacuteration cette association De plus si les uniteacutes extraites par la fouille sont de maniegravereassez naturelle reacuteutiliseacutees par lrsquoanalyste lors des iteacuterations successives du processus drsquo il est plus rareque le soient des uniteacutes de connaissances valideacutees et potentiellement formaliseacutees selon une seacutemantiquepreacutecise Cela neacutecessiterait soit lrsquoadaptation des diverses eacutetapes du processus drsquo pour qursquoagrave chaqueeacutetape les connaissances disponibles puissent ecirctre reacuteutiliseacutees soit de proposer des meacutethodes alternativescapables de prendre en entreacutee des donneacutees et des connaissances preacutealablement mises en correspondance

6 Approche et principales contributions

Pour traiter les deux problegravemes deacutegageacutes dans la section preacuteceacutedente nous proposons dans cette thegraveseune approche centreacutee sur une Base de Connaissances (ou ) ie une ontologie agrave laquelle est associeacuteela description drsquoun eacutetat particulier du domaine repreacutesenteacute sous la forme drsquoassertions La premiegravere partiede cette approche consiste agrave reacuteconcilier des donneacutees contenues dans des sources heacuteteacuterogegravenes en les exp-rimant selon les termes de lrsquoontologie La seconde partie de lrsquoapproche consiste agrave extraire de nouvellesconnaissances de la Base de Connaissances en exploitant conjointement les reacutegulariteacutes preacutesentes dansles donneacutees (et conserveacutees dans la Base de Connaissances) et les connaissances du domaines declareacuteesexplicitement dans cette base

Inteacutegration de donneacutees guideacutee par une ontologie Nous avons construit deux ontologies en OWLrelatives aux domaines des variations geacutenomiques et de la pharmacogeacutenomique suivant une meacutethodologierigoureuse Nous proposons une approche drsquointeacutegration de donneacutees qui exploite ces ontologies originalespour guider lrsquointeacutegration des donneacutees relatives agrave ces domaines Les donneacutees et leurs scheacutemas sont utiliseacutespour peupler les Bases de Connaissances associeacutees aux ontologies agrave lrsquoaide de mises en correspondance etde fonctions de transformation entre donneacutees et connaissances Les Bases de Connaissances reacutesultantesoffrent une vue indirecte mais homogegravene sur lrsquoensemble de ces donneacutees et nous a permis entre autresdrsquoeacutevaluer le taux de recouvrement des sources inteacutegreacutees

Extraction de connaissances agrave partir drsquoune Base de Connaissances Nous proposons une meacutethodeoriginale drsquoextraction de connaissances qui utilise la seacutemantique associeacutee aux instances drsquoune Base deConnaissances obtenue suivant lrsquoapproche drsquointeacutegration deacutecrite ci-dessus Cette meacutethode appelleacutee Anal-yse des Assertions de Rocircles srsquoattache agrave explorer les reacutegulariteacutes dans les assertions drsquoune Base de Connais-sances Les uniteacutes de connaissances produites sont exprimeacutees suivant le mecircme formalisme que celui dela Base de Connaissances ce qui permet ensuite leur manipulation par des meacutecanismes de raisonnementpour leur inteacutegration coheacuterente agrave lrsquoensemble des connaissances preacutealables

7 Plan du manuscrit

Ce manuscrit est organiseacute en 4 chapitres Les deux premiers fixent le contexte biologique et lrsquoeacutetat delrsquoart relatifs agrave la probleacutematique de la thegravese Les deux suivants preacutesentent les contributions de la thegravese Laderniegravere partie est une conclusion du travail

10 Introduction

Chapitre 1 Contexte biologique et applicatif Dans ce chapitre nous preacutesentons les notions bi-ologiques utiliseacutes dans la thegravese les relations geacutenotypendashpheacutenotype les variations geacutenomiques et lapharmacogeacutenomique

Chapitre 2 Etat de lrsquoart Ce chapitre preacutesente le processus drsquoExtraction de Connaissances agrave partir

de Bases de Donneacutees () puis deux systegravemes de repreacutesentation des connaissances en rapport avec lescontributions de cette thegravese Il illustre ensuite comment une repreacutesentation des connaissances peut ecirctreutiliseacutee pour guider lrsquoextraction de connaissances tout drsquoabord lors de lrsquoeacutetape drsquointeacutegration de donneacuteespuis plus geacuteneacuteralement lors de chacune des eacutetapes du processus drsquoextraction de connaissances

Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique Ce chapitre preacutesentela premiegravere contribution agrave savoir lrsquoutilisation drsquoontologies originales construites dans le cadre de lathegravese pour lrsquointeacutegration de donneacutees pharmacogeacutenomiques Il est donc deacutedieacute premiegraverement agrave la preacutesen-tation de nos ontologies SNP-Ontology et SO-Pharm et agrave la meacutethode rigoureuse mise en œuvre pourles construire Deuxiegravemement il deacutecrit lrsquoapproche proposeacutee pour inteacutegrer des donneacutees agrave lrsquoaide de cesontologies Troisiegravemement sa derniegravere section preacutesente les expeacuterimentations meneacutees dans le cadre delrsquointeacutegration de donneacutees relatives aux variations geacutenomiques et agrave la pharmacogeacutenomique

Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances Ce chapitredeacutetaille les deuxiegraveme et troisiegraveme contributions de la thegravese agrave savoir deux utilisations originales debases de connaissances pour guider lrsquoextraction de connaissances La premiegravere se concentre sur lrsquoeacute-tape de seacutelection des donneacutees agrave consideacuterer et est illustreacutee par des sceacutenarios de recherche de relationsgeacutenotypendashpheacutenotype La seconde quant agrave elle deacutecrit la meacutethode drsquoAnalyse des Assertions de RocirclesNous proposons par cette meacutethode drsquoextraire des connaissances agrave partir drsquoune Base de ConnaissancesUne expeacuterimentation sur lrsquoextraction de connaissances agrave partir de connaissances en pharmacogeacutenomiquetermine ce chapitre

Conclusion et perspectives Cette derniegravere partie conclut ce travail et en deacutegage les perspectives

Chapitre 1

Contexte biologique et applicatif

Ce chapitre est une introduction aux notions de biologie abordeacutees dans cette thegravese La premiegraveresection deacutefinit les notions de geacutenotype et de pheacutenotype et introduit les relations existant entre ces deuxnotions et lrsquointeacuterecirct de les eacutetudier La deuxiegraveme section preacutesente les variations geacutenomiques qui consistenten des variations de la composition moleacuteculaire du geacutenotype et qui peuvent expliquer des modificationsdu pheacutenotype La troisiegraveme et derniegravere section de ce chapitre preacutesente la pharmacogeacutenomique domainedrsquoapplication de ce travail de thegravese Les probleacutematiques biologiques propres agrave ce domaine motiventnotamment de larges parties de ce travail

1 Geacutenotype et pheacutenotype

11 Deacutefinitions

Le geacutenotype drsquoun individu est lrsquoensemble des donneacutees porteacutees par le geacutenome de cet individu endrsquoautres termes lrsquoensemble de son mateacuteriel geacuteneacutetique Pour la plupart des organismes ce mateacuteriel geacuteneacute-tique est codeacute sous forme de seacutequences drsquoAcide Deacutesoxyribonucleacuteique ou ADN composeacutees par lrsquoenchaicircne-ment de quatre moleacutecules particuliegraveres les nucleacuteotides noteacutes A C G et T (abreacuteviations de leurs nomscomplets Adeacutenine Cytosine Guanine et Thymine) Chez lrsquohomme et les eucaryotes en geacuteneacuteral lrsquoADNest porteacute par les chromosomes eux mecircme situeacutes dans le noyau de chaque cellule Le geacutenotype constitueles donneacutees de bases exploiteacutees par les cellules pour deacutefinir les caractegraveres drsquoun individu

Le pheacutenotype est quant agrave lui lrsquoensemble des traits observables drsquoun individu et reacutesulte de lrsquoexpres-sion de son geacutenotype Il est important de preacuteciser que lrsquoexpression du geacutenotype et donc le pheacutenotype quien reacutesulte sont sensibles agrave lrsquoinfluence de facteurs multiples le moment de la vie lrsquoenvironnement lanutrition le stress la maladie ou un traitement meacutedicamenteux

12 Transcription et traduction premiegraveres eacutetapes de la deacutefinition drsquoun pheacutenotype

Lrsquoexpression du geacutenotype en un ensemble de traits observables se fait suivant deux eacutetapes princi-pales la transcription et la traduction repreacutesenteacutees Figure 11 de faccedilon simple Lrsquouniteacute fonctionnelle dugeacutenome consideacutereacutee par la cellule lors de la transcription est le gegravene qui est donc deacutelimiteacute sur lrsquoADNpar des signaux de deacutebut et de fin de transcription Aussi suivant cette premiegravere eacutetape un gegravene est tran-scrit crsquoest agrave dire converti en une seacutequence de nucleacuteotides dont la composition diffegravere leacutegegraverement decelle de lrsquoADN par le fait que les nucleacuteotides T (les Thymines) sont transcrits en nucleacuteotides U (abreacutevia-tion drsquoUracile) Cette nouvelle moleacutecule appeleacutee ARNm pour Acide Ribonucleacuteique Messager peut sortirdu noyau de la cellule ougrave reste lrsquoADN pour ensuite subir une nouvelle transformation la traduction

11

12 Chapitre 1 Contexte biologique et applicatif

LrsquoARNm est traduit selon la correspondance eacutetablie par le code geacuteneacutetique5 en une seacutequence non plus denucleacuteotides mais drsquoacides amineacutes pour constituer une proteacuteine ou parfois une version preacuteliminaire inac-tive drsquoune proteacuteine La seacutequence drsquoADN qui sert agrave la deacutetermination de la seacutequence drsquoacides amineacutes de laproteacuteine est appeleacutee seacutequence codante Les proteacuteines sont les moleacutecules actives de lrsquoorganisme capablesdrsquointeractions pour reacutealiser des fonctions complexes qui peuvent conduire agrave la composition de multiplestraits constitutifs du pheacutenotype Des technologies comme les puces agrave ADN (microarray en anglais) ou laspectromeacutetrie de masse permettent drsquoobserver de faccedilon qualitative et quantitative les produits de la tran-scription ie le transcriptome et de la traduction ie le proteacuteome A ce titre transcriptome et proteacuteomesont partie inteacutegrante au niveau moleacuteculaire du pheacutenotype

F 11 ndash Repreacutesentation simplifieacutee des deux eacutetapes de transcription et de traduction pour deux seacutequencesdrsquoADN drsquoun gegravene (ie deux allegraveles) hypotheacutetique A (agrave gauche lrsquoallegravele 1 agrave droite lrsquoallegravele 2) ne diffeacuterantqursquoen une seule position En haut de la figure lrsquoADN est repreacutesenteacutee sous sa forme native qui est celledrsquoun double brin dans lequel les nucleacuteotides sont apparieacutes selon les regravegles suivantes A avec T et Cavec G On dit que les deux brins drsquoADN ont des seacutequences compleacutementaires et on parle de paire denucleacuteotides agrave chaque position de la seacutequence Les paires qui distinguent les deux allegraveles sur la figure sontG C pour lrsquoallegravele 1 et T A pour lrsquoallegravele 2 Au cours de la transcription la copie de lrsquoun des brins delrsquoADN produit lrsquoARNm dans lequel la diffeacuterence entre les deux allegraveles est conserveacutee Enfin la traductionconvertit lrsquoARNm en une proteacuteine dont les acides amineacutes sont enchaicircneacutes les uns aux autres en fonction delrsquoordre des triplets sur la seacutequence de lrsquoARNm et selon la correspondance donneacutee par le code geacuteneacutetiqueLa diffeacuterence drsquoun nucleacuteotide entre les deux ARNm est ainsi lue comme une diffeacuterence entre deux tripletsGGC et GUC qui produit une diffeacuterence entre les proteacuteines traduites une diffeacuterence drsquoacide amineacute Gly(Glycine) en Val (Valine) Ainsi des geacutenotypes diffeacuterents porteacutes par lrsquoADN sont exprimeacutes gracircce au doubleprocessus de transcription-traduction en deux proteacuteines diffeacuterentes qui pourront ecirctre responsables de deuxpheacutenotypes diffeacuterents au niveau des fonctionnaliteacutes drsquoune cellule drsquoun organe ou drsquoun organisme

13 Les relations geacutenotypendashpheacutenotype

Lrsquoeacutetude des relations entre geacutenotype et pheacutenotype remonte aux expeacuteriences du moine Mendel en1853 En croisant des souches de petits pois lisses ou rideacutes il mit en eacutevidence la transmission heacutereacuteditaire

5Le code geacuteneacutetique eacutelucideacute dans les anneacutees 60 met en correspondance de faccedilon non ambigueuml mais redondante les 64triplets de nucleacuteotides que lrsquoon peut former agrave partir des 4 nucleacuteotides constitutifs des ARNm (A C G U) et les 20 acidesamineacutes constitutifs des proteacuteines (httpenwikipediaorgwikiGenetic_code) Les triplets (ou codons) sont ainsilus et deacutecodeacutes par la machinerie cellulaire de biosynthegravese des proteacuteines qui enchaicircne les uns aux autres les acides amineacutescorrespondants selon lrsquoordre deacutefini par la seacutequence de lrsquoARNm Le site de deacutemarrage de la traduction sur une seacutequence drsquoARNmest le plus souvent deacutetermineacute par le triplet drsquoinitiation AUG La traduction srsquoarrecircte lorsque la machinerie cellulaire rencontreun triplet dit non-sens qui ne correspond agrave aucun acide amineacute (UAA UAG ou UGA)

1 Geacutenotype et pheacutenotype 13

de facteurs geacuteneacutetiques ie le geacutenotype responsable de lrsquoapparition de traits observables ie le pheacuteno-type Au deacutebut du XXiegraveme siegravecle le biologiste Morgan fonda la theacuteorie chromosomique de lrsquoheacutereacutediteacuteen associant des alteacuterations visibles des chromosomes geacuteants drsquoune espegravece de mouche (Drosophila

melanogaster) agrave des modifications du pheacutenotype (yeux blancs au lieu de rouges) Ensuite les micro-biologistes Griffith et Avery en 1928 deacutemontregraverent en manipulant deux souches de pneumocoques que lamoleacutecule drsquoADN eacutetait le support du mateacuteriel geacuteneacutetique Ces trois deacutecouvertes novatrices de la geacuteneacutetiqueont ouvert la voie agrave lrsquoeacutetude des relations geacutenotypendashpheacutenotype qui vise agrave comprendre la part deacutetermineacuteepar le mateacuteriel geacuteneacutetique dans les traits qui composent un individu

En meacutedecine lrsquoeacutetude des relations geacutenotypendashpheacutenotype a donneacute lieu agrave lrsquoexploration du domaine desmaladies geacuteneacutetiques Un exemple classique drsquoune telle maladie est la dreacutepanocytose causeacutee par la mod-ification ou mutation drsquoun seul nucleacuteotide sur le gegravene de lrsquoheacutemoglobine Cette mutation observeacutee chezles individus malades entraicircne une anomalie dans la proteacuteine heacutemoglobine alors responsable de la dreacute-panocytose Les conseacutequences au niveau du pheacutenotype peuvent ecirctre observeacutees agrave lrsquoeacutechelle microscopiqueagrave commencer par la structure anormale de la proteacuteine puis la deacuteformation des globules rouges qursquoelleinduit Les conseacutequences de celles-ci sont observeacutees agrave une eacutechelle macroscopique crsquoest le cas drsquoocclu-sions des capillaires sanguins provoqueacutees par la forme anormale (en faucille) des globules rouges ouencore une reacutesistance agrave la malaria eacutegalement expliqueacutee par cette forme originale

Les technologies drsquoexploration des geacutenomes transcriptomes et proteacuteomes permettent lrsquoacquisitionde nouvelles connaissances sur la seacutequence du geacutenome et sur la reacuteelle complexiteacute des meacutecanismes dereacutegulation de son expression En effet les relations geacutenotypendashpheacutenotype sont plus compliqueacutees qursquoil nrsquoapu paraicirctre dans un premier temps Ainsi il faut souvent que coexistent plusieurs facteurs geacuteneacutetiquespour expliquer un trait du pheacutenotype [vHY04] Parmi ces facteurs geacuteneacutetiques certains ont des rocirclesmodulateurs parfois indirects sur le pheacutenotype De plus le pheacutenotype associeacute agrave une maladie peut reacutesulterde la co-occurence complexe de nombreux traits ou signes cliniques (crsquoest notamment le cas du syndrome

meacutetabolique [Mau06]) Dans ce cas lrsquoapparition de chaque signe clinique composant le pheacutenotype peutecirctre associeacutee agrave de multiples facteurs drsquoorigine geacuteneacutetique chacun soumis agrave lrsquointeraction drsquoautres facteursgeacuteneacutetiques mais eacutegalement agrave celle de facteurs environnementaux et comportementaux

La caracteacuterisation des relations geacutenotypendashpheacutenotype constitue lrsquoun des enjeux majeurs de la geacutenomiqueEn effet son objectif ne se limite pas agrave lrsquoeacutetude du geacutenome comme entiteacute isoleacutee mais srsquoeacutetend agrave lrsquoeacuteluci-dation des relations complexes qui existent entre la seacutequence et la structure du mateacuteriel geacuteneacutetique et ledeacuteploiement des fonctions des moleacutecules biologiques dans la cellule et lrsquoorganisme

14 Les sources de donneacutees et les vocabulaires controcircleacutes relatifs aux relations geacutenotypendashpheacutenotype

Nous distinguons ici deux cateacutegories de sources de donneacutees reacutepertoriant des relations geacutenotypendashpheacutenotype Premiegraverement des sources constitueacutees sur la base de publications scientifiques rapportant desrelations geacutenotypendashpheacutenotype et deuxiegravemement des sources regroupant des jeux de donneacutees brutes quiont permis de deacuteriver de telles relations Les deux sources eacutevoqueacutees ci-dessous illustrent respectivementces deux cateacutegories

OMIM La base de donneacutees OMIM6 (Online Mendelian Inheritance in Man) regroupe de nombreusesdonneacutees sur les relations geacutenotypendashpheacutenotype mises en eacutevidence dans le cadre de lrsquoeacutetude des maladiesgeacuteneacutetiques La plupart des entreacutees drsquoOMIM deacutecrivent soit un gegravene et deacutetaillent alors son implicationdans une ou plusieurs maladies soit une maladie et deacutetaillent les rocircles respectifs dans celle-ci de un ouplusieurs gegravenes Le contenu de cette base de donneacutees est relativement peu structureacute puisque ses entreacutees se

6httpwwwncbinlmnihgovomim

14 Chapitre 1 Contexte biologique et applicatif

composent de textes courts en langage naturel reacutepartis en diffeacuterentes cateacutegories (entre autres signes clin-iques mode de transmission explication moleacuteculaire correacutelations geacutenotypendashpheacutenotype) OMIM srsquoap-puie sur les publications scientifiques deacutecrivant ces associations et reacutesulte drsquoun travail de collecte initieacutedans les anneacutees 60 drsquoabord sous la forme drsquoun catalogue papier [McK98]

dbGaP Une source de donneacutees apparue plus reacutecemment est dbGaP7(database of Genotype and Pheno-

type) dont lrsquoobjectif est le regroupement et le partage de jeux de donneacutees reacutecolteacutes pour mettre en eacutevidencedes associations geacutenotypendashpheacutenotype [MFJ+07]

Une limite actuelle de ces ressources est la faible structuration des donneacutees et notamment celle destermes utiliseacutes pour deacutecrire la notion complexe de pheacutenotype En effet la description drsquoun pheacutenotype estconstruite sur des observations soumises agrave la subjectiviteacute de lrsquoobservateur Lrsquoun des objectifs de dbGaPest de reacuteduire ce biais gracircce agrave la mise agrave disposition des donneacutees brutes dont sont issues les descriptionsdes pheacutenotypes De faccedilon compleacutementaire une maniegravere drsquohomogeacuteneacuteiser la description de pheacutenotypes estde proposer un vocabulaire de reacutefeacuterence (ou vocabulaire controcircleacute) dont les termes pourront ecirctre utiliseacuteset composeacutes pour deacutecrire de faccedilon structureacutee un pheacutenotype Suivant cet objectif diffeacuterents groupes derecherche srsquoemploient agrave construire des vocabulaires plus ou moins consensuels pour permettre une de-scription homogegravene des pheacutenotypes Crsquoest par exemple le cas des vocabulaires controcircleacutes PATO8 Mam-

malian Phenotype9 ou Plant Trait10

7httpwwwncbinlmnihgovsitesentrezdb=gap8httpbioontologyorgwikiindexphpPATOMain_Page9httpwwwinformaticsjaxorgsearchesMP_formshtml

10httpwwwgrameneorgplant_ontology

2 Les variations geacutenomiques 15

2 Les variations geacutenomiques

Au sein drsquoune mecircme espegravece le geacutenome preacutesente de grandes similitudes crsquoest pourquoi on parle parexemple du geacutenome humain ou du geacutenome de la mouche agrave fruit (Drosophila melanogaster) Cepen-dant chaque ecirctre humain preacutesente une version unique de ce geacutenome humain11 Pour donner un ordre degrandeur certains auteurs estiment agrave 999 le taux de nucleacuteotides12 similaires parmi les 32 milliardsqui composent le geacutenome humain ce qui signifie que le 01 restant suffit agrave deacuteterminer les diffeacuterencesentre les ecirctres humains [KN01]

21 Deacutefinitions

Les variations geacutenomiques sont des reacutegions du geacutenome clairement localiseacutees dont la composition ennucleacuteotides est susceptible de varier entre les individus drsquoune mecircme espegravece

La notion drsquoallegravele correspond agrave la version drsquoun gegravene et par extension agrave la version drsquoune variationgeacutenomique Les organismes diploiumldes comme lrsquoecirctre humain possegravedent deux versions diffeacuterentes dugeacutenome une premiegravere heacuteriteacutee de la megravere et une deuxiegraveme du pegravere Aussi un ecirctre humain est susceptiblede porter deux versions diffeacuterentes ie deux allegraveles diffeacuterents de chaque gegravene Si deux allegraveles distinctspeuvent ecirctre porteacutes par un mecircme individu de nombreuses autres versions peuvent ecirctre observeacutees chezdes individus distincts Les parties gauche et droite de la Figure 11 montrent deux allegraveles drsquoun mecircmegegravene dont la diffeacuterence repose sur la substitution drsquoun seul nucleacuteotide un A agrave gauche et un C agrave droite13

La majeure partie des variations geacutenomiques (plus de 90) se limite agrave la variation drsquoun seul nu-cleacuteotide entre deux allegraveles Ce type particulier de variation est appeleacute Single Nucleotide Polymorphism

en anglais ou SNP [KN01] ie au sens strict un substitution drsquoun seul nucleacuteotide dont la freacutequence estsupeacuterieure agrave 1 dans la population dans laquelle il est eacutetudieacute Dans cette thegravese nous ne ferons pas cettedistinction tregraves deacutependante de lrsquoeacutechantillon des individus observeacutes et appellerons variation geacutenomiqueou variant lrsquoensemble des variations inter-individuelles du geacutenome et SNP les variations ponctuelles sansprendre en consideacuteration leur freacutequence En revanche nous eacuteviterons le terme mutation heacuteriteacute de lrsquoeacutetudedes maladies geacuteneacutetiques et qui agrave ce titre correspond agrave une variation geacutenomique associeacutee agrave la survenuedrsquoune maladie

22 Les sources de donneacutees relatives aux variations geacutenomiques

Les meacutethodes de seacutequenccedilage et drsquohybridation moleacuteculaire permettent lrsquoacquisition agrave haut deacutebit dedonneacutees relatives aux variations inter-individuelles drsquoun geacutenome Les donneacutees reacutesultant de ce genre drsquo-analyse du geacutenome sont stockeacutees et parfois partageacutees dans diverses bases de donneacutees dont le contenu serecouvre partiellement Certaines de ces bases relatives agrave lrsquoecirctre humain sont preacutesenteacutees ci-apregraves

dbSNP La base de donneacutees dbSNP14 du NCBI contient plus de 9 millions de variations geacutenomiqueshumaines et constitue la plus grande source de variations disponible sur le Web [SWK+01] En plus decontenir les variations qui lui sont directement soumises dbSNP integravegre des donneacutees provenant drsquoautres

11Abstraction faite des clones et des vrais jumeaux12Pour ecirctre exact il srsquoagit de paires de nucleacuteotides puisque lrsquoADN est composeacute drsquoun double brin de nucleacuteotides compleacutemen-

taires13Pour ecirctre exact il srsquoagit de la substitution des paires de nucleacuteotides compleacutementaires A-T et C-G Par convention seul

le nucleacuteotide du brin sens est utiliseacute pour deacutecrire lrsquoallegravele Ce brin sens est celui dont la seacutequence est transcrite en ARNm puistraduite pour donner la proteacuteine

14httpwwwncbinlmnihgovprojectsSNP

16 Chapitre 1 Contexte biologique et applicatif

grandes bases de donneacutees de variations geacutenomiques comme les bases NCI CGAP-GAI15 HGVBase16HapMap17 Perlgen18 Une fois inteacutegreacutees agrave dbSNP certaines de ces bases sont ameneacutees agrave disparaicirctre Unavantage strateacutegique de dbSNP est de faire partie inteacutegrante des bases de donneacutees du NCBI (avec entreautres GenBank PubMed Gene Human Genome Project Data) et agrave ce titre drsquoecirctre interrogeable par lesystegraveme feacutedeacutereacute Entrez [Bax06] Lrsquoalimentation de dbSNP par des processus automatiques le manquedrsquoannotations manuelles des entreacutees rendent ineacutegales la qualiteacute et la validation des donneacutees qursquoelle con-tient [MZCC04] Il est important de noter que malgreacute son nom dbSNP ne reacutepertorie pas seulement lesSNP comme ils sont deacutefinis au sens strict ie la substitution drsquoun seul nucleacuteotide dont la freacutequence estsupeacuterieur agrave 1 En effet dbSNP reacutepertorie les polysubstitutions les insertionsdeacuteleacutetions et les variationsplus complexes quelque soit leur freacutequence drsquoobservation dans les populations

OMIM Comme deacutecrit dans la section 14 de ce chapitre OMIM contient des donneacutees relatives auxallegraveles de gegravenes impliqueacutes dans des maladies geacuteneacutetiques La description moleacuteculaire des diffeacuterencesentre allegraveles est ineacutegale selon les entreacutees De faccedilon encore assez rare certains allegraveles reacutepertorieacutes dansOMIM sont relieacutes agrave la variation geacutenomique correspondante reacutepertorieacutee par dbSNP

Les bases de donneacutees locus speacutecifiques De nombreuses bases de donneacutees locus speacutecifiques ie rel-atives uniquement aux variations drsquoun locus19 se sont deacuteveloppeacutees de faccedilon indeacutependante Celles-cicontiennent le plus souvent les reacutesultats drsquoinvestigations drsquoun groupe de recherche biomeacutedicale (voirdrsquoun consortium) speacutecialiseacute dans lrsquoeacutetude drsquoun gegravene drsquoune fonction biologique ou drsquoune maladie geacuteneacute-tique Les initiatives intituleacutees HGMD20 (Human Gene Mutation Database) et The Way Station21 tententde feacutedeacuterer et de rendre public le contenu de ces nombreuses bases speacutecialiseacutees [GSC+08]

23 Heacuteteacuterogeacuteneacuteiteacute des donneacutees relatives aux variations geacutenomiques

Une variation geacutenomique est localiseacutee sur une position preacutecise drsquoune seacutequence geacutenomique (ie

drsquoADN) Cependant lorsqursquoelle affecte une reacutegion transcrite la variation est propageacutee sur la seacutequencetranscrite (drsquoARN) et si elle affecte une reacutegion codante elle est propageacutee eacutegalement dans la proteacuteine(seacutequence drsquoacides amineacutes) Ceci est illustreacute dans la Figure 11 Les bases de donneacutees biologiquesrepreacutesentent indiffeacuteremment les variations sur lrsquoADN lrsquoARN ou les proteacuteines en fonction souvent dutype de seacutequence sur lequel elles ont eacuteteacute observeacutees De fait ces bases repreacutesentent aussi bien la variationoriginale que ses reacutepercussions En guise drsquoillustration la substitution drsquoune guanine en une thyminepeut ecirctre repreacutesenteacutee par GT dans une seacutequence drsquoADN GGCGTC dans le codon concerneacute gu danslrsquoARN correspondant GlyVal dans la proteacuteine traduite Drsquoune faccedilon similaire les repreacutesentations de laposition de la variation diffegraverent drsquoune base de donneacutees agrave lrsquoautre en fonction de la seacutequence de reacutefeacuterenceet de la version de cette seacutequence Pour exemple la substitution GT est localiseacutee agrave la position 11 087877 sur la seacutequence geacutenomique du chromosome 19 dont le numeacutero drsquoaccession dans la base de donneacuteesRefSeq22 est NC_000019 agrave la position 2 489 679 dans la seacutequence du contig NT_011295 et agrave la position565 dans la proteacuteine NP_000518 (sur le second nucleacuteotide du codon qui code pour le 565iegraveme acide am-ineacute) La mecircme substitution peut eacutegalement ecirctre localiseacutee agrave la position 26 747 dans une seacutequence associeacuteeau gegravene LDLR ou encore agrave la position 108 dans le onziegraveme exon de ce gegravene

15httpgaincinihgovcgap-gai16httpwwwhgvbaseg2porgindex17httpwwwhapmaporg18httpgenomeperlegencom19Un locus est une reacutegion deacutetermineacutee sur le geacutenome pouvant contenir aucun un ou plusieurs gegravenes20httpwwwhgmdcfacuk21httpwwwcentralmutationsorg22httpwwwncbinlmnihgovRefSeq

2 Les variations geacutenomiques 17

En plus des multiples reacutefeacuterentiels utiliseacutes pour deacutecrire les variations srsquoajoute lrsquoutilisation drsquoidentifi-ants (ou numeacuteros drsquoaccession) propres agrave chaque base de donneacutees Ainsi la variation deacutecrite preacuteceacutedem-ment est identifieacutee dans dbSNP comme le polymorphisme rs28942082 Une syntaxe geacuteneacuterique est recom-mandeacutee par la Socieacuteteacute pour lrsquoeacutetude des Variation du Geacutenome Humain23 (HGVS pour Human Genome

Variation Society) selon laquelle notre variation est deacutecrite par lrsquoexpression suivante

NC_0000198g11087877GgtT

ougrave NC_0000198 est le numeacutero drsquoaccession unique dans RefSeq de la seacutequence utiliseacutee pour positionnerle variant la lettre lsquogrsquo signifie que la seacutequence en question est geacutenomique par opposition agrave lsquoprsquo utiliseacuteepour les seacutequences proteacuteiques 11087877 correspond agrave la position dans la seacutequence de reacutefeacuterence et GgtTdeacutecrit la variation de nucleacuteotide observeacutee [dDA00] En pratique lrsquoutilisation de cette nomenclature estrestreinte agrave certains auteurs qui lrsquoutilisent pour deacutecrire les variations de faccedilon univoque dans le texte deleurs publications scientifiques Drsquoautres nomenclatures lieacutees au contexte historique de lrsquoobservation desvariations persistent agrave la fois dans la litteacuterature et les bases de donneacutees Par exemple notre variant estpreacutesenteacute dans OMIM comme la variation FH NAPLES ou ldquoLDLR Gly544Valrdquo crsquoest agrave dire selon desdescriptions associeacutees aux circonstances de sa premiegravere observation

Enfin les bases de donneacutees priveacutees ou les bases de donneacutees locus speacutecifiques utilisent encore drsquoautresnotations dites non-conventionnelles qui viennent grossir le nombre de descriptions possibles pour unemecircme variation La Figure 12 illustre les nombreuses faccedilons de deacutesigner une variation geacutenomique dansles bases de donneacutees publiques et priveacutees

c

d

b

a

NP_000518pG564V

CCDS122541c1694GgtT

NM_0005272c1787GgtT

NT_0000198g24897679GgtT

Chr1911087877 GT

Chr1911087877minus11087877 GT

nonminusconventionellesNotations

Syntaxe HGVS

au genomeminusbrowserSyntaxe similaire

Identifiants de basesde donneacutees publiques

LDLR11EXON108Thetero

LDLR Gly564Val

rldl11108exonGT

LDLR Gly544Val

0014 FH NAPLES (dans OMIM)

rs28942082 (dans dbSNP)

PA123456 (dans PharmGKB)

F 12 ndash Diverses descriptions ou reacutefeacuterences pour une mecircme variation geacutenomique

Lrsquoune des raisons expliquant lrsquoheacuteteacuterogeacuteneacuteiteacute de ces descriptions est leur origine (1) certains pro-jets de seacutequenccedilage identifient de faccedilon exhaustive les zones variables drsquoun geacutenome ou de lrsquoune de sesportions (2) tandis que drsquoautres eacutetudes plus cibleacutees identifient ponctuellement des mutations geacuteneacutetiquesie des variations eacutetroitement associeacutees agrave la survenue drsquoune pathologie [Bar02] Lrsquoidentification de mu-tations geacuteneacutetiques a deacutebuteacute preacutealablement agrave lrsquoeacutemergence des meacutethodes de seacutequenccedilage et a abouti agrave laconstitution de nombreuses bases de donneacutees speacutecialiseacutees et riches dont le spectre se limite aux mutationsassocieacutees agrave un locus ou une maladie

Lrsquoeacutevaluation preacutecise du recouvrement des contenus des bases de donneacutees de variations geacutenomiquesest crucial dans le cadre du deacuteveloppement de diagnostics geacuteneacutetiques et de lrsquoexploration du variome (ie

23httpwwwhgvsorgrechtml

18 Chapitre 1 Contexte biologique et applicatif

lrsquoensemble des variations du geacutenome humain) [dDP03 RKC06 Spe08] Cette tacircche est rendue partic-uliegraverement deacutelicate en raison du nombre important de descriptions diffeacuterentes et pourtant eacutequivalentes

24 Les haplotypes

Un haplotype est un ensemble drsquoallegraveles de SNP (et eacuteventuellement de gegravenes) voisins transmis con-jointement agrave travers les geacuteneacuterations Les haplotypes sont des constructions statistiques eacutetablies sur unepopulation donneacutee et obtenues par lrsquoestimation des deacuteseacutequilibres de liaison entre les allegraveles de SNPvoisins Bien qursquoelles soient artificielles ces constructions reflegravetent la reacutealiteacute biologique selon laquelle lemateacuteriel geacuteneacutetique est transmis drsquoune geacuteneacuteration agrave lrsquoautre par blocs de seacutequences geacutenomiques[Con05]Ainsi les variations geacutenomiques preacutesentes sur un mecircme bloc preacutesentent des valeurs qui sont lieacutees lesunes aux autres au fil des geacuteneacuterations En drsquoautres termes on nrsquoobserve pas une distribution aleacuteatoiredes valeurs prises par les allegraveles au sein de ces blocs de seacutequences geacutenomiques mais au contraire unnombre fini de combinaisons de ces valeurs Partant de ce principe ces blocs sont reconstruits agrave partir delrsquoobservation dans une population de groupes drsquoallegraveles associeacutes pour des variations qui sont physique-ment proches sur une seacutequence drsquoADN La Figure 13 illustre la notion drsquohaplotype et comment ils sontcomposeacutes agrave partir des allegraveles preacutesenteacutes par des SNP voisins

F 13 ndash Haplotypes tag-SNP et leur composition agrave partir des allegraveles de SNP voisins sur diffeacuterentesversions drsquoun mecircme chromosome Source http wwwhapmaporg

Le fait qursquoun haplotype soit ainsi composeacute drsquoun ensemble associeacute drsquoallegraveles rend possible la distinc-tion de certains allegraveles particuliers dont le geacutenotypage suffit agrave deacuteterminer les allegraveles preacutesenteacutes par le blocde variations impliqueacutees dans lrsquohaplotype Des outils statistiques permettent drsquoidentifier ces SNP parti-culiers appeleacutes tag-SNP qui reacutesument au mieux la composition drsquoun haplotype et de le distinguer desautres haplotypes observeacutes sur un mecircme bloc Des exemples de tag-SNP sont repreacutesenteacutes Figure 13

HapMap est un projet de cartographie des haplotypes humains agrave partir du geacutenotypage de variationsgeacutenomiques dans 5 populations distinctes [Con03] Les variations observeacutees ainsi que leur freacutequencedrsquoobservation sont disponibles dans la base de donneacutees associeacutee au projet24 Ces donneacutees sont util-iseacutees pour construire les haplotypes et identifier les tag-SNP agrave lrsquoaide par exemple de lrsquooutil HaploView

[BFMD05]

24httpwwwhapmaporg

2 Les variations geacutenomiques 19

La notion drsquohaplotype est freacutequemment utiliseacutee pour reacuteduire le nombre de variations geacutenomiques agraveanalyser dans des eacutetudes (notamment sur les relations geacutenotypendashpheacutenotype) qui srsquointeacuteressent aux varia-tions de larges portions du geacutenome En effet lrsquoidentification et le geacutenotypage des seuls tag-SNP permet-tent de repreacutesenter les variations de blocs complets du geacutenome et ainsi de reacuteduire le nombre de variationsgeacutenomiques agrave analyser Lrsquoallegravele preacutesenteacute par chaque variation membre drsquoun haplotype peut par la suiteecirctre deacuteduit agrave partir de lrsquoallegravele des tag-SNP et de la composition des haplotypes

20 Chapitre 1 Contexte biologique et applicatif

3 La pharmacogeacutenomique

La reacuteponse agrave un traitement meacutedicamenteux est un pheacutenotype particulier qui lui aussi est soumis agravelrsquoinfluence des facteurs geacuteneacutetiques La pharmacogeacutenomique srsquoattache agrave eacutetudier ces facteurs geacuteneacutetiquesparticuliers et la faccedilon avec laquelle ils influencent la reacuteponse aux meacutedicaments

31 Deacutefinition

La pharmacogeacutenomique est lrsquoeacutetude de lrsquoensemble des gegravenes ayant une influence sur la pharmacolo-gie elle srsquointeacuteresse notamment aux manifestations des variations geacutenomiques de ces gegravenes agrave lrsquointeractionde ces variations dans la production drsquoun pheacutenotype et agrave lrsquoinfluence drsquoun tel pheacutenotype sur la reacuteponse agraveun meacutedicament [AK02] Scheacutematiquement la pharmacogeacutenomique peut ecirctre repreacutesenteacutee comme lrsquoeacutetudedes relations ternaires existant entre un traitement meacutedicamenteux un geacutenotype et un pheacutenotype (Fig-ure 4) Selon cette repreacutesentation il est possible de consideacuterer le traitement meacutedicamenteux comme unfacteur exteacuterieur venant influencer la relation geacutenotypendashpheacutenotype

Lrsquoideacutee selon laquelle les gegravenes influencent la reacuteponse aux meacutedicaments date des anneacutees 50 durantlesquelles il fut observeacute que des reacuteponses particuliegraveres aux meacutedicaments pouvaient ecirctre transmises au seindrsquoune mecircme famille ou eacutetaient plus freacutequentes au sein de certaines ethnies Depuis des eacutetudes statistiquesfamiliales et biochimiques ont renforceacute cette hypothegravese [ER04] Cependant crsquoest seulement en 1988 quelrsquoinfluence drsquoune variation dans la seacutequence drsquoADN drsquoun gegravene sur le meacutetabolisme drsquoun meacutedicament aeacuteteacute mise en eacutevidence [GSK+88] De nombreuses variations geacutenomiques ont par la suite eacuteteacute isoleacutees etassocieacutees agrave des effets diffeacuterents drsquoun mecircme meacutedicament La faciliteacute grandissante agrave caracteacuteriser les vari-ations geacutenomiques inter-individuelles stimule lrsquoinvestigation de la dimension geacuteneacutetique dans les essaiscliniques des meacutedicaments Certains gegravenes impliqueacutes dans les principales voies biologiques de transportou drsquoeacutelimination des meacutedicaments sont plus particuliegraverement analyseacutes

Suivant cette eacutevolution historique lrsquoeacutetude initiale des caractegraveres heacutereacuteditaires associeacutes agrave la pharma-cologie fut appeleacutee pharmacogeacuteneacutetique Lrsquoeacutemergence de la geacutenomique a conduit agrave lrsquoapparition du con-cept de pharmacogeacutenomique avec lrsquoideacutee que la geacutenomique offre la possibiliteacute drsquoeacutetudier lrsquoorigine et lesconseacutequences des caractegraveres heacutereacuteditaires au niveau moleacuteculaire

Un exemple drsquointeraction pharmacogeacutenomique deacutecrite par Desmeules et al [DGDM91] et Gascheet al [GDF+04] est lrsquoinfluence des variations du gegravene CYP2D6 dans la reacuteponse agrave un traitement decodeacuteine La codeacuteine est un opiaceacute prescrit entre autres pour son pouvoir analgeacutesique La codeacuteine estphysiologiquement meacutetaboliseacutee dans le foie en morphine responsable de son effet analgeacutesique Il ex-iste plusieurs versions fonctionnelles du gegravene CYP2D6 dont les produits agissent diffeacuteremment sur latransformation de codeacuteine en morphine et permettent de distinguer plusieurs cateacutegories drsquoindividus (5)

ndash les meacutetaboliseurs lents porteurs de variants agrave activiteacute faible par exemple Chr22 40856638CgtTet Chr22 40854891GgtA

ndash les meacutetaboliseurs rapides porteurs de variants agrave activiteacute normale ou forte Chr22 40853887CgtTet les versions consideacutereacutees normales des variations associeacutees

ndash les meacutetaboliseurs ultra-rapides porteurs de copies multiples de variants agrave activiteacute normale ouforte)

Les meacutetaboliseurs lents sont incapables de meacutetaboliser efficacement la codeacuteine en morphine et enconseacutequence ne preacutesentent pas lrsquoeffet analgeacutesique attendu Les meacutetaboliseurs ultra-rapides quant agrave euxmeacutetabolisent la codeacuteine avec une efficaciteacute accrue qui entraicircne une intoxication agrave la morphine

En pharmacogeacutenomique le pheacutenotype est eacutegalement deacutependant de la dose de meacutedicament admin-istreacutee Ainsi suivant notre exemple une dose plus eacuteleveacutee de codeacuteine peut entraicircner un effet analgeacutesiquechez les meacutetaboliseurs lents et un effet toxique chez les meacutetaboliseurs rapides De nombreux exemplesdrsquointeractions de ce type peuvent ecirctre trouveacutes dans lrsquoouvrage Pharmacogenetics de Weber [Web97]

3 La pharmacogeacutenomique 21

Certains des enjeux meacutedicaux et industriels de la pharmacogeacutenomique ont eacuteteacute abordeacutes dans lrsquoin-troduction de cette thegravese Les reacutefeacuterences suivantes [Flo05 NMG05 WMF+08] preacutecisent ces enjeux etpreacutesentent les perspectives actuelles de la pharmacogeacutenomique

32 Les sources de donneacutees relatives agrave la pharmacogeacutenomique

OMIM Les entreacutees de la base de donneacutees OMIM contiennent certaines donneacutees pharmacogeacutenomiquesEn effet dans OMIM les reacuteactions adverses agrave des meacutedicaments qui ont une origine geacuteneacutetique sontconsideacutereacutees au mecircme titre que des maladies geacuteneacutetiques classiques

PharmGKB PharmGKB25 (PharmacoGenomics Knowledge Base) est la principale source de don-neacutees publique pour la pharmacogeacutenomique [HBWCH+08] PharmGKB reacutepertorie tout drsquoabord des don-neacutees sur les relations entre meacutedicament pheacutenotype et gegravenes donneacutees qui sont extraites manuellementde la litteacuterature De plus PharmGKB contient des donneacutees sur les variations geacutenomiques les reacuteseauxmeacutetaboliques impliqueacutes dans ces relations et des jeux de donneacutees reacuteelles mecirclant les donneacutees cliniqueset geacuteneacutetiques de patients qui illustrent des eacuteleacutements de connaissance pharmacogeacutenomique A ce titrePharmGKB peut ecirctre consideacutereacutee comme une source de donneacutee particuliegravere de variations geacutenomiques etde relations geacutenotypendashpheacutenotype Une partie des variations geacutenomiques reacutepertorieacutees dans PharmGKBest relieacutee aux variations correspondantes dans dbSNP mais un nombre eacutegalement important de celles-cisont soumises directement agrave PharmGKB et nrsquoont pas de correspondant dans les autres bases de donneacutees

F 14 ndash Repreacutesentation originale du scheacutema repreacutesentant les diffeacuterentes cateacutegories (CO PD PK FAGN) associeacutees aux donneacutees de PharmGKB et leurs principales associations (doubles flegraveches noires)Source http wwwpharmgkborg

Le scheacutema figurant sur la page drsquoaccueil de PharmGKB et reproduit Figure 14 illustre assez bienla faccedilon selon laquelle sont associeacutees entre elles les donneacutees de PharmGKB et leur organisation endiffeacuterentes cateacutegories

ndash CO manifestations cliniques ou en anglais Clinical Outcomendash PD Pharmacodynamique et reacuteponse au meacutedicament en anglais Pharmacodynamics and Drug

responsesndash PK Pharmacocineacutetique en anglais PharmacoKinetics

25httpwwwpharmgkborg

22 Chapitre 1 Contexte biologique et applicatif

ndash FA Tests fonctionnels agrave lrsquoeacutechelle moleacuteculaire et cellulaire en anglais molecular and cellular

Functional Assaysndash GN Geacutenotype en anglais GenotypePharmGKB contenait en janvier 2008 des relations manuellement annoteacutees entre plus de 600 gegravenes

porteurs de variations 450 maladies et 500 meacutedicaments [HBWCH+08] Lrsquoameacutelioration continue desannotations relatives aux reacuteseaux meacutetaboliques lrsquoenrichissement de celles relatives aux variations geacuteno-miques la mise en correspondance des variations geacutenomiques reacutepertorieacutees avec celles drsquoautres sources(dbSNP par exemple) et le deacuteveloppement de nouvelles campagnes drsquoinvestigations cliniques pour al-imenter les jeux de donneacutees et lrsquoeacutetat des connaissances [ORT08] font de PharmGKB une source quifeacutedegravere et stimule la recherche en pharmacogeacutenomique

4 Inteacuterecirct de lrsquoutilisation de connaissances en pharmacogeacutenomique

Les initiateurs de PharmGKB preacutevoyaient agrave lrsquoorigine du projet la constitution non pas drsquoune basede donneacutees relationnelle mais drsquoune base de connaissances srsquoappuyant sur un langage de repreacutesentationdes connaissances et associeacutee agrave des meacutecanismes de raisonnement (comme nous le preacutesentons chapitre2 section 23) [ORS+02] Face aux difficulteacutes de mise en œuvre drsquoune telle approche une architecturerelationnelle plus classique a finalement eacuteteacute adopteacutee Nous pensons qursquoune approche agrave base de con-naissances comme celle initialement preacutevue pour PharmGKB preacutesente un inteacuterecirct particulier pour cedomaine

Lrsquoeacutetat des connaissances en pharmacogeacutenomique devrait beacuteneacuteficier des donneacutees issues de lrsquoexplo-ration du geacutenome En effet des masses de donneacutees pertinentes pour ce domaine sont disponibles reacutesul-tantes de lrsquoeacutetude des variations geacutenomique des relations geacutenotypendashpheacutenotype ou encore de la pharma-cologie (voir par exemple les sources de donneacutees preacutesenteacutees dans les diffeacuterentes sections de ce chapitre)Cependant lrsquointeraction entre ces sous-domaines nrsquoa pas forcement eacutetait consideacutereacutee lors de leur explo-ration ou de la constitution des sources de donneacutees associeacutees Ainsi il reste deacutelicat drsquoanalyser des reacutesul-tats drsquoeacutetudes pharmacogeacutenomiques en prenant en consideacuteration simultaneacutement les donneacutees associeacutees agravechacun de ces sous-domaines

De plus les meacutethodes drsquoanalyses les plus utiliseacutees dans le cadre de la pharmacogeacutenomique demeureles meacutethodes statistiques classiquement utiliseacutes pour les essais cliniques (les tests de correacutelation de reacute-gression le deacuteseacutequilibre de liaison par exemple [HJ02]) Ces derniers preacutesentent des inteacuterecircts certainsmais ne permettent pas toujours drsquoappreacutecier ou drsquoexplorer les larges volumes de donneacutees interconnecteacuteestels que les bases de donneacutees biologiques ou les reacutesultats drsquoune eacutetude incluant le geacutenotypage de lrsquoensem-ble du geacutenome drsquoun panel de patient [YHTL08]

Lrsquoun des deacutefis de la pharmacogeacutenomique est justement de prendre en consideacuteration de larges vol-umes de donneacutees issues de diffeacuterents sous-domaines speacutecialiseacutes et interconnecteacutes pour leur associer unsens [AK02] Gaines titre lrsquoun de ses article par lrsquoaffirmation imageacutee selon laquelle une once de con-

naissances vaut mieux que des tonnes de donneacutees [Gai89] Le travail preacutesenteacute dans cette thegravese srsquoinscritdans cette ideacutee et srsquoappuie sur lrsquohypothegravese que la pharmacogeacutenomique et plus geacuteneacuteralement la biolo-gie moleacuteculaire peuvent tirer parti des meacutethodes de repreacutesentation des connaissances et drsquoextractionde connaissances Un point commun agrave ces deux meacutethodes est en effet de permettre la deacutecouverte deconnaissances implicites voire nouvelles

Chapitre 2

Etat de lrsquoart

Ce chapitre preacutesente en section 1 le processus drsquoExtraction de Connaissances agrave partir de Bases deDonneacutees () puis en section 2 deux systegravemes de repreacutesentation des connaissances en rapport avecles travaux meneacutes dans cette thegravese Les sections 3 et 4 preacutesente lrsquoeacutetat de lrsquoart des domaines concerneacutespar les contributions de cette thegravese premiegraverement lrsquoutilisation drsquoune repreacutesentation des connaissancescodeacutee sous la forme drsquoune ontologie pour guider lrsquointeacutegration de donneacutees (section 3) secondement lanotion drsquoExtraction de Connaissances guideacutee par les Connaissances du Domaine ()

1 Extraction de Connaissances agrave partir de Bases de Donneacutees ndash

11 Motivation et objectifs

LrsquoExtraction de Connaissances agrave partir des Bases de Donneacutees () est deacutefinie par Frawley et al

comme le processus non trivial drsquoidentification de reacutegulariteacutes (ou drsquoirreacutegulariteacutes) valides nouvelles po-tentiellement utiles et porteuses de sens au sein des donneacutees [FPSM91] Concregravetement il srsquoagit delrsquoutilisation de meacutethodes (souvent simplement drsquoalgorithmes) de fouille de donneacutees associeacutees agrave unepreacuteparation des donneacutees preacutealables et agrave une interpreacutetation des reacutesultats de fouille afin drsquoextraire desconnaissances pertinentes au regard des objectifs viseacutes par lrsquoanalyste Nous distinguons ainsi

(i) lrsquoensemble du processus drsquo qui inclut la preacuteparation des donneacutees et lrsquointerpreacutetation des reacutegu-lariteacutes extraites sous forme de connaissances et

(ii) lrsquoeacutetape particuliegravere de fouille de donneacutees dont le but unique et lrsquoidentification de reacutegulariteacutes dansles donneacutees brutes

La mise en œuvre de meacutethodes de fouille de donneacutees de faccedilon ldquoaveuglerdquo ie sans eacutetape de preacuteparationapproprieacutee des donneacutees ni drsquointerpreacutetation experte des reacutegulariteacutes extraites est une utilisation dangereuse(compareacutee dans la litteacuterature agrave une ldquopecirccherdquo ou une ldquodraguerdquo) qui peut mener agrave lrsquoextraction de reacutegulariteacutesinvalides porteuses drsquoerreurs et ainsi agrave des interpreacutetations inexactes

Lrsquo est un processus comprenant plusieurs eacutetapes dont certaines impliquent une prise de deacutecisionde lrsquoutilisateur ie lrsquoanalyste qui conduit le processus La Figure 21 preacutesenteacutee dans lrsquointroduction de lathegravese deacutetaille le deacutecoupage classique du processus drsquo en plusieurs eacutetapes Du fait que la distinction etlrsquoordre des opeacuterations de preacuteparation de donneacutees peut fortement varier nous proposons dans la Figure 21une repreacutesentation simplifieacutee du processus centreacutee sur lrsquoeacutetape de fouille de donneacutees ougrave nous distinguonsune eacutetape preacutealable globale de preacuteparation des donneacutees et une eacutetape finale drsquointerpreacutetation Le rocircle dechacune de ces trois eacutetapes ainsi que les opeacuterations auxquelles elles font appel sont deacutecrits dans lessections suivantes

23

24 Chapitre 2 Etat de lrsquoart

(ii) Fouille

Analyste

Uniteacute de

Base de donneacuteesheacuteteacuterogegravenes

(i) Preacuteparation

des donneacutees de donneacutees(iii)Interpreacutetation connaissance

F 21 ndash Repreacutesentation simplifieacutee du processus drsquo

12 Preacuteparation des donneacutees

La preacuteparation des donneacutees (ou preprocessing en anglais) est deacutefinie par lrsquoensemble des opeacuterationsqui permettent de convertir les donneacutees brutes en donneacutees preacutepareacutees et adapteacutees agrave la meacutethode de fouilleenvisageacutee Lrsquointeacuterecirct principal de cette eacutetape est drsquoameacuteliorer la qualiteacute des donneacutees (tout au moins en vuede la meacutethode de fouille choisie) et ainsi drsquoameacuteliorer lrsquoefficaciteacute du processus drsquo Les opeacuterationsde preacuteparation peuvent ecirctre de diffeacuterents types lrsquointeacutegration des donneacutees le nettoyage des donneacutees lareacuteduction des donneacutees la transformation des donneacutees Lrsquoordre de ces opeacuterations varie souvent selon lastrateacutegie drsquo adopteacutee De la mecircme faccedilon il nrsquoest pas toujours eacutevident de faire clairement la distinc-tion entre les diffeacuterentes opeacuterations qui sont parfois entrelaceacutees ou combineacutees Par exemple lrsquoopeacuterationdrsquointeacutegration de donneacutees neacutecessite souvent une eacutetape preacutealable de nettoyage la reacuteduction des donneacuteespeut consister en leur transformation en un format particulier aussi le nettoyage peut conduire au finalagrave une reacuteduction de celles-ci

Une bonne description de lrsquoimportance de ces eacutetapes dans un processus drsquo est le chapitre deBrachman et Anand [BA96] du livre de Fayyad et al [FPSSU96] Un compleacutement sur la mise en œuvrede ces opeacuterations est le chapitre 3 du livre de Han et Kamber [HK01]

Les sections suivantes deacutetaillent quatre types drsquoopeacuterations relatives agrave la preacuteparation des donneacutees

121 Inteacutegration de donneacutees

Un systegraveme drsquointeacutegration de donneacutees a pour rocircle drsquooffrir agrave un utilisateur ou agrave une machine un accegravesuniforme et transparent agrave un ensemble heacuteteacuterogegravene de donneacutees Lrsquointeacutegration de donneacutees est alors leprocessus qui permet agrave un tel systegraveme lrsquoaccegraves homogegravene agrave un ensemble de donneacutees aux formats et auxlocalisations heacuteteacuterogegravenes

Crsquoest une eacutetape preacuteliminaire neacutecessaire agrave la fouille de donneacutees En effet si les donneacutees agrave inclure danslrsquoanalyse sont reacuteparties dans des sources distinctes il est neacutecessaire de les inteacutegrer preacutealablement afinque lrsquoalgorithme de fouille puisse les prendre en compte simultaneacutement

Lrsquointeacutegration de donneacutees est drsquoautant plus inteacuteressante que ses applications deacutepassent le cadre delrsquo Ce processus est utiliseacute eacutegalement dans le cadre de la recherche drsquoinformation lrsquoinformatique deacute-cisionnelle et lrsquoeacutetude des flux drsquoinformation (ou workflow en anglais) et trouve des applications dans denombreux domaines ougrave lrsquoanalyse des nombreuses donneacutees collecteacutees preacutesente un inteacuterecirct la finance lesassurances les systegravemes de surveillance le commerce la meacutedecine en sont des exemples En bioinforma-tique lrsquointeacutegration de donneacutees est une probleacutematique de recherche active dont un des but est notammentde permettre lrsquoutilisation conjointe des nombreuses sources de donneacutees biologiques qui ont vu le jour defaccedilon indeacutependante et sans concertation [GS08]

La section 3 de ce chapitre propose un eacutetat de lrsquoart sur les meacutethodes drsquointeacutegration de donneacutees etpreacutesente des solutions proposeacutees dans le cadre de la bioinformatique En effet la contribution preacutesenteacutee

1 Extraction de Connaissances agrave partir de Bases de Donneacutees ndash 25

chapitre 3 est preacuteciseacutement une proposition et lrsquoapplication drsquoune meacutethode drsquointeacutegration opeacuterationnellefondeacutee sur des ontologies originales dans le domaine des variations geacutenomiques et de la pharmaco-geacutenomique

122 Nettoyage des donneacutees

En pratique les donneacutees brutes sont souvent incomplegravetes bruiteacutees voire incoheacuterentes Lrsquoopeacuterationde nettoyage a pour but de remplacer les valeurs manquantes de filtrer le bruit (par exemple en eacuteliminantles cas extrecircmes) et de corriger les incoheacuterences [HK01]

Lrsquoefficaciteacute de certains algorithmes de fouille est tregraves sensibles aux valeurs manquantes Diffeacuterentesapproches peuvent ecirctre adopteacutees

ndash ignorer les tuples dans lesquels des valeurs manquent Cela peut srsquoaveacuterer probleacutematique lorsque lejeu de donneacutees initial est de petite taille

ndash remplacer les valeurs manquantes par une valeur particuliegravere par exemple ldquoUnknownrdquo ldquo rdquo Cettemeacutethode peut biaiser les reacutesultats des algorithmes de fouille qui pourront consideacuterer la valeurutiliseacutee par deacutefaut disons ldquoUnknownrdquo comme repreacutesentative drsquoun concept inteacuteressant

ndash remplacer les valeurs manquantes par une valeur arbitraire Ce peut ecirctre la moyenne des valeursdonneacutees agrave lrsquoattribut dans le jeu de donneacutees ou la moyenne drsquoautres attributs relatifs au tupleconsideacutereacute ou encore une valeur probable preacutedite par des meacutethodes drsquoinfeacuterence de reacutegressiondrsquoinduction sur la base drsquoautres donneacutees

Les donneacutees brutes et plus particuliegraverement celles mesureacutees expeacuterimentalement sont souvent ac-compagneacutees de bruit Tout un ensemble de meacutethodes de filtrage et de lissage peut ecirctre mis en œuvre pourdiminuer les effets de ce bruit

Les incoheacuterences dans les donneacutees peuvent ecirctre corrigeacutees par des meacutethodes de comparaison avec lessources drsquoorigine des donneacutees ou si elles existent par veacuterification des contraintes ou des deacutependancesconnues entre donneacutees

123 Reacuteduction des donneacutees

La reacuteduction de donneacutees vise agrave limiter la taille de la description des donneacutees en portant le moinspossible atteinte agrave lrsquointeacutegriteacute de lrsquoinformation qursquoelles contiennent Diverses motivations peuvent ameneragrave reacuteduire les donneacutees

ndash Certains algorithmes de fouilles de donneacutees produisent des reacutesultats particuliegraverement volumineuxet par conseacutequent compliqueacutes et longs agrave interpreacuteter La reacuteduction de donneacutees est une opeacuterationdeacutecisive dans un processus drsquo qui fait intervenir de tels algorithmes

ndash Drsquoautres algorithmes sont particuliegraverement gourmands en capaciteacute de calcul et peuvent en fonc-tion de la taille du jeu de donneacutees neacutecessiter des temps de calcul ou un espace meacutemoire incom-patibles avec les conditions expeacuterimentales (ie le temps et les machines disponibles)

ndash Certains jeux de donneacutees preacutesentent un deacuteseacutequilibre entre le nombre de tuples relativement faibleet le nombre de valeurs distinctes relativement eacuteleveacute que peuvent prendre les attributs associeacutesIl est possible drsquoimaginer le cas extrecircme ougrave un jeu de donneacutees ne contient que des attributs agravevaleurs nominales et que chaque tuple preacutesente une valeur diffeacuterente pour chaque attribut Dansce cas particulier les meacutethode de fouille ne pourront distinguer aucune reacutegulariteacute particuliegravere sanslrsquoutilisation drsquoune meacutethode exteacuterieure Des meacutethodes de reacuteduction peuvent ici permettre de reacuteduirela diversiteacute entre les attributs qui caracteacuterisent les tuples (en utilisant des valeurs plus geacuteneacuterales quiseront partageacutees par plusieurs tuples par exemple)

Les strateacutegies de reacuteduction de donneacutees incluent entre autres

26 Chapitre 2 Etat de lrsquoart

Lrsquoagreacutegation par cubes de donneacutees Ce type de meacutethode souvent appliqueacute aux entrepocircts de donneacuteesutilise des cubes de donneacutees qui permettent drsquoagreacuteger des donneacutees multidimensionnelles dans lecadre drsquoanalyses de type OLAP [AAD+96] Par exemple des donneacutees relatives aux ventes journal-iegraveres drsquoune chaicircne de grands magasins contenant des millions de transactions peuvent ecirctre agreacutegeacuteesen ventes mensuelles de certaines cateacutegories speacutecifiques de produits

La reacuteduction de dimension Ce type de reacuteduction consiste agrave encoder les donneacutees dans un format pluscompact entraicircnant ou non une perte drsquoinformation Par exemple lrsquoanalyse en composante prin-

cipale est une meacutethode utiliseacutee pour la reacuteduction de dimension qui applique des projections desdonneacutees initiales dans un espace de dimension infeacuterieure

La discreacutetisation Il srsquoagit drsquoun ensemble de meacutethodes utiliseacutees pour reacuteduire le nombre de valeurs quepeut prendre un attribut Certaines meacutethodes automatiques de discreacutetisation srsquoappliquent aux at-tributs numeacuteriques et continus qursquoelles partitionnent reacutecursivement selon un eacutechelonnage adapteacute aunombre etou agrave la reacutepartition des valeurs Ainsi lrsquoeacuteventail des valeurs que peut prendre un attributcomme la concentration drsquoune certaine substance pourra ecirctre diviseacute en plusieurs intervalles selonune construction drsquohistogramme Certaines meacutethodes manipulant les histogrammes permettent parexemple de construire iteacuterativement des histogrammes doteacutes drsquointervalles de plus en plus impor-tants permettant ainsi un ajustement de la discreacutetisation Ces meacutethodes ne peuvent pas srsquoappliqueraux attributs discrets ou nominaux quand leur valeurs ne sont pas ordonneacutees (exemples couleur

= rouge vert bleu ou allegravele observeacute = AA AT AC AG TT TC TG CC CG GG) Dansce cas il est cependant possible de construire manuellement un eacutechelonnage ou une hieacuterarchie desattributs avec lrsquoaide drsquoexperts du domaines etou de meacutethodes heuristiques [HF94]

La seacutelection La seacutelection de donneacutees a pour but drsquoidentifier des sous-ensembles reacuteduits de donneacuteessans en alteacuterer la repreacutesentation originale Il est possible de distinguer deux familles principales demeacutethodes de seacutelection de donneacutees [GE03 SIL05] ndash Les meacutethodes de filtrage qui la plupart du temps estiment un score drsquointeacuterecirct pour les attributs

du jeu de donneacutees qui permet de les classer et drsquoen supprimer les moins inteacuteressants avant deles soumettre agrave la fouille Lrsquoestimation du score peut ecirctre assureacutee agrave lrsquoaide de meacutethodes heuris-tiques qui se fondent sur des mesures de significativiteacute des attributs ou drsquoentropie comme parexemple le gain drsquoinformation [KJ97] Les meacutethodes de filtrage les plus eacutevolueacutees sont capa-bles drsquoidentifier les deacutependances entre attributs et drsquointroduire cette composante dans le calculdu score drsquointeacuterecirct (voir [YL04] pour un exemple) Le principal inconveacutenient de ces meacutethodesest qursquoelles sont indeacutependantes de la meacutethode de fouille utiliseacutee et ainsi qursquoelles conduisentagrave estimer lrsquointeacuterecirct des attributs selon des critegraveres diffeacuterents de ceux utiliseacutes par la meacutethode defouille

ndash Les meacutethodes enveloppantes et inteacutegreacutees (wrapper et embedded methods en anglais) quant agraveelles sont deacutependantes de la meacutethode de fouille consideacutereacutee De faccedilon simplifieacutee leur principerepose sur la constitution drsquoun ensemble fini de sous-ensembles de donneacutees qui seront cha-cun soumis agrave lrsquoalgorithme de fouille consideacutereacute Alors le reacutesultat de la fouille de chaque sous-ensemble de donneacutees est eacutevalueacute et compareacute aux autres afin de constituer de nouveaux sous-ensembles de donneacutees qui seront agrave leur tour testeacutes lors drsquoune nouvelle iteacuteration De faccedilon nonformelle ces meacutethodes peuvent ecirctre consideacutereacutees elles-mecircmes comme des meacutethodes de fouilleappliqueacutees agrave des reacutesultats partiels de la meacutethode de fouille consideacutereacutee Ces meacutethodes sont par-ticuliegraverement coucircteuses en calcul et le sont drsquoautant plus que le nombre drsquoattributs est eacuteleveacute etque la meacutethode de fouille consideacutereacutee demande elle-mecircme des ressources importantes de calculLes algorithmes geacuteneacutetiques sont par exemple utiliseacutes pour ce type de meacutethode de seacutelection dedonneacutees [SIL05]

Dans le chapitre 4 nous proposons une approche de seacutelection dont la particulariteacute est de tirer

1 Extraction de Connaissances agrave partir de Bases de Donneacutees ndash 27

beacuteneacutefice des connaissances du domaine disponibles

Les connaissances de lrsquoanalyste peuvent aussi guider manuellement la seacutelection des donneacutees Lasection 4 de lrsquoeacutetat de lrsquoart illustrera entre autres comment des connaissances formaliseacutees peuventecirctre utiliseacutees par lrsquoanalyste ou par des programmes en vue de la seacutelection des donneacutees A cestravaux encore peu abondants srsquoajoute la deuxiegraveme contribution de cette thegravese qui consiste agrave pro-poser une approche de seacutelection des donneacutees guideacutee par les connaissances du domaine (chapitre 4section 1)

124 Transformation des donneacutees

La transformation des donneacutees consiste en leur modification en une forme adapteacutee agrave la meacutethode defouille envisageacutee

Un premier exemple est la normalisation des donneacutees qui reacuteside en leur eacutechelonnage (scaling enanglais) sur diffeacuterents intervalles ou ensembles de valeurs comme de -10 agrave 10 de 00 agrave 10 ou 0 1ou encore sous-exprimeacute exprimeacute sur-exprimeacute

Un second exemple de transformation est la geacuteneacuteralisation qui srsquoappuyant sur une hieacuterarchie determes ou de concepts permet de remplacer les valeurs drsquoattributs par leurs parents dans la hieacuterarchiece qui permet souvent de restreindre le nombre de valeurs possibles pour le nouvel attribut Consid-eacuterons par exemple un attribut ldquointeraction avec un meacutedicamentrdquo associeacutee agrave une relation qui deacutecrit desvariations geacutenomiques et peut prendre comme valeur les types de meacutedicament avec lesquels la variationinteragit Les variations interagissant avec la codeacuteine ou avec la morphine preacutesentent la valeur ldquocodeacuteinerdquoou ldquomorphinerdquo pour cet attribut Si ces deux exemple de valeurs sont remplaceacutees par la valeur uniqueplus geacuteneacuterale ldquoopiaceacuterdquo selon une hieacuterarchie de termes les tuples (ie les variations) preacutesentant la valeurldquoopiaceacuterdquo pour cet attribut constitue un ensemble plus important que celles qui initialement avaient deuxvaleurs distinctes ldquocodeacuteinerdquo et ldquomorphinerdquo Cela peut permettre de reacuteduire les diffeacuterentes valeurs pos-sibles pour certains attributs Par contre cette geacuteneacuteralisation empecircche alors de distinguer les variants quiinteragissent avec la codeacuteine de ceux qui interagissent avec la morphine

Lrsquoagreacutegation est une transformation eacutegalement inteacuteressante lorsque les donneacutees peuvent ecirctre reacute-sumeacutees ou agreacutegeacutees pour ecirctre eacutetudieacutees dans une dimension diffeacuterente Par exemple le nombre de crisesdrsquoasthme drsquoun patient par semaine peut ecirctre agreacutegeacute pour ecirctre eacutetudieacute au niveau mensuel ou annuel

Le lissage qui revient agrave appliquer aux donneacutees une fonction drsquoapproximation dans lrsquoobjectif drsquoeacutelim-iner les pheacutenomegravenes locaux et de mettre en eacutevidence les caracteacuteristiques geacuteneacuterales de celle-ci ou encorela construction drsquoattributs sont drsquoautres exemples de transformation de donneacutees [HK01]

13 Fouille de donneacutees

La fouille de donneacutees est lrsquoeacutetape de lrsquo qui vise agrave extraire des reacutegulariteacutes (ou des irreacutegulariteacutes) delrsquoensemble de donneacutees preacutepareacutees Il existe de nombreuses meacutethodes de fouille diffeacuterentes Le choix dela meacutethode est deacuteterminant et se fait essentiellement en fonction de lrsquoobjectif viseacute par lrsquoanalyste

Les diffeacuterents objectifs (ou mining tasks en anglais) de la fouille sont [HK01] ndash La description de classes (ou concepts) qui permet la caracteacuterisation de classes ou la discrimination

entre diffeacuterentes classesndash La recherche drsquoassociations entre des attributs qui prennent des valeurs particuliegraveres de faccedilon

concomitantendash La classification et la preacutediction baseacutees sur la deacutefinition drsquoun modegravele agrave partir drsquoun jeu de donneacutees

drsquoapprentissagendash La construction de clusters qui regroupent les donneacutees en diffeacuterents groupes selon des mesures de

similariteacute

28 Chapitre 2 Etat de lrsquoart

ndash La deacutetection de cas extrecircmes reacuteveacutelant une forme drsquoirreacutegulariteacuteEn pharmacogeacutenomique par exemple les cliniciens sont inteacuteresseacutes par la deacutecouverte de facteurs

permettant la discrimination drsquoun groupe de patients reacuteagissant de faccedilon adverse agrave un traitement par rap-port agrave ceux pour qui aucune reacuteaction neacutefaste nrsquoest observeacutee Les biologistes plus directement inteacuteresseacutespar lrsquoeacutetude du processus moleacuteculaire des reacuteactions pharmacogeacutenomiques peuvent ecirctre inteacuteresseacutes par larecherche drsquoassociations entre par exemple un variant geacuteneacutetique la reacuteduction de lrsquoactiviteacute drsquoune en-zyme et la concentration eacuteleveacutee drsquoune moleacutecule dans le sang

Les meacutethodes de fouille de donneacutees sont souvent classifieacutees en fonction des divers objectifs exposeacutesci-dessus Il est eacutegalement possible de distinguer les meacutethodes numeacuteriques des meacutethodes symboliquesen fonction du type de donneacutees qursquoelles manipulent Cette distinction implique une diffeacuterence dans lesmodaliteacutes de repreacutesentation de manipulation et de comparaison des donneacutees et des reacutegulariteacutes reacutesul-tantes

ndash Les meacutethodes de fouille numeacuteriques comprennent entre autres les chaicircnes de Markov les reacuteseauxde neurones les K-plus proches voisins lrsquoanalyse en composante principale (ACP) les reacuteseauxbayeacutesiens les algorithmes geacuteneacutetiques

ndash Les meacutethodes de fouille symboliques comprennent entre autres lrsquoextraction de motifs freacutequentsla recherche de regravegles drsquoassociation lrsquoAnalyse de Concepts Formels ()

Une autre distinction est faite entre les meacutethodes dites superviseacutees et celles dites non-superviseacuteesUne meacutethode superviseacutee va proposer une classification des tuplesobjets drsquoun jeu de donneacutees en srsquoap-puyant sur un modegravele preacuteeacutetabli agrave partir drsquoune base drsquoexemples ou drsquoeacutechantillons de tuplesobjets seacutelec-tionneacutes au hasard Inversement une meacutethode non-superviseacutee va produire un modegravele sans apriori sur laseule information que lui apportent les tuplesobjets Dans ce cas la consideacuteration de nouveaux tuplesob-jets entraicircnera la mise agrave jour du modegravele

Lrsquoapprentissage est un domaine de recherche proche de la fouille de donneacutees utilisant des meacutethodessimilaires mais avec une eacutechelle et un objectif leacutegegraverement diffeacuterents puisque les travaux drsquoapprentissagene srsquointeacuteressent pas forceacutement aux larges volumes de donneacutees et que les reacutesultats obtenus sont destineacutesplus particuliegraverement agrave la reacutesolution de problegravemes et agrave la prise de deacutecision

Les sections suivantes preacutesentent trois meacutethodes de fouille de donneacutees symboliques qui extraient agravepartir de bases de donneacutees binaires soit un ensemble de concepts organiseacutes en un treillis (ie un ordre

partiel) soit des motifs freacutequents soit des regravegles drsquoassociation Ces meacutethodes sont justement utiliseacuteesdans le chapitre 4 de cette thegravese La construction de treillis est preacutesenteacutee dans la section suivante (131)et les extractions de motifs et la recherche de regravegles sont deacutecrites en la section 132 Enfin la recherchede regravegles drsquoassociation particuliegraveres dites Minimales Non-Redondantes est preacutesenteacutee section 133

131 La classification par construction de treillis

Certaines meacutethodes de fouille de donneacutees srsquoapparentent agrave une classification et analyse des corre-spondances binaires entre une classe drsquoobjets (ou individus) et une classe drsquoattributs (ou proprieacuteteacutes)informant ainsi pour chaque paire objet-attribut si lrsquoattribut est observeacute pour lrsquoobjet ou non [GVM93GW99] Les attributs sont des proprieacuteteacutes qui qualifient les objets soit par leur preacutesence ou leur ab-sence soit par une valeur qui a eacuteteacute discreacutetiseacutee sous forme de plusieurs variables binaires Ces variablessont regroupeacutees dans des tableaux binaires (eacutegalement appeleacutes bases de donneacutees binaires ou contexteformel) qui deacutecrivent les relations entre un ensemble drsquoobjets et un ensemble drsquoattributs ougrave par exemple(ij) = 1 deacutetermine que lrsquoobjet i preacutesente lrsquoattribut j Cette relation est alors mateacuterialiseacutee par unecroix ldquotimesrdquo dans le tableau binaire correspondant

LrsquoAnalyse de Concepts Formels () est une meacutethode drsquoanalyse de donneacutees fondeacutee sur les treillisde concepts (ou treillis de Galois) [GW99] Lrsquo a pour principe la transformation drsquoun contexte formel

1 Extraction de Connaissances agrave partir de Bases de Donneacutees ndash 29

G

MA B C

1 times times

2 times times

3 times

T 21 ndash Un premier exemple de contexte formel K

en un ensemble de concepts formels organiseacutes en un treillis Lrsquoadjectif formel souligne ici le fait que lescontextes et concepts sont manipuleacutes en tant qursquoentiteacutes matheacutematiques

Pour deacutefinir la notion de treillis il est neacutecessaire drsquointroduire au preacutealable les notions de borne

infeacuterieure et de borne supeacuterieure

Deacutefinition 21 Soit (Mle) un ordre partiel et A un sous-ensemble de M Une borne infeacuterieure de A est

un eacuteleacutement s de M tel que s le a foralla isin A Une borne supeacuterieure de A peut ecirctre deacutefinie dualement Srsquoil

existe un eacuteleacutement plus grand dans lrsquoensemble des bornes infeacuterieures celui-ci est lrsquoinfimum de A et noteacute

inf A ou andA dualement une borne supeacuterieure moindre est appeleacutee supremum et est noteacutee sup A ou orA

Si A = x y lrsquoinfimum inf A est eacutegalement noteacute x and y et le supremum sup A est eacutegalement noteacute x or y

Alors de faccedilon geacuteneacuterale un treillis est un ordre (B⊑) ougrave la relation ⊑ appeleacutee relation de subsomp-

tion deacutecrit un ordre partiel tel que chaque paire drsquoeacuteleacutement xy deB possegravede une borne supeacuterieure xory

et une borne infeacuterieure x and y

Deacutefinition 22 Un ordre B ≔ (B le) est un treillis si pour chaque paire drsquoeacuteleacutements x minus y il existe

toujours un infimum x and y et un supremum x or y B est un treillis complet si son infimum andX et son

supremum orX existent pour chaque sous-ensemble X deB Tout treillis completB a un plus petit eacuteleacutement

unique andB et un plus grand eacuteleacutement unique orB

Dans le cadre de lrsquo un treillis est construit agrave partir drsquoun contexte formel deacutefini comme suit

Deacutefinition 23 (contexte formel) Un contexte formel K(GMI) consiste en deux ensembles G et M

et en une relation binaire I sube G timesM entre G etM G est lrsquoensemble des objets etM lrsquoensemble des

attributs du contexte26 I est la relation drsquoincidence qui entre un objet g et un attribut m se note gIm ou

(gm) isin I

Comme lrsquoillustre le Tableau 21 un contexte formel est une base de donneacutees binaire qui peut ecirctresimplement repreacutesenteacutee par un ldquotableau de croixrdquo ie un tableau dans lequel les en-tecirctes de lignes cor-respondent aux noms drsquoobjets celles des colonnes aux noms drsquoattributs La preacutesence drsquoune croix aucroisement de la ligne i et de la colonne j signifie que lrsquoobjet i preacutesente lrsquoattribut j

La construction drsquoun treillis agrave partir drsquoun contexte formel se fonde sur la deacutefinition drsquoune fonctionduale particuliegravere qui permet drsquoassocier agrave nrsquoimporte quel sous-ensemble drsquoobjets un sous-ensemble drsquoat-tributs drsquoune part et drsquoautre part agrave nrsquoimporte quel sous-ensemble drsquoattributs un sous ensemble drsquoobjets

Deacutefinition 24 Pour un sous-ensemble quelconque drsquoobjets A sube G nous deacutefinissons

Aprime ≔ m isin M | forallg isin A (gm) isin I (21)

26Plus preacuteciseacutement nous devrions dire ldquoobjets formelsrdquo et ldquoattributs formelsrdquo

30 Chapitre 2 Etat de lrsquoart

qui repreacutesente lrsquoensemble des attributs communs aux objets de A Pour un sous-ensemble quelconque

drsquoattributs B sube M nous deacutefinissons de faccedilon similaire

Bprime ≔ g isin G | forallm isin B (gm) isin I (22)

qui repreacutesente lrsquoensemble des objets qui preacutesentent tous les attributs de B

La double utilisation de lrsquoopeacuterateur prime noteacute primeprime (prime 2G rarr 2M et prime 2M rarr 2G) constitue la connexion de

Galois Il peut ecirctre montreacute que lrsquoopeacuterateur primeprime 2G rarr 2G de mecircme que primeprime 2M rarr 2M sont des opeacuterateurs

de fermeture

Deacutefinition 25 (opeacuterateur de fermeture) Soit X X1 et X2 trois sous-ensembles de E (par exemple G ou

M) Un opeacuterateur de fermeture h est une fonction (i) monotone croissante ie X1 sube X2 rArr h(X1) sube h(X2)(ii) extensive ie X sube h(X) et (iii) idempotente ie h(X) = h[h(X)]

Alors un ensemble X de E est fermeacute si et seulement si X = h(X)

Deacutefinition 26 (concept formel) Un concept formel du contexte K(GMI) est une paire (A B) avec

A sube G B sube M et pour lequel la relation entre A et B est deacutecrite par lrsquoopeacuterateur prime tel que

Aprime = B et Bprime = A (23)

A est appeleacute lrsquoextension du concept (A B) et B est appeleacutee son intensionB(GMI) appeleacute lrsquoensemble

des parties de K est lrsquoensemble de tous les concepts formels du contexte K(GMI)

Les proprieacuteteacutes particuliegraveres de lrsquoopeacuterateur de fermeture primeprime permettent de relier agrave chaque concept leconcept fermeacute associeacute et permettent eacutegalement de deacutefinir une relation drsquoordre entre les concepts

Deacutefinition 27 Si (A1 B1) et (A2 B2) sont des concepts drsquoun contexte K(GMI) si A1 sube A2 (et donc

B2 sube B1) alors (A1 B1) est appeleacute le sous concept de (A2 B2) et (A2 B2) le super concept de (A1 B1)

Il en reacutesulte la relation drsquoordre partiel qui induit une hieacuterarchie entre ces deux concepts noteacute le

(A1 B1) le (A2 B2) (24)

Lrsquoensemble des parties (ie de tous les concepts) B(GMI) du contexte K organiseacute selon cet ordre et

noteacute B(GMI) est le treillis de concept (ou treillis de Galois) du contexte K

Un treillis peut ecirctre repreacutesenteacute de diffeacuterentes faccedilons plus ou moins reacuteduites Un mode de repreacutesentationrelativement riche inclut lrsquoensemble des concepts drsquoun contexte ie chaque intension possible est deacute-clineacutee pour former un concept Cela permet la constitution du treillis des parties du contexte dont unexemple est repreacutesenteacute agrave gauche dans la Figure 22 Un mode plus classique et plus reacuteduit consiste agrave nerepreacutesenter que les concepts fermeacutes Suivant lrsquoexemple donneacute Figure 22 le concept (2C) preacutesentdans le treillis des parties est eacutelimineacute et repreacutesenteacute par son fermeacute (2AC) dans le treillis du centrede la figure Un dernier mode appeleacutee notation reacuteduite drsquoun treillis et deacutefinie dans [GW99] preacutesente laparticulariteacute de ne signaler les objets que dans lrsquoextension du concept le plus speacutecifique (ie le conceptqui preacutesente le plus drsquoattributs) dans lequel est inclus cet objet Inversement les attributs ne sont signaleacutesque dans lrsquointension du concept le plus geacuteneacuteral (ie celui qui preacutesente le moins drsquoattributs) dans lequelils sont preacutesents Le treillis de droite de la Figure 22 est la notation reacuteduite des deux premiers treillis

La construction de treillis peut preacutesenter diffeacuterents avantages dans un processus drsquo [SWW98Wil02 VMG04]

1 Extraction de Connaissances agrave partir de Bases de Donneacutees ndash 31

( 12B)

(123)

(AC)

(ABC)

(2C)(13A)

(2BC)(1AB)

( 12B)

(123)

(ABC)

(13A)

(2BC)(1AB)

(B)(3A)

(1) (2C)

F 22 ndash Diffeacuterentes repreacutesentations du treillis associeacute au contexteK repreacutesenteacute dans le Tableau 21 Degauche agrave droite le treillis des parties associeacute au contexte (ougrave tous les sous-ensembles drsquoattributs sontrepreacutesenteacutes) treillis de Galois associeacute au mecircme contexte treillis de Galois en notation reacuteduite associeacuteau mecircme contexte

ndash La structuration logique des donneacutees en concepts reflegravete la faccedilon avec laquelle les humains con-ceptualisent un domaine La proposition drsquoune hieacuterarchisation en concepts construite sans aprioriagrave partir des seules donneacutees peut aider un analyste dans le cadre de lrsquoextraction de connaissances

ndash La formalisation des concepts peut permettre de proposer une traduction de la structure du treillisselon un formalisme logique afin de pouvoir y appliquer des meacutecanismes automatiques de raison-nement

ndash La construction du treillis peut servir drsquoeacutetape preacuteliminaire pour des algorithmes de fouille pluscomplexes Ces algorithmes pourront alors tirer parti de lrsquoorganisation des concepts pour ameacuteliorerla rapiditeacute de leur exeacutecution la gestion de la meacutemoire ou les reacutesultats produits

ndash Les treillis sont eacutegalement utiliseacutes en recherche drsquoinformation () [CR04 MDNST05] Lrsquoutili-sation de lrsquo en est entre autres motiveacutee par lrsquoanalogie eacutevidente entre les associations ob-jetattribut de lrsquo et documentterme en Selon cette analogie les concepts formels peuventecirctre consideacutereacutes comme des classes de documents qui correspondent agrave une requecircte de lrsquoutilisateurAlors les documents sont les objets caracteacuteriseacutes par des attributs qui sont les termes utiliseacutes pourune requecircte La relation de subsomption permet de guider le raffinement ou la geacuteneacuteralisation dela requecircte (en y ajoutantsupprimant des termes) poseacutee par un utilisateur en lui permettant de nav-iguer drsquoun concept agrave un autre

ndash Lrsquo est de plus en plus populaire en acquisition de connaissances agrave partir de textes Le treil-lis peut constituer un compleacutement aux meacutethodes de Traitement Automatique des Langues ()en proposant une structure hieacuterarchique entre les concepts acquis par Les associations entretermes organiseacutees en concepts dans un treillis peuvent permettre lrsquoidentification de nouveaux con-cepts ou drsquoinstancier des concepts existants dans des processus de peuplement ou de constructiondrsquoontologies [CHST04 BTN08]

R Nous distinguons dans cette thegravese la notion de concept formel entiteacute matheacutematique reacute-sultant drsquoun processus drsquo dont lrsquointension est une liste drsquoattributs et les concepts utiliseacutes en repreacutesen-tation de connaissances notamment en Logique de Descriptions () Eleacutements de base drsquoune ontologieces concepts ont pour intension une description formelle en qui deacutefinit les conditions drsquoappartenance agravece concept selon une certaine interpreacutetation (voir section 22) Cependant une certaine analogie a pu con-duire agrave des rapprochements entre ces deux notions et agrave des travaux situeacutes agrave lrsquointersection des domaines de

32 Chapitre 2 Etat de lrsquoart

G

MA B C D E

1 times times times times

2 times times

3 times times times times

4 times times times

5 times times times times

T 22 ndash Un second exemple de contexte formel K

lrsquo et des De tels travaux [Rud06 BGSS07] deacutetailleacutes au chapitre 4 sont agrave lrsquoorigine de la troisiegravemecontribution de cette thegravese qui propose drsquoutiliser lrsquo pour deacutecouvrir de nouvelles connaissances au seindrsquoune base de connaissance formaliseacutee en

132 Motifs freacutequents et regravegles drsquoassociation

En partant du mecircme type de tableau binaire agrave partir duquel il est possible de construire un treillisil est eacutegalement possible drsquoextraire des motifs freacutequents et de rechercher des regravegles drsquoassociation Cettesection preacutesente rapidement ces deux meacutethodes

Lrsquoextraction des motifs freacutequents permet drsquoisoler depuis un contexte formel des ensembles drsquoat-tributs appeleacutes motifs en accord avec un certain support Ce support correspond au nombre drsquoobjets quipartagent les attributs drsquoun motif et celui-ci doit ecirctre supeacuterieur agrave un certain seuil le support minimumpour que le motif soit freacutequent

Sur la base des motifs freacutequents il est possible de construire des regravegles drsquoassociation de formegeacuteneacuterale A rarr B qui associe un sous-ensemble drsquoattributs A avec un second sous-ensemble drsquoattributsB La regravegle peut alors ecirctre interpreacuteteacutee comme le fait que lrsquoensemble des objets avec les attributs de A

preacutesente eacutegalement les attributs de B selon un certain support et une certaine confiance (deacutefninie plusloin)

Lrsquoextraction de motifs freacutequents

Deacutefinition 28 (motif freacutequent) Soit un contexte K(GMI) avec G un ensemble drsquoobjets et M un

ensemble drsquoattributs Un motif est un ensemble drsquoattributs preacutesenteacute par un objet Il est dit que lrsquoobjet

contient le motif Le nombre drsquoattributs dans un motif deacutetermine la longueur du motif Lrsquoimage du motif

correspond agrave lrsquoensemble des objets qui contiennent le motif

Le support drsquoun motif T est le nombre relatif drsquoobjets qui contiennent ce motif parmi le nombre total

drsquoobjets |G| dans le contexte consideacutereacute K ainsi

supp =|Image(T )||G|

(25)

Le support peut ecirctre compareacute agrave la probabiliteacute P(T ) de trouver un objet contenant le motif T parmi

lrsquoensemble des objets du contexte Un motif est dit freacutequent si son support est supeacuterieur ou eacutegal agrave un

seuil de freacutequence arbitraire appeleacute support minimum (noteacute min_supp)

Par exemple si lrsquoon considegravere le contexte formel repreacutesenteacute Tableau 22 et un min_supp = 35 A

est un motif freacutequent de longueur 1 et de support 45 AB est de longueur 2 de support 3

5 et freacutequent ABC est de longueur 3 de support 2

5 et non freacutequent ABCDE est de longueur 5 de support 0 etnon freacutequent On peut remarquer que le support diminue lorsque la longueur du motif augmente

1 Extraction de Connaissances agrave partir de Bases de Donneacutees ndash 33

Si le nombre drsquoattributs de M est eacutegal agrave n le nombre de motifs possibles est 2n (ie le nombre desous-ensembles possibles agrave partir deM) Aussi une extraction des motifs freacutequents par le test systeacutema-tique de la freacutequence de chaque motif nrsquoest pas envisageable Cependant des algorithmes qui permettentde ne tester que certains sous-ensembles de motifs ont eacuteteacute deacuteveloppeacutes et permettent drsquoextraire les mo-tifs freacutequents de grandes bases de donneacutees Lrsquoalgorithme Apriori est un outil classique drsquoextraction demotifs freacutequents qui suit ce mode opeacuteratoire [AIS93] Apriori srsquoappuie sur deux principes fondamen-taux (i) tout sous-motif drsquoun motif freacutequent est un motif freacutequent et (ii) tout super-motif drsquoun motif nonfreacutequent est non freacutequent Apriori peut ecirctre reacutesumeacute par ces deux opeacuterations principales

1 Lrsquoextraction des motifs freacutequents commence par la recherche des motifs de longueur 1

2 Les motifs freacutequents sont enregistreacutes et combineacutes entre eux pour former des motifs candidats delongueur supeacuterieure les motifs non freacutequents en 1 sont eacutelimineacutes et par conseacutequent aucun de leursuper-motif nrsquoest consideacutereacute La freacutequence des motifs candidats est testeacutee pour constituer un nouvelensemble de motifs freacutequents et lrsquoalgorithme continue tant que de nouveaux candidats peuvent ecirctreformeacutes

Lrsquoalgorithme 21 preacutesenteacute plus loin dans ce chapitre en section 42 permet de suivre la succession desopeacuterations de lrsquoalgorithme Apriori (la version preacutesenteacutee est enrichie par certaines opeacuterations speacutecifiquesagrave la probleacutematique de cette section 42)

En guise drsquoexemple nous pouvons reacutealiser pas agrave pas Apriori sur le contexte du Tableau 22 avecmin_supp = 3

5 Les motifs freacutequents de longueur 1 sont A( 45 ) B( 4

5 ) C( 45 ) E( 4

5 ) Le motifD( 1

5 ) nrsquoest pas freacutequent et est eacutelimineacute Dans un second temps les motifs candidats de longueur 2 sontformeacutes en combinant les motifs freacutequents de longueur 1 AB AC AE BC BE puisleur freacutequence est testeacutee Ainsi les motifs freacutequents de longueurs 2 sont AB( 3

5 ) AC( 35 ) AE( 3

5 )BC( 3

5 ) BE( 45 ) CE( 3

5 ) De la mecircme faccedilon les motifs candidats de longueur 3 sont formeacutes puistesteacutes pour donner les motifs freacutequents de longueur 3 suivants ABE( 3

5 ) BCE( 35 ) Enfin le seul

motif candidat ABCE de longueur 4 est formeacute et testeacute mais son support ( 25 ) est infeacuterieur agrave min_supp

Il est donc eacutelimineacute Il nrsquoy a plus de candidat lrsquoalgorithme se termineSuivant un algorithme diffeacuterent les motifs freacutequents peuvent facilement ecirctre extraits agrave partir drsquoun

treillis Lrsquoeacutetape la plus contraignante est alors la construction du treillis agrave partir duquel lrsquoextraction desmotifs freacutequents est ensuite triviale Elle correspond agrave un parcours en largeur dans le treillis en partantdu bas La Figure 23 permet de distinguer facilement les motifs freacutequents du contexte du Tableau 22 etde min_supp = 3

5

La recherche de regravegles drsquoassociation

Deacutefinition 29 Une regravegle drsquoassociation est de forme T1 rarr T2 ougrave T1 et T2 sont des motifs T1 est appeleacute

la preacutemisse ou partie gauche de la regravegle et T2 est la conclusion ou partie droite de la regravegle Le support

de la regravegle T1 rarr T2 est deacutefinie comme le support du motif T1 cup T2 ainsi pour un contexte K(GMI)

supp(T1 rarr T2) =|Image(T1 cup T2)|

|G|(26)

La confiance drsquoune regravegle T1 rarr T2 est le rapport entre le support de la regravegle et le support de sa preacutemisse

con f (T1 rarr T2) =|Image(T1 cup T2)||Image(T1)|

(27)

La confiance peut ecirctre compareacutee agrave la probabiliteacute conditionnelle P(T2|T1) ie la probabiliteacute de trouver

parmi les objets du contexte qui contiennent le motif T1 un objet contenant eacutegalement le motif T2

34 Chapitre 2 Etat de lrsquoart

F 23 ndash Treillis des parties associeacute au contexte K repreacutesenteacute Tableau 22 La ligne de seacuteparation sym-bolise le support minimum (min_supp = 3

5 ) dissociant les motifs non freacutequents au dessus de la lignedes motifs freacutequents en dessous Le chiffre associeacute agrave chaque motif correspond au nombre drsquooccurencesdu motif dans K Source exemple extrait de [Sza06]

Une regravegle est dite valide si sa confiance est supeacuterieure ou eacutegale agrave un seuil de confiance arbitraire

appeleacute confiance minimum (noteacute min_conf) et si son support est supeacuterieur ou eacutegal au support minimum

(min_supp) Ainsi toute regravegle valide T1 rarr T2 est baseacutee sur un motif freacutequent T1cupT2 Une regravegle est exacte

si sa confiance est eacutegale agrave 1 ie supp(T1 cup T2) = supp(T1) sinon la regravegle est approximative Les regravegles

exactes sont eacutegalement appeleacutees des implications

Si lrsquoon considegravere agrave nouveau le contexte du Tableau 22 avec min_supp = 35 et min_con f = 3

5 ABest freacutequent et la regravegle Ararr B est valide (supp = 3

5 et con f = 34 ) La regravegle BrarrA est eacutegalement valide

(supp = 35 et con f = 3

4 ) Si lrsquoon diminue le support de sorte que min_supp = 25 et min_con f = 3

5 lemotif ABCE est freacutequent les regravegles ABrarrCE CErarrAB ACrarrBE sont valides (supp = 2

5 et con f = 23

pour les trois) mais la regravegle BErarrAC nrsquoest pas valide (supp = 25 et con f = 2

4 )La construction des regravegles drsquoassociation valides depuis un motif freacutequent (de longueur supeacuterieure ou

eacutegale agrave deux) se fait de faccedilon similaire agrave lrsquoextraction de motifs freacutequents A partir drsquoun motif freacutequent laconstruction des regravegles deacutebute par les regravegles dont la conclusion est de longueur 1 noteacutees P irarri ougravei est un attribut seul et P i repreacutesente le motif P sans lrsquoattribut i Une fois ces regravegles construitesleur conclusions sont combineacutees pour donner de nouvelles regravegles candidates dont la conclusion est delongueur 2 noteacutees P ijrarrij Ces nouvelles regravegles sont testeacutees et le processus continue tant qursquoilest possible de construire de nouvelles regravegles candidates

Par exemple pour le contexte manipuleacute preacuteceacutedemment et min_supp = 25 et min_con f = 2

5 quand P =AB les regravegles valides construites sont ArarrB (min_supp = 3

5 min_con f = 34 ) et BrarrA ( 3

5 34 ) Quand P

= ABC( 25 ) les regravegles construites sont drsquoabord ABrarrC( 2

5 23 ) ACrarrB( 2

5 23 ) BCrarrA( 2

5 23 )

qui sont trois regravegles valides Leurs conclusions peuvent donc ecirctre combineacutees pour produire les nou-velles conclusions ABACBC et les regravegles correspondantes CrarrAB( 2

5 24 ) BrarrAC( 2

5 24 )

ArarrBC( 25 2

4 ) qui sont eacutegalement trois regravegles valides

1 Extraction de Connaissances agrave partir de Bases de Donneacutees ndash 35

Le nombre de motifs et de regravegles geacuteneacutereacutees est drsquoautant plus grand que le contexte permet drsquoassocierun grand nombre drsquoobjets et drsquoattributs Cela rend deacutelicate lrsquoeacutetape drsquointerpreacutetation des uniteacutes extraitesqui dans la plupart des cas est assureacutee par un analyste Pour cette raison il est crucial dans un processusdrsquo et plus particuliegraverement lorsqursquoil met en œuvre une extraction de motifs (ou une recherche deregravegle) de disposer de meacutethodes de filtrage des uniteacutes extraites Dans ce but de nombreux travaux se sontattacheacutes agrave eacutetudier les diverses mesures qui peuvent qualifier une regravegle [Fre98 LFZ99 TKS02 McG05]En partant du fait que la confiance drsquoune regravegle ArarrB peut ecirctre consideacutereacutee comme la probabiliteacute condition-nelle P(B|A) (ie la probabiliteacute de B sachant A) certaines de ces mesures peuvent ecirctre le fruit de calculsde probabiliteacutes comme par exemple lrsquointeacuterecirct la conviction ou la deacutependance drsquoune regravegle Une autre cateacute-gorie de mesures utilise des connaissances du domaine pour eacuteliminer certaines regravegles [LHCM00 Sah02]Ces meacutethodes sont alors dites subjectives par oppositions aux premiegraveres qualifieacutees drsquoobjectives

De la mecircme faccedilon que pour les motifs freacutequents la recherche de regravegles drsquoassociation ainsi que lecalcul de mesures peuvent ecirctre facilement meneacutes agrave partir drsquoun treillis de Galois

La construction drsquoun treillis est une opeacuteration coucircteuse en ressources informatiques et nrsquoest pasneacutecessaire agrave lrsquoextraction de motifs freacutequents ou de regravegles valides pour lesquels des algorithmes plus effi-caces existent Cependant la structure matheacutematique qursquooffre un treillis est inteacuteressante pour caracteacuteriserdes groupes particuliers de motifs et ainsi isoler diffeacuterentes familles de motifs et de regravegles Par exemplele treillis proposeacute Figure 23 permet drsquoidentifier de faccedilon assez intuitive les regravegles exactes qui existententre les motifs freacutequents directement relieacutes et de mecircme support De cette faccedilon les motifs BCE etCE directement relieacutes et de mecircme support ( 3

5 ) traduisent lrsquoexistence de la regravegle exacte CErarrB Lasection suivante introduit une famille de regravegles particuliegraveres ainsi que la meacutethode qui permet drsquoen isolerles membres

133 La famille des Regravegles Minimales Non-Redondantes

Cette section preacutesente la famille particuliegravere des regravegles drsquoassociation Minimales Non-Redondantes(noteacutees RMN) [Kry02 Sza06] Le terme famille de regravegles vient du fait que nous distinguons cinq en-sembles de regravegles parmi les Regravegles Minimales Non-Redondantes

Briques neacutecessaires agrave la deacutefinition des RMNPour pouvoir distinguer ces cinq ensembles particuliers de regravegles nous avons besoin de deacutecrire des en-sembles de motifs appeleacutes classes drsquoeacutequivalence et des motifs particuliers les motifs fermeacutes freacutequents

et les geacuteneacuterateurs freacutequents

Deacutefinition 210 (classe drsquoeacutequivalence) Soit f une fonction qui associe agrave chaque motif P sube T lrsquoensemble

de tous les objets qui contiennent le motif P f(P)=g isin G | g contient P Alors deux motifs P Q sube T

sont eacutequivalents (noteacute P Q) si et seulement si f(P) = f(Q) Lrsquoensemble des motifs eacutequivalant agrave un motif

P est appeleacute la classe drsquoeacutequivalence de P et est noteacutee

[P] = Q sube A | P Q (28)

Deacutefinition 211 (motif fermeacute freacutequent) La fermeture drsquoun motif X noteacutee α(X) est le plus grand super

motif de X de mecircme support que X

Un motif X est alors un motif fermeacute si il nrsquoexiste pas de super motif Y de X (ie X sub Y) de support

identique agrave celui de X Dans ce cas X = α(X) Les motifs fermeacutes sont les motifs de longueur maximale au

sein drsquoune classe drsquoeacutequivalence parfois noteacutee max[P] pour une classe drsquoeacutequivalence [P]

36 Chapitre 2 Etat de lrsquoart

F 24 ndash Classes drsquoeacutequivalence motifs fermeacutes freacutequents et geacuteneacuterateurs freacutequents associeacutes au contexteK repreacutesenteacute Tableau 22 (min_supp = 2

5 ) Les relations de subsomption entre classes drsquoeacutequivalencesont deacuteduites du treillis repreacutesenteacute Figure 23 Source exemple extrait de [Sza06]

Un motif agrave la fois fermeacute et freacutequent suivant la Deacutefinition 28 est un motif fermeacute freacutequent

Deacutefinition 212 (geacuteneacuterateur freacutequent) Un motif P isin [P] est appeleacute geacuteneacuterateur si P nrsquoa pas de sous-

motif dans [P] ie si P nrsquoa pas de sous-motif de support identique agrave P En drsquoautres termes les geacuteneacuterateurs

sont les motifs de longueur minimale au sein drsquoune classe drsquoeacutequivalence

Un geacuteneacuterateur freacutequent est un geacuteneacuterateur dont le support est supeacuterieur ou eacutegale agrave min_supp

Deacutefinition 213 (relation de subsomption entre classes drsquoeacutequivalence) Soit une classe drsquoeacutequivalence

[P] La classe drsquoeacutequivalence [Q] est ascendant ou subsumant de [P] si max[P] sub max[Q] La classe

drsquoeacutequivalence [Q] est ascendant direct ou subsumant direct de [P] si [Q] est un ascendant de [P] et

qursquoil nrsquoexiste aucune classe drsquoeacutequivalence [R] telle que max[P] sub max[R] sub max[Q] La relation de

subsomption sur les classes drsquoeacutequivalence est transitive

La Figure 24 repreacutesente les classes drsquoeacutequivalence les motifs fermeacutes freacutequents les geacuteneacuterateursfreacutequents et les relations de subsomption entre classes pour le contexte repreacutesenteacute Tableau 22 et unsupport minimum de 2

5 Dans cette figure la classe drsquoeacutequivalence dont le fermeacute est C est directementsubsumeacutee par la classe dont le fermeacute est BCE qui elle mecircme est subsumeacutee par la classe dont le fermeacuteest ABCE En revanche il nrsquoexiste aucune relation de subsomption entre les classes drsquoeacutequivalencedont les fermeacutes sont BCE et ABE

Les RMN

Deacutefinition 214 (Base geacuteneacuterique des regravegles exactes) Soit FC lrsquoensemble des motifs fermeacutes freacutequents

Pour chaque motif freacutequent f isin FC FG f est lrsquoensemble des geacuteneacuterateurs freacutequents de f Nous deacutefinissons

1 Extraction de Connaissances agrave partir de Bases de Donneacutees ndash 37

alors la base geacuteneacuterique comme suit

BG = r grarr ( f g) | f isin FC and g isin FG f and f g (29)

Deacutefinition 215 (Base informative des regravegles approximatives) Soit FC lrsquoensemble des motifs fermeacutes

freacutequents et FG lrsquoensemble des geacuteneacuterateurs freacutequents Le motif noteacute α(g) repreacutesente le fermeacute de g La

base informative est alors

BI = r grarr ( f g) | f isin FC and g isin FG and α(g) sub f (210)

Deacutefinition 216 (Reacuteduction transitive de la base informative) Soit BI la base informative drsquoun en-

semble de regravegles approximatives et FC lrsquoensemble des motifs fermeacutes freacutequents La reacuteduction transitive

de la base informative est

BIR = r grarr ( f g) isin BI | α(g) est le sous-motif maximal de f dans FC (211)

Deacutefinition 217 (RMN) Lrsquoensemble des Regravegles Minimales Non-redondantes (RMN) est deacutefini comme

RMN = BG cup BI (212)

Ainsi lrsquoensemble des RMN regroupe lrsquoensemble des regravegles exactes (BG) et des regravegles approximatives(BI)

Deacutefinition 218 (RMNR) Lrsquoensemble des Regravegles Minimales Non-redondantes Reacuteduites (RMNR) cor-

respond agrave la reacuteduction transitive des RMN

RMNR = BG cup BIR (213)

Les RMN constitue lrsquoensemble le plus grand de regravegles de cette famille etBGBIBIR et RMNRen sont des sous-ensembles Aussi il est facile agrave partir des deacutefinitions preacuteceacutedentes de deacuteduire les inclu-sions suivantes

BIR sube BI RMNR sube RMN

BG sube RMNR BI sube RMN

BIR sube RMNR

La Figure 25 illustre la position relative des RMN et des RMNR par rapport agrave lrsquoensemble des regraveglesdrsquoassociation

Calcul des RMNNous pouvons remarquer que les deacutefinitions des RMN ne font intervenir que les deux ensembles demotifs particuliers les motifs fermeacutes freacutequents et leur geacuteneacuterateurs De la mecircme faccedilon lesRMN peuventecirctre calculeacutees agrave partir de ces deux seuls ensembles Lrsquoalgorithme Zart deacutecrit par Szathmary et al [Sza06SNK07] permet drsquoisoler ces deux ensembles pour ensuite isoler les RMN Nous proposons en AnnexeA un algorithme qui recherche les RMN et les RMNR agrave partir des motifs fermeacutes freacutequents et de leurgeacuteneacuterateurs

Suivons un exemple agrave partir du contexteK (Tableau 22) avec min_supp = 25 La figure 24 permet de

visualiser les motifs fermeacutes freacutequents et leurs geacuteneacuterateurs dont nous allons nous servir pour cet exempleAinsi si nous consideacuterons le geacuteneacuterateur E de la Figure 24 deux types de regravegles peuvent ecirctre isoleacutesUn premier type correspond aux regravegles isoleacutees au sein drsquoune classe drsquoeacutequivalence et constitue la BaseGeacuteneacuterique (BG) qui sont des regravegles exactes En partant de E la regravegle exacte Erarr B peut ainsi ecirctre isoleacuteeLe second type de regravegles correspond aux regravegles isoleacutees agrave partir des relations entre classes drsquoeacutequivalence et

38 Chapitre 2 Etat de lrsquoart

F 25 ndash Repreacutesentation des inclusions successives de lrsquoensemble des Regravegles Minimales Non-redondantes Reacuteduites (RMNR) dans lrsquoensemble des Regravegles Minimales Non-redondantes (RMN) puisde ce dernier ensemble dans celui de toutes les regravegles drsquoassociation

constitue la Base Informative (BI) qui sont des regravegles approximatives Le geacuteneacuterateur E permet drsquoisolerles regravegles Erarr AB Erarr BC et Erarr ABC Ensuite pour isoler les RMNR lrsquoespace de recherche (desmotifs fermeacutes freacutequents qui sont eacutegalement super motifs du geacuteneacuterateur consideacutereacute) est reacuteduit aux classesdrsquoeacutequivalence qui sont relieacutees par une relation de subsomption directe (voir Deacutefinition 213) ie lesrelations de subsomption transitives ne sont plus consideacutereacutees De cette faccedilon le geacuteneacuterateur E ne permetdrsquoisoler que trois regravegles Erarr B Erarr AB et Erarr BC La regravegle Erarr ABC isoleacutee agrave partir drsquoune relation desubsomption indirecte nrsquoest plus consideacutereacutee Aussi si lrsquoon retire les regravegles exacte des RMNR (Erarr Bselon notre exemple) nous obtenons la Base Informative Reacuteduite (BIR)

Inteacuterecirct des RMNKryszkiewicz a deacutemontreacute que les RMN et les RMNR constituent des repreacutesentations de lrsquoensembledes regravegles drsquoassociation qui sont sans perte (ie elles permettent de deacuteriver la totaliteacute des regravegles valides)consistantes (ie elles empecircchent de deacuteriver des regravegles non valides) et informatives (ie elles permettentde deacuteterminer les paramegravetres des regravegles comme leur support et leur confiance) Lrsquoavantage principal desRMNR est de constituer lrsquoensemble le plus concis des regravegles drsquoassociation qui peuvent ecirctre extraitesdrsquoun contexte formel sans perte drsquoinformation

Crsquoest pour cette raison que nous utilisons la recherche des RMNR agrave partir drsquoun treillis comme meacuteth-ode de fouille dans un processus drsquoExtraction de Connaissances agrave partir drsquoune Base de Connaissancespreacutesenteacute au chapitre 4 section 23

14 Interpreacutetation en uniteacutes de connaissances

Lrsquoeacutetape drsquointerpreacutetation du processus drsquo est eacutegalement appeleacutee le post processing en anglaisElle consiste en la prise en charge des reacutesultats bruts de la fouille de donneacutees les uniteacutes extraites en leurtransformation pour leur interpreacutetation et validation par lrsquoanalyste en uniteacutes de connaissance

Cette eacutetape est particuliegraverement limitante dans le processus drsquo car elle demande une implica-tion importante de lrsquoanalyste qui doit interpreacuteter des reacutesultats de fouille potentiellement volumineuxLa forme des uniteacutes extraites est diffeacuterente selon la meacutethode de fouille utiliseacutee motif freacutequent con-cept formel regravegle drsquoassociation cluster par exemple Drsquoun point de vue pratique lrsquoeacutetape drsquointerpreacutetationdeacutepend fortement de la meacutethode de fouille utiliseacutee puisque la forme des uniteacutes extraites deacutepend de celle-ci Afin de faciliter lrsquointerpreacutetation les reacutesultats sont transformeacutes pour faire lrsquoobjet drsquoune visualisation

1 Extraction de Connaissances agrave partir de Bases de Donneacutees ndash 39

graphique par exemple sous la forme drsquoun arbre de deacutecision drsquoune hieacuterarchie de clusters drsquoun reacuteseau deneurones drsquoun treillis de concepts

Une mecircme forme drsquouniteacutes extraites peut ecirctre utiliseacutee pour eacutetudier diffeacuterents types de reacutegulariteacutesCrsquoest lrsquoobjectif de la fouille qui dans ce cas oriente la lecture des uniteacutes extraites (ie du modegravele) parlrsquoanalyste La caracteacuterisation la discrimination la recherche drsquoassociation la classification le clusteringou la deacutetection des cas extrecircmes sont les objectifs les plus souvent viseacutes Alors suivant lrsquoobjectif choisilrsquoanalyste srsquointeacuteresse agrave lrsquoune ou lrsquoautre des reacutegulariteacutes observables agrave partir des uniteacutes extraites Par ex-emple les uniteacutes extraites reacutesultant drsquoun clustering des K-plus proches voisins peuvent selon lrsquoobjectifecirctre utiliseacutees pour caracteacuteriser des groupes de donneacutees speacutecifiques ou pour deacutecrire des associations entredonneacutees

Au delagrave de lrsquoobjectif de la fouille les connaissances attendues par lrsquoanalyste orientent lrsquointerpreacutetationLrsquoanalyste peut alors ecirctre ameneacute agrave filtrer parmi les uniteacutes extraites celles qursquoil juge triviales redondantesdeacutenueacutees drsquointeacuterecirct fausses en comparaison de ce qursquoil souhaite trouver Par exemple dans le cadre drsquounerecherche de regravegles drsquoassociation un analyste souhaite deacutecouvrir des associations entre un pheacutenotype ungeacutenotype et un traitement meacutedicamenteux Il peut eacuteliminer les regravegles qui ne contiennent pas agrave la fois uncritegravere correspondant agrave la classe ltdonneacutee du pheacutenotypegt (preacutealablement deacutefinie) un critegravere de la classeltdonneacutee du geacutenotypegt et un critegravere de la classe lttraitementgt Ce genre de filtrage sur les reacutesultats defouille peut ecirctre assureacute par un systegraveme qui tire parti de connaissances du domaine pour permettre parexemple de distinguer les donneacutees qui relegravevent du pheacutenotype de celles qui relegravevent du geacutenotype ou drsquountraitement

15 Reacuteutilisation des uniteacutes extraites

Les uniteacutes extraites finalement valideacutees par lrsquoanalyste sont consideacutereacutees comme uniteacutes de connais-sance Selon le processus drsquo initialement deacutecrit par Frawley et al [FPSM91] puis repris par Fayyadet al [FPSS96] lrsquoidentification drsquoune uniteacute de connaissance constitue un aboutissement du processus etest rarement reacuteutiliseacutee En revanche les uniteacutes extraites sont classiquement reacuteutiliseacutees lors des iteacuterationssuccessives du processus

Le travail deacutecrit dans cette thegravese srsquoinscrit dans lrsquoideacutee que les uniteacutes de connaissances doivent ecirctreformaliseacutees dans un langage de repreacutesentation des connaissances et enregistreacutees dans une Base de Con-naissances () de sorte agrave pouvoir ecirctre reacuteutiliseacutees tout drsquoabord lors des iteacuterations suivantes du processuset ensuite dans le cadre drsquoautres applications qui peuvent tirer parti de connaissances formaliseacutees Nouspreacutesentons dans la section suivante 2 quelques notions de repreacutesentation des connaissances

40 Chapitre 2 Etat de lrsquoart

2 Repreacutesentation des connaissances et ontologies

Nous avons preacutesenteacute dans lrsquointroduction la distinction entre donneacutees information et connaissanceAinsi les bases de donneacutees eacutetudieacutees depuis plusieurs deacutecennies en informatique permettent de structureret de stocker des donneacutees brutes qui peuvent dans le domaine de la geacutenomique par exemple ecirctre lesreacutesultats drsquoun seacutequenccedilage automatique drsquoADN drsquoune analyse sur puce du niveau drsquoexpression des gegravenesdrsquoun tissu ou encore drsquoune analyse par spectromeacutetrie de masse du contenu proteacuteique drsquoun eacutechantillondu mecircme tissu Une Base de Connaissances () est capable de stocker des donneacutees mais est eacutegalementcapable de leur associer une repreacutesentation formelle ie associeacutee agrave une seacutemantique clairement deacutefinie etconccedilue pour ecirctre interpreacuteteacutee par des programmes Les connaissances peuvent ainsi speacutecifier des relationset des contraintes sur les donneacutees de telle sorte que les programmes puissent raisonner sur ces donneacuteespour en deacuteduire de nouvelles connaissances Les bases de connaissances srsquoappuyent sur des langages de

repreacutesentation des connaissances afin non seulement de fournir une structure approprieacutee pour stocker lesdonneacutees mais surtout pour leur associer une interpreacutetation du domaine consideacutereacute

Cette section preacutesente drsquoabord deux familles de langages de repreacutesentation des connaissances quisont les Repreacutesentations des Connaissances par Objet () et les Logiques de Descriptions () avantde deacutefinir les notions drsquoontologie et de Base de Connaissances

21 La Repreacutesentation des Connaissances par Objets

Le succegraves des Langages de Programmation agrave Objets () en informatique est souvent expliqueacute parles beacuteneacutefices qursquoils offrent en matiegravere de geacutenie logiciel gracircce entre autres agrave la modulariteacute lrsquoextensibiliteacuteou la reacuteutilisabiliteacute des ldquoobjets informatiquesrdquo Cependant ce succegraves est certainement eacutegalement ducirc agrave leurcapaciteacute naturelle agrave repreacutesenter les ldquoobjets du monde reacuteelrdquo [NED00] Cette capaciteacute nrsquoa pas seulement fa-voriseacute lrsquoadoption des mais a eacutegalement contribueacute au deacuteveloppement drsquoune famille de Repreacutesentation(ou de systegravemes de repreacutesentation) des Connaissances par Objets (ou ) comme [DQ86] [ER95] et [PGC+01] Le coteacute intuitif de ces langages de a notamment eacuteteacute utiliseacute pour perme-ttre la repreacutesentation et la manipulation drsquoentiteacutes biologiques complexes dans [MVB+95] et [CCQF05]qui mettent respectivement en œuvre et

Objet classe attribut facette et association Dans un formalisme de lrsquoeacuteleacutement de base est lrsquoobjetUne classe permet de regrouper un ensemble drsquoobjets ayant des proprieacuteteacutes communes appeleacutes attributsLes classes associent des facettes aux attributs pour les speacutecifier Les facettes permettent (1) le typage desattributs ie la preacutecision drsquoun type ou drsquoun domaine de valeurs possibles pour un attribut (2) lrsquoinfeacuterence

de valeur pour un attribut ie lrsquoassociation agrave des meacutecanismes capables de rattacher agrave une valeur agrave unattribut selon certaines contraintes ou calculs deacutefinis

Les relations entre objets sont deacutecrites par des associations qui peuvent ecirctre de deux types Premiegravere-ment les attributs-liens pour les relations binaires qui prennent la forme drsquoun attribut speacutecifique dont lavaleur sera lrsquoinstance drsquoune classe Deuxiegravemement la reacuteification drsquoassociation pour les relations n-airesqui revient agrave consideacuterer une association comme une classe dont les attributs sont les liens entre objets oudes attributs speacutecifiques qui qualifient lrsquoassociation

Speacutecialisation partie-tout et instanciation Les classes deacutefinies selon un sont organiseacutees selonune hieacuterarchie fondeacutee sur une relation de speacutecialisation (apparenteacutee agrave la subsomption deacutecrite dans lasection suivante) Une classe descendante drsquoune autre dans cette hieacuterarchie possegravede tous ses attributs (onparle alors drsquoheacuteritage) et peut eacutegalement preacutesenter des attributs suppleacutementaires qui lui sont propres

Les classes peuvent eacutegalement ecirctre relieacutees selon des relations de composition ou drsquoagreacutegation par larelation partie-tout pour repreacutesenter le fait qursquoun objet puisse ecirctre composeacute drsquoautres objets

2 Repreacutesentation des connaissances et ontologies 41

Les classes des preacutesentent la proprieacuteteacute de pouvoir ecirctre instancieacutees par un objet Lrsquoobjet en ques-tion devra alors preacutesenter des valeurs pour les attributs deacutefinis dans la classe Si au moins un attribut nrsquoestpas valueacute alors lrsquoinstanciation est dite incomplegravete Lrsquoensemble des objets qui instancient une classe estappeleacutee lrsquoextension de cette classe

Meacutecanismes de raisonnement Comme tout langage de repreacutesentation des connaissances les ontpour principal objectif de permettre le raisonnement sur les connaissances Divers meacutecanismes de raison-nement sont associeacutes aux langages de

ndash la veacuterification de coheacuterence qui teste les relations de speacutecification entre classes et drsquoinstanciationentre classe et objet

ndash la classification drsquoinstances qui permet de trouver les classes auxquelles une instance peut ap-partenir

ndash la classification de classes qui trouve les classes dont une classe particuliegravere peut ecirctre la speacuteciali-sation

ndash le filtrage qui recherche lrsquoensemble des objets satisfaisant des caracteacuteristiques deacutefinies dans unfiltre

ndash le raisonnement par classification qui positionne une entiteacute (une classe ou un objet) dans unehieacuterarchie de classes

Les systegravemes de preacutesentent lrsquoavantage de proposer des meacutecanismes de raisonnement inteacuteres-sants et de permettre une conceptualisation intuitive des entiteacutes consideacutereacutees Cette conceptualisation peuteacutegalement facilement ecirctre repreacutesenteacutee voir automatiquement traduite dans des repreacutesentations scheacutema-tiques particuliegraverement lisibles comme le langage de modeacutelisation UML [RBJ00] Leur inconveacutenientest de ne pas preacutesenter de veacuteritable assise logique et de ne disposer que drsquoune expressiviteacute relativementlimiteacutee notamment compareacute aux Logiques de Descriptions () preacutesenteacutees dans la section suivante

22 Les Logiques de Descriptions

Les Logiques de Descriptions () constituent une famille de langages de repreacutesentation des con-naissances fondeacutee sur un formalisme logique Les langages de sont des heacuteritiers du systegraveme K-Odeacutecrit en 1985 notamment pour surmonter les ambiguiumlteacutes seacutemantiques que preacutesentaient les systegravemes derepreacutesentations des connaissances preacuteexistants (ie les reacuteseaux seacutemantiques et les systegravemes agrave base deframe) [BS85]

Comme les autres langages de repreacutesentation de connaissances les sont utiliseacutees pour repreacutesenterla conceptualisation drsquoun domaine drsquoapplication de faccedilon structureacutee et en suivant une certaine seacuteman-tique Leur avantage est premiegraverement que cette seacutemantique est clairement deacutefinie et deuxiegravemementqursquoelles disposent de constructeurs logiques varieacutes assurant une expressiviteacute relativement riche (par ex-emple par rapport agrave la plupart des langages de )

Les diffeacuterents membres de la famille des se distinguent les uns des autres notamment par la listedes constructeurs qursquoils proposent Le Tableau 23 liste les constructeurs de base communs agrave la plupartdes Les constructeurs sont associeacutes agrave des symboles (ALU C ) qui sont assembleacutes pour former lesnoms des qui les contiennent De cette faccedilon une logique de descriptions de base appeleacuteeAL nrsquoinclutpas lrsquounion de concepts comme constructeur (associeacute au symbole U) mais la logique qui contient lesconstructeurs inclus dansAL associeacute au constructeur permettant lrsquounion de concept existe eacutegalement etsrsquoappelle ALU Le lecteur pourra trouver une note complegravete sur les conventions de nommage des dans les annexes de [BCM+03] (page 504)

TBox et ABox concept rocircle individu et axiome Une Base de Connaissances () en est com-poseacutee de deux eacuteleacutements la TBox et la ABox Le Tableau 24 est un exemple de exprimeacutee en

42 Chapitre 2 Etat de lrsquoart

Nom du constructeur Syntaxe Seacutemantique Symbole

Concept universel ⊤ ∆I AL

Bottom perp empty AL

Intersection C ⊓ D CI cap DI AL

Union C ⊔ D CI cup DI U

Neacutegation notC ∆I CI C

Restriction universelle forallRC x isin ∆I|forally (x y) isin RI rarr y isin CI AL

Restriction existentielle existRC x isin ∆I|existy (x y) isin RI E

T 23 ndash Syntaxe et seacutemantique associeacutees aux constructeurs de concepts les plus simples en Lesconstructeurs disponibles dans la logique de base AL nrsquoont pas de symbole propre pour les autres lesymbole correspondant est donneacute dans la quatriegraveme colonne Lrsquoannexe B deacutecrit une liste plus complegravetedes constructeurs de concepts ainsi que de certains constructeurs de rocircles

(Ax1) Personne ⊑ ⊤(Ax2) TraitementMeacutedicamenteux ⊑ ⊤(Ax3) Patient ⊑ Personne(Ax4) PatientSousTraitement equiv Patient ⊓ exist aPourTraitement TraitementMeacutedicamenteux

TBox

(Ax5) Patient(adrien)(Ax6) TraitementMeacutedicamenteux(cureDAntibiotique)(Ax7) aPourTraitement(adrien cureDAntibiotique)

ABox

T 24 ndash Un exemple de Base de Connaissances eacutecrite en

La TBox constitue une terminologie ie le vocabulaire drsquoun domaine drsquoapplication Ce vocabulaireest constitueacute (i) de concepts qui correspondent agrave un ensemble drsquoindividus et peuvent ecirctre compareacutes auxpreacutedicats unaires des logiques des preacutedicats et (ii) de rocircles qui repreacutesentent des relations binaires entreles individus et peuvent ecirctre compareacutes agrave des preacutedicats binaires Une particulariteacute des notamment parrapport aux langages de est que deux types de concepts et de rocircles sont distingueacutes les concepts etrocircles atomiques et les concepts et rocircles deacutefinis

ndash les concepts et rocircles atomiques sont deacutecrits seulement par leur nom comme par exemple le conceptPersonne et le rocircle estTraiteacute dans la repreacutesenteacutee Tableau 24

ndash les concepts et rocircles deacutefinis sont deacutecrits par leur nom auquel est associeacute une description com-plexe Dans la proposeacutee en exemple le concept PatientSousTraitement est le seul conceptdeacutefini Le langage avec lequel sont deacutecrits les concepts et rocircles est la choisie pour cette Cesdescriptions complexes sont appeleacutees les axiomes terminologiques

La seacutemantique associeacutee aux concepts est deacutefinie par le biais drsquoune interpreacutetation I = (∆I middotI) Ledomaine drsquointerpreacutetation ∆I de I est un ensemble non vide et la fonction drsquointerpreacutetation middotI associeagrave chaque concept atomique A un ensemble AI sube ∆I et agrave chaque rocircle atomique R une relation binaireRI sube ∆I times ∆I Lrsquoextension de la fonction drsquointerpreacutetation aux concepts (et rocircles) deacutefinis est deacuteduite defaccedilon inductive par la seacutemantique associeacutee aux constructeurs de concepts (et de rocircles) preacutesenteacutes Tableau23

2 Repreacutesentation des connaissances et ontologies 43

Type drsquoaxiome Syntaxe Seacutemantique

Deacutefinition de concept C equiv D CI = DI

Deacutefinition de rocircle R equiv S RI = SI

Inclusion de concept C ⊑ D CI sube DI

Inclusion de rocircle R ⊑ S RI sube SI

Assertion de concept C(a) aI isin CI

Assertion de rocircle R(a b) (aI bI) isin RI

T 25 ndash Syntaxe et seacutemantique associeacutees aux axiomes terminologiques et assertionels en

La ABox quant agrave elle repreacutesente un eacutetat particulier du domaine deacutecrit par la TBox Elle est constitueacuteedrsquoaxiomes assertionnels qui adoptent la forme soit drsquoassertions de concepts agrave lrsquoaide drsquoindividus soitdrsquoassertions de rocircles agrave lrsquoaide de paires drsquoindividus

Deacutefinition speacutecialisation et assertion Les axiomes terminologiques (ie contenus dans la TBox) sontde deux formes

ndash Les eacutegaliteacutes de la forme geacuteneacuterale C equiv D (R equiv S) ougrave C D sont des concepts (et R S des rocircles) Lesdeacutefinitions de concepts (et de rocircles) sont des eacutegaliteacutes particuliegraveres de la forme A equiv C (Q equiv R) ougrave Aest un concept atomique et C une description de concept (et Q un rocircle atomique et R une descriptionde rocircle) Lrsquoaxiome (Ax4) dans la du Tableau 24 est un exemple de deacutefinition de concept

ndash Les inclusions ou subsomption de la forme geacuteneacuterale C ⊑ D (R ⊑ S) ougrave C D sont des concepts(et R S des rocircles) Les speacutecialisations de concepts (et de rocircles) sont des inclusions particuliegraveresdont la partie gauche est un concept (un rocircle) atomique de la mecircme faccedilon que pour les deacutefinitionsCette speacutecialisation est quelque peu diffeacuterente de la speacutecialisation des puisque celle-ci signifiesimplement que tout individu appartenant agrave lrsquointerpreacutetation de C appartient eacutegalement agrave lrsquointerpreacute-tation de D Ainsi lrsquoaxiome (Ax3) dans la exemple est une speacutecialisation

Les axiomes assertionnels (de la ABox) peuvent ecirctre de deux types diffeacuterents selon qursquoil srsquoagisse delrsquoassertion drsquoun concept ou drsquoun rocircle

ndash une assertion de concept noteacutee C(a) statue sur lrsquoappartenance27 drsquoun individu a au concept C28comme crsquoest par exemple le cas pour lrsquoindividu cureDAntibiotique qui instancie le conceptTraitementMeacutedicamenteux selon lrsquoaxiome (Ax6) de la Tableau 24

ndash une assertion de rocircle noteacutee R(a b) statue sur le fait que b est relieacute agrave lrsquoindividu a par la relation RDe cette faccedilon lrsquoaxiome (Ax7) Tableau 24 indique que lrsquoindividu adrien est traiteacute par un individuappeleacute cureDAntibiotique

Le Tableau 25 repreacutesente la seacutemantique associeacutee aux diffeacuterents axiomes drsquoune en Les axiomesconstituent en un sens lrsquoeacuteleacutement de base de repreacutesentation drsquoune connaissance agrave ce titre nous consideacuteronsdans le cadre des un axiome comme une uniteacute de connaissance

Meacutecanismes de raisonnement Si le rocircle drsquoune en se limite au stockage des TBox et ABox sonprincipal avantage est de pouvoir ecirctre associeacutee agrave des meacutecanismes de raisonnement Ces meacutecanismessrsquoappuyent sur les deux premiegraveres opeacuterations suivantes qui servent de briques de bases aux suivantes

ndash le test de subsomption qui veacuterifie qursquoun concept C subsume un concept D noteacute |= D ⊑ C Ainsi surla prise en exemple la reacuteponse au test de subsomption suivant |= PatientSousTraitement ⊑

27Par analogie avec les langages de on parle eacutegalement drsquoinstanciation28Pour ecirctre tout agrave fait exact il faudrait dire ldquolrsquointerpreacutetation de a qui appartient agrave lrsquointerpreacutetation de Crdquo

44 Chapitre 2 Etat de lrsquoart

Patient est vrai Cette subsomption nrsquoest pas explicitement eacutecrite dans la Cependant la deacutef-inition de lrsquoaxiome (Ax4) signifie que toute instance du concept PatientSousTraitement esteacutegalement instance du concept Patient (ainsi que du concept exist estTraiteacute TraitementMeacutedica-menteux) ce qui permet aux meacutecanismes de raisonnement de deacuteduire la reacuteponse

ndash Le test de satisfiabiliteacute qui veacuterifie qursquoun concept peut admettre des instancesndash La classification des concepts qui permet de deacuteterminer la position relative de chaque concept dans

la hieacuterarchie de conceptsndash La classification drsquoinstances qui permet de deacuteterminer pour un individu les concepts dont il est

instance Suivant ce meacutecanisme il est possible de deacuteterminer sur la base de la exemple quelrsquoindividu adrien est eacutegalement instance du concept PatientSousTraitement ce qui nrsquoest pasexplicitement deacutecrit En effet lrsquoinstance adrien remplit lrsquoensemble des conditions neacutecessaires et

suffisantes agrave lrsquoappartenance agrave ce concept ie en termes informels ecirctre un patient et ecirctre traiteacute parquelque chose qui est un traitement meacutedicamenteux

ndash La recherche drsquoinstances (ou instance retrieval en anglais) qui permet de deacuteterminer pour unconcept lrsquoensemble des individus qui en sont instances

Lrsquoefficaciteacute de certains meacutecanismes de raisonnement plus complexes est conditionneacutee par la choisie Parmi ceux lagrave nous citerons

ndash la recherche du concept le plus speacutecifique (ou most specific concept) qui consiste agrave deacuteterminerpour un concept (ou un individu) quel est le concept le plus speacutecifique qui le subsume (ou quel estle concept le plus speacutecifique dont il est instance)

ndash la recherche du subsumant commun le plus speacutecifique (ou least common subsumer) qui recherchele concept le plus speacutecifique qui subsume en mecircme temps deux concepts donneacutes (ou dont deuxindividus donneacutes sont instances)

Lrsquoutilisation de ces derniers meacutecanismes de raisonnement plus complexes est discuteacutee dans [BCM+03]Lrsquoeffervescence autour du Web Seacutemantique et lrsquoadoption pour ce dernier drsquoun langage standard

(le OWL preacutesenteacute dans la section 231) contenant une ont favoriseacute les travaux de recherche et lesavanceacutees en Malgreacute leur manque de convivialiteacute les logiques de descriptions constituent un moyende repreacutesenter les connaissances actuellement preacutefeacutereacute aux langages de Cependant les preacutesententdes avantages qui pourraient inspirer des eacutevolutions des par exemple en ce qui concerne les meacutethodesde raisonnement telles que lrsquoinfeacuterence de valeur

Pour plus de deacutetails sur la comparaison entre et nous conseillons la reacutefeacuterence [Duc00] deDucourneau et al

23 Ontologies et Bases de Connaissances

Le terme ontologie est un emprunt agrave la philosophie au sein de laquelle lrsquoontologie est une branche dela meacutetaphysique deacutedieacutee agrave lrsquoeacutetude des proprieacuteteacutes de ce qui est de ce qui existe

En informatique une ontologie est une repreacutesentation de connaissances Cependant la notion drsquoon-tologie est utiliseacutee pour deacutesigner diffeacuterentes formes de repreacutesentation de connaissances Ceci est parti-culiegraverement vrai en bioinformatique ougrave le terme drsquoontologie est utiliseacute selon diffeacuterentes consideacuterations[GW04] Ainsi pour certains une ontologie peut se limiter agrave un vocabulaire controcircleacute ie une liste de ter-mes consensus en rapport avec un domaine Ce peut ecirctre un vocabulaire controcircleacute associeacute agrave une hieacuterarchie

comme crsquoest le cas pour la G O [ABB+00] Il peut eacutegalement ecirctre associeacute agrave ces vocabulairesdes listes de synonymes qui permettent de mettre en correspondance un terme arbitraire avec le termechoisi comme reacutefeacuterence De faccedilon plus complexe et aussi plus complegravete une ontologie peut ecirctre unerepreacutesentation des concepts drsquoun domaine ainsi que des relations qui existent entre ces concepts Alorsla notion de concept repreacutesente un ensemble fini ou infini ainsi par exemple le concept de proteacuteine

2 Repreacutesentation des connaissances et ontologies 45

repreacutesente (intuitivement) lrsquoensemble des proteacuteinesCrsquoest agrave cette derniegravere forme drsquoontologie que nous nous reacutefeacuterons dans cette thegravese en accord avec la

deacutefinition de Gruber pour qui une ontologie est

ldquoune speacutecification formelle et explicite drsquoune conceptualisation partageacuteerdquo [Gru93]

Les concepts et leurs relations repreacutesenteacutes dans une ontologie peuvent ecirctre deacutefinis de faccedilon plusou moins preacutecise selon le formalisme (lrsquoensemble de symboles et de regravegles de syntaxe) utiliseacute pour lesdeacutecrire Lrsquoutilisation de langages de repreacutesentation des connaissances permet drsquoassocier aux concepts etaux relations une description formelle qui fait reacutefeacuterence agrave une seacutemantique clairement deacutefinie dans le casdes (voir la section 22) Lrsquoavantage de lrsquoutilisation drsquoune telle seacutemantique est de pouvoir associer auxconcepts et relations de lrsquoontologie une interpreacutetation unique qui puisse ainsi ecirctre comprise de la mecircmefaccedilon par deux humains ou par un humain et une machine Ce point est important dans la repreacutesenta-tion des connaissances biologiques car drsquoune part il est neacutecessaire pour un utilisateur de comprendrele modegravele biologique exprimeacute et drsquoautre part il est important que les entiteacutes biologiques repreacutesenteacuteespuissent ecirctre exploiteacutees par des programmes bioinformatiques

R Le fait qursquoune ontologie soit associeacutee agrave une seule interpreacutetation ne veut pas dire quepour un domaine il nrsquoexiste qursquoune seule conceptualisation et qursquoune seule interpreacutetation admissiblesAu contraire un domaine peut donner lieu agrave plusieurs interpreacutetations qui peuvent alors mener agrave la creacutea-tion drsquoontologies diffeacuterentes Les ontologies alors coexistantes reflegravetent les diffeacuterentes perspectives quiexistent sur le domaine en question Par exemple le domaine de la pharmacogeacutenomique peut ecirctre con-ceptualiseacute selon la perspective des cliniciens ou celle des biologistes moleacuteculaires Pour les premiers lapharmacogeacutenomique est consideacutereacutee du cocircteacute de la meacutedecine personnaliseacutee et des relations entre un diag-nostic geacuteneacutetique un traitement meacutedicamenteux et un pheacutenotype macroscopique (une pression arteacuterielleeacuteleveacutee par exemple) Pour les seconds la pharmacogeacutenomique est consideacutereacutee agrave un niveau moleacuteculaireimpliquant notamment les relations entre un groupe de SNP une moleacutecule (le principe actif du meacutedica-ment) et un pheacutenotype moleacuteculaire (la modulation du taux drsquoexpression drsquoun gegravene par exemple)

De faccedilon formelle nous deacutefinissons une ontologie drsquoune faccedilon similaire agrave [ES07] comme suit

Deacutefinition 219 (Ontologie) Une ontologie O est un systegraveme de symboles (Sc Sr H A) consistant en

ndash un ensemble Sc de concepts et un ensemble Sr de relations binaires (DR) entre deux concepts

DR sub Sc appeleacutes le domaine et le co-domaine (domain et range en anglais)

ndash une hieacuterarchie H ougrave les concepts et relations sont hieacuterarchiquement relieacutes par la relation de sub-

somption ie une relation drsquoordre partiel noteacute ⊑ ougrave C1 ⊑ C2 signifie que C1 est un sous-concept

de C2 et r1 ⊑ r2 signifie que r1 est une sous-relation de r2

ndash un ensemble drsquoaxiomes A qui deacutecrivent des contraintes sur les concepts et les relations

Les ontologies auxquelles nous ferons allusion dans la suite de cette thegravese sont des ontologiesrepreacutesenteacutees en Or en le terme ontologie est traditionnellement peu employeacute Les notions de TBox

et ABox clairement deacutefinies lui sont preacutefeacutereacutees Pour cela il est important de preacuteciser que dans cette thegraveseune ontologie en correspond agrave une TBox alors qursquoune Base de Connaissance () pour sa part faitreacutefeacuterence agrave lrsquoensemble TBox ndash ABox

231 OWL et le Web seacutemantique

Le Web seacutemantique est drsquoabord une ideacutee ou une vision du Web selon laquelle le contenu des ressourcesdiffuseacutees sur le Web est rendu accessible aux programmes informatiques de faccedilon agrave ce que ceux-ci soientmieux agrave mecircme de reacutepondre aux besoins des utilisateurs humains [BLHL01] Il srsquoagit de deacutecrire ces

46 Chapitre 2 Etat de lrsquoart

ressources ou plutocirct les donneacutees qursquoelles contiennent selon une repreacutesentation formelle crsquoest agrave dire enlien avec une seacutemantique clairement deacutefinie et conccedilue pour ecirctre interpreacuteteacutee par des programmes Ceux-cipourraient alors manipuler sous forme de connaissances les donneacutees disponibles sur le Web pour deacute-couvrir des connaissances implicites ou nouvelles via des meacutecanismes de raisonnement A la base delrsquoinfrastructure du Web seacutemantique se trouvent les ontologies Celles-ci apportent les eacuteleacutements essentielsqui permettent lrsquointroduction des donneacutees du Web dans un contexte agrave base de connaissances

OWL (Web Ontology Language) est le langage choisi comme standard par le W3C29 pour la diffusiondes ontologies sur le Web et constitue en ce sens la principale technologie sur lequel repose le Webseacutemantique OWL srsquoappuie agrave la fois sur les technologies du Web (comme HTML XML et RDF) et surdes langages de repreacutesentation des connaissances tels que les systegravemes de et les

La speacutecification initiale de OWL reposait sur les exigences suivantes ndash le langage doit ecirctre associeacute agrave une seacutemantique standard et formellement deacutefinie permettant la mise

en œuvre de meacutecanismes de raisonnement maicirctriseacutesndash le langage doit ecirctre tregraves expressif pour prendre en compte la varieacuteteacute des domaines et des applica-

tions envisageacutes dans le cadre du Web seacutemantiqueCes deux eacuteleacutements expliquent en partie le choix des pour repreacutesenter les connaissances en OWLLrsquoAnnexe B propose une correspondance entre les constructeurs de et les constructeurs OWL Dela mecircme faccedilon qursquoil existe plusieurs sous-familles de il existe diffeacuterents profils OWL (OWL-LiteOWL-DL et OWL Full en sont les trois principaux) dont les diffeacuterences reacutesident dans les constructeursqursquoil proposent Par exemple le profil OWL-DL propose un ensemble de constructeurs qui correspond agravela logique SHOIN(D)

Le langage OWL est difficile agrave eacutecrire et lire directement il est donc plus geacuteneacuteralement deacuteveloppeacute eteacutediteacute agrave travers des eacutediteurs drsquoontologie ou de comme Proteacutegeacute [KFNM04] ou Swoop [KPS+06] Nousproposons en Annexe C le code OWL qui correspond agrave la repreacutesenteacutee dans le Tableau 24

FaCT++ [TH06] Pellet [SP04] et RacerPro [HM03] sont des logiciels qui permettent de mettre enœuvre les meacutecanismes de raisonnement standards en sur une ontologie (ou une ) implanteacutee en OWL

232 Construction drsquoontologies

De nombreuses meacutethodes pour le deacuteveloppement drsquoontologies ont eacuteteacute proposeacutees [UK95 FGPJ97NM01] Nous ne cherchons ici ni agrave les passer en revue ni agrave les comparer mais plutocirct agrave faire ressortirles opeacuterations importantes agrave mettre en œuvre lors de la construction manuelle ou semi-automatiquedrsquoontologies Pour une vue drsquoensemble des meacutethodes de construction drsquoune ontologie nous orientons lelecteur vers le chapitre 3 du livre de Goacutemez-Peacuterez [GPCGFL03]

Lrsquoensemble de ces meacutethodes srsquoinspire du geacutenie logiciel comme lrsquoillustre le cycle de vie drsquoune on-tologie proposeacute par Dieng et al [DCGR98] et repreacutesenteacute Figure 26 qui met en avant le cocircteacute iteacuteratif dela construction ainsi que ses principales eacutetapes

La construction drsquoune ontologie est un processus collaboratif ougrave les experts du domaine (et eacuteventuelle-ment des systegravemes drsquoapprentissage) doivent ecirctre fortement impliqueacutes Nous nous inteacuteressons plus parti-culiegraverement aux eacutetapes de speacutecification des besoins de conception et drsquoeacutevaluation de lrsquoontologie

Speacutecification Cette eacutetape consiste agrave deacutefinir en eacutetroite collaboration avec les experts du domaine ledomaine et lrsquoobjectif de lrsquoontologie

Concernant le domaine il srsquoagit de preacuteciser drsquoabord le domaine de connaissances que lrsquoontologiedoit repreacutesenter mais aussi avec quel niveau de granulariteacute celui-ci doit ecirctre repreacutesenteacute Ainsi pour

29World Wide Web Consortium consortium international pour la standardisation et la promotion des technologies du Webhttpwwww3org

2 Repreacutesentation des connaissances et ontologies 47

F 26 ndash Cycle de vie drsquoune ontologie Source [DCGR98]

la creacuteation drsquoune ontologie des proteacuteines il est important de preacuteciser clairement les limites du do-maine agrave repreacutesenter par exemple les proteacuteines humaines ou les proteacuteines phosphatases (humaine etnon-humaine) Le niveau de granulariteacute souhaiteacute doit alors preacuteciser le niveau de deacutetail attendu dans larepreacutesentation du domaine Pour une ontologie des proteacuteines il faut speacutecifier par exemple que seulesleurs annotations fonctionnelles et leur masse est importante ou alternativement qursquoune description plusfine est neacutecessaire impliquant la repreacutesentation de la composition en acides amineacutes des groupementsfonctionnels de ces acides amineacutes et de leurs proprieacuteteacutes physico-chimiques

La deacutefinition de lrsquoobjectif de lrsquoontologie doit deacuteterminer les applications pour lesquelles lrsquoontologieest construite Savoir agrave quoi va servir lrsquoontologie est deacuteterminant pour deacuteterminer les concepts agrave repreacutesen-ter et le point de vue selon lequel les repreacutesenter Ainsi cette opeacuteration doit permettre de deacuteterminer sinotre ontologie des proteacuteines doit servir agrave lrsquoannotation de bases de donneacutees agrave la classification de pro-teacuteines ou encore agrave lrsquoextraction de connaissances relatives aux conseacutequences fonctionnelles des variationsgeacutenomiques Pour formaliser les objectifs et pour permettre lrsquoeacutevaluation de lrsquoontologie il est possible dedeacutefinir des questions de compeacutetence qui sont des exemples concrets de questions auxquelles lrsquoontologiedoit permettre de reacutepondre [Gan05] Veacuterifier que lrsquoontologie une fois construite y reacutepond correctementest un critegravere drsquoeacutevaluation de cette derniegravere

Une opeacuteration importante de la phase de speacutecification est le recensement systeacutematique des ressourcesde donneacutees ou de connaissances deacutejagrave existantes Ces ressources peuvent ecirctre des sources de donneacutees desscheacutemas de sources des vocabulaires controcircleacutes des ontologies de domaines incluses recouvrant ouchevauchant le domaine consideacutereacute Ce recensement a deux buts Le premier est drsquoavoir une vue globaledes donneacutees et connaissances manipuleacutees dans le domaine de sorte agrave consideacuterer leur repreacutesentationdans lrsquoontologie Le second est de reacuteutiliser au maximum lrsquoexistant Pour reprendre notre exemple drsquouneontologie des proteacuteines lrsquoanalyse des donneacutees et des scheacutemas des bases de donneacutees UniProt30 PDB31

donne une vue sur un certain nombre de proprieacuteteacutes des proteacuteines Aussi la consideacuteration de lrsquoontologieappeleacutee PRotein Ontology32 (PRO) et de lrsquoontologie Phosphatase Ontology33 permet de srsquoinspirer ou dereacuteutiliser les repreacutesentations existantes des connaissances

Cette eacutetape est eacutegalement le moment approprieacute pour lrsquoadoption de regravegles de nomenclature strictespour nommer les concepts et rocircles de lrsquoontologie

30Universal Protein Resource httpwwwuniprotorg31Protein Data Bank httpwwwrcsborg32httppirgeorgetownedupro33httpwwwbioinfmanchesteracukphosphabase

48 Chapitre 2 Etat de lrsquoart

Conception La conception de lrsquoontologie comprend trois opeacuterations principales ndash La conceptualisation elle consiste en lrsquoidentification des concepts du domaine et des relations

entre ces concepts Elle peut commencer par la deacutefinition de listes de termes propres au domainetermes qui serviront agrave lrsquoidentification et agrave la deacutefinition des concepts de leurs relations et de leurarticulation avec des ontologies existantes

ndash la formalisation crsquoest la traduction de la conceptualisation dans un formalisme de repreacutesentationdes connaissances par exemple une

ndash lrsquoimpleacutementation il srsquoagit de coder lrsquoontologie formaliseacutee en un langage de repreacutesentation desconnaissances par exemple OWL

En pratique les eacutetapes de formalisation et drsquoimpleacutementation sont souvent meneacutees de front

Eacutevaluation Classiquement lrsquoeacutetape drsquoeacutevaluation fournit des mesures sur lrsquoontologie selon des critegraveresstructurels et fonctionnels [GCCL06] Lrsquoideacuteal est que ces critegraveres drsquoeacutevaluation soient deacutefinis durant lrsquoeacute-tape de speacutecification de lrsquoontologie Crsquoest typiquement le cas des questions de compeacutetence auxquelleslrsquoontologie doit permettre de reacutepondre

Selon Dellschaft et Staab [DS08] les critegraveres structurels et fonctionnels sont utiliseacutes dans trois typesdrsquoeacutevaluations

ndash lrsquoeacutevaluation rapporteacutee agrave la tacircche ougrave lrsquoon mesure essentiellement comment lrsquoontologie ameacuteliorela reacutealisation drsquoune tacircche

ndash lrsquoeacutevaluation rapporteacutee au corpus ougrave lrsquoon mesure la capaciteacute de lrsquoontologie agrave repreacutesenter les con-naissances drsquoun domaine en se reacutefeacuterant au contenu drsquoun corpus de documents repreacutesentatif dudomaine

ndash lrsquoeacutevaluation rapporteacutee aux critegraveres ougrave ce sont des critegraveres objectifs le plus souvent drsquoordre struc-tural qui sont mesureacutes

Eacutevidement lrsquoeacutevaluation rapporteacutee agrave la tacircche peut ecirctre consideacutereacutee comme la plus importante puisquecrsquoest celle-ci qui donne la mesure de lrsquoefficaciteacute de lrsquoontologie dans la tacircche agrave laquelle on lrsquoa assigneacuteeCependant les deux autres types drsquoeacutevaluations sont des moyens ponctuels drsquoeacutevaluer certains aspects delrsquoontologie dont deacutependra forcement son efficaciteacute agrave reacutesoudre une tacircche particuliegravere

Ideacutealement lrsquoeacutevolution drsquoune ontologie est un processus continu qui suit de pregraves lrsquoeacutevolution de lrsquoeacutetatdes connaissances qursquoelle repreacutesente

Le deacuteveloppement complet drsquoune ontologie mecircme semi-automatique est un tacircche longue qui meacuteriteune grande attention La contrepartie des efforts demandeacutes pour son deacuteveloppement reacuteside notammentdans la seacutemantique qursquoelle fournit qui peut ecirctre utiliseacutee par des meacutecanismes de raisonnement mais passeulement Les sections suivantes de ce chapitre preacutesentent lrsquoutilisation drsquoontologies dans le cadre drsquoin-teacutegration de donneacutees (section 3) puis plus geacuteneacuteralement dans le cadre de lrsquo (section 4)

3 Utilisation des ontologies pour lrsquointeacutegration de donneacutees heacuteteacuterogegravenes 49

3 Utilisation des ontologies pour lrsquointeacutegration de donneacutees heacuteteacuterogegravenes

Lrsquoobjectif de cette section est drsquointroduire la notion drsquointeacutegration seacutemantique ie drsquointeacutegration dedonneacutees fondeacutees sur lrsquoutilisation de connaissances du domaine et de meacutecanismes de raisonnement Auvu de cet objectif nous nrsquoentreprendrons pas un eacutetat de lrsquoart exhaustif sur lrsquointeacutegration de donneacutees maisnous nous focaliserons seulement sur deux systegravemes concurrents (lrsquoapproche entrepocirct et lrsquoapproche meacute-

diateur) parce qursquoils neacutecessitent la deacutefinition de mapping crsquoest agrave dire de mise en correspondance entre lesdonneacutees et qursquoils ont donneacute lieu agrave quelques systegravemes opeacuterationnels Ces deux approches nous paraissentaujourdrsquohui les plus propices agrave supporter des approches agrave base de connaissance telles que celle qui faitlrsquoobjet du chapitre 3

31 Les systegravemes drsquointeacutegration de donneacutees

Les deux approches principales pour lrsquointeacutegration de donneacutees se distinguent essentiellement par lalocalisation des donneacutees manipuleacutees par le systegraveme [Hal01]

ndash lrsquointeacutegration mateacuterialiseacutee pour laquelle les donneacutees sont dans un entrepocirct de donneacutees ougrave elles sontrapatrieacutees depuis leur source drsquoorigine

ndash lrsquointeacutegration virtuelle pour laquelle les donneacutees restent dans les sources drsquoorigine ougrave elles sontmanipuleacutees par le biais drsquoun meacutediateur

311 Lrsquointeacutegration mateacuterialiseacutee ou entrepocirct

Lrsquoapproche mateacuterialiseacutee ou entrepocirct de donneacutees consiste en la construction drsquoune base de donneacuteesreacuteelle appeleacutee entrepocirct pour stocker les donneacutees provenant de diffeacuterentes sources Les entrepocircts de don-neacutees sont souvent choisis dans lrsquoindustrie pour le support drsquoaide agrave la deacutecision qursquoils constituent notam-ment gracircce agrave leur association aux techniques OLAP [AAD+96] Un systegraveme drsquointeacutegration suivant unetelle approche est constitueacute de trois parties repreacutesenteacutees Figure 27 lrsquoentrepocirct de donneacutees proprementdit les sources de donneacutees et les magasins de donneacutees

F 27 ndash Architecture drsquoun systegraveme drsquointeacutegration de donneacutees suivant lrsquoapproche entrepocirct

50 Chapitre 2 Etat de lrsquoart

Dans une approche entrepocirct de donneacutees lrsquointeacutegration srsquoappuie sur un scheacutema global deacutefini pourlrsquoentrepocirct Les donneacutees sont extraites des sources transformeacutees en un format de repreacutesentation compati-ble avec le scheacutema de lrsquoentrepocirct eacuteventuellement filtreacutees et inseacutereacutees dans lrsquoentrepocirct par des extracteursLrsquoutilisateur peut interroger directement lrsquoentrepocirct en utilisant les techniques classiques drsquointerrogationde base de donneacutees Lrsquoutilisateur peut eacutegalement interagir avec lrsquoentrepocirct par lrsquointermeacutediaire des ma-gasins de donneacutees dont lrsquoobjectif est de proposer des vues particuliegraveres sur les donneacutees qui pourrontfaciliter leur analyse dans un processus drsquoaide agrave la deacutecision Lrsquoentrepocirct G est un exemple de miseen œuvre de lrsquoapproche entrepocirct pour lrsquointeacutegration et lrsquoanalyse de donneacutees relatives au transcriptomehumain [GMB+05] Le systegraveme BM et BW sont des systegravemes plus geacuteneacuteriques deacutedieacutes agravelrsquointeacutegration de donneacutees biologiques suivant une approche entrepocirct [KKS+04 KLW08]

Une limite principale agrave cette approche reacuteside dans le deacuteveloppement neacutecessaire de meacutethodes drsquoex-traction et drsquointeacutegration des donneacutees capables de rafraicircchir peacuteriodiquement le contenu de lrsquoentrepocirct touten tenant compte de la mise agrave jour des sources

312 Lrsquointeacutegration virtuelle ou meacutediateur

Dans lrsquoapproche meacutediateur lrsquointeacutegration de donneacutees est fondeacutee sur la deacutefinition drsquoun scheacutema globalunifiant les scheacutemas heacuteteacuterogegravenes des sources agrave inteacutegrer La description drsquoun tel scheacutema implique la miseau point de mappings (parfois preacutesenteacutes sous la forme de vues) Un mapping est la description du contenudrsquoune source dans le vocabulaire unique imposeacute par le scheacutema global Lrsquoarchitecture meacutediateur classiquesrsquoarticule suivant trois niveaux repreacutesenteacutes Figure 28 le meacutediateur les wrappers et les sources Auniveau du meacutediateur le scheacutema global fournit un vocabulaire unique qui sert agrave (1) lrsquoexpression desrequecirctes de lrsquoutilisateur et (2) agrave la deacutefinition de mappings ie la description du contenu de chaque sourceLes wrappers (eacutegalement appeleacutes adaptateurs pour eacuteviter lrsquoanglicisme) srsquoappuyent sur la deacutefinition desmappings pour (a) traduire les requecirctes exprimeacutees dans les termes du vocabulaire du scheacutema global endes requecirctes exprimeacutees selon le vocabulaire des sources (b) traduire les reacuteponses aux requecirctes locales(ie sur les sources) en des reacuteponses compatibles avec le scheacutema global du meacutediateur

La constitution drsquoun mapping se fait par la deacutefinition de multiples mises en correspondances entreles relations (au sens des bases de donneacutees relationnelles) du scheacutema global et les relations du scheacutemalocal Ces mises en correspondance peuvent ecirctre deacutecrites suivant deux approches diffeacuterentes [Len02] Lapremiegravere approche est appeleacutee Global As View (ou GAV) selon laquelle les relations du scheacutema globalsont exprimeacutees en fonction des relations du scheacutema local La seconde est lrsquoapproche Local As View (ouLAV) ougrave inversement dans un premier temps un scheacutema global est deacutefini de faccedilon indeacutependante puisau niveau local les relations des scheacutemas locaux sont reformuleacutes dans les termes du scheacutema global Lecontenu des sources est deacutecrit par un ensemble de mappings sur les relations du scheacutema global

Selon Lenzerini [Len02] la description drsquoun systegraveme drsquointeacutegration de donneacutees peut ecirctre formaliseacuteeselon un triplet (GSM) regroupant ses trois composants principaux

ndash le scheacutema global Gndash les scheacutemas des sources S etndash le mappingM entre G et S deacutecrit par un ensemble de correspondances de la forme suivante

qG qS ouqS qG

ougrave qG et qS sont deux requecirctes respectivement sur le scheacutema global et sur le scheacutema des sources

La tacircche du meacutediateur consiste agrave reformuler agrave lrsquoaide des mappings les requecirctes qui lui sont poseacuteesdans les termes du scheacutema global en des requecirctes exprimeacutees dans les termes des scheacutemas des sources

3 Utilisation des ontologies pour lrsquointeacutegration de donneacutees heacuteteacuterogegravenes 51

F 28 ndash Architecture drsquoun systegraveme drsquointeacutegration de donneacutees suivant lrsquoapproche meacutediateur

de donneacutees et inversement Cette tacircche de reformulation est appeleacutee la reacuteeacutecriture de requecirctes Le projetP constitue un exemple drsquoarchitecture meacutediateur originale notamment parce qursquoelle propose uneapproche hybride GAV-LAV ainsi qursquoun scheacutema global exprimeacute suivant un formalisme de repreacutesentationdes connaissances appeleacute [RFG+02] Le travail de Mougin et al [MBB+08] est une illustration delrsquoapproche meacutediateur appliqueacutee agrave des bases de donneacutees biologiques et dont la particulariteacute est de proposerdes meacutethodes semi-automatiques pour faciliter la deacutefinition des mappings neacutecessaires

Les limites de lrsquoapproche meacutediateur reacutesident suivant une approche GAV principalement dans la miseagrave jour du scheacutema global lors de lrsquointeacutegration drsquoune nouvelle source ou suivant une approche LAV dansla reacuteeacutecriture des requecirctes Que lrsquoapproche adopteacutee soit GAV ou LAV le travail le plus important demeurepremiegraverement la deacutefinition des mappings qui peut demander lrsquointervention drsquoun expert du domaine drsquoap-plication et deuxiegravemement la conception des wrappers toujours deacutependante du type de source consideacutereacute

Lrsquoapproche entrepocirct preacutesente deux avantages principaux Le premier est lieacute au fait que les donneacuteesinteacutegreacutees sont agrave disposition au sein de lrsquoentrepocirct speacutecifiquement creacuteeacutee ce qui permet de les transformeret les adapter directement et facilement agrave lrsquoutilisation que lrsquoon souhaite en faire Le second avantageest lieacute au fait que les donneacutees soient regroupeacutees dans une seule source ce qui facilite lrsquoexploitation dusystegraveme

Cependant compareacutee agrave lrsquoapproche meacutediateur lrsquoapproche entrepocirct preacutesente une contrainte majeure les reacuteponses aux requecirctes ne proviennent pas directement des sources mais des donneacutees mateacuterialiseacuteesau sein de lrsquoentrepocirct Ceci implique la mise agrave jour de lrsquoentrepocirct agrave chaque modification des sources ordans certains domaines comme les sciences du vivant les sources sont parfois soumises agrave une eacutevolutionhebdomadaire voir quotidienne

R Les architectures orienteacutes services (ou SOA pour Service Oriented Architecture en anglais)sont des formes particuliegraveres drsquoarchitecture meacutediateur dont les diffeacuterents composants sont associeacutes agrave descomposants logiciels (ie les services) qui interagissent entre eux La communication entre les diffeacuterentsservices srsquoappuie sur un vocabulaire partageacute qui peut ecirctre compareacute agrave un scheacutema global Lrsquoutilisation

52 Chapitre 2 Etat de lrsquoart

drsquoontologie pour la description du scheacutema global peut faciliter la deacutecouverte de services ainsi que leurutilisation dans la deacutefinition de workflows Les articles [MD07a MD07b DPW08] peuvent servir drsquoin-troduction agrave cette probleacutematique

Lrsquoimportance prise par le Web a conduit notamment au deacuteveloppement de nombreuses deacuteclinaisons etvariantes des approches drsquointeacutegration meacutediateur et entrepocirct [Hac04] Un exemple notable est le deacutevelopppe-ment drsquoapproches adapteacutees agrave la structure particuliegravere du Web qui pour cela utilise une architecture paire

agrave paire [CGLR04 RAC+06]

32 Problegraveme drsquoheacuteteacuterogeacuteneacuteiteacute et inteacutegration seacutemantique

321 Heacuteteacuterogeacuteneacuteiteacute de donneacutees et de scheacutemas

La probleacutematique premiegravere de lrsquointeacutegration de donneacutees est lrsquoheacuteteacuterogeacuteneacuteiteacute des donneacutees et lrsquoheacuteteacutero-

geacuteneacuteiteacute des scheacutemas qursquoil est neacutecessaire de reacutesoudre pour mettre en correspondance les sources et au-toriser lrsquointerrogation et la reacuteponse aux requecirctes de faccedilon transparente [Hal05 Saiuml07]

Lrsquoheacuteteacuterogeacuteneacuteiteacute des donneacutees est due au fait que deux bases de donneacutees nrsquoutilisent pas le mecircme vocab-ulaire ou reacutefeacuterentiel pour repreacutesenter une mecircme donneacutee Par exemple le fait qursquoun nucleacuteotide clairementpositionneacute sur le geacutenome humain puisse ecirctre soit une Adeacutenine (A) soit une Guanine (G) selon les in-dividus est noteacute ldquoAGrdquo dans la base de donneacutees dbSNP Cependant il existe un reacutefeacuterentiel diffeacuterent lecode IUPAC34 utiliseacute dans drsquoautres bases de donneacutees biologiques selon lequel le fait qursquoun nucleacuteotidepuisse ecirctre soit une Adeacutenine soit une Guanine est simplement noteacute par la lettre R (pour faire reacutefeacuterenceaux Purines)

Lrsquoheacuteteacuterogeacuteneacuteiteacute des scheacutemas provient quant agrave elle du fait que deux bases de donneacutees peuvent proposerdeux conceptualisations diffeacuterentes drsquoune mecircme entiteacute Cela peut correspondre agrave lrsquoutilisation de nomsdrsquoattributs diffeacuterents Crsquoest par exemple le cas pour lrsquoattribut faisant reacutefeacuterence agrave lrsquoalternative possibleentre deux nucleacuteotides pour un variant geacutenomique qui est nommeacute ldquoAllelerdquo dans la dbSNP et ldquoVariationrdquodans la base PharmGKB De faccedilon plus complexe lrsquoheacuteteacuterogeacuteneacuteiteacute peut reacutesider dans la notion mecircme devariant geacutenomique qui peut diverger entre deux sources Crsquoest justement le cas pour dbSNP et Uniprotqui considegraverent respectivement un variant soit comme une alternative entre deux nucleacuteotides pour unemecircme position sur une seacutequence drsquoADN soit comme une alternative entre deux acides amineacutes pour uneposition sur une seacutequence proteacuteique

Les ontologies peuvent contribuer agrave la reacutesolution du problegraveme drsquoheacuteteacuterogeacuteneacuteiteacute des donneacutees et desscheacutemas En effet elles permettent la description formelle des concepts drsquoun certain domaine ainsi quedes relations existant entre ces concepts Un utilisateur ou un concepteur peut deacutecrire une donneacutee unerelation preacutesentes dans une source gracircce agrave une deacutefinition formelle agrave laquelle est associeacutee une seacutemantiqueclairement eacutetablie Ensuite il peut exploiter cette deacutefinition pour inteacutegrer (ou seulement partager) defaccedilon non ambigueuml le contenu de la source en question Deacutefinitions formelles et seacutemantique peuvent enpratique ecirctre repreacutesenteacutees sous la forme drsquoaxiomes logiques composant une ontologie crsquoest pourquoi onparle drsquoapproche drsquointeacutegration fondeacutee sur une ontologie ou drsquointeacutegration seacutemantique

322 Enjeux de lrsquointeacutegration seacutemantique

Nous discernons cinq problegravemes dont les reacutesolutions constituent les principaux enjeux pour la miseau point drsquoun systegraveme drsquointeacutegration de donneacutees seacutemantique [PLC+08]

1 Permettre la gestion de grands volumes de donneacutees en utilisant la repreacutesentation formelle drsquouneontologie En effet il existe un fosseacute entre lrsquoeacutechelle des systegravemes de gestion de bases de donneacutees

34httpwwwdnaaffrcgojpmiscMPsrchInfoIUPAChtml

3 Utilisation des ontologies pour lrsquointeacutegration de donneacutees heacuteteacuterogegravenes 53

capables de geacuterer efficacement des quantiteacutes de donneacutees importantes et lrsquoeacutechelle des systegravemes agravebase de connaissance pour qui geacuterer une ontologie ou une trop volumineuse reste probleacutematique

2 Permettre des requecirctes sur les donneacutees selon le langage de repreacutesentation et les termes de lrsquoontolo-gie Ceci implique la mise en correspondance entre le langage de repreacutesentation des connaissanceset un langage de requecircte adapteacute aux sources

3 Choisir le langage de repreacutesentation des connaissances Plus un langage est expressif plus il seracomplexe de raisonner sur ce langage Il faut donc trouver un compromis entre une expressiviteacutesuffisante pour repreacutesenter correctement le domaine et une complexiteacute compatible avec les besoinsen raisonnement lieacutes agrave la reacuteponse aux requecirctes

4 Deacutecrire le mapping donneacutees-ontologie Cela revient agrave mettre en correspondance les donneacutees dessources avec les instances des concepts et rocircles de lrsquoontologie ou en drsquoautres termes agrave relier laseacutemantique implicite des donneacutees agrave la seacutemantique explicite de lrsquoontologie

5 Reacutesoudre le problegraveme drsquoimpeacutedance Le problegraveme drsquoimpeacutedance (impedance mismatch en anglais)reacuteside dans le fait qursquoil nrsquoexiste pas une correspondance exacte entre la faccedilon dont sont repreacutesenteacuteesles informations dans une base de donneacutees relationnelle (par la paire attribut-valeur) et la faccedilondont elle peuvent lrsquoecirctre en terme drsquoobjets (par la paire classe-objet) et donc drsquoinstances de conceptsdans une ontologie Il en reacutesulte le besoin de meacutecanismes capables de faire correspondre valeurset objets

Les reacuteponses aux problegravemes 1 et 2 sont en partie apporteacutees par des solutions technologiques is-sues de travaux sur le Web seacutemantique Ainsi diffeacuterents outils et meacutethodes permettent de geacuterer des volumineuses notamment en permettant leur enregistrement dans des systegravemes de gestion de bases dedonneacutees relationnelles S [BKvH02] I S [HLTB04] en sont des exemples et les reacutesul-tats du challenge intituleacute ldquoBillion triplet challengerdquo35 laisse preacutesager des solutions techniques promet-teuses Concernant les requecirctes sur les notons que le langage SPARQL commence agrave eacutemerger parmiles diverses propositions anteacuterieures (OWL Abstract Syntax36 par exemple) puisqursquoil fait lrsquoobjet drsquounerecommandation du W3C depuis janvier 200837

Concernant le 3iegraveme problegraveme la communauteacute des a chercheacute agrave comparer les langages de repreacutesen-tation drsquoune pour montrer lequel pouvait ecirctre le plus adapteacute agrave un accegraves agrave de grands volumes de donneacuteesLes travaux de Hustadt et al et Calvanese et al montrent notamment qursquoune requecircte38 mecircme sur une exprimeacutee en un profil simple du OWL (OWL-Lite et OWL-DL) est trop complexe (co-NP complexe)pour ecirctre envisageable sur de larges volumes de donneacutees [HMS05 CGL+06] Une solution proposeacuteepour garantir la reacuteponse aux requecirctes dans un temps fini (polynocircmial) est lrsquoutilisation de logiques dedescriptions restreintes (ie agrave lrsquoexpressiviteacute restreinte) comme par exemple EL++ [BBL05] Dans cettemecircme ideacutee le W3C travaille notamment au deacuteveloppement drsquoun profil de OWL appeleacute OWL-R39 moinsexpressif que OWL-Lite agrave partir duquel la recherche drsquoinstance pourrait ecirctre faciliteacutee

Les travaux reacutealiseacutes dans lrsquooptique de reacutesoudre les problegravemes 4 et 5 relatifs agrave la deacutefinition drsquounmapping donneacuteesndashconnaissances sont preacutesenteacutes dans la section suivante

33 Le mapping donneacuteesndashconnaissances

Lrsquoutilisation drsquoune ontologie pour lrsquointeacutegration de donneacutees est possible uniquement agrave partir du mo-ment ougrave il existe un mapping entre donneacutees et connaissances ie un ensemble de mises en correspon-

35httpwwwmindswaporgblog20071205announcing-the-open-web-billion-triple-challenge-iswc-0836httpwwww3orgTRowl-semantics37httpwwww3orgTRrdf-sparql-query38Une requecircte en est le plus souvent consideacutereacutee comme un meacutecanisme de raisonnement de recherche drsquoinstance39httpwwww3orgTR2008WD-owl2-profiles-20080411OWL-R_Full

54 Chapitre 2 Etat de lrsquoart

dance entre des donneacutees drsquoune source drsquoun cocircteacute et les instances des concepts et rocircles drsquoune ontologie delrsquoautre

introduit par Rousset et al [RFG+02] ou R2O introduit par Barrasa et al [BCGP04] sont despropositions de langages speacutecifiques pour la description de mappings donneacuteesndashontologie

Cependant ces approches ne prennent pas en consideacuteration le problegraveme drsquoimpeacutedance entre valeurs etobjets Ce problegraveme requiert la deacutefinition de meacutecanismes capables de faire correspondre les valeurs desdonneacutees aux objets de lrsquoontologie et notamment de preacuteciser comment les identifiants des objets peuventecirctre construits agrave partir des valeurs de donneacutees Ce genre de meacutecanismes a par contre eacuteteacute deacutecrit dans lecadre drsquoapproches entrepocirct faisant intervenir des bases de donneacutees objets [HY90 CGL+01] Il srsquoagit alorsde deacutefinir des fonctions symboliques (par exemple de conversion) et de les associer agrave une liste drsquoattributsagrave consideacuterer pour construire lrsquoidentifiant de lrsquoobjet correspondant Le mecircme genre de fonction est deacutefinipour reacuteconcilier des donneacutees heacuteteacuterogegravenes issues de diverses sources et permettre une inteacutegration dansune repreacutesentation homogegravene

De plus des formalismes comme SHOIN(D) ou DL-LiteA permettent drsquoassocier aux instancesde concepts des valeurs [HPSvH03 CGL+07] Par exemple la logique SHOIN(D) qui est la logiquesur laquelle srsquoappuie le profil OWL-DL de OWL permet la manipulation des concepts particuliers quicorrespondent aux types de donneacutees (le D signifie datatype en anglais) Ainsi associer une instance agraveune valeur revient en SHOIN(D) agrave instancier un rocircle associant cette instance et une instance du typede donneacutees (entier chaicircne de caractegravere etc) auquel correspond la valeur en question

Le travail reacutecent de Poggi et al utilise les outils preacutesenteacutes dans cette section (langage formel pourla description de mapping fonction de conciliation valeur-objet manipulant des valeurs) pour deacutecrirede faccedilon theacuteorique un systegraveme drsquointerrogation de donneacutees fondeacute sur une ontologie [PLC+08] Nous noussommes baseacutes sur cette approche theacuteorique et lrsquoavons adapteacutee de sorte agrave la rendre opeacuterationnelle et agravelrsquoaccorder agrave nos objectifs drsquointeacutegration de donneacutees dans le contexte drsquoune Ainsi nous proposonsdans le chapitre 3 une approche originale drsquointeacutegration de donneacutees qui srsquoinspire de lrsquoapproche meacutediateurdont lrsquoobjectif principal nrsquoest pas la reacuteponse agrave une requecircte mais le peuplement drsquoune

34 Utilisation des ontologies en bioinformatique inteacutegration de donneacutees et plus si affiniteacutes

Lrsquoutilisation principale des ontologies en bioinformatique est lrsquointeacutegration de donneacutees mais ce nrsquoestpas la seule Ainsi cette section preacutesente non seulement lrsquoutilisation des ontologies pour lrsquointeacutegration dedonneacutees en bioinformatique mais aborde eacutegalement leurs autres applications toutes relativement con-nexes agrave lrsquointeacutegration

Dans une revue reacutecente Daniel Rubin et al recensent les utilisations des ontologies en bioinforma-tique selon six cateacutegories [RSN07]

ndash la repreacutesentation de connaissances encyclopeacutediquesndash le Traitement Automatique des Langues ()ndash la recherche et lrsquointerrogation de donneacutees biomeacutedicales heacuteteacuterogegravenesndash lrsquoeacutechange de donneacutees entre applicationsndash lrsquointeacutegration de donneacutees etndash lrsquoutilisation de meacutecanismes de raisonnement

Les sections suivantes illustrent ces diffeacuterentes applications

3 Utilisation des ontologies pour lrsquointeacutegration de donneacutees heacuteteacuterogegravenes 55

341 La repreacutesentation de connaissances encyclopeacutediques

De nombreuses ontologies en biologie sont partageacutees sur le Web via des portails deacutedieacutes comme lesite de lrsquoOBO Foundry40 ou le BioPortal41 [SAR+07 RMKM08] Ceci permet agrave des personnes de reacuteu-tiliser des ontologies sans avoir agrave construire celles-ci au preacutealable Cependant la construction reste laphase preacuteliminaire indispensable agrave toute utilisation ou reacuteutilisation drsquoune ontologie La richesse des con-naissances disponibles dans certains domaines comme lrsquoanatomie humaine par exemple la complexiteacutedrsquoautres comme lrsquoeacutepigeacutenomique ou encore la co-existence de plusieurs theacuteories pour un mecircme domainecomme la psychiatrie imposent lrsquoutilisation de meacutethodologies rigoureuses et parfois le deacuteveloppementdrsquooutils particuliers (eg des outils collaboratifs) pour la repreacutesentation des connaissances en biologie defaccedilon encyclopeacutedique ce qui en fait une discipline agrave part entiegravere Les efforts de deacuteveloppement mis enœuvre notamment pour lrsquoontologie FMA (Foundational Model of Anatomy) disponible sur les portailsciteacutes preacuteceacutedemment ou ceux mis en œuvre pour le deacuteveloppement de lrsquoontologie NeuroWeb illustrentdes meacutethodes et outils speacutecialement deacuteveloppeacutes [RMM+98 CMF+07]

En plus drsquoheacuteberger et de partager des bio-ontologies les initiatives OBO Foundry et du BioPortalparticipent agrave leur deacuteveloppement LrsquoOBO Foundry milite pour favoriser le suivi de standards de qualiteacutesdans le deacuteveloppement des bio-ontologies [Fou08] Le BioPortal et plus particuliegraverement sa version2042 propose un ensemble drsquooutils pour faciliter la navigation dans les ontologies le deacuteveloppementcollaboratif la deacutefinition et le partage de mappings Notons que si de nombreuses bio-ontologies sontde simples taxonomies ou des vocabulaires controcircleacutes les reacutesultats de travaux reacutecents permettent de lestransformer en OWL [Hor07 AEB+08]

342 Le Traitement Automatique des Langues

Les ontologies sont de plus en plus utiliseacutees de faccedilon systeacutematique dans les meacutethodes de Le rocircledes ontologies deacutepend alors de lrsquoexpressiviteacute des langages utiliseacutes pour les eacutecrire Pour les cas les plussimples lrsquoontologie est un lexique qui permet de reconnaicirctre les entiteacutes ou les concepts eacutevoqueacutes dansles textes [MKS04] Pour les cas plus complexes lrsquoontologie guide la reconnaissance de connaissancesstructureacutees dans les textes en fournissant un modegravele des connaissances en question [RKK+00]

343 La recherche et lrsquointerrogation de donneacutees

Le challenge releveacute par les ontologies est la recherche et lrsquointerrogation de faccedilon homogegravene de di-verses sources de donneacutees au sein desquelles les entiteacutes biologiques par exemple une association agrave unemaladie ou une implication dans un processus sont nommeacutees de faccedilon diffeacuterentes dans les sources Eneffet en biologie de nombreux synonymes acronymes abreacuteviations peuvent faire reacutefeacuterence agrave une mecircmeentiteacute Un premier exemple est les diffeacuterents noms donneacutes au processus de fabrication du glucose dansun organisme (en gardant les termes anglo-saxons utiliseacutes dans les sources)ldquoglucose synthesisrdquo ldquoglu-cose biosynthesisrdquo ldquoglucose formationrdquo ldquoglucose anabolismrdquo et ldquoglucogenesisrdquo Un second exempleconcerne la preacutesence drsquoun variant geacuteneacutetique agrave la position 2377 du gegravene TMPT ie le fait que le nu-cleacuteotide agrave cette position du geacutenome puisse ecirctre diffeacuterent pour deux individus Ce variant est identifieacute parldquors1142345rdquo dans la base de donneacutees dbSNP ldquoTPMT3Crdquo dans la base OMIM ldquoChr6 18238897 AGrdquodans PharmGKB et ldquoNC_0000610g 18238897AgtGrdquo dans certaines publications scientifiques Uneontologie peut proposer un identifiant unique sous la forme drsquoun terme ou de lrsquoidentifiant drsquoun conceptpour chaque entiteacute et peut eacutegalement lui associer lrsquoensemble de deacutenominations alternatives Dans ce cas

40httpobofoundryorg41httpwwwbioontologyorgtoolsportalbioportalhtml42httpwwwbioontologyorgtoolsalphahtml

56 Chapitre 2 Etat de lrsquoart

F 29 ndash Extrait de la G O

lrsquoontologie peut se preacutesenter comme un vocabulaire controcircleacute recouvrant un certain domaine et auquelpeuvent ecirctre associeacutes des ensembles de synonymes acronymes et abreacuteviations Les identifiants utiliseacutesdans lrsquoontologie permettent alors drsquoidentifier de faccedilon consensuelle les entiteacutes biologiques repreacutesenteacuteesdans diffeacuterentes sources

Lrsquoexemple le plus connu de vocabulaire controcircleacute utiliseacute en biologie est la G O ()[ABB+00] Les entiteacutes biologiques pour lesquelles elle propose un terme unique sont organiseacutees selontrois hieacuterarchies relatives respectivement aux fonctions moleacuteculaires aux composants cellulaires et auxprocessus biologiques Ces termes sont supposeacutes qualifier les produits de gegravenes et plus preacuteciseacutement leurfonction ougrave ils lrsquoexercent et comment La Figure 29 donne un aperccedilu des termes constituant la hieacuterarchiedes composants cellulaires Le succegraves de la revient agrave sa large utilisation pour lrsquoannotation de produitsde gegravenes dans diverses bases de donneacutees A partir de cette annotation les termes sont utiliseacutes pourinterroger de faccedilon transparente et homogegravene plusieurs sources de donneacutees mais aussi pour analyser lesreacutesultats drsquoexpeacuterimentations agrave haut-deacutebit

344 Lrsquoeacutechange de donneacutees entre applications

La deacutefinition drsquoune ontologie peut avoir comme objectif de speacutecifier un format drsquoeacutechange standardpour un domaine Il srsquoagit alors pour lrsquoontologie de deacutecrire preacuteciseacutement les donneacutees leurs types etleurs relations Ce genre drsquoapplication est inteacuteressant lorsque les langages de repreacutesentation du Webseacutemantique (OWL) faciles agrave publier et agrave eacutechanger sur le Web sont utiliseacutes Les ontologies construitesbeacuteneacuteficient au final de lrsquoensemble des technologies du Web seacutemantique nouvellement deacuteveloppeacutees etpeuvent ecirctre utiliseacutees de surcroicirct pour lrsquointeacutegration et lrsquoanalyse de donneacutees

MAG_OM [BB06] et BioPAX [BC08] sont deux standards speacutecifieacutes sous forme drsquoune ontologie etdeacutefinis pour lrsquoeacutechange de donneacutees Le premier est un modegravele qui deacutecrit les conditions expeacuterimentales etles reacutesultats drsquoexpeacuterience drsquohybridation moleacuteculaire en transcriptomique Il est utiliseacute pour le partage dece type de reacutesultats entre chercheurs mais eacutegalement pour la communication entre bases de donneacutees Le

3 Utilisation des ontologies pour lrsquointeacutegration de donneacutees heacuteteacuterogegravenes 57

second BioPAX est un standard drsquoeacutechange drsquoinformations sur les reacuteseaux biologiques Aussi il nrsquoa paseacuteteacute conccedilu comme une repreacutesentation des connaissances du domaine mais son deacuteveloppement en OWLlaisse la possibiliteacute de le consideacuterer comme tel et de lrsquoemployer pour des usages autres que lrsquoeacutechange dedonneacutees Par exemple le fait que des sources de donneacutees sur les reacuteseaux biologiques (comme Human-CyC Reactome) fournissent un accegraves agrave leur contenu dans le format BioPAX a permis lrsquoeacutemergence drsquounsystegraveme drsquointeacutegration de donneacutees relatif aux reacuteseaux appeleacute Pathway Commons43

345 Lrsquointeacutegration de donneacutees

Les ontologies ont la capaciteacute de fournir une repreacutesentation du contenu de plusieurs bases de donneacuteesbiologiques et des relations entre les contenus des diffeacuterentes bases Les meacutecanismes de raisonnementpeuvent ensuite utiliser de telles repreacutesentations pour face une requecircte poseacutee deacuteterminer quelles sont lesressources utiles pour y reacutepondre et en extraire les eacuteleacutements de reacuteponse

Lrsquoun des premiers systegravemes agrave utiliser une bio-ontologie pour lrsquointeacutegration de donneacutees est RW[ABC+99] Lrsquoontologie utiliseacutee dans RW composeacutee de quatre parties repreacutesente dans le langageO [FFR97] agrave la fois le domaine biologique consideacutereacute (le ribosome) et les meacutethodes drsquoanalysepossibles sur les donneacutees relatives agrave ce domaine Lrsquoontologie est instancieacutee agrave partir de diverses ressourcesdisponibles sur le Web et relatives au ribosome pour constituer la RW Les avantages de lrsquoutil-isation drsquoune ontologie sont ici essentiellement de proposer une repreacutesentation des donneacutees non seule-ment inteacutegreacutee mais eacutegalement associeacutee agrave une seacutemantique (de faccedilon manuelle) Lrsquooriginaliteacute principalede RW reacuteside dans son utilisation concomitante drsquoune repreacutesentation des entiteacutes biologiques maiseacutegalement des meacutethodes et objectifs drsquoanalyse de ces entiteacutes qui facilitent cette analyse et lrsquointerpreacutetationde ses reacutesultats est un systegraveme prototypique drsquointeacutegration de donneacutees qui suit une approche meacutediateur [SBB+00]

inclut notamment ndash une ontologie appeleacutee ontologyndash une appeleacutee le ldquomodegravele conceptuel biologiquerdquo qui fournit agrave lrsquoutilisateur les concepts neacuteces-

saires agrave la construction de requecirctesndash un ensemble de mappings entre les concepts du ldquomodegravele conceptuel biologiquerdquo et les scheacutemas

des sources inteacutegreacutees etndash une interface graphique agrave partir de laquelle lrsquoutilisateur peut deacutefinir sa requecircte

Lrsquoutilisation de suit le processus suivant Dans un premier temps lrsquoutilisateur utilise lrsquointerfacegraphique pour construire une requecircte La requecircte correspond agrave la description drsquoun concept de hautniveau formeacute agrave partir de concepts du ldquomodegravele conceptuel biologiquerdquo que lrsquoutilisateur trouve en nav-iguant dans la hieacuterarchie de lrsquoontologie et de constructeurs drsquoune La requecircte ci-dessous est un ex-emple construit avec dans laquelle les termes en gras sont des noms individus de la ceux enitalique sont des constructeurs de la proposeacutee celui entre guillemets est une valeur et les autres sontdes rocircles de lrsquoontologie

protein which

isHomologousTo protein which

hasName ldquoprotein name lardrdquoand

functionsInProcess apoptosis

Cette requecircte correspond agrave la question ldquoquelles sont les proteacuteines qui sont homologues agrave la proteacuteinelard et dont la fonction est impliqueacutee dans le processus biologique drsquoapoptoserdquo

43httpwwwpathwaycommonsorg

58 Chapitre 2 Etat de lrsquoart

Dans un second temps le systegraveme analyse les concepts utiliseacutes dans la requecircte pour deacuteterminerles sources pertinentes agrave interroger et construit ensuite un plan de requecirctes individuelles (ie chacunesur une seule source) en fonction des caracteacuteristiques de la source et des contraintes exprimeacutees dans larequecircte Dans un troisiegraveme temps le systegraveme exeacutecute les requecirctes propres agrave chaque source et collecte lesreacutesultats pour les retourner agrave lrsquoutilisateur La collecte des reacutesultats se fait par le biais de wrappers adapteacutesspeacutecialement agrave chaque source consideacutereacutee Lrsquoavantage principal de est de permettre lrsquoexpression derequecirctes complexes compareacute agrave des systegravemes standard comme SRS44 [EA93] ou Entrez45 [Bax06] et cegracircce agrave lrsquoutilisation des constructeurs de Son inconveacutenient majeur survient lorsque lrsquoon souhaite ladeacuteployer agrave lrsquoeacutechelle du Web et eacutetendre la liste des sources qursquoelle integravegre En effet un tel rafraicircchissementdemande lrsquoenrichissement de lrsquoontologie de la la creacuteation de nouveaux mappings et de nouveauxwrappers La liste des sources inteacutegreacutees par est tregraves reacuteduite ce qui fait de cet inconveacutenient unelimite majeure agrave son utilisation

Depuis de nombreux systegravemes utilisant des ontologies pour lrsquointeacutegration de donneacutees bi-ologiques ont vu le jour Nous citerons seulement [KPL03] et BGSRS [CBBDF07] quise distinguent notamment par le fait qursquoils sont opeacuterationnels

346 Les meacutecanismes de raisonnement

Lrsquoutilisation des meacutecanismes de raisonnement associeacutes aux ontologies constitue une application par-ticuliegraverement prometteuse mais encore peu reacutepandue Nous citerons ici deux travaux de Wolstencroft et

al [WMS+05 WLT+06] Dans le premier il est fait usage des meacutecanismes de veacuterification de consistance

et de classification de concepts sur une ontologie pour assister la construction du scheacutema drsquoune nouvellebase de donneacutees relatives aux familles de proteacuteines phosphatases Le second deacutetailleacute chapitre 4 section252 utilise les meacutecanismes de classification de concepts et drsquoinstances pour permettre la classificationautomatique de proteacuteines phosphatases dans leur famille et sous-famille

Dans le domaine biomeacutedical des meacutecanismes de raisonnement sont eacutegalement utiliseacutes pour deacuteduireles conseacutequences physiologiques de lrsquoendommagement drsquoartegraveres coronaires [RDM05] Dans ce travaillrsquoontologie (Foundational Model of Anatomy) [RMM+98] est utiliseacutee comme base pour repreacutesenteren OWL

ndash la relation entre chaque artegravere coronaire et la zone du tissu cardiaque qursquoelle vascularisendash lrsquoarborescence des artegraveres vascularisant le cœur notamment par une relation de continuiteacute asso-

ciant les artegraveres connecteacuteesndash lrsquoocclusion drsquoune artegraverendash lrsquoischeacutemie du tissu cardiaqueUn service de raisonnement associeacute agrave lrsquoontologie permet drsquoinfeacuterer par un meacutecanisme de classifica-

tion le type de conseacutequence sur les tissus cardiaques que peut avoir un endommagement des artegraveresLe systegraveme Kasimir utilise quant agrave lui le raisonnement agrave partir de cas en plus des meacutecanismes de

raisonnement associeacutes aux [dLN07] Ces meacutecanismes sont appliqueacutes agrave des protocoles de soins ducancer du sein repreacutesenteacutes en OWL pour lrsquoaide au diagnostic

35 Vers une inteacutegration semi-automatique de sources

Les sections preacuteceacutedentes montrent que lrsquointeacutegration de donneacutees mecircme lorsqursquoelle srsquoappuie sur desontologies preacutesente encore de nombreuses limites tout en posant dans lrsquoindustrie comme dans la recherchedes deacutefis cruciaux Il est illusoire drsquoespeacuterer voir agrave court terme lrsquoeacutemergence drsquooutils par exemple baseacutes surles technologies du Web seacutemantique capables drsquointeacutegrer de faccedilon entiegraverement automatique des sources

44httpsrsebiacuk45httpwwwncbinlmnihgovEntrez

3 Utilisation des ontologies pour lrsquointeacutegration de donneacutees heacuteteacuterogegravenes 59

de donneacutees heacuteteacuterogegravenes Cependant les avanceacutees dans le domaine de lrsquoalignement drsquoontologie con-stituent des pistes qui peuvent tout au moins reacuteduire lrsquointervention manuelle neacutecessaire agrave lrsquointeacutegration dedonneacutees Ainsi An et al deacutecrivent un outil semi-automatique appeleacute qui permet la mise en cor-respondance entre des scheacutemas de bases de donneacutees (relationnelles ou XML) et une ontologie [AMB06]Le travail de Leser et Naumann [LN05] constitue un proposition comparable appliqueacutee agrave lrsquointeacutegration debases de donneacutees biologiques Une direction inteacuteressante eacutevoqueacutee par Euzenat et al pour la deacutefinitionsemi-automatique de tels mappings est lrsquoutilisation des capaciteacutes de raisonnement associeacutees aux formal-ismes logiques [ES07]

La section 2 de ce chapitre preacutesentait les ontologies comme un moyen de repreacutesenter les connais-sances drsquoun domaine Une ontologie peut notamment ecirctre utiliseacutee dans le cadre de lrsquointeacutegration de don-neacutees ougrave elle peut jouer un rocircle analogue agrave un scheacutema global comme eacutevoqueacute dans cette section Dans cecas les avantages agrave utiliser une ontologie sont multiples celle-ci est associeacutee agrave une seacutemantique claire-ment deacutefinie suivant laquelle il est possible de mettre en accord les scheacutemas de sources heacuteteacuterogegravenes ellepermet lrsquoutilisation de meacutecanismes de raisonnement capables de veacuterifier la consistance de lrsquoontologie pour une ontologie du Web seacutemantique elle srsquoappuie sur un ensemble de technologies qui facilitent sonpartage et son deacuteveloppement

La contribution preacutesenteacutee dans le chapitre 3 propose une utilisation drsquoontologies originales pourlrsquointeacutegration de donneacutees La contribution preacutesenteacutee chapitre 4 reacuteutilise les mecircme ontologies ainsi que lereacutesultat de lrsquointeacutegration pour guider lrsquoextraction de connaissances La section suivante (4) est un eacutetat delrsquoart de lrsquoutilisation des ontologies pour guider lrsquoextraction de connaissances

60 Chapitre 2 Etat de lrsquoart

4 Extraction de Connaissances guideacutee par les Connaissances du Domainendash

Diffeacuterents auteurs dont Anand [ABH95] Phillips [PB01] Gottgtroy [GKM04] Cespivova [CRS+04]Lieber [LNST08] et plus geacuteneacuteralement les ateliers internationaux SWM [SHB01 BHS02] KDO [BFG+04ABG+06] et PriCKL [BSc07] se sont inteacuteresseacutes agrave lrsquoutilisation de connaissances du domaine formaliseacuteesdans des ontologies pour guider lrsquoanalyste et les machines dans le processus drsquoextraction de connais-sances

Crsquoest notamment sur cette ideacutee geacuteneacuterale qursquoest fondeacute le processus drsquoExtraction de Connaissances

guideacutee par les Connaissances du Domaine ( ou pour Knowledge Discovery guided by Domain

Knowledge en anglais) deacutecrit par Lieber et al [LNST08] Dans lrsquo les uniteacutes de connaissances ex-traites et valideacutees sont exprimeacutees dans un formalisme de repreacutesentation des connaissances afin drsquoecirctreinteacutegreacutees agrave une ontologie du domaine Lrsquoontologie ainsi enrichie est alors reacuteutiliseacutee lors des iteacuterationssuivantes du processus Lors de chaque iteacuteration du processus chacune des eacutetapes peut beacuteneacuteficier drsquoaborddes connaissances initiales et ensuite des connaissances nouvellement acquises

(i) Lors de lrsquoeacutetape de preacuteparation des donneacutees les connaissances facilitent lrsquointeacutegration de donneacuteesheacuteteacuterogegravenes et aident agrave la seacutelection de sous-ensembles de donneacutees plus pertinents agrave fouiller

(ii) Lors de lrsquoeacutetape de fouille de donneacutees les connaissances permettent de speacutecifier des contraintespour par exemple circonscrire ou au contraire eacutelargir lrsquoespace de recherche des algorithmes

(iii) Lors de lrsquoeacutetape drsquointerpreacutetation des uniteacutes extraites les connaissances aident agrave la visualisationet la validation des reacutesultats

Lrsquoontologie de domaine est associeacutee en permanence agrave des meacutecanismes de raisonnement capables deproduire des regravegles drsquoinfeacuterence potentiellement utiles Suivant ce cadre geacuteneacuteral deacutecrit par lrsquo dif-feacuterents travaux se sont appliqueacutes agrave eacutetudier comment en pratique lrsquoextraction de connaissances pouvaittirer parti de connaissances formaliseacutees plus ou moins preacuteciseacutement Les sections suivantes reacutesument ceuxqui nous ont paru les plus inteacuteressants que ce soit lors de la preacuteparation de la fouille ou de lrsquointerpreacuteta-tion

41 Preacuteparation de donneacutees guideacutee par les connaissances

Il est ici question de lrsquoutilisation de connaissances formaliseacutees dans des ontologies pour assister lestacircches drsquointeacutegration de nettoyage de transformation et de reacuteduction de donneacutees preacutesenteacutees chapitre 2section 1

Inteacutegration Lrsquoutilisation drsquoontologies lors de lrsquoextraction et lrsquointeacutegration de donneacutees largement eacutetudieacuteea eacuteteacute abordeacutee dans la section 3 de ce chapitre

Nettoyage Perez-Rey et al ont deacuteveloppeacute lrsquooutil OntoDataClean qui utilise lrsquoontologie OntoData-

Clean preprocessing ontology repreacutesenteacutee Figure 210 pour aider au cours de lrsquoeacutetape de nettoyage desdonneacutees agrave reacutesoudre les problegravemes drsquoinconsistance ou de donneacutees manquantes [PRAC06] Pour utilisercet outil lrsquoanalyste doit deacutecrire dans lrsquoontologie (ie en instanciant les concepts et rocircles) lrsquoenchaicircnementdes opeacuterations qursquoil souhaite appliquer aux diverses bases de donneacutees consideacutereacutees Ces opeacuterations sontpar exemple le remplacement des valeurs manquantes ou la suppression de tuples trop bruiteacutes Le sys-tegraveme est ensuite capable en se reacutefeacuterant aux opeacuterations deacutecrites dans lrsquoontologie de nettoyer les donneacuteesde faccedilon automatique Lrsquoontologie est ainsi utiliseacutee pour aider lrsquoanalyste agrave comprendre les diffeacuterentesopeacuterations possibles lors de cette eacutetape et agrave garder une trace des diffeacuterentes strateacutegies adopteacutees

4 Extraction de Connaissances guideacutee par les Connaissances du Domaine ndash 61

F 210 ndash Lrsquoontologie OntoDataClean preprocessing ontology preacutesenteacutee par Perez-Rey et al

[PRAC06] Les ellipses griseacutees sont les concepts et les rectangles blancs leurs instances Les lignessimples sont des relations de subsomption ou des assertions de concepts Les lignes fleacutecheacutees sont lesrocircles

Transformation Dans le cadre du projet MiningMart Euler et Scholz proposent un outil drsquoaide agrave latransformation de donneacutees qui utilise deux ontologies La premiegravere ontologie doit ecirctre manuellementconstruite en fonction du domaine eacutetudieacute Son but est double (a) fournir un modegravele plus proche de laconceptualisation du domaine de lrsquoanalyste et (b) fournir un modegravele du domaine mettant en valeur lesdeacutependances ou relations qursquoil explore La seconde ontologie doit permettre de deacutecrire les opeacuterationsneacutecessaires et leur enchaicircnement afin de rendre possible la transformation des donneacutees originales dansun modegravele qui correspond agrave la premiegravere ontologie (de domaine) speacutecialement construite Lrsquoutilisation decette ontologie a un rocircle similaire agrave celui de Perez-Rey et al lrsquoappreacutehension des opeacuterations possibles etla documentation des transformations effectueacutees

Bernstein et al utilisent une ontologie qui repreacutesente les meacutethodes de preacuteparation et de fouille de don-neacutees pour aider lrsquoanalyste agrave deacutefinir une strateacutegie drsquo optimale [BPH05] Pour cela lrsquoanalyste deacutecritla strateacutegie drsquo de son choix (objectifs jeux de donneacutees etc) avec les concepts de lrsquoontologie Lesystegraveme appeleacute Intelligent Discovery Assistant relieacute agrave lrsquoontologie propose une liste drsquoenchaicircnement demeacutethodes de preacuteparation et de fouille compatibles entre eux et avec le format initial des donneacutees puisfournit un classement des enchaicircnements proposeacutes selon des critegraveres objectifs comme le temps drsquoexeacutecu-tion ou la preacutecision des reacutesultats

Reacuteduction Liu et al [LY05] ainsi que Guyon et al [GE03] suggegraverent drsquoutiliser les connaissances dudomaine en premiegravere intension pour reacuteduire le jeu de donneacutees en eacuteliminant les attributs qui ne sont paspertinents En pratique de nombreuses approches drsquo utilisent de faccedilon implicite les connaissancesde lrsquoanalyste lors drsquoune seacutelection manuelle drsquoattributs drsquointeacuterecirct Cheng et al [CWT06] comparent defaccedilon empirique les meacutethodes automatiques de seacutelection (preacutesenteacutees en section 1) agrave une meacutethode faisant

62 Chapitre 2 Etat de lrsquoart

intervenir lrsquoexpertise de lrsquoanalyste Dans le cadre de cette eacutetude la seconde meacutethode montre une ameacutelio-ration de la sensibiliteacute de la classification proposeacutee Cependant cette preacuteparation manuelle se limite auxconnaissances propres de lrsquoanalyste sans se reacutefeacuterer aux connaissances potentiellement disponibles parailleurs Certaines eacutetudes suggegraverent lrsquoutilisation de connaissances mises agrave disposition de lrsquoexpert sousforme de listes drsquoattributs drsquointeacuterecirct ou de listes de phrases pour ameacuteliorer les reacutesultats de meacutethode drsquoou de fouille de texte [Gai89 AFC99 CFCH01] Dans ces cas la seacutelection (ou lrsquoannotation drsquoun doc-ument) reste manuelle mais lrsquoanalyste se reacutefegravere agrave une source de donneacutees exteacuterieure qursquoil interpregravete enterme de connaissances

Wilcox et al et Yu et al ont proposeacute drsquoutiliser des connaissances repreacutesenteacutees sous forme de con-traintes ou de regravegles de telle sorte agrave ce que le systegraveme puisse aider agrave la seacutelection de donneacutees [WH03YSS07] Wilcox et al ont montreacute dans le cadre de leur eacutetude de classification de documents que lrsquou-tilisation de connaissances est un critegravere plus important que le choix de la meacutethode de classificationemployeacutee (pour un ensemble de meacutethodes seacutelectionneacutees pour ecirctre traditionnellement utiliseacutees pour cettetacircche) Le travail de Yu et al preacutesente la particulariteacute de coupler une meacutethode de seacutelection automatiquebaseacutee sur une meacutethode agrave noyau et lrsquoutilisation de connaissances Les principales critiques qui peuventecirctre faites agrave ces deux travaux sont lrsquoabsence drsquoune seacutemantique associeacutee aux connaissances consideacutereacuteesla faible implication de lrsquoanalyste dans le processus de seacutelection et la propension agrave seacutelectionner desattributs qui permettront la deacutecouverte de connaissances plus attendues que nouvelles et surprenantes

Un travail reacutecent propose lrsquoutilisation drsquoune ontologie en pour guider la seacutelection drsquoattributs dansle cadre drsquoune opeacuteration appeleacutee le design de tacircche (task design) [SRR05] Lrsquoontologie sert alors agrave par-titionner lrsquoensemble des attributs en diffeacuterentes classes par le biais drsquoun mapping donneacutees-ontologie etpermet ainsi agrave la fouille de travailler sur des partitions plus homogegravenes et donc plus riches en reacutegulariteacutesCette meacutethode semble particuliegraverement pertinente puisqursquoelle combine connaissances drsquoune ontologie etorientation de la seacutelection selon lrsquoobjectif de lrsquoanalyste Toutefois la meacutethode proposeacutee reste tregraves geacuteneacuteraleet sa mise en œuvre contraignante puisque la mise en correspondance des donneacutees agrave fouiller et des con-cepts de lrsquoontologie deacutepend du domaine et est donc reacutealiseacutee de maniegravere ad hoc) et que la description despartitions potentiellement porteuses de reacutegulariteacutes est manuelle

Hormis celles qui concernent lrsquointeacutegration de donneacutees les meacutethodes faisant usage drsquoontologies pourguider la preacuteparation des donneacutees sont finalement peu reacutepandues La preacuteparation est pourtant une phasedeacuteterminante pour la suite du processus durant laquelle lrsquoanalyste est particuliegraverement solliciteacute Crsquoestparticuliegraverement le cas lors de la seacutelection de donneacutees eacutetape cruciale lorsque les meacutethodes de fouillesgeacutenegraverent des reacutesultats volumineux La seacutelection de donneacutees est justement une tacircche ougrave les connais-sances du domaine sont particuliegraverement utiles ce qui justifie leur utilisation de faccedilon semi-automatiquelorsqursquoelles sont formaliseacutees dans une relative au domaine eacutetudieacute

Dans la section 1 du chapitre 4 nous proposons pour guider la seacutelection drsquoutiliser une baseacutee surune ontologie de domaine et instancieacutee agrave partir du contenu des bases de donneacutees relatives De cette faccedilonlrsquoanalyste peut seacutelectionner un jeu de donneacutees agrave fouiller en prenant en compte ses propres connaissancescelles formaliseacutees dans la et beacuteneacuteficier des meacutecanismes de raisonnement associeacutes (subsomption clas-sification)

42 Fouille de donneacutees guideacutee par les connaissances

Faire usage de connaissances formaliseacutees au moment de lrsquoeacutetape centrale de fouille est deacutelicat puisquecela neacutecessite la conception ou la modification drsquoun algorithme de fouille de sorte que celui-ci prenne enconsideacuteration des eacuteleacutements de connaissance Nazeri et Bloedorn preacutesentent dans [NB04] des modifica-tions des algorithmes Apriori et C45 qui visent agrave produire des en prenant en compte des eacuteleacutementsde connaissance du domaine Les eacuteleacutements de connaissance sont dans ce cas des listes de regravegles (que

4 Extraction de Connaissances guideacutee par les Connaissances du Domaine ndash 63

nous appellerons aussi BC) repreacutesenteacutees selon un formalisme deacutefini preacuteciseacutement et non associeacute agrave uneseacutemantique Dans la version originale drsquoApriori le seul critegravere drsquoinclusion drsquoun motif46 est son sup-port Dans la version modifieacutee proposeacutee crsquoest drsquoabord la classe agrave laquelle le motif appartient dans la lorsqursquoil y est repreacutesenteacute qui est deacuteterminante Ainsi

ndash si le motif est dans la et appartient agrave la classe ldquomotifs inteacuteressantsrdquo alors il est conserveacute pourproduire les quelque soit son support

ndash inversement si le motif appartient agrave la classe ldquomotifs ininteacuteressantsrdquo alors il est eacutelimineacute quelquesoit son support

Lrsquoalgorithme 21 repreacutesente simplement lrsquoalgorithme Apriori et les modifications (en gras) proposeacuteespar Nazeri et Bloedorn Dans le cadre drsquoexpeacuterimentations meneacutees par les auteurs avec Apriorimodifieacutele nombre de regravegles ininteacuteressantes diminue sans que ne soient perdues les regravegles inteacuteressantes par rapportagrave lrsquoutilisation drsquoApriori classique

Algorithme 21

geacuteneacuterer les motifs freacutequents de longueur 1

Pour (n=2 agrave max) faire

geacuteneacuterer les motifs candidats de longueur n

Pour (chaque nouveau candidat) faire

veacuterifier si le motif est dans la bc

Si (motif isin ldquomotifs ininteacuteressantsrdquo)

eacuteliminer le motif

Sinon si (motif isin ldquomotifs inteacuteressantsrdquo)

conserver le motif

Sinon

Si (support(motif) gt supportmin)

conserver le motif

geacuteneacuterer les ra

Dans le cas de lrsquoalgorithme C45 qui est une meacutethode de construction drsquoarbre de deacutecision le choixde lrsquoordre des attributs qui permet la construction de lrsquoarbre de deacutecision est modifieacute de telle sorte que desattributs ayant un score faible soient choisis en prioriteacute En effet la associe agrave certains attributs un scoreutiliseacute pour pondeacuterer le classement initial des attributs et ainsi lrsquoordre des attributs choisis pour construirelrsquoarbre De nouvelles associations sont deacuteduites de lrsquoarbre puis utiliseacutees pour modifier les scores associeacutesaux attributs dans la afin drsquoecirctre pris en compte lors des exeacutecutions suivantes

Karel et Kleacutema [KK07] proposent eacutegalement de contraindre un algorithme de fouille (de recherchede quantitatives) en reacuteduisant lrsquoespace de recherche Le jeu de donneacutees exploreacute relatif agrave la transcrip-tomique est composeacute drsquoattributs correspondant agrave des niveaux drsquoexpression de gegravenes Les eacuteleacutements deconnaissance sur lesquels srsquoappuyent les auteurs sont les hieacuterarchies de termes de la Gene Ontology ()Les termes de annotent (ie caracteacuterisent) les gegravenes dans des bases de donneacutees de la mecircme faccedilonque les niveaux drsquoexpression viennent caracteacuteriser ces mecircme gegravenes Ceci permet drsquoassocier les annota-tions et les attributs relatifs au niveau drsquoexpression de gegravenes La hieacuterarchie de lrsquoontologie sert alorsagrave deacutefinir une mesure de similariteacute entre gegravenes qui repreacutesente le fait qursquoil est plus ou moins ldquoplausiblerdquoqursquoun couple de gegravene soit co-exprimeacute Lorsque les sont produites celles qui proposent drsquoassocier desgegravenes dont la co-expression est plausible sont preacutefeacutereacutees aux autres

46Les motifs sont les eacuteleacutements de base pour la geacuteneacuteration des avec lrsquoalgorithme Apriori

64 Chapitre 2 Etat de lrsquoart

Blouson Pantalon de ski

Chemise Tennis Chaussures

Chaussures

de randoneacuteedrsquoexterieur

Vecirctement

Vecirctement

F 211 ndash Taxonomie T

Transaction Produits acheteacutes100 Chemise200 Blouson Chaussures de randonneacutee300 Pantalon de ski Chaussure de randonneacutee400 Chaussures500 Chaussures600 Blouson

T 26 ndash Base de donneacuteesD

43 Interpreacutetation guideacutee par les connaissances

Les meacutethodes de fouille sont susceptibles de produire des quantiteacutes de reacutesultats importantes quirendent la tacircche drsquointerpreacutetation fastidieuse pour lrsquoanalyste Crsquoest notamment le cas de la recherche deregravegles drsquoassociation () qui produit des regravegles agrave la fois nombreuses et redondantes Pour reacutesoudre ceproblegraveme drsquoanalyse des de nombreuses mesures drsquointeacuterecirct objectives et subjectives ont eacuteteacute proposeacuteespour permettre le classement des regravegles [TKS02 McG05 Bri06] Lrsquointeacuterecirct drsquoune regravegle est un paramegravetreen partie subjectif lieacute aux attentes de lrsquoanalyste agrave ses propres connaissances mais aussi potentiellementlieacute aux connaissances du domaine disponibles Une taxonomie peut ainsi ecirctre utiliseacutee pour lrsquoanalyse des et la geacuteneacuteralisation des regravegles [SA95] Suivant cette meacutethode un ensemble de regravegles R = cup(Pi rarr Ci)dont lrsquoensemble des preacutemisses cupPi sont fils drsquoune mecircme classe Pp de la taxonomie et dont lrsquoensembledes conclusions cupCi sont eacutegalement fils drsquoune mecircme classe Cp ces regravegles peuvent ecirctre geacuteneacuteraliseacutees enune seule regravegle de forme Pp rarr Cp Par exemple le Tableau 26 repreacutesente une base de donneacutees D detransactions de magasin et la Figure 211 une taxonomie des produits du magasin Avec un support de 03(ie 2 transactions) et une confiance de 06 les quatre regravegles obtenues en utilisant la geacuteneacuteralisation sontrepreacutesenteacutees dans le Tableau 27 Les regravegles ltPantalon de skirArr Chaussure de randonneacuteegt et ltBlousonrArr Chaussures de randonneacuteegt ne satisfont pas les support et confiance minimums (respectivement 1

6et 1

6 ) ce qui en revanche est le cas de la regravegle plus geacuteneacuterale ltVecirctement drsquoexteacuterieur rArr Chaussures derandonneacuteegt (support = 2

6 )

Regravegle Support ConfianceVecirctement drsquoexteacuterieurrArr Chaussures de randonneacutee 033 066Vecirctement drsquoexteacuterieurrArr Chaussures 033 066Chaussures de randonneacuteerArr Vecirctement drsquoexteacuterieur 033 1Chaussures de randonneacuteerArr Vecirctement 033 1

T 27 ndash Regravegles conserveacutees (supportmin=03 confiancemin=06) apregraves geacuteneacuteralisation

4 Extraction de Connaissances guideacutee par les Connaissances du Domaine ndash 65

Individu A

Attribut X

Individu B

Attribut YRelation empirique

donneacuteesminusontologie

Relation seacutemantique

Mapping

Base deconnaissances

Base dedonneacutees

F 212 ndash Mapping simple proposeacute dans [SRR05] pour guider lrsquointerpreacutetation des reacutesultats de fouille

En plus drsquoune taxonomie Liu et al [LHCM00] utilisent un formalisme particulier pour repreacutesenterdes modegraveles de regravegles que lrsquoanalyste srsquoattend agrave deacutecouvrir Le modegravele geacuteneacuteral drsquoune regravegle est de la forme

ltP1 P2 Pn rArr C1C2 Cngt [support][con f iance]

ougrave les eacuteleacutements de P1 P2 Pn et C1C2 Cn sont soit un attribut (et un terme de la taxonomie) soitun motif soit une expression reacuteguliegravere pour deacutecrire une classe de motifs Le systegraveme associeacute mesure unedistance entre chaque regravegle trouveacutee et les modegraveles proposeacutes de faccedilon agrave chiffrer le caractegravere inattendu desregravegles trouveacutees Les regravegles les plus diffeacuterentes des modegraveles de regravegles proposeacutes par lrsquoanalyste sont les plusinattendues Par exemple un modegravele deacutefini comme suit

ltChaussures de randonneacutee Chaussure+rArr Chemise+ gt

signifie que les regravegles associant au moins un des attributs Chaussures de randonneacutee ou Chaussure avecau moins lrsquoattribut Chemise sont attendues Ceci permet par exemple de mettre en avant le caractegravereinattendu de la regravegle

ltChaussures de randonneacuteerArr Vecirctement drsquoexteacuterieurgt

dont la conclusion ne contient pas lrsquoattribut ChemiseUn autre moyen de faciliter lrsquointerpreacutetation est le deacuteveloppement drsquooutils de visualisation et de vali-

dation des reacutesultats Svatek et al [SRR05] ou Vanzin et al [VB05] proposent des systegravemes fondeacutes sur lemecircme principe drsquoun mapping donneacutees-ontologie preacutealablement eacutetabli Celui-ci permet drsquoexploiter les re-lations de lrsquoontologie et la seacutemantique associeacutee pour aider lrsquoanalyste agrave interpreacuteter les relations empiriquesmises en eacutevidence lors de la fouille (voir Figure 212)

Lrsquooutil de visualisation inclus dans le systegraveme permet drsquoeacutevaluer et drsquointerpreacuteter les reacutesultats de fouilleen affichant et en permettant la navigation au travers des relations de lrsquoontologie associeacutees aux reacutesultats

Les approches preacutesenteacutees dans cette section montrent la neacutecessiteacute de deacutefinir un mapping entre lesdonneacutees analyseacutees et lrsquoontologie La deacutefinition de tels mappings a eacuteteacute abordeacutee dans la section concernantlrsquoutilisation des ontologies pour guider lrsquointeacutegration de donneacutees (section 33) Dans le cas des travaux re-latifs agrave lrsquoextraction de connaissances nous observons qursquoil srsquoagit le plus souvent de meacutethodes heuristiqueset qursquoaucune approche geacuteneacuterale nrsquoest proposeacutee pour la deacutefinition ou la formalisation de tels mappingsDe plus la difficulteacute agrave faire correspondre des valeurs (les donneacutees) et des objets (les instances de lrsquoontolo-gie) au sein des mappings nrsquoest pas abordeacutee dans ces travaux Cela nous conduit agrave proposer drsquoexploiter

66 Chapitre 2 Etat de lrsquoart

les reacutesultats des travaux sur lrsquointeacutegration seacutemantique pour deacutevelopper des strateacutegies drsquoutilisation desconnaissances dans un processus drsquo (Chapitre 4)

Par ailleurs il est possible de distinguer deux types drsquoexploitation de la seacutemantique associeacutees auxontologies selon le type drsquoontologie consideacutereacutee Drsquoune part les ontologies qui ne sont pas associeacutees agraveune seacutemantique preacutecise comme les taxonomies ou les vocabulaires controcircleacutes preacutesentent lrsquoavantage drsquoecirctrefaciles agrave manipuler et ainsi de tirer parti au maximum du peu de seacutemantique qui leur est associeacute Parexemple elle peuvent ecirctre facilement associeacutees au contenu de bases de donneacutees ou de pages Web qursquoilest alors possible drsquoanalyser en consideacuterant la structure de lrsquoontologie comme un lien entre tuples oupages Web Crsquoest notamment le cas pour les bases de donneacutees biologiques annoteacutees avec la et letravail de Karel et Klema [KK07] Drsquoautre part les travaux usant drsquoontologies repreacutesenteacutees selon unformalisme associeacute agrave une seacutemantique preacutecise comme les font un usage minimal de cette seacutemantiquemalgreacute les contraintes imposeacutees par leur exploitation La capaciteacute naturelle des objets agrave repreacutesenter undomaine (ainsi agrave mieux le comprendre et agrave le faire comprendre) et lrsquoorganisation hieacuterarchique demeurentles deux principales proprieacuteteacutes utiliseacutees pour faciliter lrsquoextraction de connaissances En revanche lespossibiliteacutes offertes par lrsquoexpressiviteacute des formalismes utiliseacutes et par les meacutecanismes de raisonnementsont quant agrave elles plus rarement utiliseacutees

Nous pensons que le deacuteveloppement des technologies du Web seacutemantique est une opportuniteacute quioffre la possibiliteacute de tirer le meilleur parti drsquoune seacutemantique formelle et des meacutecanismes de raisonnementassocieacutes Lrsquoobjectif de cette thegravese est notamment drsquoexploiter au maximum ces possibiliteacutes pour guider ladeacutecouverte de connaissances en biologie

Chapitre 3

Ontologies pour lrsquointeacutegration de donneacuteesen pharmacogeacutenomique

Ce chapitre preacutesente le construction de deux ontologies originales SNP-Ontology et SO-Pharm etleur utilisation pour lrsquointeacutegration de donneacutees pharmacogeacutenomiques La particulariteacute principale de lrsquoap-proche utiliseacutee pour lrsquointeacutegration est de transformer les reacutesultats de requecirctes pour peupler une Base deConnaissance () qui servira par la suite agrave guider lrsquoextraction de connaissances (voir chapitre 4)

La section 1 de ce chapitre deacutecrit tout drsquoabord la meacutethodologie rigoureuse adopteacutee pour construirenos ontologies puis deacutetaille chacune des eacutetapes de cette meacutethodologie mises en œuvre dans le cas dela construction de lrsquoontologie SNP-Ontology puis de lrsquoontologie SO-Pharm La section 2 propose unemeacutethode drsquointeacutegration de donneacutees qui utilise les ontologies drsquoune faccedilon similaire agrave un scheacutema globaldans une approche drsquointeacutegration de type meacutediateur Les sections 31 et 32 deacutecrivent les applications decette meacutethode et les expeacuterimentations conduites avec des donneacutees relatives aux variations geacutenomiques etpharmacogeacutenomiques Enfin la section 4 discute les reacutesultats obtenus

1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre

Avant de pouvoir utiliser une ontologie il est eacutevidemment neacutecessaire de la construire Une telle con-struction est un travail long et deacutelicat qui demande une collaboration entre ingeacutenieurs des connaissancesmaicirctrisant les meacutethodes de repreacutesentation des connaissances et experts du domaine maicirctrisant les con-naissances agrave repreacutesenter Afin de valoriser les efforts engageacutes lors de leur construction des ontologiesexistantes sont partageacutees dans des bibliothegraveques drsquoontologies sur le Web comme crsquoest par exemple le casdans le domaine de la biologie avec les sites OBO Foundry47 et BioPortal48 La mise agrave disposition de cesontologies peut en theacuteorie eacuteviter la reconstruction de nouvelles ontologies pour les domaines deacutejagrave cou-verts Cependant la conceptualisation drsquoune ontologie deacutepend eacutetroitement de la deacutefinition du domaineqursquoelle repreacutesente et des objectifs lieacutes agrave sa construction crsquoest pourquoi il est rare en pratique qursquouneontologie existante convienne en mecircme temps au domaine et aux objectifs drsquoun nouveau travail Dansun premier cas extrecircme aucune ontologie ne correspond au domaine et objectifs il est alors neacutecessairede construire entiegraverement une nouvelle ontologie Dans un deuxiegraveme cas plus courant les ontologiesexistantes couvrent partiellement le domaine et reacutepondent partiellement aux exigences imposeacutees par lesobjectifs Une deacutemarche rationnelle consiste alors agrave reacuteutiliser les ontologies existantes en les adaptant agraveses propres domaine et objectifs

47httpobofoundryorg48httpwwwbioontologyorgtoolsportalbioportalhtml

67

68 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

Cette section preacutesente drsquoabord une meacutethodologie de construction drsquoontologie inspireacutee des meacutethodesdeacutecrites dans la litteacuterature mais adapteacutee agrave notre propos Une des particulariteacutes de cette meacutethodologieest drsquoinclure une eacutetape de formalisation des relations eacuteventuelles avec drsquoautres ontologies existantesest formellement deacutecrite avant leur impleacutementation Nous preacutesentons ensuite (sections 12 et 13) lesparticulariteacutes associeacutees agrave la mise en œuvre de cette meacutethode lors de la construction de deux ontologies SNP-Ontology qui repreacutesente des connaissances relatives aux variations geacutenomiques (ou variants) etSO-Pharm qui englobe plus geacuteneacuteralement le domaine de la pharmacogeacutenomique

11 Meacutethodologie de construction manuelle drsquoontologies pour lrsquointeacutegration de donneacutees

Des meacutethodes semi-automatiques comme la classification la fouille de textes peuvent ecirctre utiliseacuteespour construire une ontologie [Ome01 BCM05] Ces meacutethodes sont inteacuteressantes pour constituer unerepreacutesentation des connaissances agrave partir de scheacutemas de bases de donneacutees ou de corpus de textes Enrevanche elles sont peu compatibles avec lrsquoobjectif principal de nos ontologies qui est de proposer unerepreacutesentation des connaissances qui soit la plus proche possible des connaissances de lrsquoexpert et leplus indeacutependante possible de la structures des bases de donneacutees existantes avec lrsquoideacutee que ceci facilitelrsquointeacutegration de donneacutees et lrsquoExtraction de Connaissances agrave partir de Bases de Donneacutees ()

Les ontologies construites par des meacutethodes semi-automatiques proposent une repreacutesentation desconnaissances marqueacutee par la structuration et le format des sources de donneacutees qursquoelles exploitent In-versement nous souhaitons une repreacutesentation la plus neutre possible vis agrave vis des sources de maniegravereagrave laisser possible la mise en correspondance de lrsquoontologie obtenue avec le contenu drsquoun maximum desources heacuteteacuterogegravenes existantes ou agrave venir De plus la construction semi-automatique drsquoontologie est unchamp de recherche agrave part entiegravere Les meacutethodes qui en eacutemergent sont souvent deacutependantes drsquoun domaineet drsquoun format de source et leur utilisation neacutecessite en conseacutequence une adaptation et une eacutevaluationcoucircteuses en temps qui sortent du cadre de nos travaux Pour ces diffeacuterentes raisons nous preacutefeacuteronsune construction manuelle suivant une meacutethodologie deacutefinie de faccedilon rigoureuse (deacutecrite ci-apregraves) etimpliquant des experts du domaine

La meacutethodologie adopteacutee correspond agrave lrsquoadaptation agrave notre contexte des processus de constructioniteacuteratifs deacutecrits classiquement [UK95 FGPJ97 NM01] De cette meacutethodologie ressortent cinq eacutetapes la speacutecification la conceptualisation la formalisation lrsquoimpleacutementation et enfin lrsquoeacutevaluation dont lesreacutesultats conduisent agrave une nouvelle iteacuteration

111 Speacutecification

Le domaine couvert par lrsquoontologie doit ecirctre clairement deacutefini avec les experts Cette deacutefinition inclutla preacutecision des limites du domaine eacuteventuellement de ce que ne couvre pas lrsquoontologie et du niveau degranulariteacute demandeacute pour repreacutesenter les connaissances du domaine Les objectifs pour lesquels lrsquoon-tologie est construite doivent aussi ecirctre preacuteciseacutement deacutetermineacutes avec les experts

Durant cette eacutetape il est important de deacutefinir les critegraveres drsquoeacutevaluation selon lesquels lrsquoontologie serajugeacutee agrave la fin de chaque iteacuteration du processus de construction Dans notre cas ces critegraveres sont (1) laconsistance49 de lrsquoontologie (2) la capaciteacute agrave reacutepondre aux questions de compeacutetence ie une liste dequestions auxquelles lrsquoontologie doit permettre de reacutepondre (3) la capaciteacute agrave repreacutesenter explicitement

des connaissances implicites contenues dans des bases de donneacutees ou des publications scientifiquesDes regravegles de nommage (deacutebut du nom avec ou sans majuscule sans espace liste des caractegraveres

accepteacutes etc) sont adopteacutees pour les noms de concepts de relations entre concepts drsquoindividus et lesvaleurs qui seront utiliseacutes lors de la construction

49Une ontologie est consistante si tous ces concepts peuvent ecirctre instancieacutes

1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre 69

Ensuite deux listes sont eacutetablies en parallegravele une liste des termes du domaine eacutetablie par lrsquoexpertet une liste des sources de donneacutees et de connaissances relatives au domaine Les sources contenuesdans la seconde liste peuvent ecirctre de nature tregraves diffeacuterente comme un modegravele conceptuel (en UML ouen un langage apparenteacute) un scheacutema XML une base de donneacutees une ontologie OWL ou encore unvocabulaire controcircleacute Des exemples concrets de telles listes de sources sont donneacutes dans la suite de cechapitre Les sources de cette liste sont par la suite exploreacutees pour enrichir la liste initiale de termes

Dans un deuxiegraveme temps la liste des sources est utiliseacutee pour identifier les sources de connaissancesqui peuvent ecirctre reacuteutiliseacutees pour la construction de lrsquoontologie Les sources de connaissances sont seacutelec-tionneacutees notamment en fonction de leur pertinence par rapport aux objectifs fixeacutes et en fonction de leurqualiteacute Les critegraveres de qualiteacute preacuteconiseacutes par lrsquoinitiative OBO Foundry50 constituent une liste de critegraveressur lesquels il est possible de srsquoappuyer pour choisir les meilleures sources agrave reacuteutiliser Dans le cas ougraveaucune source de connaissances nrsquoest suffisamment pertinente pour ecirctre reacuteutiliseacutee dans la constructionde lrsquoontologie alors lrsquoontologie doit ecirctre entiegraverement construite

112 Conceptualisation

La conceptualisation du domaine se fait agrave lrsquoaide de diagrammes de classes UML [RBJ00] Lrsquoex-pressiviteacute offerte par UML lrsquoadaptation des classes (ie de la repreacutesentation par objets) pour repreacutesenterles concepts et lrsquoouverture du langage UML font de ce type de diagramme un outil adapteacute agrave la con-ceptualisation drsquoune ontologie [KCH+02] La liste de termes est utiliseacutee pour identifier les concepts delrsquoontologie sous la forme de classes UML auxquels sont assigneacutes un nom et une deacutefinition preacutecise sousla forme drsquoun texte libre Une fois ces concepts identifieacutes leurs relations hieacuterarchiques et non hieacuterar-chiques sont modeacuteliseacutees sous forme drsquoassociations dans les diagrammes de classes

Les relations entre les concepts propres agrave la nouvelle ontologie et les concepts externes des ontologiesreacuteutiliseacutees sont eacutegalement deacutefinies durant la conceptualisation en diagramme de classes Dans le caspreacutesent les relations proposeacutees entre concepts propres et concepts externes sont restreintes agrave trois typesparticuliers de relations la geacuteneacuteralisation lrsquoeacutequivalence et lrsquoagreacutegation

Geacuteneacuteralement le choix du type de relation entre deux concepts est deacutetermineacute par les experts qui pren-nent en consideacuteration leurs connaissances du domaine et les deacutefinitions des deux concepts Cependantdans certains cas le choix du type de relation entre deux concepts provenant de deux bio-ontologies estorienteacute par le type des ontologies consideacutereacutees En effet les ontologies utiliseacutees dans le domaine biomeacutedi-cal peuvent ecirctre diviseacutees en trois cateacutegories principales [RKM+05]

ndash les meacuteta-ontologies qui deacutecrivent des concepts et rocircles indeacutependants du domaine qui servent demodegravele ou de composant pour les ontologies plus speacutecifiques (par exemple DOLCE51 SUMO52)

ndash les ontologies de domaines qui repreacutesentent un certain domaine drsquoapplication et deacutecrivent les en-titeacutes qui lui sont relatives suivant un formalisme de repreacutesentation des connaissances (comme uneLogique de Descriptions )

ndash les vocabulaires controcircleacutes speacutecialiseacutes souvent deacuteveloppeacutes manuellement par un consortium drsquoex-perts pour lrsquoannotation des bases de donneacutees (par exemple G O)

Typiquement une ontologie de domaine en va geacuteneacuteraliser les concepts drsquoun vocabulaire speacutecialiseacutecrsquoest agrave dire que la description formelle drsquoun concept va geacuteneacuteraliser un ensemble de concepts speacutecial-iseacutes De faccedilon similaire des ontologies dont le niveau drsquoabstraction est plus eacuteleveacute peuvent agrave leur tourgeacuteneacuteraliser les deacutefinitions des concepts de lrsquoontologie de domaine Les ontologies que nous souhaitonsconstruire sont des ontologies de domaine en qui proposent des relations vers des vocabulaires con-trocircleacutes Lrsquoassociation de ces deux types drsquoontologie permet de beacuteneacuteficier conjointement de la seacutemantique

50le principes de qualiteacute de lrsquoOBO Foundry httpobofoundryorgcritshtml (derniegravere visite le 17072008)51httpwwwloa-cnritDOLCE52httpwwwontologyportalorg

70 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

F 31 ndash Extrait drsquoun diagramme de classes UML illustrant les relations de geacuteneacuteralisation entre un con-cept issu drsquoun vocabulaire controcircleacute Sequence Ontology (SO) un concept drsquoune ontologie de domaineSNP-Ontology (SNPO) et un concept drsquoune meacuteta-ontologie Basic Formal Ontology (BFO)

associeacutee aux et de la richesse et de lrsquoexpertise associeacutees aux vocabulaires controcircleacutesPar exemple comme lrsquoillustre la Figure 31 le concept propre de lrsquoontologie de domaine SNP-

Ontology S NPO variant geacuteneacuteralise le concept externe S O substitution et ses descendants issusdu vocabulaire controcircleacute Sequence Ontology Par ailleurs le mecircme concept S NPO variant est luimecircme geacuteneacuteraliseacute par le concept externe BFO Ob ject importeacute drsquoune meacuteta-ontologie et ainsi heacuterite etreacuteutilise les deacutefinitions formelles du concept qui y est deacutecrit

113 Formalisation

La formalisation de lrsquoensemble de lrsquoontologie en (SHOIN(D)) est meneacutee de front avec son im-pleacutementation en OWL-DL sauf pour ce qui concerne la formalisation des relations entre concept propreet concept externe (appartenant agrave une autre ontologie) qui est eacutetablie en au preacutealable En fonction dutype de relation choisi entre un concept propre et un concept externe lors de la conceptualisation unaxiome est deacutecrit entre les concepts de correspondants noteacutes Cprop et Cext

ndash la geacuteneacuteralisation drsquoun concept propre par un concept externe est traduite par la relation de sub-somption

Cprop ⊑ Cext

ndash inversement la speacutecialisation drsquoun concept propre par un concept externe est traduite par lrsquoinversede la subsomption

Cprop ⊒ Cext

ndash lrsquoeacutequivalence entre deux concepts est formaliseacutee par lrsquoaxiome

Cprop equiv Cext

ndash la formalisation drsquoune relation drsquoagreacutegation entre deux concepts est noteacutee

Cprop ⊑ existisPartOfCext

ou lrsquoinverse si crsquoest le concept externe qui est une partie du concept propreLrsquoexemple de relations entre concepts propres et externes repreacutesenteacute Figure 31 peut ainsi ecirctre noteacute

comme suit

SNPO variant ⊑ BFO objectSNPO variant ⊒ SO substitution

1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre 71

Des exemples concrets et plus varieacutes des diffeacuterents types drsquoaxiomes possibles sont donneacutes dans lasuite de ce chapitre

Les domaines appeleacutes en anglais ontology matching ontology alignment ou ontology mapping srsquoin-teacuteressent au deacuteveloppement de systegravemes drsquoalignement drsquoontologies Ces systegravemes visent agrave eacutetablir laplupart du temps de faccedilon semi-automatique des relations de geacuteneacuteralisation ou drsquoeacutequivalence entre lesconcepts de deux ontologies distinctes Ils exploitent pour cela la similariteacute des noms de concepts deleurs deacutefinitions formelles (mais aussi de leurs extensions de leurs positions relatives dans une structureetc) pour proposer des relations entre concepts issus drsquoontologies distinctes [ES07] Nous privileacutegionsici la deacutefinition manuelle par les experts du domaine des relations entre concepts drsquoontologies distinctes

Des initiatives reacutecentes notamment le C-OWL [BGvH+03] clarifient la seacutemantique et enrichissentles types de relations possibles pour articuler des concepts drsquoontologies distinctes

114 Impleacutementation

La formalisation en et lrsquoimpleacutementation en OWL-DL sont imbriqueacutees Sur la base des diagrammesde classes les concepts et leurs relations sont deacutecrits formellement sous forme de concepts et rocircles en agrave lrsquoaide de lrsquoeacutediteur drsquoontologie Proteacutegeacute [KFNM04]

Malheureusement il nrsquoexiste pas de systegraveme automatique de conversion des diagrammes de classesUML en axiomes OWL Aussi la conversion est faite manuellement Les concepts et relations simplesen UML sont directement traduits en revanche les concepts plus complexes neacutecessitent une attentionparticuliegravere Par exemple les ne permettent que la repreacutesentation de relations binaires Cela rendrelativement complexe la formalisation des relations n-aires repreacutesenteacutees en UML Le moyen le pluscourant pour surmonter ce problegraveme est appeleacute la reacuteification [NR06] Celle-ci permet drsquoeacuteviter lrsquoutilisationde relations n-aires lors de la conceptualisation en preacutefeacuterant la construction de concepts suppleacutementaireset notamment des concepts qui deacutecrivent une relation n-aire et la deacutecomposent en plusieurs relationsbinaires

Pour ecirctre articuleacutees avec la nouvelle ontologie les ontologies preacuteceacutedemment seacutelectionneacutees doiventecirctre impleacutementeacutees dans le mecircme langage ie en OWL Cela neacutecessite leur conversion lorsqursquoelles nesont pas directement disponibles dans ce langage Elles sont ensuite importeacutees et relieacutees agrave lrsquoontologie parlrsquoimpleacutementation en OWL des axiomes deacutefinis lors de lrsquoeacutetape preacuteceacutedente Pour que lrsquoimpleacutementation deces axiomes soit possible il est neacutecessaire que les diffeacuterentes ontologies articuleacutees par les axiomes soientphysiquement mises en preacutesences Il est alors neacutecessaire de speacutecifier le chemin drsquoaccegraves et lrsquoespace denommage unique (namespace en anglais) des ontologies relieacutees de telle sorte que leurs concepts et rocirclespuissent ecirctre eacutevoqueacutes dans les descriptions de concepts propres agrave lrsquoontologie en construction

Drsquoun point de vue theacuteorique il est possible de consideacuterer la liste drsquoaxiomes entre concepts propreset externes comme une TBox agrave part entiegravere Crsquoest notamment ce qui semble le plus pertinent du faitque ceci permet drsquoeacuteviter drsquoavoir agrave incorporer des concepts externes dans la TBox drsquoune ontologie et deainsi garantir lrsquointeacutegriteacute de lrsquoontologie produite aussi bien que celle des ontologies articuleacutees Cepen-dant les contraintes qursquoimposent la mise en œuvre drsquoune telle modularisation des ontologies limite sonimpleacutementation dans les outils standards drsquoeacutedition drsquoontologie tel que Proteacutegeacute

115 Eacutevaluation

Elle se fait suivant les trois critegraveres deacutefinis lors de la speacutecification consistance questions de compeacute-

tence et capaciteacute agrave repreacutesenter des connaissances du domaineLa consistance de lrsquoontologie et la classification de ses concepts sont veacuterifieacutees reacuteguliegraverement au fur

et agrave mesure et agrave lrsquoissue de la formalisationimpleacutementation agrave lrsquoaide des meacutecanismes de raisonnement

72 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

standards impleacutementeacutes dans RacerPro [HM03]La qualiteacute des reacuteponses aux questions de compeacutetences est eacutevalueacutee selon des critegraveres deacutefinis lors de

la speacutecification Dans notre cas les reacuteponses agrave ces questions ne deacutependent pas seulement de lrsquoontologiemais eacutegalement du systegraveme dans lequel elle est impliqueacutee un systegraveme drsquointeacutegration de donneacutees oudrsquoextraction de connaissances

La capaciteacute de lrsquoontologie agrave repreacutesenter des connaissances eacutetablies du domaine est eacutevalueacutee par lrsquoin-stanciation manuelle de lrsquoontologie agrave partir drsquoexemples de connaissances de deux origines diffeacuterentesElles peuvent ecirctre soit extraites de bases de donneacutees soit extraites de publications scientifiques du do-maine

Lrsquoeacutevaluation de lrsquoontologie suivant lrsquoensemble de ces critegraveres permet drsquoidentifier des concepts et desrocircles absents ou mal deacutecrits dans lrsquoontologie Ceux-ci sont alors pris en consideacuteration pour ameacuteliorer lesspeacutecification conceptualisation et impleacutementation lors de lrsquoiteacuteration suivante du processus de construc-tion

Il nrsquoy a pas agrave proprement parler de critegravere drsquoarrecirct de la constrution drsquoune ontologie Certain auteursutilisent comme en geacutenie logiciel la notion de cycle de vie [DCGR98] Un premier cycle de vie delrsquoontologie se termine lorsque celle-ci est exploiteacutee dans le cadre de lrsquoutilisation pour laquelle elle aeacuteteacute deacuteveloppeacutee Cependant cette utilisation nrsquoest pas forcement un aboutissement et peut donner lieu agravelrsquoidentification drsquoimperfections qursquoun nouveau cycle drsquoameacutelioration et drsquoenrichissement de lrsquoontologievisera agrave corriger

1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre 73

12 Construction drsquoune ontologie pour les variations geacutenomiques SNP-Ontology

121 Speacutecification

Domaine couvert par SNP-Ontology Lrsquoobjet de SNP-Ontology est de proposer une repreacutesentationformelle des variations geacutenomiques Ces variations geacutenomiques sont des reacutegions du geacutenome clairementlocaliseacutees dont la composition en nucleacuteotides est susceptible de varier entre les individus drsquoune mecircmeespegravece La section 2 du chapitre 1 donne plus de deacutetails sur les variations geacutenomiques La majoriteacutede ces variations (environ 90 selon Kruglyak et Nickerson [KN01]) sont des variations ponctuellesie limiteacutees agrave un nucleacuteotide alors appeleacutees SNP pour Single Nucleotide Polymorphism Malgreacute son nomSNP-Ontology ne se limite pas agrave la repreacutesentation des SNP mais repreacutesente les variations geacutenomiques ausens large Elle permet de repreacutesenter sans ambiguiumlteacute une variation geacutenomique localiseacutee sur une seacutequencedrsquoADN ainsi que les conseacutequences que cette variation peut avoir au niveau du transcriptome (sur uneseacutequence drsquoARN) et du proteacuteome (sur une seacutequence drsquoacides amineacutes) SNP-Ontology est deacuteveloppeacutee defaccedilon volontairement geacuteneacuterale afin de permettre la repreacutesentation des variations du geacutenome de diffeacuterentsorganismes ainsi que les variations relativement agrave diffeacuterentes versions drsquoun mecircme geacutenome Une tellerepreacutesentation nrsquoeacutetait jusqursquoalors pas disponible (tout au moins publiquement)

Les derniegraveres versions de SNP-Ontology permettent de repreacutesenter les haplotypes et les variationsdu nombre de copies [RIF+06] La repreacutesentation de notions complexes comme lrsquoinfluence drsquoune vari-ation geacutenomique sur lrsquoeacutepissage [HRT+05] ou encore sur la quantiteacute de proteacuteines traduites ne sont pasrepreacutesenteacutees mais constituent des pistes drsquoeacutevolution pour ses versions futures

Objectifs de SNP-Ontology La repreacutesentation non ambigueuml des variations dans SNP-Ontology a pourobjectif de permettre lrsquointeacutegration de donneacutees heacuteteacuterogegravenes relatives aux variations geacutenomiques et agraveleurs conseacutequences Pour cela lrsquoontologie doit permettre (1) la repreacutesentation des variations suivantdiffeacuterents modes de description existants (2) la repreacutesentation de lrsquoeacutequivalence entre deux descriptionsdistinctes drsquoune mecircme variation ainsi que (3) la correspondance entre une variation geacutenomique et sesconseacutequences aux niveaux du transcriptome et du proteacuteome Par exemple la variation noteacutee TPMT3C

est eacutequivalente agrave celle noteacutee Chr6 18238897 AG et induit au niveau proteacuteique une variation deacutecritepar TPMT TYR240CYS Lrsquoobjectif geacuteneacuteral de SNP-Ontology est de faciliter chaque eacutetape du processusdrsquo preacuteparation (y compris lrsquointeacutegration) fouille et interpreacutetation

Critegraveres drsquoeacutevaluation particuliers Des exemples de questions de compeacutetence auxquelles SNP-Ontologydoit reacutepondre sont

ndash Le gegravene humain CYP2D6 preacutesente-t-il des variations geacutenomiques ndash Si oui certaines drsquoentre elles sont elles reacutepertorieacutees agrave la fois dans les bases dbSNP et OMIM ndash Certaines sont elles reacutepertorieacutees dans la base PharmGKB et dans aucune autre ndash Parmi ces mecircmes variations lesquelles sont non-synonymes ie localiseacutees dans une reacutegion codante

et qui entraicircne une variation drsquoacides amineacutes dans la proteacuteine reacutesultante ndash Certaines de ces variations sont elles localiseacutees agrave une distance infeacuterieure agrave 50 nucleacuteotides en amont

ou en aval des exons du gegravene TPMT ndash Est-il possible de deacuteterminer un ensemble de tag-SNP qui marquent les haplotypes auxquels ap-

partiennent les variants de lrsquoensemble initial

SNP-Ontology doit permettre de repreacutesenter les connaissances qui peuvent ecirctre extraites des bases dedonneacutees que lrsquoon souhaite inteacutegrer ie les connaissances relatives aux variations geacutenomiques enregistreacuteesdans les bases dbSNP OMIM PharmGKB HapMap et dans des bases de donneacutees locus speacutecifiques

74 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

Listes de termes et de sources de donneacutees et de connaissances relatives Une liste des termes utiliseacutesdans le domaine et une liste des source de donneacutees et de connaissances relatives au domaine sont con-stitueacutees La liste des sources utiliseacutees pour enrichir la liste des termes relatifs aux variations geacutenomiquesest preacutesenteacutee dans le Tableau 31 Seules deux sources de connaissances preacutesentent un inteacuterecirct agrave ecirctre ar-ticuleacutees avec SNP-Ontology AA Ontology et Sequence Ontology dont une bregraveve description est donneacuteeTableau 32

Nom de la source Type de source URL

AA Ontology Ontologie OWL geacuteneacuterique http wwwco-odeorgontologiesamino-acid

dbSNP scheacutema XML modegravele de donneacutees geacuteneacuterique http wwwncbinlmnihgovprojectsSNP

HapMap scheacutema XML humain http wwwhapmaporg

HGVBase DTD modegravele de donneacutees humain http hgvbasecgbkise

BD inserm umrs538 DTD modegravele de donneacutees humain LS priveacutee

MECV Vocabulaire controcircleacute geacuteneacuterique http wwwebiacukmutations

OMG SNP Modegravele de donneacutees geacuteneacuterique http wwwomgorgtechnologydocumentsformalsnphtm

OMIM Source de donneacutees humain http wwwncbinlmnihgovomim

PharmGKB scheacutema XML modegravele de donneacutees humain http wwwpharmgkborg

Sequence Ontology Vocabulaire controcircleacute geacuteneacuterique http songsourceforgenet

LOVD Source de donneacutees humain LS http wwwuclacukldlrLOVDv110

UMD LDLR Source de donneacutees humain LS http wwwumdbeLDLR

Uniprot Source de donneacutees geacuteneacuterique http wwwuniprotorg

T 31 ndash Liste des sources exploreacutees pour enrichir la liste de termes relatifs aux variations geacutenomiquesLa troisiegraveme colonne preacutecise si la source de variations geacutenomiques concerne uniquement un locus par-ticulier (source Locus Speacutecifique ou LS) uniquement lrsquohumain ou si elle est geacuteneacuterique (multi-locus etmulti-espegraveces)

Ontologie Domaine Pre f ixe Namespace

AA Ontology acides amineacutes AAO http wwwco-odeorgontologiesamino-acid20051011amino-acidowl

Sequence Ontology Seacutequences et variations SO http purlorgoboowlSO

T 32 ndash Les deux ontologies articuleacutees avec SNP-Ontology

122 Conceptualisation

La Figure 32 repreacutesente la reacutepartition sous forme de quatre paquets (ou packages en anglais) desdiagrammes de classes correspondant agrave SNP-Ontology Les Figures 33 et 34 sont deux exemples dediagrammes de classes centreacutes respectivement sur le concept de variant et sur celui de seacutequence Ainsi laFigure 33 repreacutesente un variant comme un concept associeacute agrave une certaine position dans une seacutequence etassocieacute agrave une variation observeacutee (ObservedVariation) qui peut ecirctre soit une variation de nucleacuteotide (Nu-cleotideVariation) soit une variation drsquoacide amineacutes (AAVariation) selon le type de seacutequence sur laquellele variant est observeacute La Figure 34 repreacutesente notamment les seacutequences de nucleacuteotide leur compositionen nucleacuteotide le fait qursquoil peut srsquoagir soit drsquoune seacutequence drsquoADN (DNASequence) soit drsquoune seacutequencedrsquoARNm (mRNASequence) et entre autres que les seacutequence drsquoADN compose les chromosomes et lesgegravenes

1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre 75

F 32 ndash Diagramme UML repreacutesentant la reacutepartition des diagrammes de classes en quatre paquets(packages en anglais) Le concept de variant peut ecirctre associeacute aux seacutequences geacutenomiques sur lesquelsils sont localiseacutes originellement mais aussi aux seacutequences transcrites et proteacuteiques sur lesquelles sontobserveacutees les conseacutequences des variations geacutenomiques

Sequence

InSequencePosition

AASequence

NucleotideVariation

AAVariation

NucleotideSequence

ObservedVariationVariant

0150

is observed in

2

is present in lt=

is observed in

F 33 ndash Diagramme de classes UML conceptualisant un variant la variation observeacutee pour un variantet sa position sur une seacutequence

mRNA ProteinChromosomeContig ExonIntronGene Transcript

mRNASequence

AASequence

Sequence

InSequencePosition

Nucleotide

Variant

DNASequence

NucleotideSequence AminoAcid

is present in lt=

11 1 1

1 115001

1

1 1

includes

F 34 ndash Diagramme de classes UML relatif aux seacutequences associeacutees agrave un variant

76 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

123 Formalisation

Les relations deacutecrites entre concepts propres agrave SNP-Ontology et concepts externes sont traduits en sous forme drsquoaxiomes Le Tableau 33 liste les axiomes reliant SNP-Ontology agrave lrsquoAA Ontology etSequence Ontology

SNPO amino_acid equiv AAO AminoAcidSNPO assembly equiv SO assembly (SO 0000353)SNPO contig equiv SO contig (SO 0000149)SNPO chromosome equiv SO chromosome (SO 0000340)SNPO codon ⊒ SO transcription_start_site (SO 0000315)SNPO codon ⊒ SO transcription_stop_site (SO 0000616)SNPO exon ⊒ SO exon (SO 0000147)SNPO intron ⊒ SO intron (SO 0000188)SNPO gene equiv SO gene (SO 0000704)SNPO genome equiv SO genome (SO 0001026)SNPO promotor equiv SO promotor (SO 0000167)SNPO terminator equiv SO terminator (SO 0000141)SNPO cnvr equiv SO copy_number_variation (SO 0001019)SNPO repeated_segment ⊒ SO repeat_region (SO 0000657)SNPO haplotype equiv SO haplotype (SO 0001024)SNPO transcript_region equiv SO transcript_region (SO 0000833)SNPO mature_mrna equiv SO RNA (SO 0000356)SNPO transcript equiv SO transcript (SO 0000673)SNPO genomic_region ⊒ SO QTL (SO 0000771)SNPO genomic_region ⊒ SO pseudogenic_region (SO 0000462)SNPO genomic_region ⊒ SO intergenic_region (SO 0000605)SNPO genomic_region ⊒ SO regulatory_region (SO 0005836)SNPO genomic_region ⊒ SO binding_site (SO 0000409)SNPO genomic_region ⊒ SO haplotype_block (SO 0000355)SNPO genomic_region ⊒ SO chromosome_part (SO 0000830)SNPO genomic_region ⊒ SO regulatory_region (SO 0005836)

T 33 ndash Liste des axiomes deacutecrivant les relations entre concepts propres agrave SNP-Ontology (SNPO) etconcepts externes importeacutes de AA Ontology (AAO) et Sequence Ontology (SO) Les identifiants desconcepts de SO sont donneacutes entre parenthegraveses

124 Impleacutementation

Les Figures 35 et 36 scheacutematisent certains concepts et rocircles de SNP-Ontology Ces deux figurespeuvent ecirctre compareacutees aux diagrammes de classes UML (Figures 33 et 34) pour illustrer la conversionentre diagrammes de classes UML et SNP-Ontology est disponible en OWL-DL sur le Web agrave lrsquoadressesuivante httpwwwloriafr~couletsnpontology14_descriptionphp

Sa version 14 contient 69 concepts dont 21 concepts deacutefinis et 59 rocirclesConcernant la conversion en OWL des ontologies articuleacutees AA Ontology est deacuteveloppeacutee en OWL

donc elle ne neacutecessite aucune conversion En revanche Sequence Ontology est deacuteveloppeacutee dans un for-

1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre 77

Variant

owl Thing

AAVariation

NucelotideVariation

ObservedVariation

Sequence

AASequence

NucleotideSequence

mRNASequence

DNASequence

isminusa

isminusa

isminusa

isminusa

isminusa

isminusa

isminusa

isminusa

isminusa

isminusaSequencePosition

F 35 ndash Repreacutesentation partielle de la hieacuterarchie de concepts de SNP-Ontology impleacutementeacutee en OWL

Variant

Sequence

AAVariation

SequencePosition

inRefSequence

hasSequence

hasAAVariation

stopPosition

owl Class owl ObjectProperty

startPosition

owl DatatypeProperty

1

2

owl ObjectProperty

includeSubSequence

isOneObservedAllele

isObservedIn

hasVariant hasPosition

owl domain

owl range

owl range

owl range

owl range

owl range

owl range

owl range

owl range

owl domain

owl domain

owl domain

owl domain

owl domain

owl domain

owl domain owl range

owl range

owl cardinality

owl minCardinality

owl maxCardinality

intdatatype

rdf

F 36 ndash Repreacutesentation scheacutematique de quelques concepts et rocircles de SNP-Ontology impleacutementeacutes enOWL NB en OWL les concepts sont appeleacutes des classes et les rocircles sont soit des proprieacuteteacutes drsquoobjets(ObjectProperty) soit des proprieacuteteacutes de type de donneacutees (ObjectDataTypeProperty) Les rocircles preacutesententun domaine et un co-domaine (noteacutes respectivement owl domain et owl range) et parfois une contraintede cardinaliteacute (owl minCardinality par exemple)

78 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

mat particulier appeleacute OBO53 il est donc neacutecessaire de la convertir en OWL Cette conversion est reacutealiseacuteeagrave lrsquoaide du plugin BONG de Proteacutegeacute [WSGA03] puis valideacutee manuellement

125 Eacutevaluation

SNP-Ontology et ses relations avec les ontologies externes sont consistantesAssocieacutee agrave un ensemble de wrappers deacuteveloppeacutes speacutecialement et agrave lrsquoapplication SNP-Converter

deacutecrite section 312 SNP-Ontology permet de reacutepondre aux questions de compeacutetence speacutecifieacuteesSNP-Ontology permet de repreacutesenter les connaissances relatives aux variations geacutenomiques qui peu-

vent ecirctre extraites de dbSNP OMIM PharmGKB HapMap et des bases de donneacutees locus speacutecifiquesCes reacutesultats ne sont pas plus deacutetailleacutes ici car lrsquoutilisation de SNP-Ontology pour lrsquointeacutegration de

donneacutees relatives aux variations geacutenomiques (section 31) illustre son eacutevaluation

126 Discussion

SNP-Ontology constitue une premiegravere repreacutesentation formelle des variations geacutenomiques mise agravedisposition via diverses bibliothegraveques drsquoontologies notamment le BioPortal Sa disponibiliteacute lui permetdrsquoecirctre reacuteutiliseacutee discuteacutee et modifieacutee librement par les membres de la communauteacute des bio-ontologies

Un autre atout de lrsquoontologie provient des choix faits lors de sa construction qui sont notamment la prise en compte du contenu des principales bases de donneacutees de variations pour le choix des conceptset lrsquoeacutevaluation de sa capaciteacute agrave ecirctre instancieacutee avec le contenu de ces bases De ces choix reacutesulte unerelative faciliteacute agrave eacutetablir des correspondances entre les donneacutees des bases drsquoune part et les concepts etrocircles de lrsquoontologie drsquoautre part Ce genre de correspondance est indispensable pour deacutefinir les mappingsdonneacutees-ontologie sur lesquels srsquoappuie le processus drsquointeacutegration de donneacutees agrave lrsquoaide drsquoune ontologiedeacutecrit dans la section 2 de ce chapitre Enfin la deacutefinition de relations avec des concepts provenantdrsquoontologies externes permet de reacuteutiliser de faccedilon coheacuterente dans le cadre de SNP-Ontology lrsquoensembledes connaissances speacutecialiseacutees eacutelaboreacutees par des consortiums drsquoexperts comme le -consortium54

53Format OBO httpwwwgeneontologyorgGOformatobo-1_2shtml (Derniegravere visite le 27072008)54-consortium httpwwwgeneontologyorgGOconsortiumlistshtml (Derniegravere visite le 27072008)

1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre 79

13 Construction drsquoune ontologie pour la pharmacogeacutenomique SO-Pharm

131 Speacutecification

Domaine couvert par SO-Pharm SO-Pharm (pour Suggested Ontology for Pharmacogenomics) estune proposition de repreacutesentation formelle des connaissances pharmacogeacutenomiques SO-Pharm articuleplusieurs ontologies des sous-domaines compleacutementaires de la pharmacogeacutenomique ie relatives auxgeacutenotype pheacutenotype meacutedicaments et essais cliniques Elle permet de repreacutesenter des relations phar-macogeacutenomiques entre un meacutedicament une variation geacutenomique et un trait du pheacutenotype SO-Pharmpermet de repreacutesenter eacutegalement des patients et plus geacuteneacuteralement des panels impliqueacutes dans des essaiscliniques et des populations SO-Pharm permet de repreacutesenter les variables mesureacutees chez ces patientscomme lrsquoobservation drsquoun pheacutenotype ou le geacutenotypage de variations geacutenomiques Elle inclut des con-naissances relatives aux eacutetudes de cas agrave lrsquoinvestigation clinique et au test de nouvelles hypothegraveses enpharmacogeacutenomique

Objectifs de SO-Pharm SO-Pharm comme SNP-Ontology est conccedilue pour faciliter lrsquointeacutegration de

donneacutees et lrsquoextraction de connaissances en pharmacogeacutenomique SO-Pharm est notamment deacuteveloppeacuteepour pallier lrsquoabsence drsquoontologie elle regroupe dans une repreacutesentation coheacuterente les ontologies dessous-domaines de la pharmacogeacutenomique

Critegraveres drsquoeacutevaluation particuliers Des exemples de questions de compeacutetence auxquelles SO-Pharmdoit reacutepondre sont

ndash Un patient qui prend un traitement de codeacuteine par voie orale avec une posologie de 50 mg troisfois par jours preacutesente-t-il un risque de faire une reacuteaction adverse

ndash Des troubles neurologiques peuvent-ils ecirctre une conseacutequence drsquoun traitement agrave la codeacuteine ndash Existe-t-il des variations geacutenomiques du gegravene CYP2D6 qui sont associeacutees agrave lrsquoabsence drsquoeffet anal-

geacutesique en reacuteponse agrave la codeacuteine ndash La reacuteponse agrave un traitement de statines est il soumis agrave lrsquoinfluence de facteurs geacuteneacutetiques SO-Pharm doit permettre de repreacutesenter les connaissances pharmacogeacutenomiques qui peuvent ecirctre

extraites de OMIM et PharmGKB ainsi que des connaissances extraites de la litteacuterature du domaine parexemple les reacutesultats rapporteacutes dans [DGDM91 MTB+99 HVK+02 MMK+03]

Liste de sources de donneacutees et de connaissances relatives Dans le cas de SO-Pharm les experts dudomaine ont deacutefini quatre listes de termes relative chacune agrave la description drsquoun sous-domaine diffeacuterent geacutenotype pheacutenotype meacutedicament et essai clinique La liste des sources de donneacutees et de connaissancesrepreacutesenteacutee Tableau 34 est eacutetablie pour enrichir les quatre listes de termes Certaines sources ont eacuteteacuteajouteacutees au cours des diffeacuterentes iteacuterations du processus de construction de SO-Pharm Lrsquoajout drsquounesource peut amegravener agrave lrsquoajout de nouveaux termes de nouveaux concepts et agrave lrsquoarticulation avec denouvelles ontologies Le Tableau 35 repreacutesente les sources de connaissances seacutelectionneacutees pour ecirctrearticuleacutees avec SO-Pharm

132 Conceptualisation

Les trois Figures 37 38 et 39 sont trois diagrammes de classes construits pour la conceptualisationde SO-Parm Ils preacutesentent respectivement la conceptualisation adopteacutee pour la notion drsquoitem clinique

(ie une donneacutee enregistreacutee relative agrave un patient) celle drsquoessai clinique et celle de protocole La FigureD1 en Annexe D propose une vue plus geacuteneacuterale du modegravele conceptuel et permet notamment de situerles uns par rapport aux autres les trois diagrammes de classes preacutesenteacutes La Figure 37 repreacutesente entre

80 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

Nom de la source Type de source Domaine URL

dbSNP Scheacutema XML modegravele de donneacutees geacutenotype http wwwncbinlmnihgovprojectsSNP

HapMap Scheacutema XML geacutenotype http wwwhapmaporg

HGVBase DTD modegravele de donneacutees geacutenotype http hgvbasecgbkise

OMIM Source de donneacutees geacutenotypepheacutenotype

http wwwncbinlmnihgovomim

OMG SNP modegravele de donneacutees geacutenotype http wwwomgorgtechnologydocumentsformalsnphtm

MECV Controlled vocabulary geacutenotype http wwwebiacukmutations

SNP-Ontology Ontologie OWL geacutenotype

AA Ontology Ontologie OWL geacutenotype http wwwco-odeorgontologiesamino-acid

PharmGKB Scheacutema XML modegravele de donneacutees geacutenotypemeacutedicamentpheacutenotype

http wwwpharmgkborg

PharmacogeneticsOntology

Vocabulaire controcircleacute genotypepheacutenotype

http wwwpharmgkborghomeprojectsproject-pojsp

Sequence Ontology Vocabulaire controcircleacute geacutenotype http songsourceforgenet

Gene Ontology Vocabulaire controcircleacute geacutenotype http wwwgeneontologyorg

PubChem Source de donneacutees meacutedicament http pubchemncbinlmnihgov

RX-Norm Vocabulaire controcircleacute meacutedicament http wwwnlmnihgovresearchumlsrxnormindexhtml

ChEBI Vocabulaire controcircleacute meacutedicament http wwwebiacukchebi

CDISC Scheacutema XML pheacutenotype http wwwcdiscorg

ICD-10 Vocabulaire controcircleacute pheacutenotype http wwwwhointclassificationsicd

Disease Ontology Vocabulaire controcircleacute pheacutenotype http diseaseontologysourceforgenet

Mammalian Phenotype Vocabulaire controcircleacute pheacutenotype http wwwinformaticsjaxorgsearchesMP_formshtml

PATO Vocabulaire controcircleacute pheacutenotype http obosourceforgenet

Unit Ontology Vocabulaire controcircleacute pheacutenotype http obosourceforgenet

Pathway Ontology Vocabulaire controcircleacute geacutenotypepheacutenotype

http rgdmcwedutoolsontology

SNOMED-Clinical Vocabulaire controcircleacute pheacutenotype http wwwsnomedorgsnomedctglossaryhtml

Family Bond Ontology Ontologie OWL essaiclinique

http wwwloriafrsimcouletontologyfamilybondversion01f-amilybondowl

Clinical Trial Ontology Ontologie OWL essaiclinique

http wwwbioontologyorgwikiindexphpCTO Main_Page

Ontology of BiomedicalInvestigations

Ontologie OWL essaiclinique

http obisourceforgenet

OBO relationship types Vocabulaire controcircleacute meacuteta-ontologie

http wwwobofoundryorgro

Basic Formal Ontology Ontologie OWL meacuteta-ontologie

http wwwifomisorgbfo

T 34 ndash Liste des sources exploreacutees pour enrichir la liste de termes relatifs aux sous-domaines de lapharmacogeacutenomique La troisiegraveme colonne preacutecise le sous-domaine que la source concerne Les vocab-ulaires controcircleacutes eacutetoileacutes () sont des ontologies OBO

autres les deux types principaux drsquoitem cliniques les items relatifs au geacutenotype (Genotype item) et lesitems relatifs au pheacutenotype (Phenotype item) Les premiers peuvent ecirctre des variants comme deacutefinis pourSNP-Ontology Les seconds peuvent ecirctre composeacutes agrave lrsquoaide des concepts deacutecrits pour lrsquoontologie PATOLa Figure 38 preacutesente notamment qursquoun item clinique (Clinical item) est mesureacute durant un eacutevenement(Clinical trial event) deacutefini dans le cadre drsquoun essai clinique est mesureacute chez un individu (Individual)

1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre 81

Nom Description Pre f ixe Namespace

SNP-Ontology Variations geacutenomiques SNPO ~ontologysnpontologyversion15snpontology_fullowl

Mutation Event Ont Classification des variations MEO ~ontologymeoversion10meoowl

AA Ontology acides amineacutes AAO http wwwco-odeorgontologiesamino-acid20051011a-mino-acidowl

Sequence Ontology Seacutequences et variations SO http purlorgoboowlSO

Pharmacogenetics Ont Meacutethodes de geacutenotypage etde mesures

PGO ~ontologysopharmversion20pharmacogeneticsontologyowl

Disease Ontology Classification des maladies DOID ~ontologysopharmversion20diseaseontologyowl

Mammalian Phenotype Critegraveres relatifs au pheacutenotype MP http purlorgoboowlMP

PATO Attributes et valeurs pour lepheacutenotype

PATO ~ontologypatoversion133qualityowl

Unit Ontology Uniteacutes de mesures UO ~ontologyunitversion19unitowl

ChEBI Composeacute moleacuteculaires CHEBI ~ontologysopharmversion20chebiowl

Family Bond Ont Liens de parenteacute FB ~ontologyfamilybondversion01familybondowl

Clinical Trial Ontology Protocole CTO http wwwowl-ontologiescomOntology1178899652owl

Ontology of BiomedicalInvestigation

Protocole OBI http obisourceforgenetontologyOBIowl

Relationship Ontology Types de relation OBO_REL http wwwobofoundryorgroroowl

Biomedical FunctionOntology

Meacuteta-ontologie BFO http wwwifomisorgbfo10

T 35 ndash Les 15 ontologies articuleacutees avec SO-Pharm Le preacutefixe repreacutesenteacute par le symbole ~ correspondagrave lrsquoURL http wwwloriafr~coulet

et est mesureacute selon une meacutethode (Measurement method) deacutefinie dans le cadre drsquoun protocole (Clinicaltrial protocole)La Figure 39 repreacutesente notamment qursquoun protocole peut ecirctre composeacute drsquoun traitementmeacutedicamenteux (Drug treatment) composeacute drsquoun meacutedicament (Drug) et drsquoune posologie (Posology) preacute-cise

133 Formalisation

La formalisation des relations avec les concepts des ontologies seacutelectionneacutees est rapporteacutee dans leTableau 36

134 Impleacutementation

SO-Pharm est disponible en OWL sur le Web agrave lrsquoadresse suivante httpwwwloriafr~couletsopharm20_descriptionphp

La version 20 alpha contient 70 concepts dont 37 concepts deacutefinis et 56 rocircles En incluant les on-tologies articuleacutees avec SO-Pharm le nombre de concepts srsquoeacutelegraveve agrave 84786 et celui des rocircles agrave 189 Cenombre important de concepts est en grande partie ducirc au nombre eacuteleveacute de concepts deacuteriveacutes des vocabu-laires speacutecialiseacutes comme ChEBI ou Disease Ontology dont le nombre de termes atteint par exemple 15192 pour la version 46 de ChEBI

Concernant la conversion en OWL des ontologies articuleacutees elle deacutepend du format drsquoorigine dechaque ontologie Par exemple sont disponibles en OWL et ne neacutecessitent donc aucune conversionSNP-Ontology AA Ontology CTO OBI BFO Les ontologies disponibles dans le format OBO sontconverties agrave lrsquoaide du plugin BONG de Proteacutegeacute [WSGA03] puis valideacutees manuellement Les ontologies

82 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

F 37 ndash Diagramme de classes UML centreacute sur la conceptualisation des items cliniques

F 38 ndash Diagramme de classes UML centreacute sur la conceptualisation drsquoessais cliniques

F 39 ndash Diagramme de classes UML centreacute sur la conceptualisation drsquoun protocole drsquoessai clinique

1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre 83

SOPHARM phenotype_item ⊒MP phenotype_ontology (MP 0000001)SOPHARM disease_diagnostic ⊒ DOID disease_and_injuries (DOID 952)SOPHARM surgical_operation ⊒ DOID procedures (DOID 1008)SOPHARM drug ⊒ CHEBI drug (CHEBI 23888)SOPHARM chemical_compound ⊒ CHEBI molecular_entities (CHEBI 23367)SOPHARM chemical_compound ⊒ CHEBI unclassified (CHEBI 27189)SOPHARM chemical_compound ⊒ OBI ChEBI_objects (OBI 263)SOPHARM chromosome_variation ⊒ SO chromosome_variation (SO 0000240)SOPHARM genomic_variation ⊑ SNPO variantSOPHARM genomic_variation ⊒MEO genomic_variation (MEO 001)SOPHARM observed_allele equiv SNPO sequence ⊓ forall isPartOfSOPHARM genomic_genotypeSOPHARM population ⊒ SNPO populationSOPHARM genotype_measurement_method ⊒ PGO genotyping_methodsSOPHARM phenotype_measurement_method ⊒ PGO phenotyping_methodsSOPHARM phenotype_measurement_method ⊒ CTO observationsSOPHARM phenotype_item ⊑(forall PATO is_magnitude_ofPATO quality ⊓ =1 PATO is_magnitude

_of) ⊔ (forall PATO is_measurement_ofPATO quantitative ⊓ =1 PATO is_measurement_of)SOPHARM phenotype_item ⊑ forall PATO has_unitUO unit ⊓ =1 PATO has_unitSOPHARM drug_dose ⊑ PATO physical_quality ⊓ BFO qualitySOPHARM drug_dose ⊑ forall PATO has_unitUO unit ⊓ =1 PATO has_unitSOPHARM administration_frequency ⊑ PATO frequency ⊓ BFO qualitySOPHARM administration_frequency ⊑ forall PATO has_unitUO unit ⊓ =1 PATO has_unitSOPHARM person ⊑ FB family_member

T 36 ndash Les principaux axiomes deacutecrivant des relations entre les concepts propres agrave SO-Pharm(SOPHARM) et les concepts externes des ontologies articuleacutees (voir Tableau 35) Les identifiants desconcepts associeacutes sont donneacutes entre parenthegraveses lorsqursquoils existent La liste complegravete inclut eacutegalementdes axiomes qui formalisent des relations entre rocircles

disponibles sous drsquoautres formats sont converties manuellement Crsquoest le cas de lrsquoontologie Pharmaco-

genetics Ontology disponible en HTML ou de lrsquoontologie Mutation Event Ontology construite agrave partirdu vocabulaire controcircleacute Mutation Event Controlled Vocabulary et drsquoune partie de Sequence Ontology

135 Eacutevaluation

Le grand nombre de concepts articuleacutes limite lrsquoutilisation des meacutecanismes de raisonnement qui per-mettent la validation de la consistance et la classification des concepts Les impleacutementations actuelles deces meacutecanismes sont sensibles agrave la complexiteacute de la utiliseacutee (ici SHOIN(D)) mais aussi au nombrede concepts de lrsquoontologie Aussi pour valider la consistance et permettre la classification des conceptssur une station de travail (CPU Intel Pentium M 18GHz RAM 2 Go) nous avons utiliseacute les meacutecan-ismes de raisonnement sur lrsquoensemble des paires drsquoontologies possibles (SO-Pharm ndash Disease Ontologypuis SO-Pharm ndash ChEBI puis etc)

Associeacutee agrave un ensemble de wrappers deacuteveloppeacutes speacutecialement SO-Pharm permet de reacutepondre auxquestions de compeacutetences speacutecifieacutees Lrsquoutilisation de SO-Pharm dans le cadre drsquoextraction de connais-sances en pharmacogeacutenomique (voir section 24 du chapitre 4) permet notamment de mieux reacutepondre agraveces questions

SO-Pharm permet de repreacutesenter les connaissances pharmacogeacutenomiques qui peuvent ecirctre extraites

84 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

de OMIM et PharmGKB ainsi que des connaissances extraites de la litteacuterature du domaine par exempleles reacutesultats rapporteacutes dans [DGDM91 MTB+99 HVK+02 MMK+03] SO-Pharm permet eacutegalement derepreacutesenter de nouvelles hypothegraveses de connaissances pharmacogeacutenomiques comme lrsquoassociation entreune variation geacutenomique un traitement et un ensemble de signes relevant drsquoun pheacutenotype Lrsquoutilisationde SO-Pharm dans lrsquoobjectif drsquoextraire des connaissances deacutecrite chapitre 4 a permi lrsquoeacutevaluation puislrsquoameacutelioration de lrsquoontologie

136 Discussion

Au final la construction manuelle de lrsquoontologie SO-Pharm propose une mise en correspondancecoheacuterente de quinze ontologies seacutelectionneacutees Lrsquoavantage est la maicirctrise de la coexistence de conceptsdont lrsquointerpreacutetation est eacutequivalente ou se recouvre de maniegravere plus ou moins partielle et surtout demaniegravere plus ou moins ambigueuml La construction et la mise en correspondance manuelles demandentun effort important qui est justifieacute par la possibiliteacute reacutesultante de repreacutesenter des connaissances phar-macogeacutenomiques en instanciant des relations existant entre plusieurs ontologies de sous-domaines etde raisonner sur ces connaissances de faccedilon coheacuterente par les meacutecanismes de raisonnement classiquesDe faccedilon similaire agrave SNP-Ontology SO-Pharm preacutesente lrsquoavantage de proposer agrave la communauteacute unepremiegravere repreacutesentation formelle de son domaine avec lrsquoobjectif de faciliter sa reacuteutilisation et son eacutevo-lution Pour aller dans ce sens les derniegraveres versions de SO-Pharm satisfont aux exigences de qualiteacuteproposeacutees par lrsquoOBO Foundry Ces deacuteveloppements permettent agrave SO-Pharm de faire partie de lrsquoOBOFoundry55 Des indications sur la faccedilon dont SO-Pharm reacutepond aux critegraveres de cette forge particuliegraveresont disponibles en ligne httpwwwloriafr~couletontologysopharmversion20foundry_requirementsphpIl est inteacuteressant de noter que certains de ces critegraveres font deacutebat et notamment le principe drsquoorthogona-

liteacute selon lequel le domaine recouvert par une nouvelle ontologie ne doit pas chevaucher celui des on-tologies existantes dans la forge Ce principe cherche agrave favoriser lrsquoameacutelioration des ontologies existantesde faccedilon communautaire plutocirct qursquoau deacuteveloppement drsquoontologies concurrentes pour un mecircme domaineCe point est discutable drsquoune part parce que la notion drsquoorthogonaliteacute nrsquoest pas deacutefinie de faccedilon preacuteciseet drsquoautre part parce qursquoune ontologie est une repreacutesentation drsquoun domaine selon un point de vue parti-culier Par conseacutequent deux ontologies peuvent repreacutesenter selon deux points de vues diffeacuterents un seulet mecircme domaine Pour cette raison les critegraveres drsquoinclusion drsquoOBO-Foundry sont discuteacutes au sein de lacommunauteacute et sont ameneacutes agrave eacutevoluer

55httpobofoundryorgcgi-bindetailcgiid=pharmacogenomics

2 Inteacutegration de donneacutees guideacutee par une ontologie 85

2 Inteacutegration de donneacutees guideacutee par une ontologie

21 Description geacuteneacuterale de lrsquoapproche proposeacutee

F 310 ndash Architecture geacuteneacuterale de notre systegraveme drsquointeacutegration de donneacutees Lrsquoontologie utiliseacutee par lemeacutediateur est la mecircme que celle qui constitue la TBox de la Base de Connaissances

Malgreacute lrsquoexistence drsquoarchitectures de reacutefeacuterence ([CGL+98] par exemple) il nrsquoexiste pas drsquoarchi-tecture standard pour les systegravemes drsquointeacutegration de donneacutees fondeacutes sur une ontologie Lrsquoarchitecturerepreacutesenteacutee Figure 310 que nous avons choisie peut ecirctre compareacutee agrave celle drsquoune approche meacutediateurcomme deacutecrit dans le chapitre 2 les diffeacuterentes sources sont mises en correspondance avec un vocabu-laire global dont la particulariteacute ici est drsquoecirctre une ontologie lrsquoextraction des donneacutees est prise en chargepar des wrappers et centraliseacutee sous forme drsquoune reacuteponse unique par le meacutediateur Des mappings deacutefinisentre chaque source de donneacutees et lrsquoontologie permettent la traduction de requecirctes pour lrsquointerrogationdes sources puis en sens inverse la traduction des reacuteponses aux requecirctes Crsquoest dans cette derniegravere phaseque reacuteside la distinction et lrsquoapport majeur de notre approche En effet le meacutediateur eacutelabore agrave lrsquoaide deswrappers en reacuteponse agrave une requecircte utilisateur une liste drsquoassertions qui sert agrave instancier (ou peupler) la associeacutee agrave lrsquoontologie

Le deacuteclanchement de lrsquointeacutegration consiste en la soumission drsquoune requecircte par lrsquoutilisateur La re-quecircte initiale est deacutecrite dans les termes de lrsquoontologies et le meacutediateur la traduit en requecirctes sur lesscheacutemas locaux des sources de donneacutees la traduction de la requecircte de lrsquoutilisateur dans les termes desscheacutemas locaux suit des approches deacutejagrave deacutecrites [CGLV01 Len02] nous ne deacutetaillons pas cette pre-miegravere phase En revanche les sections suivantes preacutesentent plus amplement la faccedilon dont sont deacutefinisles mappings entre les sources de donneacutees et lrsquoontologie puis deacutecrit lrsquointeraction entre les wrappers et lemeacutediateur

Dans la suite de cette section nous consideacuterons chacune des sources comme une base de donneacutees

posseacutedants un scheacutema propre sur lequel il est possible drsquoexeacutecuter des requecirctes

R Nous nous limitons ici agrave lrsquoutilisation des bases de donneacutees mais il pourrait ecirctre envis-ageable de deacutevelopper des wrappers mettant en oeuvre des meacutethodes de Traitement Automatique de laLangue (TAL) pour peupler la

86 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

22 Deacutefinition des mappings donneacuteesndashassertions

Pour chaque base de donneacutees consideacutereacutee la deacutefinition drsquoune requecircte dans les termes de son scheacutemaet la transformation de la reacuteponse agrave cette requecircte en une liste drsquoassertions srsquoappuient sur un mappingdonneacutees-assertions [PLC+08] Ces mappings sont deacutefinis au preacutealable manuellement et en consideacuterationdes connaissances drsquoexperts du domaine

Deacutefinition 31 (Mapping donneacutees ndash assertions) Soit un quadruplet (SMdminusa FO) ougrave

ndash S est le scheacutema drsquoune base de donneacutees ie un ensemble de relations n-aires de la forme R(A1 A2

An) et de domainenprod

i=1Di tels que Ai est lrsquoattribut drsquoindice i et de domaine Di

ndash O est une ontologie ie les concepts drsquoun domaine et les rocircles qui deacutecrivent les relations entre ces

concepts

ndash Mdminusa est un ensemble drsquoassociations entre des donneacutees et des assertions dont chacune est de la

forme

Φ Ψ

ougrave Φ est une requecircte arbitraire sur la base de donneacutees de scheacutema S et Ψ est un ensemble drsquoasser-

tions de concepts et drsquoassertions de rocircles de lrsquoontologie O

ndash Enfin F un ensemble de fonctions de la forme fi(v) applicables aux diffeacuterentes valeurs reacutesultant

des requecirctes Φ pour les transformer en noms drsquoindividus dans Ψ

Les fonctions de F appliqueacutees sur les valeurs des attributs sont deacutefinies de telle sorte que ndash deux valeurs drsquoattribut distinctes dans une ou plusieurs bases de donneacutees donnent lieu agrave deux noms

drsquoindividus distincts dans la ndash deux valeurs drsquoattributs potentiellement distinctes mais qui font reacutefeacuterence agrave la mecircme entiteacute dans

des bases de donneacutees diffeacuterentes donnent lieu agrave la creacuteation drsquoun seul et mecircme nom drsquoindividundash pour chaque mapping impliquant fi isin F il est possible de deacutefinir une fonction inverse noteacutee f minus1

i

qui permet agrave partir drsquoun identifiant drsquoindividu de la de retrouver la valeur correspondante dansune base de donneacutees

Les fonctions peuvent ecirctre deacutefinie soit manuellement soit par des heuristiques Comme lrsquoillustre lasuite de la thegravese (chapitre 3 section 31 et chapitre 4 section 1) une fonction peut notamment ecirctre unecomposition drsquoautres fonctions ou prendre en compte les valeurs prises par drsquoautres attributs

Lrsquoeacutetape de peuplement de la associeacutee agrave lrsquoontologie O revient agrave ajouter agrave la pour lrsquoensembledes n-uplets reacuteponses aux requecirctes Φ lrsquoensemble des assertions de concepts et des assertions de rocircles Ψdu mappingMdminusa deacutefini entre le scheacutema S et lrsquoontologie O Les individus impliqueacutes dans les assertionsdu mapping qui nrsquoexistent pas encore dans la associeacutee agrave O sont creacuteeacutes De cette faccedilon les fonctionsappliqueacutees aux valeurs drsquoattributs peuvent ecirctre utiliseacutees pour nettoyer transformer homogeacuteneacuteiser le con-tenu des bases de donneacutees lors de lrsquoinstanciation

Exemple Soit BD1 et BD2 deux bases de donneacutees dont les scheacutemas S1 et S2 contiennent respective-ment les deux relations suivantes R1 et R2

R1 (A1 A2 A3)R2 (A1 B2 B3)

Dans cet exemple nous consideacuterons que les attributs A1 de R1 et de R2 sont identiques ils ont le mecircmenom font reacutefeacuterence au mecircme concept et leurs valeurs sont repreacutesenteacutees en suivant la mecircme syntaxeLes attributs A2 et B2 font reacutefeacuterence agrave un mecircme concept mais leurs valeurs sont repreacutesenteacutees suivant dessyntaxes diffeacuterentes ce qui rend neacutecessaire lrsquoutilisation de fonctions diffeacuterentes ( f2 et f4) pour qursquoelles

2 Inteacutegration de donneacutees guideacutee par une ontologie 87

soient transformeacutees en identifiants drsquoindividus qui suivent une syntaxe homogegravene Les attributs A3 et B3

font reacutefeacuterence agrave des concepts diffeacuterentsDeux exemples de deacutefinition de mapping possibles Mdminusa A entre la base de donneacutees BD1 et lrsquoon-

tologie O et Mdminusa B entre BD2 et la mecircme ontologie O sont preacutesenteacutes ci-apregraves sous la forme de lrsquoas-sociation entre une requecircte SQL et une liste drsquoassertions en Les notations sont inspireacutees de Poggi et

al [PLC+08] En particulier on utilise la notation f1(A1) pour repreacutesenter de faccedilon geacuteneacuterique le nom dechaque individu ce qui correspond agrave lrsquoimage de la fonction f1 associeacutee agrave chaque valeur prise par lrsquoattributA1 dans la requecircte SQL

Mdminusa 1 ConceptUn( f1(A1))ConceptDeux( f2(A2))

SELECT A1 A2 A3 RoleUnVersDeux( f1(A1) f2(A2))FROM R1 RoleUnVersDeuxminus( f2(A2) f1(A1))

ConceptTrois( f3(A3))RoleUnVersTrois( f1(A1) f3(A3))RoleUnVersTroisminus( f3(A3) f1(A1))

Mdminusa 2 ConceptUnS peci f ique( f1(A1))ConceptDeux( f4(B2))

SELECT A1 B2 B3 RoleUnVersDeux( f1(A1) f4(B2))FROM R2 RoleUnVersDeuxminus( f4(B2) f1(A1))WHERE B3 =ldquoaSpecificValuerdquo ConceptQuatre( f5(B3))

RoleUnVersQuatre( f1(A1) f5(B3))RoleUnVersQuatreminus( f5(B3) f1(A1))

Suivant notre exemple consideacuterons les deux tuples suivants reacuteponses respectives aux requecirctes deMdminusa 1 etMdminusa 2 sur BD1 et BD2 et les listes drsquoassertions qui leurs sont associeacutees suivant les mappings

ConceptUn(a_1)ConceptDeux(a_2)RoleUnVersDeux(a_1 a_2)

(a1a2a3) RoleUnVersDeuxminus(a_2 a_1)ConceptTrois(a_3)RoleUnVersTrois(a_1 a_3)RoleUnVersTroisminus(a_3 a_1)

ConceptUnS peci f ique(a_1)ConceptDeux(a_2)RoleUnVersDeux(a_1 a_2)

(a1b2b3) RoleUnVersDeuxminus(a_2 a_1)ConceptQuatre(b_3)RoleUnVersQuatre(a_1 b_3)RoleUnVersQuatreminus(b_3 a_1)

Ainsi les deux valeurs respectives a2 et b2 des deux attributs A2 et B2 sont transformeacutes par lesfonctions f2 et f4 en un mecircme nom drsquoindividu a_2 ce qui permet la creacuteation drsquoun seul individu identifieacutepar a_2 et instance du concept ConceptDeux dans la

ConceptDeux(a_2)

88 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

Aussi si

ConceptUnS peci f ique ⊑ ConceptUn

le deuxiegraveme mapping apporte une nouvelle connaissance de par le fait que a_1 instancie non seulementConceptUn mais eacutegalement ConceptUnS peci f ique Les assertions du rocircle RoleUnVersDeux et de soninverse proposeacutees par le deuxiegraveme mapping (Mdminusa 2) sont redondantes avec les assertions proposeacutees parle premier mapping (Mdminusa 1) En conseacutequence elles ne seront pas ajouteacutees agrave la En revanche le deux-iegraveme mapping apporte une nouvelle connaissance en instanciant avec a_1 le rocircle RoleUnVersQuatre etson inverse Un exemple concret de mapping est donneacute dans ce chapitre en section 312

Il est important de remarquer que la deacutefinition drsquoun mapping en collaboration avec lrsquoexpert neacutecessitelrsquoexistence dans lrsquoontologie O des concepts et des rocircles approprieacutes qui pourront ecirctre instancieacutes dans la Si les concepts et le rocircles adeacutequats nrsquoexistent pas la deacutefinition du mapping constitue une motivationpour la mise agrave jour et lrsquoameacutelioration de lrsquoontologie

Compareacute au triplet (GSM) (associant un scheacutema global les scheacutemas des sources et les mappingsentre G et S voir section 312 du chapitre 2 et [Len02]) qui suffit agrave deacutecrire les eacuteleacutements de base drsquoun sys-tegraveme drsquointeacutegration notre approche inclut de faccedilon suppleacutementaire un ensemble de fonctions qui garantitla transformation des valeurs en identifiants drsquoindividus Le fait que chaque ensemble de fonctions soitpropre agrave une base de donneacutees et deacutefini sans ambiguiteacute permet que chaque fonction soit capable inverse-ment de transformer un identifiant drsquoindividu en une valeur de la base

23 Description de lrsquointeraction wrapperndashmeacutediateur

La premiegravere interaction entre meacutediateur et wrapper intervient lorsqursquoun utilisateur eacutemet une requecirctePar exemple ldquoQuelles sont les variations geacutenomiques et les meacutedicaments associeacutes agrave la maladie appeleacutee

Hypercholesteroleacutemie Familialerdquo Suivant le fonctionnement classique le meacutediateur prend en charge larequecircte et lrsquoadapte au scheacutema de chaque base de donneacutees Les wrappers exeacutecutent les requecirctes adapteacuteesaux diffeacuterents scheacutemas et reacutecupegraverent les donneacutees en reacuteponse

Ensuite le meacutediateur permet gracircce aux mappingsMdminusa (deacutetailleacutes dans la deacutefinition 31) drsquoinstancierla associeacutee agrave lrsquoontologie en transformant de faccedilon indeacutependante la reacuteponse transmise par un wrapper enune liste drsquoassertions de concepts et drsquoassertions de rocircles ajouteacutee agrave la Les wrappers ne communiquentpas entre eux mais le meacutediateur interagit avec la et adapte ainsi lrsquoinstanciation au contenu de la qui se peuple progressivement Si lrsquoon reprend lrsquoexemple de la requecircte relative agrave lrsquoHypercholesteacuteroleacutemieFamiliale lorsque le wrapper 2 extrait des donneacutees relatives agrave une variation geacutenomique il est possibleque le meacutediateur ait deacutejagrave creacuteeacute des individus relatifs agrave la mecircme variation en conseacutequence des donneacuteestransmises par le wrapper 1 Dans ce cas le meacutediateur nrsquoeacutecrase pas les connaissances deacutejagrave disponiblesdans la mais les complegravete si possible Au final le meacutediateur enchaicircne une seacuterie drsquoinstanciations co-heacuterentes entre elles et avec lrsquoontologie pour inteacutegrer les reacuteponses successives des diffeacuterentes bases dedonneacutees

24 Bilan

Lrsquoapproche drsquointeacutegration de donneacutees proposeacutee dans cette section srsquoinspire amplement (1) des archi-tectures classiques des systegravemes drsquointeacutegration de donneacutees [Hal01 CG05] et (2) de reacutesultats theacuteoriquesdeacutecrit reacutecemment sur la formalisation des mappings donneacuteesndashontologies [PLC+08] La principale orig-inaliteacute proposeacutee ici est drsquoutiliser et drsquoadapter ces reacutesultats theacuteoriques au cadre drsquoune architecture opeacutera-

2 Inteacutegration de donneacutees guideacutee par une ontologie 89

tionnelle qui peut ainsi articuler ainsi agrave la fois base de donneacutees et Base de Connaissances

Lrsquoapproche proposeacutee a comme principal inconveacutenient qursquoelle neacutecessite pour chaque source dedeacutefinir un mapping donneacuteesndashassertions adapteacute et de deacutevelopper le wrapper associeacute En contre-partiecette meacutethode beacuteneacuteficie des avantages de lrsquoapproche meacutediateur en terme drsquoindeacutependance vis agrave vis dessources de nouvelles sources peuvent ecirctre inteacutegreacutees sans que lrsquoontologie ne soit transformeacutee Cepen-dant si une source contient des donneacutees encore non consideacutereacutees qursquoil se reacutevegravele inteacuteressant drsquointeacutegrerlrsquoontologie peut neacutecessiter drsquoecirctre enrichie par lrsquoaddition de concepts rocircles axiomes de telle sorte que lesnouvelles donneacutees puissent correspondre agrave des assertions de la

Une autre limite provient des technologies actuelles de gestion de Les opeacuterations de raisonnementet notamment drsquointerrogation sur une sont probleacutematiques lorsque la TBox ou la ABox deviennent tropvolumineuses Cette limite est accentueacutee lorsque le langage de repreacutesentation des connaissances est drsquouneexpressiviteacute plus importante et les meacutecanismes de raisonnement plus complexes Notre approche eacutevite lepeuplement drsquoune trop volumineuse comme cela pourrait ecirctre le cas par une approche entrepocirct Ainsiune requecircte tregraves speacutecifique dont la reacuteponse contient un nombre de tuples restreint entraicircne la constitutiondrsquoune tout aussi speacutecifique et peu volumineuse Une requecircte plus geacuteneacuterale donnera une reacuteponse doteacuteede plus de tuples et constituera une eacutegalement plus geacuteneacuterale et plus volumineuse En revanche notreapproche permet drsquointeacutegrer successivement les reacuteponses de diffeacuterentes requecirctes dans la mecircme dont lecontenu srsquoeacutelargira au fur et agrave mesure De ce point de vue notre approche preacutesente certains des avantagesdes approches drsquointeacutegration type entrepocirct puisque la peupleacutee par une ou plusieurs requecirctes beacuteneacuteficiedrsquoune part de lrsquointeacutegration de donneacutees et drsquoautre part de la seacutemantique associeacutee aux donneacutees

Le fait de disposer des donneacutees inteacutegreacutees sous forme drsquoassertions dans une nous inteacuteresse partic-uliegraverement puisque cela permet tout drsquoabord de repreacutesenter des relations qui ne peuvent pas lrsquoecirctre dansle cadre drsquoune base de donneacutees relationnelle classique comme par exemple repreacutesenter le fait que deuxrepreacutesentations distinctes (par exemple de deux variations geacutenomiques) font reacutefeacuterence agrave une seule etmecircme entiteacute Cela permet eacutegalement agrave lrsquoaide des meacutecanismes de raisonnement de valider la consistancedu modegravele de classifier les individus de lrsquoontologie Enfin comme nous lrsquoexposons dans le chapitre 4la seacutemantique associeacutee agrave la peut ecirctre utiliseacutee pour guider lrsquoextraction de connaissances implicites ounouvelles et potentiellement utiles par exemple en utilisant des meacutethodes de fouille de donneacutees sur lesassertions de la

Les deux sections suivantes (31 et 32) illustrent lrsquoutilisation pour lrsquointeacutegration de donneacutees des deuxontologies dont la construction est deacutecrite en section 1

90 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

3 Expeacuterimentation

Cette section preacutesente les reacutesultats drsquoimpleacutementation et de mise en œuvre de lrsquoapproche proposeacuteesection 2 pour lrsquointeacutegration de donneacutees guideacutee par une ontologie Les reacutesultats rapporteacutes ont eacuteteacute obtenusdans le cadre drsquoexpeacuterimentation sur des donneacutees relatives aux variations geacutenomiques tout drsquoabord puisagrave la pharmacogeacutenomique

31 Inteacutegration de donneacutees relatives aux variations geacutenomiques SNP-Converter

La section 23 du chapitre 1 et notamment sa Figure 12 illustre les nombreuses faccedilons de deacutesignerde faccedilon unique une variation geacutenomique dans les bases de donneacutees publiques et priveacutees Il est importantde noter que certaines notations non-conventionnelles (regroupeacutees sous la section c dans la Figure 12)sont ambigueumls la premiegravere description ne mentionne pas le nucleacuteotide de reacutefeacuterence la troisiegraveme et laquatriegraveme font reacutefeacuterence agrave deux versions diffeacuterentes de la mecircme proteacuteine sans preacuteciser de quelle versionil srsquoagit

Lrsquoeacutevaluation preacutecise du recouvrement entre les bases de donneacutees de variations geacutenomiques est cru-ciale dans le cadre du deacuteveloppement de diagnostics geacuteneacutetiques et de lrsquoexploration du variome (ie

lrsquoensemble des variations du geacutenome humain) [dDP03 RKC06 Spe08] Cette tacircche est rendue partic-uliegraverement deacutelicate agrave cause du nombre important de repreacutesentations diffeacuterentes et pourtant eacutequivalentesAussi un systegraveme capable drsquoeacutetablir cette eacutequivalence est neacutecessaire pour des investigations impliquant lrsquoanalyse de variations geacutenomiques et de cette faccedilon est neacutecessaire comme base agrave une exploration avanceacuteede la pharmacogeacutenomique qui prend en consideacuteration les nombreuses donneacutees recueillies dans le do-maine [AK02]

311 Les solutions drsquointeacutegration existantes

Une premiegravere solution au problegraveme de la repreacutesentation heacuteteacuterogegravene des variations consiste en laconstruction drsquoune base de donneacutees unique qui permette un accegraves agrave lrsquoensemble des variants contenus ini-tialement dans diffeacuterentes sources Crsquoest lrsquoobjectif de la base de donneacutees dbSNP du NCBI qui est la plusgrande source de variations disponible sur le Web (voir la section 22 du chapitre 1) En plus de contenirles variations qui lui sont directement soumises dbSNP integravegre des donneacutees provenant drsquoautres grandesbases de donneacutees de variations geacutenomiques comme la base NCI CGAP-GAI HGVBase HapMap Perl-gen Un avantage strateacutegique de dbSNP est de faire partie des bases de donneacutees du NCBI (entre autresGenBank PubMed Gene Human Genome Project Data) et agrave ce titre drsquoecirctre interrogeable par le systegravemefeacutedeacutereacute Entrez [Bax06] Un inconveacutenient de dbSNP est de ne pas permettre la coexistence de donneacuteespubliques et de donneacutees priveacutees relatives agrave des variations que les biologistes ne souhaitent pas diffuser(par exemple une nouvelle variation ou une nouvelle annotation)

TAMAL (Time and Money are Limiting) [HSS06] et LS-SNP (Large-Scale annotation of coding non-

synonymous SNPs) [KDK+05] sont des systegravemes drsquointeacutegration de donneacutees alternatifs principalementbaseacutes sur le contenu de dbSNP mais dont lrsquoavantage est de proposer des annotations suppleacutementaireset des faciliteacutes de seacutelection de SNP drsquointeacuterecirct pour la conception drsquoeacutetudes cliniques Ces SNP drsquointeacuterecirctpeuvent ecirctre les SNP susceptibles drsquoecirctre associeacutes agrave une maladie et donc inteacuteressants agrave geacutenotyper chezles patients enrocircleacutes Ces deux systegravemes partagent lrsquoinconveacutenient de dbSNP qui est de ne pas permettrelrsquointeacutegration de donneacutees tierces

312 SNP-Converter un systegraveme de conversion et drsquointeacutegration de variations geacutenomiques

SNP-Converter est un outil original deacuteveloppeacute pour lrsquointeacutegration de donneacutees relatives aux variationsgeacutenomique en suivant lrsquoapproche deacutecrite section 2 (voir Figure 311) SNP-Converter utilise lrsquoontologie

3 Expeacuterimentation 91

F 311 ndash Architecture de SNP-Converter suivant celle proposeacutee Figure 310

SNP-Ontology pour repreacutesenter par un ensemble drsquoassertions de concepts et de rocircles nrsquoimporte quelvariant quelle que soit sa description initiale Gracircce agrave cette capaciteacute des donneacutees contenues dans dessources heacuteteacuterogegravenes peuvent ecirctre mises correspondance avec les concepts et rocircles de SNP-Ontologypar lrsquointermeacutediaire de mappings donneacuteesndashassertions Suivant ces mappings SNP-Converter permet lepeuplement drsquoune associeacutee agrave SNP-Ontology et appeleacutee SNP-KB

Tels qursquoils sont deacutecrits dans la deacutefinition 31 les mappings donneacutees-assertions sont associeacutes agrave un en-semble de fonction F qui assure la transformation des valeurs des bases de donneacutees en noms drsquoindividusqui viennent peupler la De part lrsquoheacuteteacuterogeacuteneacuteiteacute des donneacutees relatives aux variations geacutenomiques cetensemble de fonction est particuliegraverement important dans SNP-Converter puisqursquoelles sont utiliseacutees pourreacutealiser la conversion de la description drsquoune variation geacutenomique en une autre Ensuite lrsquointeacutegration

proprement dite est effectueacutee par SNP-Converter qui est capable drsquoestimer lrsquoeacutequivalence entre deux de-scriptions converties en un format pivot ie un jeu de quatre attributs (deacutecrit ci-apregraves) qui identifie defaccedilon unique une variation geacutenomique

Reacutealiser la conversion de la description drsquoune variation geacutenomique en une autre ou eacutetablir lrsquoeacutequiv-alence entre deux descriptions sont des opeacuterations qui font intervenir des connaissances explicites dudomaine des connaissances relatives agrave la structure du gegravene la deacutefinition drsquoun transcrit ou encore aucode geacuteneacutetique Lrsquoune des raisons qui a motiveacute la construction de SNP-Ontology eacutetait justement defournir une repreacutesentation de ces connaissances sur laquelle srsquoappuyer afin de permettre la conversionla comparaison et au final lrsquointeacutegration de ce type de donneacutees

Un variant est une variation observeacutee localiseacutee sur une position preacutecise le long drsquoune seacutequence Lavariation observeacutee peut ecirctre une variation de nucleacuteotides ou drsquoacides amineacutes selon que la seacutequence quisert de reacutefeacuterence agrave sa localisation est un acide nucleacuteique (ie ADN ou ARN) ou une proteacuteine Cettedeacutefinition reflegravete agrave la fois le standard proposeacute par la nomenclature HGVS et la conceptualisation deSNP-Ontology Elle implique qursquoune variation soit deacutecrite au minimum par un jeu de quatre attributs

(i) lrsquoidentifiant drsquoune seacutequence de reacutefeacuterence (ie son numeacutero drsquoaccession dans une base de donneacuteespublique)

(ii) le type de la seacutequence en question geacutenomique codanteADNc ARNm ou proteacuteine respective-ment abreacutegeacute par les lettres g c r p suivant le standard de lrsquoHGVS

(iii) la position du variant sur la seacutequence de reacutefeacuterence (iv) la variation observeacutee (GT G- -T GTAG gu GlyVal par exemple)

92 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

La conjonction de ces quatre attributs permet une description univoque du variantComme mentionneacute dans la section 23 un mecircme variant peut ecirctre deacutecrit par diffeacuterentes compositions

de ce jeu de quatre attributs selon la seacutequence de reacutefeacuterence choisie Le principe geacuteneacuteral du SNP-Converterest de prendre en entreacutee un jeu drsquoattributs et de le convertir en un jeu drsquoattributs alternatif qui repreacutesentele mecircme variant

SNP-Converter pour la conversion de formatLe processus mis en œuvre par SNP-Converter lors de la conversion de la description drsquoune variationpeut ecirctre deacutecomposeacute en quatre eacutetapes deacutetailleacutees dans la suite de cette section et illustreacutees par les Figures312 et 313

ENDONNEacuteES

ENTREacuteE

JEU DrsquoATTRIBUTS

INITIAL

JEU DrsquoATTRIBUTS

PIVOT

JEU DrsquoATTRIBUTS

FINALEN

SORTIE

DONNEacuteES(2) (4)

(4)

(1) (3)

Descriptiondu format drsquoentreacutee

Seacutelection drsquoune seacutequence de reacutefeacuterence particuliegravere

Seacutelection duformat de sortie

F 312 ndash Les diffeacuterentes eacutetapes du processus de conversion de la description drsquoune variation geacutenomiquepris en charge par SNP-Converter

NT_011295

248976

GgtT

g

11087877

GgtT

NC_000019

g

(3)

CCDS12254

c

1694

GgtT

(4)NT_011295 g 2489769 GgtT

(1a) (2)CCDS12254c1694GgtT

Descriptiondu format HGVS du format HGVS

Seacutelection de la seacutequencede reacutefeacuterence codante

CCDS12254

Seacutelection

F 313 ndash Exemple de conversion de la description drsquoune variation geacutenomique reacutealiseacutee par SNP-Converter

(1) Lrsquoeacutetape de preacuteparationCertaines descriptions ne deacutecrivant pas explicitement les quatre attributs il est neacutecessaire drsquoin-clure dans lrsquoapplication une eacutetape de preacuteparation Cette eacutetape consiste en lrsquoextraction des quatreattributs initiaux et en conseacutequence est speacutecifique agrave chaque format de source de donneacutees Lrsquoeacutetapede preacuteparation est diffeacuterente selon que la description du variant est explicite (comme la syntaxeHGVS ou la syntaxe similaire agrave celle du genome-browser) ou implicite (un identifiant de basede donneacutees) Quand la description est explicite (1a) les quatre attributs peuvent ecirctre directementobtenus en parcourant la description et en en extrayant chacun des attributs Quand la description

3 Expeacuterimentation 93

est implicite (1b) les attributs initiaux sont obtenus par une requecircte sur la base de donneacutees con-cerneacutee Par exemple si la description de deacutepart est un identifiant dbSNP il est utiliseacute durant lrsquoeacutetapede preacuteparation pour interroger dbSNP et extraire le jeu drsquoattributs initial Lrsquoeacutetape de preacuteparationpermet eacutegalement de compleacuteter une description ambigueuml (1c) soit en compleacutetant automatique-ment les donneacutees manquantes drsquoune base de donneacutees lorsque crsquoest possible soit en compleacutetantmanuellement la description

Lrsquoimpleacutementation actuelle de cette eacutetape de preacuteparation permet lrsquoextraction des quatre attributs agravepartir des entreacutees de dbSNP HGVBase HapMap PharmGKB et de fichiers plats de deux basesde donneacutees priveacutees qui suivent des repreacutesentations non-conventionnelles correspondant aux deuxpremiers exemples de la section c de la Figure 12

(2) La conversion du jeu drsquoattributs initial en un jeu pivotLe jeu drsquoattributs pivot consiste en une version particuliegravere des quatre attributs pour laquelle lrsquoi-dentifiant de la seacutequence de reacutefeacuterence est celui de la seacutequence complegravete du chromosome (ie unnumeacutero drsquoaccession RefSeq de la forme NC_0000198) qui contient la variation En conseacutequencele type de seacutequence dans le jeu pivot est geacutenomique Les deux attributs restant doivent quant agrave euxecirctre calculeacutes La position relative de la seacutequence de reacutefeacuterence initiale sur la seacutequence complegravetedu chromosome est rechercheacutee dans la base de donneacutees adapteacutee Par exemple la position relativedrsquoun gegravene peut ecirctre trouveacutee agrave partir du symbole du gegravene dans lrsquoentreacutee RefSeq du chromosomecomplet (dans la section ldquoFEATURESgenerdquo) La position geacutenomique des exons peut eacutegalementy ecirctre retrouveacutee dans la section ldquoFEATURESmRNArdquo Si la position du variant est donneacutee parrapport au deacutebut de la seacutequence traduite ie du codon start ATG les coordonneacutees des morceauxde seacutequences codantes peuvent ecirctre trouveacutees dans la base de donneacutees CCDS56 du NCBI La posi-tion exacte de la variation sur la seacutequence complegravete du chromosome peut ecirctre calculeacutee agrave partir deces donneacutees et de la position de la variation sur la seacutequence de reacutefeacuterence initiale Enfin lrsquoattributcorrespondant agrave la variation observeacutee doit ecirctre converti en une variation de seacutequence geacutenomiqueSi la variation observeacutee est initialement deacutecrite sur une seacutequence drsquoADN elle reste identique saufdans le cas exceptionnel ougrave elle est observeacutee sur le brin anti-sens auquel cas elle est convertieAutrement si la variation observeacutee lrsquoest sur une seacutequence drsquoARN les uraciles (U) doivent ecirctreconvertis en thymines (T) Une variation observeacutee au niveau drsquoune proteacuteine est convertie suiv-ant le code geacuteneacutetique En raison de la deacutegeacuteneacuterescence du code geacuteneacutetique plusieurs codons codentpour le mecircme acide amineacute ainsi la conversion acide amineacute rarr nucleacuteotide peut geacuteneacuterer plusieurspropositions de variations SNP-Converter geacutenegravere toutes les possibiliteacutes

(3) La conversion optionnelle en un jeu drsquoattributs finalCette conversion est optionnelle puisque dans le cas ougrave la description deacutesireacutee correspond au jeupivot elle est inutile Cela est notamment le cas dans le processus drsquointeacutegration de donneacutees quenous deacutetaillons par la suite qui se base sur le jeu pivot Si ce nrsquoest pas le cas lrsquoutilisateur doitseacutelectionner une seacutequence de reacutefeacuterence drsquoADN ARNc ARNm ou proteacuteique sur laquelle doit ecirctrepositionneacutee la variation Le processus de conversion suit alors exactement le mecircme raisonnementque pour la conversion preacuteceacutedente afin de deacuteterminer la nouvelle position relative et la variationobserveacutee en fonction de la seacutequence de reacutefeacuterence choisie

(4) Le formatage des donneacutees de sortieDans le cas de lrsquointeacutegration de donneacutees illustreacutee dans la section suivante cette derniegravere eacutetapeconsiste en la transformation du jeu drsquoattributs en un ensemble drsquoassertions en qui viendrontinstancier une Cependant SNP-Converter peut ecirctre utiliseacute comme simple convertiseur de for-mat indeacutependemment de tout systegraveme drsquointeacutegration Dans ce cas les donneacutees de sorties peuvent

56httpwwwncbinlmnihgovCCDS

94 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

ecirctre formateacutees selon lrsquousage qursquoil est preacutevu drsquoen faire Un premier choix peut ecirctre lrsquoeacutedition simpledu jeu drsquoattributs final suivant la syntaxe HGVS Un second choix est la creacuteation drsquoun fichier con-tenant la description de la variation dans le format speacutecifique de soumission agrave une base de donneacuteescomme par exemple le format XML de soumission agrave dbSNP

SNP-Converter a donneacute lieu au deacuteveloppement drsquoun prototype en java dont plusieurs copies drsquoeacutecransont preacutesenteacutees en Annexe E A lrsquoaide de cette impleacutementation SNP-Converter a eacuteteacute expeacuterimenteacute surles variations du gegravene LDLR contenues dans dbSNP (au format XML) et de variations du mecircme gegravenedeacutecrites de faccedilon non-conventionnelle dans des sources priveacutees sous forme de fichiers textes Lrsquoobjectifeacutetait alors de mesurer le taux de recouvrement entre les trois bases de donneacutees et plus speacutecifiquementdrsquoidentifier les variations des bases de donneacutees priveacutees qui ne sont pas enregistreacutees dans dbSNP afindrsquoenvisager leur soumission

Pour reacutealiser cette expeacuterimentation SNP-Converter a drsquoabord eacuteteacute utiliseacute pour convertir les variationscontenues dans les trois sources en leur description par le jeu pivot pour ensuite comparer les reacutesultatset eacutevaluer leur eacutequivalence potentielle La fonction du SNP-Converter permettant drsquoinstancier une aeacuteteacute utiliseacutee pour inteacutegrer les diffeacuterentes descriptions de variations et leurs eacutequivalences Lrsquoinstanciationde la et les reacutesultats obtenus sont preacutesenteacutes dans la section suivante

SNP-Converter pour lrsquointeacutegration de donneacutees

Lrsquoutilisation du SNP-Converter pour lrsquointeacutegration peut ecirctre consideacutereacutee comme un mapping indirectentre le scheacutema des sources de donneacutees initiales et lrsquoontologie Dans ce sens le mapping indirect srsquoap-puie alors sur un ensemble de fonctions de convertion des descriptions heacuteteacuterogegravenes Dans lrsquooptique drsquoin-teacutegrer un maximum de donneacutees relatives aux variations nous utilisons SNP-Converter de telle sorte quelorsqursquoil instancie un nouveau variant dans la il lui associe non seulement les attributs du jeu initialmais eacutegalement les attributs pivots calculeacutes par SNP-Converter Dans la mecircme optique de lrsquointeacutegrationdrsquoun maximum de donneacutees il est eacutegalement inteacuteressant pour chaque variation drsquointeacutegrer dans la SNP-KBdrsquoune part le jeu des quatre attributs et drsquoautre part des attributs suppleacutementaires associeacutes agrave la variation enquestion (par exemple lrsquoorganisme eacutetudieacute ou sa freacutequence drsquoobservation dans une population) Dans cecas les attributs suppleacutementaires sont extraits au mecircme titre que ceux du jeu drsquoattributs consideacutereacute maisne sont soumis agrave aucune conversion En revanche pour qursquoils puissent donner lieu agrave lrsquoinstanciation de la il faut qursquoils soient inclus dans la description du mapping donneacutees-assertions (voir section 22)

Si lrsquoon considegravere les deux bases de donneacutees PharmGKB et dbSNP dont les scheacutemas contiennentrespectivement les deux relations suivantes RPharmGKB et RdbS NP

RPharmGKB (Submission_Id GP_Position assembly Strand Variant Feature Nb_Of_Chr Frequencygene_symbole)

RdbS NP (dbSNP_Id organism genome_build alleles contig_accession contig_position functiongene_symbole)

Deux exemples de mappingMdminusa (voir deacutefinition 31) possibles entre ces bases de donneacutees et lrsquoontologieSNP-OntologyMdminusa 1 etMdminusa 2 sont deacutefinis ici par lrsquoassociation entre une requecircte SQL et des assertionsen

3 Expeacuterimentation 95

Mdminusa 1 Variant( f1(Submission_Id))Position( f2(GP_Position))

SELECT Submission_Id GP_Position Variant hasPosition( f1(Submission_Id) f2(GP_Position))FROM RPharmGKB hasPositionminus( f2(GP_Position) f1(Submission_Id))

Variation( f3(Variant))hasVariation( f1(Submission_Id) f3(Variant))hasVariationminus( f3(Variant) f1(Submission_Id))

Mdminusa 2 NonS ynonymousVariant( f4(dbSNP_Id))Position( f5(contig_position))

SELECT dbSNP_Id contig_position alleles hasPosition( f4(dbSNP_Id) f5(contig_position))FROM RdbS NP hasPositionminus( f5(contig_position) f5(dbSNP_Id))WHERE function =ldquonon-synonymousrdquo Variation( f6(alleles))

hasVariation( f4(dbSNP_Id) f6(alleles))hasVariationminus( f6(alleles) f4(dbSNP_Id))

Chaque variant reacuteponse agrave lrsquoune des deux requecirctes preacuteceacutedentes est converti par SNP-Converter (S C)en quatre valeurs correspondant au jeu drsquoattributs pivot Il est alors possible drsquoappliquer agrave ce jeu drsquoat-tributs particulier le mapping appeleacuteMdminusa S C dont un exemple est preacutesenteacute ci-apregraves Les fonctions de laforme sci repreacutesentent alors les opeacuterations de conversion reacutealiseacutees sur les valeurs des attributs du jeu ini-tial Le reacutesultat de ces fonctions constitue le jeu drsquoattributs pivot Respectivement sc1 extrait lrsquoidentifiantde la seacutequence de reacutefeacuterence sc2 la position sur cette seacutequence sc3 le type de la seacutequence de reacutefeacuterenceet sc4 la variation observeacutee Lrsquoexemple proposeacute deMdminusa S C preacutesente la particulariteacute que reacutefeacuterence po-sition et type de seacutequence soient extraits agrave partir du mecircme attribut GP_Position Les fonctions fi sont lesfonctions classiquement deacutefinies dans le cadre des mappings La fonction f7 preacutesente la particulariteacute deprendre 4 attributs en paramegravetre car elle construit un identifiant unique de variant sur la base des valeursdes quatre attributs du jeu pivot Dans un souci de clarteacute nous remplacerons dans le mapping la notation

f7(sc1(GP_Position) sc2(GP_Position) sc3(GP_Position) sc4(Variant)) = f7(jeu_pivot)

Mdminusa S C Variant( f7(jeu_pivot))S equence( f8(sc1(GP_Position)))

SELECT Submission_Id S C sc1(GP_Position) isLocatedOn( f7(jeu_pivot) f8(sc1(GP_Position))GP_Position rarr sc2(GP_Position) isLocatedOnminus( f8(sc1(GP_Position) f7(jeu_pivot))Variant sc3(GP_Position) Position( f9(sc2(GP_Position)))

FROM RPharmGKB sc4(Variant) hasPosition( f7(jeu_pivot) f9(sc2(GP_Position))hasPositionminus( f9(sc2(GP_Position) f7(jeu_pivot))Variation( f10(sc4(Variant)))hasVariation( f7(jeu_pivot))) f10(sc4(Variant))hasVariationminus( f10(sc4(Variant) f7(jeu_pivot)))

Dans le cas du second mappingMdminusa 2 les attributs de RdbS NP pris en paramegravetre par les fonctionssci sont diffeacuterents mais le mapping vers les assertions est identique

Lrsquoeacutetape drsquoinstanciation de la SNP-KB revient agravendash (1) ajouter pour lrsquoensemble des n-uplets reacuteponses aux requecirctes lrsquoensemble des assertions de con-

cepts et des assertions de rocircles du mappingMdminusa deacutefini entre SNP-Ontology et le scheacutema S de labases de donneacutees consideacutereacutee

96 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

ndash (2) agrave partir des n-uplets reacuteponses aux requecirctes extraire et convertir les valeurs en celles correspon-dant au jeu drsquoattributs pivot

ndash (3) ajouter pour lrsquoensemble des quadruplets reacutesultant lrsquoensemble des assertions du mappingMdminusa S C ndash (4) enfin deacutefinir dans la lrsquoeacutequivalence entre le variant deacutecrit par ses attributs initiaux et le

variant deacutecrit par les attributs pivot

Le fait que SNP-Converter instancie dans la eacutegalement le jeu pivot permet de tester lrsquoeacutequivalencede deux variants dont les descriptions initiales eacutetaient diffeacuterentes mais dont la description pivot est iden-tique Le test drsquoeacutequivalence peut ecirctre consideacutereacute comme une extension proceacutedurale des meacutecanismes deraisonnement classiques Le reacutesultat de ce test aboutit agrave lrsquoenrichissement de la

Pour terminer notre exemple consideacuterons les deux tuples suivants reacuteponses respectives aux requecirctesdeMdminusa 1 etMdminusa 2 sur dbSNP et PharmGKB et les assertions associeacutees

Variant(135411387_01)Position(Chr6_18247207)hasPosition(135411387 Chr6_18247207)

(135411387Chr6 18247207AG) hasPositionminus(Chr6_18247207 135411387)Variation(A_G)hasVariation(135411387_01 A_G)hasVariationminus(A_G 135411387_01)

NonS ynonymousVariant(rs1800460_01)Position(8997479)hasPosition(rs1800460_01 8997479)

(rs18004608997479GgtA) hasPositionminus(8997479 rs1800460_01)Variation(A_G)hasVariation(rs1800460_01 A_G)hasVariationminus(A_G rs1800460_01)

Ainsi les deux attributs rsquoAGrsquo et rsquoGgtArsquo sont transformeacutes par les fonctions f3 et f6 en un mecircme nomdrsquoindividu rsquoA_Grsquo et permettent ainsi la creacuteation drsquoun seul individu identifieacute par lsquoA_Grsquo qui est instancedu concept Variation dans la

3 Expeacuterimentation 97

Mdminusa S C Variant(ch6_18247207_c_A_G)S equence(NC_000006)

(135411387 S C sc1(Chr6 18247207) isLocatedOn(NC_000006 ch6_18247207_c_A_G)Chr6 18247207 rarr sc2(Chr6 18247207) isLocatedOnminus(ch6_18247207_c_A_G NC_000006)AG) sc3(Chr6 18247207) Position(18247207)

sc4(AG) hasPosition(ch6_18247207_c_A_G 18247207)hasPositionminus(18247207 ch6_18247207_c_A_G)Variation(A_G)hasVariation(ch6_18247207_c_A_G A_G)hasVariationminus(A_G ch6_18247207_c_A_G)

Mdminusa S C Variant(ch6_18247207_c_A_G)S equence(NC_000006)

(rs1800460 S C sc1(NT_007592) isLocatedOn(NC_000006 ch6_18247207_c_A_G)8997479 rarr sc2(8997479) isLocatedOnminus(ch6_18247207_c_A_G NC_000006)GgtA) sc3(NT_007592) Position(18247207)

sc4(GgtA) hasPosition(ch6_18247207_c_A_G 18247207)hasPositionminus(18247207 ch6_18247207_c_A_G)Variation(A_G)hasVariation(ch6_18247207_c_A_G A_G)hasVariationminus(A_G ch6_18247207_c_A_G)

Les deux variants exemples sont convertis (S C) puis sont mis en correspondance par le mapping (Mdminusa S C)agrave des assertions qui font reacutefeacuterence agrave un mecircme variant En pratique le variant ch6_18247207_c_A_G estinstancieacute dans la une premiegravere fois Puis la connaissance sur lrsquoeacutequivalence entre le variant initial135411387_01 et le variant ldquopivotrdquo ch6_18247207_c_A_G est ajouteacute agrave la

135411387_01 ch6_18247207_c_A_G

(ou en OWL 135411387_01 owl sameAs ch6_18247207_c_A_G)

Ensuite lors du traitement de variant rs1800460_01 celui-ci est converti (SC) et mis en correspon-dance (Mdminusa S C) agrave la liste drsquoassertion relatives mais SNP-Converter veacuterifie dans la si le variant ldquopiv-otrdquo ch6_18247207_c_A_G lui correspondant est deacutejagrave repreacutesenteacute Si crsquoest le cas il nrsquoy est pas instancieacuteagrave nouveau et seule la connaissance sur leur eacutequivalence est ajouteacutee

rs1800460_01 ch6_18247207_c_A_G

Ceci permet drsquoinduire par un raisonnement baseacute sur la transitiviteacute de lrsquoopeacuterateur la connaissancesuivante

135411387_01 rs1800460_01

SNP-Converter a eacuteteacute utiliseacute dans le cadre drsquoune expeacuterimentation drsquointeacutegration meneacutee sur les varia-tions geacutenomiques speacutecifique au gegravene LDLR Les Figures 314 et 315 illustrent les reacutesultats obtenus Troisjeux de donneacutees ont eacuteteacute soumis au SNP-Converter Ceux-ci sont constitueacutes tout drsquoabord de deux basesde donneacutees priveacutees fournies par lrsquouniteacute UMRS 538 de lrsquoINSERM contenant 274 et 55 variants deacutecrits

98 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

suivant deux formes non-conventionnelles Ensuite le troisiegraveme jeu de donneacutees est constitueacute des vari-ants situeacutes sur le gegravene LDLR contenu dans dbSNP en format XML (377) Parmi les 706 (274+55+377)variants diffeacuterents utiliseacutes pour peupler la 634 sont consideacutereacutes comme des individus uniques ie

repreacutesenteacutes une seule fois dans la ) et 35 autres sont repreacutesenteacutes 2 ou 3 fois selon des repreacutesentationsdiffeacuterentes au sein de la reacutesultante Ces derniers variants sont donc originellement contenus dans 2 ou3 des jeux de donneacutees de deacutepart

55 377

SNPminusConverter

assertions

706 assertions =

274 variants du gegravene LDLR

existencedu variant

SNPminusKB634 individus originaux +

Base deBase dedbSNP

35 individus agrave eacutequivalents

umrs538donneacutees 1

umrs538donneacutees 2

F 314 ndash Utilisation du SNP-Converter comme wrapper et meacutediateur pour le peuplement drsquoune basede connaissances relative aux variations geacuteneacutetiques du gegravene LDLR

244

224 5

4

346

44

dbSNP (377)

Base de donneacutees 1umrs538 (274) umrs538 (55)

Base de donneacutees 2

F 315 ndash Diagramme de Venn repreacutesentant le recouvrement des trois jeux de donneacutees utiliseacutees pourpeupler la base de connaissances SNP-KB

3 Expeacuterimentation 99

32 Inteacutegration de donneacutees pharmacogeacutenomiques iSO-Pharm

La pharmacogeacutenomique est un domaine drsquoeacutetude qui manipule des donneacutees complexes La consideacutera-tion de sous-domaines (la pharmacologie la biologie moleacuteculaire la meacutedecine clinique la geacuteneacutetique despopulations lrsquoeacutepigeacutenomique entre autres) aux outils objectifs et sources de donneacutees distincts constitueun premier facteur de complexiteacute Les multiples niveaux de granulariteacute entre ces sous-domaines voire ausein drsquoun sous-domaine sont eacutegalement facteurs de complexiteacute Nous pouvons ajouter que ces donneacuteessont freacutequemment interconnecteacutees

Ces diffeacuterents facteurs de complexiteacute justifient la construction drsquoun systegraveme drsquointeacutegration de donneacuteesrelatives agrave la pharmacogeacutenomique Une motivation suppleacutementaire vient du fosseacute existant entre drsquoun cocircteacuteles donneacutees sur les connaissances pharmacogeacutenomiques geacuteneacuterales et de lrsquoautre les observations cliniquesqui ont permis de connaicirctre ces relations Un tel manque de relations peut ecirctre observeacute dans la base dedonneacutees PharmGKB ougrave coexistent sans relation des associations gegravenendashmeacutedicamentndashmaladie et des jeuxde donneacutees patients contenant des donneacutees relatives aux geacutenotype pheacutentoype et traitement de patientsLe mecircme genre de lacune existe dans la base OMIM dont les entreacutees relatives aux maladies (survenantparfois dans le cadre drsquoun traitement) preacutesentent une section ldquoClinical Synopsisrdquo dont les donneacutees nesont pas relieacutees aux variations geacutenomiques associeacutees par exemple reacutefeacuterenceacutees dans dbSNP voire mecircmedans OMIM

iSO-Pharm (pour instanciate SO-Pharm en anglais) est un systegraveme qui integravegre selon la meacutethodeproposeacutee section 2 et dans le contexte drsquoune base de connaissances des sources de donneacutees pharma-cogeacutenomiques relatives drsquoune part aux relations connues entre geacutenotypendashmeacutedicamentndashpheacutenotype etdrsquoautre part agrave des donneacutees cliniques observeacutees chez des patients La Figure 316 repreacutesente lrsquoarchitecturede ce systegraveme Elle preacutecise les sources de donneacutees inteacutegreacutees le rocircle central de lrsquoontologie SO-Pharm etde mappings deacutefinis entre donneacutees (des sources) et assertions (associeacutees agrave SO-Pharm) Il faut noter quechaque jeu de donneacutees de PharmGKB inteacutegreacute neacutecessite la deacutefinition drsquoun mapping particulier de par lefait que chaque jeu est structureacute suivant un scheacutema particulier

F 316 ndash Architecture de iSO-Pharm instanciant lrsquoarchitecture geacuteneacuterale deacutecrite Figure 310

Lrsquoobjectif drsquoun tel systegraveme est drsquointeacutegrer agrave la fois des donneacutees cliniques (ie des donneacutees relativesau pheacutenotype et au geacutenotype de patients) et des donneacutees biologiques (ie enregistreacutees dans les bases dedonneacutees biologiques et souvent issues drsquoexpeacuterience en biologie moleacuteculaire) dans le cadre drsquoune detelle sorte qursquoil soit possible drsquoutiliser la seacutemantique associeacutee aux donneacutees pour lrsquoextraction de connais-sances en pharmacogeacutenomique Cet objectif est expeacuterimenteacute dans la section 24 du chapitre 4 La base de

100 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

lrsquoexpeacuterimentation deacutecrite dans cette section est justement le peuplement drsquoune pharmacogeacutenomique agravepartir

ndash de donneacutees cliniques de PharmGKB consigneacutees dans le cadre de lrsquoinvestigation clinique desreacuteponses de 61 patients asthmatiques agrave un meacutedicament appeleacute le montelukast et

ndash de donneacutees biologiques de PharmGKB dbSNP OMIM Gene57 et KEGG Pathway58Le peuplement de la associeacutee agrave cette expeacuterimentation megravene notamment agrave la creacuteation de 61 assertionsdu concept ldquopatientrdquo (deacutefini dans SO-Pharm) de 127 assertions du concept ldquoclinical_itemrdquo ou de sesdescendants et des nombreuses assertions du rocircle ldquopresents_clinical_itemrdquo qui permet drsquoassocier lesinstances des concepts ldquopatientrdquo et ldquoclinical_itemrdquo conformeacutement aux reacutesultats de lrsquoinvestigation clin-ique Les donneacutees biologiques permettent de creacuteer des assertions de concepts et de rocircles relatives auxvariations geacutenomiques aux gegravenes aux meacutedicaments aux pheacutenotypes et agrave des reacuteseaux meacutetaboliques

57httpwwwncbinlmnihgovsitesentrezdb=gene58httpwwwgenomejpkeggpathwayhtml

4 Discussion 101

4 Discussion

Il est possible de confronter deux faccedilons de conceptualiser des connaissances la premiegravere part desdonneacutees pour deacutefinir des concepts crsquoest en un sens le cas des meacutethodes semi-automatiques de construc-tion drsquoontologie la seconde quant agrave elle part des concepts eux-mecircmes auxquels des donneacutees peuvent ecirctreassocieacutees par la suite Cette derniegravere est plus proche drsquoune construction manuelle dirigeacutee par les connais-sances drsquoun expert Une mise en perspective proposeacutee et illustreacutee dans lrsquointroduction de la thegravese de SRudolph fait le lien entre ces deux faccedilons de conceptualiser le monde et les doctrines philosophiquesinspireacutees des penseacutees drsquoAristote et Platon lrsquoempirisme et le rationalisme [Rud06]

Un premier choix fort fait dans cette thegravese est celui drsquoopter pour une construction manuelle des on-tologies Nous justifions celui-ci par deux arguments Premiegraverement les constructions drsquoontologies quenous avons meneacutees sont orienteacutees vers deux objectifs preacutecis qui sont lrsquointeacutegration de donneacutees et la deacutecou-verte de connaissances Nous pensons que lrsquoutilisation de meacutethodes de construction semi-automatiquesagrave partir de donneacutees ou de textes introduisent un biais dans la repreacutesentation des connaissances trop con-traignant vis agrave vis de nos objectifs Notons que les bio-ontologies partageacutees sur les portails OBO-Foundryet BioPortal sont construites manuellement Un second argument allant contre une construction semi-automatique est que les sources de donneacutees disponibles en pharmacogeacutenomique ne recouvrent chacuneque partiellement ce domaine en rapide eacutevolution

En revanche nous consideacuterons lrsquoutilisation des donneacutees et des textes comme le mode principal drsquoeacute-valuation de la construction En effet le fait que les concepts et rocircles drsquoune ontologie permettent larepreacutesentation des connaissances informelles contenues dans les bases de donneacutees et les textes est in-dispensable agrave lrsquoaccomplissement de nos deux objectifs (inteacutegration de donneacutees et deacutecouverte de con-naissances) Crsquoest principalement par le test de cette capaciteacute agrave repreacutesenter les connaissances que sonteacutevalueacutees SNP-Ontology et SO-Pharm

En ce qui concerne lrsquoarticulation des ontologies existantes avec les ontologies construites nous avonsaussi preacutefeacutereacute deacutefinir manuellement la liste drsquoaxiomes qui deacutecrivent les relations entre concepts de dif-feacuterentes ontologies Les raisons de ce choix sont similaires agrave celles qui motivent le choix drsquoune construc-tion manuelle Il est possible de consideacuterer cette liste drsquoaxiomes comme une TBox agrave part entiegravere (ie uneontologie indeacutependante) Sur le plan theacuteorique crsquoest notamment ce qui semble le plus pertinent car celaeacutevite drsquoavoir agrave incorporer des concepts externes dans lrsquoontologie garantissant ainsi son inteacutegriteacute (aussibien que celle des ontologies articuleacutees) Ceci eacutevite eacutegalement drsquoimporter une ontologie volumineuselorsque seules certaines branches de sa hieacuterarchie sont utiles Cependant cela impose une modularisa-

tion des ontologies qui nrsquoest pas geacutereacutee actuellement par les outils standards utiliseacutes pour la constructiondrsquoontologies tels que OWL ou Proteacutegeacute La solution que nous avons adopteacutee est ainsi lrsquoimportation des on-tologies articuleacutees dans leur globaliteacute comme lrsquoautorisent ces outils Associeacutes agrave cette probleacutematique lestravaux reacutecents de Konev et al proposent de deacutefinir des modules drsquoontologies en qui pourraient ecirctreextraits et utiliseacutes indeacutependemment [KLWW08] Ceci permettrait drsquoutiliser les meacutecanismes de raison-nement sur SO-Pharm de faccedilon moins contraignante

Les propositions reacutecentes concernant la repreacutesentation du temps en sont des progregraves eacutegalementprofitables agrave la formalisation de domaines comme la pharmacogeacutenomique et par conseacutequent profitablesaux futures versions de SO-Pharm [BGL08 LWZ08]

Lrsquoutilisation drsquoontologies pour lrsquointeacutegration de donneacutees est freacutequemment discuteacutee dans la litteacuterature[CG05] Notre motivation pour ce choix est ici renforceacutee par le fait que le second objectif de notretravail qui fait suite agrave lrsquointeacutegration de donneacutees est lrsquoeacutetude de lrsquoutilisation de connaissances formaliseacuteespour guider la deacutecouverte de connaissances (preacutesenteacutee chapitre 4)

La meacutethode drsquointeacutegration que nous proposons peut ecirctre consideacutereacutee comme un intermeacutediaire entre uneapproche meacutediateur et une approche entrepocirct En effet elle est comparable agrave une approche entrepocirct dans

102 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

le sens ougrave les reacutesultats de lrsquointeacutegration sont mateacuterialiseacutes puis reacuteutiliseacutes notamment pour ecirctre analyseacutes(voir chapitre 4) Neacuteanmoins nous la comparons eacutegalement agrave lrsquoapproche meacutediateur pour souligner (1) lefait que les donneacutees manipuleacutees restent dans les sources drsquoorigine ce qui est mateacuterialiseacute est un ensembledrsquoassertions et (2) lrsquoaspect dynamique de lrsquoinstanciation de lrsquoontologie qui srsquoeffectue en reacuteponse agrave unerequecircte et permet de cette faccedilon de creacuteer des diffeacuterentes en reacuteponse agrave diffeacuterentes requecirctes

Dans sa thegravese soutenue en 2007 F Saiumls deacutecrit une approche drsquointeacutegration seacutemantique fondeacutee surun enrichissement seacutemantique des donneacutees [Saiuml07] Cet enrichissement consiste en lrsquoajout de termesdeacutecrivant les concepts et rocircles drsquoune ontologie pour annoter les donneacutees Lrsquoassociation donneacuteendashterme estalors reacutealiseacutee au travers drsquoun scheacutema XML speacutecifique Le systegraveme drsquointeacutegration prend ensuite comptedes annotations pour inteacutegrer les donneacutees entre elles Pour utiliser un vocabulaire comparable agrave celui deF Saiumls nous pouvons dire non pas que notre approche enrichit les donneacutees agrave lrsquoaide de connaissancesmais qursquoinversement nous enrichissons des connaissances agrave lrsquoaide de donneacutees Dans ce sens lrsquoajout dansune drsquoassertions de concepts et de rocircles preacutealablement associeacutees agrave des donneacutees dans des mappingspeut ecirctre consideacutereacute comme un enrichissement de la

Les contributions preacutesenteacutees dans ce chapitre ont donneacute lieu agrave deux publications La premiegravere preacutesenteSNP-Converter et la seconde expose les meacutethodes associeacutees agrave la construction et agrave la validation de lrsquoon-tologie SO-Pharm [CSTB+06 CSTND06]

Ce chapitre preacutesente une approche drsquointeacutegration de donneacutees centreacutee sur une base de connaissances() dont le reacutesultat consiste en le peuplement de cette Lrsquoobjectif de cette inteacutegration est non seulementdrsquointeacutegrer des donneacutees issues de sources heacuteteacuterogegravenes mais eacutegalement de leur associer une seacutemantiquedeacutefinie dans le cadre de la repreacutesentation des connaissances relatives agrave leur domaine De fait cette seacute-mantique est utile pour inteacutegrer les donneacutees mais nous inteacuteresse plus particuliegraverement pour ameacuteliorerles reacutesultats drsquoun processus drsquoextraction de connaissances agrave partir des donneacutees inteacutegreacutees Nous abordonsdans le chapitre suivant (chapitre 4) la faccedilon dont une peut ecirctre associeacutee agrave un processus drsquo pouren faciliter chacune des eacutetapes mais aussi comment elle peut ecirctre utiliseacutee comme eacuteleacutement central drsquountel processus en appliquant les meacutethodes de fouille sur son contenu afin de beacuteneacuteficier des connaissancesaussi bien que des donneacutees disponibles

Chapitre 4

Extraction de connaissances dans lecontexte drsquoune Base de Connaissances

Nous avons deacutefini et illustreacute la notion drsquoExtraction de Connaissances guideacutee par les Connaissances

du Domaine () dans le chapitre 2 section 4 Dans ce chapitre nous proposons et expeacuterimentons unemeacutethode drsquo dans laquelle les connaissances du domaine sont utiliseacutees pour guider lrsquoeacutetape de seacutelec-

tion de donneacutees du processus (section 1) Ensuite nous introduisons la notion nouvelle drsquoExtraction deConnaissances agrave partir drsquoune Base de Connaissances () que nous proposons comme une approcheparticuliegravere drsquoExtraction de Connaissances guideacutee par les Connaissances du Domaine (section 2) Nouspreacutesentons une meacutethode particuliegravere drsquo appeleacutee Analyse des Assertions de Rocircles () qui explore lesreacutegulariteacutes existant dans les instanciations des rocircles drsquoune en pour en extraire de nouvelles connais-sances (23) Nous illustrons cette meacutethode par une expeacuterimentation pour la deacutecouverte de connaissancesen pharmacogeacutenomique 24 Enfin la section 3 est une discussion de lrsquoutilisation des connaissances pourla deacutecouverte de connaissances

1 Seacutelection de donneacutees guideacutee par les connaissances du domaine

Dans cette section 1 nous proposons une meacutethode de seacutelection de donneacutees guideacutee par les connais-sances Celle-ci repose sur la deacutefinition de diffeacuterents ensembles de mappings entre des sources de don-neacutees et une Lrsquoapport principal de cette meacutethode est de guider lrsquoanalyste dans la seacutelection de donneacuteesagrave lrsquoaide

ndash de donneacutees disponibles dans un ensemble de sources de donneacutees heacuteteacuterogegravenes connexes au domaineeacutetudieacute

ndash de lrsquoexpressiviteacute des langages de et des meacutecanismes de raisonnement qui leur sont associeacutes

11 Motivation

Les meacutethodes de fouille de donneacutees et plus particuliegraverement les meacutethodes symboliques geacutenegraverentdes reacutesultats volumineux redondants et complexes Il en reacutesulte une phase drsquointerpreacutetation longue etfastidieuse qui limite le succegraves de lrsquoapproche

Ce problegraveme met en avant lrsquoimportance de la premiegravere eacutetape de lrsquo qursquoest la preacuteparation desdonneacutees De cette eacutetape deacutepend la suite du processus depuis le parameacutetrage et le temps de calcul ausuccegraves mecircme de lrsquoextraction de connaissance utiles Dans le cadre de la deacutecouverte de connaissances

103

104 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

en pharmacogeacutenomique Altman et Klein [AK02] soulignent lrsquoimportance du choix de sous-ensemblesde donneacutees parmi la montagne de donneacutees post-geacutenomiques disponibles La reacuteduction des donneacutees agraveprendre en compte pour la fouille a une influence directe sur le volume et la pertinence des reacutesultatsCette reacuteduction est drsquoautant plus cruciale en biologie que les sources de donneacutees sont de plus en plusnombreuses et volumineuses [Bat08]

Reacuteduire la quantiteacute de donneacutees agrave fouiller par une opeacuteration de seacutelection permet de prendre en compteles connaissances (subjectives) des experts avant drsquoeffectuer la fouille (voir chapitre 2 section 123)Lrsquoobjectif drsquoune telle seacutelection est de reacuteduire le temps de calcul et le volume des reacutesultats produits sansen eacuteliminer les eacuteleacutements inteacuteressants ce qui facilite indirectement lrsquointerpreacutetation Il srsquoagit donc drsquoeacutelim-iner progressivement et en accord avec les objectifs de la fouille les eacuteleacutements redondants triviaux etdeacutenueacutes drsquointeacuterecirct Les connaissances alors utiliseacutees le sont habituellement de faccedilon manuelle agrave partir deconnaissances propres agrave lrsquoanalyste et des informations qursquoil peut collecter dans les bases de donneacutees

Lrsquoutilisation de systegravemes empiriques baseacutes sur des meacutethodes statistiques etou drsquoapprentissage est unpremier moyen drsquoassister lrsquoanalyste dans la seacutelection de donneacutees Une vue drsquoensemble de ces meacutethodesest proposeacutee dans [SIL05] ainsi que dans la section 1 du chapitre 2

Dans cette derniegravere section il est question drsquoun second moyen drsquoassister lrsquoanalyste par lrsquoutilisationde connaissances cependant les connaissances utiliseacutees ne sont jamais repreacutesenteacutees dans un formalismequi permette la mise en œuvre de meacutecanismes de raisonnement Ce qui nous inteacuteresse ici est justementlrsquoutilisation de connaissances dans le cadre de systegravemes de seacutelection de donneacutees avec comme objectifde tirer parti des connaissances formaliseacutees dans une en afin de guider agrave la fois le systegraveme (pardes meacutecanismes de raisonnement) et celui qui le pilote Le sceacutenario drsquoextraction de connaissances enbiologie exposeacute ci-apregraves illustre la distinction entre le rocircle des connaissances de lrsquoexpert le contenu debases de donneacutees et lrsquoutilisation drsquoune

variable_clin01 variable_clin m variant01 variant02 variant p

patient01

patient02

patient n

T 41 ndash Forme geacuteneacuterale du jeu de donneacutees eacutetudieacute dans le sceacutenario

Sceacutenario drsquoextraction de connaissancesUn biologiste eacutetudie la pharmacogeacutenomique lieacutee au traitement de lrsquoHypercholesteacuteroleacutemie Familiale (HF)agrave partir de donneacutees biologiques et geacutenomiques pour un panel de patients traiteacutes Le jeu de donneacutees dont

il dispose preacutesente pour chaque patient un ensemble de variables cliniques et plus de 500 geacutenotypes de

variants geacutenomiques localiseacutes sur diffeacuterents gegravenes (Tableau 41)

Pour seacutelectionner un sous-ensemble de donneacutees le biologiste peut utiliser

sa propre connaissance pour seacutelectionner les reacutegions du geacutenome ougrave les variants sont susceptibles de

lrsquointeacuteresser les gegravenes impliqueacutes dans lrsquoHF (LDLR APOE APOB LPL) et plus particuliegraverement

les exons les promoteurs et les reacutegions flanquantes des exons de ces gegravenes Cependant le biolo-

giste est incapable sur la base de sa seule connaissance drsquoassocier aux variants les reacutegions sur

lesquels ils sont situeacutes

le contenu de bases de donneacutees par exemple Genome Browser ou dbSNP lui permettent drsquoidentifier

parmi les variants exploreacutes dans son panel lesquels sont localiseacutes dans les reacutegions qui lrsquoin-

teacuteressent

1 Seacutelection de donneacutees guideacutee par les connaissances du domaine 105

lrsquoutilisation drsquoune Base de Connaissances lui permet potentiellement de savoir que les gegravenes en re-

lation avec la pharmacogeacutenomique de lrsquoHF sont plus nombreux et incluent eacutegalement les gegravenes

MTTP et ESR1 Il peut alors seacutelectionner les variants localiseacutes sur sa nouvelle liste de gegravenes sans

passer par une base de donneacutees Le biologiste peut eacutegalement observer qursquoil existe au sein des

variants des sous-ensembles pertinents les tag-SNP et les variants non-synonymes qursquoil peut

eacutegalement isoler directement gracircce agrave la Il peut seacutelectionner les variants des gegravenes qui codent

pour des proteacuteines impliqueacutees dans les reacuteactions du meacutetabolisme de lrsquoatorvastatine59 ou plus

geacuteneacuteralement du meacutetabolisme drsquoune statine (classe agrave laquelle appartient lrsquoatorvastatine)

Parce qursquoelle integravegre et structure les connaissances du domaine auquelle elle rattache les donneacuteesbrutes qursquoelle utilise un formalisme expressif et parce qursquoelle peut ecirctre associeacutee agrave des meacutecanismes deraisonnement la est un outil preacutecieux pour guider lrsquoanalyste dans un processus semi-automatique deseacutelection de donneacutees

Lrsquoanalyste aussi expert soit-il peut tirer parti de la repreacutesentation des connaissances encyclopeacutediquesdrsquoune ontologie pour orienter ses choix lors de la seacutelection De plus la somme de connaissances disponibleslaisse envisager que des tacircches demandant moins drsquoexpertise (comme par exemple la tacircche de seacutelectionmoins ldquopointuerdquo que la tacircche drsquointerpreacutetation) puissent ecirctre reacutealiseacutee par un analyste dont le niveau drsquoex-pertise est infeacuterieur mais capable de srsquoappuyer sur le reacuteferentiel deacutejagrave existant (ie la )

12 Meacutethode proposeacutee

La meacutethode preacutesenteacutee ici a pour objectif lors de lrsquoeacutetape de preacuteparation dans un processus drsquodrsquoaider lrsquoanalyste agrave seacutelectionner un sous-ensemble pertinent de donneacutees agrave fouiller que lrsquoensemble com-plet Cette approche se veut indeacutependante de la suite du processus et notamment de la meacutethode de fouilleutiliseacutee

Le principe est de permettre agrave lrsquoanalyste de faire cette seacutelection en prenant en compte les connais-sances du domaine formaliseacutees dans une preacutealablement deacuteveloppeacutee Pour cela un mapping entrechaque base de donneacutees consideacutereacutee et la doit ecirctre reacutealiseacute en collaboration avec un expert du domaineLa figure 41 deacutecrit les quatre eacutetapes principales de lrsquoapproche

1 La premiegravere est lrsquoinstanciation de la Celle-ci se fait suivant la meacutethode deacutecrite dans le chapitre 3section 2 ie sur la base de mappings deacutefinis entre les scheacutemas de bases de donneacutees et lrsquoontologieCes mappings sont exploiteacutes par des wrappers qui instancient les concepts et rocircles de lrsquoontologie agravepartir des tuples des bases de donneacutees consideacutereacutees Cette phase peut neacutecessiter diverses opeacuterationsde nettoyage et de transformation des donneacutees

2 La deuxiegraveme eacutetape consiste en la deacutefinition drsquoun jeu de donneacutee initial ensemble de donneacutees extraitdrsquoune ou plusieurs bases de donneacutees qui constite lrsquoensemble initial de donneacutees agrave analyser

3 Lrsquoeacutetape suivante est la deacutefinition drsquoun mapping entre la et le jeu de donneacutee initial Ce mappingnrsquoest pas deacutefini manuellement mais est deacuteduit des deux premiegraveres eacutetapes Son objectif est de per-mettre la reacutepercussion drsquoune seacutelection drsquoindividus dans la en une reacuteduction en largeur (ie dunombre drsquoattributs) ou en longueur (ie des tuples) du jeu de donneacutees initial

4 La derniegravere eacutetape est la seacutelection par lrsquoanalyste drsquoun ensemble drsquoindividus de la menant ainsiagrave la reacuteduction du jeu de donneacutee initial en un jeu de donneacutees reacuteduit Lrsquoanalyste ne seacutelectionne pasdirectement des donneacutees mais des individus de la agrave lrsquoaide du contenu des TBox et ABox Il estensuite possible gracircce au mapping preacuteceacutedent de faire correspondre agrave la seacutelection drsquoindividus uneseacutelection de donneacutees

59Lrsquoatorvastatine est un meacutedicament de la classe des statines preacutescrit notamment pour preacutevenir la survenue drsquoaccidentscardio-vasculaires

106 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

F 41 ndash Description geacuteneacuterale de la meacutethode de seacutelection de donneacutees guideacutee par les connaissances

Finalement le jeu de donneacutees reacuteduit peut ecirctre soumis aux eacutetapes suivantes de lrsquo la fouille etlrsquointerpreacutetation Les quatre eacutetapes de la meacutethode de seacutelection proposeacutee sont deacutetailleacutees dans la suite decette section Celles-ci font notamment intervenir trois mappings positionneacutes Figure 42

121 Instanciation de la

La premiegravere eacutetape drsquoinstanciation de la suit la meacutethode drsquointeacutegration guideacutee par une ontologieproposeacutee chapitre 3 section 2

Pour chaque base de donneacutees consideacutereacutee en entreacutee du processus drsquo un mapping entre le scheacutemade la base de donneacutees et les concepts rocircles et individus de lrsquoontologie doit ecirctre deacutefini par un expert dudomaine Ce mapping suit la deacutefinition 31 du mapping donneacutees-assertionsMdminusa deacutecrit dans le chapitre3

Il reacutesulte de ce processus une instancieacutee agrave partir des donneacutees des bases de donneacutees consideacutereacutees

122 Deacutefinition du jeu de donneacutees initial

Le jeu de donneacutees initial est deacutefini comme un ensemble de n-uplets suivant une relation n-aire uniqueRinit(B1 B2 Bm) Les attributs Bi de Rinit peuvent ecirctre issus de diffeacuterentes bases de donneacutees crsquoestpourquoi la deacutefinition du jeu de donneacutees initial neacutecessite la deacutefinition drsquoun mapping entre les scheacutemasdes bases de donneacutees consideacutereacutees pour lrsquo et la relation du jeu de donneacutees initial

Deacutefinition 41 (Mapping donneacutees ndash donneacutees) Soit un quadruplet (SMdminusdHRinit) ougrave

ndash S est le scheacutema drsquoune base de donneacutees ie un ensemble de relations n-aires de la forme R(A1 A2

An) et de domainenprod

i=1Di tels que Ai est lrsquoattribut drsquoindice i et de domaine Di

ndash Rinit est la relation n-aire unique qui deacutecrit le jeu de donneacutees initial Rinit(B1 B2 Bm)

1 Seacutelection de donneacutees guideacutee par les connaissances du domaine 107

ndash Mdminusd est une association entre les donneacutees de la base de donneacutees de scheacutema S et les donneacutees du

jeu de donneacutee initial structureacutees selon son unique relation Rinit

Φ Υ (41)

ougrave Φ est une requecircte relationnelle arbitraire sur la base de donneacutees de scheacutema S et Υ est un

ensemble drsquoinsertions de tuples dans la relation unique Rinit du jeu de donneacutees initial

ndash Enfin H un ensemble de fonctions de la forme hi(v) applicables aux diffeacuterentes valeurs reacutesultant

des requecirctes Φ pour les transformer dans le format de valeurs adeacutequat agrave leur insertion dans Rinit

deacutecrit dans Υ

Exemple Soit deux relations Rclinique et Rgenetique issues de deux bases de donneacutees dont on souhaiteextraire une partie des donneacutees pour constituer le jeu de donneacutees initial qui suit la relation Rinit

Rclinique (Patient_id Age LDL_c HDL_c TG_c xanthome arc_corneen)Rgenetique (Patient_id rs28942078 rs28942079 rs28942080)

Rinit (Patient_id LDL_c_mgl xanthome rs28942076 rs28942078 rs28942079 rs28942080 rs28942081 rs28942082rs28942083 rs28942084 rs28942085)

Deux exemples de mappings possiblesMdminusd associent une requecircte SQL sur Rclinique ou Rgenetique agraveune insertion dans Rinit

Mdminusd 1 SELECT Patient_id LDL_c INSERT INTO Rinit(Patient_id LDL_c_mgl xanthome)xanthome VALUES (h1(Patient_id) h2(LDL_c) h3(xanthome))

FROM Rclinique

WHERE Age ge 18

Mdminusd 2 SELECT Patient_id rs28942078 INSERT INTO Rinit(Patient_id rs28942078 rs28942079rs28942079 rs28942080 rs28942080)

FROM Rgenetique VALUES (h1(Patient_id) h4(rs28942078)h4(rs28942079) h4(rs28942080))

Un tel mapping preacutesente lrsquoavantage de permettre de deacutefinir un jeu de donneacutees initial agrave partir dedonneacutees issues de diffeacuterentes bases et de permettre leur transformation Le mapping Mdminusd 1 met enœuvre une transformation de donneacutees entre autres par lrsquoutilisation de la fonction gprime qui transforme lesvaleurs de concentration en LDL cholesteacuterol circulant en mollminus1 ie lrsquoattribut LDL_c en valeurs de lamecircme mesure mais avec une uniteacute diffeacuterente le mglminus1 ie lrsquoattribut LDL_c_mgl

Lrsquoensemble des mappings Mdminusd impliquant les bases de donneacutees consideacutereacutees dans le processusdrsquo permet de constituer le jeu de donneacutees initial Celui-ci peut ecirctre vu comme un tableau dont lescolonnes seraient les attributs et les lignes seraient les n-uplets de la relation Rinit En suivant lrsquoexemplepreacuteceacutedent ce tableau est conforme agrave la forme geacuteneacuterale proposeacutee dans le Tableau 41

R Pour ecirctre tout agrave fait complet dans la description de la seacutelection de donneacutees il faut noterlrsquoexistence drsquoune premiegravere eacutetape de seacutelection preacutealable agrave lrsquoapproche que nous deacutecrivons Celle-ci con-siste dans le choix des bases de donneacutees agrave consideacuterer pour lrsquo Nous ne la discutons pas dans cetravail

108 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

123 Mapping entre la et le jeu de donneacutees initial

Les deux premiers mappings entre donneacutees et assertions puis entre donneacutees et donneacutees permettent dedeacuteduire un mapping entre les donneacutees du jeu de donneacutees initial et les individus de lrsquoontologie Lrsquoinversionde ce mapping fournit une correspondance entre certains individus de la et lrsquoensemble des attributs etn-uplets du jeu de donneacutees initial

Lrsquoeacutetablissement du mapping entre la et le jeu de donneacutees srsquoappuie sur le fait que le jeu de don-neacutees initial est constitueacute agrave partir de sous-ensembles de donneacutees qui ont servi agrave instancier la Drsquounemaniegravere informelle la deacuteduction du mapping suit les phases suivantes dans un premier temps le map-ping donneacuteesndashassertionsMdminusa geacuteneacuteral est reacuteduit aux seules donneacutees du jeu de donneacutees initial ensuitedepuis le mapping reacuteduit sont extraites des associations entre attributs du jeu de donneacutees et individusde la Ces associations sont finalement inverseacutees sous forme de relations entre individus et attributsSi un individu est associeacute agrave lrsquoattribut cleacute du jeu de donneacutees lrsquoassociation individu-attribut est eacutetendue agravelrsquoensemble du tuple

Ces phases peuvent ecirctre formaliseacutees selon les deacutefinitions suivantes

Deacutefinition 42 (Mapping donneacutees ndash assertions indirect) A partir des deux quadruplets (SMdminusa FO)et (SMdminusdHRinit) suivant les deacutefinitions 31 et 41 nous deacutefinissons le quintuplet intermeacutediaire

(RinitMdminusa FHO)

ougrave

ndash Mdminusa est lrsquoassociation entre les donneacutees du jeu de donneacutees initial et un ensemble drsquoassertions de

lrsquoontologie O

Φ Ψ

ougrave Φ est une requecircte relationnelle arbitraire sur la relation Rinit etΨ est un ensemble drsquoassertions

de concepts et drsquoassertions de rocircles de lrsquoontologie O

ndash Enfin un ensemble de fonctions composeacutees agrave partir des ensembles H et F de la forme fi(hminus1j

(v))applicables aux diffeacuterents types de valeurs v reacutesultant des requecirctes Φ sur le jeu de donneacutees initial

pour les transformer en noms drsquoindividus dans Ψ h j(v) est une fonction de transformation des

valeurs v issues des bases de donneacutees consideacutereacutees en leur format dans le jeu de donneacutee initial

(voir deacutefinition 41) hminus1j

(v) est lrsquoinverse de cette fonction fi(v) est une fonction de transformation

des valeurs v reacuteponses de Φ en noms drsquoindividus (voir deacutefinition 31)

Deacutefinition 43 (Mapping donneacutees ndash individus) Soit (RinitMdminusi FHO) un autre quintuplet suivant la

deacutefinition 42 avecMdminusi un mapping extrait deMdminusa qui est deacutefini comme un ensemble drsquoassociations

1 n entre un attribut Bi de la relation Rinit du jeu de donneacutees initial et un ou plusieurs individus a j de O

Bi a j

Les attributs Bi peuvent ecirctre indiffeacuteremment des cleacutes de la relation Rinit ou non

La deacutefinition de ce mapping permet que chaque n-uplet (ie chaque cleacute) et que chaque attribut du jeude donneacutees initial soit associeacute agrave un ou plusieurs individus de la

Deacutefinition 44 (Mapping individus ndash donneacutees) Selon la deacutefinition 43 du quintuplet (RinitMdminusi FHO)nous deacutefinissons le quintuplet (RinitMiminusd FHO) ougrave

1 Seacutelection de donneacutees guideacutee par les connaissances du domaine 109

ndash Miminusd inverse deMdminusi (Mdminusi =Mminus1iminusd

) est un ensemble drsquoassociations binaires bijectives (1 1)

entre un individu de la et un attribut Bi du jeu de donneacutees initial

a Bi

Bi peut ecirctre une cleacute de la relation Rinit

Exemple Une partie du mapping Mdminusi deacuteduit entre Rinit (voir lrsquoexemple de la section 122) et lrsquoon-tologie SNP-Ontology est

Patient_id f1 (hminus11 (Patient_id)) = patient_id

LDL_c_mgl f2 (hminus12 (LDL_c_mgl)) = f2 hminus1

2 (LDL_c_mgl)) = f2 (LDL_c) = ldl_c_mol_lxanthome f3 (hminus1

3 (xanthome)) = xanthome

rs28942076 f4 (hminus14 (rs28942076)) = rs28942076_01

Si lrsquoon observe le mapping proposeacute pour lrsquoattribut LDL_c il faut drsquoabord rappeler que lrsquoattribut LDL_c de larelation Rclinique avait eacuteteacute transformeacute par la fonction h2 en LDL_c_mgl dans Rinit hminus1

2 assure ainsi la premiegraveretransformation inverse pour retrouver le format originel de lrsquoattribut LDL_c Ensuite la fonction g permetde transformer les valeurs de lrsquoattribut en noms drsquoindividus dans la ie ldl_c_mol_l

La partie correspondante du mapping inverseMiminusd entre individus et attributs est simplement

patient_id Patient_id

ldl_c_mol_l LDL_c_mgl = h2 f minus12 (ldl_c_mol_l)

xanthome xanthome

rs28942076_01 rs28942076

La Figure 42 positionne les mappingsMdminusaMdminusdMiminusd deacutefinis pour la seacutelection drsquoun jeu de don-neacutees guideacutee par les connaissances du domaine ainsi que la forme des fonctions utiliseacutees pour transformerles valeurs drsquoattributs en nom drsquoindividus

124 Seacutelection drsquoindividus et reacuteduction du jeu de donneacutees initial

La reacuteduction du jeu de donneacutees initial repose sur une seacutelection reacutealiseacutee par lrsquoanalyste drsquoindividusde la Pour cela lrsquoanalyste deacutecrit un concept C0 agrave partir des concepts et des rocircles de lrsquoontologie Leconcept C0 peut ainsi ecirctre explicitement deacutefini dans lrsquoontologie ou correspondre agrave la description drsquounnouveau concept (impliquant connecteurs logiques concepts rocircles et individus) ou mecircme le concept ⊤Le meacutecanisme de raisonnement de recherche drsquoinstances (instance retrieval en anglais) permet ensuitedrsquoindiquer quels sont les individus instances de C0

Deacutefinition 45 (A0) SoitA0 lrsquoensemble des individus a instances de C0 tels que

a isin A0 si O C0(a) (42)

Les technologies du Web seacutemantique proposent diffeacuterents langages de requecircte qui permettent de retrouverles individus instances drsquoun concept drsquoune ontologie comme par exemple SPARQL

Crsquoest lorsqursquoil seacutelectionne ainsi des individus dans la que lrsquoanalyste peut beacuteneacuteficier des connais-sances formaliseacutees dans lrsquoontologie

110 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

F 42 ndash Positionnement et relations des trois mappings Mdminusa Mdminusd et Miminusd Les mappings Mdminusa

sont deacutefinis entre un scheacutema de bases de donneacutees et la Base de Connaissance Les mappingMdminusd sontdeacutefinis entre les scheacutemas des bases de donneacutees et la relation du jeu de donneacutees intial Le mappingMiminusd

est deacuteduit des deux preacuteceacutedents Les fonctions symboliques associeacutees aux mappings sont repreacutesenteacutees Laforme geacuteneacuterale des fonctions associeacutees au mappingMiminusd est la composition de lrsquoinverse de fi et de h j

ndash Lrsquoanalyste peut utiliser la hieacuterarchie de concepts pour seacutelectionner un ensemble drsquoindividus in-stances drsquoun concept plus ou moins speacutecifique La seacutelection progressive de concepts de plus enplus speacutecifiques au fur et agrave mesure des diffeacuterentes iteacuterations du processus permet de circonscrireun type drsquoindividu afin drsquoen eacutetudier les proprieacuteteacutes propres A lrsquoinverse il est possible de seacutelection-ner des concepts de plus en plus geacuteneacuteraux afin de valider la geacuteneacuteraliteacute drsquoune proprieacuteteacute mise eneacutevidence sur un ensemble restreint drsquoindividus

ndash Lrsquoanalyste peut utiliser les rocircles et les restrictions associeacutees pour seacutelectionner des individus preacutesen-tant des proprieacuteteacutes particuliegraveres

Une fois les individus seacutelectionneacutes le jeu de donneacutees peut ecirctre reacuteduit agrave lrsquoaide de A0 et du mappingindividu-donneacuteesMiminusd selon les regravegles deacutefinies comme suit

Deacutefinition 46 (Regravegles de reacuteduction) Soit Bi un attribut drsquoune relation Rinit a un individu drsquoune ontolo-

gie O le quintuplet (RinitMiminusd FHO) comme donneacute dans la deacutefinition 44 et un ensemble drsquoindividus

A0 instances drsquoun concept C0 Si

a Bi isin Miminusd

a lt A0 et

Bi cle de Rinit

(43)

alors le n-uplet dont Bi est la cleacute est supprimeacute du jeu de donneacutees initial

De faccedilon similaire si

a Bi isin Miminusd

a lt A0 et

Bi non cle de Rinit

(44)

alors lrsquoattribut Bi est supprimeacute du jeu de donneacutees initial

En fonction du type drsquoindividus seacutelectionneacutes le jeu de donneacutees est reacuteduit selon une dimension ou uneautre

1 Seacutelection de donneacutees guideacutee par les connaissances du domaine 111

Exemple Si le concept initial C0 est deacutefini par lrsquoanalyste comme suit

C0 equiv administrative_item ⊔ phenotype_item

pour les quatres individus impliqueacutes dans le mappingMiminusd proposeacute dans lrsquoexemple preacuteceacutedent les meacute-canismes de raisonnement sur SNP-Ontology donne les reacutesultats suivant

SNP-Ontology C0(patient_id)SNP-Ontology C0(ldl_c_mol_l)SNP-Ontology C0(xanthome)SNP-Ontology 2 C0(rs28942076_01)

alorspatient_id ldl_c_mol_l xanthome isin A0

rs28942076_01 lt A0

et si lrsquoon considegravere lrsquoensemble desMdminusiA0 et Rinit qui deacuteteacutermine les regravegles de reacuteduction seul lrsquoindividurs28942076_01 est inclu dans le mapping mais pas dans la seacutelection drsquoinstance

rs28942076_01 rs28942076 isin Miminusd

rs28942076_01 lt A0 et

rs28942076 non cle de Rinit

En conseacutequence lrsquoattribut rs28942076 de Rinit est supprimeacute En revanche les attributs Patient_id LDL_c_mglxanthome sont conserveacutes pour constituer une nouvelle relation Rreduit Les autres attributs de Rinit relatif augeacutenotype sont eacutegalement supprimeacutes de la relation du jeu de donneacutees initial Au final la transistion entreRinit et le schema Rreduit du jeu de donneacutee reacuteduit est

Rinit (Patient_id LDL_c_mgl xanthome rs28942076 rs28942078 rs28942079 rs28942080 rs28942081 rs28942082rs28942083 rs28942084 rs28942085)

darr

Rreduit (Patient_id LDL_c_mgl xanthome)

Les sceacutenarios preacutesenteacutes dans la section 13 illustrent lrsquoutilisation par un biologiste des connaissances dudomaine pour reacuteduire en limitant la perte drsquoinformation le nombre de n-uplets ou drsquoattributs dans le jeude donneacutees initial

13 Expeacuterimentation pour la deacutecouverte de relations geacutenotypendashpheacutenotype

131 Motivation

Nous preacutesentons dans cette section des sceacutenarios drsquoutilisation de notre approche de seacutelection dedonneacutees guideacutee par les connaissances pour la recherche de relations geacutenotypendashpheacutenotype introduiteschapitre 1 section 13

Lrsquoapproche que nous proposons pour guider lrsquoanalyste dans sa seacutelection de donneacutees vise agrave srsquoappuyerde faccedilon semi-automatique sur les connaissances disponibles du domaine Ceci se justifie pleinement enbiologie ougrave de plus en plus drsquoontologies sont construites et rendues disponibles sur Internet comme surles portails OBO Foundry et Bioportal eacutevoqueacutes chapitre 2 section 34

Afin drsquoalleacuteger la lecture les mappings deacutefinis pour cette expeacuterimentation et ayant donneacute lieu audeacuteveloppement de wrappers ne sont pas repreacutesenteacutes Cependant des exemples de ces mappings ont eacuteteacuteproposeacutes dans la section preacuteceacutedente (section 12)

112 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

F 43 ndash Approche pour la seacutelection de donneacutees (Figure 41) utiliseacutee pour lrsquoexpeacuterimentation ie larecherche de relations geacutenotypendashpheacutenotype lieacutees agrave lrsquoHF

132 Hypercholesteroleacutemie Familiale sources de donneacutees et de connaissances

Notre expeacuterimentation srsquoinscrit dans le cadre de la recherche de nouvelles connaissances relatives agravelrsquohypercholesteacuteroleacutemie familiale (HF) LrsquoHF est un deacutesordre meacutetabolique drsquoorigine geacuteneacutetique autosomaldominant causeacute par diffeacuterentes mutations du gegravene LDLR [BDdG94] Elle est caracteacuteriseacutee principalementpar une augmentation importante de la concentration en cholesteacuterol LDL (Low Density Lipoprotein) dansle sang

Lrsquoobjectif du processus drsquo mis en oeuvre ici est drsquoextraire des relations entre des variants

geacutenomiques (ie le geacutenotype) et des traits pheacutenotypiques (ie le pheacutenotype) Des relations drsquointeacuterecirct sontpar exemple celles qui impliquent des variants geacutenomiques modulateurs ie un variant (ou un groupe devariants) qui a(ont) un effet modulateur sur la graviteacute de la pathologie eacutetudieacutee (lrsquoHF par exemple) ou surun symptocircme lieacute agrave celle-ci

Par exemple il existe diffeacuterents niveaux de seacuteveacuteriteacute de lrsquoHF qui sont fonctions de lrsquoallegravele observeacutepour deux variants geacutenomiques du gegravene APOE (rs7412 et rs429358) [NBS+06] Ces variants modula-teurs preacutesentent un inteacuterecirct particulier en pharmacogeacutenomique puisqursquoils sont souvent impliqueacutes dans lamodulation du meacutetabolisme et de lrsquoeffet des meacutedicaments [GBe07]

Les sources de donneacutees exploreacutees dans le cadre de cette expeacuterimentation ont deux origines dif-feacuterentes (i) deux jeux de donneacutees priveacutes reacutesultats drsquoinvestigations cliniques relatives agrave lrsquoHF (ii) desbases de donneacutees publiques (dbSNP HapMap OMIM PharmGKB et des bases de donneacutees ldquoLocus Speacute-cifiquesrdquo60) dont certaines parties ont eacuteteacute utiliseacutees pour instancier la SNP-Ontology Cette instanciationsuit lrsquoapproche deacutecrite dans la section 121 La Figure 43 deacutecrit la meacutethode (comme la Figure 41) dansle cas preacutecis de la recherche de relations geacutenotypendashpheacutenotype lieacutees agrave lrsquoHF

De lrsquoensemble des sources de donneacutees consideacutereacutees est extrait un jeu de donneacutees initial appeleacute HFinitial

constitueacute de 125 n-uplets correspondant agrave 125 patients impliqueacutes dans une eacutetude clinique lieacutee agrave lrsquoHF et

60The WayStation http wwwcentralmutationsorg

1 Seacutelection de donneacutees guideacutee par les connaissances du domaine 113

de 304 attributs relatifs au geacutenotype (292304) et au pheacutenotype (12304) des patientsLe jeu de donneacutees HFinitial implique (α) des patients atteints drsquoune hypercholesteacuteroleacutemie drsquoorigine geacuteneacutetique (ie lrsquoHF)(β) des patients atteints drsquoune hypercholesteacuteroleacutemie drsquoorigine non-geacuteneacutetique et(γ) des patients sainsLa majoriteacute des attributs geacuteneacutetiques (289293) provient du geacutenotypage (ie les allegraveles porteacutes) de

chaque patient pour les variations geacutenomiques du gegravene LDLR exploreacutees Un exemple drsquoattribut geacuteneacutetiquede ce type sont les allegraveles observeacutes pour la variation situeacutee agrave la position Chr19 11085058 (eg AA) Lesattributs relatifs au pheacutenotype deacutecrivent les variables habituellement observeacutees ou mesureacutees dans le cadrede lrsquoexploration du meacutetabolisme des lipides par exemple la concentration en cholesteacuterol LDL circulant(eg [LDL]c=3glminus1) ou la preacutesenceabsence de xanthome61 chez le patient

133 Meacutethodes de fouille

Pour eacutevaluer la quantiteacute de reacutesultats de fouille de donneacutees dans le cadre de cette expeacuterimentationnous utilisons deux meacutethodes de fouille de donneacutees

ndash lrsquoextraction des motifs freacutequents preacutesenteacutee dans la section 132 du chapitre 2ndash la classification hieacuterarchique non superviseacutee COBWEB [Fis87]La premiegravere meacutethode produit des motifs freacutequents (MF) agrave partir desquels peuvent ecirctre isoleacutes des sous

ensembles de motifs non-redondants les motifs fermeacutes freacutequents (MFF) Nous utilisons le nombre demotifs produits pour donner une estimation de la quantiteacute de reacutesultats agrave interpreacuteter et le ratio du nombrede MF sur celui de MFF ( |MF|

|MFF|) pour donner une estimation de la redondance des reacutesulats

COBWEB produit un ensemble de clusters organiseacutes selon une hieacuterarchie Le nombre de clustersnous sert drsquoindice pour juger de la complexiteacute des reacutesultats

134 Seacutelection progressive de variants speacutecifiques ndash guideacutee par la subsomption

Le premier sceacutenario srsquoappuie sur lrsquohypothegravese que des relations geacutenotypendashpheacutenotype pertinentes peu-vent ecirctre plus facilement extraites drsquoun sous-ensemble de donneacutees ne contenant que les variants codants62

ou les variants des domaines proteacuteiques conserveacutes63 Selon notre approche ce genre de seacutelection reacutesultede la seacutelection dans lrsquoontologie SNP-Ontology des individus instances du concept le plus speacutecifique quicorrespond au type de variant choisi Cette seacutelection peut se faire par une navigation progressive dans lahieacuterarchie de lrsquoontologie en suivant les relations de subsomption Le Tableau 42 illustre une seacutelectionsuccessive (au cours de diffeacuterentes iteacuterations du processus drsquoECBD) des individus instances du conceptvariant puis de ses sous-concepts les plus speacutecifiques successivement variant puis coding_variant etenfin conserved_domain_variant La seacutelection progressive drsquoun nombre deacutecroissant drsquoindividus se reacuteper-cute en une diminution du nombre des attributs dans HFinitial respectivement 289 231 et 126 attributsLes attributs relatifs aux variants non-codants sont eacutelimineacutes dans un premier temps puis sont eacutecarteacutes lesvariants codants localiseacutes hors des reacutegions correspondant aux domaines proteacuteiques conserveacutes

En pratique la seacutelection de classes plus ou moins speacutecifiques en suivant lrsquoorganisation hieacuterarchiqueproposeacutee par lrsquoontologie se fait par lrsquointermeacutediaire drsquoune partie drsquoun plug-in de Proteacutegeacute 4 que nous avonsdeacuteveloppeacute et dont lrsquointerface graphique est repreacutesenteacutee en Annexe G

Les conseacutequences que peut avoir la reacuteduction du jeu de donneacutees sur la quantiteacute et la significativiteacute desreacutesultats bruts de la fouille de donneacutees sont illustreacutees dans le Tableau 42 Pour cela les diffeacuterents jeuxde donneacutees reacuteduits obtenus ont eacuteteacute soumis aux deux meacutethodes de fouille de donneacutees utiliseacutes pour eacutevaluer

61Un xanthome est une tumeur beacutenigne cutaneacutee souvent signe drsquoune anomalie des lipides62Localiseacutes dans les reacutegions codantes pour ecirctre preacutecis63Dont les conseacutequences proteacuteiques se localisent dans des domaines conserveacutes pour ecirctre preacutecis

114 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

C0 variant coding_variant conserved_domain_variant tag_snp

Nombre drsquoattributs 289 231 126 198

() 6928 (255) 314 (24) 304 (12) 300 (28)ratio 2717 1308 2533 1071

Clusters 194 186 56 40

T 42 ndash Caracteacuterisation quantitative des reacutesultats bruts de fouille de donneacutees en fonction du nombredrsquoattribut seacutelectionneacutes

la quantiteacute de reacutesultats produits lrsquoextraction des motifs freacutequents (avec lrsquoalgorithme Zart [SNK07]) etCOBWEB (avec lrsquoalgorithme implanteacute dans Weka64) Quand tous les variants sont consideacutereacutes (colonnevariant du Tableau 42) le nombre total de motifs freacutequents () est de 6928 et le nombre de clusters deCOBWEB est 194 Dans leur eacutetat brut ces reacutesultats de fouille sont complexes agrave interpreacuteter Le nombrede variables impliqueacutees est important et il nrsquoy a pas excepteacute leur nom drsquoinformations contextuelles a

priori qui permettent de les diffeacuterencier Par exemple les variants codants ne peuvent pas ecirctre distingueacutesdes non-codants

La quantiteacute de reacutesultats de fouille de donneacutees diminue progressivement lorsque moins drsquoindividusdonc moins drsquoattributs sont seacutelectionneacutes (colonnes coding_variant et conserved_domain_variant) Ainsile nombre de passe de 6928 agrave 304 et le nombre de clusters de 194 agrave 56

Lrsquoorganisation hieacuterarchique mateacuterialiseacutee par la relation de subsomption est une des connaissancesdu domaine qui peut ecirctre utiliseacutee pour reacuteduire le volume du jeu de donneacutees agrave fouiller Cependant unetelle seacutelection oblige agrave un compromis sur le type de variants agrave inclure dans lrsquoeacutetude

135 Unification des variants agrave lrsquoaide des Tag-SNP ndash guideacutee par les rocircles et la compostion de rocircles

Les reacutesultats de la fouille du jeu de donneacutees HFinitial preacutesentent un proportion importante de triviaux ou redondants Ceci est ducirc en partie au fait que certains variants du jeu de donneacutees appartiennentaux mecircmes haplotypes Comme deacutecrit dans la section 24 du chapitre 1 un haplotype deacutesigne un groupede variants transmis conjointement et de faccedilon homogegravene agrave travers les geacuteneacuterations Il est possible drsquoi-dentifier au sein des haplotypes un ensemble minimal de variants appeleacutees Tag-SNP dont lrsquoobservationsuffit agrave preacutedire lrsquoallegravele preacutesenteacute par les autres variants de lrsquohaplotype Reacuteduire un ensemble de variantsmembres drsquoun haplotype agrave ses tag-SNP permet de reacuteduire les relations qui traduisent la deacutependance entreces variants et ainsi reacuteduit la redondance des reacutesultats

La Figure 44 montre un haplotype et sa repreacutesentation dans lrsquoontologie SNP-Ontology Cet haplo-type est composeacute des variants rs_001 rs_002 rs_003 et rs_004 et peut ecirctre remplaceacute par son uniquetag-SNP rs_004 La description drsquoun haplotype (ici le NA01234) met en lumiegravere lrsquoexistence drsquounedeacutependance fonctionnelle entre un (ou plusieurs) tag-SNP (rs_004) et les autres membres de lrsquohaplo-type (rs_001 rs_002 rs_003) Cette deacutependance est repreacutesenteacutee dans la SNP-Ontology comme suit

rs_001 rs_002 rs_003 ≔ exist isHaplotypeMemberO f haplotype_NA01234 ⊓exist isHaplotypeMemberO f isTaggedBy rs_004

64http wwwcswaikatoacnzmlweka

1 Seacutelection de donneacutees guideacutee par les connaissances du domaine 115

F 44 ndash Concepts de SNP-Ontology instancieacutes par des individus repreacutesentant des variationsgeacutenomiques (rs_001 rs_002 rs_003 et rs_004) et un haplotype (NA_01234) Leacutegende les ovales pleinssont des concepts les ovales en tirets sont des individus la ligne pleine est une relation de subsomptionles lignes en tirets ronds sont des rocircles les lignes en tirets plats sont des assertions

et inversementrs_004 ≔ exist tags haplotype_NA01234 ⊓

exist tags containsVariants rs_001 ⊓exist tags containsVariants rs_002 ⊓exist tags containsVariants rs_003

Lrsquoontologie contient lrsquoensemble des descriptions des haplotypes des gegravenes geacutenotypeacutes pour la pop-ulation eacutetudieacutee dans lrsquoeacutetude HFinitial Les connaissances sur les haplotypes sont inteacutegreacutees agrave lrsquoontologielors de la phase drsquoinstanciation de notre approche agrave partir des donneacutees du projet HapMap et de donneacuteesissues du logiciel Haploview [Con03 BFMD05]

Le concept de tag-SNP est explicitement deacutecrit dans SNP-Ontology de la faccedilon suivante

tag_snp equiv exist tags containsVariantVariant (45)

Ainsi en limitant la deacutefinition du concept C0 agrave la deacutefinition des tag-SNP (ie C0 equiv tag_snp) lrsquoanalysteentraicircne la suppression au sein du jeu de donneacutees des attributs qui ne concernent pas des tag-SNP Suiv-ant notre exemple baseacute sur lrsquohaplotype NA01234 ceci revient finalement agrave la suppression des colonnesrs_001 rs_002 et rs_003 du jeu de donneacutee HFinitial Au niveau de lrsquoensemble du jeu de donneacutees HFinitialle Tableau 42 montre qursquoune telle seacutelection reacuteduit le nombre drsquoattributs (289 agrave 198) et diminue consid-eacuterablement la quantiteacute de reacutesultats produits par les deux meacutethodes de fouille La reacuteduction des reacutesultatsde fouille est due premiegraverement agrave la reacuteduction du nombre drsquoattributs et deuxiegravemement agrave la reacuteductiondu nombre drsquoassociations lieacutees agrave la deacutependance fonctionnelle (ie la co-segreacutegation) entre les variantsdrsquoun mecircme haplotype Le ratio |||| donne une ideacutee de la redondance65 qui existe au sein des motifsextraits lors de lrsquoextraction de motifs freacutequents et indique ainsi que la redondance entre les diminuelorsque le jeu de donneacutees est reacuteduit en utilisant les tag-SNP

R Les haplotypes sont des constructions statistiques dont la preacutecision est deacutependante delrsquoeacutechantillon drsquoindividus utiliseacute La reacuteduction du jeu de donneacutees sur la base de la composition des haplo-types souffre donc du mecircme biais

65Un motif est drsquoautant plus redondant qursquoil retrouveacute comme sous-motif drsquoun grand nombre drsquoautres motifs

116 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

136 Seacutelection de patients ndash guideacutee par la deacutefinition de concepts

Les deux premiers sceacutenarios visaient agrave reacuteduire le nombre drsquoattributs (relatifs au geacutenotypage de vari-ants geacutenomiques) Le troisiegraveme sceacutenario deacutecrit dans cette section illustre quant agrave lui la reacuteduction dunombre de n-uplets (ie de patients) du jeu de donneacutees HFinitial Pour ce faire lrsquoanalyste seacutelectionnedes individus instances des concepts deacutecrits non plus dans lrsquoontologie SNP-Ontology mais deacutecrit dansSO-Pharm dont la SNP-Ontology ne constitue qursquoune partie (voir chapitre 3 section 13)

Les concepts rocircles et individus de SO-Pharm permettent de deacutecrire de nouveaux concepts qui peu-vent preacutesenter un inteacuterecirct particulier dans le cadre de lrsquoexploration de lrsquoHF Le jeu de donneacutees regroupenotamment trois classes diffeacuterentes de patients (α β et γ) qui ne sont pas initialement repreacutesenteacutees dansSO-Pharm mais qursquoil est inteacuteressant de regrouper dans le cadre de lrsquoeacutetude afin drsquoen explorer les pro-prieacuteteacutes caracteacuteristiques et discriminantes Pour cela lrsquoanalyste peut utiliser SO-Pharm et les individuscreacuteeacutes lors de lrsquoeacutetape drsquoinstanciation pour deacutefinir le concept C0 correspondant agrave la classe de patients qursquoilveut eacutetudier

patients α C0 equiv patient ⊓

exist hasGenotypeItem LDLR_mutation

patients β C0 equiv patient ⊓

exist hasGenotypeItem no_LDLR_mutation ⊓

exist hasPhenotypeItem high_LDL_in_blood

patients γ C0 equiv patient ⊓

exist hasGenotypeItem no_LDLR_mutation ⊓

exist hasPhenotypeItem normal_LDL_in_blood

Lrsquoutilisation du meacutecanisme de recherche drsquoinstances permet de deacuteterminer quelles sont les instancesdu concept C0 Selon lrsquoapproche deacutecrite cela a se reacutepercute au niveau des donneacutees qui vont ecirctre reacuteduitesagrave un sous-ensemble de n-uplets qui partagent un attribut en commun ou qui appartiennent agrave une mecircmeclasse de patients Lrsquointeacuterecirct principal de cette reacuteduction est qursquoelle peut se faire agrave lrsquoaide drsquoattributs ou declasses qui ne sont pas preacutesents dans le jeu de donneacutees initial HFinitial mais qui sont repreacutesenteacutees danslrsquoontologie SO-Pharm

En pratique la deacutefinition de C0 srsquoeffectue de la mecircme maniegravere que dans le premier sceacutenario gracircce agravelrsquoutilisation drsquoun plug-in de Proteacutegeacute 4 (voir Annexe G)

14 Bilan

Nous avons preacutesenteacute dans cette section une meacutethode de seacutelection de donneacutees qui moyennant ladeacutefinition par lrsquoanalyste drsquoun ensemble de mappings adeacutequats lui permet de beacuteneacuteficier du contenu de la pour reacuteduire intelligemment un jeu de donneacutee initial avant la fouille

La proposition deacutecrite dans cette section pour guider la seacutelection de donneacutees agrave lrsquoaide des connais-sances du domaine et son illustration par des sceacutenarios de recherche de relations geacutenotypendashpheacutenotypeont eacuteteacute publieacutees dans le journal BMC Bioinformatics [CSTB+08]

Dans lrsquoideacutee drsquoaller plus loin dans lrsquoutilisation des connaissances disponibles pour lrsquoextraction de con-naissances la section suivante preacutesente une approche inteacutegreacutee drsquoExtraction de Connaissance agrave partir deBase de Connaissance () ougrave lrsquoensemble du processus drsquo est revisiteacute en preacutesence drsquoune Cetteapproche preacutesente en outre lrsquoavantage drsquoalleacuteger le travail de lrsquoanalyste en nrsquoexigeant que la deacutefinition

1 Seacutelection de donneacutees guideacutee par les connaissances du domaine 117

des mappings donneacuteesndashassertions (Mdminusa) neacutecessaires au peuplement de la agrave partir drsquoun ensemble debases de donneacutees heacuteteacuterogegravenes

118 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash

Nous proposons une approche particuliegravere drsquoExtraction de Connaissances guideacutee par les Connais-sances du Domaine () appelleacutee lrsquoExtraction de Connaisances agrave partir drsquoune Base de Connaissances() La nouveauteacute de celle-ci est que la nrsquoest plus positionneacutee en marge du processus mais estlrsquoeacuteleacutement central dont sont agrave la fois extraits les eacuteleacutements agrave fouiller et les connaissances pour guider lafouille

21 Description geacuteneacuterale

Nous proposons une approche drsquo dont lrsquooriginaliteacute principale est de travailler agrave partir des TBox

et ABox drsquoune Lrsquohypothegravese sous-jacente est lrsquoexistence de reacutegulariteacutes porteuses de connaissancesnouvelles et significatives dans lrsquoinstanciation (deacutefinie et induite) drsquoune

Il srsquoagit donc drsquoappliquer des meacutethodes de fouille de donneacutees sur un ensemble drsquoassertions de la dans le but de deacuteceler des reacutegulariteacutes interpreacutetables sous forme de connaissances pertinentes quiraffineront la Nous appelons cette approche lrsquoExtraction de Connaissances agrave partir drsquoune Base deConnaissance () par distinction avec lrsquoExtraction de Connaissances agrave partir de Bases de Donneacutees()

Deux obstacles se posent agrave la mise en œuvre drsquoune telle approche ndash premiegraverement les ne contiennent souvent qursquoune quantiteacute de connaissances restreinte compareacute

au contenu de bases de donneacutees ou de corpus de textes ndash deuxiegravemement les algorithmes de fouille de donneacutees sont deacuteveloppeacutes pour manipuler des donneacutees

et non des assertions de plus les reacutesultats de ces algorithmes ne sont pas repreacutesenteacutes suivant unformalisme de repreacutesentation des connaissances

Nous proposons de deacutepasser la premiegravere limite en deacuteveloppant des mappings entre le contenu desbases de donneacutees du domaine et lrsquoontologie (ou TBox) (0) Ces mappings serviront de base agrave des wrappers

deacuteveloppeacutes speacutecialement pour peupler lrsquoontologie agrave partir du contenu de bases de donneacuteesPour surmonter la deuxiegraveme limite il est neacutecessaire de reacutealiser une eacutetape de transformation (i) des as-

sertions de lrsquoontologie en un format compatible avec le format drsquoentreacutee de la meacutethode de fouille choisieApregraves lrsquoeacutetape de fouille proprement dite (ii) il est eacutegalement neacutecessaire de reacutealiser une eacutetape de transfor-mation inverse (iii) des reacutesultats de fouille en axiomes et assertions dans le formalisme de lrsquoontologie

Notre meacutethode se divise ainsi en 4 eacutetapes principales (0 i ii iii) dont les 3 derniegraveres peuventecirctre compareacutees aux trois eacutetapes principales du processus drsquo (i) la preacuteparation des donneacutees (ii)

la fouille et (iii) lrsquointerpreacutetation Nous supposons ici que la TBox de la est deacutejagrave construite La Figure45 repreacutesente scheacutematiquement cette approche iteacuterative et interactive

22 Application conjointe des Logiques de Descriptions et de lrsquoAnalyse de Concepts Formelsdans le contexte de lrsquo

Lrsquoexistant le plus proche de la meacutethode drsquo proposeacutee ci-dessus vient de travaux qui font inter-venir conjointement des formaliseacutees en et des meacutethodes drsquoAnalyse de Concepts Formels ()(chapitre 2 section 131) et partagent malgreacute des diffeacuterences fondamentales deux principes la notion de concept et lrsquoorganisation hieacuterarchique de ces concepts Bien que diffeacuterente en et en la notion de concept repose sur la mecircme ideacutee fondamentale de collection drsquoobjets partageant un certainnombre de proprieacuteteacutes Aussi lrsquoorganisation en hieacuterarchie des concepts formels produite par lrsquo preacutesentedes similitudes avec lrsquoorganisation des concepts drsquoune ontologie en Ces similitudes rendent possible

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 119

F 45 ndash LrsquoExtraction de Connaissances agrave partir drsquoune Base de Connaissances ou

lrsquoutilisation conjointe de meacutethodes ou outils provenant des deux domaines Toutefois les diffeacuterencesprincipales entre concepts en et concepts formels sont premiegraverement la faccedilon dont ils sont obtenus etdeuxiegravemement la faccedilon de les deacutecrire

En les concepts sont obtenus de faccedilon manuelle ou semi-automatique par un expert du domaineeacutetudieacute dans lrsquoobjectif de formaliser les concepts drsquointeacuterecirct du domaine en question La descriptiondrsquoun concept en est construite agrave partir de concepts atomiques (des preacutedicats unaires) de rocirclesatomiques (des preacutedicats binaires) et des constructeurs de concepts fournis par le langage de utiliseacute (existforall par exemple) Les concepts deacutecrits ainsi que les rocircles servent dans un second tempsagrave la speacutecification des proprieacuteteacutes des objets Pour plus de deacutetails voir la section 22 du chapitre 2 ou[BCM+03]

En les concepts formels sont obtenus agrave partir de contextes formels qui speacutecifient les attributs (ouproprieacuteteacute) preacutesenteacutes par chaque objet Dans un tel contexte un concept formel est deacutecrit par unensemble drsquoobjets (son extension) et un ensemble drsquoattributs (son intension) de telle sorte que lrsquoin-tension contienne exactement lrsquoensemble des attributs que les objets de lrsquoextension ont en communet qursquoinversement lrsquoextension contienne exactement lrsquoensemble des objets qui partagent tous lesattributs de lrsquointension Pour plus de deacutetails voir la section 131 du chapitre 2 ou [GW99]

Dans les deux cas les descriptions associeacutees aux concepts permettent de les organiser en une hieacuterar-chie Toutefois les deux types de concept deacutecrits de faccedilons distinctes produisent deux types de hieacuterar-chies distinctes

R Certains auteurs utilisent eacutegalement les notions drsquointension et drsquoextension concernantles concepts de Dans ce cas lrsquointension du concept est la description du concept et lrsquoextension estlrsquoensemble des individus (ie des objets) instances du concept en question

Baader et al utilisent lrsquo pour construire en partant du bas une hieacuterarchie de concepts agrave partirdrsquoun ensemble fini de concepts C1 Cn [BS04] Le principe de la meacutethode repose sur la deacutefinitiondrsquoun contexte formel agrave partir de lrsquoensemble de concepts de deacutepart et soit de leurs conjonctions soitde leurs subsumants communs les plus speacutecifiques La meacutethode drsquo utiliseacutee sur le contexte est lrsquoal-gorithme drsquoexploration drsquoattributs de Ganter [Gan84] qui permet de deacuteterminer des implications de laforme B1 rarr B2 Les implications permettent de deacuteriver des relations de subsomption entre les concepts

120 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

de deacutepart et leurs conjonctions (par exemple B1 ⊑ B2) ou entre les subsumants communs les plus speacute-cifiques des concepts de deacutepart et les concepts de deacutepart de sorte agrave geacuteneacuterer progressivement et de basen haut une hieacuterarchie En pratique ce travail est tregraves peu exploitable car les hieacuterarchies geacuteneacutereacutees au-tomatiquement sont volumineuses en raison du fait que tous les concepts qursquoil est possible de deacutecrire agravepartir des concepts de deacutepart sont construits et inclus dans la hieacuterarchie De plus la meacutethode srsquoappuiesur lrsquohypothegravese forte qursquoun subsumant commun le plus speacutecifique existe toujours et peut toujours ecirctretrouveacute ce qui nrsquoest pas le cas en pratique Enfin ce travail prend en compte la TBox sans exploiter lesconnaissances de la ABox

Des reacutesultats plus exploitables dans le cadre de lrsquo reacutesultent de deux travaux qui se complegravetent lrsquoExploration Relationnelle (que nous noterons )[Rud06] et la proposition de compleacutetion des en par Baader et al [BGSS07]

LrsquoExploration Relationnelle () deacutecrite par Rudolph srsquoappuie sur une extension de lrsquoalgorithme drsquoex-ploration drsquoattributs dans un contexte de Pour cela lrsquo se base sur la deacutefinition du contexte lieacuteagrave lrsquointerpreacutetation I en

Deacutefinition 47 (Contexte - ) Soit I une interpreacutetation sur le domaine ∆ M un ensemble de

description de concepts de ce domaine en et Ic une relation drsquoincidence Le contexteKI(M) lieacute

agrave lrsquointerpreacutetation I est deacutefini par le triplet (∆M Ic) ougrave quand la relation drsquoincidence Ic associe

agrave un individu δ de ∆ une description de concept C de M alors lrsquoindividu δ est instance du concept

CI Plus formellement

δIcCI hArr δ isin CI

A partir de cette deacutefinition il est deacutemontreacute que les implications extraites de KI par lrsquoexplorationdes attributs coiumlncident avec certains axiomes valides selon I (voir [Rud06]) Ainsi si CD sube M

alors lrsquoimplication C rarr D est extraite de KI si et seulement si I satisfait lrsquoaxiome C ⊑ DLrsquo permet drsquoexplorer les axiomes drsquoinclusion par cette correspondance et de veacuterifier leur validiteacutedans le domaine (selon I) agrave travers un systegraveme de questions-reacuteponses agrave un expert du domaineSi lrsquoassertion proposeacutee nrsquoest pas explicitement deacutecrite dans la TBox et ne peut pas ecirctre induitepar le meacutecanisme de raisonnement de subsomption alors lrsquoexpert est interrogeacute sur sa validiteacute Silrsquoassertion est vraie selon lrsquoexpert elle vient enrichir la TBox Si elle est fausse lrsquoexpert doitfournir un contre exemple qui sera ajouteacute agrave la ABox de la De cette faccedilon lrsquoimplication ne seraplus extraite lors drsquoune exploration suivante et la (TBox et ABox ) est progressivement raffineacutee

La compleacutetion des en proposeacutee par Baader et al [BGSS07] propose des ameacuteliorations permet-tant la mise en oeuvre effective de lrsquo Premiegraverement elle formalise lrsquoutilisation de lrsquo sur descontextes partiels Cette utilisation est neacutecessaire agrave la prise en consideacuteration drsquoobjets partiellementdeacutecrits par les meacutethodes de comme lrsquoexploration drsquoattributs Suivant lrsquohypothegravese du mondeouvert (deacutetailleacutee chapitre 2 section 22) les individus drsquoune en sont justement des objetspartiellement deacutecrits Deuxiegravemement la meacutethode limite agrave la seule subsomption les constructeurslogiques autoriseacutes dans les descriptions de concepts consideacutereacutes par la contexte (ie les conceptsde M de KI) Ceci permet de reacuteduire le nombre drsquoimplications et donc de questions poseacutees agravelrsquoexpert

Le beacuteneacutefice commun des reacutesultats de ces deux travaux est illustreacute par une meacutethode drsquoacquisitionsemi-automatique drsquoaxiomes en agrave partir de corpus de textes dans [VR08]

Une premiegravere limite des meacutethodes baseacutees sur lrsquoExploration drsquoAttributs est de nrsquoexploiter que lesimplications du contexte ie les regravegles dont la confiance est eacutegale agrave 1 Crsquoest justement ce qui permetdrsquoexclure un axiome C ⊑ D lorsque lrsquoexpert donne un contre-exemple agrave un axiome cela revient agrave

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 121

ajouter un objet au contexte qui preacutesente la proprieacuteteacute C sans la D ou inversement Ce nouvel objet rendforceacutement la confiance de la regravegle C rarr D infeacuterieure agrave 1 ce qui eacutevite lrsquoimplication entre C et D Nouspensons que cette limite est trop forte et peut empecirccher la mise en eacutevidence de concepts inteacuteressants agraveinclure dans la TBox Quand une est peupleacutee de nombreux individus quelque soit le mode utiliseacute pourson peuplement (manuel ou automatique) elle reste une repreacutesentation drsquoune reacutealiteacute particuliegravere soumiseaux nombreux arteacutefacts que cela implique par exemple le biais dans la repreacutesentation des connaissancesla reproduction ou lrsquointroduction de bruit drsquoerreurs lors du peuplement de la la difficulteacute agrave prendreen consideacuteration les cas extrecircmes

De plus selon la configuration de la (et notamment de son peuplement) le nombre drsquoimplicationset donc de questions poseacutees agrave lrsquoexpert peut ecirctre tregraves eacuteleveacute sans que celles-ci nrsquoapportent aucun beacuteneacuteficedans la repreacutesentation des connaissances qui inteacuteressent lrsquoexpert Par exemple un clinicien qui exploreune repreacutesentant les patients drsquoun hocircpital leurs dossiers meacutedicaux et administratifs peut selon la faccedilonavec laquelle a eacuteteacute peupleacute la geacuteneacuterer de nombreuses implications eacutevoquant des connaissances drsquoordreadministratif (ldquochocircmeurrdquo rarr ldquoassureacuteCMUrdquo ou ldquotransportEnAmbulancerdquo rarr ldquoActeDeRadiographierdquo) etfinalement tregraves peu de connaissances drsquoordre meacutedical qui puissent lrsquointeacuteresser

Nous proposons dans la section suivante une meacutethode drsquo qui utilise la compleacutementariteacute des etde lrsquo commme Rudolph et al et Baader et al Notre meacutethode se distingue notamment par

ndash la transcription des connaissances en donneacutees accessibles agrave la fouillendash la meacutethode de fouille utiliseacuteendash la position de lrsquoanalyste

et srsquooriente plus particuliegraverement vers une mise en application opeacuterationnelle sur des donneacutees reacuteeacutelles

23 Analyse des Assertions de Rocircles ndash

LrsquoAnalyse des Assertions de Rocircles ndash ougrave ndash est une approche particuliegravere drsquoExtraction de Con-naissances agrave partir de Bases de Connaissances () Lrsquo explore les reacutegulariteacutes dans les relationsdirectes et indirectes entre instances drsquoune en ie les reacutegulariteacutes des assertions de rocircles et de leurcomposition La section 231 deacutecrit lrsquo drsquoun point de vue geacuteneacuteral puis la section 232 la deacutetaille eacutetapepar eacutetape Enfin la section 24 preacutesente des reacutesultats expeacuterimentaux obtenues en pharmacogeacutenomique par

231 Description geacuteneacuterale

Lrsquo srsquoattache agrave analyser les reacutegulariteacutes preacutesentes dans la ABox (ie les assertions de concepts et de

rocircles) drsquoune ontologie en en utilisant les meacutethodes drsquoAnalyse de Concept Formel () et drsquoextractionde Regravegles Minimales Non-Redondantes Reacuteduites (RMNR) Ces reacutegulariteacutes sont susceptibles de refleacuteterlrsquoexistence de connaissances implicites dans la et de mettre en lumiegravere des relations inteacuteressantes

(selon lrsquoanalyste) mais masqueacutees qui prennent la forme de relations indirectes ou complexes entre lesindividus de la Une relation est indirecte si sa repreacutesentation neacutecessite lrsquoenchaicircnement de plusieursrocircles une relation est complexe si elle implique des relations vers plusieurs individus distincts

Pour cela nous proposons drsquoutiliser dans le cadre drsquoun processus semi-automatique et iteacuteratif leformalisme des pour deacutefinir des attributs analyseacutes par lrsquoexploration par nous permet de soncocircteacute drsquoobtenir ou drsquoaffiner des descriptions en De faccedilon informelle les exploitent les reacutesultatsobtenus par pour acqueacuterir interactivement des connaissances et lrsquo beacuteneacuteficie des pour exprimerdes connaissances relationnelles ie des connaissances sur les relations entre individus [Rud06]

Le preacuterequis indispensable agrave une telle approche est eacutevidemment de disposer drsquoune ontologie en instancieacutee pour pouvoir en utiliser les assertions Ensuite lrsquo se deacutecompose scheacutematiquement en trois

122 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

F 46 ndash LrsquoAnalyse des Assertions de Rocircles () et des ses diffeacuterentes eacutetapes

parties principalesndash La premiegravere partie (Figure 46 (i) Preacuteparation) vise agrave transformer les assertions en un contexte

formel format de donneacutees compatible avec les meacutethodes drsquo et drsquoextraction des RMNRndash La deuxiegraveme partie est lrsquoextraction desRMNR agrave partir du contexte formel et agrave lrsquoaide des meacutethodes

drsquo (Figure 46 (ii) Fouille)ndash Enfin la partie finale de lrsquo est la transformation des regravegles en concepts rocircles et assertions

de rocircles qui srsquoils sont jugeacutes inteacuteressants vis agrave vis des objectifs de lrsquoexpert et des connaissancespreacutesentes dans la de deacutepart y seront inseacutereacutes (Figure 46 (iii) Interpreacutetation)

Lrdquoiteacuteration suivante de lrsquo pourra alors prendre en entreacutee lrsquoontologie ainsi raffineacuteeNous fixons un ensemble de constructeurs minimal obligatoire pour la utiliseacutee puisque que la mise

en œuvre de lrsquo neacutecessite les constructeurs de conjonction existentiel nominal et de rocircle inverse ce quicorrespond agrave la ELOI La seule limite agrave lrsquoutilisation de plus expressives est la complexiteacute associeacuteeagrave la mise en œuvre des meacutecanismes de raisonnement utiliseacutes (notamment la recherche drsquoinstances)

Les sections suivantes deacutetaillent les eacutetapes permettant la mise en oeuvre de ces opeacuterations et pourchaque eacutetape le rocircle de lrsquoanalyste

232 Lrsquo eacutetape par eacutetape

Etapes preacuteliminaires construction et peuplement drsquoune Base de Connaissances La constructiondrsquoontologies et le peuplement de la associeacutee agrave partir du contenu de bases de donneacutees ont eacuteteacute deacuteveloppeacutesdans le chapitre 4

Etape 1 Seacutelection des instances de C0

La premiegravere eacutetape drsquoune iteacuteration drsquo est la description en par lrsquoanalyste drsquoun concept C0Il nrsquoy a pas de contrainte particuliegravere concernant la deacutefinition de C0 ce peut ecirctre le concept ⊤ un

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 123

concept atomique ou deacutefini dans la ou encore la description drsquoun concept non nommeacute dans la maisdeacutefini pour lrsquooccasion agrave partir de la et des constructeurs disponibles dans la logique choisie (ELOISHOIN(D) par exemple)

La deacutefinition de C0 sert agrave deacutelimiter les assertions qui seront analyseacutees et les concepts de la quiseront concerneacutes par lrsquoextraction de connaissances

La description de C0 permet drsquoobtenir un ensemble drsquoindividus A0 instances de C0 (voir deacutefinition45) Ces individus constituent la base de lrsquoanalyse puisque lrsquoapproche va srsquoattacher agrave eacutetudier commentceux-ci sont relieacutes aux autres individus de la et agrave mettre en eacutevidence des reacutegulariteacutes remarquables danslrsquoensemble de ces relations

Etape 2 Transformation des connaissances exploration des graphes drsquoassertions

Lrsquoobjectif de lrsquoeacutetape de transformation est de repreacutesenter dans un contexte formel (ie des donneacutees)les connaissances relatives aux relations de chaque individu deA0 avec lrsquoensemble des autres individusde la consideacutereacutee Pour ce faire nous deacutefinissons la notion de graphe drsquoassertions

Deacutefinition 48 (Graphe drsquoassertions) Soit a un individu de la O Ga(V E) est un graphe drsquoorigine

a isin V eacutetiqueteacute cyclique appeleacute le graphe drsquoassertions de a dans O ougrave

ndash V est lrsquoensemble des nœuds de Ga ougrave chaque nœud v est un individu de O relieacute agrave a directement

ou indirectement par un arc E

ndash E est lrsquoensemble des arcs de Ga ougrave chaque arc E(v1 v2) partant de v1 vers v2 est une assertion

du rocircle E entre les individus v1 et v2 dans O Les arcs sont nommeacutes par le nom du rocircle dont ils

repreacutesentent une instance Lrsquoarc E(v1 v2) peut ecirctre parcouru en sens inverse de v2 vers v1 on

note alors Eminus(v2 v1) Les arcs sont nommeacutes par le nom du rocircle dont ils repreacutesentent une instance

Le graphe Ga de a dans O contient lrsquoensemble des chemins possibles entre lrsquoindividu a et tout autreindividu v de O auquel il est relieacute directement ou indirectement par n rocircles Ei (n isin N) De cette faccedilonchacune des relations existant entre a et les autres individus de O est repreacutesenteacutee dans le graphe par unchemin de a vers un autre individu v nœud de Ga

Proprieacuteteacute 41 (Interpreacutetation drsquoun chemin dans Ga) Srsquoil existe un chemin entre lrsquoindividu a et lrsquoin-

dividu v passant successivement par les rocircles E1 E2 En alors cela signifie que a est instance drsquoun

concept noteacute Ca de forme exist E1 E2 Env ou encore

exist E1 E2 Env (a) (46)

Proprieacuteteacute 42 Soit C un concept R un rocircle et a v deux individus de la O Alors si

O exist R v (a) et O C(v)

alors exist R v ⊑ exist RC et donc

O exist RC (a) (47)

Nous proposons pour chaque individu ai isin A0 de parcourir selon un algorithme simple tous leschemins et sous-chemins possibles dans son graphe drsquoassertions Gai

Lrsquoobjectif est drsquoassocier agrave chaqueindividu ai un ensemble de chemins donc selon la Proprieacuteteacute 41 un ensemble de descriptions de conceptsCai j dont ai est instance A partir de cette association nous proposons de construire un contexte formeldont chaque objet fait reacutefeacuterence agrave un individu ai isin A0 et dont les attributs font reacutefeacuterence aux diffeacuterentsconcepts Cai j dont les ai sont instances

Pour explorer lrsquoensemble des chemins possibles dans les graphes drsquoassertions nous utilisons un algo-rithme de parcours en profondeur (deacutecrit en Annexe F) fonction drsquoun paramegravetre la profondeur maximale

du parcours pmax deacutefinie par lrsquoanalyste en deacutebut de processus et de deux restrictions

124 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

(1) un mecircme chemin ne peut pas passer deux fois par le mecircme nœud(2) apregraves avoir emprunteacute un arc qui correspond agrave un rocircle E lrsquoalgorithme interdit lors de lrsquoeacutetape

suivante drsquoemprunter un arc de mecircme label en sens inverse qui correspond au rocircle inverse EminusLe paramegravetre pmax limite le nombre maximum drsquoarcs qursquoun seul chemin peut contenir et limite ainsi

la progression en profondeur de lrsquoalgorithme La premiegravere contrainte (1) garantie lrsquoabsence de cycle dansles chemins parcourus La seconde contrainte (2) est un choix heuristique qui limite la taille finale ducontexte formel geacuteneacutereacute

Dans ce dernier cas et dans la limite de la profondeur maximale il peut ecirctre deacutemontreacute que lrsquoalgo-rithme parcourt de faccedilon complegravete le graphe drsquoassertions ie parcourt tous les nœuds et arcs eacuteloigneacutes demoins de pmax arcs [RN03]

A la fin du parcours de graphes drsquoassertions des individus de A0 agrave chaque individu ai isin A0 estassocieacute un ensemble de chemins et donc un ensemble de concepts Cai j dont ai est instance A partir decette association est alors construit un contexte formel K(GMI)

ndash Chaque individu ai entraicircne la creacuteation drsquoun objet gi isin G dont le nom est celui de ai

ndash Chaque concept Cai j dont ai est instance entraicircne la creacuteation rArr drsquoun attribut mv isin M dont le nom est la description en du concept Cai j

A la notation classiqueexist E1 E2 En v

nous preacutefeacuterons ici la notation eacutequivalente qui utilise le constructeur de concept nominal suivant(appeleacute filler en anglais)

E1 E2 En vplus court et plus simple agrave transformer en une chaicircne de caractegraveres Ainsi le nom de mv est dela forme E1_o_E2_o__o_En v Lorsque Cai j equiv Cak j ie lorsque les individus ai et ak

sont instances drsquoun mecircme concept alors mv nrsquoest creacuteeacute que la premiegravere fois

rArr drsquoune relation giImv entre lrsquoobjet gi et lrsquoattribut mv

rArr de n attributs mC dont le nom est de la forme E1_o_E2_o__o_En Cv par similariteacute avecle nom de lrsquoattribut mv mais ougrave Cv fait reacutefeacuterence agrave un concept Cv dont v est instance

rArr des n relations giImC correspondantes

Les attributs mC et les relations relatives giImC sont creacuteeacutes dans le but drsquoaugmenter le nombredrsquoattributs et de relations dans le contexte K Leur creacuteation suit la Proprieacuteteacute 42 qui dit que si vest instance drsquoun concept quelconque Cv j alors a est eacutegalement instance de existE1 E2 EnCvAinsi pour chaque concept Cv j dont v est instance et tant que Cv j ne preacutesente pas de sous-conceptdont v est eacutegalement instance ie

2 Cvk ⊑ Cv j forallk j (48)

les attributs mC et les relations giImC correspondants sont ajouteacutes au contexte K

Le Tableau 43 repreacutesente le contexte formel K reacutesultant de lrsquoexploration des graphes drsquoassertionsdes individus deA0

La taille du contexte geacuteneacutereacute selon lrsquoexploration de graphes drsquoassertions deacutepend

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 125

G

Mmv1 mC11 mC1q1

mv j mC jk mvm mCm1 mCmqm

g1 times times times times times times times times

gi times times

gn times times times times times times

T 43 ndash Contexte formel K(GMI) reacutesultat de lrsquoexploration des graphes drsquoassertions

ndash suivant la dimension des objets du nombre drsquoindividus dansA0 (n dans le Tableau 43) etndash suivant la dimension des attributs premiegraverement du nombre de nœuds dans le graphe lui mecircme

deacutependant de la valeur de pmax (m dans le Tableau 43) et deuxiegravemement du nombre de conceptsnon ascendants (voir Eacutequation 48) dont les individus v sont instances (q dans le Tableau 43)

Etape 3 Analyse du contexte formel ACF et RMNR

Les meacutethodes drsquoAnalyse de Concepts Formels () introduites dans la section 131 du chapitre2 permettent la construction drsquoune repreacutesentation des donneacutees eacutetudieacutees sous la forme drsquoun treillis deconcepts ie un ensemble de concepts formels organiseacutes selon une structure hieacuterarchique Cette structurereacutesulte drsquoune analyse automatique des reacutegulariteacutes existantes entre donneacutees ces reacutegulariteacutes reacutesultent dufait que des objets distincts ont des attributs en commun et inversement que des attributs distincts sontpreacutesenteacutes par un mecircme objet

Lrsquoobjectif de notre approche est justement de comparer la repreacutesentation reacutesultant du processus au-tomatique drsquo agrave la repreacutesentation reacutesultant drsquoun processus de modeacutelisation dirigeacute par lrsquohumain lrsquoon-tologie de domaine Pour ce faire nous proposons dans un premier temps de construire le treillis puisdrsquoutiliser les RMNR pour caracteacuteriser lrsquoorganisation en concepts formels du treillis afin lors des eacutetapessuivantes de permettre la comparaison de cette repreacutesentation agrave celle de lrsquoontologie associeacutee agrave la

La construction du treillis peut ecirctre reacutealiseacutee par lrsquoutilisation de lrsquoalgorithme classique Next Closure

Algorithm deacutecrit par Ganter [Gan84] Kuznetsov et Obiedkov ont reacutecemment affineacute cet algorithme etreacutealiseacute une comparaison des diffeacuterentes meacutethodes de construction de treillis dans [KO02]

Une fois le treillis de concepts construit son organisation peut ecirctre caracteacuteriseacutee selon diffeacuterentesmesures ou meacutethodes La mesure du stabiliteacute drsquoun treillis proposeacutee par Kuznetsov [Kuz07] permet decaracteacuteriser la faccedilon dont la description (le couple extension intension) drsquoun concept est deacutependante dechacun des objets qui compose son extension Cette mesure a eacuteteacute utiliseacutee par Jay et al [JKN08] pourdeacutecrire des groupes sociaux drsquointeacuterecirct agrave partir de concepts formels stables ie dont lrsquoexistence ne reposepas uniquement sur quelques facteurs speacutecifiques Nous proposons une meacutethode diffeacuterente lrsquoutilisationdes Regravegles Minimales Non-Redondantes Reacuteduites (RMNR voir section 132) pour caracteacuteriser les as-pects du treillis qui nous inteacuteressent plus particuliegraverement crsquoest agrave dire les relations entre les conceptsformels et le nombre drsquoobjets qui participe agrave la deacutefinition des concepts et des relations

La recherche des Regravegles drsquoAssociations () est un moyen drsquoextraire drsquoun treillis ce genre drsquoinforma-tion de faccedilon exhaustive Cependant les produites preacutesentent lrsquoinconveacutenient drsquoecirctre particuliegraverementvolumineuses et redondantes Nous preacutefeacuterons donc nous limiter agrave lrsquoextraction drsquoune famille particuliegraverede les RMNR Ce type de regravegles preacutesentent un premier avantage qui est drsquoecirctre un sous-ensembledes reacuteduit et concis ce qui facilite lrsquoeacutetape suivante drsquointerpreacutetation des regravegles par lrsquoanalyste En effetlrsquoensemble des RMNR est le plus petit ensemble de regravegles suffisant pour geacuteneacuterer lrsquoensemble des

126 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

Le deuxiegraveme avantage des RMNR est drsquoecirctre particuliegraverement repreacutesentatives de la structure du treillispuisqursquoune RMNR est produite agrave partir de la description drsquoun seul concept ou du regroupement de deuxconcepts directement relieacutes dans le treillis (ie un concept et son super- ou son sous-concept)

R En fonction de lrsquoobjectif de lrsquoanalyste il peut ecirctre inteacuteressant non pas de chercher lesregravegles freacutequentes drsquoun contexte ( ou RMNR) mais de chercher un autre type de reacutegulariteacute commepar exemple les regravegles rares [SNV07] De plus lrsquoutilisation drsquoautres meacutethodes de fouille comme leclustering hieacuterarchique [Fis87] peut proposer une repreacutesentation des donneacutees suivant une organisationdiffeacuterente de celle du treillis qursquoil est eacutegalement pertinent selon les objectifs de comparer agrave lrsquoontologiede domaine

Etape 4 Interpreacutetation des reacutegulariteacutes en terme de concepts et de rocircles

A lrsquoinverse de lrsquoeacutetape preacuteceacutedente qui est automatique cette eacutetape implique lrsquoanalyste degraves son deacutebutLrsquoanalyste doit choisir pour chaque RMNR et parmi les attributs Mr qui la composent un ensembledrsquoattributs Ms sube Mr pertinents qui servira de base agrave la creacuteation de nouveaux concepts de nouveauxrocircles etou de nouvelles assertions de rocircles

Etape 4a Description de nouveaux concepts Selon un meacutecanisme inverse agrave celui opeacutereacute durantla phase de preacuteparation (Figure 46 (i)) les attributs seacutelectionneacutes au sein drsquoune regravegle sont traduits en ladescription en du concept auquel ils font reacutefeacuterence Ainsi on distingue les attributs

mv avec un nom de la forme E1_o_E2_o__o_En v qui sont traduits en exist E1 E2 En vmC avec un nom de la forme E1_o_E2_o__o_En Cv qui sont traduits en existE1 E2 EnCv

Un nouveau concept Cnew est alors deacutefini par la conjonction des descriptions de concepts correspon-dant aux attributsMs drsquoune mecircme regravegle Par exemple si dans la regravegle de la forme ltmb rarr md me m fgtles deux attributs mb et md ont eacuteteacute seacutelectionneacutes (ieMs = mbmd)

mb nommeacute R_o_S b est traduit en exist R S bmd nommeacute T_o_U_o_V d est traduit en existS T U d

et leur conjonction permet de deacutefinir

Cnew equiv exist R S b ⊓ existS T U d

Etape 4b Creacuteation de nouveaux rocircles etou drsquoassertions de rocircles Les attributs seacutelectionneacutes parlrsquoanalyste Ms permettent eacutegalement la creacuteation de nouveaux rocircles etou assertions de rocircles Dans cetobjectif ces attributs sont traduits de la mecircme faccedilon que pour la creacuteation de nouveaux concepts hormisle fait qursquoils ne sont pas associeacutes pour creacuteer une nouvelle description et que seuls les concepts dont ladescription met en jeu le constructeur nominal (ie exist Rv ou R v) sont utiliseacutes Si parmi les descriptionsde concepts traduits depuis les attributs deMs au moins deux font intervenir un constructeur nominalavec deux nominaux diffeacuterents alors chaque paire de nominaux est utiliseacutee pour la construction drsquoun rocircleet de deux assertions de rocircles dans la Ainsi pour chaque paire de nominaux nous deacutefinissons Rnew unrocircle atomique dont le domaine et le co-domaine sont les concepts les plus speacutecifiques dont les nominauxsont instances et deux assertions de rocircle la premiegravere de Rnew et la seconde de son inverse Rminusnew par lecouple de nominaux

Par exemple si mb et md sont deux attributs seacutelectionneacutes dans une mecircme regravegle alors la paire (b d)qursquoils constituent est agrave la base de la deacutefinition du rocircle atomique Rnew dont le domaine et le co-domaine

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 127

sont respectivement le concept le plus speacutecifique dont b est instance et le concept le plus speacutecifique dontd est instance La paire (b d) est utiliseacutee pour deux instanciations de rocircles Rnew(b d) et Rminusnew(d b)

R Les nominaux peuvent ecirctre instances de plusieurs concepts sans qursquoil ne soit possibledrsquoeacutetablir une relation de subsomption entre ces concepts (ie C(a) et D(a) mais 2 D ⊑ C et 2 C ⊑ D)Dans ce cas il nrsquoexiste pas un concept unique plus speacutecifique et lrsquoanalyste est solliciteacute pour statuer surle concept agrave choisir entre C et D pour le domaine (ou le co-domaine) de Rnew

Dans le cadre de notre approche nous utilisons les regravegles (RMNR) comme un moyen de caracteacuterisa-tion de la structure du treillis La seacutemantique attacheacutee agrave une regravegle est utiliseacutee pour caracteacuteriser lrsquoextensiondrsquoun concept formel (pour les regravegles certaines) et les relations avec ses concepts voisins (pour les regraveglesapproximatives) Cependant elle nrsquoest pas utiliseacutee directement pour deacutefinir des axiomes drsquoinclusion (⊑)mais des axiomes assertionels (ie les assertions de rocircles) En revanche lrsquoeacutetape suivante permet lrsquoinser-tion des nouveaux concepts dans la initiale par la description drsquoaxiomes drsquoinclusion

Etape 5 Insertion des nouvelles connaissances

Il srsquoagit dans cette eacutetape de comparer les concepts et rocircles (Cnew et Rnew) creacuteeacutes lors de lrsquoeacutetapepreacuteceacutedente agrave ceux existants dans la de deacutepart Cette comparaison deacutetermine si les nouveaux conceptset rocircles nrsquoexistent pas deacutejagrave dans la (ie qursquoils sont veacuteritablement nouveaux) et dans le cas neacutegatifpermet de deacutefinir la faccedilon de les inseacuterer de faccedilon coheacuterente dans la

Etape 5a Insertion de concepts Le subsumant le plus speacutecifique Csubs du concept Cnew proposeacuteest rechercheacute dans lrsquoontologie associeacutee agrave la Si Cnew equiv Csubs le concept existe deacutejagrave dans lrsquoontologieet Cnew nrsquoest pas ajouteacute agrave lrsquoontologie Sinon Cnew ⊑ Csubs (sans que Csubs ⊑ Cnew) alors lrsquoanalyste adeux alternatives concernant la faccedilon drsquoinseacuterer le nouveau concept

ndash selon lrsquoanalyste Cnew est effectivement un sous-concept de Csubs Cnew est inseacutereacute par lrsquoajoutdans lrsquoontologie de lrsquoaxiome suivant Cnew ⊑ Csubs Lrsquoanalyste peut alors attribuer un nomCnew

ndash selon lrsquoanalyste les deacutefinitions de lrsquoontologie de deacutepart ne sont pas parfaites et Cnew est unedescription plus fine (ou plus exacte) de ce qui est censeacute ecirctre repreacutesenteacute par le concept CsubsDans ce cas Cnew est ajouteacute agrave lrsquoontologie par lrsquoaxiome suivant Cnew equiv Csubs

Etape 5b Insertion de rocircle Selon lrsquoexistence ou non dans lrsquoontologie de rocircles avec les mecircmesdomaine et co-domaine que Rnew une suite drsquoopeacuterations diffeacuterentes est mise en œuvre Dans le premiercas ougrave de tels rocircles existent deacutejagrave lrsquoanalyste est solliciteacute Si un des rocircles de la liste correspond agrave laseacutemantique souhaiteacutee pour Rnew il le choisit Aucun rocircle nrsquoest creacuteeacute dans lrsquoontologie le rocircle choisi et soninverse sont alors instancieacutes En revanche si aucun rocircle de la liste nrsquoest satisfaisant un nouveau rocircle estcreacuteeacute puis instancieacute

Dans le second cas ougrave aucun rocircle existant ne partage les domaine et co-domaine de Rnew un nouveaurocircle est automatiquement creacuteeacute et instancieacute Lrsquoanalyse nrsquointervient que pour nommer le nouveau rocircle

Enfin une classification drsquoinstances par les meacutecanismes de raisonnement classiques sur la raffineacuteepermet drsquoinstancier les concepts Cnew avec les individus qui en sont instances

Les deux derniegraveres eacutetapes ie lrsquointerpreacutetation des regravegles en termes de concepts et rocircles en puisleur insertion par la deacutefinition de nouveaux axiomes dans lrsquoontologie associeacutee agrave la sont formaliseacuteesdans deux algorithmes preacutesenteacutes ci apregraves le premier (Algorithme 41) deacutecrit lrsquointerpreacutetation des regraveglesen terme de nouveaux concepts de la et le second (Algorithme 42) deacutecrit lrsquointerpreacutetation des regravegles

128 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

en de nouveaux rocircles et assertions de rocircles

Algorithme 41 Depuis les attributsseacutelectionneacutes dans une regravegle agrave un nouveau concept1 Entreacutee O = (T A )K = (GMI)M0

ontologie contexte et attributs seacutelectionneacutees3 pour chaque mi deM0

4 si Cnew equivperp nouveau concept en DL5 Cnew ≔ toDL(mi) toDL retourne

la deacutescription en DL6 sinon7 Cnew ≔ Cnew ⊓ toDL(mi)8 fin si9 fin pour chaque10 si ∄ D isin T Cnew equiv D si Cnew nrsquoexist pas 11 Csubs ≔ subs(O Cnew) subs retourne le

subsumant direct de Cnew12 Question agrave lrsquoanalyste

13 selon analyste14 cas 1 insert un nouveau concept15 Cnew ⊑ Csubs16 cas 2 complegravete la definition de concept17 Csubs equiv Csubs ⊓ Cnew18 fin selon19 fin si20 Sortie O Ontologie raffineacutee

En bilan nous proposons la liste suivantes des eacutetapes de lrsquo qui tirent parti des meacutecanismes deraisonnement associeacutes agrave la

ndash lors de la seacutelection des instances la recherche drsquoinstances permet de deacuteterminer lrsquoensemble desindividus instances du concept initial C0

ndash lors de la transformation des connaissances la recherche du concept le plus speacutecifique permet dedeacuteterminer lrsquoidentiteacute du concept Cv dont v est instance pour la deacutefinition des attributs mC de laforme E1_o_E2_o__o_En Cv

ndash lors de lrsquoinsertion drsquoun nouveau concept dans la la classification des concepts (et plus exacte-ment la recherche du concept le plus speacutecifique) permet de positionner un nouveau concept deacutefiniCnew dans la hieacuterarchie de concepts

ndash apregraves lrsquoinsertion de nouveaux concepts de nouveaux rocircles et de nouvelles assertions de rocircles laclassification drsquoinstances permet de deacuteterminer pour lrsquoensemble des individus srsquoils sont instancesdrsquoun nouveau concept et pour les individus impliqueacutes dans une nouvelle assertion de rocircle srsquoilssont instances drsquoun concept ancien ou nouveau

Les deux derniegraveres utilisations des meacutecanismes de raisonnement permettent drsquoinfeacuterer de nouveauxaxiomes terminologiques et assertionnels ie de nouvelles uniteacutes de connaissances qui viennent raffiner

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 129

Algorithme G2 Depuis les attributsseacutelectionneacutes agrave de nouveaux rocircles1 Entreacutee O = (T A )K = (GMI)M0

ontologie contexte et attributs seacutelectionneacutees2 CnewR0 ≔ empty ensembles de concepts et de rocircles3 Cnew ≔perp nouveau concept4 pour chaque mi deM0

5 Cnew ≔ toDL(mi) toDL retournela description en DL

6 Cnew ≔ Cnew cup Cnew

7 fin pour chaque8 pour chaque Ci de Cnew

9 pour chaque Cj de Cnew iteacuterations emboicircteacuteespour compareacute chaque concept agrave tous les autres

10 si 2O Ci equiv Cj11 b ≔ getFiller(Ci)12 c ≔ getFiller(Cj) getFiller

retourne le ldquonominalrdquo drsquoune description de concept13 R0 ≔ domCodom(O Csubs(b) Csubs(c))

domCodom retourne lrsquoensemble des rocirclesavec domain et codomain

14 si R0 = empty description de nouveaux rocircles15 domain(Rnew) codomain(Rminusnew) ≔ Csubs(b)16 domain(Rminusnew) codomain(Rnew) ≔ Csubs(c)17 Question agrave lrsquoanalyste si Rnew est pertinent18 si pertinent19 T ≔ T cup Rnew R

minusnew nouvau rocircles

20 A ≔ A cup Rnew(b c) Rminusnew(c b)21 fin si22 sinon un rocircle existe23 pour chaque Rk de R0

24 Question agrave lrsquoanalyste est ce que Rk est pertinent 25 si pertinent26 A ≔ A cup Rk(b c) Rminus

k(c b)

27 fin si fin pour chaque fin si28 fin pour chaque fin pour chaque fin si29 Sortie O Ontologie raffineacutee

la initiale Crsquoest lrsquoinsertion de ces nouveaux axiomes dans la qui nous permet de dire que la meacutethodedrsquo autorise la deacutecouverte de connaissances implicites et nouvelles

La description de la meacutethode drsquo et son illustration avec un exemple pharmacogeacutenomique ontdonneacute lieu agrave deux publications [CSTND08b] et [CSTND08a]

La section 24 preacutesente une expeacuterimentation de la meacutethode drsquo meneacutee agrave partir de connaissancespharmacogeacutenomiques

130 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

24 Expeacuterimentation en pharmacogeacutenomique

Cette section preacutesente une expeacuterimentation de la meacutethode drsquoExtraction de Connaissance agrave partir

drsquoune Base de Connaissances () lrsquo Cette expeacuterimentation commence par le peuplement drsquoune pharmacogeacutenomique reacutealiseacute agrave lrsquoaide de lrsquooutil iSO-Pharm (preacutesenteacute section 32 chapitre 3) puis continuepar la mise en œuvre agrave partir de cette de la meacutethode drsquo (preacutesenteacutee section 23 de ce chapitre)

Cette expeacuterimentation srsquointeacuteresse aux donneacutees reacutesultant drsquoune investigation clinique des reacuteponses depatients asthmatiques agrave un meacutedicament appeleacute le montelukast Le deacuteroulement de notre expeacuterimentationest deacuteveloppeacute ci-dessous avec lrsquoobjectif drsquoillustrer et eacutevaluer la capaciteacute de lrsquo agrave (1) retrouver lesreacutesultats obtenus avec des meacutethodes statistiques classiques et (2) extraire de nouvelles connaissancesNotre motivation nrsquoest pas de discuter les reacutesultats de lrsquoinvestigation initiale mais plutocirct de donner unedeuxiegraveme vie agrave ces reacutesultats en les eacutetudiant selon une perspective diffeacuterente

241 Sources de donneacutees et de connaissances

Investigation clinique du montelukast La principale source de donneacutees exploiteacutee correspond auxdonneacutees recueillies au cours drsquoune investigation clinique meneacutee dans le cadre de lrsquoeacutetude de la diversiteacutede reacuteponses des patients asthmatiques au montelukast Des premiers reacutesultats de cette investigation onteacuteteacute publieacutes en 2006 par le groupe drsquoinvestigateurs Lima et al [LZG+06] Ces reacutesultats ont eacuteteacute mis en eacutev-idence agrave partir de donneacutees geacuteneacutetiques et cliniques recueillies sur un sous-ensemble du panel recruteacute pourcette investigation et constitueacute de 61 patients Les variables mesureacutees pour ces patients correspondentaux geacutenotypes de 26 SNP et agrave lrsquoenregistrement de deux signes cliniques principaux

ndash la survenue ou non drsquoune crise drsquoasthme durant les 6 mois de traitement noteacute ldquoExardquo pour exac-

erbation en anglais et pouvant prendre les valeurs Yes No ndash le pourcentage de modification apregraves 6 mois de traitement du Volume Expiratoire Maximum

Seconde66 (VEMS ou FEV en anglais) mesureacute par rapport au Volume Expiratoire Maximum Sec-onde preacutedit agrave 6 mois Cet attribut est noteacute ldquoPerrdquo pour percent change in predicted FEV1 est unpourcentage diviseacute par cent Ses valeurs sont comprises dans lrsquointervalle [-016 116]

Les SNP geacutenotypeacutes sont localiseacutes sur cinq gegravenes impliqueacutes dans la voie des leukotriegravenes67 ABCC1ALOX5 CYSLTR1 LTA4H et LTC4S localiseacutes respectivement sur les chromosomes 16 10 X 5 et 12

Autres sources de donneacutees Pour peupler la nous extrayons en plus des donneacutees de lrsquoinvestigationdes donneacutees des bases de donneacutees PharmGKB dbSNP OMIM Gene et KEGG Pathway relatives no-tamment aux gegravenes impliqueacutes dans la voie des leukotriegravenes leurs structures leurs variations geacutenomiquesles reacuteseaux meacutetaboliques dans lesquels ils sont impliqueacutes

242 Preacuteparation des donneacutees

Inteacutegration des donneacutees geacutenotypiques et pheacutenotypiques Les donneacutees geacuteneacutetiques et cliniques con-cernant les patients de lrsquoinvestigation sont disponibles publiquement dans deux fichiers distincts dans labase de donneacutees PharmGKB68 (preacutesenteacutee chapitre 1 section 32) Pour des raisons de confidentialiteacute lespatients sont identifieacutes dans chacun de ces deux fichiers par un identifiant distinct Une premiegravere eacutetape depreacuteparation des donneacutees est la mise en correspondance des donneacutees contenues dans ces fichiers Celle-ciest possible agrave lrsquoaide drsquoune table de correspondance entre les identifiants des patients

66Le VEMS correspond au volume expireacute pendant la premiegravere seconde drsquoune expiration forceacutee67httpwwwmedscapecomviewarticle444395_568httpwwwpharmgkborgdoserveobjId=PA142628130

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 131

Discreacutetisation des attributs Nous discreacutetisons les valeurs numeacuteriques de lrsquoattribut ldquoPerrdquo en deuxclasses Les valeurs de ldquoPerrdquo infeacuterieures ou eacutegales agrave 08 sont transformeacutees en ldquo6008rdquo et les valeurssupeacuterieures agrave 08 en ldquogt009rdquo Ces deux nouvelles valeurs de ldquoPerrdquo sont transformeacutees par le systegraveme drsquoen deux valeurs qui sont retrouveacutees dans les reacutesultats respectivement ldquoPer__-inf-008_rdquo et ldquoPer__009-inf_rdquo

Peuplement drsquoune Base de Connaissances Lrsquooutil iSO-Pharm introduit chapitre 3 section 32 estutiliseacute pour peupler une pharmacogeacutenomique notamment agrave partir des donneacutees de lrsquoeacutetude issues dePharmGKB Les 61 patients de lrsquoeacutetude et les donneacutees cliniques (pheacutenotypiques et geacutenotypiques) qui leursont associeacutees servent notamment agrave la creacuteation de 61 assertions du concept ldquopatientrdquo de 127 assertions duconcept ldquoclinical_itemrdquo ou de ses descendants et de nombreuses assertions du rocircle ldquopresents_clinical_ite-mrdquo Ce dernier rocircle permet drsquoassocier les instances des concepts ldquopatientrdquo et ldquoclinical_itemrdquo conformeacute-ment aux donneacutees de lrsquoinvestigation clinique Les donneacutees des autres bases (dbSNP OMIM Gene etKEGG Pathway) permettent drsquoinstancier des concepts et des rocircles relatifs aux variations geacutenomiquesaux gegravenes aux meacutedicaments aux pheacutenotypes et agrave des reacuteseaux meacutetaboliques

243 Plug-in Proteacutegeacute pour lrsquo

La version 4 de lrsquoeacutediteur de Proteacutegeacute69 donne la possibiliteacute drsquointerfacer avec les fonctionnaliteacutesnatives de Proteacutegeacute des outils externes ou plug-in La meacutethode drsquo deacutetailleacutee en section 23 de ce chapitreest impleacutementeacutee sous la forme drsquoun plug-in de Proteacutegeacute Une copie drsquoeacutecran de lrsquointerface graphique delrsquoonglet associeacute au plug-in est repreacutesenteacutee en Figure 47 Le plug-in comme son interface est diviseacute entrois parties distinctes qui permettent de reacutealiser respectivement les eacutetapes de preacuteparation (au centre delrsquointerface) de fouille (en haut agrave droite) et drsquointerpreacutetation (en bas agrave droite) de lrsquo

ndash La partie deacutedieacutee agrave la preacuteparation permet de deacutecrire un concept C0 et de seacutelectionner ses instancesde deacutefinir une profondeur maximale dmax et sur cette base de construire un contexte formel Unefois le contexte construit cette partie permet eacutegalement de retirer du contexte les attributs qui nesemblent pas pertinents pour la fouille

ndash La partie deacutedieacutee agrave la fouille permet de lancer une recherche des RMNR selon un support et uneconfiance minimums min_supp et conf_min Notre plug-in utilise la boite agrave outils pourrechercher ces regravegles particuliegraveres [Sza06]

ndash La partie deacutedieacutee agrave lrsquointerpreacutetation permet la visualisation des regravegles la seacutelection de regravegles puisla seacutelection drsquoattributs au sein des regravegles seacutelectionneacutees Les attributs seacutelectionneacutes servent alors agraveconstruire et inseacuterer dans la initiale de nouveaux concepts de nouveaux rocircles et de nouvellesinstances de rocircles

244 Reacutesultats

Lrsquoexpeacuterimentation meneacutee est reacutealiseacutee suivant plusieurs iteacuterations du processus drsquo sur la peu-pleacutee Les reacutesultats obtenus lors drsquoune iteacuteration deacutependent des reacutesultats des iteacuterations preacuteceacutedentes Pourcette raison nous les deacutetaillons dans lrsquoordre de leur apparition

Premiegravere iteacuteration La premiegravere iteacuteration de lrsquo est meneacutee avec les paramegravetres suivants ndash C0 equiv patient ⊓ is_enrolled_in montelukast_studyndash dmax= 2ndash min_supp = 08

69httpprotegewikistanfordeduindexphpProtege4UserDocs

132 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

F 47 ndash Capture drsquoeacutecran du plugin de Proteacutegeacute 4 pour lrsquoAnalyse drsquoAssertions de Rocircles

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 133

ndash min_conf = 08La premiegravere RMNR produite preacutesente un support et une confiance de 1 Sa composition est la

suivante

Regravegle 1

=gt is_enrolled_in_o_is_composed_of initial_visit

is_part_of RacWithe

is_enrolled_in_o_is_composed_of six_month_visit

is_enrolled_in montelukast_study

is_enrolled_in_o_is_defined_by montelukast_sty_protocol

Le symbole (qui constitue la preacutemisse de la regravegle) repreacutesente lrsquoensemble de tous les attributs ducontexte formel Cette premiegravere regravegle du fait que la confiance est eacutegale agrave 1 peut ecirctre interpreacuteteacutee commele fait que tous les individus instances de C0 sont aussi instances des concepts deacutecrits par les attributsde la conclusion de la regravegle Dans ce premier cas tous les attributs nous inteacuteressent pour constituer unnouveau concept Alors aucun attribut de la regravegle nrsquoest exclu par lrsquoutilisateur et la regravegle 1 est transformeacuteepar le systegraveme en sous la forme de la deacutefinition de concept suivante

Cnew1 equiv is_enrolled_in is_composed_of initial_visit ⊓is_part_of RacWithe ⊓is_enrolled_in is_composed_of six_month_visit ⊓is_enrolled_in montelukast_study ⊓is_enrolled_in is_defined_by montelukast_sty_protocol

On peut tout drsquoabord remarquer que la quatriegraveme ligne de la deacutefinition de Cnew1 correspond agraveune partie de la description de C0 De faccedilon informelle le concept Cnew1 peut ecirctre interpreacuteteacute commeldquolrsquoensemble des individus qui sont recruteacutes dans lrsquoeacutetude du montelukast qui sont recruteacutes dans quelquechose qui est composeacute drsquoune visite initiale et drsquoune visite agrave six mois qui sont drsquoune ethnie blanche70et qui sont recruteacutes dans quelque chose qui est deacutefini par le protocole de lrsquoeacutetude du montelukastrdquo Cecicorrespond finalement agrave une description preacutecise des patients qui sont impliqueacutees dans lrsquoeacutetude du mon-telukast Une telle description nrsquoexiste pas dans la dans laquelle la description des patients se limite agravela deacutefinition du concept patient et agrave son concept parent person

Alors le nouveau concept Cnew1 est inseacutereacute dans la Pour cela un nom plus explicite que Cnew1lui est attribueacute par lrsquoutilisateur montelukast_study_patient Le systegraveme le branche dans un premiertemps agrave la racine des concepts de la ⊤ Dans un deuxiegraveme temps lrsquoutilisation du meacutecanisme de clas-sification permet de proposer un nouveau positionnement au concept montelukast_study_patientdans la hieacuterarchie de concepts Le reacutesultat est le suivant

montelukast_study_patient ⊑ patient

Ce positionnement srsquoexplique par (1) la deacutefinition du concept patient initiale dans lrsquoontologie SO-Pharm qui contient lrsquoaxiome

patient equiv exist is_enrolled_inclinical_trial ⊔ exist is_part_ofclinical_trial_panel

et (2) lrsquoaxiome drsquoassertion

clinical_trial(montelukast_study)

70La notion drsquoethniciteacute est rapporteacutee dans lrsquoeacutetude selon les recommandations de lrsquoInstitut National de la Santeacute eacutetats-unien (leNIH) httpgrants2nihgovgrantsguidenotice-filesNOT-OD-01-053html

134 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

selon lequel lrsquoindividu montelukast_study est une instance du concept clinical_trial suite aupeuplement de la A partir de ces deux eacuteleacutements le systegraveme peut deacuteteacuterminer que la deacutefinition dunouveau concept contient un condition suffisante pour infeacuterer que toutes ses instances sont eacutegalementinstances de patient

A ce niveau lrsquoutilisateur doit deacuteterminer si le nouveau concept est une meilleure deacutefinition de ce quidevrait ecirctre repreacutesenteacute par son subsumant le plus speacutecifique ou bien si le nouveau concept est effective-ment un sous-concept de celui-ci De par le fait que le nouveau concept (montelukast_study_patient)est effectivement un concept diffeacuterent de son subsumant le plus speacutecifique (patient) le nouveau conceptest positionneacute dans la par lrsquoinsertion de lrsquoaxiome drsquoinclusion de concept proposeacute par le systegraveme

Concernant la potentielle creacuteation de nouveaux rocircles et de nouvelles assertions de rocircles les couplespossibles entre les individus impliqueacutes dans la regravegle sont examineacutes par le systegraveme Il existe deacutejagrave desassertions de rocircles entre initial_visit six_month_visit et montelukast_sty_protocol dansla aussi la possibiliteacute de creacuteer des assertions associant ces individus est rejeteacutee Les relations possiblesentre les autres individus ne paraissent pas suffisamment inteacuteressantes agrave lrsquoutilisateur pour donner lieu agravela creacuteation de rocircles ou drsquoassertions de rocircles Au final aucun rocircle ou assertion de rocircle nrsquoest creacuteeacute agrave partirde cette regravegle

Les paramegravetres de cette iteacuteration et son premier reacutesultat sont illustreacutes sur la repreacutesentation de lrsquointer-face graphique du plug-in de Proteacutegeacute deacutedieacute agrave lrsquo preacutesenteacute dans la Figure 47

Lors de cette premiegravere iteacuteration la profondeur dmax utiliseacutee est eacutegale agrave 2 Aussi les rocircles impliqueacutesdans la deacutefinition du concept sont constitueacutes au maximum drsquoune seule composition de rocircles Augmenterla profondeur de recherche dans les graphes drsquoassertions permet de geacuteneacuterer des attributs qui correspon-dent agrave des compositions multiples de rocircles (par exemple 3 compositions de rocircle au maximum pourdmax=4) Ceci est illustreacute par lrsquoiteacuteration suivante du processus drsquo qui aboutit agrave lrsquoenrichissement de ladeacutefinition de notre nouveau concept montelukast_study_patient

Deuxiegraveme iteacuteration Les paramegravetres deacutefinis pour cette deuxiegraveme iteacuteration sont identiques agrave ceux utiliseacutespreacuteceacutedemment excepteacute pour la profondeur dmax qui est augmenteacutee De cette faccedilon nous avons

ndash C0 equiv patient ⊓ is_enrolled_in montelukast_studyndash dmax= 3ndash min_supp = 08ndash min_conf = 08Preacutealablement agrave la fouille nous excluons un sous-ensemble drsquoattributs non pertinents afin de deacutecharger

le nombre drsquoattributs dans les regravegles Une des premiegraveres regravegles geacuteneacutereacutees preacutesentant un support et uneconfiance de 1 est la suivante

Regravegle 2

=gt presents_clinical_item_o_is_the_observed_genotype_for_o_isVariantIn CYSLTR1

presents_clinical_item_o_is_the_observed_genotype_for_o_isVariantIn ALOX5

presents_clinical_item_o_is_the_observed_genotype_for_o_isStoredInVarDb ncbi_dbsnp_125

presents_clinical_item_o_is_the_observed_genotype_for_o_isVariantIn LTA4H

presents_clinical_item_o_is_the_observed_genotype_for_o_isVariantIn ABCC1

is_enrolled_in montelukast_study

presents_clinical_item_o_is_the_observed_genotype_for_o_isVariantIn LTC4S

is_enrolled_in_o_is_defined_by_o_is_composed_of montelukast_treatment

La seacutelection drsquoattributs explique notamment que les attributs de la regravegle 1 (exclus lors de cette nou-velle iteacuteration) nrsquoapparaissent pas dans la regravegle 2 (sauf le sixiegraveme) En revanche les attributs ici associeacutes

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 135

nrsquoapparaissaient pas dans la regravegle 1 car les rocircles qursquoils invoquent impliquent lrsquoenchaicircnement de deuxcompositions de rocircle

Cette regravegle illustre le fait que chaque individu instance de C0 est associeacute agrave des items cliniques qui sontdes geacutenotypes observeacutes pour des variants localiseacutes sur cinq gegravenes CYSLTR1 ALOX5 LTA4H ABCC1

LTC4S Dans le cas de notre eacutetude sur le montelukast savoir que tous les patients ont des variantsgeacutenotypeacutes sur chacun de ces cinq gegravenes nrsquoest pas une connaissance nouvelle puisque celle-ci est deacutecritedans les meacuteta-donneacutees dont nous disposons agrave propos de lrsquoeacutetude (lrsquoarticle de Lima et al et les meacuteta-donneacutees associeacutees aux fichiers dans PharmGKB) Cependant la reacutegulariteacute exprimeacutee par cette regravegle peutpermettre de formaliser cette connaissance de faccedilon explicite dans la Pour cette raison nous proposonsun nouveau concept Cnew2 sur la base de cette regravegle Par ailleurs il est facile drsquoimaginer des cas ougrave lesmeacuteta-donneacutees disponibles sur les variants exploreacutes sont partielles ou inexistantes ou encore des cas ougravele nombre de variants exploreacutes est trop grand pour que ces meacuteta-donneacutees soient facilement exploitablesDans ces cas le concept traduit agrave partir de cette regravegle peut ecirctre porteur drsquoune connaissance nouvelle

Cnew2 equiv presents_clinical_item is_the_observed_genotype_for isVariantIn CYSLTR1 ⊓presents_clinical_item is_the_observed_genotype_for isVariantIn ALOX5 ⊓presents_clinical_item is_the_observed_genotype_for isVariantIn LTA4H ⊓presents_clinical_item is_the_observed_genotype_for isVariantIn ABCC1 ⊓is_enrolled_in montelukast_study ⊓presents_clinical_item is_the_observed_genotype_for isVariantIn LTC4S ⊓is_enrolled_in is_defined_by is_composed_of montelukast_treatment

Nous remarquons que le troisiegraveme attribut impliqueacute dans la conseacutequence de la regravegle 2 nrsquoa pas eacuteteacuteutiliseacute par le systegraveme dans la deacutefinition du nouveau concept Ceci est la conseacutequence de son exclusionpar lrsquoutilisateur comme le permet lrsquointerface graphique du plug-in lors de lrsquointerpreacutetation des regraveglesLa raison de ce choix deacutepend du contexte de lrsquoexpeacuterimentation pour lequel nous ne consideacuterons paspertinent le fait que tous les patients puissent ecirctre geacutenotypeacutes pour au moins un variant reacutepertorieacute dansdbSNP

Le positionnement proposeacute par le systegraveme pour ce nouveau concept dans la hieacuterarchie de conceptsde la est

Cnew2 ⊑ montelukast_study_patient

Dans ce cas le nouveau concept ne constitue pas aux yeux de lrsquoutilisateur un sous-ensemble des in-dividus deacutefinis par le concept montelukast_study_patient mais plutocirct une description diffeacuterente dece concept De fait nous choisissons drsquoenrichir la deacutefinition de montelukast_study_patient commele permet le systegraveme en positionnant Cnew2 par lrsquoajout dans la de lrsquoaxiome suivant

Cnew2 equiv montelukast_study_patient

Aucun rocircle nrsquoest creacuteeacute ou instancieacute agrave partir de cette regravegle

Les deux premiegraveres iteacuterations permettent drsquoillustrer deux fonctionnaliteacutes de lrsquo ndash premiegraverement lrsquoaugmentation du paramegravetre dmax permet drsquoextraire des connaissances qui mettent

en jeu des individus indirectement associeacutes dans la Lrsquoexemple preacutesenteacute ici illustre la deacutefinitiondrsquoun nouveau concept agrave partir de connaissances construites avec des donneacutees de lrsquoinvestigation dumontelukast et drsquoannotations sur la position des variants issues de dbSNP

ndash Deuxiegravemement une nouvelle description de concepts peut venir soit srsquoinseacuterer dans la hieacuterarchiede concepts (Cnew1) soit enrichir un deacutefinition existante (Cnew2)

136 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

Troisiegraveme iteacuteration Nous poursuivons lrsquoexploration de la avec le mecircme concept initial C0 la mecircmeprofondeur dmax = 3 mais nous diminuons le support minimum agrave 03 Les paramegravetres utiliseacutes cette foissont

ndash C0 equiv patient ⊓ is_enrolled_in montelukast_studyndash dmax= 3ndash min_supp = 03ndash min_conf = 08La recherche des RMNR reacutevegravele alors de nombreuses associations entre geacutenotypes Nous seacutelec-

tionnons les regravegles qui associent des geacutenotypes observeacutes sur le mecircme gegravene La regravegle 3 (support=031confiance=095) en est un exemple

Regravegle 3

presents_clinical_item chrX_77389891A-G

presents_clinical_item chrX_77367837A-G =gt presents_clinical_item chrX_77334462A-G

Ce genre de regravegle nous inteacuteresse particuliegraverement pour eacutetudier les geacutenotypes qui seacutegregravegent ensembleie qui sont transmis de faccedilon groupeacutee agrave la maniegravere des haplotypes Dans leur travaux Lima et al

mettent en eacutevidence trois groupes de geacutenotypes fortement associeacutes par deacuteseacutequilibre de liaison (Linkage

Desquilibrium ou LD en anglais) Ceux-ci sont reporteacutes dans la colonne de gauche du Tableau 44Suivant notre meacutethode nous isolons parmi la centaine de regravegles produites 7 regravegles qui nous permettentdrsquoisoler 7 groupes La regravegle 3 ci-dessus en est un exemple Lrsquoensemble de ces regravegles est reporteacute en AnnexeH avec leurs supports et confiances La colonne de droite du Tableau 44 repreacutesente les 7 groupes degeacutenotype associeacutes agrave partir de ces regravegles

Par ailleurs ce sont les associations entre les individus eacutevoqueacutes dans ces regravegles que nous souhaitonsinseacuterer dans la Aussi pour chaque regravegle nous ne construisons pas un nouveau concept mais cherchonsagrave instancier des rocircles entre les individus correspondant aux geacutenotypes

SO-Pharm ne dispose drsquoaucun rocircle dont le domaine et le co-domaine sont deacutefinis par le mecircme con-cept genomic_genotype ce qui permettrait drsquoassocier deux instances de ce concept auxquelles fontreacutefeacuterence les attributs des regravegles Aussi notre systegraveme drsquo propose automatiquement lors du traitementde la premiegravere regravegle associant des geacutenotypes la creacuteation drsquoun nouveau rocircle avec genomic_genotype endomaine et co-domaine Celui-ci est appeleacute par lrsquoutilisateur segregates_with Ensuite ce rocircle et soninverse (ie lui mecircme dans le cas particulier de segregates_with) sont instancieacutes avec chaque pairede geacutenotypes inclus dans une regravegle De cette faccedilon la regravegle 3 entraicircne apregraves validation de lrsquoutilisateurlrsquoinsertion dans la des 6 assertions de rocircles suivantes

segregates_with (chrX_77389891A-G chrX_77367837A-G)segregates_withminus(chrX_77389891A-G chrX_77367837A-G)

segregates_with (chrX_77389891A-G chrX_77334462A-G)segregates_withminus(chrX_77389891A-G chrX_77334462A-G)

segregates_with (chrX_77367837A-G chrX_77334462A-G)segregates_withminus(chrX_77367837A-Gbdquo chrX_77334462A-G)

Au total les 7 regravegles entraicircnent lrsquoinsertion dans la drsquoun nouveau rocircle (segregates_with) et de26 assertions de ce nouveau rocircle

Nous retrouvons les mecircmes groupes que Lima et Al Nos groupes sont plus restreints notammentpour le premier groupe du gegravene ABCC1 et celui du gegravene ALOX5 Cependant nous mettons en eacutevidence

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 137

Gegravene Geacutenotypes associeacutes Geacutenotypes associeacuteesLima et al (LD) Analyse des Assertions de Rocircles

ABCC1 Chr16 15986618G-G Chr16 15986618G-GChr16 15994334C-C Chr16 15994334C-CChr16 16016395A-A

Chr16 16045823T-T Chr16 16045823T-T Chr16 16045823C-TChr16 16047215T-T Chr16 16047215T-T Chr16 16047215C-T

ALOX5 Chr10 45190694C-T Chr10 45190694C-TChr10 45211490A-G Chr10 45211490A-G Chr10 45211490A-GChr10 45221095A-A Chr10 45221095A-G Chr10 45221095A-GChr10 45198914A-G Chr10 45198914A-AChr10 45237098A-G

CYSLTR1 empty ChrX 77346486T-TChrX 77356650G-GChrX 77389891G-G ChrX 77389891A-GChrX 77367837A-A ChrX 77367837A-GChrX 77334462A-A ChrX 77334462A-G

LTA4H empty empty

LTC4S empty empty

T 44 ndash Groupes de geacutenotypes associeacutes au sein des gegravenes eacutetudieacutes dans lrsquoinvestigation clinique de Limaet al [LZG+06] La colonne de gauche preacutesente les trois groupes de geacutenotypes mis en eacutevidence par Limaet al par la mesure des deacuteseacutequilibres de liaison (Linkage Desquilibrium ou LD en anglais) La colonnede droite preacutesente les groupes que nous avons mis en eacutevidence agrave partir du mecircme jeu de donneacutees aveclrsquo Cette deuxiegraveme colonne preacutesente dans certains cas deux associations de geacutenotypes diffeacuterents pourun mecircme groupe de variations (gegravene ABCC1 et CYSLTR1) Les regravegles dont sont extraits ces 7 groupessont reporteacutees en Annexe H

deux groupes particuliers qui correspondent agrave des allegraveles diffeacuterents de variations deacutejagrave impliqueacutees dansun groupe le couple Chr16 16045823C-T Chr16 16047215C-T et le triplet ChrX 77334462A-GChrX 77367837A-G ChrX 77389891A-G De plus nous mettons en eacutevidence une association entredeux groupes de geacutenotypes du gegravene CYSLTR1 absents des reacutesultats de Lima et al Les supports etconfiances de chaque regravegle reporteacutes en Annexe H permettent de juger la freacutequence dans la populationde ces associations

Quatriegraveme iteacuteration Nous poursuivons encore lrsquoexploration de la avec le mecircme concept initial C0

et la mecircme profondeur dmax en diminuant le support minimum cette fois agrave 02 Les paramegravetres utiliseacutessont ainsi

ndash C0 equiv patient ⊓ is_enrolled_in montelukast_studyndash dmax= 3ndash min_supp = 02ndash min_conf = 08Lrsquoobjectif de cette nouvelle iteacuteration est drsquoisoler des regravegles associant un attribut relatif au pheacutenotype

(Per= ldquogt009rdquo ldquo6008rdquo ou Exa=ldquoNordquo ldquoYesrdquo) et un ou plusieurs attributs deacutecrivant un geacutenotypespeacutecifique agrave ce pheacutenotype

138 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

Avec un support minimum de 02 le nombre de regravegles devient important (proche de 3000 regravegles)cependant les regravegles impliquant un attribut relatif au pheacutenotype sont relativement rares dans cet ensemble(lt5) Pour trouver ces regravegles plus facilement nous utilisons un systegraveme de filtres simples semblablesagrave ceux deacutecrits dans la section 14 du chapitre 2 Nous isolons au final 5 regravegles qui correspondent aumodegravele imposeacute par les filtres La regravegle 4 (support=026 confiance=080) ci-dessous en est un exempleLrsquoensemble des regravegles isoleacutees est reporteacute en Annexe H

Regravegle 4presents_clinical_item chrX_77334462A-G =gt presents_clinical_item chrX_77367837A-G

presents_clinical_item Per__-inf-008_

is_enrolled_in_o_is_defined_by_o_is_composed_of

montelukast_treatment

Le fait que la regravegle 2 ait un support et une confiance eacutegaux agrave 1 permet de deacuteduire que lrsquoattribut de saconclusion is_enrolled_in_o_is_de f ined_by_o_is_composed_o f montelukast_treatment est preacutesentdans toutes les regravegles Cet attribut nrsquoapparaicirct pas dans la regravegle 3 car nous lrsquoavions exclu de la recherchede regravegles comme le systegraveme le permet afin drsquoalleacuteger le nombre drsquoattributs dans les regravegles Nous nouspermettons cette exclusion car drsquoune part nous savons que cet attribut est preacutesent pour chaque objet ducontexte et drsquoautre part lors de lrsquoiteacuteration preacuteceacutedente nous ne cherchions pas de regravegles impliquant untraitement mais uniquement des geacutenotypes

Des cinq regravegles isoleacutees nous sommes capables drsquoidentifier quatre geacutenotypes et une paire de geacuteno-types speacutecifiques de trois pheacutenotypes diffeacuterents La colonne de droite du Tableau 45 preacutesente ces geacuteno-types La colonne de gauche de ce Tableau preacutesente les reacutesultats rapporteacutes dans Lima et al en utilisantdeux tests statistiques χ2 et le rapport de vraisemblance Avec lrsquo nous retrouvons deux des cinq geacuteno-types qursquoils associent agrave un pheacutenotype particulier (Chr5 179153244A-C et Chr12 94941021A-G) Lestrois geacutenotypes non retrouveacutes (Chr10 45221095G-G Chr16 15994335C-T et Chr12 94941021G-G)sont observeacutes dans Lima et al sur des sous-groupes de patients particuliegraverement restreints (respective-ment n = 6 8 et 5) Les donneacutees manquantes et le seuil utiliseacute (008) pour discreacutetiser lrsquoattribut ldquoPerrdquoramegravenent dans notre jeu de donneacutees ces populations agrave n= 4 5 et 5 Sur une population totale de 61patients la probabiliteacute drsquoobservation de ces geacutenotypes en mecircme temps que le pheacutenotype associeacute est alorsinfeacuterieure agrave 005 Pour les retrouver ensemble dans des regravegles il nous faudrait reacuteduire le support mini-mum en dessous de cette valeur Ceci aurait pour conseacutequence un accroissement important du nombrede regravegles et par conseacutequent du temps neacutecessaire pour isoler les regravegles pertinentes qui correspondent aumodegravele rechercheacute

Nous identifions cependant lors de cette iteacuteration quatre geacutenotypes speacutecifiques agrave des pheacutenotypes quine lrsquoavaient pas eacuteteacute par Lima et al

Au niveau de la chaque regravegle isoleacutee permet la creacuteation drsquoun nouveau concept Lrsquoutilisateur luiassocie un nom et le systegraveme lrsquoinsegravere dans la hieacuterarchie de concepts de la Par exemple la regravegle 4permet de deacutefinir le concept suivant nommeacute patient_with_low_chge_in_fev_grp2 par lrsquoutilisateur

patient_with_low_chge_in_fev_2 equiv presents_clinical_item chrX_77334462A-G ⊓presents_clinical_item chrX_77367837A-G ⊓presents_clinical_item Per__-inf-008_ ⊓

is_enrolled_in is_defined_by is_composed_of montelukast_treatment

De plus pour chaque regravegle des assertions des sous-rocircles du rocircle interacts_with sont creacuteeacutees enfonction des concepts dont sont instances les paires drsquoindividus consideacutereacutes De cette faccedilon la regravegle 4permet drsquoinseacuterer dans la entre autres les axiomes assertionnels suivants

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 139

Pheacutenotype Geacutenotypes speacutecifiques Geacutenotypes speacutecifiquesLima et al (χ2 rapport de vraisemblance) Analyse des Assertions de Rocircles

Per=ldquogt009rdquo Chr10 45221095G-G empty

Chr16 15994335C-TPer=ldquo6008rdquo empty Chr10 45211490A-A

ChrX 77334462A-GChrX 77367837A-G

Exa=ldquoNordquo Chr5 179153244A-C Chr5 179153244A-C

Chr16 161443440C-GExa=ldquoYesrdquo Chr12 94941021A-G Chr12 94941021A-G

Chr12 94941021G-G

T 45 ndash Geacutenotypes speacutecifiques aux pheacutenotypes preacutesenteacutes dans la colonne de gauche La colonne ducentre repreacutesente les geacutenotypes speacutecifiques mis en eacutevidence dans Lima et al par meacutethodes statistiques(χ2

et rapport de vraisemblance) [LZG+06] La colonne de droite repreacutesente les variations mises en eacutevidencepar notre approche drsquoAnalyse des Assertions de Rocircles Les regravegles qui mettent en eacutevidence ces associa-tions sont reporteacutees en Annexe H

interacts_with_phenotype (chrX_77334462A-G Per__-inf-008_)interacts_with_phenotypeminus(chrX_77334462A-G Per__-inf-008_)

interacts_with_drug_treatment (chrX_77334462A-G montelukast_treatment)interacts_with_drug_treatmentminus(chrX_77334462A-G montelukast_treatment)

ainsi que des axiomes de la mecircme forme impliquant le second geacutenotype (chrX_77367837A-G) etdrsquoautres agrave partir de Per__-inf-008_ et de montelukast_treatment

Au final les cinq regravegles sont agrave lrsquoorigine de cinq deacutefinitions de concepts et 68 assertions de rocirclesinseacutereacutes dans la

La classification drsquoinstances sur la permet de repreacutesenter explicitement les geacutenotypes pheacutenotypeset traitements qui interviennent dans une reacuteaction pharmacogeacutenomique agrave un traitement SO-Pharm con-tient initialement trois concepts deacutefinis de faccedilon symeacutetrique

ndash pharmacogenomic_genotype_itemndash pharmacogenomic_phenotype_item etndash pharmacogenomic_drug_treatment

Par exemple un geacutenotype qui intervient dans une reacuteaction pharmacogeacutenomique est deacutefini comme ungeacutenotype qui interagit agrave la fois avec un pheacutenotype et un traitement de la faccedilon suivante

pharmacogenomic_genotype_item equiv gt 1 interacts_with_phenotype ⊓gt 1 interacts_with_drug_treatment

Ainsi agrave partir de cette deacutefinition il est infeacutereacute que lrsquoindividu chrX_77334462A-G deacutejagrave instance degenotype_item est eacutegalement instance de pharmacogenomic_genotype_item

De la mecircme faccedilon la classification qui termine cette iteacuteration permet de statuer sur le fait quendash 6 individus instances de genotype_item sont aussi instances de pharmacogenomic_genotype_item

140 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

ndash 4 individus instances de phenotype_item sont instances de pharmacogenomic_phenotype_itemndash 1 individu instance de drug_treatment (montelukast_treatment) est eacutegalement instance depharmacogenomic_drug_treatment

245 Bilan et discussion

Lrsquo nous a permis drsquoextraire et de formaliser un certain nombre drsquouniteacutes de connaissances soitsous la forme drsquoaxiomes terminologiques (ie impliquant equiv ou ⊑) soit sous la forme drsquoaxiomes asser-tionnels (ie les assertions de rocircles et drsquoinstances) Ces uniteacutes de connaissances nrsquoeacutetaient preacutealablementpas preacutesentes dans la par conseacutequent nous les qualifions de nouvelles En outre lrsquoanalyste a lui mecircmejugeacute inteacuteressant de les inseacuterer dans la par conseacutequent nous les qualifions eacutegalement de pertinentesDe fait lrsquoexpeacuterimentation montre que lrsquo permet de retrouver lrsquoessentiel des reacutesultats qui avaient eacuteteacutemanuellement extrait par des meacutethodes statistiques classiques dans [LZG+06] des associations fortesentre geacutenotypes des associations geacutenotypendashpheacutenotype Notre meacutethode permet drsquoaller plus loin dans lrsquo-exploitation des donneacutees analyseacutees en isolant en plus de ces reacutesultats de nouvelles associations entregeacutenotypes de nouvelles relations geacutenotypendashpheacutenotype et des relations geacutenotypendashtraitementndashpheacutenotypeLrsquoensemble de ces reacutesultats est repreacutesenteacute de faccedilon formelle dans la qui peut ecirctre enrichie avec denouvelles donneacutees ou donner lieu agrave de nouvelles expeacuterimentations

Lrsquoexpeacuterimentation montre que la preacuteparation des donneacutees le parameacutetrage lrsquoexclusion drsquoattributspermettent drsquoorienter et de controcircler lrsquo Lrsquoinfluence de ces diffeacuterentes opeacuterations sur les reacutesultats delrsquoanalyse est discuteacutee dans la suite de cette section

La discreacutetisation des valeurs de lrsquoattribut ldquoPerrdquo effectueacutee lors de lrsquoeacutetape de preacuteparation des donneacuteesest un premier facteur jouant sur les reacutesultats En effet le choix drsquoun seuil moins eacuteleveacute pour la discreacuteti-sation par exemple 004 au lieu de 008 permettrait drsquoaugmenter le nombre drsquoobjets qui preacutesentent unevaleur au dessus de ce seuil et par conseacutequent drsquoaugmenter le nombre drsquoobjets qui peuvent preacutesenter agravela fois une valeur de ldquoPerrdquo au dessus du seuil et un geacutenotype particulier La valeur choisie pour ce seuilexplique en partie pourquoi contrairement agrave Lima et al nous ne retrouvons pas de geacutenotype speacutecifiqueau pheacutenotype Per=ldquogt009rdquo Lrsquoautre explication reacuteside dans le faible nombre de cas sur lesquels se basentLima et al pour estimer ces associations

Il apparaicirct au cours de lrsquoexpeacuterimentation que lrsquoexclusion des attributs les moins pertinents du con-texte facilite lrsquoeacutetape drsquointerpreacutetation Le moyen proposeacute drsquoexclure des attributs dans lrsquoimpleacutementationactuelle est entiegraverement manuel Il serait certainement inteacuteressant drsquoadapter lrsquoapproche de seacutelection dedonneacutees guideacutee par les connaissances proposeacutee dans la section 1 de ce chapitre pour faciliter lrsquoexclusiondrsquoattributs du contexte manipuleacute en

Le nombre de regravegles produites est un facteur important de la difficulteacute agrave interpreacuteter les reacutesultats Cenombre de regravegle est tout drsquoabord sensible au nombre drsquoattributs consideacutereacutes pour la recherche des regraveglesmais aussi sensible agrave drsquoautres paramegravetres Ainsi la profondeur dmax entraicircne la constitution drsquoun con-texte plus volumineux et par conseacutequent une production de regravegles souvent plus nombreuses Enfin lessupport et confiance minimums permettent de moduler le nombre de regravegles Hypotheacutetiquement il pour-rait eacutegalement ecirctre envisageacute de contraindre le parcours des graphes drsquoassertions de sorte agrave ce que seulsles chemins associeacutes agrave une seacutemantique deacutefinie soient parcourus En conseacutequence le contexte reacutesultant nepreacutesenterait que les attributs geacuteneacutereacutes agrave partir du parcours de ces chemins speacutecifiques

Voici un ordre de grandeur du nombre de regravegles produites lors des diffeacuterentes iteacuterations preacutesenteacutees

premiegravere iteacuteration lt 10 regraveglesdeuxiegraveme iteacuteration lt 20 regraveglestroisiegraveme iteacuteration lt 100 regraveglesquatriegraveme iteacuteration lt 3000 regravegles

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 141

Lorsque le support est diminueacute en deccedila de 02 le nombre de regravegles augmente davantage et lrsquointerpreacutetationdevient deacutelicate malgreacute lrsquoutilisation de filtres Ceci est en partie ducirc agrave la meacutethode de fouille utiliseacutee dontlrsquoobjectif est la recherche de regravegles freacutequentes Dans le cas ougrave les regravegles rechercheacutees apparaissent avecun support de 01 lrsquoutilisation drsquoune meacutethode baseacutee sur la notion de freacutequence est fortement discutableCependant lrsquoaspect iteacuteratif de notre approche peut ecirctre utiliseacute pour mettre en œuvre une nouvelle iteacuterationdans laquelle le concept initial C0 peut seacutelectionner un ensemble drsquoindividus plus restreints au sein duquelpeut se reacuteveacuteler freacutequente une association peu freacutequente sur un ensemble plus large drsquoindividus

Une piste particuliegraverement inteacuteressante est la mise en eacutevidence des geacutenotypes fortement associeacutes agraveun pheacutenotype rare Pour cela une meacutethode particuliegravere de recherche drsquoassociations dont le support estfaible est la recherche de regravegles rares ie drsquoassociations qui contrairement aux regravegles drsquoassociationssurviennent avec une freacutequence infeacuterieure agrave un seuil deacutefini [SNV07] Cette expeacuterimentation confirmeque les regravegles rares avec une confiance eacuteleveacutee semblent propices agrave lrsquoextraction des connaissances enpharmacogeacutenomique ougrave la notion drsquointeacuterecirct nrsquoest pas forcement coupleacutee agrave celle de freacutequence eacuteleveacutee

Actuellement seule lrsquoapparition simultaneacutee drsquoattributs dans une regravegle est utiliseacutee On peut supposeragrave premiegravere vue que lrsquoextraction de motifs freacutequents (par exemple les motifs fermeacutes freacutequents) pourraitecirctre suffisante agrave lrsquoobtention des mecircmes reacutesultats puisque la notion de regravegle (et notamment le fait qursquounattribut soit en preacutemisse ou en conclusion) nrsquoest pas exploiteacutee Cependant nous utilisons tout drsquoabordla mesure de la confiance propre aux regravegles drsquoassociations comme une marge permettant agrave supportconstant de trouver des associations non systeacutematiques entre les attributs Lrsquoexistence de donneacutees man-quantes ou entacheacutees drsquoerreurs dans les jeux de donneacutees biologiques manipuleacutes est agrave lrsquoorigine de cetteconsideacuteration Ensuite et surtout la seacutemantique associeacutee agrave une regravegle bien qursquoencore inexploiteacutee dans ladescription actuelle de lrsquo est une des eacutevolutions que nous souhaiterions apporter agrave cette meacutethodeDans ce sens Rudolph et Voumllker exploitent par exemple la seacutemantique des implications entre attributs dela forme A rarr B ougrave A et B sont deux ensembles drsquoattributs pour deacutefinir des nouveaux axiomes en dela faccedilon suivante A ⊑ B ougrave A et B sont les concepts qui correspondent aux ensembles drsquoattributs A et B

[VR08] Les reacutesultats tregraves reacutecents preacutesenteacutes par Kroumltzsch et al sur la description en de la seacutemantiqueassocieacutee agrave des regravegles constituent une base solide pour appuyer une telle eacutevolution [MK08]

Il est important de noter que la meacutethode deacutecrite nrsquoa pas la preacutetention de remplacer les meacutethodesstatistiques classiques drsquoanalyse de donneacutees En revanche nous pensons et lrsquoexpeacuterimentation preacutesenteacuteeva dans ce sens que cette meacutethode peut ecirctre utiliseacutee de faccedilon compleacutementaire en deuxiegraveme approchepour venir enrichir des reacutesultats initiaux et orienter de nouvelles investigations cliniques ou biologiques

Des expeacuterimentations suppleacutementaires non deacutecrites dans le cadre de cette section nous encouragentdans cette direction puisqursquoelles permettent drsquoutiliser les annotations des variants des gegravenes des reacuteseauxmeacutetaboliques inteacutegreacutees agrave la pour mettre en eacutevidence des reacutegulariteacutes entre un pheacutenotype intervenantdans une reacuteaction pharmacogeacutenomique et la reacutegion particuliegravere de certains gegravenes (voir regravegle 5) ou encoredes reacutegulariteacutes entre un groupe de pheacutenotypes et des variations geacutenomiques localiseacutees sur des gegravenesimpliqueacutes dans une voie meacutetabolique particuliegravere (voir regravegle 6) Les deux exemples de regravegles preacutesenteacutesci-apregraves obtenus par illustrent ce genre drsquoassociations

Regravegle 5isVariantIn_o_interacts_with Per__-inf-008_ =gt isDnaVariantIn intron

isVariantIn_o_interacts_with_o_interacts_with ALOX5

isVariantIn_o_interacts_with_o_interacts_with CYSLTR1

142 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

Regravegle 6isVariantIn_o_interacts_with exacerbation =gt isVariantIn_o_interacts_with arachidonic_acid_metabolism

isVariantIn_o_interacts_with_o_interacts_with LTC4S

isVariantIn_o_interacts_with_o_interacts_with eicosanoid_pathway

isVariantIn_o_interacts_with_o_interacts_with LTA4H

Lrsquo permet ici lrsquoacquisition et lrsquoinsertion de connaissances implicites et nouvelles dans une rel-ative agrave la variabiliteacute de reacuteponses au traitement par montelukast Ces connaissances sont acquises agrave partirdes reacutesultats drsquoune investigation particuliegravere et sont deacutefinies en tant que telle dans la Une prolonga-tion inteacuteressante de lrsquoutilisation de ce genre de connaissances serait leur interpreacutetation et leur validationexpeacuterimentale par des biologistes Ceci pourraient sur cette base geacuteneacuteraliser les connaissances mises eneacutevidence par sur un panel restreint puis les inseacuterer dans la avant de les soumettre agrave PharmGKB

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 143

25 Travaux similaires

Pour comparer agrave lrsquoexistant la meacutethode drsquo que nous proposons il est neacutecessaire de consideacutererseacuteparement lrsquoeacutetape preacuteliminaire de peuplement de la et la phase drsquoextraction de connaissances Lapremiegravere eacutetape de peuplement de lrsquoontologie (0) est abordeacutee dans le Chapitre 2 section 32 nous nrsquoyrevenons pas ici Par contre nous distinguerons deux grands groupes de travaux qui manipulent conjoin-tement meacutethodes de fouille de donneacutees et repreacutesentation des connaissances

ndash Le premier regroupe des travaux sur lrsquoacquisition de connaissances formelles agrave partir de donneacuteesde textes ou de pages Web Ils ne supposent pas lrsquoexistence de connaissances deacutejagrave formaliseacuteesagrave lrsquoorigine du travail Ces travaux megravenent le processus drsquo agrave son terme ougrave les reacutesultats de lafouille sont interpreacuteteacutes et formaliseacutes dans des langages de repreacutesentation des connaissances

ndash Le second regroupe des travaux qui tirent parti de connaissances deacutejagrave formaliseacutees pour la miseen oeuvre de meacutethodes drsquoextraction de connaissances Lrsquoobjectif de ce second type de travaux estgeacuteneacuteralement lrsquoenrichissement des connaissances initialement disponibles

251 Lrsquoacquisition de connaissances

Lrsquoacquisition de connaissances agrave partir de donneacutees de textes ou de pages Web est eacutegalement appeleacuteeapprentissage drsquoontologie (traduction de ontology learning en anglais) [BCM05] Les sources de donneacuteeset les meacutethodes de fouilles utiliseacutees dans ce cadre sont diverses Un exemple simple est lrsquoutilisation quefont Clerkin et al [CCH01] de lrsquoalgorithme COBWEB pour organiser des donneacutees selon une hieacuterarchiede clusters qui est ensuite transformeacutee en une hieacuterarchie de concepts (ou classes) sous forme drsquoun grapheRDF reprenant la structure hieacuterarchique des clusters La Figure 48 repreacutesente lrsquoexemple de geacuteneacuterationdrsquoontologie avec COBWEB donneacutee par Clerkin et al

F 48 ndash Un jeu de donneacutees exemple concernant la morphologie de cellules soumis agrave COBWEB lahieacuterarchie de cluster produite et la hieacuterarchie de concepts (ou classes) RDF deacuteduite [CCH01]

Si le nombre et le volume des bases de donneacutees ont consideacuterablement augmenteacute ces derniegraveres anneacuteesdans beaucoup de domaines un volume consideacuterable de connaissances nrsquoest encore disponible que sousforme de texte en langage naturel et notamment drsquoarticles de revues speacutecialiseacutees En conseacutequence denombreux travaux ce sont inteacuteresseacutes agrave extraire et formaliser des connaissances contenues dans des corpus

144 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

F 49 ndash Un treillis de concepts notation reacuteduite produit agrave partir de textes (agrave gauche) et la hieacuterarchie deconcepts en laquelle il est transformeacute (agrave droite) suivant la meacutethode proposeacutee dans [CHS05]

de textes (voir [BCM05] pour une vue drsquoensemble) Dans cette optique Cimiano et al deacuterivent agrave partir detextes une hieacuterarchie de concepts [CHS05] Pour cela ils construisent dans un premier temps un contexteformel agrave lrsquoaide de meacutethodes de TAL qui leur permettent drsquoextraire des relations entre termes associeacutesdans les textes Dans un deuxiegraveme temps le contexte formel construit est soumis agrave des meacutethodes drsquopour produire un treillis ensuite transformeacute et compacteacute en un ordre partiel speacutecifique qui constitue uneontologie Un exemple de treillis produit et la hieacuterarchie de concepts en laquelle il est transformeacute sontrepreacutesenteacutes Figure 49 La transformation du treillis revient agrave (1) retirer le concept bottom (2) creacuteer unconcept dit ontologique pour chaque concept formel avec comme nom lrsquointension du concept formel et(3) creacuteer un sous-concept relieacute au preacuteceacutedent pour chaque eacuteleacutement preacutesent dans lrsquoextension du conceptformel en question La hieacuterarchie produite est finalement reacuteduite afin de limiter le nombre potentiellementtregraves eacuteleveacute de concepts qui reacutesultent de la transformation drsquoun grand treillis Pour cela les concepts ditontologiques qui ont la mecircme extension en terme de concepts terminaux que leurs sous-concepts (ie

les mecircmes nœuds feuilles dans la hieacuterarchie) sont supprimeacutes Dans lrsquoexemple repreacutesenteacute Figure 49 leconcept rideable serait de cette faccedilon supprimeacute de la hieacuterarchie

Bendaoud et al ont proposeacute plus reacutecemment une meacutethode drsquoacquisition de connaissances agrave partirde textes qui srsquoappuie sur lrsquo Celle ci preacutesente deux avantages principaux par rapport agrave [BCM05] Lepremier est de produire non seulement une hieacuterarchie de concepts mais eacutegalement des instances asso-cieacutees aux concepts Ici le concept bottom est eacutelimineacute et les eacuteleacutements de lrsquoextension drsquoun concept formelservent eacutegalement agrave deacutecrire en les concepts de la hieacuterarchie comme dans [BCM05] En revanche leseacuteleacutements de lrsquointension des concepts formels servent agrave la creacuteation drsquoindividus qui instancient le conceptcorrespondant agrave lrsquoeacuteleacutement deacutecrit en extension La Figure 410 illustre cette transformation drsquoun treillisen une hieacuterarchie de concepts plus instances elle peut ecirctre compareacutee agrave la Figure 49 Dans un sens lafaccedilon de deacutecrire en les concepts formels deacutepend de la faccedilon dont les connaissances contenues dansles textes est codeacutee dans le contexte formel Cependant les correspondances entre drsquoabord lrsquoextensionde concepts formels et la description de concepts en et ensuite entre intension et instances semblentrelativement naturelles Le deuxiegraveme avantage de cette meacutethode consiste en lrsquoenrichissement de la hieacuterar-

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 145

F 410 ndash Un treillis de concepts notation reacuteduite produit agrave partir de textes (agrave gauche) et la hieacuterarchie deconcepts instancieacutee en laquelle il est transformeacute (agrave droite) suivant lrsquoalternative proposeacutee dans [BTN08]

chie de concepts par des rocircles entre les concepts en utilisant une meacutethode formelle appeleacutee lrsquoAnalyse deRelationnelle de Concepts ou Cet enrichissement preacutesente la particulariteacute de prendre en compte lahieacuterarchie des concepts pour la geacuteneacuteralisation de relations extraites des textes

Les connaissances sur la structuration des documents analyseacutes peuvent eacutegalement servir agrave guiderle processus drsquoacquisition de connaissance Crsquoest notamment le cas dans [KAB06] ougrave la connaissancedrsquoexperts sur la structuration des documents HTML est utiliseacutee pour favoriser la construction de clustersde termes homogegravenes agrave partir de pages Web

Cette cateacutegorie de travaux rassembleacutee sous le titre acquisition de connaissances peut ecirctre compareacuteeagrave lrsquoenchaicircnement des eacutetapes (ii) et (iii) de notre meacutethode drsquo Ces travaux permettent la formalisationde connaissances contenues dans des donneacutees des textes ou des pages Web et ce agrave lrsquoaide de meacutethodesde fouille de donneacutees et eacuteventuellement de repreacutesentations des connaissances du domaine pour [KAB06BTN08] Dans tous les cas les connaissances acquises par le processus sont enregistreacutees mais ne sontpas consideacutereacutees de sorte agrave pouvoir ecirctre reacuteutiliseacutees dans les opeacuterations drsquoacquisition de connaissancessuivantes Finalement ces meacutethodes considegraverent de faccedilon seacutepareacutee sources de donneacutees (bases de donneacuteestextes pages Web) et repreacutesentation des connaissances du domaine sans prendre en compte lrsquoexistencedes ontologies du domaine existant

252 La manipulation de connaissances pour extraire de nouvelles connaissances

Utilisation des meacutecanismes de raisonnement comme meacutethode drsquoapprentissage Un moyen originalde se servir de connaissances formaliseacutees pour lrsquoextraction de connaissances potentiellement utiles estlrsquoutilisation de meacutecanismes de raisonnement comme meacutethode drsquoapprentissage sur une plutocirct quedrsquoalgorithmes de fouille sur des bases de donneacutees Ce sont alors les concepts rocircles instances et axiomesde la qui sont directement manipuleacutes par ces meacutecanismes de raisonnement En pratique ceux-ci sontappliqueacutes agrave des en pour formaliser explicitement des connaissances implicites Le plus souventils mettent en lumiegravere des eacuteleacutements de connaissance eacutevidents pour lrsquoanalyste (humain) et sont rarementefficaces pour la deacutecouverte de connaissances dans le cadre de lrsquoECBD Un travail qui fait exception estla classification des proteacuteines phosphatases proposeacutee par Wostencroft et al [WLT+06] Les auteurs sebasent sur une ontologie en qui deacutecrit la composition en domaines des proteacuteines de la famille des phos-

146 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

F 411 ndash Les diffeacuterences drsquoorganisation des domaines dans une sous-famille de proteacuteines phosphatases les reacutecepteurs tyrosines phosphatases Ces organisations sont repreacutesenteacutees dans lrsquoontologie des phos-phatases et utiliseacutees pour la classification automatique de nouvelles proteacuteines [WLT+06]

phatases (voir Figure 411) Une proteacuteine y est repreacutesenteacutee comme un individu instance de lrsquoontologieauquel est associeacute la description de sa composition en domaines proteacuteiques Ils appliquent alors sur la associeacutee un meacutecanisme de raisonnement classique de classification drsquoinstances La comparaison drsquouneproteacuteine (donc drsquoun individu) aux descriptions des familles des phosphatases (ie des concepts deacutefinis)permet ainsi sa classification automatique dans la famille agrave laquelle elle appartient La classification reacute-sultante a permis drsquoaffiner la classification des phosphatases deacutefinie par les experts et de corriger pourcertaines proteacuteines lrsquoannotation qui indique leur appartenance agrave une famille ou agrave une autre

Moyennant quelques adaptations il est eacutegalement possible de transformer (ou coder) certains eacuteleacute-ments de connaissance afin que ceux ci puissent-ecirctre consideacutereacutes par des meacutethodes de fouille de donneacutees

Fouille de bases de cas Les eacuteleacutements de connaissances fouilleacutees par le systegraveme CA preacutesenteacutedans [dBL+07] sont des cas ie des couples (problegraveme solution) regroupeacutes dans une base de cas Lafouille de la base de cas par lrsquoextraction des motifs fermeacutes freacutequents a pour objectif la deacutecouverte deconnaissances drsquoadaptation ie un eacuteleacutement de connaissance qui deacutecrit comment eacutevolue la solution entredeux couples (problegraveme solution) quand le problegraveme eacutevolue Les reacutesultats extraits prennent la formede motifs fermeacutes freacutequents dont chaque eacuteleacutement deacutecrit lrsquoadaptation drsquoune proprieacuteteacute et dont lrsquoensemblepermet de deacuteduire des connaissances drsquoadaptation potentiellement utiles [dBL+07] propose dans lecontexte de bases de cas de traitement du cancer du sein un exemple de connaissance drsquoadaptationextraite et son interpreacutetation

Clustering conceptuel Les eacuteleacutements de connaissance peuvent eacutegalement ecirctre les individus drsquoune en comme dans [FdE08] pour lequel les auteurs proposent une meacutethode de clustering hieacuterarchique baseacuteesur une distance seacutemantique mesureacutee entre individus En accord avec cette distance deux individus quiappartiennent agrave un grand nombre de concepts communs dans la sont proches et inversement deuxindividus qui ne peuvent pas appartenir agrave des concepts communs sont eacuteloigneacutes (voir [FdE08] pour ladeacutefinition formelle de la distance) Le calcul de la distance neacutecessite lrsquointervention de meacutecanismes deraisonnement pour deacuteterminer lrsquoinstanciation des concepts (instance checking) Une meacutethode de cluster-ing inspireacutee des K-plus proches voisins utilise ensuite les distances entre individus pour construire unehieacuterarchie de clusters Les clusters construits peuvent ecirctre annoteacutes avec une description en qui carac-teacuterise au mieux les individus preacutesents dans le cluster en question tout en discriminant les individus desclusters de mecircme niveau dans la hieacuterarchie Cette description correspond au subsumeur commun le plus

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 147

speacutecifique de lrsquoensemble des concepts les plus speacutecifiques de chaque individu du cluster La descriptionreacutesultante est une approximation et demeure deacutependante de la description des concepts et de la reacutepar-tition des individus dans la (ie de la conceptualisation) Lrsquoajout de nouveaux individus dans la induit des modifications dans la structure hieacuterarchique en terme soit de nouveau cluster soit de nouvelledescription drsquoun cluster existant Cependant la modification de la TBox initiale agrave la vue de clusters et deleur description en associeacutee nrsquoest pas consideacutereacutee

Ces deux derniegraveres approches manipulent des connaissances repreacutesenteacutees formellement dans une mais ne reacuteutilisent pas (ou partiellement) les reacutesultats de fouille pour raffiner ou enrichir la analyseacutee

En revanche les travaux theacuteoriques de Rudolph et al [Rud06] et de Baader et al [BGSS07] (preacutesen-teacutes dans la section 22) et notre meacutethode drsquo (section 23) autorisent lrsquoenrichissement de la initiale

R Le travail de Ferreacute et al est agrave noter eacutegalement Ils utilisent aussi et conjointementmais dans un objectif inverse au nocirctre [FRS05] Lrsquoobjectif nrsquoest pas drsquoenrichir une ontologie (ou une )agrave partir de reacutesultats drsquo mais drsquoenrichir un treillis de concepts agrave lrsquoaide de la seacutemantique associeacutee aux

148 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

3 Discussion

Cette section discute dans un premier temps la meacutethode drsquoAnalyse des Assertions de Rocircles ()preacutesenteacutee dans la section 23 puis dans un second temps la proposition plus geacuteneacuterale drsquoExtraction deConnaissances agrave partir de Base de Connaissances ()

Lrsquo srsquoappuie sur un meacutecanisme qui transforme des connaissances repreacutesenteacutees en sous la formedrsquoun contexte formel manipulable par les meacutethodes drsquo Cette transformation permet de repreacutesen-ter dans le contexte formel produit (1) des assertions de rocircles qui relient les individus dans un graphedrsquoassertions (2) les assertions de concepts repreacutesenteacutees par les attributs du contexte Ainsi cette repreacutesen-tation des connaissances est une repreacutesentation partielle du contenu de la Par exemple les relations desubsomption entre concepts et entre rocircles ne sont pas repreacutesenteacutees dans le contexte Il peut pourtant ap-paraicirctre inteacuteressant de les consideacuterer dans lrsquoideacutee de retranscrire de faccedilon plus complegravete les connaissancescontenues dans la

Une meacutethode alternative agrave lrsquoexploration des graphes drsquoassertions pour retranscrire de faccedilon systeacutema-tique les connaissances drsquoune dans un format manipulable par des meacutethodes de fouille pourrait ecirctrelrsquoutilisation de la meacutethode drsquoAnalyse Relationnelle de Concept () [HHNV07] Cette meacutethode peutecirctre utiliseacutee pour consideacuterer lrsquoensemble des connaissances drsquoune agrave condition de retranscrire celles-cidans plusieurs contextes formels (par exemple un contexte pour les assertions de concepts un autre pourles assertions de rocircles encore un autre pour la hieacuterarchie de concepts etc) Lrsquo permet ensuite surla base des reacutegulariteacutes preacutesentes dans les contextes de geacuteneacuterer de nouvelles descriptions de concepts en qui prennent en consideacuteration les relations entre les eacuteleacutements impliqueacutes dans diffeacuterents contextes Lacontrainte importante associeacutee agrave lrsquoutilisation de lrsquo est la deacutefinition manuelle des contextes de leursrelations et enfin lrsquointerpreacutetation des nombreux concepts produits automatiquement En comparaisonavec lrsquo notre meacutethode drsquo propose un compromis qui permet une retranscription partielle des con-naissances de la et la production drsquoun contexte de taille raisonnable Une des hypothegraveses de deacutepartde lrsquo est notamment que les assertions de rocircles directes et indirectes peuvent deacutecrire des relationsplus ou moins freacutequentes entre diffeacuterentes cateacutegories drsquoindividus et par ce biais sont des connaissancessusceptibles drsquoecirctre porteuses de connaissances nouvelles

Un moyen drsquoeacutevaluer concregravetement lrsquoapport de lrsquo serait de comparer les reacutesultats drsquoune recherchedes RMNR sur un jeu de donneacutees brut par exemple les reacutesultats de lrsquoinvestigation clinique du mon-telukast utiliseacutee pour lrsquoexpeacuterimentation preacutesenteacutee section 24 avec les regravegles et reacutesultats produits parlrsquo Cette expeacuterimentation pourrait permettre de justifier lrsquoeffort que neacutecessite la construction de lrsquoon-tologie et la deacutefinition des mappings donneacutees-assertions pour la deacutecouverte de connaissances

Une utilisation inteacuteressante de lrsquo pourrait consister agrave positionner le concept initial C0 agrave la racine dela TBox (C0 equiv ⊤) puis agrave recueillir la totaliteacute des nouveaux concepts deacuteriveacutes des RMNR dans une nou-velle TBox vierge La comparaison entre la hieacuterarchie de concepts obtenue apregraves classification de cettenouvelle TBox et la hieacuterarchie de concepts de la initiale permettrait drsquoeacutevaluer en un sens la capaciteacutedes assertions de rocircles drsquoune agrave refleacuteter la repreacutesentation des connaissances eacutetablies et agrave en proposer denouvelles Dans une ideacutee proche les meacutethodes drsquoeacutevaluation drsquoontologies pourraient permettre de mesurerla progression entre la initiale et la finale apregraves [GCCL06]

Lrsquo (deacutetailleacutee et expeacuterimenteacutee sections 23 et 24) se veut une illustration de la proposition plusgeacuteneacuterale drsquo En effet lrsquo peut ecirctre mise en œuvre agrave lrsquoaide de diffeacuterentes meacutethodes Par exempledes meacutethodes de fouille de donneacutees alternatives agrave la recherche des RMNR pourraient ecirctre utiliseacuteesEn fonction de la meacutethode choisie il serait alors indispensable drsquoadapter les eacutetapes de preacuteparation etdrsquointerpreacutetation des reacutesultats de fouille qui deacutependent respectivement des formats drsquoentreacutee et du typedrsquouniteacutes drsquoinformation produit par la fouille Des meacutethodes de fouille alternatives qursquoil semble pertinent

3 Discussion 149

drsquoexpeacuterimenter sont par exemple la construction drsquoarbres de deacutecision ou le clustering conceptuel Unsystegraveme de repreacutesentation des connaissances diffeacuterent des pourrait eacutegalement ecirctre envisageacute

Suivant lrsquoexemple de lrsquo le processus drsquoextraction de connaissances reste centreacute sur un algorithmede fouille de donneacutees qui prend en entreacutee des connaissances preacutealablement preacutepareacutees en un format com-patible et produit en sortie des uniteacutes drsquoinformation extraites agrave interpreacuteter formaliser et inseacuterer dans la Malgreacute diffeacuterents essais cela reste un deacutefi de consideacuterer des meacutethodes drsquoapprentissage capables demanipuler les axiomes drsquoune ie capables de tenir compte de la seacutemantique qui leur est associeacutee etde leur reacutegulariteacutes [Mug91 Nap92 Ser07]

150 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

Conclusion et perspectives

Lrsquoensemble de la thegravese preacutesenteacutee dans ce manuscrit conforte la conviction selon laquelle lrsquoExtractionde Connaissances agrave partir de Bases de Donneacutees () doit ecirctre guideacutee agrave partir des connaissances dudomaine Dans ce contexte nous avons proposeacute et mis en œuvre un ensemble coheacuterent de meacutethodes afinde formaliser les connaissances drsquoun domaine inteacutegrer des donneacutees heacuteteacuterogegravenes relatives agrave ce domaineau sein drsquoune Base de Connaissances () et enfin analyser le contenu de cette pour en extraire denouvelles connaissances

La premiegravere contribution deacutecrit une meacutethode de construction drsquoontologie qui favorise la reacuteutilisationdrsquoontologies deacutejagrave existantes en les inteacutegrant au processus de construction De plus cette meacutethode inclutlrsquoeacutevaluation de la capaciteacute de lrsquoontologie construite agrave repreacutesenter les connaissances du domaine

Ensuite nous deacutecrivons une approche drsquointeacutegration de donneacutees qui srsquoappuie sur une formalisationtheacuteorique de la mise en correspondance de donneacutees et de connaissances La mise en œuvre de cetteapproche conduit agrave associer une seacutemantique preacutealablement deacutefinie agrave des donneacutees heacuteteacuterogegravenes afin de lesinteacutegrer au sein drsquoune

La reacutesultante constitue lrsquoeacuteleacutement central du processus drsquoExtraction de Connaissances agrave partir

drsquoune Base de Connaissances () Lrsquoideacutee originale ici est drsquoexplorer les reacutegulariteacutes drsquoune par oppo-sition agrave la recherche de reacutegulariteacutes agrave partir de bases de donneacutees Nous rapportons des reacutesultats prometteurssur la deacutefinition et la mise en œuvre drsquoune meacutethode drsquo particuliegravere appeleacutee lrsquoAnalyse drsquoAssertionsde Rocircles () Cette meacutethode srsquoattache agrave explorer les reacutegulariteacutes dans les assertions drsquoune Les uniteacutesde connaissances produites sont exprimeacutees suivant le mecircme formalisme que celui de la ce qui permetensuite leur manipulation par des meacutecanismes de raisonnement en vue de leur inteacutegration coheacuterente dansla Cette derniegravere contribution propose ainsi un moyen de mettre en œuvre un processus drsquoExtractionde Connaissance guideacutee par les Connaissances du Domaine

Ces reacutesultats illustrent que lrsquo peut ecirctre employeacutee avec succegraves pour la deacutecouverte de connaissancesen pharmacogeacutenomique De plus le cadre geacuteneacuteral de lrsquo peut ecirctre reacuteutiliseacute pour deacutecrire de nouvellesde meacutethodes diffeacuterentes de la nocirctre

Par ailleurs lrsquoensemble coheacuterent des meacutethodes deacutecrites dans la thegravese a eacuteteacute appliqueacute au domainede la pharmacogeacutenomique Nous avons ainsi construit deux ontologies de domaine La premiegravere SNP-Ontology formalise les connaissances sur les variations geacutenomiques La seconde SO-Pharm formaliseles connaissances du domaine de la pharmacogeacutenomique SNP-Ontology et SO-Pharm ont reccedilu un ac-cueil favorable par la communauteacute scientifique inteacuteresseacutee par la mise agrave disposition et le partage desbio-ontologies

Nous avons ensuite employeacute ces ontologies pour inteacutegrer selon lrsquoapproche drsquointeacutegration proposeacuteedes donneacutees pharmacogeacutenomiques issues de bases de donneacutees heacuteteacuterogegravenes Le reacutesultat de cette inteacutegra-tions est le peuplement de Bases de Connaissances relatives agrave ce domaine particuliegraverement concerneacute parle problegraveme de lrsquointeacutegration de donneacutees Dans le cas de donneacutees relatives au geacutenotype notre systegravemeSNP-Converter permet de reacuteconcilier les diffeacuterentes repreacutesentations des variations geacutenomiques Dans lecas drsquoinvestigations cliniques notre systegraveme iSO-Pharm permet de cumuler des donneacutees relatives augeacutenotype au pheacutenotype et au meacutedicament provenant drsquoinvestigations reacuteelles

151

152 Conclusion et perspectives

Enfin nous avons expeacuterimenteacute notre meacutethode drsquo lrsquo dans le contexte drsquoune instancieacutee pariSO-Pharm agrave partir drsquoune investigation clinique particuliegravere et de donneacutees compleacutementaires provenantde bases de donneacutees publiques Nos reacutesultats confortent et enrichissent les reacutesultats publieacutes sur cet essaiqui ont eacuteteacute obtenus gracircce aux meacutethodes statistiques classiques pour ce genre drsquoeacutetudes De plus lrsquointer-preacutetation des reacutesultats de la fouille a permis drsquoinseacuterer de nouvelles connaissances dans la initiale

Les perspectives susciteacutees par ce travail sont nombreuses En premier lieu il conviendrait de deacutefinirune proceacutedure drsquoeacutevaluation de la pertinence et de la nouveauteacute des uniteacutes de connaissances deacutecou-vertes par lrsquoapproche drsquo proposeacutee dans cette thegravese Une telle proceacutedure pourrait srsquoappuyer sur desmesures comparant les uniteacutes de connaissances au contenu preacutealable de la pour aider lrsquoexpert dansla tacircche de validation des reacutesultats de fouille Une deuxiegraveme perspective plus vaste porte sur lrsquoeacutelar-gissement du domaine drsquoapplication consideacutereacute ie la pharmacogeacutenomique agrave lrsquoeacutetude plus globale desinteractions gegravenes-environnement En effet les traitements meacutedicamenteux et les facteurs geacuteneacutetiquesne sont pas les seuls eacuteleacutements ayant un impact sur les traits du pheacutenotype Par exemple lrsquoeacutetat nutri-tionnel les micro-organismes intestinaux les maladies veacutecues lrsquoacircge drsquoun individu ont des impacts surson pheacutenotype et donc sur sa reacuteponse agrave un meacutedicament Dans cette direction il est possible drsquoeacutetendreles connaissances repreacutesenteacutees dans SO-Pharm pour consideacuterer les influences possibles de nouveauxfacteurs Il serait alors possible drsquoenvisager de peupler la version eacutetendue de SO-Pharm agrave partir des reacute-sultats drsquoessais ou de cohortes eacutetudiant de faccedilon plus geacuteneacuterales ces interactions gegravenes-environnement[Mau06 CLC+06 ORT08 RLSN08] La base de connaissances reacutesultante pourrait ecirctre utiliseacutee suivantlrsquoapproche drsquo proposeacutee dans cette thegravese avec comme objectif drsquoanalyser simultaneacutement les influ-ences quantitatives et qualitatives des divers facteurs sur le pheacutenotype Suivant cette ideacutee il serait in-teacuteressant drsquoutiliser des meacutethodes de fouilles de donneacutees alternatives agrave celles expeacuterimenteacutees dans le cadrede lrsquo Par exemple lrsquoextraction de motifs rares la classification hieacuterarchique la fouille de donneacuteestemporelles sont des meacutethodes qui paraissent adapteacutees aux particulariteacutes du domaine Lrsquoutilisation desconnaissances agrave priori pour la deacutecouverte de connaissances sur les interactions gegravenes-environnement re-pose eacutegalement sur la formalisation de la notion de pheacutenotype de ces diffeacuterents niveaux de granulariteacutede ces variations inter-individuelles et temporelles Une troisiegraveme perspective porte sur lrsquoappropriationpar les experts des outils de gestion des connaissances Les nombreux travaux exploitant les technologiesdu Web seacutemantiques laissent preacutesager lrsquoeacutemergence de systegravemes permettant de compleacuteter et drsquointerrogerune via un environnement de visualisation intuitif qui exploite par exemple la structure en grapheinheacuterente agrave une impleacutementeacutee en OWL ou encore les capaciteacutes drsquointerrogation du langage SPARQL[RMKM08 BdLM08] Lrsquointeacutegration de ces avanceacutees au niveau drsquoune interface utilisateur permettrait agravelrsquoexpert drsquoecirctre plus autonome tout au long du processus drsquo Enfin une quatriegraveme perspective est lrsquoap-plication de lrsquoapproche drsquo agrave des domaines diffeacuterents de celui de la pharmacogeacutenomique De tellesexpeacuterimentations permettraient drsquoeacutevaluer agrave quel point notre approche est geacuteneacuterique

Au terme de ce travail il apparaicirct que les contributions apporteacutees tant au domaine de lrsquoinforma-tique qursquoagrave celui de la pharmacogeacutenomique sont fructueuses et prometteuses Le caractegravere particuliegravere-ment interdisciplinaire de cette thegravese nous a conduit au deacuteveloppement de systegravemes opeacuterationnels pourla pharmacogeacutenomique agrave partir de technologies du Web seacutemantique Cependant le rocircle de la pharma-cogeacutenomique dans ce travail de thegravese ne se limite pas agrave un simple domaine drsquoapplication Par la com-plexiteacute de ses probleacutematiques ce domaine a orienteacute et motiveacute les approches informatiques proposeacutees quiresteront applicables agrave drsquoautres domaines Nous espeacuterons ainsi avoir contribueacute agrave la concreacutetisation du Webseacutemantique en deacutepassant le niveau du Web de donneacutees (en anglais Web of data)

Annexe A

Algorithme de recherche des RMN et desRMNR

153

154 Annexe A Algorithme de recherche des RMN et des RMNR

Description

Cet algorithme permet la recherche des Regravegles Minimales Non-redondantes (RMN) et des RegraveglesMinimales Non-Redondantes Reacuteduites (RMNR) [Sza06] Pour cela il prend en entreacutee trois paramegravetres (1) les motifs fermeacutes freacutequents (MFF) (2) les geacuteneacuterateurs freacutequents (GF) et (3) les valeurs du supportdes motifs Pour deacutecrire cet algorithme nous utilisons deux fonctions

getProperSuperSet prend deux paramegravetres un ensemble S de motifs et un motif p La fonctionretourne le super motif direct de p dans S Cette fonction peut tirer parti drsquoune structuration desmotifs sous forme drsquoun treillis

getSupportOf prend en paramegravetre un motif quelconque et renvoie son support Cette fonction peuteacutegalement tirer parti de lrsquoorganisation en treillis des motifs

R Lrsquoalgorithme peut ecirctre facilement adapteacute pour isoler les ensembles de regravegles qui corre-spondent agrave la Base Geacuteneacuterique (BG) la Base Informative (BI) et la Base Informative Reacuteduite (BIR)[Sza06]

Algorithme

Algorithme A1 Recherche des RMN et des RMNR

Entreacutee MFF GF valeurs de support des motifsSortie ensemble des RMN et des RMNR

1 Pour chaque geacuteneacuterateur g

2 CG larr getProperSuperSet(MFFg) retourne le super motif de g parmi les MFF3 4 Pour chaque eacutelement c de CG

5 premisselarr g

6 conclusionlarr (cg)7 supportPremisselarr gsupport8 supportConclusionlarr getSupportOf(conclusion)9 10 reglelarr (premisserarr conclusion)11 12 si conf(regle) ge min_con f conf(regle)=supp(csupp(g))13 Lrsquoeacutetape suivante est optionnelle Elle doit ecirctre exeacutecuteacutee14 si lrsquoon souhaite extraire les RMNR au lieu des RMN15 si conf(regle) 1016 CG larr CGgetProperSuperSet(MFFc) le supermotif de c est eacutelimineacute de CG17 fin si18 Rlarr R cup regle19 fin si20 Pour chaque22 Pour chaque23 Retourner R

Annexe B

Constructeurs en

155

156 Annexe B Constructeurs en

Nom du syntaxe syntaxe seacutemantique associeacuteeconstructeur en OWLConcept C C (URI) CI sube ∆I

Concept universel ⊤ owlThing ⊤I = ∆I

Bottom perp owlNothing perpI= empty

Intersection C ⊓ D intersectionOf(C D) (C ⊓ D)I = CI cap DI

Union C ⊔ D unionOf(C D) (C ⊔ D)I = CI cup DI

Neacutegation notC complementOf(C) (notC)I = ∆I CI

Enumeacuteration a b oneOf(a b ) a b I = aI bI

Quantificateur existRC restriction(R (existRC)I = x|existy (x y) isin RI and y isin CI

existentiel someValuesFrom(C))Quantificateur forallRC restriction(R (forallRC)I = x|forally (x y) isin RI rarr y isin CI

universel allValuesFrom(C))Restriction agrave ni Ra restriction(R (ni Ra)I = x|(x aI) isin RI

une valeur ou Ra hasValue(a))Restrictions = n R restriction(R (= n R)I = x| cardy|(x y) isin RI = n

non qualifieacutees cardinality(C))de cardinaliteacute gt n R restriction(R (gt n R)I = x| cardy|(x y) isin RI gt n

minCardinality(C))6 n R restriction(R (6 n R)I = x| cardy|(x y) isin RI 6 n

maxCardinality(C))Quantificateur existST restriction(S (existST)I = x|existy (x y) isin SI and y isin TI

existentiel someValuesFrom(T ))Quantificateur forallST restriction(S (forallST)I = x|forally (x y) isin SI rarr y isin TI

universel allValuesFrom(T ))Restriction agrave ni Sa restriction(S (ni Sa)I = x|(x aD) isin SI

une valeur ou Sa hasValue(a))Restriction = n S restriction(S (= n S)I = x| cardy|(x y) isin SI = n

non qualifieacutee cardinality(T ))de cardinaliteacute gt n S restriction(S (gt n S)I = x| cardy|(x y) isin SI gt n

minCardinality(T ))6 n S restriction(S (6 n S)I = x| cardy|(x y) isin SI 6 n

maxCardinality(T ))

T B1 ndash Constructeurs de concepts en Logique de Descriptions et leurs correspondances en OWLC et D sont des concepts (respectivement C et D sont des classes) T est un concept particulier qui cor-respond agrave un type de donneacutees (un Datatype en OWL) n est un nombre a et b sont des individus R unrocircle (une proprieacuteteacute drsquoobjet ou ObjectProperty en OWL) et S un rocircle dont le co-domaine correspond agrave unconcept de mecircme type que T (une proprieacuteteacute de donneacutees ou DatatypeProperty en OWL)

157

nom du constructeur syntaxe en syntaxe abstraite OWL seacutemantique associeacuteeRocircle inverse Rminus inverseOf(R) (Rminus)I = (x y) | (y x) isin RIComposition de R Q ndash (R Q)I = (x z) | existy(x y) isin RI

rocircle and(y z) isin QI

T B2 ndash Constructeurs de rocircles en Logique de Descriptions et leurs correspondances en OWL R etQ sont des rocircles (des proprieacuteteacutes drsquoobjet ou ObjectProperty en OWL)

158 Annexe B Constructeurs en

Annexe C

Exemple de code OWL

159

160 Annexe C Exemple de code OWL

F C1 ndash Code OWL qui correspond agrave la repreacutesenteacutee dans le Tableau 24 Ce code est enregistreacute dansle fichier ldquoexemple_de_bcowlrdquo

Annexe D

Modegravele conceptuel de SO-Pharm

161

162 Annexe D Modegravele conceptuel de SO-Pharm

F D1 ndash Diagramme de classes UML donnant une vue geacuteneacuterale mais partielle de la conceptualisationde SO-Pharm

Annexe E

Captures drsquoeacutecrans de SNP-Converter

163

164 Annexe E Captures drsquoeacutecrans de SNP-Converter

F E1 ndash Capture drsquoeacutecran de SNP-Converter Lrsquoonglet preacutesenteacute srsquointitule Data integration Il propose deseacutelectionner une liste de sources de donneacutees et une portion du geacutenome un exon un intron un gegravene entierou un espace situeacute entre deux nucleacuteotides Lrsquoexeacutecution de la fonction drsquointeacutegration de donneacutees de SNP-Converter par le bouton Run permet lrsquoinstanciation drsquoune Base de Connaissances SNP-KB qui permetdrsquoeacutevaluer le recouvrement des donneacutees contenues dans les diffeacuterentes sources et repreacutesenteacutees dans lecadre intituleacute Database overlapp Par exemple le premier variant de la liste est initialement preacutesent dansles 4 sources de donneacutees seacutelectionneacutees le second est preacutesent uniquement dans PharmGKB le troisiegravemeest dans HGVBase et PharmGKB

165

F E2 ndash Capture drsquoeacutecran de SNP-Converter Lrsquoonglet preacutesenteacute srsquointitule Conversion Il propose de saisirla descritpion drsquoun variant ici Chr6 18251934GgtC et de choisir un type de description diffeacuterent pourdeacutecrire le variant ici la position par rapport agrave lrsquoexon Lrsquoexeacutecution par le biais du bouton Run construitla description du variant donneacutee selon la description demandeacutee TPMT_exon_6 129GgtC Le variantdonneacute en entreacutee peut ecirctre soit un identifiant drsquoune base de donneacutees soit ecirctre deacutecrit suivant la nomenclatureHGVS

F E3 ndash Capture drsquoeacutecran de SNP-Converter Lrsquoonglet est le mecircme que celui preacutesenteacute dans la FigureE2 Cette figure repreacutesente en plus les diffeacuterents type de description suivant lesquelles il est possiblede convertir le variant donneacute nomenclature HGVS du variant positionneacute relativement agrave la seacutequence duchromosome de contigs de lrsquoexon de lrsquointron de la proteacuteine ou encore lrsquoidentifiant du variant dansdbSNP

166 Annexe E Captures drsquoeacutecrans de SNP-Converter

Annexe F

Algorithme de parcours drsquoun graphedrsquoassertions

167

168 Annexe F Algorithme de parcours drsquoun graphe drsquoassertions

Description

Lrsquoalgorithme suivant permet lrsquoexploration en profondeur drsquoun graphe drsquoassertions Ga(V E) avec ndash une profondeur maximale pmax la longueur maximale drsquoun chemin est limiteacutee par pmax dont la

valeur est preacuteciseacutee par lrsquoanalyste en deacutebut de processusndash lrsquointerdiction de faire des boucles lrsquoalgorithme interdit agrave un mecircme chemin de passer deux fois

par le mecircme nœudndash lrsquointerdiction de revenir en arriegravere apregraves avoir emprunteacute un arc dans un sens lrsquoalgorithme interdit

drsquoemprunter lors de lrsquoeacutetape suivante un arc avec le mecircme label en sens inverseCet algorithme correspond agrave une exploration iteacuterative en profondeur limiteacutee notamment par les trois

critegraveres eacutenumeacutereacutes ci-dessus Pour plus de lisibiliteacute nous articulons notre algorithme en trois fonctions ndash Exploration-graphe-d-assertionndash Exploration-profondeur-limiteacutee etndash EPL-reacutecursive

La description de ces trois fonctions srsquoinspire des algorithmes drsquoexploration en profondeur limiteacutee pro-poseacutees dans le livre de Russel et Norvig [RN03]

169

Algorithme

Algorithme F1 Parcours en profondeur drsquoun graphe drsquoassertions

1 fonction Exploration-graphe-d-assertion(Ga dmax)retourne un ensemble de chemins

2 ensembleDeChemins ≔ empty initialisation3 pour chaque pro f ondeur 6 dmax

4 si Exploration-profondeur-limiteacutee interruption5 ensembleDeChemins ≔ ensembleDeChemins

cup Exploration-profondeur-limiteacutee(Ga pro f ondeur)6 fin si7 fin pour8 retourner ensembleDeChemins

9 fonction Exploration-profondeur-limiteacutee(Ga pro f ondeur)retourne un ensemble de chemins pour une profondeur donneacutee ou interruption

10 a ≔ Nœud-racine[Ga] a est le nœud racine du graphe Ga11 Vvisiteacute[Ga]≔ Vvisiteacute[Ga] cup b ensemble de nœud visiteacutes11 retourner EPL-reacutecursive(Ga a pro f ondeur) reacutesultat de la fonction EPL-reacutecursive

12 fonction EPL-reacutecursive(Ga x pro f ondeur)retourne un chemin ou interruption

13 Rminus ≔ NIL initialisation drsquoun arc Rminus14 pour chaque b isin Adjacent[x] pour chaque nœud adjacent agrave x15 si b lt Vvisiteacute[Ga] le nœud adjacent nrsquoa pas eacuteteacute visiteacute

et (x b) Rminus lrsquoarc (x b) nrsquoest pas lrsquoinverse du dernier arc emprunteacuteet Profondeur[b] 6 pro f ondeur lrsquoexploration respecte la limite

16 Vvisiteacute[Ga]≔ Vvisiteacute[Ga] cup a17 Rminus ≔ Inverse[(x b)] Rminus est lrsquoarc inverse de celui emprunteacute18 chemin ≔ AjouterNœud(chemin b)19 EPL-reacutecursive(Ga b pro f ondeur)20 retourner chemin

21 sinon22 retourner interruption23 fin si24 fin pour

170 Annexe F Algorithme de parcours drsquoun graphe drsquoassertions

Annexe G

Captures drsquoeacutecrans du plugin de Proteacutegeacute 4pour lrsquoAAR

171

172 Annexe G Captures drsquoeacutecrans du plugin de Proteacutegeacute 4 pour lrsquoAAR

F G1 ndash Capture drsquoeacutecran du plugin de Proteacutegeacute 4 pour lrsquoAnalyse drsquoAssertions de Rocircles

Annexe H

RMNR extraites de la relative agravelrsquoinvestigation clinique du montelukast

173

174 Annexe H RMNR extraites de la relative agrave lrsquoinvestigation clinique du montelukast

Regravegles associant des geacutenotypes

Regravegle H1 (supp=049 conf=1)

presents_clinical_item chr16_16045823T-T =gt presents_clinical_item chr16_16047215T-T

Regravegle H2 (supp=038 conf=96)

presents_clinical_item chr16_16047215C-T =gt presents_clinical_item chr16_16045823C-T

Regravegle H3 (supp=064 conf=095)

presents_clinical_item chr16_15994334C-C =gt presents_clinical_item chr16_15986618G-G

Regravegle H4 (supp=044 conf=090)

presents_clinical_item chr10_45190694C-T

presents_clinical_item chr10_45211490A-G =gt presents_clinical_item chr10_45221095A-G

Regravegle H5 (supp=041 conf=1)

presents_clinical_item chr10_45198914A-A

presents_clinical_item chr10_45221095A-G =gt presents_clinical_item chr10_45211490A-G

Regravegle H6 (supp=039 conf=086)

presents_clinical_item chrX_77367837A-A =gt presents_clinical_item chrX_77346486T-T

presents_clinical_item chrX_77389891G-G

presents_clinical_item chrX_77356650G-G

presents_clinical_item chrX_77334462A-A

Regravegle H7 (supp=031 conf=095)

presents_clinical_item chrX_77389891A-G

presents_clinical_item chrX_77367837A-G =gt presents_clinical_item chrX_77334462A-G

Regravegles associant geacutenotype pheacutenotype et traitement

Regravegle H8 (supp=020 conf=080)

presents_clinical_item chr12_94941021A-A

presents_clinical_item chr16_16143440C-G =gt presents_clinical_item ExaNo

is_enrolled_in_o_is_defined_by_o_is_composed_of

montelukast_treatment

175

Regravegle H9 (supp=021 conf=081)

presents_clinical_item chr10_45211490A-A =gt presents_clinical_item Per__-inf-008_

is_enrolled_in_o_is_defined_by_o_is_composed_of

montelukast_treatment

Regravegle H10 (supp=026 conf=080)

presents_clinical_item chrX_77334462A-G =gt presents_clinical_item chrX_77367837A-G

presents_clinical_item Per__-inf-008_

is_enrolled_in_o_is_defined_by_o_is_composed_of

montelukast_treatment

Regravegle H11 (supp=020 conf=1)

presents_clinical_item chr12_94941021A-G

presents_clinical_item ExaYes =gt presents_clinical_item chr16_16024772C-C

is_enrolled_in_o_is_defined_by_o_is_composed_of

montelukast_treatment

Regravegle H12 (supp=026 conf=075)

presents_clinical_item chr5_179153244A-C

presents_clinical_item ExaNo =gt presents_clinical_item chr16_16024772C-C

is_enrolled_in_o_is_defined_by_o_is_composed_of

montelukast_treatment

176 Annexe H RMNR extraites de la relative agrave lrsquoinvestigation clinique du montelukast

Bibliographie

[AAD+96] S Agarwal R Agrawal P Deshpande A Gupta JF Naughton R Ramakrishnan andS Sarawagi On the computation of multidimensional aggregates In VLDB rsquo96 Pro-

ceedings of the 22th International Conference on Very Large Data Bases pages 506ndash521San Francisco CA USA 1996 Morgan Kaufmann Publishers Inc

[ABB+00] M Ashburner CA Ball JA Blake D Botstein H Butler JM Cherry APDavis K Dolinski SS Dwight JT Eppig MA Harris DP Hill L Issel-TarverA Kasarskis S Lewis JC Matese JE Richardson M Ringwald GM Rubin andG Sherlock Gene Ontology tool for the unification of biology Nat Genet 25(1) 25ndash29 2000

[ABC+99] RB Altman M Bada XJ Chai M Whirl Carrillo RO Chen and NF Abernethy Ri-boWeb An ontology-based system for collaborative molecular biology IEEE Intelligent

Systems 14(5) 68ndash76 1999

[ABG+06] M Ackermann B Berendt Marko Grobelnik A Hotho D Mladenic G SemeraroM Spiliopoulou G Stumme V Svaacutetek and M van Someren editors Semantics Web

and Mining Joint International Workshops EWMF 2005 and KDO 2005 Porto Portu-

gal October 3 and 7 2005 Revised Selected Papers volume 4289 of Lecture Notes in

Computer Science Springer 2006

[ABH95] SS Anand DA Bell and JG Hughes The role of domain knowledge in data miningIn CIKMrsquo95 Proceedings of the fourth international conference on Information and

knowledge management pages 37ndash43 New York NY USA 1995 ACM

[AEB+08] E Antezana M Egantildea B De Baets M Kuiper and V Mironov ONTO-PERL AnAPI for supporting the development and analysis of bio-ontologies Bioinformatics24(6) 885ndash887 2008

[AFC99] DB Aronow F Fangfang and WB Croft Ad hoc classification of radiology reportsJ Am Med Inform Assoc 6(5) 393ndash411 1999

[AIS93] R Agrawal T Imielinski and AN Swami Mining association rules between sets ofitems in large databases In P Buneman and S Jajodia editors SIGMOD Conferencepages 207ndash216 ACM Press 1993

[AK02] RB Altman and T Klein Challenges for biomedical informatics and pharmacoge-nomics Annu Rev Pharmacol Toxicol 42 113ndash33 2002

[AMB06] Y An J Mylopoulos and A Borgida Building semantic mappings from databases toontologies In AAAI AAAI Press 2006

[BA96] RJ Brachman and T Anand The process of knowledge discovery in databases InUM Fayyad G Piatetsky-Shapiro P Smyth and R Uthurusamy editors Advances in

Knowledge Discovery and Data Mining pages 37ndash57 AAAIMIT Press 1996

177

178 Bibliographie

[Bar02] MR Barnes SNP and mutation data on the Web - hidden treasures for uncoveringComp Funct Genomics 3(1) 67ndash74 2002

[Bat08] A Bateman Editorial Nucleic Acids Research 36(Database issue D1) 2008

[Bax06] AD Baxevanis Searching the NCBI databases using Entrez Curr Protoc Bioinfor-

matics 1(3) 2006

[BB06] CA Ball and A Brazma Mged standards work in progress Omics 10 138ndash44 2006

[BBL05] F Baader S Brandt and C Lutz Pushing the EL envelope In Kaelbling and Saffiotti[KS05] pages 364ndash369

[BC08] BioPAX Consortium BioPAX Biological pathways exchange http wwwbiopaxorg(derniegravere consultation 14 juillet 2008)

[BCBF08] A Bairoch S Cohen-Boulakia and C Froidevaux editors Data Integration in the

Life Sciences 5th International Workshop DILS 2008 Evry France June 25-27 2008

Proceedings volume 5109 of Lecture Notes in Computer Science Springer 2008

[BCGP04] J Barrasa O Corcho and A Goacutemez-Peacuterez R2O an extensible and semantically baseddatabase-to-ontology mapping language In Semantic Web and Databases Second Inter-

national Workshop SWDB 2004 Toronto Canada 2004

[BCM+03] F Baader D Calvanese DL McGuinness D Nardi and PF Patel-Schneider editorsThe Description Logic Handbook Theory Implementation and Applications Cam-bridge University Press 2003

[BCM05] P Buitelaar P Cimiano and B Magnini Ontology Learning from Text Methods Eval-

uation and Applications volume 123 of Frontiers in Artificial Intelligence IOS Press2005

[BDdG94] P Benlian F Dairou and JL de Gennes Apports de la geacuteneacutetique moleacuteculaire dans leshypercholesteacuteroleacutemies pures primitives Bulletin de lrsquoAcadeacutemie nationale de meacutedecine178(3) 393ndash404 Mar 1994

[BdLM08] F Badra M drsquoAquin J Lieber and T Meilender EdHibou a customizable interfacefor decision support in a semantic portal In International Semantic Web Conference

poster 2008

[BFG+04] P Buitelaar J Franke M Grobelnik G Paass and V Svatek editors Proceedings of

the Workshop on Knowledge Discovery and Ontologies at ECMLPKDDrsquo04 Pisa ItalySeptember 2004

[BFMD05] J C Barrett B Fry J Maller and M J Daly Haploview analysis and visualization ofLD and haplotype maps Bioinformatics 21(2) 263ndash5 Jan 2005

[BGL08] F Baader S Ghilardi and C Lutz LTL over description logic axioms In Baader et al[BLM08]

[BGSS07] F Baader B Ganter B Sertkaya and U Sattler Completing description logic knowl-edge bases using formal concept analysis In MM Veloso editor IJCAI pages 230ndash2352007

[BGvH+03] P Bouquet F Giunchiglia F van Harmelen L Serafini and H Stuckenschmidt C-owl Contextualizing ontologies In D Fensel KP Sycara and J Mylopoulos editorsInternational Semantic Web Conference volume 2870 of Lecture Notes in Computer

Science pages 164ndash179 Springer 2003

[BHS02] B Berendt A Hotho and G Stumme editors Proceedings of the Workshop on Semantic

Web Mining (SWMrsquo02 at ECMLPKDDrsquo02) Helsinki Finland August 2002

179

[BKvH02] J Broekstra A Kampman and F van Harmelen Sesame A generic architecture forstoring and querying RDF and RDF Schema In I Horrocks and JA Hendler editorsInternational Semantic Web Conference volume 2342 of Lecture Notes in Computer

Science pages 54ndash68 Springer 2002

[BLHL01] T Berners-Lee J Hendler and O Lassila The semantic Web Scientific American284(5) 35ndash43 May 2001

[BLM08] F Baader C Lutz and B Motik editors Proceedings of the 21st International Workshop

on Description Logics (DL2008) Dresden Germany May 13-16 2008 volume 353 ofCEUR Workshop Proceedings CEUR-WSorg 2008

[BPH05] A Bernstein FJ Provost and S Hill Toward intelligent assistance for a data min-ing process An ontology-based approach for cost-sensitive classification IEEE Trans

Knowl Data Eng 17(4) 503ndash518 2005

[Bri06] L Brisson Inteacutegration de connaissances expertes dans un processus de fouille de don-

neacutees pour lrsquoextraction drsquoinformations pertinentes Thegravese en informatique Universiteacute deNice - Sophia Antipolis France Deacutec 2006

[BS85] RJ Brachman and JG Schmolze An overview of the KL-ONE knowledge representa-tion system Cognitive Science 9(2) 171ndash216 1985

[BS04] F Baader and B Sertkaya Applying formal concept analysis to description logics InEklund [Ekl04] pages 261ndash286

[BSc07] B Berendt V Svagravetek and F Zelezny editors Proceedings of the Workshop on Prior

Conceptual Knowledge in Machine Learning and Knowledge Discovery (PriCKLrsquo07) at

ECMLPKDDrsquo07 Warsaw Poland September 2007

[BTN08] R Bendaoud Y Toussaint and A Napoli PACTOLE A methodology and a systemfor semi-automatically enriching an ontology from a collection of texts In PW Eklundand O Haemmerleacute editors ICCS volume 5113 of Lecture Notes in Computer Sciencepages 203ndash216 Springer 2008

[CBBDF07] S Cohen-Boulakia O Biton SB Davidson and C Froidevaux BioGuideSRS query-ing multiple sources with a user-centric perspective Bioinformatics 23(10) 1301ndash13032007

[CCH01] P Clerkin P Cunningham and P Hayes Ontology discovery for the semantic Webusing hierarchical clustering In Bettina Berendt Gerd Stumme Andreas Hotho editorProceedings of the Workshop on Semantic Web Mining (SWMrsquo01 at ECMLPKDDrsquo01)pages 27ndash38 Freiburg Germany September 2001

[CCQF05] J Chabalier C Capponi Y Quentin and G Fichant ISYMOD a knowledge warehousefor the identification assembly and analysis of bacterial integrated systems Bioinformat-

ics 21(7) 1246ndash1256 2005

[CFCH01] WW Chapman M Fizman BE Chapman and PJ Haug A comparison of classifica-tion algorithms to automatically identify chest x-ray reports that support pneumonia J

Biomed Inform 34(1) 4ndash14 2001

[CG05] D Calvanese and G De Giacomo Data integration A logic-based perspective AI

Magazine 26(1) 59ndash70 2005

[CGL+98] D Calvanese G De Giacomo M Lenzerini D Nardi and R Rosati Description logicframework for information integration In KR pages 2ndash13 1998

180 Bibliographie

[CGL+01] D Calvanese G De Giacomo M Lenzerini D Nardi and R Rosati Data integrationin data warehousing Int J Cooperative Inf Syst 10(3) 237ndash271 2001

[CGL+06] D Calvanese G De Giacomo D Lembo M Lenzerini and R Rosati Data complexityof query answering in description logics In P Doherty J Mylopoulos and CA Weltyeditors KR pages 260ndash270 AAAI Press 2006

[CGL+07] D Calvanese G De Giacomo D Lembo M Lenzerini and R Rosati Tractable rea-soning and efficient query answering in description logics The l-lite family J Autom

Reasoning 39(3) 385ndash429 2007

[CGLR04] D Calvanese G De Giacomo M Lenzerini and R Rosati Logical foundations ofpeer-to-peer data integration In A Deutsch editor PODS pages 241ndash251 ACM 2004

[CGLV01] D Calvanese G De Giacomo M Lenzerini and MY Vardi View-based query answer-ing and query containment over semistructured data In G Ghelli and G Grahne editorsDBPL volume 2397 of Lecture Notes in Computer Science pages 40ndash61 Springer 2001

[CHS05] P Cimiano A Hotho and S Staab Learning concept hierarchies from text corporausing formal concept analysis Journal of the Artifical Intelligence Research 24 305ndash339 2005

[CHST04] P Cimiano A Hotho G Stumme and J Tane Conceptual knowledge processing withformal concept analysis and ontologies In Eklund [Ekl04] pages 189ndash207

[CLC+06] TA Clayton JC Lindon O Cloarec H Antti C Charuel G Hanton JP Provost JLLe Net D Baker RJ Walley JR Everett and JK Nicholson Pharmaco-metabonomicphenotyping and personalized drug treatment Nature 440(7087) 1073ndash1077 2006

[CMF+07] G Colombo D Merico G Frisoni M Antoniotti F De Paoli and G Mauri An on-tological modeling approach to neurovascular disease study the NEUROWEB case InProceedings of the International Workshop on Network Tools and Applications in Biol-

ogy (NETTABrsquo07) pages 177ndash186 Pisa Italy 2007

[Con01] The International Human Genome Sequencing Consortium Initial sequencing and anal-ysis of the human genome Nature 409 860ndash921 2001

[Con03] The International HapMap Consortium The International HapMap Project Nature426 789ndash796 2003

[Con05] The International HapMap Consortium A second generation human haplotype map ofover 31 million snps Nature 449(7164) 851ndash861 2005

[CR04] C Carpineto and G Romano Concept Data Analysis Theory and Applications JohnWiley amp Sons Chichester England 2004

[CRS+04] H Cespivova J Rauch V Svatek M Kejkula and M Tomeckova Roles of medical on-tology in association mining CRISP-DM Cycle In P Buitelaar J Franke M GrobelnikG Paass and V Svatek editors Proceedings of the Workshop on Knowledge Discovery

and Ontologies at ECMLPKDDrsquo04 Pisa Italy September 2004

[CSTB+06] A Coulet M Smaiumll-Tabbone P Benlian A Napoli and MD Devignes SNP-Converter An ontology-based solution to reconcile heterogeneous SNP descriptions forpharmacogenomic studies In U Leser F Naumann and BA Eckman editors DILSvolume 4075 of Lecture Notes in Computer Science pages 82ndash93 Springer 2006

[CSTB+08] A Coulet M Smaiumll-Tabbone P Benlian A Napoli and MD Devignes Ontology-guided data preparation for discovering genotype-phenotype relationships BMC Bioin-

formatics 9(Suppl 4) S3 2008

181

[CSTND06] A Coulet M Smaiumll-Tabbone A Napoli and MD Devignes Suggested Ontologyfor Pharmacogenomics (SO-Pharm) Modular construction and preliminary testing InProceedings of the International Workshop on Knowledge Systems in Bioinformatics -

KSinBITrsquo06 volume LNCS 4277 pages 648ndash57 2006

[CSTND08a] A Coulet M Smaiumll-Tabbone A Napoli and MD Devignes Ontology refinementthrough Role Assertion Analysis Example in pharmacogenomics In Baader et al[BLM08]

[CSTND08b] A Coulet M Smaiumll-Tabbone A Napoli and MD Devignes Role Assertion Analysis a proposed method for ontology refinement through assertion learning In Proceedings

of the Fourth Starting AI Researchersrsquo Symposium (STAIRS 2008) pages 47ndash58 IOSPress 2008

[CWT06] TH Cheng CP Wei and VS Tseng Feature selection for medical data mining Com-parisons of expert judgment and automatic approaches In CBMS pages 165ndash170 IEEEComputer Society 2006

[dBL+07] M drsquoAquin F Badra S Lafrogne J Lieber A Napoli and L Szathmary Case basemining for adaptation knowledge acquisition In Proc of the 20th Intl Joint Conf on

Artificial Intelligence (IJCAIrsquo07) pages 750ndash755 Hyderabad India Jan 2007 MorganKaufmann Inc

[DCGR98] R Dieng O Corby A Giboin and M Ribiegravere Methods and tools for corporate knowl-edge management Technical Report RR-3485 INRIA 1998

[dDA00] J den Dunnen and S Antonarakis Mutation nomenclature extensions and suggestions todescribe complex mutations a discussion Hum Mutat 15(1) 7ndash12 2000

[dDP03] J den Dunnen and M Paalman Standardizing mutation nomenclature why bother Hum Mutat 22(3) 181ndash182 2003

[Dev99] KJ Devlin Infosense Turning Information into Knowledge W H Freeman amp CoNew York NY USA 1999

[DGDM91] J Desmeules MP Gascon P Dayer and M Magistris Impact of environmental andgenetic factors on codeine analgesia Eur J Clin Pharmacol 41(1) 23ndash6 1991

[dLN07] M drsquoAquin J Lieber and A Napoli La repreacutesentation de points de vue dans le systegravemedrsquoaide agrave la deacutecision en canceacuterologie KASIMIR In Special issue Vues Points de vue

rocircles et paradigmes proches Du concept agrave son exploitation volume 13 pages 143ndash175Hermes - Lavoisier 2007

[DMS05] F Dau ML Mugnier and G Stumme editors Conceptual Structures Common Se-

mantics for Sharing Knowledge 13th International Conference on Conceptual Struc-

tures ICCS 2005 Kassel Germany July 18-22 2005 Proceedings volume 3596 ofLecture Notes in Computer Science Springer-Verlag Berlin Heidelberg 2005

[DPW08] M Dibernardo R Pottinger and M Wilkinson Semi-automatic Web service compo-sition for the life sciences using the BioMoby semantic Web framework J Biomed

Inform March 2008

[DQ86] R Ducournau and J Quinqueton encore un langage agrave objets agrave base de framesTechnical Report 72 INRIA 1986

[DS08] K Dellschaft and S Staab Strategies for the Evaluation of Ontology Learning IOSPress 2008

182 Bibliographie

[Duc00] R Ducournau Des langages agrave objets aux logiques terminologiques les systegravemes clas-sificatoires In Rapport de Recherche 96ndash030 LIRMM Montpellier 2000

[EA93] T Etzold and P Argos SRS - an indexing and retrieval tool for flat file data librariesComputer Applications in the Biosciences 9(1) 49ndash57 1993

[ea01] J Craig Venter et al The sequence of the human genome Science 291 1304ndash13512001

[Ekl04] PW Eklund editor Concept Lattices Second International Conference on Formal Con-

cept Analysis ICFCA 2004 Sydney Australia February 23-26 2004 Proceedings vol-ume 2961 of Lecture Notes in Computer Science Springer 2004

[ER95] J Euzenat and F Rechenmann SHIRKA 10 ans crsquoest TROPES In A Napoli editorLMO pages 13ndash34 INRIA 1995

[ER99] WE Evans and MV Relling Pharmacogenomics translating functional genomics intorational therapeutics Science 286(5439) 487ndash91 1999

[ER04] WE Evans and MV Relling Moving towards individualized medicine with pharma-cogenomics Nature 429 464ndash468 2004

[ES07] J Euzenat and P Shvaiko Ontology Matching Springer 2007

[FdE08] N Fanizzi C drsquoAmato and F Esposito Conceptual clustering and its application toconcept drift and novelty detection In S Bechhofer M Hauswirth J Hoffmann andM Koubarakis editors ESWC volume 5021 of Lecture Notes in Computer Sciencepages 318ndash332 Springer 2008

[FFR97] A Farquhar R Fikes and J Rice The Ontolingua Server a tool for collaborativeontology construction Int J Hum-Comput Stud 46(6) 707ndash727 1997

[FGPJ97] M Fernandez A Gomez-Perez and N Juristo METHONTOLOGY from ontologicalart towards ontological engineering In Proceedings of the AAAI97 Spring Symposium

Series on Ontological Engineering pages 33ndash40 Stanford USA 1997

[Fis87] DH Fisher Knowledge acquisition via incremental conceptual clustering Machine

Learning 2(2) 139ndash172 1987

[Flo05] CS Flordellis The emergence of a new paradigm of pharmacogenomics Pharmacoge-

nomics 6(5) 515ndash526 2005

[Fou08] The OBO Foundry OBO Foundry policy document Technical report 2008

[FPSM91] WJ Frawley G Piatetsky-Shapiro and CJ Matheus Knowledge discovery indatabases An overview In Knowledge Discovery in Databases pages 1ndash30 AAAIMITPress 1991

[FPSS96] UM Fayyad G Piatetsky-Shapiro and P Smyth From data mining to knowledgediscovery An overview In Fayyad et al [FPSSU96] pages 1ndash34

[FPSSU96] UM Fayyad G Piatetsky-Shapiro P Smyth and R Uthurusamy editors Advances in

Knowledge Discovery and Data Mining AAAIMIT Press 1996

[Fre98] AA Freitas On objective measures of rule surprisingness In Zytkow and Quafafou[ZQ98] pages 1ndash9

[FRS05] S Ferreacute O Ridoux and B Sigonneau Arbitrary relations in formal concept analysisand logical information systems In Dau et al [DMS05] pages 166ndash180

183

[Gai89] BR Gaines An ounce of knowledge is worth a ton of data quantitative studies ofthe trade-off between expertise and data based on statistically well-founded empiricalinduction In Proceedings of the sixth international workshop on Machine learningpages 156ndash159 San Francisco CA USA 1989 Morgan Kaufmann Publishers Inc

[Gan84] B Ganter Two basic algorithms in concept analysis Technical report TechnischeHochschule Darmstadt 1984

[Gan05] A Gangemi Ontology design patterns for semantic Web content In Y Gil E MottaV Richard Benjamins and MA Musen editors International Semantic Web Confer-

ence volume 3729 of Lecture Notes in Computer Science pages 262ndash276 Springer2005

[GBe07] KM Giacomini CM Brett and RB Altman et al The pharmacogenetics researchnetwork from SNP discovery to clinical drug response Clinical pharmacology and ther-

apeutics 81(3) 328ndash45 2007

[GCCL06] A Gangemi C Catenacci M Ciaramita and J Lehmann Modelling ontology evalua-tion and validation In Y Sure and J Domingue editors ESWC volume 4011 of Lecture

Notes in Computer Science pages 140ndash154 Springer 2006

[GDF+04] Y Gasche Y Daali M Fathi A Chiappe S Cottini P Dayer and J DesmeulesCodeine intoxication associated with ultrarapid cyp2d6 metabolism N Engl J Med351(27) 2827ndash31 2004

[GE03] I Guyon and A Elisseeff An introduction to variable and feature selection Journal of

Machine Learning Research 3 1157ndash1182 2003

[GKM04] P Gottgtroy N Kasabov and S MacDonell An ontology driven approach for knowl-edge discovery in biomedicine In Proceedings of the 8th Pacific Rim International Con-

ference on Artificial Intelligence volume LNAI 3157 pages 53ndash67 Berlin Germany2004 Springer

[GMB+05] E Gueacuterin G Marquet A Burgun O Loreacuteal L Berti-Equille U Leser and F Mous-souni Integrating and warehousing liver gene expression data and related biomedicalresources in gedaw In B Ludaumlscher and L Raschid editors DILS volume 3615 ofLecture Notes in Computer Science pages 158ndash174 Springer 2005

[GPCGFL03] A Gomez-Perez O Corcho-Garcia and M Fernandez-Lopez Ontological Engineer-

ing Springer-Verlag New York Inc Secaucus NJ USA 2003

[Gru93] TR Gruber A translation approach to portable ontology specifications Knowledge

Acquisition 5(2) 199ndash220 1993

[GS08] C Goble and R Stevens State of the nation in data integration for bioinformatics J

Biomed Inform February 2008

[GSC+08] RA George TD Smith S Callaghan L Hardman C Pierides O Horaitis MAWouters and Cotton RG General mutation databases analysis and review Journal

of Medical Genetics 45(2) 65ndash70 2008

[GSK+88] FJ Gonzalez RC Skoda S Kimura M Umeno UM Zanger DW Nebert HVGelboin JP Hardwick and UA Meyer Characterization of the common genetic defectin humans deficient in debrisoquine metabolism Nature 331(6155) 442ndash446 1988

[GVM93] A Gueacutenoche and I Van Mechelen Galois approach to the induction of concepts InCategories and concepts Theorical views and inductive data analysis pages 287ndash308Academic Press 1993

184 Bibliographie

[GW99] B Ganter and R Wille Formal Concept Analysis Mathematical Foundations Springer1999

[GW04] C Goble and C Wroe The Montagues and the Capulets Conference papers Comp

Funct Genomics 5(8) 623ndash632 2004

[Hac04] MS Hacid Special issue on Web data integration Introduction Information Systems29(1) 1ndash2 2004

[Hal01] AY Halevy Answering queries using views A survey VLDB J 10(4) 270ndash294 2001

[Hal05] AY Halevy Why your data wonrsquot mix ACM Queue 3(8) 50ndash58 2005

[HBWCH+08] T Hernandez-Boussard M Whirl-Carrillo JM Hebert L Gong R Owen M GongW Gor F Liu C Truong R Whaley M Woon T Zhou RB Altman and TEKlein The pharmacogenetics and pharmacogenomics knowledge base accentuatingthe knowledge Nucleic Acids Res 36(Database issue) D913ndashD918 2008

[HF94] J Han and Y Fu Dynamic generation and refinement of concept hierarchies for knowl-edge discovery in databases In Proceedings of AAAIrsquo94 Workshop on Knowledge Dis-

covery in Databases (KDDrsquo94) pages 157ndash168 1994

[HHNV07] M Rouane Hacene M Huchard A Napoli and P Valtchev A proposal for combin-ing formal concept analysis and description logics for mining relational data In SOKuznetsov and S Schmidt editors ICFCA volume 4390 of Lecture Notes in Computer

Science pages 51ndash65 Springer 2007

[HJ02] HJMotulsky Biostatistique une approche intuitive De Boeck Universiteacute 2002

[HK01] J Han and M Kamber Data Mining Concepts and Techniques Morgan Kaufmann2001

[HLTB04] I Horrocks L Li D Turi and S Bechhofer The Instance Store DL reasoning withlarge numbers of individuals In V Haarslev and R Moumlller editors Description Logicsvolume 104 of CEUR Workshop Proceedings CEUR-WSorg 2004

[HM03] V Haarslev and R Moumlller Racer A core inference engine for the semantic WebIn Y Sure and O Corcho editors EON volume 87 of CEUR Workshop ProceedingsCEUR-WSorg 2003

[HMS05] U Hustadt B Motik and U Sattler Data complexity of reasoning in very expressivedescription logics In Kaelbling and Saffiotti [KS05] pages 466ndash471

[Hor07] I Horrocks OBO flat file format syntax and semantics and mapping to OWL Webontology language Technical report University of Manchester 2007

[HPSvH03] I Horrocks P F Patel-Schneider and F van Harmelen FromSHIQ and RDF to OWL the making of a web ontology language J Web Sem 1(1) 7ndash26 2003

[HRT+05] ML Hastings N Rest D Traum A Stella G Guanti and AR Krainer An LKBI AT-AC intron mutation causes Peutz-Jeghers syndrome via splicing at noncanonical crypticsplice site Struct Mol Biol 12(1) 54ndash59 2005

[HSS06] BM Hemminger B Saelim and PF Sullivan TAMAL an integrated approach tochoosing SNPs for genetic studies of human complex traits Bioinformatics 22(5) 626ndash627 2006

[HVK+02] MK Higashi DL Veenstra LM Kondo AK Wittkowsky SL SrinouanprachanhFM Farin and AE Rettie Association between CYP2C9 genetic variants andanticoagulation-related outcomes during warfarin therapy JAMA 287(13) 1690ndash16982002

185

[HY90] R Hull and M Yoshikawa Ilog Declarative creation and manipulation of object iden-tifiers In D McLeod R Sacks-Davis and HJ Schek editors VLDB pages 455ndash468Morgan Kaufmann 1990

[JKN08] N Jay F Kohler and A Napoli Analysis of social communities with iceberg andstability-based concept lattices In Medina and Obiedkov [MO08] pages 258ndash272

[KAB06] L Karoui MA Aufaure and N Bennacer Context-based hierarchical clustering for theontology learning In Web Intelligence pages 420ndash427 IEEE Computer Society 2006

[KACV+04] PD Karp M Arnaud J Collado-Vides J Ingraham IT Paulsen and MH Jr SaierThe E coli EcoCyc database No longer just a metabolic pathway database ASM News70(1) 25ndash30 2004

[Kay97] D Kayser La repreacutesentation des connaissances collection informatique hermegraves edi-tion 1997

[KCH+02] P Kogut S Cranefield L Hart M Dutra K Baclawski M Kokar and J Smith UMLfor ontology development Knowl Eng Rev 17(1) 61ndash64 2002

[KDK+05] R Karchin M Diekhans L Kelly DJ Thomas U Pieper N Eswar D Haussler andA Sali LS-SNP large-scale annotation of coding non-synonymous SNPs based onmultiple information sources Bioinformatics 21(12) 2814ndash2820 2005

[KFNM04] H Knublauch RW Fergerson N Fridman Noy and MA Musen The Proteacutegeacute OWLplugin An open development environment for semantic Web applications In SA McIl-raith D Plexousakis and F van Harmelen editors International Semantic Web Confer-

ence volume 3298 of Lecture Notes in Computer Science pages 229ndash243 Springer2004

[KJ97] R Kohavi and GH John Wrappers for feature subset selection Artif Intell 97(1ndash2) 273ndash324 1997

[KK07] F Karel and J Klema Quantitative association rule mining in genomics using apri-ori knowledge In Workshop on Prior Conceptual Knowledge in Machine Learning

and Knowledge Discovery (PriCKLrsquo07) at ECMLPKDD 2007 pages 53ndash64 WarsawPoland September 2007

[KKS+04] A Kasprzyk D Keefe D Smedley D London W Spooner C Melsopp M HammondP Rocca-Serra T Cox and E Birney Ensmart A generic system for fast and flexibleaccess to biological data Genome Res 14(1) 160ndash169 2004

[KLW08] PD Karp TJ Lee and V Wagner BioWarehouse Relational integration of elevenbioinformatics databases and formats In Bairoch et al [BCBF08] pages 5ndash7

[KLWW08] B Konev C Lutz D Walther and F Wolter Semantic modularity and module extractionin description logics In ECAI 2008 18th European Conference on Artificial Intelligence

Patras Greece Proceedings pages 55ndash59 2008

[KN01] L Kruglyak and DA Nickerson Variation is the spice of life Nature Genetics 27 234ndash236 2001

[KO02] SO Kuznetsov and SA Obiedkov Comparing performance of algorithms for generat-ing concept lattices J Exp Theor Artif Intell 14(2ndash3) 189ndash216 2002

[KPL03] J Koumlhler S Philippi and M Lange SEMEDA ontology based semantic integration ofbiological databases Bioinformatics 19(18) 2420ndash2427 2003

[KPS+06] A Kalyanpur B Parsia E Sirin B Cuenca Grau and JA Hendler Swoop A Webontology editing browser J Web Sem 4(2) 144ndash153 2006

186 Bibliographie

[Kry02] M Kryszkiewicz Concise representations of association rules In Proceedings of the

ESF Exploratory Workshop on Pattern Detection and Discovery pages 92ndash109 LondonUK 2002 Springer-Verlag

[KS05] L Pack Kaelbling and A Saffiotti editors IJCAI-05 Proceedings of the Nineteenth

International Joint Conference on Artificial Intelligence Edinburgh Scotland UK July

30-August 5 2005 Professional Book Center 2005

[Kuz07] SO Kuznetsov On stability of a formal concept Ann Math Artif Intell 49(1ndash4) 101ndash115 2007

[Len02] M Lenzerini Data integration A theoretical perspective In L Popa editor PODSpages 233ndash246 ACM 2002

[LFZ99] N Lavrac PA Flach and B Zupan Rule evaluation measures A unifying view InS Dzeroski and PA Flach editors ILP volume 1634 of Lecture Notes in Computer

Science pages 174ndash185 Springer 1999

[LHCM00] B Liu W Hsu S Chen and Y Ma Analyzing the subjective interestingness of associ-ation rules IEEE Intelligent Systems 15(5) 47ndash55 2000

[LN05] U Leser and F Naumann (almost) hands-off information integration for the life sci-ences In CIDR pages 131ndash143 2005

[LNST08] J Lieber A Napoli L Szathmary and Y Toussaint First elements on KnowledgeDiscovery guided by Domain Knowledge (kddk) In S B Yahia E M Nguifo andR Belohlavek editors Concept Lattices and Their Applications (CLA 06) Lecture Notesin Artificial Intelligence 4923 pages 22ndash41 Springer Berlin 2008

[LWZ08] C Lutz F Wolter and M Zakharyaschev Temporal description logics A survey InProceedings of the 15th International Symposium on Temporal Representation and Rea-

soning time pages 3ndash14 2008

[LY05] H Liu and L Yu Toward integrating feature selection algorithms for classification andclustering IEEE Trans Knowl Data Eng 17(4) 491ndash502 2005

[LZG+06] JJ Lima S Zhang A Grant L Shao KG Tantisira H Allayee J Wang J SylvesterJ Holbrook R Wise ST Weiss and K Barnes Influence of leukotriene pathwaypolymorphisms on response to montelukast in asthma Am J Respir Crit Care Med173(4) 379ndash85 2006

[Mar03] FM Marincola Translational medicine A two-way road Journal of Translational

Medicine 1(1) 1 2003

[Mau06] S Maumus Approche de la complexiteacute du syndrome meacutetabolique et de ses indicateurs

de risque par la mise en oeuvre de meacutethodes numeacuteriques et symboliques de fouille de

donneacutees Thegravese en eacutepideacutemiologie et santeacute publique Universiteacute Henri Poincareacute ndash Nancy1 France Nov 2006

[MBB+08] F Mougin A Burgun O Bodenreider J Chabalier O Loreacuteal and P Le Beux Auto-matic methods for integrating biomedical data sources in a mediator-based system InBairoch et al [BCBF08] pages 61ndash76

[McG05] Ken McGarry A survey of interestingness measures for knowledge discovery The

Knowledge Engineering Review 20(1) 39ndash61 2005

[McK98] VA McKusick Mendelian inheritance in man a catalog of human genes and geneticdisorders 1998

187

[MD07a] D Martin and J Domingue Semantic Web services Part 1 IEEE Intelligent Systems22(5) 12ndash17 2007

[MD07b] D Martin and J Domingue Semantic Web services Part 2 IEEE Intelligent Systems22(6) 8ndash15 2007

[MDNST05] N Messai MD Devignes A Napoli and M Smaiumll-Tabbone Querying a bioinformaticdata sources registry with concept lattices In Dau et al [DMS05] pages 323ndash336

[MFJ+07] MD Mailman M Feolo Y Jin M Kimura K Tryka R Bagoutdinov L HaoA Kiang J Paschall L Phan N Popova S Pretel L Ziyabari M Lee Y Shao ZYWang K Sirotkin M Ward M Kholodov K Zbicz J Beck M Kimelman S ShevelevD Preuss E Yaschenko A Graeff J Ostell and ST Sherry The NCBI dbGaP databaseof genotypes and phenotypes Nat Genet 39(10) 1181ndash1186 2007

[MK08] P Hitzler M Kroumltzsch S Rudolph Description logic rules In ECAI 2008 18th Eu-

ropean Conference on Artificial Intelligence 2008 Patras Greece Proceedings pages80ndash84 2008

[MKS04] HM Muumlller EE Kenny and PW Sternberg Textpresso an ontology-based infor-mation retrieval and extraction system for biological literature PLoS Biol 2(11) e3092004

[MMK+03] RH Mathijssen S Marsh MO Karlsson R Xie SD Baker J Verweij A Spar-reboom and HL McLeod Irinotecan pathway genotype analysis to predict pharma-cokinetics Clin Cancer Res 9(9) 3246ndash3253 2003

[MO08] R Medina and SA Obiedkov editors Formal Concept Analysis 6th International Con-

ference ICFCA 2008 Montreal Canada February 25-28 2008 Proceedings volume4933 of Lecture Notes in Computer Science Springer 2008

[MTB+99] I Martinelli E Taioli P Bucciarelli S Akhavan and PM Mannucci Interaction be-tween the G20210A mutation of the prothrombin gene and oral contraceptive use in deepvein thrombosis Arterioscler Thromb Vasc Biol 19(3) 700ndash703 1999

[Mug91] Stephen Muggleton Inductive Logic Programming New Generation Comput 8(4) 2951991

[MVB+95] C Meacutedigue T Vermat G Bisson A Viari and A Danchin Cooperative computersystem for genome sequence analysis In CJ Rawlings DA Clark RB AltmanL Hunter T Lengauer and SJ Wodak editors ISMB pages 249ndash258 AAAI 1995

[MZCC04] AA Mitchell ME Zwick A Chakravarti and DJ Cutler Discrepancies in dbSNPconfirmation rates and allele frequency distributions from varying genotyping error ratesand patterns Bioinformatics 20(7) 1022ndash1032 2004

[Nap92] A Napoli Repreacutesentations agrave objets et raisonnement par classification en intelligence ar-

tificielle Doctorat drsquoeacutetat egraves sciences matheacutematiques Universiteacute Henri Poincareacute ndash Nancy1 France Jan 1992

[NB04] Z Nazeri and E Bloedorn Exploiting available domain knowledge to improve min-ing aviation safety and network security data In P Buitelaar J Franke M GrobelnikG Paass and V Svatek editors Proceedings of the Workshop on Knowledge Discovery

and Ontologies at ECMLPKDDrsquo04 Pisa Italy September 2004

[NBS+06] MCY Ng L Baum WY So VKL Lam Y Wang E Poon B Tomlinson S ChengK Lindpaintner and JCN Chan Association of lipoprotein lipase S447X apolipopro-tein E exon 4 and apoC3 -455T-C polymorphisms on the susceptibility to diabeticnephropathy Clin Genet 70 20ndash28 2006

188 Bibliographie

[NED00] A Napoli J Euzenat and R Ducournau Les repreacutesentations des connaissances parobjets Technique et Science Informatiques 19(1ndash3) 387ndash394 2000

[NM01] N F Noy and D McGuinness Ontology development 101 A guide to creating yourfirst ontology Technical report 2001

[NMG05] AC Need AG Motulsky and DB Goldstein Priorities and standards in pharmacoge-netic research Nat Genet 37(7) 671ndash81 2005

[NR06] N F Noy and A Rector Defining n-ary relations on the semantic Web Technical reportW3C 2006

[Ome01] B Omelayenko Learning of ontologies for the Web the analysis of existent approaches2001

[ORS+02] DE Oliver DL Rubin JM Stuart M Hewett TE Klein and RB Altman On-tology development for a pharmacogenetics knowledge base In Pacific Symposium on

Biocomputing pages 65ndash76 2002

[ORT08] RP Owen Altman RB and Klein TE PharmGKB and the international warfarinpharmacogenetics consortium the changing role for pharmacogenomic databases andsingle-drug pharmacogenetics Hum Mutat 29(4) 456ndash460 2008

[PB01] J Phillips and BG Buchanan Ontology-guided knowledge discovery in databasesIn K-CAPrsquo01 Proceedings of the 1st international conference on Knowledge capturepages 123ndash130 New York NY USA 2001 ACM

[PGC+01] M Page J Gensel C Capponi C Bruley P Genoud D Zieacutebelin D Bardou andV Dupierris A new approach in object-based knowledge representation The AROMsystem In L Monostori J Vaacutencza and M Ali editors IEAAIE volume 2070 of Lec-

ture Notes in Computer Science pages 113ndash118 Springer 2001

[PLC+08] A Poggi D Lembo D Calvanese G De Giacomo M Lenzerini and R Rosati Link-ing data to ontologies J Data Semantics 10 133ndash173 2008

[PRAC06] D Peacuterez-Rey A Anguita and J Crespo Ontodataclean Ontology-based integrationand preprocessing of distributed data In N Maglaveras I Chouvarda V Koutkias andRW Brause editors ISBMDA volume 4345 of Lecture Notes in Computer Sciencepages 262ndash272 Springer 2006

[RAC+06] MC Rousset P Adjiman P Chatalic F Goasdoueacute and L Simon Somewhere in thesemantic Web In J Wiedermann G Tel J Pokornyacute M Bielikovaacute and J Stuller editorsSOFSEM volume 3831 of Lecture Notes in Computer Science pages 84ndash99 Springer2006

[RBJ00] J Rumbaugh G Booch and I Jacobson Le guide de lrsquoutilisateur UML Eyrolles 2000

[RDM05] DL Rubin O Dameron and MA Musen Use of description logic classification toreason about consequences of penetrating injuries In Proceedings of the AMIA Annu

Symp pages 649ndash653 2005

[Rec00] F Rechenmann From data to knowledge Bioinformatics 16(5) 411 2000

[RFG+02] MC Rousset C Froidevaux H Gagliardi F Goasdoueacute C Reynaud and B Sa-far Construction de meacutediateurs pour inteacutegrer des sources drsquoinformation multiples etheacuteteacuterogegravenes le projet PICSEL Revue I3 2(1) 2002

[RIF+06] R Redon S Ishikawa KR Fitch L Feuk GH Perry and et al Global variation incopy number in the human genome Nature 444 444ndash454 2006

189

[RKC06] HZ Ring PY Kwok and RG Cotton Human variome project an international col-laboration to catalogue human genetic variation Pharmacogenomics 7(7) 969ndash9722006

[RKK+00] A Rzhetsky T Koike S Kalachikov SM Gomez M Krauthammer SH KaplanP Kra JJ Russo and C Friedman A knowledge model for analysis and simulation ofregulatory networks Bioinformatics 16(11) 1120ndash1128 2000

[RKM+05] C Rosse A Kumar JL Mejino DL Cook LT Detwiler and B Smith A strategyfor improving and integrating biomedical ontologies In Proceedings of the AMIA Annu

Symp pages 639ndash643 2005

[RLSN08] MJ Rieder RJ Livingston IB Stanaway and DA Nickerson The environmentalgenome project reference polymorphisms for drug metabolism genes and genome-wideassociation studies Drug Metabolism Review 40(2) 241ndash261 2008

[RMKM08] DL Rubin DA Moreira PP Kanjamala and Musen MA BioPortal A Web portalto biomedical ontologies 2008 AAAI Spring Symposium Series Symbiotic Relationships

between Semantic Web and Knowledge Engineering 2008

[RMM+98] C Rosse JL Mejino BR Modayur R Jakobovits KP Hinshaw and JF BrinkleyMotivation and organizational principles for anatomical knowledge representation thedigital anatomist symbolic knowledge base J Am Med Informx Assoc 5(1) 1998

[RN03] S Russell and P Norvig Artificial Intelligence - A modern approch Englewood CliffsNJ Prentice-Hall (2d Edition) 2003

[RSN07] DL Rubin NH Shah and NF Noy Biomedical ontologies a functional perspectiveBriefings in Bioinformatics 9(1) 75ndash90 2007

[Rud06] S Rudolph Relational Exploration Combining Description Logics and Formal Con-

cept Analysis for Knowledge Specification Thegravese en informatique Technischen Univer-sitaumlt ndash Dresden Germany Dec 2006

[SA95] R Srikant and R Agrawal Mining generalized association rules In U Dayal PMDGray and S Nishio editors VLDB pages 407ndash419 Morgan Kaufmann 1995

[SAA+99] G Schreiber H Akkermans A Anjewierden R Dehoog N Shadbolt W Vande-velde and B Wielinga Knowledge Engineering and Management The CommonKADS

Methodology The MIT Press December 1999

[Sah02] S Sahar Exploring interestingness through clustering A framework In ICDM pages677ndash680 IEEE Computer Society 2002

[SAR+07] B Smith M Ashburner C Rosse J Bard W Bug W Ceusters LJ Goldberg K Eil-beck A Ireland CJ Mungall The OBI Consortium N Leontis P Rocca-Serra A Rut-tenberg SA Sansone RH Scheuermann N Shah PL Whetzel and S Lewis TheOBO Foundry coordinated evolution of ontologies to support biomedical data integra-tion Nature Biotechnology 25(11) 1251ndash1255 2007

[Saiuml07] F Saiumls Inteacutegration seacutemantique de donneacutees guideacutee par une ontologie Thegravese en informa-tique Universiteacute Paris-Sud France Deacutec 2007

[SBB+00] R Stevens PG Baker S Bechhofer G Ng A Jacoby NW Paton CA Goble andA Brass Tambis Transparent access to multiple bioinformatics information sourcesBioinformatics 16(2) 184ndash186 2000

[Ser07] B Sertkaya Formal Concept Analysis Methods for Description Logics Thegravese en infor-matique Technischen Universitaumlt ndash Dresden Germany Nov 2007

190 Bibliographie

[SHB01] G Stumme A Hotho and B Berendt editors Proceedings of the Workshop on Semantic

Web Mining (SWMrsquo01 at ECMLPKDDrsquo01) Freiburg Germany September 2001

[SHSD08] B Seacuteguin B Hardy PA Singer and AS Daar Bidil recontextualizing the race debateThe Pharmacogenomics Journal 8 169ndash173 2008

[SIL05] Y Saeys I Inza and P Larrantildeaga A review of feature selection techniques in bioinfor-matics Bioinformatics 23(19) 2507ndash2517 2005

[SNK07] L Szathmary A Napoli and S O Kuznetsov ZART A Multifunctional Itemset MiningAlgorithm In Proc of the 5th Intl Conf on Concept Lattices and Their Applications

(CLArsquo07) pages 26ndash37 Montpellier France Oct 2007

[SNV07] L Szathmary A Napoli and P Valtchev Towards Rare Itemset Mining In Proc of the

19th IEEE Intl Conf on Tools with Artificial Intelligence (ICTAIrsquo07) volume 1 pages305ndash312 Patras Greece Oct 2007

[SP04] E Sirin and B Parsia Pellet An OWL DL reasoner In Proceedings of the International

Workshop on Description Logics (DL2004) 2004

[Spe08] G Spencer International consortium announces the 1000 genomes project EMBAR-

GOED 2008

[SRR05] V Svaacutetek J Rauch and M Ralbovskyacute Ontology-enhanced association mining InAckermann et al [ABG+06] pages 163ndash179

[Ste08] LD Stein Towards a cyberinfrastructure for the biological sciences progress visionsand challenges Nature Genetics 9(9) 678ndash688 2008

[SWK+01] ST Sherry MH Ward M Kholodov J Baker L Phan EM Smigielski andK Sirotkin dbSNP the NCBI database of genetic variation Nucleic Acids Res29(1) 308ndash311 2001

[SWW98] G Stumme R Wille and U Wille Conceptual knowledge discovery in databases usingformal concept analysis methods In Zytkow and Quafafou [ZQ98] pages 450ndash458

[Sza06] L Szathmary Symbolic Data Mining Methods with the Coron Platform Thegravese eninformatique Universiteacute Henri Poincareacute ndash Nancy 1 France Nov 2006

[TH06] D Tsarkov and I Horrocks FaCT++ description logic reasoner System descrip-tion In Proceedings of the International Joint Conference on Automated Reasoning

(IJCAR 2006) volume 4130 of Lecture Notes in Artificial Intelligence pages 292ndash297Springer 2006

[TKS02] PN Tan V Kumar and J Srivastava Selecting the right interestingness measure forassociation patterns In KDDrsquo02 Proceedings of the eighth ACM SIGKDD international

conference on Knowledge discovery and data mining pages 32ndash41 New York NY USA2002 ACM

[TZY+04] AL Taylor S Ziesche C Yancy P Carson R Jr DrsquoAgostino K Ferdinand M TaylorK Adams M Sabolinski M Worcel JN Cohn and African-American Heart Fail-ure Trial Investigators Combination of isosorbide dinitrate and hydralazine in blackswith heart failure N Engl J Med 351(20) 2049ndash57 2004

[UK95] M Uschold and M King Towards a methodology for building ontologies In Proceed-

ings of the IJCAI Workshop on Basic Ontological Issues in Knowledge Sharing 1995

[VB05] M Vanzin and K Becker Ontology-based rummaging mechanisms for the interpretationof Web usage patterns In Ackermann et al [ABG+06] pages 180ndash195

191

[vHY04] V van Heyningen and PL Yeyati Mechanisms of non-mendelian inheritance in geneticdisease Human Molecular Genetics 13(RI2) R225ndashR233 2004

[VMG04] P Valtchev R Missaoui and R Godin Formal concept analysis for knowledge discov-ery and data mining The new challenges In Eklund [Ekl04] pages 352ndash371

[VR08] J Voumllker and S Rudolph Lexico-logical acquisition of OWL DL axioms [MO08]pages 62ndash77

[Web97] WW Weber Pharmacogenetics Oxford University Press New York NY 1997

[WH03] AB Wilcox and G Hripcsak The role of domain knowledge in automating medical textreport classification J Am Med Inform Assoc 10(4) 330ndash338 2003

[Wil02] R Wille Why can concept lattices support knowledge discovery in databases J Exp

Theor Artif Intell 14(2ndash3) 81ndash92 2002

[WLT+06] K Wolstencroft P Lord L Tabernero A Brass and R Stevens Protein classificationusing ontology classification Bioinformatics 22(14) e530ndashe538 2006

[WMF+08] ST Weiss HL McLeod DA Flockhart ME Dolan NL Benowitz JA JohnsonMJ Ratain and KM Giacomini Creating and evaluating genetic tests predictive ofdrug response Nat Rev Drug Discov 7(7) 568ndash74 2008

[WMS+05] K Wolstencroft R McEntire R Stevens L Tabernero and A Brass Constructingontology-driven protein family databases Bioinformatics 21(8) 1685ndash1692 2005

[WSGA03] C Wroe R Stevens CA Goble and M Ashburner A methodology to migrate the geneontology to a description logic environment using daml+oil In Pacific Symposium on

Biocomputing pages 624ndash635 2003

[WZTS05] JTL Wang MJ Zaki HTT Toivonen and DE (Eds) Shasha Data Mining in Bioin-

formatics Springer 2005

[YHTL08] HH Yang N Hu PR Taylor and MP Lee Whole genome-wide association studyusing affymetrix SNP chip a two-stage sequential selection method to identify genesthat increase the risk of developing complex diseases Methods Mol Med 141 23ndash352008

[YL04] L Yu and H Liu Efficient feature selection via analysis of relevance and redundancyJournal of Machine Learning Research 5 1205ndash1224 2004

[YSS07] T Yu SJ Simoff and D Stokes Incorporating prior domain knowledge into a kernelbased feature selection algorithm In ZH Zhou H Li and Q Yang editors PAKDDvolume 4426 of Lecture Notes in Computer Science pages 1064ndash1071 Springer 2007

[ZQ98] JM Zytkow and M Quafafou editors Principles of Data Mining and Knowledge Dis-

covery Second European Symposium PKDD rsquo98 Nantes France September 23-26

1998 Proceedings volume 1510 of Lecture Notes in Computer Science Springer 1998

192 Bibliographie

Reacutesumeacute

Cette thegravese porte sur lrsquoutilisation drsquoontologies et de bases de connaissances pour guider diffeacuterenteseacutetapes du processus drsquoextraction de connaissances agrave partir de bases de donneacutees (ECBD) et une applica-tion dans le domaine de la pharmacogeacutenomique Les donneacutees relatives agrave ce domaine sont heacuteteacuterogegravenescomplexes et distribueacutees dans diverses bases de donneacutees ce qui rend cruciale lrsquoeacutetape preacuteliminaire depreacuteparation et drsquointeacutegration des donneacutees agrave fouiller Je propose pour guider cette eacutetape une approche orig-inale drsquointeacutegration de donneacutees qui srsquoappuie sur une repreacutesentation des connaissances du domaine sousforme de deux ontologies en logiques de description SNP-Ontology et SO-Pharm Cette approche a eacuteteacuteimpleacutementeacutee gracircce aux technologies du Web seacutemantique et conduit au peuplement drsquoune base de con-naissances pharmacogeacutenomique Le fait que les donneacutees agrave fouiller soient alors disponibles dans une basede connaissances entraicircne de nouvelles potentialiteacutes pour le processus drsquoextraction de connaissances Jeme suis drsquoabord inteacuteresseacute au problegraveme de la seacutelection des donneacutees les plus pertinentes agrave fouiller en mon-trant comment la base de connaissances peut ecirctre exploiteacutee dans ce but Ensuite jrsquoai deacutecrit et appliqueacuteagrave la pharmacogeacutenomique une meacutethode qui permet lrsquoextraction de connaissances directement agrave partir

drsquoune base de connaissances Cette meacutethode appeleacutee Analyse des Assertions de Rocircles (ou AAR) permetdrsquoutiliser des algorithmes de fouille de donneacutees sur un ensemble drsquoassertions de la base de connaissancespharmacogeacutenomique et drsquoexpliciter des connaissances nouvelles et pertinentes qui y eacutetaient enfouies

Mots-cleacutes extraction de connaissances agrave partir de bases de donneacutees inteacutegration de donneacutees seacutelectionde donneacutees repreacutesentation des connaissances ontologie base de connaissances logiques de descriptionSNP pharmacogeacutenomique

Abstract

This thesis studies the use of ontology and knowledge base for guiding various steps of the Knowl-edge Discovery in Databases (KDD) process in the domain of pharmacogenomics Data related to thisdomain are heterogeneous complex and disseminated through several data sources Consequently thepreliminary step that consists in the preparation and the integration of data is crucial For guiding thisstep an original approach is proposed based on a knowledge representation of the domain within twoontologies in description logics SNP-Ontology and SO-Pharm This approach has been implementedusing semantic Web technologies and leads finally to populating a pharmacogenomic knowledge baseAs a result data to analyze are represented in the knowledge base which is a benefit for guiding fol-lowing steps of the knowledge discovery process Firstly I study this benefit for feature selection byillustrating how the knowledge base can be used for this purpose Secondly I describe and apply topharmacogenomics a new method named Role Assertion Analysis (or RAA) that enables knowledgediscovery directly from knowledge bases This method uses data mining algorithms over assertions ofour pharmacogenomic knowledge base and results in the discovery of new and relevant knowledge

Keywords knowledge discovery in databases data integration feature selection knowledge represen-tation ontology knowledge base description logics SNP pharmacogenomics

Page 3: Construction et utilisation d’une base de connaissances

Mis en page avec la classe thloria

i

Remerciements

Je remercie M Nacer Boudjlida drsquoavoir accepteacute de preacutesider le jury de cette thegravese M Mohand-SaiumldHacid et M Alain Viari pour lrsquoattention et la curiositeacute manifestes avec lesquelles ils ont jugeacute ce manuscrit

Je remercie Mme Chantal Reynaud qui a accepteacute drsquoexaminer mon travailJe remercie le Dr Pascale Benlian drsquoavoir bien voulu participer au jury de cette thegravese drsquoavoir toujours

fait preuve drsquoenthousiasme vis agrave vis de mon travail et de mrsquoavoir fait partager sa passion contagieuse pourson domaine de recherche

Je tiens agrave remercier vivement M Amedeo Napoli de mrsquoavoir accueilli au sein de son eacutequipe drsquoOr-pailleurs drsquoavoir souvent trouveacute les mots justes aux moments ougrave il me fallait les entendre

Bien eacutevidement je remercie Mme Marie-Dominique Devignes et Mme Malika Smaiumll-Tabbone pourleur accompagnement leurs conseils et leurs nombreux enseignements tant scientifiques qursquohumains Jeles emporte et les garderai avec moi

Je remercie lrsquoANRT Oseacuteo les socieacuteteacutes KIKA Medical et Phenosystems drsquoavoir financeacute et participeacuteau projet GenNet agrave lrsquooriginie de cette thegravese

Je remercie M Alexandre Durand-Salmon de mrsquoavoir fait confiance au deacutebut de ce projet M RomainDumoustier de mrsquoavoir laisser le temps de le convaincre de lrsquointeacuterecirct des ontologies Merci agrave M NicolasDubost M Benoicirct Lopez et Mlle Adeline Maguiegravere de KIKA Medical pour lrsquointeacuterecirct dont ils mrsquoont faitpart jusqursquoau dernier jour du projet

Je remercie M David Atlan pour les discussions stimulantes que nous avons pu partagerJe tiens agrave ne pas oublier tous ceux qui mrsquoont transmis volontairement ou involontairement le virus de

la bioinformatique parmi eux merci notamment agrave Benjamin Leblanc Jean-Paul Leonetti Erwan ReguerFranccedilois Rechenmann Michel Seve

Partager le quotidien des Orpailleurs me fut aussi agreacuteable qursquoenrichissant merci agrave eux et notammentagrave Nizar Salhia Zaiumlnab Nada Laszlo Sandy Rokia

Merci agrave tous ceux qui mrsquoont manifesteacute leur amitieacute pendant la thegravese Je pense en particulier agrave SebManue Audrey Greacutegoire Michaeumll Claire Momo Fred Lynda Solegravene Feacute Yann Walid Nico P NicoN Erwan Gilles Merci aux ouvriers du TGV Est et agrave Philippe Katrine

Je remercie la famille Martin pour ses encouragements Je remercie ma famille petits et grands pourmrsquoavoir construit et me consolider

Merci agrave toi lecteur qui aura le cœur de deacutepasser cette page

Et merci Aude de bousculer ma vie

ii

Table des matiegraveres

Table des figures vii

Liste des tableaux xi

Introduction 1

1 Des donneacutees aux connaissances 1

2 Des connaissances pour de nouvelles connaissances 5

3 La pharmacogeacutenomique 6

4 Le projet GenNet 7

5 Probleacutematique 8

6 Approche et principales contributions 9

7 Plan du manuscrit 9

1 Contexte biologique et applicatif 11

1 Geacutenotype et pheacutenotype 11

11 Deacutefinitions 11

12 Transcription et traduction premiegraveres eacutetapes de la deacutefinition drsquoun pheacutenotype 11

13 Les relations geacutenotypendashpheacutenotype 12

14 Les sources de donneacutees et les vocabulaires controcircleacutes relatifs aux relations geacutenotypendash

pheacutenotype 13

2 Les variations geacutenomiques 15

21 Deacutefinitions 15

22 Les sources de donneacutees relatives aux variations geacutenomiques 15

23 Heacuteteacuterogeacuteneacuteiteacute des donneacutees relatives aux variations geacutenomiques 16

24 Les haplotypes 18

3 La pharmacogeacutenomique 20

31 Deacutefinition 20

32 Les sources de donneacutees relatives agrave la pharmacogeacutenomique 21

4 Inteacuterecirct de lrsquoutilisation de connaissances en pharmacogeacutenomique 22

iii

iv Table des matiegraveres

2 Etat de lrsquoart 23

1 Extraction de Connaissances agrave partir de Bases de Donneacutees ndash 23

11 Motivation et objectifs 23

12 Preacuteparation des donneacutees 24

13 Fouille de donneacutees 27

14 Interpreacutetation en uniteacutes de connaissances 38

15 Reacuteutilisation des uniteacutes extraites 39

2 Repreacutesentation des connaissances et ontologies 40

21 La Repreacutesentation des Connaissances par Objets 40

22 Les Logiques de Descriptions 41

23 Ontologies et Bases de Connaissances 44

3 Utilisation des ontologies pour lrsquointeacutegration de donneacutees heacuteteacuterogegravenes 49

31 Les systegravemes drsquointeacutegration de donneacutees 49

32 Problegraveme drsquoheacuteteacuterogeacuteneacuteiteacute et inteacutegration seacutemantique 52

33 Le mapping donneacuteesndashconnaissances 53

34 Utilisation des ontologies en bioinformatique inteacutegration de donneacutees et plus si

affiniteacutes 54

35 Vers une inteacutegration semi-automatique de sources 58

4 Extraction de Connaissances guideacutee par les Connaissances du Domaine ndash 60

41 Preacuteparation de donneacutees guideacutee par les connaissances 60

42 Fouille de donneacutees guideacutee par les connaissances 62

43 Interpreacutetation guideacutee par les connaissances 64

3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique 67

1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre 67

11 Meacutethodologie de construction manuelle drsquoontologies pour lrsquointeacutegration de donneacutees 68

12 Construction drsquoune ontologie pour les variations geacutenomiques SNP-Ontology 73

13 Construction drsquoune ontologie pour la pharmacogeacutenomique SO-Pharm 79

2 Inteacutegration de donneacutees guideacutee par une ontologie 85

21 Description geacuteneacuterale de lrsquoapproche proposeacutee 85

22 Deacutefinition des mappings donneacuteesndashassertions 86

23 Description de lrsquointeraction wrapperndashmeacutediateur 88

24 Bilan 88

3 Expeacuterimentation 90

31 Inteacutegration de donneacutees relatives aux variations geacutenomiques SNP-Converter 90

32 Inteacutegration de donneacutees pharmacogeacutenomiques iSO-Pharm 99

4 Discussion 101

v

4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances 103

1 Seacutelection de donneacutees guideacutee par les connaissances du domaine 103

11 Motivation 103

12 Meacutethode proposeacutee 105

13 Expeacuterimentation pour la deacutecouverte de relations geacutenotypendashpheacutenotype 111

14 Bilan 116

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 118

21 Description geacuteneacuterale 118

22 Application conjointe des Logiques de Descriptions et de lrsquoAnalyse de Concepts

Formels dans le contexte de lrsquo 118

23 Analyse des Assertions de Rocircles ndash 121

24 Expeacuterimentation en pharmacogeacutenomique 130

25 Travaux similaires 143

3 Discussion 148

Conclusion et perspectives 151

A Algorithme de recherche des RMN et des RMNR 153

B Constructeurs en 155

C Exemple de code OWL 159

D Modegravele conceptuel de SO-Pharm 161

E Captures drsquoeacutecrans de SNP-Converter 163

F Algorithme de parcours drsquoun graphe drsquoassertions 167

G Captures drsquoeacutecrans du plugin de Proteacutegeacute 4 pour lrsquoAAR 171

H RMNR extraites de la relative agrave lrsquoinvestigation clinique du montelukast 173

Bibliographie 177

vi Table des matiegraveres

Table des figures

1 Repreacutesentation scheacutematique et naiumlve du processus de transformation de donneacutees en infor-mation puis en connaissances A gauche un processus en pyramide et agrave droite en boucleLa lettre C repreacutesente les connaissances 2

2 La repreacutesentation classique du processus drsquoExtraction de Connaissances agrave partir desBases de Donneacutees () (drsquoapregraves [FPSS96]) 3

3 Une annotation humoristique du geacutenome humain par Matt Davies The Journal NewsLos

Angeles Times Syndicate 2000 44 Repreacutesentation scheacutematique de la relation entre meacutedicament geacutenotype pheacutenotype eacutetudieacutee

en pharmacogeacutenomique 65 Trois exemples de relations pharmacogeacutenomiques particuliegraveres entre un traitement de

codeacuteine la version du gegravene CYP2D6 et lrsquoeffet de la codeacuteine En fonction de la version dugegravene la reacuteponse est diffeacuterente De gauche agrave droite le cas de meacutetaboliseurs lents normauxou leacutegegraverement rapides et ultra-rapides Il est inteacuteressant de noter que lrsquoadministrationdrsquoune dose de codeacuteine plus eacuteleveacutee (50 mg par exemple) aux meacutetaboliseurs lents permet decompenser la limitation de lrsquoactiviteacute enzymatique et drsquoobtenir lrsquoeffet analgeacutesique attendu 7

11 Repreacutesentation simplifieacutee des deux eacutetapes de transcription et de traduction pour deuxseacutequences drsquoADN drsquoun gegravene (ie deux allegraveles) hypotheacutetique A (agrave gauche lrsquoallegravele 1 agravedroite lrsquoallegravele 2) ne diffeacuterant qursquoen une seule position En haut de la figure lrsquoADN estrepreacutesenteacutee sous sa forme native qui est celle drsquoun double brin dans lequel les nucleacuteotidessont apparieacutes selon les regravegles suivantes A avec T et C avec G On dit que les deux brinsdrsquoADN ont des seacutequences compleacutementaires et on parle de paire de nucleacuteotides agrave chaqueposition de la seacutequence Les paires qui distinguent les deux allegraveles sur la figure sont G Cpour lrsquoallegravele 1 et T A pour lrsquoallegravele 2 Au cours de la transcription la copie de lrsquoun desbrins de lrsquoADN produit lrsquoARNm dans lequel la diffeacuterence entre les deux allegraveles est con-serveacutee Enfin la traduction convertit lrsquoARNm en une proteacuteine dont les acides amineacutes sontenchaicircneacutes les uns aux autres en fonction de lrsquoordre des triplets sur la seacutequence de lrsquoARNm

et selon la correspondance donneacutee par le code geacuteneacutetique La diffeacuterence drsquoun nucleacuteotideentre les deux ARNm est ainsi lue comme une diffeacuterence entre deux triplets GGC et GUCqui produit une diffeacuterence entre les proteacuteines traduites une diffeacuterence drsquoacide amineacute Gly(Glycine) en Val (Valine) Ainsi des geacutenotypes diffeacuterents porteacutes par lrsquoADN sont exprimeacutesgracircce au double processus de transcription-traduction en deux proteacuteines diffeacuterentes quipourront ecirctre responsables de deux pheacutenotypes diffeacuterents au niveau des fonctionnaliteacutesdrsquoune cellule drsquoun organe ou drsquoun organisme 12

12 Diverses descriptions ou reacutefeacuterences pour une mecircme variation geacutenomique 1713 Haplotypes tag-SNP et leur composition agrave partir des allegraveles de SNP voisins sur dif-

feacuterentes versions drsquoun mecircme chromosome Source http wwwhapmaporg 18

vii

viii Table des figures

14 Repreacutesentation originale du scheacutema repreacutesentant les diffeacuterentes cateacutegories (CO PD PKFA GN) associeacutees aux donneacutees de PharmGKB et leurs principales associations (doublesflegraveches noires) Source http wwwpharmgkborg 21

21 Repreacutesentation simplifieacutee du processus drsquo 24

22 Diffeacuterentes repreacutesentations du treillis associeacute au contexte K repreacutesenteacute dans le Tableau21 De gauche agrave droite le treillis des parties associeacute au contexte (ougrave tous les sous-ensembles drsquoattributs sont repreacutesenteacutes) treillis de Galois associeacute au mecircme contexte treillis de Galois en notation reacuteduite associeacute au mecircme contexte 31

23 Treillis des parties associeacute au contexte K repreacutesenteacute Tableau 22 La ligne de seacuteparationsymbolise le support minimum (min_supp = 3

5 ) dissociant les motifs non freacutequents audessus de la ligne des motifs freacutequents en dessous Le chiffre associeacute agrave chaque motifcorrespond au nombre drsquooccurences du motif dans K Source exemple extrait de [Sza06] 34

24 Classes drsquoeacutequivalence motifs fermeacutes freacutequents et geacuteneacuterateurs freacutequents associeacutes au con-texte K repreacutesenteacute Tableau 22 (min_supp = 2

5 ) Les relations de subsomption entreclasses drsquoeacutequivalence sont deacuteduites du treillis repreacutesenteacute Figure 23 Source exempleextrait de [Sza06] 36

25 Repreacutesentation des inclusions successives de lrsquoensemble des Regravegles Minimales Non-redondantes Reacuteduites (RMNR) dans lrsquoensemble des Regravegles Minimales Non-redondantes(RMN) puis de ce dernier ensemble dans celui de toutes les regravegles drsquoassociation 38

26 Cycle de vie drsquoune ontologie Source [DCGR98] 47

27 Architecture drsquoun systegraveme drsquointeacutegration de donneacutees suivant lrsquoapproche entrepocirct 49

28 Architecture drsquoun systegraveme drsquointeacutegration de donneacutees suivant lrsquoapproche meacutediateur 51

29 Extrait de la G O 56

210 Lrsquoontologie OntoDataClean preprocessing ontology preacutesenteacutee par Perez-Rey et al [PRAC06]Les ellipses griseacutees sont les concepts et les rectangles blancs leurs instances Les lignessimples sont des relations de subsomption ou des assertions de concepts Les lignesfleacutecheacutees sont les rocircles 61

211 Taxonomie T 64

212 Mapping simple proposeacute dans [SRR05] pour guider lrsquointerpreacutetation des reacutesultats de fouille 65

31 Extrait drsquoun diagramme de classes UML illustrant les relations de geacuteneacuteralisation entre unconcept issu drsquoun vocabulaire controcircleacute Sequence Ontology (SO) un concept drsquoune on-tologie de domaine SNP-Ontology (SNPO) et un concept drsquoune meacuteta-ontologie BasicFormal Ontology (BFO) 70

32 Diagramme UML repreacutesentant la reacutepartition des diagrammes de classes en quatre pa-quets (packages en anglais) Le concept de variant peut ecirctre associeacute aux seacutequencesgeacutenomiques sur lesquels ils sont localiseacutes originellement mais aussi aux seacutequences tran-scrites et proteacuteiques sur lesquelles sont observeacutees les conseacutequences des variations geacutenomiques 75

33 Diagramme de classes UML conceptualisant un variant la variation observeacutee pour unvariant et sa position sur une seacutequence 75

34 Diagramme de classes UML relatif aux seacutequences associeacutees agrave un variant 75

35 Repreacutesentation partielle de la hieacuterarchie de concepts de SNP-Ontology impleacutementeacutee enOWL 77

ix

36 Repreacutesentation scheacutematique de quelques concepts et rocircles de SNP-Ontology impleacutemen-teacutes en OWL NB en OWL les concepts sont appeleacutes des classes et les rocircles sont soitdes proprieacuteteacutes drsquoobjets (ObjectProperty) soit des proprieacuteteacutes de type de donneacutees (Object-

DataTypeProperty) Les rocircles preacutesentent un domaine et un co-domaine (noteacutes respective-ment owl domain et owl range) et parfois une contrainte de cardinaliteacute (owl minCar-

dinality par exemple) 7737 Diagramme de classes UML centreacute sur la conceptualisation des items cliniques 8238 Diagramme de classes UML centreacute sur la conceptualisation drsquoessais cliniques 8239 Diagramme de classes UML centreacute sur la conceptualisation drsquoun protocole drsquoessai clinique 82310 Architecture geacuteneacuterale de notre systegraveme drsquointeacutegration de donneacutees Lrsquoontologie utiliseacutee par

le meacutediateur est la mecircme que celle qui constitue la TBox de la Base de Connaissances 85311 Architecture de SNP-Converter suivant celle proposeacutee Figure 310 91312 Les diffeacuterentes eacutetapes du processus de conversion de la description drsquoune variation geacutenomique

pris en charge par SNP-Converter 92313 Exemple de conversion de la description drsquoune variation geacutenomique reacutealiseacutee par SNP-

Converter 92314 Utilisation du SNP-Converter comme wrapper et meacutediateur pour le peuplement drsquoune

base de connaissances relative aux variations geacuteneacutetiques du gegravene LDLR 98315 Diagramme de Venn repreacutesentant le recouvrement des trois jeux de donneacutees utiliseacutees

pour peupler la base de connaissances SNP-KB 98316 Architecture de iSO-Pharm instanciant lrsquoarchitecture geacuteneacuterale deacutecrite Figure 310 99

41 Description geacuteneacuterale de la meacutethode de seacutelection de donneacutees guideacutee par les connaissances 10642 Positionnement et relations des trois mappings Mdminusa Mdminusd et Miminusd Les mappings

Mdminusa sont deacutefinis entre un scheacutema de bases de donneacutees et la Base de ConnaissanceLes mappingMdminusd sont deacutefinis entre les scheacutemas des bases de donneacutees et la relation dujeu de donneacutees intial Le mapping Miminusd est deacuteduit des deux preacuteceacutedents Les fonctionssymboliques associeacutees aux mappings sont repreacutesenteacutees La forme geacuteneacuterale des fonctionsassocieacutees au mappingMiminusd est la composition de lrsquoinverse de fi et de h j 110

43 Approche pour la seacutelection de donneacutees (Figure 41) utiliseacutee pour lrsquoexpeacuterimentation ie

la recherche de relations geacutenotypendashpheacutenotype lieacutees agrave lrsquoHF 11244 Concepts de SNP-Ontology instancieacutes par des individus repreacutesentant des variations geacutenomiques

(rs_001 rs_002 rs_003 et rs_004) et un haplotype (NA_01234) Leacutegende les ovalespleins sont des concepts les ovales en tirets sont des individus la ligne pleine est unerelation de subsomption les lignes en tirets ronds sont des rocircles les lignes en tirets platssont des assertions 115

45 LrsquoExtraction de Connaissances agrave partir drsquoune Base de Connaissances ou 11946 LrsquoAnalyse des Assertions de Rocircles () et des ses diffeacuterentes eacutetapes 12247 Capture drsquoeacutecran du plugin de Proteacutegeacute 4 pour lrsquoAnalyse drsquoAssertions de Rocircles 13248 Un jeu de donneacutees exemple concernant la morphologie de cellules soumis agrave COBWEB

la hieacuterarchie de cluster produite et la hieacuterarchie de concepts (ou classes) RDF deacuteduite[CCH01] 143

49 Un treillis de concepts notation reacuteduite produit agrave partir de textes (agrave gauche) et la hieacuterar-chie de concepts en laquelle il est transformeacute (agrave droite) suivant la meacutethode proposeacutee dans[CHS05] 144

410 Un treillis de concepts notation reacuteduite produit agrave partir de textes (agrave gauche) et la hieacuterar-chie de concepts instancieacutee en laquelle il est transformeacute (agrave droite) suivant lrsquoalternativeproposeacutee dans [BTN08] 145

x Table des figures

411 Les diffeacuterences drsquoorganisation des domaines dans une sous-famille de proteacuteines phos-phatases les reacutecepteurs tyrosines phosphatases Ces organisations sont repreacutesenteacuteesdans lrsquoontologie des phosphatases et utiliseacutees pour la classification automatique de nou-velles proteacuteines [WLT+06] 146

C1 Code OWL qui correspond agrave la repreacutesenteacutee dans le Tableau 24 Ce code est enregistreacutedans le fichier ldquoexemple_de_bcowlrdquo 160

D1 Diagramme de classes UML donnant une vue geacuteneacuterale mais partielle de la conceptual-isation de SO-Pharm 162

E1 Capture drsquoeacutecran de SNP-Converter Lrsquoonglet preacutesenteacute srsquointitule Data integration Il pro-pose de seacutelectionner une liste de sources de donneacutees et une portion du geacutenome unexon un intron un gegravene entier ou un espace situeacute entre deux nucleacuteotides Lrsquoexeacutecutionde la fonction drsquointeacutegration de donneacutees de SNP-Converter par le bouton Run permetlrsquoinstanciation drsquoune Base de Connaissances SNP-KB qui permet drsquoeacutevaluer le recouvre-ment des donneacutees contenues dans les diffeacuterentes sources et repreacutesenteacutees dans le cadreintituleacute Database overlapp Par exemple le premier variant de la liste est initialementpreacutesent dans les 4 sources de donneacutees seacutelectionneacutees le second est preacutesent uniquementdans PharmGKB le troisiegraveme est dans HGVBase et PharmGKB 164

E2 Capture drsquoeacutecran de SNP-Converter Lrsquoonglet preacutesenteacute srsquointitule Conversion Il propose desaisir la descritpion drsquoun variant ici Chr6 18251934GgtC et de choisir un type de de-scription diffeacuterent pour deacutecrire le variant ici la position par rapport agrave lrsquoexon Lrsquoexeacutecutionpar le biais du bouton Run construit la description du variant donneacutee selon la descrip-tion demandeacutee TPMT_exon_6 129GgtC Le variant donneacute en entreacutee peut ecirctre soit unidentifiant drsquoune base de donneacutees soit ecirctre deacutecrit suivant la nomenclature HGVS 165

E3 Capture drsquoeacutecran de SNP-Converter Lrsquoonglet est le mecircme que celui preacutesenteacute dans laFigure E2 Cette figure repreacutesente en plus les diffeacuterents type de description suivantlesquelles il est possible de convertir le variant donneacute nomenclature HGVS du variantpositionneacute relativement agrave la seacutequence du chromosome de contigs de lrsquoexon de lrsquointronde la proteacuteine ou encore lrsquoidentifiant du variant dans dbSNP 165

G1 Capture drsquoeacutecran du plugin de Proteacutegeacute 4 pour lrsquoAnalyse drsquoAssertions de Rocircles 172

Liste des tableaux

21 Un premier exemple de contexte formel K 29

22 Un second exemple de contexte formel K 32

23 Syntaxe et seacutemantique associeacutees aux constructeurs de concepts les plus simples en Les constructeurs disponibles dans la logique de baseAL nrsquoont pas de symbole proprepour les autres le symbole correspondant est donneacute dans la quatriegraveme colonne Lrsquoan-nexe B deacutecrit une liste plus complegravete des constructeurs de concepts ainsi que de certainsconstructeurs de rocircles 42

24 Un exemple de Base de Connaissances eacutecrite en 42

25 Syntaxe et seacutemantique associeacutees aux axiomes terminologiques et assertionels en 43

26 Base de donneacuteesD 64

27 Regravegles conserveacutees (supportmin=03 confiancemin=06) apregraves geacuteneacuteralisation 64

31 Liste des sources exploreacutees pour enrichir la liste de termes relatifs aux variations geacutenomiquesLa troisiegraveme colonne preacutecise si la source de variations geacutenomiques concerne uniquementun locus particulier (source Locus Speacutecifique ou LS) uniquement lrsquohumain ou si elle estgeacuteneacuterique (multi-locus et multi-espegraveces) 74

32 Les deux ontologies articuleacutees avec SNP-Ontology 74

33 Liste des axiomes deacutecrivant les relations entre concepts propres agrave SNP-Ontology (SNPO)et concepts externes importeacutes de AA Ontology (AAO) et Sequence Ontology (SO) Lesidentifiants des concepts de SO sont donneacutes entre parenthegraveses 76

34 Liste des sources exploreacutees pour enrichir la liste de termes relatifs aux sous-domainesde la pharmacogeacutenomique La troisiegraveme colonne preacutecise le sous-domaine que la sourceconcerne Les vocabulaires controcircleacutes eacutetoileacutes () sont des ontologies OBO 80

35 Les 15 ontologies articuleacutees avec SO-Pharm Le preacutefixe repreacutesenteacute par le symbole ~correspond agrave lrsquoURL http wwwloriafr~coulet 81

36 Les principaux axiomes deacutecrivant des relations entre les concepts propres agrave SO-Pharm(SOPHARM) et les concepts externes des ontologies articuleacutees (voir Tableau 35) Lesidentifiants des concepts associeacutes sont donneacutes entre parenthegraveses lorsqursquoils existent Laliste complegravete inclut eacutegalement des axiomes qui formalisent des relations entre rocircles 83

41 Forme geacuteneacuterale du jeu de donneacutees eacutetudieacute dans le sceacutenario 104

42 Caracteacuterisation quantitative des reacutesultats bruts de fouille de donneacutees en fonction du nom-bre drsquoattribut seacutelectionneacutes 114

43 Contexte formel K(GMI) reacutesultat de lrsquoexploration des graphes drsquoassertions 125

xi

xii Liste des tableaux

44 Groupes de geacutenotypes associeacutes au sein des gegravenes eacutetudieacutes dans lrsquoinvestigation cliniquede Lima et al [LZG+06] La colonne de gauche preacutesente les trois groupes de geacutenotypesmis en eacutevidence par Lima et al par la mesure des deacuteseacutequilibres de liaison (Linkage

Desquilibrium ou LD en anglais) La colonne de droite preacutesente les groupes que nousavons mis en eacutevidence agrave partir du mecircme jeu de donneacutees avec lrsquo Cette deuxiegravemecolonne preacutesente dans certains cas deux associations de geacutenotypes diffeacuterents pour unmecircme groupe de variations (gegravene ABCC1 et CYSLTR1) Les regravegles dont sont extraits ces7 groupes sont reporteacutees en Annexe H 137

45 Geacutenotypes speacutecifiques aux pheacutenotypes preacutesenteacutes dans la colonne de gauche La colonnedu centre repreacutesente les geacutenotypes speacutecifiques mis en eacutevidence dans Lima et al parmeacutethodes statistiques(χ2 et rapport de vraisemblance) [LZG+06] La colonne de droiterepreacutesente les variations mises en eacutevidence par notre approche drsquoAnalyse des Assertionsde Rocircles Les regravegles qui mettent en eacutevidence ces associations sont reporteacutees en Annexe H 139

B1 Constructeurs de concepts en Logique de Descriptions et leurs correspondances enOWL C et D sont des concepts (respectivement C et D sont des classes) T est un conceptparticulier qui correspond agrave un type de donneacutees (un Datatype en OWL) n est un nombrea et b sont des individus R un rocircle (une proprieacuteteacute drsquoobjet ou ObjectProperty en OWL) etS un rocircle dont le co-domaine correspond agrave un concept de mecircme type que T (une proprieacuteteacutede donneacutees ou DatatypeProperty en OWL) 156

B2 Constructeurs de rocircles en Logique de Descriptions et leurs correspondances en OWLR et Q sont des rocircles (des proprieacuteteacutes drsquoobjet ou ObjectProperty en OWL) 157

Introduction

Ce chapitre est une introduction geacuteneacuterale agrave la thegravese Les sections 1ndash3 deacutecrivent le contexte scien-tifique de la thegravese la deacutecouverte de connaissances pour la pharmacogeacutenomique La section 4 preacutesentele contexte industriel qui a motiveacute cette thegravese La section 5 introduit sa probleacutematique puis la section 6lrsquoapproche adopteacutee et les principales contributions Enfin la section 7 preacutesente un reacutesumeacute des chapitresde la thegravese

1 Des donneacutees aux connaissances

Lrsquoexpansion du nombre de sources de donneacutees disponibles en particulier gracircce au Web et la quantiteacutede donneacutees geacutereacutees au sein de ces sources ont rendu indispensable la mise au point de systegravemes capablesdrsquoextraire de faccedilon automatique ou semi-automatique des connaissances disponibles mais cacheacutees parla complexiteacute des donneacutees Cette complexiteacute est principalement due agrave lrsquoheacuteteacuterogeacuteneacuteiteacute la diversiteacute ladispersion et le grand volume des donneacutees Le processus drsquoExtraction de Connaissances agrave partir de Basesde Donneacutees () deacutecrit par Frawley et al [FPSM91] a justement pour but la deacutecouverte drsquouniteacutes deconnaissances agrave partir drsquoensembles de bases de donneacutees volumineuses

Avant de deacutefinir et deacutetailler le processus drsquo il convient de preacuteciser la distinction que nous faisonsdans cette thegravese entre donneacutees information et connaissances De nombreuses tentatives de deacutefinition ontvu le jour notamment dans le domaine des sciences cognitives ougrave lrsquoexploitation drsquoinformations diversespar un systegraveme complexe permet lrsquoacquisition de connaissances capables de diriger la mise en œuvredrsquoactions Nous nous limiterons aux deacutefinitions accepteacutees de maniegravere geacuteneacuterale dans le domaine de lrsquoin-formatique exprimeacutees par Kayser de la faccedilon suivante [Kay97]

ndash les donneacutees sont le reacutesultat drsquoobservationsndash les informations sont le reacutesultat de lrsquointerpreacutetation de ces donneacuteesndash les connaissances deacutefinissent la faccedilon drsquoutiliser les donneacutees et informations

Cette distinction est preacutesenteacutee de faccedilon plus formelle par Devlin Schreiber et Wille [Dev99 SAA+99Wil02] de la faccedilon suivante

ndash donneacutees = signes + syntaxendash information = donneacutees + sens (ou seacutemantique)ndash connaissances = information assimileacutee et interpreacuteteacutee + possibiliteacute de mise en action de lrsquoinforma-

tion interpreacuteteacutee

Prenons un exemple relevant du domaine de la geacuteneacutetique et consideacuterons la seacutequence drsquoADN consti-tutive drsquoun gegravene au cœur drsquoune cellule A ce niveau la seacutequence de nucleacuteotides ie lrsquoenchaicircnement deplusieurs milliers drsquoA C G et T peut ecirctre consideacutereacutee comme des donneacutees brutes En revanche le fait

1

2 Introduction

que lrsquoon sache que cette seacutequence est reconnue par la machinerie cellulaire comme un gegravene particulierest une information Enfin les regravegles de fontionnement de la machinerie cellulaire et particuliegraverement lecode geacuteneacutetique de la cellule constituent les connaissances qui permettent drsquointerpreacuteter ce gegravene commeune proteacuteine utiliseacutee ensuite dans la mise en œuvre de fonctions biologiques

Dans un ordinateur les donneacutees informations et connaissances peuvent ecirctre repreacutesenteacutees selon lesformes suivantes

ndash donneacutees un nombre une image une chaicircne de caractegraveres par exemple ldquoATCGGCTAGCTTATATC-GATCGATrdquo

ndash information des donneacutees dans une base de donneacutees ou sous forme de tableau associeacutees auxmeacutetadonneacutees neacutecessaires agrave leur interpreacutetation souvent sous la forme drsquoun couple attributndashvaleurcomme par exemple ldquosequence_du_gene = ATCGGCTAGCTTATATCGATCGATrdquo

ndash connaissances des contraintes des regravegles des axiomes logiques utilisables par des programmespour exploiter les informations dans le cadre de la reacutealisation drsquoune action par exemple lrsquoaide agravela deacutecision le pilotage drsquoun robot la deacutecouverte de nouvelles connaissances

F 1 ndash Repreacutesentation scheacutematique et naiumlve du processus de transformation de donneacutees en informationpuis en connaissances A gauche un processus en pyramide et agrave droite en boucle La lettre C repreacutesenteles connaissances

Drsquoun point de vue opeacuterationnel il est inteacuteressant drsquoenvisager les processus qui permettent de passerde donneacutees agrave lrsquoinformation puis aux connaissances De faccedilon naiumlve ce processus peut ecirctre repreacutesenteacutesous forme de pyramide ougrave les connaissances occupent la place la plus haute pour souligner le fait quede nombreuses donneacutees sont neacutecessaires agrave lrsquoacquisition drsquoune connaissance [SAA+99 Wil02] Il noussemble plus exact de proposer un scheacutema composeacute drsquoune boucle dans la mesure ougrave les connaissancesexistantes peuvent servir pour associer un sens (ie une seacutemantique) agrave des donneacutees (voir Figure 1)

Nous remarquerons toutefois qursquoen informatique la distinction donneacuteesndashinformation est artificiellepuisque les programmes ne manipulent que des donneacutees (le nom drsquoun attribut ou une valeur attribueacuteeagrave celui-ci) Comme observe Guus Schreiber dans son livre sur la meacutethodologie de gestion des connais-sances CommonKADS que ce soit pour un programme ou un humain la frontiegravere entre donneacutees et infor-mation nrsquoest pas franche car elle est fortement deacutependante du contexte drsquoutilisation [SAA+99] Ainsi lesens associeacute agrave une donneacutee peut ecirctre diffeacuterent drsquoun pays agrave lrsquoautre drsquoun domaine professionnel agrave lrsquoautreDe mecircme des donneacutees peuvent ecirctre chargeacutees de sens pour un utilisateur averti et agrave ce titre constituerune source drsquoinformation alors qursquoelles nrsquoauront aucun sens et resteront au stade de donneacutees pour unutilisateur non averti

Les connaissances constituent une notion nettement distincte de celles de donneacutees et drsquoinformation

1 Des donneacutees aux connaissances 3

Donneacuteestransformeacutees

Inteacuterepreacutetation Eacutevaluation

Fouillede donneacutees

Transformation

Seacutelection

Base de donneacuteesheacuteteacuterogegravenes

Donneacuteesseacutelectionneacutees

(i) Preparation

des donnees

(ii) Fouille

de donnees(iii)Interpretation

Modegraveles

Connaissance InteacutegrationNettoyage

Donneacuteesinteacutegreacutees

F 2 ndash La repreacutesentation classique du processus drsquoExtraction de Connaissances agrave partir des Bases deDonneacutees () (drsquoapregraves [FPSS96])

qui restent purement descriptives De faccedilon diffeacuterente les connaissances se distinguent par leur caractegraveredynamique orienteacutees vers lrsquoaction comme par exemple la prise de deacutecision ou lrsquoacquisition de nouvellesconnaissances Ainsi la repreacutesentation des connaissances en informatique est toujours associeacutee agrave des meacute-canismes de raisonnement qui permettent la reacutesolution de problegravemes

Dans cette thegravese nous nous inteacuteressons particuliegraverement au processus drsquo Celui-ci a justementpour but la deacutecouverte drsquouniteacutes drsquoinformation (ou uniteacutes extraites) agrave partir drsquoensembles de bases dedonneacutees volumineuses Ces uniteacutes drsquoinformation pourront ensuite ecirctre interpreacuteteacutees comme des uniteacutesde connaissance non triviales potentiellement utiles et reacuteutilisables Geacuteneacuteralement le processus drsquoest appliqueacute agrave la fois de faccedilon iteacuterative et interactive Iteacuterative car les reacutesultats produits peuvent ecirctrereacuteutiliseacutes lors des iteacuterations suivantes du processus Interactive car le processus drsquo est reacutealiseacute sousle controcircle drsquoun expert du domaine eacutetudieacute lrsquoanalyste Crsquoest lui qui guide le processus en fonction deses objectifs de ses propres connaissances du domaine et des reacutesultats obtenus lors des preacuteceacutedentesiteacuterations de lrsquoextraction

Nous distinguons trois eacutetapes principales dans le processus repreacutesenteacutees Figure 2 ndash (i) la preacuteparation des donneacutees incluant leur seacutelection leur inteacutegration et leur nettoyage en vue de

leur utilisation par les algorithmes de fouille de donneacuteesndash (ii) lrsquoopeacuteration de fouille de donneacutees proprement dite conduisant agrave lrsquoextraction drsquouniteacutes drsquoinfor-

mation preacutesentes sous forme de reacutegulariteacutes dans les donneacutees etndash (iii) lrsquointerpreacutetation des uniteacutes drsquoinformation extraites en terme de connaissanceLes uniteacutes de connaissance ainsi produites peuvent ecirctre exprimeacutees dans un formalisme de repreacutesen-

tation des connaissances afin de pouvoir ecirctre utiliseacutees dans des systegravemes fondeacutes sur les connaissancesDans la suite de cette thegravese nous ne consideacutererons pas la notion drsquoinformation tregraves deacutependante de lrsquoin-

terpreacutetation individuelle Plutocirct que drsquoemployer le terme drsquouniteacute drsquoinformation nous preacutefeacutererons parlerdrsquouniteacutes extraites par la fouille de donneacutees qui peuvent revecirctir diffeacuterentes formes selon lrsquoalgorithme defouille utiliseacute un motif freacutequent un concept formel une regravegle drsquoassociation un cluster etc En revanchenous nous attacherons agrave eacutetudier ce qui distingue les donneacutees des connaissances le couple ltsyntaxe seacute-mantique formellegt et comment ce couple est exploiteacute par des meacutecanismes de raisonnement pour mettreen action les connaissances

4 Introduction

F 3 ndash Une annotation humoristique du geacutenome humain par Matt Davies The Journal NewsLos Angeles

Times Syndicate 2000

Dans le domaine de la geacutenomique et plus geacuteneacuteralement de la biologie moleacuteculaire les progregravesbiotechnologiques ont meneacute agrave lrsquoacquisition de larges volumes de donneacutees puis agrave leur enregistrementdans des centaines de bases de donneacutees creacuteeacutees speacutecialement [Bat08] Par exemple les techniques deseacutequenccedilage moleacuteculaire de lrsquoADN ont permis le deacutecryptage drsquoune premiegravere version du geacutenome hu-main en 2001 mis ensuite agrave la disposition de la communauteacute scientifique dans trois bases de donneacutees[ea01 Con01]

ndash Genome Browser1 de lrsquoUCSD (University of California Santa Cruz)ndash Ensembl2 de lrsquoEBI (European Bioinformatics Institute) etndash Map Viewer3 du NCBI (National Center for Biotechnology Information)Drsquoautres projets depuis srsquointeacuteressent agrave affiner la seacutequence du geacutenome et agrave lrsquoannoter (ie la carac-

teacuteriser) en explorant entre autres les variations geacutenomiques le transcriptome le proteacuteome La Figure 3repreacutesente de faccedilon humoristique des annotations du geacutenome humain De faccedilon plus seacuterieuse le pro-jet international HapMap termineacute en 2007 et le projet 1000 genomes initieacute en 2008 explorent lesvariations inter-individuelles du geacutenome humain avec entre autres lrsquoobjectif drsquoenrichir son annotation[Con03 Spe08] La somme de donneacutees collecteacutees est particuliegraverement inteacuteressante en geacutenomique fonc-tionnelle ou en geacutenomique inteacutegrative qui eacutetudie lrsquoimpact sur le fonctionnement du geacutenome de facteursenvironnementaux comme lrsquoalimentation un traitement meacutedicamenteux ou des habitudes de vie

Cependant les meacutedecins et les biologistes qui utilisent quotidiennement ces bases de donneacutees dansleur activiteacute de diagnostic et de recherche sont limiteacutes par la complexiteacute des donneacutees Premiegraverement lenombre et la dispersion des sources compliquent les tacircches de collecte manuelle de donneacutees Seconde-ment le volume ainsi que des consideacuterations plus speacutecifiques aux sciences du vivant comme la grande

1httpgenomeucsceducgi-binhgGateway2httpwwwensemblorgHomo_sapiensindexhtml3httpwwwncbinlmnihgovprojectsmapview

2 Des connaissances pour de nouvelles connaissances 5

varieacuteteacute des donneacutees leur tendance agrave ecirctre fortement interconnecteacutees et leurs reacutefeacuterences agrave des domainesspeacutecialiseacutes compliquent lrsquoanalyse et lrsquointerpreacutetation

Face agrave cette difficulteacute lrsquo propose un cadre meacutethodologique qui a eacuteteacute appliqueacute avec succegraves enbiologie pour inteacutegrer les donneacutees repreacutesenteacutees dans des formats heacuteteacuterogegravenes et disperseacutees dans dif-feacuterentes sources [GS08] et analyser les donneacutees par des meacutethodes de fouille afin drsquoen extraire des reacutegu-lariteacutes (ou des irreacutegulariteacutes) [WZTS05]

Cependant rares sont les travaux qui reacuteutilisent effectivement les connaissances extraites ou qui tirentparti des connaissances deacutejagrave existantes pour faire face agrave la complexiteacute des donneacutees post-geacutenomiques

2 Des connaissances pour de nouvelles connaissances

Un axe de recherche de lrsquoeacutequipe-projet INRIA Orpailleur est de guider le processus drsquo non plusseulement par les connaissances de lrsquoanalyste mais eacutegalement par des connaissances exprimeacutees dansun langage de repreacutesentation des connaissances particulier interpreacutetable par une machine [LNST08]Le processus drsquo ainsi guideacute par les connaissances du domaine est appeleacute pour Extraction de

Connaissance guideacutee par les Connaissances du Domaine (ou en anglais pour Knowledge Discovery

guided by Domain Knowledge)De nombreux travaux en intelligence artificielle se sont inteacuteresseacutes agrave la repreacutesentation formelle de

connaissances dans lrsquoobjectif de rendre celles-ci interpreacutetables aussi bien par une machine que par unecirctre humain Crsquoest notamment lrsquoobjectif du Web seacutemantique tel que le deacutecrit Tim Berners-Lee [BLHL01]de proposer une extension du Web actuel dans laquelle les machines ldquocomprennentrdquo les informationsauxquelles elles accegravedent et sont ainsi en mesure de les manipuler en tant que connaissances au sein demeacutecanismes de raisonnement automatiques

A la base de lrsquoinfrastructure drsquoapplications fondeacutees sur les connaissances comme le Web seacutemantiquese trouvent les ontologies Le terme ontologie fait reacutefeacuterence agrave diverses notions connexes branche dela philosophie vocabulaire controcircleacute taxonomie ordre partiel par exemple Aussi la deacutefinition adopteacuteedans cette thegravese est celle de Thomas Gruber qui vaut pour les ontologies des applications fondeacutees surles connaissances selon laquelle une ontologie est une description formelle des concepts relatifs agrave undomaine et des relations entre ces concepts [Gru93]

Le Web Seacutemantique et lrsquoeffervescence qursquoil suscite ont meneacute la communauteacute scientifique au deacuteveloppe-ment de standards notamment pour la repreacutesentation des connaissances Le langage OWL (Web Ontology

Language) est ainsi le langage standard pour la repreacutesentation des ontologies du Web Seacutemantique OWLest issu agrave la fois des langages du Web (HTML XML RDF) et de formalismes logiques tels que leslogiques de descriptions

Des centaines drsquoontologies exprimeacutees en OWL sont partageacutees publiquement via le Web En bioin-formatique le besoin de modeacutelisation et drsquointeropeacuterabiliteacute des modegraveles biologiques en particulier pourrendre possible lrsquointeacutegration de donneacutees a favoriseacute le partage et le deacuteveloppement communautaire debio-ontologies via des portails Web comme le Bioportal ou lrsquoOBO-Foundry [RMKM08 SAR+07]

Il est eacutetabli que les meacutethodes de repreacutesentation des connaissances constituent un atout pour par-ticiper au deacutecryptage des masses de donneacutees collecteacutees en sciences du vivant en grande partie car ellespermettent la modeacutelisation de leur diversiteacute et de leur heacuteteacuterogeacuteneacuteiteacute [Rec00 Ste08] Les applications Ri-boWeb et EcoCyc illustrent notamment comment des bio-ontologies peuvent ecirctre utiliseacutees pour favoriserlrsquoexploitation de donneacutees biologiques [ABC+99 KACV+04] Le langage OWL comme standard et lesportails comme zone de partage et de structuration des connaissances en sciences du vivant sont deuxavanceacutees qui doivent favoriser le succegraves des approches fondeacutees sur les connaissances pour la deacutecouvertede connaissances en biologie

Ainsi lrsquoobjectif geacuteneacuteral de cette thegravese est drsquoeacutetudier comment les connaissances formaliseacutees dans

6 Introduction

Meacutedicament

Geacutenotype Pheacutenotype

F 4 ndash Repreacutesentation scheacutematique de la relation entre meacutedicament geacutenotype pheacutenotype eacutetudieacutee enpharmacogeacutenomique

une ontologie peuvent faciliter le processus de deacutecouverte de connaissances et cela notamment dans ledomaine de la pharmacogeacutenomique

3 La pharmacogeacutenomique

La pharmacogeacutenomique eacutetudie comment certaines variations geacuteneacutetiques inter-individuelles impliquentune variabiliteacute dans les reacuteponses entre individus agrave un mecircme traitement meacutedicamenteux [Web97]

La distinction classique entre la pharmacogeacuteneacutetique et la pharmacogeacutenomique preacutesente la phar-macogeacuteneacutetique comme lrsquoeacutetude des caractegraveres heacutereacuteditaires associeacutes agrave la pharmacologie et la pharma-cogeacutenomique comme lrsquoeacutetude au niveau moleacuteculaire de ces facteurs geacuteneacutetiques de leurs interactionsmutuelles et de leurs conseacutequences multiples tant au niveau macroscopique qursquoau niveau microscopique(moleacuteculaire cellulaire tissulaire) Ainsi une deacutefinition plus complegravete de la pharmacogeacutenomique com-prend lrsquoeacutetude de lrsquoensemble des gegravenes ayant une influence sur la pharmacologie des manifestations deleurs variations geacutenomiques de lrsquointeraction de ces variations dans la production de pheacutenotypes et delrsquoinfluence drsquoun tel pheacutenotype sur la reacuteponse agrave un meacutedicament [AK02]

La pharmacogeacutenomique peut ecirctre scheacutematiquement repreacutesenteacutee comme lrsquoeacutetude des relations ter-naires existant entre un traitement meacutedicamenteux un geacutenotype et un pheacutenotype (Figure 4)

ndash Typiquement le traitement meacutedicamenteux correspond agrave lrsquoadministration drsquoune (ou plusieurs)moleacutecule(s) avec une certaine dose une certaine freacutequence et via une certaine voie drsquoadministra-tion

ndash Le geacutenotype correspond agrave une (ou plusieurs) version(s) drsquoune variation geacutenomique Le plus sou-vent il srsquoagit du geacutenotype (ie deux allegraveles pour les espegraveces diploiumldes) observeacute sur le site drsquounevariation ponctuelle du geacutenome ie un Single Nucleotide Polymorphism (SNP)

ndash Le pheacutenotype distingue geacuteneacuteralement trois classes qui correspondent agrave trois types de reacuteponses aumeacutedicament la reacuteponse attendue lrsquoabsence drsquoeffet une reacuteponse adverse au meacutedicament

Un exemple drsquointeraction pharmacogeacutenomique deacutecrite par Desmeules et al [DGDM91] et Gascheet al [GDF+04] est lrsquoinfluence des variations du gegravene CYP2D6 dans la reacuteponse agrave un traitement decodeacuteine La codeacuteine est un opiaceacute prescrit entre autres pour son pouvoir analgeacutesique La codeacuteine estphysiologiquement meacutetaboliseacutee dans le foie en morphine responsable de son effet analgeacutesique Il ex-iste plusieurs versions fonctionnelles du gegravene CYP2D6 (ie plusieurs variants du gegravene) dont les produitsagissent diffeacuteremment sur la transformation de codeacuteine en morphine et permettent de distinguer plusieurscateacutegories drsquoindividus (Figure 5) les meacutetaboliseurs lents (porteurs de variants agrave activiteacute faible) lesmeacutetaboliseurs rapides (porteurs de variants agrave activiteacute normale ou forte) les meacutetaboliseurs ultra-rapides(porteurs de copies multiples de variants agrave activiteacute normale ou forte) Les meacutetaboliseurs lents sont inca-pables de meacutetaboliser efficacement la codeacuteine en morphine et en conseacutequence ne preacutesentent pas lrsquoeffetanalgeacutesique attendu Les meacutetaboliseurs ultra-rapides meacutetabolisent la codeacuteine avec une efficaciteacute accrue

3 La pharmacogeacutenomique 7

Codeacuteine25mg voie orale

Codeacuteine25mg voie orale

Codeacuteine

CYP2D64 Aucun effet Effetanalgeacutesique

Taux de morphinetoxique

25mg voie orale

CYP2D6UMCYP2D61

F 5 ndash Trois exemples de relations pharmacogeacutenomiques particuliegraveres entre un traitement de codeacuteinela version du gegravene CYP2D6 et lrsquoeffet de la codeacuteine En fonction de la version du gegravene la reacuteponse estdiffeacuterente De gauche agrave droite le cas de meacutetaboliseurs lents normaux ou leacutegegraverement rapides et ultra-rapides Il est inteacuteressant de noter que lrsquoadministration drsquoune dose de codeacuteine plus eacuteleveacutee (50 mg par ex-emple) aux meacutetaboliseurs lents permet de compenser la limitation de lrsquoactiviteacute enzymatique et drsquoobtenirlrsquoeffet analgeacutesique attendu

qui entraicircne une intoxication agrave la morphine

Les reacutesultats des projets de collecte de donneacutees agrave haut deacutebit comme le seacutequenccedilage du geacutenomede ses variations lrsquoeacutetude des transcriptome et proteacuteome alimentent le deacuteveloppement de la pharma-cogeacutenomique Le beacuteneacutefice des meacutethodes deacuteveloppeacutees et des connaissances ainsi acquises constitue uncatalyseur pour les chercheurs en biologie meacutedicale qui voient lagrave une occasion de beacuteneacuteficier des deacutecou-vertes en biologie moleacuteculaire pour obtenir des reacutesultats en pratique clinique [ER99] Ce type drsquoimpor-tation des deacutecouvertes ldquotheacuteoriquesrdquo pour le monde clinique srsquoinscrit dans un effort geacuteneacuteral de recherchebiomeacutedicale appeleacute la meacutedecine translationelle (traduit directement de lrsquoanglais translational medicine)[Mar03] Il est inteacuteressant de noter que la recherche translationelle srsquointeacuteresse eacutegalement au cheminementinverse crsquoest agrave dire agrave eacutetudier comment des deacutecouvertes et des pratiques cliniques peuvent ecirctre utiles pourprogresser en biologie moleacuteculaire

Une application attendue de la pharmacogeacutenomique au niveau des pratiques cliniques est la geacuteneacuterali-sation des prescriptions meacutedicales individualiseacutees prenant en consideacuteration une exploration preacutealable dugeacutenotype du patient Ceci permettrait drsquooptimiser lrsquoefficaciteacute du traitement et drsquoen preacutevenir les reacuteponsesadverses [ER04] Cette application appeleacutee meacutedecine individualiseacutee (individualized medicine an anglais)inteacuteresse les pouvoirs publics qui y voient un inteacuterecirct eacuteconomique eacutevident La pharmacogeacutenomique in-teacuteresse eacutegalement les industries pharmaceutiques dans la mesure ougrave les variations inter-individuelles dansles reacuteponses aux meacutedicaments peuvent expliquer pourquoi des moleacutecules efficaces sur un panel restreintsrsquoavegraverent apregraves de coucircteux deacuteveloppements inefficaces (voire dangereuses) au sein drsquoune populationplus vaste Crsquoest justement le cas du BiDil un meacutedicament deacuteveloppeacute pour reacuteduire le risque drsquoaccidentscardio-vasculaires Le BiDil srsquoeacutetait reacuteveacuteleacute inefficace lors des phases finales de son programme de misesur le marcheacute puis apregraves avoir eacuteteacute mis quelques temps de cocircteacute il a eacuteteacute montreacute qursquoil eacutetait particuliegravere-ment efficace pour un groupe particulier de population les afro-ameacutericains [TZY+04] Cet exemplealimente par ailleurs un deacutebat eacutethique sur les deacuterives qui pourraient ecirctre associeacutees au deacuteveloppement et agravela prescription de moleacutecules reacuteserveacutees agrave des sous-groupes de populations [SHSD08]

En conclusion la pharmacogeacutenomique est un domaine qui preacutesente un fort inteacuterecirct meacutedical et quibeacuteneacuteficie de bases de donneacutees biologiques et de meacutethodes informatiques innovantes [AK02] Ces deuxarguments font de la pharmacogeacutenomique un domaine drsquoapplication pertinent pour ce travail de thegravese

8 Introduction

4 Le projet GenNet

Le travail preacutesenteacute dans cette thegravese a eacuteteacute initieacute dans le cadre drsquoun projet europeacuteen EUREKA intituleacuteGenNet impliquant les socieacuteteacutes KIKA Medical Phenosystems et lrsquoeacutequipe Orpailleur du LORIA

Lrsquoideacutee drsquoorigine du projet est baseacutee sur le constat qursquoun nombre grandissant drsquoessais cliniques in-clut parmi les variables exploreacutees des donneacutees geacuteneacutetiques les reacutesultats de geacutenotypage de marqueursbiologiques chez les patients eacutetudieacutes Le projet GenNet se proposait de deacutevelopper une infrastructure quidans ce contexte soit capable

(1) drsquoenregistrer conjointement donneacutees cliniques classiques (pression arteacuterielle mesure du cholesteacuteroltotal dans le sang etc) et donneacutees geacuteneacutetiques (ici le geacutenotype de variations geacutenomiques) relativesagrave un groupe de patients et

(2) drsquoanalyser les relations entre les variables ainsi collecteacutees

Dans ce contexte un sujet de thegravese a eacuteteacute proposeacute pour explorer deux problegravemes connexes au projetindustriel

(a) compleacuteter les donneacutees de lrsquoessai clinique avec des donneacutees issues de bases de donneacutees biologiquespubliques ou priveacutees Ces nouvelles donneacutees constituent un ensemble drsquoannotations4 issues destravaux de recherche en biologie moleacuteculaire qui peuvent srsquoaveacuterer utiles dans lrsquoanalyse des donneacuteesrelatives agrave la population eacutetudieacutee Ces annotations suppleacutementaires peuvent par exemple permettrede mieux caracteacuteriser un sous-groupe de patients

(b) proposer une approche drsquoanalyse originale qui utilise les connaissances du domaine pour faire faceagrave la complexiteacute speacutecifique des donneacutees biologiques en terme drsquoheacuteteacuterogeacuteneacuteiteacute de varieacuteteacute de speacuteci-ficiteacute et en extraire des connaissances potentiellement utiles

Il est possible drsquoimaginer que des reacutesultats ainsi obtenus puissent agrave leur tour ecirctre agrave la base de travauxen biologie moleacuteculaire et ainsi boucler la boucle de la meacutedecine translationelle deacutecrite en section 3 decette introduction

5 Probleacutematique

Pour extraire des connaissances agrave partir de donneacutees heacuteteacuterogegravenes et srsquoaider pour cela des connais-sances existantes notamment dans le domaine de la pharmacogeacutenomique nous nous sommes interesseacutesagrave deux problegravemes principaux le premier consiste en la reacuteconciliation indispensable des diffeacuterentes don-neacutees selon une syntaxe et une seacutemantique commune le second consiste agrave eacutetendre les meacutethodes drsquoextrac-tion de connaissances pour leur permettre non seulement de travailler avec des donneacutees mais eacutegalementavec une seacutemantique associeacutee aux donneacutees

Le premier problegraveme se pose lorsque lrsquoon souhaite inteacutegrer des donneacutees provenant de sources auxscheacutemas distincts Il est dans ce cas neacutecessaire de deacuteterminer des correspondances entre les entiteacutes eacutequiv-alentes repreacutesenteacutees dans les diffeacuterents scheacutemas Ce problegraveme est accentueacute par le fait que souvent laseacutemantique associeacutee aux entiteacutes repreacutesenteacutees agrave travers les scheacutemas des sources de donneacutees nrsquoest paseacutenonceacutee clairement Par exemple le nom drsquoun attribut et les valeurs qursquoil prend ne suffisent pas agrave deacuteter-miner preacutecisement ce que repreacutesente le couple attributndashvaleur et laisse ainsi une part de liberteacute agrave lrsquoin-terpreacutetation de lrsquoutilisateur Une seacutemantique preacutecise peut ecirctre associeacutee aux attributs et agrave leurs valeurs agravelrsquoaide de descriptions formelles eacutetablies dans une ontologie Une telle association neacutecessite la mise en

4De faccedilon tregraves geacuteneacuterale une annotation est une donneacutees associeacutee agrave une seacutequence constitutive du geacutenome pour permettre soninterpreacutetation par des biologistes

6 Approche et principales contributions 9

correspondance non triviale drsquoune part des scheacutemas des sources de donneacutees et drsquoautre part des conceptset relations deacutefinies dans une ontologie

Le second problegraveme se pose lorsque lrsquoon souhaite utiliser des connaissances de domaine pour guiderlrsquoextraction de connaissances En effet mecircme lorsque les scheacutemas de donneacutees sont associeacutes aux conceptsdrsquoune ontologie les algorithmes de fouille de donneacutees au coeur du processus ne sont pas capables deprendre en consideacuteration cette association De plus si les uniteacutes extraites par la fouille sont de maniegravereassez naturelle reacuteutiliseacutees par lrsquoanalyste lors des iteacuterations successives du processus drsquo il est plus rareque le soient des uniteacutes de connaissances valideacutees et potentiellement formaliseacutees selon une seacutemantiquepreacutecise Cela neacutecessiterait soit lrsquoadaptation des diverses eacutetapes du processus drsquo pour qursquoagrave chaqueeacutetape les connaissances disponibles puissent ecirctre reacuteutiliseacutees soit de proposer des meacutethodes alternativescapables de prendre en entreacutee des donneacutees et des connaissances preacutealablement mises en correspondance

6 Approche et principales contributions

Pour traiter les deux problegravemes deacutegageacutes dans la section preacuteceacutedente nous proposons dans cette thegraveseune approche centreacutee sur une Base de Connaissances (ou ) ie une ontologie agrave laquelle est associeacuteela description drsquoun eacutetat particulier du domaine repreacutesenteacute sous la forme drsquoassertions La premiegravere partiede cette approche consiste agrave reacuteconcilier des donneacutees contenues dans des sources heacuteteacuterogegravenes en les exp-rimant selon les termes de lrsquoontologie La seconde partie de lrsquoapproche consiste agrave extraire de nouvellesconnaissances de la Base de Connaissances en exploitant conjointement les reacutegulariteacutes preacutesentes dansles donneacutees (et conserveacutees dans la Base de Connaissances) et les connaissances du domaines declareacuteesexplicitement dans cette base

Inteacutegration de donneacutees guideacutee par une ontologie Nous avons construit deux ontologies en OWLrelatives aux domaines des variations geacutenomiques et de la pharmacogeacutenomique suivant une meacutethodologierigoureuse Nous proposons une approche drsquointeacutegration de donneacutees qui exploite ces ontologies originalespour guider lrsquointeacutegration des donneacutees relatives agrave ces domaines Les donneacutees et leurs scheacutemas sont utiliseacutespour peupler les Bases de Connaissances associeacutees aux ontologies agrave lrsquoaide de mises en correspondance etde fonctions de transformation entre donneacutees et connaissances Les Bases de Connaissances reacutesultantesoffrent une vue indirecte mais homogegravene sur lrsquoensemble de ces donneacutees et nous a permis entre autresdrsquoeacutevaluer le taux de recouvrement des sources inteacutegreacutees

Extraction de connaissances agrave partir drsquoune Base de Connaissances Nous proposons une meacutethodeoriginale drsquoextraction de connaissances qui utilise la seacutemantique associeacutee aux instances drsquoune Base deConnaissances obtenue suivant lrsquoapproche drsquointeacutegration deacutecrite ci-dessus Cette meacutethode appelleacutee Anal-yse des Assertions de Rocircles srsquoattache agrave explorer les reacutegulariteacutes dans les assertions drsquoune Base de Connais-sances Les uniteacutes de connaissances produites sont exprimeacutees suivant le mecircme formalisme que celui dela Base de Connaissances ce qui permet ensuite leur manipulation par des meacutecanismes de raisonnementpour leur inteacutegration coheacuterente agrave lrsquoensemble des connaissances preacutealables

7 Plan du manuscrit

Ce manuscrit est organiseacute en 4 chapitres Les deux premiers fixent le contexte biologique et lrsquoeacutetat delrsquoart relatifs agrave la probleacutematique de la thegravese Les deux suivants preacutesentent les contributions de la thegravese Laderniegravere partie est une conclusion du travail

10 Introduction

Chapitre 1 Contexte biologique et applicatif Dans ce chapitre nous preacutesentons les notions bi-ologiques utiliseacutes dans la thegravese les relations geacutenotypendashpheacutenotype les variations geacutenomiques et lapharmacogeacutenomique

Chapitre 2 Etat de lrsquoart Ce chapitre preacutesente le processus drsquoExtraction de Connaissances agrave partir

de Bases de Donneacutees () puis deux systegravemes de repreacutesentation des connaissances en rapport avec lescontributions de cette thegravese Il illustre ensuite comment une repreacutesentation des connaissances peut ecirctreutiliseacutee pour guider lrsquoextraction de connaissances tout drsquoabord lors de lrsquoeacutetape drsquointeacutegration de donneacuteespuis plus geacuteneacuteralement lors de chacune des eacutetapes du processus drsquoextraction de connaissances

Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique Ce chapitre preacutesentela premiegravere contribution agrave savoir lrsquoutilisation drsquoontologies originales construites dans le cadre de lathegravese pour lrsquointeacutegration de donneacutees pharmacogeacutenomiques Il est donc deacutedieacute premiegraverement agrave la preacutesen-tation de nos ontologies SNP-Ontology et SO-Pharm et agrave la meacutethode rigoureuse mise en œuvre pourles construire Deuxiegravemement il deacutecrit lrsquoapproche proposeacutee pour inteacutegrer des donneacutees agrave lrsquoaide de cesontologies Troisiegravemement sa derniegravere section preacutesente les expeacuterimentations meneacutees dans le cadre delrsquointeacutegration de donneacutees relatives aux variations geacutenomiques et agrave la pharmacogeacutenomique

Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances Ce chapitredeacutetaille les deuxiegraveme et troisiegraveme contributions de la thegravese agrave savoir deux utilisations originales debases de connaissances pour guider lrsquoextraction de connaissances La premiegravere se concentre sur lrsquoeacute-tape de seacutelection des donneacutees agrave consideacuterer et est illustreacutee par des sceacutenarios de recherche de relationsgeacutenotypendashpheacutenotype La seconde quant agrave elle deacutecrit la meacutethode drsquoAnalyse des Assertions de RocirclesNous proposons par cette meacutethode drsquoextraire des connaissances agrave partir drsquoune Base de ConnaissancesUne expeacuterimentation sur lrsquoextraction de connaissances agrave partir de connaissances en pharmacogeacutenomiquetermine ce chapitre

Conclusion et perspectives Cette derniegravere partie conclut ce travail et en deacutegage les perspectives

Chapitre 1

Contexte biologique et applicatif

Ce chapitre est une introduction aux notions de biologie abordeacutees dans cette thegravese La premiegraveresection deacutefinit les notions de geacutenotype et de pheacutenotype et introduit les relations existant entre ces deuxnotions et lrsquointeacuterecirct de les eacutetudier La deuxiegraveme section preacutesente les variations geacutenomiques qui consistenten des variations de la composition moleacuteculaire du geacutenotype et qui peuvent expliquer des modificationsdu pheacutenotype La troisiegraveme et derniegravere section de ce chapitre preacutesente la pharmacogeacutenomique domainedrsquoapplication de ce travail de thegravese Les probleacutematiques biologiques propres agrave ce domaine motiventnotamment de larges parties de ce travail

1 Geacutenotype et pheacutenotype

11 Deacutefinitions

Le geacutenotype drsquoun individu est lrsquoensemble des donneacutees porteacutees par le geacutenome de cet individu endrsquoautres termes lrsquoensemble de son mateacuteriel geacuteneacutetique Pour la plupart des organismes ce mateacuteriel geacuteneacute-tique est codeacute sous forme de seacutequences drsquoAcide Deacutesoxyribonucleacuteique ou ADN composeacutees par lrsquoenchaicircne-ment de quatre moleacutecules particuliegraveres les nucleacuteotides noteacutes A C G et T (abreacuteviations de leurs nomscomplets Adeacutenine Cytosine Guanine et Thymine) Chez lrsquohomme et les eucaryotes en geacuteneacuteral lrsquoADNest porteacute par les chromosomes eux mecircme situeacutes dans le noyau de chaque cellule Le geacutenotype constitueles donneacutees de bases exploiteacutees par les cellules pour deacutefinir les caractegraveres drsquoun individu

Le pheacutenotype est quant agrave lui lrsquoensemble des traits observables drsquoun individu et reacutesulte de lrsquoexpres-sion de son geacutenotype Il est important de preacuteciser que lrsquoexpression du geacutenotype et donc le pheacutenotype quien reacutesulte sont sensibles agrave lrsquoinfluence de facteurs multiples le moment de la vie lrsquoenvironnement lanutrition le stress la maladie ou un traitement meacutedicamenteux

12 Transcription et traduction premiegraveres eacutetapes de la deacutefinition drsquoun pheacutenotype

Lrsquoexpression du geacutenotype en un ensemble de traits observables se fait suivant deux eacutetapes princi-pales la transcription et la traduction repreacutesenteacutees Figure 11 de faccedilon simple Lrsquouniteacute fonctionnelle dugeacutenome consideacutereacutee par la cellule lors de la transcription est le gegravene qui est donc deacutelimiteacute sur lrsquoADNpar des signaux de deacutebut et de fin de transcription Aussi suivant cette premiegravere eacutetape un gegravene est tran-scrit crsquoest agrave dire converti en une seacutequence de nucleacuteotides dont la composition diffegravere leacutegegraverement decelle de lrsquoADN par le fait que les nucleacuteotides T (les Thymines) sont transcrits en nucleacuteotides U (abreacutevia-tion drsquoUracile) Cette nouvelle moleacutecule appeleacutee ARNm pour Acide Ribonucleacuteique Messager peut sortirdu noyau de la cellule ougrave reste lrsquoADN pour ensuite subir une nouvelle transformation la traduction

11

12 Chapitre 1 Contexte biologique et applicatif

LrsquoARNm est traduit selon la correspondance eacutetablie par le code geacuteneacutetique5 en une seacutequence non plus denucleacuteotides mais drsquoacides amineacutes pour constituer une proteacuteine ou parfois une version preacuteliminaire inac-tive drsquoune proteacuteine La seacutequence drsquoADN qui sert agrave la deacutetermination de la seacutequence drsquoacides amineacutes de laproteacuteine est appeleacutee seacutequence codante Les proteacuteines sont les moleacutecules actives de lrsquoorganisme capablesdrsquointeractions pour reacutealiser des fonctions complexes qui peuvent conduire agrave la composition de multiplestraits constitutifs du pheacutenotype Des technologies comme les puces agrave ADN (microarray en anglais) ou laspectromeacutetrie de masse permettent drsquoobserver de faccedilon qualitative et quantitative les produits de la tran-scription ie le transcriptome et de la traduction ie le proteacuteome A ce titre transcriptome et proteacuteomesont partie inteacutegrante au niveau moleacuteculaire du pheacutenotype

F 11 ndash Repreacutesentation simplifieacutee des deux eacutetapes de transcription et de traduction pour deux seacutequencesdrsquoADN drsquoun gegravene (ie deux allegraveles) hypotheacutetique A (agrave gauche lrsquoallegravele 1 agrave droite lrsquoallegravele 2) ne diffeacuterantqursquoen une seule position En haut de la figure lrsquoADN est repreacutesenteacutee sous sa forme native qui est celledrsquoun double brin dans lequel les nucleacuteotides sont apparieacutes selon les regravegles suivantes A avec T et Cavec G On dit que les deux brins drsquoADN ont des seacutequences compleacutementaires et on parle de paire denucleacuteotides agrave chaque position de la seacutequence Les paires qui distinguent les deux allegraveles sur la figure sontG C pour lrsquoallegravele 1 et T A pour lrsquoallegravele 2 Au cours de la transcription la copie de lrsquoun des brins delrsquoADN produit lrsquoARNm dans lequel la diffeacuterence entre les deux allegraveles est conserveacutee Enfin la traductionconvertit lrsquoARNm en une proteacuteine dont les acides amineacutes sont enchaicircneacutes les uns aux autres en fonction delrsquoordre des triplets sur la seacutequence de lrsquoARNm et selon la correspondance donneacutee par le code geacuteneacutetiqueLa diffeacuterence drsquoun nucleacuteotide entre les deux ARNm est ainsi lue comme une diffeacuterence entre deux tripletsGGC et GUC qui produit une diffeacuterence entre les proteacuteines traduites une diffeacuterence drsquoacide amineacute Gly(Glycine) en Val (Valine) Ainsi des geacutenotypes diffeacuterents porteacutes par lrsquoADN sont exprimeacutes gracircce au doubleprocessus de transcription-traduction en deux proteacuteines diffeacuterentes qui pourront ecirctre responsables de deuxpheacutenotypes diffeacuterents au niveau des fonctionnaliteacutes drsquoune cellule drsquoun organe ou drsquoun organisme

13 Les relations geacutenotypendashpheacutenotype

Lrsquoeacutetude des relations entre geacutenotype et pheacutenotype remonte aux expeacuteriences du moine Mendel en1853 En croisant des souches de petits pois lisses ou rideacutes il mit en eacutevidence la transmission heacutereacuteditaire

5Le code geacuteneacutetique eacutelucideacute dans les anneacutees 60 met en correspondance de faccedilon non ambigueuml mais redondante les 64triplets de nucleacuteotides que lrsquoon peut former agrave partir des 4 nucleacuteotides constitutifs des ARNm (A C G U) et les 20 acidesamineacutes constitutifs des proteacuteines (httpenwikipediaorgwikiGenetic_code) Les triplets (ou codons) sont ainsilus et deacutecodeacutes par la machinerie cellulaire de biosynthegravese des proteacuteines qui enchaicircne les uns aux autres les acides amineacutescorrespondants selon lrsquoordre deacutefini par la seacutequence de lrsquoARNm Le site de deacutemarrage de la traduction sur une seacutequence drsquoARNmest le plus souvent deacutetermineacute par le triplet drsquoinitiation AUG La traduction srsquoarrecircte lorsque la machinerie cellulaire rencontreun triplet dit non-sens qui ne correspond agrave aucun acide amineacute (UAA UAG ou UGA)

1 Geacutenotype et pheacutenotype 13

de facteurs geacuteneacutetiques ie le geacutenotype responsable de lrsquoapparition de traits observables ie le pheacuteno-type Au deacutebut du XXiegraveme siegravecle le biologiste Morgan fonda la theacuteorie chromosomique de lrsquoheacutereacutediteacuteen associant des alteacuterations visibles des chromosomes geacuteants drsquoune espegravece de mouche (Drosophila

melanogaster) agrave des modifications du pheacutenotype (yeux blancs au lieu de rouges) Ensuite les micro-biologistes Griffith et Avery en 1928 deacutemontregraverent en manipulant deux souches de pneumocoques que lamoleacutecule drsquoADN eacutetait le support du mateacuteriel geacuteneacutetique Ces trois deacutecouvertes novatrices de la geacuteneacutetiqueont ouvert la voie agrave lrsquoeacutetude des relations geacutenotypendashpheacutenotype qui vise agrave comprendre la part deacutetermineacuteepar le mateacuteriel geacuteneacutetique dans les traits qui composent un individu

En meacutedecine lrsquoeacutetude des relations geacutenotypendashpheacutenotype a donneacute lieu agrave lrsquoexploration du domaine desmaladies geacuteneacutetiques Un exemple classique drsquoune telle maladie est la dreacutepanocytose causeacutee par la mod-ification ou mutation drsquoun seul nucleacuteotide sur le gegravene de lrsquoheacutemoglobine Cette mutation observeacutee chezles individus malades entraicircne une anomalie dans la proteacuteine heacutemoglobine alors responsable de la dreacute-panocytose Les conseacutequences au niveau du pheacutenotype peuvent ecirctre observeacutees agrave lrsquoeacutechelle microscopiqueagrave commencer par la structure anormale de la proteacuteine puis la deacuteformation des globules rouges qursquoelleinduit Les conseacutequences de celles-ci sont observeacutees agrave une eacutechelle macroscopique crsquoest le cas drsquoocclu-sions des capillaires sanguins provoqueacutees par la forme anormale (en faucille) des globules rouges ouencore une reacutesistance agrave la malaria eacutegalement expliqueacutee par cette forme originale

Les technologies drsquoexploration des geacutenomes transcriptomes et proteacuteomes permettent lrsquoacquisitionde nouvelles connaissances sur la seacutequence du geacutenome et sur la reacuteelle complexiteacute des meacutecanismes dereacutegulation de son expression En effet les relations geacutenotypendashpheacutenotype sont plus compliqueacutees qursquoil nrsquoapu paraicirctre dans un premier temps Ainsi il faut souvent que coexistent plusieurs facteurs geacuteneacutetiquespour expliquer un trait du pheacutenotype [vHY04] Parmi ces facteurs geacuteneacutetiques certains ont des rocirclesmodulateurs parfois indirects sur le pheacutenotype De plus le pheacutenotype associeacute agrave une maladie peut reacutesulterde la co-occurence complexe de nombreux traits ou signes cliniques (crsquoest notamment le cas du syndrome

meacutetabolique [Mau06]) Dans ce cas lrsquoapparition de chaque signe clinique composant le pheacutenotype peutecirctre associeacutee agrave de multiples facteurs drsquoorigine geacuteneacutetique chacun soumis agrave lrsquointeraction drsquoautres facteursgeacuteneacutetiques mais eacutegalement agrave celle de facteurs environnementaux et comportementaux

La caracteacuterisation des relations geacutenotypendashpheacutenotype constitue lrsquoun des enjeux majeurs de la geacutenomiqueEn effet son objectif ne se limite pas agrave lrsquoeacutetude du geacutenome comme entiteacute isoleacutee mais srsquoeacutetend agrave lrsquoeacuteluci-dation des relations complexes qui existent entre la seacutequence et la structure du mateacuteriel geacuteneacutetique et ledeacuteploiement des fonctions des moleacutecules biologiques dans la cellule et lrsquoorganisme

14 Les sources de donneacutees et les vocabulaires controcircleacutes relatifs aux relations geacutenotypendashpheacutenotype

Nous distinguons ici deux cateacutegories de sources de donneacutees reacutepertoriant des relations geacutenotypendashpheacutenotype Premiegraverement des sources constitueacutees sur la base de publications scientifiques rapportant desrelations geacutenotypendashpheacutenotype et deuxiegravemement des sources regroupant des jeux de donneacutees brutes quiont permis de deacuteriver de telles relations Les deux sources eacutevoqueacutees ci-dessous illustrent respectivementces deux cateacutegories

OMIM La base de donneacutees OMIM6 (Online Mendelian Inheritance in Man) regroupe de nombreusesdonneacutees sur les relations geacutenotypendashpheacutenotype mises en eacutevidence dans le cadre de lrsquoeacutetude des maladiesgeacuteneacutetiques La plupart des entreacutees drsquoOMIM deacutecrivent soit un gegravene et deacutetaillent alors son implicationdans une ou plusieurs maladies soit une maladie et deacutetaillent les rocircles respectifs dans celle-ci de un ouplusieurs gegravenes Le contenu de cette base de donneacutees est relativement peu structureacute puisque ses entreacutees se

6httpwwwncbinlmnihgovomim

14 Chapitre 1 Contexte biologique et applicatif

composent de textes courts en langage naturel reacutepartis en diffeacuterentes cateacutegories (entre autres signes clin-iques mode de transmission explication moleacuteculaire correacutelations geacutenotypendashpheacutenotype) OMIM srsquoap-puie sur les publications scientifiques deacutecrivant ces associations et reacutesulte drsquoun travail de collecte initieacutedans les anneacutees 60 drsquoabord sous la forme drsquoun catalogue papier [McK98]

dbGaP Une source de donneacutees apparue plus reacutecemment est dbGaP7(database of Genotype and Pheno-

type) dont lrsquoobjectif est le regroupement et le partage de jeux de donneacutees reacutecolteacutes pour mettre en eacutevidencedes associations geacutenotypendashpheacutenotype [MFJ+07]

Une limite actuelle de ces ressources est la faible structuration des donneacutees et notamment celle destermes utiliseacutes pour deacutecrire la notion complexe de pheacutenotype En effet la description drsquoun pheacutenotype estconstruite sur des observations soumises agrave la subjectiviteacute de lrsquoobservateur Lrsquoun des objectifs de dbGaPest de reacuteduire ce biais gracircce agrave la mise agrave disposition des donneacutees brutes dont sont issues les descriptionsdes pheacutenotypes De faccedilon compleacutementaire une maniegravere drsquohomogeacuteneacuteiser la description de pheacutenotypes estde proposer un vocabulaire de reacutefeacuterence (ou vocabulaire controcircleacute) dont les termes pourront ecirctre utiliseacuteset composeacutes pour deacutecrire de faccedilon structureacutee un pheacutenotype Suivant cet objectif diffeacuterents groupes derecherche srsquoemploient agrave construire des vocabulaires plus ou moins consensuels pour permettre une de-scription homogegravene des pheacutenotypes Crsquoest par exemple le cas des vocabulaires controcircleacutes PATO8 Mam-

malian Phenotype9 ou Plant Trait10

7httpwwwncbinlmnihgovsitesentrezdb=gap8httpbioontologyorgwikiindexphpPATOMain_Page9httpwwwinformaticsjaxorgsearchesMP_formshtml

10httpwwwgrameneorgplant_ontology

2 Les variations geacutenomiques 15

2 Les variations geacutenomiques

Au sein drsquoune mecircme espegravece le geacutenome preacutesente de grandes similitudes crsquoest pourquoi on parle parexemple du geacutenome humain ou du geacutenome de la mouche agrave fruit (Drosophila melanogaster) Cepen-dant chaque ecirctre humain preacutesente une version unique de ce geacutenome humain11 Pour donner un ordre degrandeur certains auteurs estiment agrave 999 le taux de nucleacuteotides12 similaires parmi les 32 milliardsqui composent le geacutenome humain ce qui signifie que le 01 restant suffit agrave deacuteterminer les diffeacuterencesentre les ecirctres humains [KN01]

21 Deacutefinitions

Les variations geacutenomiques sont des reacutegions du geacutenome clairement localiseacutees dont la composition ennucleacuteotides est susceptible de varier entre les individus drsquoune mecircme espegravece

La notion drsquoallegravele correspond agrave la version drsquoun gegravene et par extension agrave la version drsquoune variationgeacutenomique Les organismes diploiumldes comme lrsquoecirctre humain possegravedent deux versions diffeacuterentes dugeacutenome une premiegravere heacuteriteacutee de la megravere et une deuxiegraveme du pegravere Aussi un ecirctre humain est susceptiblede porter deux versions diffeacuterentes ie deux allegraveles diffeacuterents de chaque gegravene Si deux allegraveles distinctspeuvent ecirctre porteacutes par un mecircme individu de nombreuses autres versions peuvent ecirctre observeacutees chezdes individus distincts Les parties gauche et droite de la Figure 11 montrent deux allegraveles drsquoun mecircmegegravene dont la diffeacuterence repose sur la substitution drsquoun seul nucleacuteotide un A agrave gauche et un C agrave droite13

La majeure partie des variations geacutenomiques (plus de 90) se limite agrave la variation drsquoun seul nu-cleacuteotide entre deux allegraveles Ce type particulier de variation est appeleacute Single Nucleotide Polymorphism

en anglais ou SNP [KN01] ie au sens strict un substitution drsquoun seul nucleacuteotide dont la freacutequence estsupeacuterieure agrave 1 dans la population dans laquelle il est eacutetudieacute Dans cette thegravese nous ne ferons pas cettedistinction tregraves deacutependante de lrsquoeacutechantillon des individus observeacutes et appellerons variation geacutenomiqueou variant lrsquoensemble des variations inter-individuelles du geacutenome et SNP les variations ponctuelles sansprendre en consideacuteration leur freacutequence En revanche nous eacuteviterons le terme mutation heacuteriteacute de lrsquoeacutetudedes maladies geacuteneacutetiques et qui agrave ce titre correspond agrave une variation geacutenomique associeacutee agrave la survenuedrsquoune maladie

22 Les sources de donneacutees relatives aux variations geacutenomiques

Les meacutethodes de seacutequenccedilage et drsquohybridation moleacuteculaire permettent lrsquoacquisition agrave haut deacutebit dedonneacutees relatives aux variations inter-individuelles drsquoun geacutenome Les donneacutees reacutesultant de ce genre drsquo-analyse du geacutenome sont stockeacutees et parfois partageacutees dans diverses bases de donneacutees dont le contenu serecouvre partiellement Certaines de ces bases relatives agrave lrsquoecirctre humain sont preacutesenteacutees ci-apregraves

dbSNP La base de donneacutees dbSNP14 du NCBI contient plus de 9 millions de variations geacutenomiqueshumaines et constitue la plus grande source de variations disponible sur le Web [SWK+01] En plus decontenir les variations qui lui sont directement soumises dbSNP integravegre des donneacutees provenant drsquoautres

11Abstraction faite des clones et des vrais jumeaux12Pour ecirctre exact il srsquoagit de paires de nucleacuteotides puisque lrsquoADN est composeacute drsquoun double brin de nucleacuteotides compleacutemen-

taires13Pour ecirctre exact il srsquoagit de la substitution des paires de nucleacuteotides compleacutementaires A-T et C-G Par convention seul

le nucleacuteotide du brin sens est utiliseacute pour deacutecrire lrsquoallegravele Ce brin sens est celui dont la seacutequence est transcrite en ARNm puistraduite pour donner la proteacuteine

14httpwwwncbinlmnihgovprojectsSNP

16 Chapitre 1 Contexte biologique et applicatif

grandes bases de donneacutees de variations geacutenomiques comme les bases NCI CGAP-GAI15 HGVBase16HapMap17 Perlgen18 Une fois inteacutegreacutees agrave dbSNP certaines de ces bases sont ameneacutees agrave disparaicirctre Unavantage strateacutegique de dbSNP est de faire partie inteacutegrante des bases de donneacutees du NCBI (avec entreautres GenBank PubMed Gene Human Genome Project Data) et agrave ce titre drsquoecirctre interrogeable par lesystegraveme feacutedeacutereacute Entrez [Bax06] Lrsquoalimentation de dbSNP par des processus automatiques le manquedrsquoannotations manuelles des entreacutees rendent ineacutegales la qualiteacute et la validation des donneacutees qursquoelle con-tient [MZCC04] Il est important de noter que malgreacute son nom dbSNP ne reacutepertorie pas seulement lesSNP comme ils sont deacutefinis au sens strict ie la substitution drsquoun seul nucleacuteotide dont la freacutequence estsupeacuterieur agrave 1 En effet dbSNP reacutepertorie les polysubstitutions les insertionsdeacuteleacutetions et les variationsplus complexes quelque soit leur freacutequence drsquoobservation dans les populations

OMIM Comme deacutecrit dans la section 14 de ce chapitre OMIM contient des donneacutees relatives auxallegraveles de gegravenes impliqueacutes dans des maladies geacuteneacutetiques La description moleacuteculaire des diffeacuterencesentre allegraveles est ineacutegale selon les entreacutees De faccedilon encore assez rare certains allegraveles reacutepertorieacutes dansOMIM sont relieacutes agrave la variation geacutenomique correspondante reacutepertorieacutee par dbSNP

Les bases de donneacutees locus speacutecifiques De nombreuses bases de donneacutees locus speacutecifiques ie rel-atives uniquement aux variations drsquoun locus19 se sont deacuteveloppeacutees de faccedilon indeacutependante Celles-cicontiennent le plus souvent les reacutesultats drsquoinvestigations drsquoun groupe de recherche biomeacutedicale (voirdrsquoun consortium) speacutecialiseacute dans lrsquoeacutetude drsquoun gegravene drsquoune fonction biologique ou drsquoune maladie geacuteneacute-tique Les initiatives intituleacutees HGMD20 (Human Gene Mutation Database) et The Way Station21 tententde feacutedeacuterer et de rendre public le contenu de ces nombreuses bases speacutecialiseacutees [GSC+08]

23 Heacuteteacuterogeacuteneacuteiteacute des donneacutees relatives aux variations geacutenomiques

Une variation geacutenomique est localiseacutee sur une position preacutecise drsquoune seacutequence geacutenomique (ie

drsquoADN) Cependant lorsqursquoelle affecte une reacutegion transcrite la variation est propageacutee sur la seacutequencetranscrite (drsquoARN) et si elle affecte une reacutegion codante elle est propageacutee eacutegalement dans la proteacuteine(seacutequence drsquoacides amineacutes) Ceci est illustreacute dans la Figure 11 Les bases de donneacutees biologiquesrepreacutesentent indiffeacuteremment les variations sur lrsquoADN lrsquoARN ou les proteacuteines en fonction souvent dutype de seacutequence sur lequel elles ont eacuteteacute observeacutees De fait ces bases repreacutesentent aussi bien la variationoriginale que ses reacutepercussions En guise drsquoillustration la substitution drsquoune guanine en une thyminepeut ecirctre repreacutesenteacutee par GT dans une seacutequence drsquoADN GGCGTC dans le codon concerneacute gu danslrsquoARN correspondant GlyVal dans la proteacuteine traduite Drsquoune faccedilon similaire les repreacutesentations de laposition de la variation diffegraverent drsquoune base de donneacutees agrave lrsquoautre en fonction de la seacutequence de reacutefeacuterenceet de la version de cette seacutequence Pour exemple la substitution GT est localiseacutee agrave la position 11 087877 sur la seacutequence geacutenomique du chromosome 19 dont le numeacutero drsquoaccession dans la base de donneacuteesRefSeq22 est NC_000019 agrave la position 2 489 679 dans la seacutequence du contig NT_011295 et agrave la position565 dans la proteacuteine NP_000518 (sur le second nucleacuteotide du codon qui code pour le 565iegraveme acide am-ineacute) La mecircme substitution peut eacutegalement ecirctre localiseacutee agrave la position 26 747 dans une seacutequence associeacuteeau gegravene LDLR ou encore agrave la position 108 dans le onziegraveme exon de ce gegravene

15httpgaincinihgovcgap-gai16httpwwwhgvbaseg2porgindex17httpwwwhapmaporg18httpgenomeperlegencom19Un locus est une reacutegion deacutetermineacutee sur le geacutenome pouvant contenir aucun un ou plusieurs gegravenes20httpwwwhgmdcfacuk21httpwwwcentralmutationsorg22httpwwwncbinlmnihgovRefSeq

2 Les variations geacutenomiques 17

En plus des multiples reacutefeacuterentiels utiliseacutes pour deacutecrire les variations srsquoajoute lrsquoutilisation drsquoidentifi-ants (ou numeacuteros drsquoaccession) propres agrave chaque base de donneacutees Ainsi la variation deacutecrite preacuteceacutedem-ment est identifieacutee dans dbSNP comme le polymorphisme rs28942082 Une syntaxe geacuteneacuterique est recom-mandeacutee par la Socieacuteteacute pour lrsquoeacutetude des Variation du Geacutenome Humain23 (HGVS pour Human Genome

Variation Society) selon laquelle notre variation est deacutecrite par lrsquoexpression suivante

NC_0000198g11087877GgtT

ougrave NC_0000198 est le numeacutero drsquoaccession unique dans RefSeq de la seacutequence utiliseacutee pour positionnerle variant la lettre lsquogrsquo signifie que la seacutequence en question est geacutenomique par opposition agrave lsquoprsquo utiliseacuteepour les seacutequences proteacuteiques 11087877 correspond agrave la position dans la seacutequence de reacutefeacuterence et GgtTdeacutecrit la variation de nucleacuteotide observeacutee [dDA00] En pratique lrsquoutilisation de cette nomenclature estrestreinte agrave certains auteurs qui lrsquoutilisent pour deacutecrire les variations de faccedilon univoque dans le texte deleurs publications scientifiques Drsquoautres nomenclatures lieacutees au contexte historique de lrsquoobservation desvariations persistent agrave la fois dans la litteacuterature et les bases de donneacutees Par exemple notre variant estpreacutesenteacute dans OMIM comme la variation FH NAPLES ou ldquoLDLR Gly544Valrdquo crsquoest agrave dire selon desdescriptions associeacutees aux circonstances de sa premiegravere observation

Enfin les bases de donneacutees priveacutees ou les bases de donneacutees locus speacutecifiques utilisent encore drsquoautresnotations dites non-conventionnelles qui viennent grossir le nombre de descriptions possibles pour unemecircme variation La Figure 12 illustre les nombreuses faccedilons de deacutesigner une variation geacutenomique dansles bases de donneacutees publiques et priveacutees

c

d

b

a

NP_000518pG564V

CCDS122541c1694GgtT

NM_0005272c1787GgtT

NT_0000198g24897679GgtT

Chr1911087877 GT

Chr1911087877minus11087877 GT

nonminusconventionellesNotations

Syntaxe HGVS

au genomeminusbrowserSyntaxe similaire

Identifiants de basesde donneacutees publiques

LDLR11EXON108Thetero

LDLR Gly564Val

rldl11108exonGT

LDLR Gly544Val

0014 FH NAPLES (dans OMIM)

rs28942082 (dans dbSNP)

PA123456 (dans PharmGKB)

F 12 ndash Diverses descriptions ou reacutefeacuterences pour une mecircme variation geacutenomique

Lrsquoune des raisons expliquant lrsquoheacuteteacuterogeacuteneacuteiteacute de ces descriptions est leur origine (1) certains pro-jets de seacutequenccedilage identifient de faccedilon exhaustive les zones variables drsquoun geacutenome ou de lrsquoune de sesportions (2) tandis que drsquoautres eacutetudes plus cibleacutees identifient ponctuellement des mutations geacuteneacutetiquesie des variations eacutetroitement associeacutees agrave la survenue drsquoune pathologie [Bar02] Lrsquoidentification de mu-tations geacuteneacutetiques a deacutebuteacute preacutealablement agrave lrsquoeacutemergence des meacutethodes de seacutequenccedilage et a abouti agrave laconstitution de nombreuses bases de donneacutees speacutecialiseacutees et riches dont le spectre se limite aux mutationsassocieacutees agrave un locus ou une maladie

Lrsquoeacutevaluation preacutecise du recouvrement des contenus des bases de donneacutees de variations geacutenomiquesest crucial dans le cadre du deacuteveloppement de diagnostics geacuteneacutetiques et de lrsquoexploration du variome (ie

23httpwwwhgvsorgrechtml

18 Chapitre 1 Contexte biologique et applicatif

lrsquoensemble des variations du geacutenome humain) [dDP03 RKC06 Spe08] Cette tacircche est rendue partic-uliegraverement deacutelicate en raison du nombre important de descriptions diffeacuterentes et pourtant eacutequivalentes

24 Les haplotypes

Un haplotype est un ensemble drsquoallegraveles de SNP (et eacuteventuellement de gegravenes) voisins transmis con-jointement agrave travers les geacuteneacuterations Les haplotypes sont des constructions statistiques eacutetablies sur unepopulation donneacutee et obtenues par lrsquoestimation des deacuteseacutequilibres de liaison entre les allegraveles de SNPvoisins Bien qursquoelles soient artificielles ces constructions reflegravetent la reacutealiteacute biologique selon laquelle lemateacuteriel geacuteneacutetique est transmis drsquoune geacuteneacuteration agrave lrsquoautre par blocs de seacutequences geacutenomiques[Con05]Ainsi les variations geacutenomiques preacutesentes sur un mecircme bloc preacutesentent des valeurs qui sont lieacutees lesunes aux autres au fil des geacuteneacuterations En drsquoautres termes on nrsquoobserve pas une distribution aleacuteatoiredes valeurs prises par les allegraveles au sein de ces blocs de seacutequences geacutenomiques mais au contraire unnombre fini de combinaisons de ces valeurs Partant de ce principe ces blocs sont reconstruits agrave partir delrsquoobservation dans une population de groupes drsquoallegraveles associeacutes pour des variations qui sont physique-ment proches sur une seacutequence drsquoADN La Figure 13 illustre la notion drsquohaplotype et comment ils sontcomposeacutes agrave partir des allegraveles preacutesenteacutes par des SNP voisins

F 13 ndash Haplotypes tag-SNP et leur composition agrave partir des allegraveles de SNP voisins sur diffeacuterentesversions drsquoun mecircme chromosome Source http wwwhapmaporg

Le fait qursquoun haplotype soit ainsi composeacute drsquoun ensemble associeacute drsquoallegraveles rend possible la distinc-tion de certains allegraveles particuliers dont le geacutenotypage suffit agrave deacuteterminer les allegraveles preacutesenteacutes par le blocde variations impliqueacutees dans lrsquohaplotype Des outils statistiques permettent drsquoidentifier ces SNP parti-culiers appeleacutes tag-SNP qui reacutesument au mieux la composition drsquoun haplotype et de le distinguer desautres haplotypes observeacutes sur un mecircme bloc Des exemples de tag-SNP sont repreacutesenteacutes Figure 13

HapMap est un projet de cartographie des haplotypes humains agrave partir du geacutenotypage de variationsgeacutenomiques dans 5 populations distinctes [Con03] Les variations observeacutees ainsi que leur freacutequencedrsquoobservation sont disponibles dans la base de donneacutees associeacutee au projet24 Ces donneacutees sont util-iseacutees pour construire les haplotypes et identifier les tag-SNP agrave lrsquoaide par exemple de lrsquooutil HaploView

[BFMD05]

24httpwwwhapmaporg

2 Les variations geacutenomiques 19

La notion drsquohaplotype est freacutequemment utiliseacutee pour reacuteduire le nombre de variations geacutenomiques agraveanalyser dans des eacutetudes (notamment sur les relations geacutenotypendashpheacutenotype) qui srsquointeacuteressent aux varia-tions de larges portions du geacutenome En effet lrsquoidentification et le geacutenotypage des seuls tag-SNP permet-tent de repreacutesenter les variations de blocs complets du geacutenome et ainsi de reacuteduire le nombre de variationsgeacutenomiques agrave analyser Lrsquoallegravele preacutesenteacute par chaque variation membre drsquoun haplotype peut par la suiteecirctre deacuteduit agrave partir de lrsquoallegravele des tag-SNP et de la composition des haplotypes

20 Chapitre 1 Contexte biologique et applicatif

3 La pharmacogeacutenomique

La reacuteponse agrave un traitement meacutedicamenteux est un pheacutenotype particulier qui lui aussi est soumis agravelrsquoinfluence des facteurs geacuteneacutetiques La pharmacogeacutenomique srsquoattache agrave eacutetudier ces facteurs geacuteneacutetiquesparticuliers et la faccedilon avec laquelle ils influencent la reacuteponse aux meacutedicaments

31 Deacutefinition

La pharmacogeacutenomique est lrsquoeacutetude de lrsquoensemble des gegravenes ayant une influence sur la pharmacolo-gie elle srsquointeacuteresse notamment aux manifestations des variations geacutenomiques de ces gegravenes agrave lrsquointeractionde ces variations dans la production drsquoun pheacutenotype et agrave lrsquoinfluence drsquoun tel pheacutenotype sur la reacuteponse agraveun meacutedicament [AK02] Scheacutematiquement la pharmacogeacutenomique peut ecirctre repreacutesenteacutee comme lrsquoeacutetudedes relations ternaires existant entre un traitement meacutedicamenteux un geacutenotype et un pheacutenotype (Fig-ure 4) Selon cette repreacutesentation il est possible de consideacuterer le traitement meacutedicamenteux comme unfacteur exteacuterieur venant influencer la relation geacutenotypendashpheacutenotype

Lrsquoideacutee selon laquelle les gegravenes influencent la reacuteponse aux meacutedicaments date des anneacutees 50 durantlesquelles il fut observeacute que des reacuteponses particuliegraveres aux meacutedicaments pouvaient ecirctre transmises au seindrsquoune mecircme famille ou eacutetaient plus freacutequentes au sein de certaines ethnies Depuis des eacutetudes statistiquesfamiliales et biochimiques ont renforceacute cette hypothegravese [ER04] Cependant crsquoest seulement en 1988 quelrsquoinfluence drsquoune variation dans la seacutequence drsquoADN drsquoun gegravene sur le meacutetabolisme drsquoun meacutedicament aeacuteteacute mise en eacutevidence [GSK+88] De nombreuses variations geacutenomiques ont par la suite eacuteteacute isoleacutees etassocieacutees agrave des effets diffeacuterents drsquoun mecircme meacutedicament La faciliteacute grandissante agrave caracteacuteriser les vari-ations geacutenomiques inter-individuelles stimule lrsquoinvestigation de la dimension geacuteneacutetique dans les essaiscliniques des meacutedicaments Certains gegravenes impliqueacutes dans les principales voies biologiques de transportou drsquoeacutelimination des meacutedicaments sont plus particuliegraverement analyseacutes

Suivant cette eacutevolution historique lrsquoeacutetude initiale des caractegraveres heacutereacuteditaires associeacutes agrave la pharma-cologie fut appeleacutee pharmacogeacuteneacutetique Lrsquoeacutemergence de la geacutenomique a conduit agrave lrsquoapparition du con-cept de pharmacogeacutenomique avec lrsquoideacutee que la geacutenomique offre la possibiliteacute drsquoeacutetudier lrsquoorigine et lesconseacutequences des caractegraveres heacutereacuteditaires au niveau moleacuteculaire

Un exemple drsquointeraction pharmacogeacutenomique deacutecrite par Desmeules et al [DGDM91] et Gascheet al [GDF+04] est lrsquoinfluence des variations du gegravene CYP2D6 dans la reacuteponse agrave un traitement decodeacuteine La codeacuteine est un opiaceacute prescrit entre autres pour son pouvoir analgeacutesique La codeacuteine estphysiologiquement meacutetaboliseacutee dans le foie en morphine responsable de son effet analgeacutesique Il ex-iste plusieurs versions fonctionnelles du gegravene CYP2D6 dont les produits agissent diffeacuteremment sur latransformation de codeacuteine en morphine et permettent de distinguer plusieurs cateacutegories drsquoindividus (5)

ndash les meacutetaboliseurs lents porteurs de variants agrave activiteacute faible par exemple Chr22 40856638CgtTet Chr22 40854891GgtA

ndash les meacutetaboliseurs rapides porteurs de variants agrave activiteacute normale ou forte Chr22 40853887CgtTet les versions consideacutereacutees normales des variations associeacutees

ndash les meacutetaboliseurs ultra-rapides porteurs de copies multiples de variants agrave activiteacute normale ouforte)

Les meacutetaboliseurs lents sont incapables de meacutetaboliser efficacement la codeacuteine en morphine et enconseacutequence ne preacutesentent pas lrsquoeffet analgeacutesique attendu Les meacutetaboliseurs ultra-rapides quant agrave euxmeacutetabolisent la codeacuteine avec une efficaciteacute accrue qui entraicircne une intoxication agrave la morphine

En pharmacogeacutenomique le pheacutenotype est eacutegalement deacutependant de la dose de meacutedicament admin-istreacutee Ainsi suivant notre exemple une dose plus eacuteleveacutee de codeacuteine peut entraicircner un effet analgeacutesiquechez les meacutetaboliseurs lents et un effet toxique chez les meacutetaboliseurs rapides De nombreux exemplesdrsquointeractions de ce type peuvent ecirctre trouveacutes dans lrsquoouvrage Pharmacogenetics de Weber [Web97]

3 La pharmacogeacutenomique 21

Certains des enjeux meacutedicaux et industriels de la pharmacogeacutenomique ont eacuteteacute abordeacutes dans lrsquoin-troduction de cette thegravese Les reacutefeacuterences suivantes [Flo05 NMG05 WMF+08] preacutecisent ces enjeux etpreacutesentent les perspectives actuelles de la pharmacogeacutenomique

32 Les sources de donneacutees relatives agrave la pharmacogeacutenomique

OMIM Les entreacutees de la base de donneacutees OMIM contiennent certaines donneacutees pharmacogeacutenomiquesEn effet dans OMIM les reacuteactions adverses agrave des meacutedicaments qui ont une origine geacuteneacutetique sontconsideacutereacutees au mecircme titre que des maladies geacuteneacutetiques classiques

PharmGKB PharmGKB25 (PharmacoGenomics Knowledge Base) est la principale source de don-neacutees publique pour la pharmacogeacutenomique [HBWCH+08] PharmGKB reacutepertorie tout drsquoabord des don-neacutees sur les relations entre meacutedicament pheacutenotype et gegravenes donneacutees qui sont extraites manuellementde la litteacuterature De plus PharmGKB contient des donneacutees sur les variations geacutenomiques les reacuteseauxmeacutetaboliques impliqueacutes dans ces relations et des jeux de donneacutees reacuteelles mecirclant les donneacutees cliniqueset geacuteneacutetiques de patients qui illustrent des eacuteleacutements de connaissance pharmacogeacutenomique A ce titrePharmGKB peut ecirctre consideacutereacutee comme une source de donneacutee particuliegravere de variations geacutenomiques etde relations geacutenotypendashpheacutenotype Une partie des variations geacutenomiques reacutepertorieacutees dans PharmGKBest relieacutee aux variations correspondantes dans dbSNP mais un nombre eacutegalement important de celles-cisont soumises directement agrave PharmGKB et nrsquoont pas de correspondant dans les autres bases de donneacutees

F 14 ndash Repreacutesentation originale du scheacutema repreacutesentant les diffeacuterentes cateacutegories (CO PD PK FAGN) associeacutees aux donneacutees de PharmGKB et leurs principales associations (doubles flegraveches noires)Source http wwwpharmgkborg

Le scheacutema figurant sur la page drsquoaccueil de PharmGKB et reproduit Figure 14 illustre assez bienla faccedilon selon laquelle sont associeacutees entre elles les donneacutees de PharmGKB et leur organisation endiffeacuterentes cateacutegories

ndash CO manifestations cliniques ou en anglais Clinical Outcomendash PD Pharmacodynamique et reacuteponse au meacutedicament en anglais Pharmacodynamics and Drug

responsesndash PK Pharmacocineacutetique en anglais PharmacoKinetics

25httpwwwpharmgkborg

22 Chapitre 1 Contexte biologique et applicatif

ndash FA Tests fonctionnels agrave lrsquoeacutechelle moleacuteculaire et cellulaire en anglais molecular and cellular

Functional Assaysndash GN Geacutenotype en anglais GenotypePharmGKB contenait en janvier 2008 des relations manuellement annoteacutees entre plus de 600 gegravenes

porteurs de variations 450 maladies et 500 meacutedicaments [HBWCH+08] Lrsquoameacutelioration continue desannotations relatives aux reacuteseaux meacutetaboliques lrsquoenrichissement de celles relatives aux variations geacuteno-miques la mise en correspondance des variations geacutenomiques reacutepertorieacutees avec celles drsquoautres sources(dbSNP par exemple) et le deacuteveloppement de nouvelles campagnes drsquoinvestigations cliniques pour al-imenter les jeux de donneacutees et lrsquoeacutetat des connaissances [ORT08] font de PharmGKB une source quifeacutedegravere et stimule la recherche en pharmacogeacutenomique

4 Inteacuterecirct de lrsquoutilisation de connaissances en pharmacogeacutenomique

Les initiateurs de PharmGKB preacutevoyaient agrave lrsquoorigine du projet la constitution non pas drsquoune basede donneacutees relationnelle mais drsquoune base de connaissances srsquoappuyant sur un langage de repreacutesentationdes connaissances et associeacutee agrave des meacutecanismes de raisonnement (comme nous le preacutesentons chapitre2 section 23) [ORS+02] Face aux difficulteacutes de mise en œuvre drsquoune telle approche une architecturerelationnelle plus classique a finalement eacuteteacute adopteacutee Nous pensons qursquoune approche agrave base de con-naissances comme celle initialement preacutevue pour PharmGKB preacutesente un inteacuterecirct particulier pour cedomaine

Lrsquoeacutetat des connaissances en pharmacogeacutenomique devrait beacuteneacuteficier des donneacutees issues de lrsquoexplo-ration du geacutenome En effet des masses de donneacutees pertinentes pour ce domaine sont disponibles reacutesul-tantes de lrsquoeacutetude des variations geacutenomique des relations geacutenotypendashpheacutenotype ou encore de la pharma-cologie (voir par exemple les sources de donneacutees preacutesenteacutees dans les diffeacuterentes sections de ce chapitre)Cependant lrsquointeraction entre ces sous-domaines nrsquoa pas forcement eacutetait consideacutereacutee lors de leur explo-ration ou de la constitution des sources de donneacutees associeacutees Ainsi il reste deacutelicat drsquoanalyser des reacutesul-tats drsquoeacutetudes pharmacogeacutenomiques en prenant en consideacuteration simultaneacutement les donneacutees associeacutees agravechacun de ces sous-domaines

De plus les meacutethodes drsquoanalyses les plus utiliseacutees dans le cadre de la pharmacogeacutenomique demeureles meacutethodes statistiques classiquement utiliseacutes pour les essais cliniques (les tests de correacutelation de reacute-gression le deacuteseacutequilibre de liaison par exemple [HJ02]) Ces derniers preacutesentent des inteacuterecircts certainsmais ne permettent pas toujours drsquoappreacutecier ou drsquoexplorer les larges volumes de donneacutees interconnecteacuteestels que les bases de donneacutees biologiques ou les reacutesultats drsquoune eacutetude incluant le geacutenotypage de lrsquoensem-ble du geacutenome drsquoun panel de patient [YHTL08]

Lrsquoun des deacutefis de la pharmacogeacutenomique est justement de prendre en consideacuteration de larges vol-umes de donneacutees issues de diffeacuterents sous-domaines speacutecialiseacutes et interconnecteacutes pour leur associer unsens [AK02] Gaines titre lrsquoun de ses article par lrsquoaffirmation imageacutee selon laquelle une once de con-

naissances vaut mieux que des tonnes de donneacutees [Gai89] Le travail preacutesenteacute dans cette thegravese srsquoinscritdans cette ideacutee et srsquoappuie sur lrsquohypothegravese que la pharmacogeacutenomique et plus geacuteneacuteralement la biolo-gie moleacuteculaire peuvent tirer parti des meacutethodes de repreacutesentation des connaissances et drsquoextractionde connaissances Un point commun agrave ces deux meacutethodes est en effet de permettre la deacutecouverte deconnaissances implicites voire nouvelles

Chapitre 2

Etat de lrsquoart

Ce chapitre preacutesente en section 1 le processus drsquoExtraction de Connaissances agrave partir de Bases deDonneacutees () puis en section 2 deux systegravemes de repreacutesentation des connaissances en rapport avecles travaux meneacutes dans cette thegravese Les sections 3 et 4 preacutesente lrsquoeacutetat de lrsquoart des domaines concerneacutespar les contributions de cette thegravese premiegraverement lrsquoutilisation drsquoune repreacutesentation des connaissancescodeacutee sous la forme drsquoune ontologie pour guider lrsquointeacutegration de donneacutees (section 3) secondement lanotion drsquoExtraction de Connaissances guideacutee par les Connaissances du Domaine ()

1 Extraction de Connaissances agrave partir de Bases de Donneacutees ndash

11 Motivation et objectifs

LrsquoExtraction de Connaissances agrave partir des Bases de Donneacutees () est deacutefinie par Frawley et al

comme le processus non trivial drsquoidentification de reacutegulariteacutes (ou drsquoirreacutegulariteacutes) valides nouvelles po-tentiellement utiles et porteuses de sens au sein des donneacutees [FPSM91] Concregravetement il srsquoagit delrsquoutilisation de meacutethodes (souvent simplement drsquoalgorithmes) de fouille de donneacutees associeacutees agrave unepreacuteparation des donneacutees preacutealables et agrave une interpreacutetation des reacutesultats de fouille afin drsquoextraire desconnaissances pertinentes au regard des objectifs viseacutes par lrsquoanalyste Nous distinguons ainsi

(i) lrsquoensemble du processus drsquo qui inclut la preacuteparation des donneacutees et lrsquointerpreacutetation des reacutegu-lariteacutes extraites sous forme de connaissances et

(ii) lrsquoeacutetape particuliegravere de fouille de donneacutees dont le but unique et lrsquoidentification de reacutegulariteacutes dansles donneacutees brutes

La mise en œuvre de meacutethodes de fouille de donneacutees de faccedilon ldquoaveuglerdquo ie sans eacutetape de preacuteparationapproprieacutee des donneacutees ni drsquointerpreacutetation experte des reacutegulariteacutes extraites est une utilisation dangereuse(compareacutee dans la litteacuterature agrave une ldquopecirccherdquo ou une ldquodraguerdquo) qui peut mener agrave lrsquoextraction de reacutegulariteacutesinvalides porteuses drsquoerreurs et ainsi agrave des interpreacutetations inexactes

Lrsquo est un processus comprenant plusieurs eacutetapes dont certaines impliquent une prise de deacutecisionde lrsquoutilisateur ie lrsquoanalyste qui conduit le processus La Figure 21 preacutesenteacutee dans lrsquointroduction de lathegravese deacutetaille le deacutecoupage classique du processus drsquo en plusieurs eacutetapes Du fait que la distinction etlrsquoordre des opeacuterations de preacuteparation de donneacutees peut fortement varier nous proposons dans la Figure 21une repreacutesentation simplifieacutee du processus centreacutee sur lrsquoeacutetape de fouille de donneacutees ougrave nous distinguonsune eacutetape preacutealable globale de preacuteparation des donneacutees et une eacutetape finale drsquointerpreacutetation Le rocircle dechacune de ces trois eacutetapes ainsi que les opeacuterations auxquelles elles font appel sont deacutecrits dans lessections suivantes

23

24 Chapitre 2 Etat de lrsquoart

(ii) Fouille

Analyste

Uniteacute de

Base de donneacuteesheacuteteacuterogegravenes

(i) Preacuteparation

des donneacutees de donneacutees(iii)Interpreacutetation connaissance

F 21 ndash Repreacutesentation simplifieacutee du processus drsquo

12 Preacuteparation des donneacutees

La preacuteparation des donneacutees (ou preprocessing en anglais) est deacutefinie par lrsquoensemble des opeacuterationsqui permettent de convertir les donneacutees brutes en donneacutees preacutepareacutees et adapteacutees agrave la meacutethode de fouilleenvisageacutee Lrsquointeacuterecirct principal de cette eacutetape est drsquoameacuteliorer la qualiteacute des donneacutees (tout au moins en vuede la meacutethode de fouille choisie) et ainsi drsquoameacuteliorer lrsquoefficaciteacute du processus drsquo Les opeacuterationsde preacuteparation peuvent ecirctre de diffeacuterents types lrsquointeacutegration des donneacutees le nettoyage des donneacutees lareacuteduction des donneacutees la transformation des donneacutees Lrsquoordre de ces opeacuterations varie souvent selon lastrateacutegie drsquo adopteacutee De la mecircme faccedilon il nrsquoest pas toujours eacutevident de faire clairement la distinc-tion entre les diffeacuterentes opeacuterations qui sont parfois entrelaceacutees ou combineacutees Par exemple lrsquoopeacuterationdrsquointeacutegration de donneacutees neacutecessite souvent une eacutetape preacutealable de nettoyage la reacuteduction des donneacuteespeut consister en leur transformation en un format particulier aussi le nettoyage peut conduire au finalagrave une reacuteduction de celles-ci

Une bonne description de lrsquoimportance de ces eacutetapes dans un processus drsquo est le chapitre deBrachman et Anand [BA96] du livre de Fayyad et al [FPSSU96] Un compleacutement sur la mise en œuvrede ces opeacuterations est le chapitre 3 du livre de Han et Kamber [HK01]

Les sections suivantes deacutetaillent quatre types drsquoopeacuterations relatives agrave la preacuteparation des donneacutees

121 Inteacutegration de donneacutees

Un systegraveme drsquointeacutegration de donneacutees a pour rocircle drsquooffrir agrave un utilisateur ou agrave une machine un accegravesuniforme et transparent agrave un ensemble heacuteteacuterogegravene de donneacutees Lrsquointeacutegration de donneacutees est alors leprocessus qui permet agrave un tel systegraveme lrsquoaccegraves homogegravene agrave un ensemble de donneacutees aux formats et auxlocalisations heacuteteacuterogegravenes

Crsquoest une eacutetape preacuteliminaire neacutecessaire agrave la fouille de donneacutees En effet si les donneacutees agrave inclure danslrsquoanalyse sont reacuteparties dans des sources distinctes il est neacutecessaire de les inteacutegrer preacutealablement afinque lrsquoalgorithme de fouille puisse les prendre en compte simultaneacutement

Lrsquointeacutegration de donneacutees est drsquoautant plus inteacuteressante que ses applications deacutepassent le cadre delrsquo Ce processus est utiliseacute eacutegalement dans le cadre de la recherche drsquoinformation lrsquoinformatique deacute-cisionnelle et lrsquoeacutetude des flux drsquoinformation (ou workflow en anglais) et trouve des applications dans denombreux domaines ougrave lrsquoanalyse des nombreuses donneacutees collecteacutees preacutesente un inteacuterecirct la finance lesassurances les systegravemes de surveillance le commerce la meacutedecine en sont des exemples En bioinforma-tique lrsquointeacutegration de donneacutees est une probleacutematique de recherche active dont un des but est notammentde permettre lrsquoutilisation conjointe des nombreuses sources de donneacutees biologiques qui ont vu le jour defaccedilon indeacutependante et sans concertation [GS08]

La section 3 de ce chapitre propose un eacutetat de lrsquoart sur les meacutethodes drsquointeacutegration de donneacutees etpreacutesente des solutions proposeacutees dans le cadre de la bioinformatique En effet la contribution preacutesenteacutee

1 Extraction de Connaissances agrave partir de Bases de Donneacutees ndash 25

chapitre 3 est preacuteciseacutement une proposition et lrsquoapplication drsquoune meacutethode drsquointeacutegration opeacuterationnellefondeacutee sur des ontologies originales dans le domaine des variations geacutenomiques et de la pharmaco-geacutenomique

122 Nettoyage des donneacutees

En pratique les donneacutees brutes sont souvent incomplegravetes bruiteacutees voire incoheacuterentes Lrsquoopeacuterationde nettoyage a pour but de remplacer les valeurs manquantes de filtrer le bruit (par exemple en eacuteliminantles cas extrecircmes) et de corriger les incoheacuterences [HK01]

Lrsquoefficaciteacute de certains algorithmes de fouille est tregraves sensibles aux valeurs manquantes Diffeacuterentesapproches peuvent ecirctre adopteacutees

ndash ignorer les tuples dans lesquels des valeurs manquent Cela peut srsquoaveacuterer probleacutematique lorsque lejeu de donneacutees initial est de petite taille

ndash remplacer les valeurs manquantes par une valeur particuliegravere par exemple ldquoUnknownrdquo ldquo rdquo Cettemeacutethode peut biaiser les reacutesultats des algorithmes de fouille qui pourront consideacuterer la valeurutiliseacutee par deacutefaut disons ldquoUnknownrdquo comme repreacutesentative drsquoun concept inteacuteressant

ndash remplacer les valeurs manquantes par une valeur arbitraire Ce peut ecirctre la moyenne des valeursdonneacutees agrave lrsquoattribut dans le jeu de donneacutees ou la moyenne drsquoautres attributs relatifs au tupleconsideacutereacute ou encore une valeur probable preacutedite par des meacutethodes drsquoinfeacuterence de reacutegressiondrsquoinduction sur la base drsquoautres donneacutees

Les donneacutees brutes et plus particuliegraverement celles mesureacutees expeacuterimentalement sont souvent ac-compagneacutees de bruit Tout un ensemble de meacutethodes de filtrage et de lissage peut ecirctre mis en œuvre pourdiminuer les effets de ce bruit

Les incoheacuterences dans les donneacutees peuvent ecirctre corrigeacutees par des meacutethodes de comparaison avec lessources drsquoorigine des donneacutees ou si elles existent par veacuterification des contraintes ou des deacutependancesconnues entre donneacutees

123 Reacuteduction des donneacutees

La reacuteduction de donneacutees vise agrave limiter la taille de la description des donneacutees en portant le moinspossible atteinte agrave lrsquointeacutegriteacute de lrsquoinformation qursquoelles contiennent Diverses motivations peuvent ameneragrave reacuteduire les donneacutees

ndash Certains algorithmes de fouilles de donneacutees produisent des reacutesultats particuliegraverement volumineuxet par conseacutequent compliqueacutes et longs agrave interpreacuteter La reacuteduction de donneacutees est une opeacuterationdeacutecisive dans un processus drsquo qui fait intervenir de tels algorithmes

ndash Drsquoautres algorithmes sont particuliegraverement gourmands en capaciteacute de calcul et peuvent en fonc-tion de la taille du jeu de donneacutees neacutecessiter des temps de calcul ou un espace meacutemoire incom-patibles avec les conditions expeacuterimentales (ie le temps et les machines disponibles)

ndash Certains jeux de donneacutees preacutesentent un deacuteseacutequilibre entre le nombre de tuples relativement faibleet le nombre de valeurs distinctes relativement eacuteleveacute que peuvent prendre les attributs associeacutesIl est possible drsquoimaginer le cas extrecircme ougrave un jeu de donneacutees ne contient que des attributs agravevaleurs nominales et que chaque tuple preacutesente une valeur diffeacuterente pour chaque attribut Dansce cas particulier les meacutethode de fouille ne pourront distinguer aucune reacutegulariteacute particuliegravere sanslrsquoutilisation drsquoune meacutethode exteacuterieure Des meacutethodes de reacuteduction peuvent ici permettre de reacuteduirela diversiteacute entre les attributs qui caracteacuterisent les tuples (en utilisant des valeurs plus geacuteneacuterales quiseront partageacutees par plusieurs tuples par exemple)

Les strateacutegies de reacuteduction de donneacutees incluent entre autres

26 Chapitre 2 Etat de lrsquoart

Lrsquoagreacutegation par cubes de donneacutees Ce type de meacutethode souvent appliqueacute aux entrepocircts de donneacuteesutilise des cubes de donneacutees qui permettent drsquoagreacuteger des donneacutees multidimensionnelles dans lecadre drsquoanalyses de type OLAP [AAD+96] Par exemple des donneacutees relatives aux ventes journal-iegraveres drsquoune chaicircne de grands magasins contenant des millions de transactions peuvent ecirctre agreacutegeacuteesen ventes mensuelles de certaines cateacutegories speacutecifiques de produits

La reacuteduction de dimension Ce type de reacuteduction consiste agrave encoder les donneacutees dans un format pluscompact entraicircnant ou non une perte drsquoinformation Par exemple lrsquoanalyse en composante prin-

cipale est une meacutethode utiliseacutee pour la reacuteduction de dimension qui applique des projections desdonneacutees initiales dans un espace de dimension infeacuterieure

La discreacutetisation Il srsquoagit drsquoun ensemble de meacutethodes utiliseacutees pour reacuteduire le nombre de valeurs quepeut prendre un attribut Certaines meacutethodes automatiques de discreacutetisation srsquoappliquent aux at-tributs numeacuteriques et continus qursquoelles partitionnent reacutecursivement selon un eacutechelonnage adapteacute aunombre etou agrave la reacutepartition des valeurs Ainsi lrsquoeacuteventail des valeurs que peut prendre un attributcomme la concentration drsquoune certaine substance pourra ecirctre diviseacute en plusieurs intervalles selonune construction drsquohistogramme Certaines meacutethodes manipulant les histogrammes permettent parexemple de construire iteacuterativement des histogrammes doteacutes drsquointervalles de plus en plus impor-tants permettant ainsi un ajustement de la discreacutetisation Ces meacutethodes ne peuvent pas srsquoappliqueraux attributs discrets ou nominaux quand leur valeurs ne sont pas ordonneacutees (exemples couleur

= rouge vert bleu ou allegravele observeacute = AA AT AC AG TT TC TG CC CG GG) Dansce cas il est cependant possible de construire manuellement un eacutechelonnage ou une hieacuterarchie desattributs avec lrsquoaide drsquoexperts du domaines etou de meacutethodes heuristiques [HF94]

La seacutelection La seacutelection de donneacutees a pour but drsquoidentifier des sous-ensembles reacuteduits de donneacuteessans en alteacuterer la repreacutesentation originale Il est possible de distinguer deux familles principales demeacutethodes de seacutelection de donneacutees [GE03 SIL05] ndash Les meacutethodes de filtrage qui la plupart du temps estiment un score drsquointeacuterecirct pour les attributs

du jeu de donneacutees qui permet de les classer et drsquoen supprimer les moins inteacuteressants avant deles soumettre agrave la fouille Lrsquoestimation du score peut ecirctre assureacutee agrave lrsquoaide de meacutethodes heuris-tiques qui se fondent sur des mesures de significativiteacute des attributs ou drsquoentropie comme parexemple le gain drsquoinformation [KJ97] Les meacutethodes de filtrage les plus eacutevolueacutees sont capa-bles drsquoidentifier les deacutependances entre attributs et drsquointroduire cette composante dans le calculdu score drsquointeacuterecirct (voir [YL04] pour un exemple) Le principal inconveacutenient de ces meacutethodesest qursquoelles sont indeacutependantes de la meacutethode de fouille utiliseacutee et ainsi qursquoelles conduisentagrave estimer lrsquointeacuterecirct des attributs selon des critegraveres diffeacuterents de ceux utiliseacutes par la meacutethode defouille

ndash Les meacutethodes enveloppantes et inteacutegreacutees (wrapper et embedded methods en anglais) quant agraveelles sont deacutependantes de la meacutethode de fouille consideacutereacutee De faccedilon simplifieacutee leur principerepose sur la constitution drsquoun ensemble fini de sous-ensembles de donneacutees qui seront cha-cun soumis agrave lrsquoalgorithme de fouille consideacutereacute Alors le reacutesultat de la fouille de chaque sous-ensemble de donneacutees est eacutevalueacute et compareacute aux autres afin de constituer de nouveaux sous-ensembles de donneacutees qui seront agrave leur tour testeacutes lors drsquoune nouvelle iteacuteration De faccedilon nonformelle ces meacutethodes peuvent ecirctre consideacutereacutees elles-mecircmes comme des meacutethodes de fouilleappliqueacutees agrave des reacutesultats partiels de la meacutethode de fouille consideacutereacutee Ces meacutethodes sont par-ticuliegraverement coucircteuses en calcul et le sont drsquoautant plus que le nombre drsquoattributs est eacuteleveacute etque la meacutethode de fouille consideacutereacutee demande elle-mecircme des ressources importantes de calculLes algorithmes geacuteneacutetiques sont par exemple utiliseacutes pour ce type de meacutethode de seacutelection dedonneacutees [SIL05]

Dans le chapitre 4 nous proposons une approche de seacutelection dont la particulariteacute est de tirer

1 Extraction de Connaissances agrave partir de Bases de Donneacutees ndash 27

beacuteneacutefice des connaissances du domaine disponibles

Les connaissances de lrsquoanalyste peuvent aussi guider manuellement la seacutelection des donneacutees Lasection 4 de lrsquoeacutetat de lrsquoart illustrera entre autres comment des connaissances formaliseacutees peuventecirctre utiliseacutees par lrsquoanalyste ou par des programmes en vue de la seacutelection des donneacutees A cestravaux encore peu abondants srsquoajoute la deuxiegraveme contribution de cette thegravese qui consiste agrave pro-poser une approche de seacutelection des donneacutees guideacutee par les connaissances du domaine (chapitre 4section 1)

124 Transformation des donneacutees

La transformation des donneacutees consiste en leur modification en une forme adapteacutee agrave la meacutethode defouille envisageacutee

Un premier exemple est la normalisation des donneacutees qui reacuteside en leur eacutechelonnage (scaling enanglais) sur diffeacuterents intervalles ou ensembles de valeurs comme de -10 agrave 10 de 00 agrave 10 ou 0 1ou encore sous-exprimeacute exprimeacute sur-exprimeacute

Un second exemple de transformation est la geacuteneacuteralisation qui srsquoappuyant sur une hieacuterarchie determes ou de concepts permet de remplacer les valeurs drsquoattributs par leurs parents dans la hieacuterarchiece qui permet souvent de restreindre le nombre de valeurs possibles pour le nouvel attribut Consid-eacuterons par exemple un attribut ldquointeraction avec un meacutedicamentrdquo associeacutee agrave une relation qui deacutecrit desvariations geacutenomiques et peut prendre comme valeur les types de meacutedicament avec lesquels la variationinteragit Les variations interagissant avec la codeacuteine ou avec la morphine preacutesentent la valeur ldquocodeacuteinerdquoou ldquomorphinerdquo pour cet attribut Si ces deux exemple de valeurs sont remplaceacutees par la valeur uniqueplus geacuteneacuterale ldquoopiaceacuterdquo selon une hieacuterarchie de termes les tuples (ie les variations) preacutesentant la valeurldquoopiaceacuterdquo pour cet attribut constitue un ensemble plus important que celles qui initialement avaient deuxvaleurs distinctes ldquocodeacuteinerdquo et ldquomorphinerdquo Cela peut permettre de reacuteduire les diffeacuterentes valeurs pos-sibles pour certains attributs Par contre cette geacuteneacuteralisation empecircche alors de distinguer les variants quiinteragissent avec la codeacuteine de ceux qui interagissent avec la morphine

Lrsquoagreacutegation est une transformation eacutegalement inteacuteressante lorsque les donneacutees peuvent ecirctre reacute-sumeacutees ou agreacutegeacutees pour ecirctre eacutetudieacutees dans une dimension diffeacuterente Par exemple le nombre de crisesdrsquoasthme drsquoun patient par semaine peut ecirctre agreacutegeacute pour ecirctre eacutetudieacute au niveau mensuel ou annuel

Le lissage qui revient agrave appliquer aux donneacutees une fonction drsquoapproximation dans lrsquoobjectif drsquoeacutelim-iner les pheacutenomegravenes locaux et de mettre en eacutevidence les caracteacuteristiques geacuteneacuterales de celle-ci ou encorela construction drsquoattributs sont drsquoautres exemples de transformation de donneacutees [HK01]

13 Fouille de donneacutees

La fouille de donneacutees est lrsquoeacutetape de lrsquo qui vise agrave extraire des reacutegulariteacutes (ou des irreacutegulariteacutes) delrsquoensemble de donneacutees preacutepareacutees Il existe de nombreuses meacutethodes de fouille diffeacuterentes Le choix dela meacutethode est deacuteterminant et se fait essentiellement en fonction de lrsquoobjectif viseacute par lrsquoanalyste

Les diffeacuterents objectifs (ou mining tasks en anglais) de la fouille sont [HK01] ndash La description de classes (ou concepts) qui permet la caracteacuterisation de classes ou la discrimination

entre diffeacuterentes classesndash La recherche drsquoassociations entre des attributs qui prennent des valeurs particuliegraveres de faccedilon

concomitantendash La classification et la preacutediction baseacutees sur la deacutefinition drsquoun modegravele agrave partir drsquoun jeu de donneacutees

drsquoapprentissagendash La construction de clusters qui regroupent les donneacutees en diffeacuterents groupes selon des mesures de

similariteacute

28 Chapitre 2 Etat de lrsquoart

ndash La deacutetection de cas extrecircmes reacuteveacutelant une forme drsquoirreacutegulariteacuteEn pharmacogeacutenomique par exemple les cliniciens sont inteacuteresseacutes par la deacutecouverte de facteurs

permettant la discrimination drsquoun groupe de patients reacuteagissant de faccedilon adverse agrave un traitement par rap-port agrave ceux pour qui aucune reacuteaction neacutefaste nrsquoest observeacutee Les biologistes plus directement inteacuteresseacutespar lrsquoeacutetude du processus moleacuteculaire des reacuteactions pharmacogeacutenomiques peuvent ecirctre inteacuteresseacutes par larecherche drsquoassociations entre par exemple un variant geacuteneacutetique la reacuteduction de lrsquoactiviteacute drsquoune en-zyme et la concentration eacuteleveacutee drsquoune moleacutecule dans le sang

Les meacutethodes de fouille de donneacutees sont souvent classifieacutees en fonction des divers objectifs exposeacutesci-dessus Il est eacutegalement possible de distinguer les meacutethodes numeacuteriques des meacutethodes symboliquesen fonction du type de donneacutees qursquoelles manipulent Cette distinction implique une diffeacuterence dans lesmodaliteacutes de repreacutesentation de manipulation et de comparaison des donneacutees et des reacutegulariteacutes reacutesul-tantes

ndash Les meacutethodes de fouille numeacuteriques comprennent entre autres les chaicircnes de Markov les reacuteseauxde neurones les K-plus proches voisins lrsquoanalyse en composante principale (ACP) les reacuteseauxbayeacutesiens les algorithmes geacuteneacutetiques

ndash Les meacutethodes de fouille symboliques comprennent entre autres lrsquoextraction de motifs freacutequentsla recherche de regravegles drsquoassociation lrsquoAnalyse de Concepts Formels ()

Une autre distinction est faite entre les meacutethodes dites superviseacutees et celles dites non-superviseacuteesUne meacutethode superviseacutee va proposer une classification des tuplesobjets drsquoun jeu de donneacutees en srsquoap-puyant sur un modegravele preacuteeacutetabli agrave partir drsquoune base drsquoexemples ou drsquoeacutechantillons de tuplesobjets seacutelec-tionneacutes au hasard Inversement une meacutethode non-superviseacutee va produire un modegravele sans apriori sur laseule information que lui apportent les tuplesobjets Dans ce cas la consideacuteration de nouveaux tuplesob-jets entraicircnera la mise agrave jour du modegravele

Lrsquoapprentissage est un domaine de recherche proche de la fouille de donneacutees utilisant des meacutethodessimilaires mais avec une eacutechelle et un objectif leacutegegraverement diffeacuterents puisque les travaux drsquoapprentissagene srsquointeacuteressent pas forceacutement aux larges volumes de donneacutees et que les reacutesultats obtenus sont destineacutesplus particuliegraverement agrave la reacutesolution de problegravemes et agrave la prise de deacutecision

Les sections suivantes preacutesentent trois meacutethodes de fouille de donneacutees symboliques qui extraient agravepartir de bases de donneacutees binaires soit un ensemble de concepts organiseacutes en un treillis (ie un ordre

partiel) soit des motifs freacutequents soit des regravegles drsquoassociation Ces meacutethodes sont justement utiliseacuteesdans le chapitre 4 de cette thegravese La construction de treillis est preacutesenteacutee dans la section suivante (131)et les extractions de motifs et la recherche de regravegles sont deacutecrites en la section 132 Enfin la recherchede regravegles drsquoassociation particuliegraveres dites Minimales Non-Redondantes est preacutesenteacutee section 133

131 La classification par construction de treillis

Certaines meacutethodes de fouille de donneacutees srsquoapparentent agrave une classification et analyse des corre-spondances binaires entre une classe drsquoobjets (ou individus) et une classe drsquoattributs (ou proprieacuteteacutes)informant ainsi pour chaque paire objet-attribut si lrsquoattribut est observeacute pour lrsquoobjet ou non [GVM93GW99] Les attributs sont des proprieacuteteacutes qui qualifient les objets soit par leur preacutesence ou leur ab-sence soit par une valeur qui a eacuteteacute discreacutetiseacutee sous forme de plusieurs variables binaires Ces variablessont regroupeacutees dans des tableaux binaires (eacutegalement appeleacutes bases de donneacutees binaires ou contexteformel) qui deacutecrivent les relations entre un ensemble drsquoobjets et un ensemble drsquoattributs ougrave par exemple(ij) = 1 deacutetermine que lrsquoobjet i preacutesente lrsquoattribut j Cette relation est alors mateacuterialiseacutee par unecroix ldquotimesrdquo dans le tableau binaire correspondant

LrsquoAnalyse de Concepts Formels () est une meacutethode drsquoanalyse de donneacutees fondeacutee sur les treillisde concepts (ou treillis de Galois) [GW99] Lrsquo a pour principe la transformation drsquoun contexte formel

1 Extraction de Connaissances agrave partir de Bases de Donneacutees ndash 29

G

MA B C

1 times times

2 times times

3 times

T 21 ndash Un premier exemple de contexte formel K

en un ensemble de concepts formels organiseacutes en un treillis Lrsquoadjectif formel souligne ici le fait que lescontextes et concepts sont manipuleacutes en tant qursquoentiteacutes matheacutematiques

Pour deacutefinir la notion de treillis il est neacutecessaire drsquointroduire au preacutealable les notions de borne

infeacuterieure et de borne supeacuterieure

Deacutefinition 21 Soit (Mle) un ordre partiel et A un sous-ensemble de M Une borne infeacuterieure de A est

un eacuteleacutement s de M tel que s le a foralla isin A Une borne supeacuterieure de A peut ecirctre deacutefinie dualement Srsquoil

existe un eacuteleacutement plus grand dans lrsquoensemble des bornes infeacuterieures celui-ci est lrsquoinfimum de A et noteacute

inf A ou andA dualement une borne supeacuterieure moindre est appeleacutee supremum et est noteacutee sup A ou orA

Si A = x y lrsquoinfimum inf A est eacutegalement noteacute x and y et le supremum sup A est eacutegalement noteacute x or y

Alors de faccedilon geacuteneacuterale un treillis est un ordre (B⊑) ougrave la relation ⊑ appeleacutee relation de subsomp-

tion deacutecrit un ordre partiel tel que chaque paire drsquoeacuteleacutement xy deB possegravede une borne supeacuterieure xory

et une borne infeacuterieure x and y

Deacutefinition 22 Un ordre B ≔ (B le) est un treillis si pour chaque paire drsquoeacuteleacutements x minus y il existe

toujours un infimum x and y et un supremum x or y B est un treillis complet si son infimum andX et son

supremum orX existent pour chaque sous-ensemble X deB Tout treillis completB a un plus petit eacuteleacutement

unique andB et un plus grand eacuteleacutement unique orB

Dans le cadre de lrsquo un treillis est construit agrave partir drsquoun contexte formel deacutefini comme suit

Deacutefinition 23 (contexte formel) Un contexte formel K(GMI) consiste en deux ensembles G et M

et en une relation binaire I sube G timesM entre G etM G est lrsquoensemble des objets etM lrsquoensemble des

attributs du contexte26 I est la relation drsquoincidence qui entre un objet g et un attribut m se note gIm ou

(gm) isin I

Comme lrsquoillustre le Tableau 21 un contexte formel est une base de donneacutees binaire qui peut ecirctresimplement repreacutesenteacutee par un ldquotableau de croixrdquo ie un tableau dans lequel les en-tecirctes de lignes cor-respondent aux noms drsquoobjets celles des colonnes aux noms drsquoattributs La preacutesence drsquoune croix aucroisement de la ligne i et de la colonne j signifie que lrsquoobjet i preacutesente lrsquoattribut j

La construction drsquoun treillis agrave partir drsquoun contexte formel se fonde sur la deacutefinition drsquoune fonctionduale particuliegravere qui permet drsquoassocier agrave nrsquoimporte quel sous-ensemble drsquoobjets un sous-ensemble drsquoat-tributs drsquoune part et drsquoautre part agrave nrsquoimporte quel sous-ensemble drsquoattributs un sous ensemble drsquoobjets

Deacutefinition 24 Pour un sous-ensemble quelconque drsquoobjets A sube G nous deacutefinissons

Aprime ≔ m isin M | forallg isin A (gm) isin I (21)

26Plus preacuteciseacutement nous devrions dire ldquoobjets formelsrdquo et ldquoattributs formelsrdquo

30 Chapitre 2 Etat de lrsquoart

qui repreacutesente lrsquoensemble des attributs communs aux objets de A Pour un sous-ensemble quelconque

drsquoattributs B sube M nous deacutefinissons de faccedilon similaire

Bprime ≔ g isin G | forallm isin B (gm) isin I (22)

qui repreacutesente lrsquoensemble des objets qui preacutesentent tous les attributs de B

La double utilisation de lrsquoopeacuterateur prime noteacute primeprime (prime 2G rarr 2M et prime 2M rarr 2G) constitue la connexion de

Galois Il peut ecirctre montreacute que lrsquoopeacuterateur primeprime 2G rarr 2G de mecircme que primeprime 2M rarr 2M sont des opeacuterateurs

de fermeture

Deacutefinition 25 (opeacuterateur de fermeture) Soit X X1 et X2 trois sous-ensembles de E (par exemple G ou

M) Un opeacuterateur de fermeture h est une fonction (i) monotone croissante ie X1 sube X2 rArr h(X1) sube h(X2)(ii) extensive ie X sube h(X) et (iii) idempotente ie h(X) = h[h(X)]

Alors un ensemble X de E est fermeacute si et seulement si X = h(X)

Deacutefinition 26 (concept formel) Un concept formel du contexte K(GMI) est une paire (A B) avec

A sube G B sube M et pour lequel la relation entre A et B est deacutecrite par lrsquoopeacuterateur prime tel que

Aprime = B et Bprime = A (23)

A est appeleacute lrsquoextension du concept (A B) et B est appeleacutee son intensionB(GMI) appeleacute lrsquoensemble

des parties de K est lrsquoensemble de tous les concepts formels du contexte K(GMI)

Les proprieacuteteacutes particuliegraveres de lrsquoopeacuterateur de fermeture primeprime permettent de relier agrave chaque concept leconcept fermeacute associeacute et permettent eacutegalement de deacutefinir une relation drsquoordre entre les concepts

Deacutefinition 27 Si (A1 B1) et (A2 B2) sont des concepts drsquoun contexte K(GMI) si A1 sube A2 (et donc

B2 sube B1) alors (A1 B1) est appeleacute le sous concept de (A2 B2) et (A2 B2) le super concept de (A1 B1)

Il en reacutesulte la relation drsquoordre partiel qui induit une hieacuterarchie entre ces deux concepts noteacute le

(A1 B1) le (A2 B2) (24)

Lrsquoensemble des parties (ie de tous les concepts) B(GMI) du contexte K organiseacute selon cet ordre et

noteacute B(GMI) est le treillis de concept (ou treillis de Galois) du contexte K

Un treillis peut ecirctre repreacutesenteacute de diffeacuterentes faccedilons plus ou moins reacuteduites Un mode de repreacutesentationrelativement riche inclut lrsquoensemble des concepts drsquoun contexte ie chaque intension possible est deacute-clineacutee pour former un concept Cela permet la constitution du treillis des parties du contexte dont unexemple est repreacutesenteacute agrave gauche dans la Figure 22 Un mode plus classique et plus reacuteduit consiste agrave nerepreacutesenter que les concepts fermeacutes Suivant lrsquoexemple donneacute Figure 22 le concept (2C) preacutesentdans le treillis des parties est eacutelimineacute et repreacutesenteacute par son fermeacute (2AC) dans le treillis du centrede la figure Un dernier mode appeleacutee notation reacuteduite drsquoun treillis et deacutefinie dans [GW99] preacutesente laparticulariteacute de ne signaler les objets que dans lrsquoextension du concept le plus speacutecifique (ie le conceptqui preacutesente le plus drsquoattributs) dans lequel est inclus cet objet Inversement les attributs ne sont signaleacutesque dans lrsquointension du concept le plus geacuteneacuteral (ie celui qui preacutesente le moins drsquoattributs) dans lequelils sont preacutesents Le treillis de droite de la Figure 22 est la notation reacuteduite des deux premiers treillis

La construction de treillis peut preacutesenter diffeacuterents avantages dans un processus drsquo [SWW98Wil02 VMG04]

1 Extraction de Connaissances agrave partir de Bases de Donneacutees ndash 31

( 12B)

(123)

(AC)

(ABC)

(2C)(13A)

(2BC)(1AB)

( 12B)

(123)

(ABC)

(13A)

(2BC)(1AB)

(B)(3A)

(1) (2C)

F 22 ndash Diffeacuterentes repreacutesentations du treillis associeacute au contexteK repreacutesenteacute dans le Tableau 21 Degauche agrave droite le treillis des parties associeacute au contexte (ougrave tous les sous-ensembles drsquoattributs sontrepreacutesenteacutes) treillis de Galois associeacute au mecircme contexte treillis de Galois en notation reacuteduite associeacuteau mecircme contexte

ndash La structuration logique des donneacutees en concepts reflegravete la faccedilon avec laquelle les humains con-ceptualisent un domaine La proposition drsquoune hieacuterarchisation en concepts construite sans aprioriagrave partir des seules donneacutees peut aider un analyste dans le cadre de lrsquoextraction de connaissances

ndash La formalisation des concepts peut permettre de proposer une traduction de la structure du treillisselon un formalisme logique afin de pouvoir y appliquer des meacutecanismes automatiques de raison-nement

ndash La construction du treillis peut servir drsquoeacutetape preacuteliminaire pour des algorithmes de fouille pluscomplexes Ces algorithmes pourront alors tirer parti de lrsquoorganisation des concepts pour ameacuteliorerla rapiditeacute de leur exeacutecution la gestion de la meacutemoire ou les reacutesultats produits

ndash Les treillis sont eacutegalement utiliseacutes en recherche drsquoinformation () [CR04 MDNST05] Lrsquoutili-sation de lrsquo en est entre autres motiveacutee par lrsquoanalogie eacutevidente entre les associations ob-jetattribut de lrsquo et documentterme en Selon cette analogie les concepts formels peuventecirctre consideacutereacutes comme des classes de documents qui correspondent agrave une requecircte de lrsquoutilisateurAlors les documents sont les objets caracteacuteriseacutes par des attributs qui sont les termes utiliseacutes pourune requecircte La relation de subsomption permet de guider le raffinement ou la geacuteneacuteralisation dela requecircte (en y ajoutantsupprimant des termes) poseacutee par un utilisateur en lui permettant de nav-iguer drsquoun concept agrave un autre

ndash Lrsquo est de plus en plus populaire en acquisition de connaissances agrave partir de textes Le treil-lis peut constituer un compleacutement aux meacutethodes de Traitement Automatique des Langues ()en proposant une structure hieacuterarchique entre les concepts acquis par Les associations entretermes organiseacutees en concepts dans un treillis peuvent permettre lrsquoidentification de nouveaux con-cepts ou drsquoinstancier des concepts existants dans des processus de peuplement ou de constructiondrsquoontologies [CHST04 BTN08]

R Nous distinguons dans cette thegravese la notion de concept formel entiteacute matheacutematique reacute-sultant drsquoun processus drsquo dont lrsquointension est une liste drsquoattributs et les concepts utiliseacutes en repreacutesen-tation de connaissances notamment en Logique de Descriptions () Eleacutements de base drsquoune ontologieces concepts ont pour intension une description formelle en qui deacutefinit les conditions drsquoappartenance agravece concept selon une certaine interpreacutetation (voir section 22) Cependant une certaine analogie a pu con-duire agrave des rapprochements entre ces deux notions et agrave des travaux situeacutes agrave lrsquointersection des domaines de

32 Chapitre 2 Etat de lrsquoart

G

MA B C D E

1 times times times times

2 times times

3 times times times times

4 times times times

5 times times times times

T 22 ndash Un second exemple de contexte formel K

lrsquo et des De tels travaux [Rud06 BGSS07] deacutetailleacutes au chapitre 4 sont agrave lrsquoorigine de la troisiegravemecontribution de cette thegravese qui propose drsquoutiliser lrsquo pour deacutecouvrir de nouvelles connaissances au seindrsquoune base de connaissance formaliseacutee en

132 Motifs freacutequents et regravegles drsquoassociation

En partant du mecircme type de tableau binaire agrave partir duquel il est possible de construire un treillisil est eacutegalement possible drsquoextraire des motifs freacutequents et de rechercher des regravegles drsquoassociation Cettesection preacutesente rapidement ces deux meacutethodes

Lrsquoextraction des motifs freacutequents permet drsquoisoler depuis un contexte formel des ensembles drsquoat-tributs appeleacutes motifs en accord avec un certain support Ce support correspond au nombre drsquoobjets quipartagent les attributs drsquoun motif et celui-ci doit ecirctre supeacuterieur agrave un certain seuil le support minimumpour que le motif soit freacutequent

Sur la base des motifs freacutequents il est possible de construire des regravegles drsquoassociation de formegeacuteneacuterale A rarr B qui associe un sous-ensemble drsquoattributs A avec un second sous-ensemble drsquoattributsB La regravegle peut alors ecirctre interpreacuteteacutee comme le fait que lrsquoensemble des objets avec les attributs de A

preacutesente eacutegalement les attributs de B selon un certain support et une certaine confiance (deacutefninie plusloin)

Lrsquoextraction de motifs freacutequents

Deacutefinition 28 (motif freacutequent) Soit un contexte K(GMI) avec G un ensemble drsquoobjets et M un

ensemble drsquoattributs Un motif est un ensemble drsquoattributs preacutesenteacute par un objet Il est dit que lrsquoobjet

contient le motif Le nombre drsquoattributs dans un motif deacutetermine la longueur du motif Lrsquoimage du motif

correspond agrave lrsquoensemble des objets qui contiennent le motif

Le support drsquoun motif T est le nombre relatif drsquoobjets qui contiennent ce motif parmi le nombre total

drsquoobjets |G| dans le contexte consideacutereacute K ainsi

supp =|Image(T )||G|

(25)

Le support peut ecirctre compareacute agrave la probabiliteacute P(T ) de trouver un objet contenant le motif T parmi

lrsquoensemble des objets du contexte Un motif est dit freacutequent si son support est supeacuterieur ou eacutegal agrave un

seuil de freacutequence arbitraire appeleacute support minimum (noteacute min_supp)

Par exemple si lrsquoon considegravere le contexte formel repreacutesenteacute Tableau 22 et un min_supp = 35 A

est un motif freacutequent de longueur 1 et de support 45 AB est de longueur 2 de support 3

5 et freacutequent ABC est de longueur 3 de support 2

5 et non freacutequent ABCDE est de longueur 5 de support 0 etnon freacutequent On peut remarquer que le support diminue lorsque la longueur du motif augmente

1 Extraction de Connaissances agrave partir de Bases de Donneacutees ndash 33

Si le nombre drsquoattributs de M est eacutegal agrave n le nombre de motifs possibles est 2n (ie le nombre desous-ensembles possibles agrave partir deM) Aussi une extraction des motifs freacutequents par le test systeacutema-tique de la freacutequence de chaque motif nrsquoest pas envisageable Cependant des algorithmes qui permettentde ne tester que certains sous-ensembles de motifs ont eacuteteacute deacuteveloppeacutes et permettent drsquoextraire les mo-tifs freacutequents de grandes bases de donneacutees Lrsquoalgorithme Apriori est un outil classique drsquoextraction demotifs freacutequents qui suit ce mode opeacuteratoire [AIS93] Apriori srsquoappuie sur deux principes fondamen-taux (i) tout sous-motif drsquoun motif freacutequent est un motif freacutequent et (ii) tout super-motif drsquoun motif nonfreacutequent est non freacutequent Apriori peut ecirctre reacutesumeacute par ces deux opeacuterations principales

1 Lrsquoextraction des motifs freacutequents commence par la recherche des motifs de longueur 1

2 Les motifs freacutequents sont enregistreacutes et combineacutes entre eux pour former des motifs candidats delongueur supeacuterieure les motifs non freacutequents en 1 sont eacutelimineacutes et par conseacutequent aucun de leursuper-motif nrsquoest consideacutereacute La freacutequence des motifs candidats est testeacutee pour constituer un nouvelensemble de motifs freacutequents et lrsquoalgorithme continue tant que de nouveaux candidats peuvent ecirctreformeacutes

Lrsquoalgorithme 21 preacutesenteacute plus loin dans ce chapitre en section 42 permet de suivre la succession desopeacuterations de lrsquoalgorithme Apriori (la version preacutesenteacutee est enrichie par certaines opeacuterations speacutecifiquesagrave la probleacutematique de cette section 42)

En guise drsquoexemple nous pouvons reacutealiser pas agrave pas Apriori sur le contexte du Tableau 22 avecmin_supp = 3

5 Les motifs freacutequents de longueur 1 sont A( 45 ) B( 4

5 ) C( 45 ) E( 4

5 ) Le motifD( 1

5 ) nrsquoest pas freacutequent et est eacutelimineacute Dans un second temps les motifs candidats de longueur 2 sontformeacutes en combinant les motifs freacutequents de longueur 1 AB AC AE BC BE puisleur freacutequence est testeacutee Ainsi les motifs freacutequents de longueurs 2 sont AB( 3

5 ) AC( 35 ) AE( 3

5 )BC( 3

5 ) BE( 45 ) CE( 3

5 ) De la mecircme faccedilon les motifs candidats de longueur 3 sont formeacutes puistesteacutes pour donner les motifs freacutequents de longueur 3 suivants ABE( 3

5 ) BCE( 35 ) Enfin le seul

motif candidat ABCE de longueur 4 est formeacute et testeacute mais son support ( 25 ) est infeacuterieur agrave min_supp

Il est donc eacutelimineacute Il nrsquoy a plus de candidat lrsquoalgorithme se termineSuivant un algorithme diffeacuterent les motifs freacutequents peuvent facilement ecirctre extraits agrave partir drsquoun

treillis Lrsquoeacutetape la plus contraignante est alors la construction du treillis agrave partir duquel lrsquoextraction desmotifs freacutequents est ensuite triviale Elle correspond agrave un parcours en largeur dans le treillis en partantdu bas La Figure 23 permet de distinguer facilement les motifs freacutequents du contexte du Tableau 22 etde min_supp = 3

5

La recherche de regravegles drsquoassociation

Deacutefinition 29 Une regravegle drsquoassociation est de forme T1 rarr T2 ougrave T1 et T2 sont des motifs T1 est appeleacute

la preacutemisse ou partie gauche de la regravegle et T2 est la conclusion ou partie droite de la regravegle Le support

de la regravegle T1 rarr T2 est deacutefinie comme le support du motif T1 cup T2 ainsi pour un contexte K(GMI)

supp(T1 rarr T2) =|Image(T1 cup T2)|

|G|(26)

La confiance drsquoune regravegle T1 rarr T2 est le rapport entre le support de la regravegle et le support de sa preacutemisse

con f (T1 rarr T2) =|Image(T1 cup T2)||Image(T1)|

(27)

La confiance peut ecirctre compareacutee agrave la probabiliteacute conditionnelle P(T2|T1) ie la probabiliteacute de trouver

parmi les objets du contexte qui contiennent le motif T1 un objet contenant eacutegalement le motif T2

34 Chapitre 2 Etat de lrsquoart

F 23 ndash Treillis des parties associeacute au contexte K repreacutesenteacute Tableau 22 La ligne de seacuteparation sym-bolise le support minimum (min_supp = 3

5 ) dissociant les motifs non freacutequents au dessus de la lignedes motifs freacutequents en dessous Le chiffre associeacute agrave chaque motif correspond au nombre drsquooccurencesdu motif dans K Source exemple extrait de [Sza06]

Une regravegle est dite valide si sa confiance est supeacuterieure ou eacutegale agrave un seuil de confiance arbitraire

appeleacute confiance minimum (noteacute min_conf) et si son support est supeacuterieur ou eacutegal au support minimum

(min_supp) Ainsi toute regravegle valide T1 rarr T2 est baseacutee sur un motif freacutequent T1cupT2 Une regravegle est exacte

si sa confiance est eacutegale agrave 1 ie supp(T1 cup T2) = supp(T1) sinon la regravegle est approximative Les regravegles

exactes sont eacutegalement appeleacutees des implications

Si lrsquoon considegravere agrave nouveau le contexte du Tableau 22 avec min_supp = 35 et min_con f = 3

5 ABest freacutequent et la regravegle Ararr B est valide (supp = 3

5 et con f = 34 ) La regravegle BrarrA est eacutegalement valide

(supp = 35 et con f = 3

4 ) Si lrsquoon diminue le support de sorte que min_supp = 25 et min_con f = 3

5 lemotif ABCE est freacutequent les regravegles ABrarrCE CErarrAB ACrarrBE sont valides (supp = 2

5 et con f = 23

pour les trois) mais la regravegle BErarrAC nrsquoest pas valide (supp = 25 et con f = 2

4 )La construction des regravegles drsquoassociation valides depuis un motif freacutequent (de longueur supeacuterieure ou

eacutegale agrave deux) se fait de faccedilon similaire agrave lrsquoextraction de motifs freacutequents A partir drsquoun motif freacutequent laconstruction des regravegles deacutebute par les regravegles dont la conclusion est de longueur 1 noteacutees P irarri ougravei est un attribut seul et P i repreacutesente le motif P sans lrsquoattribut i Une fois ces regravegles construitesleur conclusions sont combineacutees pour donner de nouvelles regravegles candidates dont la conclusion est delongueur 2 noteacutees P ijrarrij Ces nouvelles regravegles sont testeacutees et le processus continue tant qursquoilest possible de construire de nouvelles regravegles candidates

Par exemple pour le contexte manipuleacute preacuteceacutedemment et min_supp = 25 et min_con f = 2

5 quand P =AB les regravegles valides construites sont ArarrB (min_supp = 3

5 min_con f = 34 ) et BrarrA ( 3

5 34 ) Quand P

= ABC( 25 ) les regravegles construites sont drsquoabord ABrarrC( 2

5 23 ) ACrarrB( 2

5 23 ) BCrarrA( 2

5 23 )

qui sont trois regravegles valides Leurs conclusions peuvent donc ecirctre combineacutees pour produire les nou-velles conclusions ABACBC et les regravegles correspondantes CrarrAB( 2

5 24 ) BrarrAC( 2

5 24 )

ArarrBC( 25 2

4 ) qui sont eacutegalement trois regravegles valides

1 Extraction de Connaissances agrave partir de Bases de Donneacutees ndash 35

Le nombre de motifs et de regravegles geacuteneacutereacutees est drsquoautant plus grand que le contexte permet drsquoassocierun grand nombre drsquoobjets et drsquoattributs Cela rend deacutelicate lrsquoeacutetape drsquointerpreacutetation des uniteacutes extraitesqui dans la plupart des cas est assureacutee par un analyste Pour cette raison il est crucial dans un processusdrsquo et plus particuliegraverement lorsqursquoil met en œuvre une extraction de motifs (ou une recherche deregravegle) de disposer de meacutethodes de filtrage des uniteacutes extraites Dans ce but de nombreux travaux se sontattacheacutes agrave eacutetudier les diverses mesures qui peuvent qualifier une regravegle [Fre98 LFZ99 TKS02 McG05]En partant du fait que la confiance drsquoune regravegle ArarrB peut ecirctre consideacutereacutee comme la probabiliteacute condition-nelle P(B|A) (ie la probabiliteacute de B sachant A) certaines de ces mesures peuvent ecirctre le fruit de calculsde probabiliteacutes comme par exemple lrsquointeacuterecirct la conviction ou la deacutependance drsquoune regravegle Une autre cateacute-gorie de mesures utilise des connaissances du domaine pour eacuteliminer certaines regravegles [LHCM00 Sah02]Ces meacutethodes sont alors dites subjectives par oppositions aux premiegraveres qualifieacutees drsquoobjectives

De la mecircme faccedilon que pour les motifs freacutequents la recherche de regravegles drsquoassociation ainsi que lecalcul de mesures peuvent ecirctre facilement meneacutes agrave partir drsquoun treillis de Galois

La construction drsquoun treillis est une opeacuteration coucircteuse en ressources informatiques et nrsquoest pasneacutecessaire agrave lrsquoextraction de motifs freacutequents ou de regravegles valides pour lesquels des algorithmes plus effi-caces existent Cependant la structure matheacutematique qursquooffre un treillis est inteacuteressante pour caracteacuteriserdes groupes particuliers de motifs et ainsi isoler diffeacuterentes familles de motifs et de regravegles Par exemplele treillis proposeacute Figure 23 permet drsquoidentifier de faccedilon assez intuitive les regravegles exactes qui existententre les motifs freacutequents directement relieacutes et de mecircme support De cette faccedilon les motifs BCE etCE directement relieacutes et de mecircme support ( 3

5 ) traduisent lrsquoexistence de la regravegle exacte CErarrB Lasection suivante introduit une famille de regravegles particuliegraveres ainsi que la meacutethode qui permet drsquoen isolerles membres

133 La famille des Regravegles Minimales Non-Redondantes

Cette section preacutesente la famille particuliegravere des regravegles drsquoassociation Minimales Non-Redondantes(noteacutees RMN) [Kry02 Sza06] Le terme famille de regravegles vient du fait que nous distinguons cinq en-sembles de regravegles parmi les Regravegles Minimales Non-Redondantes

Briques neacutecessaires agrave la deacutefinition des RMNPour pouvoir distinguer ces cinq ensembles particuliers de regravegles nous avons besoin de deacutecrire des en-sembles de motifs appeleacutes classes drsquoeacutequivalence et des motifs particuliers les motifs fermeacutes freacutequents

et les geacuteneacuterateurs freacutequents

Deacutefinition 210 (classe drsquoeacutequivalence) Soit f une fonction qui associe agrave chaque motif P sube T lrsquoensemble

de tous les objets qui contiennent le motif P f(P)=g isin G | g contient P Alors deux motifs P Q sube T

sont eacutequivalents (noteacute P Q) si et seulement si f(P) = f(Q) Lrsquoensemble des motifs eacutequivalant agrave un motif

P est appeleacute la classe drsquoeacutequivalence de P et est noteacutee

[P] = Q sube A | P Q (28)

Deacutefinition 211 (motif fermeacute freacutequent) La fermeture drsquoun motif X noteacutee α(X) est le plus grand super

motif de X de mecircme support que X

Un motif X est alors un motif fermeacute si il nrsquoexiste pas de super motif Y de X (ie X sub Y) de support

identique agrave celui de X Dans ce cas X = α(X) Les motifs fermeacutes sont les motifs de longueur maximale au

sein drsquoune classe drsquoeacutequivalence parfois noteacutee max[P] pour une classe drsquoeacutequivalence [P]

36 Chapitre 2 Etat de lrsquoart

F 24 ndash Classes drsquoeacutequivalence motifs fermeacutes freacutequents et geacuteneacuterateurs freacutequents associeacutes au contexteK repreacutesenteacute Tableau 22 (min_supp = 2

5 ) Les relations de subsomption entre classes drsquoeacutequivalencesont deacuteduites du treillis repreacutesenteacute Figure 23 Source exemple extrait de [Sza06]

Un motif agrave la fois fermeacute et freacutequent suivant la Deacutefinition 28 est un motif fermeacute freacutequent

Deacutefinition 212 (geacuteneacuterateur freacutequent) Un motif P isin [P] est appeleacute geacuteneacuterateur si P nrsquoa pas de sous-

motif dans [P] ie si P nrsquoa pas de sous-motif de support identique agrave P En drsquoautres termes les geacuteneacuterateurs

sont les motifs de longueur minimale au sein drsquoune classe drsquoeacutequivalence

Un geacuteneacuterateur freacutequent est un geacuteneacuterateur dont le support est supeacuterieur ou eacutegale agrave min_supp

Deacutefinition 213 (relation de subsomption entre classes drsquoeacutequivalence) Soit une classe drsquoeacutequivalence

[P] La classe drsquoeacutequivalence [Q] est ascendant ou subsumant de [P] si max[P] sub max[Q] La classe

drsquoeacutequivalence [Q] est ascendant direct ou subsumant direct de [P] si [Q] est un ascendant de [P] et

qursquoil nrsquoexiste aucune classe drsquoeacutequivalence [R] telle que max[P] sub max[R] sub max[Q] La relation de

subsomption sur les classes drsquoeacutequivalence est transitive

La Figure 24 repreacutesente les classes drsquoeacutequivalence les motifs fermeacutes freacutequents les geacuteneacuterateursfreacutequents et les relations de subsomption entre classes pour le contexte repreacutesenteacute Tableau 22 et unsupport minimum de 2

5 Dans cette figure la classe drsquoeacutequivalence dont le fermeacute est C est directementsubsumeacutee par la classe dont le fermeacute est BCE qui elle mecircme est subsumeacutee par la classe dont le fermeacuteest ABCE En revanche il nrsquoexiste aucune relation de subsomption entre les classes drsquoeacutequivalencedont les fermeacutes sont BCE et ABE

Les RMN

Deacutefinition 214 (Base geacuteneacuterique des regravegles exactes) Soit FC lrsquoensemble des motifs fermeacutes freacutequents

Pour chaque motif freacutequent f isin FC FG f est lrsquoensemble des geacuteneacuterateurs freacutequents de f Nous deacutefinissons

1 Extraction de Connaissances agrave partir de Bases de Donneacutees ndash 37

alors la base geacuteneacuterique comme suit

BG = r grarr ( f g) | f isin FC and g isin FG f and f g (29)

Deacutefinition 215 (Base informative des regravegles approximatives) Soit FC lrsquoensemble des motifs fermeacutes

freacutequents et FG lrsquoensemble des geacuteneacuterateurs freacutequents Le motif noteacute α(g) repreacutesente le fermeacute de g La

base informative est alors

BI = r grarr ( f g) | f isin FC and g isin FG and α(g) sub f (210)

Deacutefinition 216 (Reacuteduction transitive de la base informative) Soit BI la base informative drsquoun en-

semble de regravegles approximatives et FC lrsquoensemble des motifs fermeacutes freacutequents La reacuteduction transitive

de la base informative est

BIR = r grarr ( f g) isin BI | α(g) est le sous-motif maximal de f dans FC (211)

Deacutefinition 217 (RMN) Lrsquoensemble des Regravegles Minimales Non-redondantes (RMN) est deacutefini comme

RMN = BG cup BI (212)

Ainsi lrsquoensemble des RMN regroupe lrsquoensemble des regravegles exactes (BG) et des regravegles approximatives(BI)

Deacutefinition 218 (RMNR) Lrsquoensemble des Regravegles Minimales Non-redondantes Reacuteduites (RMNR) cor-

respond agrave la reacuteduction transitive des RMN

RMNR = BG cup BIR (213)

Les RMN constitue lrsquoensemble le plus grand de regravegles de cette famille etBGBIBIR et RMNRen sont des sous-ensembles Aussi il est facile agrave partir des deacutefinitions preacuteceacutedentes de deacuteduire les inclu-sions suivantes

BIR sube BI RMNR sube RMN

BG sube RMNR BI sube RMN

BIR sube RMNR

La Figure 25 illustre la position relative des RMN et des RMNR par rapport agrave lrsquoensemble des regraveglesdrsquoassociation

Calcul des RMNNous pouvons remarquer que les deacutefinitions des RMN ne font intervenir que les deux ensembles demotifs particuliers les motifs fermeacutes freacutequents et leur geacuteneacuterateurs De la mecircme faccedilon lesRMN peuventecirctre calculeacutees agrave partir de ces deux seuls ensembles Lrsquoalgorithme Zart deacutecrit par Szathmary et al [Sza06SNK07] permet drsquoisoler ces deux ensembles pour ensuite isoler les RMN Nous proposons en AnnexeA un algorithme qui recherche les RMN et les RMNR agrave partir des motifs fermeacutes freacutequents et de leurgeacuteneacuterateurs

Suivons un exemple agrave partir du contexteK (Tableau 22) avec min_supp = 25 La figure 24 permet de

visualiser les motifs fermeacutes freacutequents et leurs geacuteneacuterateurs dont nous allons nous servir pour cet exempleAinsi si nous consideacuterons le geacuteneacuterateur E de la Figure 24 deux types de regravegles peuvent ecirctre isoleacutesUn premier type correspond aux regravegles isoleacutees au sein drsquoune classe drsquoeacutequivalence et constitue la BaseGeacuteneacuterique (BG) qui sont des regravegles exactes En partant de E la regravegle exacte Erarr B peut ainsi ecirctre isoleacuteeLe second type de regravegles correspond aux regravegles isoleacutees agrave partir des relations entre classes drsquoeacutequivalence et

38 Chapitre 2 Etat de lrsquoart

F 25 ndash Repreacutesentation des inclusions successives de lrsquoensemble des Regravegles Minimales Non-redondantes Reacuteduites (RMNR) dans lrsquoensemble des Regravegles Minimales Non-redondantes (RMN) puisde ce dernier ensemble dans celui de toutes les regravegles drsquoassociation

constitue la Base Informative (BI) qui sont des regravegles approximatives Le geacuteneacuterateur E permet drsquoisolerles regravegles Erarr AB Erarr BC et Erarr ABC Ensuite pour isoler les RMNR lrsquoespace de recherche (desmotifs fermeacutes freacutequents qui sont eacutegalement super motifs du geacuteneacuterateur consideacutereacute) est reacuteduit aux classesdrsquoeacutequivalence qui sont relieacutees par une relation de subsomption directe (voir Deacutefinition 213) ie lesrelations de subsomption transitives ne sont plus consideacutereacutees De cette faccedilon le geacuteneacuterateur E ne permetdrsquoisoler que trois regravegles Erarr B Erarr AB et Erarr BC La regravegle Erarr ABC isoleacutee agrave partir drsquoune relation desubsomption indirecte nrsquoest plus consideacutereacutee Aussi si lrsquoon retire les regravegles exacte des RMNR (Erarr Bselon notre exemple) nous obtenons la Base Informative Reacuteduite (BIR)

Inteacuterecirct des RMNKryszkiewicz a deacutemontreacute que les RMN et les RMNR constituent des repreacutesentations de lrsquoensembledes regravegles drsquoassociation qui sont sans perte (ie elles permettent de deacuteriver la totaliteacute des regravegles valides)consistantes (ie elles empecircchent de deacuteriver des regravegles non valides) et informatives (ie elles permettentde deacuteterminer les paramegravetres des regravegles comme leur support et leur confiance) Lrsquoavantage principal desRMNR est de constituer lrsquoensemble le plus concis des regravegles drsquoassociation qui peuvent ecirctre extraitesdrsquoun contexte formel sans perte drsquoinformation

Crsquoest pour cette raison que nous utilisons la recherche des RMNR agrave partir drsquoun treillis comme meacuteth-ode de fouille dans un processus drsquoExtraction de Connaissances agrave partir drsquoune Base de Connaissancespreacutesenteacute au chapitre 4 section 23

14 Interpreacutetation en uniteacutes de connaissances

Lrsquoeacutetape drsquointerpreacutetation du processus drsquo est eacutegalement appeleacutee le post processing en anglaisElle consiste en la prise en charge des reacutesultats bruts de la fouille de donneacutees les uniteacutes extraites en leurtransformation pour leur interpreacutetation et validation par lrsquoanalyste en uniteacutes de connaissance

Cette eacutetape est particuliegraverement limitante dans le processus drsquo car elle demande une implica-tion importante de lrsquoanalyste qui doit interpreacuteter des reacutesultats de fouille potentiellement volumineuxLa forme des uniteacutes extraites est diffeacuterente selon la meacutethode de fouille utiliseacutee motif freacutequent con-cept formel regravegle drsquoassociation cluster par exemple Drsquoun point de vue pratique lrsquoeacutetape drsquointerpreacutetationdeacutepend fortement de la meacutethode de fouille utiliseacutee puisque la forme des uniteacutes extraites deacutepend de celle-ci Afin de faciliter lrsquointerpreacutetation les reacutesultats sont transformeacutes pour faire lrsquoobjet drsquoune visualisation

1 Extraction de Connaissances agrave partir de Bases de Donneacutees ndash 39

graphique par exemple sous la forme drsquoun arbre de deacutecision drsquoune hieacuterarchie de clusters drsquoun reacuteseau deneurones drsquoun treillis de concepts

Une mecircme forme drsquouniteacutes extraites peut ecirctre utiliseacutee pour eacutetudier diffeacuterents types de reacutegulariteacutesCrsquoest lrsquoobjectif de la fouille qui dans ce cas oriente la lecture des uniteacutes extraites (ie du modegravele) parlrsquoanalyste La caracteacuterisation la discrimination la recherche drsquoassociation la classification le clusteringou la deacutetection des cas extrecircmes sont les objectifs les plus souvent viseacutes Alors suivant lrsquoobjectif choisilrsquoanalyste srsquointeacuteresse agrave lrsquoune ou lrsquoautre des reacutegulariteacutes observables agrave partir des uniteacutes extraites Par ex-emple les uniteacutes extraites reacutesultant drsquoun clustering des K-plus proches voisins peuvent selon lrsquoobjectifecirctre utiliseacutees pour caracteacuteriser des groupes de donneacutees speacutecifiques ou pour deacutecrire des associations entredonneacutees

Au delagrave de lrsquoobjectif de la fouille les connaissances attendues par lrsquoanalyste orientent lrsquointerpreacutetationLrsquoanalyste peut alors ecirctre ameneacute agrave filtrer parmi les uniteacutes extraites celles qursquoil juge triviales redondantesdeacutenueacutees drsquointeacuterecirct fausses en comparaison de ce qursquoil souhaite trouver Par exemple dans le cadre drsquounerecherche de regravegles drsquoassociation un analyste souhaite deacutecouvrir des associations entre un pheacutenotype ungeacutenotype et un traitement meacutedicamenteux Il peut eacuteliminer les regravegles qui ne contiennent pas agrave la fois uncritegravere correspondant agrave la classe ltdonneacutee du pheacutenotypegt (preacutealablement deacutefinie) un critegravere de la classeltdonneacutee du geacutenotypegt et un critegravere de la classe lttraitementgt Ce genre de filtrage sur les reacutesultats defouille peut ecirctre assureacute par un systegraveme qui tire parti de connaissances du domaine pour permettre parexemple de distinguer les donneacutees qui relegravevent du pheacutenotype de celles qui relegravevent du geacutenotype ou drsquountraitement

15 Reacuteutilisation des uniteacutes extraites

Les uniteacutes extraites finalement valideacutees par lrsquoanalyste sont consideacutereacutees comme uniteacutes de connais-sance Selon le processus drsquo initialement deacutecrit par Frawley et al [FPSM91] puis repris par Fayyadet al [FPSS96] lrsquoidentification drsquoune uniteacute de connaissance constitue un aboutissement du processus etest rarement reacuteutiliseacutee En revanche les uniteacutes extraites sont classiquement reacuteutiliseacutees lors des iteacuterationssuccessives du processus

Le travail deacutecrit dans cette thegravese srsquoinscrit dans lrsquoideacutee que les uniteacutes de connaissances doivent ecirctreformaliseacutees dans un langage de repreacutesentation des connaissances et enregistreacutees dans une Base de Con-naissances () de sorte agrave pouvoir ecirctre reacuteutiliseacutees tout drsquoabord lors des iteacuterations suivantes du processuset ensuite dans le cadre drsquoautres applications qui peuvent tirer parti de connaissances formaliseacutees Nouspreacutesentons dans la section suivante 2 quelques notions de repreacutesentation des connaissances

40 Chapitre 2 Etat de lrsquoart

2 Repreacutesentation des connaissances et ontologies

Nous avons preacutesenteacute dans lrsquointroduction la distinction entre donneacutees information et connaissanceAinsi les bases de donneacutees eacutetudieacutees depuis plusieurs deacutecennies en informatique permettent de structureret de stocker des donneacutees brutes qui peuvent dans le domaine de la geacutenomique par exemple ecirctre lesreacutesultats drsquoun seacutequenccedilage automatique drsquoADN drsquoune analyse sur puce du niveau drsquoexpression des gegravenesdrsquoun tissu ou encore drsquoune analyse par spectromeacutetrie de masse du contenu proteacuteique drsquoun eacutechantillondu mecircme tissu Une Base de Connaissances () est capable de stocker des donneacutees mais est eacutegalementcapable de leur associer une repreacutesentation formelle ie associeacutee agrave une seacutemantique clairement deacutefinie etconccedilue pour ecirctre interpreacuteteacutee par des programmes Les connaissances peuvent ainsi speacutecifier des relationset des contraintes sur les donneacutees de telle sorte que les programmes puissent raisonner sur ces donneacuteespour en deacuteduire de nouvelles connaissances Les bases de connaissances srsquoappuyent sur des langages de

repreacutesentation des connaissances afin non seulement de fournir une structure approprieacutee pour stocker lesdonneacutees mais surtout pour leur associer une interpreacutetation du domaine consideacutereacute

Cette section preacutesente drsquoabord deux familles de langages de repreacutesentation des connaissances quisont les Repreacutesentations des Connaissances par Objet () et les Logiques de Descriptions () avantde deacutefinir les notions drsquoontologie et de Base de Connaissances

21 La Repreacutesentation des Connaissances par Objets

Le succegraves des Langages de Programmation agrave Objets () en informatique est souvent expliqueacute parles beacuteneacutefices qursquoils offrent en matiegravere de geacutenie logiciel gracircce entre autres agrave la modulariteacute lrsquoextensibiliteacuteou la reacuteutilisabiliteacute des ldquoobjets informatiquesrdquo Cependant ce succegraves est certainement eacutegalement ducirc agrave leurcapaciteacute naturelle agrave repreacutesenter les ldquoobjets du monde reacuteelrdquo [NED00] Cette capaciteacute nrsquoa pas seulement fa-voriseacute lrsquoadoption des mais a eacutegalement contribueacute au deacuteveloppement drsquoune famille de Repreacutesentation(ou de systegravemes de repreacutesentation) des Connaissances par Objets (ou ) comme [DQ86] [ER95] et [PGC+01] Le coteacute intuitif de ces langages de a notamment eacuteteacute utiliseacute pour perme-ttre la repreacutesentation et la manipulation drsquoentiteacutes biologiques complexes dans [MVB+95] et [CCQF05]qui mettent respectivement en œuvre et

Objet classe attribut facette et association Dans un formalisme de lrsquoeacuteleacutement de base est lrsquoobjetUne classe permet de regrouper un ensemble drsquoobjets ayant des proprieacuteteacutes communes appeleacutes attributsLes classes associent des facettes aux attributs pour les speacutecifier Les facettes permettent (1) le typage desattributs ie la preacutecision drsquoun type ou drsquoun domaine de valeurs possibles pour un attribut (2) lrsquoinfeacuterence

de valeur pour un attribut ie lrsquoassociation agrave des meacutecanismes capables de rattacher agrave une valeur agrave unattribut selon certaines contraintes ou calculs deacutefinis

Les relations entre objets sont deacutecrites par des associations qui peuvent ecirctre de deux types Premiegravere-ment les attributs-liens pour les relations binaires qui prennent la forme drsquoun attribut speacutecifique dont lavaleur sera lrsquoinstance drsquoune classe Deuxiegravemement la reacuteification drsquoassociation pour les relations n-airesqui revient agrave consideacuterer une association comme une classe dont les attributs sont les liens entre objets oudes attributs speacutecifiques qui qualifient lrsquoassociation

Speacutecialisation partie-tout et instanciation Les classes deacutefinies selon un sont organiseacutees selonune hieacuterarchie fondeacutee sur une relation de speacutecialisation (apparenteacutee agrave la subsomption deacutecrite dans lasection suivante) Une classe descendante drsquoune autre dans cette hieacuterarchie possegravede tous ses attributs (onparle alors drsquoheacuteritage) et peut eacutegalement preacutesenter des attributs suppleacutementaires qui lui sont propres

Les classes peuvent eacutegalement ecirctre relieacutees selon des relations de composition ou drsquoagreacutegation par larelation partie-tout pour repreacutesenter le fait qursquoun objet puisse ecirctre composeacute drsquoautres objets

2 Repreacutesentation des connaissances et ontologies 41

Les classes des preacutesentent la proprieacuteteacute de pouvoir ecirctre instancieacutees par un objet Lrsquoobjet en ques-tion devra alors preacutesenter des valeurs pour les attributs deacutefinis dans la classe Si au moins un attribut nrsquoestpas valueacute alors lrsquoinstanciation est dite incomplegravete Lrsquoensemble des objets qui instancient une classe estappeleacutee lrsquoextension de cette classe

Meacutecanismes de raisonnement Comme tout langage de repreacutesentation des connaissances les ontpour principal objectif de permettre le raisonnement sur les connaissances Divers meacutecanismes de raison-nement sont associeacutes aux langages de

ndash la veacuterification de coheacuterence qui teste les relations de speacutecification entre classes et drsquoinstanciationentre classe et objet

ndash la classification drsquoinstances qui permet de trouver les classes auxquelles une instance peut ap-partenir

ndash la classification de classes qui trouve les classes dont une classe particuliegravere peut ecirctre la speacuteciali-sation

ndash le filtrage qui recherche lrsquoensemble des objets satisfaisant des caracteacuteristiques deacutefinies dans unfiltre

ndash le raisonnement par classification qui positionne une entiteacute (une classe ou un objet) dans unehieacuterarchie de classes

Les systegravemes de preacutesentent lrsquoavantage de proposer des meacutecanismes de raisonnement inteacuteres-sants et de permettre une conceptualisation intuitive des entiteacutes consideacutereacutees Cette conceptualisation peuteacutegalement facilement ecirctre repreacutesenteacutee voir automatiquement traduite dans des repreacutesentations scheacutema-tiques particuliegraverement lisibles comme le langage de modeacutelisation UML [RBJ00] Leur inconveacutenientest de ne pas preacutesenter de veacuteritable assise logique et de ne disposer que drsquoune expressiviteacute relativementlimiteacutee notamment compareacute aux Logiques de Descriptions () preacutesenteacutees dans la section suivante

22 Les Logiques de Descriptions

Les Logiques de Descriptions () constituent une famille de langages de repreacutesentation des con-naissances fondeacutee sur un formalisme logique Les langages de sont des heacuteritiers du systegraveme K-Odeacutecrit en 1985 notamment pour surmonter les ambiguiumlteacutes seacutemantiques que preacutesentaient les systegravemes derepreacutesentations des connaissances preacuteexistants (ie les reacuteseaux seacutemantiques et les systegravemes agrave base deframe) [BS85]

Comme les autres langages de repreacutesentation de connaissances les sont utiliseacutees pour repreacutesenterla conceptualisation drsquoun domaine drsquoapplication de faccedilon structureacutee et en suivant une certaine seacuteman-tique Leur avantage est premiegraverement que cette seacutemantique est clairement deacutefinie et deuxiegravemementqursquoelles disposent de constructeurs logiques varieacutes assurant une expressiviteacute relativement riche (par ex-emple par rapport agrave la plupart des langages de )

Les diffeacuterents membres de la famille des se distinguent les uns des autres notamment par la listedes constructeurs qursquoils proposent Le Tableau 23 liste les constructeurs de base communs agrave la plupartdes Les constructeurs sont associeacutes agrave des symboles (ALU C ) qui sont assembleacutes pour former lesnoms des qui les contiennent De cette faccedilon une logique de descriptions de base appeleacuteeAL nrsquoinclutpas lrsquounion de concepts comme constructeur (associeacute au symbole U) mais la logique qui contient lesconstructeurs inclus dansAL associeacute au constructeur permettant lrsquounion de concept existe eacutegalement etsrsquoappelle ALU Le lecteur pourra trouver une note complegravete sur les conventions de nommage des dans les annexes de [BCM+03] (page 504)

TBox et ABox concept rocircle individu et axiome Une Base de Connaissances () en est com-poseacutee de deux eacuteleacutements la TBox et la ABox Le Tableau 24 est un exemple de exprimeacutee en

42 Chapitre 2 Etat de lrsquoart

Nom du constructeur Syntaxe Seacutemantique Symbole

Concept universel ⊤ ∆I AL

Bottom perp empty AL

Intersection C ⊓ D CI cap DI AL

Union C ⊔ D CI cup DI U

Neacutegation notC ∆I CI C

Restriction universelle forallRC x isin ∆I|forally (x y) isin RI rarr y isin CI AL

Restriction existentielle existRC x isin ∆I|existy (x y) isin RI E

T 23 ndash Syntaxe et seacutemantique associeacutees aux constructeurs de concepts les plus simples en Lesconstructeurs disponibles dans la logique de base AL nrsquoont pas de symbole propre pour les autres lesymbole correspondant est donneacute dans la quatriegraveme colonne Lrsquoannexe B deacutecrit une liste plus complegravetedes constructeurs de concepts ainsi que de certains constructeurs de rocircles

(Ax1) Personne ⊑ ⊤(Ax2) TraitementMeacutedicamenteux ⊑ ⊤(Ax3) Patient ⊑ Personne(Ax4) PatientSousTraitement equiv Patient ⊓ exist aPourTraitement TraitementMeacutedicamenteux

TBox

(Ax5) Patient(adrien)(Ax6) TraitementMeacutedicamenteux(cureDAntibiotique)(Ax7) aPourTraitement(adrien cureDAntibiotique)

ABox

T 24 ndash Un exemple de Base de Connaissances eacutecrite en

La TBox constitue une terminologie ie le vocabulaire drsquoun domaine drsquoapplication Ce vocabulaireest constitueacute (i) de concepts qui correspondent agrave un ensemble drsquoindividus et peuvent ecirctre compareacutes auxpreacutedicats unaires des logiques des preacutedicats et (ii) de rocircles qui repreacutesentent des relations binaires entreles individus et peuvent ecirctre compareacutes agrave des preacutedicats binaires Une particulariteacute des notamment parrapport aux langages de est que deux types de concepts et de rocircles sont distingueacutes les concepts etrocircles atomiques et les concepts et rocircles deacutefinis

ndash les concepts et rocircles atomiques sont deacutecrits seulement par leur nom comme par exemple le conceptPersonne et le rocircle estTraiteacute dans la repreacutesenteacutee Tableau 24

ndash les concepts et rocircles deacutefinis sont deacutecrits par leur nom auquel est associeacute une description com-plexe Dans la proposeacutee en exemple le concept PatientSousTraitement est le seul conceptdeacutefini Le langage avec lequel sont deacutecrits les concepts et rocircles est la choisie pour cette Cesdescriptions complexes sont appeleacutees les axiomes terminologiques

La seacutemantique associeacutee aux concepts est deacutefinie par le biais drsquoune interpreacutetation I = (∆I middotI) Ledomaine drsquointerpreacutetation ∆I de I est un ensemble non vide et la fonction drsquointerpreacutetation middotI associeagrave chaque concept atomique A un ensemble AI sube ∆I et agrave chaque rocircle atomique R une relation binaireRI sube ∆I times ∆I Lrsquoextension de la fonction drsquointerpreacutetation aux concepts (et rocircles) deacutefinis est deacuteduite defaccedilon inductive par la seacutemantique associeacutee aux constructeurs de concepts (et de rocircles) preacutesenteacutes Tableau23

2 Repreacutesentation des connaissances et ontologies 43

Type drsquoaxiome Syntaxe Seacutemantique

Deacutefinition de concept C equiv D CI = DI

Deacutefinition de rocircle R equiv S RI = SI

Inclusion de concept C ⊑ D CI sube DI

Inclusion de rocircle R ⊑ S RI sube SI

Assertion de concept C(a) aI isin CI

Assertion de rocircle R(a b) (aI bI) isin RI

T 25 ndash Syntaxe et seacutemantique associeacutees aux axiomes terminologiques et assertionels en

La ABox quant agrave elle repreacutesente un eacutetat particulier du domaine deacutecrit par la TBox Elle est constitueacuteedrsquoaxiomes assertionnels qui adoptent la forme soit drsquoassertions de concepts agrave lrsquoaide drsquoindividus soitdrsquoassertions de rocircles agrave lrsquoaide de paires drsquoindividus

Deacutefinition speacutecialisation et assertion Les axiomes terminologiques (ie contenus dans la TBox) sontde deux formes

ndash Les eacutegaliteacutes de la forme geacuteneacuterale C equiv D (R equiv S) ougrave C D sont des concepts (et R S des rocircles) Lesdeacutefinitions de concepts (et de rocircles) sont des eacutegaliteacutes particuliegraveres de la forme A equiv C (Q equiv R) ougrave Aest un concept atomique et C une description de concept (et Q un rocircle atomique et R une descriptionde rocircle) Lrsquoaxiome (Ax4) dans la du Tableau 24 est un exemple de deacutefinition de concept

ndash Les inclusions ou subsomption de la forme geacuteneacuterale C ⊑ D (R ⊑ S) ougrave C D sont des concepts(et R S des rocircles) Les speacutecialisations de concepts (et de rocircles) sont des inclusions particuliegraveresdont la partie gauche est un concept (un rocircle) atomique de la mecircme faccedilon que pour les deacutefinitionsCette speacutecialisation est quelque peu diffeacuterente de la speacutecialisation des puisque celle-ci signifiesimplement que tout individu appartenant agrave lrsquointerpreacutetation de C appartient eacutegalement agrave lrsquointerpreacute-tation de D Ainsi lrsquoaxiome (Ax3) dans la exemple est une speacutecialisation

Les axiomes assertionnels (de la ABox) peuvent ecirctre de deux types diffeacuterents selon qursquoil srsquoagisse delrsquoassertion drsquoun concept ou drsquoun rocircle

ndash une assertion de concept noteacutee C(a) statue sur lrsquoappartenance27 drsquoun individu a au concept C28comme crsquoest par exemple le cas pour lrsquoindividu cureDAntibiotique qui instancie le conceptTraitementMeacutedicamenteux selon lrsquoaxiome (Ax6) de la Tableau 24

ndash une assertion de rocircle noteacutee R(a b) statue sur le fait que b est relieacute agrave lrsquoindividu a par la relation RDe cette faccedilon lrsquoaxiome (Ax7) Tableau 24 indique que lrsquoindividu adrien est traiteacute par un individuappeleacute cureDAntibiotique

Le Tableau 25 repreacutesente la seacutemantique associeacutee aux diffeacuterents axiomes drsquoune en Les axiomesconstituent en un sens lrsquoeacuteleacutement de base de repreacutesentation drsquoune connaissance agrave ce titre nous consideacuteronsdans le cadre des un axiome comme une uniteacute de connaissance

Meacutecanismes de raisonnement Si le rocircle drsquoune en se limite au stockage des TBox et ABox sonprincipal avantage est de pouvoir ecirctre associeacutee agrave des meacutecanismes de raisonnement Ces meacutecanismessrsquoappuyent sur les deux premiegraveres opeacuterations suivantes qui servent de briques de bases aux suivantes

ndash le test de subsomption qui veacuterifie qursquoun concept C subsume un concept D noteacute |= D ⊑ C Ainsi surla prise en exemple la reacuteponse au test de subsomption suivant |= PatientSousTraitement ⊑

27Par analogie avec les langages de on parle eacutegalement drsquoinstanciation28Pour ecirctre tout agrave fait exact il faudrait dire ldquolrsquointerpreacutetation de a qui appartient agrave lrsquointerpreacutetation de Crdquo

44 Chapitre 2 Etat de lrsquoart

Patient est vrai Cette subsomption nrsquoest pas explicitement eacutecrite dans la Cependant la deacutef-inition de lrsquoaxiome (Ax4) signifie que toute instance du concept PatientSousTraitement esteacutegalement instance du concept Patient (ainsi que du concept exist estTraiteacute TraitementMeacutedica-menteux) ce qui permet aux meacutecanismes de raisonnement de deacuteduire la reacuteponse

ndash Le test de satisfiabiliteacute qui veacuterifie qursquoun concept peut admettre des instancesndash La classification des concepts qui permet de deacuteterminer la position relative de chaque concept dans

la hieacuterarchie de conceptsndash La classification drsquoinstances qui permet de deacuteterminer pour un individu les concepts dont il est

instance Suivant ce meacutecanisme il est possible de deacuteterminer sur la base de la exemple quelrsquoindividu adrien est eacutegalement instance du concept PatientSousTraitement ce qui nrsquoest pasexplicitement deacutecrit En effet lrsquoinstance adrien remplit lrsquoensemble des conditions neacutecessaires et

suffisantes agrave lrsquoappartenance agrave ce concept ie en termes informels ecirctre un patient et ecirctre traiteacute parquelque chose qui est un traitement meacutedicamenteux

ndash La recherche drsquoinstances (ou instance retrieval en anglais) qui permet de deacuteterminer pour unconcept lrsquoensemble des individus qui en sont instances

Lrsquoefficaciteacute de certains meacutecanismes de raisonnement plus complexes est conditionneacutee par la choisie Parmi ceux lagrave nous citerons

ndash la recherche du concept le plus speacutecifique (ou most specific concept) qui consiste agrave deacuteterminerpour un concept (ou un individu) quel est le concept le plus speacutecifique qui le subsume (ou quel estle concept le plus speacutecifique dont il est instance)

ndash la recherche du subsumant commun le plus speacutecifique (ou least common subsumer) qui recherchele concept le plus speacutecifique qui subsume en mecircme temps deux concepts donneacutes (ou dont deuxindividus donneacutes sont instances)

Lrsquoutilisation de ces derniers meacutecanismes de raisonnement plus complexes est discuteacutee dans [BCM+03]Lrsquoeffervescence autour du Web Seacutemantique et lrsquoadoption pour ce dernier drsquoun langage standard

(le OWL preacutesenteacute dans la section 231) contenant une ont favoriseacute les travaux de recherche et lesavanceacutees en Malgreacute leur manque de convivialiteacute les logiques de descriptions constituent un moyende repreacutesenter les connaissances actuellement preacutefeacutereacute aux langages de Cependant les preacutesententdes avantages qui pourraient inspirer des eacutevolutions des par exemple en ce qui concerne les meacutethodesde raisonnement telles que lrsquoinfeacuterence de valeur

Pour plus de deacutetails sur la comparaison entre et nous conseillons la reacutefeacuterence [Duc00] deDucourneau et al

23 Ontologies et Bases de Connaissances

Le terme ontologie est un emprunt agrave la philosophie au sein de laquelle lrsquoontologie est une branche dela meacutetaphysique deacutedieacutee agrave lrsquoeacutetude des proprieacuteteacutes de ce qui est de ce qui existe

En informatique une ontologie est une repreacutesentation de connaissances Cependant la notion drsquoon-tologie est utiliseacutee pour deacutesigner diffeacuterentes formes de repreacutesentation de connaissances Ceci est parti-culiegraverement vrai en bioinformatique ougrave le terme drsquoontologie est utiliseacute selon diffeacuterentes consideacuterations[GW04] Ainsi pour certains une ontologie peut se limiter agrave un vocabulaire controcircleacute ie une liste de ter-mes consensus en rapport avec un domaine Ce peut ecirctre un vocabulaire controcircleacute associeacute agrave une hieacuterarchie

comme crsquoest le cas pour la G O [ABB+00] Il peut eacutegalement ecirctre associeacute agrave ces vocabulairesdes listes de synonymes qui permettent de mettre en correspondance un terme arbitraire avec le termechoisi comme reacutefeacuterence De faccedilon plus complexe et aussi plus complegravete une ontologie peut ecirctre unerepreacutesentation des concepts drsquoun domaine ainsi que des relations qui existent entre ces concepts Alorsla notion de concept repreacutesente un ensemble fini ou infini ainsi par exemple le concept de proteacuteine

2 Repreacutesentation des connaissances et ontologies 45

repreacutesente (intuitivement) lrsquoensemble des proteacuteinesCrsquoest agrave cette derniegravere forme drsquoontologie que nous nous reacutefeacuterons dans cette thegravese en accord avec la

deacutefinition de Gruber pour qui une ontologie est

ldquoune speacutecification formelle et explicite drsquoune conceptualisation partageacuteerdquo [Gru93]

Les concepts et leurs relations repreacutesenteacutes dans une ontologie peuvent ecirctre deacutefinis de faccedilon plusou moins preacutecise selon le formalisme (lrsquoensemble de symboles et de regravegles de syntaxe) utiliseacute pour lesdeacutecrire Lrsquoutilisation de langages de repreacutesentation des connaissances permet drsquoassocier aux concepts etaux relations une description formelle qui fait reacutefeacuterence agrave une seacutemantique clairement deacutefinie dans le casdes (voir la section 22) Lrsquoavantage de lrsquoutilisation drsquoune telle seacutemantique est de pouvoir associer auxconcepts et relations de lrsquoontologie une interpreacutetation unique qui puisse ainsi ecirctre comprise de la mecircmefaccedilon par deux humains ou par un humain et une machine Ce point est important dans la repreacutesenta-tion des connaissances biologiques car drsquoune part il est neacutecessaire pour un utilisateur de comprendrele modegravele biologique exprimeacute et drsquoautre part il est important que les entiteacutes biologiques repreacutesenteacuteespuissent ecirctre exploiteacutees par des programmes bioinformatiques

R Le fait qursquoune ontologie soit associeacutee agrave une seule interpreacutetation ne veut pas dire quepour un domaine il nrsquoexiste qursquoune seule conceptualisation et qursquoune seule interpreacutetation admissiblesAu contraire un domaine peut donner lieu agrave plusieurs interpreacutetations qui peuvent alors mener agrave la creacutea-tion drsquoontologies diffeacuterentes Les ontologies alors coexistantes reflegravetent les diffeacuterentes perspectives quiexistent sur le domaine en question Par exemple le domaine de la pharmacogeacutenomique peut ecirctre con-ceptualiseacute selon la perspective des cliniciens ou celle des biologistes moleacuteculaires Pour les premiers lapharmacogeacutenomique est consideacutereacutee du cocircteacute de la meacutedecine personnaliseacutee et des relations entre un diag-nostic geacuteneacutetique un traitement meacutedicamenteux et un pheacutenotype macroscopique (une pression arteacuterielleeacuteleveacutee par exemple) Pour les seconds la pharmacogeacutenomique est consideacutereacutee agrave un niveau moleacuteculaireimpliquant notamment les relations entre un groupe de SNP une moleacutecule (le principe actif du meacutedica-ment) et un pheacutenotype moleacuteculaire (la modulation du taux drsquoexpression drsquoun gegravene par exemple)

De faccedilon formelle nous deacutefinissons une ontologie drsquoune faccedilon similaire agrave [ES07] comme suit

Deacutefinition 219 (Ontologie) Une ontologie O est un systegraveme de symboles (Sc Sr H A) consistant en

ndash un ensemble Sc de concepts et un ensemble Sr de relations binaires (DR) entre deux concepts

DR sub Sc appeleacutes le domaine et le co-domaine (domain et range en anglais)

ndash une hieacuterarchie H ougrave les concepts et relations sont hieacuterarchiquement relieacutes par la relation de sub-

somption ie une relation drsquoordre partiel noteacute ⊑ ougrave C1 ⊑ C2 signifie que C1 est un sous-concept

de C2 et r1 ⊑ r2 signifie que r1 est une sous-relation de r2

ndash un ensemble drsquoaxiomes A qui deacutecrivent des contraintes sur les concepts et les relations

Les ontologies auxquelles nous ferons allusion dans la suite de cette thegravese sont des ontologiesrepreacutesenteacutees en Or en le terme ontologie est traditionnellement peu employeacute Les notions de TBox

et ABox clairement deacutefinies lui sont preacutefeacutereacutees Pour cela il est important de preacuteciser que dans cette thegraveseune ontologie en correspond agrave une TBox alors qursquoune Base de Connaissance () pour sa part faitreacutefeacuterence agrave lrsquoensemble TBox ndash ABox

231 OWL et le Web seacutemantique

Le Web seacutemantique est drsquoabord une ideacutee ou une vision du Web selon laquelle le contenu des ressourcesdiffuseacutees sur le Web est rendu accessible aux programmes informatiques de faccedilon agrave ce que ceux-ci soientmieux agrave mecircme de reacutepondre aux besoins des utilisateurs humains [BLHL01] Il srsquoagit de deacutecrire ces

46 Chapitre 2 Etat de lrsquoart

ressources ou plutocirct les donneacutees qursquoelles contiennent selon une repreacutesentation formelle crsquoest agrave dire enlien avec une seacutemantique clairement deacutefinie et conccedilue pour ecirctre interpreacuteteacutee par des programmes Ceux-cipourraient alors manipuler sous forme de connaissances les donneacutees disponibles sur le Web pour deacute-couvrir des connaissances implicites ou nouvelles via des meacutecanismes de raisonnement A la base delrsquoinfrastructure du Web seacutemantique se trouvent les ontologies Celles-ci apportent les eacuteleacutements essentielsqui permettent lrsquointroduction des donneacutees du Web dans un contexte agrave base de connaissances

OWL (Web Ontology Language) est le langage choisi comme standard par le W3C29 pour la diffusiondes ontologies sur le Web et constitue en ce sens la principale technologie sur lequel repose le Webseacutemantique OWL srsquoappuie agrave la fois sur les technologies du Web (comme HTML XML et RDF) et surdes langages de repreacutesentation des connaissances tels que les systegravemes de et les

La speacutecification initiale de OWL reposait sur les exigences suivantes ndash le langage doit ecirctre associeacute agrave une seacutemantique standard et formellement deacutefinie permettant la mise

en œuvre de meacutecanismes de raisonnement maicirctriseacutesndash le langage doit ecirctre tregraves expressif pour prendre en compte la varieacuteteacute des domaines et des applica-

tions envisageacutes dans le cadre du Web seacutemantiqueCes deux eacuteleacutements expliquent en partie le choix des pour repreacutesenter les connaissances en OWLLrsquoAnnexe B propose une correspondance entre les constructeurs de et les constructeurs OWL Dela mecircme faccedilon qursquoil existe plusieurs sous-familles de il existe diffeacuterents profils OWL (OWL-LiteOWL-DL et OWL Full en sont les trois principaux) dont les diffeacuterences reacutesident dans les constructeursqursquoil proposent Par exemple le profil OWL-DL propose un ensemble de constructeurs qui correspond agravela logique SHOIN(D)

Le langage OWL est difficile agrave eacutecrire et lire directement il est donc plus geacuteneacuteralement deacuteveloppeacute eteacutediteacute agrave travers des eacutediteurs drsquoontologie ou de comme Proteacutegeacute [KFNM04] ou Swoop [KPS+06] Nousproposons en Annexe C le code OWL qui correspond agrave la repreacutesenteacutee dans le Tableau 24

FaCT++ [TH06] Pellet [SP04] et RacerPro [HM03] sont des logiciels qui permettent de mettre enœuvre les meacutecanismes de raisonnement standards en sur une ontologie (ou une ) implanteacutee en OWL

232 Construction drsquoontologies

De nombreuses meacutethodes pour le deacuteveloppement drsquoontologies ont eacuteteacute proposeacutees [UK95 FGPJ97NM01] Nous ne cherchons ici ni agrave les passer en revue ni agrave les comparer mais plutocirct agrave faire ressortirles opeacuterations importantes agrave mettre en œuvre lors de la construction manuelle ou semi-automatiquedrsquoontologies Pour une vue drsquoensemble des meacutethodes de construction drsquoune ontologie nous orientons lelecteur vers le chapitre 3 du livre de Goacutemez-Peacuterez [GPCGFL03]

Lrsquoensemble de ces meacutethodes srsquoinspire du geacutenie logiciel comme lrsquoillustre le cycle de vie drsquoune on-tologie proposeacute par Dieng et al [DCGR98] et repreacutesenteacute Figure 26 qui met en avant le cocircteacute iteacuteratif dela construction ainsi que ses principales eacutetapes

La construction drsquoune ontologie est un processus collaboratif ougrave les experts du domaine (et eacuteventuelle-ment des systegravemes drsquoapprentissage) doivent ecirctre fortement impliqueacutes Nous nous inteacuteressons plus parti-culiegraverement aux eacutetapes de speacutecification des besoins de conception et drsquoeacutevaluation de lrsquoontologie

Speacutecification Cette eacutetape consiste agrave deacutefinir en eacutetroite collaboration avec les experts du domaine ledomaine et lrsquoobjectif de lrsquoontologie

Concernant le domaine il srsquoagit de preacuteciser drsquoabord le domaine de connaissances que lrsquoontologiedoit repreacutesenter mais aussi avec quel niveau de granulariteacute celui-ci doit ecirctre repreacutesenteacute Ainsi pour

29World Wide Web Consortium consortium international pour la standardisation et la promotion des technologies du Webhttpwwww3org

2 Repreacutesentation des connaissances et ontologies 47

F 26 ndash Cycle de vie drsquoune ontologie Source [DCGR98]

la creacuteation drsquoune ontologie des proteacuteines il est important de preacuteciser clairement les limites du do-maine agrave repreacutesenter par exemple les proteacuteines humaines ou les proteacuteines phosphatases (humaine etnon-humaine) Le niveau de granulariteacute souhaiteacute doit alors preacuteciser le niveau de deacutetail attendu dans larepreacutesentation du domaine Pour une ontologie des proteacuteines il faut speacutecifier par exemple que seulesleurs annotations fonctionnelles et leur masse est importante ou alternativement qursquoune description plusfine est neacutecessaire impliquant la repreacutesentation de la composition en acides amineacutes des groupementsfonctionnels de ces acides amineacutes et de leurs proprieacuteteacutes physico-chimiques

La deacutefinition de lrsquoobjectif de lrsquoontologie doit deacuteterminer les applications pour lesquelles lrsquoontologieest construite Savoir agrave quoi va servir lrsquoontologie est deacuteterminant pour deacuteterminer les concepts agrave repreacutesen-ter et le point de vue selon lequel les repreacutesenter Ainsi cette opeacuteration doit permettre de deacuteterminer sinotre ontologie des proteacuteines doit servir agrave lrsquoannotation de bases de donneacutees agrave la classification de pro-teacuteines ou encore agrave lrsquoextraction de connaissances relatives aux conseacutequences fonctionnelles des variationsgeacutenomiques Pour formaliser les objectifs et pour permettre lrsquoeacutevaluation de lrsquoontologie il est possible dedeacutefinir des questions de compeacutetence qui sont des exemples concrets de questions auxquelles lrsquoontologiedoit permettre de reacutepondre [Gan05] Veacuterifier que lrsquoontologie une fois construite y reacutepond correctementest un critegravere drsquoeacutevaluation de cette derniegravere

Une opeacuteration importante de la phase de speacutecification est le recensement systeacutematique des ressourcesde donneacutees ou de connaissances deacutejagrave existantes Ces ressources peuvent ecirctre des sources de donneacutees desscheacutemas de sources des vocabulaires controcircleacutes des ontologies de domaines incluses recouvrant ouchevauchant le domaine consideacutereacute Ce recensement a deux buts Le premier est drsquoavoir une vue globaledes donneacutees et connaissances manipuleacutees dans le domaine de sorte agrave consideacuterer leur repreacutesentationdans lrsquoontologie Le second est de reacuteutiliser au maximum lrsquoexistant Pour reprendre notre exemple drsquouneontologie des proteacuteines lrsquoanalyse des donneacutees et des scheacutemas des bases de donneacutees UniProt30 PDB31

donne une vue sur un certain nombre de proprieacuteteacutes des proteacuteines Aussi la consideacuteration de lrsquoontologieappeleacutee PRotein Ontology32 (PRO) et de lrsquoontologie Phosphatase Ontology33 permet de srsquoinspirer ou dereacuteutiliser les repreacutesentations existantes des connaissances

Cette eacutetape est eacutegalement le moment approprieacute pour lrsquoadoption de regravegles de nomenclature strictespour nommer les concepts et rocircles de lrsquoontologie

30Universal Protein Resource httpwwwuniprotorg31Protein Data Bank httpwwwrcsborg32httppirgeorgetownedupro33httpwwwbioinfmanchesteracukphosphabase

48 Chapitre 2 Etat de lrsquoart

Conception La conception de lrsquoontologie comprend trois opeacuterations principales ndash La conceptualisation elle consiste en lrsquoidentification des concepts du domaine et des relations

entre ces concepts Elle peut commencer par la deacutefinition de listes de termes propres au domainetermes qui serviront agrave lrsquoidentification et agrave la deacutefinition des concepts de leurs relations et de leurarticulation avec des ontologies existantes

ndash la formalisation crsquoest la traduction de la conceptualisation dans un formalisme de repreacutesentationdes connaissances par exemple une

ndash lrsquoimpleacutementation il srsquoagit de coder lrsquoontologie formaliseacutee en un langage de repreacutesentation desconnaissances par exemple OWL

En pratique les eacutetapes de formalisation et drsquoimpleacutementation sont souvent meneacutees de front

Eacutevaluation Classiquement lrsquoeacutetape drsquoeacutevaluation fournit des mesures sur lrsquoontologie selon des critegraveresstructurels et fonctionnels [GCCL06] Lrsquoideacuteal est que ces critegraveres drsquoeacutevaluation soient deacutefinis durant lrsquoeacute-tape de speacutecification de lrsquoontologie Crsquoest typiquement le cas des questions de compeacutetence auxquelleslrsquoontologie doit permettre de reacutepondre

Selon Dellschaft et Staab [DS08] les critegraveres structurels et fonctionnels sont utiliseacutes dans trois typesdrsquoeacutevaluations

ndash lrsquoeacutevaluation rapporteacutee agrave la tacircche ougrave lrsquoon mesure essentiellement comment lrsquoontologie ameacuteliorela reacutealisation drsquoune tacircche

ndash lrsquoeacutevaluation rapporteacutee au corpus ougrave lrsquoon mesure la capaciteacute de lrsquoontologie agrave repreacutesenter les con-naissances drsquoun domaine en se reacutefeacuterant au contenu drsquoun corpus de documents repreacutesentatif dudomaine

ndash lrsquoeacutevaluation rapporteacutee aux critegraveres ougrave ce sont des critegraveres objectifs le plus souvent drsquoordre struc-tural qui sont mesureacutes

Eacutevidement lrsquoeacutevaluation rapporteacutee agrave la tacircche peut ecirctre consideacutereacutee comme la plus importante puisquecrsquoest celle-ci qui donne la mesure de lrsquoefficaciteacute de lrsquoontologie dans la tacircche agrave laquelle on lrsquoa assigneacuteeCependant les deux autres types drsquoeacutevaluations sont des moyens ponctuels drsquoeacutevaluer certains aspects delrsquoontologie dont deacutependra forcement son efficaciteacute agrave reacutesoudre une tacircche particuliegravere

Ideacutealement lrsquoeacutevolution drsquoune ontologie est un processus continu qui suit de pregraves lrsquoeacutevolution de lrsquoeacutetatdes connaissances qursquoelle repreacutesente

Le deacuteveloppement complet drsquoune ontologie mecircme semi-automatique est un tacircche longue qui meacuteriteune grande attention La contrepartie des efforts demandeacutes pour son deacuteveloppement reacuteside notammentdans la seacutemantique qursquoelle fournit qui peut ecirctre utiliseacutee par des meacutecanismes de raisonnement mais passeulement Les sections suivantes de ce chapitre preacutesentent lrsquoutilisation drsquoontologies dans le cadre drsquoin-teacutegration de donneacutees (section 3) puis plus geacuteneacuteralement dans le cadre de lrsquo (section 4)

3 Utilisation des ontologies pour lrsquointeacutegration de donneacutees heacuteteacuterogegravenes 49

3 Utilisation des ontologies pour lrsquointeacutegration de donneacutees heacuteteacuterogegravenes

Lrsquoobjectif de cette section est drsquointroduire la notion drsquointeacutegration seacutemantique ie drsquointeacutegration dedonneacutees fondeacutees sur lrsquoutilisation de connaissances du domaine et de meacutecanismes de raisonnement Auvu de cet objectif nous nrsquoentreprendrons pas un eacutetat de lrsquoart exhaustif sur lrsquointeacutegration de donneacutees maisnous nous focaliserons seulement sur deux systegravemes concurrents (lrsquoapproche entrepocirct et lrsquoapproche meacute-

diateur) parce qursquoils neacutecessitent la deacutefinition de mapping crsquoest agrave dire de mise en correspondance entre lesdonneacutees et qursquoils ont donneacute lieu agrave quelques systegravemes opeacuterationnels Ces deux approches nous paraissentaujourdrsquohui les plus propices agrave supporter des approches agrave base de connaissance telles que celle qui faitlrsquoobjet du chapitre 3

31 Les systegravemes drsquointeacutegration de donneacutees

Les deux approches principales pour lrsquointeacutegration de donneacutees se distinguent essentiellement par lalocalisation des donneacutees manipuleacutees par le systegraveme [Hal01]

ndash lrsquointeacutegration mateacuterialiseacutee pour laquelle les donneacutees sont dans un entrepocirct de donneacutees ougrave elles sontrapatrieacutees depuis leur source drsquoorigine

ndash lrsquointeacutegration virtuelle pour laquelle les donneacutees restent dans les sources drsquoorigine ougrave elles sontmanipuleacutees par le biais drsquoun meacutediateur

311 Lrsquointeacutegration mateacuterialiseacutee ou entrepocirct

Lrsquoapproche mateacuterialiseacutee ou entrepocirct de donneacutees consiste en la construction drsquoune base de donneacuteesreacuteelle appeleacutee entrepocirct pour stocker les donneacutees provenant de diffeacuterentes sources Les entrepocircts de don-neacutees sont souvent choisis dans lrsquoindustrie pour le support drsquoaide agrave la deacutecision qursquoils constituent notam-ment gracircce agrave leur association aux techniques OLAP [AAD+96] Un systegraveme drsquointeacutegration suivant unetelle approche est constitueacute de trois parties repreacutesenteacutees Figure 27 lrsquoentrepocirct de donneacutees proprementdit les sources de donneacutees et les magasins de donneacutees

F 27 ndash Architecture drsquoun systegraveme drsquointeacutegration de donneacutees suivant lrsquoapproche entrepocirct

50 Chapitre 2 Etat de lrsquoart

Dans une approche entrepocirct de donneacutees lrsquointeacutegration srsquoappuie sur un scheacutema global deacutefini pourlrsquoentrepocirct Les donneacutees sont extraites des sources transformeacutees en un format de repreacutesentation compati-ble avec le scheacutema de lrsquoentrepocirct eacuteventuellement filtreacutees et inseacutereacutees dans lrsquoentrepocirct par des extracteursLrsquoutilisateur peut interroger directement lrsquoentrepocirct en utilisant les techniques classiques drsquointerrogationde base de donneacutees Lrsquoutilisateur peut eacutegalement interagir avec lrsquoentrepocirct par lrsquointermeacutediaire des ma-gasins de donneacutees dont lrsquoobjectif est de proposer des vues particuliegraveres sur les donneacutees qui pourrontfaciliter leur analyse dans un processus drsquoaide agrave la deacutecision Lrsquoentrepocirct G est un exemple de miseen œuvre de lrsquoapproche entrepocirct pour lrsquointeacutegration et lrsquoanalyse de donneacutees relatives au transcriptomehumain [GMB+05] Le systegraveme BM et BW sont des systegravemes plus geacuteneacuteriques deacutedieacutes agravelrsquointeacutegration de donneacutees biologiques suivant une approche entrepocirct [KKS+04 KLW08]

Une limite principale agrave cette approche reacuteside dans le deacuteveloppement neacutecessaire de meacutethodes drsquoex-traction et drsquointeacutegration des donneacutees capables de rafraicircchir peacuteriodiquement le contenu de lrsquoentrepocirct touten tenant compte de la mise agrave jour des sources

312 Lrsquointeacutegration virtuelle ou meacutediateur

Dans lrsquoapproche meacutediateur lrsquointeacutegration de donneacutees est fondeacutee sur la deacutefinition drsquoun scheacutema globalunifiant les scheacutemas heacuteteacuterogegravenes des sources agrave inteacutegrer La description drsquoun tel scheacutema implique la miseau point de mappings (parfois preacutesenteacutes sous la forme de vues) Un mapping est la description du contenudrsquoune source dans le vocabulaire unique imposeacute par le scheacutema global Lrsquoarchitecture meacutediateur classiquesrsquoarticule suivant trois niveaux repreacutesenteacutes Figure 28 le meacutediateur les wrappers et les sources Auniveau du meacutediateur le scheacutema global fournit un vocabulaire unique qui sert agrave (1) lrsquoexpression desrequecirctes de lrsquoutilisateur et (2) agrave la deacutefinition de mappings ie la description du contenu de chaque sourceLes wrappers (eacutegalement appeleacutes adaptateurs pour eacuteviter lrsquoanglicisme) srsquoappuyent sur la deacutefinition desmappings pour (a) traduire les requecirctes exprimeacutees dans les termes du vocabulaire du scheacutema global endes requecirctes exprimeacutees selon le vocabulaire des sources (b) traduire les reacuteponses aux requecirctes locales(ie sur les sources) en des reacuteponses compatibles avec le scheacutema global du meacutediateur

La constitution drsquoun mapping se fait par la deacutefinition de multiples mises en correspondances entreles relations (au sens des bases de donneacutees relationnelles) du scheacutema global et les relations du scheacutemalocal Ces mises en correspondance peuvent ecirctre deacutecrites suivant deux approches diffeacuterentes [Len02] Lapremiegravere approche est appeleacutee Global As View (ou GAV) selon laquelle les relations du scheacutema globalsont exprimeacutees en fonction des relations du scheacutema local La seconde est lrsquoapproche Local As View (ouLAV) ougrave inversement dans un premier temps un scheacutema global est deacutefini de faccedilon indeacutependante puisau niveau local les relations des scheacutemas locaux sont reformuleacutes dans les termes du scheacutema global Lecontenu des sources est deacutecrit par un ensemble de mappings sur les relations du scheacutema global

Selon Lenzerini [Len02] la description drsquoun systegraveme drsquointeacutegration de donneacutees peut ecirctre formaliseacuteeselon un triplet (GSM) regroupant ses trois composants principaux

ndash le scheacutema global Gndash les scheacutemas des sources S etndash le mappingM entre G et S deacutecrit par un ensemble de correspondances de la forme suivante

qG qS ouqS qG

ougrave qG et qS sont deux requecirctes respectivement sur le scheacutema global et sur le scheacutema des sources

La tacircche du meacutediateur consiste agrave reformuler agrave lrsquoaide des mappings les requecirctes qui lui sont poseacuteesdans les termes du scheacutema global en des requecirctes exprimeacutees dans les termes des scheacutemas des sources

3 Utilisation des ontologies pour lrsquointeacutegration de donneacutees heacuteteacuterogegravenes 51

F 28 ndash Architecture drsquoun systegraveme drsquointeacutegration de donneacutees suivant lrsquoapproche meacutediateur

de donneacutees et inversement Cette tacircche de reformulation est appeleacutee la reacuteeacutecriture de requecirctes Le projetP constitue un exemple drsquoarchitecture meacutediateur originale notamment parce qursquoelle propose uneapproche hybride GAV-LAV ainsi qursquoun scheacutema global exprimeacute suivant un formalisme de repreacutesentationdes connaissances appeleacute [RFG+02] Le travail de Mougin et al [MBB+08] est une illustration delrsquoapproche meacutediateur appliqueacutee agrave des bases de donneacutees biologiques et dont la particulariteacute est de proposerdes meacutethodes semi-automatiques pour faciliter la deacutefinition des mappings neacutecessaires

Les limites de lrsquoapproche meacutediateur reacutesident suivant une approche GAV principalement dans la miseagrave jour du scheacutema global lors de lrsquointeacutegration drsquoune nouvelle source ou suivant une approche LAV dansla reacuteeacutecriture des requecirctes Que lrsquoapproche adopteacutee soit GAV ou LAV le travail le plus important demeurepremiegraverement la deacutefinition des mappings qui peut demander lrsquointervention drsquoun expert du domaine drsquoap-plication et deuxiegravemement la conception des wrappers toujours deacutependante du type de source consideacutereacute

Lrsquoapproche entrepocirct preacutesente deux avantages principaux Le premier est lieacute au fait que les donneacuteesinteacutegreacutees sont agrave disposition au sein de lrsquoentrepocirct speacutecifiquement creacuteeacutee ce qui permet de les transformeret les adapter directement et facilement agrave lrsquoutilisation que lrsquoon souhaite en faire Le second avantageest lieacute au fait que les donneacutees soient regroupeacutees dans une seule source ce qui facilite lrsquoexploitation dusystegraveme

Cependant compareacutee agrave lrsquoapproche meacutediateur lrsquoapproche entrepocirct preacutesente une contrainte majeure les reacuteponses aux requecirctes ne proviennent pas directement des sources mais des donneacutees mateacuterialiseacuteesau sein de lrsquoentrepocirct Ceci implique la mise agrave jour de lrsquoentrepocirct agrave chaque modification des sources ordans certains domaines comme les sciences du vivant les sources sont parfois soumises agrave une eacutevolutionhebdomadaire voir quotidienne

R Les architectures orienteacutes services (ou SOA pour Service Oriented Architecture en anglais)sont des formes particuliegraveres drsquoarchitecture meacutediateur dont les diffeacuterents composants sont associeacutes agrave descomposants logiciels (ie les services) qui interagissent entre eux La communication entre les diffeacuterentsservices srsquoappuie sur un vocabulaire partageacute qui peut ecirctre compareacute agrave un scheacutema global Lrsquoutilisation

52 Chapitre 2 Etat de lrsquoart

drsquoontologie pour la description du scheacutema global peut faciliter la deacutecouverte de services ainsi que leurutilisation dans la deacutefinition de workflows Les articles [MD07a MD07b DPW08] peuvent servir drsquoin-troduction agrave cette probleacutematique

Lrsquoimportance prise par le Web a conduit notamment au deacuteveloppement de nombreuses deacuteclinaisons etvariantes des approches drsquointeacutegration meacutediateur et entrepocirct [Hac04] Un exemple notable est le deacutevelopppe-ment drsquoapproches adapteacutees agrave la structure particuliegravere du Web qui pour cela utilise une architecture paire

agrave paire [CGLR04 RAC+06]

32 Problegraveme drsquoheacuteteacuterogeacuteneacuteiteacute et inteacutegration seacutemantique

321 Heacuteteacuterogeacuteneacuteiteacute de donneacutees et de scheacutemas

La probleacutematique premiegravere de lrsquointeacutegration de donneacutees est lrsquoheacuteteacuterogeacuteneacuteiteacute des donneacutees et lrsquoheacuteteacutero-

geacuteneacuteiteacute des scheacutemas qursquoil est neacutecessaire de reacutesoudre pour mettre en correspondance les sources et au-toriser lrsquointerrogation et la reacuteponse aux requecirctes de faccedilon transparente [Hal05 Saiuml07]

Lrsquoheacuteteacuterogeacuteneacuteiteacute des donneacutees est due au fait que deux bases de donneacutees nrsquoutilisent pas le mecircme vocab-ulaire ou reacutefeacuterentiel pour repreacutesenter une mecircme donneacutee Par exemple le fait qursquoun nucleacuteotide clairementpositionneacute sur le geacutenome humain puisse ecirctre soit une Adeacutenine (A) soit une Guanine (G) selon les in-dividus est noteacute ldquoAGrdquo dans la base de donneacutees dbSNP Cependant il existe un reacutefeacuterentiel diffeacuterent lecode IUPAC34 utiliseacute dans drsquoautres bases de donneacutees biologiques selon lequel le fait qursquoun nucleacuteotidepuisse ecirctre soit une Adeacutenine soit une Guanine est simplement noteacute par la lettre R (pour faire reacutefeacuterenceaux Purines)

Lrsquoheacuteteacuterogeacuteneacuteiteacute des scheacutemas provient quant agrave elle du fait que deux bases de donneacutees peuvent proposerdeux conceptualisations diffeacuterentes drsquoune mecircme entiteacute Cela peut correspondre agrave lrsquoutilisation de nomsdrsquoattributs diffeacuterents Crsquoest par exemple le cas pour lrsquoattribut faisant reacutefeacuterence agrave lrsquoalternative possibleentre deux nucleacuteotides pour un variant geacutenomique qui est nommeacute ldquoAllelerdquo dans la dbSNP et ldquoVariationrdquodans la base PharmGKB De faccedilon plus complexe lrsquoheacuteteacuterogeacuteneacuteiteacute peut reacutesider dans la notion mecircme devariant geacutenomique qui peut diverger entre deux sources Crsquoest justement le cas pour dbSNP et Uniprotqui considegraverent respectivement un variant soit comme une alternative entre deux nucleacuteotides pour unemecircme position sur une seacutequence drsquoADN soit comme une alternative entre deux acides amineacutes pour uneposition sur une seacutequence proteacuteique

Les ontologies peuvent contribuer agrave la reacutesolution du problegraveme drsquoheacuteteacuterogeacuteneacuteiteacute des donneacutees et desscheacutemas En effet elles permettent la description formelle des concepts drsquoun certain domaine ainsi quedes relations existant entre ces concepts Un utilisateur ou un concepteur peut deacutecrire une donneacutee unerelation preacutesentes dans une source gracircce agrave une deacutefinition formelle agrave laquelle est associeacutee une seacutemantiqueclairement eacutetablie Ensuite il peut exploiter cette deacutefinition pour inteacutegrer (ou seulement partager) defaccedilon non ambigueuml le contenu de la source en question Deacutefinitions formelles et seacutemantique peuvent enpratique ecirctre repreacutesenteacutees sous la forme drsquoaxiomes logiques composant une ontologie crsquoest pourquoi onparle drsquoapproche drsquointeacutegration fondeacutee sur une ontologie ou drsquointeacutegration seacutemantique

322 Enjeux de lrsquointeacutegration seacutemantique

Nous discernons cinq problegravemes dont les reacutesolutions constituent les principaux enjeux pour la miseau point drsquoun systegraveme drsquointeacutegration de donneacutees seacutemantique [PLC+08]

1 Permettre la gestion de grands volumes de donneacutees en utilisant la repreacutesentation formelle drsquouneontologie En effet il existe un fosseacute entre lrsquoeacutechelle des systegravemes de gestion de bases de donneacutees

34httpwwwdnaaffrcgojpmiscMPsrchInfoIUPAChtml

3 Utilisation des ontologies pour lrsquointeacutegration de donneacutees heacuteteacuterogegravenes 53

capables de geacuterer efficacement des quantiteacutes de donneacutees importantes et lrsquoeacutechelle des systegravemes agravebase de connaissance pour qui geacuterer une ontologie ou une trop volumineuse reste probleacutematique

2 Permettre des requecirctes sur les donneacutees selon le langage de repreacutesentation et les termes de lrsquoontolo-gie Ceci implique la mise en correspondance entre le langage de repreacutesentation des connaissanceset un langage de requecircte adapteacute aux sources

3 Choisir le langage de repreacutesentation des connaissances Plus un langage est expressif plus il seracomplexe de raisonner sur ce langage Il faut donc trouver un compromis entre une expressiviteacutesuffisante pour repreacutesenter correctement le domaine et une complexiteacute compatible avec les besoinsen raisonnement lieacutes agrave la reacuteponse aux requecirctes

4 Deacutecrire le mapping donneacutees-ontologie Cela revient agrave mettre en correspondance les donneacutees dessources avec les instances des concepts et rocircles de lrsquoontologie ou en drsquoautres termes agrave relier laseacutemantique implicite des donneacutees agrave la seacutemantique explicite de lrsquoontologie

5 Reacutesoudre le problegraveme drsquoimpeacutedance Le problegraveme drsquoimpeacutedance (impedance mismatch en anglais)reacuteside dans le fait qursquoil nrsquoexiste pas une correspondance exacte entre la faccedilon dont sont repreacutesenteacuteesles informations dans une base de donneacutees relationnelle (par la paire attribut-valeur) et la faccedilondont elle peuvent lrsquoecirctre en terme drsquoobjets (par la paire classe-objet) et donc drsquoinstances de conceptsdans une ontologie Il en reacutesulte le besoin de meacutecanismes capables de faire correspondre valeurset objets

Les reacuteponses aux problegravemes 1 et 2 sont en partie apporteacutees par des solutions technologiques is-sues de travaux sur le Web seacutemantique Ainsi diffeacuterents outils et meacutethodes permettent de geacuterer des volumineuses notamment en permettant leur enregistrement dans des systegravemes de gestion de bases dedonneacutees relationnelles S [BKvH02] I S [HLTB04] en sont des exemples et les reacutesul-tats du challenge intituleacute ldquoBillion triplet challengerdquo35 laisse preacutesager des solutions techniques promet-teuses Concernant les requecirctes sur les notons que le langage SPARQL commence agrave eacutemerger parmiles diverses propositions anteacuterieures (OWL Abstract Syntax36 par exemple) puisqursquoil fait lrsquoobjet drsquounerecommandation du W3C depuis janvier 200837

Concernant le 3iegraveme problegraveme la communauteacute des a chercheacute agrave comparer les langages de repreacutesen-tation drsquoune pour montrer lequel pouvait ecirctre le plus adapteacute agrave un accegraves agrave de grands volumes de donneacuteesLes travaux de Hustadt et al et Calvanese et al montrent notamment qursquoune requecircte38 mecircme sur une exprimeacutee en un profil simple du OWL (OWL-Lite et OWL-DL) est trop complexe (co-NP complexe)pour ecirctre envisageable sur de larges volumes de donneacutees [HMS05 CGL+06] Une solution proposeacuteepour garantir la reacuteponse aux requecirctes dans un temps fini (polynocircmial) est lrsquoutilisation de logiques dedescriptions restreintes (ie agrave lrsquoexpressiviteacute restreinte) comme par exemple EL++ [BBL05] Dans cettemecircme ideacutee le W3C travaille notamment au deacuteveloppement drsquoun profil de OWL appeleacute OWL-R39 moinsexpressif que OWL-Lite agrave partir duquel la recherche drsquoinstance pourrait ecirctre faciliteacutee

Les travaux reacutealiseacutes dans lrsquooptique de reacutesoudre les problegravemes 4 et 5 relatifs agrave la deacutefinition drsquounmapping donneacuteesndashconnaissances sont preacutesenteacutes dans la section suivante

33 Le mapping donneacuteesndashconnaissances

Lrsquoutilisation drsquoune ontologie pour lrsquointeacutegration de donneacutees est possible uniquement agrave partir du mo-ment ougrave il existe un mapping entre donneacutees et connaissances ie un ensemble de mises en correspon-

35httpwwwmindswaporgblog20071205announcing-the-open-web-billion-triple-challenge-iswc-0836httpwwww3orgTRowl-semantics37httpwwww3orgTRrdf-sparql-query38Une requecircte en est le plus souvent consideacutereacutee comme un meacutecanisme de raisonnement de recherche drsquoinstance39httpwwww3orgTR2008WD-owl2-profiles-20080411OWL-R_Full

54 Chapitre 2 Etat de lrsquoart

dance entre des donneacutees drsquoune source drsquoun cocircteacute et les instances des concepts et rocircles drsquoune ontologie delrsquoautre

introduit par Rousset et al [RFG+02] ou R2O introduit par Barrasa et al [BCGP04] sont despropositions de langages speacutecifiques pour la description de mappings donneacuteesndashontologie

Cependant ces approches ne prennent pas en consideacuteration le problegraveme drsquoimpeacutedance entre valeurs etobjets Ce problegraveme requiert la deacutefinition de meacutecanismes capables de faire correspondre les valeurs desdonneacutees aux objets de lrsquoontologie et notamment de preacuteciser comment les identifiants des objets peuventecirctre construits agrave partir des valeurs de donneacutees Ce genre de meacutecanismes a par contre eacuteteacute deacutecrit dans lecadre drsquoapproches entrepocirct faisant intervenir des bases de donneacutees objets [HY90 CGL+01] Il srsquoagit alorsde deacutefinir des fonctions symboliques (par exemple de conversion) et de les associer agrave une liste drsquoattributsagrave consideacuterer pour construire lrsquoidentifiant de lrsquoobjet correspondant Le mecircme genre de fonction est deacutefinipour reacuteconcilier des donneacutees heacuteteacuterogegravenes issues de diverses sources et permettre une inteacutegration dansune repreacutesentation homogegravene

De plus des formalismes comme SHOIN(D) ou DL-LiteA permettent drsquoassocier aux instancesde concepts des valeurs [HPSvH03 CGL+07] Par exemple la logique SHOIN(D) qui est la logiquesur laquelle srsquoappuie le profil OWL-DL de OWL permet la manipulation des concepts particuliers quicorrespondent aux types de donneacutees (le D signifie datatype en anglais) Ainsi associer une instance agraveune valeur revient en SHOIN(D) agrave instancier un rocircle associant cette instance et une instance du typede donneacutees (entier chaicircne de caractegravere etc) auquel correspond la valeur en question

Le travail reacutecent de Poggi et al utilise les outils preacutesenteacutes dans cette section (langage formel pourla description de mapping fonction de conciliation valeur-objet manipulant des valeurs) pour deacutecrirede faccedilon theacuteorique un systegraveme drsquointerrogation de donneacutees fondeacute sur une ontologie [PLC+08] Nous noussommes baseacutes sur cette approche theacuteorique et lrsquoavons adapteacutee de sorte agrave la rendre opeacuterationnelle et agravelrsquoaccorder agrave nos objectifs drsquointeacutegration de donneacutees dans le contexte drsquoune Ainsi nous proposonsdans le chapitre 3 une approche originale drsquointeacutegration de donneacutees qui srsquoinspire de lrsquoapproche meacutediateurdont lrsquoobjectif principal nrsquoest pas la reacuteponse agrave une requecircte mais le peuplement drsquoune

34 Utilisation des ontologies en bioinformatique inteacutegration de donneacutees et plus si affiniteacutes

Lrsquoutilisation principale des ontologies en bioinformatique est lrsquointeacutegration de donneacutees mais ce nrsquoestpas la seule Ainsi cette section preacutesente non seulement lrsquoutilisation des ontologies pour lrsquointeacutegration dedonneacutees en bioinformatique mais aborde eacutegalement leurs autres applications toutes relativement con-nexes agrave lrsquointeacutegration

Dans une revue reacutecente Daniel Rubin et al recensent les utilisations des ontologies en bioinforma-tique selon six cateacutegories [RSN07]

ndash la repreacutesentation de connaissances encyclopeacutediquesndash le Traitement Automatique des Langues ()ndash la recherche et lrsquointerrogation de donneacutees biomeacutedicales heacuteteacuterogegravenesndash lrsquoeacutechange de donneacutees entre applicationsndash lrsquointeacutegration de donneacutees etndash lrsquoutilisation de meacutecanismes de raisonnement

Les sections suivantes illustrent ces diffeacuterentes applications

3 Utilisation des ontologies pour lrsquointeacutegration de donneacutees heacuteteacuterogegravenes 55

341 La repreacutesentation de connaissances encyclopeacutediques

De nombreuses ontologies en biologie sont partageacutees sur le Web via des portails deacutedieacutes comme lesite de lrsquoOBO Foundry40 ou le BioPortal41 [SAR+07 RMKM08] Ceci permet agrave des personnes de reacuteu-tiliser des ontologies sans avoir agrave construire celles-ci au preacutealable Cependant la construction reste laphase preacuteliminaire indispensable agrave toute utilisation ou reacuteutilisation drsquoune ontologie La richesse des con-naissances disponibles dans certains domaines comme lrsquoanatomie humaine par exemple la complexiteacutedrsquoautres comme lrsquoeacutepigeacutenomique ou encore la co-existence de plusieurs theacuteories pour un mecircme domainecomme la psychiatrie imposent lrsquoutilisation de meacutethodologies rigoureuses et parfois le deacuteveloppementdrsquooutils particuliers (eg des outils collaboratifs) pour la repreacutesentation des connaissances en biologie defaccedilon encyclopeacutedique ce qui en fait une discipline agrave part entiegravere Les efforts de deacuteveloppement mis enœuvre notamment pour lrsquoontologie FMA (Foundational Model of Anatomy) disponible sur les portailsciteacutes preacuteceacutedemment ou ceux mis en œuvre pour le deacuteveloppement de lrsquoontologie NeuroWeb illustrentdes meacutethodes et outils speacutecialement deacuteveloppeacutes [RMM+98 CMF+07]

En plus drsquoheacuteberger et de partager des bio-ontologies les initiatives OBO Foundry et du BioPortalparticipent agrave leur deacuteveloppement LrsquoOBO Foundry milite pour favoriser le suivi de standards de qualiteacutesdans le deacuteveloppement des bio-ontologies [Fou08] Le BioPortal et plus particuliegraverement sa version2042 propose un ensemble drsquooutils pour faciliter la navigation dans les ontologies le deacuteveloppementcollaboratif la deacutefinition et le partage de mappings Notons que si de nombreuses bio-ontologies sontde simples taxonomies ou des vocabulaires controcircleacutes les reacutesultats de travaux reacutecents permettent de lestransformer en OWL [Hor07 AEB+08]

342 Le Traitement Automatique des Langues

Les ontologies sont de plus en plus utiliseacutees de faccedilon systeacutematique dans les meacutethodes de Le rocircledes ontologies deacutepend alors de lrsquoexpressiviteacute des langages utiliseacutes pour les eacutecrire Pour les cas les plussimples lrsquoontologie est un lexique qui permet de reconnaicirctre les entiteacutes ou les concepts eacutevoqueacutes dansles textes [MKS04] Pour les cas plus complexes lrsquoontologie guide la reconnaissance de connaissancesstructureacutees dans les textes en fournissant un modegravele des connaissances en question [RKK+00]

343 La recherche et lrsquointerrogation de donneacutees

Le challenge releveacute par les ontologies est la recherche et lrsquointerrogation de faccedilon homogegravene de di-verses sources de donneacutees au sein desquelles les entiteacutes biologiques par exemple une association agrave unemaladie ou une implication dans un processus sont nommeacutees de faccedilon diffeacuterentes dans les sources Eneffet en biologie de nombreux synonymes acronymes abreacuteviations peuvent faire reacutefeacuterence agrave une mecircmeentiteacute Un premier exemple est les diffeacuterents noms donneacutes au processus de fabrication du glucose dansun organisme (en gardant les termes anglo-saxons utiliseacutes dans les sources)ldquoglucose synthesisrdquo ldquoglu-cose biosynthesisrdquo ldquoglucose formationrdquo ldquoglucose anabolismrdquo et ldquoglucogenesisrdquo Un second exempleconcerne la preacutesence drsquoun variant geacuteneacutetique agrave la position 2377 du gegravene TMPT ie le fait que le nu-cleacuteotide agrave cette position du geacutenome puisse ecirctre diffeacuterent pour deux individus Ce variant est identifieacute parldquors1142345rdquo dans la base de donneacutees dbSNP ldquoTPMT3Crdquo dans la base OMIM ldquoChr6 18238897 AGrdquodans PharmGKB et ldquoNC_0000610g 18238897AgtGrdquo dans certaines publications scientifiques Uneontologie peut proposer un identifiant unique sous la forme drsquoun terme ou de lrsquoidentifiant drsquoun conceptpour chaque entiteacute et peut eacutegalement lui associer lrsquoensemble de deacutenominations alternatives Dans ce cas

40httpobofoundryorg41httpwwwbioontologyorgtoolsportalbioportalhtml42httpwwwbioontologyorgtoolsalphahtml

56 Chapitre 2 Etat de lrsquoart

F 29 ndash Extrait de la G O

lrsquoontologie peut se preacutesenter comme un vocabulaire controcircleacute recouvrant un certain domaine et auquelpeuvent ecirctre associeacutes des ensembles de synonymes acronymes et abreacuteviations Les identifiants utiliseacutesdans lrsquoontologie permettent alors drsquoidentifier de faccedilon consensuelle les entiteacutes biologiques repreacutesenteacuteesdans diffeacuterentes sources

Lrsquoexemple le plus connu de vocabulaire controcircleacute utiliseacute en biologie est la G O ()[ABB+00] Les entiteacutes biologiques pour lesquelles elle propose un terme unique sont organiseacutees selontrois hieacuterarchies relatives respectivement aux fonctions moleacuteculaires aux composants cellulaires et auxprocessus biologiques Ces termes sont supposeacutes qualifier les produits de gegravenes et plus preacuteciseacutement leurfonction ougrave ils lrsquoexercent et comment La Figure 29 donne un aperccedilu des termes constituant la hieacuterarchiedes composants cellulaires Le succegraves de la revient agrave sa large utilisation pour lrsquoannotation de produitsde gegravenes dans diverses bases de donneacutees A partir de cette annotation les termes sont utiliseacutes pourinterroger de faccedilon transparente et homogegravene plusieurs sources de donneacutees mais aussi pour analyser lesreacutesultats drsquoexpeacuterimentations agrave haut-deacutebit

344 Lrsquoeacutechange de donneacutees entre applications

La deacutefinition drsquoune ontologie peut avoir comme objectif de speacutecifier un format drsquoeacutechange standardpour un domaine Il srsquoagit alors pour lrsquoontologie de deacutecrire preacuteciseacutement les donneacutees leurs types etleurs relations Ce genre drsquoapplication est inteacuteressant lorsque les langages de repreacutesentation du Webseacutemantique (OWL) faciles agrave publier et agrave eacutechanger sur le Web sont utiliseacutes Les ontologies construitesbeacuteneacuteficient au final de lrsquoensemble des technologies du Web seacutemantique nouvellement deacuteveloppeacutees etpeuvent ecirctre utiliseacutees de surcroicirct pour lrsquointeacutegration et lrsquoanalyse de donneacutees

MAG_OM [BB06] et BioPAX [BC08] sont deux standards speacutecifieacutes sous forme drsquoune ontologie etdeacutefinis pour lrsquoeacutechange de donneacutees Le premier est un modegravele qui deacutecrit les conditions expeacuterimentales etles reacutesultats drsquoexpeacuterience drsquohybridation moleacuteculaire en transcriptomique Il est utiliseacute pour le partage dece type de reacutesultats entre chercheurs mais eacutegalement pour la communication entre bases de donneacutees Le

3 Utilisation des ontologies pour lrsquointeacutegration de donneacutees heacuteteacuterogegravenes 57

second BioPAX est un standard drsquoeacutechange drsquoinformations sur les reacuteseaux biologiques Aussi il nrsquoa paseacuteteacute conccedilu comme une repreacutesentation des connaissances du domaine mais son deacuteveloppement en OWLlaisse la possibiliteacute de le consideacuterer comme tel et de lrsquoemployer pour des usages autres que lrsquoeacutechange dedonneacutees Par exemple le fait que des sources de donneacutees sur les reacuteseaux biologiques (comme Human-CyC Reactome) fournissent un accegraves agrave leur contenu dans le format BioPAX a permis lrsquoeacutemergence drsquounsystegraveme drsquointeacutegration de donneacutees relatif aux reacuteseaux appeleacute Pathway Commons43

345 Lrsquointeacutegration de donneacutees

Les ontologies ont la capaciteacute de fournir une repreacutesentation du contenu de plusieurs bases de donneacuteesbiologiques et des relations entre les contenus des diffeacuterentes bases Les meacutecanismes de raisonnementpeuvent ensuite utiliser de telles repreacutesentations pour face une requecircte poseacutee deacuteterminer quelles sont lesressources utiles pour y reacutepondre et en extraire les eacuteleacutements de reacuteponse

Lrsquoun des premiers systegravemes agrave utiliser une bio-ontologie pour lrsquointeacutegration de donneacutees est RW[ABC+99] Lrsquoontologie utiliseacutee dans RW composeacutee de quatre parties repreacutesente dans le langageO [FFR97] agrave la fois le domaine biologique consideacutereacute (le ribosome) et les meacutethodes drsquoanalysepossibles sur les donneacutees relatives agrave ce domaine Lrsquoontologie est instancieacutee agrave partir de diverses ressourcesdisponibles sur le Web et relatives au ribosome pour constituer la RW Les avantages de lrsquoutil-isation drsquoune ontologie sont ici essentiellement de proposer une repreacutesentation des donneacutees non seule-ment inteacutegreacutee mais eacutegalement associeacutee agrave une seacutemantique (de faccedilon manuelle) Lrsquooriginaliteacute principalede RW reacuteside dans son utilisation concomitante drsquoune repreacutesentation des entiteacutes biologiques maiseacutegalement des meacutethodes et objectifs drsquoanalyse de ces entiteacutes qui facilitent cette analyse et lrsquointerpreacutetationde ses reacutesultats est un systegraveme prototypique drsquointeacutegration de donneacutees qui suit une approche meacutediateur [SBB+00]

inclut notamment ndash une ontologie appeleacutee ontologyndash une appeleacutee le ldquomodegravele conceptuel biologiquerdquo qui fournit agrave lrsquoutilisateur les concepts neacuteces-

saires agrave la construction de requecirctesndash un ensemble de mappings entre les concepts du ldquomodegravele conceptuel biologiquerdquo et les scheacutemas

des sources inteacutegreacutees etndash une interface graphique agrave partir de laquelle lrsquoutilisateur peut deacutefinir sa requecircte

Lrsquoutilisation de suit le processus suivant Dans un premier temps lrsquoutilisateur utilise lrsquointerfacegraphique pour construire une requecircte La requecircte correspond agrave la description drsquoun concept de hautniveau formeacute agrave partir de concepts du ldquomodegravele conceptuel biologiquerdquo que lrsquoutilisateur trouve en nav-iguant dans la hieacuterarchie de lrsquoontologie et de constructeurs drsquoune La requecircte ci-dessous est un ex-emple construit avec dans laquelle les termes en gras sont des noms individus de la ceux enitalique sont des constructeurs de la proposeacutee celui entre guillemets est une valeur et les autres sontdes rocircles de lrsquoontologie

protein which

isHomologousTo protein which

hasName ldquoprotein name lardrdquoand

functionsInProcess apoptosis

Cette requecircte correspond agrave la question ldquoquelles sont les proteacuteines qui sont homologues agrave la proteacuteinelard et dont la fonction est impliqueacutee dans le processus biologique drsquoapoptoserdquo

43httpwwwpathwaycommonsorg

58 Chapitre 2 Etat de lrsquoart

Dans un second temps le systegraveme analyse les concepts utiliseacutes dans la requecircte pour deacuteterminerles sources pertinentes agrave interroger et construit ensuite un plan de requecirctes individuelles (ie chacunesur une seule source) en fonction des caracteacuteristiques de la source et des contraintes exprimeacutees dans larequecircte Dans un troisiegraveme temps le systegraveme exeacutecute les requecirctes propres agrave chaque source et collecte lesreacutesultats pour les retourner agrave lrsquoutilisateur La collecte des reacutesultats se fait par le biais de wrappers adapteacutesspeacutecialement agrave chaque source consideacutereacutee Lrsquoavantage principal de est de permettre lrsquoexpression derequecirctes complexes compareacute agrave des systegravemes standard comme SRS44 [EA93] ou Entrez45 [Bax06] et cegracircce agrave lrsquoutilisation des constructeurs de Son inconveacutenient majeur survient lorsque lrsquoon souhaite ladeacuteployer agrave lrsquoeacutechelle du Web et eacutetendre la liste des sources qursquoelle integravegre En effet un tel rafraicircchissementdemande lrsquoenrichissement de lrsquoontologie de la la creacuteation de nouveaux mappings et de nouveauxwrappers La liste des sources inteacutegreacutees par est tregraves reacuteduite ce qui fait de cet inconveacutenient unelimite majeure agrave son utilisation

Depuis de nombreux systegravemes utilisant des ontologies pour lrsquointeacutegration de donneacutees bi-ologiques ont vu le jour Nous citerons seulement [KPL03] et BGSRS [CBBDF07] quise distinguent notamment par le fait qursquoils sont opeacuterationnels

346 Les meacutecanismes de raisonnement

Lrsquoutilisation des meacutecanismes de raisonnement associeacutes aux ontologies constitue une application par-ticuliegraverement prometteuse mais encore peu reacutepandue Nous citerons ici deux travaux de Wolstencroft et

al [WMS+05 WLT+06] Dans le premier il est fait usage des meacutecanismes de veacuterification de consistance

et de classification de concepts sur une ontologie pour assister la construction du scheacutema drsquoune nouvellebase de donneacutees relatives aux familles de proteacuteines phosphatases Le second deacutetailleacute chapitre 4 section252 utilise les meacutecanismes de classification de concepts et drsquoinstances pour permettre la classificationautomatique de proteacuteines phosphatases dans leur famille et sous-famille

Dans le domaine biomeacutedical des meacutecanismes de raisonnement sont eacutegalement utiliseacutes pour deacuteduireles conseacutequences physiologiques de lrsquoendommagement drsquoartegraveres coronaires [RDM05] Dans ce travaillrsquoontologie (Foundational Model of Anatomy) [RMM+98] est utiliseacutee comme base pour repreacutesenteren OWL

ndash la relation entre chaque artegravere coronaire et la zone du tissu cardiaque qursquoelle vascularisendash lrsquoarborescence des artegraveres vascularisant le cœur notamment par une relation de continuiteacute asso-

ciant les artegraveres connecteacuteesndash lrsquoocclusion drsquoune artegraverendash lrsquoischeacutemie du tissu cardiaqueUn service de raisonnement associeacute agrave lrsquoontologie permet drsquoinfeacuterer par un meacutecanisme de classifica-

tion le type de conseacutequence sur les tissus cardiaques que peut avoir un endommagement des artegraveresLe systegraveme Kasimir utilise quant agrave lui le raisonnement agrave partir de cas en plus des meacutecanismes de

raisonnement associeacutes aux [dLN07] Ces meacutecanismes sont appliqueacutes agrave des protocoles de soins ducancer du sein repreacutesenteacutes en OWL pour lrsquoaide au diagnostic

35 Vers une inteacutegration semi-automatique de sources

Les sections preacuteceacutedentes montrent que lrsquointeacutegration de donneacutees mecircme lorsqursquoelle srsquoappuie sur desontologies preacutesente encore de nombreuses limites tout en posant dans lrsquoindustrie comme dans la recherchedes deacutefis cruciaux Il est illusoire drsquoespeacuterer voir agrave court terme lrsquoeacutemergence drsquooutils par exemple baseacutes surles technologies du Web seacutemantique capables drsquointeacutegrer de faccedilon entiegraverement automatique des sources

44httpsrsebiacuk45httpwwwncbinlmnihgovEntrez

3 Utilisation des ontologies pour lrsquointeacutegration de donneacutees heacuteteacuterogegravenes 59

de donneacutees heacuteteacuterogegravenes Cependant les avanceacutees dans le domaine de lrsquoalignement drsquoontologie con-stituent des pistes qui peuvent tout au moins reacuteduire lrsquointervention manuelle neacutecessaire agrave lrsquointeacutegration dedonneacutees Ainsi An et al deacutecrivent un outil semi-automatique appeleacute qui permet la mise en cor-respondance entre des scheacutemas de bases de donneacutees (relationnelles ou XML) et une ontologie [AMB06]Le travail de Leser et Naumann [LN05] constitue un proposition comparable appliqueacutee agrave lrsquointeacutegration debases de donneacutees biologiques Une direction inteacuteressante eacutevoqueacutee par Euzenat et al pour la deacutefinitionsemi-automatique de tels mappings est lrsquoutilisation des capaciteacutes de raisonnement associeacutees aux formal-ismes logiques [ES07]

La section 2 de ce chapitre preacutesentait les ontologies comme un moyen de repreacutesenter les connais-sances drsquoun domaine Une ontologie peut notamment ecirctre utiliseacutee dans le cadre de lrsquointeacutegration de don-neacutees ougrave elle peut jouer un rocircle analogue agrave un scheacutema global comme eacutevoqueacute dans cette section Dans cecas les avantages agrave utiliser une ontologie sont multiples celle-ci est associeacutee agrave une seacutemantique claire-ment deacutefinie suivant laquelle il est possible de mettre en accord les scheacutemas de sources heacuteteacuterogegravenes ellepermet lrsquoutilisation de meacutecanismes de raisonnement capables de veacuterifier la consistance de lrsquoontologie pour une ontologie du Web seacutemantique elle srsquoappuie sur un ensemble de technologies qui facilitent sonpartage et son deacuteveloppement

La contribution preacutesenteacutee dans le chapitre 3 propose une utilisation drsquoontologies originales pourlrsquointeacutegration de donneacutees La contribution preacutesenteacutee chapitre 4 reacuteutilise les mecircme ontologies ainsi que lereacutesultat de lrsquointeacutegration pour guider lrsquoextraction de connaissances La section suivante (4) est un eacutetat delrsquoart de lrsquoutilisation des ontologies pour guider lrsquoextraction de connaissances

60 Chapitre 2 Etat de lrsquoart

4 Extraction de Connaissances guideacutee par les Connaissances du Domainendash

Diffeacuterents auteurs dont Anand [ABH95] Phillips [PB01] Gottgtroy [GKM04] Cespivova [CRS+04]Lieber [LNST08] et plus geacuteneacuteralement les ateliers internationaux SWM [SHB01 BHS02] KDO [BFG+04ABG+06] et PriCKL [BSc07] se sont inteacuteresseacutes agrave lrsquoutilisation de connaissances du domaine formaliseacuteesdans des ontologies pour guider lrsquoanalyste et les machines dans le processus drsquoextraction de connais-sances

Crsquoest notamment sur cette ideacutee geacuteneacuterale qursquoest fondeacute le processus drsquoExtraction de Connaissances

guideacutee par les Connaissances du Domaine ( ou pour Knowledge Discovery guided by Domain

Knowledge en anglais) deacutecrit par Lieber et al [LNST08] Dans lrsquo les uniteacutes de connaissances ex-traites et valideacutees sont exprimeacutees dans un formalisme de repreacutesentation des connaissances afin drsquoecirctreinteacutegreacutees agrave une ontologie du domaine Lrsquoontologie ainsi enrichie est alors reacuteutiliseacutee lors des iteacuterationssuivantes du processus Lors de chaque iteacuteration du processus chacune des eacutetapes peut beacuteneacuteficier drsquoaborddes connaissances initiales et ensuite des connaissances nouvellement acquises

(i) Lors de lrsquoeacutetape de preacuteparation des donneacutees les connaissances facilitent lrsquointeacutegration de donneacuteesheacuteteacuterogegravenes et aident agrave la seacutelection de sous-ensembles de donneacutees plus pertinents agrave fouiller

(ii) Lors de lrsquoeacutetape de fouille de donneacutees les connaissances permettent de speacutecifier des contraintespour par exemple circonscrire ou au contraire eacutelargir lrsquoespace de recherche des algorithmes

(iii) Lors de lrsquoeacutetape drsquointerpreacutetation des uniteacutes extraites les connaissances aident agrave la visualisationet la validation des reacutesultats

Lrsquoontologie de domaine est associeacutee en permanence agrave des meacutecanismes de raisonnement capables deproduire des regravegles drsquoinfeacuterence potentiellement utiles Suivant ce cadre geacuteneacuteral deacutecrit par lrsquo dif-feacuterents travaux se sont appliqueacutes agrave eacutetudier comment en pratique lrsquoextraction de connaissances pouvaittirer parti de connaissances formaliseacutees plus ou moins preacuteciseacutement Les sections suivantes reacutesument ceuxqui nous ont paru les plus inteacuteressants que ce soit lors de la preacuteparation de la fouille ou de lrsquointerpreacuteta-tion

41 Preacuteparation de donneacutees guideacutee par les connaissances

Il est ici question de lrsquoutilisation de connaissances formaliseacutees dans des ontologies pour assister lestacircches drsquointeacutegration de nettoyage de transformation et de reacuteduction de donneacutees preacutesenteacutees chapitre 2section 1

Inteacutegration Lrsquoutilisation drsquoontologies lors de lrsquoextraction et lrsquointeacutegration de donneacutees largement eacutetudieacuteea eacuteteacute abordeacutee dans la section 3 de ce chapitre

Nettoyage Perez-Rey et al ont deacuteveloppeacute lrsquooutil OntoDataClean qui utilise lrsquoontologie OntoData-

Clean preprocessing ontology repreacutesenteacutee Figure 210 pour aider au cours de lrsquoeacutetape de nettoyage desdonneacutees agrave reacutesoudre les problegravemes drsquoinconsistance ou de donneacutees manquantes [PRAC06] Pour utilisercet outil lrsquoanalyste doit deacutecrire dans lrsquoontologie (ie en instanciant les concepts et rocircles) lrsquoenchaicircnementdes opeacuterations qursquoil souhaite appliquer aux diverses bases de donneacutees consideacutereacutees Ces opeacuterations sontpar exemple le remplacement des valeurs manquantes ou la suppression de tuples trop bruiteacutes Le sys-tegraveme est ensuite capable en se reacutefeacuterant aux opeacuterations deacutecrites dans lrsquoontologie de nettoyer les donneacuteesde faccedilon automatique Lrsquoontologie est ainsi utiliseacutee pour aider lrsquoanalyste agrave comprendre les diffeacuterentesopeacuterations possibles lors de cette eacutetape et agrave garder une trace des diffeacuterentes strateacutegies adopteacutees

4 Extraction de Connaissances guideacutee par les Connaissances du Domaine ndash 61

F 210 ndash Lrsquoontologie OntoDataClean preprocessing ontology preacutesenteacutee par Perez-Rey et al

[PRAC06] Les ellipses griseacutees sont les concepts et les rectangles blancs leurs instances Les lignessimples sont des relations de subsomption ou des assertions de concepts Les lignes fleacutecheacutees sont lesrocircles

Transformation Dans le cadre du projet MiningMart Euler et Scholz proposent un outil drsquoaide agrave latransformation de donneacutees qui utilise deux ontologies La premiegravere ontologie doit ecirctre manuellementconstruite en fonction du domaine eacutetudieacute Son but est double (a) fournir un modegravele plus proche de laconceptualisation du domaine de lrsquoanalyste et (b) fournir un modegravele du domaine mettant en valeur lesdeacutependances ou relations qursquoil explore La seconde ontologie doit permettre de deacutecrire les opeacuterationsneacutecessaires et leur enchaicircnement afin de rendre possible la transformation des donneacutees originales dansun modegravele qui correspond agrave la premiegravere ontologie (de domaine) speacutecialement construite Lrsquoutilisation decette ontologie a un rocircle similaire agrave celui de Perez-Rey et al lrsquoappreacutehension des opeacuterations possibles etla documentation des transformations effectueacutees

Bernstein et al utilisent une ontologie qui repreacutesente les meacutethodes de preacuteparation et de fouille de don-neacutees pour aider lrsquoanalyste agrave deacutefinir une strateacutegie drsquo optimale [BPH05] Pour cela lrsquoanalyste deacutecritla strateacutegie drsquo de son choix (objectifs jeux de donneacutees etc) avec les concepts de lrsquoontologie Lesystegraveme appeleacute Intelligent Discovery Assistant relieacute agrave lrsquoontologie propose une liste drsquoenchaicircnement demeacutethodes de preacuteparation et de fouille compatibles entre eux et avec le format initial des donneacutees puisfournit un classement des enchaicircnements proposeacutes selon des critegraveres objectifs comme le temps drsquoexeacutecu-tion ou la preacutecision des reacutesultats

Reacuteduction Liu et al [LY05] ainsi que Guyon et al [GE03] suggegraverent drsquoutiliser les connaissances dudomaine en premiegravere intension pour reacuteduire le jeu de donneacutees en eacuteliminant les attributs qui ne sont paspertinents En pratique de nombreuses approches drsquo utilisent de faccedilon implicite les connaissancesde lrsquoanalyste lors drsquoune seacutelection manuelle drsquoattributs drsquointeacuterecirct Cheng et al [CWT06] comparent defaccedilon empirique les meacutethodes automatiques de seacutelection (preacutesenteacutees en section 1) agrave une meacutethode faisant

62 Chapitre 2 Etat de lrsquoart

intervenir lrsquoexpertise de lrsquoanalyste Dans le cadre de cette eacutetude la seconde meacutethode montre une ameacutelio-ration de la sensibiliteacute de la classification proposeacutee Cependant cette preacuteparation manuelle se limite auxconnaissances propres de lrsquoanalyste sans se reacutefeacuterer aux connaissances potentiellement disponibles parailleurs Certaines eacutetudes suggegraverent lrsquoutilisation de connaissances mises agrave disposition de lrsquoexpert sousforme de listes drsquoattributs drsquointeacuterecirct ou de listes de phrases pour ameacuteliorer les reacutesultats de meacutethode drsquoou de fouille de texte [Gai89 AFC99 CFCH01] Dans ces cas la seacutelection (ou lrsquoannotation drsquoun doc-ument) reste manuelle mais lrsquoanalyste se reacutefegravere agrave une source de donneacutees exteacuterieure qursquoil interpregravete enterme de connaissances

Wilcox et al et Yu et al ont proposeacute drsquoutiliser des connaissances repreacutesenteacutees sous forme de con-traintes ou de regravegles de telle sorte agrave ce que le systegraveme puisse aider agrave la seacutelection de donneacutees [WH03YSS07] Wilcox et al ont montreacute dans le cadre de leur eacutetude de classification de documents que lrsquou-tilisation de connaissances est un critegravere plus important que le choix de la meacutethode de classificationemployeacutee (pour un ensemble de meacutethodes seacutelectionneacutees pour ecirctre traditionnellement utiliseacutees pour cettetacircche) Le travail de Yu et al preacutesente la particulariteacute de coupler une meacutethode de seacutelection automatiquebaseacutee sur une meacutethode agrave noyau et lrsquoutilisation de connaissances Les principales critiques qui peuventecirctre faites agrave ces deux travaux sont lrsquoabsence drsquoune seacutemantique associeacutee aux connaissances consideacutereacuteesla faible implication de lrsquoanalyste dans le processus de seacutelection et la propension agrave seacutelectionner desattributs qui permettront la deacutecouverte de connaissances plus attendues que nouvelles et surprenantes

Un travail reacutecent propose lrsquoutilisation drsquoune ontologie en pour guider la seacutelection drsquoattributs dansle cadre drsquoune opeacuteration appeleacutee le design de tacircche (task design) [SRR05] Lrsquoontologie sert alors agrave par-titionner lrsquoensemble des attributs en diffeacuterentes classes par le biais drsquoun mapping donneacutees-ontologie etpermet ainsi agrave la fouille de travailler sur des partitions plus homogegravenes et donc plus riches en reacutegulariteacutesCette meacutethode semble particuliegraverement pertinente puisqursquoelle combine connaissances drsquoune ontologie etorientation de la seacutelection selon lrsquoobjectif de lrsquoanalyste Toutefois la meacutethode proposeacutee reste tregraves geacuteneacuteraleet sa mise en œuvre contraignante puisque la mise en correspondance des donneacutees agrave fouiller et des con-cepts de lrsquoontologie deacutepend du domaine et est donc reacutealiseacutee de maniegravere ad hoc) et que la description despartitions potentiellement porteuses de reacutegulariteacutes est manuelle

Hormis celles qui concernent lrsquointeacutegration de donneacutees les meacutethodes faisant usage drsquoontologies pourguider la preacuteparation des donneacutees sont finalement peu reacutepandues La preacuteparation est pourtant une phasedeacuteterminante pour la suite du processus durant laquelle lrsquoanalyste est particuliegraverement solliciteacute Crsquoestparticuliegraverement le cas lors de la seacutelection de donneacutees eacutetape cruciale lorsque les meacutethodes de fouillesgeacutenegraverent des reacutesultats volumineux La seacutelection de donneacutees est justement une tacircche ougrave les connais-sances du domaine sont particuliegraverement utiles ce qui justifie leur utilisation de faccedilon semi-automatiquelorsqursquoelles sont formaliseacutees dans une relative au domaine eacutetudieacute

Dans la section 1 du chapitre 4 nous proposons pour guider la seacutelection drsquoutiliser une baseacutee surune ontologie de domaine et instancieacutee agrave partir du contenu des bases de donneacutees relatives De cette faccedilonlrsquoanalyste peut seacutelectionner un jeu de donneacutees agrave fouiller en prenant en compte ses propres connaissancescelles formaliseacutees dans la et beacuteneacuteficier des meacutecanismes de raisonnement associeacutes (subsomption clas-sification)

42 Fouille de donneacutees guideacutee par les connaissances

Faire usage de connaissances formaliseacutees au moment de lrsquoeacutetape centrale de fouille est deacutelicat puisquecela neacutecessite la conception ou la modification drsquoun algorithme de fouille de sorte que celui-ci prenne enconsideacuteration des eacuteleacutements de connaissance Nazeri et Bloedorn preacutesentent dans [NB04] des modifica-tions des algorithmes Apriori et C45 qui visent agrave produire des en prenant en compte des eacuteleacutementsde connaissance du domaine Les eacuteleacutements de connaissance sont dans ce cas des listes de regravegles (que

4 Extraction de Connaissances guideacutee par les Connaissances du Domaine ndash 63

nous appellerons aussi BC) repreacutesenteacutees selon un formalisme deacutefini preacuteciseacutement et non associeacute agrave uneseacutemantique Dans la version originale drsquoApriori le seul critegravere drsquoinclusion drsquoun motif46 est son sup-port Dans la version modifieacutee proposeacutee crsquoest drsquoabord la classe agrave laquelle le motif appartient dans la lorsqursquoil y est repreacutesenteacute qui est deacuteterminante Ainsi

ndash si le motif est dans la et appartient agrave la classe ldquomotifs inteacuteressantsrdquo alors il est conserveacute pourproduire les quelque soit son support

ndash inversement si le motif appartient agrave la classe ldquomotifs ininteacuteressantsrdquo alors il est eacutelimineacute quelquesoit son support

Lrsquoalgorithme 21 repreacutesente simplement lrsquoalgorithme Apriori et les modifications (en gras) proposeacuteespar Nazeri et Bloedorn Dans le cadre drsquoexpeacuterimentations meneacutees par les auteurs avec Apriorimodifieacutele nombre de regravegles ininteacuteressantes diminue sans que ne soient perdues les regravegles inteacuteressantes par rapportagrave lrsquoutilisation drsquoApriori classique

Algorithme 21

geacuteneacuterer les motifs freacutequents de longueur 1

Pour (n=2 agrave max) faire

geacuteneacuterer les motifs candidats de longueur n

Pour (chaque nouveau candidat) faire

veacuterifier si le motif est dans la bc

Si (motif isin ldquomotifs ininteacuteressantsrdquo)

eacuteliminer le motif

Sinon si (motif isin ldquomotifs inteacuteressantsrdquo)

conserver le motif

Sinon

Si (support(motif) gt supportmin)

conserver le motif

geacuteneacuterer les ra

Dans le cas de lrsquoalgorithme C45 qui est une meacutethode de construction drsquoarbre de deacutecision le choixde lrsquoordre des attributs qui permet la construction de lrsquoarbre de deacutecision est modifieacute de telle sorte que desattributs ayant un score faible soient choisis en prioriteacute En effet la associe agrave certains attributs un scoreutiliseacute pour pondeacuterer le classement initial des attributs et ainsi lrsquoordre des attributs choisis pour construirelrsquoarbre De nouvelles associations sont deacuteduites de lrsquoarbre puis utiliseacutees pour modifier les scores associeacutesaux attributs dans la afin drsquoecirctre pris en compte lors des exeacutecutions suivantes

Karel et Kleacutema [KK07] proposent eacutegalement de contraindre un algorithme de fouille (de recherchede quantitatives) en reacuteduisant lrsquoespace de recherche Le jeu de donneacutees exploreacute relatif agrave la transcrip-tomique est composeacute drsquoattributs correspondant agrave des niveaux drsquoexpression de gegravenes Les eacuteleacutements deconnaissance sur lesquels srsquoappuyent les auteurs sont les hieacuterarchies de termes de la Gene Ontology ()Les termes de annotent (ie caracteacuterisent) les gegravenes dans des bases de donneacutees de la mecircme faccedilonque les niveaux drsquoexpression viennent caracteacuteriser ces mecircme gegravenes Ceci permet drsquoassocier les annota-tions et les attributs relatifs au niveau drsquoexpression de gegravenes La hieacuterarchie de lrsquoontologie sert alorsagrave deacutefinir une mesure de similariteacute entre gegravenes qui repreacutesente le fait qursquoil est plus ou moins ldquoplausiblerdquoqursquoun couple de gegravene soit co-exprimeacute Lorsque les sont produites celles qui proposent drsquoassocier desgegravenes dont la co-expression est plausible sont preacutefeacutereacutees aux autres

46Les motifs sont les eacuteleacutements de base pour la geacuteneacuteration des avec lrsquoalgorithme Apriori

64 Chapitre 2 Etat de lrsquoart

Blouson Pantalon de ski

Chemise Tennis Chaussures

Chaussures

de randoneacuteedrsquoexterieur

Vecirctement

Vecirctement

F 211 ndash Taxonomie T

Transaction Produits acheteacutes100 Chemise200 Blouson Chaussures de randonneacutee300 Pantalon de ski Chaussure de randonneacutee400 Chaussures500 Chaussures600 Blouson

T 26 ndash Base de donneacuteesD

43 Interpreacutetation guideacutee par les connaissances

Les meacutethodes de fouille sont susceptibles de produire des quantiteacutes de reacutesultats importantes quirendent la tacircche drsquointerpreacutetation fastidieuse pour lrsquoanalyste Crsquoest notamment le cas de la recherche deregravegles drsquoassociation () qui produit des regravegles agrave la fois nombreuses et redondantes Pour reacutesoudre ceproblegraveme drsquoanalyse des de nombreuses mesures drsquointeacuterecirct objectives et subjectives ont eacuteteacute proposeacuteespour permettre le classement des regravegles [TKS02 McG05 Bri06] Lrsquointeacuterecirct drsquoune regravegle est un paramegravetreen partie subjectif lieacute aux attentes de lrsquoanalyste agrave ses propres connaissances mais aussi potentiellementlieacute aux connaissances du domaine disponibles Une taxonomie peut ainsi ecirctre utiliseacutee pour lrsquoanalyse des et la geacuteneacuteralisation des regravegles [SA95] Suivant cette meacutethode un ensemble de regravegles R = cup(Pi rarr Ci)dont lrsquoensemble des preacutemisses cupPi sont fils drsquoune mecircme classe Pp de la taxonomie et dont lrsquoensembledes conclusions cupCi sont eacutegalement fils drsquoune mecircme classe Cp ces regravegles peuvent ecirctre geacuteneacuteraliseacutees enune seule regravegle de forme Pp rarr Cp Par exemple le Tableau 26 repreacutesente une base de donneacutees D detransactions de magasin et la Figure 211 une taxonomie des produits du magasin Avec un support de 03(ie 2 transactions) et une confiance de 06 les quatre regravegles obtenues en utilisant la geacuteneacuteralisation sontrepreacutesenteacutees dans le Tableau 27 Les regravegles ltPantalon de skirArr Chaussure de randonneacuteegt et ltBlousonrArr Chaussures de randonneacuteegt ne satisfont pas les support et confiance minimums (respectivement 1

6et 1

6 ) ce qui en revanche est le cas de la regravegle plus geacuteneacuterale ltVecirctement drsquoexteacuterieur rArr Chaussures derandonneacuteegt (support = 2

6 )

Regravegle Support ConfianceVecirctement drsquoexteacuterieurrArr Chaussures de randonneacutee 033 066Vecirctement drsquoexteacuterieurrArr Chaussures 033 066Chaussures de randonneacuteerArr Vecirctement drsquoexteacuterieur 033 1Chaussures de randonneacuteerArr Vecirctement 033 1

T 27 ndash Regravegles conserveacutees (supportmin=03 confiancemin=06) apregraves geacuteneacuteralisation

4 Extraction de Connaissances guideacutee par les Connaissances du Domaine ndash 65

Individu A

Attribut X

Individu B

Attribut YRelation empirique

donneacuteesminusontologie

Relation seacutemantique

Mapping

Base deconnaissances

Base dedonneacutees

F 212 ndash Mapping simple proposeacute dans [SRR05] pour guider lrsquointerpreacutetation des reacutesultats de fouille

En plus drsquoune taxonomie Liu et al [LHCM00] utilisent un formalisme particulier pour repreacutesenterdes modegraveles de regravegles que lrsquoanalyste srsquoattend agrave deacutecouvrir Le modegravele geacuteneacuteral drsquoune regravegle est de la forme

ltP1 P2 Pn rArr C1C2 Cngt [support][con f iance]

ougrave les eacuteleacutements de P1 P2 Pn et C1C2 Cn sont soit un attribut (et un terme de la taxonomie) soitun motif soit une expression reacuteguliegravere pour deacutecrire une classe de motifs Le systegraveme associeacute mesure unedistance entre chaque regravegle trouveacutee et les modegraveles proposeacutes de faccedilon agrave chiffrer le caractegravere inattendu desregravegles trouveacutees Les regravegles les plus diffeacuterentes des modegraveles de regravegles proposeacutes par lrsquoanalyste sont les plusinattendues Par exemple un modegravele deacutefini comme suit

ltChaussures de randonneacutee Chaussure+rArr Chemise+ gt

signifie que les regravegles associant au moins un des attributs Chaussures de randonneacutee ou Chaussure avecau moins lrsquoattribut Chemise sont attendues Ceci permet par exemple de mettre en avant le caractegravereinattendu de la regravegle

ltChaussures de randonneacuteerArr Vecirctement drsquoexteacuterieurgt

dont la conclusion ne contient pas lrsquoattribut ChemiseUn autre moyen de faciliter lrsquointerpreacutetation est le deacuteveloppement drsquooutils de visualisation et de vali-

dation des reacutesultats Svatek et al [SRR05] ou Vanzin et al [VB05] proposent des systegravemes fondeacutes sur lemecircme principe drsquoun mapping donneacutees-ontologie preacutealablement eacutetabli Celui-ci permet drsquoexploiter les re-lations de lrsquoontologie et la seacutemantique associeacutee pour aider lrsquoanalyste agrave interpreacuteter les relations empiriquesmises en eacutevidence lors de la fouille (voir Figure 212)

Lrsquooutil de visualisation inclus dans le systegraveme permet drsquoeacutevaluer et drsquointerpreacuteter les reacutesultats de fouilleen affichant et en permettant la navigation au travers des relations de lrsquoontologie associeacutees aux reacutesultats

Les approches preacutesenteacutees dans cette section montrent la neacutecessiteacute de deacutefinir un mapping entre lesdonneacutees analyseacutees et lrsquoontologie La deacutefinition de tels mappings a eacuteteacute abordeacutee dans la section concernantlrsquoutilisation des ontologies pour guider lrsquointeacutegration de donneacutees (section 33) Dans le cas des travaux re-latifs agrave lrsquoextraction de connaissances nous observons qursquoil srsquoagit le plus souvent de meacutethodes heuristiqueset qursquoaucune approche geacuteneacuterale nrsquoest proposeacutee pour la deacutefinition ou la formalisation de tels mappingsDe plus la difficulteacute agrave faire correspondre des valeurs (les donneacutees) et des objets (les instances de lrsquoontolo-gie) au sein des mappings nrsquoest pas abordeacutee dans ces travaux Cela nous conduit agrave proposer drsquoexploiter

66 Chapitre 2 Etat de lrsquoart

les reacutesultats des travaux sur lrsquointeacutegration seacutemantique pour deacutevelopper des strateacutegies drsquoutilisation desconnaissances dans un processus drsquo (Chapitre 4)

Par ailleurs il est possible de distinguer deux types drsquoexploitation de la seacutemantique associeacutees auxontologies selon le type drsquoontologie consideacutereacutee Drsquoune part les ontologies qui ne sont pas associeacutees agraveune seacutemantique preacutecise comme les taxonomies ou les vocabulaires controcircleacutes preacutesentent lrsquoavantage drsquoecirctrefaciles agrave manipuler et ainsi de tirer parti au maximum du peu de seacutemantique qui leur est associeacute Parexemple elle peuvent ecirctre facilement associeacutees au contenu de bases de donneacutees ou de pages Web qursquoilest alors possible drsquoanalyser en consideacuterant la structure de lrsquoontologie comme un lien entre tuples oupages Web Crsquoest notamment le cas pour les bases de donneacutees biologiques annoteacutees avec la et letravail de Karel et Klema [KK07] Drsquoautre part les travaux usant drsquoontologies repreacutesenteacutees selon unformalisme associeacute agrave une seacutemantique preacutecise comme les font un usage minimal de cette seacutemantiquemalgreacute les contraintes imposeacutees par leur exploitation La capaciteacute naturelle des objets agrave repreacutesenter undomaine (ainsi agrave mieux le comprendre et agrave le faire comprendre) et lrsquoorganisation hieacuterarchique demeurentles deux principales proprieacuteteacutes utiliseacutees pour faciliter lrsquoextraction de connaissances En revanche lespossibiliteacutes offertes par lrsquoexpressiviteacute des formalismes utiliseacutes et par les meacutecanismes de raisonnementsont quant agrave elles plus rarement utiliseacutees

Nous pensons que le deacuteveloppement des technologies du Web seacutemantique est une opportuniteacute quioffre la possibiliteacute de tirer le meilleur parti drsquoune seacutemantique formelle et des meacutecanismes de raisonnementassocieacutes Lrsquoobjectif de cette thegravese est notamment drsquoexploiter au maximum ces possibiliteacutes pour guider ladeacutecouverte de connaissances en biologie

Chapitre 3

Ontologies pour lrsquointeacutegration de donneacuteesen pharmacogeacutenomique

Ce chapitre preacutesente le construction de deux ontologies originales SNP-Ontology et SO-Pharm etleur utilisation pour lrsquointeacutegration de donneacutees pharmacogeacutenomiques La particulariteacute principale de lrsquoap-proche utiliseacutee pour lrsquointeacutegration est de transformer les reacutesultats de requecirctes pour peupler une Base deConnaissance () qui servira par la suite agrave guider lrsquoextraction de connaissances (voir chapitre 4)

La section 1 de ce chapitre deacutecrit tout drsquoabord la meacutethodologie rigoureuse adopteacutee pour construirenos ontologies puis deacutetaille chacune des eacutetapes de cette meacutethodologie mises en œuvre dans le cas dela construction de lrsquoontologie SNP-Ontology puis de lrsquoontologie SO-Pharm La section 2 propose unemeacutethode drsquointeacutegration de donneacutees qui utilise les ontologies drsquoune faccedilon similaire agrave un scheacutema globaldans une approche drsquointeacutegration de type meacutediateur Les sections 31 et 32 deacutecrivent les applications decette meacutethode et les expeacuterimentations conduites avec des donneacutees relatives aux variations geacutenomiques etpharmacogeacutenomiques Enfin la section 4 discute les reacutesultats obtenus

1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre

Avant de pouvoir utiliser une ontologie il est eacutevidemment neacutecessaire de la construire Une telle con-struction est un travail long et deacutelicat qui demande une collaboration entre ingeacutenieurs des connaissancesmaicirctrisant les meacutethodes de repreacutesentation des connaissances et experts du domaine maicirctrisant les con-naissances agrave repreacutesenter Afin de valoriser les efforts engageacutes lors de leur construction des ontologiesexistantes sont partageacutees dans des bibliothegraveques drsquoontologies sur le Web comme crsquoest par exemple le casdans le domaine de la biologie avec les sites OBO Foundry47 et BioPortal48 La mise agrave disposition de cesontologies peut en theacuteorie eacuteviter la reconstruction de nouvelles ontologies pour les domaines deacutejagrave cou-verts Cependant la conceptualisation drsquoune ontologie deacutepend eacutetroitement de la deacutefinition du domaineqursquoelle repreacutesente et des objectifs lieacutes agrave sa construction crsquoest pourquoi il est rare en pratique qursquouneontologie existante convienne en mecircme temps au domaine et aux objectifs drsquoun nouveau travail Dansun premier cas extrecircme aucune ontologie ne correspond au domaine et objectifs il est alors neacutecessairede construire entiegraverement une nouvelle ontologie Dans un deuxiegraveme cas plus courant les ontologiesexistantes couvrent partiellement le domaine et reacutepondent partiellement aux exigences imposeacutees par lesobjectifs Une deacutemarche rationnelle consiste alors agrave reacuteutiliser les ontologies existantes en les adaptant agraveses propres domaine et objectifs

47httpobofoundryorg48httpwwwbioontologyorgtoolsportalbioportalhtml

67

68 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

Cette section preacutesente drsquoabord une meacutethodologie de construction drsquoontologie inspireacutee des meacutethodesdeacutecrites dans la litteacuterature mais adapteacutee agrave notre propos Une des particulariteacutes de cette meacutethodologieest drsquoinclure une eacutetape de formalisation des relations eacuteventuelles avec drsquoautres ontologies existantesest formellement deacutecrite avant leur impleacutementation Nous preacutesentons ensuite (sections 12 et 13) lesparticulariteacutes associeacutees agrave la mise en œuvre de cette meacutethode lors de la construction de deux ontologies SNP-Ontology qui repreacutesente des connaissances relatives aux variations geacutenomiques (ou variants) etSO-Pharm qui englobe plus geacuteneacuteralement le domaine de la pharmacogeacutenomique

11 Meacutethodologie de construction manuelle drsquoontologies pour lrsquointeacutegration de donneacutees

Des meacutethodes semi-automatiques comme la classification la fouille de textes peuvent ecirctre utiliseacuteespour construire une ontologie [Ome01 BCM05] Ces meacutethodes sont inteacuteressantes pour constituer unerepreacutesentation des connaissances agrave partir de scheacutemas de bases de donneacutees ou de corpus de textes Enrevanche elles sont peu compatibles avec lrsquoobjectif principal de nos ontologies qui est de proposer unerepreacutesentation des connaissances qui soit la plus proche possible des connaissances de lrsquoexpert et leplus indeacutependante possible de la structures des bases de donneacutees existantes avec lrsquoideacutee que ceci facilitelrsquointeacutegration de donneacutees et lrsquoExtraction de Connaissances agrave partir de Bases de Donneacutees ()

Les ontologies construites par des meacutethodes semi-automatiques proposent une repreacutesentation desconnaissances marqueacutee par la structuration et le format des sources de donneacutees qursquoelles exploitent In-versement nous souhaitons une repreacutesentation la plus neutre possible vis agrave vis des sources de maniegravereagrave laisser possible la mise en correspondance de lrsquoontologie obtenue avec le contenu drsquoun maximum desources heacuteteacuterogegravenes existantes ou agrave venir De plus la construction semi-automatique drsquoontologie est unchamp de recherche agrave part entiegravere Les meacutethodes qui en eacutemergent sont souvent deacutependantes drsquoun domaineet drsquoun format de source et leur utilisation neacutecessite en conseacutequence une adaptation et une eacutevaluationcoucircteuses en temps qui sortent du cadre de nos travaux Pour ces diffeacuterentes raisons nous preacutefeacuteronsune construction manuelle suivant une meacutethodologie deacutefinie de faccedilon rigoureuse (deacutecrite ci-apregraves) etimpliquant des experts du domaine

La meacutethodologie adopteacutee correspond agrave lrsquoadaptation agrave notre contexte des processus de constructioniteacuteratifs deacutecrits classiquement [UK95 FGPJ97 NM01] De cette meacutethodologie ressortent cinq eacutetapes la speacutecification la conceptualisation la formalisation lrsquoimpleacutementation et enfin lrsquoeacutevaluation dont lesreacutesultats conduisent agrave une nouvelle iteacuteration

111 Speacutecification

Le domaine couvert par lrsquoontologie doit ecirctre clairement deacutefini avec les experts Cette deacutefinition inclutla preacutecision des limites du domaine eacuteventuellement de ce que ne couvre pas lrsquoontologie et du niveau degranulariteacute demandeacute pour repreacutesenter les connaissances du domaine Les objectifs pour lesquels lrsquoon-tologie est construite doivent aussi ecirctre preacuteciseacutement deacutetermineacutes avec les experts

Durant cette eacutetape il est important de deacutefinir les critegraveres drsquoeacutevaluation selon lesquels lrsquoontologie serajugeacutee agrave la fin de chaque iteacuteration du processus de construction Dans notre cas ces critegraveres sont (1) laconsistance49 de lrsquoontologie (2) la capaciteacute agrave reacutepondre aux questions de compeacutetence ie une liste dequestions auxquelles lrsquoontologie doit permettre de reacutepondre (3) la capaciteacute agrave repreacutesenter explicitement

des connaissances implicites contenues dans des bases de donneacutees ou des publications scientifiquesDes regravegles de nommage (deacutebut du nom avec ou sans majuscule sans espace liste des caractegraveres

accepteacutes etc) sont adopteacutees pour les noms de concepts de relations entre concepts drsquoindividus et lesvaleurs qui seront utiliseacutes lors de la construction

49Une ontologie est consistante si tous ces concepts peuvent ecirctre instancieacutes

1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre 69

Ensuite deux listes sont eacutetablies en parallegravele une liste des termes du domaine eacutetablie par lrsquoexpertet une liste des sources de donneacutees et de connaissances relatives au domaine Les sources contenuesdans la seconde liste peuvent ecirctre de nature tregraves diffeacuterente comme un modegravele conceptuel (en UML ouen un langage apparenteacute) un scheacutema XML une base de donneacutees une ontologie OWL ou encore unvocabulaire controcircleacute Des exemples concrets de telles listes de sources sont donneacutes dans la suite de cechapitre Les sources de cette liste sont par la suite exploreacutees pour enrichir la liste initiale de termes

Dans un deuxiegraveme temps la liste des sources est utiliseacutee pour identifier les sources de connaissancesqui peuvent ecirctre reacuteutiliseacutees pour la construction de lrsquoontologie Les sources de connaissances sont seacutelec-tionneacutees notamment en fonction de leur pertinence par rapport aux objectifs fixeacutes et en fonction de leurqualiteacute Les critegraveres de qualiteacute preacuteconiseacutes par lrsquoinitiative OBO Foundry50 constituent une liste de critegraveressur lesquels il est possible de srsquoappuyer pour choisir les meilleures sources agrave reacuteutiliser Dans le cas ougraveaucune source de connaissances nrsquoest suffisamment pertinente pour ecirctre reacuteutiliseacutee dans la constructionde lrsquoontologie alors lrsquoontologie doit ecirctre entiegraverement construite

112 Conceptualisation

La conceptualisation du domaine se fait agrave lrsquoaide de diagrammes de classes UML [RBJ00] Lrsquoex-pressiviteacute offerte par UML lrsquoadaptation des classes (ie de la repreacutesentation par objets) pour repreacutesenterles concepts et lrsquoouverture du langage UML font de ce type de diagramme un outil adapteacute agrave la con-ceptualisation drsquoune ontologie [KCH+02] La liste de termes est utiliseacutee pour identifier les concepts delrsquoontologie sous la forme de classes UML auxquels sont assigneacutes un nom et une deacutefinition preacutecise sousla forme drsquoun texte libre Une fois ces concepts identifieacutes leurs relations hieacuterarchiques et non hieacuterar-chiques sont modeacuteliseacutees sous forme drsquoassociations dans les diagrammes de classes

Les relations entre les concepts propres agrave la nouvelle ontologie et les concepts externes des ontologiesreacuteutiliseacutees sont eacutegalement deacutefinies durant la conceptualisation en diagramme de classes Dans le caspreacutesent les relations proposeacutees entre concepts propres et concepts externes sont restreintes agrave trois typesparticuliers de relations la geacuteneacuteralisation lrsquoeacutequivalence et lrsquoagreacutegation

Geacuteneacuteralement le choix du type de relation entre deux concepts est deacutetermineacute par les experts qui pren-nent en consideacuteration leurs connaissances du domaine et les deacutefinitions des deux concepts Cependantdans certains cas le choix du type de relation entre deux concepts provenant de deux bio-ontologies estorienteacute par le type des ontologies consideacutereacutees En effet les ontologies utiliseacutees dans le domaine biomeacutedi-cal peuvent ecirctre diviseacutees en trois cateacutegories principales [RKM+05]

ndash les meacuteta-ontologies qui deacutecrivent des concepts et rocircles indeacutependants du domaine qui servent demodegravele ou de composant pour les ontologies plus speacutecifiques (par exemple DOLCE51 SUMO52)

ndash les ontologies de domaines qui repreacutesentent un certain domaine drsquoapplication et deacutecrivent les en-titeacutes qui lui sont relatives suivant un formalisme de repreacutesentation des connaissances (comme uneLogique de Descriptions )

ndash les vocabulaires controcircleacutes speacutecialiseacutes souvent deacuteveloppeacutes manuellement par un consortium drsquoex-perts pour lrsquoannotation des bases de donneacutees (par exemple G O)

Typiquement une ontologie de domaine en va geacuteneacuteraliser les concepts drsquoun vocabulaire speacutecialiseacutecrsquoest agrave dire que la description formelle drsquoun concept va geacuteneacuteraliser un ensemble de concepts speacutecial-iseacutes De faccedilon similaire des ontologies dont le niveau drsquoabstraction est plus eacuteleveacute peuvent agrave leur tourgeacuteneacuteraliser les deacutefinitions des concepts de lrsquoontologie de domaine Les ontologies que nous souhaitonsconstruire sont des ontologies de domaine en qui proposent des relations vers des vocabulaires con-trocircleacutes Lrsquoassociation de ces deux types drsquoontologie permet de beacuteneacuteficier conjointement de la seacutemantique

50le principes de qualiteacute de lrsquoOBO Foundry httpobofoundryorgcritshtml (derniegravere visite le 17072008)51httpwwwloa-cnritDOLCE52httpwwwontologyportalorg

70 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

F 31 ndash Extrait drsquoun diagramme de classes UML illustrant les relations de geacuteneacuteralisation entre un con-cept issu drsquoun vocabulaire controcircleacute Sequence Ontology (SO) un concept drsquoune ontologie de domaineSNP-Ontology (SNPO) et un concept drsquoune meacuteta-ontologie Basic Formal Ontology (BFO)

associeacutee aux et de la richesse et de lrsquoexpertise associeacutees aux vocabulaires controcircleacutesPar exemple comme lrsquoillustre la Figure 31 le concept propre de lrsquoontologie de domaine SNP-

Ontology S NPO variant geacuteneacuteralise le concept externe S O substitution et ses descendants issusdu vocabulaire controcircleacute Sequence Ontology Par ailleurs le mecircme concept S NPO variant est luimecircme geacuteneacuteraliseacute par le concept externe BFO Ob ject importeacute drsquoune meacuteta-ontologie et ainsi heacuterite etreacuteutilise les deacutefinitions formelles du concept qui y est deacutecrit

113 Formalisation

La formalisation de lrsquoensemble de lrsquoontologie en (SHOIN(D)) est meneacutee de front avec son im-pleacutementation en OWL-DL sauf pour ce qui concerne la formalisation des relations entre concept propreet concept externe (appartenant agrave une autre ontologie) qui est eacutetablie en au preacutealable En fonction dutype de relation choisi entre un concept propre et un concept externe lors de la conceptualisation unaxiome est deacutecrit entre les concepts de correspondants noteacutes Cprop et Cext

ndash la geacuteneacuteralisation drsquoun concept propre par un concept externe est traduite par la relation de sub-somption

Cprop ⊑ Cext

ndash inversement la speacutecialisation drsquoun concept propre par un concept externe est traduite par lrsquoinversede la subsomption

Cprop ⊒ Cext

ndash lrsquoeacutequivalence entre deux concepts est formaliseacutee par lrsquoaxiome

Cprop equiv Cext

ndash la formalisation drsquoune relation drsquoagreacutegation entre deux concepts est noteacutee

Cprop ⊑ existisPartOfCext

ou lrsquoinverse si crsquoest le concept externe qui est une partie du concept propreLrsquoexemple de relations entre concepts propres et externes repreacutesenteacute Figure 31 peut ainsi ecirctre noteacute

comme suit

SNPO variant ⊑ BFO objectSNPO variant ⊒ SO substitution

1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre 71

Des exemples concrets et plus varieacutes des diffeacuterents types drsquoaxiomes possibles sont donneacutes dans lasuite de ce chapitre

Les domaines appeleacutes en anglais ontology matching ontology alignment ou ontology mapping srsquoin-teacuteressent au deacuteveloppement de systegravemes drsquoalignement drsquoontologies Ces systegravemes visent agrave eacutetablir laplupart du temps de faccedilon semi-automatique des relations de geacuteneacuteralisation ou drsquoeacutequivalence entre lesconcepts de deux ontologies distinctes Ils exploitent pour cela la similariteacute des noms de concepts deleurs deacutefinitions formelles (mais aussi de leurs extensions de leurs positions relatives dans une structureetc) pour proposer des relations entre concepts issus drsquoontologies distinctes [ES07] Nous privileacutegionsici la deacutefinition manuelle par les experts du domaine des relations entre concepts drsquoontologies distinctes

Des initiatives reacutecentes notamment le C-OWL [BGvH+03] clarifient la seacutemantique et enrichissentles types de relations possibles pour articuler des concepts drsquoontologies distinctes

114 Impleacutementation

La formalisation en et lrsquoimpleacutementation en OWL-DL sont imbriqueacutees Sur la base des diagrammesde classes les concepts et leurs relations sont deacutecrits formellement sous forme de concepts et rocircles en agrave lrsquoaide de lrsquoeacutediteur drsquoontologie Proteacutegeacute [KFNM04]

Malheureusement il nrsquoexiste pas de systegraveme automatique de conversion des diagrammes de classesUML en axiomes OWL Aussi la conversion est faite manuellement Les concepts et relations simplesen UML sont directement traduits en revanche les concepts plus complexes neacutecessitent une attentionparticuliegravere Par exemple les ne permettent que la repreacutesentation de relations binaires Cela rendrelativement complexe la formalisation des relations n-aires repreacutesenteacutees en UML Le moyen le pluscourant pour surmonter ce problegraveme est appeleacute la reacuteification [NR06] Celle-ci permet drsquoeacuteviter lrsquoutilisationde relations n-aires lors de la conceptualisation en preacutefeacuterant la construction de concepts suppleacutementaireset notamment des concepts qui deacutecrivent une relation n-aire et la deacutecomposent en plusieurs relationsbinaires

Pour ecirctre articuleacutees avec la nouvelle ontologie les ontologies preacuteceacutedemment seacutelectionneacutees doiventecirctre impleacutementeacutees dans le mecircme langage ie en OWL Cela neacutecessite leur conversion lorsqursquoelles nesont pas directement disponibles dans ce langage Elles sont ensuite importeacutees et relieacutees agrave lrsquoontologie parlrsquoimpleacutementation en OWL des axiomes deacutefinis lors de lrsquoeacutetape preacuteceacutedente Pour que lrsquoimpleacutementation deces axiomes soit possible il est neacutecessaire que les diffeacuterentes ontologies articuleacutees par les axiomes soientphysiquement mises en preacutesences Il est alors neacutecessaire de speacutecifier le chemin drsquoaccegraves et lrsquoespace denommage unique (namespace en anglais) des ontologies relieacutees de telle sorte que leurs concepts et rocirclespuissent ecirctre eacutevoqueacutes dans les descriptions de concepts propres agrave lrsquoontologie en construction

Drsquoun point de vue theacuteorique il est possible de consideacuterer la liste drsquoaxiomes entre concepts propreset externes comme une TBox agrave part entiegravere Crsquoest notamment ce qui semble le plus pertinent du faitque ceci permet drsquoeacuteviter drsquoavoir agrave incorporer des concepts externes dans la TBox drsquoune ontologie et deainsi garantir lrsquointeacutegriteacute de lrsquoontologie produite aussi bien que celle des ontologies articuleacutees Cepen-dant les contraintes qursquoimposent la mise en œuvre drsquoune telle modularisation des ontologies limite sonimpleacutementation dans les outils standards drsquoeacutedition drsquoontologie tel que Proteacutegeacute

115 Eacutevaluation

Elle se fait suivant les trois critegraveres deacutefinis lors de la speacutecification consistance questions de compeacute-

tence et capaciteacute agrave repreacutesenter des connaissances du domaineLa consistance de lrsquoontologie et la classification de ses concepts sont veacuterifieacutees reacuteguliegraverement au fur

et agrave mesure et agrave lrsquoissue de la formalisationimpleacutementation agrave lrsquoaide des meacutecanismes de raisonnement

72 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

standards impleacutementeacutes dans RacerPro [HM03]La qualiteacute des reacuteponses aux questions de compeacutetences est eacutevalueacutee selon des critegraveres deacutefinis lors de

la speacutecification Dans notre cas les reacuteponses agrave ces questions ne deacutependent pas seulement de lrsquoontologiemais eacutegalement du systegraveme dans lequel elle est impliqueacutee un systegraveme drsquointeacutegration de donneacutees oudrsquoextraction de connaissances

La capaciteacute de lrsquoontologie agrave repreacutesenter des connaissances eacutetablies du domaine est eacutevalueacutee par lrsquoin-stanciation manuelle de lrsquoontologie agrave partir drsquoexemples de connaissances de deux origines diffeacuterentesElles peuvent ecirctre soit extraites de bases de donneacutees soit extraites de publications scientifiques du do-maine

Lrsquoeacutevaluation de lrsquoontologie suivant lrsquoensemble de ces critegraveres permet drsquoidentifier des concepts et desrocircles absents ou mal deacutecrits dans lrsquoontologie Ceux-ci sont alors pris en consideacuteration pour ameacuteliorer lesspeacutecification conceptualisation et impleacutementation lors de lrsquoiteacuteration suivante du processus de construc-tion

Il nrsquoy a pas agrave proprement parler de critegravere drsquoarrecirct de la constrution drsquoune ontologie Certain auteursutilisent comme en geacutenie logiciel la notion de cycle de vie [DCGR98] Un premier cycle de vie delrsquoontologie se termine lorsque celle-ci est exploiteacutee dans le cadre de lrsquoutilisation pour laquelle elle aeacuteteacute deacuteveloppeacutee Cependant cette utilisation nrsquoest pas forcement un aboutissement et peut donner lieu agravelrsquoidentification drsquoimperfections qursquoun nouveau cycle drsquoameacutelioration et drsquoenrichissement de lrsquoontologievisera agrave corriger

1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre 73

12 Construction drsquoune ontologie pour les variations geacutenomiques SNP-Ontology

121 Speacutecification

Domaine couvert par SNP-Ontology Lrsquoobjet de SNP-Ontology est de proposer une repreacutesentationformelle des variations geacutenomiques Ces variations geacutenomiques sont des reacutegions du geacutenome clairementlocaliseacutees dont la composition en nucleacuteotides est susceptible de varier entre les individus drsquoune mecircmeespegravece La section 2 du chapitre 1 donne plus de deacutetails sur les variations geacutenomiques La majoriteacutede ces variations (environ 90 selon Kruglyak et Nickerson [KN01]) sont des variations ponctuellesie limiteacutees agrave un nucleacuteotide alors appeleacutees SNP pour Single Nucleotide Polymorphism Malgreacute son nomSNP-Ontology ne se limite pas agrave la repreacutesentation des SNP mais repreacutesente les variations geacutenomiques ausens large Elle permet de repreacutesenter sans ambiguiumlteacute une variation geacutenomique localiseacutee sur une seacutequencedrsquoADN ainsi que les conseacutequences que cette variation peut avoir au niveau du transcriptome (sur uneseacutequence drsquoARN) et du proteacuteome (sur une seacutequence drsquoacides amineacutes) SNP-Ontology est deacuteveloppeacutee defaccedilon volontairement geacuteneacuterale afin de permettre la repreacutesentation des variations du geacutenome de diffeacuterentsorganismes ainsi que les variations relativement agrave diffeacuterentes versions drsquoun mecircme geacutenome Une tellerepreacutesentation nrsquoeacutetait jusqursquoalors pas disponible (tout au moins publiquement)

Les derniegraveres versions de SNP-Ontology permettent de repreacutesenter les haplotypes et les variationsdu nombre de copies [RIF+06] La repreacutesentation de notions complexes comme lrsquoinfluence drsquoune vari-ation geacutenomique sur lrsquoeacutepissage [HRT+05] ou encore sur la quantiteacute de proteacuteines traduites ne sont pasrepreacutesenteacutees mais constituent des pistes drsquoeacutevolution pour ses versions futures

Objectifs de SNP-Ontology La repreacutesentation non ambigueuml des variations dans SNP-Ontology a pourobjectif de permettre lrsquointeacutegration de donneacutees heacuteteacuterogegravenes relatives aux variations geacutenomiques et agraveleurs conseacutequences Pour cela lrsquoontologie doit permettre (1) la repreacutesentation des variations suivantdiffeacuterents modes de description existants (2) la repreacutesentation de lrsquoeacutequivalence entre deux descriptionsdistinctes drsquoune mecircme variation ainsi que (3) la correspondance entre une variation geacutenomique et sesconseacutequences aux niveaux du transcriptome et du proteacuteome Par exemple la variation noteacutee TPMT3C

est eacutequivalente agrave celle noteacutee Chr6 18238897 AG et induit au niveau proteacuteique une variation deacutecritepar TPMT TYR240CYS Lrsquoobjectif geacuteneacuteral de SNP-Ontology est de faciliter chaque eacutetape du processusdrsquo preacuteparation (y compris lrsquointeacutegration) fouille et interpreacutetation

Critegraveres drsquoeacutevaluation particuliers Des exemples de questions de compeacutetence auxquelles SNP-Ontologydoit reacutepondre sont

ndash Le gegravene humain CYP2D6 preacutesente-t-il des variations geacutenomiques ndash Si oui certaines drsquoentre elles sont elles reacutepertorieacutees agrave la fois dans les bases dbSNP et OMIM ndash Certaines sont elles reacutepertorieacutees dans la base PharmGKB et dans aucune autre ndash Parmi ces mecircmes variations lesquelles sont non-synonymes ie localiseacutees dans une reacutegion codante

et qui entraicircne une variation drsquoacides amineacutes dans la proteacuteine reacutesultante ndash Certaines de ces variations sont elles localiseacutees agrave une distance infeacuterieure agrave 50 nucleacuteotides en amont

ou en aval des exons du gegravene TPMT ndash Est-il possible de deacuteterminer un ensemble de tag-SNP qui marquent les haplotypes auxquels ap-

partiennent les variants de lrsquoensemble initial

SNP-Ontology doit permettre de repreacutesenter les connaissances qui peuvent ecirctre extraites des bases dedonneacutees que lrsquoon souhaite inteacutegrer ie les connaissances relatives aux variations geacutenomiques enregistreacuteesdans les bases dbSNP OMIM PharmGKB HapMap et dans des bases de donneacutees locus speacutecifiques

74 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

Listes de termes et de sources de donneacutees et de connaissances relatives Une liste des termes utiliseacutesdans le domaine et une liste des source de donneacutees et de connaissances relatives au domaine sont con-stitueacutees La liste des sources utiliseacutees pour enrichir la liste des termes relatifs aux variations geacutenomiquesest preacutesenteacutee dans le Tableau 31 Seules deux sources de connaissances preacutesentent un inteacuterecirct agrave ecirctre ar-ticuleacutees avec SNP-Ontology AA Ontology et Sequence Ontology dont une bregraveve description est donneacuteeTableau 32

Nom de la source Type de source URL

AA Ontology Ontologie OWL geacuteneacuterique http wwwco-odeorgontologiesamino-acid

dbSNP scheacutema XML modegravele de donneacutees geacuteneacuterique http wwwncbinlmnihgovprojectsSNP

HapMap scheacutema XML humain http wwwhapmaporg

HGVBase DTD modegravele de donneacutees humain http hgvbasecgbkise

BD inserm umrs538 DTD modegravele de donneacutees humain LS priveacutee

MECV Vocabulaire controcircleacute geacuteneacuterique http wwwebiacukmutations

OMG SNP Modegravele de donneacutees geacuteneacuterique http wwwomgorgtechnologydocumentsformalsnphtm

OMIM Source de donneacutees humain http wwwncbinlmnihgovomim

PharmGKB scheacutema XML modegravele de donneacutees humain http wwwpharmgkborg

Sequence Ontology Vocabulaire controcircleacute geacuteneacuterique http songsourceforgenet

LOVD Source de donneacutees humain LS http wwwuclacukldlrLOVDv110

UMD LDLR Source de donneacutees humain LS http wwwumdbeLDLR

Uniprot Source de donneacutees geacuteneacuterique http wwwuniprotorg

T 31 ndash Liste des sources exploreacutees pour enrichir la liste de termes relatifs aux variations geacutenomiquesLa troisiegraveme colonne preacutecise si la source de variations geacutenomiques concerne uniquement un locus par-ticulier (source Locus Speacutecifique ou LS) uniquement lrsquohumain ou si elle est geacuteneacuterique (multi-locus etmulti-espegraveces)

Ontologie Domaine Pre f ixe Namespace

AA Ontology acides amineacutes AAO http wwwco-odeorgontologiesamino-acid20051011amino-acidowl

Sequence Ontology Seacutequences et variations SO http purlorgoboowlSO

T 32 ndash Les deux ontologies articuleacutees avec SNP-Ontology

122 Conceptualisation

La Figure 32 repreacutesente la reacutepartition sous forme de quatre paquets (ou packages en anglais) desdiagrammes de classes correspondant agrave SNP-Ontology Les Figures 33 et 34 sont deux exemples dediagrammes de classes centreacutes respectivement sur le concept de variant et sur celui de seacutequence Ainsi laFigure 33 repreacutesente un variant comme un concept associeacute agrave une certaine position dans une seacutequence etassocieacute agrave une variation observeacutee (ObservedVariation) qui peut ecirctre soit une variation de nucleacuteotide (Nu-cleotideVariation) soit une variation drsquoacide amineacutes (AAVariation) selon le type de seacutequence sur laquellele variant est observeacute La Figure 34 repreacutesente notamment les seacutequences de nucleacuteotide leur compositionen nucleacuteotide le fait qursquoil peut srsquoagir soit drsquoune seacutequence drsquoADN (DNASequence) soit drsquoune seacutequencedrsquoARNm (mRNASequence) et entre autres que les seacutequence drsquoADN compose les chromosomes et lesgegravenes

1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre 75

F 32 ndash Diagramme UML repreacutesentant la reacutepartition des diagrammes de classes en quatre paquets(packages en anglais) Le concept de variant peut ecirctre associeacute aux seacutequences geacutenomiques sur lesquelsils sont localiseacutes originellement mais aussi aux seacutequences transcrites et proteacuteiques sur lesquelles sontobserveacutees les conseacutequences des variations geacutenomiques

Sequence

InSequencePosition

AASequence

NucleotideVariation

AAVariation

NucleotideSequence

ObservedVariationVariant

0150

is observed in

2

is present in lt=

is observed in

F 33 ndash Diagramme de classes UML conceptualisant un variant la variation observeacutee pour un variantet sa position sur une seacutequence

mRNA ProteinChromosomeContig ExonIntronGene Transcript

mRNASequence

AASequence

Sequence

InSequencePosition

Nucleotide

Variant

DNASequence

NucleotideSequence AminoAcid

is present in lt=

11 1 1

1 115001

1

1 1

includes

F 34 ndash Diagramme de classes UML relatif aux seacutequences associeacutees agrave un variant

76 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

123 Formalisation

Les relations deacutecrites entre concepts propres agrave SNP-Ontology et concepts externes sont traduits en sous forme drsquoaxiomes Le Tableau 33 liste les axiomes reliant SNP-Ontology agrave lrsquoAA Ontology etSequence Ontology

SNPO amino_acid equiv AAO AminoAcidSNPO assembly equiv SO assembly (SO 0000353)SNPO contig equiv SO contig (SO 0000149)SNPO chromosome equiv SO chromosome (SO 0000340)SNPO codon ⊒ SO transcription_start_site (SO 0000315)SNPO codon ⊒ SO transcription_stop_site (SO 0000616)SNPO exon ⊒ SO exon (SO 0000147)SNPO intron ⊒ SO intron (SO 0000188)SNPO gene equiv SO gene (SO 0000704)SNPO genome equiv SO genome (SO 0001026)SNPO promotor equiv SO promotor (SO 0000167)SNPO terminator equiv SO terminator (SO 0000141)SNPO cnvr equiv SO copy_number_variation (SO 0001019)SNPO repeated_segment ⊒ SO repeat_region (SO 0000657)SNPO haplotype equiv SO haplotype (SO 0001024)SNPO transcript_region equiv SO transcript_region (SO 0000833)SNPO mature_mrna equiv SO RNA (SO 0000356)SNPO transcript equiv SO transcript (SO 0000673)SNPO genomic_region ⊒ SO QTL (SO 0000771)SNPO genomic_region ⊒ SO pseudogenic_region (SO 0000462)SNPO genomic_region ⊒ SO intergenic_region (SO 0000605)SNPO genomic_region ⊒ SO regulatory_region (SO 0005836)SNPO genomic_region ⊒ SO binding_site (SO 0000409)SNPO genomic_region ⊒ SO haplotype_block (SO 0000355)SNPO genomic_region ⊒ SO chromosome_part (SO 0000830)SNPO genomic_region ⊒ SO regulatory_region (SO 0005836)

T 33 ndash Liste des axiomes deacutecrivant les relations entre concepts propres agrave SNP-Ontology (SNPO) etconcepts externes importeacutes de AA Ontology (AAO) et Sequence Ontology (SO) Les identifiants desconcepts de SO sont donneacutes entre parenthegraveses

124 Impleacutementation

Les Figures 35 et 36 scheacutematisent certains concepts et rocircles de SNP-Ontology Ces deux figurespeuvent ecirctre compareacutees aux diagrammes de classes UML (Figures 33 et 34) pour illustrer la conversionentre diagrammes de classes UML et SNP-Ontology est disponible en OWL-DL sur le Web agrave lrsquoadressesuivante httpwwwloriafr~couletsnpontology14_descriptionphp

Sa version 14 contient 69 concepts dont 21 concepts deacutefinis et 59 rocirclesConcernant la conversion en OWL des ontologies articuleacutees AA Ontology est deacuteveloppeacutee en OWL

donc elle ne neacutecessite aucune conversion En revanche Sequence Ontology est deacuteveloppeacutee dans un for-

1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre 77

Variant

owl Thing

AAVariation

NucelotideVariation

ObservedVariation

Sequence

AASequence

NucleotideSequence

mRNASequence

DNASequence

isminusa

isminusa

isminusa

isminusa

isminusa

isminusa

isminusa

isminusa

isminusa

isminusaSequencePosition

F 35 ndash Repreacutesentation partielle de la hieacuterarchie de concepts de SNP-Ontology impleacutementeacutee en OWL

Variant

Sequence

AAVariation

SequencePosition

inRefSequence

hasSequence

hasAAVariation

stopPosition

owl Class owl ObjectProperty

startPosition

owl DatatypeProperty

1

2

owl ObjectProperty

includeSubSequence

isOneObservedAllele

isObservedIn

hasVariant hasPosition

owl domain

owl range

owl range

owl range

owl range

owl range

owl range

owl range

owl range

owl domain

owl domain

owl domain

owl domain

owl domain

owl domain

owl domain owl range

owl range

owl cardinality

owl minCardinality

owl maxCardinality

intdatatype

rdf

F 36 ndash Repreacutesentation scheacutematique de quelques concepts et rocircles de SNP-Ontology impleacutementeacutes enOWL NB en OWL les concepts sont appeleacutes des classes et les rocircles sont soit des proprieacuteteacutes drsquoobjets(ObjectProperty) soit des proprieacuteteacutes de type de donneacutees (ObjectDataTypeProperty) Les rocircles preacutesententun domaine et un co-domaine (noteacutes respectivement owl domain et owl range) et parfois une contraintede cardinaliteacute (owl minCardinality par exemple)

78 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

mat particulier appeleacute OBO53 il est donc neacutecessaire de la convertir en OWL Cette conversion est reacutealiseacuteeagrave lrsquoaide du plugin BONG de Proteacutegeacute [WSGA03] puis valideacutee manuellement

125 Eacutevaluation

SNP-Ontology et ses relations avec les ontologies externes sont consistantesAssocieacutee agrave un ensemble de wrappers deacuteveloppeacutes speacutecialement et agrave lrsquoapplication SNP-Converter

deacutecrite section 312 SNP-Ontology permet de reacutepondre aux questions de compeacutetence speacutecifieacuteesSNP-Ontology permet de repreacutesenter les connaissances relatives aux variations geacutenomiques qui peu-

vent ecirctre extraites de dbSNP OMIM PharmGKB HapMap et des bases de donneacutees locus speacutecifiquesCes reacutesultats ne sont pas plus deacutetailleacutes ici car lrsquoutilisation de SNP-Ontology pour lrsquointeacutegration de

donneacutees relatives aux variations geacutenomiques (section 31) illustre son eacutevaluation

126 Discussion

SNP-Ontology constitue une premiegravere repreacutesentation formelle des variations geacutenomiques mise agravedisposition via diverses bibliothegraveques drsquoontologies notamment le BioPortal Sa disponibiliteacute lui permetdrsquoecirctre reacuteutiliseacutee discuteacutee et modifieacutee librement par les membres de la communauteacute des bio-ontologies

Un autre atout de lrsquoontologie provient des choix faits lors de sa construction qui sont notamment la prise en compte du contenu des principales bases de donneacutees de variations pour le choix des conceptset lrsquoeacutevaluation de sa capaciteacute agrave ecirctre instancieacutee avec le contenu de ces bases De ces choix reacutesulte unerelative faciliteacute agrave eacutetablir des correspondances entre les donneacutees des bases drsquoune part et les concepts etrocircles de lrsquoontologie drsquoautre part Ce genre de correspondance est indispensable pour deacutefinir les mappingsdonneacutees-ontologie sur lesquels srsquoappuie le processus drsquointeacutegration de donneacutees agrave lrsquoaide drsquoune ontologiedeacutecrit dans la section 2 de ce chapitre Enfin la deacutefinition de relations avec des concepts provenantdrsquoontologies externes permet de reacuteutiliser de faccedilon coheacuterente dans le cadre de SNP-Ontology lrsquoensembledes connaissances speacutecialiseacutees eacutelaboreacutees par des consortiums drsquoexperts comme le -consortium54

53Format OBO httpwwwgeneontologyorgGOformatobo-1_2shtml (Derniegravere visite le 27072008)54-consortium httpwwwgeneontologyorgGOconsortiumlistshtml (Derniegravere visite le 27072008)

1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre 79

13 Construction drsquoune ontologie pour la pharmacogeacutenomique SO-Pharm

131 Speacutecification

Domaine couvert par SO-Pharm SO-Pharm (pour Suggested Ontology for Pharmacogenomics) estune proposition de repreacutesentation formelle des connaissances pharmacogeacutenomiques SO-Pharm articuleplusieurs ontologies des sous-domaines compleacutementaires de la pharmacogeacutenomique ie relatives auxgeacutenotype pheacutenotype meacutedicaments et essais cliniques Elle permet de repreacutesenter des relations phar-macogeacutenomiques entre un meacutedicament une variation geacutenomique et un trait du pheacutenotype SO-Pharmpermet de repreacutesenter eacutegalement des patients et plus geacuteneacuteralement des panels impliqueacutes dans des essaiscliniques et des populations SO-Pharm permet de repreacutesenter les variables mesureacutees chez ces patientscomme lrsquoobservation drsquoun pheacutenotype ou le geacutenotypage de variations geacutenomiques Elle inclut des con-naissances relatives aux eacutetudes de cas agrave lrsquoinvestigation clinique et au test de nouvelles hypothegraveses enpharmacogeacutenomique

Objectifs de SO-Pharm SO-Pharm comme SNP-Ontology est conccedilue pour faciliter lrsquointeacutegration de

donneacutees et lrsquoextraction de connaissances en pharmacogeacutenomique SO-Pharm est notamment deacuteveloppeacuteepour pallier lrsquoabsence drsquoontologie elle regroupe dans une repreacutesentation coheacuterente les ontologies dessous-domaines de la pharmacogeacutenomique

Critegraveres drsquoeacutevaluation particuliers Des exemples de questions de compeacutetence auxquelles SO-Pharmdoit reacutepondre sont

ndash Un patient qui prend un traitement de codeacuteine par voie orale avec une posologie de 50 mg troisfois par jours preacutesente-t-il un risque de faire une reacuteaction adverse

ndash Des troubles neurologiques peuvent-ils ecirctre une conseacutequence drsquoun traitement agrave la codeacuteine ndash Existe-t-il des variations geacutenomiques du gegravene CYP2D6 qui sont associeacutees agrave lrsquoabsence drsquoeffet anal-

geacutesique en reacuteponse agrave la codeacuteine ndash La reacuteponse agrave un traitement de statines est il soumis agrave lrsquoinfluence de facteurs geacuteneacutetiques SO-Pharm doit permettre de repreacutesenter les connaissances pharmacogeacutenomiques qui peuvent ecirctre

extraites de OMIM et PharmGKB ainsi que des connaissances extraites de la litteacuterature du domaine parexemple les reacutesultats rapporteacutes dans [DGDM91 MTB+99 HVK+02 MMK+03]

Liste de sources de donneacutees et de connaissances relatives Dans le cas de SO-Pharm les experts dudomaine ont deacutefini quatre listes de termes relative chacune agrave la description drsquoun sous-domaine diffeacuterent geacutenotype pheacutenotype meacutedicament et essai clinique La liste des sources de donneacutees et de connaissancesrepreacutesenteacutee Tableau 34 est eacutetablie pour enrichir les quatre listes de termes Certaines sources ont eacuteteacuteajouteacutees au cours des diffeacuterentes iteacuterations du processus de construction de SO-Pharm Lrsquoajout drsquounesource peut amegravener agrave lrsquoajout de nouveaux termes de nouveaux concepts et agrave lrsquoarticulation avec denouvelles ontologies Le Tableau 35 repreacutesente les sources de connaissances seacutelectionneacutees pour ecirctrearticuleacutees avec SO-Pharm

132 Conceptualisation

Les trois Figures 37 38 et 39 sont trois diagrammes de classes construits pour la conceptualisationde SO-Parm Ils preacutesentent respectivement la conceptualisation adopteacutee pour la notion drsquoitem clinique

(ie une donneacutee enregistreacutee relative agrave un patient) celle drsquoessai clinique et celle de protocole La FigureD1 en Annexe D propose une vue plus geacuteneacuterale du modegravele conceptuel et permet notamment de situerles uns par rapport aux autres les trois diagrammes de classes preacutesenteacutes La Figure 37 repreacutesente entre

80 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

Nom de la source Type de source Domaine URL

dbSNP Scheacutema XML modegravele de donneacutees geacutenotype http wwwncbinlmnihgovprojectsSNP

HapMap Scheacutema XML geacutenotype http wwwhapmaporg

HGVBase DTD modegravele de donneacutees geacutenotype http hgvbasecgbkise

OMIM Source de donneacutees geacutenotypepheacutenotype

http wwwncbinlmnihgovomim

OMG SNP modegravele de donneacutees geacutenotype http wwwomgorgtechnologydocumentsformalsnphtm

MECV Controlled vocabulary geacutenotype http wwwebiacukmutations

SNP-Ontology Ontologie OWL geacutenotype

AA Ontology Ontologie OWL geacutenotype http wwwco-odeorgontologiesamino-acid

PharmGKB Scheacutema XML modegravele de donneacutees geacutenotypemeacutedicamentpheacutenotype

http wwwpharmgkborg

PharmacogeneticsOntology

Vocabulaire controcircleacute genotypepheacutenotype

http wwwpharmgkborghomeprojectsproject-pojsp

Sequence Ontology Vocabulaire controcircleacute geacutenotype http songsourceforgenet

Gene Ontology Vocabulaire controcircleacute geacutenotype http wwwgeneontologyorg

PubChem Source de donneacutees meacutedicament http pubchemncbinlmnihgov

RX-Norm Vocabulaire controcircleacute meacutedicament http wwwnlmnihgovresearchumlsrxnormindexhtml

ChEBI Vocabulaire controcircleacute meacutedicament http wwwebiacukchebi

CDISC Scheacutema XML pheacutenotype http wwwcdiscorg

ICD-10 Vocabulaire controcircleacute pheacutenotype http wwwwhointclassificationsicd

Disease Ontology Vocabulaire controcircleacute pheacutenotype http diseaseontologysourceforgenet

Mammalian Phenotype Vocabulaire controcircleacute pheacutenotype http wwwinformaticsjaxorgsearchesMP_formshtml

PATO Vocabulaire controcircleacute pheacutenotype http obosourceforgenet

Unit Ontology Vocabulaire controcircleacute pheacutenotype http obosourceforgenet

Pathway Ontology Vocabulaire controcircleacute geacutenotypepheacutenotype

http rgdmcwedutoolsontology

SNOMED-Clinical Vocabulaire controcircleacute pheacutenotype http wwwsnomedorgsnomedctglossaryhtml

Family Bond Ontology Ontologie OWL essaiclinique

http wwwloriafrsimcouletontologyfamilybondversion01f-amilybondowl

Clinical Trial Ontology Ontologie OWL essaiclinique

http wwwbioontologyorgwikiindexphpCTO Main_Page

Ontology of BiomedicalInvestigations

Ontologie OWL essaiclinique

http obisourceforgenet

OBO relationship types Vocabulaire controcircleacute meacuteta-ontologie

http wwwobofoundryorgro

Basic Formal Ontology Ontologie OWL meacuteta-ontologie

http wwwifomisorgbfo

T 34 ndash Liste des sources exploreacutees pour enrichir la liste de termes relatifs aux sous-domaines de lapharmacogeacutenomique La troisiegraveme colonne preacutecise le sous-domaine que la source concerne Les vocab-ulaires controcircleacutes eacutetoileacutes () sont des ontologies OBO

autres les deux types principaux drsquoitem cliniques les items relatifs au geacutenotype (Genotype item) et lesitems relatifs au pheacutenotype (Phenotype item) Les premiers peuvent ecirctre des variants comme deacutefinis pourSNP-Ontology Les seconds peuvent ecirctre composeacutes agrave lrsquoaide des concepts deacutecrits pour lrsquoontologie PATOLa Figure 38 preacutesente notamment qursquoun item clinique (Clinical item) est mesureacute durant un eacutevenement(Clinical trial event) deacutefini dans le cadre drsquoun essai clinique est mesureacute chez un individu (Individual)

1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre 81

Nom Description Pre f ixe Namespace

SNP-Ontology Variations geacutenomiques SNPO ~ontologysnpontologyversion15snpontology_fullowl

Mutation Event Ont Classification des variations MEO ~ontologymeoversion10meoowl

AA Ontology acides amineacutes AAO http wwwco-odeorgontologiesamino-acid20051011a-mino-acidowl

Sequence Ontology Seacutequences et variations SO http purlorgoboowlSO

Pharmacogenetics Ont Meacutethodes de geacutenotypage etde mesures

PGO ~ontologysopharmversion20pharmacogeneticsontologyowl

Disease Ontology Classification des maladies DOID ~ontologysopharmversion20diseaseontologyowl

Mammalian Phenotype Critegraveres relatifs au pheacutenotype MP http purlorgoboowlMP

PATO Attributes et valeurs pour lepheacutenotype

PATO ~ontologypatoversion133qualityowl

Unit Ontology Uniteacutes de mesures UO ~ontologyunitversion19unitowl

ChEBI Composeacute moleacuteculaires CHEBI ~ontologysopharmversion20chebiowl

Family Bond Ont Liens de parenteacute FB ~ontologyfamilybondversion01familybondowl

Clinical Trial Ontology Protocole CTO http wwwowl-ontologiescomOntology1178899652owl

Ontology of BiomedicalInvestigation

Protocole OBI http obisourceforgenetontologyOBIowl

Relationship Ontology Types de relation OBO_REL http wwwobofoundryorgroroowl

Biomedical FunctionOntology

Meacuteta-ontologie BFO http wwwifomisorgbfo10

T 35 ndash Les 15 ontologies articuleacutees avec SO-Pharm Le preacutefixe repreacutesenteacute par le symbole ~ correspondagrave lrsquoURL http wwwloriafr~coulet

et est mesureacute selon une meacutethode (Measurement method) deacutefinie dans le cadre drsquoun protocole (Clinicaltrial protocole)La Figure 39 repreacutesente notamment qursquoun protocole peut ecirctre composeacute drsquoun traitementmeacutedicamenteux (Drug treatment) composeacute drsquoun meacutedicament (Drug) et drsquoune posologie (Posology) preacute-cise

133 Formalisation

La formalisation des relations avec les concepts des ontologies seacutelectionneacutees est rapporteacutee dans leTableau 36

134 Impleacutementation

SO-Pharm est disponible en OWL sur le Web agrave lrsquoadresse suivante httpwwwloriafr~couletsopharm20_descriptionphp

La version 20 alpha contient 70 concepts dont 37 concepts deacutefinis et 56 rocircles En incluant les on-tologies articuleacutees avec SO-Pharm le nombre de concepts srsquoeacutelegraveve agrave 84786 et celui des rocircles agrave 189 Cenombre important de concepts est en grande partie ducirc au nombre eacuteleveacute de concepts deacuteriveacutes des vocabu-laires speacutecialiseacutes comme ChEBI ou Disease Ontology dont le nombre de termes atteint par exemple 15192 pour la version 46 de ChEBI

Concernant la conversion en OWL des ontologies articuleacutees elle deacutepend du format drsquoorigine dechaque ontologie Par exemple sont disponibles en OWL et ne neacutecessitent donc aucune conversionSNP-Ontology AA Ontology CTO OBI BFO Les ontologies disponibles dans le format OBO sontconverties agrave lrsquoaide du plugin BONG de Proteacutegeacute [WSGA03] puis valideacutees manuellement Les ontologies

82 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

F 37 ndash Diagramme de classes UML centreacute sur la conceptualisation des items cliniques

F 38 ndash Diagramme de classes UML centreacute sur la conceptualisation drsquoessais cliniques

F 39 ndash Diagramme de classes UML centreacute sur la conceptualisation drsquoun protocole drsquoessai clinique

1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre 83

SOPHARM phenotype_item ⊒MP phenotype_ontology (MP 0000001)SOPHARM disease_diagnostic ⊒ DOID disease_and_injuries (DOID 952)SOPHARM surgical_operation ⊒ DOID procedures (DOID 1008)SOPHARM drug ⊒ CHEBI drug (CHEBI 23888)SOPHARM chemical_compound ⊒ CHEBI molecular_entities (CHEBI 23367)SOPHARM chemical_compound ⊒ CHEBI unclassified (CHEBI 27189)SOPHARM chemical_compound ⊒ OBI ChEBI_objects (OBI 263)SOPHARM chromosome_variation ⊒ SO chromosome_variation (SO 0000240)SOPHARM genomic_variation ⊑ SNPO variantSOPHARM genomic_variation ⊒MEO genomic_variation (MEO 001)SOPHARM observed_allele equiv SNPO sequence ⊓ forall isPartOfSOPHARM genomic_genotypeSOPHARM population ⊒ SNPO populationSOPHARM genotype_measurement_method ⊒ PGO genotyping_methodsSOPHARM phenotype_measurement_method ⊒ PGO phenotyping_methodsSOPHARM phenotype_measurement_method ⊒ CTO observationsSOPHARM phenotype_item ⊑(forall PATO is_magnitude_ofPATO quality ⊓ =1 PATO is_magnitude

_of) ⊔ (forall PATO is_measurement_ofPATO quantitative ⊓ =1 PATO is_measurement_of)SOPHARM phenotype_item ⊑ forall PATO has_unitUO unit ⊓ =1 PATO has_unitSOPHARM drug_dose ⊑ PATO physical_quality ⊓ BFO qualitySOPHARM drug_dose ⊑ forall PATO has_unitUO unit ⊓ =1 PATO has_unitSOPHARM administration_frequency ⊑ PATO frequency ⊓ BFO qualitySOPHARM administration_frequency ⊑ forall PATO has_unitUO unit ⊓ =1 PATO has_unitSOPHARM person ⊑ FB family_member

T 36 ndash Les principaux axiomes deacutecrivant des relations entre les concepts propres agrave SO-Pharm(SOPHARM) et les concepts externes des ontologies articuleacutees (voir Tableau 35) Les identifiants desconcepts associeacutes sont donneacutes entre parenthegraveses lorsqursquoils existent La liste complegravete inclut eacutegalementdes axiomes qui formalisent des relations entre rocircles

disponibles sous drsquoautres formats sont converties manuellement Crsquoest le cas de lrsquoontologie Pharmaco-

genetics Ontology disponible en HTML ou de lrsquoontologie Mutation Event Ontology construite agrave partirdu vocabulaire controcircleacute Mutation Event Controlled Vocabulary et drsquoune partie de Sequence Ontology

135 Eacutevaluation

Le grand nombre de concepts articuleacutes limite lrsquoutilisation des meacutecanismes de raisonnement qui per-mettent la validation de la consistance et la classification des concepts Les impleacutementations actuelles deces meacutecanismes sont sensibles agrave la complexiteacute de la utiliseacutee (ici SHOIN(D)) mais aussi au nombrede concepts de lrsquoontologie Aussi pour valider la consistance et permettre la classification des conceptssur une station de travail (CPU Intel Pentium M 18GHz RAM 2 Go) nous avons utiliseacute les meacutecan-ismes de raisonnement sur lrsquoensemble des paires drsquoontologies possibles (SO-Pharm ndash Disease Ontologypuis SO-Pharm ndash ChEBI puis etc)

Associeacutee agrave un ensemble de wrappers deacuteveloppeacutes speacutecialement SO-Pharm permet de reacutepondre auxquestions de compeacutetences speacutecifieacutees Lrsquoutilisation de SO-Pharm dans le cadre drsquoextraction de connais-sances en pharmacogeacutenomique (voir section 24 du chapitre 4) permet notamment de mieux reacutepondre agraveces questions

SO-Pharm permet de repreacutesenter les connaissances pharmacogeacutenomiques qui peuvent ecirctre extraites

84 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

de OMIM et PharmGKB ainsi que des connaissances extraites de la litteacuterature du domaine par exempleles reacutesultats rapporteacutes dans [DGDM91 MTB+99 HVK+02 MMK+03] SO-Pharm permet eacutegalement derepreacutesenter de nouvelles hypothegraveses de connaissances pharmacogeacutenomiques comme lrsquoassociation entreune variation geacutenomique un traitement et un ensemble de signes relevant drsquoun pheacutenotype Lrsquoutilisationde SO-Pharm dans lrsquoobjectif drsquoextraire des connaissances deacutecrite chapitre 4 a permi lrsquoeacutevaluation puislrsquoameacutelioration de lrsquoontologie

136 Discussion

Au final la construction manuelle de lrsquoontologie SO-Pharm propose une mise en correspondancecoheacuterente de quinze ontologies seacutelectionneacutees Lrsquoavantage est la maicirctrise de la coexistence de conceptsdont lrsquointerpreacutetation est eacutequivalente ou se recouvre de maniegravere plus ou moins partielle et surtout demaniegravere plus ou moins ambigueuml La construction et la mise en correspondance manuelles demandentun effort important qui est justifieacute par la possibiliteacute reacutesultante de repreacutesenter des connaissances phar-macogeacutenomiques en instanciant des relations existant entre plusieurs ontologies de sous-domaines etde raisonner sur ces connaissances de faccedilon coheacuterente par les meacutecanismes de raisonnement classiquesDe faccedilon similaire agrave SNP-Ontology SO-Pharm preacutesente lrsquoavantage de proposer agrave la communauteacute unepremiegravere repreacutesentation formelle de son domaine avec lrsquoobjectif de faciliter sa reacuteutilisation et son eacutevo-lution Pour aller dans ce sens les derniegraveres versions de SO-Pharm satisfont aux exigences de qualiteacuteproposeacutees par lrsquoOBO Foundry Ces deacuteveloppements permettent agrave SO-Pharm de faire partie de lrsquoOBOFoundry55 Des indications sur la faccedilon dont SO-Pharm reacutepond aux critegraveres de cette forge particuliegraveresont disponibles en ligne httpwwwloriafr~couletontologysopharmversion20foundry_requirementsphpIl est inteacuteressant de noter que certains de ces critegraveres font deacutebat et notamment le principe drsquoorthogona-

liteacute selon lequel le domaine recouvert par une nouvelle ontologie ne doit pas chevaucher celui des on-tologies existantes dans la forge Ce principe cherche agrave favoriser lrsquoameacutelioration des ontologies existantesde faccedilon communautaire plutocirct qursquoau deacuteveloppement drsquoontologies concurrentes pour un mecircme domaineCe point est discutable drsquoune part parce que la notion drsquoorthogonaliteacute nrsquoest pas deacutefinie de faccedilon preacuteciseet drsquoautre part parce qursquoune ontologie est une repreacutesentation drsquoun domaine selon un point de vue parti-culier Par conseacutequent deux ontologies peuvent repreacutesenter selon deux points de vues diffeacuterents un seulet mecircme domaine Pour cette raison les critegraveres drsquoinclusion drsquoOBO-Foundry sont discuteacutes au sein de lacommunauteacute et sont ameneacutes agrave eacutevoluer

55httpobofoundryorgcgi-bindetailcgiid=pharmacogenomics

2 Inteacutegration de donneacutees guideacutee par une ontologie 85

2 Inteacutegration de donneacutees guideacutee par une ontologie

21 Description geacuteneacuterale de lrsquoapproche proposeacutee

F 310 ndash Architecture geacuteneacuterale de notre systegraveme drsquointeacutegration de donneacutees Lrsquoontologie utiliseacutee par lemeacutediateur est la mecircme que celle qui constitue la TBox de la Base de Connaissances

Malgreacute lrsquoexistence drsquoarchitectures de reacutefeacuterence ([CGL+98] par exemple) il nrsquoexiste pas drsquoarchi-tecture standard pour les systegravemes drsquointeacutegration de donneacutees fondeacutes sur une ontologie Lrsquoarchitecturerepreacutesenteacutee Figure 310 que nous avons choisie peut ecirctre compareacutee agrave celle drsquoune approche meacutediateurcomme deacutecrit dans le chapitre 2 les diffeacuterentes sources sont mises en correspondance avec un vocabu-laire global dont la particulariteacute ici est drsquoecirctre une ontologie lrsquoextraction des donneacutees est prise en chargepar des wrappers et centraliseacutee sous forme drsquoune reacuteponse unique par le meacutediateur Des mappings deacutefinisentre chaque source de donneacutees et lrsquoontologie permettent la traduction de requecirctes pour lrsquointerrogationdes sources puis en sens inverse la traduction des reacuteponses aux requecirctes Crsquoest dans cette derniegravere phaseque reacuteside la distinction et lrsquoapport majeur de notre approche En effet le meacutediateur eacutelabore agrave lrsquoaide deswrappers en reacuteponse agrave une requecircte utilisateur une liste drsquoassertions qui sert agrave instancier (ou peupler) la associeacutee agrave lrsquoontologie

Le deacuteclanchement de lrsquointeacutegration consiste en la soumission drsquoune requecircte par lrsquoutilisateur La re-quecircte initiale est deacutecrite dans les termes de lrsquoontologies et le meacutediateur la traduit en requecirctes sur lesscheacutemas locaux des sources de donneacutees la traduction de la requecircte de lrsquoutilisateur dans les termes desscheacutemas locaux suit des approches deacutejagrave deacutecrites [CGLV01 Len02] nous ne deacutetaillons pas cette pre-miegravere phase En revanche les sections suivantes preacutesentent plus amplement la faccedilon dont sont deacutefinisles mappings entre les sources de donneacutees et lrsquoontologie puis deacutecrit lrsquointeraction entre les wrappers et lemeacutediateur

Dans la suite de cette section nous consideacuterons chacune des sources comme une base de donneacutees

posseacutedants un scheacutema propre sur lequel il est possible drsquoexeacutecuter des requecirctes

R Nous nous limitons ici agrave lrsquoutilisation des bases de donneacutees mais il pourrait ecirctre envis-ageable de deacutevelopper des wrappers mettant en oeuvre des meacutethodes de Traitement Automatique de laLangue (TAL) pour peupler la

86 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

22 Deacutefinition des mappings donneacuteesndashassertions

Pour chaque base de donneacutees consideacutereacutee la deacutefinition drsquoune requecircte dans les termes de son scheacutemaet la transformation de la reacuteponse agrave cette requecircte en une liste drsquoassertions srsquoappuient sur un mappingdonneacutees-assertions [PLC+08] Ces mappings sont deacutefinis au preacutealable manuellement et en consideacuterationdes connaissances drsquoexperts du domaine

Deacutefinition 31 (Mapping donneacutees ndash assertions) Soit un quadruplet (SMdminusa FO) ougrave

ndash S est le scheacutema drsquoune base de donneacutees ie un ensemble de relations n-aires de la forme R(A1 A2

An) et de domainenprod

i=1Di tels que Ai est lrsquoattribut drsquoindice i et de domaine Di

ndash O est une ontologie ie les concepts drsquoun domaine et les rocircles qui deacutecrivent les relations entre ces

concepts

ndash Mdminusa est un ensemble drsquoassociations entre des donneacutees et des assertions dont chacune est de la

forme

Φ Ψ

ougrave Φ est une requecircte arbitraire sur la base de donneacutees de scheacutema S et Ψ est un ensemble drsquoasser-

tions de concepts et drsquoassertions de rocircles de lrsquoontologie O

ndash Enfin F un ensemble de fonctions de la forme fi(v) applicables aux diffeacuterentes valeurs reacutesultant

des requecirctes Φ pour les transformer en noms drsquoindividus dans Ψ

Les fonctions de F appliqueacutees sur les valeurs des attributs sont deacutefinies de telle sorte que ndash deux valeurs drsquoattribut distinctes dans une ou plusieurs bases de donneacutees donnent lieu agrave deux noms

drsquoindividus distincts dans la ndash deux valeurs drsquoattributs potentiellement distinctes mais qui font reacutefeacuterence agrave la mecircme entiteacute dans

des bases de donneacutees diffeacuterentes donnent lieu agrave la creacuteation drsquoun seul et mecircme nom drsquoindividundash pour chaque mapping impliquant fi isin F il est possible de deacutefinir une fonction inverse noteacutee f minus1

i

qui permet agrave partir drsquoun identifiant drsquoindividu de la de retrouver la valeur correspondante dansune base de donneacutees

Les fonctions peuvent ecirctre deacutefinie soit manuellement soit par des heuristiques Comme lrsquoillustre lasuite de la thegravese (chapitre 3 section 31 et chapitre 4 section 1) une fonction peut notamment ecirctre unecomposition drsquoautres fonctions ou prendre en compte les valeurs prises par drsquoautres attributs

Lrsquoeacutetape de peuplement de la associeacutee agrave lrsquoontologie O revient agrave ajouter agrave la pour lrsquoensembledes n-uplets reacuteponses aux requecirctes Φ lrsquoensemble des assertions de concepts et des assertions de rocircles Ψdu mappingMdminusa deacutefini entre le scheacutema S et lrsquoontologie O Les individus impliqueacutes dans les assertionsdu mapping qui nrsquoexistent pas encore dans la associeacutee agrave O sont creacuteeacutes De cette faccedilon les fonctionsappliqueacutees aux valeurs drsquoattributs peuvent ecirctre utiliseacutees pour nettoyer transformer homogeacuteneacuteiser le con-tenu des bases de donneacutees lors de lrsquoinstanciation

Exemple Soit BD1 et BD2 deux bases de donneacutees dont les scheacutemas S1 et S2 contiennent respective-ment les deux relations suivantes R1 et R2

R1 (A1 A2 A3)R2 (A1 B2 B3)

Dans cet exemple nous consideacuterons que les attributs A1 de R1 et de R2 sont identiques ils ont le mecircmenom font reacutefeacuterence au mecircme concept et leurs valeurs sont repreacutesenteacutees en suivant la mecircme syntaxeLes attributs A2 et B2 font reacutefeacuterence agrave un mecircme concept mais leurs valeurs sont repreacutesenteacutees suivant dessyntaxes diffeacuterentes ce qui rend neacutecessaire lrsquoutilisation de fonctions diffeacuterentes ( f2 et f4) pour qursquoelles

2 Inteacutegration de donneacutees guideacutee par une ontologie 87

soient transformeacutees en identifiants drsquoindividus qui suivent une syntaxe homogegravene Les attributs A3 et B3

font reacutefeacuterence agrave des concepts diffeacuterentsDeux exemples de deacutefinition de mapping possibles Mdminusa A entre la base de donneacutees BD1 et lrsquoon-

tologie O et Mdminusa B entre BD2 et la mecircme ontologie O sont preacutesenteacutes ci-apregraves sous la forme de lrsquoas-sociation entre une requecircte SQL et une liste drsquoassertions en Les notations sont inspireacutees de Poggi et

al [PLC+08] En particulier on utilise la notation f1(A1) pour repreacutesenter de faccedilon geacuteneacuterique le nom dechaque individu ce qui correspond agrave lrsquoimage de la fonction f1 associeacutee agrave chaque valeur prise par lrsquoattributA1 dans la requecircte SQL

Mdminusa 1 ConceptUn( f1(A1))ConceptDeux( f2(A2))

SELECT A1 A2 A3 RoleUnVersDeux( f1(A1) f2(A2))FROM R1 RoleUnVersDeuxminus( f2(A2) f1(A1))

ConceptTrois( f3(A3))RoleUnVersTrois( f1(A1) f3(A3))RoleUnVersTroisminus( f3(A3) f1(A1))

Mdminusa 2 ConceptUnS peci f ique( f1(A1))ConceptDeux( f4(B2))

SELECT A1 B2 B3 RoleUnVersDeux( f1(A1) f4(B2))FROM R2 RoleUnVersDeuxminus( f4(B2) f1(A1))WHERE B3 =ldquoaSpecificValuerdquo ConceptQuatre( f5(B3))

RoleUnVersQuatre( f1(A1) f5(B3))RoleUnVersQuatreminus( f5(B3) f1(A1))

Suivant notre exemple consideacuterons les deux tuples suivants reacuteponses respectives aux requecirctes deMdminusa 1 etMdminusa 2 sur BD1 et BD2 et les listes drsquoassertions qui leurs sont associeacutees suivant les mappings

ConceptUn(a_1)ConceptDeux(a_2)RoleUnVersDeux(a_1 a_2)

(a1a2a3) RoleUnVersDeuxminus(a_2 a_1)ConceptTrois(a_3)RoleUnVersTrois(a_1 a_3)RoleUnVersTroisminus(a_3 a_1)

ConceptUnS peci f ique(a_1)ConceptDeux(a_2)RoleUnVersDeux(a_1 a_2)

(a1b2b3) RoleUnVersDeuxminus(a_2 a_1)ConceptQuatre(b_3)RoleUnVersQuatre(a_1 b_3)RoleUnVersQuatreminus(b_3 a_1)

Ainsi les deux valeurs respectives a2 et b2 des deux attributs A2 et B2 sont transformeacutes par lesfonctions f2 et f4 en un mecircme nom drsquoindividu a_2 ce qui permet la creacuteation drsquoun seul individu identifieacutepar a_2 et instance du concept ConceptDeux dans la

ConceptDeux(a_2)

88 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

Aussi si

ConceptUnS peci f ique ⊑ ConceptUn

le deuxiegraveme mapping apporte une nouvelle connaissance de par le fait que a_1 instancie non seulementConceptUn mais eacutegalement ConceptUnS peci f ique Les assertions du rocircle RoleUnVersDeux et de soninverse proposeacutees par le deuxiegraveme mapping (Mdminusa 2) sont redondantes avec les assertions proposeacutees parle premier mapping (Mdminusa 1) En conseacutequence elles ne seront pas ajouteacutees agrave la En revanche le deux-iegraveme mapping apporte une nouvelle connaissance en instanciant avec a_1 le rocircle RoleUnVersQuatre etson inverse Un exemple concret de mapping est donneacute dans ce chapitre en section 312

Il est important de remarquer que la deacutefinition drsquoun mapping en collaboration avec lrsquoexpert neacutecessitelrsquoexistence dans lrsquoontologie O des concepts et des rocircles approprieacutes qui pourront ecirctre instancieacutes dans la Si les concepts et le rocircles adeacutequats nrsquoexistent pas la deacutefinition du mapping constitue une motivationpour la mise agrave jour et lrsquoameacutelioration de lrsquoontologie

Compareacute au triplet (GSM) (associant un scheacutema global les scheacutemas des sources et les mappingsentre G et S voir section 312 du chapitre 2 et [Len02]) qui suffit agrave deacutecrire les eacuteleacutements de base drsquoun sys-tegraveme drsquointeacutegration notre approche inclut de faccedilon suppleacutementaire un ensemble de fonctions qui garantitla transformation des valeurs en identifiants drsquoindividus Le fait que chaque ensemble de fonctions soitpropre agrave une base de donneacutees et deacutefini sans ambiguiteacute permet que chaque fonction soit capable inverse-ment de transformer un identifiant drsquoindividu en une valeur de la base

23 Description de lrsquointeraction wrapperndashmeacutediateur

La premiegravere interaction entre meacutediateur et wrapper intervient lorsqursquoun utilisateur eacutemet une requecirctePar exemple ldquoQuelles sont les variations geacutenomiques et les meacutedicaments associeacutes agrave la maladie appeleacutee

Hypercholesteroleacutemie Familialerdquo Suivant le fonctionnement classique le meacutediateur prend en charge larequecircte et lrsquoadapte au scheacutema de chaque base de donneacutees Les wrappers exeacutecutent les requecirctes adapteacuteesaux diffeacuterents scheacutemas et reacutecupegraverent les donneacutees en reacuteponse

Ensuite le meacutediateur permet gracircce aux mappingsMdminusa (deacutetailleacutes dans la deacutefinition 31) drsquoinstancierla associeacutee agrave lrsquoontologie en transformant de faccedilon indeacutependante la reacuteponse transmise par un wrapper enune liste drsquoassertions de concepts et drsquoassertions de rocircles ajouteacutee agrave la Les wrappers ne communiquentpas entre eux mais le meacutediateur interagit avec la et adapte ainsi lrsquoinstanciation au contenu de la qui se peuple progressivement Si lrsquoon reprend lrsquoexemple de la requecircte relative agrave lrsquoHypercholesteacuteroleacutemieFamiliale lorsque le wrapper 2 extrait des donneacutees relatives agrave une variation geacutenomique il est possibleque le meacutediateur ait deacutejagrave creacuteeacute des individus relatifs agrave la mecircme variation en conseacutequence des donneacuteestransmises par le wrapper 1 Dans ce cas le meacutediateur nrsquoeacutecrase pas les connaissances deacutejagrave disponiblesdans la mais les complegravete si possible Au final le meacutediateur enchaicircne une seacuterie drsquoinstanciations co-heacuterentes entre elles et avec lrsquoontologie pour inteacutegrer les reacuteponses successives des diffeacuterentes bases dedonneacutees

24 Bilan

Lrsquoapproche drsquointeacutegration de donneacutees proposeacutee dans cette section srsquoinspire amplement (1) des archi-tectures classiques des systegravemes drsquointeacutegration de donneacutees [Hal01 CG05] et (2) de reacutesultats theacuteoriquesdeacutecrit reacutecemment sur la formalisation des mappings donneacuteesndashontologies [PLC+08] La principale orig-inaliteacute proposeacutee ici est drsquoutiliser et drsquoadapter ces reacutesultats theacuteoriques au cadre drsquoune architecture opeacutera-

2 Inteacutegration de donneacutees guideacutee par une ontologie 89

tionnelle qui peut ainsi articuler ainsi agrave la fois base de donneacutees et Base de Connaissances

Lrsquoapproche proposeacutee a comme principal inconveacutenient qursquoelle neacutecessite pour chaque source dedeacutefinir un mapping donneacuteesndashassertions adapteacute et de deacutevelopper le wrapper associeacute En contre-partiecette meacutethode beacuteneacuteficie des avantages de lrsquoapproche meacutediateur en terme drsquoindeacutependance vis agrave vis dessources de nouvelles sources peuvent ecirctre inteacutegreacutees sans que lrsquoontologie ne soit transformeacutee Cepen-dant si une source contient des donneacutees encore non consideacutereacutees qursquoil se reacutevegravele inteacuteressant drsquointeacutegrerlrsquoontologie peut neacutecessiter drsquoecirctre enrichie par lrsquoaddition de concepts rocircles axiomes de telle sorte que lesnouvelles donneacutees puissent correspondre agrave des assertions de la

Une autre limite provient des technologies actuelles de gestion de Les opeacuterations de raisonnementet notamment drsquointerrogation sur une sont probleacutematiques lorsque la TBox ou la ABox deviennent tropvolumineuses Cette limite est accentueacutee lorsque le langage de repreacutesentation des connaissances est drsquouneexpressiviteacute plus importante et les meacutecanismes de raisonnement plus complexes Notre approche eacutevite lepeuplement drsquoune trop volumineuse comme cela pourrait ecirctre le cas par une approche entrepocirct Ainsiune requecircte tregraves speacutecifique dont la reacuteponse contient un nombre de tuples restreint entraicircne la constitutiondrsquoune tout aussi speacutecifique et peu volumineuse Une requecircte plus geacuteneacuterale donnera une reacuteponse doteacuteede plus de tuples et constituera une eacutegalement plus geacuteneacuterale et plus volumineuse En revanche notreapproche permet drsquointeacutegrer successivement les reacuteponses de diffeacuterentes requecirctes dans la mecircme dont lecontenu srsquoeacutelargira au fur et agrave mesure De ce point de vue notre approche preacutesente certains des avantagesdes approches drsquointeacutegration type entrepocirct puisque la peupleacutee par une ou plusieurs requecirctes beacuteneacuteficiedrsquoune part de lrsquointeacutegration de donneacutees et drsquoautre part de la seacutemantique associeacutee aux donneacutees

Le fait de disposer des donneacutees inteacutegreacutees sous forme drsquoassertions dans une nous inteacuteresse partic-uliegraverement puisque cela permet tout drsquoabord de repreacutesenter des relations qui ne peuvent pas lrsquoecirctre dansle cadre drsquoune base de donneacutees relationnelle classique comme par exemple repreacutesenter le fait que deuxrepreacutesentations distinctes (par exemple de deux variations geacutenomiques) font reacutefeacuterence agrave une seule etmecircme entiteacute Cela permet eacutegalement agrave lrsquoaide des meacutecanismes de raisonnement de valider la consistancedu modegravele de classifier les individus de lrsquoontologie Enfin comme nous lrsquoexposons dans le chapitre 4la seacutemantique associeacutee agrave la peut ecirctre utiliseacutee pour guider lrsquoextraction de connaissances implicites ounouvelles et potentiellement utiles par exemple en utilisant des meacutethodes de fouille de donneacutees sur lesassertions de la

Les deux sections suivantes (31 et 32) illustrent lrsquoutilisation pour lrsquointeacutegration de donneacutees des deuxontologies dont la construction est deacutecrite en section 1

90 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

3 Expeacuterimentation

Cette section preacutesente les reacutesultats drsquoimpleacutementation et de mise en œuvre de lrsquoapproche proposeacuteesection 2 pour lrsquointeacutegration de donneacutees guideacutee par une ontologie Les reacutesultats rapporteacutes ont eacuteteacute obtenusdans le cadre drsquoexpeacuterimentation sur des donneacutees relatives aux variations geacutenomiques tout drsquoabord puisagrave la pharmacogeacutenomique

31 Inteacutegration de donneacutees relatives aux variations geacutenomiques SNP-Converter

La section 23 du chapitre 1 et notamment sa Figure 12 illustre les nombreuses faccedilons de deacutesignerde faccedilon unique une variation geacutenomique dans les bases de donneacutees publiques et priveacutees Il est importantde noter que certaines notations non-conventionnelles (regroupeacutees sous la section c dans la Figure 12)sont ambigueumls la premiegravere description ne mentionne pas le nucleacuteotide de reacutefeacuterence la troisiegraveme et laquatriegraveme font reacutefeacuterence agrave deux versions diffeacuterentes de la mecircme proteacuteine sans preacuteciser de quelle versionil srsquoagit

Lrsquoeacutevaluation preacutecise du recouvrement entre les bases de donneacutees de variations geacutenomiques est cru-ciale dans le cadre du deacuteveloppement de diagnostics geacuteneacutetiques et de lrsquoexploration du variome (ie

lrsquoensemble des variations du geacutenome humain) [dDP03 RKC06 Spe08] Cette tacircche est rendue partic-uliegraverement deacutelicate agrave cause du nombre important de repreacutesentations diffeacuterentes et pourtant eacutequivalentesAussi un systegraveme capable drsquoeacutetablir cette eacutequivalence est neacutecessaire pour des investigations impliquant lrsquoanalyse de variations geacutenomiques et de cette faccedilon est neacutecessaire comme base agrave une exploration avanceacuteede la pharmacogeacutenomique qui prend en consideacuteration les nombreuses donneacutees recueillies dans le do-maine [AK02]

311 Les solutions drsquointeacutegration existantes

Une premiegravere solution au problegraveme de la repreacutesentation heacuteteacuterogegravene des variations consiste en laconstruction drsquoune base de donneacutees unique qui permette un accegraves agrave lrsquoensemble des variants contenus ini-tialement dans diffeacuterentes sources Crsquoest lrsquoobjectif de la base de donneacutees dbSNP du NCBI qui est la plusgrande source de variations disponible sur le Web (voir la section 22 du chapitre 1) En plus de contenirles variations qui lui sont directement soumises dbSNP integravegre des donneacutees provenant drsquoautres grandesbases de donneacutees de variations geacutenomiques comme la base NCI CGAP-GAI HGVBase HapMap Perl-gen Un avantage strateacutegique de dbSNP est de faire partie des bases de donneacutees du NCBI (entre autresGenBank PubMed Gene Human Genome Project Data) et agrave ce titre drsquoecirctre interrogeable par le systegravemefeacutedeacutereacute Entrez [Bax06] Un inconveacutenient de dbSNP est de ne pas permettre la coexistence de donneacuteespubliques et de donneacutees priveacutees relatives agrave des variations que les biologistes ne souhaitent pas diffuser(par exemple une nouvelle variation ou une nouvelle annotation)

TAMAL (Time and Money are Limiting) [HSS06] et LS-SNP (Large-Scale annotation of coding non-

synonymous SNPs) [KDK+05] sont des systegravemes drsquointeacutegration de donneacutees alternatifs principalementbaseacutes sur le contenu de dbSNP mais dont lrsquoavantage est de proposer des annotations suppleacutementaireset des faciliteacutes de seacutelection de SNP drsquointeacuterecirct pour la conception drsquoeacutetudes cliniques Ces SNP drsquointeacuterecirctpeuvent ecirctre les SNP susceptibles drsquoecirctre associeacutes agrave une maladie et donc inteacuteressants agrave geacutenotyper chezles patients enrocircleacutes Ces deux systegravemes partagent lrsquoinconveacutenient de dbSNP qui est de ne pas permettrelrsquointeacutegration de donneacutees tierces

312 SNP-Converter un systegraveme de conversion et drsquointeacutegration de variations geacutenomiques

SNP-Converter est un outil original deacuteveloppeacute pour lrsquointeacutegration de donneacutees relatives aux variationsgeacutenomique en suivant lrsquoapproche deacutecrite section 2 (voir Figure 311) SNP-Converter utilise lrsquoontologie

3 Expeacuterimentation 91

F 311 ndash Architecture de SNP-Converter suivant celle proposeacutee Figure 310

SNP-Ontology pour repreacutesenter par un ensemble drsquoassertions de concepts et de rocircles nrsquoimporte quelvariant quelle que soit sa description initiale Gracircce agrave cette capaciteacute des donneacutees contenues dans dessources heacuteteacuterogegravenes peuvent ecirctre mises correspondance avec les concepts et rocircles de SNP-Ontologypar lrsquointermeacutediaire de mappings donneacuteesndashassertions Suivant ces mappings SNP-Converter permet lepeuplement drsquoune associeacutee agrave SNP-Ontology et appeleacutee SNP-KB

Tels qursquoils sont deacutecrits dans la deacutefinition 31 les mappings donneacutees-assertions sont associeacutes agrave un en-semble de fonction F qui assure la transformation des valeurs des bases de donneacutees en noms drsquoindividusqui viennent peupler la De part lrsquoheacuteteacuterogeacuteneacuteiteacute des donneacutees relatives aux variations geacutenomiques cetensemble de fonction est particuliegraverement important dans SNP-Converter puisqursquoelles sont utiliseacutees pourreacutealiser la conversion de la description drsquoune variation geacutenomique en une autre Ensuite lrsquointeacutegration

proprement dite est effectueacutee par SNP-Converter qui est capable drsquoestimer lrsquoeacutequivalence entre deux de-scriptions converties en un format pivot ie un jeu de quatre attributs (deacutecrit ci-apregraves) qui identifie defaccedilon unique une variation geacutenomique

Reacutealiser la conversion de la description drsquoune variation geacutenomique en une autre ou eacutetablir lrsquoeacutequiv-alence entre deux descriptions sont des opeacuterations qui font intervenir des connaissances explicites dudomaine des connaissances relatives agrave la structure du gegravene la deacutefinition drsquoun transcrit ou encore aucode geacuteneacutetique Lrsquoune des raisons qui a motiveacute la construction de SNP-Ontology eacutetait justement defournir une repreacutesentation de ces connaissances sur laquelle srsquoappuyer afin de permettre la conversionla comparaison et au final lrsquointeacutegration de ce type de donneacutees

Un variant est une variation observeacutee localiseacutee sur une position preacutecise le long drsquoune seacutequence Lavariation observeacutee peut ecirctre une variation de nucleacuteotides ou drsquoacides amineacutes selon que la seacutequence quisert de reacutefeacuterence agrave sa localisation est un acide nucleacuteique (ie ADN ou ARN) ou une proteacuteine Cettedeacutefinition reflegravete agrave la fois le standard proposeacute par la nomenclature HGVS et la conceptualisation deSNP-Ontology Elle implique qursquoune variation soit deacutecrite au minimum par un jeu de quatre attributs

(i) lrsquoidentifiant drsquoune seacutequence de reacutefeacuterence (ie son numeacutero drsquoaccession dans une base de donneacuteespublique)

(ii) le type de la seacutequence en question geacutenomique codanteADNc ARNm ou proteacuteine respective-ment abreacutegeacute par les lettres g c r p suivant le standard de lrsquoHGVS

(iii) la position du variant sur la seacutequence de reacutefeacuterence (iv) la variation observeacutee (GT G- -T GTAG gu GlyVal par exemple)

92 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

La conjonction de ces quatre attributs permet une description univoque du variantComme mentionneacute dans la section 23 un mecircme variant peut ecirctre deacutecrit par diffeacuterentes compositions

de ce jeu de quatre attributs selon la seacutequence de reacutefeacuterence choisie Le principe geacuteneacuteral du SNP-Converterest de prendre en entreacutee un jeu drsquoattributs et de le convertir en un jeu drsquoattributs alternatif qui repreacutesentele mecircme variant

SNP-Converter pour la conversion de formatLe processus mis en œuvre par SNP-Converter lors de la conversion de la description drsquoune variationpeut ecirctre deacutecomposeacute en quatre eacutetapes deacutetailleacutees dans la suite de cette section et illustreacutees par les Figures312 et 313

ENDONNEacuteES

ENTREacuteE

JEU DrsquoATTRIBUTS

INITIAL

JEU DrsquoATTRIBUTS

PIVOT

JEU DrsquoATTRIBUTS

FINALEN

SORTIE

DONNEacuteES(2) (4)

(4)

(1) (3)

Descriptiondu format drsquoentreacutee

Seacutelection drsquoune seacutequence de reacutefeacuterence particuliegravere

Seacutelection duformat de sortie

F 312 ndash Les diffeacuterentes eacutetapes du processus de conversion de la description drsquoune variation geacutenomiquepris en charge par SNP-Converter

NT_011295

248976

GgtT

g

11087877

GgtT

NC_000019

g

(3)

CCDS12254

c

1694

GgtT

(4)NT_011295 g 2489769 GgtT

(1a) (2)CCDS12254c1694GgtT

Descriptiondu format HGVS du format HGVS

Seacutelection de la seacutequencede reacutefeacuterence codante

CCDS12254

Seacutelection

F 313 ndash Exemple de conversion de la description drsquoune variation geacutenomique reacutealiseacutee par SNP-Converter

(1) Lrsquoeacutetape de preacuteparationCertaines descriptions ne deacutecrivant pas explicitement les quatre attributs il est neacutecessaire drsquoin-clure dans lrsquoapplication une eacutetape de preacuteparation Cette eacutetape consiste en lrsquoextraction des quatreattributs initiaux et en conseacutequence est speacutecifique agrave chaque format de source de donneacutees Lrsquoeacutetapede preacuteparation est diffeacuterente selon que la description du variant est explicite (comme la syntaxeHGVS ou la syntaxe similaire agrave celle du genome-browser) ou implicite (un identifiant de basede donneacutees) Quand la description est explicite (1a) les quatre attributs peuvent ecirctre directementobtenus en parcourant la description et en en extrayant chacun des attributs Quand la description

3 Expeacuterimentation 93

est implicite (1b) les attributs initiaux sont obtenus par une requecircte sur la base de donneacutees con-cerneacutee Par exemple si la description de deacutepart est un identifiant dbSNP il est utiliseacute durant lrsquoeacutetapede preacuteparation pour interroger dbSNP et extraire le jeu drsquoattributs initial Lrsquoeacutetape de preacuteparationpermet eacutegalement de compleacuteter une description ambigueuml (1c) soit en compleacutetant automatique-ment les donneacutees manquantes drsquoune base de donneacutees lorsque crsquoest possible soit en compleacutetantmanuellement la description

Lrsquoimpleacutementation actuelle de cette eacutetape de preacuteparation permet lrsquoextraction des quatre attributs agravepartir des entreacutees de dbSNP HGVBase HapMap PharmGKB et de fichiers plats de deux basesde donneacutees priveacutees qui suivent des repreacutesentations non-conventionnelles correspondant aux deuxpremiers exemples de la section c de la Figure 12

(2) La conversion du jeu drsquoattributs initial en un jeu pivotLe jeu drsquoattributs pivot consiste en une version particuliegravere des quatre attributs pour laquelle lrsquoi-dentifiant de la seacutequence de reacutefeacuterence est celui de la seacutequence complegravete du chromosome (ie unnumeacutero drsquoaccession RefSeq de la forme NC_0000198) qui contient la variation En conseacutequencele type de seacutequence dans le jeu pivot est geacutenomique Les deux attributs restant doivent quant agrave euxecirctre calculeacutes La position relative de la seacutequence de reacutefeacuterence initiale sur la seacutequence complegravetedu chromosome est rechercheacutee dans la base de donneacutees adapteacutee Par exemple la position relativedrsquoun gegravene peut ecirctre trouveacutee agrave partir du symbole du gegravene dans lrsquoentreacutee RefSeq du chromosomecomplet (dans la section ldquoFEATURESgenerdquo) La position geacutenomique des exons peut eacutegalementy ecirctre retrouveacutee dans la section ldquoFEATURESmRNArdquo Si la position du variant est donneacutee parrapport au deacutebut de la seacutequence traduite ie du codon start ATG les coordonneacutees des morceauxde seacutequences codantes peuvent ecirctre trouveacutees dans la base de donneacutees CCDS56 du NCBI La posi-tion exacte de la variation sur la seacutequence complegravete du chromosome peut ecirctre calculeacutee agrave partir deces donneacutees et de la position de la variation sur la seacutequence de reacutefeacuterence initiale Enfin lrsquoattributcorrespondant agrave la variation observeacutee doit ecirctre converti en une variation de seacutequence geacutenomiqueSi la variation observeacutee est initialement deacutecrite sur une seacutequence drsquoADN elle reste identique saufdans le cas exceptionnel ougrave elle est observeacutee sur le brin anti-sens auquel cas elle est convertieAutrement si la variation observeacutee lrsquoest sur une seacutequence drsquoARN les uraciles (U) doivent ecirctreconvertis en thymines (T) Une variation observeacutee au niveau drsquoune proteacuteine est convertie suiv-ant le code geacuteneacutetique En raison de la deacutegeacuteneacuterescence du code geacuteneacutetique plusieurs codons codentpour le mecircme acide amineacute ainsi la conversion acide amineacute rarr nucleacuteotide peut geacuteneacuterer plusieurspropositions de variations SNP-Converter geacutenegravere toutes les possibiliteacutes

(3) La conversion optionnelle en un jeu drsquoattributs finalCette conversion est optionnelle puisque dans le cas ougrave la description deacutesireacutee correspond au jeupivot elle est inutile Cela est notamment le cas dans le processus drsquointeacutegration de donneacutees quenous deacutetaillons par la suite qui se base sur le jeu pivot Si ce nrsquoest pas le cas lrsquoutilisateur doitseacutelectionner une seacutequence de reacutefeacuterence drsquoADN ARNc ARNm ou proteacuteique sur laquelle doit ecirctrepositionneacutee la variation Le processus de conversion suit alors exactement le mecircme raisonnementque pour la conversion preacuteceacutedente afin de deacuteterminer la nouvelle position relative et la variationobserveacutee en fonction de la seacutequence de reacutefeacuterence choisie

(4) Le formatage des donneacutees de sortieDans le cas de lrsquointeacutegration de donneacutees illustreacutee dans la section suivante cette derniegravere eacutetapeconsiste en la transformation du jeu drsquoattributs en un ensemble drsquoassertions en qui viendrontinstancier une Cependant SNP-Converter peut ecirctre utiliseacute comme simple convertiseur de for-mat indeacutependemment de tout systegraveme drsquointeacutegration Dans ce cas les donneacutees de sorties peuvent

56httpwwwncbinlmnihgovCCDS

94 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

ecirctre formateacutees selon lrsquousage qursquoil est preacutevu drsquoen faire Un premier choix peut ecirctre lrsquoeacutedition simpledu jeu drsquoattributs final suivant la syntaxe HGVS Un second choix est la creacuteation drsquoun fichier con-tenant la description de la variation dans le format speacutecifique de soumission agrave une base de donneacuteescomme par exemple le format XML de soumission agrave dbSNP

SNP-Converter a donneacute lieu au deacuteveloppement drsquoun prototype en java dont plusieurs copies drsquoeacutecransont preacutesenteacutees en Annexe E A lrsquoaide de cette impleacutementation SNP-Converter a eacuteteacute expeacuterimenteacute surles variations du gegravene LDLR contenues dans dbSNP (au format XML) et de variations du mecircme gegravenedeacutecrites de faccedilon non-conventionnelle dans des sources priveacutees sous forme de fichiers textes Lrsquoobjectifeacutetait alors de mesurer le taux de recouvrement entre les trois bases de donneacutees et plus speacutecifiquementdrsquoidentifier les variations des bases de donneacutees priveacutees qui ne sont pas enregistreacutees dans dbSNP afindrsquoenvisager leur soumission

Pour reacutealiser cette expeacuterimentation SNP-Converter a drsquoabord eacuteteacute utiliseacute pour convertir les variationscontenues dans les trois sources en leur description par le jeu pivot pour ensuite comparer les reacutesultatset eacutevaluer leur eacutequivalence potentielle La fonction du SNP-Converter permettant drsquoinstancier une aeacuteteacute utiliseacutee pour inteacutegrer les diffeacuterentes descriptions de variations et leurs eacutequivalences Lrsquoinstanciationde la et les reacutesultats obtenus sont preacutesenteacutes dans la section suivante

SNP-Converter pour lrsquointeacutegration de donneacutees

Lrsquoutilisation du SNP-Converter pour lrsquointeacutegration peut ecirctre consideacutereacutee comme un mapping indirectentre le scheacutema des sources de donneacutees initiales et lrsquoontologie Dans ce sens le mapping indirect srsquoap-puie alors sur un ensemble de fonctions de convertion des descriptions heacuteteacuterogegravenes Dans lrsquooptique drsquoin-teacutegrer un maximum de donneacutees relatives aux variations nous utilisons SNP-Converter de telle sorte quelorsqursquoil instancie un nouveau variant dans la il lui associe non seulement les attributs du jeu initialmais eacutegalement les attributs pivots calculeacutes par SNP-Converter Dans la mecircme optique de lrsquointeacutegrationdrsquoun maximum de donneacutees il est eacutegalement inteacuteressant pour chaque variation drsquointeacutegrer dans la SNP-KBdrsquoune part le jeu des quatre attributs et drsquoautre part des attributs suppleacutementaires associeacutes agrave la variation enquestion (par exemple lrsquoorganisme eacutetudieacute ou sa freacutequence drsquoobservation dans une population) Dans cecas les attributs suppleacutementaires sont extraits au mecircme titre que ceux du jeu drsquoattributs consideacutereacute maisne sont soumis agrave aucune conversion En revanche pour qursquoils puissent donner lieu agrave lrsquoinstanciation de la il faut qursquoils soient inclus dans la description du mapping donneacutees-assertions (voir section 22)

Si lrsquoon considegravere les deux bases de donneacutees PharmGKB et dbSNP dont les scheacutemas contiennentrespectivement les deux relations suivantes RPharmGKB et RdbS NP

RPharmGKB (Submission_Id GP_Position assembly Strand Variant Feature Nb_Of_Chr Frequencygene_symbole)

RdbS NP (dbSNP_Id organism genome_build alleles contig_accession contig_position functiongene_symbole)

Deux exemples de mappingMdminusa (voir deacutefinition 31) possibles entre ces bases de donneacutees et lrsquoontologieSNP-OntologyMdminusa 1 etMdminusa 2 sont deacutefinis ici par lrsquoassociation entre une requecircte SQL et des assertionsen

3 Expeacuterimentation 95

Mdminusa 1 Variant( f1(Submission_Id))Position( f2(GP_Position))

SELECT Submission_Id GP_Position Variant hasPosition( f1(Submission_Id) f2(GP_Position))FROM RPharmGKB hasPositionminus( f2(GP_Position) f1(Submission_Id))

Variation( f3(Variant))hasVariation( f1(Submission_Id) f3(Variant))hasVariationminus( f3(Variant) f1(Submission_Id))

Mdminusa 2 NonS ynonymousVariant( f4(dbSNP_Id))Position( f5(contig_position))

SELECT dbSNP_Id contig_position alleles hasPosition( f4(dbSNP_Id) f5(contig_position))FROM RdbS NP hasPositionminus( f5(contig_position) f5(dbSNP_Id))WHERE function =ldquonon-synonymousrdquo Variation( f6(alleles))

hasVariation( f4(dbSNP_Id) f6(alleles))hasVariationminus( f6(alleles) f4(dbSNP_Id))

Chaque variant reacuteponse agrave lrsquoune des deux requecirctes preacuteceacutedentes est converti par SNP-Converter (S C)en quatre valeurs correspondant au jeu drsquoattributs pivot Il est alors possible drsquoappliquer agrave ce jeu drsquoat-tributs particulier le mapping appeleacuteMdminusa S C dont un exemple est preacutesenteacute ci-apregraves Les fonctions de laforme sci repreacutesentent alors les opeacuterations de conversion reacutealiseacutees sur les valeurs des attributs du jeu ini-tial Le reacutesultat de ces fonctions constitue le jeu drsquoattributs pivot Respectivement sc1 extrait lrsquoidentifiantde la seacutequence de reacutefeacuterence sc2 la position sur cette seacutequence sc3 le type de la seacutequence de reacutefeacuterenceet sc4 la variation observeacutee Lrsquoexemple proposeacute deMdminusa S C preacutesente la particulariteacute que reacutefeacuterence po-sition et type de seacutequence soient extraits agrave partir du mecircme attribut GP_Position Les fonctions fi sont lesfonctions classiquement deacutefinies dans le cadre des mappings La fonction f7 preacutesente la particulariteacute deprendre 4 attributs en paramegravetre car elle construit un identifiant unique de variant sur la base des valeursdes quatre attributs du jeu pivot Dans un souci de clarteacute nous remplacerons dans le mapping la notation

f7(sc1(GP_Position) sc2(GP_Position) sc3(GP_Position) sc4(Variant)) = f7(jeu_pivot)

Mdminusa S C Variant( f7(jeu_pivot))S equence( f8(sc1(GP_Position)))

SELECT Submission_Id S C sc1(GP_Position) isLocatedOn( f7(jeu_pivot) f8(sc1(GP_Position))GP_Position rarr sc2(GP_Position) isLocatedOnminus( f8(sc1(GP_Position) f7(jeu_pivot))Variant sc3(GP_Position) Position( f9(sc2(GP_Position)))

FROM RPharmGKB sc4(Variant) hasPosition( f7(jeu_pivot) f9(sc2(GP_Position))hasPositionminus( f9(sc2(GP_Position) f7(jeu_pivot))Variation( f10(sc4(Variant)))hasVariation( f7(jeu_pivot))) f10(sc4(Variant))hasVariationminus( f10(sc4(Variant) f7(jeu_pivot)))

Dans le cas du second mappingMdminusa 2 les attributs de RdbS NP pris en paramegravetre par les fonctionssci sont diffeacuterents mais le mapping vers les assertions est identique

Lrsquoeacutetape drsquoinstanciation de la SNP-KB revient agravendash (1) ajouter pour lrsquoensemble des n-uplets reacuteponses aux requecirctes lrsquoensemble des assertions de con-

cepts et des assertions de rocircles du mappingMdminusa deacutefini entre SNP-Ontology et le scheacutema S de labases de donneacutees consideacutereacutee

96 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

ndash (2) agrave partir des n-uplets reacuteponses aux requecirctes extraire et convertir les valeurs en celles correspon-dant au jeu drsquoattributs pivot

ndash (3) ajouter pour lrsquoensemble des quadruplets reacutesultant lrsquoensemble des assertions du mappingMdminusa S C ndash (4) enfin deacutefinir dans la lrsquoeacutequivalence entre le variant deacutecrit par ses attributs initiaux et le

variant deacutecrit par les attributs pivot

Le fait que SNP-Converter instancie dans la eacutegalement le jeu pivot permet de tester lrsquoeacutequivalencede deux variants dont les descriptions initiales eacutetaient diffeacuterentes mais dont la description pivot est iden-tique Le test drsquoeacutequivalence peut ecirctre consideacutereacute comme une extension proceacutedurale des meacutecanismes deraisonnement classiques Le reacutesultat de ce test aboutit agrave lrsquoenrichissement de la

Pour terminer notre exemple consideacuterons les deux tuples suivants reacuteponses respectives aux requecirctesdeMdminusa 1 etMdminusa 2 sur dbSNP et PharmGKB et les assertions associeacutees

Variant(135411387_01)Position(Chr6_18247207)hasPosition(135411387 Chr6_18247207)

(135411387Chr6 18247207AG) hasPositionminus(Chr6_18247207 135411387)Variation(A_G)hasVariation(135411387_01 A_G)hasVariationminus(A_G 135411387_01)

NonS ynonymousVariant(rs1800460_01)Position(8997479)hasPosition(rs1800460_01 8997479)

(rs18004608997479GgtA) hasPositionminus(8997479 rs1800460_01)Variation(A_G)hasVariation(rs1800460_01 A_G)hasVariationminus(A_G rs1800460_01)

Ainsi les deux attributs rsquoAGrsquo et rsquoGgtArsquo sont transformeacutes par les fonctions f3 et f6 en un mecircme nomdrsquoindividu rsquoA_Grsquo et permettent ainsi la creacuteation drsquoun seul individu identifieacute par lsquoA_Grsquo qui est instancedu concept Variation dans la

3 Expeacuterimentation 97

Mdminusa S C Variant(ch6_18247207_c_A_G)S equence(NC_000006)

(135411387 S C sc1(Chr6 18247207) isLocatedOn(NC_000006 ch6_18247207_c_A_G)Chr6 18247207 rarr sc2(Chr6 18247207) isLocatedOnminus(ch6_18247207_c_A_G NC_000006)AG) sc3(Chr6 18247207) Position(18247207)

sc4(AG) hasPosition(ch6_18247207_c_A_G 18247207)hasPositionminus(18247207 ch6_18247207_c_A_G)Variation(A_G)hasVariation(ch6_18247207_c_A_G A_G)hasVariationminus(A_G ch6_18247207_c_A_G)

Mdminusa S C Variant(ch6_18247207_c_A_G)S equence(NC_000006)

(rs1800460 S C sc1(NT_007592) isLocatedOn(NC_000006 ch6_18247207_c_A_G)8997479 rarr sc2(8997479) isLocatedOnminus(ch6_18247207_c_A_G NC_000006)GgtA) sc3(NT_007592) Position(18247207)

sc4(GgtA) hasPosition(ch6_18247207_c_A_G 18247207)hasPositionminus(18247207 ch6_18247207_c_A_G)Variation(A_G)hasVariation(ch6_18247207_c_A_G A_G)hasVariationminus(A_G ch6_18247207_c_A_G)

Les deux variants exemples sont convertis (S C) puis sont mis en correspondance par le mapping (Mdminusa S C)agrave des assertions qui font reacutefeacuterence agrave un mecircme variant En pratique le variant ch6_18247207_c_A_G estinstancieacute dans la une premiegravere fois Puis la connaissance sur lrsquoeacutequivalence entre le variant initial135411387_01 et le variant ldquopivotrdquo ch6_18247207_c_A_G est ajouteacute agrave la

135411387_01 ch6_18247207_c_A_G

(ou en OWL 135411387_01 owl sameAs ch6_18247207_c_A_G)

Ensuite lors du traitement de variant rs1800460_01 celui-ci est converti (SC) et mis en correspon-dance (Mdminusa S C) agrave la liste drsquoassertion relatives mais SNP-Converter veacuterifie dans la si le variant ldquopiv-otrdquo ch6_18247207_c_A_G lui correspondant est deacutejagrave repreacutesenteacute Si crsquoest le cas il nrsquoy est pas instancieacuteagrave nouveau et seule la connaissance sur leur eacutequivalence est ajouteacutee

rs1800460_01 ch6_18247207_c_A_G

Ceci permet drsquoinduire par un raisonnement baseacute sur la transitiviteacute de lrsquoopeacuterateur la connaissancesuivante

135411387_01 rs1800460_01

SNP-Converter a eacuteteacute utiliseacute dans le cadre drsquoune expeacuterimentation drsquointeacutegration meneacutee sur les varia-tions geacutenomiques speacutecifique au gegravene LDLR Les Figures 314 et 315 illustrent les reacutesultats obtenus Troisjeux de donneacutees ont eacuteteacute soumis au SNP-Converter Ceux-ci sont constitueacutes tout drsquoabord de deux basesde donneacutees priveacutees fournies par lrsquouniteacute UMRS 538 de lrsquoINSERM contenant 274 et 55 variants deacutecrits

98 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

suivant deux formes non-conventionnelles Ensuite le troisiegraveme jeu de donneacutees est constitueacute des vari-ants situeacutes sur le gegravene LDLR contenu dans dbSNP en format XML (377) Parmi les 706 (274+55+377)variants diffeacuterents utiliseacutes pour peupler la 634 sont consideacutereacutes comme des individus uniques ie

repreacutesenteacutes une seule fois dans la ) et 35 autres sont repreacutesenteacutes 2 ou 3 fois selon des repreacutesentationsdiffeacuterentes au sein de la reacutesultante Ces derniers variants sont donc originellement contenus dans 2 ou3 des jeux de donneacutees de deacutepart

55 377

SNPminusConverter

assertions

706 assertions =

274 variants du gegravene LDLR

existencedu variant

SNPminusKB634 individus originaux +

Base deBase dedbSNP

35 individus agrave eacutequivalents

umrs538donneacutees 1

umrs538donneacutees 2

F 314 ndash Utilisation du SNP-Converter comme wrapper et meacutediateur pour le peuplement drsquoune basede connaissances relative aux variations geacuteneacutetiques du gegravene LDLR

244

224 5

4

346

44

dbSNP (377)

Base de donneacutees 1umrs538 (274) umrs538 (55)

Base de donneacutees 2

F 315 ndash Diagramme de Venn repreacutesentant le recouvrement des trois jeux de donneacutees utiliseacutees pourpeupler la base de connaissances SNP-KB

3 Expeacuterimentation 99

32 Inteacutegration de donneacutees pharmacogeacutenomiques iSO-Pharm

La pharmacogeacutenomique est un domaine drsquoeacutetude qui manipule des donneacutees complexes La consideacutera-tion de sous-domaines (la pharmacologie la biologie moleacuteculaire la meacutedecine clinique la geacuteneacutetique despopulations lrsquoeacutepigeacutenomique entre autres) aux outils objectifs et sources de donneacutees distincts constitueun premier facteur de complexiteacute Les multiples niveaux de granulariteacute entre ces sous-domaines voire ausein drsquoun sous-domaine sont eacutegalement facteurs de complexiteacute Nous pouvons ajouter que ces donneacuteessont freacutequemment interconnecteacutees

Ces diffeacuterents facteurs de complexiteacute justifient la construction drsquoun systegraveme drsquointeacutegration de donneacuteesrelatives agrave la pharmacogeacutenomique Une motivation suppleacutementaire vient du fosseacute existant entre drsquoun cocircteacuteles donneacutees sur les connaissances pharmacogeacutenomiques geacuteneacuterales et de lrsquoautre les observations cliniquesqui ont permis de connaicirctre ces relations Un tel manque de relations peut ecirctre observeacute dans la base dedonneacutees PharmGKB ougrave coexistent sans relation des associations gegravenendashmeacutedicamentndashmaladie et des jeuxde donneacutees patients contenant des donneacutees relatives aux geacutenotype pheacutentoype et traitement de patientsLe mecircme genre de lacune existe dans la base OMIM dont les entreacutees relatives aux maladies (survenantparfois dans le cadre drsquoun traitement) preacutesentent une section ldquoClinical Synopsisrdquo dont les donneacutees nesont pas relieacutees aux variations geacutenomiques associeacutees par exemple reacutefeacuterenceacutees dans dbSNP voire mecircmedans OMIM

iSO-Pharm (pour instanciate SO-Pharm en anglais) est un systegraveme qui integravegre selon la meacutethodeproposeacutee section 2 et dans le contexte drsquoune base de connaissances des sources de donneacutees pharma-cogeacutenomiques relatives drsquoune part aux relations connues entre geacutenotypendashmeacutedicamentndashpheacutenotype etdrsquoautre part agrave des donneacutees cliniques observeacutees chez des patients La Figure 316 repreacutesente lrsquoarchitecturede ce systegraveme Elle preacutecise les sources de donneacutees inteacutegreacutees le rocircle central de lrsquoontologie SO-Pharm etde mappings deacutefinis entre donneacutees (des sources) et assertions (associeacutees agrave SO-Pharm) Il faut noter quechaque jeu de donneacutees de PharmGKB inteacutegreacute neacutecessite la deacutefinition drsquoun mapping particulier de par lefait que chaque jeu est structureacute suivant un scheacutema particulier

F 316 ndash Architecture de iSO-Pharm instanciant lrsquoarchitecture geacuteneacuterale deacutecrite Figure 310

Lrsquoobjectif drsquoun tel systegraveme est drsquointeacutegrer agrave la fois des donneacutees cliniques (ie des donneacutees relativesau pheacutenotype et au geacutenotype de patients) et des donneacutees biologiques (ie enregistreacutees dans les bases dedonneacutees biologiques et souvent issues drsquoexpeacuterience en biologie moleacuteculaire) dans le cadre drsquoune detelle sorte qursquoil soit possible drsquoutiliser la seacutemantique associeacutee aux donneacutees pour lrsquoextraction de connais-sances en pharmacogeacutenomique Cet objectif est expeacuterimenteacute dans la section 24 du chapitre 4 La base de

100 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

lrsquoexpeacuterimentation deacutecrite dans cette section est justement le peuplement drsquoune pharmacogeacutenomique agravepartir

ndash de donneacutees cliniques de PharmGKB consigneacutees dans le cadre de lrsquoinvestigation clinique desreacuteponses de 61 patients asthmatiques agrave un meacutedicament appeleacute le montelukast et

ndash de donneacutees biologiques de PharmGKB dbSNP OMIM Gene57 et KEGG Pathway58Le peuplement de la associeacutee agrave cette expeacuterimentation megravene notamment agrave la creacuteation de 61 assertionsdu concept ldquopatientrdquo (deacutefini dans SO-Pharm) de 127 assertions du concept ldquoclinical_itemrdquo ou de sesdescendants et des nombreuses assertions du rocircle ldquopresents_clinical_itemrdquo qui permet drsquoassocier lesinstances des concepts ldquopatientrdquo et ldquoclinical_itemrdquo conformeacutement aux reacutesultats de lrsquoinvestigation clin-ique Les donneacutees biologiques permettent de creacuteer des assertions de concepts et de rocircles relatives auxvariations geacutenomiques aux gegravenes aux meacutedicaments aux pheacutenotypes et agrave des reacuteseaux meacutetaboliques

57httpwwwncbinlmnihgovsitesentrezdb=gene58httpwwwgenomejpkeggpathwayhtml

4 Discussion 101

4 Discussion

Il est possible de confronter deux faccedilons de conceptualiser des connaissances la premiegravere part desdonneacutees pour deacutefinir des concepts crsquoest en un sens le cas des meacutethodes semi-automatiques de construc-tion drsquoontologie la seconde quant agrave elle part des concepts eux-mecircmes auxquels des donneacutees peuvent ecirctreassocieacutees par la suite Cette derniegravere est plus proche drsquoune construction manuelle dirigeacutee par les connais-sances drsquoun expert Une mise en perspective proposeacutee et illustreacutee dans lrsquointroduction de la thegravese de SRudolph fait le lien entre ces deux faccedilons de conceptualiser le monde et les doctrines philosophiquesinspireacutees des penseacutees drsquoAristote et Platon lrsquoempirisme et le rationalisme [Rud06]

Un premier choix fort fait dans cette thegravese est celui drsquoopter pour une construction manuelle des on-tologies Nous justifions celui-ci par deux arguments Premiegraverement les constructions drsquoontologies quenous avons meneacutees sont orienteacutees vers deux objectifs preacutecis qui sont lrsquointeacutegration de donneacutees et la deacutecou-verte de connaissances Nous pensons que lrsquoutilisation de meacutethodes de construction semi-automatiquesagrave partir de donneacutees ou de textes introduisent un biais dans la repreacutesentation des connaissances trop con-traignant vis agrave vis de nos objectifs Notons que les bio-ontologies partageacutees sur les portails OBO-Foundryet BioPortal sont construites manuellement Un second argument allant contre une construction semi-automatique est que les sources de donneacutees disponibles en pharmacogeacutenomique ne recouvrent chacuneque partiellement ce domaine en rapide eacutevolution

En revanche nous consideacuterons lrsquoutilisation des donneacutees et des textes comme le mode principal drsquoeacute-valuation de la construction En effet le fait que les concepts et rocircles drsquoune ontologie permettent larepreacutesentation des connaissances informelles contenues dans les bases de donneacutees et les textes est in-dispensable agrave lrsquoaccomplissement de nos deux objectifs (inteacutegration de donneacutees et deacutecouverte de con-naissances) Crsquoest principalement par le test de cette capaciteacute agrave repreacutesenter les connaissances que sonteacutevalueacutees SNP-Ontology et SO-Pharm

En ce qui concerne lrsquoarticulation des ontologies existantes avec les ontologies construites nous avonsaussi preacutefeacutereacute deacutefinir manuellement la liste drsquoaxiomes qui deacutecrivent les relations entre concepts de dif-feacuterentes ontologies Les raisons de ce choix sont similaires agrave celles qui motivent le choix drsquoune construc-tion manuelle Il est possible de consideacuterer cette liste drsquoaxiomes comme une TBox agrave part entiegravere (ie uneontologie indeacutependante) Sur le plan theacuteorique crsquoest notamment ce qui semble le plus pertinent car celaeacutevite drsquoavoir agrave incorporer des concepts externes dans lrsquoontologie garantissant ainsi son inteacutegriteacute (aussibien que celle des ontologies articuleacutees) Ceci eacutevite eacutegalement drsquoimporter une ontologie volumineuselorsque seules certaines branches de sa hieacuterarchie sont utiles Cependant cela impose une modularisa-

tion des ontologies qui nrsquoest pas geacutereacutee actuellement par les outils standards utiliseacutes pour la constructiondrsquoontologies tels que OWL ou Proteacutegeacute La solution que nous avons adopteacutee est ainsi lrsquoimportation des on-tologies articuleacutees dans leur globaliteacute comme lrsquoautorisent ces outils Associeacutes agrave cette probleacutematique lestravaux reacutecents de Konev et al proposent de deacutefinir des modules drsquoontologies en qui pourraient ecirctreextraits et utiliseacutes indeacutependemment [KLWW08] Ceci permettrait drsquoutiliser les meacutecanismes de raison-nement sur SO-Pharm de faccedilon moins contraignante

Les propositions reacutecentes concernant la repreacutesentation du temps en sont des progregraves eacutegalementprofitables agrave la formalisation de domaines comme la pharmacogeacutenomique et par conseacutequent profitablesaux futures versions de SO-Pharm [BGL08 LWZ08]

Lrsquoutilisation drsquoontologies pour lrsquointeacutegration de donneacutees est freacutequemment discuteacutee dans la litteacuterature[CG05] Notre motivation pour ce choix est ici renforceacutee par le fait que le second objectif de notretravail qui fait suite agrave lrsquointeacutegration de donneacutees est lrsquoeacutetude de lrsquoutilisation de connaissances formaliseacuteespour guider la deacutecouverte de connaissances (preacutesenteacutee chapitre 4)

La meacutethode drsquointeacutegration que nous proposons peut ecirctre consideacutereacutee comme un intermeacutediaire entre uneapproche meacutediateur et une approche entrepocirct En effet elle est comparable agrave une approche entrepocirct dans

102 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

le sens ougrave les reacutesultats de lrsquointeacutegration sont mateacuterialiseacutes puis reacuteutiliseacutes notamment pour ecirctre analyseacutes(voir chapitre 4) Neacuteanmoins nous la comparons eacutegalement agrave lrsquoapproche meacutediateur pour souligner (1) lefait que les donneacutees manipuleacutees restent dans les sources drsquoorigine ce qui est mateacuterialiseacute est un ensembledrsquoassertions et (2) lrsquoaspect dynamique de lrsquoinstanciation de lrsquoontologie qui srsquoeffectue en reacuteponse agrave unerequecircte et permet de cette faccedilon de creacuteer des diffeacuterentes en reacuteponse agrave diffeacuterentes requecirctes

Dans sa thegravese soutenue en 2007 F Saiumls deacutecrit une approche drsquointeacutegration seacutemantique fondeacutee surun enrichissement seacutemantique des donneacutees [Saiuml07] Cet enrichissement consiste en lrsquoajout de termesdeacutecrivant les concepts et rocircles drsquoune ontologie pour annoter les donneacutees Lrsquoassociation donneacuteendashterme estalors reacutealiseacutee au travers drsquoun scheacutema XML speacutecifique Le systegraveme drsquointeacutegration prend ensuite comptedes annotations pour inteacutegrer les donneacutees entre elles Pour utiliser un vocabulaire comparable agrave celui deF Saiumls nous pouvons dire non pas que notre approche enrichit les donneacutees agrave lrsquoaide de connaissancesmais qursquoinversement nous enrichissons des connaissances agrave lrsquoaide de donneacutees Dans ce sens lrsquoajout dansune drsquoassertions de concepts et de rocircles preacutealablement associeacutees agrave des donneacutees dans des mappingspeut ecirctre consideacutereacute comme un enrichissement de la

Les contributions preacutesenteacutees dans ce chapitre ont donneacute lieu agrave deux publications La premiegravere preacutesenteSNP-Converter et la seconde expose les meacutethodes associeacutees agrave la construction et agrave la validation de lrsquoon-tologie SO-Pharm [CSTB+06 CSTND06]

Ce chapitre preacutesente une approche drsquointeacutegration de donneacutees centreacutee sur une base de connaissances() dont le reacutesultat consiste en le peuplement de cette Lrsquoobjectif de cette inteacutegration est non seulementdrsquointeacutegrer des donneacutees issues de sources heacuteteacuterogegravenes mais eacutegalement de leur associer une seacutemantiquedeacutefinie dans le cadre de la repreacutesentation des connaissances relatives agrave leur domaine De fait cette seacute-mantique est utile pour inteacutegrer les donneacutees mais nous inteacuteresse plus particuliegraverement pour ameacuteliorerles reacutesultats drsquoun processus drsquoextraction de connaissances agrave partir des donneacutees inteacutegreacutees Nous abordonsdans le chapitre suivant (chapitre 4) la faccedilon dont une peut ecirctre associeacutee agrave un processus drsquo pouren faciliter chacune des eacutetapes mais aussi comment elle peut ecirctre utiliseacutee comme eacuteleacutement central drsquountel processus en appliquant les meacutethodes de fouille sur son contenu afin de beacuteneacuteficier des connaissancesaussi bien que des donneacutees disponibles

Chapitre 4

Extraction de connaissances dans lecontexte drsquoune Base de Connaissances

Nous avons deacutefini et illustreacute la notion drsquoExtraction de Connaissances guideacutee par les Connaissances

du Domaine () dans le chapitre 2 section 4 Dans ce chapitre nous proposons et expeacuterimentons unemeacutethode drsquo dans laquelle les connaissances du domaine sont utiliseacutees pour guider lrsquoeacutetape de seacutelec-

tion de donneacutees du processus (section 1) Ensuite nous introduisons la notion nouvelle drsquoExtraction deConnaissances agrave partir drsquoune Base de Connaissances () que nous proposons comme une approcheparticuliegravere drsquoExtraction de Connaissances guideacutee par les Connaissances du Domaine (section 2) Nouspreacutesentons une meacutethode particuliegravere drsquo appeleacutee Analyse des Assertions de Rocircles () qui explore lesreacutegulariteacutes existant dans les instanciations des rocircles drsquoune en pour en extraire de nouvelles connais-sances (23) Nous illustrons cette meacutethode par une expeacuterimentation pour la deacutecouverte de connaissancesen pharmacogeacutenomique 24 Enfin la section 3 est une discussion de lrsquoutilisation des connaissances pourla deacutecouverte de connaissances

1 Seacutelection de donneacutees guideacutee par les connaissances du domaine

Dans cette section 1 nous proposons une meacutethode de seacutelection de donneacutees guideacutee par les connais-sances Celle-ci repose sur la deacutefinition de diffeacuterents ensembles de mappings entre des sources de don-neacutees et une Lrsquoapport principal de cette meacutethode est de guider lrsquoanalyste dans la seacutelection de donneacuteesagrave lrsquoaide

ndash de donneacutees disponibles dans un ensemble de sources de donneacutees heacuteteacuterogegravenes connexes au domaineeacutetudieacute

ndash de lrsquoexpressiviteacute des langages de et des meacutecanismes de raisonnement qui leur sont associeacutes

11 Motivation

Les meacutethodes de fouille de donneacutees et plus particuliegraverement les meacutethodes symboliques geacutenegraverentdes reacutesultats volumineux redondants et complexes Il en reacutesulte une phase drsquointerpreacutetation longue etfastidieuse qui limite le succegraves de lrsquoapproche

Ce problegraveme met en avant lrsquoimportance de la premiegravere eacutetape de lrsquo qursquoest la preacuteparation desdonneacutees De cette eacutetape deacutepend la suite du processus depuis le parameacutetrage et le temps de calcul ausuccegraves mecircme de lrsquoextraction de connaissance utiles Dans le cadre de la deacutecouverte de connaissances

103

104 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

en pharmacogeacutenomique Altman et Klein [AK02] soulignent lrsquoimportance du choix de sous-ensemblesde donneacutees parmi la montagne de donneacutees post-geacutenomiques disponibles La reacuteduction des donneacutees agraveprendre en compte pour la fouille a une influence directe sur le volume et la pertinence des reacutesultatsCette reacuteduction est drsquoautant plus cruciale en biologie que les sources de donneacutees sont de plus en plusnombreuses et volumineuses [Bat08]

Reacuteduire la quantiteacute de donneacutees agrave fouiller par une opeacuteration de seacutelection permet de prendre en compteles connaissances (subjectives) des experts avant drsquoeffectuer la fouille (voir chapitre 2 section 123)Lrsquoobjectif drsquoune telle seacutelection est de reacuteduire le temps de calcul et le volume des reacutesultats produits sansen eacuteliminer les eacuteleacutements inteacuteressants ce qui facilite indirectement lrsquointerpreacutetation Il srsquoagit donc drsquoeacutelim-iner progressivement et en accord avec les objectifs de la fouille les eacuteleacutements redondants triviaux etdeacutenueacutes drsquointeacuterecirct Les connaissances alors utiliseacutees le sont habituellement de faccedilon manuelle agrave partir deconnaissances propres agrave lrsquoanalyste et des informations qursquoil peut collecter dans les bases de donneacutees

Lrsquoutilisation de systegravemes empiriques baseacutes sur des meacutethodes statistiques etou drsquoapprentissage est unpremier moyen drsquoassister lrsquoanalyste dans la seacutelection de donneacutees Une vue drsquoensemble de ces meacutethodesest proposeacutee dans [SIL05] ainsi que dans la section 1 du chapitre 2

Dans cette derniegravere section il est question drsquoun second moyen drsquoassister lrsquoanalyste par lrsquoutilisationde connaissances cependant les connaissances utiliseacutees ne sont jamais repreacutesenteacutees dans un formalismequi permette la mise en œuvre de meacutecanismes de raisonnement Ce qui nous inteacuteresse ici est justementlrsquoutilisation de connaissances dans le cadre de systegravemes de seacutelection de donneacutees avec comme objectifde tirer parti des connaissances formaliseacutees dans une en afin de guider agrave la fois le systegraveme (pardes meacutecanismes de raisonnement) et celui qui le pilote Le sceacutenario drsquoextraction de connaissances enbiologie exposeacute ci-apregraves illustre la distinction entre le rocircle des connaissances de lrsquoexpert le contenu debases de donneacutees et lrsquoutilisation drsquoune

variable_clin01 variable_clin m variant01 variant02 variant p

patient01

patient02

patient n

T 41 ndash Forme geacuteneacuterale du jeu de donneacutees eacutetudieacute dans le sceacutenario

Sceacutenario drsquoextraction de connaissancesUn biologiste eacutetudie la pharmacogeacutenomique lieacutee au traitement de lrsquoHypercholesteacuteroleacutemie Familiale (HF)agrave partir de donneacutees biologiques et geacutenomiques pour un panel de patients traiteacutes Le jeu de donneacutees dont

il dispose preacutesente pour chaque patient un ensemble de variables cliniques et plus de 500 geacutenotypes de

variants geacutenomiques localiseacutes sur diffeacuterents gegravenes (Tableau 41)

Pour seacutelectionner un sous-ensemble de donneacutees le biologiste peut utiliser

sa propre connaissance pour seacutelectionner les reacutegions du geacutenome ougrave les variants sont susceptibles de

lrsquointeacuteresser les gegravenes impliqueacutes dans lrsquoHF (LDLR APOE APOB LPL) et plus particuliegraverement

les exons les promoteurs et les reacutegions flanquantes des exons de ces gegravenes Cependant le biolo-

giste est incapable sur la base de sa seule connaissance drsquoassocier aux variants les reacutegions sur

lesquels ils sont situeacutes

le contenu de bases de donneacutees par exemple Genome Browser ou dbSNP lui permettent drsquoidentifier

parmi les variants exploreacutes dans son panel lesquels sont localiseacutes dans les reacutegions qui lrsquoin-

teacuteressent

1 Seacutelection de donneacutees guideacutee par les connaissances du domaine 105

lrsquoutilisation drsquoune Base de Connaissances lui permet potentiellement de savoir que les gegravenes en re-

lation avec la pharmacogeacutenomique de lrsquoHF sont plus nombreux et incluent eacutegalement les gegravenes

MTTP et ESR1 Il peut alors seacutelectionner les variants localiseacutes sur sa nouvelle liste de gegravenes sans

passer par une base de donneacutees Le biologiste peut eacutegalement observer qursquoil existe au sein des

variants des sous-ensembles pertinents les tag-SNP et les variants non-synonymes qursquoil peut

eacutegalement isoler directement gracircce agrave la Il peut seacutelectionner les variants des gegravenes qui codent

pour des proteacuteines impliqueacutees dans les reacuteactions du meacutetabolisme de lrsquoatorvastatine59 ou plus

geacuteneacuteralement du meacutetabolisme drsquoune statine (classe agrave laquelle appartient lrsquoatorvastatine)

Parce qursquoelle integravegre et structure les connaissances du domaine auquelle elle rattache les donneacuteesbrutes qursquoelle utilise un formalisme expressif et parce qursquoelle peut ecirctre associeacutee agrave des meacutecanismes deraisonnement la est un outil preacutecieux pour guider lrsquoanalyste dans un processus semi-automatique deseacutelection de donneacutees

Lrsquoanalyste aussi expert soit-il peut tirer parti de la repreacutesentation des connaissances encyclopeacutediquesdrsquoune ontologie pour orienter ses choix lors de la seacutelection De plus la somme de connaissances disponibleslaisse envisager que des tacircches demandant moins drsquoexpertise (comme par exemple la tacircche de seacutelectionmoins ldquopointuerdquo que la tacircche drsquointerpreacutetation) puissent ecirctre reacutealiseacutee par un analyste dont le niveau drsquoex-pertise est infeacuterieur mais capable de srsquoappuyer sur le reacuteferentiel deacutejagrave existant (ie la )

12 Meacutethode proposeacutee

La meacutethode preacutesenteacutee ici a pour objectif lors de lrsquoeacutetape de preacuteparation dans un processus drsquodrsquoaider lrsquoanalyste agrave seacutelectionner un sous-ensemble pertinent de donneacutees agrave fouiller que lrsquoensemble com-plet Cette approche se veut indeacutependante de la suite du processus et notamment de la meacutethode de fouilleutiliseacutee

Le principe est de permettre agrave lrsquoanalyste de faire cette seacutelection en prenant en compte les connais-sances du domaine formaliseacutees dans une preacutealablement deacuteveloppeacutee Pour cela un mapping entrechaque base de donneacutees consideacutereacutee et la doit ecirctre reacutealiseacute en collaboration avec un expert du domaineLa figure 41 deacutecrit les quatre eacutetapes principales de lrsquoapproche

1 La premiegravere est lrsquoinstanciation de la Celle-ci se fait suivant la meacutethode deacutecrite dans le chapitre 3section 2 ie sur la base de mappings deacutefinis entre les scheacutemas de bases de donneacutees et lrsquoontologieCes mappings sont exploiteacutes par des wrappers qui instancient les concepts et rocircles de lrsquoontologie agravepartir des tuples des bases de donneacutees consideacutereacutees Cette phase peut neacutecessiter diverses opeacuterationsde nettoyage et de transformation des donneacutees

2 La deuxiegraveme eacutetape consiste en la deacutefinition drsquoun jeu de donneacutee initial ensemble de donneacutees extraitdrsquoune ou plusieurs bases de donneacutees qui constite lrsquoensemble initial de donneacutees agrave analyser

3 Lrsquoeacutetape suivante est la deacutefinition drsquoun mapping entre la et le jeu de donneacutee initial Ce mappingnrsquoest pas deacutefini manuellement mais est deacuteduit des deux premiegraveres eacutetapes Son objectif est de per-mettre la reacutepercussion drsquoune seacutelection drsquoindividus dans la en une reacuteduction en largeur (ie dunombre drsquoattributs) ou en longueur (ie des tuples) du jeu de donneacutees initial

4 La derniegravere eacutetape est la seacutelection par lrsquoanalyste drsquoun ensemble drsquoindividus de la menant ainsiagrave la reacuteduction du jeu de donneacutee initial en un jeu de donneacutees reacuteduit Lrsquoanalyste ne seacutelectionne pasdirectement des donneacutees mais des individus de la agrave lrsquoaide du contenu des TBox et ABox Il estensuite possible gracircce au mapping preacuteceacutedent de faire correspondre agrave la seacutelection drsquoindividus uneseacutelection de donneacutees

59Lrsquoatorvastatine est un meacutedicament de la classe des statines preacutescrit notamment pour preacutevenir la survenue drsquoaccidentscardio-vasculaires

106 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

F 41 ndash Description geacuteneacuterale de la meacutethode de seacutelection de donneacutees guideacutee par les connaissances

Finalement le jeu de donneacutees reacuteduit peut ecirctre soumis aux eacutetapes suivantes de lrsquo la fouille etlrsquointerpreacutetation Les quatre eacutetapes de la meacutethode de seacutelection proposeacutee sont deacutetailleacutees dans la suite decette section Celles-ci font notamment intervenir trois mappings positionneacutes Figure 42

121 Instanciation de la

La premiegravere eacutetape drsquoinstanciation de la suit la meacutethode drsquointeacutegration guideacutee par une ontologieproposeacutee chapitre 3 section 2

Pour chaque base de donneacutees consideacutereacutee en entreacutee du processus drsquo un mapping entre le scheacutemade la base de donneacutees et les concepts rocircles et individus de lrsquoontologie doit ecirctre deacutefini par un expert dudomaine Ce mapping suit la deacutefinition 31 du mapping donneacutees-assertionsMdminusa deacutecrit dans le chapitre3

Il reacutesulte de ce processus une instancieacutee agrave partir des donneacutees des bases de donneacutees consideacutereacutees

122 Deacutefinition du jeu de donneacutees initial

Le jeu de donneacutees initial est deacutefini comme un ensemble de n-uplets suivant une relation n-aire uniqueRinit(B1 B2 Bm) Les attributs Bi de Rinit peuvent ecirctre issus de diffeacuterentes bases de donneacutees crsquoestpourquoi la deacutefinition du jeu de donneacutees initial neacutecessite la deacutefinition drsquoun mapping entre les scheacutemasdes bases de donneacutees consideacutereacutees pour lrsquo et la relation du jeu de donneacutees initial

Deacutefinition 41 (Mapping donneacutees ndash donneacutees) Soit un quadruplet (SMdminusdHRinit) ougrave

ndash S est le scheacutema drsquoune base de donneacutees ie un ensemble de relations n-aires de la forme R(A1 A2

An) et de domainenprod

i=1Di tels que Ai est lrsquoattribut drsquoindice i et de domaine Di

ndash Rinit est la relation n-aire unique qui deacutecrit le jeu de donneacutees initial Rinit(B1 B2 Bm)

1 Seacutelection de donneacutees guideacutee par les connaissances du domaine 107

ndash Mdminusd est une association entre les donneacutees de la base de donneacutees de scheacutema S et les donneacutees du

jeu de donneacutee initial structureacutees selon son unique relation Rinit

Φ Υ (41)

ougrave Φ est une requecircte relationnelle arbitraire sur la base de donneacutees de scheacutema S et Υ est un

ensemble drsquoinsertions de tuples dans la relation unique Rinit du jeu de donneacutees initial

ndash Enfin H un ensemble de fonctions de la forme hi(v) applicables aux diffeacuterentes valeurs reacutesultant

des requecirctes Φ pour les transformer dans le format de valeurs adeacutequat agrave leur insertion dans Rinit

deacutecrit dans Υ

Exemple Soit deux relations Rclinique et Rgenetique issues de deux bases de donneacutees dont on souhaiteextraire une partie des donneacutees pour constituer le jeu de donneacutees initial qui suit la relation Rinit

Rclinique (Patient_id Age LDL_c HDL_c TG_c xanthome arc_corneen)Rgenetique (Patient_id rs28942078 rs28942079 rs28942080)

Rinit (Patient_id LDL_c_mgl xanthome rs28942076 rs28942078 rs28942079 rs28942080 rs28942081 rs28942082rs28942083 rs28942084 rs28942085)

Deux exemples de mappings possiblesMdminusd associent une requecircte SQL sur Rclinique ou Rgenetique agraveune insertion dans Rinit

Mdminusd 1 SELECT Patient_id LDL_c INSERT INTO Rinit(Patient_id LDL_c_mgl xanthome)xanthome VALUES (h1(Patient_id) h2(LDL_c) h3(xanthome))

FROM Rclinique

WHERE Age ge 18

Mdminusd 2 SELECT Patient_id rs28942078 INSERT INTO Rinit(Patient_id rs28942078 rs28942079rs28942079 rs28942080 rs28942080)

FROM Rgenetique VALUES (h1(Patient_id) h4(rs28942078)h4(rs28942079) h4(rs28942080))

Un tel mapping preacutesente lrsquoavantage de permettre de deacutefinir un jeu de donneacutees initial agrave partir dedonneacutees issues de diffeacuterentes bases et de permettre leur transformation Le mapping Mdminusd 1 met enœuvre une transformation de donneacutees entre autres par lrsquoutilisation de la fonction gprime qui transforme lesvaleurs de concentration en LDL cholesteacuterol circulant en mollminus1 ie lrsquoattribut LDL_c en valeurs de lamecircme mesure mais avec une uniteacute diffeacuterente le mglminus1 ie lrsquoattribut LDL_c_mgl

Lrsquoensemble des mappings Mdminusd impliquant les bases de donneacutees consideacutereacutees dans le processusdrsquo permet de constituer le jeu de donneacutees initial Celui-ci peut ecirctre vu comme un tableau dont lescolonnes seraient les attributs et les lignes seraient les n-uplets de la relation Rinit En suivant lrsquoexemplepreacuteceacutedent ce tableau est conforme agrave la forme geacuteneacuterale proposeacutee dans le Tableau 41

R Pour ecirctre tout agrave fait complet dans la description de la seacutelection de donneacutees il faut noterlrsquoexistence drsquoune premiegravere eacutetape de seacutelection preacutealable agrave lrsquoapproche que nous deacutecrivons Celle-ci con-siste dans le choix des bases de donneacutees agrave consideacuterer pour lrsquo Nous ne la discutons pas dans cetravail

108 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

123 Mapping entre la et le jeu de donneacutees initial

Les deux premiers mappings entre donneacutees et assertions puis entre donneacutees et donneacutees permettent dedeacuteduire un mapping entre les donneacutees du jeu de donneacutees initial et les individus de lrsquoontologie Lrsquoinversionde ce mapping fournit une correspondance entre certains individus de la et lrsquoensemble des attributs etn-uplets du jeu de donneacutees initial

Lrsquoeacutetablissement du mapping entre la et le jeu de donneacutees srsquoappuie sur le fait que le jeu de don-neacutees initial est constitueacute agrave partir de sous-ensembles de donneacutees qui ont servi agrave instancier la Drsquounemaniegravere informelle la deacuteduction du mapping suit les phases suivantes dans un premier temps le map-ping donneacuteesndashassertionsMdminusa geacuteneacuteral est reacuteduit aux seules donneacutees du jeu de donneacutees initial ensuitedepuis le mapping reacuteduit sont extraites des associations entre attributs du jeu de donneacutees et individusde la Ces associations sont finalement inverseacutees sous forme de relations entre individus et attributsSi un individu est associeacute agrave lrsquoattribut cleacute du jeu de donneacutees lrsquoassociation individu-attribut est eacutetendue agravelrsquoensemble du tuple

Ces phases peuvent ecirctre formaliseacutees selon les deacutefinitions suivantes

Deacutefinition 42 (Mapping donneacutees ndash assertions indirect) A partir des deux quadruplets (SMdminusa FO)et (SMdminusdHRinit) suivant les deacutefinitions 31 et 41 nous deacutefinissons le quintuplet intermeacutediaire

(RinitMdminusa FHO)

ougrave

ndash Mdminusa est lrsquoassociation entre les donneacutees du jeu de donneacutees initial et un ensemble drsquoassertions de

lrsquoontologie O

Φ Ψ

ougrave Φ est une requecircte relationnelle arbitraire sur la relation Rinit etΨ est un ensemble drsquoassertions

de concepts et drsquoassertions de rocircles de lrsquoontologie O

ndash Enfin un ensemble de fonctions composeacutees agrave partir des ensembles H et F de la forme fi(hminus1j

(v))applicables aux diffeacuterents types de valeurs v reacutesultant des requecirctes Φ sur le jeu de donneacutees initial

pour les transformer en noms drsquoindividus dans Ψ h j(v) est une fonction de transformation des

valeurs v issues des bases de donneacutees consideacutereacutees en leur format dans le jeu de donneacutee initial

(voir deacutefinition 41) hminus1j

(v) est lrsquoinverse de cette fonction fi(v) est une fonction de transformation

des valeurs v reacuteponses de Φ en noms drsquoindividus (voir deacutefinition 31)

Deacutefinition 43 (Mapping donneacutees ndash individus) Soit (RinitMdminusi FHO) un autre quintuplet suivant la

deacutefinition 42 avecMdminusi un mapping extrait deMdminusa qui est deacutefini comme un ensemble drsquoassociations

1 n entre un attribut Bi de la relation Rinit du jeu de donneacutees initial et un ou plusieurs individus a j de O

Bi a j

Les attributs Bi peuvent ecirctre indiffeacuteremment des cleacutes de la relation Rinit ou non

La deacutefinition de ce mapping permet que chaque n-uplet (ie chaque cleacute) et que chaque attribut du jeude donneacutees initial soit associeacute agrave un ou plusieurs individus de la

Deacutefinition 44 (Mapping individus ndash donneacutees) Selon la deacutefinition 43 du quintuplet (RinitMdminusi FHO)nous deacutefinissons le quintuplet (RinitMiminusd FHO) ougrave

1 Seacutelection de donneacutees guideacutee par les connaissances du domaine 109

ndash Miminusd inverse deMdminusi (Mdminusi =Mminus1iminusd

) est un ensemble drsquoassociations binaires bijectives (1 1)

entre un individu de la et un attribut Bi du jeu de donneacutees initial

a Bi

Bi peut ecirctre une cleacute de la relation Rinit

Exemple Une partie du mapping Mdminusi deacuteduit entre Rinit (voir lrsquoexemple de la section 122) et lrsquoon-tologie SNP-Ontology est

Patient_id f1 (hminus11 (Patient_id)) = patient_id

LDL_c_mgl f2 (hminus12 (LDL_c_mgl)) = f2 hminus1

2 (LDL_c_mgl)) = f2 (LDL_c) = ldl_c_mol_lxanthome f3 (hminus1

3 (xanthome)) = xanthome

rs28942076 f4 (hminus14 (rs28942076)) = rs28942076_01

Si lrsquoon observe le mapping proposeacute pour lrsquoattribut LDL_c il faut drsquoabord rappeler que lrsquoattribut LDL_c de larelation Rclinique avait eacuteteacute transformeacute par la fonction h2 en LDL_c_mgl dans Rinit hminus1

2 assure ainsi la premiegraveretransformation inverse pour retrouver le format originel de lrsquoattribut LDL_c Ensuite la fonction g permetde transformer les valeurs de lrsquoattribut en noms drsquoindividus dans la ie ldl_c_mol_l

La partie correspondante du mapping inverseMiminusd entre individus et attributs est simplement

patient_id Patient_id

ldl_c_mol_l LDL_c_mgl = h2 f minus12 (ldl_c_mol_l)

xanthome xanthome

rs28942076_01 rs28942076

La Figure 42 positionne les mappingsMdminusaMdminusdMiminusd deacutefinis pour la seacutelection drsquoun jeu de don-neacutees guideacutee par les connaissances du domaine ainsi que la forme des fonctions utiliseacutees pour transformerles valeurs drsquoattributs en nom drsquoindividus

124 Seacutelection drsquoindividus et reacuteduction du jeu de donneacutees initial

La reacuteduction du jeu de donneacutees initial repose sur une seacutelection reacutealiseacutee par lrsquoanalyste drsquoindividusde la Pour cela lrsquoanalyste deacutecrit un concept C0 agrave partir des concepts et des rocircles de lrsquoontologie Leconcept C0 peut ainsi ecirctre explicitement deacutefini dans lrsquoontologie ou correspondre agrave la description drsquounnouveau concept (impliquant connecteurs logiques concepts rocircles et individus) ou mecircme le concept ⊤Le meacutecanisme de raisonnement de recherche drsquoinstances (instance retrieval en anglais) permet ensuitedrsquoindiquer quels sont les individus instances de C0

Deacutefinition 45 (A0) SoitA0 lrsquoensemble des individus a instances de C0 tels que

a isin A0 si O C0(a) (42)

Les technologies du Web seacutemantique proposent diffeacuterents langages de requecircte qui permettent de retrouverles individus instances drsquoun concept drsquoune ontologie comme par exemple SPARQL

Crsquoest lorsqursquoil seacutelectionne ainsi des individus dans la que lrsquoanalyste peut beacuteneacuteficier des connais-sances formaliseacutees dans lrsquoontologie

110 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

F 42 ndash Positionnement et relations des trois mappings Mdminusa Mdminusd et Miminusd Les mappings Mdminusa

sont deacutefinis entre un scheacutema de bases de donneacutees et la Base de Connaissance Les mappingMdminusd sontdeacutefinis entre les scheacutemas des bases de donneacutees et la relation du jeu de donneacutees intial Le mappingMiminusd

est deacuteduit des deux preacuteceacutedents Les fonctions symboliques associeacutees aux mappings sont repreacutesenteacutees Laforme geacuteneacuterale des fonctions associeacutees au mappingMiminusd est la composition de lrsquoinverse de fi et de h j

ndash Lrsquoanalyste peut utiliser la hieacuterarchie de concepts pour seacutelectionner un ensemble drsquoindividus in-stances drsquoun concept plus ou moins speacutecifique La seacutelection progressive de concepts de plus enplus speacutecifiques au fur et agrave mesure des diffeacuterentes iteacuterations du processus permet de circonscrireun type drsquoindividu afin drsquoen eacutetudier les proprieacuteteacutes propres A lrsquoinverse il est possible de seacutelection-ner des concepts de plus en plus geacuteneacuteraux afin de valider la geacuteneacuteraliteacute drsquoune proprieacuteteacute mise eneacutevidence sur un ensemble restreint drsquoindividus

ndash Lrsquoanalyste peut utiliser les rocircles et les restrictions associeacutees pour seacutelectionner des individus preacutesen-tant des proprieacuteteacutes particuliegraveres

Une fois les individus seacutelectionneacutes le jeu de donneacutees peut ecirctre reacuteduit agrave lrsquoaide de A0 et du mappingindividu-donneacuteesMiminusd selon les regravegles deacutefinies comme suit

Deacutefinition 46 (Regravegles de reacuteduction) Soit Bi un attribut drsquoune relation Rinit a un individu drsquoune ontolo-

gie O le quintuplet (RinitMiminusd FHO) comme donneacute dans la deacutefinition 44 et un ensemble drsquoindividus

A0 instances drsquoun concept C0 Si

a Bi isin Miminusd

a lt A0 et

Bi cle de Rinit

(43)

alors le n-uplet dont Bi est la cleacute est supprimeacute du jeu de donneacutees initial

De faccedilon similaire si

a Bi isin Miminusd

a lt A0 et

Bi non cle de Rinit

(44)

alors lrsquoattribut Bi est supprimeacute du jeu de donneacutees initial

En fonction du type drsquoindividus seacutelectionneacutes le jeu de donneacutees est reacuteduit selon une dimension ou uneautre

1 Seacutelection de donneacutees guideacutee par les connaissances du domaine 111

Exemple Si le concept initial C0 est deacutefini par lrsquoanalyste comme suit

C0 equiv administrative_item ⊔ phenotype_item

pour les quatres individus impliqueacutes dans le mappingMiminusd proposeacute dans lrsquoexemple preacuteceacutedent les meacute-canismes de raisonnement sur SNP-Ontology donne les reacutesultats suivant

SNP-Ontology C0(patient_id)SNP-Ontology C0(ldl_c_mol_l)SNP-Ontology C0(xanthome)SNP-Ontology 2 C0(rs28942076_01)

alorspatient_id ldl_c_mol_l xanthome isin A0

rs28942076_01 lt A0

et si lrsquoon considegravere lrsquoensemble desMdminusiA0 et Rinit qui deacuteteacutermine les regravegles de reacuteduction seul lrsquoindividurs28942076_01 est inclu dans le mapping mais pas dans la seacutelection drsquoinstance

rs28942076_01 rs28942076 isin Miminusd

rs28942076_01 lt A0 et

rs28942076 non cle de Rinit

En conseacutequence lrsquoattribut rs28942076 de Rinit est supprimeacute En revanche les attributs Patient_id LDL_c_mglxanthome sont conserveacutes pour constituer une nouvelle relation Rreduit Les autres attributs de Rinit relatif augeacutenotype sont eacutegalement supprimeacutes de la relation du jeu de donneacutees initial Au final la transistion entreRinit et le schema Rreduit du jeu de donneacutee reacuteduit est

Rinit (Patient_id LDL_c_mgl xanthome rs28942076 rs28942078 rs28942079 rs28942080 rs28942081 rs28942082rs28942083 rs28942084 rs28942085)

darr

Rreduit (Patient_id LDL_c_mgl xanthome)

Les sceacutenarios preacutesenteacutes dans la section 13 illustrent lrsquoutilisation par un biologiste des connaissances dudomaine pour reacuteduire en limitant la perte drsquoinformation le nombre de n-uplets ou drsquoattributs dans le jeude donneacutees initial

13 Expeacuterimentation pour la deacutecouverte de relations geacutenotypendashpheacutenotype

131 Motivation

Nous preacutesentons dans cette section des sceacutenarios drsquoutilisation de notre approche de seacutelection dedonneacutees guideacutee par les connaissances pour la recherche de relations geacutenotypendashpheacutenotype introduiteschapitre 1 section 13

Lrsquoapproche que nous proposons pour guider lrsquoanalyste dans sa seacutelection de donneacutees vise agrave srsquoappuyerde faccedilon semi-automatique sur les connaissances disponibles du domaine Ceci se justifie pleinement enbiologie ougrave de plus en plus drsquoontologies sont construites et rendues disponibles sur Internet comme surles portails OBO Foundry et Bioportal eacutevoqueacutes chapitre 2 section 34

Afin drsquoalleacuteger la lecture les mappings deacutefinis pour cette expeacuterimentation et ayant donneacute lieu audeacuteveloppement de wrappers ne sont pas repreacutesenteacutes Cependant des exemples de ces mappings ont eacuteteacuteproposeacutes dans la section preacuteceacutedente (section 12)

112 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

F 43 ndash Approche pour la seacutelection de donneacutees (Figure 41) utiliseacutee pour lrsquoexpeacuterimentation ie larecherche de relations geacutenotypendashpheacutenotype lieacutees agrave lrsquoHF

132 Hypercholesteroleacutemie Familiale sources de donneacutees et de connaissances

Notre expeacuterimentation srsquoinscrit dans le cadre de la recherche de nouvelles connaissances relatives agravelrsquohypercholesteacuteroleacutemie familiale (HF) LrsquoHF est un deacutesordre meacutetabolique drsquoorigine geacuteneacutetique autosomaldominant causeacute par diffeacuterentes mutations du gegravene LDLR [BDdG94] Elle est caracteacuteriseacutee principalementpar une augmentation importante de la concentration en cholesteacuterol LDL (Low Density Lipoprotein) dansle sang

Lrsquoobjectif du processus drsquo mis en oeuvre ici est drsquoextraire des relations entre des variants

geacutenomiques (ie le geacutenotype) et des traits pheacutenotypiques (ie le pheacutenotype) Des relations drsquointeacuterecirct sontpar exemple celles qui impliquent des variants geacutenomiques modulateurs ie un variant (ou un groupe devariants) qui a(ont) un effet modulateur sur la graviteacute de la pathologie eacutetudieacutee (lrsquoHF par exemple) ou surun symptocircme lieacute agrave celle-ci

Par exemple il existe diffeacuterents niveaux de seacuteveacuteriteacute de lrsquoHF qui sont fonctions de lrsquoallegravele observeacutepour deux variants geacutenomiques du gegravene APOE (rs7412 et rs429358) [NBS+06] Ces variants modula-teurs preacutesentent un inteacuterecirct particulier en pharmacogeacutenomique puisqursquoils sont souvent impliqueacutes dans lamodulation du meacutetabolisme et de lrsquoeffet des meacutedicaments [GBe07]

Les sources de donneacutees exploreacutees dans le cadre de cette expeacuterimentation ont deux origines dif-feacuterentes (i) deux jeux de donneacutees priveacutes reacutesultats drsquoinvestigations cliniques relatives agrave lrsquoHF (ii) desbases de donneacutees publiques (dbSNP HapMap OMIM PharmGKB et des bases de donneacutees ldquoLocus Speacute-cifiquesrdquo60) dont certaines parties ont eacuteteacute utiliseacutees pour instancier la SNP-Ontology Cette instanciationsuit lrsquoapproche deacutecrite dans la section 121 La Figure 43 deacutecrit la meacutethode (comme la Figure 41) dansle cas preacutecis de la recherche de relations geacutenotypendashpheacutenotype lieacutees agrave lrsquoHF

De lrsquoensemble des sources de donneacutees consideacutereacutees est extrait un jeu de donneacutees initial appeleacute HFinitial

constitueacute de 125 n-uplets correspondant agrave 125 patients impliqueacutes dans une eacutetude clinique lieacutee agrave lrsquoHF et

60The WayStation http wwwcentralmutationsorg

1 Seacutelection de donneacutees guideacutee par les connaissances du domaine 113

de 304 attributs relatifs au geacutenotype (292304) et au pheacutenotype (12304) des patientsLe jeu de donneacutees HFinitial implique (α) des patients atteints drsquoune hypercholesteacuteroleacutemie drsquoorigine geacuteneacutetique (ie lrsquoHF)(β) des patients atteints drsquoune hypercholesteacuteroleacutemie drsquoorigine non-geacuteneacutetique et(γ) des patients sainsLa majoriteacute des attributs geacuteneacutetiques (289293) provient du geacutenotypage (ie les allegraveles porteacutes) de

chaque patient pour les variations geacutenomiques du gegravene LDLR exploreacutees Un exemple drsquoattribut geacuteneacutetiquede ce type sont les allegraveles observeacutes pour la variation situeacutee agrave la position Chr19 11085058 (eg AA) Lesattributs relatifs au pheacutenotype deacutecrivent les variables habituellement observeacutees ou mesureacutees dans le cadrede lrsquoexploration du meacutetabolisme des lipides par exemple la concentration en cholesteacuterol LDL circulant(eg [LDL]c=3glminus1) ou la preacutesenceabsence de xanthome61 chez le patient

133 Meacutethodes de fouille

Pour eacutevaluer la quantiteacute de reacutesultats de fouille de donneacutees dans le cadre de cette expeacuterimentationnous utilisons deux meacutethodes de fouille de donneacutees

ndash lrsquoextraction des motifs freacutequents preacutesenteacutee dans la section 132 du chapitre 2ndash la classification hieacuterarchique non superviseacutee COBWEB [Fis87]La premiegravere meacutethode produit des motifs freacutequents (MF) agrave partir desquels peuvent ecirctre isoleacutes des sous

ensembles de motifs non-redondants les motifs fermeacutes freacutequents (MFF) Nous utilisons le nombre demotifs produits pour donner une estimation de la quantiteacute de reacutesultats agrave interpreacuteter et le ratio du nombrede MF sur celui de MFF ( |MF|

|MFF|) pour donner une estimation de la redondance des reacutesulats

COBWEB produit un ensemble de clusters organiseacutes selon une hieacuterarchie Le nombre de clustersnous sert drsquoindice pour juger de la complexiteacute des reacutesultats

134 Seacutelection progressive de variants speacutecifiques ndash guideacutee par la subsomption

Le premier sceacutenario srsquoappuie sur lrsquohypothegravese que des relations geacutenotypendashpheacutenotype pertinentes peu-vent ecirctre plus facilement extraites drsquoun sous-ensemble de donneacutees ne contenant que les variants codants62

ou les variants des domaines proteacuteiques conserveacutes63 Selon notre approche ce genre de seacutelection reacutesultede la seacutelection dans lrsquoontologie SNP-Ontology des individus instances du concept le plus speacutecifique quicorrespond au type de variant choisi Cette seacutelection peut se faire par une navigation progressive dans lahieacuterarchie de lrsquoontologie en suivant les relations de subsomption Le Tableau 42 illustre une seacutelectionsuccessive (au cours de diffeacuterentes iteacuterations du processus drsquoECBD) des individus instances du conceptvariant puis de ses sous-concepts les plus speacutecifiques successivement variant puis coding_variant etenfin conserved_domain_variant La seacutelection progressive drsquoun nombre deacutecroissant drsquoindividus se reacuteper-cute en une diminution du nombre des attributs dans HFinitial respectivement 289 231 et 126 attributsLes attributs relatifs aux variants non-codants sont eacutelimineacutes dans un premier temps puis sont eacutecarteacutes lesvariants codants localiseacutes hors des reacutegions correspondant aux domaines proteacuteiques conserveacutes

En pratique la seacutelection de classes plus ou moins speacutecifiques en suivant lrsquoorganisation hieacuterarchiqueproposeacutee par lrsquoontologie se fait par lrsquointermeacutediaire drsquoune partie drsquoun plug-in de Proteacutegeacute 4 que nous avonsdeacuteveloppeacute et dont lrsquointerface graphique est repreacutesenteacutee en Annexe G

Les conseacutequences que peut avoir la reacuteduction du jeu de donneacutees sur la quantiteacute et la significativiteacute desreacutesultats bruts de la fouille de donneacutees sont illustreacutees dans le Tableau 42 Pour cela les diffeacuterents jeuxde donneacutees reacuteduits obtenus ont eacuteteacute soumis aux deux meacutethodes de fouille de donneacutees utiliseacutes pour eacutevaluer

61Un xanthome est une tumeur beacutenigne cutaneacutee souvent signe drsquoune anomalie des lipides62Localiseacutes dans les reacutegions codantes pour ecirctre preacutecis63Dont les conseacutequences proteacuteiques se localisent dans des domaines conserveacutes pour ecirctre preacutecis

114 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

C0 variant coding_variant conserved_domain_variant tag_snp

Nombre drsquoattributs 289 231 126 198

() 6928 (255) 314 (24) 304 (12) 300 (28)ratio 2717 1308 2533 1071

Clusters 194 186 56 40

T 42 ndash Caracteacuterisation quantitative des reacutesultats bruts de fouille de donneacutees en fonction du nombredrsquoattribut seacutelectionneacutes

la quantiteacute de reacutesultats produits lrsquoextraction des motifs freacutequents (avec lrsquoalgorithme Zart [SNK07]) etCOBWEB (avec lrsquoalgorithme implanteacute dans Weka64) Quand tous les variants sont consideacutereacutes (colonnevariant du Tableau 42) le nombre total de motifs freacutequents () est de 6928 et le nombre de clusters deCOBWEB est 194 Dans leur eacutetat brut ces reacutesultats de fouille sont complexes agrave interpreacuteter Le nombrede variables impliqueacutees est important et il nrsquoy a pas excepteacute leur nom drsquoinformations contextuelles a

priori qui permettent de les diffeacuterencier Par exemple les variants codants ne peuvent pas ecirctre distingueacutesdes non-codants

La quantiteacute de reacutesultats de fouille de donneacutees diminue progressivement lorsque moins drsquoindividusdonc moins drsquoattributs sont seacutelectionneacutes (colonnes coding_variant et conserved_domain_variant) Ainsile nombre de passe de 6928 agrave 304 et le nombre de clusters de 194 agrave 56

Lrsquoorganisation hieacuterarchique mateacuterialiseacutee par la relation de subsomption est une des connaissancesdu domaine qui peut ecirctre utiliseacutee pour reacuteduire le volume du jeu de donneacutees agrave fouiller Cependant unetelle seacutelection oblige agrave un compromis sur le type de variants agrave inclure dans lrsquoeacutetude

135 Unification des variants agrave lrsquoaide des Tag-SNP ndash guideacutee par les rocircles et la compostion de rocircles

Les reacutesultats de la fouille du jeu de donneacutees HFinitial preacutesentent un proportion importante de triviaux ou redondants Ceci est ducirc en partie au fait que certains variants du jeu de donneacutees appartiennentaux mecircmes haplotypes Comme deacutecrit dans la section 24 du chapitre 1 un haplotype deacutesigne un groupede variants transmis conjointement et de faccedilon homogegravene agrave travers les geacuteneacuterations Il est possible drsquoi-dentifier au sein des haplotypes un ensemble minimal de variants appeleacutees Tag-SNP dont lrsquoobservationsuffit agrave preacutedire lrsquoallegravele preacutesenteacute par les autres variants de lrsquohaplotype Reacuteduire un ensemble de variantsmembres drsquoun haplotype agrave ses tag-SNP permet de reacuteduire les relations qui traduisent la deacutependance entreces variants et ainsi reacuteduit la redondance des reacutesultats

La Figure 44 montre un haplotype et sa repreacutesentation dans lrsquoontologie SNP-Ontology Cet haplo-type est composeacute des variants rs_001 rs_002 rs_003 et rs_004 et peut ecirctre remplaceacute par son uniquetag-SNP rs_004 La description drsquoun haplotype (ici le NA01234) met en lumiegravere lrsquoexistence drsquounedeacutependance fonctionnelle entre un (ou plusieurs) tag-SNP (rs_004) et les autres membres de lrsquohaplo-type (rs_001 rs_002 rs_003) Cette deacutependance est repreacutesenteacutee dans la SNP-Ontology comme suit

rs_001 rs_002 rs_003 ≔ exist isHaplotypeMemberO f haplotype_NA01234 ⊓exist isHaplotypeMemberO f isTaggedBy rs_004

64http wwwcswaikatoacnzmlweka

1 Seacutelection de donneacutees guideacutee par les connaissances du domaine 115

F 44 ndash Concepts de SNP-Ontology instancieacutes par des individus repreacutesentant des variationsgeacutenomiques (rs_001 rs_002 rs_003 et rs_004) et un haplotype (NA_01234) Leacutegende les ovales pleinssont des concepts les ovales en tirets sont des individus la ligne pleine est une relation de subsomptionles lignes en tirets ronds sont des rocircles les lignes en tirets plats sont des assertions

et inversementrs_004 ≔ exist tags haplotype_NA01234 ⊓

exist tags containsVariants rs_001 ⊓exist tags containsVariants rs_002 ⊓exist tags containsVariants rs_003

Lrsquoontologie contient lrsquoensemble des descriptions des haplotypes des gegravenes geacutenotypeacutes pour la pop-ulation eacutetudieacutee dans lrsquoeacutetude HFinitial Les connaissances sur les haplotypes sont inteacutegreacutees agrave lrsquoontologielors de la phase drsquoinstanciation de notre approche agrave partir des donneacutees du projet HapMap et de donneacuteesissues du logiciel Haploview [Con03 BFMD05]

Le concept de tag-SNP est explicitement deacutecrit dans SNP-Ontology de la faccedilon suivante

tag_snp equiv exist tags containsVariantVariant (45)

Ainsi en limitant la deacutefinition du concept C0 agrave la deacutefinition des tag-SNP (ie C0 equiv tag_snp) lrsquoanalysteentraicircne la suppression au sein du jeu de donneacutees des attributs qui ne concernent pas des tag-SNP Suiv-ant notre exemple baseacute sur lrsquohaplotype NA01234 ceci revient finalement agrave la suppression des colonnesrs_001 rs_002 et rs_003 du jeu de donneacutee HFinitial Au niveau de lrsquoensemble du jeu de donneacutees HFinitialle Tableau 42 montre qursquoune telle seacutelection reacuteduit le nombre drsquoattributs (289 agrave 198) et diminue consid-eacuterablement la quantiteacute de reacutesultats produits par les deux meacutethodes de fouille La reacuteduction des reacutesultatsde fouille est due premiegraverement agrave la reacuteduction du nombre drsquoattributs et deuxiegravemement agrave la reacuteductiondu nombre drsquoassociations lieacutees agrave la deacutependance fonctionnelle (ie la co-segreacutegation) entre les variantsdrsquoun mecircme haplotype Le ratio |||| donne une ideacutee de la redondance65 qui existe au sein des motifsextraits lors de lrsquoextraction de motifs freacutequents et indique ainsi que la redondance entre les diminuelorsque le jeu de donneacutees est reacuteduit en utilisant les tag-SNP

R Les haplotypes sont des constructions statistiques dont la preacutecision est deacutependante delrsquoeacutechantillon drsquoindividus utiliseacute La reacuteduction du jeu de donneacutees sur la base de la composition des haplo-types souffre donc du mecircme biais

65Un motif est drsquoautant plus redondant qursquoil retrouveacute comme sous-motif drsquoun grand nombre drsquoautres motifs

116 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

136 Seacutelection de patients ndash guideacutee par la deacutefinition de concepts

Les deux premiers sceacutenarios visaient agrave reacuteduire le nombre drsquoattributs (relatifs au geacutenotypage de vari-ants geacutenomiques) Le troisiegraveme sceacutenario deacutecrit dans cette section illustre quant agrave lui la reacuteduction dunombre de n-uplets (ie de patients) du jeu de donneacutees HFinitial Pour ce faire lrsquoanalyste seacutelectionnedes individus instances des concepts deacutecrits non plus dans lrsquoontologie SNP-Ontology mais deacutecrit dansSO-Pharm dont la SNP-Ontology ne constitue qursquoune partie (voir chapitre 3 section 13)

Les concepts rocircles et individus de SO-Pharm permettent de deacutecrire de nouveaux concepts qui peu-vent preacutesenter un inteacuterecirct particulier dans le cadre de lrsquoexploration de lrsquoHF Le jeu de donneacutees regroupenotamment trois classes diffeacuterentes de patients (α β et γ) qui ne sont pas initialement repreacutesenteacutees dansSO-Pharm mais qursquoil est inteacuteressant de regrouper dans le cadre de lrsquoeacutetude afin drsquoen explorer les pro-prieacuteteacutes caracteacuteristiques et discriminantes Pour cela lrsquoanalyste peut utiliser SO-Pharm et les individuscreacuteeacutes lors de lrsquoeacutetape drsquoinstanciation pour deacutefinir le concept C0 correspondant agrave la classe de patients qursquoilveut eacutetudier

patients α C0 equiv patient ⊓

exist hasGenotypeItem LDLR_mutation

patients β C0 equiv patient ⊓

exist hasGenotypeItem no_LDLR_mutation ⊓

exist hasPhenotypeItem high_LDL_in_blood

patients γ C0 equiv patient ⊓

exist hasGenotypeItem no_LDLR_mutation ⊓

exist hasPhenotypeItem normal_LDL_in_blood

Lrsquoutilisation du meacutecanisme de recherche drsquoinstances permet de deacuteterminer quelles sont les instancesdu concept C0 Selon lrsquoapproche deacutecrite cela a se reacutepercute au niveau des donneacutees qui vont ecirctre reacuteduitesagrave un sous-ensemble de n-uplets qui partagent un attribut en commun ou qui appartiennent agrave une mecircmeclasse de patients Lrsquointeacuterecirct principal de cette reacuteduction est qursquoelle peut se faire agrave lrsquoaide drsquoattributs ou declasses qui ne sont pas preacutesents dans le jeu de donneacutees initial HFinitial mais qui sont repreacutesenteacutees danslrsquoontologie SO-Pharm

En pratique la deacutefinition de C0 srsquoeffectue de la mecircme maniegravere que dans le premier sceacutenario gracircce agravelrsquoutilisation drsquoun plug-in de Proteacutegeacute 4 (voir Annexe G)

14 Bilan

Nous avons preacutesenteacute dans cette section une meacutethode de seacutelection de donneacutees qui moyennant ladeacutefinition par lrsquoanalyste drsquoun ensemble de mappings adeacutequats lui permet de beacuteneacuteficier du contenu de la pour reacuteduire intelligemment un jeu de donneacutee initial avant la fouille

La proposition deacutecrite dans cette section pour guider la seacutelection de donneacutees agrave lrsquoaide des connais-sances du domaine et son illustration par des sceacutenarios de recherche de relations geacutenotypendashpheacutenotypeont eacuteteacute publieacutees dans le journal BMC Bioinformatics [CSTB+08]

Dans lrsquoideacutee drsquoaller plus loin dans lrsquoutilisation des connaissances disponibles pour lrsquoextraction de con-naissances la section suivante preacutesente une approche inteacutegreacutee drsquoExtraction de Connaissance agrave partir deBase de Connaissance () ougrave lrsquoensemble du processus drsquo est revisiteacute en preacutesence drsquoune Cetteapproche preacutesente en outre lrsquoavantage drsquoalleacuteger le travail de lrsquoanalyste en nrsquoexigeant que la deacutefinition

1 Seacutelection de donneacutees guideacutee par les connaissances du domaine 117

des mappings donneacuteesndashassertions (Mdminusa) neacutecessaires au peuplement de la agrave partir drsquoun ensemble debases de donneacutees heacuteteacuterogegravenes

118 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash

Nous proposons une approche particuliegravere drsquoExtraction de Connaissances guideacutee par les Connais-sances du Domaine () appelleacutee lrsquoExtraction de Connaisances agrave partir drsquoune Base de Connaissances() La nouveauteacute de celle-ci est que la nrsquoest plus positionneacutee en marge du processus mais estlrsquoeacuteleacutement central dont sont agrave la fois extraits les eacuteleacutements agrave fouiller et les connaissances pour guider lafouille

21 Description geacuteneacuterale

Nous proposons une approche drsquo dont lrsquooriginaliteacute principale est de travailler agrave partir des TBox

et ABox drsquoune Lrsquohypothegravese sous-jacente est lrsquoexistence de reacutegulariteacutes porteuses de connaissancesnouvelles et significatives dans lrsquoinstanciation (deacutefinie et induite) drsquoune

Il srsquoagit donc drsquoappliquer des meacutethodes de fouille de donneacutees sur un ensemble drsquoassertions de la dans le but de deacuteceler des reacutegulariteacutes interpreacutetables sous forme de connaissances pertinentes quiraffineront la Nous appelons cette approche lrsquoExtraction de Connaissances agrave partir drsquoune Base deConnaissance () par distinction avec lrsquoExtraction de Connaissances agrave partir de Bases de Donneacutees()

Deux obstacles se posent agrave la mise en œuvre drsquoune telle approche ndash premiegraverement les ne contiennent souvent qursquoune quantiteacute de connaissances restreinte compareacute

au contenu de bases de donneacutees ou de corpus de textes ndash deuxiegravemement les algorithmes de fouille de donneacutees sont deacuteveloppeacutes pour manipuler des donneacutees

et non des assertions de plus les reacutesultats de ces algorithmes ne sont pas repreacutesenteacutes suivant unformalisme de repreacutesentation des connaissances

Nous proposons de deacutepasser la premiegravere limite en deacuteveloppant des mappings entre le contenu desbases de donneacutees du domaine et lrsquoontologie (ou TBox) (0) Ces mappings serviront de base agrave des wrappers

deacuteveloppeacutes speacutecialement pour peupler lrsquoontologie agrave partir du contenu de bases de donneacuteesPour surmonter la deuxiegraveme limite il est neacutecessaire de reacutealiser une eacutetape de transformation (i) des as-

sertions de lrsquoontologie en un format compatible avec le format drsquoentreacutee de la meacutethode de fouille choisieApregraves lrsquoeacutetape de fouille proprement dite (ii) il est eacutegalement neacutecessaire de reacutealiser une eacutetape de transfor-mation inverse (iii) des reacutesultats de fouille en axiomes et assertions dans le formalisme de lrsquoontologie

Notre meacutethode se divise ainsi en 4 eacutetapes principales (0 i ii iii) dont les 3 derniegraveres peuventecirctre compareacutees aux trois eacutetapes principales du processus drsquo (i) la preacuteparation des donneacutees (ii)

la fouille et (iii) lrsquointerpreacutetation Nous supposons ici que la TBox de la est deacutejagrave construite La Figure45 repreacutesente scheacutematiquement cette approche iteacuterative et interactive

22 Application conjointe des Logiques de Descriptions et de lrsquoAnalyse de Concepts Formelsdans le contexte de lrsquo

Lrsquoexistant le plus proche de la meacutethode drsquo proposeacutee ci-dessus vient de travaux qui font inter-venir conjointement des formaliseacutees en et des meacutethodes drsquoAnalyse de Concepts Formels ()(chapitre 2 section 131) et partagent malgreacute des diffeacuterences fondamentales deux principes la notion de concept et lrsquoorganisation hieacuterarchique de ces concepts Bien que diffeacuterente en et en la notion de concept repose sur la mecircme ideacutee fondamentale de collection drsquoobjets partageant un certainnombre de proprieacuteteacutes Aussi lrsquoorganisation en hieacuterarchie des concepts formels produite par lrsquo preacutesentedes similitudes avec lrsquoorganisation des concepts drsquoune ontologie en Ces similitudes rendent possible

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 119

F 45 ndash LrsquoExtraction de Connaissances agrave partir drsquoune Base de Connaissances ou

lrsquoutilisation conjointe de meacutethodes ou outils provenant des deux domaines Toutefois les diffeacuterencesprincipales entre concepts en et concepts formels sont premiegraverement la faccedilon dont ils sont obtenus etdeuxiegravemement la faccedilon de les deacutecrire

En les concepts sont obtenus de faccedilon manuelle ou semi-automatique par un expert du domaineeacutetudieacute dans lrsquoobjectif de formaliser les concepts drsquointeacuterecirct du domaine en question La descriptiondrsquoun concept en est construite agrave partir de concepts atomiques (des preacutedicats unaires) de rocirclesatomiques (des preacutedicats binaires) et des constructeurs de concepts fournis par le langage de utiliseacute (existforall par exemple) Les concepts deacutecrits ainsi que les rocircles servent dans un second tempsagrave la speacutecification des proprieacuteteacutes des objets Pour plus de deacutetails voir la section 22 du chapitre 2 ou[BCM+03]

En les concepts formels sont obtenus agrave partir de contextes formels qui speacutecifient les attributs (ouproprieacuteteacute) preacutesenteacutes par chaque objet Dans un tel contexte un concept formel est deacutecrit par unensemble drsquoobjets (son extension) et un ensemble drsquoattributs (son intension) de telle sorte que lrsquoin-tension contienne exactement lrsquoensemble des attributs que les objets de lrsquoextension ont en communet qursquoinversement lrsquoextension contienne exactement lrsquoensemble des objets qui partagent tous lesattributs de lrsquointension Pour plus de deacutetails voir la section 131 du chapitre 2 ou [GW99]

Dans les deux cas les descriptions associeacutees aux concepts permettent de les organiser en une hieacuterar-chie Toutefois les deux types de concept deacutecrits de faccedilons distinctes produisent deux types de hieacuterar-chies distinctes

R Certains auteurs utilisent eacutegalement les notions drsquointension et drsquoextension concernantles concepts de Dans ce cas lrsquointension du concept est la description du concept et lrsquoextension estlrsquoensemble des individus (ie des objets) instances du concept en question

Baader et al utilisent lrsquo pour construire en partant du bas une hieacuterarchie de concepts agrave partirdrsquoun ensemble fini de concepts C1 Cn [BS04] Le principe de la meacutethode repose sur la deacutefinitiondrsquoun contexte formel agrave partir de lrsquoensemble de concepts de deacutepart et soit de leurs conjonctions soitde leurs subsumants communs les plus speacutecifiques La meacutethode drsquo utiliseacutee sur le contexte est lrsquoal-gorithme drsquoexploration drsquoattributs de Ganter [Gan84] qui permet de deacuteterminer des implications de laforme B1 rarr B2 Les implications permettent de deacuteriver des relations de subsomption entre les concepts

120 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

de deacutepart et leurs conjonctions (par exemple B1 ⊑ B2) ou entre les subsumants communs les plus speacute-cifiques des concepts de deacutepart et les concepts de deacutepart de sorte agrave geacuteneacuterer progressivement et de basen haut une hieacuterarchie En pratique ce travail est tregraves peu exploitable car les hieacuterarchies geacuteneacutereacutees au-tomatiquement sont volumineuses en raison du fait que tous les concepts qursquoil est possible de deacutecrire agravepartir des concepts de deacutepart sont construits et inclus dans la hieacuterarchie De plus la meacutethode srsquoappuiesur lrsquohypothegravese forte qursquoun subsumant commun le plus speacutecifique existe toujours et peut toujours ecirctretrouveacute ce qui nrsquoest pas le cas en pratique Enfin ce travail prend en compte la TBox sans exploiter lesconnaissances de la ABox

Des reacutesultats plus exploitables dans le cadre de lrsquo reacutesultent de deux travaux qui se complegravetent lrsquoExploration Relationnelle (que nous noterons )[Rud06] et la proposition de compleacutetion des en par Baader et al [BGSS07]

LrsquoExploration Relationnelle () deacutecrite par Rudolph srsquoappuie sur une extension de lrsquoalgorithme drsquoex-ploration drsquoattributs dans un contexte de Pour cela lrsquo se base sur la deacutefinition du contexte lieacuteagrave lrsquointerpreacutetation I en

Deacutefinition 47 (Contexte - ) Soit I une interpreacutetation sur le domaine ∆ M un ensemble de

description de concepts de ce domaine en et Ic une relation drsquoincidence Le contexteKI(M) lieacute

agrave lrsquointerpreacutetation I est deacutefini par le triplet (∆M Ic) ougrave quand la relation drsquoincidence Ic associe

agrave un individu δ de ∆ une description de concept C de M alors lrsquoindividu δ est instance du concept

CI Plus formellement

δIcCI hArr δ isin CI

A partir de cette deacutefinition il est deacutemontreacute que les implications extraites de KI par lrsquoexplorationdes attributs coiumlncident avec certains axiomes valides selon I (voir [Rud06]) Ainsi si CD sube M

alors lrsquoimplication C rarr D est extraite de KI si et seulement si I satisfait lrsquoaxiome C ⊑ DLrsquo permet drsquoexplorer les axiomes drsquoinclusion par cette correspondance et de veacuterifier leur validiteacutedans le domaine (selon I) agrave travers un systegraveme de questions-reacuteponses agrave un expert du domaineSi lrsquoassertion proposeacutee nrsquoest pas explicitement deacutecrite dans la TBox et ne peut pas ecirctre induitepar le meacutecanisme de raisonnement de subsomption alors lrsquoexpert est interrogeacute sur sa validiteacute Silrsquoassertion est vraie selon lrsquoexpert elle vient enrichir la TBox Si elle est fausse lrsquoexpert doitfournir un contre exemple qui sera ajouteacute agrave la ABox de la De cette faccedilon lrsquoimplication ne seraplus extraite lors drsquoune exploration suivante et la (TBox et ABox ) est progressivement raffineacutee

La compleacutetion des en proposeacutee par Baader et al [BGSS07] propose des ameacuteliorations permet-tant la mise en oeuvre effective de lrsquo Premiegraverement elle formalise lrsquoutilisation de lrsquo sur descontextes partiels Cette utilisation est neacutecessaire agrave la prise en consideacuteration drsquoobjets partiellementdeacutecrits par les meacutethodes de comme lrsquoexploration drsquoattributs Suivant lrsquohypothegravese du mondeouvert (deacutetailleacutee chapitre 2 section 22) les individus drsquoune en sont justement des objetspartiellement deacutecrits Deuxiegravemement la meacutethode limite agrave la seule subsomption les constructeurslogiques autoriseacutes dans les descriptions de concepts consideacutereacutes par la contexte (ie les conceptsde M de KI) Ceci permet de reacuteduire le nombre drsquoimplications et donc de questions poseacutees agravelrsquoexpert

Le beacuteneacutefice commun des reacutesultats de ces deux travaux est illustreacute par une meacutethode drsquoacquisitionsemi-automatique drsquoaxiomes en agrave partir de corpus de textes dans [VR08]

Une premiegravere limite des meacutethodes baseacutees sur lrsquoExploration drsquoAttributs est de nrsquoexploiter que lesimplications du contexte ie les regravegles dont la confiance est eacutegale agrave 1 Crsquoest justement ce qui permetdrsquoexclure un axiome C ⊑ D lorsque lrsquoexpert donne un contre-exemple agrave un axiome cela revient agrave

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 121

ajouter un objet au contexte qui preacutesente la proprieacuteteacute C sans la D ou inversement Ce nouvel objet rendforceacutement la confiance de la regravegle C rarr D infeacuterieure agrave 1 ce qui eacutevite lrsquoimplication entre C et D Nouspensons que cette limite est trop forte et peut empecirccher la mise en eacutevidence de concepts inteacuteressants agraveinclure dans la TBox Quand une est peupleacutee de nombreux individus quelque soit le mode utiliseacute pourson peuplement (manuel ou automatique) elle reste une repreacutesentation drsquoune reacutealiteacute particuliegravere soumiseaux nombreux arteacutefacts que cela implique par exemple le biais dans la repreacutesentation des connaissancesla reproduction ou lrsquointroduction de bruit drsquoerreurs lors du peuplement de la la difficulteacute agrave prendreen consideacuteration les cas extrecircmes

De plus selon la configuration de la (et notamment de son peuplement) le nombre drsquoimplicationset donc de questions poseacutees agrave lrsquoexpert peut ecirctre tregraves eacuteleveacute sans que celles-ci nrsquoapportent aucun beacuteneacuteficedans la repreacutesentation des connaissances qui inteacuteressent lrsquoexpert Par exemple un clinicien qui exploreune repreacutesentant les patients drsquoun hocircpital leurs dossiers meacutedicaux et administratifs peut selon la faccedilonavec laquelle a eacuteteacute peupleacute la geacuteneacuterer de nombreuses implications eacutevoquant des connaissances drsquoordreadministratif (ldquochocircmeurrdquo rarr ldquoassureacuteCMUrdquo ou ldquotransportEnAmbulancerdquo rarr ldquoActeDeRadiographierdquo) etfinalement tregraves peu de connaissances drsquoordre meacutedical qui puissent lrsquointeacuteresser

Nous proposons dans la section suivante une meacutethode drsquo qui utilise la compleacutementariteacute des etde lrsquo commme Rudolph et al et Baader et al Notre meacutethode se distingue notamment par

ndash la transcription des connaissances en donneacutees accessibles agrave la fouillendash la meacutethode de fouille utiliseacuteendash la position de lrsquoanalyste

et srsquooriente plus particuliegraverement vers une mise en application opeacuterationnelle sur des donneacutees reacuteeacutelles

23 Analyse des Assertions de Rocircles ndash

LrsquoAnalyse des Assertions de Rocircles ndash ougrave ndash est une approche particuliegravere drsquoExtraction de Con-naissances agrave partir de Bases de Connaissances () Lrsquo explore les reacutegulariteacutes dans les relationsdirectes et indirectes entre instances drsquoune en ie les reacutegulariteacutes des assertions de rocircles et de leurcomposition La section 231 deacutecrit lrsquo drsquoun point de vue geacuteneacuteral puis la section 232 la deacutetaille eacutetapepar eacutetape Enfin la section 24 preacutesente des reacutesultats expeacuterimentaux obtenues en pharmacogeacutenomique par

231 Description geacuteneacuterale

Lrsquo srsquoattache agrave analyser les reacutegulariteacutes preacutesentes dans la ABox (ie les assertions de concepts et de

rocircles) drsquoune ontologie en en utilisant les meacutethodes drsquoAnalyse de Concept Formel () et drsquoextractionde Regravegles Minimales Non-Redondantes Reacuteduites (RMNR) Ces reacutegulariteacutes sont susceptibles de refleacuteterlrsquoexistence de connaissances implicites dans la et de mettre en lumiegravere des relations inteacuteressantes

(selon lrsquoanalyste) mais masqueacutees qui prennent la forme de relations indirectes ou complexes entre lesindividus de la Une relation est indirecte si sa repreacutesentation neacutecessite lrsquoenchaicircnement de plusieursrocircles une relation est complexe si elle implique des relations vers plusieurs individus distincts

Pour cela nous proposons drsquoutiliser dans le cadre drsquoun processus semi-automatique et iteacuteratif leformalisme des pour deacutefinir des attributs analyseacutes par lrsquoexploration par nous permet de soncocircteacute drsquoobtenir ou drsquoaffiner des descriptions en De faccedilon informelle les exploitent les reacutesultatsobtenus par pour acqueacuterir interactivement des connaissances et lrsquo beacuteneacuteficie des pour exprimerdes connaissances relationnelles ie des connaissances sur les relations entre individus [Rud06]

Le preacuterequis indispensable agrave une telle approche est eacutevidemment de disposer drsquoune ontologie en instancieacutee pour pouvoir en utiliser les assertions Ensuite lrsquo se deacutecompose scheacutematiquement en trois

122 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

F 46 ndash LrsquoAnalyse des Assertions de Rocircles () et des ses diffeacuterentes eacutetapes

parties principalesndash La premiegravere partie (Figure 46 (i) Preacuteparation) vise agrave transformer les assertions en un contexte

formel format de donneacutees compatible avec les meacutethodes drsquo et drsquoextraction des RMNRndash La deuxiegraveme partie est lrsquoextraction desRMNR agrave partir du contexte formel et agrave lrsquoaide des meacutethodes

drsquo (Figure 46 (ii) Fouille)ndash Enfin la partie finale de lrsquo est la transformation des regravegles en concepts rocircles et assertions

de rocircles qui srsquoils sont jugeacutes inteacuteressants vis agrave vis des objectifs de lrsquoexpert et des connaissancespreacutesentes dans la de deacutepart y seront inseacutereacutes (Figure 46 (iii) Interpreacutetation)

Lrdquoiteacuteration suivante de lrsquo pourra alors prendre en entreacutee lrsquoontologie ainsi raffineacuteeNous fixons un ensemble de constructeurs minimal obligatoire pour la utiliseacutee puisque que la mise

en œuvre de lrsquo neacutecessite les constructeurs de conjonction existentiel nominal et de rocircle inverse ce quicorrespond agrave la ELOI La seule limite agrave lrsquoutilisation de plus expressives est la complexiteacute associeacuteeagrave la mise en œuvre des meacutecanismes de raisonnement utiliseacutes (notamment la recherche drsquoinstances)

Les sections suivantes deacutetaillent les eacutetapes permettant la mise en oeuvre de ces opeacuterations et pourchaque eacutetape le rocircle de lrsquoanalyste

232 Lrsquo eacutetape par eacutetape

Etapes preacuteliminaires construction et peuplement drsquoune Base de Connaissances La constructiondrsquoontologies et le peuplement de la associeacutee agrave partir du contenu de bases de donneacutees ont eacuteteacute deacuteveloppeacutesdans le chapitre 4

Etape 1 Seacutelection des instances de C0

La premiegravere eacutetape drsquoune iteacuteration drsquo est la description en par lrsquoanalyste drsquoun concept C0Il nrsquoy a pas de contrainte particuliegravere concernant la deacutefinition de C0 ce peut ecirctre le concept ⊤ un

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 123

concept atomique ou deacutefini dans la ou encore la description drsquoun concept non nommeacute dans la maisdeacutefini pour lrsquooccasion agrave partir de la et des constructeurs disponibles dans la logique choisie (ELOISHOIN(D) par exemple)

La deacutefinition de C0 sert agrave deacutelimiter les assertions qui seront analyseacutees et les concepts de la quiseront concerneacutes par lrsquoextraction de connaissances

La description de C0 permet drsquoobtenir un ensemble drsquoindividus A0 instances de C0 (voir deacutefinition45) Ces individus constituent la base de lrsquoanalyse puisque lrsquoapproche va srsquoattacher agrave eacutetudier commentceux-ci sont relieacutes aux autres individus de la et agrave mettre en eacutevidence des reacutegulariteacutes remarquables danslrsquoensemble de ces relations

Etape 2 Transformation des connaissances exploration des graphes drsquoassertions

Lrsquoobjectif de lrsquoeacutetape de transformation est de repreacutesenter dans un contexte formel (ie des donneacutees)les connaissances relatives aux relations de chaque individu deA0 avec lrsquoensemble des autres individusde la consideacutereacutee Pour ce faire nous deacutefinissons la notion de graphe drsquoassertions

Deacutefinition 48 (Graphe drsquoassertions) Soit a un individu de la O Ga(V E) est un graphe drsquoorigine

a isin V eacutetiqueteacute cyclique appeleacute le graphe drsquoassertions de a dans O ougrave

ndash V est lrsquoensemble des nœuds de Ga ougrave chaque nœud v est un individu de O relieacute agrave a directement

ou indirectement par un arc E

ndash E est lrsquoensemble des arcs de Ga ougrave chaque arc E(v1 v2) partant de v1 vers v2 est une assertion

du rocircle E entre les individus v1 et v2 dans O Les arcs sont nommeacutes par le nom du rocircle dont ils

repreacutesentent une instance Lrsquoarc E(v1 v2) peut ecirctre parcouru en sens inverse de v2 vers v1 on

note alors Eminus(v2 v1) Les arcs sont nommeacutes par le nom du rocircle dont ils repreacutesentent une instance

Le graphe Ga de a dans O contient lrsquoensemble des chemins possibles entre lrsquoindividu a et tout autreindividu v de O auquel il est relieacute directement ou indirectement par n rocircles Ei (n isin N) De cette faccedilonchacune des relations existant entre a et les autres individus de O est repreacutesenteacutee dans le graphe par unchemin de a vers un autre individu v nœud de Ga

Proprieacuteteacute 41 (Interpreacutetation drsquoun chemin dans Ga) Srsquoil existe un chemin entre lrsquoindividu a et lrsquoin-

dividu v passant successivement par les rocircles E1 E2 En alors cela signifie que a est instance drsquoun

concept noteacute Ca de forme exist E1 E2 Env ou encore

exist E1 E2 Env (a) (46)

Proprieacuteteacute 42 Soit C un concept R un rocircle et a v deux individus de la O Alors si

O exist R v (a) et O C(v)

alors exist R v ⊑ exist RC et donc

O exist RC (a) (47)

Nous proposons pour chaque individu ai isin A0 de parcourir selon un algorithme simple tous leschemins et sous-chemins possibles dans son graphe drsquoassertions Gai

Lrsquoobjectif est drsquoassocier agrave chaqueindividu ai un ensemble de chemins donc selon la Proprieacuteteacute 41 un ensemble de descriptions de conceptsCai j dont ai est instance A partir de cette association nous proposons de construire un contexte formeldont chaque objet fait reacutefeacuterence agrave un individu ai isin A0 et dont les attributs font reacutefeacuterence aux diffeacuterentsconcepts Cai j dont les ai sont instances

Pour explorer lrsquoensemble des chemins possibles dans les graphes drsquoassertions nous utilisons un algo-rithme de parcours en profondeur (deacutecrit en Annexe F) fonction drsquoun paramegravetre la profondeur maximale

du parcours pmax deacutefinie par lrsquoanalyste en deacutebut de processus et de deux restrictions

124 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

(1) un mecircme chemin ne peut pas passer deux fois par le mecircme nœud(2) apregraves avoir emprunteacute un arc qui correspond agrave un rocircle E lrsquoalgorithme interdit lors de lrsquoeacutetape

suivante drsquoemprunter un arc de mecircme label en sens inverse qui correspond au rocircle inverse EminusLe paramegravetre pmax limite le nombre maximum drsquoarcs qursquoun seul chemin peut contenir et limite ainsi

la progression en profondeur de lrsquoalgorithme La premiegravere contrainte (1) garantie lrsquoabsence de cycle dansles chemins parcourus La seconde contrainte (2) est un choix heuristique qui limite la taille finale ducontexte formel geacuteneacutereacute

Dans ce dernier cas et dans la limite de la profondeur maximale il peut ecirctre deacutemontreacute que lrsquoalgo-rithme parcourt de faccedilon complegravete le graphe drsquoassertions ie parcourt tous les nœuds et arcs eacuteloigneacutes demoins de pmax arcs [RN03]

A la fin du parcours de graphes drsquoassertions des individus de A0 agrave chaque individu ai isin A0 estassocieacute un ensemble de chemins et donc un ensemble de concepts Cai j dont ai est instance A partir decette association est alors construit un contexte formel K(GMI)

ndash Chaque individu ai entraicircne la creacuteation drsquoun objet gi isin G dont le nom est celui de ai

ndash Chaque concept Cai j dont ai est instance entraicircne la creacuteation rArr drsquoun attribut mv isin M dont le nom est la description en du concept Cai j

A la notation classiqueexist E1 E2 En v

nous preacutefeacuterons ici la notation eacutequivalente qui utilise le constructeur de concept nominal suivant(appeleacute filler en anglais)

E1 E2 En vplus court et plus simple agrave transformer en une chaicircne de caractegraveres Ainsi le nom de mv est dela forme E1_o_E2_o__o_En v Lorsque Cai j equiv Cak j ie lorsque les individus ai et ak

sont instances drsquoun mecircme concept alors mv nrsquoest creacuteeacute que la premiegravere fois

rArr drsquoune relation giImv entre lrsquoobjet gi et lrsquoattribut mv

rArr de n attributs mC dont le nom est de la forme E1_o_E2_o__o_En Cv par similariteacute avecle nom de lrsquoattribut mv mais ougrave Cv fait reacutefeacuterence agrave un concept Cv dont v est instance

rArr des n relations giImC correspondantes

Les attributs mC et les relations relatives giImC sont creacuteeacutes dans le but drsquoaugmenter le nombredrsquoattributs et de relations dans le contexte K Leur creacuteation suit la Proprieacuteteacute 42 qui dit que si vest instance drsquoun concept quelconque Cv j alors a est eacutegalement instance de existE1 E2 EnCvAinsi pour chaque concept Cv j dont v est instance et tant que Cv j ne preacutesente pas de sous-conceptdont v est eacutegalement instance ie

2 Cvk ⊑ Cv j forallk j (48)

les attributs mC et les relations giImC correspondants sont ajouteacutes au contexte K

Le Tableau 43 repreacutesente le contexte formel K reacutesultant de lrsquoexploration des graphes drsquoassertionsdes individus deA0

La taille du contexte geacuteneacutereacute selon lrsquoexploration de graphes drsquoassertions deacutepend

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 125

G

Mmv1 mC11 mC1q1

mv j mC jk mvm mCm1 mCmqm

g1 times times times times times times times times

gi times times

gn times times times times times times

T 43 ndash Contexte formel K(GMI) reacutesultat de lrsquoexploration des graphes drsquoassertions

ndash suivant la dimension des objets du nombre drsquoindividus dansA0 (n dans le Tableau 43) etndash suivant la dimension des attributs premiegraverement du nombre de nœuds dans le graphe lui mecircme

deacutependant de la valeur de pmax (m dans le Tableau 43) et deuxiegravemement du nombre de conceptsnon ascendants (voir Eacutequation 48) dont les individus v sont instances (q dans le Tableau 43)

Etape 3 Analyse du contexte formel ACF et RMNR

Les meacutethodes drsquoAnalyse de Concepts Formels () introduites dans la section 131 du chapitre2 permettent la construction drsquoune repreacutesentation des donneacutees eacutetudieacutees sous la forme drsquoun treillis deconcepts ie un ensemble de concepts formels organiseacutes selon une structure hieacuterarchique Cette structurereacutesulte drsquoune analyse automatique des reacutegulariteacutes existantes entre donneacutees ces reacutegulariteacutes reacutesultent dufait que des objets distincts ont des attributs en commun et inversement que des attributs distincts sontpreacutesenteacutes par un mecircme objet

Lrsquoobjectif de notre approche est justement de comparer la repreacutesentation reacutesultant du processus au-tomatique drsquo agrave la repreacutesentation reacutesultant drsquoun processus de modeacutelisation dirigeacute par lrsquohumain lrsquoon-tologie de domaine Pour ce faire nous proposons dans un premier temps de construire le treillis puisdrsquoutiliser les RMNR pour caracteacuteriser lrsquoorganisation en concepts formels du treillis afin lors des eacutetapessuivantes de permettre la comparaison de cette repreacutesentation agrave celle de lrsquoontologie associeacutee agrave la

La construction du treillis peut ecirctre reacutealiseacutee par lrsquoutilisation de lrsquoalgorithme classique Next Closure

Algorithm deacutecrit par Ganter [Gan84] Kuznetsov et Obiedkov ont reacutecemment affineacute cet algorithme etreacutealiseacute une comparaison des diffeacuterentes meacutethodes de construction de treillis dans [KO02]

Une fois le treillis de concepts construit son organisation peut ecirctre caracteacuteriseacutee selon diffeacuterentesmesures ou meacutethodes La mesure du stabiliteacute drsquoun treillis proposeacutee par Kuznetsov [Kuz07] permet decaracteacuteriser la faccedilon dont la description (le couple extension intension) drsquoun concept est deacutependante dechacun des objets qui compose son extension Cette mesure a eacuteteacute utiliseacutee par Jay et al [JKN08] pourdeacutecrire des groupes sociaux drsquointeacuterecirct agrave partir de concepts formels stables ie dont lrsquoexistence ne reposepas uniquement sur quelques facteurs speacutecifiques Nous proposons une meacutethode diffeacuterente lrsquoutilisationdes Regravegles Minimales Non-Redondantes Reacuteduites (RMNR voir section 132) pour caracteacuteriser les as-pects du treillis qui nous inteacuteressent plus particuliegraverement crsquoest agrave dire les relations entre les conceptsformels et le nombre drsquoobjets qui participe agrave la deacutefinition des concepts et des relations

La recherche des Regravegles drsquoAssociations () est un moyen drsquoextraire drsquoun treillis ce genre drsquoinforma-tion de faccedilon exhaustive Cependant les produites preacutesentent lrsquoinconveacutenient drsquoecirctre particuliegraverementvolumineuses et redondantes Nous preacutefeacuterons donc nous limiter agrave lrsquoextraction drsquoune famille particuliegraverede les RMNR Ce type de regravegles preacutesentent un premier avantage qui est drsquoecirctre un sous-ensembledes reacuteduit et concis ce qui facilite lrsquoeacutetape suivante drsquointerpreacutetation des regravegles par lrsquoanalyste En effetlrsquoensemble des RMNR est le plus petit ensemble de regravegles suffisant pour geacuteneacuterer lrsquoensemble des

126 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

Le deuxiegraveme avantage des RMNR est drsquoecirctre particuliegraverement repreacutesentatives de la structure du treillispuisqursquoune RMNR est produite agrave partir de la description drsquoun seul concept ou du regroupement de deuxconcepts directement relieacutes dans le treillis (ie un concept et son super- ou son sous-concept)

R En fonction de lrsquoobjectif de lrsquoanalyste il peut ecirctre inteacuteressant non pas de chercher lesregravegles freacutequentes drsquoun contexte ( ou RMNR) mais de chercher un autre type de reacutegulariteacute commepar exemple les regravegles rares [SNV07] De plus lrsquoutilisation drsquoautres meacutethodes de fouille comme leclustering hieacuterarchique [Fis87] peut proposer une repreacutesentation des donneacutees suivant une organisationdiffeacuterente de celle du treillis qursquoil est eacutegalement pertinent selon les objectifs de comparer agrave lrsquoontologiede domaine

Etape 4 Interpreacutetation des reacutegulariteacutes en terme de concepts et de rocircles

A lrsquoinverse de lrsquoeacutetape preacuteceacutedente qui est automatique cette eacutetape implique lrsquoanalyste degraves son deacutebutLrsquoanalyste doit choisir pour chaque RMNR et parmi les attributs Mr qui la composent un ensembledrsquoattributs Ms sube Mr pertinents qui servira de base agrave la creacuteation de nouveaux concepts de nouveauxrocircles etou de nouvelles assertions de rocircles

Etape 4a Description de nouveaux concepts Selon un meacutecanisme inverse agrave celui opeacutereacute durantla phase de preacuteparation (Figure 46 (i)) les attributs seacutelectionneacutes au sein drsquoune regravegle sont traduits en ladescription en du concept auquel ils font reacutefeacuterence Ainsi on distingue les attributs

mv avec un nom de la forme E1_o_E2_o__o_En v qui sont traduits en exist E1 E2 En vmC avec un nom de la forme E1_o_E2_o__o_En Cv qui sont traduits en existE1 E2 EnCv

Un nouveau concept Cnew est alors deacutefini par la conjonction des descriptions de concepts correspon-dant aux attributsMs drsquoune mecircme regravegle Par exemple si dans la regravegle de la forme ltmb rarr md me m fgtles deux attributs mb et md ont eacuteteacute seacutelectionneacutes (ieMs = mbmd)

mb nommeacute R_o_S b est traduit en exist R S bmd nommeacute T_o_U_o_V d est traduit en existS T U d

et leur conjonction permet de deacutefinir

Cnew equiv exist R S b ⊓ existS T U d

Etape 4b Creacuteation de nouveaux rocircles etou drsquoassertions de rocircles Les attributs seacutelectionneacutes parlrsquoanalyste Ms permettent eacutegalement la creacuteation de nouveaux rocircles etou assertions de rocircles Dans cetobjectif ces attributs sont traduits de la mecircme faccedilon que pour la creacuteation de nouveaux concepts hormisle fait qursquoils ne sont pas associeacutes pour creacuteer une nouvelle description et que seuls les concepts dont ladescription met en jeu le constructeur nominal (ie exist Rv ou R v) sont utiliseacutes Si parmi les descriptionsde concepts traduits depuis les attributs deMs au moins deux font intervenir un constructeur nominalavec deux nominaux diffeacuterents alors chaque paire de nominaux est utiliseacutee pour la construction drsquoun rocircleet de deux assertions de rocircles dans la Ainsi pour chaque paire de nominaux nous deacutefinissons Rnew unrocircle atomique dont le domaine et le co-domaine sont les concepts les plus speacutecifiques dont les nominauxsont instances et deux assertions de rocircle la premiegravere de Rnew et la seconde de son inverse Rminusnew par lecouple de nominaux

Par exemple si mb et md sont deux attributs seacutelectionneacutes dans une mecircme regravegle alors la paire (b d)qursquoils constituent est agrave la base de la deacutefinition du rocircle atomique Rnew dont le domaine et le co-domaine

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 127

sont respectivement le concept le plus speacutecifique dont b est instance et le concept le plus speacutecifique dontd est instance La paire (b d) est utiliseacutee pour deux instanciations de rocircles Rnew(b d) et Rminusnew(d b)

R Les nominaux peuvent ecirctre instances de plusieurs concepts sans qursquoil ne soit possibledrsquoeacutetablir une relation de subsomption entre ces concepts (ie C(a) et D(a) mais 2 D ⊑ C et 2 C ⊑ D)Dans ce cas il nrsquoexiste pas un concept unique plus speacutecifique et lrsquoanalyste est solliciteacute pour statuer surle concept agrave choisir entre C et D pour le domaine (ou le co-domaine) de Rnew

Dans le cadre de notre approche nous utilisons les regravegles (RMNR) comme un moyen de caracteacuterisa-tion de la structure du treillis La seacutemantique attacheacutee agrave une regravegle est utiliseacutee pour caracteacuteriser lrsquoextensiondrsquoun concept formel (pour les regravegles certaines) et les relations avec ses concepts voisins (pour les regraveglesapproximatives) Cependant elle nrsquoest pas utiliseacutee directement pour deacutefinir des axiomes drsquoinclusion (⊑)mais des axiomes assertionels (ie les assertions de rocircles) En revanche lrsquoeacutetape suivante permet lrsquoinser-tion des nouveaux concepts dans la initiale par la description drsquoaxiomes drsquoinclusion

Etape 5 Insertion des nouvelles connaissances

Il srsquoagit dans cette eacutetape de comparer les concepts et rocircles (Cnew et Rnew) creacuteeacutes lors de lrsquoeacutetapepreacuteceacutedente agrave ceux existants dans la de deacutepart Cette comparaison deacutetermine si les nouveaux conceptset rocircles nrsquoexistent pas deacutejagrave dans la (ie qursquoils sont veacuteritablement nouveaux) et dans le cas neacutegatifpermet de deacutefinir la faccedilon de les inseacuterer de faccedilon coheacuterente dans la

Etape 5a Insertion de concepts Le subsumant le plus speacutecifique Csubs du concept Cnew proposeacuteest rechercheacute dans lrsquoontologie associeacutee agrave la Si Cnew equiv Csubs le concept existe deacutejagrave dans lrsquoontologieet Cnew nrsquoest pas ajouteacute agrave lrsquoontologie Sinon Cnew ⊑ Csubs (sans que Csubs ⊑ Cnew) alors lrsquoanalyste adeux alternatives concernant la faccedilon drsquoinseacuterer le nouveau concept

ndash selon lrsquoanalyste Cnew est effectivement un sous-concept de Csubs Cnew est inseacutereacute par lrsquoajoutdans lrsquoontologie de lrsquoaxiome suivant Cnew ⊑ Csubs Lrsquoanalyste peut alors attribuer un nomCnew

ndash selon lrsquoanalyste les deacutefinitions de lrsquoontologie de deacutepart ne sont pas parfaites et Cnew est unedescription plus fine (ou plus exacte) de ce qui est censeacute ecirctre repreacutesenteacute par le concept CsubsDans ce cas Cnew est ajouteacute agrave lrsquoontologie par lrsquoaxiome suivant Cnew equiv Csubs

Etape 5b Insertion de rocircle Selon lrsquoexistence ou non dans lrsquoontologie de rocircles avec les mecircmesdomaine et co-domaine que Rnew une suite drsquoopeacuterations diffeacuterentes est mise en œuvre Dans le premiercas ougrave de tels rocircles existent deacutejagrave lrsquoanalyste est solliciteacute Si un des rocircles de la liste correspond agrave laseacutemantique souhaiteacutee pour Rnew il le choisit Aucun rocircle nrsquoest creacuteeacute dans lrsquoontologie le rocircle choisi et soninverse sont alors instancieacutes En revanche si aucun rocircle de la liste nrsquoest satisfaisant un nouveau rocircle estcreacuteeacute puis instancieacute

Dans le second cas ougrave aucun rocircle existant ne partage les domaine et co-domaine de Rnew un nouveaurocircle est automatiquement creacuteeacute et instancieacute Lrsquoanalyse nrsquointervient que pour nommer le nouveau rocircle

Enfin une classification drsquoinstances par les meacutecanismes de raisonnement classiques sur la raffineacuteepermet drsquoinstancier les concepts Cnew avec les individus qui en sont instances

Les deux derniegraveres eacutetapes ie lrsquointerpreacutetation des regravegles en termes de concepts et rocircles en puisleur insertion par la deacutefinition de nouveaux axiomes dans lrsquoontologie associeacutee agrave la sont formaliseacuteesdans deux algorithmes preacutesenteacutes ci apregraves le premier (Algorithme 41) deacutecrit lrsquointerpreacutetation des regraveglesen terme de nouveaux concepts de la et le second (Algorithme 42) deacutecrit lrsquointerpreacutetation des regravegles

128 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

en de nouveaux rocircles et assertions de rocircles

Algorithme 41 Depuis les attributsseacutelectionneacutes dans une regravegle agrave un nouveau concept1 Entreacutee O = (T A )K = (GMI)M0

ontologie contexte et attributs seacutelectionneacutees3 pour chaque mi deM0

4 si Cnew equivperp nouveau concept en DL5 Cnew ≔ toDL(mi) toDL retourne

la deacutescription en DL6 sinon7 Cnew ≔ Cnew ⊓ toDL(mi)8 fin si9 fin pour chaque10 si ∄ D isin T Cnew equiv D si Cnew nrsquoexist pas 11 Csubs ≔ subs(O Cnew) subs retourne le

subsumant direct de Cnew12 Question agrave lrsquoanalyste

13 selon analyste14 cas 1 insert un nouveau concept15 Cnew ⊑ Csubs16 cas 2 complegravete la definition de concept17 Csubs equiv Csubs ⊓ Cnew18 fin selon19 fin si20 Sortie O Ontologie raffineacutee

En bilan nous proposons la liste suivantes des eacutetapes de lrsquo qui tirent parti des meacutecanismes deraisonnement associeacutes agrave la

ndash lors de la seacutelection des instances la recherche drsquoinstances permet de deacuteterminer lrsquoensemble desindividus instances du concept initial C0

ndash lors de la transformation des connaissances la recherche du concept le plus speacutecifique permet dedeacuteterminer lrsquoidentiteacute du concept Cv dont v est instance pour la deacutefinition des attributs mC de laforme E1_o_E2_o__o_En Cv

ndash lors de lrsquoinsertion drsquoun nouveau concept dans la la classification des concepts (et plus exacte-ment la recherche du concept le plus speacutecifique) permet de positionner un nouveau concept deacutefiniCnew dans la hieacuterarchie de concepts

ndash apregraves lrsquoinsertion de nouveaux concepts de nouveaux rocircles et de nouvelles assertions de rocircles laclassification drsquoinstances permet de deacuteterminer pour lrsquoensemble des individus srsquoils sont instancesdrsquoun nouveau concept et pour les individus impliqueacutes dans une nouvelle assertion de rocircle srsquoilssont instances drsquoun concept ancien ou nouveau

Les deux derniegraveres utilisations des meacutecanismes de raisonnement permettent drsquoinfeacuterer de nouveauxaxiomes terminologiques et assertionnels ie de nouvelles uniteacutes de connaissances qui viennent raffiner

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 129

Algorithme G2 Depuis les attributsseacutelectionneacutes agrave de nouveaux rocircles1 Entreacutee O = (T A )K = (GMI)M0

ontologie contexte et attributs seacutelectionneacutees2 CnewR0 ≔ empty ensembles de concepts et de rocircles3 Cnew ≔perp nouveau concept4 pour chaque mi deM0

5 Cnew ≔ toDL(mi) toDL retournela description en DL

6 Cnew ≔ Cnew cup Cnew

7 fin pour chaque8 pour chaque Ci de Cnew

9 pour chaque Cj de Cnew iteacuterations emboicircteacuteespour compareacute chaque concept agrave tous les autres

10 si 2O Ci equiv Cj11 b ≔ getFiller(Ci)12 c ≔ getFiller(Cj) getFiller

retourne le ldquonominalrdquo drsquoune description de concept13 R0 ≔ domCodom(O Csubs(b) Csubs(c))

domCodom retourne lrsquoensemble des rocirclesavec domain et codomain

14 si R0 = empty description de nouveaux rocircles15 domain(Rnew) codomain(Rminusnew) ≔ Csubs(b)16 domain(Rminusnew) codomain(Rnew) ≔ Csubs(c)17 Question agrave lrsquoanalyste si Rnew est pertinent18 si pertinent19 T ≔ T cup Rnew R

minusnew nouvau rocircles

20 A ≔ A cup Rnew(b c) Rminusnew(c b)21 fin si22 sinon un rocircle existe23 pour chaque Rk de R0

24 Question agrave lrsquoanalyste est ce que Rk est pertinent 25 si pertinent26 A ≔ A cup Rk(b c) Rminus

k(c b)

27 fin si fin pour chaque fin si28 fin pour chaque fin pour chaque fin si29 Sortie O Ontologie raffineacutee

la initiale Crsquoest lrsquoinsertion de ces nouveaux axiomes dans la qui nous permet de dire que la meacutethodedrsquo autorise la deacutecouverte de connaissances implicites et nouvelles

La description de la meacutethode drsquo et son illustration avec un exemple pharmacogeacutenomique ontdonneacute lieu agrave deux publications [CSTND08b] et [CSTND08a]

La section 24 preacutesente une expeacuterimentation de la meacutethode drsquo meneacutee agrave partir de connaissancespharmacogeacutenomiques

130 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

24 Expeacuterimentation en pharmacogeacutenomique

Cette section preacutesente une expeacuterimentation de la meacutethode drsquoExtraction de Connaissance agrave partir

drsquoune Base de Connaissances () lrsquo Cette expeacuterimentation commence par le peuplement drsquoune pharmacogeacutenomique reacutealiseacute agrave lrsquoaide de lrsquooutil iSO-Pharm (preacutesenteacute section 32 chapitre 3) puis continuepar la mise en œuvre agrave partir de cette de la meacutethode drsquo (preacutesenteacutee section 23 de ce chapitre)

Cette expeacuterimentation srsquointeacuteresse aux donneacutees reacutesultant drsquoune investigation clinique des reacuteponses depatients asthmatiques agrave un meacutedicament appeleacute le montelukast Le deacuteroulement de notre expeacuterimentationest deacuteveloppeacute ci-dessous avec lrsquoobjectif drsquoillustrer et eacutevaluer la capaciteacute de lrsquo agrave (1) retrouver lesreacutesultats obtenus avec des meacutethodes statistiques classiques et (2) extraire de nouvelles connaissancesNotre motivation nrsquoest pas de discuter les reacutesultats de lrsquoinvestigation initiale mais plutocirct de donner unedeuxiegraveme vie agrave ces reacutesultats en les eacutetudiant selon une perspective diffeacuterente

241 Sources de donneacutees et de connaissances

Investigation clinique du montelukast La principale source de donneacutees exploiteacutee correspond auxdonneacutees recueillies au cours drsquoune investigation clinique meneacutee dans le cadre de lrsquoeacutetude de la diversiteacutede reacuteponses des patients asthmatiques au montelukast Des premiers reacutesultats de cette investigation onteacuteteacute publieacutes en 2006 par le groupe drsquoinvestigateurs Lima et al [LZG+06] Ces reacutesultats ont eacuteteacute mis en eacutev-idence agrave partir de donneacutees geacuteneacutetiques et cliniques recueillies sur un sous-ensemble du panel recruteacute pourcette investigation et constitueacute de 61 patients Les variables mesureacutees pour ces patients correspondentaux geacutenotypes de 26 SNP et agrave lrsquoenregistrement de deux signes cliniques principaux

ndash la survenue ou non drsquoune crise drsquoasthme durant les 6 mois de traitement noteacute ldquoExardquo pour exac-

erbation en anglais et pouvant prendre les valeurs Yes No ndash le pourcentage de modification apregraves 6 mois de traitement du Volume Expiratoire Maximum

Seconde66 (VEMS ou FEV en anglais) mesureacute par rapport au Volume Expiratoire Maximum Sec-onde preacutedit agrave 6 mois Cet attribut est noteacute ldquoPerrdquo pour percent change in predicted FEV1 est unpourcentage diviseacute par cent Ses valeurs sont comprises dans lrsquointervalle [-016 116]

Les SNP geacutenotypeacutes sont localiseacutes sur cinq gegravenes impliqueacutes dans la voie des leukotriegravenes67 ABCC1ALOX5 CYSLTR1 LTA4H et LTC4S localiseacutes respectivement sur les chromosomes 16 10 X 5 et 12

Autres sources de donneacutees Pour peupler la nous extrayons en plus des donneacutees de lrsquoinvestigationdes donneacutees des bases de donneacutees PharmGKB dbSNP OMIM Gene et KEGG Pathway relatives no-tamment aux gegravenes impliqueacutes dans la voie des leukotriegravenes leurs structures leurs variations geacutenomiquesles reacuteseaux meacutetaboliques dans lesquels ils sont impliqueacutes

242 Preacuteparation des donneacutees

Inteacutegration des donneacutees geacutenotypiques et pheacutenotypiques Les donneacutees geacuteneacutetiques et cliniques con-cernant les patients de lrsquoinvestigation sont disponibles publiquement dans deux fichiers distincts dans labase de donneacutees PharmGKB68 (preacutesenteacutee chapitre 1 section 32) Pour des raisons de confidentialiteacute lespatients sont identifieacutes dans chacun de ces deux fichiers par un identifiant distinct Une premiegravere eacutetape depreacuteparation des donneacutees est la mise en correspondance des donneacutees contenues dans ces fichiers Celle-ciest possible agrave lrsquoaide drsquoune table de correspondance entre les identifiants des patients

66Le VEMS correspond au volume expireacute pendant la premiegravere seconde drsquoune expiration forceacutee67httpwwwmedscapecomviewarticle444395_568httpwwwpharmgkborgdoserveobjId=PA142628130

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 131

Discreacutetisation des attributs Nous discreacutetisons les valeurs numeacuteriques de lrsquoattribut ldquoPerrdquo en deuxclasses Les valeurs de ldquoPerrdquo infeacuterieures ou eacutegales agrave 08 sont transformeacutees en ldquo6008rdquo et les valeurssupeacuterieures agrave 08 en ldquogt009rdquo Ces deux nouvelles valeurs de ldquoPerrdquo sont transformeacutees par le systegraveme drsquoen deux valeurs qui sont retrouveacutees dans les reacutesultats respectivement ldquoPer__-inf-008_rdquo et ldquoPer__009-inf_rdquo

Peuplement drsquoune Base de Connaissances Lrsquooutil iSO-Pharm introduit chapitre 3 section 32 estutiliseacute pour peupler une pharmacogeacutenomique notamment agrave partir des donneacutees de lrsquoeacutetude issues dePharmGKB Les 61 patients de lrsquoeacutetude et les donneacutees cliniques (pheacutenotypiques et geacutenotypiques) qui leursont associeacutees servent notamment agrave la creacuteation de 61 assertions du concept ldquopatientrdquo de 127 assertions duconcept ldquoclinical_itemrdquo ou de ses descendants et de nombreuses assertions du rocircle ldquopresents_clinical_ite-mrdquo Ce dernier rocircle permet drsquoassocier les instances des concepts ldquopatientrdquo et ldquoclinical_itemrdquo conformeacute-ment aux donneacutees de lrsquoinvestigation clinique Les donneacutees des autres bases (dbSNP OMIM Gene etKEGG Pathway) permettent drsquoinstancier des concepts et des rocircles relatifs aux variations geacutenomiquesaux gegravenes aux meacutedicaments aux pheacutenotypes et agrave des reacuteseaux meacutetaboliques

243 Plug-in Proteacutegeacute pour lrsquo

La version 4 de lrsquoeacutediteur de Proteacutegeacute69 donne la possibiliteacute drsquointerfacer avec les fonctionnaliteacutesnatives de Proteacutegeacute des outils externes ou plug-in La meacutethode drsquo deacutetailleacutee en section 23 de ce chapitreest impleacutementeacutee sous la forme drsquoun plug-in de Proteacutegeacute Une copie drsquoeacutecran de lrsquointerface graphique delrsquoonglet associeacute au plug-in est repreacutesenteacutee en Figure 47 Le plug-in comme son interface est diviseacute entrois parties distinctes qui permettent de reacutealiser respectivement les eacutetapes de preacuteparation (au centre delrsquointerface) de fouille (en haut agrave droite) et drsquointerpreacutetation (en bas agrave droite) de lrsquo

ndash La partie deacutedieacutee agrave la preacuteparation permet de deacutecrire un concept C0 et de seacutelectionner ses instancesde deacutefinir une profondeur maximale dmax et sur cette base de construire un contexte formel Unefois le contexte construit cette partie permet eacutegalement de retirer du contexte les attributs qui nesemblent pas pertinents pour la fouille

ndash La partie deacutedieacutee agrave la fouille permet de lancer une recherche des RMNR selon un support et uneconfiance minimums min_supp et conf_min Notre plug-in utilise la boite agrave outils pourrechercher ces regravegles particuliegraveres [Sza06]

ndash La partie deacutedieacutee agrave lrsquointerpreacutetation permet la visualisation des regravegles la seacutelection de regravegles puisla seacutelection drsquoattributs au sein des regravegles seacutelectionneacutees Les attributs seacutelectionneacutes servent alors agraveconstruire et inseacuterer dans la initiale de nouveaux concepts de nouveaux rocircles et de nouvellesinstances de rocircles

244 Reacutesultats

Lrsquoexpeacuterimentation meneacutee est reacutealiseacutee suivant plusieurs iteacuterations du processus drsquo sur la peu-pleacutee Les reacutesultats obtenus lors drsquoune iteacuteration deacutependent des reacutesultats des iteacuterations preacuteceacutedentes Pourcette raison nous les deacutetaillons dans lrsquoordre de leur apparition

Premiegravere iteacuteration La premiegravere iteacuteration de lrsquo est meneacutee avec les paramegravetres suivants ndash C0 equiv patient ⊓ is_enrolled_in montelukast_studyndash dmax= 2ndash min_supp = 08

69httpprotegewikistanfordeduindexphpProtege4UserDocs

132 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

F 47 ndash Capture drsquoeacutecran du plugin de Proteacutegeacute 4 pour lrsquoAnalyse drsquoAssertions de Rocircles

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 133

ndash min_conf = 08La premiegravere RMNR produite preacutesente un support et une confiance de 1 Sa composition est la

suivante

Regravegle 1

=gt is_enrolled_in_o_is_composed_of initial_visit

is_part_of RacWithe

is_enrolled_in_o_is_composed_of six_month_visit

is_enrolled_in montelukast_study

is_enrolled_in_o_is_defined_by montelukast_sty_protocol

Le symbole (qui constitue la preacutemisse de la regravegle) repreacutesente lrsquoensemble de tous les attributs ducontexte formel Cette premiegravere regravegle du fait que la confiance est eacutegale agrave 1 peut ecirctre interpreacuteteacutee commele fait que tous les individus instances de C0 sont aussi instances des concepts deacutecrits par les attributsde la conclusion de la regravegle Dans ce premier cas tous les attributs nous inteacuteressent pour constituer unnouveau concept Alors aucun attribut de la regravegle nrsquoest exclu par lrsquoutilisateur et la regravegle 1 est transformeacuteepar le systegraveme en sous la forme de la deacutefinition de concept suivante

Cnew1 equiv is_enrolled_in is_composed_of initial_visit ⊓is_part_of RacWithe ⊓is_enrolled_in is_composed_of six_month_visit ⊓is_enrolled_in montelukast_study ⊓is_enrolled_in is_defined_by montelukast_sty_protocol

On peut tout drsquoabord remarquer que la quatriegraveme ligne de la deacutefinition de Cnew1 correspond agraveune partie de la description de C0 De faccedilon informelle le concept Cnew1 peut ecirctre interpreacuteteacute commeldquolrsquoensemble des individus qui sont recruteacutes dans lrsquoeacutetude du montelukast qui sont recruteacutes dans quelquechose qui est composeacute drsquoune visite initiale et drsquoune visite agrave six mois qui sont drsquoune ethnie blanche70et qui sont recruteacutes dans quelque chose qui est deacutefini par le protocole de lrsquoeacutetude du montelukastrdquo Cecicorrespond finalement agrave une description preacutecise des patients qui sont impliqueacutees dans lrsquoeacutetude du mon-telukast Une telle description nrsquoexiste pas dans la dans laquelle la description des patients se limite agravela deacutefinition du concept patient et agrave son concept parent person

Alors le nouveau concept Cnew1 est inseacutereacute dans la Pour cela un nom plus explicite que Cnew1lui est attribueacute par lrsquoutilisateur montelukast_study_patient Le systegraveme le branche dans un premiertemps agrave la racine des concepts de la ⊤ Dans un deuxiegraveme temps lrsquoutilisation du meacutecanisme de clas-sification permet de proposer un nouveau positionnement au concept montelukast_study_patientdans la hieacuterarchie de concepts Le reacutesultat est le suivant

montelukast_study_patient ⊑ patient

Ce positionnement srsquoexplique par (1) la deacutefinition du concept patient initiale dans lrsquoontologie SO-Pharm qui contient lrsquoaxiome

patient equiv exist is_enrolled_inclinical_trial ⊔ exist is_part_ofclinical_trial_panel

et (2) lrsquoaxiome drsquoassertion

clinical_trial(montelukast_study)

70La notion drsquoethniciteacute est rapporteacutee dans lrsquoeacutetude selon les recommandations de lrsquoInstitut National de la Santeacute eacutetats-unien (leNIH) httpgrants2nihgovgrantsguidenotice-filesNOT-OD-01-053html

134 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

selon lequel lrsquoindividu montelukast_study est une instance du concept clinical_trial suite aupeuplement de la A partir de ces deux eacuteleacutements le systegraveme peut deacuteteacuterminer que la deacutefinition dunouveau concept contient un condition suffisante pour infeacuterer que toutes ses instances sont eacutegalementinstances de patient

A ce niveau lrsquoutilisateur doit deacuteterminer si le nouveau concept est une meilleure deacutefinition de ce quidevrait ecirctre repreacutesenteacute par son subsumant le plus speacutecifique ou bien si le nouveau concept est effective-ment un sous-concept de celui-ci De par le fait que le nouveau concept (montelukast_study_patient)est effectivement un concept diffeacuterent de son subsumant le plus speacutecifique (patient) le nouveau conceptest positionneacute dans la par lrsquoinsertion de lrsquoaxiome drsquoinclusion de concept proposeacute par le systegraveme

Concernant la potentielle creacuteation de nouveaux rocircles et de nouvelles assertions de rocircles les couplespossibles entre les individus impliqueacutes dans la regravegle sont examineacutes par le systegraveme Il existe deacutejagrave desassertions de rocircles entre initial_visit six_month_visit et montelukast_sty_protocol dansla aussi la possibiliteacute de creacuteer des assertions associant ces individus est rejeteacutee Les relations possiblesentre les autres individus ne paraissent pas suffisamment inteacuteressantes agrave lrsquoutilisateur pour donner lieu agravela creacuteation de rocircles ou drsquoassertions de rocircles Au final aucun rocircle ou assertion de rocircle nrsquoest creacuteeacute agrave partirde cette regravegle

Les paramegravetres de cette iteacuteration et son premier reacutesultat sont illustreacutes sur la repreacutesentation de lrsquointer-face graphique du plug-in de Proteacutegeacute deacutedieacute agrave lrsquo preacutesenteacute dans la Figure 47

Lors de cette premiegravere iteacuteration la profondeur dmax utiliseacutee est eacutegale agrave 2 Aussi les rocircles impliqueacutesdans la deacutefinition du concept sont constitueacutes au maximum drsquoune seule composition de rocircles Augmenterla profondeur de recherche dans les graphes drsquoassertions permet de geacuteneacuterer des attributs qui correspon-dent agrave des compositions multiples de rocircles (par exemple 3 compositions de rocircle au maximum pourdmax=4) Ceci est illustreacute par lrsquoiteacuteration suivante du processus drsquo qui aboutit agrave lrsquoenrichissement de ladeacutefinition de notre nouveau concept montelukast_study_patient

Deuxiegraveme iteacuteration Les paramegravetres deacutefinis pour cette deuxiegraveme iteacuteration sont identiques agrave ceux utiliseacutespreacuteceacutedemment excepteacute pour la profondeur dmax qui est augmenteacutee De cette faccedilon nous avons

ndash C0 equiv patient ⊓ is_enrolled_in montelukast_studyndash dmax= 3ndash min_supp = 08ndash min_conf = 08Preacutealablement agrave la fouille nous excluons un sous-ensemble drsquoattributs non pertinents afin de deacutecharger

le nombre drsquoattributs dans les regravegles Une des premiegraveres regravegles geacuteneacutereacutees preacutesentant un support et uneconfiance de 1 est la suivante

Regravegle 2

=gt presents_clinical_item_o_is_the_observed_genotype_for_o_isVariantIn CYSLTR1

presents_clinical_item_o_is_the_observed_genotype_for_o_isVariantIn ALOX5

presents_clinical_item_o_is_the_observed_genotype_for_o_isStoredInVarDb ncbi_dbsnp_125

presents_clinical_item_o_is_the_observed_genotype_for_o_isVariantIn LTA4H

presents_clinical_item_o_is_the_observed_genotype_for_o_isVariantIn ABCC1

is_enrolled_in montelukast_study

presents_clinical_item_o_is_the_observed_genotype_for_o_isVariantIn LTC4S

is_enrolled_in_o_is_defined_by_o_is_composed_of montelukast_treatment

La seacutelection drsquoattributs explique notamment que les attributs de la regravegle 1 (exclus lors de cette nou-velle iteacuteration) nrsquoapparaissent pas dans la regravegle 2 (sauf le sixiegraveme) En revanche les attributs ici associeacutes

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 135

nrsquoapparaissaient pas dans la regravegle 1 car les rocircles qursquoils invoquent impliquent lrsquoenchaicircnement de deuxcompositions de rocircle

Cette regravegle illustre le fait que chaque individu instance de C0 est associeacute agrave des items cliniques qui sontdes geacutenotypes observeacutes pour des variants localiseacutes sur cinq gegravenes CYSLTR1 ALOX5 LTA4H ABCC1

LTC4S Dans le cas de notre eacutetude sur le montelukast savoir que tous les patients ont des variantsgeacutenotypeacutes sur chacun de ces cinq gegravenes nrsquoest pas une connaissance nouvelle puisque celle-ci est deacutecritedans les meacuteta-donneacutees dont nous disposons agrave propos de lrsquoeacutetude (lrsquoarticle de Lima et al et les meacuteta-donneacutees associeacutees aux fichiers dans PharmGKB) Cependant la reacutegulariteacute exprimeacutee par cette regravegle peutpermettre de formaliser cette connaissance de faccedilon explicite dans la Pour cette raison nous proposonsun nouveau concept Cnew2 sur la base de cette regravegle Par ailleurs il est facile drsquoimaginer des cas ougrave lesmeacuteta-donneacutees disponibles sur les variants exploreacutes sont partielles ou inexistantes ou encore des cas ougravele nombre de variants exploreacutes est trop grand pour que ces meacuteta-donneacutees soient facilement exploitablesDans ces cas le concept traduit agrave partir de cette regravegle peut ecirctre porteur drsquoune connaissance nouvelle

Cnew2 equiv presents_clinical_item is_the_observed_genotype_for isVariantIn CYSLTR1 ⊓presents_clinical_item is_the_observed_genotype_for isVariantIn ALOX5 ⊓presents_clinical_item is_the_observed_genotype_for isVariantIn LTA4H ⊓presents_clinical_item is_the_observed_genotype_for isVariantIn ABCC1 ⊓is_enrolled_in montelukast_study ⊓presents_clinical_item is_the_observed_genotype_for isVariantIn LTC4S ⊓is_enrolled_in is_defined_by is_composed_of montelukast_treatment

Nous remarquons que le troisiegraveme attribut impliqueacute dans la conseacutequence de la regravegle 2 nrsquoa pas eacuteteacuteutiliseacute par le systegraveme dans la deacutefinition du nouveau concept Ceci est la conseacutequence de son exclusionpar lrsquoutilisateur comme le permet lrsquointerface graphique du plug-in lors de lrsquointerpreacutetation des regraveglesLa raison de ce choix deacutepend du contexte de lrsquoexpeacuterimentation pour lequel nous ne consideacuterons paspertinent le fait que tous les patients puissent ecirctre geacutenotypeacutes pour au moins un variant reacutepertorieacute dansdbSNP

Le positionnement proposeacute par le systegraveme pour ce nouveau concept dans la hieacuterarchie de conceptsde la est

Cnew2 ⊑ montelukast_study_patient

Dans ce cas le nouveau concept ne constitue pas aux yeux de lrsquoutilisateur un sous-ensemble des in-dividus deacutefinis par le concept montelukast_study_patient mais plutocirct une description diffeacuterente dece concept De fait nous choisissons drsquoenrichir la deacutefinition de montelukast_study_patient commele permet le systegraveme en positionnant Cnew2 par lrsquoajout dans la de lrsquoaxiome suivant

Cnew2 equiv montelukast_study_patient

Aucun rocircle nrsquoest creacuteeacute ou instancieacute agrave partir de cette regravegle

Les deux premiegraveres iteacuterations permettent drsquoillustrer deux fonctionnaliteacutes de lrsquo ndash premiegraverement lrsquoaugmentation du paramegravetre dmax permet drsquoextraire des connaissances qui mettent

en jeu des individus indirectement associeacutes dans la Lrsquoexemple preacutesenteacute ici illustre la deacutefinitiondrsquoun nouveau concept agrave partir de connaissances construites avec des donneacutees de lrsquoinvestigation dumontelukast et drsquoannotations sur la position des variants issues de dbSNP

ndash Deuxiegravemement une nouvelle description de concepts peut venir soit srsquoinseacuterer dans la hieacuterarchiede concepts (Cnew1) soit enrichir un deacutefinition existante (Cnew2)

136 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

Troisiegraveme iteacuteration Nous poursuivons lrsquoexploration de la avec le mecircme concept initial C0 la mecircmeprofondeur dmax = 3 mais nous diminuons le support minimum agrave 03 Les paramegravetres utiliseacutes cette foissont

ndash C0 equiv patient ⊓ is_enrolled_in montelukast_studyndash dmax= 3ndash min_supp = 03ndash min_conf = 08La recherche des RMNR reacutevegravele alors de nombreuses associations entre geacutenotypes Nous seacutelec-

tionnons les regravegles qui associent des geacutenotypes observeacutes sur le mecircme gegravene La regravegle 3 (support=031confiance=095) en est un exemple

Regravegle 3

presents_clinical_item chrX_77389891A-G

presents_clinical_item chrX_77367837A-G =gt presents_clinical_item chrX_77334462A-G

Ce genre de regravegle nous inteacuteresse particuliegraverement pour eacutetudier les geacutenotypes qui seacutegregravegent ensembleie qui sont transmis de faccedilon groupeacutee agrave la maniegravere des haplotypes Dans leur travaux Lima et al

mettent en eacutevidence trois groupes de geacutenotypes fortement associeacutes par deacuteseacutequilibre de liaison (Linkage

Desquilibrium ou LD en anglais) Ceux-ci sont reporteacutes dans la colonne de gauche du Tableau 44Suivant notre meacutethode nous isolons parmi la centaine de regravegles produites 7 regravegles qui nous permettentdrsquoisoler 7 groupes La regravegle 3 ci-dessus en est un exemple Lrsquoensemble de ces regravegles est reporteacute en AnnexeH avec leurs supports et confiances La colonne de droite du Tableau 44 repreacutesente les 7 groupes degeacutenotype associeacutes agrave partir de ces regravegles

Par ailleurs ce sont les associations entre les individus eacutevoqueacutes dans ces regravegles que nous souhaitonsinseacuterer dans la Aussi pour chaque regravegle nous ne construisons pas un nouveau concept mais cherchonsagrave instancier des rocircles entre les individus correspondant aux geacutenotypes

SO-Pharm ne dispose drsquoaucun rocircle dont le domaine et le co-domaine sont deacutefinis par le mecircme con-cept genomic_genotype ce qui permettrait drsquoassocier deux instances de ce concept auxquelles fontreacutefeacuterence les attributs des regravegles Aussi notre systegraveme drsquo propose automatiquement lors du traitementde la premiegravere regravegle associant des geacutenotypes la creacuteation drsquoun nouveau rocircle avec genomic_genotype endomaine et co-domaine Celui-ci est appeleacute par lrsquoutilisateur segregates_with Ensuite ce rocircle et soninverse (ie lui mecircme dans le cas particulier de segregates_with) sont instancieacutes avec chaque pairede geacutenotypes inclus dans une regravegle De cette faccedilon la regravegle 3 entraicircne apregraves validation de lrsquoutilisateurlrsquoinsertion dans la des 6 assertions de rocircles suivantes

segregates_with (chrX_77389891A-G chrX_77367837A-G)segregates_withminus(chrX_77389891A-G chrX_77367837A-G)

segregates_with (chrX_77389891A-G chrX_77334462A-G)segregates_withminus(chrX_77389891A-G chrX_77334462A-G)

segregates_with (chrX_77367837A-G chrX_77334462A-G)segregates_withminus(chrX_77367837A-Gbdquo chrX_77334462A-G)

Au total les 7 regravegles entraicircnent lrsquoinsertion dans la drsquoun nouveau rocircle (segregates_with) et de26 assertions de ce nouveau rocircle

Nous retrouvons les mecircmes groupes que Lima et Al Nos groupes sont plus restreints notammentpour le premier groupe du gegravene ABCC1 et celui du gegravene ALOX5 Cependant nous mettons en eacutevidence

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 137

Gegravene Geacutenotypes associeacutes Geacutenotypes associeacuteesLima et al (LD) Analyse des Assertions de Rocircles

ABCC1 Chr16 15986618G-G Chr16 15986618G-GChr16 15994334C-C Chr16 15994334C-CChr16 16016395A-A

Chr16 16045823T-T Chr16 16045823T-T Chr16 16045823C-TChr16 16047215T-T Chr16 16047215T-T Chr16 16047215C-T

ALOX5 Chr10 45190694C-T Chr10 45190694C-TChr10 45211490A-G Chr10 45211490A-G Chr10 45211490A-GChr10 45221095A-A Chr10 45221095A-G Chr10 45221095A-GChr10 45198914A-G Chr10 45198914A-AChr10 45237098A-G

CYSLTR1 empty ChrX 77346486T-TChrX 77356650G-GChrX 77389891G-G ChrX 77389891A-GChrX 77367837A-A ChrX 77367837A-GChrX 77334462A-A ChrX 77334462A-G

LTA4H empty empty

LTC4S empty empty

T 44 ndash Groupes de geacutenotypes associeacutes au sein des gegravenes eacutetudieacutes dans lrsquoinvestigation clinique de Limaet al [LZG+06] La colonne de gauche preacutesente les trois groupes de geacutenotypes mis en eacutevidence par Limaet al par la mesure des deacuteseacutequilibres de liaison (Linkage Desquilibrium ou LD en anglais) La colonnede droite preacutesente les groupes que nous avons mis en eacutevidence agrave partir du mecircme jeu de donneacutees aveclrsquo Cette deuxiegraveme colonne preacutesente dans certains cas deux associations de geacutenotypes diffeacuterents pourun mecircme groupe de variations (gegravene ABCC1 et CYSLTR1) Les regravegles dont sont extraits ces 7 groupessont reporteacutees en Annexe H

deux groupes particuliers qui correspondent agrave des allegraveles diffeacuterents de variations deacutejagrave impliqueacutees dansun groupe le couple Chr16 16045823C-T Chr16 16047215C-T et le triplet ChrX 77334462A-GChrX 77367837A-G ChrX 77389891A-G De plus nous mettons en eacutevidence une association entredeux groupes de geacutenotypes du gegravene CYSLTR1 absents des reacutesultats de Lima et al Les supports etconfiances de chaque regravegle reporteacutes en Annexe H permettent de juger la freacutequence dans la populationde ces associations

Quatriegraveme iteacuteration Nous poursuivons encore lrsquoexploration de la avec le mecircme concept initial C0

et la mecircme profondeur dmax en diminuant le support minimum cette fois agrave 02 Les paramegravetres utiliseacutessont ainsi

ndash C0 equiv patient ⊓ is_enrolled_in montelukast_studyndash dmax= 3ndash min_supp = 02ndash min_conf = 08Lrsquoobjectif de cette nouvelle iteacuteration est drsquoisoler des regravegles associant un attribut relatif au pheacutenotype

(Per= ldquogt009rdquo ldquo6008rdquo ou Exa=ldquoNordquo ldquoYesrdquo) et un ou plusieurs attributs deacutecrivant un geacutenotypespeacutecifique agrave ce pheacutenotype

138 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

Avec un support minimum de 02 le nombre de regravegles devient important (proche de 3000 regravegles)cependant les regravegles impliquant un attribut relatif au pheacutenotype sont relativement rares dans cet ensemble(lt5) Pour trouver ces regravegles plus facilement nous utilisons un systegraveme de filtres simples semblablesagrave ceux deacutecrits dans la section 14 du chapitre 2 Nous isolons au final 5 regravegles qui correspondent aumodegravele imposeacute par les filtres La regravegle 4 (support=026 confiance=080) ci-dessous en est un exempleLrsquoensemble des regravegles isoleacutees est reporteacute en Annexe H

Regravegle 4presents_clinical_item chrX_77334462A-G =gt presents_clinical_item chrX_77367837A-G

presents_clinical_item Per__-inf-008_

is_enrolled_in_o_is_defined_by_o_is_composed_of

montelukast_treatment

Le fait que la regravegle 2 ait un support et une confiance eacutegaux agrave 1 permet de deacuteduire que lrsquoattribut de saconclusion is_enrolled_in_o_is_de f ined_by_o_is_composed_o f montelukast_treatment est preacutesentdans toutes les regravegles Cet attribut nrsquoapparaicirct pas dans la regravegle 3 car nous lrsquoavions exclu de la recherchede regravegles comme le systegraveme le permet afin drsquoalleacuteger le nombre drsquoattributs dans les regravegles Nous nouspermettons cette exclusion car drsquoune part nous savons que cet attribut est preacutesent pour chaque objet ducontexte et drsquoautre part lors de lrsquoiteacuteration preacuteceacutedente nous ne cherchions pas de regravegles impliquant untraitement mais uniquement des geacutenotypes

Des cinq regravegles isoleacutees nous sommes capables drsquoidentifier quatre geacutenotypes et une paire de geacuteno-types speacutecifiques de trois pheacutenotypes diffeacuterents La colonne de droite du Tableau 45 preacutesente ces geacuteno-types La colonne de gauche de ce Tableau preacutesente les reacutesultats rapporteacutes dans Lima et al en utilisantdeux tests statistiques χ2 et le rapport de vraisemblance Avec lrsquo nous retrouvons deux des cinq geacuteno-types qursquoils associent agrave un pheacutenotype particulier (Chr5 179153244A-C et Chr12 94941021A-G) Lestrois geacutenotypes non retrouveacutes (Chr10 45221095G-G Chr16 15994335C-T et Chr12 94941021G-G)sont observeacutes dans Lima et al sur des sous-groupes de patients particuliegraverement restreints (respective-ment n = 6 8 et 5) Les donneacutees manquantes et le seuil utiliseacute (008) pour discreacutetiser lrsquoattribut ldquoPerrdquoramegravenent dans notre jeu de donneacutees ces populations agrave n= 4 5 et 5 Sur une population totale de 61patients la probabiliteacute drsquoobservation de ces geacutenotypes en mecircme temps que le pheacutenotype associeacute est alorsinfeacuterieure agrave 005 Pour les retrouver ensemble dans des regravegles il nous faudrait reacuteduire le support mini-mum en dessous de cette valeur Ceci aurait pour conseacutequence un accroissement important du nombrede regravegles et par conseacutequent du temps neacutecessaire pour isoler les regravegles pertinentes qui correspondent aumodegravele rechercheacute

Nous identifions cependant lors de cette iteacuteration quatre geacutenotypes speacutecifiques agrave des pheacutenotypes quine lrsquoavaient pas eacuteteacute par Lima et al

Au niveau de la chaque regravegle isoleacutee permet la creacuteation drsquoun nouveau concept Lrsquoutilisateur luiassocie un nom et le systegraveme lrsquoinsegravere dans la hieacuterarchie de concepts de la Par exemple la regravegle 4permet de deacutefinir le concept suivant nommeacute patient_with_low_chge_in_fev_grp2 par lrsquoutilisateur

patient_with_low_chge_in_fev_2 equiv presents_clinical_item chrX_77334462A-G ⊓presents_clinical_item chrX_77367837A-G ⊓presents_clinical_item Per__-inf-008_ ⊓

is_enrolled_in is_defined_by is_composed_of montelukast_treatment

De plus pour chaque regravegle des assertions des sous-rocircles du rocircle interacts_with sont creacuteeacutees enfonction des concepts dont sont instances les paires drsquoindividus consideacutereacutes De cette faccedilon la regravegle 4permet drsquoinseacuterer dans la entre autres les axiomes assertionnels suivants

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 139

Pheacutenotype Geacutenotypes speacutecifiques Geacutenotypes speacutecifiquesLima et al (χ2 rapport de vraisemblance) Analyse des Assertions de Rocircles

Per=ldquogt009rdquo Chr10 45221095G-G empty

Chr16 15994335C-TPer=ldquo6008rdquo empty Chr10 45211490A-A

ChrX 77334462A-GChrX 77367837A-G

Exa=ldquoNordquo Chr5 179153244A-C Chr5 179153244A-C

Chr16 161443440C-GExa=ldquoYesrdquo Chr12 94941021A-G Chr12 94941021A-G

Chr12 94941021G-G

T 45 ndash Geacutenotypes speacutecifiques aux pheacutenotypes preacutesenteacutes dans la colonne de gauche La colonne ducentre repreacutesente les geacutenotypes speacutecifiques mis en eacutevidence dans Lima et al par meacutethodes statistiques(χ2

et rapport de vraisemblance) [LZG+06] La colonne de droite repreacutesente les variations mises en eacutevidencepar notre approche drsquoAnalyse des Assertions de Rocircles Les regravegles qui mettent en eacutevidence ces associa-tions sont reporteacutees en Annexe H

interacts_with_phenotype (chrX_77334462A-G Per__-inf-008_)interacts_with_phenotypeminus(chrX_77334462A-G Per__-inf-008_)

interacts_with_drug_treatment (chrX_77334462A-G montelukast_treatment)interacts_with_drug_treatmentminus(chrX_77334462A-G montelukast_treatment)

ainsi que des axiomes de la mecircme forme impliquant le second geacutenotype (chrX_77367837A-G) etdrsquoautres agrave partir de Per__-inf-008_ et de montelukast_treatment

Au final les cinq regravegles sont agrave lrsquoorigine de cinq deacutefinitions de concepts et 68 assertions de rocirclesinseacutereacutes dans la

La classification drsquoinstances sur la permet de repreacutesenter explicitement les geacutenotypes pheacutenotypeset traitements qui interviennent dans une reacuteaction pharmacogeacutenomique agrave un traitement SO-Pharm con-tient initialement trois concepts deacutefinis de faccedilon symeacutetrique

ndash pharmacogenomic_genotype_itemndash pharmacogenomic_phenotype_item etndash pharmacogenomic_drug_treatment

Par exemple un geacutenotype qui intervient dans une reacuteaction pharmacogeacutenomique est deacutefini comme ungeacutenotype qui interagit agrave la fois avec un pheacutenotype et un traitement de la faccedilon suivante

pharmacogenomic_genotype_item equiv gt 1 interacts_with_phenotype ⊓gt 1 interacts_with_drug_treatment

Ainsi agrave partir de cette deacutefinition il est infeacutereacute que lrsquoindividu chrX_77334462A-G deacutejagrave instance degenotype_item est eacutegalement instance de pharmacogenomic_genotype_item

De la mecircme faccedilon la classification qui termine cette iteacuteration permet de statuer sur le fait quendash 6 individus instances de genotype_item sont aussi instances de pharmacogenomic_genotype_item

140 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

ndash 4 individus instances de phenotype_item sont instances de pharmacogenomic_phenotype_itemndash 1 individu instance de drug_treatment (montelukast_treatment) est eacutegalement instance depharmacogenomic_drug_treatment

245 Bilan et discussion

Lrsquo nous a permis drsquoextraire et de formaliser un certain nombre drsquouniteacutes de connaissances soitsous la forme drsquoaxiomes terminologiques (ie impliquant equiv ou ⊑) soit sous la forme drsquoaxiomes asser-tionnels (ie les assertions de rocircles et drsquoinstances) Ces uniteacutes de connaissances nrsquoeacutetaient preacutealablementpas preacutesentes dans la par conseacutequent nous les qualifions de nouvelles En outre lrsquoanalyste a lui mecircmejugeacute inteacuteressant de les inseacuterer dans la par conseacutequent nous les qualifions eacutegalement de pertinentesDe fait lrsquoexpeacuterimentation montre que lrsquo permet de retrouver lrsquoessentiel des reacutesultats qui avaient eacuteteacutemanuellement extrait par des meacutethodes statistiques classiques dans [LZG+06] des associations fortesentre geacutenotypes des associations geacutenotypendashpheacutenotype Notre meacutethode permet drsquoaller plus loin dans lrsquo-exploitation des donneacutees analyseacutees en isolant en plus de ces reacutesultats de nouvelles associations entregeacutenotypes de nouvelles relations geacutenotypendashpheacutenotype et des relations geacutenotypendashtraitementndashpheacutenotypeLrsquoensemble de ces reacutesultats est repreacutesenteacute de faccedilon formelle dans la qui peut ecirctre enrichie avec denouvelles donneacutees ou donner lieu agrave de nouvelles expeacuterimentations

Lrsquoexpeacuterimentation montre que la preacuteparation des donneacutees le parameacutetrage lrsquoexclusion drsquoattributspermettent drsquoorienter et de controcircler lrsquo Lrsquoinfluence de ces diffeacuterentes opeacuterations sur les reacutesultats delrsquoanalyse est discuteacutee dans la suite de cette section

La discreacutetisation des valeurs de lrsquoattribut ldquoPerrdquo effectueacutee lors de lrsquoeacutetape de preacuteparation des donneacuteesest un premier facteur jouant sur les reacutesultats En effet le choix drsquoun seuil moins eacuteleveacute pour la discreacuteti-sation par exemple 004 au lieu de 008 permettrait drsquoaugmenter le nombre drsquoobjets qui preacutesentent unevaleur au dessus de ce seuil et par conseacutequent drsquoaugmenter le nombre drsquoobjets qui peuvent preacutesenter agravela fois une valeur de ldquoPerrdquo au dessus du seuil et un geacutenotype particulier La valeur choisie pour ce seuilexplique en partie pourquoi contrairement agrave Lima et al nous ne retrouvons pas de geacutenotype speacutecifiqueau pheacutenotype Per=ldquogt009rdquo Lrsquoautre explication reacuteside dans le faible nombre de cas sur lesquels se basentLima et al pour estimer ces associations

Il apparaicirct au cours de lrsquoexpeacuterimentation que lrsquoexclusion des attributs les moins pertinents du con-texte facilite lrsquoeacutetape drsquointerpreacutetation Le moyen proposeacute drsquoexclure des attributs dans lrsquoimpleacutementationactuelle est entiegraverement manuel Il serait certainement inteacuteressant drsquoadapter lrsquoapproche de seacutelection dedonneacutees guideacutee par les connaissances proposeacutee dans la section 1 de ce chapitre pour faciliter lrsquoexclusiondrsquoattributs du contexte manipuleacute en

Le nombre de regravegles produites est un facteur important de la difficulteacute agrave interpreacuteter les reacutesultats Cenombre de regravegle est tout drsquoabord sensible au nombre drsquoattributs consideacutereacutes pour la recherche des regraveglesmais aussi sensible agrave drsquoautres paramegravetres Ainsi la profondeur dmax entraicircne la constitution drsquoun con-texte plus volumineux et par conseacutequent une production de regravegles souvent plus nombreuses Enfin lessupport et confiance minimums permettent de moduler le nombre de regravegles Hypotheacutetiquement il pour-rait eacutegalement ecirctre envisageacute de contraindre le parcours des graphes drsquoassertions de sorte agrave ce que seulsles chemins associeacutes agrave une seacutemantique deacutefinie soient parcourus En conseacutequence le contexte reacutesultant nepreacutesenterait que les attributs geacuteneacutereacutes agrave partir du parcours de ces chemins speacutecifiques

Voici un ordre de grandeur du nombre de regravegles produites lors des diffeacuterentes iteacuterations preacutesenteacutees

premiegravere iteacuteration lt 10 regraveglesdeuxiegraveme iteacuteration lt 20 regraveglestroisiegraveme iteacuteration lt 100 regraveglesquatriegraveme iteacuteration lt 3000 regravegles

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 141

Lorsque le support est diminueacute en deccedila de 02 le nombre de regravegles augmente davantage et lrsquointerpreacutetationdevient deacutelicate malgreacute lrsquoutilisation de filtres Ceci est en partie ducirc agrave la meacutethode de fouille utiliseacutee dontlrsquoobjectif est la recherche de regravegles freacutequentes Dans le cas ougrave les regravegles rechercheacutees apparaissent avecun support de 01 lrsquoutilisation drsquoune meacutethode baseacutee sur la notion de freacutequence est fortement discutableCependant lrsquoaspect iteacuteratif de notre approche peut ecirctre utiliseacute pour mettre en œuvre une nouvelle iteacuterationdans laquelle le concept initial C0 peut seacutelectionner un ensemble drsquoindividus plus restreints au sein duquelpeut se reacuteveacuteler freacutequente une association peu freacutequente sur un ensemble plus large drsquoindividus

Une piste particuliegraverement inteacuteressante est la mise en eacutevidence des geacutenotypes fortement associeacutes agraveun pheacutenotype rare Pour cela une meacutethode particuliegravere de recherche drsquoassociations dont le support estfaible est la recherche de regravegles rares ie drsquoassociations qui contrairement aux regravegles drsquoassociationssurviennent avec une freacutequence infeacuterieure agrave un seuil deacutefini [SNV07] Cette expeacuterimentation confirmeque les regravegles rares avec une confiance eacuteleveacutee semblent propices agrave lrsquoextraction des connaissances enpharmacogeacutenomique ougrave la notion drsquointeacuterecirct nrsquoest pas forcement coupleacutee agrave celle de freacutequence eacuteleveacutee

Actuellement seule lrsquoapparition simultaneacutee drsquoattributs dans une regravegle est utiliseacutee On peut supposeragrave premiegravere vue que lrsquoextraction de motifs freacutequents (par exemple les motifs fermeacutes freacutequents) pourraitecirctre suffisante agrave lrsquoobtention des mecircmes reacutesultats puisque la notion de regravegle (et notamment le fait qursquounattribut soit en preacutemisse ou en conclusion) nrsquoest pas exploiteacutee Cependant nous utilisons tout drsquoabordla mesure de la confiance propre aux regravegles drsquoassociations comme une marge permettant agrave supportconstant de trouver des associations non systeacutematiques entre les attributs Lrsquoexistence de donneacutees man-quantes ou entacheacutees drsquoerreurs dans les jeux de donneacutees biologiques manipuleacutes est agrave lrsquoorigine de cetteconsideacuteration Ensuite et surtout la seacutemantique associeacutee agrave une regravegle bien qursquoencore inexploiteacutee dans ladescription actuelle de lrsquo est une des eacutevolutions que nous souhaiterions apporter agrave cette meacutethodeDans ce sens Rudolph et Voumllker exploitent par exemple la seacutemantique des implications entre attributs dela forme A rarr B ougrave A et B sont deux ensembles drsquoattributs pour deacutefinir des nouveaux axiomes en dela faccedilon suivante A ⊑ B ougrave A et B sont les concepts qui correspondent aux ensembles drsquoattributs A et B

[VR08] Les reacutesultats tregraves reacutecents preacutesenteacutes par Kroumltzsch et al sur la description en de la seacutemantiqueassocieacutee agrave des regravegles constituent une base solide pour appuyer une telle eacutevolution [MK08]

Il est important de noter que la meacutethode deacutecrite nrsquoa pas la preacutetention de remplacer les meacutethodesstatistiques classiques drsquoanalyse de donneacutees En revanche nous pensons et lrsquoexpeacuterimentation preacutesenteacuteeva dans ce sens que cette meacutethode peut ecirctre utiliseacutee de faccedilon compleacutementaire en deuxiegraveme approchepour venir enrichir des reacutesultats initiaux et orienter de nouvelles investigations cliniques ou biologiques

Des expeacuterimentations suppleacutementaires non deacutecrites dans le cadre de cette section nous encouragentdans cette direction puisqursquoelles permettent drsquoutiliser les annotations des variants des gegravenes des reacuteseauxmeacutetaboliques inteacutegreacutees agrave la pour mettre en eacutevidence des reacutegulariteacutes entre un pheacutenotype intervenantdans une reacuteaction pharmacogeacutenomique et la reacutegion particuliegravere de certains gegravenes (voir regravegle 5) ou encoredes reacutegulariteacutes entre un groupe de pheacutenotypes et des variations geacutenomiques localiseacutees sur des gegravenesimpliqueacutes dans une voie meacutetabolique particuliegravere (voir regravegle 6) Les deux exemples de regravegles preacutesenteacutesci-apregraves obtenus par illustrent ce genre drsquoassociations

Regravegle 5isVariantIn_o_interacts_with Per__-inf-008_ =gt isDnaVariantIn intron

isVariantIn_o_interacts_with_o_interacts_with ALOX5

isVariantIn_o_interacts_with_o_interacts_with CYSLTR1

142 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

Regravegle 6isVariantIn_o_interacts_with exacerbation =gt isVariantIn_o_interacts_with arachidonic_acid_metabolism

isVariantIn_o_interacts_with_o_interacts_with LTC4S

isVariantIn_o_interacts_with_o_interacts_with eicosanoid_pathway

isVariantIn_o_interacts_with_o_interacts_with LTA4H

Lrsquo permet ici lrsquoacquisition et lrsquoinsertion de connaissances implicites et nouvelles dans une rel-ative agrave la variabiliteacute de reacuteponses au traitement par montelukast Ces connaissances sont acquises agrave partirdes reacutesultats drsquoune investigation particuliegravere et sont deacutefinies en tant que telle dans la Une prolonga-tion inteacuteressante de lrsquoutilisation de ce genre de connaissances serait leur interpreacutetation et leur validationexpeacuterimentale par des biologistes Ceci pourraient sur cette base geacuteneacuteraliser les connaissances mises eneacutevidence par sur un panel restreint puis les inseacuterer dans la avant de les soumettre agrave PharmGKB

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 143

25 Travaux similaires

Pour comparer agrave lrsquoexistant la meacutethode drsquo que nous proposons il est neacutecessaire de consideacutererseacuteparement lrsquoeacutetape preacuteliminaire de peuplement de la et la phase drsquoextraction de connaissances Lapremiegravere eacutetape de peuplement de lrsquoontologie (0) est abordeacutee dans le Chapitre 2 section 32 nous nrsquoyrevenons pas ici Par contre nous distinguerons deux grands groupes de travaux qui manipulent conjoin-tement meacutethodes de fouille de donneacutees et repreacutesentation des connaissances

ndash Le premier regroupe des travaux sur lrsquoacquisition de connaissances formelles agrave partir de donneacuteesde textes ou de pages Web Ils ne supposent pas lrsquoexistence de connaissances deacutejagrave formaliseacuteesagrave lrsquoorigine du travail Ces travaux megravenent le processus drsquo agrave son terme ougrave les reacutesultats de lafouille sont interpreacuteteacutes et formaliseacutes dans des langages de repreacutesentation des connaissances

ndash Le second regroupe des travaux qui tirent parti de connaissances deacutejagrave formaliseacutees pour la miseen oeuvre de meacutethodes drsquoextraction de connaissances Lrsquoobjectif de ce second type de travaux estgeacuteneacuteralement lrsquoenrichissement des connaissances initialement disponibles

251 Lrsquoacquisition de connaissances

Lrsquoacquisition de connaissances agrave partir de donneacutees de textes ou de pages Web est eacutegalement appeleacuteeapprentissage drsquoontologie (traduction de ontology learning en anglais) [BCM05] Les sources de donneacuteeset les meacutethodes de fouilles utiliseacutees dans ce cadre sont diverses Un exemple simple est lrsquoutilisation quefont Clerkin et al [CCH01] de lrsquoalgorithme COBWEB pour organiser des donneacutees selon une hieacuterarchiede clusters qui est ensuite transformeacutee en une hieacuterarchie de concepts (ou classes) sous forme drsquoun grapheRDF reprenant la structure hieacuterarchique des clusters La Figure 48 repreacutesente lrsquoexemple de geacuteneacuterationdrsquoontologie avec COBWEB donneacutee par Clerkin et al

F 48 ndash Un jeu de donneacutees exemple concernant la morphologie de cellules soumis agrave COBWEB lahieacuterarchie de cluster produite et la hieacuterarchie de concepts (ou classes) RDF deacuteduite [CCH01]

Si le nombre et le volume des bases de donneacutees ont consideacuterablement augmenteacute ces derniegraveres anneacuteesdans beaucoup de domaines un volume consideacuterable de connaissances nrsquoest encore disponible que sousforme de texte en langage naturel et notamment drsquoarticles de revues speacutecialiseacutees En conseacutequence denombreux travaux ce sont inteacuteresseacutes agrave extraire et formaliser des connaissances contenues dans des corpus

144 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

F 49 ndash Un treillis de concepts notation reacuteduite produit agrave partir de textes (agrave gauche) et la hieacuterarchie deconcepts en laquelle il est transformeacute (agrave droite) suivant la meacutethode proposeacutee dans [CHS05]

de textes (voir [BCM05] pour une vue drsquoensemble) Dans cette optique Cimiano et al deacuterivent agrave partir detextes une hieacuterarchie de concepts [CHS05] Pour cela ils construisent dans un premier temps un contexteformel agrave lrsquoaide de meacutethodes de TAL qui leur permettent drsquoextraire des relations entre termes associeacutesdans les textes Dans un deuxiegraveme temps le contexte formel construit est soumis agrave des meacutethodes drsquopour produire un treillis ensuite transformeacute et compacteacute en un ordre partiel speacutecifique qui constitue uneontologie Un exemple de treillis produit et la hieacuterarchie de concepts en laquelle il est transformeacute sontrepreacutesenteacutes Figure 49 La transformation du treillis revient agrave (1) retirer le concept bottom (2) creacuteer unconcept dit ontologique pour chaque concept formel avec comme nom lrsquointension du concept formel et(3) creacuteer un sous-concept relieacute au preacuteceacutedent pour chaque eacuteleacutement preacutesent dans lrsquoextension du conceptformel en question La hieacuterarchie produite est finalement reacuteduite afin de limiter le nombre potentiellementtregraves eacuteleveacute de concepts qui reacutesultent de la transformation drsquoun grand treillis Pour cela les concepts ditontologiques qui ont la mecircme extension en terme de concepts terminaux que leurs sous-concepts (ie

les mecircmes nœuds feuilles dans la hieacuterarchie) sont supprimeacutes Dans lrsquoexemple repreacutesenteacute Figure 49 leconcept rideable serait de cette faccedilon supprimeacute de la hieacuterarchie

Bendaoud et al ont proposeacute plus reacutecemment une meacutethode drsquoacquisition de connaissances agrave partirde textes qui srsquoappuie sur lrsquo Celle ci preacutesente deux avantages principaux par rapport agrave [BCM05] Lepremier est de produire non seulement une hieacuterarchie de concepts mais eacutegalement des instances asso-cieacutees aux concepts Ici le concept bottom est eacutelimineacute et les eacuteleacutements de lrsquoextension drsquoun concept formelservent eacutegalement agrave deacutecrire en les concepts de la hieacuterarchie comme dans [BCM05] En revanche leseacuteleacutements de lrsquointension des concepts formels servent agrave la creacuteation drsquoindividus qui instancient le conceptcorrespondant agrave lrsquoeacuteleacutement deacutecrit en extension La Figure 410 illustre cette transformation drsquoun treillisen une hieacuterarchie de concepts plus instances elle peut ecirctre compareacutee agrave la Figure 49 Dans un sens lafaccedilon de deacutecrire en les concepts formels deacutepend de la faccedilon dont les connaissances contenues dansles textes est codeacutee dans le contexte formel Cependant les correspondances entre drsquoabord lrsquoextensionde concepts formels et la description de concepts en et ensuite entre intension et instances semblentrelativement naturelles Le deuxiegraveme avantage de cette meacutethode consiste en lrsquoenrichissement de la hieacuterar-

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 145

F 410 ndash Un treillis de concepts notation reacuteduite produit agrave partir de textes (agrave gauche) et la hieacuterarchie deconcepts instancieacutee en laquelle il est transformeacute (agrave droite) suivant lrsquoalternative proposeacutee dans [BTN08]

chie de concepts par des rocircles entre les concepts en utilisant une meacutethode formelle appeleacutee lrsquoAnalyse deRelationnelle de Concepts ou Cet enrichissement preacutesente la particulariteacute de prendre en compte lahieacuterarchie des concepts pour la geacuteneacuteralisation de relations extraites des textes

Les connaissances sur la structuration des documents analyseacutes peuvent eacutegalement servir agrave guiderle processus drsquoacquisition de connaissance Crsquoest notamment le cas dans [KAB06] ougrave la connaissancedrsquoexperts sur la structuration des documents HTML est utiliseacutee pour favoriser la construction de clustersde termes homogegravenes agrave partir de pages Web

Cette cateacutegorie de travaux rassembleacutee sous le titre acquisition de connaissances peut ecirctre compareacuteeagrave lrsquoenchaicircnement des eacutetapes (ii) et (iii) de notre meacutethode drsquo Ces travaux permettent la formalisationde connaissances contenues dans des donneacutees des textes ou des pages Web et ce agrave lrsquoaide de meacutethodesde fouille de donneacutees et eacuteventuellement de repreacutesentations des connaissances du domaine pour [KAB06BTN08] Dans tous les cas les connaissances acquises par le processus sont enregistreacutees mais ne sontpas consideacutereacutees de sorte agrave pouvoir ecirctre reacuteutiliseacutees dans les opeacuterations drsquoacquisition de connaissancessuivantes Finalement ces meacutethodes considegraverent de faccedilon seacutepareacutee sources de donneacutees (bases de donneacuteestextes pages Web) et repreacutesentation des connaissances du domaine sans prendre en compte lrsquoexistencedes ontologies du domaine existant

252 La manipulation de connaissances pour extraire de nouvelles connaissances

Utilisation des meacutecanismes de raisonnement comme meacutethode drsquoapprentissage Un moyen originalde se servir de connaissances formaliseacutees pour lrsquoextraction de connaissances potentiellement utiles estlrsquoutilisation de meacutecanismes de raisonnement comme meacutethode drsquoapprentissage sur une plutocirct quedrsquoalgorithmes de fouille sur des bases de donneacutees Ce sont alors les concepts rocircles instances et axiomesde la qui sont directement manipuleacutes par ces meacutecanismes de raisonnement En pratique ceux-ci sontappliqueacutes agrave des en pour formaliser explicitement des connaissances implicites Le plus souventils mettent en lumiegravere des eacuteleacutements de connaissance eacutevidents pour lrsquoanalyste (humain) et sont rarementefficaces pour la deacutecouverte de connaissances dans le cadre de lrsquoECBD Un travail qui fait exception estla classification des proteacuteines phosphatases proposeacutee par Wostencroft et al [WLT+06] Les auteurs sebasent sur une ontologie en qui deacutecrit la composition en domaines des proteacuteines de la famille des phos-

146 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

F 411 ndash Les diffeacuterences drsquoorganisation des domaines dans une sous-famille de proteacuteines phosphatases les reacutecepteurs tyrosines phosphatases Ces organisations sont repreacutesenteacutees dans lrsquoontologie des phos-phatases et utiliseacutees pour la classification automatique de nouvelles proteacuteines [WLT+06]

phatases (voir Figure 411) Une proteacuteine y est repreacutesenteacutee comme un individu instance de lrsquoontologieauquel est associeacute la description de sa composition en domaines proteacuteiques Ils appliquent alors sur la associeacutee un meacutecanisme de raisonnement classique de classification drsquoinstances La comparaison drsquouneproteacuteine (donc drsquoun individu) aux descriptions des familles des phosphatases (ie des concepts deacutefinis)permet ainsi sa classification automatique dans la famille agrave laquelle elle appartient La classification reacute-sultante a permis drsquoaffiner la classification des phosphatases deacutefinie par les experts et de corriger pourcertaines proteacuteines lrsquoannotation qui indique leur appartenance agrave une famille ou agrave une autre

Moyennant quelques adaptations il est eacutegalement possible de transformer (ou coder) certains eacuteleacute-ments de connaissance afin que ceux ci puissent-ecirctre consideacutereacutes par des meacutethodes de fouille de donneacutees

Fouille de bases de cas Les eacuteleacutements de connaissances fouilleacutees par le systegraveme CA preacutesenteacutedans [dBL+07] sont des cas ie des couples (problegraveme solution) regroupeacutes dans une base de cas Lafouille de la base de cas par lrsquoextraction des motifs fermeacutes freacutequents a pour objectif la deacutecouverte deconnaissances drsquoadaptation ie un eacuteleacutement de connaissance qui deacutecrit comment eacutevolue la solution entredeux couples (problegraveme solution) quand le problegraveme eacutevolue Les reacutesultats extraits prennent la formede motifs fermeacutes freacutequents dont chaque eacuteleacutement deacutecrit lrsquoadaptation drsquoune proprieacuteteacute et dont lrsquoensemblepermet de deacuteduire des connaissances drsquoadaptation potentiellement utiles [dBL+07] propose dans lecontexte de bases de cas de traitement du cancer du sein un exemple de connaissance drsquoadaptationextraite et son interpreacutetation

Clustering conceptuel Les eacuteleacutements de connaissance peuvent eacutegalement ecirctre les individus drsquoune en comme dans [FdE08] pour lequel les auteurs proposent une meacutethode de clustering hieacuterarchique baseacuteesur une distance seacutemantique mesureacutee entre individus En accord avec cette distance deux individus quiappartiennent agrave un grand nombre de concepts communs dans la sont proches et inversement deuxindividus qui ne peuvent pas appartenir agrave des concepts communs sont eacuteloigneacutes (voir [FdE08] pour ladeacutefinition formelle de la distance) Le calcul de la distance neacutecessite lrsquointervention de meacutecanismes deraisonnement pour deacuteterminer lrsquoinstanciation des concepts (instance checking) Une meacutethode de cluster-ing inspireacutee des K-plus proches voisins utilise ensuite les distances entre individus pour construire unehieacuterarchie de clusters Les clusters construits peuvent ecirctre annoteacutes avec une description en qui carac-teacuterise au mieux les individus preacutesents dans le cluster en question tout en discriminant les individus desclusters de mecircme niveau dans la hieacuterarchie Cette description correspond au subsumeur commun le plus

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 147

speacutecifique de lrsquoensemble des concepts les plus speacutecifiques de chaque individu du cluster La descriptionreacutesultante est une approximation et demeure deacutependante de la description des concepts et de la reacutepar-tition des individus dans la (ie de la conceptualisation) Lrsquoajout de nouveaux individus dans la induit des modifications dans la structure hieacuterarchique en terme soit de nouveau cluster soit de nouvelledescription drsquoun cluster existant Cependant la modification de la TBox initiale agrave la vue de clusters et deleur description en associeacutee nrsquoest pas consideacutereacutee

Ces deux derniegraveres approches manipulent des connaissances repreacutesenteacutees formellement dans une mais ne reacuteutilisent pas (ou partiellement) les reacutesultats de fouille pour raffiner ou enrichir la analyseacutee

En revanche les travaux theacuteoriques de Rudolph et al [Rud06] et de Baader et al [BGSS07] (preacutesen-teacutes dans la section 22) et notre meacutethode drsquo (section 23) autorisent lrsquoenrichissement de la initiale

R Le travail de Ferreacute et al est agrave noter eacutegalement Ils utilisent aussi et conjointementmais dans un objectif inverse au nocirctre [FRS05] Lrsquoobjectif nrsquoest pas drsquoenrichir une ontologie (ou une )agrave partir de reacutesultats drsquo mais drsquoenrichir un treillis de concepts agrave lrsquoaide de la seacutemantique associeacutee aux

148 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

3 Discussion

Cette section discute dans un premier temps la meacutethode drsquoAnalyse des Assertions de Rocircles ()preacutesenteacutee dans la section 23 puis dans un second temps la proposition plus geacuteneacuterale drsquoExtraction deConnaissances agrave partir de Base de Connaissances ()

Lrsquo srsquoappuie sur un meacutecanisme qui transforme des connaissances repreacutesenteacutees en sous la formedrsquoun contexte formel manipulable par les meacutethodes drsquo Cette transformation permet de repreacutesen-ter dans le contexte formel produit (1) des assertions de rocircles qui relient les individus dans un graphedrsquoassertions (2) les assertions de concepts repreacutesenteacutees par les attributs du contexte Ainsi cette repreacutesen-tation des connaissances est une repreacutesentation partielle du contenu de la Par exemple les relations desubsomption entre concepts et entre rocircles ne sont pas repreacutesenteacutees dans le contexte Il peut pourtant ap-paraicirctre inteacuteressant de les consideacuterer dans lrsquoideacutee de retranscrire de faccedilon plus complegravete les connaissancescontenues dans la

Une meacutethode alternative agrave lrsquoexploration des graphes drsquoassertions pour retranscrire de faccedilon systeacutema-tique les connaissances drsquoune dans un format manipulable par des meacutethodes de fouille pourrait ecirctrelrsquoutilisation de la meacutethode drsquoAnalyse Relationnelle de Concept () [HHNV07] Cette meacutethode peutecirctre utiliseacutee pour consideacuterer lrsquoensemble des connaissances drsquoune agrave condition de retranscrire celles-cidans plusieurs contextes formels (par exemple un contexte pour les assertions de concepts un autre pourles assertions de rocircles encore un autre pour la hieacuterarchie de concepts etc) Lrsquo permet ensuite surla base des reacutegulariteacutes preacutesentes dans les contextes de geacuteneacuterer de nouvelles descriptions de concepts en qui prennent en consideacuteration les relations entre les eacuteleacutements impliqueacutes dans diffeacuterents contextes Lacontrainte importante associeacutee agrave lrsquoutilisation de lrsquo est la deacutefinition manuelle des contextes de leursrelations et enfin lrsquointerpreacutetation des nombreux concepts produits automatiquement En comparaisonavec lrsquo notre meacutethode drsquo propose un compromis qui permet une retranscription partielle des con-naissances de la et la production drsquoun contexte de taille raisonnable Une des hypothegraveses de deacutepartde lrsquo est notamment que les assertions de rocircles directes et indirectes peuvent deacutecrire des relationsplus ou moins freacutequentes entre diffeacuterentes cateacutegories drsquoindividus et par ce biais sont des connaissancessusceptibles drsquoecirctre porteuses de connaissances nouvelles

Un moyen drsquoeacutevaluer concregravetement lrsquoapport de lrsquo serait de comparer les reacutesultats drsquoune recherchedes RMNR sur un jeu de donneacutees brut par exemple les reacutesultats de lrsquoinvestigation clinique du mon-telukast utiliseacutee pour lrsquoexpeacuterimentation preacutesenteacutee section 24 avec les regravegles et reacutesultats produits parlrsquo Cette expeacuterimentation pourrait permettre de justifier lrsquoeffort que neacutecessite la construction de lrsquoon-tologie et la deacutefinition des mappings donneacutees-assertions pour la deacutecouverte de connaissances

Une utilisation inteacuteressante de lrsquo pourrait consister agrave positionner le concept initial C0 agrave la racine dela TBox (C0 equiv ⊤) puis agrave recueillir la totaliteacute des nouveaux concepts deacuteriveacutes des RMNR dans une nou-velle TBox vierge La comparaison entre la hieacuterarchie de concepts obtenue apregraves classification de cettenouvelle TBox et la hieacuterarchie de concepts de la initiale permettrait drsquoeacutevaluer en un sens la capaciteacutedes assertions de rocircles drsquoune agrave refleacuteter la repreacutesentation des connaissances eacutetablies et agrave en proposer denouvelles Dans une ideacutee proche les meacutethodes drsquoeacutevaluation drsquoontologies pourraient permettre de mesurerla progression entre la initiale et la finale apregraves [GCCL06]

Lrsquo (deacutetailleacutee et expeacuterimenteacutee sections 23 et 24) se veut une illustration de la proposition plusgeacuteneacuterale drsquo En effet lrsquo peut ecirctre mise en œuvre agrave lrsquoaide de diffeacuterentes meacutethodes Par exempledes meacutethodes de fouille de donneacutees alternatives agrave la recherche des RMNR pourraient ecirctre utiliseacuteesEn fonction de la meacutethode choisie il serait alors indispensable drsquoadapter les eacutetapes de preacuteparation etdrsquointerpreacutetation des reacutesultats de fouille qui deacutependent respectivement des formats drsquoentreacutee et du typedrsquouniteacutes drsquoinformation produit par la fouille Des meacutethodes de fouille alternatives qursquoil semble pertinent

3 Discussion 149

drsquoexpeacuterimenter sont par exemple la construction drsquoarbres de deacutecision ou le clustering conceptuel Unsystegraveme de repreacutesentation des connaissances diffeacuterent des pourrait eacutegalement ecirctre envisageacute

Suivant lrsquoexemple de lrsquo le processus drsquoextraction de connaissances reste centreacute sur un algorithmede fouille de donneacutees qui prend en entreacutee des connaissances preacutealablement preacutepareacutees en un format com-patible et produit en sortie des uniteacutes drsquoinformation extraites agrave interpreacuteter formaliser et inseacuterer dans la Malgreacute diffeacuterents essais cela reste un deacutefi de consideacuterer des meacutethodes drsquoapprentissage capables demanipuler les axiomes drsquoune ie capables de tenir compte de la seacutemantique qui leur est associeacutee etde leur reacutegulariteacutes [Mug91 Nap92 Ser07]

150 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

Conclusion et perspectives

Lrsquoensemble de la thegravese preacutesenteacutee dans ce manuscrit conforte la conviction selon laquelle lrsquoExtractionde Connaissances agrave partir de Bases de Donneacutees () doit ecirctre guideacutee agrave partir des connaissances dudomaine Dans ce contexte nous avons proposeacute et mis en œuvre un ensemble coheacuterent de meacutethodes afinde formaliser les connaissances drsquoun domaine inteacutegrer des donneacutees heacuteteacuterogegravenes relatives agrave ce domaineau sein drsquoune Base de Connaissances () et enfin analyser le contenu de cette pour en extraire denouvelles connaissances

La premiegravere contribution deacutecrit une meacutethode de construction drsquoontologie qui favorise la reacuteutilisationdrsquoontologies deacutejagrave existantes en les inteacutegrant au processus de construction De plus cette meacutethode inclutlrsquoeacutevaluation de la capaciteacute de lrsquoontologie construite agrave repreacutesenter les connaissances du domaine

Ensuite nous deacutecrivons une approche drsquointeacutegration de donneacutees qui srsquoappuie sur une formalisationtheacuteorique de la mise en correspondance de donneacutees et de connaissances La mise en œuvre de cetteapproche conduit agrave associer une seacutemantique preacutealablement deacutefinie agrave des donneacutees heacuteteacuterogegravenes afin de lesinteacutegrer au sein drsquoune

La reacutesultante constitue lrsquoeacuteleacutement central du processus drsquoExtraction de Connaissances agrave partir

drsquoune Base de Connaissances () Lrsquoideacutee originale ici est drsquoexplorer les reacutegulariteacutes drsquoune par oppo-sition agrave la recherche de reacutegulariteacutes agrave partir de bases de donneacutees Nous rapportons des reacutesultats prometteurssur la deacutefinition et la mise en œuvre drsquoune meacutethode drsquo particuliegravere appeleacutee lrsquoAnalyse drsquoAssertionsde Rocircles () Cette meacutethode srsquoattache agrave explorer les reacutegulariteacutes dans les assertions drsquoune Les uniteacutesde connaissances produites sont exprimeacutees suivant le mecircme formalisme que celui de la ce qui permetensuite leur manipulation par des meacutecanismes de raisonnement en vue de leur inteacutegration coheacuterente dansla Cette derniegravere contribution propose ainsi un moyen de mettre en œuvre un processus drsquoExtractionde Connaissance guideacutee par les Connaissances du Domaine

Ces reacutesultats illustrent que lrsquo peut ecirctre employeacutee avec succegraves pour la deacutecouverte de connaissancesen pharmacogeacutenomique De plus le cadre geacuteneacuteral de lrsquo peut ecirctre reacuteutiliseacute pour deacutecrire de nouvellesde meacutethodes diffeacuterentes de la nocirctre

Par ailleurs lrsquoensemble coheacuterent des meacutethodes deacutecrites dans la thegravese a eacuteteacute appliqueacute au domainede la pharmacogeacutenomique Nous avons ainsi construit deux ontologies de domaine La premiegravere SNP-Ontology formalise les connaissances sur les variations geacutenomiques La seconde SO-Pharm formaliseles connaissances du domaine de la pharmacogeacutenomique SNP-Ontology et SO-Pharm ont reccedilu un ac-cueil favorable par la communauteacute scientifique inteacuteresseacutee par la mise agrave disposition et le partage desbio-ontologies

Nous avons ensuite employeacute ces ontologies pour inteacutegrer selon lrsquoapproche drsquointeacutegration proposeacuteedes donneacutees pharmacogeacutenomiques issues de bases de donneacutees heacuteteacuterogegravenes Le reacutesultat de cette inteacutegra-tions est le peuplement de Bases de Connaissances relatives agrave ce domaine particuliegraverement concerneacute parle problegraveme de lrsquointeacutegration de donneacutees Dans le cas de donneacutees relatives au geacutenotype notre systegravemeSNP-Converter permet de reacuteconcilier les diffeacuterentes repreacutesentations des variations geacutenomiques Dans lecas drsquoinvestigations cliniques notre systegraveme iSO-Pharm permet de cumuler des donneacutees relatives augeacutenotype au pheacutenotype et au meacutedicament provenant drsquoinvestigations reacuteelles

151

152 Conclusion et perspectives

Enfin nous avons expeacuterimenteacute notre meacutethode drsquo lrsquo dans le contexte drsquoune instancieacutee pariSO-Pharm agrave partir drsquoune investigation clinique particuliegravere et de donneacutees compleacutementaires provenantde bases de donneacutees publiques Nos reacutesultats confortent et enrichissent les reacutesultats publieacutes sur cet essaiqui ont eacuteteacute obtenus gracircce aux meacutethodes statistiques classiques pour ce genre drsquoeacutetudes De plus lrsquointer-preacutetation des reacutesultats de la fouille a permis drsquoinseacuterer de nouvelles connaissances dans la initiale

Les perspectives susciteacutees par ce travail sont nombreuses En premier lieu il conviendrait de deacutefinirune proceacutedure drsquoeacutevaluation de la pertinence et de la nouveauteacute des uniteacutes de connaissances deacutecou-vertes par lrsquoapproche drsquo proposeacutee dans cette thegravese Une telle proceacutedure pourrait srsquoappuyer sur desmesures comparant les uniteacutes de connaissances au contenu preacutealable de la pour aider lrsquoexpert dansla tacircche de validation des reacutesultats de fouille Une deuxiegraveme perspective plus vaste porte sur lrsquoeacutelar-gissement du domaine drsquoapplication consideacutereacute ie la pharmacogeacutenomique agrave lrsquoeacutetude plus globale desinteractions gegravenes-environnement En effet les traitements meacutedicamenteux et les facteurs geacuteneacutetiquesne sont pas les seuls eacuteleacutements ayant un impact sur les traits du pheacutenotype Par exemple lrsquoeacutetat nutri-tionnel les micro-organismes intestinaux les maladies veacutecues lrsquoacircge drsquoun individu ont des impacts surson pheacutenotype et donc sur sa reacuteponse agrave un meacutedicament Dans cette direction il est possible drsquoeacutetendreles connaissances repreacutesenteacutees dans SO-Pharm pour consideacuterer les influences possibles de nouveauxfacteurs Il serait alors possible drsquoenvisager de peupler la version eacutetendue de SO-Pharm agrave partir des reacute-sultats drsquoessais ou de cohortes eacutetudiant de faccedilon plus geacuteneacuterales ces interactions gegravenes-environnement[Mau06 CLC+06 ORT08 RLSN08] La base de connaissances reacutesultante pourrait ecirctre utiliseacutee suivantlrsquoapproche drsquo proposeacutee dans cette thegravese avec comme objectif drsquoanalyser simultaneacutement les influ-ences quantitatives et qualitatives des divers facteurs sur le pheacutenotype Suivant cette ideacutee il serait in-teacuteressant drsquoutiliser des meacutethodes de fouilles de donneacutees alternatives agrave celles expeacuterimenteacutees dans le cadrede lrsquo Par exemple lrsquoextraction de motifs rares la classification hieacuterarchique la fouille de donneacuteestemporelles sont des meacutethodes qui paraissent adapteacutees aux particulariteacutes du domaine Lrsquoutilisation desconnaissances agrave priori pour la deacutecouverte de connaissances sur les interactions gegravenes-environnement re-pose eacutegalement sur la formalisation de la notion de pheacutenotype de ces diffeacuterents niveaux de granulariteacutede ces variations inter-individuelles et temporelles Une troisiegraveme perspective porte sur lrsquoappropriationpar les experts des outils de gestion des connaissances Les nombreux travaux exploitant les technologiesdu Web seacutemantiques laissent preacutesager lrsquoeacutemergence de systegravemes permettant de compleacuteter et drsquointerrogerune via un environnement de visualisation intuitif qui exploite par exemple la structure en grapheinheacuterente agrave une impleacutementeacutee en OWL ou encore les capaciteacutes drsquointerrogation du langage SPARQL[RMKM08 BdLM08] Lrsquointeacutegration de ces avanceacutees au niveau drsquoune interface utilisateur permettrait agravelrsquoexpert drsquoecirctre plus autonome tout au long du processus drsquo Enfin une quatriegraveme perspective est lrsquoap-plication de lrsquoapproche drsquo agrave des domaines diffeacuterents de celui de la pharmacogeacutenomique De tellesexpeacuterimentations permettraient drsquoeacutevaluer agrave quel point notre approche est geacuteneacuterique

Au terme de ce travail il apparaicirct que les contributions apporteacutees tant au domaine de lrsquoinforma-tique qursquoagrave celui de la pharmacogeacutenomique sont fructueuses et prometteuses Le caractegravere particuliegravere-ment interdisciplinaire de cette thegravese nous a conduit au deacuteveloppement de systegravemes opeacuterationnels pourla pharmacogeacutenomique agrave partir de technologies du Web seacutemantique Cependant le rocircle de la pharma-cogeacutenomique dans ce travail de thegravese ne se limite pas agrave un simple domaine drsquoapplication Par la com-plexiteacute de ses probleacutematiques ce domaine a orienteacute et motiveacute les approches informatiques proposeacutees quiresteront applicables agrave drsquoautres domaines Nous espeacuterons ainsi avoir contribueacute agrave la concreacutetisation du Webseacutemantique en deacutepassant le niveau du Web de donneacutees (en anglais Web of data)

Annexe A

Algorithme de recherche des RMN et desRMNR

153

154 Annexe A Algorithme de recherche des RMN et des RMNR

Description

Cet algorithme permet la recherche des Regravegles Minimales Non-redondantes (RMN) et des RegraveglesMinimales Non-Redondantes Reacuteduites (RMNR) [Sza06] Pour cela il prend en entreacutee trois paramegravetres (1) les motifs fermeacutes freacutequents (MFF) (2) les geacuteneacuterateurs freacutequents (GF) et (3) les valeurs du supportdes motifs Pour deacutecrire cet algorithme nous utilisons deux fonctions

getProperSuperSet prend deux paramegravetres un ensemble S de motifs et un motif p La fonctionretourne le super motif direct de p dans S Cette fonction peut tirer parti drsquoune structuration desmotifs sous forme drsquoun treillis

getSupportOf prend en paramegravetre un motif quelconque et renvoie son support Cette fonction peuteacutegalement tirer parti de lrsquoorganisation en treillis des motifs

R Lrsquoalgorithme peut ecirctre facilement adapteacute pour isoler les ensembles de regravegles qui corre-spondent agrave la Base Geacuteneacuterique (BG) la Base Informative (BI) et la Base Informative Reacuteduite (BIR)[Sza06]

Algorithme

Algorithme A1 Recherche des RMN et des RMNR

Entreacutee MFF GF valeurs de support des motifsSortie ensemble des RMN et des RMNR

1 Pour chaque geacuteneacuterateur g

2 CG larr getProperSuperSet(MFFg) retourne le super motif de g parmi les MFF3 4 Pour chaque eacutelement c de CG

5 premisselarr g

6 conclusionlarr (cg)7 supportPremisselarr gsupport8 supportConclusionlarr getSupportOf(conclusion)9 10 reglelarr (premisserarr conclusion)11 12 si conf(regle) ge min_con f conf(regle)=supp(csupp(g))13 Lrsquoeacutetape suivante est optionnelle Elle doit ecirctre exeacutecuteacutee14 si lrsquoon souhaite extraire les RMNR au lieu des RMN15 si conf(regle) 1016 CG larr CGgetProperSuperSet(MFFc) le supermotif de c est eacutelimineacute de CG17 fin si18 Rlarr R cup regle19 fin si20 Pour chaque22 Pour chaque23 Retourner R

Annexe B

Constructeurs en

155

156 Annexe B Constructeurs en

Nom du syntaxe syntaxe seacutemantique associeacuteeconstructeur en OWLConcept C C (URI) CI sube ∆I

Concept universel ⊤ owlThing ⊤I = ∆I

Bottom perp owlNothing perpI= empty

Intersection C ⊓ D intersectionOf(C D) (C ⊓ D)I = CI cap DI

Union C ⊔ D unionOf(C D) (C ⊔ D)I = CI cup DI

Neacutegation notC complementOf(C) (notC)I = ∆I CI

Enumeacuteration a b oneOf(a b ) a b I = aI bI

Quantificateur existRC restriction(R (existRC)I = x|existy (x y) isin RI and y isin CI

existentiel someValuesFrom(C))Quantificateur forallRC restriction(R (forallRC)I = x|forally (x y) isin RI rarr y isin CI

universel allValuesFrom(C))Restriction agrave ni Ra restriction(R (ni Ra)I = x|(x aI) isin RI

une valeur ou Ra hasValue(a))Restrictions = n R restriction(R (= n R)I = x| cardy|(x y) isin RI = n

non qualifieacutees cardinality(C))de cardinaliteacute gt n R restriction(R (gt n R)I = x| cardy|(x y) isin RI gt n

minCardinality(C))6 n R restriction(R (6 n R)I = x| cardy|(x y) isin RI 6 n

maxCardinality(C))Quantificateur existST restriction(S (existST)I = x|existy (x y) isin SI and y isin TI

existentiel someValuesFrom(T ))Quantificateur forallST restriction(S (forallST)I = x|forally (x y) isin SI rarr y isin TI

universel allValuesFrom(T ))Restriction agrave ni Sa restriction(S (ni Sa)I = x|(x aD) isin SI

une valeur ou Sa hasValue(a))Restriction = n S restriction(S (= n S)I = x| cardy|(x y) isin SI = n

non qualifieacutee cardinality(T ))de cardinaliteacute gt n S restriction(S (gt n S)I = x| cardy|(x y) isin SI gt n

minCardinality(T ))6 n S restriction(S (6 n S)I = x| cardy|(x y) isin SI 6 n

maxCardinality(T ))

T B1 ndash Constructeurs de concepts en Logique de Descriptions et leurs correspondances en OWLC et D sont des concepts (respectivement C et D sont des classes) T est un concept particulier qui cor-respond agrave un type de donneacutees (un Datatype en OWL) n est un nombre a et b sont des individus R unrocircle (une proprieacuteteacute drsquoobjet ou ObjectProperty en OWL) et S un rocircle dont le co-domaine correspond agrave unconcept de mecircme type que T (une proprieacuteteacute de donneacutees ou DatatypeProperty en OWL)

157

nom du constructeur syntaxe en syntaxe abstraite OWL seacutemantique associeacuteeRocircle inverse Rminus inverseOf(R) (Rminus)I = (x y) | (y x) isin RIComposition de R Q ndash (R Q)I = (x z) | existy(x y) isin RI

rocircle and(y z) isin QI

T B2 ndash Constructeurs de rocircles en Logique de Descriptions et leurs correspondances en OWL R etQ sont des rocircles (des proprieacuteteacutes drsquoobjet ou ObjectProperty en OWL)

158 Annexe B Constructeurs en

Annexe C

Exemple de code OWL

159

160 Annexe C Exemple de code OWL

F C1 ndash Code OWL qui correspond agrave la repreacutesenteacutee dans le Tableau 24 Ce code est enregistreacute dansle fichier ldquoexemple_de_bcowlrdquo

Annexe D

Modegravele conceptuel de SO-Pharm

161

162 Annexe D Modegravele conceptuel de SO-Pharm

F D1 ndash Diagramme de classes UML donnant une vue geacuteneacuterale mais partielle de la conceptualisationde SO-Pharm

Annexe E

Captures drsquoeacutecrans de SNP-Converter

163

164 Annexe E Captures drsquoeacutecrans de SNP-Converter

F E1 ndash Capture drsquoeacutecran de SNP-Converter Lrsquoonglet preacutesenteacute srsquointitule Data integration Il propose deseacutelectionner une liste de sources de donneacutees et une portion du geacutenome un exon un intron un gegravene entierou un espace situeacute entre deux nucleacuteotides Lrsquoexeacutecution de la fonction drsquointeacutegration de donneacutees de SNP-Converter par le bouton Run permet lrsquoinstanciation drsquoune Base de Connaissances SNP-KB qui permetdrsquoeacutevaluer le recouvrement des donneacutees contenues dans les diffeacuterentes sources et repreacutesenteacutees dans lecadre intituleacute Database overlapp Par exemple le premier variant de la liste est initialement preacutesent dansles 4 sources de donneacutees seacutelectionneacutees le second est preacutesent uniquement dans PharmGKB le troisiegravemeest dans HGVBase et PharmGKB

165

F E2 ndash Capture drsquoeacutecran de SNP-Converter Lrsquoonglet preacutesenteacute srsquointitule Conversion Il propose de saisirla descritpion drsquoun variant ici Chr6 18251934GgtC et de choisir un type de description diffeacuterent pourdeacutecrire le variant ici la position par rapport agrave lrsquoexon Lrsquoexeacutecution par le biais du bouton Run construitla description du variant donneacutee selon la description demandeacutee TPMT_exon_6 129GgtC Le variantdonneacute en entreacutee peut ecirctre soit un identifiant drsquoune base de donneacutees soit ecirctre deacutecrit suivant la nomenclatureHGVS

F E3 ndash Capture drsquoeacutecran de SNP-Converter Lrsquoonglet est le mecircme que celui preacutesenteacute dans la FigureE2 Cette figure repreacutesente en plus les diffeacuterents type de description suivant lesquelles il est possiblede convertir le variant donneacute nomenclature HGVS du variant positionneacute relativement agrave la seacutequence duchromosome de contigs de lrsquoexon de lrsquointron de la proteacuteine ou encore lrsquoidentifiant du variant dansdbSNP

166 Annexe E Captures drsquoeacutecrans de SNP-Converter

Annexe F

Algorithme de parcours drsquoun graphedrsquoassertions

167

168 Annexe F Algorithme de parcours drsquoun graphe drsquoassertions

Description

Lrsquoalgorithme suivant permet lrsquoexploration en profondeur drsquoun graphe drsquoassertions Ga(V E) avec ndash une profondeur maximale pmax la longueur maximale drsquoun chemin est limiteacutee par pmax dont la

valeur est preacuteciseacutee par lrsquoanalyste en deacutebut de processusndash lrsquointerdiction de faire des boucles lrsquoalgorithme interdit agrave un mecircme chemin de passer deux fois

par le mecircme nœudndash lrsquointerdiction de revenir en arriegravere apregraves avoir emprunteacute un arc dans un sens lrsquoalgorithme interdit

drsquoemprunter lors de lrsquoeacutetape suivante un arc avec le mecircme label en sens inverseCet algorithme correspond agrave une exploration iteacuterative en profondeur limiteacutee notamment par les trois

critegraveres eacutenumeacutereacutes ci-dessus Pour plus de lisibiliteacute nous articulons notre algorithme en trois fonctions ndash Exploration-graphe-d-assertionndash Exploration-profondeur-limiteacutee etndash EPL-reacutecursive

La description de ces trois fonctions srsquoinspire des algorithmes drsquoexploration en profondeur limiteacutee pro-poseacutees dans le livre de Russel et Norvig [RN03]

169

Algorithme

Algorithme F1 Parcours en profondeur drsquoun graphe drsquoassertions

1 fonction Exploration-graphe-d-assertion(Ga dmax)retourne un ensemble de chemins

2 ensembleDeChemins ≔ empty initialisation3 pour chaque pro f ondeur 6 dmax

4 si Exploration-profondeur-limiteacutee interruption5 ensembleDeChemins ≔ ensembleDeChemins

cup Exploration-profondeur-limiteacutee(Ga pro f ondeur)6 fin si7 fin pour8 retourner ensembleDeChemins

9 fonction Exploration-profondeur-limiteacutee(Ga pro f ondeur)retourne un ensemble de chemins pour une profondeur donneacutee ou interruption

10 a ≔ Nœud-racine[Ga] a est le nœud racine du graphe Ga11 Vvisiteacute[Ga]≔ Vvisiteacute[Ga] cup b ensemble de nœud visiteacutes11 retourner EPL-reacutecursive(Ga a pro f ondeur) reacutesultat de la fonction EPL-reacutecursive

12 fonction EPL-reacutecursive(Ga x pro f ondeur)retourne un chemin ou interruption

13 Rminus ≔ NIL initialisation drsquoun arc Rminus14 pour chaque b isin Adjacent[x] pour chaque nœud adjacent agrave x15 si b lt Vvisiteacute[Ga] le nœud adjacent nrsquoa pas eacuteteacute visiteacute

et (x b) Rminus lrsquoarc (x b) nrsquoest pas lrsquoinverse du dernier arc emprunteacuteet Profondeur[b] 6 pro f ondeur lrsquoexploration respecte la limite

16 Vvisiteacute[Ga]≔ Vvisiteacute[Ga] cup a17 Rminus ≔ Inverse[(x b)] Rminus est lrsquoarc inverse de celui emprunteacute18 chemin ≔ AjouterNœud(chemin b)19 EPL-reacutecursive(Ga b pro f ondeur)20 retourner chemin

21 sinon22 retourner interruption23 fin si24 fin pour

170 Annexe F Algorithme de parcours drsquoun graphe drsquoassertions

Annexe G

Captures drsquoeacutecrans du plugin de Proteacutegeacute 4pour lrsquoAAR

171

172 Annexe G Captures drsquoeacutecrans du plugin de Proteacutegeacute 4 pour lrsquoAAR

F G1 ndash Capture drsquoeacutecran du plugin de Proteacutegeacute 4 pour lrsquoAnalyse drsquoAssertions de Rocircles

Annexe H

RMNR extraites de la relative agravelrsquoinvestigation clinique du montelukast

173

174 Annexe H RMNR extraites de la relative agrave lrsquoinvestigation clinique du montelukast

Regravegles associant des geacutenotypes

Regravegle H1 (supp=049 conf=1)

presents_clinical_item chr16_16045823T-T =gt presents_clinical_item chr16_16047215T-T

Regravegle H2 (supp=038 conf=96)

presents_clinical_item chr16_16047215C-T =gt presents_clinical_item chr16_16045823C-T

Regravegle H3 (supp=064 conf=095)

presents_clinical_item chr16_15994334C-C =gt presents_clinical_item chr16_15986618G-G

Regravegle H4 (supp=044 conf=090)

presents_clinical_item chr10_45190694C-T

presents_clinical_item chr10_45211490A-G =gt presents_clinical_item chr10_45221095A-G

Regravegle H5 (supp=041 conf=1)

presents_clinical_item chr10_45198914A-A

presents_clinical_item chr10_45221095A-G =gt presents_clinical_item chr10_45211490A-G

Regravegle H6 (supp=039 conf=086)

presents_clinical_item chrX_77367837A-A =gt presents_clinical_item chrX_77346486T-T

presents_clinical_item chrX_77389891G-G

presents_clinical_item chrX_77356650G-G

presents_clinical_item chrX_77334462A-A

Regravegle H7 (supp=031 conf=095)

presents_clinical_item chrX_77389891A-G

presents_clinical_item chrX_77367837A-G =gt presents_clinical_item chrX_77334462A-G

Regravegles associant geacutenotype pheacutenotype et traitement

Regravegle H8 (supp=020 conf=080)

presents_clinical_item chr12_94941021A-A

presents_clinical_item chr16_16143440C-G =gt presents_clinical_item ExaNo

is_enrolled_in_o_is_defined_by_o_is_composed_of

montelukast_treatment

175

Regravegle H9 (supp=021 conf=081)

presents_clinical_item chr10_45211490A-A =gt presents_clinical_item Per__-inf-008_

is_enrolled_in_o_is_defined_by_o_is_composed_of

montelukast_treatment

Regravegle H10 (supp=026 conf=080)

presents_clinical_item chrX_77334462A-G =gt presents_clinical_item chrX_77367837A-G

presents_clinical_item Per__-inf-008_

is_enrolled_in_o_is_defined_by_o_is_composed_of

montelukast_treatment

Regravegle H11 (supp=020 conf=1)

presents_clinical_item chr12_94941021A-G

presents_clinical_item ExaYes =gt presents_clinical_item chr16_16024772C-C

is_enrolled_in_o_is_defined_by_o_is_composed_of

montelukast_treatment

Regravegle H12 (supp=026 conf=075)

presents_clinical_item chr5_179153244A-C

presents_clinical_item ExaNo =gt presents_clinical_item chr16_16024772C-C

is_enrolled_in_o_is_defined_by_o_is_composed_of

montelukast_treatment

176 Annexe H RMNR extraites de la relative agrave lrsquoinvestigation clinique du montelukast

Bibliographie

[AAD+96] S Agarwal R Agrawal P Deshpande A Gupta JF Naughton R Ramakrishnan andS Sarawagi On the computation of multidimensional aggregates In VLDB rsquo96 Pro-

ceedings of the 22th International Conference on Very Large Data Bases pages 506ndash521San Francisco CA USA 1996 Morgan Kaufmann Publishers Inc

[ABB+00] M Ashburner CA Ball JA Blake D Botstein H Butler JM Cherry APDavis K Dolinski SS Dwight JT Eppig MA Harris DP Hill L Issel-TarverA Kasarskis S Lewis JC Matese JE Richardson M Ringwald GM Rubin andG Sherlock Gene Ontology tool for the unification of biology Nat Genet 25(1) 25ndash29 2000

[ABC+99] RB Altman M Bada XJ Chai M Whirl Carrillo RO Chen and NF Abernethy Ri-boWeb An ontology-based system for collaborative molecular biology IEEE Intelligent

Systems 14(5) 68ndash76 1999

[ABG+06] M Ackermann B Berendt Marko Grobelnik A Hotho D Mladenic G SemeraroM Spiliopoulou G Stumme V Svaacutetek and M van Someren editors Semantics Web

and Mining Joint International Workshops EWMF 2005 and KDO 2005 Porto Portu-

gal October 3 and 7 2005 Revised Selected Papers volume 4289 of Lecture Notes in

Computer Science Springer 2006

[ABH95] SS Anand DA Bell and JG Hughes The role of domain knowledge in data miningIn CIKMrsquo95 Proceedings of the fourth international conference on Information and

knowledge management pages 37ndash43 New York NY USA 1995 ACM

[AEB+08] E Antezana M Egantildea B De Baets M Kuiper and V Mironov ONTO-PERL AnAPI for supporting the development and analysis of bio-ontologies Bioinformatics24(6) 885ndash887 2008

[AFC99] DB Aronow F Fangfang and WB Croft Ad hoc classification of radiology reportsJ Am Med Inform Assoc 6(5) 393ndash411 1999

[AIS93] R Agrawal T Imielinski and AN Swami Mining association rules between sets ofitems in large databases In P Buneman and S Jajodia editors SIGMOD Conferencepages 207ndash216 ACM Press 1993

[AK02] RB Altman and T Klein Challenges for biomedical informatics and pharmacoge-nomics Annu Rev Pharmacol Toxicol 42 113ndash33 2002

[AMB06] Y An J Mylopoulos and A Borgida Building semantic mappings from databases toontologies In AAAI AAAI Press 2006

[BA96] RJ Brachman and T Anand The process of knowledge discovery in databases InUM Fayyad G Piatetsky-Shapiro P Smyth and R Uthurusamy editors Advances in

Knowledge Discovery and Data Mining pages 37ndash57 AAAIMIT Press 1996

177

178 Bibliographie

[Bar02] MR Barnes SNP and mutation data on the Web - hidden treasures for uncoveringComp Funct Genomics 3(1) 67ndash74 2002

[Bat08] A Bateman Editorial Nucleic Acids Research 36(Database issue D1) 2008

[Bax06] AD Baxevanis Searching the NCBI databases using Entrez Curr Protoc Bioinfor-

matics 1(3) 2006

[BB06] CA Ball and A Brazma Mged standards work in progress Omics 10 138ndash44 2006

[BBL05] F Baader S Brandt and C Lutz Pushing the EL envelope In Kaelbling and Saffiotti[KS05] pages 364ndash369

[BC08] BioPAX Consortium BioPAX Biological pathways exchange http wwwbiopaxorg(derniegravere consultation 14 juillet 2008)

[BCBF08] A Bairoch S Cohen-Boulakia and C Froidevaux editors Data Integration in the

Life Sciences 5th International Workshop DILS 2008 Evry France June 25-27 2008

Proceedings volume 5109 of Lecture Notes in Computer Science Springer 2008

[BCGP04] J Barrasa O Corcho and A Goacutemez-Peacuterez R2O an extensible and semantically baseddatabase-to-ontology mapping language In Semantic Web and Databases Second Inter-

national Workshop SWDB 2004 Toronto Canada 2004

[BCM+03] F Baader D Calvanese DL McGuinness D Nardi and PF Patel-Schneider editorsThe Description Logic Handbook Theory Implementation and Applications Cam-bridge University Press 2003

[BCM05] P Buitelaar P Cimiano and B Magnini Ontology Learning from Text Methods Eval-

uation and Applications volume 123 of Frontiers in Artificial Intelligence IOS Press2005

[BDdG94] P Benlian F Dairou and JL de Gennes Apports de la geacuteneacutetique moleacuteculaire dans leshypercholesteacuteroleacutemies pures primitives Bulletin de lrsquoAcadeacutemie nationale de meacutedecine178(3) 393ndash404 Mar 1994

[BdLM08] F Badra M drsquoAquin J Lieber and T Meilender EdHibou a customizable interfacefor decision support in a semantic portal In International Semantic Web Conference

poster 2008

[BFG+04] P Buitelaar J Franke M Grobelnik G Paass and V Svatek editors Proceedings of

the Workshop on Knowledge Discovery and Ontologies at ECMLPKDDrsquo04 Pisa ItalySeptember 2004

[BFMD05] J C Barrett B Fry J Maller and M J Daly Haploview analysis and visualization ofLD and haplotype maps Bioinformatics 21(2) 263ndash5 Jan 2005

[BGL08] F Baader S Ghilardi and C Lutz LTL over description logic axioms In Baader et al[BLM08]

[BGSS07] F Baader B Ganter B Sertkaya and U Sattler Completing description logic knowl-edge bases using formal concept analysis In MM Veloso editor IJCAI pages 230ndash2352007

[BGvH+03] P Bouquet F Giunchiglia F van Harmelen L Serafini and H Stuckenschmidt C-owl Contextualizing ontologies In D Fensel KP Sycara and J Mylopoulos editorsInternational Semantic Web Conference volume 2870 of Lecture Notes in Computer

Science pages 164ndash179 Springer 2003

[BHS02] B Berendt A Hotho and G Stumme editors Proceedings of the Workshop on Semantic

Web Mining (SWMrsquo02 at ECMLPKDDrsquo02) Helsinki Finland August 2002

179

[BKvH02] J Broekstra A Kampman and F van Harmelen Sesame A generic architecture forstoring and querying RDF and RDF Schema In I Horrocks and JA Hendler editorsInternational Semantic Web Conference volume 2342 of Lecture Notes in Computer

Science pages 54ndash68 Springer 2002

[BLHL01] T Berners-Lee J Hendler and O Lassila The semantic Web Scientific American284(5) 35ndash43 May 2001

[BLM08] F Baader C Lutz and B Motik editors Proceedings of the 21st International Workshop

on Description Logics (DL2008) Dresden Germany May 13-16 2008 volume 353 ofCEUR Workshop Proceedings CEUR-WSorg 2008

[BPH05] A Bernstein FJ Provost and S Hill Toward intelligent assistance for a data min-ing process An ontology-based approach for cost-sensitive classification IEEE Trans

Knowl Data Eng 17(4) 503ndash518 2005

[Bri06] L Brisson Inteacutegration de connaissances expertes dans un processus de fouille de don-

neacutees pour lrsquoextraction drsquoinformations pertinentes Thegravese en informatique Universiteacute deNice - Sophia Antipolis France Deacutec 2006

[BS85] RJ Brachman and JG Schmolze An overview of the KL-ONE knowledge representa-tion system Cognitive Science 9(2) 171ndash216 1985

[BS04] F Baader and B Sertkaya Applying formal concept analysis to description logics InEklund [Ekl04] pages 261ndash286

[BSc07] B Berendt V Svagravetek and F Zelezny editors Proceedings of the Workshop on Prior

Conceptual Knowledge in Machine Learning and Knowledge Discovery (PriCKLrsquo07) at

ECMLPKDDrsquo07 Warsaw Poland September 2007

[BTN08] R Bendaoud Y Toussaint and A Napoli PACTOLE A methodology and a systemfor semi-automatically enriching an ontology from a collection of texts In PW Eklundand O Haemmerleacute editors ICCS volume 5113 of Lecture Notes in Computer Sciencepages 203ndash216 Springer 2008

[CBBDF07] S Cohen-Boulakia O Biton SB Davidson and C Froidevaux BioGuideSRS query-ing multiple sources with a user-centric perspective Bioinformatics 23(10) 1301ndash13032007

[CCH01] P Clerkin P Cunningham and P Hayes Ontology discovery for the semantic Webusing hierarchical clustering In Bettina Berendt Gerd Stumme Andreas Hotho editorProceedings of the Workshop on Semantic Web Mining (SWMrsquo01 at ECMLPKDDrsquo01)pages 27ndash38 Freiburg Germany September 2001

[CCQF05] J Chabalier C Capponi Y Quentin and G Fichant ISYMOD a knowledge warehousefor the identification assembly and analysis of bacterial integrated systems Bioinformat-

ics 21(7) 1246ndash1256 2005

[CFCH01] WW Chapman M Fizman BE Chapman and PJ Haug A comparison of classifica-tion algorithms to automatically identify chest x-ray reports that support pneumonia J

Biomed Inform 34(1) 4ndash14 2001

[CG05] D Calvanese and G De Giacomo Data integration A logic-based perspective AI

Magazine 26(1) 59ndash70 2005

[CGL+98] D Calvanese G De Giacomo M Lenzerini D Nardi and R Rosati Description logicframework for information integration In KR pages 2ndash13 1998

180 Bibliographie

[CGL+01] D Calvanese G De Giacomo M Lenzerini D Nardi and R Rosati Data integrationin data warehousing Int J Cooperative Inf Syst 10(3) 237ndash271 2001

[CGL+06] D Calvanese G De Giacomo D Lembo M Lenzerini and R Rosati Data complexityof query answering in description logics In P Doherty J Mylopoulos and CA Weltyeditors KR pages 260ndash270 AAAI Press 2006

[CGL+07] D Calvanese G De Giacomo D Lembo M Lenzerini and R Rosati Tractable rea-soning and efficient query answering in description logics The l-lite family J Autom

Reasoning 39(3) 385ndash429 2007

[CGLR04] D Calvanese G De Giacomo M Lenzerini and R Rosati Logical foundations ofpeer-to-peer data integration In A Deutsch editor PODS pages 241ndash251 ACM 2004

[CGLV01] D Calvanese G De Giacomo M Lenzerini and MY Vardi View-based query answer-ing and query containment over semistructured data In G Ghelli and G Grahne editorsDBPL volume 2397 of Lecture Notes in Computer Science pages 40ndash61 Springer 2001

[CHS05] P Cimiano A Hotho and S Staab Learning concept hierarchies from text corporausing formal concept analysis Journal of the Artifical Intelligence Research 24 305ndash339 2005

[CHST04] P Cimiano A Hotho G Stumme and J Tane Conceptual knowledge processing withformal concept analysis and ontologies In Eklund [Ekl04] pages 189ndash207

[CLC+06] TA Clayton JC Lindon O Cloarec H Antti C Charuel G Hanton JP Provost JLLe Net D Baker RJ Walley JR Everett and JK Nicholson Pharmaco-metabonomicphenotyping and personalized drug treatment Nature 440(7087) 1073ndash1077 2006

[CMF+07] G Colombo D Merico G Frisoni M Antoniotti F De Paoli and G Mauri An on-tological modeling approach to neurovascular disease study the NEUROWEB case InProceedings of the International Workshop on Network Tools and Applications in Biol-

ogy (NETTABrsquo07) pages 177ndash186 Pisa Italy 2007

[Con01] The International Human Genome Sequencing Consortium Initial sequencing and anal-ysis of the human genome Nature 409 860ndash921 2001

[Con03] The International HapMap Consortium The International HapMap Project Nature426 789ndash796 2003

[Con05] The International HapMap Consortium A second generation human haplotype map ofover 31 million snps Nature 449(7164) 851ndash861 2005

[CR04] C Carpineto and G Romano Concept Data Analysis Theory and Applications JohnWiley amp Sons Chichester England 2004

[CRS+04] H Cespivova J Rauch V Svatek M Kejkula and M Tomeckova Roles of medical on-tology in association mining CRISP-DM Cycle In P Buitelaar J Franke M GrobelnikG Paass and V Svatek editors Proceedings of the Workshop on Knowledge Discovery

and Ontologies at ECMLPKDDrsquo04 Pisa Italy September 2004

[CSTB+06] A Coulet M Smaiumll-Tabbone P Benlian A Napoli and MD Devignes SNP-Converter An ontology-based solution to reconcile heterogeneous SNP descriptions forpharmacogenomic studies In U Leser F Naumann and BA Eckman editors DILSvolume 4075 of Lecture Notes in Computer Science pages 82ndash93 Springer 2006

[CSTB+08] A Coulet M Smaiumll-Tabbone P Benlian A Napoli and MD Devignes Ontology-guided data preparation for discovering genotype-phenotype relationships BMC Bioin-

formatics 9(Suppl 4) S3 2008

181

[CSTND06] A Coulet M Smaiumll-Tabbone A Napoli and MD Devignes Suggested Ontologyfor Pharmacogenomics (SO-Pharm) Modular construction and preliminary testing InProceedings of the International Workshop on Knowledge Systems in Bioinformatics -

KSinBITrsquo06 volume LNCS 4277 pages 648ndash57 2006

[CSTND08a] A Coulet M Smaiumll-Tabbone A Napoli and MD Devignes Ontology refinementthrough Role Assertion Analysis Example in pharmacogenomics In Baader et al[BLM08]

[CSTND08b] A Coulet M Smaiumll-Tabbone A Napoli and MD Devignes Role Assertion Analysis a proposed method for ontology refinement through assertion learning In Proceedings

of the Fourth Starting AI Researchersrsquo Symposium (STAIRS 2008) pages 47ndash58 IOSPress 2008

[CWT06] TH Cheng CP Wei and VS Tseng Feature selection for medical data mining Com-parisons of expert judgment and automatic approaches In CBMS pages 165ndash170 IEEEComputer Society 2006

[dBL+07] M drsquoAquin F Badra S Lafrogne J Lieber A Napoli and L Szathmary Case basemining for adaptation knowledge acquisition In Proc of the 20th Intl Joint Conf on

Artificial Intelligence (IJCAIrsquo07) pages 750ndash755 Hyderabad India Jan 2007 MorganKaufmann Inc

[DCGR98] R Dieng O Corby A Giboin and M Ribiegravere Methods and tools for corporate knowl-edge management Technical Report RR-3485 INRIA 1998

[dDA00] J den Dunnen and S Antonarakis Mutation nomenclature extensions and suggestions todescribe complex mutations a discussion Hum Mutat 15(1) 7ndash12 2000

[dDP03] J den Dunnen and M Paalman Standardizing mutation nomenclature why bother Hum Mutat 22(3) 181ndash182 2003

[Dev99] KJ Devlin Infosense Turning Information into Knowledge W H Freeman amp CoNew York NY USA 1999

[DGDM91] J Desmeules MP Gascon P Dayer and M Magistris Impact of environmental andgenetic factors on codeine analgesia Eur J Clin Pharmacol 41(1) 23ndash6 1991

[dLN07] M drsquoAquin J Lieber and A Napoli La repreacutesentation de points de vue dans le systegravemedrsquoaide agrave la deacutecision en canceacuterologie KASIMIR In Special issue Vues Points de vue

rocircles et paradigmes proches Du concept agrave son exploitation volume 13 pages 143ndash175Hermes - Lavoisier 2007

[DMS05] F Dau ML Mugnier and G Stumme editors Conceptual Structures Common Se-

mantics for Sharing Knowledge 13th International Conference on Conceptual Struc-

tures ICCS 2005 Kassel Germany July 18-22 2005 Proceedings volume 3596 ofLecture Notes in Computer Science Springer-Verlag Berlin Heidelberg 2005

[DPW08] M Dibernardo R Pottinger and M Wilkinson Semi-automatic Web service compo-sition for the life sciences using the BioMoby semantic Web framework J Biomed

Inform March 2008

[DQ86] R Ducournau and J Quinqueton encore un langage agrave objets agrave base de framesTechnical Report 72 INRIA 1986

[DS08] K Dellschaft and S Staab Strategies for the Evaluation of Ontology Learning IOSPress 2008

182 Bibliographie

[Duc00] R Ducournau Des langages agrave objets aux logiques terminologiques les systegravemes clas-sificatoires In Rapport de Recherche 96ndash030 LIRMM Montpellier 2000

[EA93] T Etzold and P Argos SRS - an indexing and retrieval tool for flat file data librariesComputer Applications in the Biosciences 9(1) 49ndash57 1993

[ea01] J Craig Venter et al The sequence of the human genome Science 291 1304ndash13512001

[Ekl04] PW Eklund editor Concept Lattices Second International Conference on Formal Con-

cept Analysis ICFCA 2004 Sydney Australia February 23-26 2004 Proceedings vol-ume 2961 of Lecture Notes in Computer Science Springer 2004

[ER95] J Euzenat and F Rechenmann SHIRKA 10 ans crsquoest TROPES In A Napoli editorLMO pages 13ndash34 INRIA 1995

[ER99] WE Evans and MV Relling Pharmacogenomics translating functional genomics intorational therapeutics Science 286(5439) 487ndash91 1999

[ER04] WE Evans and MV Relling Moving towards individualized medicine with pharma-cogenomics Nature 429 464ndash468 2004

[ES07] J Euzenat and P Shvaiko Ontology Matching Springer 2007

[FdE08] N Fanizzi C drsquoAmato and F Esposito Conceptual clustering and its application toconcept drift and novelty detection In S Bechhofer M Hauswirth J Hoffmann andM Koubarakis editors ESWC volume 5021 of Lecture Notes in Computer Sciencepages 318ndash332 Springer 2008

[FFR97] A Farquhar R Fikes and J Rice The Ontolingua Server a tool for collaborativeontology construction Int J Hum-Comput Stud 46(6) 707ndash727 1997

[FGPJ97] M Fernandez A Gomez-Perez and N Juristo METHONTOLOGY from ontologicalart towards ontological engineering In Proceedings of the AAAI97 Spring Symposium

Series on Ontological Engineering pages 33ndash40 Stanford USA 1997

[Fis87] DH Fisher Knowledge acquisition via incremental conceptual clustering Machine

Learning 2(2) 139ndash172 1987

[Flo05] CS Flordellis The emergence of a new paradigm of pharmacogenomics Pharmacoge-

nomics 6(5) 515ndash526 2005

[Fou08] The OBO Foundry OBO Foundry policy document Technical report 2008

[FPSM91] WJ Frawley G Piatetsky-Shapiro and CJ Matheus Knowledge discovery indatabases An overview In Knowledge Discovery in Databases pages 1ndash30 AAAIMITPress 1991

[FPSS96] UM Fayyad G Piatetsky-Shapiro and P Smyth From data mining to knowledgediscovery An overview In Fayyad et al [FPSSU96] pages 1ndash34

[FPSSU96] UM Fayyad G Piatetsky-Shapiro P Smyth and R Uthurusamy editors Advances in

Knowledge Discovery and Data Mining AAAIMIT Press 1996

[Fre98] AA Freitas On objective measures of rule surprisingness In Zytkow and Quafafou[ZQ98] pages 1ndash9

[FRS05] S Ferreacute O Ridoux and B Sigonneau Arbitrary relations in formal concept analysisand logical information systems In Dau et al [DMS05] pages 166ndash180

183

[Gai89] BR Gaines An ounce of knowledge is worth a ton of data quantitative studies ofthe trade-off between expertise and data based on statistically well-founded empiricalinduction In Proceedings of the sixth international workshop on Machine learningpages 156ndash159 San Francisco CA USA 1989 Morgan Kaufmann Publishers Inc

[Gan84] B Ganter Two basic algorithms in concept analysis Technical report TechnischeHochschule Darmstadt 1984

[Gan05] A Gangemi Ontology design patterns for semantic Web content In Y Gil E MottaV Richard Benjamins and MA Musen editors International Semantic Web Confer-

ence volume 3729 of Lecture Notes in Computer Science pages 262ndash276 Springer2005

[GBe07] KM Giacomini CM Brett and RB Altman et al The pharmacogenetics researchnetwork from SNP discovery to clinical drug response Clinical pharmacology and ther-

apeutics 81(3) 328ndash45 2007

[GCCL06] A Gangemi C Catenacci M Ciaramita and J Lehmann Modelling ontology evalua-tion and validation In Y Sure and J Domingue editors ESWC volume 4011 of Lecture

Notes in Computer Science pages 140ndash154 Springer 2006

[GDF+04] Y Gasche Y Daali M Fathi A Chiappe S Cottini P Dayer and J DesmeulesCodeine intoxication associated with ultrarapid cyp2d6 metabolism N Engl J Med351(27) 2827ndash31 2004

[GE03] I Guyon and A Elisseeff An introduction to variable and feature selection Journal of

Machine Learning Research 3 1157ndash1182 2003

[GKM04] P Gottgtroy N Kasabov and S MacDonell An ontology driven approach for knowl-edge discovery in biomedicine In Proceedings of the 8th Pacific Rim International Con-

ference on Artificial Intelligence volume LNAI 3157 pages 53ndash67 Berlin Germany2004 Springer

[GMB+05] E Gueacuterin G Marquet A Burgun O Loreacuteal L Berti-Equille U Leser and F Mous-souni Integrating and warehousing liver gene expression data and related biomedicalresources in gedaw In B Ludaumlscher and L Raschid editors DILS volume 3615 ofLecture Notes in Computer Science pages 158ndash174 Springer 2005

[GPCGFL03] A Gomez-Perez O Corcho-Garcia and M Fernandez-Lopez Ontological Engineer-

ing Springer-Verlag New York Inc Secaucus NJ USA 2003

[Gru93] TR Gruber A translation approach to portable ontology specifications Knowledge

Acquisition 5(2) 199ndash220 1993

[GS08] C Goble and R Stevens State of the nation in data integration for bioinformatics J

Biomed Inform February 2008

[GSC+08] RA George TD Smith S Callaghan L Hardman C Pierides O Horaitis MAWouters and Cotton RG General mutation databases analysis and review Journal

of Medical Genetics 45(2) 65ndash70 2008

[GSK+88] FJ Gonzalez RC Skoda S Kimura M Umeno UM Zanger DW Nebert HVGelboin JP Hardwick and UA Meyer Characterization of the common genetic defectin humans deficient in debrisoquine metabolism Nature 331(6155) 442ndash446 1988

[GVM93] A Gueacutenoche and I Van Mechelen Galois approach to the induction of concepts InCategories and concepts Theorical views and inductive data analysis pages 287ndash308Academic Press 1993

184 Bibliographie

[GW99] B Ganter and R Wille Formal Concept Analysis Mathematical Foundations Springer1999

[GW04] C Goble and C Wroe The Montagues and the Capulets Conference papers Comp

Funct Genomics 5(8) 623ndash632 2004

[Hac04] MS Hacid Special issue on Web data integration Introduction Information Systems29(1) 1ndash2 2004

[Hal01] AY Halevy Answering queries using views A survey VLDB J 10(4) 270ndash294 2001

[Hal05] AY Halevy Why your data wonrsquot mix ACM Queue 3(8) 50ndash58 2005

[HBWCH+08] T Hernandez-Boussard M Whirl-Carrillo JM Hebert L Gong R Owen M GongW Gor F Liu C Truong R Whaley M Woon T Zhou RB Altman and TEKlein The pharmacogenetics and pharmacogenomics knowledge base accentuatingthe knowledge Nucleic Acids Res 36(Database issue) D913ndashD918 2008

[HF94] J Han and Y Fu Dynamic generation and refinement of concept hierarchies for knowl-edge discovery in databases In Proceedings of AAAIrsquo94 Workshop on Knowledge Dis-

covery in Databases (KDDrsquo94) pages 157ndash168 1994

[HHNV07] M Rouane Hacene M Huchard A Napoli and P Valtchev A proposal for combin-ing formal concept analysis and description logics for mining relational data In SOKuznetsov and S Schmidt editors ICFCA volume 4390 of Lecture Notes in Computer

Science pages 51ndash65 Springer 2007

[HJ02] HJMotulsky Biostatistique une approche intuitive De Boeck Universiteacute 2002

[HK01] J Han and M Kamber Data Mining Concepts and Techniques Morgan Kaufmann2001

[HLTB04] I Horrocks L Li D Turi and S Bechhofer The Instance Store DL reasoning withlarge numbers of individuals In V Haarslev and R Moumlller editors Description Logicsvolume 104 of CEUR Workshop Proceedings CEUR-WSorg 2004

[HM03] V Haarslev and R Moumlller Racer A core inference engine for the semantic WebIn Y Sure and O Corcho editors EON volume 87 of CEUR Workshop ProceedingsCEUR-WSorg 2003

[HMS05] U Hustadt B Motik and U Sattler Data complexity of reasoning in very expressivedescription logics In Kaelbling and Saffiotti [KS05] pages 466ndash471

[Hor07] I Horrocks OBO flat file format syntax and semantics and mapping to OWL Webontology language Technical report University of Manchester 2007

[HPSvH03] I Horrocks P F Patel-Schneider and F van Harmelen FromSHIQ and RDF to OWL the making of a web ontology language J Web Sem 1(1) 7ndash26 2003

[HRT+05] ML Hastings N Rest D Traum A Stella G Guanti and AR Krainer An LKBI AT-AC intron mutation causes Peutz-Jeghers syndrome via splicing at noncanonical crypticsplice site Struct Mol Biol 12(1) 54ndash59 2005

[HSS06] BM Hemminger B Saelim and PF Sullivan TAMAL an integrated approach tochoosing SNPs for genetic studies of human complex traits Bioinformatics 22(5) 626ndash627 2006

[HVK+02] MK Higashi DL Veenstra LM Kondo AK Wittkowsky SL SrinouanprachanhFM Farin and AE Rettie Association between CYP2C9 genetic variants andanticoagulation-related outcomes during warfarin therapy JAMA 287(13) 1690ndash16982002

185

[HY90] R Hull and M Yoshikawa Ilog Declarative creation and manipulation of object iden-tifiers In D McLeod R Sacks-Davis and HJ Schek editors VLDB pages 455ndash468Morgan Kaufmann 1990

[JKN08] N Jay F Kohler and A Napoli Analysis of social communities with iceberg andstability-based concept lattices In Medina and Obiedkov [MO08] pages 258ndash272

[KAB06] L Karoui MA Aufaure and N Bennacer Context-based hierarchical clustering for theontology learning In Web Intelligence pages 420ndash427 IEEE Computer Society 2006

[KACV+04] PD Karp M Arnaud J Collado-Vides J Ingraham IT Paulsen and MH Jr SaierThe E coli EcoCyc database No longer just a metabolic pathway database ASM News70(1) 25ndash30 2004

[Kay97] D Kayser La repreacutesentation des connaissances collection informatique hermegraves edi-tion 1997

[KCH+02] P Kogut S Cranefield L Hart M Dutra K Baclawski M Kokar and J Smith UMLfor ontology development Knowl Eng Rev 17(1) 61ndash64 2002

[KDK+05] R Karchin M Diekhans L Kelly DJ Thomas U Pieper N Eswar D Haussler andA Sali LS-SNP large-scale annotation of coding non-synonymous SNPs based onmultiple information sources Bioinformatics 21(12) 2814ndash2820 2005

[KFNM04] H Knublauch RW Fergerson N Fridman Noy and MA Musen The Proteacutegeacute OWLplugin An open development environment for semantic Web applications In SA McIl-raith D Plexousakis and F van Harmelen editors International Semantic Web Confer-

ence volume 3298 of Lecture Notes in Computer Science pages 229ndash243 Springer2004

[KJ97] R Kohavi and GH John Wrappers for feature subset selection Artif Intell 97(1ndash2) 273ndash324 1997

[KK07] F Karel and J Klema Quantitative association rule mining in genomics using apri-ori knowledge In Workshop on Prior Conceptual Knowledge in Machine Learning

and Knowledge Discovery (PriCKLrsquo07) at ECMLPKDD 2007 pages 53ndash64 WarsawPoland September 2007

[KKS+04] A Kasprzyk D Keefe D Smedley D London W Spooner C Melsopp M HammondP Rocca-Serra T Cox and E Birney Ensmart A generic system for fast and flexibleaccess to biological data Genome Res 14(1) 160ndash169 2004

[KLW08] PD Karp TJ Lee and V Wagner BioWarehouse Relational integration of elevenbioinformatics databases and formats In Bairoch et al [BCBF08] pages 5ndash7

[KLWW08] B Konev C Lutz D Walther and F Wolter Semantic modularity and module extractionin description logics In ECAI 2008 18th European Conference on Artificial Intelligence

Patras Greece Proceedings pages 55ndash59 2008

[KN01] L Kruglyak and DA Nickerson Variation is the spice of life Nature Genetics 27 234ndash236 2001

[KO02] SO Kuznetsov and SA Obiedkov Comparing performance of algorithms for generat-ing concept lattices J Exp Theor Artif Intell 14(2ndash3) 189ndash216 2002

[KPL03] J Koumlhler S Philippi and M Lange SEMEDA ontology based semantic integration ofbiological databases Bioinformatics 19(18) 2420ndash2427 2003

[KPS+06] A Kalyanpur B Parsia E Sirin B Cuenca Grau and JA Hendler Swoop A Webontology editing browser J Web Sem 4(2) 144ndash153 2006

186 Bibliographie

[Kry02] M Kryszkiewicz Concise representations of association rules In Proceedings of the

ESF Exploratory Workshop on Pattern Detection and Discovery pages 92ndash109 LondonUK 2002 Springer-Verlag

[KS05] L Pack Kaelbling and A Saffiotti editors IJCAI-05 Proceedings of the Nineteenth

International Joint Conference on Artificial Intelligence Edinburgh Scotland UK July

30-August 5 2005 Professional Book Center 2005

[Kuz07] SO Kuznetsov On stability of a formal concept Ann Math Artif Intell 49(1ndash4) 101ndash115 2007

[Len02] M Lenzerini Data integration A theoretical perspective In L Popa editor PODSpages 233ndash246 ACM 2002

[LFZ99] N Lavrac PA Flach and B Zupan Rule evaluation measures A unifying view InS Dzeroski and PA Flach editors ILP volume 1634 of Lecture Notes in Computer

Science pages 174ndash185 Springer 1999

[LHCM00] B Liu W Hsu S Chen and Y Ma Analyzing the subjective interestingness of associ-ation rules IEEE Intelligent Systems 15(5) 47ndash55 2000

[LN05] U Leser and F Naumann (almost) hands-off information integration for the life sci-ences In CIDR pages 131ndash143 2005

[LNST08] J Lieber A Napoli L Szathmary and Y Toussaint First elements on KnowledgeDiscovery guided by Domain Knowledge (kddk) In S B Yahia E M Nguifo andR Belohlavek editors Concept Lattices and Their Applications (CLA 06) Lecture Notesin Artificial Intelligence 4923 pages 22ndash41 Springer Berlin 2008

[LWZ08] C Lutz F Wolter and M Zakharyaschev Temporal description logics A survey InProceedings of the 15th International Symposium on Temporal Representation and Rea-

soning time pages 3ndash14 2008

[LY05] H Liu and L Yu Toward integrating feature selection algorithms for classification andclustering IEEE Trans Knowl Data Eng 17(4) 491ndash502 2005

[LZG+06] JJ Lima S Zhang A Grant L Shao KG Tantisira H Allayee J Wang J SylvesterJ Holbrook R Wise ST Weiss and K Barnes Influence of leukotriene pathwaypolymorphisms on response to montelukast in asthma Am J Respir Crit Care Med173(4) 379ndash85 2006

[Mar03] FM Marincola Translational medicine A two-way road Journal of Translational

Medicine 1(1) 1 2003

[Mau06] S Maumus Approche de la complexiteacute du syndrome meacutetabolique et de ses indicateurs

de risque par la mise en oeuvre de meacutethodes numeacuteriques et symboliques de fouille de

donneacutees Thegravese en eacutepideacutemiologie et santeacute publique Universiteacute Henri Poincareacute ndash Nancy1 France Nov 2006

[MBB+08] F Mougin A Burgun O Bodenreider J Chabalier O Loreacuteal and P Le Beux Auto-matic methods for integrating biomedical data sources in a mediator-based system InBairoch et al [BCBF08] pages 61ndash76

[McG05] Ken McGarry A survey of interestingness measures for knowledge discovery The

Knowledge Engineering Review 20(1) 39ndash61 2005

[McK98] VA McKusick Mendelian inheritance in man a catalog of human genes and geneticdisorders 1998

187

[MD07a] D Martin and J Domingue Semantic Web services Part 1 IEEE Intelligent Systems22(5) 12ndash17 2007

[MD07b] D Martin and J Domingue Semantic Web services Part 2 IEEE Intelligent Systems22(6) 8ndash15 2007

[MDNST05] N Messai MD Devignes A Napoli and M Smaiumll-Tabbone Querying a bioinformaticdata sources registry with concept lattices In Dau et al [DMS05] pages 323ndash336

[MFJ+07] MD Mailman M Feolo Y Jin M Kimura K Tryka R Bagoutdinov L HaoA Kiang J Paschall L Phan N Popova S Pretel L Ziyabari M Lee Y Shao ZYWang K Sirotkin M Ward M Kholodov K Zbicz J Beck M Kimelman S ShevelevD Preuss E Yaschenko A Graeff J Ostell and ST Sherry The NCBI dbGaP databaseof genotypes and phenotypes Nat Genet 39(10) 1181ndash1186 2007

[MK08] P Hitzler M Kroumltzsch S Rudolph Description logic rules In ECAI 2008 18th Eu-

ropean Conference on Artificial Intelligence 2008 Patras Greece Proceedings pages80ndash84 2008

[MKS04] HM Muumlller EE Kenny and PW Sternberg Textpresso an ontology-based infor-mation retrieval and extraction system for biological literature PLoS Biol 2(11) e3092004

[MMK+03] RH Mathijssen S Marsh MO Karlsson R Xie SD Baker J Verweij A Spar-reboom and HL McLeod Irinotecan pathway genotype analysis to predict pharma-cokinetics Clin Cancer Res 9(9) 3246ndash3253 2003

[MO08] R Medina and SA Obiedkov editors Formal Concept Analysis 6th International Con-

ference ICFCA 2008 Montreal Canada February 25-28 2008 Proceedings volume4933 of Lecture Notes in Computer Science Springer 2008

[MTB+99] I Martinelli E Taioli P Bucciarelli S Akhavan and PM Mannucci Interaction be-tween the G20210A mutation of the prothrombin gene and oral contraceptive use in deepvein thrombosis Arterioscler Thromb Vasc Biol 19(3) 700ndash703 1999

[Mug91] Stephen Muggleton Inductive Logic Programming New Generation Comput 8(4) 2951991

[MVB+95] C Meacutedigue T Vermat G Bisson A Viari and A Danchin Cooperative computersystem for genome sequence analysis In CJ Rawlings DA Clark RB AltmanL Hunter T Lengauer and SJ Wodak editors ISMB pages 249ndash258 AAAI 1995

[MZCC04] AA Mitchell ME Zwick A Chakravarti and DJ Cutler Discrepancies in dbSNPconfirmation rates and allele frequency distributions from varying genotyping error ratesand patterns Bioinformatics 20(7) 1022ndash1032 2004

[Nap92] A Napoli Repreacutesentations agrave objets et raisonnement par classification en intelligence ar-

tificielle Doctorat drsquoeacutetat egraves sciences matheacutematiques Universiteacute Henri Poincareacute ndash Nancy1 France Jan 1992

[NB04] Z Nazeri and E Bloedorn Exploiting available domain knowledge to improve min-ing aviation safety and network security data In P Buitelaar J Franke M GrobelnikG Paass and V Svatek editors Proceedings of the Workshop on Knowledge Discovery

and Ontologies at ECMLPKDDrsquo04 Pisa Italy September 2004

[NBS+06] MCY Ng L Baum WY So VKL Lam Y Wang E Poon B Tomlinson S ChengK Lindpaintner and JCN Chan Association of lipoprotein lipase S447X apolipopro-tein E exon 4 and apoC3 -455T-C polymorphisms on the susceptibility to diabeticnephropathy Clin Genet 70 20ndash28 2006

188 Bibliographie

[NED00] A Napoli J Euzenat and R Ducournau Les repreacutesentations des connaissances parobjets Technique et Science Informatiques 19(1ndash3) 387ndash394 2000

[NM01] N F Noy and D McGuinness Ontology development 101 A guide to creating yourfirst ontology Technical report 2001

[NMG05] AC Need AG Motulsky and DB Goldstein Priorities and standards in pharmacoge-netic research Nat Genet 37(7) 671ndash81 2005

[NR06] N F Noy and A Rector Defining n-ary relations on the semantic Web Technical reportW3C 2006

[Ome01] B Omelayenko Learning of ontologies for the Web the analysis of existent approaches2001

[ORS+02] DE Oliver DL Rubin JM Stuart M Hewett TE Klein and RB Altman On-tology development for a pharmacogenetics knowledge base In Pacific Symposium on

Biocomputing pages 65ndash76 2002

[ORT08] RP Owen Altman RB and Klein TE PharmGKB and the international warfarinpharmacogenetics consortium the changing role for pharmacogenomic databases andsingle-drug pharmacogenetics Hum Mutat 29(4) 456ndash460 2008

[PB01] J Phillips and BG Buchanan Ontology-guided knowledge discovery in databasesIn K-CAPrsquo01 Proceedings of the 1st international conference on Knowledge capturepages 123ndash130 New York NY USA 2001 ACM

[PGC+01] M Page J Gensel C Capponi C Bruley P Genoud D Zieacutebelin D Bardou andV Dupierris A new approach in object-based knowledge representation The AROMsystem In L Monostori J Vaacutencza and M Ali editors IEAAIE volume 2070 of Lec-

ture Notes in Computer Science pages 113ndash118 Springer 2001

[PLC+08] A Poggi D Lembo D Calvanese G De Giacomo M Lenzerini and R Rosati Link-ing data to ontologies J Data Semantics 10 133ndash173 2008

[PRAC06] D Peacuterez-Rey A Anguita and J Crespo Ontodataclean Ontology-based integrationand preprocessing of distributed data In N Maglaveras I Chouvarda V Koutkias andRW Brause editors ISBMDA volume 4345 of Lecture Notes in Computer Sciencepages 262ndash272 Springer 2006

[RAC+06] MC Rousset P Adjiman P Chatalic F Goasdoueacute and L Simon Somewhere in thesemantic Web In J Wiedermann G Tel J Pokornyacute M Bielikovaacute and J Stuller editorsSOFSEM volume 3831 of Lecture Notes in Computer Science pages 84ndash99 Springer2006

[RBJ00] J Rumbaugh G Booch and I Jacobson Le guide de lrsquoutilisateur UML Eyrolles 2000

[RDM05] DL Rubin O Dameron and MA Musen Use of description logic classification toreason about consequences of penetrating injuries In Proceedings of the AMIA Annu

Symp pages 649ndash653 2005

[Rec00] F Rechenmann From data to knowledge Bioinformatics 16(5) 411 2000

[RFG+02] MC Rousset C Froidevaux H Gagliardi F Goasdoueacute C Reynaud and B Sa-far Construction de meacutediateurs pour inteacutegrer des sources drsquoinformation multiples etheacuteteacuterogegravenes le projet PICSEL Revue I3 2(1) 2002

[RIF+06] R Redon S Ishikawa KR Fitch L Feuk GH Perry and et al Global variation incopy number in the human genome Nature 444 444ndash454 2006

189

[RKC06] HZ Ring PY Kwok and RG Cotton Human variome project an international col-laboration to catalogue human genetic variation Pharmacogenomics 7(7) 969ndash9722006

[RKK+00] A Rzhetsky T Koike S Kalachikov SM Gomez M Krauthammer SH KaplanP Kra JJ Russo and C Friedman A knowledge model for analysis and simulation ofregulatory networks Bioinformatics 16(11) 1120ndash1128 2000

[RKM+05] C Rosse A Kumar JL Mejino DL Cook LT Detwiler and B Smith A strategyfor improving and integrating biomedical ontologies In Proceedings of the AMIA Annu

Symp pages 639ndash643 2005

[RLSN08] MJ Rieder RJ Livingston IB Stanaway and DA Nickerson The environmentalgenome project reference polymorphisms for drug metabolism genes and genome-wideassociation studies Drug Metabolism Review 40(2) 241ndash261 2008

[RMKM08] DL Rubin DA Moreira PP Kanjamala and Musen MA BioPortal A Web portalto biomedical ontologies 2008 AAAI Spring Symposium Series Symbiotic Relationships

between Semantic Web and Knowledge Engineering 2008

[RMM+98] C Rosse JL Mejino BR Modayur R Jakobovits KP Hinshaw and JF BrinkleyMotivation and organizational principles for anatomical knowledge representation thedigital anatomist symbolic knowledge base J Am Med Informx Assoc 5(1) 1998

[RN03] S Russell and P Norvig Artificial Intelligence - A modern approch Englewood CliffsNJ Prentice-Hall (2d Edition) 2003

[RSN07] DL Rubin NH Shah and NF Noy Biomedical ontologies a functional perspectiveBriefings in Bioinformatics 9(1) 75ndash90 2007

[Rud06] S Rudolph Relational Exploration Combining Description Logics and Formal Con-

cept Analysis for Knowledge Specification Thegravese en informatique Technischen Univer-sitaumlt ndash Dresden Germany Dec 2006

[SA95] R Srikant and R Agrawal Mining generalized association rules In U Dayal PMDGray and S Nishio editors VLDB pages 407ndash419 Morgan Kaufmann 1995

[SAA+99] G Schreiber H Akkermans A Anjewierden R Dehoog N Shadbolt W Vande-velde and B Wielinga Knowledge Engineering and Management The CommonKADS

Methodology The MIT Press December 1999

[Sah02] S Sahar Exploring interestingness through clustering A framework In ICDM pages677ndash680 IEEE Computer Society 2002

[SAR+07] B Smith M Ashburner C Rosse J Bard W Bug W Ceusters LJ Goldberg K Eil-beck A Ireland CJ Mungall The OBI Consortium N Leontis P Rocca-Serra A Rut-tenberg SA Sansone RH Scheuermann N Shah PL Whetzel and S Lewis TheOBO Foundry coordinated evolution of ontologies to support biomedical data integra-tion Nature Biotechnology 25(11) 1251ndash1255 2007

[Saiuml07] F Saiumls Inteacutegration seacutemantique de donneacutees guideacutee par une ontologie Thegravese en informa-tique Universiteacute Paris-Sud France Deacutec 2007

[SBB+00] R Stevens PG Baker S Bechhofer G Ng A Jacoby NW Paton CA Goble andA Brass Tambis Transparent access to multiple bioinformatics information sourcesBioinformatics 16(2) 184ndash186 2000

[Ser07] B Sertkaya Formal Concept Analysis Methods for Description Logics Thegravese en infor-matique Technischen Universitaumlt ndash Dresden Germany Nov 2007

190 Bibliographie

[SHB01] G Stumme A Hotho and B Berendt editors Proceedings of the Workshop on Semantic

Web Mining (SWMrsquo01 at ECMLPKDDrsquo01) Freiburg Germany September 2001

[SHSD08] B Seacuteguin B Hardy PA Singer and AS Daar Bidil recontextualizing the race debateThe Pharmacogenomics Journal 8 169ndash173 2008

[SIL05] Y Saeys I Inza and P Larrantildeaga A review of feature selection techniques in bioinfor-matics Bioinformatics 23(19) 2507ndash2517 2005

[SNK07] L Szathmary A Napoli and S O Kuznetsov ZART A Multifunctional Itemset MiningAlgorithm In Proc of the 5th Intl Conf on Concept Lattices and Their Applications

(CLArsquo07) pages 26ndash37 Montpellier France Oct 2007

[SNV07] L Szathmary A Napoli and P Valtchev Towards Rare Itemset Mining In Proc of the

19th IEEE Intl Conf on Tools with Artificial Intelligence (ICTAIrsquo07) volume 1 pages305ndash312 Patras Greece Oct 2007

[SP04] E Sirin and B Parsia Pellet An OWL DL reasoner In Proceedings of the International

Workshop on Description Logics (DL2004) 2004

[Spe08] G Spencer International consortium announces the 1000 genomes project EMBAR-

GOED 2008

[SRR05] V Svaacutetek J Rauch and M Ralbovskyacute Ontology-enhanced association mining InAckermann et al [ABG+06] pages 163ndash179

[Ste08] LD Stein Towards a cyberinfrastructure for the biological sciences progress visionsand challenges Nature Genetics 9(9) 678ndash688 2008

[SWK+01] ST Sherry MH Ward M Kholodov J Baker L Phan EM Smigielski andK Sirotkin dbSNP the NCBI database of genetic variation Nucleic Acids Res29(1) 308ndash311 2001

[SWW98] G Stumme R Wille and U Wille Conceptual knowledge discovery in databases usingformal concept analysis methods In Zytkow and Quafafou [ZQ98] pages 450ndash458

[Sza06] L Szathmary Symbolic Data Mining Methods with the Coron Platform Thegravese eninformatique Universiteacute Henri Poincareacute ndash Nancy 1 France Nov 2006

[TH06] D Tsarkov and I Horrocks FaCT++ description logic reasoner System descrip-tion In Proceedings of the International Joint Conference on Automated Reasoning

(IJCAR 2006) volume 4130 of Lecture Notes in Artificial Intelligence pages 292ndash297Springer 2006

[TKS02] PN Tan V Kumar and J Srivastava Selecting the right interestingness measure forassociation patterns In KDDrsquo02 Proceedings of the eighth ACM SIGKDD international

conference on Knowledge discovery and data mining pages 32ndash41 New York NY USA2002 ACM

[TZY+04] AL Taylor S Ziesche C Yancy P Carson R Jr DrsquoAgostino K Ferdinand M TaylorK Adams M Sabolinski M Worcel JN Cohn and African-American Heart Fail-ure Trial Investigators Combination of isosorbide dinitrate and hydralazine in blackswith heart failure N Engl J Med 351(20) 2049ndash57 2004

[UK95] M Uschold and M King Towards a methodology for building ontologies In Proceed-

ings of the IJCAI Workshop on Basic Ontological Issues in Knowledge Sharing 1995

[VB05] M Vanzin and K Becker Ontology-based rummaging mechanisms for the interpretationof Web usage patterns In Ackermann et al [ABG+06] pages 180ndash195

191

[vHY04] V van Heyningen and PL Yeyati Mechanisms of non-mendelian inheritance in geneticdisease Human Molecular Genetics 13(RI2) R225ndashR233 2004

[VMG04] P Valtchev R Missaoui and R Godin Formal concept analysis for knowledge discov-ery and data mining The new challenges In Eklund [Ekl04] pages 352ndash371

[VR08] J Voumllker and S Rudolph Lexico-logical acquisition of OWL DL axioms [MO08]pages 62ndash77

[Web97] WW Weber Pharmacogenetics Oxford University Press New York NY 1997

[WH03] AB Wilcox and G Hripcsak The role of domain knowledge in automating medical textreport classification J Am Med Inform Assoc 10(4) 330ndash338 2003

[Wil02] R Wille Why can concept lattices support knowledge discovery in databases J Exp

Theor Artif Intell 14(2ndash3) 81ndash92 2002

[WLT+06] K Wolstencroft P Lord L Tabernero A Brass and R Stevens Protein classificationusing ontology classification Bioinformatics 22(14) e530ndashe538 2006

[WMF+08] ST Weiss HL McLeod DA Flockhart ME Dolan NL Benowitz JA JohnsonMJ Ratain and KM Giacomini Creating and evaluating genetic tests predictive ofdrug response Nat Rev Drug Discov 7(7) 568ndash74 2008

[WMS+05] K Wolstencroft R McEntire R Stevens L Tabernero and A Brass Constructingontology-driven protein family databases Bioinformatics 21(8) 1685ndash1692 2005

[WSGA03] C Wroe R Stevens CA Goble and M Ashburner A methodology to migrate the geneontology to a description logic environment using daml+oil In Pacific Symposium on

Biocomputing pages 624ndash635 2003

[WZTS05] JTL Wang MJ Zaki HTT Toivonen and DE (Eds) Shasha Data Mining in Bioin-

formatics Springer 2005

[YHTL08] HH Yang N Hu PR Taylor and MP Lee Whole genome-wide association studyusing affymetrix SNP chip a two-stage sequential selection method to identify genesthat increase the risk of developing complex diseases Methods Mol Med 141 23ndash352008

[YL04] L Yu and H Liu Efficient feature selection via analysis of relevance and redundancyJournal of Machine Learning Research 5 1205ndash1224 2004

[YSS07] T Yu SJ Simoff and D Stokes Incorporating prior domain knowledge into a kernelbased feature selection algorithm In ZH Zhou H Li and Q Yang editors PAKDDvolume 4426 of Lecture Notes in Computer Science pages 1064ndash1071 Springer 2007

[ZQ98] JM Zytkow and M Quafafou editors Principles of Data Mining and Knowledge Dis-

covery Second European Symposium PKDD rsquo98 Nantes France September 23-26

1998 Proceedings volume 1510 of Lecture Notes in Computer Science Springer 1998

192 Bibliographie

Reacutesumeacute

Cette thegravese porte sur lrsquoutilisation drsquoontologies et de bases de connaissances pour guider diffeacuterenteseacutetapes du processus drsquoextraction de connaissances agrave partir de bases de donneacutees (ECBD) et une applica-tion dans le domaine de la pharmacogeacutenomique Les donneacutees relatives agrave ce domaine sont heacuteteacuterogegravenescomplexes et distribueacutees dans diverses bases de donneacutees ce qui rend cruciale lrsquoeacutetape preacuteliminaire depreacuteparation et drsquointeacutegration des donneacutees agrave fouiller Je propose pour guider cette eacutetape une approche orig-inale drsquointeacutegration de donneacutees qui srsquoappuie sur une repreacutesentation des connaissances du domaine sousforme de deux ontologies en logiques de description SNP-Ontology et SO-Pharm Cette approche a eacuteteacuteimpleacutementeacutee gracircce aux technologies du Web seacutemantique et conduit au peuplement drsquoune base de con-naissances pharmacogeacutenomique Le fait que les donneacutees agrave fouiller soient alors disponibles dans une basede connaissances entraicircne de nouvelles potentialiteacutes pour le processus drsquoextraction de connaissances Jeme suis drsquoabord inteacuteresseacute au problegraveme de la seacutelection des donneacutees les plus pertinentes agrave fouiller en mon-trant comment la base de connaissances peut ecirctre exploiteacutee dans ce but Ensuite jrsquoai deacutecrit et appliqueacuteagrave la pharmacogeacutenomique une meacutethode qui permet lrsquoextraction de connaissances directement agrave partir

drsquoune base de connaissances Cette meacutethode appeleacutee Analyse des Assertions de Rocircles (ou AAR) permetdrsquoutiliser des algorithmes de fouille de donneacutees sur un ensemble drsquoassertions de la base de connaissancespharmacogeacutenomique et drsquoexpliciter des connaissances nouvelles et pertinentes qui y eacutetaient enfouies

Mots-cleacutes extraction de connaissances agrave partir de bases de donneacutees inteacutegration de donneacutees seacutelectionde donneacutees repreacutesentation des connaissances ontologie base de connaissances logiques de descriptionSNP pharmacogeacutenomique

Abstract

This thesis studies the use of ontology and knowledge base for guiding various steps of the Knowl-edge Discovery in Databases (KDD) process in the domain of pharmacogenomics Data related to thisdomain are heterogeneous complex and disseminated through several data sources Consequently thepreliminary step that consists in the preparation and the integration of data is crucial For guiding thisstep an original approach is proposed based on a knowledge representation of the domain within twoontologies in description logics SNP-Ontology and SO-Pharm This approach has been implementedusing semantic Web technologies and leads finally to populating a pharmacogenomic knowledge baseAs a result data to analyze are represented in the knowledge base which is a benefit for guiding fol-lowing steps of the knowledge discovery process Firstly I study this benefit for feature selection byillustrating how the knowledge base can be used for this purpose Secondly I describe and apply topharmacogenomics a new method named Role Assertion Analysis (or RAA) that enables knowledgediscovery directly from knowledge bases This method uses data mining algorithms over assertions ofour pharmacogenomic knowledge base and results in the discovery of new and relevant knowledge

Keywords knowledge discovery in databases data integration feature selection knowledge represen-tation ontology knowledge base description logics SNP pharmacogenomics

Page 4: Construction et utilisation d’une base de connaissances

i

Remerciements

Je remercie M Nacer Boudjlida drsquoavoir accepteacute de preacutesider le jury de cette thegravese M Mohand-SaiumldHacid et M Alain Viari pour lrsquoattention et la curiositeacute manifestes avec lesquelles ils ont jugeacute ce manuscrit

Je remercie Mme Chantal Reynaud qui a accepteacute drsquoexaminer mon travailJe remercie le Dr Pascale Benlian drsquoavoir bien voulu participer au jury de cette thegravese drsquoavoir toujours

fait preuve drsquoenthousiasme vis agrave vis de mon travail et de mrsquoavoir fait partager sa passion contagieuse pourson domaine de recherche

Je tiens agrave remercier vivement M Amedeo Napoli de mrsquoavoir accueilli au sein de son eacutequipe drsquoOr-pailleurs drsquoavoir souvent trouveacute les mots justes aux moments ougrave il me fallait les entendre

Bien eacutevidement je remercie Mme Marie-Dominique Devignes et Mme Malika Smaiumll-Tabbone pourleur accompagnement leurs conseils et leurs nombreux enseignements tant scientifiques qursquohumains Jeles emporte et les garderai avec moi

Je remercie lrsquoANRT Oseacuteo les socieacuteteacutes KIKA Medical et Phenosystems drsquoavoir financeacute et participeacuteau projet GenNet agrave lrsquooriginie de cette thegravese

Je remercie M Alexandre Durand-Salmon de mrsquoavoir fait confiance au deacutebut de ce projet M RomainDumoustier de mrsquoavoir laisser le temps de le convaincre de lrsquointeacuterecirct des ontologies Merci agrave M NicolasDubost M Benoicirct Lopez et Mlle Adeline Maguiegravere de KIKA Medical pour lrsquointeacuterecirct dont ils mrsquoont faitpart jusqursquoau dernier jour du projet

Je remercie M David Atlan pour les discussions stimulantes que nous avons pu partagerJe tiens agrave ne pas oublier tous ceux qui mrsquoont transmis volontairement ou involontairement le virus de

la bioinformatique parmi eux merci notamment agrave Benjamin Leblanc Jean-Paul Leonetti Erwan ReguerFranccedilois Rechenmann Michel Seve

Partager le quotidien des Orpailleurs me fut aussi agreacuteable qursquoenrichissant merci agrave eux et notammentagrave Nizar Salhia Zaiumlnab Nada Laszlo Sandy Rokia

Merci agrave tous ceux qui mrsquoont manifesteacute leur amitieacute pendant la thegravese Je pense en particulier agrave SebManue Audrey Greacutegoire Michaeumll Claire Momo Fred Lynda Solegravene Feacute Yann Walid Nico P NicoN Erwan Gilles Merci aux ouvriers du TGV Est et agrave Philippe Katrine

Je remercie la famille Martin pour ses encouragements Je remercie ma famille petits et grands pourmrsquoavoir construit et me consolider

Merci agrave toi lecteur qui aura le cœur de deacutepasser cette page

Et merci Aude de bousculer ma vie

ii

Table des matiegraveres

Table des figures vii

Liste des tableaux xi

Introduction 1

1 Des donneacutees aux connaissances 1

2 Des connaissances pour de nouvelles connaissances 5

3 La pharmacogeacutenomique 6

4 Le projet GenNet 7

5 Probleacutematique 8

6 Approche et principales contributions 9

7 Plan du manuscrit 9

1 Contexte biologique et applicatif 11

1 Geacutenotype et pheacutenotype 11

11 Deacutefinitions 11

12 Transcription et traduction premiegraveres eacutetapes de la deacutefinition drsquoun pheacutenotype 11

13 Les relations geacutenotypendashpheacutenotype 12

14 Les sources de donneacutees et les vocabulaires controcircleacutes relatifs aux relations geacutenotypendash

pheacutenotype 13

2 Les variations geacutenomiques 15

21 Deacutefinitions 15

22 Les sources de donneacutees relatives aux variations geacutenomiques 15

23 Heacuteteacuterogeacuteneacuteiteacute des donneacutees relatives aux variations geacutenomiques 16

24 Les haplotypes 18

3 La pharmacogeacutenomique 20

31 Deacutefinition 20

32 Les sources de donneacutees relatives agrave la pharmacogeacutenomique 21

4 Inteacuterecirct de lrsquoutilisation de connaissances en pharmacogeacutenomique 22

iii

iv Table des matiegraveres

2 Etat de lrsquoart 23

1 Extraction de Connaissances agrave partir de Bases de Donneacutees ndash 23

11 Motivation et objectifs 23

12 Preacuteparation des donneacutees 24

13 Fouille de donneacutees 27

14 Interpreacutetation en uniteacutes de connaissances 38

15 Reacuteutilisation des uniteacutes extraites 39

2 Repreacutesentation des connaissances et ontologies 40

21 La Repreacutesentation des Connaissances par Objets 40

22 Les Logiques de Descriptions 41

23 Ontologies et Bases de Connaissances 44

3 Utilisation des ontologies pour lrsquointeacutegration de donneacutees heacuteteacuterogegravenes 49

31 Les systegravemes drsquointeacutegration de donneacutees 49

32 Problegraveme drsquoheacuteteacuterogeacuteneacuteiteacute et inteacutegration seacutemantique 52

33 Le mapping donneacuteesndashconnaissances 53

34 Utilisation des ontologies en bioinformatique inteacutegration de donneacutees et plus si

affiniteacutes 54

35 Vers une inteacutegration semi-automatique de sources 58

4 Extraction de Connaissances guideacutee par les Connaissances du Domaine ndash 60

41 Preacuteparation de donneacutees guideacutee par les connaissances 60

42 Fouille de donneacutees guideacutee par les connaissances 62

43 Interpreacutetation guideacutee par les connaissances 64

3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique 67

1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre 67

11 Meacutethodologie de construction manuelle drsquoontologies pour lrsquointeacutegration de donneacutees 68

12 Construction drsquoune ontologie pour les variations geacutenomiques SNP-Ontology 73

13 Construction drsquoune ontologie pour la pharmacogeacutenomique SO-Pharm 79

2 Inteacutegration de donneacutees guideacutee par une ontologie 85

21 Description geacuteneacuterale de lrsquoapproche proposeacutee 85

22 Deacutefinition des mappings donneacuteesndashassertions 86

23 Description de lrsquointeraction wrapperndashmeacutediateur 88

24 Bilan 88

3 Expeacuterimentation 90

31 Inteacutegration de donneacutees relatives aux variations geacutenomiques SNP-Converter 90

32 Inteacutegration de donneacutees pharmacogeacutenomiques iSO-Pharm 99

4 Discussion 101

v

4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances 103

1 Seacutelection de donneacutees guideacutee par les connaissances du domaine 103

11 Motivation 103

12 Meacutethode proposeacutee 105

13 Expeacuterimentation pour la deacutecouverte de relations geacutenotypendashpheacutenotype 111

14 Bilan 116

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 118

21 Description geacuteneacuterale 118

22 Application conjointe des Logiques de Descriptions et de lrsquoAnalyse de Concepts

Formels dans le contexte de lrsquo 118

23 Analyse des Assertions de Rocircles ndash 121

24 Expeacuterimentation en pharmacogeacutenomique 130

25 Travaux similaires 143

3 Discussion 148

Conclusion et perspectives 151

A Algorithme de recherche des RMN et des RMNR 153

B Constructeurs en 155

C Exemple de code OWL 159

D Modegravele conceptuel de SO-Pharm 161

E Captures drsquoeacutecrans de SNP-Converter 163

F Algorithme de parcours drsquoun graphe drsquoassertions 167

G Captures drsquoeacutecrans du plugin de Proteacutegeacute 4 pour lrsquoAAR 171

H RMNR extraites de la relative agrave lrsquoinvestigation clinique du montelukast 173

Bibliographie 177

vi Table des matiegraveres

Table des figures

1 Repreacutesentation scheacutematique et naiumlve du processus de transformation de donneacutees en infor-mation puis en connaissances A gauche un processus en pyramide et agrave droite en boucleLa lettre C repreacutesente les connaissances 2

2 La repreacutesentation classique du processus drsquoExtraction de Connaissances agrave partir desBases de Donneacutees () (drsquoapregraves [FPSS96]) 3

3 Une annotation humoristique du geacutenome humain par Matt Davies The Journal NewsLos

Angeles Times Syndicate 2000 44 Repreacutesentation scheacutematique de la relation entre meacutedicament geacutenotype pheacutenotype eacutetudieacutee

en pharmacogeacutenomique 65 Trois exemples de relations pharmacogeacutenomiques particuliegraveres entre un traitement de

codeacuteine la version du gegravene CYP2D6 et lrsquoeffet de la codeacuteine En fonction de la version dugegravene la reacuteponse est diffeacuterente De gauche agrave droite le cas de meacutetaboliseurs lents normauxou leacutegegraverement rapides et ultra-rapides Il est inteacuteressant de noter que lrsquoadministrationdrsquoune dose de codeacuteine plus eacuteleveacutee (50 mg par exemple) aux meacutetaboliseurs lents permet decompenser la limitation de lrsquoactiviteacute enzymatique et drsquoobtenir lrsquoeffet analgeacutesique attendu 7

11 Repreacutesentation simplifieacutee des deux eacutetapes de transcription et de traduction pour deuxseacutequences drsquoADN drsquoun gegravene (ie deux allegraveles) hypotheacutetique A (agrave gauche lrsquoallegravele 1 agravedroite lrsquoallegravele 2) ne diffeacuterant qursquoen une seule position En haut de la figure lrsquoADN estrepreacutesenteacutee sous sa forme native qui est celle drsquoun double brin dans lequel les nucleacuteotidessont apparieacutes selon les regravegles suivantes A avec T et C avec G On dit que les deux brinsdrsquoADN ont des seacutequences compleacutementaires et on parle de paire de nucleacuteotides agrave chaqueposition de la seacutequence Les paires qui distinguent les deux allegraveles sur la figure sont G Cpour lrsquoallegravele 1 et T A pour lrsquoallegravele 2 Au cours de la transcription la copie de lrsquoun desbrins de lrsquoADN produit lrsquoARNm dans lequel la diffeacuterence entre les deux allegraveles est con-serveacutee Enfin la traduction convertit lrsquoARNm en une proteacuteine dont les acides amineacutes sontenchaicircneacutes les uns aux autres en fonction de lrsquoordre des triplets sur la seacutequence de lrsquoARNm

et selon la correspondance donneacutee par le code geacuteneacutetique La diffeacuterence drsquoun nucleacuteotideentre les deux ARNm est ainsi lue comme une diffeacuterence entre deux triplets GGC et GUCqui produit une diffeacuterence entre les proteacuteines traduites une diffeacuterence drsquoacide amineacute Gly(Glycine) en Val (Valine) Ainsi des geacutenotypes diffeacuterents porteacutes par lrsquoADN sont exprimeacutesgracircce au double processus de transcription-traduction en deux proteacuteines diffeacuterentes quipourront ecirctre responsables de deux pheacutenotypes diffeacuterents au niveau des fonctionnaliteacutesdrsquoune cellule drsquoun organe ou drsquoun organisme 12

12 Diverses descriptions ou reacutefeacuterences pour une mecircme variation geacutenomique 1713 Haplotypes tag-SNP et leur composition agrave partir des allegraveles de SNP voisins sur dif-

feacuterentes versions drsquoun mecircme chromosome Source http wwwhapmaporg 18

vii

viii Table des figures

14 Repreacutesentation originale du scheacutema repreacutesentant les diffeacuterentes cateacutegories (CO PD PKFA GN) associeacutees aux donneacutees de PharmGKB et leurs principales associations (doublesflegraveches noires) Source http wwwpharmgkborg 21

21 Repreacutesentation simplifieacutee du processus drsquo 24

22 Diffeacuterentes repreacutesentations du treillis associeacute au contexte K repreacutesenteacute dans le Tableau21 De gauche agrave droite le treillis des parties associeacute au contexte (ougrave tous les sous-ensembles drsquoattributs sont repreacutesenteacutes) treillis de Galois associeacute au mecircme contexte treillis de Galois en notation reacuteduite associeacute au mecircme contexte 31

23 Treillis des parties associeacute au contexte K repreacutesenteacute Tableau 22 La ligne de seacuteparationsymbolise le support minimum (min_supp = 3

5 ) dissociant les motifs non freacutequents audessus de la ligne des motifs freacutequents en dessous Le chiffre associeacute agrave chaque motifcorrespond au nombre drsquooccurences du motif dans K Source exemple extrait de [Sza06] 34

24 Classes drsquoeacutequivalence motifs fermeacutes freacutequents et geacuteneacuterateurs freacutequents associeacutes au con-texte K repreacutesenteacute Tableau 22 (min_supp = 2

5 ) Les relations de subsomption entreclasses drsquoeacutequivalence sont deacuteduites du treillis repreacutesenteacute Figure 23 Source exempleextrait de [Sza06] 36

25 Repreacutesentation des inclusions successives de lrsquoensemble des Regravegles Minimales Non-redondantes Reacuteduites (RMNR) dans lrsquoensemble des Regravegles Minimales Non-redondantes(RMN) puis de ce dernier ensemble dans celui de toutes les regravegles drsquoassociation 38

26 Cycle de vie drsquoune ontologie Source [DCGR98] 47

27 Architecture drsquoun systegraveme drsquointeacutegration de donneacutees suivant lrsquoapproche entrepocirct 49

28 Architecture drsquoun systegraveme drsquointeacutegration de donneacutees suivant lrsquoapproche meacutediateur 51

29 Extrait de la G O 56

210 Lrsquoontologie OntoDataClean preprocessing ontology preacutesenteacutee par Perez-Rey et al [PRAC06]Les ellipses griseacutees sont les concepts et les rectangles blancs leurs instances Les lignessimples sont des relations de subsomption ou des assertions de concepts Les lignesfleacutecheacutees sont les rocircles 61

211 Taxonomie T 64

212 Mapping simple proposeacute dans [SRR05] pour guider lrsquointerpreacutetation des reacutesultats de fouille 65

31 Extrait drsquoun diagramme de classes UML illustrant les relations de geacuteneacuteralisation entre unconcept issu drsquoun vocabulaire controcircleacute Sequence Ontology (SO) un concept drsquoune on-tologie de domaine SNP-Ontology (SNPO) et un concept drsquoune meacuteta-ontologie BasicFormal Ontology (BFO) 70

32 Diagramme UML repreacutesentant la reacutepartition des diagrammes de classes en quatre pa-quets (packages en anglais) Le concept de variant peut ecirctre associeacute aux seacutequencesgeacutenomiques sur lesquels ils sont localiseacutes originellement mais aussi aux seacutequences tran-scrites et proteacuteiques sur lesquelles sont observeacutees les conseacutequences des variations geacutenomiques 75

33 Diagramme de classes UML conceptualisant un variant la variation observeacutee pour unvariant et sa position sur une seacutequence 75

34 Diagramme de classes UML relatif aux seacutequences associeacutees agrave un variant 75

35 Repreacutesentation partielle de la hieacuterarchie de concepts de SNP-Ontology impleacutementeacutee enOWL 77

ix

36 Repreacutesentation scheacutematique de quelques concepts et rocircles de SNP-Ontology impleacutemen-teacutes en OWL NB en OWL les concepts sont appeleacutes des classes et les rocircles sont soitdes proprieacuteteacutes drsquoobjets (ObjectProperty) soit des proprieacuteteacutes de type de donneacutees (Object-

DataTypeProperty) Les rocircles preacutesentent un domaine et un co-domaine (noteacutes respective-ment owl domain et owl range) et parfois une contrainte de cardinaliteacute (owl minCar-

dinality par exemple) 7737 Diagramme de classes UML centreacute sur la conceptualisation des items cliniques 8238 Diagramme de classes UML centreacute sur la conceptualisation drsquoessais cliniques 8239 Diagramme de classes UML centreacute sur la conceptualisation drsquoun protocole drsquoessai clinique 82310 Architecture geacuteneacuterale de notre systegraveme drsquointeacutegration de donneacutees Lrsquoontologie utiliseacutee par

le meacutediateur est la mecircme que celle qui constitue la TBox de la Base de Connaissances 85311 Architecture de SNP-Converter suivant celle proposeacutee Figure 310 91312 Les diffeacuterentes eacutetapes du processus de conversion de la description drsquoune variation geacutenomique

pris en charge par SNP-Converter 92313 Exemple de conversion de la description drsquoune variation geacutenomique reacutealiseacutee par SNP-

Converter 92314 Utilisation du SNP-Converter comme wrapper et meacutediateur pour le peuplement drsquoune

base de connaissances relative aux variations geacuteneacutetiques du gegravene LDLR 98315 Diagramme de Venn repreacutesentant le recouvrement des trois jeux de donneacutees utiliseacutees

pour peupler la base de connaissances SNP-KB 98316 Architecture de iSO-Pharm instanciant lrsquoarchitecture geacuteneacuterale deacutecrite Figure 310 99

41 Description geacuteneacuterale de la meacutethode de seacutelection de donneacutees guideacutee par les connaissances 10642 Positionnement et relations des trois mappings Mdminusa Mdminusd et Miminusd Les mappings

Mdminusa sont deacutefinis entre un scheacutema de bases de donneacutees et la Base de ConnaissanceLes mappingMdminusd sont deacutefinis entre les scheacutemas des bases de donneacutees et la relation dujeu de donneacutees intial Le mapping Miminusd est deacuteduit des deux preacuteceacutedents Les fonctionssymboliques associeacutees aux mappings sont repreacutesenteacutees La forme geacuteneacuterale des fonctionsassocieacutees au mappingMiminusd est la composition de lrsquoinverse de fi et de h j 110

43 Approche pour la seacutelection de donneacutees (Figure 41) utiliseacutee pour lrsquoexpeacuterimentation ie

la recherche de relations geacutenotypendashpheacutenotype lieacutees agrave lrsquoHF 11244 Concepts de SNP-Ontology instancieacutes par des individus repreacutesentant des variations geacutenomiques

(rs_001 rs_002 rs_003 et rs_004) et un haplotype (NA_01234) Leacutegende les ovalespleins sont des concepts les ovales en tirets sont des individus la ligne pleine est unerelation de subsomption les lignes en tirets ronds sont des rocircles les lignes en tirets platssont des assertions 115

45 LrsquoExtraction de Connaissances agrave partir drsquoune Base de Connaissances ou 11946 LrsquoAnalyse des Assertions de Rocircles () et des ses diffeacuterentes eacutetapes 12247 Capture drsquoeacutecran du plugin de Proteacutegeacute 4 pour lrsquoAnalyse drsquoAssertions de Rocircles 13248 Un jeu de donneacutees exemple concernant la morphologie de cellules soumis agrave COBWEB

la hieacuterarchie de cluster produite et la hieacuterarchie de concepts (ou classes) RDF deacuteduite[CCH01] 143

49 Un treillis de concepts notation reacuteduite produit agrave partir de textes (agrave gauche) et la hieacuterar-chie de concepts en laquelle il est transformeacute (agrave droite) suivant la meacutethode proposeacutee dans[CHS05] 144

410 Un treillis de concepts notation reacuteduite produit agrave partir de textes (agrave gauche) et la hieacuterar-chie de concepts instancieacutee en laquelle il est transformeacute (agrave droite) suivant lrsquoalternativeproposeacutee dans [BTN08] 145

x Table des figures

411 Les diffeacuterences drsquoorganisation des domaines dans une sous-famille de proteacuteines phos-phatases les reacutecepteurs tyrosines phosphatases Ces organisations sont repreacutesenteacuteesdans lrsquoontologie des phosphatases et utiliseacutees pour la classification automatique de nou-velles proteacuteines [WLT+06] 146

C1 Code OWL qui correspond agrave la repreacutesenteacutee dans le Tableau 24 Ce code est enregistreacutedans le fichier ldquoexemple_de_bcowlrdquo 160

D1 Diagramme de classes UML donnant une vue geacuteneacuterale mais partielle de la conceptual-isation de SO-Pharm 162

E1 Capture drsquoeacutecran de SNP-Converter Lrsquoonglet preacutesenteacute srsquointitule Data integration Il pro-pose de seacutelectionner une liste de sources de donneacutees et une portion du geacutenome unexon un intron un gegravene entier ou un espace situeacute entre deux nucleacuteotides Lrsquoexeacutecutionde la fonction drsquointeacutegration de donneacutees de SNP-Converter par le bouton Run permetlrsquoinstanciation drsquoune Base de Connaissances SNP-KB qui permet drsquoeacutevaluer le recouvre-ment des donneacutees contenues dans les diffeacuterentes sources et repreacutesenteacutees dans le cadreintituleacute Database overlapp Par exemple le premier variant de la liste est initialementpreacutesent dans les 4 sources de donneacutees seacutelectionneacutees le second est preacutesent uniquementdans PharmGKB le troisiegraveme est dans HGVBase et PharmGKB 164

E2 Capture drsquoeacutecran de SNP-Converter Lrsquoonglet preacutesenteacute srsquointitule Conversion Il propose desaisir la descritpion drsquoun variant ici Chr6 18251934GgtC et de choisir un type de de-scription diffeacuterent pour deacutecrire le variant ici la position par rapport agrave lrsquoexon Lrsquoexeacutecutionpar le biais du bouton Run construit la description du variant donneacutee selon la descrip-tion demandeacutee TPMT_exon_6 129GgtC Le variant donneacute en entreacutee peut ecirctre soit unidentifiant drsquoune base de donneacutees soit ecirctre deacutecrit suivant la nomenclature HGVS 165

E3 Capture drsquoeacutecran de SNP-Converter Lrsquoonglet est le mecircme que celui preacutesenteacute dans laFigure E2 Cette figure repreacutesente en plus les diffeacuterents type de description suivantlesquelles il est possible de convertir le variant donneacute nomenclature HGVS du variantpositionneacute relativement agrave la seacutequence du chromosome de contigs de lrsquoexon de lrsquointronde la proteacuteine ou encore lrsquoidentifiant du variant dans dbSNP 165

G1 Capture drsquoeacutecran du plugin de Proteacutegeacute 4 pour lrsquoAnalyse drsquoAssertions de Rocircles 172

Liste des tableaux

21 Un premier exemple de contexte formel K 29

22 Un second exemple de contexte formel K 32

23 Syntaxe et seacutemantique associeacutees aux constructeurs de concepts les plus simples en Les constructeurs disponibles dans la logique de baseAL nrsquoont pas de symbole proprepour les autres le symbole correspondant est donneacute dans la quatriegraveme colonne Lrsquoan-nexe B deacutecrit une liste plus complegravete des constructeurs de concepts ainsi que de certainsconstructeurs de rocircles 42

24 Un exemple de Base de Connaissances eacutecrite en 42

25 Syntaxe et seacutemantique associeacutees aux axiomes terminologiques et assertionels en 43

26 Base de donneacuteesD 64

27 Regravegles conserveacutees (supportmin=03 confiancemin=06) apregraves geacuteneacuteralisation 64

31 Liste des sources exploreacutees pour enrichir la liste de termes relatifs aux variations geacutenomiquesLa troisiegraveme colonne preacutecise si la source de variations geacutenomiques concerne uniquementun locus particulier (source Locus Speacutecifique ou LS) uniquement lrsquohumain ou si elle estgeacuteneacuterique (multi-locus et multi-espegraveces) 74

32 Les deux ontologies articuleacutees avec SNP-Ontology 74

33 Liste des axiomes deacutecrivant les relations entre concepts propres agrave SNP-Ontology (SNPO)et concepts externes importeacutes de AA Ontology (AAO) et Sequence Ontology (SO) Lesidentifiants des concepts de SO sont donneacutes entre parenthegraveses 76

34 Liste des sources exploreacutees pour enrichir la liste de termes relatifs aux sous-domainesde la pharmacogeacutenomique La troisiegraveme colonne preacutecise le sous-domaine que la sourceconcerne Les vocabulaires controcircleacutes eacutetoileacutes () sont des ontologies OBO 80

35 Les 15 ontologies articuleacutees avec SO-Pharm Le preacutefixe repreacutesenteacute par le symbole ~correspond agrave lrsquoURL http wwwloriafr~coulet 81

36 Les principaux axiomes deacutecrivant des relations entre les concepts propres agrave SO-Pharm(SOPHARM) et les concepts externes des ontologies articuleacutees (voir Tableau 35) Lesidentifiants des concepts associeacutes sont donneacutes entre parenthegraveses lorsqursquoils existent Laliste complegravete inclut eacutegalement des axiomes qui formalisent des relations entre rocircles 83

41 Forme geacuteneacuterale du jeu de donneacutees eacutetudieacute dans le sceacutenario 104

42 Caracteacuterisation quantitative des reacutesultats bruts de fouille de donneacutees en fonction du nom-bre drsquoattribut seacutelectionneacutes 114

43 Contexte formel K(GMI) reacutesultat de lrsquoexploration des graphes drsquoassertions 125

xi

xii Liste des tableaux

44 Groupes de geacutenotypes associeacutes au sein des gegravenes eacutetudieacutes dans lrsquoinvestigation cliniquede Lima et al [LZG+06] La colonne de gauche preacutesente les trois groupes de geacutenotypesmis en eacutevidence par Lima et al par la mesure des deacuteseacutequilibres de liaison (Linkage

Desquilibrium ou LD en anglais) La colonne de droite preacutesente les groupes que nousavons mis en eacutevidence agrave partir du mecircme jeu de donneacutees avec lrsquo Cette deuxiegravemecolonne preacutesente dans certains cas deux associations de geacutenotypes diffeacuterents pour unmecircme groupe de variations (gegravene ABCC1 et CYSLTR1) Les regravegles dont sont extraits ces7 groupes sont reporteacutees en Annexe H 137

45 Geacutenotypes speacutecifiques aux pheacutenotypes preacutesenteacutes dans la colonne de gauche La colonnedu centre repreacutesente les geacutenotypes speacutecifiques mis en eacutevidence dans Lima et al parmeacutethodes statistiques(χ2 et rapport de vraisemblance) [LZG+06] La colonne de droiterepreacutesente les variations mises en eacutevidence par notre approche drsquoAnalyse des Assertionsde Rocircles Les regravegles qui mettent en eacutevidence ces associations sont reporteacutees en Annexe H 139

B1 Constructeurs de concepts en Logique de Descriptions et leurs correspondances enOWL C et D sont des concepts (respectivement C et D sont des classes) T est un conceptparticulier qui correspond agrave un type de donneacutees (un Datatype en OWL) n est un nombrea et b sont des individus R un rocircle (une proprieacuteteacute drsquoobjet ou ObjectProperty en OWL) etS un rocircle dont le co-domaine correspond agrave un concept de mecircme type que T (une proprieacuteteacutede donneacutees ou DatatypeProperty en OWL) 156

B2 Constructeurs de rocircles en Logique de Descriptions et leurs correspondances en OWLR et Q sont des rocircles (des proprieacuteteacutes drsquoobjet ou ObjectProperty en OWL) 157

Introduction

Ce chapitre est une introduction geacuteneacuterale agrave la thegravese Les sections 1ndash3 deacutecrivent le contexte scien-tifique de la thegravese la deacutecouverte de connaissances pour la pharmacogeacutenomique La section 4 preacutesentele contexte industriel qui a motiveacute cette thegravese La section 5 introduit sa probleacutematique puis la section 6lrsquoapproche adopteacutee et les principales contributions Enfin la section 7 preacutesente un reacutesumeacute des chapitresde la thegravese

1 Des donneacutees aux connaissances

Lrsquoexpansion du nombre de sources de donneacutees disponibles en particulier gracircce au Web et la quantiteacutede donneacutees geacutereacutees au sein de ces sources ont rendu indispensable la mise au point de systegravemes capablesdrsquoextraire de faccedilon automatique ou semi-automatique des connaissances disponibles mais cacheacutees parla complexiteacute des donneacutees Cette complexiteacute est principalement due agrave lrsquoheacuteteacuterogeacuteneacuteiteacute la diversiteacute ladispersion et le grand volume des donneacutees Le processus drsquoExtraction de Connaissances agrave partir de Basesde Donneacutees () deacutecrit par Frawley et al [FPSM91] a justement pour but la deacutecouverte drsquouniteacutes deconnaissances agrave partir drsquoensembles de bases de donneacutees volumineuses

Avant de deacutefinir et deacutetailler le processus drsquo il convient de preacuteciser la distinction que nous faisonsdans cette thegravese entre donneacutees information et connaissances De nombreuses tentatives de deacutefinition ontvu le jour notamment dans le domaine des sciences cognitives ougrave lrsquoexploitation drsquoinformations diversespar un systegraveme complexe permet lrsquoacquisition de connaissances capables de diriger la mise en œuvredrsquoactions Nous nous limiterons aux deacutefinitions accepteacutees de maniegravere geacuteneacuterale dans le domaine de lrsquoin-formatique exprimeacutees par Kayser de la faccedilon suivante [Kay97]

ndash les donneacutees sont le reacutesultat drsquoobservationsndash les informations sont le reacutesultat de lrsquointerpreacutetation de ces donneacuteesndash les connaissances deacutefinissent la faccedilon drsquoutiliser les donneacutees et informations

Cette distinction est preacutesenteacutee de faccedilon plus formelle par Devlin Schreiber et Wille [Dev99 SAA+99Wil02] de la faccedilon suivante

ndash donneacutees = signes + syntaxendash information = donneacutees + sens (ou seacutemantique)ndash connaissances = information assimileacutee et interpreacuteteacutee + possibiliteacute de mise en action de lrsquoinforma-

tion interpreacuteteacutee

Prenons un exemple relevant du domaine de la geacuteneacutetique et consideacuterons la seacutequence drsquoADN consti-tutive drsquoun gegravene au cœur drsquoune cellule A ce niveau la seacutequence de nucleacuteotides ie lrsquoenchaicircnement deplusieurs milliers drsquoA C G et T peut ecirctre consideacutereacutee comme des donneacutees brutes En revanche le fait

1

2 Introduction

que lrsquoon sache que cette seacutequence est reconnue par la machinerie cellulaire comme un gegravene particulierest une information Enfin les regravegles de fontionnement de la machinerie cellulaire et particuliegraverement lecode geacuteneacutetique de la cellule constituent les connaissances qui permettent drsquointerpreacuteter ce gegravene commeune proteacuteine utiliseacutee ensuite dans la mise en œuvre de fonctions biologiques

Dans un ordinateur les donneacutees informations et connaissances peuvent ecirctre repreacutesenteacutees selon lesformes suivantes

ndash donneacutees un nombre une image une chaicircne de caractegraveres par exemple ldquoATCGGCTAGCTTATATC-GATCGATrdquo

ndash information des donneacutees dans une base de donneacutees ou sous forme de tableau associeacutees auxmeacutetadonneacutees neacutecessaires agrave leur interpreacutetation souvent sous la forme drsquoun couple attributndashvaleurcomme par exemple ldquosequence_du_gene = ATCGGCTAGCTTATATCGATCGATrdquo

ndash connaissances des contraintes des regravegles des axiomes logiques utilisables par des programmespour exploiter les informations dans le cadre de la reacutealisation drsquoune action par exemple lrsquoaide agravela deacutecision le pilotage drsquoun robot la deacutecouverte de nouvelles connaissances

F 1 ndash Repreacutesentation scheacutematique et naiumlve du processus de transformation de donneacutees en informationpuis en connaissances A gauche un processus en pyramide et agrave droite en boucle La lettre C repreacutesenteles connaissances

Drsquoun point de vue opeacuterationnel il est inteacuteressant drsquoenvisager les processus qui permettent de passerde donneacutees agrave lrsquoinformation puis aux connaissances De faccedilon naiumlve ce processus peut ecirctre repreacutesenteacutesous forme de pyramide ougrave les connaissances occupent la place la plus haute pour souligner le fait quede nombreuses donneacutees sont neacutecessaires agrave lrsquoacquisition drsquoune connaissance [SAA+99 Wil02] Il noussemble plus exact de proposer un scheacutema composeacute drsquoune boucle dans la mesure ougrave les connaissancesexistantes peuvent servir pour associer un sens (ie une seacutemantique) agrave des donneacutees (voir Figure 1)

Nous remarquerons toutefois qursquoen informatique la distinction donneacuteesndashinformation est artificiellepuisque les programmes ne manipulent que des donneacutees (le nom drsquoun attribut ou une valeur attribueacuteeagrave celui-ci) Comme observe Guus Schreiber dans son livre sur la meacutethodologie de gestion des connais-sances CommonKADS que ce soit pour un programme ou un humain la frontiegravere entre donneacutees et infor-mation nrsquoest pas franche car elle est fortement deacutependante du contexte drsquoutilisation [SAA+99] Ainsi lesens associeacute agrave une donneacutee peut ecirctre diffeacuterent drsquoun pays agrave lrsquoautre drsquoun domaine professionnel agrave lrsquoautreDe mecircme des donneacutees peuvent ecirctre chargeacutees de sens pour un utilisateur averti et agrave ce titre constituerune source drsquoinformation alors qursquoelles nrsquoauront aucun sens et resteront au stade de donneacutees pour unutilisateur non averti

Les connaissances constituent une notion nettement distincte de celles de donneacutees et drsquoinformation

1 Des donneacutees aux connaissances 3

Donneacuteestransformeacutees

Inteacuterepreacutetation Eacutevaluation

Fouillede donneacutees

Transformation

Seacutelection

Base de donneacuteesheacuteteacuterogegravenes

Donneacuteesseacutelectionneacutees

(i) Preparation

des donnees

(ii) Fouille

de donnees(iii)Interpretation

Modegraveles

Connaissance InteacutegrationNettoyage

Donneacuteesinteacutegreacutees

F 2 ndash La repreacutesentation classique du processus drsquoExtraction de Connaissances agrave partir des Bases deDonneacutees () (drsquoapregraves [FPSS96])

qui restent purement descriptives De faccedilon diffeacuterente les connaissances se distinguent par leur caractegraveredynamique orienteacutees vers lrsquoaction comme par exemple la prise de deacutecision ou lrsquoacquisition de nouvellesconnaissances Ainsi la repreacutesentation des connaissances en informatique est toujours associeacutee agrave des meacute-canismes de raisonnement qui permettent la reacutesolution de problegravemes

Dans cette thegravese nous nous inteacuteressons particuliegraverement au processus drsquo Celui-ci a justementpour but la deacutecouverte drsquouniteacutes drsquoinformation (ou uniteacutes extraites) agrave partir drsquoensembles de bases dedonneacutees volumineuses Ces uniteacutes drsquoinformation pourront ensuite ecirctre interpreacuteteacutees comme des uniteacutesde connaissance non triviales potentiellement utiles et reacuteutilisables Geacuteneacuteralement le processus drsquoest appliqueacute agrave la fois de faccedilon iteacuterative et interactive Iteacuterative car les reacutesultats produits peuvent ecirctrereacuteutiliseacutes lors des iteacuterations suivantes du processus Interactive car le processus drsquo est reacutealiseacute sousle controcircle drsquoun expert du domaine eacutetudieacute lrsquoanalyste Crsquoest lui qui guide le processus en fonction deses objectifs de ses propres connaissances du domaine et des reacutesultats obtenus lors des preacuteceacutedentesiteacuterations de lrsquoextraction

Nous distinguons trois eacutetapes principales dans le processus repreacutesenteacutees Figure 2 ndash (i) la preacuteparation des donneacutees incluant leur seacutelection leur inteacutegration et leur nettoyage en vue de

leur utilisation par les algorithmes de fouille de donneacuteesndash (ii) lrsquoopeacuteration de fouille de donneacutees proprement dite conduisant agrave lrsquoextraction drsquouniteacutes drsquoinfor-

mation preacutesentes sous forme de reacutegulariteacutes dans les donneacutees etndash (iii) lrsquointerpreacutetation des uniteacutes drsquoinformation extraites en terme de connaissanceLes uniteacutes de connaissance ainsi produites peuvent ecirctre exprimeacutees dans un formalisme de repreacutesen-

tation des connaissances afin de pouvoir ecirctre utiliseacutees dans des systegravemes fondeacutes sur les connaissancesDans la suite de cette thegravese nous ne consideacutererons pas la notion drsquoinformation tregraves deacutependante de lrsquoin-

terpreacutetation individuelle Plutocirct que drsquoemployer le terme drsquouniteacute drsquoinformation nous preacutefeacutererons parlerdrsquouniteacutes extraites par la fouille de donneacutees qui peuvent revecirctir diffeacuterentes formes selon lrsquoalgorithme defouille utiliseacute un motif freacutequent un concept formel une regravegle drsquoassociation un cluster etc En revanchenous nous attacherons agrave eacutetudier ce qui distingue les donneacutees des connaissances le couple ltsyntaxe seacute-mantique formellegt et comment ce couple est exploiteacute par des meacutecanismes de raisonnement pour mettreen action les connaissances

4 Introduction

F 3 ndash Une annotation humoristique du geacutenome humain par Matt Davies The Journal NewsLos Angeles

Times Syndicate 2000

Dans le domaine de la geacutenomique et plus geacuteneacuteralement de la biologie moleacuteculaire les progregravesbiotechnologiques ont meneacute agrave lrsquoacquisition de larges volumes de donneacutees puis agrave leur enregistrementdans des centaines de bases de donneacutees creacuteeacutees speacutecialement [Bat08] Par exemple les techniques deseacutequenccedilage moleacuteculaire de lrsquoADN ont permis le deacutecryptage drsquoune premiegravere version du geacutenome hu-main en 2001 mis ensuite agrave la disposition de la communauteacute scientifique dans trois bases de donneacutees[ea01 Con01]

ndash Genome Browser1 de lrsquoUCSD (University of California Santa Cruz)ndash Ensembl2 de lrsquoEBI (European Bioinformatics Institute) etndash Map Viewer3 du NCBI (National Center for Biotechnology Information)Drsquoautres projets depuis srsquointeacuteressent agrave affiner la seacutequence du geacutenome et agrave lrsquoannoter (ie la carac-

teacuteriser) en explorant entre autres les variations geacutenomiques le transcriptome le proteacuteome La Figure 3repreacutesente de faccedilon humoristique des annotations du geacutenome humain De faccedilon plus seacuterieuse le pro-jet international HapMap termineacute en 2007 et le projet 1000 genomes initieacute en 2008 explorent lesvariations inter-individuelles du geacutenome humain avec entre autres lrsquoobjectif drsquoenrichir son annotation[Con03 Spe08] La somme de donneacutees collecteacutees est particuliegraverement inteacuteressante en geacutenomique fonc-tionnelle ou en geacutenomique inteacutegrative qui eacutetudie lrsquoimpact sur le fonctionnement du geacutenome de facteursenvironnementaux comme lrsquoalimentation un traitement meacutedicamenteux ou des habitudes de vie

Cependant les meacutedecins et les biologistes qui utilisent quotidiennement ces bases de donneacutees dansleur activiteacute de diagnostic et de recherche sont limiteacutes par la complexiteacute des donneacutees Premiegraverement lenombre et la dispersion des sources compliquent les tacircches de collecte manuelle de donneacutees Seconde-ment le volume ainsi que des consideacuterations plus speacutecifiques aux sciences du vivant comme la grande

1httpgenomeucsceducgi-binhgGateway2httpwwwensemblorgHomo_sapiensindexhtml3httpwwwncbinlmnihgovprojectsmapview

2 Des connaissances pour de nouvelles connaissances 5

varieacuteteacute des donneacutees leur tendance agrave ecirctre fortement interconnecteacutees et leurs reacutefeacuterences agrave des domainesspeacutecialiseacutes compliquent lrsquoanalyse et lrsquointerpreacutetation

Face agrave cette difficulteacute lrsquo propose un cadre meacutethodologique qui a eacuteteacute appliqueacute avec succegraves enbiologie pour inteacutegrer les donneacutees repreacutesenteacutees dans des formats heacuteteacuterogegravenes et disperseacutees dans dif-feacuterentes sources [GS08] et analyser les donneacutees par des meacutethodes de fouille afin drsquoen extraire des reacutegu-lariteacutes (ou des irreacutegulariteacutes) [WZTS05]

Cependant rares sont les travaux qui reacuteutilisent effectivement les connaissances extraites ou qui tirentparti des connaissances deacutejagrave existantes pour faire face agrave la complexiteacute des donneacutees post-geacutenomiques

2 Des connaissances pour de nouvelles connaissances

Un axe de recherche de lrsquoeacutequipe-projet INRIA Orpailleur est de guider le processus drsquo non plusseulement par les connaissances de lrsquoanalyste mais eacutegalement par des connaissances exprimeacutees dansun langage de repreacutesentation des connaissances particulier interpreacutetable par une machine [LNST08]Le processus drsquo ainsi guideacute par les connaissances du domaine est appeleacute pour Extraction de

Connaissance guideacutee par les Connaissances du Domaine (ou en anglais pour Knowledge Discovery

guided by Domain Knowledge)De nombreux travaux en intelligence artificielle se sont inteacuteresseacutes agrave la repreacutesentation formelle de

connaissances dans lrsquoobjectif de rendre celles-ci interpreacutetables aussi bien par une machine que par unecirctre humain Crsquoest notamment lrsquoobjectif du Web seacutemantique tel que le deacutecrit Tim Berners-Lee [BLHL01]de proposer une extension du Web actuel dans laquelle les machines ldquocomprennentrdquo les informationsauxquelles elles accegravedent et sont ainsi en mesure de les manipuler en tant que connaissances au sein demeacutecanismes de raisonnement automatiques

A la base de lrsquoinfrastructure drsquoapplications fondeacutees sur les connaissances comme le Web seacutemantiquese trouvent les ontologies Le terme ontologie fait reacutefeacuterence agrave diverses notions connexes branche dela philosophie vocabulaire controcircleacute taxonomie ordre partiel par exemple Aussi la deacutefinition adopteacuteedans cette thegravese est celle de Thomas Gruber qui vaut pour les ontologies des applications fondeacutees surles connaissances selon laquelle une ontologie est une description formelle des concepts relatifs agrave undomaine et des relations entre ces concepts [Gru93]

Le Web Seacutemantique et lrsquoeffervescence qursquoil suscite ont meneacute la communauteacute scientifique au deacuteveloppe-ment de standards notamment pour la repreacutesentation des connaissances Le langage OWL (Web Ontology

Language) est ainsi le langage standard pour la repreacutesentation des ontologies du Web Seacutemantique OWLest issu agrave la fois des langages du Web (HTML XML RDF) et de formalismes logiques tels que leslogiques de descriptions

Des centaines drsquoontologies exprimeacutees en OWL sont partageacutees publiquement via le Web En bioin-formatique le besoin de modeacutelisation et drsquointeropeacuterabiliteacute des modegraveles biologiques en particulier pourrendre possible lrsquointeacutegration de donneacutees a favoriseacute le partage et le deacuteveloppement communautaire debio-ontologies via des portails Web comme le Bioportal ou lrsquoOBO-Foundry [RMKM08 SAR+07]

Il est eacutetabli que les meacutethodes de repreacutesentation des connaissances constituent un atout pour par-ticiper au deacutecryptage des masses de donneacutees collecteacutees en sciences du vivant en grande partie car ellespermettent la modeacutelisation de leur diversiteacute et de leur heacuteteacuterogeacuteneacuteiteacute [Rec00 Ste08] Les applications Ri-boWeb et EcoCyc illustrent notamment comment des bio-ontologies peuvent ecirctre utiliseacutees pour favoriserlrsquoexploitation de donneacutees biologiques [ABC+99 KACV+04] Le langage OWL comme standard et lesportails comme zone de partage et de structuration des connaissances en sciences du vivant sont deuxavanceacutees qui doivent favoriser le succegraves des approches fondeacutees sur les connaissances pour la deacutecouvertede connaissances en biologie

Ainsi lrsquoobjectif geacuteneacuteral de cette thegravese est drsquoeacutetudier comment les connaissances formaliseacutees dans

6 Introduction

Meacutedicament

Geacutenotype Pheacutenotype

F 4 ndash Repreacutesentation scheacutematique de la relation entre meacutedicament geacutenotype pheacutenotype eacutetudieacutee enpharmacogeacutenomique

une ontologie peuvent faciliter le processus de deacutecouverte de connaissances et cela notamment dans ledomaine de la pharmacogeacutenomique

3 La pharmacogeacutenomique

La pharmacogeacutenomique eacutetudie comment certaines variations geacuteneacutetiques inter-individuelles impliquentune variabiliteacute dans les reacuteponses entre individus agrave un mecircme traitement meacutedicamenteux [Web97]

La distinction classique entre la pharmacogeacuteneacutetique et la pharmacogeacutenomique preacutesente la phar-macogeacuteneacutetique comme lrsquoeacutetude des caractegraveres heacutereacuteditaires associeacutes agrave la pharmacologie et la pharma-cogeacutenomique comme lrsquoeacutetude au niveau moleacuteculaire de ces facteurs geacuteneacutetiques de leurs interactionsmutuelles et de leurs conseacutequences multiples tant au niveau macroscopique qursquoau niveau microscopique(moleacuteculaire cellulaire tissulaire) Ainsi une deacutefinition plus complegravete de la pharmacogeacutenomique com-prend lrsquoeacutetude de lrsquoensemble des gegravenes ayant une influence sur la pharmacologie des manifestations deleurs variations geacutenomiques de lrsquointeraction de ces variations dans la production de pheacutenotypes et delrsquoinfluence drsquoun tel pheacutenotype sur la reacuteponse agrave un meacutedicament [AK02]

La pharmacogeacutenomique peut ecirctre scheacutematiquement repreacutesenteacutee comme lrsquoeacutetude des relations ter-naires existant entre un traitement meacutedicamenteux un geacutenotype et un pheacutenotype (Figure 4)

ndash Typiquement le traitement meacutedicamenteux correspond agrave lrsquoadministration drsquoune (ou plusieurs)moleacutecule(s) avec une certaine dose une certaine freacutequence et via une certaine voie drsquoadministra-tion

ndash Le geacutenotype correspond agrave une (ou plusieurs) version(s) drsquoune variation geacutenomique Le plus sou-vent il srsquoagit du geacutenotype (ie deux allegraveles pour les espegraveces diploiumldes) observeacute sur le site drsquounevariation ponctuelle du geacutenome ie un Single Nucleotide Polymorphism (SNP)

ndash Le pheacutenotype distingue geacuteneacuteralement trois classes qui correspondent agrave trois types de reacuteponses aumeacutedicament la reacuteponse attendue lrsquoabsence drsquoeffet une reacuteponse adverse au meacutedicament

Un exemple drsquointeraction pharmacogeacutenomique deacutecrite par Desmeules et al [DGDM91] et Gascheet al [GDF+04] est lrsquoinfluence des variations du gegravene CYP2D6 dans la reacuteponse agrave un traitement decodeacuteine La codeacuteine est un opiaceacute prescrit entre autres pour son pouvoir analgeacutesique La codeacuteine estphysiologiquement meacutetaboliseacutee dans le foie en morphine responsable de son effet analgeacutesique Il ex-iste plusieurs versions fonctionnelles du gegravene CYP2D6 (ie plusieurs variants du gegravene) dont les produitsagissent diffeacuteremment sur la transformation de codeacuteine en morphine et permettent de distinguer plusieurscateacutegories drsquoindividus (Figure 5) les meacutetaboliseurs lents (porteurs de variants agrave activiteacute faible) lesmeacutetaboliseurs rapides (porteurs de variants agrave activiteacute normale ou forte) les meacutetaboliseurs ultra-rapides(porteurs de copies multiples de variants agrave activiteacute normale ou forte) Les meacutetaboliseurs lents sont inca-pables de meacutetaboliser efficacement la codeacuteine en morphine et en conseacutequence ne preacutesentent pas lrsquoeffetanalgeacutesique attendu Les meacutetaboliseurs ultra-rapides meacutetabolisent la codeacuteine avec une efficaciteacute accrue

3 La pharmacogeacutenomique 7

Codeacuteine25mg voie orale

Codeacuteine25mg voie orale

Codeacuteine

CYP2D64 Aucun effet Effetanalgeacutesique

Taux de morphinetoxique

25mg voie orale

CYP2D6UMCYP2D61

F 5 ndash Trois exemples de relations pharmacogeacutenomiques particuliegraveres entre un traitement de codeacuteinela version du gegravene CYP2D6 et lrsquoeffet de la codeacuteine En fonction de la version du gegravene la reacuteponse estdiffeacuterente De gauche agrave droite le cas de meacutetaboliseurs lents normaux ou leacutegegraverement rapides et ultra-rapides Il est inteacuteressant de noter que lrsquoadministration drsquoune dose de codeacuteine plus eacuteleveacutee (50 mg par ex-emple) aux meacutetaboliseurs lents permet de compenser la limitation de lrsquoactiviteacute enzymatique et drsquoobtenirlrsquoeffet analgeacutesique attendu

qui entraicircne une intoxication agrave la morphine

Les reacutesultats des projets de collecte de donneacutees agrave haut deacutebit comme le seacutequenccedilage du geacutenomede ses variations lrsquoeacutetude des transcriptome et proteacuteome alimentent le deacuteveloppement de la pharma-cogeacutenomique Le beacuteneacutefice des meacutethodes deacuteveloppeacutees et des connaissances ainsi acquises constitue uncatalyseur pour les chercheurs en biologie meacutedicale qui voient lagrave une occasion de beacuteneacuteficier des deacutecou-vertes en biologie moleacuteculaire pour obtenir des reacutesultats en pratique clinique [ER99] Ce type drsquoimpor-tation des deacutecouvertes ldquotheacuteoriquesrdquo pour le monde clinique srsquoinscrit dans un effort geacuteneacuteral de recherchebiomeacutedicale appeleacute la meacutedecine translationelle (traduit directement de lrsquoanglais translational medicine)[Mar03] Il est inteacuteressant de noter que la recherche translationelle srsquointeacuteresse eacutegalement au cheminementinverse crsquoest agrave dire agrave eacutetudier comment des deacutecouvertes et des pratiques cliniques peuvent ecirctre utiles pourprogresser en biologie moleacuteculaire

Une application attendue de la pharmacogeacutenomique au niveau des pratiques cliniques est la geacuteneacuterali-sation des prescriptions meacutedicales individualiseacutees prenant en consideacuteration une exploration preacutealable dugeacutenotype du patient Ceci permettrait drsquooptimiser lrsquoefficaciteacute du traitement et drsquoen preacutevenir les reacuteponsesadverses [ER04] Cette application appeleacutee meacutedecine individualiseacutee (individualized medicine an anglais)inteacuteresse les pouvoirs publics qui y voient un inteacuterecirct eacuteconomique eacutevident La pharmacogeacutenomique in-teacuteresse eacutegalement les industries pharmaceutiques dans la mesure ougrave les variations inter-individuelles dansles reacuteponses aux meacutedicaments peuvent expliquer pourquoi des moleacutecules efficaces sur un panel restreintsrsquoavegraverent apregraves de coucircteux deacuteveloppements inefficaces (voire dangereuses) au sein drsquoune populationplus vaste Crsquoest justement le cas du BiDil un meacutedicament deacuteveloppeacute pour reacuteduire le risque drsquoaccidentscardio-vasculaires Le BiDil srsquoeacutetait reacuteveacuteleacute inefficace lors des phases finales de son programme de misesur le marcheacute puis apregraves avoir eacuteteacute mis quelques temps de cocircteacute il a eacuteteacute montreacute qursquoil eacutetait particuliegravere-ment efficace pour un groupe particulier de population les afro-ameacutericains [TZY+04] Cet exemplealimente par ailleurs un deacutebat eacutethique sur les deacuterives qui pourraient ecirctre associeacutees au deacuteveloppement et agravela prescription de moleacutecules reacuteserveacutees agrave des sous-groupes de populations [SHSD08]

En conclusion la pharmacogeacutenomique est un domaine qui preacutesente un fort inteacuterecirct meacutedical et quibeacuteneacuteficie de bases de donneacutees biologiques et de meacutethodes informatiques innovantes [AK02] Ces deuxarguments font de la pharmacogeacutenomique un domaine drsquoapplication pertinent pour ce travail de thegravese

8 Introduction

4 Le projet GenNet

Le travail preacutesenteacute dans cette thegravese a eacuteteacute initieacute dans le cadre drsquoun projet europeacuteen EUREKA intituleacuteGenNet impliquant les socieacuteteacutes KIKA Medical Phenosystems et lrsquoeacutequipe Orpailleur du LORIA

Lrsquoideacutee drsquoorigine du projet est baseacutee sur le constat qursquoun nombre grandissant drsquoessais cliniques in-clut parmi les variables exploreacutees des donneacutees geacuteneacutetiques les reacutesultats de geacutenotypage de marqueursbiologiques chez les patients eacutetudieacutes Le projet GenNet se proposait de deacutevelopper une infrastructure quidans ce contexte soit capable

(1) drsquoenregistrer conjointement donneacutees cliniques classiques (pression arteacuterielle mesure du cholesteacuteroltotal dans le sang etc) et donneacutees geacuteneacutetiques (ici le geacutenotype de variations geacutenomiques) relativesagrave un groupe de patients et

(2) drsquoanalyser les relations entre les variables ainsi collecteacutees

Dans ce contexte un sujet de thegravese a eacuteteacute proposeacute pour explorer deux problegravemes connexes au projetindustriel

(a) compleacuteter les donneacutees de lrsquoessai clinique avec des donneacutees issues de bases de donneacutees biologiquespubliques ou priveacutees Ces nouvelles donneacutees constituent un ensemble drsquoannotations4 issues destravaux de recherche en biologie moleacuteculaire qui peuvent srsquoaveacuterer utiles dans lrsquoanalyse des donneacuteesrelatives agrave la population eacutetudieacutee Ces annotations suppleacutementaires peuvent par exemple permettrede mieux caracteacuteriser un sous-groupe de patients

(b) proposer une approche drsquoanalyse originale qui utilise les connaissances du domaine pour faire faceagrave la complexiteacute speacutecifique des donneacutees biologiques en terme drsquoheacuteteacuterogeacuteneacuteiteacute de varieacuteteacute de speacuteci-ficiteacute et en extraire des connaissances potentiellement utiles

Il est possible drsquoimaginer que des reacutesultats ainsi obtenus puissent agrave leur tour ecirctre agrave la base de travauxen biologie moleacuteculaire et ainsi boucler la boucle de la meacutedecine translationelle deacutecrite en section 3 decette introduction

5 Probleacutematique

Pour extraire des connaissances agrave partir de donneacutees heacuteteacuterogegravenes et srsquoaider pour cela des connais-sances existantes notamment dans le domaine de la pharmacogeacutenomique nous nous sommes interesseacutesagrave deux problegravemes principaux le premier consiste en la reacuteconciliation indispensable des diffeacuterentes don-neacutees selon une syntaxe et une seacutemantique commune le second consiste agrave eacutetendre les meacutethodes drsquoextrac-tion de connaissances pour leur permettre non seulement de travailler avec des donneacutees mais eacutegalementavec une seacutemantique associeacutee aux donneacutees

Le premier problegraveme se pose lorsque lrsquoon souhaite inteacutegrer des donneacutees provenant de sources auxscheacutemas distincts Il est dans ce cas neacutecessaire de deacuteterminer des correspondances entre les entiteacutes eacutequiv-alentes repreacutesenteacutees dans les diffeacuterents scheacutemas Ce problegraveme est accentueacute par le fait que souvent laseacutemantique associeacutee aux entiteacutes repreacutesenteacutees agrave travers les scheacutemas des sources de donneacutees nrsquoest paseacutenonceacutee clairement Par exemple le nom drsquoun attribut et les valeurs qursquoil prend ne suffisent pas agrave deacuteter-miner preacutecisement ce que repreacutesente le couple attributndashvaleur et laisse ainsi une part de liberteacute agrave lrsquoin-terpreacutetation de lrsquoutilisateur Une seacutemantique preacutecise peut ecirctre associeacutee aux attributs et agrave leurs valeurs agravelrsquoaide de descriptions formelles eacutetablies dans une ontologie Une telle association neacutecessite la mise en

4De faccedilon tregraves geacuteneacuterale une annotation est une donneacutees associeacutee agrave une seacutequence constitutive du geacutenome pour permettre soninterpreacutetation par des biologistes

6 Approche et principales contributions 9

correspondance non triviale drsquoune part des scheacutemas des sources de donneacutees et drsquoautre part des conceptset relations deacutefinies dans une ontologie

Le second problegraveme se pose lorsque lrsquoon souhaite utiliser des connaissances de domaine pour guiderlrsquoextraction de connaissances En effet mecircme lorsque les scheacutemas de donneacutees sont associeacutes aux conceptsdrsquoune ontologie les algorithmes de fouille de donneacutees au coeur du processus ne sont pas capables deprendre en consideacuteration cette association De plus si les uniteacutes extraites par la fouille sont de maniegravereassez naturelle reacuteutiliseacutees par lrsquoanalyste lors des iteacuterations successives du processus drsquo il est plus rareque le soient des uniteacutes de connaissances valideacutees et potentiellement formaliseacutees selon une seacutemantiquepreacutecise Cela neacutecessiterait soit lrsquoadaptation des diverses eacutetapes du processus drsquo pour qursquoagrave chaqueeacutetape les connaissances disponibles puissent ecirctre reacuteutiliseacutees soit de proposer des meacutethodes alternativescapables de prendre en entreacutee des donneacutees et des connaissances preacutealablement mises en correspondance

6 Approche et principales contributions

Pour traiter les deux problegravemes deacutegageacutes dans la section preacuteceacutedente nous proposons dans cette thegraveseune approche centreacutee sur une Base de Connaissances (ou ) ie une ontologie agrave laquelle est associeacuteela description drsquoun eacutetat particulier du domaine repreacutesenteacute sous la forme drsquoassertions La premiegravere partiede cette approche consiste agrave reacuteconcilier des donneacutees contenues dans des sources heacuteteacuterogegravenes en les exp-rimant selon les termes de lrsquoontologie La seconde partie de lrsquoapproche consiste agrave extraire de nouvellesconnaissances de la Base de Connaissances en exploitant conjointement les reacutegulariteacutes preacutesentes dansles donneacutees (et conserveacutees dans la Base de Connaissances) et les connaissances du domaines declareacuteesexplicitement dans cette base

Inteacutegration de donneacutees guideacutee par une ontologie Nous avons construit deux ontologies en OWLrelatives aux domaines des variations geacutenomiques et de la pharmacogeacutenomique suivant une meacutethodologierigoureuse Nous proposons une approche drsquointeacutegration de donneacutees qui exploite ces ontologies originalespour guider lrsquointeacutegration des donneacutees relatives agrave ces domaines Les donneacutees et leurs scheacutemas sont utiliseacutespour peupler les Bases de Connaissances associeacutees aux ontologies agrave lrsquoaide de mises en correspondance etde fonctions de transformation entre donneacutees et connaissances Les Bases de Connaissances reacutesultantesoffrent une vue indirecte mais homogegravene sur lrsquoensemble de ces donneacutees et nous a permis entre autresdrsquoeacutevaluer le taux de recouvrement des sources inteacutegreacutees

Extraction de connaissances agrave partir drsquoune Base de Connaissances Nous proposons une meacutethodeoriginale drsquoextraction de connaissances qui utilise la seacutemantique associeacutee aux instances drsquoune Base deConnaissances obtenue suivant lrsquoapproche drsquointeacutegration deacutecrite ci-dessus Cette meacutethode appelleacutee Anal-yse des Assertions de Rocircles srsquoattache agrave explorer les reacutegulariteacutes dans les assertions drsquoune Base de Connais-sances Les uniteacutes de connaissances produites sont exprimeacutees suivant le mecircme formalisme que celui dela Base de Connaissances ce qui permet ensuite leur manipulation par des meacutecanismes de raisonnementpour leur inteacutegration coheacuterente agrave lrsquoensemble des connaissances preacutealables

7 Plan du manuscrit

Ce manuscrit est organiseacute en 4 chapitres Les deux premiers fixent le contexte biologique et lrsquoeacutetat delrsquoart relatifs agrave la probleacutematique de la thegravese Les deux suivants preacutesentent les contributions de la thegravese Laderniegravere partie est une conclusion du travail

10 Introduction

Chapitre 1 Contexte biologique et applicatif Dans ce chapitre nous preacutesentons les notions bi-ologiques utiliseacutes dans la thegravese les relations geacutenotypendashpheacutenotype les variations geacutenomiques et lapharmacogeacutenomique

Chapitre 2 Etat de lrsquoart Ce chapitre preacutesente le processus drsquoExtraction de Connaissances agrave partir

de Bases de Donneacutees () puis deux systegravemes de repreacutesentation des connaissances en rapport avec lescontributions de cette thegravese Il illustre ensuite comment une repreacutesentation des connaissances peut ecirctreutiliseacutee pour guider lrsquoextraction de connaissances tout drsquoabord lors de lrsquoeacutetape drsquointeacutegration de donneacuteespuis plus geacuteneacuteralement lors de chacune des eacutetapes du processus drsquoextraction de connaissances

Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique Ce chapitre preacutesentela premiegravere contribution agrave savoir lrsquoutilisation drsquoontologies originales construites dans le cadre de lathegravese pour lrsquointeacutegration de donneacutees pharmacogeacutenomiques Il est donc deacutedieacute premiegraverement agrave la preacutesen-tation de nos ontologies SNP-Ontology et SO-Pharm et agrave la meacutethode rigoureuse mise en œuvre pourles construire Deuxiegravemement il deacutecrit lrsquoapproche proposeacutee pour inteacutegrer des donneacutees agrave lrsquoaide de cesontologies Troisiegravemement sa derniegravere section preacutesente les expeacuterimentations meneacutees dans le cadre delrsquointeacutegration de donneacutees relatives aux variations geacutenomiques et agrave la pharmacogeacutenomique

Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances Ce chapitredeacutetaille les deuxiegraveme et troisiegraveme contributions de la thegravese agrave savoir deux utilisations originales debases de connaissances pour guider lrsquoextraction de connaissances La premiegravere se concentre sur lrsquoeacute-tape de seacutelection des donneacutees agrave consideacuterer et est illustreacutee par des sceacutenarios de recherche de relationsgeacutenotypendashpheacutenotype La seconde quant agrave elle deacutecrit la meacutethode drsquoAnalyse des Assertions de RocirclesNous proposons par cette meacutethode drsquoextraire des connaissances agrave partir drsquoune Base de ConnaissancesUne expeacuterimentation sur lrsquoextraction de connaissances agrave partir de connaissances en pharmacogeacutenomiquetermine ce chapitre

Conclusion et perspectives Cette derniegravere partie conclut ce travail et en deacutegage les perspectives

Chapitre 1

Contexte biologique et applicatif

Ce chapitre est une introduction aux notions de biologie abordeacutees dans cette thegravese La premiegraveresection deacutefinit les notions de geacutenotype et de pheacutenotype et introduit les relations existant entre ces deuxnotions et lrsquointeacuterecirct de les eacutetudier La deuxiegraveme section preacutesente les variations geacutenomiques qui consistenten des variations de la composition moleacuteculaire du geacutenotype et qui peuvent expliquer des modificationsdu pheacutenotype La troisiegraveme et derniegravere section de ce chapitre preacutesente la pharmacogeacutenomique domainedrsquoapplication de ce travail de thegravese Les probleacutematiques biologiques propres agrave ce domaine motiventnotamment de larges parties de ce travail

1 Geacutenotype et pheacutenotype

11 Deacutefinitions

Le geacutenotype drsquoun individu est lrsquoensemble des donneacutees porteacutees par le geacutenome de cet individu endrsquoautres termes lrsquoensemble de son mateacuteriel geacuteneacutetique Pour la plupart des organismes ce mateacuteriel geacuteneacute-tique est codeacute sous forme de seacutequences drsquoAcide Deacutesoxyribonucleacuteique ou ADN composeacutees par lrsquoenchaicircne-ment de quatre moleacutecules particuliegraveres les nucleacuteotides noteacutes A C G et T (abreacuteviations de leurs nomscomplets Adeacutenine Cytosine Guanine et Thymine) Chez lrsquohomme et les eucaryotes en geacuteneacuteral lrsquoADNest porteacute par les chromosomes eux mecircme situeacutes dans le noyau de chaque cellule Le geacutenotype constitueles donneacutees de bases exploiteacutees par les cellules pour deacutefinir les caractegraveres drsquoun individu

Le pheacutenotype est quant agrave lui lrsquoensemble des traits observables drsquoun individu et reacutesulte de lrsquoexpres-sion de son geacutenotype Il est important de preacuteciser que lrsquoexpression du geacutenotype et donc le pheacutenotype quien reacutesulte sont sensibles agrave lrsquoinfluence de facteurs multiples le moment de la vie lrsquoenvironnement lanutrition le stress la maladie ou un traitement meacutedicamenteux

12 Transcription et traduction premiegraveres eacutetapes de la deacutefinition drsquoun pheacutenotype

Lrsquoexpression du geacutenotype en un ensemble de traits observables se fait suivant deux eacutetapes princi-pales la transcription et la traduction repreacutesenteacutees Figure 11 de faccedilon simple Lrsquouniteacute fonctionnelle dugeacutenome consideacutereacutee par la cellule lors de la transcription est le gegravene qui est donc deacutelimiteacute sur lrsquoADNpar des signaux de deacutebut et de fin de transcription Aussi suivant cette premiegravere eacutetape un gegravene est tran-scrit crsquoest agrave dire converti en une seacutequence de nucleacuteotides dont la composition diffegravere leacutegegraverement decelle de lrsquoADN par le fait que les nucleacuteotides T (les Thymines) sont transcrits en nucleacuteotides U (abreacutevia-tion drsquoUracile) Cette nouvelle moleacutecule appeleacutee ARNm pour Acide Ribonucleacuteique Messager peut sortirdu noyau de la cellule ougrave reste lrsquoADN pour ensuite subir une nouvelle transformation la traduction

11

12 Chapitre 1 Contexte biologique et applicatif

LrsquoARNm est traduit selon la correspondance eacutetablie par le code geacuteneacutetique5 en une seacutequence non plus denucleacuteotides mais drsquoacides amineacutes pour constituer une proteacuteine ou parfois une version preacuteliminaire inac-tive drsquoune proteacuteine La seacutequence drsquoADN qui sert agrave la deacutetermination de la seacutequence drsquoacides amineacutes de laproteacuteine est appeleacutee seacutequence codante Les proteacuteines sont les moleacutecules actives de lrsquoorganisme capablesdrsquointeractions pour reacutealiser des fonctions complexes qui peuvent conduire agrave la composition de multiplestraits constitutifs du pheacutenotype Des technologies comme les puces agrave ADN (microarray en anglais) ou laspectromeacutetrie de masse permettent drsquoobserver de faccedilon qualitative et quantitative les produits de la tran-scription ie le transcriptome et de la traduction ie le proteacuteome A ce titre transcriptome et proteacuteomesont partie inteacutegrante au niveau moleacuteculaire du pheacutenotype

F 11 ndash Repreacutesentation simplifieacutee des deux eacutetapes de transcription et de traduction pour deux seacutequencesdrsquoADN drsquoun gegravene (ie deux allegraveles) hypotheacutetique A (agrave gauche lrsquoallegravele 1 agrave droite lrsquoallegravele 2) ne diffeacuterantqursquoen une seule position En haut de la figure lrsquoADN est repreacutesenteacutee sous sa forme native qui est celledrsquoun double brin dans lequel les nucleacuteotides sont apparieacutes selon les regravegles suivantes A avec T et Cavec G On dit que les deux brins drsquoADN ont des seacutequences compleacutementaires et on parle de paire denucleacuteotides agrave chaque position de la seacutequence Les paires qui distinguent les deux allegraveles sur la figure sontG C pour lrsquoallegravele 1 et T A pour lrsquoallegravele 2 Au cours de la transcription la copie de lrsquoun des brins delrsquoADN produit lrsquoARNm dans lequel la diffeacuterence entre les deux allegraveles est conserveacutee Enfin la traductionconvertit lrsquoARNm en une proteacuteine dont les acides amineacutes sont enchaicircneacutes les uns aux autres en fonction delrsquoordre des triplets sur la seacutequence de lrsquoARNm et selon la correspondance donneacutee par le code geacuteneacutetiqueLa diffeacuterence drsquoun nucleacuteotide entre les deux ARNm est ainsi lue comme une diffeacuterence entre deux tripletsGGC et GUC qui produit une diffeacuterence entre les proteacuteines traduites une diffeacuterence drsquoacide amineacute Gly(Glycine) en Val (Valine) Ainsi des geacutenotypes diffeacuterents porteacutes par lrsquoADN sont exprimeacutes gracircce au doubleprocessus de transcription-traduction en deux proteacuteines diffeacuterentes qui pourront ecirctre responsables de deuxpheacutenotypes diffeacuterents au niveau des fonctionnaliteacutes drsquoune cellule drsquoun organe ou drsquoun organisme

13 Les relations geacutenotypendashpheacutenotype

Lrsquoeacutetude des relations entre geacutenotype et pheacutenotype remonte aux expeacuteriences du moine Mendel en1853 En croisant des souches de petits pois lisses ou rideacutes il mit en eacutevidence la transmission heacutereacuteditaire

5Le code geacuteneacutetique eacutelucideacute dans les anneacutees 60 met en correspondance de faccedilon non ambigueuml mais redondante les 64triplets de nucleacuteotides que lrsquoon peut former agrave partir des 4 nucleacuteotides constitutifs des ARNm (A C G U) et les 20 acidesamineacutes constitutifs des proteacuteines (httpenwikipediaorgwikiGenetic_code) Les triplets (ou codons) sont ainsilus et deacutecodeacutes par la machinerie cellulaire de biosynthegravese des proteacuteines qui enchaicircne les uns aux autres les acides amineacutescorrespondants selon lrsquoordre deacutefini par la seacutequence de lrsquoARNm Le site de deacutemarrage de la traduction sur une seacutequence drsquoARNmest le plus souvent deacutetermineacute par le triplet drsquoinitiation AUG La traduction srsquoarrecircte lorsque la machinerie cellulaire rencontreun triplet dit non-sens qui ne correspond agrave aucun acide amineacute (UAA UAG ou UGA)

1 Geacutenotype et pheacutenotype 13

de facteurs geacuteneacutetiques ie le geacutenotype responsable de lrsquoapparition de traits observables ie le pheacuteno-type Au deacutebut du XXiegraveme siegravecle le biologiste Morgan fonda la theacuteorie chromosomique de lrsquoheacutereacutediteacuteen associant des alteacuterations visibles des chromosomes geacuteants drsquoune espegravece de mouche (Drosophila

melanogaster) agrave des modifications du pheacutenotype (yeux blancs au lieu de rouges) Ensuite les micro-biologistes Griffith et Avery en 1928 deacutemontregraverent en manipulant deux souches de pneumocoques que lamoleacutecule drsquoADN eacutetait le support du mateacuteriel geacuteneacutetique Ces trois deacutecouvertes novatrices de la geacuteneacutetiqueont ouvert la voie agrave lrsquoeacutetude des relations geacutenotypendashpheacutenotype qui vise agrave comprendre la part deacutetermineacuteepar le mateacuteriel geacuteneacutetique dans les traits qui composent un individu

En meacutedecine lrsquoeacutetude des relations geacutenotypendashpheacutenotype a donneacute lieu agrave lrsquoexploration du domaine desmaladies geacuteneacutetiques Un exemple classique drsquoune telle maladie est la dreacutepanocytose causeacutee par la mod-ification ou mutation drsquoun seul nucleacuteotide sur le gegravene de lrsquoheacutemoglobine Cette mutation observeacutee chezles individus malades entraicircne une anomalie dans la proteacuteine heacutemoglobine alors responsable de la dreacute-panocytose Les conseacutequences au niveau du pheacutenotype peuvent ecirctre observeacutees agrave lrsquoeacutechelle microscopiqueagrave commencer par la structure anormale de la proteacuteine puis la deacuteformation des globules rouges qursquoelleinduit Les conseacutequences de celles-ci sont observeacutees agrave une eacutechelle macroscopique crsquoest le cas drsquoocclu-sions des capillaires sanguins provoqueacutees par la forme anormale (en faucille) des globules rouges ouencore une reacutesistance agrave la malaria eacutegalement expliqueacutee par cette forme originale

Les technologies drsquoexploration des geacutenomes transcriptomes et proteacuteomes permettent lrsquoacquisitionde nouvelles connaissances sur la seacutequence du geacutenome et sur la reacuteelle complexiteacute des meacutecanismes dereacutegulation de son expression En effet les relations geacutenotypendashpheacutenotype sont plus compliqueacutees qursquoil nrsquoapu paraicirctre dans un premier temps Ainsi il faut souvent que coexistent plusieurs facteurs geacuteneacutetiquespour expliquer un trait du pheacutenotype [vHY04] Parmi ces facteurs geacuteneacutetiques certains ont des rocirclesmodulateurs parfois indirects sur le pheacutenotype De plus le pheacutenotype associeacute agrave une maladie peut reacutesulterde la co-occurence complexe de nombreux traits ou signes cliniques (crsquoest notamment le cas du syndrome

meacutetabolique [Mau06]) Dans ce cas lrsquoapparition de chaque signe clinique composant le pheacutenotype peutecirctre associeacutee agrave de multiples facteurs drsquoorigine geacuteneacutetique chacun soumis agrave lrsquointeraction drsquoautres facteursgeacuteneacutetiques mais eacutegalement agrave celle de facteurs environnementaux et comportementaux

La caracteacuterisation des relations geacutenotypendashpheacutenotype constitue lrsquoun des enjeux majeurs de la geacutenomiqueEn effet son objectif ne se limite pas agrave lrsquoeacutetude du geacutenome comme entiteacute isoleacutee mais srsquoeacutetend agrave lrsquoeacuteluci-dation des relations complexes qui existent entre la seacutequence et la structure du mateacuteriel geacuteneacutetique et ledeacuteploiement des fonctions des moleacutecules biologiques dans la cellule et lrsquoorganisme

14 Les sources de donneacutees et les vocabulaires controcircleacutes relatifs aux relations geacutenotypendashpheacutenotype

Nous distinguons ici deux cateacutegories de sources de donneacutees reacutepertoriant des relations geacutenotypendashpheacutenotype Premiegraverement des sources constitueacutees sur la base de publications scientifiques rapportant desrelations geacutenotypendashpheacutenotype et deuxiegravemement des sources regroupant des jeux de donneacutees brutes quiont permis de deacuteriver de telles relations Les deux sources eacutevoqueacutees ci-dessous illustrent respectivementces deux cateacutegories

OMIM La base de donneacutees OMIM6 (Online Mendelian Inheritance in Man) regroupe de nombreusesdonneacutees sur les relations geacutenotypendashpheacutenotype mises en eacutevidence dans le cadre de lrsquoeacutetude des maladiesgeacuteneacutetiques La plupart des entreacutees drsquoOMIM deacutecrivent soit un gegravene et deacutetaillent alors son implicationdans une ou plusieurs maladies soit une maladie et deacutetaillent les rocircles respectifs dans celle-ci de un ouplusieurs gegravenes Le contenu de cette base de donneacutees est relativement peu structureacute puisque ses entreacutees se

6httpwwwncbinlmnihgovomim

14 Chapitre 1 Contexte biologique et applicatif

composent de textes courts en langage naturel reacutepartis en diffeacuterentes cateacutegories (entre autres signes clin-iques mode de transmission explication moleacuteculaire correacutelations geacutenotypendashpheacutenotype) OMIM srsquoap-puie sur les publications scientifiques deacutecrivant ces associations et reacutesulte drsquoun travail de collecte initieacutedans les anneacutees 60 drsquoabord sous la forme drsquoun catalogue papier [McK98]

dbGaP Une source de donneacutees apparue plus reacutecemment est dbGaP7(database of Genotype and Pheno-

type) dont lrsquoobjectif est le regroupement et le partage de jeux de donneacutees reacutecolteacutes pour mettre en eacutevidencedes associations geacutenotypendashpheacutenotype [MFJ+07]

Une limite actuelle de ces ressources est la faible structuration des donneacutees et notamment celle destermes utiliseacutes pour deacutecrire la notion complexe de pheacutenotype En effet la description drsquoun pheacutenotype estconstruite sur des observations soumises agrave la subjectiviteacute de lrsquoobservateur Lrsquoun des objectifs de dbGaPest de reacuteduire ce biais gracircce agrave la mise agrave disposition des donneacutees brutes dont sont issues les descriptionsdes pheacutenotypes De faccedilon compleacutementaire une maniegravere drsquohomogeacuteneacuteiser la description de pheacutenotypes estde proposer un vocabulaire de reacutefeacuterence (ou vocabulaire controcircleacute) dont les termes pourront ecirctre utiliseacuteset composeacutes pour deacutecrire de faccedilon structureacutee un pheacutenotype Suivant cet objectif diffeacuterents groupes derecherche srsquoemploient agrave construire des vocabulaires plus ou moins consensuels pour permettre une de-scription homogegravene des pheacutenotypes Crsquoest par exemple le cas des vocabulaires controcircleacutes PATO8 Mam-

malian Phenotype9 ou Plant Trait10

7httpwwwncbinlmnihgovsitesentrezdb=gap8httpbioontologyorgwikiindexphpPATOMain_Page9httpwwwinformaticsjaxorgsearchesMP_formshtml

10httpwwwgrameneorgplant_ontology

2 Les variations geacutenomiques 15

2 Les variations geacutenomiques

Au sein drsquoune mecircme espegravece le geacutenome preacutesente de grandes similitudes crsquoest pourquoi on parle parexemple du geacutenome humain ou du geacutenome de la mouche agrave fruit (Drosophila melanogaster) Cepen-dant chaque ecirctre humain preacutesente une version unique de ce geacutenome humain11 Pour donner un ordre degrandeur certains auteurs estiment agrave 999 le taux de nucleacuteotides12 similaires parmi les 32 milliardsqui composent le geacutenome humain ce qui signifie que le 01 restant suffit agrave deacuteterminer les diffeacuterencesentre les ecirctres humains [KN01]

21 Deacutefinitions

Les variations geacutenomiques sont des reacutegions du geacutenome clairement localiseacutees dont la composition ennucleacuteotides est susceptible de varier entre les individus drsquoune mecircme espegravece

La notion drsquoallegravele correspond agrave la version drsquoun gegravene et par extension agrave la version drsquoune variationgeacutenomique Les organismes diploiumldes comme lrsquoecirctre humain possegravedent deux versions diffeacuterentes dugeacutenome une premiegravere heacuteriteacutee de la megravere et une deuxiegraveme du pegravere Aussi un ecirctre humain est susceptiblede porter deux versions diffeacuterentes ie deux allegraveles diffeacuterents de chaque gegravene Si deux allegraveles distinctspeuvent ecirctre porteacutes par un mecircme individu de nombreuses autres versions peuvent ecirctre observeacutees chezdes individus distincts Les parties gauche et droite de la Figure 11 montrent deux allegraveles drsquoun mecircmegegravene dont la diffeacuterence repose sur la substitution drsquoun seul nucleacuteotide un A agrave gauche et un C agrave droite13

La majeure partie des variations geacutenomiques (plus de 90) se limite agrave la variation drsquoun seul nu-cleacuteotide entre deux allegraveles Ce type particulier de variation est appeleacute Single Nucleotide Polymorphism

en anglais ou SNP [KN01] ie au sens strict un substitution drsquoun seul nucleacuteotide dont la freacutequence estsupeacuterieure agrave 1 dans la population dans laquelle il est eacutetudieacute Dans cette thegravese nous ne ferons pas cettedistinction tregraves deacutependante de lrsquoeacutechantillon des individus observeacutes et appellerons variation geacutenomiqueou variant lrsquoensemble des variations inter-individuelles du geacutenome et SNP les variations ponctuelles sansprendre en consideacuteration leur freacutequence En revanche nous eacuteviterons le terme mutation heacuteriteacute de lrsquoeacutetudedes maladies geacuteneacutetiques et qui agrave ce titre correspond agrave une variation geacutenomique associeacutee agrave la survenuedrsquoune maladie

22 Les sources de donneacutees relatives aux variations geacutenomiques

Les meacutethodes de seacutequenccedilage et drsquohybridation moleacuteculaire permettent lrsquoacquisition agrave haut deacutebit dedonneacutees relatives aux variations inter-individuelles drsquoun geacutenome Les donneacutees reacutesultant de ce genre drsquo-analyse du geacutenome sont stockeacutees et parfois partageacutees dans diverses bases de donneacutees dont le contenu serecouvre partiellement Certaines de ces bases relatives agrave lrsquoecirctre humain sont preacutesenteacutees ci-apregraves

dbSNP La base de donneacutees dbSNP14 du NCBI contient plus de 9 millions de variations geacutenomiqueshumaines et constitue la plus grande source de variations disponible sur le Web [SWK+01] En plus decontenir les variations qui lui sont directement soumises dbSNP integravegre des donneacutees provenant drsquoautres

11Abstraction faite des clones et des vrais jumeaux12Pour ecirctre exact il srsquoagit de paires de nucleacuteotides puisque lrsquoADN est composeacute drsquoun double brin de nucleacuteotides compleacutemen-

taires13Pour ecirctre exact il srsquoagit de la substitution des paires de nucleacuteotides compleacutementaires A-T et C-G Par convention seul

le nucleacuteotide du brin sens est utiliseacute pour deacutecrire lrsquoallegravele Ce brin sens est celui dont la seacutequence est transcrite en ARNm puistraduite pour donner la proteacuteine

14httpwwwncbinlmnihgovprojectsSNP

16 Chapitre 1 Contexte biologique et applicatif

grandes bases de donneacutees de variations geacutenomiques comme les bases NCI CGAP-GAI15 HGVBase16HapMap17 Perlgen18 Une fois inteacutegreacutees agrave dbSNP certaines de ces bases sont ameneacutees agrave disparaicirctre Unavantage strateacutegique de dbSNP est de faire partie inteacutegrante des bases de donneacutees du NCBI (avec entreautres GenBank PubMed Gene Human Genome Project Data) et agrave ce titre drsquoecirctre interrogeable par lesystegraveme feacutedeacutereacute Entrez [Bax06] Lrsquoalimentation de dbSNP par des processus automatiques le manquedrsquoannotations manuelles des entreacutees rendent ineacutegales la qualiteacute et la validation des donneacutees qursquoelle con-tient [MZCC04] Il est important de noter que malgreacute son nom dbSNP ne reacutepertorie pas seulement lesSNP comme ils sont deacutefinis au sens strict ie la substitution drsquoun seul nucleacuteotide dont la freacutequence estsupeacuterieur agrave 1 En effet dbSNP reacutepertorie les polysubstitutions les insertionsdeacuteleacutetions et les variationsplus complexes quelque soit leur freacutequence drsquoobservation dans les populations

OMIM Comme deacutecrit dans la section 14 de ce chapitre OMIM contient des donneacutees relatives auxallegraveles de gegravenes impliqueacutes dans des maladies geacuteneacutetiques La description moleacuteculaire des diffeacuterencesentre allegraveles est ineacutegale selon les entreacutees De faccedilon encore assez rare certains allegraveles reacutepertorieacutes dansOMIM sont relieacutes agrave la variation geacutenomique correspondante reacutepertorieacutee par dbSNP

Les bases de donneacutees locus speacutecifiques De nombreuses bases de donneacutees locus speacutecifiques ie rel-atives uniquement aux variations drsquoun locus19 se sont deacuteveloppeacutees de faccedilon indeacutependante Celles-cicontiennent le plus souvent les reacutesultats drsquoinvestigations drsquoun groupe de recherche biomeacutedicale (voirdrsquoun consortium) speacutecialiseacute dans lrsquoeacutetude drsquoun gegravene drsquoune fonction biologique ou drsquoune maladie geacuteneacute-tique Les initiatives intituleacutees HGMD20 (Human Gene Mutation Database) et The Way Station21 tententde feacutedeacuterer et de rendre public le contenu de ces nombreuses bases speacutecialiseacutees [GSC+08]

23 Heacuteteacuterogeacuteneacuteiteacute des donneacutees relatives aux variations geacutenomiques

Une variation geacutenomique est localiseacutee sur une position preacutecise drsquoune seacutequence geacutenomique (ie

drsquoADN) Cependant lorsqursquoelle affecte une reacutegion transcrite la variation est propageacutee sur la seacutequencetranscrite (drsquoARN) et si elle affecte une reacutegion codante elle est propageacutee eacutegalement dans la proteacuteine(seacutequence drsquoacides amineacutes) Ceci est illustreacute dans la Figure 11 Les bases de donneacutees biologiquesrepreacutesentent indiffeacuteremment les variations sur lrsquoADN lrsquoARN ou les proteacuteines en fonction souvent dutype de seacutequence sur lequel elles ont eacuteteacute observeacutees De fait ces bases repreacutesentent aussi bien la variationoriginale que ses reacutepercussions En guise drsquoillustration la substitution drsquoune guanine en une thyminepeut ecirctre repreacutesenteacutee par GT dans une seacutequence drsquoADN GGCGTC dans le codon concerneacute gu danslrsquoARN correspondant GlyVal dans la proteacuteine traduite Drsquoune faccedilon similaire les repreacutesentations de laposition de la variation diffegraverent drsquoune base de donneacutees agrave lrsquoautre en fonction de la seacutequence de reacutefeacuterenceet de la version de cette seacutequence Pour exemple la substitution GT est localiseacutee agrave la position 11 087877 sur la seacutequence geacutenomique du chromosome 19 dont le numeacutero drsquoaccession dans la base de donneacuteesRefSeq22 est NC_000019 agrave la position 2 489 679 dans la seacutequence du contig NT_011295 et agrave la position565 dans la proteacuteine NP_000518 (sur le second nucleacuteotide du codon qui code pour le 565iegraveme acide am-ineacute) La mecircme substitution peut eacutegalement ecirctre localiseacutee agrave la position 26 747 dans une seacutequence associeacuteeau gegravene LDLR ou encore agrave la position 108 dans le onziegraveme exon de ce gegravene

15httpgaincinihgovcgap-gai16httpwwwhgvbaseg2porgindex17httpwwwhapmaporg18httpgenomeperlegencom19Un locus est une reacutegion deacutetermineacutee sur le geacutenome pouvant contenir aucun un ou plusieurs gegravenes20httpwwwhgmdcfacuk21httpwwwcentralmutationsorg22httpwwwncbinlmnihgovRefSeq

2 Les variations geacutenomiques 17

En plus des multiples reacutefeacuterentiels utiliseacutes pour deacutecrire les variations srsquoajoute lrsquoutilisation drsquoidentifi-ants (ou numeacuteros drsquoaccession) propres agrave chaque base de donneacutees Ainsi la variation deacutecrite preacuteceacutedem-ment est identifieacutee dans dbSNP comme le polymorphisme rs28942082 Une syntaxe geacuteneacuterique est recom-mandeacutee par la Socieacuteteacute pour lrsquoeacutetude des Variation du Geacutenome Humain23 (HGVS pour Human Genome

Variation Society) selon laquelle notre variation est deacutecrite par lrsquoexpression suivante

NC_0000198g11087877GgtT

ougrave NC_0000198 est le numeacutero drsquoaccession unique dans RefSeq de la seacutequence utiliseacutee pour positionnerle variant la lettre lsquogrsquo signifie que la seacutequence en question est geacutenomique par opposition agrave lsquoprsquo utiliseacuteepour les seacutequences proteacuteiques 11087877 correspond agrave la position dans la seacutequence de reacutefeacuterence et GgtTdeacutecrit la variation de nucleacuteotide observeacutee [dDA00] En pratique lrsquoutilisation de cette nomenclature estrestreinte agrave certains auteurs qui lrsquoutilisent pour deacutecrire les variations de faccedilon univoque dans le texte deleurs publications scientifiques Drsquoautres nomenclatures lieacutees au contexte historique de lrsquoobservation desvariations persistent agrave la fois dans la litteacuterature et les bases de donneacutees Par exemple notre variant estpreacutesenteacute dans OMIM comme la variation FH NAPLES ou ldquoLDLR Gly544Valrdquo crsquoest agrave dire selon desdescriptions associeacutees aux circonstances de sa premiegravere observation

Enfin les bases de donneacutees priveacutees ou les bases de donneacutees locus speacutecifiques utilisent encore drsquoautresnotations dites non-conventionnelles qui viennent grossir le nombre de descriptions possibles pour unemecircme variation La Figure 12 illustre les nombreuses faccedilons de deacutesigner une variation geacutenomique dansles bases de donneacutees publiques et priveacutees

c

d

b

a

NP_000518pG564V

CCDS122541c1694GgtT

NM_0005272c1787GgtT

NT_0000198g24897679GgtT

Chr1911087877 GT

Chr1911087877minus11087877 GT

nonminusconventionellesNotations

Syntaxe HGVS

au genomeminusbrowserSyntaxe similaire

Identifiants de basesde donneacutees publiques

LDLR11EXON108Thetero

LDLR Gly564Val

rldl11108exonGT

LDLR Gly544Val

0014 FH NAPLES (dans OMIM)

rs28942082 (dans dbSNP)

PA123456 (dans PharmGKB)

F 12 ndash Diverses descriptions ou reacutefeacuterences pour une mecircme variation geacutenomique

Lrsquoune des raisons expliquant lrsquoheacuteteacuterogeacuteneacuteiteacute de ces descriptions est leur origine (1) certains pro-jets de seacutequenccedilage identifient de faccedilon exhaustive les zones variables drsquoun geacutenome ou de lrsquoune de sesportions (2) tandis que drsquoautres eacutetudes plus cibleacutees identifient ponctuellement des mutations geacuteneacutetiquesie des variations eacutetroitement associeacutees agrave la survenue drsquoune pathologie [Bar02] Lrsquoidentification de mu-tations geacuteneacutetiques a deacutebuteacute preacutealablement agrave lrsquoeacutemergence des meacutethodes de seacutequenccedilage et a abouti agrave laconstitution de nombreuses bases de donneacutees speacutecialiseacutees et riches dont le spectre se limite aux mutationsassocieacutees agrave un locus ou une maladie

Lrsquoeacutevaluation preacutecise du recouvrement des contenus des bases de donneacutees de variations geacutenomiquesest crucial dans le cadre du deacuteveloppement de diagnostics geacuteneacutetiques et de lrsquoexploration du variome (ie

23httpwwwhgvsorgrechtml

18 Chapitre 1 Contexte biologique et applicatif

lrsquoensemble des variations du geacutenome humain) [dDP03 RKC06 Spe08] Cette tacircche est rendue partic-uliegraverement deacutelicate en raison du nombre important de descriptions diffeacuterentes et pourtant eacutequivalentes

24 Les haplotypes

Un haplotype est un ensemble drsquoallegraveles de SNP (et eacuteventuellement de gegravenes) voisins transmis con-jointement agrave travers les geacuteneacuterations Les haplotypes sont des constructions statistiques eacutetablies sur unepopulation donneacutee et obtenues par lrsquoestimation des deacuteseacutequilibres de liaison entre les allegraveles de SNPvoisins Bien qursquoelles soient artificielles ces constructions reflegravetent la reacutealiteacute biologique selon laquelle lemateacuteriel geacuteneacutetique est transmis drsquoune geacuteneacuteration agrave lrsquoautre par blocs de seacutequences geacutenomiques[Con05]Ainsi les variations geacutenomiques preacutesentes sur un mecircme bloc preacutesentent des valeurs qui sont lieacutees lesunes aux autres au fil des geacuteneacuterations En drsquoautres termes on nrsquoobserve pas une distribution aleacuteatoiredes valeurs prises par les allegraveles au sein de ces blocs de seacutequences geacutenomiques mais au contraire unnombre fini de combinaisons de ces valeurs Partant de ce principe ces blocs sont reconstruits agrave partir delrsquoobservation dans une population de groupes drsquoallegraveles associeacutes pour des variations qui sont physique-ment proches sur une seacutequence drsquoADN La Figure 13 illustre la notion drsquohaplotype et comment ils sontcomposeacutes agrave partir des allegraveles preacutesenteacutes par des SNP voisins

F 13 ndash Haplotypes tag-SNP et leur composition agrave partir des allegraveles de SNP voisins sur diffeacuterentesversions drsquoun mecircme chromosome Source http wwwhapmaporg

Le fait qursquoun haplotype soit ainsi composeacute drsquoun ensemble associeacute drsquoallegraveles rend possible la distinc-tion de certains allegraveles particuliers dont le geacutenotypage suffit agrave deacuteterminer les allegraveles preacutesenteacutes par le blocde variations impliqueacutees dans lrsquohaplotype Des outils statistiques permettent drsquoidentifier ces SNP parti-culiers appeleacutes tag-SNP qui reacutesument au mieux la composition drsquoun haplotype et de le distinguer desautres haplotypes observeacutes sur un mecircme bloc Des exemples de tag-SNP sont repreacutesenteacutes Figure 13

HapMap est un projet de cartographie des haplotypes humains agrave partir du geacutenotypage de variationsgeacutenomiques dans 5 populations distinctes [Con03] Les variations observeacutees ainsi que leur freacutequencedrsquoobservation sont disponibles dans la base de donneacutees associeacutee au projet24 Ces donneacutees sont util-iseacutees pour construire les haplotypes et identifier les tag-SNP agrave lrsquoaide par exemple de lrsquooutil HaploView

[BFMD05]

24httpwwwhapmaporg

2 Les variations geacutenomiques 19

La notion drsquohaplotype est freacutequemment utiliseacutee pour reacuteduire le nombre de variations geacutenomiques agraveanalyser dans des eacutetudes (notamment sur les relations geacutenotypendashpheacutenotype) qui srsquointeacuteressent aux varia-tions de larges portions du geacutenome En effet lrsquoidentification et le geacutenotypage des seuls tag-SNP permet-tent de repreacutesenter les variations de blocs complets du geacutenome et ainsi de reacuteduire le nombre de variationsgeacutenomiques agrave analyser Lrsquoallegravele preacutesenteacute par chaque variation membre drsquoun haplotype peut par la suiteecirctre deacuteduit agrave partir de lrsquoallegravele des tag-SNP et de la composition des haplotypes

20 Chapitre 1 Contexte biologique et applicatif

3 La pharmacogeacutenomique

La reacuteponse agrave un traitement meacutedicamenteux est un pheacutenotype particulier qui lui aussi est soumis agravelrsquoinfluence des facteurs geacuteneacutetiques La pharmacogeacutenomique srsquoattache agrave eacutetudier ces facteurs geacuteneacutetiquesparticuliers et la faccedilon avec laquelle ils influencent la reacuteponse aux meacutedicaments

31 Deacutefinition

La pharmacogeacutenomique est lrsquoeacutetude de lrsquoensemble des gegravenes ayant une influence sur la pharmacolo-gie elle srsquointeacuteresse notamment aux manifestations des variations geacutenomiques de ces gegravenes agrave lrsquointeractionde ces variations dans la production drsquoun pheacutenotype et agrave lrsquoinfluence drsquoun tel pheacutenotype sur la reacuteponse agraveun meacutedicament [AK02] Scheacutematiquement la pharmacogeacutenomique peut ecirctre repreacutesenteacutee comme lrsquoeacutetudedes relations ternaires existant entre un traitement meacutedicamenteux un geacutenotype et un pheacutenotype (Fig-ure 4) Selon cette repreacutesentation il est possible de consideacuterer le traitement meacutedicamenteux comme unfacteur exteacuterieur venant influencer la relation geacutenotypendashpheacutenotype

Lrsquoideacutee selon laquelle les gegravenes influencent la reacuteponse aux meacutedicaments date des anneacutees 50 durantlesquelles il fut observeacute que des reacuteponses particuliegraveres aux meacutedicaments pouvaient ecirctre transmises au seindrsquoune mecircme famille ou eacutetaient plus freacutequentes au sein de certaines ethnies Depuis des eacutetudes statistiquesfamiliales et biochimiques ont renforceacute cette hypothegravese [ER04] Cependant crsquoest seulement en 1988 quelrsquoinfluence drsquoune variation dans la seacutequence drsquoADN drsquoun gegravene sur le meacutetabolisme drsquoun meacutedicament aeacuteteacute mise en eacutevidence [GSK+88] De nombreuses variations geacutenomiques ont par la suite eacuteteacute isoleacutees etassocieacutees agrave des effets diffeacuterents drsquoun mecircme meacutedicament La faciliteacute grandissante agrave caracteacuteriser les vari-ations geacutenomiques inter-individuelles stimule lrsquoinvestigation de la dimension geacuteneacutetique dans les essaiscliniques des meacutedicaments Certains gegravenes impliqueacutes dans les principales voies biologiques de transportou drsquoeacutelimination des meacutedicaments sont plus particuliegraverement analyseacutes

Suivant cette eacutevolution historique lrsquoeacutetude initiale des caractegraveres heacutereacuteditaires associeacutes agrave la pharma-cologie fut appeleacutee pharmacogeacuteneacutetique Lrsquoeacutemergence de la geacutenomique a conduit agrave lrsquoapparition du con-cept de pharmacogeacutenomique avec lrsquoideacutee que la geacutenomique offre la possibiliteacute drsquoeacutetudier lrsquoorigine et lesconseacutequences des caractegraveres heacutereacuteditaires au niveau moleacuteculaire

Un exemple drsquointeraction pharmacogeacutenomique deacutecrite par Desmeules et al [DGDM91] et Gascheet al [GDF+04] est lrsquoinfluence des variations du gegravene CYP2D6 dans la reacuteponse agrave un traitement decodeacuteine La codeacuteine est un opiaceacute prescrit entre autres pour son pouvoir analgeacutesique La codeacuteine estphysiologiquement meacutetaboliseacutee dans le foie en morphine responsable de son effet analgeacutesique Il ex-iste plusieurs versions fonctionnelles du gegravene CYP2D6 dont les produits agissent diffeacuteremment sur latransformation de codeacuteine en morphine et permettent de distinguer plusieurs cateacutegories drsquoindividus (5)

ndash les meacutetaboliseurs lents porteurs de variants agrave activiteacute faible par exemple Chr22 40856638CgtTet Chr22 40854891GgtA

ndash les meacutetaboliseurs rapides porteurs de variants agrave activiteacute normale ou forte Chr22 40853887CgtTet les versions consideacutereacutees normales des variations associeacutees

ndash les meacutetaboliseurs ultra-rapides porteurs de copies multiples de variants agrave activiteacute normale ouforte)

Les meacutetaboliseurs lents sont incapables de meacutetaboliser efficacement la codeacuteine en morphine et enconseacutequence ne preacutesentent pas lrsquoeffet analgeacutesique attendu Les meacutetaboliseurs ultra-rapides quant agrave euxmeacutetabolisent la codeacuteine avec une efficaciteacute accrue qui entraicircne une intoxication agrave la morphine

En pharmacogeacutenomique le pheacutenotype est eacutegalement deacutependant de la dose de meacutedicament admin-istreacutee Ainsi suivant notre exemple une dose plus eacuteleveacutee de codeacuteine peut entraicircner un effet analgeacutesiquechez les meacutetaboliseurs lents et un effet toxique chez les meacutetaboliseurs rapides De nombreux exemplesdrsquointeractions de ce type peuvent ecirctre trouveacutes dans lrsquoouvrage Pharmacogenetics de Weber [Web97]

3 La pharmacogeacutenomique 21

Certains des enjeux meacutedicaux et industriels de la pharmacogeacutenomique ont eacuteteacute abordeacutes dans lrsquoin-troduction de cette thegravese Les reacutefeacuterences suivantes [Flo05 NMG05 WMF+08] preacutecisent ces enjeux etpreacutesentent les perspectives actuelles de la pharmacogeacutenomique

32 Les sources de donneacutees relatives agrave la pharmacogeacutenomique

OMIM Les entreacutees de la base de donneacutees OMIM contiennent certaines donneacutees pharmacogeacutenomiquesEn effet dans OMIM les reacuteactions adverses agrave des meacutedicaments qui ont une origine geacuteneacutetique sontconsideacutereacutees au mecircme titre que des maladies geacuteneacutetiques classiques

PharmGKB PharmGKB25 (PharmacoGenomics Knowledge Base) est la principale source de don-neacutees publique pour la pharmacogeacutenomique [HBWCH+08] PharmGKB reacutepertorie tout drsquoabord des don-neacutees sur les relations entre meacutedicament pheacutenotype et gegravenes donneacutees qui sont extraites manuellementde la litteacuterature De plus PharmGKB contient des donneacutees sur les variations geacutenomiques les reacuteseauxmeacutetaboliques impliqueacutes dans ces relations et des jeux de donneacutees reacuteelles mecirclant les donneacutees cliniqueset geacuteneacutetiques de patients qui illustrent des eacuteleacutements de connaissance pharmacogeacutenomique A ce titrePharmGKB peut ecirctre consideacutereacutee comme une source de donneacutee particuliegravere de variations geacutenomiques etde relations geacutenotypendashpheacutenotype Une partie des variations geacutenomiques reacutepertorieacutees dans PharmGKBest relieacutee aux variations correspondantes dans dbSNP mais un nombre eacutegalement important de celles-cisont soumises directement agrave PharmGKB et nrsquoont pas de correspondant dans les autres bases de donneacutees

F 14 ndash Repreacutesentation originale du scheacutema repreacutesentant les diffeacuterentes cateacutegories (CO PD PK FAGN) associeacutees aux donneacutees de PharmGKB et leurs principales associations (doubles flegraveches noires)Source http wwwpharmgkborg

Le scheacutema figurant sur la page drsquoaccueil de PharmGKB et reproduit Figure 14 illustre assez bienla faccedilon selon laquelle sont associeacutees entre elles les donneacutees de PharmGKB et leur organisation endiffeacuterentes cateacutegories

ndash CO manifestations cliniques ou en anglais Clinical Outcomendash PD Pharmacodynamique et reacuteponse au meacutedicament en anglais Pharmacodynamics and Drug

responsesndash PK Pharmacocineacutetique en anglais PharmacoKinetics

25httpwwwpharmgkborg

22 Chapitre 1 Contexte biologique et applicatif

ndash FA Tests fonctionnels agrave lrsquoeacutechelle moleacuteculaire et cellulaire en anglais molecular and cellular

Functional Assaysndash GN Geacutenotype en anglais GenotypePharmGKB contenait en janvier 2008 des relations manuellement annoteacutees entre plus de 600 gegravenes

porteurs de variations 450 maladies et 500 meacutedicaments [HBWCH+08] Lrsquoameacutelioration continue desannotations relatives aux reacuteseaux meacutetaboliques lrsquoenrichissement de celles relatives aux variations geacuteno-miques la mise en correspondance des variations geacutenomiques reacutepertorieacutees avec celles drsquoautres sources(dbSNP par exemple) et le deacuteveloppement de nouvelles campagnes drsquoinvestigations cliniques pour al-imenter les jeux de donneacutees et lrsquoeacutetat des connaissances [ORT08] font de PharmGKB une source quifeacutedegravere et stimule la recherche en pharmacogeacutenomique

4 Inteacuterecirct de lrsquoutilisation de connaissances en pharmacogeacutenomique

Les initiateurs de PharmGKB preacutevoyaient agrave lrsquoorigine du projet la constitution non pas drsquoune basede donneacutees relationnelle mais drsquoune base de connaissances srsquoappuyant sur un langage de repreacutesentationdes connaissances et associeacutee agrave des meacutecanismes de raisonnement (comme nous le preacutesentons chapitre2 section 23) [ORS+02] Face aux difficulteacutes de mise en œuvre drsquoune telle approche une architecturerelationnelle plus classique a finalement eacuteteacute adopteacutee Nous pensons qursquoune approche agrave base de con-naissances comme celle initialement preacutevue pour PharmGKB preacutesente un inteacuterecirct particulier pour cedomaine

Lrsquoeacutetat des connaissances en pharmacogeacutenomique devrait beacuteneacuteficier des donneacutees issues de lrsquoexplo-ration du geacutenome En effet des masses de donneacutees pertinentes pour ce domaine sont disponibles reacutesul-tantes de lrsquoeacutetude des variations geacutenomique des relations geacutenotypendashpheacutenotype ou encore de la pharma-cologie (voir par exemple les sources de donneacutees preacutesenteacutees dans les diffeacuterentes sections de ce chapitre)Cependant lrsquointeraction entre ces sous-domaines nrsquoa pas forcement eacutetait consideacutereacutee lors de leur explo-ration ou de la constitution des sources de donneacutees associeacutees Ainsi il reste deacutelicat drsquoanalyser des reacutesul-tats drsquoeacutetudes pharmacogeacutenomiques en prenant en consideacuteration simultaneacutement les donneacutees associeacutees agravechacun de ces sous-domaines

De plus les meacutethodes drsquoanalyses les plus utiliseacutees dans le cadre de la pharmacogeacutenomique demeureles meacutethodes statistiques classiquement utiliseacutes pour les essais cliniques (les tests de correacutelation de reacute-gression le deacuteseacutequilibre de liaison par exemple [HJ02]) Ces derniers preacutesentent des inteacuterecircts certainsmais ne permettent pas toujours drsquoappreacutecier ou drsquoexplorer les larges volumes de donneacutees interconnecteacuteestels que les bases de donneacutees biologiques ou les reacutesultats drsquoune eacutetude incluant le geacutenotypage de lrsquoensem-ble du geacutenome drsquoun panel de patient [YHTL08]

Lrsquoun des deacutefis de la pharmacogeacutenomique est justement de prendre en consideacuteration de larges vol-umes de donneacutees issues de diffeacuterents sous-domaines speacutecialiseacutes et interconnecteacutes pour leur associer unsens [AK02] Gaines titre lrsquoun de ses article par lrsquoaffirmation imageacutee selon laquelle une once de con-

naissances vaut mieux que des tonnes de donneacutees [Gai89] Le travail preacutesenteacute dans cette thegravese srsquoinscritdans cette ideacutee et srsquoappuie sur lrsquohypothegravese que la pharmacogeacutenomique et plus geacuteneacuteralement la biolo-gie moleacuteculaire peuvent tirer parti des meacutethodes de repreacutesentation des connaissances et drsquoextractionde connaissances Un point commun agrave ces deux meacutethodes est en effet de permettre la deacutecouverte deconnaissances implicites voire nouvelles

Chapitre 2

Etat de lrsquoart

Ce chapitre preacutesente en section 1 le processus drsquoExtraction de Connaissances agrave partir de Bases deDonneacutees () puis en section 2 deux systegravemes de repreacutesentation des connaissances en rapport avecles travaux meneacutes dans cette thegravese Les sections 3 et 4 preacutesente lrsquoeacutetat de lrsquoart des domaines concerneacutespar les contributions de cette thegravese premiegraverement lrsquoutilisation drsquoune repreacutesentation des connaissancescodeacutee sous la forme drsquoune ontologie pour guider lrsquointeacutegration de donneacutees (section 3) secondement lanotion drsquoExtraction de Connaissances guideacutee par les Connaissances du Domaine ()

1 Extraction de Connaissances agrave partir de Bases de Donneacutees ndash

11 Motivation et objectifs

LrsquoExtraction de Connaissances agrave partir des Bases de Donneacutees () est deacutefinie par Frawley et al

comme le processus non trivial drsquoidentification de reacutegulariteacutes (ou drsquoirreacutegulariteacutes) valides nouvelles po-tentiellement utiles et porteuses de sens au sein des donneacutees [FPSM91] Concregravetement il srsquoagit delrsquoutilisation de meacutethodes (souvent simplement drsquoalgorithmes) de fouille de donneacutees associeacutees agrave unepreacuteparation des donneacutees preacutealables et agrave une interpreacutetation des reacutesultats de fouille afin drsquoextraire desconnaissances pertinentes au regard des objectifs viseacutes par lrsquoanalyste Nous distinguons ainsi

(i) lrsquoensemble du processus drsquo qui inclut la preacuteparation des donneacutees et lrsquointerpreacutetation des reacutegu-lariteacutes extraites sous forme de connaissances et

(ii) lrsquoeacutetape particuliegravere de fouille de donneacutees dont le but unique et lrsquoidentification de reacutegulariteacutes dansles donneacutees brutes

La mise en œuvre de meacutethodes de fouille de donneacutees de faccedilon ldquoaveuglerdquo ie sans eacutetape de preacuteparationapproprieacutee des donneacutees ni drsquointerpreacutetation experte des reacutegulariteacutes extraites est une utilisation dangereuse(compareacutee dans la litteacuterature agrave une ldquopecirccherdquo ou une ldquodraguerdquo) qui peut mener agrave lrsquoextraction de reacutegulariteacutesinvalides porteuses drsquoerreurs et ainsi agrave des interpreacutetations inexactes

Lrsquo est un processus comprenant plusieurs eacutetapes dont certaines impliquent une prise de deacutecisionde lrsquoutilisateur ie lrsquoanalyste qui conduit le processus La Figure 21 preacutesenteacutee dans lrsquointroduction de lathegravese deacutetaille le deacutecoupage classique du processus drsquo en plusieurs eacutetapes Du fait que la distinction etlrsquoordre des opeacuterations de preacuteparation de donneacutees peut fortement varier nous proposons dans la Figure 21une repreacutesentation simplifieacutee du processus centreacutee sur lrsquoeacutetape de fouille de donneacutees ougrave nous distinguonsune eacutetape preacutealable globale de preacuteparation des donneacutees et une eacutetape finale drsquointerpreacutetation Le rocircle dechacune de ces trois eacutetapes ainsi que les opeacuterations auxquelles elles font appel sont deacutecrits dans lessections suivantes

23

24 Chapitre 2 Etat de lrsquoart

(ii) Fouille

Analyste

Uniteacute de

Base de donneacuteesheacuteteacuterogegravenes

(i) Preacuteparation

des donneacutees de donneacutees(iii)Interpreacutetation connaissance

F 21 ndash Repreacutesentation simplifieacutee du processus drsquo

12 Preacuteparation des donneacutees

La preacuteparation des donneacutees (ou preprocessing en anglais) est deacutefinie par lrsquoensemble des opeacuterationsqui permettent de convertir les donneacutees brutes en donneacutees preacutepareacutees et adapteacutees agrave la meacutethode de fouilleenvisageacutee Lrsquointeacuterecirct principal de cette eacutetape est drsquoameacuteliorer la qualiteacute des donneacutees (tout au moins en vuede la meacutethode de fouille choisie) et ainsi drsquoameacuteliorer lrsquoefficaciteacute du processus drsquo Les opeacuterationsde preacuteparation peuvent ecirctre de diffeacuterents types lrsquointeacutegration des donneacutees le nettoyage des donneacutees lareacuteduction des donneacutees la transformation des donneacutees Lrsquoordre de ces opeacuterations varie souvent selon lastrateacutegie drsquo adopteacutee De la mecircme faccedilon il nrsquoest pas toujours eacutevident de faire clairement la distinc-tion entre les diffeacuterentes opeacuterations qui sont parfois entrelaceacutees ou combineacutees Par exemple lrsquoopeacuterationdrsquointeacutegration de donneacutees neacutecessite souvent une eacutetape preacutealable de nettoyage la reacuteduction des donneacuteespeut consister en leur transformation en un format particulier aussi le nettoyage peut conduire au finalagrave une reacuteduction de celles-ci

Une bonne description de lrsquoimportance de ces eacutetapes dans un processus drsquo est le chapitre deBrachman et Anand [BA96] du livre de Fayyad et al [FPSSU96] Un compleacutement sur la mise en œuvrede ces opeacuterations est le chapitre 3 du livre de Han et Kamber [HK01]

Les sections suivantes deacutetaillent quatre types drsquoopeacuterations relatives agrave la preacuteparation des donneacutees

121 Inteacutegration de donneacutees

Un systegraveme drsquointeacutegration de donneacutees a pour rocircle drsquooffrir agrave un utilisateur ou agrave une machine un accegravesuniforme et transparent agrave un ensemble heacuteteacuterogegravene de donneacutees Lrsquointeacutegration de donneacutees est alors leprocessus qui permet agrave un tel systegraveme lrsquoaccegraves homogegravene agrave un ensemble de donneacutees aux formats et auxlocalisations heacuteteacuterogegravenes

Crsquoest une eacutetape preacuteliminaire neacutecessaire agrave la fouille de donneacutees En effet si les donneacutees agrave inclure danslrsquoanalyse sont reacuteparties dans des sources distinctes il est neacutecessaire de les inteacutegrer preacutealablement afinque lrsquoalgorithme de fouille puisse les prendre en compte simultaneacutement

Lrsquointeacutegration de donneacutees est drsquoautant plus inteacuteressante que ses applications deacutepassent le cadre delrsquo Ce processus est utiliseacute eacutegalement dans le cadre de la recherche drsquoinformation lrsquoinformatique deacute-cisionnelle et lrsquoeacutetude des flux drsquoinformation (ou workflow en anglais) et trouve des applications dans denombreux domaines ougrave lrsquoanalyse des nombreuses donneacutees collecteacutees preacutesente un inteacuterecirct la finance lesassurances les systegravemes de surveillance le commerce la meacutedecine en sont des exemples En bioinforma-tique lrsquointeacutegration de donneacutees est une probleacutematique de recherche active dont un des but est notammentde permettre lrsquoutilisation conjointe des nombreuses sources de donneacutees biologiques qui ont vu le jour defaccedilon indeacutependante et sans concertation [GS08]

La section 3 de ce chapitre propose un eacutetat de lrsquoart sur les meacutethodes drsquointeacutegration de donneacutees etpreacutesente des solutions proposeacutees dans le cadre de la bioinformatique En effet la contribution preacutesenteacutee

1 Extraction de Connaissances agrave partir de Bases de Donneacutees ndash 25

chapitre 3 est preacuteciseacutement une proposition et lrsquoapplication drsquoune meacutethode drsquointeacutegration opeacuterationnellefondeacutee sur des ontologies originales dans le domaine des variations geacutenomiques et de la pharmaco-geacutenomique

122 Nettoyage des donneacutees

En pratique les donneacutees brutes sont souvent incomplegravetes bruiteacutees voire incoheacuterentes Lrsquoopeacuterationde nettoyage a pour but de remplacer les valeurs manquantes de filtrer le bruit (par exemple en eacuteliminantles cas extrecircmes) et de corriger les incoheacuterences [HK01]

Lrsquoefficaciteacute de certains algorithmes de fouille est tregraves sensibles aux valeurs manquantes Diffeacuterentesapproches peuvent ecirctre adopteacutees

ndash ignorer les tuples dans lesquels des valeurs manquent Cela peut srsquoaveacuterer probleacutematique lorsque lejeu de donneacutees initial est de petite taille

ndash remplacer les valeurs manquantes par une valeur particuliegravere par exemple ldquoUnknownrdquo ldquo rdquo Cettemeacutethode peut biaiser les reacutesultats des algorithmes de fouille qui pourront consideacuterer la valeurutiliseacutee par deacutefaut disons ldquoUnknownrdquo comme repreacutesentative drsquoun concept inteacuteressant

ndash remplacer les valeurs manquantes par une valeur arbitraire Ce peut ecirctre la moyenne des valeursdonneacutees agrave lrsquoattribut dans le jeu de donneacutees ou la moyenne drsquoautres attributs relatifs au tupleconsideacutereacute ou encore une valeur probable preacutedite par des meacutethodes drsquoinfeacuterence de reacutegressiondrsquoinduction sur la base drsquoautres donneacutees

Les donneacutees brutes et plus particuliegraverement celles mesureacutees expeacuterimentalement sont souvent ac-compagneacutees de bruit Tout un ensemble de meacutethodes de filtrage et de lissage peut ecirctre mis en œuvre pourdiminuer les effets de ce bruit

Les incoheacuterences dans les donneacutees peuvent ecirctre corrigeacutees par des meacutethodes de comparaison avec lessources drsquoorigine des donneacutees ou si elles existent par veacuterification des contraintes ou des deacutependancesconnues entre donneacutees

123 Reacuteduction des donneacutees

La reacuteduction de donneacutees vise agrave limiter la taille de la description des donneacutees en portant le moinspossible atteinte agrave lrsquointeacutegriteacute de lrsquoinformation qursquoelles contiennent Diverses motivations peuvent ameneragrave reacuteduire les donneacutees

ndash Certains algorithmes de fouilles de donneacutees produisent des reacutesultats particuliegraverement volumineuxet par conseacutequent compliqueacutes et longs agrave interpreacuteter La reacuteduction de donneacutees est une opeacuterationdeacutecisive dans un processus drsquo qui fait intervenir de tels algorithmes

ndash Drsquoautres algorithmes sont particuliegraverement gourmands en capaciteacute de calcul et peuvent en fonc-tion de la taille du jeu de donneacutees neacutecessiter des temps de calcul ou un espace meacutemoire incom-patibles avec les conditions expeacuterimentales (ie le temps et les machines disponibles)

ndash Certains jeux de donneacutees preacutesentent un deacuteseacutequilibre entre le nombre de tuples relativement faibleet le nombre de valeurs distinctes relativement eacuteleveacute que peuvent prendre les attributs associeacutesIl est possible drsquoimaginer le cas extrecircme ougrave un jeu de donneacutees ne contient que des attributs agravevaleurs nominales et que chaque tuple preacutesente une valeur diffeacuterente pour chaque attribut Dansce cas particulier les meacutethode de fouille ne pourront distinguer aucune reacutegulariteacute particuliegravere sanslrsquoutilisation drsquoune meacutethode exteacuterieure Des meacutethodes de reacuteduction peuvent ici permettre de reacuteduirela diversiteacute entre les attributs qui caracteacuterisent les tuples (en utilisant des valeurs plus geacuteneacuterales quiseront partageacutees par plusieurs tuples par exemple)

Les strateacutegies de reacuteduction de donneacutees incluent entre autres

26 Chapitre 2 Etat de lrsquoart

Lrsquoagreacutegation par cubes de donneacutees Ce type de meacutethode souvent appliqueacute aux entrepocircts de donneacuteesutilise des cubes de donneacutees qui permettent drsquoagreacuteger des donneacutees multidimensionnelles dans lecadre drsquoanalyses de type OLAP [AAD+96] Par exemple des donneacutees relatives aux ventes journal-iegraveres drsquoune chaicircne de grands magasins contenant des millions de transactions peuvent ecirctre agreacutegeacuteesen ventes mensuelles de certaines cateacutegories speacutecifiques de produits

La reacuteduction de dimension Ce type de reacuteduction consiste agrave encoder les donneacutees dans un format pluscompact entraicircnant ou non une perte drsquoinformation Par exemple lrsquoanalyse en composante prin-

cipale est une meacutethode utiliseacutee pour la reacuteduction de dimension qui applique des projections desdonneacutees initiales dans un espace de dimension infeacuterieure

La discreacutetisation Il srsquoagit drsquoun ensemble de meacutethodes utiliseacutees pour reacuteduire le nombre de valeurs quepeut prendre un attribut Certaines meacutethodes automatiques de discreacutetisation srsquoappliquent aux at-tributs numeacuteriques et continus qursquoelles partitionnent reacutecursivement selon un eacutechelonnage adapteacute aunombre etou agrave la reacutepartition des valeurs Ainsi lrsquoeacuteventail des valeurs que peut prendre un attributcomme la concentration drsquoune certaine substance pourra ecirctre diviseacute en plusieurs intervalles selonune construction drsquohistogramme Certaines meacutethodes manipulant les histogrammes permettent parexemple de construire iteacuterativement des histogrammes doteacutes drsquointervalles de plus en plus impor-tants permettant ainsi un ajustement de la discreacutetisation Ces meacutethodes ne peuvent pas srsquoappliqueraux attributs discrets ou nominaux quand leur valeurs ne sont pas ordonneacutees (exemples couleur

= rouge vert bleu ou allegravele observeacute = AA AT AC AG TT TC TG CC CG GG) Dansce cas il est cependant possible de construire manuellement un eacutechelonnage ou une hieacuterarchie desattributs avec lrsquoaide drsquoexperts du domaines etou de meacutethodes heuristiques [HF94]

La seacutelection La seacutelection de donneacutees a pour but drsquoidentifier des sous-ensembles reacuteduits de donneacuteessans en alteacuterer la repreacutesentation originale Il est possible de distinguer deux familles principales demeacutethodes de seacutelection de donneacutees [GE03 SIL05] ndash Les meacutethodes de filtrage qui la plupart du temps estiment un score drsquointeacuterecirct pour les attributs

du jeu de donneacutees qui permet de les classer et drsquoen supprimer les moins inteacuteressants avant deles soumettre agrave la fouille Lrsquoestimation du score peut ecirctre assureacutee agrave lrsquoaide de meacutethodes heuris-tiques qui se fondent sur des mesures de significativiteacute des attributs ou drsquoentropie comme parexemple le gain drsquoinformation [KJ97] Les meacutethodes de filtrage les plus eacutevolueacutees sont capa-bles drsquoidentifier les deacutependances entre attributs et drsquointroduire cette composante dans le calculdu score drsquointeacuterecirct (voir [YL04] pour un exemple) Le principal inconveacutenient de ces meacutethodesest qursquoelles sont indeacutependantes de la meacutethode de fouille utiliseacutee et ainsi qursquoelles conduisentagrave estimer lrsquointeacuterecirct des attributs selon des critegraveres diffeacuterents de ceux utiliseacutes par la meacutethode defouille

ndash Les meacutethodes enveloppantes et inteacutegreacutees (wrapper et embedded methods en anglais) quant agraveelles sont deacutependantes de la meacutethode de fouille consideacutereacutee De faccedilon simplifieacutee leur principerepose sur la constitution drsquoun ensemble fini de sous-ensembles de donneacutees qui seront cha-cun soumis agrave lrsquoalgorithme de fouille consideacutereacute Alors le reacutesultat de la fouille de chaque sous-ensemble de donneacutees est eacutevalueacute et compareacute aux autres afin de constituer de nouveaux sous-ensembles de donneacutees qui seront agrave leur tour testeacutes lors drsquoune nouvelle iteacuteration De faccedilon nonformelle ces meacutethodes peuvent ecirctre consideacutereacutees elles-mecircmes comme des meacutethodes de fouilleappliqueacutees agrave des reacutesultats partiels de la meacutethode de fouille consideacutereacutee Ces meacutethodes sont par-ticuliegraverement coucircteuses en calcul et le sont drsquoautant plus que le nombre drsquoattributs est eacuteleveacute etque la meacutethode de fouille consideacutereacutee demande elle-mecircme des ressources importantes de calculLes algorithmes geacuteneacutetiques sont par exemple utiliseacutes pour ce type de meacutethode de seacutelection dedonneacutees [SIL05]

Dans le chapitre 4 nous proposons une approche de seacutelection dont la particulariteacute est de tirer

1 Extraction de Connaissances agrave partir de Bases de Donneacutees ndash 27

beacuteneacutefice des connaissances du domaine disponibles

Les connaissances de lrsquoanalyste peuvent aussi guider manuellement la seacutelection des donneacutees Lasection 4 de lrsquoeacutetat de lrsquoart illustrera entre autres comment des connaissances formaliseacutees peuventecirctre utiliseacutees par lrsquoanalyste ou par des programmes en vue de la seacutelection des donneacutees A cestravaux encore peu abondants srsquoajoute la deuxiegraveme contribution de cette thegravese qui consiste agrave pro-poser une approche de seacutelection des donneacutees guideacutee par les connaissances du domaine (chapitre 4section 1)

124 Transformation des donneacutees

La transformation des donneacutees consiste en leur modification en une forme adapteacutee agrave la meacutethode defouille envisageacutee

Un premier exemple est la normalisation des donneacutees qui reacuteside en leur eacutechelonnage (scaling enanglais) sur diffeacuterents intervalles ou ensembles de valeurs comme de -10 agrave 10 de 00 agrave 10 ou 0 1ou encore sous-exprimeacute exprimeacute sur-exprimeacute

Un second exemple de transformation est la geacuteneacuteralisation qui srsquoappuyant sur une hieacuterarchie determes ou de concepts permet de remplacer les valeurs drsquoattributs par leurs parents dans la hieacuterarchiece qui permet souvent de restreindre le nombre de valeurs possibles pour le nouvel attribut Consid-eacuterons par exemple un attribut ldquointeraction avec un meacutedicamentrdquo associeacutee agrave une relation qui deacutecrit desvariations geacutenomiques et peut prendre comme valeur les types de meacutedicament avec lesquels la variationinteragit Les variations interagissant avec la codeacuteine ou avec la morphine preacutesentent la valeur ldquocodeacuteinerdquoou ldquomorphinerdquo pour cet attribut Si ces deux exemple de valeurs sont remplaceacutees par la valeur uniqueplus geacuteneacuterale ldquoopiaceacuterdquo selon une hieacuterarchie de termes les tuples (ie les variations) preacutesentant la valeurldquoopiaceacuterdquo pour cet attribut constitue un ensemble plus important que celles qui initialement avaient deuxvaleurs distinctes ldquocodeacuteinerdquo et ldquomorphinerdquo Cela peut permettre de reacuteduire les diffeacuterentes valeurs pos-sibles pour certains attributs Par contre cette geacuteneacuteralisation empecircche alors de distinguer les variants quiinteragissent avec la codeacuteine de ceux qui interagissent avec la morphine

Lrsquoagreacutegation est une transformation eacutegalement inteacuteressante lorsque les donneacutees peuvent ecirctre reacute-sumeacutees ou agreacutegeacutees pour ecirctre eacutetudieacutees dans une dimension diffeacuterente Par exemple le nombre de crisesdrsquoasthme drsquoun patient par semaine peut ecirctre agreacutegeacute pour ecirctre eacutetudieacute au niveau mensuel ou annuel

Le lissage qui revient agrave appliquer aux donneacutees une fonction drsquoapproximation dans lrsquoobjectif drsquoeacutelim-iner les pheacutenomegravenes locaux et de mettre en eacutevidence les caracteacuteristiques geacuteneacuterales de celle-ci ou encorela construction drsquoattributs sont drsquoautres exemples de transformation de donneacutees [HK01]

13 Fouille de donneacutees

La fouille de donneacutees est lrsquoeacutetape de lrsquo qui vise agrave extraire des reacutegulariteacutes (ou des irreacutegulariteacutes) delrsquoensemble de donneacutees preacutepareacutees Il existe de nombreuses meacutethodes de fouille diffeacuterentes Le choix dela meacutethode est deacuteterminant et se fait essentiellement en fonction de lrsquoobjectif viseacute par lrsquoanalyste

Les diffeacuterents objectifs (ou mining tasks en anglais) de la fouille sont [HK01] ndash La description de classes (ou concepts) qui permet la caracteacuterisation de classes ou la discrimination

entre diffeacuterentes classesndash La recherche drsquoassociations entre des attributs qui prennent des valeurs particuliegraveres de faccedilon

concomitantendash La classification et la preacutediction baseacutees sur la deacutefinition drsquoun modegravele agrave partir drsquoun jeu de donneacutees

drsquoapprentissagendash La construction de clusters qui regroupent les donneacutees en diffeacuterents groupes selon des mesures de

similariteacute

28 Chapitre 2 Etat de lrsquoart

ndash La deacutetection de cas extrecircmes reacuteveacutelant une forme drsquoirreacutegulariteacuteEn pharmacogeacutenomique par exemple les cliniciens sont inteacuteresseacutes par la deacutecouverte de facteurs

permettant la discrimination drsquoun groupe de patients reacuteagissant de faccedilon adverse agrave un traitement par rap-port agrave ceux pour qui aucune reacuteaction neacutefaste nrsquoest observeacutee Les biologistes plus directement inteacuteresseacutespar lrsquoeacutetude du processus moleacuteculaire des reacuteactions pharmacogeacutenomiques peuvent ecirctre inteacuteresseacutes par larecherche drsquoassociations entre par exemple un variant geacuteneacutetique la reacuteduction de lrsquoactiviteacute drsquoune en-zyme et la concentration eacuteleveacutee drsquoune moleacutecule dans le sang

Les meacutethodes de fouille de donneacutees sont souvent classifieacutees en fonction des divers objectifs exposeacutesci-dessus Il est eacutegalement possible de distinguer les meacutethodes numeacuteriques des meacutethodes symboliquesen fonction du type de donneacutees qursquoelles manipulent Cette distinction implique une diffeacuterence dans lesmodaliteacutes de repreacutesentation de manipulation et de comparaison des donneacutees et des reacutegulariteacutes reacutesul-tantes

ndash Les meacutethodes de fouille numeacuteriques comprennent entre autres les chaicircnes de Markov les reacuteseauxde neurones les K-plus proches voisins lrsquoanalyse en composante principale (ACP) les reacuteseauxbayeacutesiens les algorithmes geacuteneacutetiques

ndash Les meacutethodes de fouille symboliques comprennent entre autres lrsquoextraction de motifs freacutequentsla recherche de regravegles drsquoassociation lrsquoAnalyse de Concepts Formels ()

Une autre distinction est faite entre les meacutethodes dites superviseacutees et celles dites non-superviseacuteesUne meacutethode superviseacutee va proposer une classification des tuplesobjets drsquoun jeu de donneacutees en srsquoap-puyant sur un modegravele preacuteeacutetabli agrave partir drsquoune base drsquoexemples ou drsquoeacutechantillons de tuplesobjets seacutelec-tionneacutes au hasard Inversement une meacutethode non-superviseacutee va produire un modegravele sans apriori sur laseule information que lui apportent les tuplesobjets Dans ce cas la consideacuteration de nouveaux tuplesob-jets entraicircnera la mise agrave jour du modegravele

Lrsquoapprentissage est un domaine de recherche proche de la fouille de donneacutees utilisant des meacutethodessimilaires mais avec une eacutechelle et un objectif leacutegegraverement diffeacuterents puisque les travaux drsquoapprentissagene srsquointeacuteressent pas forceacutement aux larges volumes de donneacutees et que les reacutesultats obtenus sont destineacutesplus particuliegraverement agrave la reacutesolution de problegravemes et agrave la prise de deacutecision

Les sections suivantes preacutesentent trois meacutethodes de fouille de donneacutees symboliques qui extraient agravepartir de bases de donneacutees binaires soit un ensemble de concepts organiseacutes en un treillis (ie un ordre

partiel) soit des motifs freacutequents soit des regravegles drsquoassociation Ces meacutethodes sont justement utiliseacuteesdans le chapitre 4 de cette thegravese La construction de treillis est preacutesenteacutee dans la section suivante (131)et les extractions de motifs et la recherche de regravegles sont deacutecrites en la section 132 Enfin la recherchede regravegles drsquoassociation particuliegraveres dites Minimales Non-Redondantes est preacutesenteacutee section 133

131 La classification par construction de treillis

Certaines meacutethodes de fouille de donneacutees srsquoapparentent agrave une classification et analyse des corre-spondances binaires entre une classe drsquoobjets (ou individus) et une classe drsquoattributs (ou proprieacuteteacutes)informant ainsi pour chaque paire objet-attribut si lrsquoattribut est observeacute pour lrsquoobjet ou non [GVM93GW99] Les attributs sont des proprieacuteteacutes qui qualifient les objets soit par leur preacutesence ou leur ab-sence soit par une valeur qui a eacuteteacute discreacutetiseacutee sous forme de plusieurs variables binaires Ces variablessont regroupeacutees dans des tableaux binaires (eacutegalement appeleacutes bases de donneacutees binaires ou contexteformel) qui deacutecrivent les relations entre un ensemble drsquoobjets et un ensemble drsquoattributs ougrave par exemple(ij) = 1 deacutetermine que lrsquoobjet i preacutesente lrsquoattribut j Cette relation est alors mateacuterialiseacutee par unecroix ldquotimesrdquo dans le tableau binaire correspondant

LrsquoAnalyse de Concepts Formels () est une meacutethode drsquoanalyse de donneacutees fondeacutee sur les treillisde concepts (ou treillis de Galois) [GW99] Lrsquo a pour principe la transformation drsquoun contexte formel

1 Extraction de Connaissances agrave partir de Bases de Donneacutees ndash 29

G

MA B C

1 times times

2 times times

3 times

T 21 ndash Un premier exemple de contexte formel K

en un ensemble de concepts formels organiseacutes en un treillis Lrsquoadjectif formel souligne ici le fait que lescontextes et concepts sont manipuleacutes en tant qursquoentiteacutes matheacutematiques

Pour deacutefinir la notion de treillis il est neacutecessaire drsquointroduire au preacutealable les notions de borne

infeacuterieure et de borne supeacuterieure

Deacutefinition 21 Soit (Mle) un ordre partiel et A un sous-ensemble de M Une borne infeacuterieure de A est

un eacuteleacutement s de M tel que s le a foralla isin A Une borne supeacuterieure de A peut ecirctre deacutefinie dualement Srsquoil

existe un eacuteleacutement plus grand dans lrsquoensemble des bornes infeacuterieures celui-ci est lrsquoinfimum de A et noteacute

inf A ou andA dualement une borne supeacuterieure moindre est appeleacutee supremum et est noteacutee sup A ou orA

Si A = x y lrsquoinfimum inf A est eacutegalement noteacute x and y et le supremum sup A est eacutegalement noteacute x or y

Alors de faccedilon geacuteneacuterale un treillis est un ordre (B⊑) ougrave la relation ⊑ appeleacutee relation de subsomp-

tion deacutecrit un ordre partiel tel que chaque paire drsquoeacuteleacutement xy deB possegravede une borne supeacuterieure xory

et une borne infeacuterieure x and y

Deacutefinition 22 Un ordre B ≔ (B le) est un treillis si pour chaque paire drsquoeacuteleacutements x minus y il existe

toujours un infimum x and y et un supremum x or y B est un treillis complet si son infimum andX et son

supremum orX existent pour chaque sous-ensemble X deB Tout treillis completB a un plus petit eacuteleacutement

unique andB et un plus grand eacuteleacutement unique orB

Dans le cadre de lrsquo un treillis est construit agrave partir drsquoun contexte formel deacutefini comme suit

Deacutefinition 23 (contexte formel) Un contexte formel K(GMI) consiste en deux ensembles G et M

et en une relation binaire I sube G timesM entre G etM G est lrsquoensemble des objets etM lrsquoensemble des

attributs du contexte26 I est la relation drsquoincidence qui entre un objet g et un attribut m se note gIm ou

(gm) isin I

Comme lrsquoillustre le Tableau 21 un contexte formel est une base de donneacutees binaire qui peut ecirctresimplement repreacutesenteacutee par un ldquotableau de croixrdquo ie un tableau dans lequel les en-tecirctes de lignes cor-respondent aux noms drsquoobjets celles des colonnes aux noms drsquoattributs La preacutesence drsquoune croix aucroisement de la ligne i et de la colonne j signifie que lrsquoobjet i preacutesente lrsquoattribut j

La construction drsquoun treillis agrave partir drsquoun contexte formel se fonde sur la deacutefinition drsquoune fonctionduale particuliegravere qui permet drsquoassocier agrave nrsquoimporte quel sous-ensemble drsquoobjets un sous-ensemble drsquoat-tributs drsquoune part et drsquoautre part agrave nrsquoimporte quel sous-ensemble drsquoattributs un sous ensemble drsquoobjets

Deacutefinition 24 Pour un sous-ensemble quelconque drsquoobjets A sube G nous deacutefinissons

Aprime ≔ m isin M | forallg isin A (gm) isin I (21)

26Plus preacuteciseacutement nous devrions dire ldquoobjets formelsrdquo et ldquoattributs formelsrdquo

30 Chapitre 2 Etat de lrsquoart

qui repreacutesente lrsquoensemble des attributs communs aux objets de A Pour un sous-ensemble quelconque

drsquoattributs B sube M nous deacutefinissons de faccedilon similaire

Bprime ≔ g isin G | forallm isin B (gm) isin I (22)

qui repreacutesente lrsquoensemble des objets qui preacutesentent tous les attributs de B

La double utilisation de lrsquoopeacuterateur prime noteacute primeprime (prime 2G rarr 2M et prime 2M rarr 2G) constitue la connexion de

Galois Il peut ecirctre montreacute que lrsquoopeacuterateur primeprime 2G rarr 2G de mecircme que primeprime 2M rarr 2M sont des opeacuterateurs

de fermeture

Deacutefinition 25 (opeacuterateur de fermeture) Soit X X1 et X2 trois sous-ensembles de E (par exemple G ou

M) Un opeacuterateur de fermeture h est une fonction (i) monotone croissante ie X1 sube X2 rArr h(X1) sube h(X2)(ii) extensive ie X sube h(X) et (iii) idempotente ie h(X) = h[h(X)]

Alors un ensemble X de E est fermeacute si et seulement si X = h(X)

Deacutefinition 26 (concept formel) Un concept formel du contexte K(GMI) est une paire (A B) avec

A sube G B sube M et pour lequel la relation entre A et B est deacutecrite par lrsquoopeacuterateur prime tel que

Aprime = B et Bprime = A (23)

A est appeleacute lrsquoextension du concept (A B) et B est appeleacutee son intensionB(GMI) appeleacute lrsquoensemble

des parties de K est lrsquoensemble de tous les concepts formels du contexte K(GMI)

Les proprieacuteteacutes particuliegraveres de lrsquoopeacuterateur de fermeture primeprime permettent de relier agrave chaque concept leconcept fermeacute associeacute et permettent eacutegalement de deacutefinir une relation drsquoordre entre les concepts

Deacutefinition 27 Si (A1 B1) et (A2 B2) sont des concepts drsquoun contexte K(GMI) si A1 sube A2 (et donc

B2 sube B1) alors (A1 B1) est appeleacute le sous concept de (A2 B2) et (A2 B2) le super concept de (A1 B1)

Il en reacutesulte la relation drsquoordre partiel qui induit une hieacuterarchie entre ces deux concepts noteacute le

(A1 B1) le (A2 B2) (24)

Lrsquoensemble des parties (ie de tous les concepts) B(GMI) du contexte K organiseacute selon cet ordre et

noteacute B(GMI) est le treillis de concept (ou treillis de Galois) du contexte K

Un treillis peut ecirctre repreacutesenteacute de diffeacuterentes faccedilons plus ou moins reacuteduites Un mode de repreacutesentationrelativement riche inclut lrsquoensemble des concepts drsquoun contexte ie chaque intension possible est deacute-clineacutee pour former un concept Cela permet la constitution du treillis des parties du contexte dont unexemple est repreacutesenteacute agrave gauche dans la Figure 22 Un mode plus classique et plus reacuteduit consiste agrave nerepreacutesenter que les concepts fermeacutes Suivant lrsquoexemple donneacute Figure 22 le concept (2C) preacutesentdans le treillis des parties est eacutelimineacute et repreacutesenteacute par son fermeacute (2AC) dans le treillis du centrede la figure Un dernier mode appeleacutee notation reacuteduite drsquoun treillis et deacutefinie dans [GW99] preacutesente laparticulariteacute de ne signaler les objets que dans lrsquoextension du concept le plus speacutecifique (ie le conceptqui preacutesente le plus drsquoattributs) dans lequel est inclus cet objet Inversement les attributs ne sont signaleacutesque dans lrsquointension du concept le plus geacuteneacuteral (ie celui qui preacutesente le moins drsquoattributs) dans lequelils sont preacutesents Le treillis de droite de la Figure 22 est la notation reacuteduite des deux premiers treillis

La construction de treillis peut preacutesenter diffeacuterents avantages dans un processus drsquo [SWW98Wil02 VMG04]

1 Extraction de Connaissances agrave partir de Bases de Donneacutees ndash 31

( 12B)

(123)

(AC)

(ABC)

(2C)(13A)

(2BC)(1AB)

( 12B)

(123)

(ABC)

(13A)

(2BC)(1AB)

(B)(3A)

(1) (2C)

F 22 ndash Diffeacuterentes repreacutesentations du treillis associeacute au contexteK repreacutesenteacute dans le Tableau 21 Degauche agrave droite le treillis des parties associeacute au contexte (ougrave tous les sous-ensembles drsquoattributs sontrepreacutesenteacutes) treillis de Galois associeacute au mecircme contexte treillis de Galois en notation reacuteduite associeacuteau mecircme contexte

ndash La structuration logique des donneacutees en concepts reflegravete la faccedilon avec laquelle les humains con-ceptualisent un domaine La proposition drsquoune hieacuterarchisation en concepts construite sans aprioriagrave partir des seules donneacutees peut aider un analyste dans le cadre de lrsquoextraction de connaissances

ndash La formalisation des concepts peut permettre de proposer une traduction de la structure du treillisselon un formalisme logique afin de pouvoir y appliquer des meacutecanismes automatiques de raison-nement

ndash La construction du treillis peut servir drsquoeacutetape preacuteliminaire pour des algorithmes de fouille pluscomplexes Ces algorithmes pourront alors tirer parti de lrsquoorganisation des concepts pour ameacuteliorerla rapiditeacute de leur exeacutecution la gestion de la meacutemoire ou les reacutesultats produits

ndash Les treillis sont eacutegalement utiliseacutes en recherche drsquoinformation () [CR04 MDNST05] Lrsquoutili-sation de lrsquo en est entre autres motiveacutee par lrsquoanalogie eacutevidente entre les associations ob-jetattribut de lrsquo et documentterme en Selon cette analogie les concepts formels peuventecirctre consideacutereacutes comme des classes de documents qui correspondent agrave une requecircte de lrsquoutilisateurAlors les documents sont les objets caracteacuteriseacutes par des attributs qui sont les termes utiliseacutes pourune requecircte La relation de subsomption permet de guider le raffinement ou la geacuteneacuteralisation dela requecircte (en y ajoutantsupprimant des termes) poseacutee par un utilisateur en lui permettant de nav-iguer drsquoun concept agrave un autre

ndash Lrsquo est de plus en plus populaire en acquisition de connaissances agrave partir de textes Le treil-lis peut constituer un compleacutement aux meacutethodes de Traitement Automatique des Langues ()en proposant une structure hieacuterarchique entre les concepts acquis par Les associations entretermes organiseacutees en concepts dans un treillis peuvent permettre lrsquoidentification de nouveaux con-cepts ou drsquoinstancier des concepts existants dans des processus de peuplement ou de constructiondrsquoontologies [CHST04 BTN08]

R Nous distinguons dans cette thegravese la notion de concept formel entiteacute matheacutematique reacute-sultant drsquoun processus drsquo dont lrsquointension est une liste drsquoattributs et les concepts utiliseacutes en repreacutesen-tation de connaissances notamment en Logique de Descriptions () Eleacutements de base drsquoune ontologieces concepts ont pour intension une description formelle en qui deacutefinit les conditions drsquoappartenance agravece concept selon une certaine interpreacutetation (voir section 22) Cependant une certaine analogie a pu con-duire agrave des rapprochements entre ces deux notions et agrave des travaux situeacutes agrave lrsquointersection des domaines de

32 Chapitre 2 Etat de lrsquoart

G

MA B C D E

1 times times times times

2 times times

3 times times times times

4 times times times

5 times times times times

T 22 ndash Un second exemple de contexte formel K

lrsquo et des De tels travaux [Rud06 BGSS07] deacutetailleacutes au chapitre 4 sont agrave lrsquoorigine de la troisiegravemecontribution de cette thegravese qui propose drsquoutiliser lrsquo pour deacutecouvrir de nouvelles connaissances au seindrsquoune base de connaissance formaliseacutee en

132 Motifs freacutequents et regravegles drsquoassociation

En partant du mecircme type de tableau binaire agrave partir duquel il est possible de construire un treillisil est eacutegalement possible drsquoextraire des motifs freacutequents et de rechercher des regravegles drsquoassociation Cettesection preacutesente rapidement ces deux meacutethodes

Lrsquoextraction des motifs freacutequents permet drsquoisoler depuis un contexte formel des ensembles drsquoat-tributs appeleacutes motifs en accord avec un certain support Ce support correspond au nombre drsquoobjets quipartagent les attributs drsquoun motif et celui-ci doit ecirctre supeacuterieur agrave un certain seuil le support minimumpour que le motif soit freacutequent

Sur la base des motifs freacutequents il est possible de construire des regravegles drsquoassociation de formegeacuteneacuterale A rarr B qui associe un sous-ensemble drsquoattributs A avec un second sous-ensemble drsquoattributsB La regravegle peut alors ecirctre interpreacuteteacutee comme le fait que lrsquoensemble des objets avec les attributs de A

preacutesente eacutegalement les attributs de B selon un certain support et une certaine confiance (deacutefninie plusloin)

Lrsquoextraction de motifs freacutequents

Deacutefinition 28 (motif freacutequent) Soit un contexte K(GMI) avec G un ensemble drsquoobjets et M un

ensemble drsquoattributs Un motif est un ensemble drsquoattributs preacutesenteacute par un objet Il est dit que lrsquoobjet

contient le motif Le nombre drsquoattributs dans un motif deacutetermine la longueur du motif Lrsquoimage du motif

correspond agrave lrsquoensemble des objets qui contiennent le motif

Le support drsquoun motif T est le nombre relatif drsquoobjets qui contiennent ce motif parmi le nombre total

drsquoobjets |G| dans le contexte consideacutereacute K ainsi

supp =|Image(T )||G|

(25)

Le support peut ecirctre compareacute agrave la probabiliteacute P(T ) de trouver un objet contenant le motif T parmi

lrsquoensemble des objets du contexte Un motif est dit freacutequent si son support est supeacuterieur ou eacutegal agrave un

seuil de freacutequence arbitraire appeleacute support minimum (noteacute min_supp)

Par exemple si lrsquoon considegravere le contexte formel repreacutesenteacute Tableau 22 et un min_supp = 35 A

est un motif freacutequent de longueur 1 et de support 45 AB est de longueur 2 de support 3

5 et freacutequent ABC est de longueur 3 de support 2

5 et non freacutequent ABCDE est de longueur 5 de support 0 etnon freacutequent On peut remarquer que le support diminue lorsque la longueur du motif augmente

1 Extraction de Connaissances agrave partir de Bases de Donneacutees ndash 33

Si le nombre drsquoattributs de M est eacutegal agrave n le nombre de motifs possibles est 2n (ie le nombre desous-ensembles possibles agrave partir deM) Aussi une extraction des motifs freacutequents par le test systeacutema-tique de la freacutequence de chaque motif nrsquoest pas envisageable Cependant des algorithmes qui permettentde ne tester que certains sous-ensembles de motifs ont eacuteteacute deacuteveloppeacutes et permettent drsquoextraire les mo-tifs freacutequents de grandes bases de donneacutees Lrsquoalgorithme Apriori est un outil classique drsquoextraction demotifs freacutequents qui suit ce mode opeacuteratoire [AIS93] Apriori srsquoappuie sur deux principes fondamen-taux (i) tout sous-motif drsquoun motif freacutequent est un motif freacutequent et (ii) tout super-motif drsquoun motif nonfreacutequent est non freacutequent Apriori peut ecirctre reacutesumeacute par ces deux opeacuterations principales

1 Lrsquoextraction des motifs freacutequents commence par la recherche des motifs de longueur 1

2 Les motifs freacutequents sont enregistreacutes et combineacutes entre eux pour former des motifs candidats delongueur supeacuterieure les motifs non freacutequents en 1 sont eacutelimineacutes et par conseacutequent aucun de leursuper-motif nrsquoest consideacutereacute La freacutequence des motifs candidats est testeacutee pour constituer un nouvelensemble de motifs freacutequents et lrsquoalgorithme continue tant que de nouveaux candidats peuvent ecirctreformeacutes

Lrsquoalgorithme 21 preacutesenteacute plus loin dans ce chapitre en section 42 permet de suivre la succession desopeacuterations de lrsquoalgorithme Apriori (la version preacutesenteacutee est enrichie par certaines opeacuterations speacutecifiquesagrave la probleacutematique de cette section 42)

En guise drsquoexemple nous pouvons reacutealiser pas agrave pas Apriori sur le contexte du Tableau 22 avecmin_supp = 3

5 Les motifs freacutequents de longueur 1 sont A( 45 ) B( 4

5 ) C( 45 ) E( 4

5 ) Le motifD( 1

5 ) nrsquoest pas freacutequent et est eacutelimineacute Dans un second temps les motifs candidats de longueur 2 sontformeacutes en combinant les motifs freacutequents de longueur 1 AB AC AE BC BE puisleur freacutequence est testeacutee Ainsi les motifs freacutequents de longueurs 2 sont AB( 3

5 ) AC( 35 ) AE( 3

5 )BC( 3

5 ) BE( 45 ) CE( 3

5 ) De la mecircme faccedilon les motifs candidats de longueur 3 sont formeacutes puistesteacutes pour donner les motifs freacutequents de longueur 3 suivants ABE( 3

5 ) BCE( 35 ) Enfin le seul

motif candidat ABCE de longueur 4 est formeacute et testeacute mais son support ( 25 ) est infeacuterieur agrave min_supp

Il est donc eacutelimineacute Il nrsquoy a plus de candidat lrsquoalgorithme se termineSuivant un algorithme diffeacuterent les motifs freacutequents peuvent facilement ecirctre extraits agrave partir drsquoun

treillis Lrsquoeacutetape la plus contraignante est alors la construction du treillis agrave partir duquel lrsquoextraction desmotifs freacutequents est ensuite triviale Elle correspond agrave un parcours en largeur dans le treillis en partantdu bas La Figure 23 permet de distinguer facilement les motifs freacutequents du contexte du Tableau 22 etde min_supp = 3

5

La recherche de regravegles drsquoassociation

Deacutefinition 29 Une regravegle drsquoassociation est de forme T1 rarr T2 ougrave T1 et T2 sont des motifs T1 est appeleacute

la preacutemisse ou partie gauche de la regravegle et T2 est la conclusion ou partie droite de la regravegle Le support

de la regravegle T1 rarr T2 est deacutefinie comme le support du motif T1 cup T2 ainsi pour un contexte K(GMI)

supp(T1 rarr T2) =|Image(T1 cup T2)|

|G|(26)

La confiance drsquoune regravegle T1 rarr T2 est le rapport entre le support de la regravegle et le support de sa preacutemisse

con f (T1 rarr T2) =|Image(T1 cup T2)||Image(T1)|

(27)

La confiance peut ecirctre compareacutee agrave la probabiliteacute conditionnelle P(T2|T1) ie la probabiliteacute de trouver

parmi les objets du contexte qui contiennent le motif T1 un objet contenant eacutegalement le motif T2

34 Chapitre 2 Etat de lrsquoart

F 23 ndash Treillis des parties associeacute au contexte K repreacutesenteacute Tableau 22 La ligne de seacuteparation sym-bolise le support minimum (min_supp = 3

5 ) dissociant les motifs non freacutequents au dessus de la lignedes motifs freacutequents en dessous Le chiffre associeacute agrave chaque motif correspond au nombre drsquooccurencesdu motif dans K Source exemple extrait de [Sza06]

Une regravegle est dite valide si sa confiance est supeacuterieure ou eacutegale agrave un seuil de confiance arbitraire

appeleacute confiance minimum (noteacute min_conf) et si son support est supeacuterieur ou eacutegal au support minimum

(min_supp) Ainsi toute regravegle valide T1 rarr T2 est baseacutee sur un motif freacutequent T1cupT2 Une regravegle est exacte

si sa confiance est eacutegale agrave 1 ie supp(T1 cup T2) = supp(T1) sinon la regravegle est approximative Les regravegles

exactes sont eacutegalement appeleacutees des implications

Si lrsquoon considegravere agrave nouveau le contexte du Tableau 22 avec min_supp = 35 et min_con f = 3

5 ABest freacutequent et la regravegle Ararr B est valide (supp = 3

5 et con f = 34 ) La regravegle BrarrA est eacutegalement valide

(supp = 35 et con f = 3

4 ) Si lrsquoon diminue le support de sorte que min_supp = 25 et min_con f = 3

5 lemotif ABCE est freacutequent les regravegles ABrarrCE CErarrAB ACrarrBE sont valides (supp = 2

5 et con f = 23

pour les trois) mais la regravegle BErarrAC nrsquoest pas valide (supp = 25 et con f = 2

4 )La construction des regravegles drsquoassociation valides depuis un motif freacutequent (de longueur supeacuterieure ou

eacutegale agrave deux) se fait de faccedilon similaire agrave lrsquoextraction de motifs freacutequents A partir drsquoun motif freacutequent laconstruction des regravegles deacutebute par les regravegles dont la conclusion est de longueur 1 noteacutees P irarri ougravei est un attribut seul et P i repreacutesente le motif P sans lrsquoattribut i Une fois ces regravegles construitesleur conclusions sont combineacutees pour donner de nouvelles regravegles candidates dont la conclusion est delongueur 2 noteacutees P ijrarrij Ces nouvelles regravegles sont testeacutees et le processus continue tant qursquoilest possible de construire de nouvelles regravegles candidates

Par exemple pour le contexte manipuleacute preacuteceacutedemment et min_supp = 25 et min_con f = 2

5 quand P =AB les regravegles valides construites sont ArarrB (min_supp = 3

5 min_con f = 34 ) et BrarrA ( 3

5 34 ) Quand P

= ABC( 25 ) les regravegles construites sont drsquoabord ABrarrC( 2

5 23 ) ACrarrB( 2

5 23 ) BCrarrA( 2

5 23 )

qui sont trois regravegles valides Leurs conclusions peuvent donc ecirctre combineacutees pour produire les nou-velles conclusions ABACBC et les regravegles correspondantes CrarrAB( 2

5 24 ) BrarrAC( 2

5 24 )

ArarrBC( 25 2

4 ) qui sont eacutegalement trois regravegles valides

1 Extraction de Connaissances agrave partir de Bases de Donneacutees ndash 35

Le nombre de motifs et de regravegles geacuteneacutereacutees est drsquoautant plus grand que le contexte permet drsquoassocierun grand nombre drsquoobjets et drsquoattributs Cela rend deacutelicate lrsquoeacutetape drsquointerpreacutetation des uniteacutes extraitesqui dans la plupart des cas est assureacutee par un analyste Pour cette raison il est crucial dans un processusdrsquo et plus particuliegraverement lorsqursquoil met en œuvre une extraction de motifs (ou une recherche deregravegle) de disposer de meacutethodes de filtrage des uniteacutes extraites Dans ce but de nombreux travaux se sontattacheacutes agrave eacutetudier les diverses mesures qui peuvent qualifier une regravegle [Fre98 LFZ99 TKS02 McG05]En partant du fait que la confiance drsquoune regravegle ArarrB peut ecirctre consideacutereacutee comme la probabiliteacute condition-nelle P(B|A) (ie la probabiliteacute de B sachant A) certaines de ces mesures peuvent ecirctre le fruit de calculsde probabiliteacutes comme par exemple lrsquointeacuterecirct la conviction ou la deacutependance drsquoune regravegle Une autre cateacute-gorie de mesures utilise des connaissances du domaine pour eacuteliminer certaines regravegles [LHCM00 Sah02]Ces meacutethodes sont alors dites subjectives par oppositions aux premiegraveres qualifieacutees drsquoobjectives

De la mecircme faccedilon que pour les motifs freacutequents la recherche de regravegles drsquoassociation ainsi que lecalcul de mesures peuvent ecirctre facilement meneacutes agrave partir drsquoun treillis de Galois

La construction drsquoun treillis est une opeacuteration coucircteuse en ressources informatiques et nrsquoest pasneacutecessaire agrave lrsquoextraction de motifs freacutequents ou de regravegles valides pour lesquels des algorithmes plus effi-caces existent Cependant la structure matheacutematique qursquooffre un treillis est inteacuteressante pour caracteacuteriserdes groupes particuliers de motifs et ainsi isoler diffeacuterentes familles de motifs et de regravegles Par exemplele treillis proposeacute Figure 23 permet drsquoidentifier de faccedilon assez intuitive les regravegles exactes qui existententre les motifs freacutequents directement relieacutes et de mecircme support De cette faccedilon les motifs BCE etCE directement relieacutes et de mecircme support ( 3

5 ) traduisent lrsquoexistence de la regravegle exacte CErarrB Lasection suivante introduit une famille de regravegles particuliegraveres ainsi que la meacutethode qui permet drsquoen isolerles membres

133 La famille des Regravegles Minimales Non-Redondantes

Cette section preacutesente la famille particuliegravere des regravegles drsquoassociation Minimales Non-Redondantes(noteacutees RMN) [Kry02 Sza06] Le terme famille de regravegles vient du fait que nous distinguons cinq en-sembles de regravegles parmi les Regravegles Minimales Non-Redondantes

Briques neacutecessaires agrave la deacutefinition des RMNPour pouvoir distinguer ces cinq ensembles particuliers de regravegles nous avons besoin de deacutecrire des en-sembles de motifs appeleacutes classes drsquoeacutequivalence et des motifs particuliers les motifs fermeacutes freacutequents

et les geacuteneacuterateurs freacutequents

Deacutefinition 210 (classe drsquoeacutequivalence) Soit f une fonction qui associe agrave chaque motif P sube T lrsquoensemble

de tous les objets qui contiennent le motif P f(P)=g isin G | g contient P Alors deux motifs P Q sube T

sont eacutequivalents (noteacute P Q) si et seulement si f(P) = f(Q) Lrsquoensemble des motifs eacutequivalant agrave un motif

P est appeleacute la classe drsquoeacutequivalence de P et est noteacutee

[P] = Q sube A | P Q (28)

Deacutefinition 211 (motif fermeacute freacutequent) La fermeture drsquoun motif X noteacutee α(X) est le plus grand super

motif de X de mecircme support que X

Un motif X est alors un motif fermeacute si il nrsquoexiste pas de super motif Y de X (ie X sub Y) de support

identique agrave celui de X Dans ce cas X = α(X) Les motifs fermeacutes sont les motifs de longueur maximale au

sein drsquoune classe drsquoeacutequivalence parfois noteacutee max[P] pour une classe drsquoeacutequivalence [P]

36 Chapitre 2 Etat de lrsquoart

F 24 ndash Classes drsquoeacutequivalence motifs fermeacutes freacutequents et geacuteneacuterateurs freacutequents associeacutes au contexteK repreacutesenteacute Tableau 22 (min_supp = 2

5 ) Les relations de subsomption entre classes drsquoeacutequivalencesont deacuteduites du treillis repreacutesenteacute Figure 23 Source exemple extrait de [Sza06]

Un motif agrave la fois fermeacute et freacutequent suivant la Deacutefinition 28 est un motif fermeacute freacutequent

Deacutefinition 212 (geacuteneacuterateur freacutequent) Un motif P isin [P] est appeleacute geacuteneacuterateur si P nrsquoa pas de sous-

motif dans [P] ie si P nrsquoa pas de sous-motif de support identique agrave P En drsquoautres termes les geacuteneacuterateurs

sont les motifs de longueur minimale au sein drsquoune classe drsquoeacutequivalence

Un geacuteneacuterateur freacutequent est un geacuteneacuterateur dont le support est supeacuterieur ou eacutegale agrave min_supp

Deacutefinition 213 (relation de subsomption entre classes drsquoeacutequivalence) Soit une classe drsquoeacutequivalence

[P] La classe drsquoeacutequivalence [Q] est ascendant ou subsumant de [P] si max[P] sub max[Q] La classe

drsquoeacutequivalence [Q] est ascendant direct ou subsumant direct de [P] si [Q] est un ascendant de [P] et

qursquoil nrsquoexiste aucune classe drsquoeacutequivalence [R] telle que max[P] sub max[R] sub max[Q] La relation de

subsomption sur les classes drsquoeacutequivalence est transitive

La Figure 24 repreacutesente les classes drsquoeacutequivalence les motifs fermeacutes freacutequents les geacuteneacuterateursfreacutequents et les relations de subsomption entre classes pour le contexte repreacutesenteacute Tableau 22 et unsupport minimum de 2

5 Dans cette figure la classe drsquoeacutequivalence dont le fermeacute est C est directementsubsumeacutee par la classe dont le fermeacute est BCE qui elle mecircme est subsumeacutee par la classe dont le fermeacuteest ABCE En revanche il nrsquoexiste aucune relation de subsomption entre les classes drsquoeacutequivalencedont les fermeacutes sont BCE et ABE

Les RMN

Deacutefinition 214 (Base geacuteneacuterique des regravegles exactes) Soit FC lrsquoensemble des motifs fermeacutes freacutequents

Pour chaque motif freacutequent f isin FC FG f est lrsquoensemble des geacuteneacuterateurs freacutequents de f Nous deacutefinissons

1 Extraction de Connaissances agrave partir de Bases de Donneacutees ndash 37

alors la base geacuteneacuterique comme suit

BG = r grarr ( f g) | f isin FC and g isin FG f and f g (29)

Deacutefinition 215 (Base informative des regravegles approximatives) Soit FC lrsquoensemble des motifs fermeacutes

freacutequents et FG lrsquoensemble des geacuteneacuterateurs freacutequents Le motif noteacute α(g) repreacutesente le fermeacute de g La

base informative est alors

BI = r grarr ( f g) | f isin FC and g isin FG and α(g) sub f (210)

Deacutefinition 216 (Reacuteduction transitive de la base informative) Soit BI la base informative drsquoun en-

semble de regravegles approximatives et FC lrsquoensemble des motifs fermeacutes freacutequents La reacuteduction transitive

de la base informative est

BIR = r grarr ( f g) isin BI | α(g) est le sous-motif maximal de f dans FC (211)

Deacutefinition 217 (RMN) Lrsquoensemble des Regravegles Minimales Non-redondantes (RMN) est deacutefini comme

RMN = BG cup BI (212)

Ainsi lrsquoensemble des RMN regroupe lrsquoensemble des regravegles exactes (BG) et des regravegles approximatives(BI)

Deacutefinition 218 (RMNR) Lrsquoensemble des Regravegles Minimales Non-redondantes Reacuteduites (RMNR) cor-

respond agrave la reacuteduction transitive des RMN

RMNR = BG cup BIR (213)

Les RMN constitue lrsquoensemble le plus grand de regravegles de cette famille etBGBIBIR et RMNRen sont des sous-ensembles Aussi il est facile agrave partir des deacutefinitions preacuteceacutedentes de deacuteduire les inclu-sions suivantes

BIR sube BI RMNR sube RMN

BG sube RMNR BI sube RMN

BIR sube RMNR

La Figure 25 illustre la position relative des RMN et des RMNR par rapport agrave lrsquoensemble des regraveglesdrsquoassociation

Calcul des RMNNous pouvons remarquer que les deacutefinitions des RMN ne font intervenir que les deux ensembles demotifs particuliers les motifs fermeacutes freacutequents et leur geacuteneacuterateurs De la mecircme faccedilon lesRMN peuventecirctre calculeacutees agrave partir de ces deux seuls ensembles Lrsquoalgorithme Zart deacutecrit par Szathmary et al [Sza06SNK07] permet drsquoisoler ces deux ensembles pour ensuite isoler les RMN Nous proposons en AnnexeA un algorithme qui recherche les RMN et les RMNR agrave partir des motifs fermeacutes freacutequents et de leurgeacuteneacuterateurs

Suivons un exemple agrave partir du contexteK (Tableau 22) avec min_supp = 25 La figure 24 permet de

visualiser les motifs fermeacutes freacutequents et leurs geacuteneacuterateurs dont nous allons nous servir pour cet exempleAinsi si nous consideacuterons le geacuteneacuterateur E de la Figure 24 deux types de regravegles peuvent ecirctre isoleacutesUn premier type correspond aux regravegles isoleacutees au sein drsquoune classe drsquoeacutequivalence et constitue la BaseGeacuteneacuterique (BG) qui sont des regravegles exactes En partant de E la regravegle exacte Erarr B peut ainsi ecirctre isoleacuteeLe second type de regravegles correspond aux regravegles isoleacutees agrave partir des relations entre classes drsquoeacutequivalence et

38 Chapitre 2 Etat de lrsquoart

F 25 ndash Repreacutesentation des inclusions successives de lrsquoensemble des Regravegles Minimales Non-redondantes Reacuteduites (RMNR) dans lrsquoensemble des Regravegles Minimales Non-redondantes (RMN) puisde ce dernier ensemble dans celui de toutes les regravegles drsquoassociation

constitue la Base Informative (BI) qui sont des regravegles approximatives Le geacuteneacuterateur E permet drsquoisolerles regravegles Erarr AB Erarr BC et Erarr ABC Ensuite pour isoler les RMNR lrsquoespace de recherche (desmotifs fermeacutes freacutequents qui sont eacutegalement super motifs du geacuteneacuterateur consideacutereacute) est reacuteduit aux classesdrsquoeacutequivalence qui sont relieacutees par une relation de subsomption directe (voir Deacutefinition 213) ie lesrelations de subsomption transitives ne sont plus consideacutereacutees De cette faccedilon le geacuteneacuterateur E ne permetdrsquoisoler que trois regravegles Erarr B Erarr AB et Erarr BC La regravegle Erarr ABC isoleacutee agrave partir drsquoune relation desubsomption indirecte nrsquoest plus consideacutereacutee Aussi si lrsquoon retire les regravegles exacte des RMNR (Erarr Bselon notre exemple) nous obtenons la Base Informative Reacuteduite (BIR)

Inteacuterecirct des RMNKryszkiewicz a deacutemontreacute que les RMN et les RMNR constituent des repreacutesentations de lrsquoensembledes regravegles drsquoassociation qui sont sans perte (ie elles permettent de deacuteriver la totaliteacute des regravegles valides)consistantes (ie elles empecircchent de deacuteriver des regravegles non valides) et informatives (ie elles permettentde deacuteterminer les paramegravetres des regravegles comme leur support et leur confiance) Lrsquoavantage principal desRMNR est de constituer lrsquoensemble le plus concis des regravegles drsquoassociation qui peuvent ecirctre extraitesdrsquoun contexte formel sans perte drsquoinformation

Crsquoest pour cette raison que nous utilisons la recherche des RMNR agrave partir drsquoun treillis comme meacuteth-ode de fouille dans un processus drsquoExtraction de Connaissances agrave partir drsquoune Base de Connaissancespreacutesenteacute au chapitre 4 section 23

14 Interpreacutetation en uniteacutes de connaissances

Lrsquoeacutetape drsquointerpreacutetation du processus drsquo est eacutegalement appeleacutee le post processing en anglaisElle consiste en la prise en charge des reacutesultats bruts de la fouille de donneacutees les uniteacutes extraites en leurtransformation pour leur interpreacutetation et validation par lrsquoanalyste en uniteacutes de connaissance

Cette eacutetape est particuliegraverement limitante dans le processus drsquo car elle demande une implica-tion importante de lrsquoanalyste qui doit interpreacuteter des reacutesultats de fouille potentiellement volumineuxLa forme des uniteacutes extraites est diffeacuterente selon la meacutethode de fouille utiliseacutee motif freacutequent con-cept formel regravegle drsquoassociation cluster par exemple Drsquoun point de vue pratique lrsquoeacutetape drsquointerpreacutetationdeacutepend fortement de la meacutethode de fouille utiliseacutee puisque la forme des uniteacutes extraites deacutepend de celle-ci Afin de faciliter lrsquointerpreacutetation les reacutesultats sont transformeacutes pour faire lrsquoobjet drsquoune visualisation

1 Extraction de Connaissances agrave partir de Bases de Donneacutees ndash 39

graphique par exemple sous la forme drsquoun arbre de deacutecision drsquoune hieacuterarchie de clusters drsquoun reacuteseau deneurones drsquoun treillis de concepts

Une mecircme forme drsquouniteacutes extraites peut ecirctre utiliseacutee pour eacutetudier diffeacuterents types de reacutegulariteacutesCrsquoest lrsquoobjectif de la fouille qui dans ce cas oriente la lecture des uniteacutes extraites (ie du modegravele) parlrsquoanalyste La caracteacuterisation la discrimination la recherche drsquoassociation la classification le clusteringou la deacutetection des cas extrecircmes sont les objectifs les plus souvent viseacutes Alors suivant lrsquoobjectif choisilrsquoanalyste srsquointeacuteresse agrave lrsquoune ou lrsquoautre des reacutegulariteacutes observables agrave partir des uniteacutes extraites Par ex-emple les uniteacutes extraites reacutesultant drsquoun clustering des K-plus proches voisins peuvent selon lrsquoobjectifecirctre utiliseacutees pour caracteacuteriser des groupes de donneacutees speacutecifiques ou pour deacutecrire des associations entredonneacutees

Au delagrave de lrsquoobjectif de la fouille les connaissances attendues par lrsquoanalyste orientent lrsquointerpreacutetationLrsquoanalyste peut alors ecirctre ameneacute agrave filtrer parmi les uniteacutes extraites celles qursquoil juge triviales redondantesdeacutenueacutees drsquointeacuterecirct fausses en comparaison de ce qursquoil souhaite trouver Par exemple dans le cadre drsquounerecherche de regravegles drsquoassociation un analyste souhaite deacutecouvrir des associations entre un pheacutenotype ungeacutenotype et un traitement meacutedicamenteux Il peut eacuteliminer les regravegles qui ne contiennent pas agrave la fois uncritegravere correspondant agrave la classe ltdonneacutee du pheacutenotypegt (preacutealablement deacutefinie) un critegravere de la classeltdonneacutee du geacutenotypegt et un critegravere de la classe lttraitementgt Ce genre de filtrage sur les reacutesultats defouille peut ecirctre assureacute par un systegraveme qui tire parti de connaissances du domaine pour permettre parexemple de distinguer les donneacutees qui relegravevent du pheacutenotype de celles qui relegravevent du geacutenotype ou drsquountraitement

15 Reacuteutilisation des uniteacutes extraites

Les uniteacutes extraites finalement valideacutees par lrsquoanalyste sont consideacutereacutees comme uniteacutes de connais-sance Selon le processus drsquo initialement deacutecrit par Frawley et al [FPSM91] puis repris par Fayyadet al [FPSS96] lrsquoidentification drsquoune uniteacute de connaissance constitue un aboutissement du processus etest rarement reacuteutiliseacutee En revanche les uniteacutes extraites sont classiquement reacuteutiliseacutees lors des iteacuterationssuccessives du processus

Le travail deacutecrit dans cette thegravese srsquoinscrit dans lrsquoideacutee que les uniteacutes de connaissances doivent ecirctreformaliseacutees dans un langage de repreacutesentation des connaissances et enregistreacutees dans une Base de Con-naissances () de sorte agrave pouvoir ecirctre reacuteutiliseacutees tout drsquoabord lors des iteacuterations suivantes du processuset ensuite dans le cadre drsquoautres applications qui peuvent tirer parti de connaissances formaliseacutees Nouspreacutesentons dans la section suivante 2 quelques notions de repreacutesentation des connaissances

40 Chapitre 2 Etat de lrsquoart

2 Repreacutesentation des connaissances et ontologies

Nous avons preacutesenteacute dans lrsquointroduction la distinction entre donneacutees information et connaissanceAinsi les bases de donneacutees eacutetudieacutees depuis plusieurs deacutecennies en informatique permettent de structureret de stocker des donneacutees brutes qui peuvent dans le domaine de la geacutenomique par exemple ecirctre lesreacutesultats drsquoun seacutequenccedilage automatique drsquoADN drsquoune analyse sur puce du niveau drsquoexpression des gegravenesdrsquoun tissu ou encore drsquoune analyse par spectromeacutetrie de masse du contenu proteacuteique drsquoun eacutechantillondu mecircme tissu Une Base de Connaissances () est capable de stocker des donneacutees mais est eacutegalementcapable de leur associer une repreacutesentation formelle ie associeacutee agrave une seacutemantique clairement deacutefinie etconccedilue pour ecirctre interpreacuteteacutee par des programmes Les connaissances peuvent ainsi speacutecifier des relationset des contraintes sur les donneacutees de telle sorte que les programmes puissent raisonner sur ces donneacuteespour en deacuteduire de nouvelles connaissances Les bases de connaissances srsquoappuyent sur des langages de

repreacutesentation des connaissances afin non seulement de fournir une structure approprieacutee pour stocker lesdonneacutees mais surtout pour leur associer une interpreacutetation du domaine consideacutereacute

Cette section preacutesente drsquoabord deux familles de langages de repreacutesentation des connaissances quisont les Repreacutesentations des Connaissances par Objet () et les Logiques de Descriptions () avantde deacutefinir les notions drsquoontologie et de Base de Connaissances

21 La Repreacutesentation des Connaissances par Objets

Le succegraves des Langages de Programmation agrave Objets () en informatique est souvent expliqueacute parles beacuteneacutefices qursquoils offrent en matiegravere de geacutenie logiciel gracircce entre autres agrave la modulariteacute lrsquoextensibiliteacuteou la reacuteutilisabiliteacute des ldquoobjets informatiquesrdquo Cependant ce succegraves est certainement eacutegalement ducirc agrave leurcapaciteacute naturelle agrave repreacutesenter les ldquoobjets du monde reacuteelrdquo [NED00] Cette capaciteacute nrsquoa pas seulement fa-voriseacute lrsquoadoption des mais a eacutegalement contribueacute au deacuteveloppement drsquoune famille de Repreacutesentation(ou de systegravemes de repreacutesentation) des Connaissances par Objets (ou ) comme [DQ86] [ER95] et [PGC+01] Le coteacute intuitif de ces langages de a notamment eacuteteacute utiliseacute pour perme-ttre la repreacutesentation et la manipulation drsquoentiteacutes biologiques complexes dans [MVB+95] et [CCQF05]qui mettent respectivement en œuvre et

Objet classe attribut facette et association Dans un formalisme de lrsquoeacuteleacutement de base est lrsquoobjetUne classe permet de regrouper un ensemble drsquoobjets ayant des proprieacuteteacutes communes appeleacutes attributsLes classes associent des facettes aux attributs pour les speacutecifier Les facettes permettent (1) le typage desattributs ie la preacutecision drsquoun type ou drsquoun domaine de valeurs possibles pour un attribut (2) lrsquoinfeacuterence

de valeur pour un attribut ie lrsquoassociation agrave des meacutecanismes capables de rattacher agrave une valeur agrave unattribut selon certaines contraintes ou calculs deacutefinis

Les relations entre objets sont deacutecrites par des associations qui peuvent ecirctre de deux types Premiegravere-ment les attributs-liens pour les relations binaires qui prennent la forme drsquoun attribut speacutecifique dont lavaleur sera lrsquoinstance drsquoune classe Deuxiegravemement la reacuteification drsquoassociation pour les relations n-airesqui revient agrave consideacuterer une association comme une classe dont les attributs sont les liens entre objets oudes attributs speacutecifiques qui qualifient lrsquoassociation

Speacutecialisation partie-tout et instanciation Les classes deacutefinies selon un sont organiseacutees selonune hieacuterarchie fondeacutee sur une relation de speacutecialisation (apparenteacutee agrave la subsomption deacutecrite dans lasection suivante) Une classe descendante drsquoune autre dans cette hieacuterarchie possegravede tous ses attributs (onparle alors drsquoheacuteritage) et peut eacutegalement preacutesenter des attributs suppleacutementaires qui lui sont propres

Les classes peuvent eacutegalement ecirctre relieacutees selon des relations de composition ou drsquoagreacutegation par larelation partie-tout pour repreacutesenter le fait qursquoun objet puisse ecirctre composeacute drsquoautres objets

2 Repreacutesentation des connaissances et ontologies 41

Les classes des preacutesentent la proprieacuteteacute de pouvoir ecirctre instancieacutees par un objet Lrsquoobjet en ques-tion devra alors preacutesenter des valeurs pour les attributs deacutefinis dans la classe Si au moins un attribut nrsquoestpas valueacute alors lrsquoinstanciation est dite incomplegravete Lrsquoensemble des objets qui instancient une classe estappeleacutee lrsquoextension de cette classe

Meacutecanismes de raisonnement Comme tout langage de repreacutesentation des connaissances les ontpour principal objectif de permettre le raisonnement sur les connaissances Divers meacutecanismes de raison-nement sont associeacutes aux langages de

ndash la veacuterification de coheacuterence qui teste les relations de speacutecification entre classes et drsquoinstanciationentre classe et objet

ndash la classification drsquoinstances qui permet de trouver les classes auxquelles une instance peut ap-partenir

ndash la classification de classes qui trouve les classes dont une classe particuliegravere peut ecirctre la speacuteciali-sation

ndash le filtrage qui recherche lrsquoensemble des objets satisfaisant des caracteacuteristiques deacutefinies dans unfiltre

ndash le raisonnement par classification qui positionne une entiteacute (une classe ou un objet) dans unehieacuterarchie de classes

Les systegravemes de preacutesentent lrsquoavantage de proposer des meacutecanismes de raisonnement inteacuteres-sants et de permettre une conceptualisation intuitive des entiteacutes consideacutereacutees Cette conceptualisation peuteacutegalement facilement ecirctre repreacutesenteacutee voir automatiquement traduite dans des repreacutesentations scheacutema-tiques particuliegraverement lisibles comme le langage de modeacutelisation UML [RBJ00] Leur inconveacutenientest de ne pas preacutesenter de veacuteritable assise logique et de ne disposer que drsquoune expressiviteacute relativementlimiteacutee notamment compareacute aux Logiques de Descriptions () preacutesenteacutees dans la section suivante

22 Les Logiques de Descriptions

Les Logiques de Descriptions () constituent une famille de langages de repreacutesentation des con-naissances fondeacutee sur un formalisme logique Les langages de sont des heacuteritiers du systegraveme K-Odeacutecrit en 1985 notamment pour surmonter les ambiguiumlteacutes seacutemantiques que preacutesentaient les systegravemes derepreacutesentations des connaissances preacuteexistants (ie les reacuteseaux seacutemantiques et les systegravemes agrave base deframe) [BS85]

Comme les autres langages de repreacutesentation de connaissances les sont utiliseacutees pour repreacutesenterla conceptualisation drsquoun domaine drsquoapplication de faccedilon structureacutee et en suivant une certaine seacuteman-tique Leur avantage est premiegraverement que cette seacutemantique est clairement deacutefinie et deuxiegravemementqursquoelles disposent de constructeurs logiques varieacutes assurant une expressiviteacute relativement riche (par ex-emple par rapport agrave la plupart des langages de )

Les diffeacuterents membres de la famille des se distinguent les uns des autres notamment par la listedes constructeurs qursquoils proposent Le Tableau 23 liste les constructeurs de base communs agrave la plupartdes Les constructeurs sont associeacutes agrave des symboles (ALU C ) qui sont assembleacutes pour former lesnoms des qui les contiennent De cette faccedilon une logique de descriptions de base appeleacuteeAL nrsquoinclutpas lrsquounion de concepts comme constructeur (associeacute au symbole U) mais la logique qui contient lesconstructeurs inclus dansAL associeacute au constructeur permettant lrsquounion de concept existe eacutegalement etsrsquoappelle ALU Le lecteur pourra trouver une note complegravete sur les conventions de nommage des dans les annexes de [BCM+03] (page 504)

TBox et ABox concept rocircle individu et axiome Une Base de Connaissances () en est com-poseacutee de deux eacuteleacutements la TBox et la ABox Le Tableau 24 est un exemple de exprimeacutee en

42 Chapitre 2 Etat de lrsquoart

Nom du constructeur Syntaxe Seacutemantique Symbole

Concept universel ⊤ ∆I AL

Bottom perp empty AL

Intersection C ⊓ D CI cap DI AL

Union C ⊔ D CI cup DI U

Neacutegation notC ∆I CI C

Restriction universelle forallRC x isin ∆I|forally (x y) isin RI rarr y isin CI AL

Restriction existentielle existRC x isin ∆I|existy (x y) isin RI E

T 23 ndash Syntaxe et seacutemantique associeacutees aux constructeurs de concepts les plus simples en Lesconstructeurs disponibles dans la logique de base AL nrsquoont pas de symbole propre pour les autres lesymbole correspondant est donneacute dans la quatriegraveme colonne Lrsquoannexe B deacutecrit une liste plus complegravetedes constructeurs de concepts ainsi que de certains constructeurs de rocircles

(Ax1) Personne ⊑ ⊤(Ax2) TraitementMeacutedicamenteux ⊑ ⊤(Ax3) Patient ⊑ Personne(Ax4) PatientSousTraitement equiv Patient ⊓ exist aPourTraitement TraitementMeacutedicamenteux

TBox

(Ax5) Patient(adrien)(Ax6) TraitementMeacutedicamenteux(cureDAntibiotique)(Ax7) aPourTraitement(adrien cureDAntibiotique)

ABox

T 24 ndash Un exemple de Base de Connaissances eacutecrite en

La TBox constitue une terminologie ie le vocabulaire drsquoun domaine drsquoapplication Ce vocabulaireest constitueacute (i) de concepts qui correspondent agrave un ensemble drsquoindividus et peuvent ecirctre compareacutes auxpreacutedicats unaires des logiques des preacutedicats et (ii) de rocircles qui repreacutesentent des relations binaires entreles individus et peuvent ecirctre compareacutes agrave des preacutedicats binaires Une particulariteacute des notamment parrapport aux langages de est que deux types de concepts et de rocircles sont distingueacutes les concepts etrocircles atomiques et les concepts et rocircles deacutefinis

ndash les concepts et rocircles atomiques sont deacutecrits seulement par leur nom comme par exemple le conceptPersonne et le rocircle estTraiteacute dans la repreacutesenteacutee Tableau 24

ndash les concepts et rocircles deacutefinis sont deacutecrits par leur nom auquel est associeacute une description com-plexe Dans la proposeacutee en exemple le concept PatientSousTraitement est le seul conceptdeacutefini Le langage avec lequel sont deacutecrits les concepts et rocircles est la choisie pour cette Cesdescriptions complexes sont appeleacutees les axiomes terminologiques

La seacutemantique associeacutee aux concepts est deacutefinie par le biais drsquoune interpreacutetation I = (∆I middotI) Ledomaine drsquointerpreacutetation ∆I de I est un ensemble non vide et la fonction drsquointerpreacutetation middotI associeagrave chaque concept atomique A un ensemble AI sube ∆I et agrave chaque rocircle atomique R une relation binaireRI sube ∆I times ∆I Lrsquoextension de la fonction drsquointerpreacutetation aux concepts (et rocircles) deacutefinis est deacuteduite defaccedilon inductive par la seacutemantique associeacutee aux constructeurs de concepts (et de rocircles) preacutesenteacutes Tableau23

2 Repreacutesentation des connaissances et ontologies 43

Type drsquoaxiome Syntaxe Seacutemantique

Deacutefinition de concept C equiv D CI = DI

Deacutefinition de rocircle R equiv S RI = SI

Inclusion de concept C ⊑ D CI sube DI

Inclusion de rocircle R ⊑ S RI sube SI

Assertion de concept C(a) aI isin CI

Assertion de rocircle R(a b) (aI bI) isin RI

T 25 ndash Syntaxe et seacutemantique associeacutees aux axiomes terminologiques et assertionels en

La ABox quant agrave elle repreacutesente un eacutetat particulier du domaine deacutecrit par la TBox Elle est constitueacuteedrsquoaxiomes assertionnels qui adoptent la forme soit drsquoassertions de concepts agrave lrsquoaide drsquoindividus soitdrsquoassertions de rocircles agrave lrsquoaide de paires drsquoindividus

Deacutefinition speacutecialisation et assertion Les axiomes terminologiques (ie contenus dans la TBox) sontde deux formes

ndash Les eacutegaliteacutes de la forme geacuteneacuterale C equiv D (R equiv S) ougrave C D sont des concepts (et R S des rocircles) Lesdeacutefinitions de concepts (et de rocircles) sont des eacutegaliteacutes particuliegraveres de la forme A equiv C (Q equiv R) ougrave Aest un concept atomique et C une description de concept (et Q un rocircle atomique et R une descriptionde rocircle) Lrsquoaxiome (Ax4) dans la du Tableau 24 est un exemple de deacutefinition de concept

ndash Les inclusions ou subsomption de la forme geacuteneacuterale C ⊑ D (R ⊑ S) ougrave C D sont des concepts(et R S des rocircles) Les speacutecialisations de concepts (et de rocircles) sont des inclusions particuliegraveresdont la partie gauche est un concept (un rocircle) atomique de la mecircme faccedilon que pour les deacutefinitionsCette speacutecialisation est quelque peu diffeacuterente de la speacutecialisation des puisque celle-ci signifiesimplement que tout individu appartenant agrave lrsquointerpreacutetation de C appartient eacutegalement agrave lrsquointerpreacute-tation de D Ainsi lrsquoaxiome (Ax3) dans la exemple est une speacutecialisation

Les axiomes assertionnels (de la ABox) peuvent ecirctre de deux types diffeacuterents selon qursquoil srsquoagisse delrsquoassertion drsquoun concept ou drsquoun rocircle

ndash une assertion de concept noteacutee C(a) statue sur lrsquoappartenance27 drsquoun individu a au concept C28comme crsquoest par exemple le cas pour lrsquoindividu cureDAntibiotique qui instancie le conceptTraitementMeacutedicamenteux selon lrsquoaxiome (Ax6) de la Tableau 24

ndash une assertion de rocircle noteacutee R(a b) statue sur le fait que b est relieacute agrave lrsquoindividu a par la relation RDe cette faccedilon lrsquoaxiome (Ax7) Tableau 24 indique que lrsquoindividu adrien est traiteacute par un individuappeleacute cureDAntibiotique

Le Tableau 25 repreacutesente la seacutemantique associeacutee aux diffeacuterents axiomes drsquoune en Les axiomesconstituent en un sens lrsquoeacuteleacutement de base de repreacutesentation drsquoune connaissance agrave ce titre nous consideacuteronsdans le cadre des un axiome comme une uniteacute de connaissance

Meacutecanismes de raisonnement Si le rocircle drsquoune en se limite au stockage des TBox et ABox sonprincipal avantage est de pouvoir ecirctre associeacutee agrave des meacutecanismes de raisonnement Ces meacutecanismessrsquoappuyent sur les deux premiegraveres opeacuterations suivantes qui servent de briques de bases aux suivantes

ndash le test de subsomption qui veacuterifie qursquoun concept C subsume un concept D noteacute |= D ⊑ C Ainsi surla prise en exemple la reacuteponse au test de subsomption suivant |= PatientSousTraitement ⊑

27Par analogie avec les langages de on parle eacutegalement drsquoinstanciation28Pour ecirctre tout agrave fait exact il faudrait dire ldquolrsquointerpreacutetation de a qui appartient agrave lrsquointerpreacutetation de Crdquo

44 Chapitre 2 Etat de lrsquoart

Patient est vrai Cette subsomption nrsquoest pas explicitement eacutecrite dans la Cependant la deacutef-inition de lrsquoaxiome (Ax4) signifie que toute instance du concept PatientSousTraitement esteacutegalement instance du concept Patient (ainsi que du concept exist estTraiteacute TraitementMeacutedica-menteux) ce qui permet aux meacutecanismes de raisonnement de deacuteduire la reacuteponse

ndash Le test de satisfiabiliteacute qui veacuterifie qursquoun concept peut admettre des instancesndash La classification des concepts qui permet de deacuteterminer la position relative de chaque concept dans

la hieacuterarchie de conceptsndash La classification drsquoinstances qui permet de deacuteterminer pour un individu les concepts dont il est

instance Suivant ce meacutecanisme il est possible de deacuteterminer sur la base de la exemple quelrsquoindividu adrien est eacutegalement instance du concept PatientSousTraitement ce qui nrsquoest pasexplicitement deacutecrit En effet lrsquoinstance adrien remplit lrsquoensemble des conditions neacutecessaires et

suffisantes agrave lrsquoappartenance agrave ce concept ie en termes informels ecirctre un patient et ecirctre traiteacute parquelque chose qui est un traitement meacutedicamenteux

ndash La recherche drsquoinstances (ou instance retrieval en anglais) qui permet de deacuteterminer pour unconcept lrsquoensemble des individus qui en sont instances

Lrsquoefficaciteacute de certains meacutecanismes de raisonnement plus complexes est conditionneacutee par la choisie Parmi ceux lagrave nous citerons

ndash la recherche du concept le plus speacutecifique (ou most specific concept) qui consiste agrave deacuteterminerpour un concept (ou un individu) quel est le concept le plus speacutecifique qui le subsume (ou quel estle concept le plus speacutecifique dont il est instance)

ndash la recherche du subsumant commun le plus speacutecifique (ou least common subsumer) qui recherchele concept le plus speacutecifique qui subsume en mecircme temps deux concepts donneacutes (ou dont deuxindividus donneacutes sont instances)

Lrsquoutilisation de ces derniers meacutecanismes de raisonnement plus complexes est discuteacutee dans [BCM+03]Lrsquoeffervescence autour du Web Seacutemantique et lrsquoadoption pour ce dernier drsquoun langage standard

(le OWL preacutesenteacute dans la section 231) contenant une ont favoriseacute les travaux de recherche et lesavanceacutees en Malgreacute leur manque de convivialiteacute les logiques de descriptions constituent un moyende repreacutesenter les connaissances actuellement preacutefeacutereacute aux langages de Cependant les preacutesententdes avantages qui pourraient inspirer des eacutevolutions des par exemple en ce qui concerne les meacutethodesde raisonnement telles que lrsquoinfeacuterence de valeur

Pour plus de deacutetails sur la comparaison entre et nous conseillons la reacutefeacuterence [Duc00] deDucourneau et al

23 Ontologies et Bases de Connaissances

Le terme ontologie est un emprunt agrave la philosophie au sein de laquelle lrsquoontologie est une branche dela meacutetaphysique deacutedieacutee agrave lrsquoeacutetude des proprieacuteteacutes de ce qui est de ce qui existe

En informatique une ontologie est une repreacutesentation de connaissances Cependant la notion drsquoon-tologie est utiliseacutee pour deacutesigner diffeacuterentes formes de repreacutesentation de connaissances Ceci est parti-culiegraverement vrai en bioinformatique ougrave le terme drsquoontologie est utiliseacute selon diffeacuterentes consideacuterations[GW04] Ainsi pour certains une ontologie peut se limiter agrave un vocabulaire controcircleacute ie une liste de ter-mes consensus en rapport avec un domaine Ce peut ecirctre un vocabulaire controcircleacute associeacute agrave une hieacuterarchie

comme crsquoest le cas pour la G O [ABB+00] Il peut eacutegalement ecirctre associeacute agrave ces vocabulairesdes listes de synonymes qui permettent de mettre en correspondance un terme arbitraire avec le termechoisi comme reacutefeacuterence De faccedilon plus complexe et aussi plus complegravete une ontologie peut ecirctre unerepreacutesentation des concepts drsquoun domaine ainsi que des relations qui existent entre ces concepts Alorsla notion de concept repreacutesente un ensemble fini ou infini ainsi par exemple le concept de proteacuteine

2 Repreacutesentation des connaissances et ontologies 45

repreacutesente (intuitivement) lrsquoensemble des proteacuteinesCrsquoest agrave cette derniegravere forme drsquoontologie que nous nous reacutefeacuterons dans cette thegravese en accord avec la

deacutefinition de Gruber pour qui une ontologie est

ldquoune speacutecification formelle et explicite drsquoune conceptualisation partageacuteerdquo [Gru93]

Les concepts et leurs relations repreacutesenteacutes dans une ontologie peuvent ecirctre deacutefinis de faccedilon plusou moins preacutecise selon le formalisme (lrsquoensemble de symboles et de regravegles de syntaxe) utiliseacute pour lesdeacutecrire Lrsquoutilisation de langages de repreacutesentation des connaissances permet drsquoassocier aux concepts etaux relations une description formelle qui fait reacutefeacuterence agrave une seacutemantique clairement deacutefinie dans le casdes (voir la section 22) Lrsquoavantage de lrsquoutilisation drsquoune telle seacutemantique est de pouvoir associer auxconcepts et relations de lrsquoontologie une interpreacutetation unique qui puisse ainsi ecirctre comprise de la mecircmefaccedilon par deux humains ou par un humain et une machine Ce point est important dans la repreacutesenta-tion des connaissances biologiques car drsquoune part il est neacutecessaire pour un utilisateur de comprendrele modegravele biologique exprimeacute et drsquoautre part il est important que les entiteacutes biologiques repreacutesenteacuteespuissent ecirctre exploiteacutees par des programmes bioinformatiques

R Le fait qursquoune ontologie soit associeacutee agrave une seule interpreacutetation ne veut pas dire quepour un domaine il nrsquoexiste qursquoune seule conceptualisation et qursquoune seule interpreacutetation admissiblesAu contraire un domaine peut donner lieu agrave plusieurs interpreacutetations qui peuvent alors mener agrave la creacutea-tion drsquoontologies diffeacuterentes Les ontologies alors coexistantes reflegravetent les diffeacuterentes perspectives quiexistent sur le domaine en question Par exemple le domaine de la pharmacogeacutenomique peut ecirctre con-ceptualiseacute selon la perspective des cliniciens ou celle des biologistes moleacuteculaires Pour les premiers lapharmacogeacutenomique est consideacutereacutee du cocircteacute de la meacutedecine personnaliseacutee et des relations entre un diag-nostic geacuteneacutetique un traitement meacutedicamenteux et un pheacutenotype macroscopique (une pression arteacuterielleeacuteleveacutee par exemple) Pour les seconds la pharmacogeacutenomique est consideacutereacutee agrave un niveau moleacuteculaireimpliquant notamment les relations entre un groupe de SNP une moleacutecule (le principe actif du meacutedica-ment) et un pheacutenotype moleacuteculaire (la modulation du taux drsquoexpression drsquoun gegravene par exemple)

De faccedilon formelle nous deacutefinissons une ontologie drsquoune faccedilon similaire agrave [ES07] comme suit

Deacutefinition 219 (Ontologie) Une ontologie O est un systegraveme de symboles (Sc Sr H A) consistant en

ndash un ensemble Sc de concepts et un ensemble Sr de relations binaires (DR) entre deux concepts

DR sub Sc appeleacutes le domaine et le co-domaine (domain et range en anglais)

ndash une hieacuterarchie H ougrave les concepts et relations sont hieacuterarchiquement relieacutes par la relation de sub-

somption ie une relation drsquoordre partiel noteacute ⊑ ougrave C1 ⊑ C2 signifie que C1 est un sous-concept

de C2 et r1 ⊑ r2 signifie que r1 est une sous-relation de r2

ndash un ensemble drsquoaxiomes A qui deacutecrivent des contraintes sur les concepts et les relations

Les ontologies auxquelles nous ferons allusion dans la suite de cette thegravese sont des ontologiesrepreacutesenteacutees en Or en le terme ontologie est traditionnellement peu employeacute Les notions de TBox

et ABox clairement deacutefinies lui sont preacutefeacutereacutees Pour cela il est important de preacuteciser que dans cette thegraveseune ontologie en correspond agrave une TBox alors qursquoune Base de Connaissance () pour sa part faitreacutefeacuterence agrave lrsquoensemble TBox ndash ABox

231 OWL et le Web seacutemantique

Le Web seacutemantique est drsquoabord une ideacutee ou une vision du Web selon laquelle le contenu des ressourcesdiffuseacutees sur le Web est rendu accessible aux programmes informatiques de faccedilon agrave ce que ceux-ci soientmieux agrave mecircme de reacutepondre aux besoins des utilisateurs humains [BLHL01] Il srsquoagit de deacutecrire ces

46 Chapitre 2 Etat de lrsquoart

ressources ou plutocirct les donneacutees qursquoelles contiennent selon une repreacutesentation formelle crsquoest agrave dire enlien avec une seacutemantique clairement deacutefinie et conccedilue pour ecirctre interpreacuteteacutee par des programmes Ceux-cipourraient alors manipuler sous forme de connaissances les donneacutees disponibles sur le Web pour deacute-couvrir des connaissances implicites ou nouvelles via des meacutecanismes de raisonnement A la base delrsquoinfrastructure du Web seacutemantique se trouvent les ontologies Celles-ci apportent les eacuteleacutements essentielsqui permettent lrsquointroduction des donneacutees du Web dans un contexte agrave base de connaissances

OWL (Web Ontology Language) est le langage choisi comme standard par le W3C29 pour la diffusiondes ontologies sur le Web et constitue en ce sens la principale technologie sur lequel repose le Webseacutemantique OWL srsquoappuie agrave la fois sur les technologies du Web (comme HTML XML et RDF) et surdes langages de repreacutesentation des connaissances tels que les systegravemes de et les

La speacutecification initiale de OWL reposait sur les exigences suivantes ndash le langage doit ecirctre associeacute agrave une seacutemantique standard et formellement deacutefinie permettant la mise

en œuvre de meacutecanismes de raisonnement maicirctriseacutesndash le langage doit ecirctre tregraves expressif pour prendre en compte la varieacuteteacute des domaines et des applica-

tions envisageacutes dans le cadre du Web seacutemantiqueCes deux eacuteleacutements expliquent en partie le choix des pour repreacutesenter les connaissances en OWLLrsquoAnnexe B propose une correspondance entre les constructeurs de et les constructeurs OWL Dela mecircme faccedilon qursquoil existe plusieurs sous-familles de il existe diffeacuterents profils OWL (OWL-LiteOWL-DL et OWL Full en sont les trois principaux) dont les diffeacuterences reacutesident dans les constructeursqursquoil proposent Par exemple le profil OWL-DL propose un ensemble de constructeurs qui correspond agravela logique SHOIN(D)

Le langage OWL est difficile agrave eacutecrire et lire directement il est donc plus geacuteneacuteralement deacuteveloppeacute eteacutediteacute agrave travers des eacutediteurs drsquoontologie ou de comme Proteacutegeacute [KFNM04] ou Swoop [KPS+06] Nousproposons en Annexe C le code OWL qui correspond agrave la repreacutesenteacutee dans le Tableau 24

FaCT++ [TH06] Pellet [SP04] et RacerPro [HM03] sont des logiciels qui permettent de mettre enœuvre les meacutecanismes de raisonnement standards en sur une ontologie (ou une ) implanteacutee en OWL

232 Construction drsquoontologies

De nombreuses meacutethodes pour le deacuteveloppement drsquoontologies ont eacuteteacute proposeacutees [UK95 FGPJ97NM01] Nous ne cherchons ici ni agrave les passer en revue ni agrave les comparer mais plutocirct agrave faire ressortirles opeacuterations importantes agrave mettre en œuvre lors de la construction manuelle ou semi-automatiquedrsquoontologies Pour une vue drsquoensemble des meacutethodes de construction drsquoune ontologie nous orientons lelecteur vers le chapitre 3 du livre de Goacutemez-Peacuterez [GPCGFL03]

Lrsquoensemble de ces meacutethodes srsquoinspire du geacutenie logiciel comme lrsquoillustre le cycle de vie drsquoune on-tologie proposeacute par Dieng et al [DCGR98] et repreacutesenteacute Figure 26 qui met en avant le cocircteacute iteacuteratif dela construction ainsi que ses principales eacutetapes

La construction drsquoune ontologie est un processus collaboratif ougrave les experts du domaine (et eacuteventuelle-ment des systegravemes drsquoapprentissage) doivent ecirctre fortement impliqueacutes Nous nous inteacuteressons plus parti-culiegraverement aux eacutetapes de speacutecification des besoins de conception et drsquoeacutevaluation de lrsquoontologie

Speacutecification Cette eacutetape consiste agrave deacutefinir en eacutetroite collaboration avec les experts du domaine ledomaine et lrsquoobjectif de lrsquoontologie

Concernant le domaine il srsquoagit de preacuteciser drsquoabord le domaine de connaissances que lrsquoontologiedoit repreacutesenter mais aussi avec quel niveau de granulariteacute celui-ci doit ecirctre repreacutesenteacute Ainsi pour

29World Wide Web Consortium consortium international pour la standardisation et la promotion des technologies du Webhttpwwww3org

2 Repreacutesentation des connaissances et ontologies 47

F 26 ndash Cycle de vie drsquoune ontologie Source [DCGR98]

la creacuteation drsquoune ontologie des proteacuteines il est important de preacuteciser clairement les limites du do-maine agrave repreacutesenter par exemple les proteacuteines humaines ou les proteacuteines phosphatases (humaine etnon-humaine) Le niveau de granulariteacute souhaiteacute doit alors preacuteciser le niveau de deacutetail attendu dans larepreacutesentation du domaine Pour une ontologie des proteacuteines il faut speacutecifier par exemple que seulesleurs annotations fonctionnelles et leur masse est importante ou alternativement qursquoune description plusfine est neacutecessaire impliquant la repreacutesentation de la composition en acides amineacutes des groupementsfonctionnels de ces acides amineacutes et de leurs proprieacuteteacutes physico-chimiques

La deacutefinition de lrsquoobjectif de lrsquoontologie doit deacuteterminer les applications pour lesquelles lrsquoontologieest construite Savoir agrave quoi va servir lrsquoontologie est deacuteterminant pour deacuteterminer les concepts agrave repreacutesen-ter et le point de vue selon lequel les repreacutesenter Ainsi cette opeacuteration doit permettre de deacuteterminer sinotre ontologie des proteacuteines doit servir agrave lrsquoannotation de bases de donneacutees agrave la classification de pro-teacuteines ou encore agrave lrsquoextraction de connaissances relatives aux conseacutequences fonctionnelles des variationsgeacutenomiques Pour formaliser les objectifs et pour permettre lrsquoeacutevaluation de lrsquoontologie il est possible dedeacutefinir des questions de compeacutetence qui sont des exemples concrets de questions auxquelles lrsquoontologiedoit permettre de reacutepondre [Gan05] Veacuterifier que lrsquoontologie une fois construite y reacutepond correctementest un critegravere drsquoeacutevaluation de cette derniegravere

Une opeacuteration importante de la phase de speacutecification est le recensement systeacutematique des ressourcesde donneacutees ou de connaissances deacutejagrave existantes Ces ressources peuvent ecirctre des sources de donneacutees desscheacutemas de sources des vocabulaires controcircleacutes des ontologies de domaines incluses recouvrant ouchevauchant le domaine consideacutereacute Ce recensement a deux buts Le premier est drsquoavoir une vue globaledes donneacutees et connaissances manipuleacutees dans le domaine de sorte agrave consideacuterer leur repreacutesentationdans lrsquoontologie Le second est de reacuteutiliser au maximum lrsquoexistant Pour reprendre notre exemple drsquouneontologie des proteacuteines lrsquoanalyse des donneacutees et des scheacutemas des bases de donneacutees UniProt30 PDB31

donne une vue sur un certain nombre de proprieacuteteacutes des proteacuteines Aussi la consideacuteration de lrsquoontologieappeleacutee PRotein Ontology32 (PRO) et de lrsquoontologie Phosphatase Ontology33 permet de srsquoinspirer ou dereacuteutiliser les repreacutesentations existantes des connaissances

Cette eacutetape est eacutegalement le moment approprieacute pour lrsquoadoption de regravegles de nomenclature strictespour nommer les concepts et rocircles de lrsquoontologie

30Universal Protein Resource httpwwwuniprotorg31Protein Data Bank httpwwwrcsborg32httppirgeorgetownedupro33httpwwwbioinfmanchesteracukphosphabase

48 Chapitre 2 Etat de lrsquoart

Conception La conception de lrsquoontologie comprend trois opeacuterations principales ndash La conceptualisation elle consiste en lrsquoidentification des concepts du domaine et des relations

entre ces concepts Elle peut commencer par la deacutefinition de listes de termes propres au domainetermes qui serviront agrave lrsquoidentification et agrave la deacutefinition des concepts de leurs relations et de leurarticulation avec des ontologies existantes

ndash la formalisation crsquoest la traduction de la conceptualisation dans un formalisme de repreacutesentationdes connaissances par exemple une

ndash lrsquoimpleacutementation il srsquoagit de coder lrsquoontologie formaliseacutee en un langage de repreacutesentation desconnaissances par exemple OWL

En pratique les eacutetapes de formalisation et drsquoimpleacutementation sont souvent meneacutees de front

Eacutevaluation Classiquement lrsquoeacutetape drsquoeacutevaluation fournit des mesures sur lrsquoontologie selon des critegraveresstructurels et fonctionnels [GCCL06] Lrsquoideacuteal est que ces critegraveres drsquoeacutevaluation soient deacutefinis durant lrsquoeacute-tape de speacutecification de lrsquoontologie Crsquoest typiquement le cas des questions de compeacutetence auxquelleslrsquoontologie doit permettre de reacutepondre

Selon Dellschaft et Staab [DS08] les critegraveres structurels et fonctionnels sont utiliseacutes dans trois typesdrsquoeacutevaluations

ndash lrsquoeacutevaluation rapporteacutee agrave la tacircche ougrave lrsquoon mesure essentiellement comment lrsquoontologie ameacuteliorela reacutealisation drsquoune tacircche

ndash lrsquoeacutevaluation rapporteacutee au corpus ougrave lrsquoon mesure la capaciteacute de lrsquoontologie agrave repreacutesenter les con-naissances drsquoun domaine en se reacutefeacuterant au contenu drsquoun corpus de documents repreacutesentatif dudomaine

ndash lrsquoeacutevaluation rapporteacutee aux critegraveres ougrave ce sont des critegraveres objectifs le plus souvent drsquoordre struc-tural qui sont mesureacutes

Eacutevidement lrsquoeacutevaluation rapporteacutee agrave la tacircche peut ecirctre consideacutereacutee comme la plus importante puisquecrsquoest celle-ci qui donne la mesure de lrsquoefficaciteacute de lrsquoontologie dans la tacircche agrave laquelle on lrsquoa assigneacuteeCependant les deux autres types drsquoeacutevaluations sont des moyens ponctuels drsquoeacutevaluer certains aspects delrsquoontologie dont deacutependra forcement son efficaciteacute agrave reacutesoudre une tacircche particuliegravere

Ideacutealement lrsquoeacutevolution drsquoune ontologie est un processus continu qui suit de pregraves lrsquoeacutevolution de lrsquoeacutetatdes connaissances qursquoelle repreacutesente

Le deacuteveloppement complet drsquoune ontologie mecircme semi-automatique est un tacircche longue qui meacuteriteune grande attention La contrepartie des efforts demandeacutes pour son deacuteveloppement reacuteside notammentdans la seacutemantique qursquoelle fournit qui peut ecirctre utiliseacutee par des meacutecanismes de raisonnement mais passeulement Les sections suivantes de ce chapitre preacutesentent lrsquoutilisation drsquoontologies dans le cadre drsquoin-teacutegration de donneacutees (section 3) puis plus geacuteneacuteralement dans le cadre de lrsquo (section 4)

3 Utilisation des ontologies pour lrsquointeacutegration de donneacutees heacuteteacuterogegravenes 49

3 Utilisation des ontologies pour lrsquointeacutegration de donneacutees heacuteteacuterogegravenes

Lrsquoobjectif de cette section est drsquointroduire la notion drsquointeacutegration seacutemantique ie drsquointeacutegration dedonneacutees fondeacutees sur lrsquoutilisation de connaissances du domaine et de meacutecanismes de raisonnement Auvu de cet objectif nous nrsquoentreprendrons pas un eacutetat de lrsquoart exhaustif sur lrsquointeacutegration de donneacutees maisnous nous focaliserons seulement sur deux systegravemes concurrents (lrsquoapproche entrepocirct et lrsquoapproche meacute-

diateur) parce qursquoils neacutecessitent la deacutefinition de mapping crsquoest agrave dire de mise en correspondance entre lesdonneacutees et qursquoils ont donneacute lieu agrave quelques systegravemes opeacuterationnels Ces deux approches nous paraissentaujourdrsquohui les plus propices agrave supporter des approches agrave base de connaissance telles que celle qui faitlrsquoobjet du chapitre 3

31 Les systegravemes drsquointeacutegration de donneacutees

Les deux approches principales pour lrsquointeacutegration de donneacutees se distinguent essentiellement par lalocalisation des donneacutees manipuleacutees par le systegraveme [Hal01]

ndash lrsquointeacutegration mateacuterialiseacutee pour laquelle les donneacutees sont dans un entrepocirct de donneacutees ougrave elles sontrapatrieacutees depuis leur source drsquoorigine

ndash lrsquointeacutegration virtuelle pour laquelle les donneacutees restent dans les sources drsquoorigine ougrave elles sontmanipuleacutees par le biais drsquoun meacutediateur

311 Lrsquointeacutegration mateacuterialiseacutee ou entrepocirct

Lrsquoapproche mateacuterialiseacutee ou entrepocirct de donneacutees consiste en la construction drsquoune base de donneacuteesreacuteelle appeleacutee entrepocirct pour stocker les donneacutees provenant de diffeacuterentes sources Les entrepocircts de don-neacutees sont souvent choisis dans lrsquoindustrie pour le support drsquoaide agrave la deacutecision qursquoils constituent notam-ment gracircce agrave leur association aux techniques OLAP [AAD+96] Un systegraveme drsquointeacutegration suivant unetelle approche est constitueacute de trois parties repreacutesenteacutees Figure 27 lrsquoentrepocirct de donneacutees proprementdit les sources de donneacutees et les magasins de donneacutees

F 27 ndash Architecture drsquoun systegraveme drsquointeacutegration de donneacutees suivant lrsquoapproche entrepocirct

50 Chapitre 2 Etat de lrsquoart

Dans une approche entrepocirct de donneacutees lrsquointeacutegration srsquoappuie sur un scheacutema global deacutefini pourlrsquoentrepocirct Les donneacutees sont extraites des sources transformeacutees en un format de repreacutesentation compati-ble avec le scheacutema de lrsquoentrepocirct eacuteventuellement filtreacutees et inseacutereacutees dans lrsquoentrepocirct par des extracteursLrsquoutilisateur peut interroger directement lrsquoentrepocirct en utilisant les techniques classiques drsquointerrogationde base de donneacutees Lrsquoutilisateur peut eacutegalement interagir avec lrsquoentrepocirct par lrsquointermeacutediaire des ma-gasins de donneacutees dont lrsquoobjectif est de proposer des vues particuliegraveres sur les donneacutees qui pourrontfaciliter leur analyse dans un processus drsquoaide agrave la deacutecision Lrsquoentrepocirct G est un exemple de miseen œuvre de lrsquoapproche entrepocirct pour lrsquointeacutegration et lrsquoanalyse de donneacutees relatives au transcriptomehumain [GMB+05] Le systegraveme BM et BW sont des systegravemes plus geacuteneacuteriques deacutedieacutes agravelrsquointeacutegration de donneacutees biologiques suivant une approche entrepocirct [KKS+04 KLW08]

Une limite principale agrave cette approche reacuteside dans le deacuteveloppement neacutecessaire de meacutethodes drsquoex-traction et drsquointeacutegration des donneacutees capables de rafraicircchir peacuteriodiquement le contenu de lrsquoentrepocirct touten tenant compte de la mise agrave jour des sources

312 Lrsquointeacutegration virtuelle ou meacutediateur

Dans lrsquoapproche meacutediateur lrsquointeacutegration de donneacutees est fondeacutee sur la deacutefinition drsquoun scheacutema globalunifiant les scheacutemas heacuteteacuterogegravenes des sources agrave inteacutegrer La description drsquoun tel scheacutema implique la miseau point de mappings (parfois preacutesenteacutes sous la forme de vues) Un mapping est la description du contenudrsquoune source dans le vocabulaire unique imposeacute par le scheacutema global Lrsquoarchitecture meacutediateur classiquesrsquoarticule suivant trois niveaux repreacutesenteacutes Figure 28 le meacutediateur les wrappers et les sources Auniveau du meacutediateur le scheacutema global fournit un vocabulaire unique qui sert agrave (1) lrsquoexpression desrequecirctes de lrsquoutilisateur et (2) agrave la deacutefinition de mappings ie la description du contenu de chaque sourceLes wrappers (eacutegalement appeleacutes adaptateurs pour eacuteviter lrsquoanglicisme) srsquoappuyent sur la deacutefinition desmappings pour (a) traduire les requecirctes exprimeacutees dans les termes du vocabulaire du scheacutema global endes requecirctes exprimeacutees selon le vocabulaire des sources (b) traduire les reacuteponses aux requecirctes locales(ie sur les sources) en des reacuteponses compatibles avec le scheacutema global du meacutediateur

La constitution drsquoun mapping se fait par la deacutefinition de multiples mises en correspondances entreles relations (au sens des bases de donneacutees relationnelles) du scheacutema global et les relations du scheacutemalocal Ces mises en correspondance peuvent ecirctre deacutecrites suivant deux approches diffeacuterentes [Len02] Lapremiegravere approche est appeleacutee Global As View (ou GAV) selon laquelle les relations du scheacutema globalsont exprimeacutees en fonction des relations du scheacutema local La seconde est lrsquoapproche Local As View (ouLAV) ougrave inversement dans un premier temps un scheacutema global est deacutefini de faccedilon indeacutependante puisau niveau local les relations des scheacutemas locaux sont reformuleacutes dans les termes du scheacutema global Lecontenu des sources est deacutecrit par un ensemble de mappings sur les relations du scheacutema global

Selon Lenzerini [Len02] la description drsquoun systegraveme drsquointeacutegration de donneacutees peut ecirctre formaliseacuteeselon un triplet (GSM) regroupant ses trois composants principaux

ndash le scheacutema global Gndash les scheacutemas des sources S etndash le mappingM entre G et S deacutecrit par un ensemble de correspondances de la forme suivante

qG qS ouqS qG

ougrave qG et qS sont deux requecirctes respectivement sur le scheacutema global et sur le scheacutema des sources

La tacircche du meacutediateur consiste agrave reformuler agrave lrsquoaide des mappings les requecirctes qui lui sont poseacuteesdans les termes du scheacutema global en des requecirctes exprimeacutees dans les termes des scheacutemas des sources

3 Utilisation des ontologies pour lrsquointeacutegration de donneacutees heacuteteacuterogegravenes 51

F 28 ndash Architecture drsquoun systegraveme drsquointeacutegration de donneacutees suivant lrsquoapproche meacutediateur

de donneacutees et inversement Cette tacircche de reformulation est appeleacutee la reacuteeacutecriture de requecirctes Le projetP constitue un exemple drsquoarchitecture meacutediateur originale notamment parce qursquoelle propose uneapproche hybride GAV-LAV ainsi qursquoun scheacutema global exprimeacute suivant un formalisme de repreacutesentationdes connaissances appeleacute [RFG+02] Le travail de Mougin et al [MBB+08] est une illustration delrsquoapproche meacutediateur appliqueacutee agrave des bases de donneacutees biologiques et dont la particulariteacute est de proposerdes meacutethodes semi-automatiques pour faciliter la deacutefinition des mappings neacutecessaires

Les limites de lrsquoapproche meacutediateur reacutesident suivant une approche GAV principalement dans la miseagrave jour du scheacutema global lors de lrsquointeacutegration drsquoune nouvelle source ou suivant une approche LAV dansla reacuteeacutecriture des requecirctes Que lrsquoapproche adopteacutee soit GAV ou LAV le travail le plus important demeurepremiegraverement la deacutefinition des mappings qui peut demander lrsquointervention drsquoun expert du domaine drsquoap-plication et deuxiegravemement la conception des wrappers toujours deacutependante du type de source consideacutereacute

Lrsquoapproche entrepocirct preacutesente deux avantages principaux Le premier est lieacute au fait que les donneacuteesinteacutegreacutees sont agrave disposition au sein de lrsquoentrepocirct speacutecifiquement creacuteeacutee ce qui permet de les transformeret les adapter directement et facilement agrave lrsquoutilisation que lrsquoon souhaite en faire Le second avantageest lieacute au fait que les donneacutees soient regroupeacutees dans une seule source ce qui facilite lrsquoexploitation dusystegraveme

Cependant compareacutee agrave lrsquoapproche meacutediateur lrsquoapproche entrepocirct preacutesente une contrainte majeure les reacuteponses aux requecirctes ne proviennent pas directement des sources mais des donneacutees mateacuterialiseacuteesau sein de lrsquoentrepocirct Ceci implique la mise agrave jour de lrsquoentrepocirct agrave chaque modification des sources ordans certains domaines comme les sciences du vivant les sources sont parfois soumises agrave une eacutevolutionhebdomadaire voir quotidienne

R Les architectures orienteacutes services (ou SOA pour Service Oriented Architecture en anglais)sont des formes particuliegraveres drsquoarchitecture meacutediateur dont les diffeacuterents composants sont associeacutes agrave descomposants logiciels (ie les services) qui interagissent entre eux La communication entre les diffeacuterentsservices srsquoappuie sur un vocabulaire partageacute qui peut ecirctre compareacute agrave un scheacutema global Lrsquoutilisation

52 Chapitre 2 Etat de lrsquoart

drsquoontologie pour la description du scheacutema global peut faciliter la deacutecouverte de services ainsi que leurutilisation dans la deacutefinition de workflows Les articles [MD07a MD07b DPW08] peuvent servir drsquoin-troduction agrave cette probleacutematique

Lrsquoimportance prise par le Web a conduit notamment au deacuteveloppement de nombreuses deacuteclinaisons etvariantes des approches drsquointeacutegration meacutediateur et entrepocirct [Hac04] Un exemple notable est le deacutevelopppe-ment drsquoapproches adapteacutees agrave la structure particuliegravere du Web qui pour cela utilise une architecture paire

agrave paire [CGLR04 RAC+06]

32 Problegraveme drsquoheacuteteacuterogeacuteneacuteiteacute et inteacutegration seacutemantique

321 Heacuteteacuterogeacuteneacuteiteacute de donneacutees et de scheacutemas

La probleacutematique premiegravere de lrsquointeacutegration de donneacutees est lrsquoheacuteteacuterogeacuteneacuteiteacute des donneacutees et lrsquoheacuteteacutero-

geacuteneacuteiteacute des scheacutemas qursquoil est neacutecessaire de reacutesoudre pour mettre en correspondance les sources et au-toriser lrsquointerrogation et la reacuteponse aux requecirctes de faccedilon transparente [Hal05 Saiuml07]

Lrsquoheacuteteacuterogeacuteneacuteiteacute des donneacutees est due au fait que deux bases de donneacutees nrsquoutilisent pas le mecircme vocab-ulaire ou reacutefeacuterentiel pour repreacutesenter une mecircme donneacutee Par exemple le fait qursquoun nucleacuteotide clairementpositionneacute sur le geacutenome humain puisse ecirctre soit une Adeacutenine (A) soit une Guanine (G) selon les in-dividus est noteacute ldquoAGrdquo dans la base de donneacutees dbSNP Cependant il existe un reacutefeacuterentiel diffeacuterent lecode IUPAC34 utiliseacute dans drsquoautres bases de donneacutees biologiques selon lequel le fait qursquoun nucleacuteotidepuisse ecirctre soit une Adeacutenine soit une Guanine est simplement noteacute par la lettre R (pour faire reacutefeacuterenceaux Purines)

Lrsquoheacuteteacuterogeacuteneacuteiteacute des scheacutemas provient quant agrave elle du fait que deux bases de donneacutees peuvent proposerdeux conceptualisations diffeacuterentes drsquoune mecircme entiteacute Cela peut correspondre agrave lrsquoutilisation de nomsdrsquoattributs diffeacuterents Crsquoest par exemple le cas pour lrsquoattribut faisant reacutefeacuterence agrave lrsquoalternative possibleentre deux nucleacuteotides pour un variant geacutenomique qui est nommeacute ldquoAllelerdquo dans la dbSNP et ldquoVariationrdquodans la base PharmGKB De faccedilon plus complexe lrsquoheacuteteacuterogeacuteneacuteiteacute peut reacutesider dans la notion mecircme devariant geacutenomique qui peut diverger entre deux sources Crsquoest justement le cas pour dbSNP et Uniprotqui considegraverent respectivement un variant soit comme une alternative entre deux nucleacuteotides pour unemecircme position sur une seacutequence drsquoADN soit comme une alternative entre deux acides amineacutes pour uneposition sur une seacutequence proteacuteique

Les ontologies peuvent contribuer agrave la reacutesolution du problegraveme drsquoheacuteteacuterogeacuteneacuteiteacute des donneacutees et desscheacutemas En effet elles permettent la description formelle des concepts drsquoun certain domaine ainsi quedes relations existant entre ces concepts Un utilisateur ou un concepteur peut deacutecrire une donneacutee unerelation preacutesentes dans une source gracircce agrave une deacutefinition formelle agrave laquelle est associeacutee une seacutemantiqueclairement eacutetablie Ensuite il peut exploiter cette deacutefinition pour inteacutegrer (ou seulement partager) defaccedilon non ambigueuml le contenu de la source en question Deacutefinitions formelles et seacutemantique peuvent enpratique ecirctre repreacutesenteacutees sous la forme drsquoaxiomes logiques composant une ontologie crsquoest pourquoi onparle drsquoapproche drsquointeacutegration fondeacutee sur une ontologie ou drsquointeacutegration seacutemantique

322 Enjeux de lrsquointeacutegration seacutemantique

Nous discernons cinq problegravemes dont les reacutesolutions constituent les principaux enjeux pour la miseau point drsquoun systegraveme drsquointeacutegration de donneacutees seacutemantique [PLC+08]

1 Permettre la gestion de grands volumes de donneacutees en utilisant la repreacutesentation formelle drsquouneontologie En effet il existe un fosseacute entre lrsquoeacutechelle des systegravemes de gestion de bases de donneacutees

34httpwwwdnaaffrcgojpmiscMPsrchInfoIUPAChtml

3 Utilisation des ontologies pour lrsquointeacutegration de donneacutees heacuteteacuterogegravenes 53

capables de geacuterer efficacement des quantiteacutes de donneacutees importantes et lrsquoeacutechelle des systegravemes agravebase de connaissance pour qui geacuterer une ontologie ou une trop volumineuse reste probleacutematique

2 Permettre des requecirctes sur les donneacutees selon le langage de repreacutesentation et les termes de lrsquoontolo-gie Ceci implique la mise en correspondance entre le langage de repreacutesentation des connaissanceset un langage de requecircte adapteacute aux sources

3 Choisir le langage de repreacutesentation des connaissances Plus un langage est expressif plus il seracomplexe de raisonner sur ce langage Il faut donc trouver un compromis entre une expressiviteacutesuffisante pour repreacutesenter correctement le domaine et une complexiteacute compatible avec les besoinsen raisonnement lieacutes agrave la reacuteponse aux requecirctes

4 Deacutecrire le mapping donneacutees-ontologie Cela revient agrave mettre en correspondance les donneacutees dessources avec les instances des concepts et rocircles de lrsquoontologie ou en drsquoautres termes agrave relier laseacutemantique implicite des donneacutees agrave la seacutemantique explicite de lrsquoontologie

5 Reacutesoudre le problegraveme drsquoimpeacutedance Le problegraveme drsquoimpeacutedance (impedance mismatch en anglais)reacuteside dans le fait qursquoil nrsquoexiste pas une correspondance exacte entre la faccedilon dont sont repreacutesenteacuteesles informations dans une base de donneacutees relationnelle (par la paire attribut-valeur) et la faccedilondont elle peuvent lrsquoecirctre en terme drsquoobjets (par la paire classe-objet) et donc drsquoinstances de conceptsdans une ontologie Il en reacutesulte le besoin de meacutecanismes capables de faire correspondre valeurset objets

Les reacuteponses aux problegravemes 1 et 2 sont en partie apporteacutees par des solutions technologiques is-sues de travaux sur le Web seacutemantique Ainsi diffeacuterents outils et meacutethodes permettent de geacuterer des volumineuses notamment en permettant leur enregistrement dans des systegravemes de gestion de bases dedonneacutees relationnelles S [BKvH02] I S [HLTB04] en sont des exemples et les reacutesul-tats du challenge intituleacute ldquoBillion triplet challengerdquo35 laisse preacutesager des solutions techniques promet-teuses Concernant les requecirctes sur les notons que le langage SPARQL commence agrave eacutemerger parmiles diverses propositions anteacuterieures (OWL Abstract Syntax36 par exemple) puisqursquoil fait lrsquoobjet drsquounerecommandation du W3C depuis janvier 200837

Concernant le 3iegraveme problegraveme la communauteacute des a chercheacute agrave comparer les langages de repreacutesen-tation drsquoune pour montrer lequel pouvait ecirctre le plus adapteacute agrave un accegraves agrave de grands volumes de donneacuteesLes travaux de Hustadt et al et Calvanese et al montrent notamment qursquoune requecircte38 mecircme sur une exprimeacutee en un profil simple du OWL (OWL-Lite et OWL-DL) est trop complexe (co-NP complexe)pour ecirctre envisageable sur de larges volumes de donneacutees [HMS05 CGL+06] Une solution proposeacuteepour garantir la reacuteponse aux requecirctes dans un temps fini (polynocircmial) est lrsquoutilisation de logiques dedescriptions restreintes (ie agrave lrsquoexpressiviteacute restreinte) comme par exemple EL++ [BBL05] Dans cettemecircme ideacutee le W3C travaille notamment au deacuteveloppement drsquoun profil de OWL appeleacute OWL-R39 moinsexpressif que OWL-Lite agrave partir duquel la recherche drsquoinstance pourrait ecirctre faciliteacutee

Les travaux reacutealiseacutes dans lrsquooptique de reacutesoudre les problegravemes 4 et 5 relatifs agrave la deacutefinition drsquounmapping donneacuteesndashconnaissances sont preacutesenteacutes dans la section suivante

33 Le mapping donneacuteesndashconnaissances

Lrsquoutilisation drsquoune ontologie pour lrsquointeacutegration de donneacutees est possible uniquement agrave partir du mo-ment ougrave il existe un mapping entre donneacutees et connaissances ie un ensemble de mises en correspon-

35httpwwwmindswaporgblog20071205announcing-the-open-web-billion-triple-challenge-iswc-0836httpwwww3orgTRowl-semantics37httpwwww3orgTRrdf-sparql-query38Une requecircte en est le plus souvent consideacutereacutee comme un meacutecanisme de raisonnement de recherche drsquoinstance39httpwwww3orgTR2008WD-owl2-profiles-20080411OWL-R_Full

54 Chapitre 2 Etat de lrsquoart

dance entre des donneacutees drsquoune source drsquoun cocircteacute et les instances des concepts et rocircles drsquoune ontologie delrsquoautre

introduit par Rousset et al [RFG+02] ou R2O introduit par Barrasa et al [BCGP04] sont despropositions de langages speacutecifiques pour la description de mappings donneacuteesndashontologie

Cependant ces approches ne prennent pas en consideacuteration le problegraveme drsquoimpeacutedance entre valeurs etobjets Ce problegraveme requiert la deacutefinition de meacutecanismes capables de faire correspondre les valeurs desdonneacutees aux objets de lrsquoontologie et notamment de preacuteciser comment les identifiants des objets peuventecirctre construits agrave partir des valeurs de donneacutees Ce genre de meacutecanismes a par contre eacuteteacute deacutecrit dans lecadre drsquoapproches entrepocirct faisant intervenir des bases de donneacutees objets [HY90 CGL+01] Il srsquoagit alorsde deacutefinir des fonctions symboliques (par exemple de conversion) et de les associer agrave une liste drsquoattributsagrave consideacuterer pour construire lrsquoidentifiant de lrsquoobjet correspondant Le mecircme genre de fonction est deacutefinipour reacuteconcilier des donneacutees heacuteteacuterogegravenes issues de diverses sources et permettre une inteacutegration dansune repreacutesentation homogegravene

De plus des formalismes comme SHOIN(D) ou DL-LiteA permettent drsquoassocier aux instancesde concepts des valeurs [HPSvH03 CGL+07] Par exemple la logique SHOIN(D) qui est la logiquesur laquelle srsquoappuie le profil OWL-DL de OWL permet la manipulation des concepts particuliers quicorrespondent aux types de donneacutees (le D signifie datatype en anglais) Ainsi associer une instance agraveune valeur revient en SHOIN(D) agrave instancier un rocircle associant cette instance et une instance du typede donneacutees (entier chaicircne de caractegravere etc) auquel correspond la valeur en question

Le travail reacutecent de Poggi et al utilise les outils preacutesenteacutes dans cette section (langage formel pourla description de mapping fonction de conciliation valeur-objet manipulant des valeurs) pour deacutecrirede faccedilon theacuteorique un systegraveme drsquointerrogation de donneacutees fondeacute sur une ontologie [PLC+08] Nous noussommes baseacutes sur cette approche theacuteorique et lrsquoavons adapteacutee de sorte agrave la rendre opeacuterationnelle et agravelrsquoaccorder agrave nos objectifs drsquointeacutegration de donneacutees dans le contexte drsquoune Ainsi nous proposonsdans le chapitre 3 une approche originale drsquointeacutegration de donneacutees qui srsquoinspire de lrsquoapproche meacutediateurdont lrsquoobjectif principal nrsquoest pas la reacuteponse agrave une requecircte mais le peuplement drsquoune

34 Utilisation des ontologies en bioinformatique inteacutegration de donneacutees et plus si affiniteacutes

Lrsquoutilisation principale des ontologies en bioinformatique est lrsquointeacutegration de donneacutees mais ce nrsquoestpas la seule Ainsi cette section preacutesente non seulement lrsquoutilisation des ontologies pour lrsquointeacutegration dedonneacutees en bioinformatique mais aborde eacutegalement leurs autres applications toutes relativement con-nexes agrave lrsquointeacutegration

Dans une revue reacutecente Daniel Rubin et al recensent les utilisations des ontologies en bioinforma-tique selon six cateacutegories [RSN07]

ndash la repreacutesentation de connaissances encyclopeacutediquesndash le Traitement Automatique des Langues ()ndash la recherche et lrsquointerrogation de donneacutees biomeacutedicales heacuteteacuterogegravenesndash lrsquoeacutechange de donneacutees entre applicationsndash lrsquointeacutegration de donneacutees etndash lrsquoutilisation de meacutecanismes de raisonnement

Les sections suivantes illustrent ces diffeacuterentes applications

3 Utilisation des ontologies pour lrsquointeacutegration de donneacutees heacuteteacuterogegravenes 55

341 La repreacutesentation de connaissances encyclopeacutediques

De nombreuses ontologies en biologie sont partageacutees sur le Web via des portails deacutedieacutes comme lesite de lrsquoOBO Foundry40 ou le BioPortal41 [SAR+07 RMKM08] Ceci permet agrave des personnes de reacuteu-tiliser des ontologies sans avoir agrave construire celles-ci au preacutealable Cependant la construction reste laphase preacuteliminaire indispensable agrave toute utilisation ou reacuteutilisation drsquoune ontologie La richesse des con-naissances disponibles dans certains domaines comme lrsquoanatomie humaine par exemple la complexiteacutedrsquoautres comme lrsquoeacutepigeacutenomique ou encore la co-existence de plusieurs theacuteories pour un mecircme domainecomme la psychiatrie imposent lrsquoutilisation de meacutethodologies rigoureuses et parfois le deacuteveloppementdrsquooutils particuliers (eg des outils collaboratifs) pour la repreacutesentation des connaissances en biologie defaccedilon encyclopeacutedique ce qui en fait une discipline agrave part entiegravere Les efforts de deacuteveloppement mis enœuvre notamment pour lrsquoontologie FMA (Foundational Model of Anatomy) disponible sur les portailsciteacutes preacuteceacutedemment ou ceux mis en œuvre pour le deacuteveloppement de lrsquoontologie NeuroWeb illustrentdes meacutethodes et outils speacutecialement deacuteveloppeacutes [RMM+98 CMF+07]

En plus drsquoheacuteberger et de partager des bio-ontologies les initiatives OBO Foundry et du BioPortalparticipent agrave leur deacuteveloppement LrsquoOBO Foundry milite pour favoriser le suivi de standards de qualiteacutesdans le deacuteveloppement des bio-ontologies [Fou08] Le BioPortal et plus particuliegraverement sa version2042 propose un ensemble drsquooutils pour faciliter la navigation dans les ontologies le deacuteveloppementcollaboratif la deacutefinition et le partage de mappings Notons que si de nombreuses bio-ontologies sontde simples taxonomies ou des vocabulaires controcircleacutes les reacutesultats de travaux reacutecents permettent de lestransformer en OWL [Hor07 AEB+08]

342 Le Traitement Automatique des Langues

Les ontologies sont de plus en plus utiliseacutees de faccedilon systeacutematique dans les meacutethodes de Le rocircledes ontologies deacutepend alors de lrsquoexpressiviteacute des langages utiliseacutes pour les eacutecrire Pour les cas les plussimples lrsquoontologie est un lexique qui permet de reconnaicirctre les entiteacutes ou les concepts eacutevoqueacutes dansles textes [MKS04] Pour les cas plus complexes lrsquoontologie guide la reconnaissance de connaissancesstructureacutees dans les textes en fournissant un modegravele des connaissances en question [RKK+00]

343 La recherche et lrsquointerrogation de donneacutees

Le challenge releveacute par les ontologies est la recherche et lrsquointerrogation de faccedilon homogegravene de di-verses sources de donneacutees au sein desquelles les entiteacutes biologiques par exemple une association agrave unemaladie ou une implication dans un processus sont nommeacutees de faccedilon diffeacuterentes dans les sources Eneffet en biologie de nombreux synonymes acronymes abreacuteviations peuvent faire reacutefeacuterence agrave une mecircmeentiteacute Un premier exemple est les diffeacuterents noms donneacutes au processus de fabrication du glucose dansun organisme (en gardant les termes anglo-saxons utiliseacutes dans les sources)ldquoglucose synthesisrdquo ldquoglu-cose biosynthesisrdquo ldquoglucose formationrdquo ldquoglucose anabolismrdquo et ldquoglucogenesisrdquo Un second exempleconcerne la preacutesence drsquoun variant geacuteneacutetique agrave la position 2377 du gegravene TMPT ie le fait que le nu-cleacuteotide agrave cette position du geacutenome puisse ecirctre diffeacuterent pour deux individus Ce variant est identifieacute parldquors1142345rdquo dans la base de donneacutees dbSNP ldquoTPMT3Crdquo dans la base OMIM ldquoChr6 18238897 AGrdquodans PharmGKB et ldquoNC_0000610g 18238897AgtGrdquo dans certaines publications scientifiques Uneontologie peut proposer un identifiant unique sous la forme drsquoun terme ou de lrsquoidentifiant drsquoun conceptpour chaque entiteacute et peut eacutegalement lui associer lrsquoensemble de deacutenominations alternatives Dans ce cas

40httpobofoundryorg41httpwwwbioontologyorgtoolsportalbioportalhtml42httpwwwbioontologyorgtoolsalphahtml

56 Chapitre 2 Etat de lrsquoart

F 29 ndash Extrait de la G O

lrsquoontologie peut se preacutesenter comme un vocabulaire controcircleacute recouvrant un certain domaine et auquelpeuvent ecirctre associeacutes des ensembles de synonymes acronymes et abreacuteviations Les identifiants utiliseacutesdans lrsquoontologie permettent alors drsquoidentifier de faccedilon consensuelle les entiteacutes biologiques repreacutesenteacuteesdans diffeacuterentes sources

Lrsquoexemple le plus connu de vocabulaire controcircleacute utiliseacute en biologie est la G O ()[ABB+00] Les entiteacutes biologiques pour lesquelles elle propose un terme unique sont organiseacutees selontrois hieacuterarchies relatives respectivement aux fonctions moleacuteculaires aux composants cellulaires et auxprocessus biologiques Ces termes sont supposeacutes qualifier les produits de gegravenes et plus preacuteciseacutement leurfonction ougrave ils lrsquoexercent et comment La Figure 29 donne un aperccedilu des termes constituant la hieacuterarchiedes composants cellulaires Le succegraves de la revient agrave sa large utilisation pour lrsquoannotation de produitsde gegravenes dans diverses bases de donneacutees A partir de cette annotation les termes sont utiliseacutes pourinterroger de faccedilon transparente et homogegravene plusieurs sources de donneacutees mais aussi pour analyser lesreacutesultats drsquoexpeacuterimentations agrave haut-deacutebit

344 Lrsquoeacutechange de donneacutees entre applications

La deacutefinition drsquoune ontologie peut avoir comme objectif de speacutecifier un format drsquoeacutechange standardpour un domaine Il srsquoagit alors pour lrsquoontologie de deacutecrire preacuteciseacutement les donneacutees leurs types etleurs relations Ce genre drsquoapplication est inteacuteressant lorsque les langages de repreacutesentation du Webseacutemantique (OWL) faciles agrave publier et agrave eacutechanger sur le Web sont utiliseacutes Les ontologies construitesbeacuteneacuteficient au final de lrsquoensemble des technologies du Web seacutemantique nouvellement deacuteveloppeacutees etpeuvent ecirctre utiliseacutees de surcroicirct pour lrsquointeacutegration et lrsquoanalyse de donneacutees

MAG_OM [BB06] et BioPAX [BC08] sont deux standards speacutecifieacutes sous forme drsquoune ontologie etdeacutefinis pour lrsquoeacutechange de donneacutees Le premier est un modegravele qui deacutecrit les conditions expeacuterimentales etles reacutesultats drsquoexpeacuterience drsquohybridation moleacuteculaire en transcriptomique Il est utiliseacute pour le partage dece type de reacutesultats entre chercheurs mais eacutegalement pour la communication entre bases de donneacutees Le

3 Utilisation des ontologies pour lrsquointeacutegration de donneacutees heacuteteacuterogegravenes 57

second BioPAX est un standard drsquoeacutechange drsquoinformations sur les reacuteseaux biologiques Aussi il nrsquoa paseacuteteacute conccedilu comme une repreacutesentation des connaissances du domaine mais son deacuteveloppement en OWLlaisse la possibiliteacute de le consideacuterer comme tel et de lrsquoemployer pour des usages autres que lrsquoeacutechange dedonneacutees Par exemple le fait que des sources de donneacutees sur les reacuteseaux biologiques (comme Human-CyC Reactome) fournissent un accegraves agrave leur contenu dans le format BioPAX a permis lrsquoeacutemergence drsquounsystegraveme drsquointeacutegration de donneacutees relatif aux reacuteseaux appeleacute Pathway Commons43

345 Lrsquointeacutegration de donneacutees

Les ontologies ont la capaciteacute de fournir une repreacutesentation du contenu de plusieurs bases de donneacuteesbiologiques et des relations entre les contenus des diffeacuterentes bases Les meacutecanismes de raisonnementpeuvent ensuite utiliser de telles repreacutesentations pour face une requecircte poseacutee deacuteterminer quelles sont lesressources utiles pour y reacutepondre et en extraire les eacuteleacutements de reacuteponse

Lrsquoun des premiers systegravemes agrave utiliser une bio-ontologie pour lrsquointeacutegration de donneacutees est RW[ABC+99] Lrsquoontologie utiliseacutee dans RW composeacutee de quatre parties repreacutesente dans le langageO [FFR97] agrave la fois le domaine biologique consideacutereacute (le ribosome) et les meacutethodes drsquoanalysepossibles sur les donneacutees relatives agrave ce domaine Lrsquoontologie est instancieacutee agrave partir de diverses ressourcesdisponibles sur le Web et relatives au ribosome pour constituer la RW Les avantages de lrsquoutil-isation drsquoune ontologie sont ici essentiellement de proposer une repreacutesentation des donneacutees non seule-ment inteacutegreacutee mais eacutegalement associeacutee agrave une seacutemantique (de faccedilon manuelle) Lrsquooriginaliteacute principalede RW reacuteside dans son utilisation concomitante drsquoune repreacutesentation des entiteacutes biologiques maiseacutegalement des meacutethodes et objectifs drsquoanalyse de ces entiteacutes qui facilitent cette analyse et lrsquointerpreacutetationde ses reacutesultats est un systegraveme prototypique drsquointeacutegration de donneacutees qui suit une approche meacutediateur [SBB+00]

inclut notamment ndash une ontologie appeleacutee ontologyndash une appeleacutee le ldquomodegravele conceptuel biologiquerdquo qui fournit agrave lrsquoutilisateur les concepts neacuteces-

saires agrave la construction de requecirctesndash un ensemble de mappings entre les concepts du ldquomodegravele conceptuel biologiquerdquo et les scheacutemas

des sources inteacutegreacutees etndash une interface graphique agrave partir de laquelle lrsquoutilisateur peut deacutefinir sa requecircte

Lrsquoutilisation de suit le processus suivant Dans un premier temps lrsquoutilisateur utilise lrsquointerfacegraphique pour construire une requecircte La requecircte correspond agrave la description drsquoun concept de hautniveau formeacute agrave partir de concepts du ldquomodegravele conceptuel biologiquerdquo que lrsquoutilisateur trouve en nav-iguant dans la hieacuterarchie de lrsquoontologie et de constructeurs drsquoune La requecircte ci-dessous est un ex-emple construit avec dans laquelle les termes en gras sont des noms individus de la ceux enitalique sont des constructeurs de la proposeacutee celui entre guillemets est une valeur et les autres sontdes rocircles de lrsquoontologie

protein which

isHomologousTo protein which

hasName ldquoprotein name lardrdquoand

functionsInProcess apoptosis

Cette requecircte correspond agrave la question ldquoquelles sont les proteacuteines qui sont homologues agrave la proteacuteinelard et dont la fonction est impliqueacutee dans le processus biologique drsquoapoptoserdquo

43httpwwwpathwaycommonsorg

58 Chapitre 2 Etat de lrsquoart

Dans un second temps le systegraveme analyse les concepts utiliseacutes dans la requecircte pour deacuteterminerles sources pertinentes agrave interroger et construit ensuite un plan de requecirctes individuelles (ie chacunesur une seule source) en fonction des caracteacuteristiques de la source et des contraintes exprimeacutees dans larequecircte Dans un troisiegraveme temps le systegraveme exeacutecute les requecirctes propres agrave chaque source et collecte lesreacutesultats pour les retourner agrave lrsquoutilisateur La collecte des reacutesultats se fait par le biais de wrappers adapteacutesspeacutecialement agrave chaque source consideacutereacutee Lrsquoavantage principal de est de permettre lrsquoexpression derequecirctes complexes compareacute agrave des systegravemes standard comme SRS44 [EA93] ou Entrez45 [Bax06] et cegracircce agrave lrsquoutilisation des constructeurs de Son inconveacutenient majeur survient lorsque lrsquoon souhaite ladeacuteployer agrave lrsquoeacutechelle du Web et eacutetendre la liste des sources qursquoelle integravegre En effet un tel rafraicircchissementdemande lrsquoenrichissement de lrsquoontologie de la la creacuteation de nouveaux mappings et de nouveauxwrappers La liste des sources inteacutegreacutees par est tregraves reacuteduite ce qui fait de cet inconveacutenient unelimite majeure agrave son utilisation

Depuis de nombreux systegravemes utilisant des ontologies pour lrsquointeacutegration de donneacutees bi-ologiques ont vu le jour Nous citerons seulement [KPL03] et BGSRS [CBBDF07] quise distinguent notamment par le fait qursquoils sont opeacuterationnels

346 Les meacutecanismes de raisonnement

Lrsquoutilisation des meacutecanismes de raisonnement associeacutes aux ontologies constitue une application par-ticuliegraverement prometteuse mais encore peu reacutepandue Nous citerons ici deux travaux de Wolstencroft et

al [WMS+05 WLT+06] Dans le premier il est fait usage des meacutecanismes de veacuterification de consistance

et de classification de concepts sur une ontologie pour assister la construction du scheacutema drsquoune nouvellebase de donneacutees relatives aux familles de proteacuteines phosphatases Le second deacutetailleacute chapitre 4 section252 utilise les meacutecanismes de classification de concepts et drsquoinstances pour permettre la classificationautomatique de proteacuteines phosphatases dans leur famille et sous-famille

Dans le domaine biomeacutedical des meacutecanismes de raisonnement sont eacutegalement utiliseacutes pour deacuteduireles conseacutequences physiologiques de lrsquoendommagement drsquoartegraveres coronaires [RDM05] Dans ce travaillrsquoontologie (Foundational Model of Anatomy) [RMM+98] est utiliseacutee comme base pour repreacutesenteren OWL

ndash la relation entre chaque artegravere coronaire et la zone du tissu cardiaque qursquoelle vascularisendash lrsquoarborescence des artegraveres vascularisant le cœur notamment par une relation de continuiteacute asso-

ciant les artegraveres connecteacuteesndash lrsquoocclusion drsquoune artegraverendash lrsquoischeacutemie du tissu cardiaqueUn service de raisonnement associeacute agrave lrsquoontologie permet drsquoinfeacuterer par un meacutecanisme de classifica-

tion le type de conseacutequence sur les tissus cardiaques que peut avoir un endommagement des artegraveresLe systegraveme Kasimir utilise quant agrave lui le raisonnement agrave partir de cas en plus des meacutecanismes de

raisonnement associeacutes aux [dLN07] Ces meacutecanismes sont appliqueacutes agrave des protocoles de soins ducancer du sein repreacutesenteacutes en OWL pour lrsquoaide au diagnostic

35 Vers une inteacutegration semi-automatique de sources

Les sections preacuteceacutedentes montrent que lrsquointeacutegration de donneacutees mecircme lorsqursquoelle srsquoappuie sur desontologies preacutesente encore de nombreuses limites tout en posant dans lrsquoindustrie comme dans la recherchedes deacutefis cruciaux Il est illusoire drsquoespeacuterer voir agrave court terme lrsquoeacutemergence drsquooutils par exemple baseacutes surles technologies du Web seacutemantique capables drsquointeacutegrer de faccedilon entiegraverement automatique des sources

44httpsrsebiacuk45httpwwwncbinlmnihgovEntrez

3 Utilisation des ontologies pour lrsquointeacutegration de donneacutees heacuteteacuterogegravenes 59

de donneacutees heacuteteacuterogegravenes Cependant les avanceacutees dans le domaine de lrsquoalignement drsquoontologie con-stituent des pistes qui peuvent tout au moins reacuteduire lrsquointervention manuelle neacutecessaire agrave lrsquointeacutegration dedonneacutees Ainsi An et al deacutecrivent un outil semi-automatique appeleacute qui permet la mise en cor-respondance entre des scheacutemas de bases de donneacutees (relationnelles ou XML) et une ontologie [AMB06]Le travail de Leser et Naumann [LN05] constitue un proposition comparable appliqueacutee agrave lrsquointeacutegration debases de donneacutees biologiques Une direction inteacuteressante eacutevoqueacutee par Euzenat et al pour la deacutefinitionsemi-automatique de tels mappings est lrsquoutilisation des capaciteacutes de raisonnement associeacutees aux formal-ismes logiques [ES07]

La section 2 de ce chapitre preacutesentait les ontologies comme un moyen de repreacutesenter les connais-sances drsquoun domaine Une ontologie peut notamment ecirctre utiliseacutee dans le cadre de lrsquointeacutegration de don-neacutees ougrave elle peut jouer un rocircle analogue agrave un scheacutema global comme eacutevoqueacute dans cette section Dans cecas les avantages agrave utiliser une ontologie sont multiples celle-ci est associeacutee agrave une seacutemantique claire-ment deacutefinie suivant laquelle il est possible de mettre en accord les scheacutemas de sources heacuteteacuterogegravenes ellepermet lrsquoutilisation de meacutecanismes de raisonnement capables de veacuterifier la consistance de lrsquoontologie pour une ontologie du Web seacutemantique elle srsquoappuie sur un ensemble de technologies qui facilitent sonpartage et son deacuteveloppement

La contribution preacutesenteacutee dans le chapitre 3 propose une utilisation drsquoontologies originales pourlrsquointeacutegration de donneacutees La contribution preacutesenteacutee chapitre 4 reacuteutilise les mecircme ontologies ainsi que lereacutesultat de lrsquointeacutegration pour guider lrsquoextraction de connaissances La section suivante (4) est un eacutetat delrsquoart de lrsquoutilisation des ontologies pour guider lrsquoextraction de connaissances

60 Chapitre 2 Etat de lrsquoart

4 Extraction de Connaissances guideacutee par les Connaissances du Domainendash

Diffeacuterents auteurs dont Anand [ABH95] Phillips [PB01] Gottgtroy [GKM04] Cespivova [CRS+04]Lieber [LNST08] et plus geacuteneacuteralement les ateliers internationaux SWM [SHB01 BHS02] KDO [BFG+04ABG+06] et PriCKL [BSc07] se sont inteacuteresseacutes agrave lrsquoutilisation de connaissances du domaine formaliseacuteesdans des ontologies pour guider lrsquoanalyste et les machines dans le processus drsquoextraction de connais-sances

Crsquoest notamment sur cette ideacutee geacuteneacuterale qursquoest fondeacute le processus drsquoExtraction de Connaissances

guideacutee par les Connaissances du Domaine ( ou pour Knowledge Discovery guided by Domain

Knowledge en anglais) deacutecrit par Lieber et al [LNST08] Dans lrsquo les uniteacutes de connaissances ex-traites et valideacutees sont exprimeacutees dans un formalisme de repreacutesentation des connaissances afin drsquoecirctreinteacutegreacutees agrave une ontologie du domaine Lrsquoontologie ainsi enrichie est alors reacuteutiliseacutee lors des iteacuterationssuivantes du processus Lors de chaque iteacuteration du processus chacune des eacutetapes peut beacuteneacuteficier drsquoaborddes connaissances initiales et ensuite des connaissances nouvellement acquises

(i) Lors de lrsquoeacutetape de preacuteparation des donneacutees les connaissances facilitent lrsquointeacutegration de donneacuteesheacuteteacuterogegravenes et aident agrave la seacutelection de sous-ensembles de donneacutees plus pertinents agrave fouiller

(ii) Lors de lrsquoeacutetape de fouille de donneacutees les connaissances permettent de speacutecifier des contraintespour par exemple circonscrire ou au contraire eacutelargir lrsquoespace de recherche des algorithmes

(iii) Lors de lrsquoeacutetape drsquointerpreacutetation des uniteacutes extraites les connaissances aident agrave la visualisationet la validation des reacutesultats

Lrsquoontologie de domaine est associeacutee en permanence agrave des meacutecanismes de raisonnement capables deproduire des regravegles drsquoinfeacuterence potentiellement utiles Suivant ce cadre geacuteneacuteral deacutecrit par lrsquo dif-feacuterents travaux se sont appliqueacutes agrave eacutetudier comment en pratique lrsquoextraction de connaissances pouvaittirer parti de connaissances formaliseacutees plus ou moins preacuteciseacutement Les sections suivantes reacutesument ceuxqui nous ont paru les plus inteacuteressants que ce soit lors de la preacuteparation de la fouille ou de lrsquointerpreacuteta-tion

41 Preacuteparation de donneacutees guideacutee par les connaissances

Il est ici question de lrsquoutilisation de connaissances formaliseacutees dans des ontologies pour assister lestacircches drsquointeacutegration de nettoyage de transformation et de reacuteduction de donneacutees preacutesenteacutees chapitre 2section 1

Inteacutegration Lrsquoutilisation drsquoontologies lors de lrsquoextraction et lrsquointeacutegration de donneacutees largement eacutetudieacuteea eacuteteacute abordeacutee dans la section 3 de ce chapitre

Nettoyage Perez-Rey et al ont deacuteveloppeacute lrsquooutil OntoDataClean qui utilise lrsquoontologie OntoData-

Clean preprocessing ontology repreacutesenteacutee Figure 210 pour aider au cours de lrsquoeacutetape de nettoyage desdonneacutees agrave reacutesoudre les problegravemes drsquoinconsistance ou de donneacutees manquantes [PRAC06] Pour utilisercet outil lrsquoanalyste doit deacutecrire dans lrsquoontologie (ie en instanciant les concepts et rocircles) lrsquoenchaicircnementdes opeacuterations qursquoil souhaite appliquer aux diverses bases de donneacutees consideacutereacutees Ces opeacuterations sontpar exemple le remplacement des valeurs manquantes ou la suppression de tuples trop bruiteacutes Le sys-tegraveme est ensuite capable en se reacutefeacuterant aux opeacuterations deacutecrites dans lrsquoontologie de nettoyer les donneacuteesde faccedilon automatique Lrsquoontologie est ainsi utiliseacutee pour aider lrsquoanalyste agrave comprendre les diffeacuterentesopeacuterations possibles lors de cette eacutetape et agrave garder une trace des diffeacuterentes strateacutegies adopteacutees

4 Extraction de Connaissances guideacutee par les Connaissances du Domaine ndash 61

F 210 ndash Lrsquoontologie OntoDataClean preprocessing ontology preacutesenteacutee par Perez-Rey et al

[PRAC06] Les ellipses griseacutees sont les concepts et les rectangles blancs leurs instances Les lignessimples sont des relations de subsomption ou des assertions de concepts Les lignes fleacutecheacutees sont lesrocircles

Transformation Dans le cadre du projet MiningMart Euler et Scholz proposent un outil drsquoaide agrave latransformation de donneacutees qui utilise deux ontologies La premiegravere ontologie doit ecirctre manuellementconstruite en fonction du domaine eacutetudieacute Son but est double (a) fournir un modegravele plus proche de laconceptualisation du domaine de lrsquoanalyste et (b) fournir un modegravele du domaine mettant en valeur lesdeacutependances ou relations qursquoil explore La seconde ontologie doit permettre de deacutecrire les opeacuterationsneacutecessaires et leur enchaicircnement afin de rendre possible la transformation des donneacutees originales dansun modegravele qui correspond agrave la premiegravere ontologie (de domaine) speacutecialement construite Lrsquoutilisation decette ontologie a un rocircle similaire agrave celui de Perez-Rey et al lrsquoappreacutehension des opeacuterations possibles etla documentation des transformations effectueacutees

Bernstein et al utilisent une ontologie qui repreacutesente les meacutethodes de preacuteparation et de fouille de don-neacutees pour aider lrsquoanalyste agrave deacutefinir une strateacutegie drsquo optimale [BPH05] Pour cela lrsquoanalyste deacutecritla strateacutegie drsquo de son choix (objectifs jeux de donneacutees etc) avec les concepts de lrsquoontologie Lesystegraveme appeleacute Intelligent Discovery Assistant relieacute agrave lrsquoontologie propose une liste drsquoenchaicircnement demeacutethodes de preacuteparation et de fouille compatibles entre eux et avec le format initial des donneacutees puisfournit un classement des enchaicircnements proposeacutes selon des critegraveres objectifs comme le temps drsquoexeacutecu-tion ou la preacutecision des reacutesultats

Reacuteduction Liu et al [LY05] ainsi que Guyon et al [GE03] suggegraverent drsquoutiliser les connaissances dudomaine en premiegravere intension pour reacuteduire le jeu de donneacutees en eacuteliminant les attributs qui ne sont paspertinents En pratique de nombreuses approches drsquo utilisent de faccedilon implicite les connaissancesde lrsquoanalyste lors drsquoune seacutelection manuelle drsquoattributs drsquointeacuterecirct Cheng et al [CWT06] comparent defaccedilon empirique les meacutethodes automatiques de seacutelection (preacutesenteacutees en section 1) agrave une meacutethode faisant

62 Chapitre 2 Etat de lrsquoart

intervenir lrsquoexpertise de lrsquoanalyste Dans le cadre de cette eacutetude la seconde meacutethode montre une ameacutelio-ration de la sensibiliteacute de la classification proposeacutee Cependant cette preacuteparation manuelle se limite auxconnaissances propres de lrsquoanalyste sans se reacutefeacuterer aux connaissances potentiellement disponibles parailleurs Certaines eacutetudes suggegraverent lrsquoutilisation de connaissances mises agrave disposition de lrsquoexpert sousforme de listes drsquoattributs drsquointeacuterecirct ou de listes de phrases pour ameacuteliorer les reacutesultats de meacutethode drsquoou de fouille de texte [Gai89 AFC99 CFCH01] Dans ces cas la seacutelection (ou lrsquoannotation drsquoun doc-ument) reste manuelle mais lrsquoanalyste se reacutefegravere agrave une source de donneacutees exteacuterieure qursquoil interpregravete enterme de connaissances

Wilcox et al et Yu et al ont proposeacute drsquoutiliser des connaissances repreacutesenteacutees sous forme de con-traintes ou de regravegles de telle sorte agrave ce que le systegraveme puisse aider agrave la seacutelection de donneacutees [WH03YSS07] Wilcox et al ont montreacute dans le cadre de leur eacutetude de classification de documents que lrsquou-tilisation de connaissances est un critegravere plus important que le choix de la meacutethode de classificationemployeacutee (pour un ensemble de meacutethodes seacutelectionneacutees pour ecirctre traditionnellement utiliseacutees pour cettetacircche) Le travail de Yu et al preacutesente la particulariteacute de coupler une meacutethode de seacutelection automatiquebaseacutee sur une meacutethode agrave noyau et lrsquoutilisation de connaissances Les principales critiques qui peuventecirctre faites agrave ces deux travaux sont lrsquoabsence drsquoune seacutemantique associeacutee aux connaissances consideacutereacuteesla faible implication de lrsquoanalyste dans le processus de seacutelection et la propension agrave seacutelectionner desattributs qui permettront la deacutecouverte de connaissances plus attendues que nouvelles et surprenantes

Un travail reacutecent propose lrsquoutilisation drsquoune ontologie en pour guider la seacutelection drsquoattributs dansle cadre drsquoune opeacuteration appeleacutee le design de tacircche (task design) [SRR05] Lrsquoontologie sert alors agrave par-titionner lrsquoensemble des attributs en diffeacuterentes classes par le biais drsquoun mapping donneacutees-ontologie etpermet ainsi agrave la fouille de travailler sur des partitions plus homogegravenes et donc plus riches en reacutegulariteacutesCette meacutethode semble particuliegraverement pertinente puisqursquoelle combine connaissances drsquoune ontologie etorientation de la seacutelection selon lrsquoobjectif de lrsquoanalyste Toutefois la meacutethode proposeacutee reste tregraves geacuteneacuteraleet sa mise en œuvre contraignante puisque la mise en correspondance des donneacutees agrave fouiller et des con-cepts de lrsquoontologie deacutepend du domaine et est donc reacutealiseacutee de maniegravere ad hoc) et que la description despartitions potentiellement porteuses de reacutegulariteacutes est manuelle

Hormis celles qui concernent lrsquointeacutegration de donneacutees les meacutethodes faisant usage drsquoontologies pourguider la preacuteparation des donneacutees sont finalement peu reacutepandues La preacuteparation est pourtant une phasedeacuteterminante pour la suite du processus durant laquelle lrsquoanalyste est particuliegraverement solliciteacute Crsquoestparticuliegraverement le cas lors de la seacutelection de donneacutees eacutetape cruciale lorsque les meacutethodes de fouillesgeacutenegraverent des reacutesultats volumineux La seacutelection de donneacutees est justement une tacircche ougrave les connais-sances du domaine sont particuliegraverement utiles ce qui justifie leur utilisation de faccedilon semi-automatiquelorsqursquoelles sont formaliseacutees dans une relative au domaine eacutetudieacute

Dans la section 1 du chapitre 4 nous proposons pour guider la seacutelection drsquoutiliser une baseacutee surune ontologie de domaine et instancieacutee agrave partir du contenu des bases de donneacutees relatives De cette faccedilonlrsquoanalyste peut seacutelectionner un jeu de donneacutees agrave fouiller en prenant en compte ses propres connaissancescelles formaliseacutees dans la et beacuteneacuteficier des meacutecanismes de raisonnement associeacutes (subsomption clas-sification)

42 Fouille de donneacutees guideacutee par les connaissances

Faire usage de connaissances formaliseacutees au moment de lrsquoeacutetape centrale de fouille est deacutelicat puisquecela neacutecessite la conception ou la modification drsquoun algorithme de fouille de sorte que celui-ci prenne enconsideacuteration des eacuteleacutements de connaissance Nazeri et Bloedorn preacutesentent dans [NB04] des modifica-tions des algorithmes Apriori et C45 qui visent agrave produire des en prenant en compte des eacuteleacutementsde connaissance du domaine Les eacuteleacutements de connaissance sont dans ce cas des listes de regravegles (que

4 Extraction de Connaissances guideacutee par les Connaissances du Domaine ndash 63

nous appellerons aussi BC) repreacutesenteacutees selon un formalisme deacutefini preacuteciseacutement et non associeacute agrave uneseacutemantique Dans la version originale drsquoApriori le seul critegravere drsquoinclusion drsquoun motif46 est son sup-port Dans la version modifieacutee proposeacutee crsquoest drsquoabord la classe agrave laquelle le motif appartient dans la lorsqursquoil y est repreacutesenteacute qui est deacuteterminante Ainsi

ndash si le motif est dans la et appartient agrave la classe ldquomotifs inteacuteressantsrdquo alors il est conserveacute pourproduire les quelque soit son support

ndash inversement si le motif appartient agrave la classe ldquomotifs ininteacuteressantsrdquo alors il est eacutelimineacute quelquesoit son support

Lrsquoalgorithme 21 repreacutesente simplement lrsquoalgorithme Apriori et les modifications (en gras) proposeacuteespar Nazeri et Bloedorn Dans le cadre drsquoexpeacuterimentations meneacutees par les auteurs avec Apriorimodifieacutele nombre de regravegles ininteacuteressantes diminue sans que ne soient perdues les regravegles inteacuteressantes par rapportagrave lrsquoutilisation drsquoApriori classique

Algorithme 21

geacuteneacuterer les motifs freacutequents de longueur 1

Pour (n=2 agrave max) faire

geacuteneacuterer les motifs candidats de longueur n

Pour (chaque nouveau candidat) faire

veacuterifier si le motif est dans la bc

Si (motif isin ldquomotifs ininteacuteressantsrdquo)

eacuteliminer le motif

Sinon si (motif isin ldquomotifs inteacuteressantsrdquo)

conserver le motif

Sinon

Si (support(motif) gt supportmin)

conserver le motif

geacuteneacuterer les ra

Dans le cas de lrsquoalgorithme C45 qui est une meacutethode de construction drsquoarbre de deacutecision le choixde lrsquoordre des attributs qui permet la construction de lrsquoarbre de deacutecision est modifieacute de telle sorte que desattributs ayant un score faible soient choisis en prioriteacute En effet la associe agrave certains attributs un scoreutiliseacute pour pondeacuterer le classement initial des attributs et ainsi lrsquoordre des attributs choisis pour construirelrsquoarbre De nouvelles associations sont deacuteduites de lrsquoarbre puis utiliseacutees pour modifier les scores associeacutesaux attributs dans la afin drsquoecirctre pris en compte lors des exeacutecutions suivantes

Karel et Kleacutema [KK07] proposent eacutegalement de contraindre un algorithme de fouille (de recherchede quantitatives) en reacuteduisant lrsquoespace de recherche Le jeu de donneacutees exploreacute relatif agrave la transcrip-tomique est composeacute drsquoattributs correspondant agrave des niveaux drsquoexpression de gegravenes Les eacuteleacutements deconnaissance sur lesquels srsquoappuyent les auteurs sont les hieacuterarchies de termes de la Gene Ontology ()Les termes de annotent (ie caracteacuterisent) les gegravenes dans des bases de donneacutees de la mecircme faccedilonque les niveaux drsquoexpression viennent caracteacuteriser ces mecircme gegravenes Ceci permet drsquoassocier les annota-tions et les attributs relatifs au niveau drsquoexpression de gegravenes La hieacuterarchie de lrsquoontologie sert alorsagrave deacutefinir une mesure de similariteacute entre gegravenes qui repreacutesente le fait qursquoil est plus ou moins ldquoplausiblerdquoqursquoun couple de gegravene soit co-exprimeacute Lorsque les sont produites celles qui proposent drsquoassocier desgegravenes dont la co-expression est plausible sont preacutefeacutereacutees aux autres

46Les motifs sont les eacuteleacutements de base pour la geacuteneacuteration des avec lrsquoalgorithme Apriori

64 Chapitre 2 Etat de lrsquoart

Blouson Pantalon de ski

Chemise Tennis Chaussures

Chaussures

de randoneacuteedrsquoexterieur

Vecirctement

Vecirctement

F 211 ndash Taxonomie T

Transaction Produits acheteacutes100 Chemise200 Blouson Chaussures de randonneacutee300 Pantalon de ski Chaussure de randonneacutee400 Chaussures500 Chaussures600 Blouson

T 26 ndash Base de donneacuteesD

43 Interpreacutetation guideacutee par les connaissances

Les meacutethodes de fouille sont susceptibles de produire des quantiteacutes de reacutesultats importantes quirendent la tacircche drsquointerpreacutetation fastidieuse pour lrsquoanalyste Crsquoest notamment le cas de la recherche deregravegles drsquoassociation () qui produit des regravegles agrave la fois nombreuses et redondantes Pour reacutesoudre ceproblegraveme drsquoanalyse des de nombreuses mesures drsquointeacuterecirct objectives et subjectives ont eacuteteacute proposeacuteespour permettre le classement des regravegles [TKS02 McG05 Bri06] Lrsquointeacuterecirct drsquoune regravegle est un paramegravetreen partie subjectif lieacute aux attentes de lrsquoanalyste agrave ses propres connaissances mais aussi potentiellementlieacute aux connaissances du domaine disponibles Une taxonomie peut ainsi ecirctre utiliseacutee pour lrsquoanalyse des et la geacuteneacuteralisation des regravegles [SA95] Suivant cette meacutethode un ensemble de regravegles R = cup(Pi rarr Ci)dont lrsquoensemble des preacutemisses cupPi sont fils drsquoune mecircme classe Pp de la taxonomie et dont lrsquoensembledes conclusions cupCi sont eacutegalement fils drsquoune mecircme classe Cp ces regravegles peuvent ecirctre geacuteneacuteraliseacutees enune seule regravegle de forme Pp rarr Cp Par exemple le Tableau 26 repreacutesente une base de donneacutees D detransactions de magasin et la Figure 211 une taxonomie des produits du magasin Avec un support de 03(ie 2 transactions) et une confiance de 06 les quatre regravegles obtenues en utilisant la geacuteneacuteralisation sontrepreacutesenteacutees dans le Tableau 27 Les regravegles ltPantalon de skirArr Chaussure de randonneacuteegt et ltBlousonrArr Chaussures de randonneacuteegt ne satisfont pas les support et confiance minimums (respectivement 1

6et 1

6 ) ce qui en revanche est le cas de la regravegle plus geacuteneacuterale ltVecirctement drsquoexteacuterieur rArr Chaussures derandonneacuteegt (support = 2

6 )

Regravegle Support ConfianceVecirctement drsquoexteacuterieurrArr Chaussures de randonneacutee 033 066Vecirctement drsquoexteacuterieurrArr Chaussures 033 066Chaussures de randonneacuteerArr Vecirctement drsquoexteacuterieur 033 1Chaussures de randonneacuteerArr Vecirctement 033 1

T 27 ndash Regravegles conserveacutees (supportmin=03 confiancemin=06) apregraves geacuteneacuteralisation

4 Extraction de Connaissances guideacutee par les Connaissances du Domaine ndash 65

Individu A

Attribut X

Individu B

Attribut YRelation empirique

donneacuteesminusontologie

Relation seacutemantique

Mapping

Base deconnaissances

Base dedonneacutees

F 212 ndash Mapping simple proposeacute dans [SRR05] pour guider lrsquointerpreacutetation des reacutesultats de fouille

En plus drsquoune taxonomie Liu et al [LHCM00] utilisent un formalisme particulier pour repreacutesenterdes modegraveles de regravegles que lrsquoanalyste srsquoattend agrave deacutecouvrir Le modegravele geacuteneacuteral drsquoune regravegle est de la forme

ltP1 P2 Pn rArr C1C2 Cngt [support][con f iance]

ougrave les eacuteleacutements de P1 P2 Pn et C1C2 Cn sont soit un attribut (et un terme de la taxonomie) soitun motif soit une expression reacuteguliegravere pour deacutecrire une classe de motifs Le systegraveme associeacute mesure unedistance entre chaque regravegle trouveacutee et les modegraveles proposeacutes de faccedilon agrave chiffrer le caractegravere inattendu desregravegles trouveacutees Les regravegles les plus diffeacuterentes des modegraveles de regravegles proposeacutes par lrsquoanalyste sont les plusinattendues Par exemple un modegravele deacutefini comme suit

ltChaussures de randonneacutee Chaussure+rArr Chemise+ gt

signifie que les regravegles associant au moins un des attributs Chaussures de randonneacutee ou Chaussure avecau moins lrsquoattribut Chemise sont attendues Ceci permet par exemple de mettre en avant le caractegravereinattendu de la regravegle

ltChaussures de randonneacuteerArr Vecirctement drsquoexteacuterieurgt

dont la conclusion ne contient pas lrsquoattribut ChemiseUn autre moyen de faciliter lrsquointerpreacutetation est le deacuteveloppement drsquooutils de visualisation et de vali-

dation des reacutesultats Svatek et al [SRR05] ou Vanzin et al [VB05] proposent des systegravemes fondeacutes sur lemecircme principe drsquoun mapping donneacutees-ontologie preacutealablement eacutetabli Celui-ci permet drsquoexploiter les re-lations de lrsquoontologie et la seacutemantique associeacutee pour aider lrsquoanalyste agrave interpreacuteter les relations empiriquesmises en eacutevidence lors de la fouille (voir Figure 212)

Lrsquooutil de visualisation inclus dans le systegraveme permet drsquoeacutevaluer et drsquointerpreacuteter les reacutesultats de fouilleen affichant et en permettant la navigation au travers des relations de lrsquoontologie associeacutees aux reacutesultats

Les approches preacutesenteacutees dans cette section montrent la neacutecessiteacute de deacutefinir un mapping entre lesdonneacutees analyseacutees et lrsquoontologie La deacutefinition de tels mappings a eacuteteacute abordeacutee dans la section concernantlrsquoutilisation des ontologies pour guider lrsquointeacutegration de donneacutees (section 33) Dans le cas des travaux re-latifs agrave lrsquoextraction de connaissances nous observons qursquoil srsquoagit le plus souvent de meacutethodes heuristiqueset qursquoaucune approche geacuteneacuterale nrsquoest proposeacutee pour la deacutefinition ou la formalisation de tels mappingsDe plus la difficulteacute agrave faire correspondre des valeurs (les donneacutees) et des objets (les instances de lrsquoontolo-gie) au sein des mappings nrsquoest pas abordeacutee dans ces travaux Cela nous conduit agrave proposer drsquoexploiter

66 Chapitre 2 Etat de lrsquoart

les reacutesultats des travaux sur lrsquointeacutegration seacutemantique pour deacutevelopper des strateacutegies drsquoutilisation desconnaissances dans un processus drsquo (Chapitre 4)

Par ailleurs il est possible de distinguer deux types drsquoexploitation de la seacutemantique associeacutees auxontologies selon le type drsquoontologie consideacutereacutee Drsquoune part les ontologies qui ne sont pas associeacutees agraveune seacutemantique preacutecise comme les taxonomies ou les vocabulaires controcircleacutes preacutesentent lrsquoavantage drsquoecirctrefaciles agrave manipuler et ainsi de tirer parti au maximum du peu de seacutemantique qui leur est associeacute Parexemple elle peuvent ecirctre facilement associeacutees au contenu de bases de donneacutees ou de pages Web qursquoilest alors possible drsquoanalyser en consideacuterant la structure de lrsquoontologie comme un lien entre tuples oupages Web Crsquoest notamment le cas pour les bases de donneacutees biologiques annoteacutees avec la et letravail de Karel et Klema [KK07] Drsquoautre part les travaux usant drsquoontologies repreacutesenteacutees selon unformalisme associeacute agrave une seacutemantique preacutecise comme les font un usage minimal de cette seacutemantiquemalgreacute les contraintes imposeacutees par leur exploitation La capaciteacute naturelle des objets agrave repreacutesenter undomaine (ainsi agrave mieux le comprendre et agrave le faire comprendre) et lrsquoorganisation hieacuterarchique demeurentles deux principales proprieacuteteacutes utiliseacutees pour faciliter lrsquoextraction de connaissances En revanche lespossibiliteacutes offertes par lrsquoexpressiviteacute des formalismes utiliseacutes et par les meacutecanismes de raisonnementsont quant agrave elles plus rarement utiliseacutees

Nous pensons que le deacuteveloppement des technologies du Web seacutemantique est une opportuniteacute quioffre la possibiliteacute de tirer le meilleur parti drsquoune seacutemantique formelle et des meacutecanismes de raisonnementassocieacutes Lrsquoobjectif de cette thegravese est notamment drsquoexploiter au maximum ces possibiliteacutes pour guider ladeacutecouverte de connaissances en biologie

Chapitre 3

Ontologies pour lrsquointeacutegration de donneacuteesen pharmacogeacutenomique

Ce chapitre preacutesente le construction de deux ontologies originales SNP-Ontology et SO-Pharm etleur utilisation pour lrsquointeacutegration de donneacutees pharmacogeacutenomiques La particulariteacute principale de lrsquoap-proche utiliseacutee pour lrsquointeacutegration est de transformer les reacutesultats de requecirctes pour peupler une Base deConnaissance () qui servira par la suite agrave guider lrsquoextraction de connaissances (voir chapitre 4)

La section 1 de ce chapitre deacutecrit tout drsquoabord la meacutethodologie rigoureuse adopteacutee pour construirenos ontologies puis deacutetaille chacune des eacutetapes de cette meacutethodologie mises en œuvre dans le cas dela construction de lrsquoontologie SNP-Ontology puis de lrsquoontologie SO-Pharm La section 2 propose unemeacutethode drsquointeacutegration de donneacutees qui utilise les ontologies drsquoune faccedilon similaire agrave un scheacutema globaldans une approche drsquointeacutegration de type meacutediateur Les sections 31 et 32 deacutecrivent les applications decette meacutethode et les expeacuterimentations conduites avec des donneacutees relatives aux variations geacutenomiques etpharmacogeacutenomiques Enfin la section 4 discute les reacutesultats obtenus

1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre

Avant de pouvoir utiliser une ontologie il est eacutevidemment neacutecessaire de la construire Une telle con-struction est un travail long et deacutelicat qui demande une collaboration entre ingeacutenieurs des connaissancesmaicirctrisant les meacutethodes de repreacutesentation des connaissances et experts du domaine maicirctrisant les con-naissances agrave repreacutesenter Afin de valoriser les efforts engageacutes lors de leur construction des ontologiesexistantes sont partageacutees dans des bibliothegraveques drsquoontologies sur le Web comme crsquoest par exemple le casdans le domaine de la biologie avec les sites OBO Foundry47 et BioPortal48 La mise agrave disposition de cesontologies peut en theacuteorie eacuteviter la reconstruction de nouvelles ontologies pour les domaines deacutejagrave cou-verts Cependant la conceptualisation drsquoune ontologie deacutepend eacutetroitement de la deacutefinition du domaineqursquoelle repreacutesente et des objectifs lieacutes agrave sa construction crsquoest pourquoi il est rare en pratique qursquouneontologie existante convienne en mecircme temps au domaine et aux objectifs drsquoun nouveau travail Dansun premier cas extrecircme aucune ontologie ne correspond au domaine et objectifs il est alors neacutecessairede construire entiegraverement une nouvelle ontologie Dans un deuxiegraveme cas plus courant les ontologiesexistantes couvrent partiellement le domaine et reacutepondent partiellement aux exigences imposeacutees par lesobjectifs Une deacutemarche rationnelle consiste alors agrave reacuteutiliser les ontologies existantes en les adaptant agraveses propres domaine et objectifs

47httpobofoundryorg48httpwwwbioontologyorgtoolsportalbioportalhtml

67

68 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

Cette section preacutesente drsquoabord une meacutethodologie de construction drsquoontologie inspireacutee des meacutethodesdeacutecrites dans la litteacuterature mais adapteacutee agrave notre propos Une des particulariteacutes de cette meacutethodologieest drsquoinclure une eacutetape de formalisation des relations eacuteventuelles avec drsquoautres ontologies existantesest formellement deacutecrite avant leur impleacutementation Nous preacutesentons ensuite (sections 12 et 13) lesparticulariteacutes associeacutees agrave la mise en œuvre de cette meacutethode lors de la construction de deux ontologies SNP-Ontology qui repreacutesente des connaissances relatives aux variations geacutenomiques (ou variants) etSO-Pharm qui englobe plus geacuteneacuteralement le domaine de la pharmacogeacutenomique

11 Meacutethodologie de construction manuelle drsquoontologies pour lrsquointeacutegration de donneacutees

Des meacutethodes semi-automatiques comme la classification la fouille de textes peuvent ecirctre utiliseacuteespour construire une ontologie [Ome01 BCM05] Ces meacutethodes sont inteacuteressantes pour constituer unerepreacutesentation des connaissances agrave partir de scheacutemas de bases de donneacutees ou de corpus de textes Enrevanche elles sont peu compatibles avec lrsquoobjectif principal de nos ontologies qui est de proposer unerepreacutesentation des connaissances qui soit la plus proche possible des connaissances de lrsquoexpert et leplus indeacutependante possible de la structures des bases de donneacutees existantes avec lrsquoideacutee que ceci facilitelrsquointeacutegration de donneacutees et lrsquoExtraction de Connaissances agrave partir de Bases de Donneacutees ()

Les ontologies construites par des meacutethodes semi-automatiques proposent une repreacutesentation desconnaissances marqueacutee par la structuration et le format des sources de donneacutees qursquoelles exploitent In-versement nous souhaitons une repreacutesentation la plus neutre possible vis agrave vis des sources de maniegravereagrave laisser possible la mise en correspondance de lrsquoontologie obtenue avec le contenu drsquoun maximum desources heacuteteacuterogegravenes existantes ou agrave venir De plus la construction semi-automatique drsquoontologie est unchamp de recherche agrave part entiegravere Les meacutethodes qui en eacutemergent sont souvent deacutependantes drsquoun domaineet drsquoun format de source et leur utilisation neacutecessite en conseacutequence une adaptation et une eacutevaluationcoucircteuses en temps qui sortent du cadre de nos travaux Pour ces diffeacuterentes raisons nous preacutefeacuteronsune construction manuelle suivant une meacutethodologie deacutefinie de faccedilon rigoureuse (deacutecrite ci-apregraves) etimpliquant des experts du domaine

La meacutethodologie adopteacutee correspond agrave lrsquoadaptation agrave notre contexte des processus de constructioniteacuteratifs deacutecrits classiquement [UK95 FGPJ97 NM01] De cette meacutethodologie ressortent cinq eacutetapes la speacutecification la conceptualisation la formalisation lrsquoimpleacutementation et enfin lrsquoeacutevaluation dont lesreacutesultats conduisent agrave une nouvelle iteacuteration

111 Speacutecification

Le domaine couvert par lrsquoontologie doit ecirctre clairement deacutefini avec les experts Cette deacutefinition inclutla preacutecision des limites du domaine eacuteventuellement de ce que ne couvre pas lrsquoontologie et du niveau degranulariteacute demandeacute pour repreacutesenter les connaissances du domaine Les objectifs pour lesquels lrsquoon-tologie est construite doivent aussi ecirctre preacuteciseacutement deacutetermineacutes avec les experts

Durant cette eacutetape il est important de deacutefinir les critegraveres drsquoeacutevaluation selon lesquels lrsquoontologie serajugeacutee agrave la fin de chaque iteacuteration du processus de construction Dans notre cas ces critegraveres sont (1) laconsistance49 de lrsquoontologie (2) la capaciteacute agrave reacutepondre aux questions de compeacutetence ie une liste dequestions auxquelles lrsquoontologie doit permettre de reacutepondre (3) la capaciteacute agrave repreacutesenter explicitement

des connaissances implicites contenues dans des bases de donneacutees ou des publications scientifiquesDes regravegles de nommage (deacutebut du nom avec ou sans majuscule sans espace liste des caractegraveres

accepteacutes etc) sont adopteacutees pour les noms de concepts de relations entre concepts drsquoindividus et lesvaleurs qui seront utiliseacutes lors de la construction

49Une ontologie est consistante si tous ces concepts peuvent ecirctre instancieacutes

1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre 69

Ensuite deux listes sont eacutetablies en parallegravele une liste des termes du domaine eacutetablie par lrsquoexpertet une liste des sources de donneacutees et de connaissances relatives au domaine Les sources contenuesdans la seconde liste peuvent ecirctre de nature tregraves diffeacuterente comme un modegravele conceptuel (en UML ouen un langage apparenteacute) un scheacutema XML une base de donneacutees une ontologie OWL ou encore unvocabulaire controcircleacute Des exemples concrets de telles listes de sources sont donneacutes dans la suite de cechapitre Les sources de cette liste sont par la suite exploreacutees pour enrichir la liste initiale de termes

Dans un deuxiegraveme temps la liste des sources est utiliseacutee pour identifier les sources de connaissancesqui peuvent ecirctre reacuteutiliseacutees pour la construction de lrsquoontologie Les sources de connaissances sont seacutelec-tionneacutees notamment en fonction de leur pertinence par rapport aux objectifs fixeacutes et en fonction de leurqualiteacute Les critegraveres de qualiteacute preacuteconiseacutes par lrsquoinitiative OBO Foundry50 constituent une liste de critegraveressur lesquels il est possible de srsquoappuyer pour choisir les meilleures sources agrave reacuteutiliser Dans le cas ougraveaucune source de connaissances nrsquoest suffisamment pertinente pour ecirctre reacuteutiliseacutee dans la constructionde lrsquoontologie alors lrsquoontologie doit ecirctre entiegraverement construite

112 Conceptualisation

La conceptualisation du domaine se fait agrave lrsquoaide de diagrammes de classes UML [RBJ00] Lrsquoex-pressiviteacute offerte par UML lrsquoadaptation des classes (ie de la repreacutesentation par objets) pour repreacutesenterles concepts et lrsquoouverture du langage UML font de ce type de diagramme un outil adapteacute agrave la con-ceptualisation drsquoune ontologie [KCH+02] La liste de termes est utiliseacutee pour identifier les concepts delrsquoontologie sous la forme de classes UML auxquels sont assigneacutes un nom et une deacutefinition preacutecise sousla forme drsquoun texte libre Une fois ces concepts identifieacutes leurs relations hieacuterarchiques et non hieacuterar-chiques sont modeacuteliseacutees sous forme drsquoassociations dans les diagrammes de classes

Les relations entre les concepts propres agrave la nouvelle ontologie et les concepts externes des ontologiesreacuteutiliseacutees sont eacutegalement deacutefinies durant la conceptualisation en diagramme de classes Dans le caspreacutesent les relations proposeacutees entre concepts propres et concepts externes sont restreintes agrave trois typesparticuliers de relations la geacuteneacuteralisation lrsquoeacutequivalence et lrsquoagreacutegation

Geacuteneacuteralement le choix du type de relation entre deux concepts est deacutetermineacute par les experts qui pren-nent en consideacuteration leurs connaissances du domaine et les deacutefinitions des deux concepts Cependantdans certains cas le choix du type de relation entre deux concepts provenant de deux bio-ontologies estorienteacute par le type des ontologies consideacutereacutees En effet les ontologies utiliseacutees dans le domaine biomeacutedi-cal peuvent ecirctre diviseacutees en trois cateacutegories principales [RKM+05]

ndash les meacuteta-ontologies qui deacutecrivent des concepts et rocircles indeacutependants du domaine qui servent demodegravele ou de composant pour les ontologies plus speacutecifiques (par exemple DOLCE51 SUMO52)

ndash les ontologies de domaines qui repreacutesentent un certain domaine drsquoapplication et deacutecrivent les en-titeacutes qui lui sont relatives suivant un formalisme de repreacutesentation des connaissances (comme uneLogique de Descriptions )

ndash les vocabulaires controcircleacutes speacutecialiseacutes souvent deacuteveloppeacutes manuellement par un consortium drsquoex-perts pour lrsquoannotation des bases de donneacutees (par exemple G O)

Typiquement une ontologie de domaine en va geacuteneacuteraliser les concepts drsquoun vocabulaire speacutecialiseacutecrsquoest agrave dire que la description formelle drsquoun concept va geacuteneacuteraliser un ensemble de concepts speacutecial-iseacutes De faccedilon similaire des ontologies dont le niveau drsquoabstraction est plus eacuteleveacute peuvent agrave leur tourgeacuteneacuteraliser les deacutefinitions des concepts de lrsquoontologie de domaine Les ontologies que nous souhaitonsconstruire sont des ontologies de domaine en qui proposent des relations vers des vocabulaires con-trocircleacutes Lrsquoassociation de ces deux types drsquoontologie permet de beacuteneacuteficier conjointement de la seacutemantique

50le principes de qualiteacute de lrsquoOBO Foundry httpobofoundryorgcritshtml (derniegravere visite le 17072008)51httpwwwloa-cnritDOLCE52httpwwwontologyportalorg

70 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

F 31 ndash Extrait drsquoun diagramme de classes UML illustrant les relations de geacuteneacuteralisation entre un con-cept issu drsquoun vocabulaire controcircleacute Sequence Ontology (SO) un concept drsquoune ontologie de domaineSNP-Ontology (SNPO) et un concept drsquoune meacuteta-ontologie Basic Formal Ontology (BFO)

associeacutee aux et de la richesse et de lrsquoexpertise associeacutees aux vocabulaires controcircleacutesPar exemple comme lrsquoillustre la Figure 31 le concept propre de lrsquoontologie de domaine SNP-

Ontology S NPO variant geacuteneacuteralise le concept externe S O substitution et ses descendants issusdu vocabulaire controcircleacute Sequence Ontology Par ailleurs le mecircme concept S NPO variant est luimecircme geacuteneacuteraliseacute par le concept externe BFO Ob ject importeacute drsquoune meacuteta-ontologie et ainsi heacuterite etreacuteutilise les deacutefinitions formelles du concept qui y est deacutecrit

113 Formalisation

La formalisation de lrsquoensemble de lrsquoontologie en (SHOIN(D)) est meneacutee de front avec son im-pleacutementation en OWL-DL sauf pour ce qui concerne la formalisation des relations entre concept propreet concept externe (appartenant agrave une autre ontologie) qui est eacutetablie en au preacutealable En fonction dutype de relation choisi entre un concept propre et un concept externe lors de la conceptualisation unaxiome est deacutecrit entre les concepts de correspondants noteacutes Cprop et Cext

ndash la geacuteneacuteralisation drsquoun concept propre par un concept externe est traduite par la relation de sub-somption

Cprop ⊑ Cext

ndash inversement la speacutecialisation drsquoun concept propre par un concept externe est traduite par lrsquoinversede la subsomption

Cprop ⊒ Cext

ndash lrsquoeacutequivalence entre deux concepts est formaliseacutee par lrsquoaxiome

Cprop equiv Cext

ndash la formalisation drsquoune relation drsquoagreacutegation entre deux concepts est noteacutee

Cprop ⊑ existisPartOfCext

ou lrsquoinverse si crsquoest le concept externe qui est une partie du concept propreLrsquoexemple de relations entre concepts propres et externes repreacutesenteacute Figure 31 peut ainsi ecirctre noteacute

comme suit

SNPO variant ⊑ BFO objectSNPO variant ⊒ SO substitution

1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre 71

Des exemples concrets et plus varieacutes des diffeacuterents types drsquoaxiomes possibles sont donneacutes dans lasuite de ce chapitre

Les domaines appeleacutes en anglais ontology matching ontology alignment ou ontology mapping srsquoin-teacuteressent au deacuteveloppement de systegravemes drsquoalignement drsquoontologies Ces systegravemes visent agrave eacutetablir laplupart du temps de faccedilon semi-automatique des relations de geacuteneacuteralisation ou drsquoeacutequivalence entre lesconcepts de deux ontologies distinctes Ils exploitent pour cela la similariteacute des noms de concepts deleurs deacutefinitions formelles (mais aussi de leurs extensions de leurs positions relatives dans une structureetc) pour proposer des relations entre concepts issus drsquoontologies distinctes [ES07] Nous privileacutegionsici la deacutefinition manuelle par les experts du domaine des relations entre concepts drsquoontologies distinctes

Des initiatives reacutecentes notamment le C-OWL [BGvH+03] clarifient la seacutemantique et enrichissentles types de relations possibles pour articuler des concepts drsquoontologies distinctes

114 Impleacutementation

La formalisation en et lrsquoimpleacutementation en OWL-DL sont imbriqueacutees Sur la base des diagrammesde classes les concepts et leurs relations sont deacutecrits formellement sous forme de concepts et rocircles en agrave lrsquoaide de lrsquoeacutediteur drsquoontologie Proteacutegeacute [KFNM04]

Malheureusement il nrsquoexiste pas de systegraveme automatique de conversion des diagrammes de classesUML en axiomes OWL Aussi la conversion est faite manuellement Les concepts et relations simplesen UML sont directement traduits en revanche les concepts plus complexes neacutecessitent une attentionparticuliegravere Par exemple les ne permettent que la repreacutesentation de relations binaires Cela rendrelativement complexe la formalisation des relations n-aires repreacutesenteacutees en UML Le moyen le pluscourant pour surmonter ce problegraveme est appeleacute la reacuteification [NR06] Celle-ci permet drsquoeacuteviter lrsquoutilisationde relations n-aires lors de la conceptualisation en preacutefeacuterant la construction de concepts suppleacutementaireset notamment des concepts qui deacutecrivent une relation n-aire et la deacutecomposent en plusieurs relationsbinaires

Pour ecirctre articuleacutees avec la nouvelle ontologie les ontologies preacuteceacutedemment seacutelectionneacutees doiventecirctre impleacutementeacutees dans le mecircme langage ie en OWL Cela neacutecessite leur conversion lorsqursquoelles nesont pas directement disponibles dans ce langage Elles sont ensuite importeacutees et relieacutees agrave lrsquoontologie parlrsquoimpleacutementation en OWL des axiomes deacutefinis lors de lrsquoeacutetape preacuteceacutedente Pour que lrsquoimpleacutementation deces axiomes soit possible il est neacutecessaire que les diffeacuterentes ontologies articuleacutees par les axiomes soientphysiquement mises en preacutesences Il est alors neacutecessaire de speacutecifier le chemin drsquoaccegraves et lrsquoespace denommage unique (namespace en anglais) des ontologies relieacutees de telle sorte que leurs concepts et rocirclespuissent ecirctre eacutevoqueacutes dans les descriptions de concepts propres agrave lrsquoontologie en construction

Drsquoun point de vue theacuteorique il est possible de consideacuterer la liste drsquoaxiomes entre concepts propreset externes comme une TBox agrave part entiegravere Crsquoest notamment ce qui semble le plus pertinent du faitque ceci permet drsquoeacuteviter drsquoavoir agrave incorporer des concepts externes dans la TBox drsquoune ontologie et deainsi garantir lrsquointeacutegriteacute de lrsquoontologie produite aussi bien que celle des ontologies articuleacutees Cepen-dant les contraintes qursquoimposent la mise en œuvre drsquoune telle modularisation des ontologies limite sonimpleacutementation dans les outils standards drsquoeacutedition drsquoontologie tel que Proteacutegeacute

115 Eacutevaluation

Elle se fait suivant les trois critegraveres deacutefinis lors de la speacutecification consistance questions de compeacute-

tence et capaciteacute agrave repreacutesenter des connaissances du domaineLa consistance de lrsquoontologie et la classification de ses concepts sont veacuterifieacutees reacuteguliegraverement au fur

et agrave mesure et agrave lrsquoissue de la formalisationimpleacutementation agrave lrsquoaide des meacutecanismes de raisonnement

72 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

standards impleacutementeacutes dans RacerPro [HM03]La qualiteacute des reacuteponses aux questions de compeacutetences est eacutevalueacutee selon des critegraveres deacutefinis lors de

la speacutecification Dans notre cas les reacuteponses agrave ces questions ne deacutependent pas seulement de lrsquoontologiemais eacutegalement du systegraveme dans lequel elle est impliqueacutee un systegraveme drsquointeacutegration de donneacutees oudrsquoextraction de connaissances

La capaciteacute de lrsquoontologie agrave repreacutesenter des connaissances eacutetablies du domaine est eacutevalueacutee par lrsquoin-stanciation manuelle de lrsquoontologie agrave partir drsquoexemples de connaissances de deux origines diffeacuterentesElles peuvent ecirctre soit extraites de bases de donneacutees soit extraites de publications scientifiques du do-maine

Lrsquoeacutevaluation de lrsquoontologie suivant lrsquoensemble de ces critegraveres permet drsquoidentifier des concepts et desrocircles absents ou mal deacutecrits dans lrsquoontologie Ceux-ci sont alors pris en consideacuteration pour ameacuteliorer lesspeacutecification conceptualisation et impleacutementation lors de lrsquoiteacuteration suivante du processus de construc-tion

Il nrsquoy a pas agrave proprement parler de critegravere drsquoarrecirct de la constrution drsquoune ontologie Certain auteursutilisent comme en geacutenie logiciel la notion de cycle de vie [DCGR98] Un premier cycle de vie delrsquoontologie se termine lorsque celle-ci est exploiteacutee dans le cadre de lrsquoutilisation pour laquelle elle aeacuteteacute deacuteveloppeacutee Cependant cette utilisation nrsquoest pas forcement un aboutissement et peut donner lieu agravelrsquoidentification drsquoimperfections qursquoun nouveau cycle drsquoameacutelioration et drsquoenrichissement de lrsquoontologievisera agrave corriger

1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre 73

12 Construction drsquoune ontologie pour les variations geacutenomiques SNP-Ontology

121 Speacutecification

Domaine couvert par SNP-Ontology Lrsquoobjet de SNP-Ontology est de proposer une repreacutesentationformelle des variations geacutenomiques Ces variations geacutenomiques sont des reacutegions du geacutenome clairementlocaliseacutees dont la composition en nucleacuteotides est susceptible de varier entre les individus drsquoune mecircmeespegravece La section 2 du chapitre 1 donne plus de deacutetails sur les variations geacutenomiques La majoriteacutede ces variations (environ 90 selon Kruglyak et Nickerson [KN01]) sont des variations ponctuellesie limiteacutees agrave un nucleacuteotide alors appeleacutees SNP pour Single Nucleotide Polymorphism Malgreacute son nomSNP-Ontology ne se limite pas agrave la repreacutesentation des SNP mais repreacutesente les variations geacutenomiques ausens large Elle permet de repreacutesenter sans ambiguiumlteacute une variation geacutenomique localiseacutee sur une seacutequencedrsquoADN ainsi que les conseacutequences que cette variation peut avoir au niveau du transcriptome (sur uneseacutequence drsquoARN) et du proteacuteome (sur une seacutequence drsquoacides amineacutes) SNP-Ontology est deacuteveloppeacutee defaccedilon volontairement geacuteneacuterale afin de permettre la repreacutesentation des variations du geacutenome de diffeacuterentsorganismes ainsi que les variations relativement agrave diffeacuterentes versions drsquoun mecircme geacutenome Une tellerepreacutesentation nrsquoeacutetait jusqursquoalors pas disponible (tout au moins publiquement)

Les derniegraveres versions de SNP-Ontology permettent de repreacutesenter les haplotypes et les variationsdu nombre de copies [RIF+06] La repreacutesentation de notions complexes comme lrsquoinfluence drsquoune vari-ation geacutenomique sur lrsquoeacutepissage [HRT+05] ou encore sur la quantiteacute de proteacuteines traduites ne sont pasrepreacutesenteacutees mais constituent des pistes drsquoeacutevolution pour ses versions futures

Objectifs de SNP-Ontology La repreacutesentation non ambigueuml des variations dans SNP-Ontology a pourobjectif de permettre lrsquointeacutegration de donneacutees heacuteteacuterogegravenes relatives aux variations geacutenomiques et agraveleurs conseacutequences Pour cela lrsquoontologie doit permettre (1) la repreacutesentation des variations suivantdiffeacuterents modes de description existants (2) la repreacutesentation de lrsquoeacutequivalence entre deux descriptionsdistinctes drsquoune mecircme variation ainsi que (3) la correspondance entre une variation geacutenomique et sesconseacutequences aux niveaux du transcriptome et du proteacuteome Par exemple la variation noteacutee TPMT3C

est eacutequivalente agrave celle noteacutee Chr6 18238897 AG et induit au niveau proteacuteique une variation deacutecritepar TPMT TYR240CYS Lrsquoobjectif geacuteneacuteral de SNP-Ontology est de faciliter chaque eacutetape du processusdrsquo preacuteparation (y compris lrsquointeacutegration) fouille et interpreacutetation

Critegraveres drsquoeacutevaluation particuliers Des exemples de questions de compeacutetence auxquelles SNP-Ontologydoit reacutepondre sont

ndash Le gegravene humain CYP2D6 preacutesente-t-il des variations geacutenomiques ndash Si oui certaines drsquoentre elles sont elles reacutepertorieacutees agrave la fois dans les bases dbSNP et OMIM ndash Certaines sont elles reacutepertorieacutees dans la base PharmGKB et dans aucune autre ndash Parmi ces mecircmes variations lesquelles sont non-synonymes ie localiseacutees dans une reacutegion codante

et qui entraicircne une variation drsquoacides amineacutes dans la proteacuteine reacutesultante ndash Certaines de ces variations sont elles localiseacutees agrave une distance infeacuterieure agrave 50 nucleacuteotides en amont

ou en aval des exons du gegravene TPMT ndash Est-il possible de deacuteterminer un ensemble de tag-SNP qui marquent les haplotypes auxquels ap-

partiennent les variants de lrsquoensemble initial

SNP-Ontology doit permettre de repreacutesenter les connaissances qui peuvent ecirctre extraites des bases dedonneacutees que lrsquoon souhaite inteacutegrer ie les connaissances relatives aux variations geacutenomiques enregistreacuteesdans les bases dbSNP OMIM PharmGKB HapMap et dans des bases de donneacutees locus speacutecifiques

74 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

Listes de termes et de sources de donneacutees et de connaissances relatives Une liste des termes utiliseacutesdans le domaine et une liste des source de donneacutees et de connaissances relatives au domaine sont con-stitueacutees La liste des sources utiliseacutees pour enrichir la liste des termes relatifs aux variations geacutenomiquesest preacutesenteacutee dans le Tableau 31 Seules deux sources de connaissances preacutesentent un inteacuterecirct agrave ecirctre ar-ticuleacutees avec SNP-Ontology AA Ontology et Sequence Ontology dont une bregraveve description est donneacuteeTableau 32

Nom de la source Type de source URL

AA Ontology Ontologie OWL geacuteneacuterique http wwwco-odeorgontologiesamino-acid

dbSNP scheacutema XML modegravele de donneacutees geacuteneacuterique http wwwncbinlmnihgovprojectsSNP

HapMap scheacutema XML humain http wwwhapmaporg

HGVBase DTD modegravele de donneacutees humain http hgvbasecgbkise

BD inserm umrs538 DTD modegravele de donneacutees humain LS priveacutee

MECV Vocabulaire controcircleacute geacuteneacuterique http wwwebiacukmutations

OMG SNP Modegravele de donneacutees geacuteneacuterique http wwwomgorgtechnologydocumentsformalsnphtm

OMIM Source de donneacutees humain http wwwncbinlmnihgovomim

PharmGKB scheacutema XML modegravele de donneacutees humain http wwwpharmgkborg

Sequence Ontology Vocabulaire controcircleacute geacuteneacuterique http songsourceforgenet

LOVD Source de donneacutees humain LS http wwwuclacukldlrLOVDv110

UMD LDLR Source de donneacutees humain LS http wwwumdbeLDLR

Uniprot Source de donneacutees geacuteneacuterique http wwwuniprotorg

T 31 ndash Liste des sources exploreacutees pour enrichir la liste de termes relatifs aux variations geacutenomiquesLa troisiegraveme colonne preacutecise si la source de variations geacutenomiques concerne uniquement un locus par-ticulier (source Locus Speacutecifique ou LS) uniquement lrsquohumain ou si elle est geacuteneacuterique (multi-locus etmulti-espegraveces)

Ontologie Domaine Pre f ixe Namespace

AA Ontology acides amineacutes AAO http wwwco-odeorgontologiesamino-acid20051011amino-acidowl

Sequence Ontology Seacutequences et variations SO http purlorgoboowlSO

T 32 ndash Les deux ontologies articuleacutees avec SNP-Ontology

122 Conceptualisation

La Figure 32 repreacutesente la reacutepartition sous forme de quatre paquets (ou packages en anglais) desdiagrammes de classes correspondant agrave SNP-Ontology Les Figures 33 et 34 sont deux exemples dediagrammes de classes centreacutes respectivement sur le concept de variant et sur celui de seacutequence Ainsi laFigure 33 repreacutesente un variant comme un concept associeacute agrave une certaine position dans une seacutequence etassocieacute agrave une variation observeacutee (ObservedVariation) qui peut ecirctre soit une variation de nucleacuteotide (Nu-cleotideVariation) soit une variation drsquoacide amineacutes (AAVariation) selon le type de seacutequence sur laquellele variant est observeacute La Figure 34 repreacutesente notamment les seacutequences de nucleacuteotide leur compositionen nucleacuteotide le fait qursquoil peut srsquoagir soit drsquoune seacutequence drsquoADN (DNASequence) soit drsquoune seacutequencedrsquoARNm (mRNASequence) et entre autres que les seacutequence drsquoADN compose les chromosomes et lesgegravenes

1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre 75

F 32 ndash Diagramme UML repreacutesentant la reacutepartition des diagrammes de classes en quatre paquets(packages en anglais) Le concept de variant peut ecirctre associeacute aux seacutequences geacutenomiques sur lesquelsils sont localiseacutes originellement mais aussi aux seacutequences transcrites et proteacuteiques sur lesquelles sontobserveacutees les conseacutequences des variations geacutenomiques

Sequence

InSequencePosition

AASequence

NucleotideVariation

AAVariation

NucleotideSequence

ObservedVariationVariant

0150

is observed in

2

is present in lt=

is observed in

F 33 ndash Diagramme de classes UML conceptualisant un variant la variation observeacutee pour un variantet sa position sur une seacutequence

mRNA ProteinChromosomeContig ExonIntronGene Transcript

mRNASequence

AASequence

Sequence

InSequencePosition

Nucleotide

Variant

DNASequence

NucleotideSequence AminoAcid

is present in lt=

11 1 1

1 115001

1

1 1

includes

F 34 ndash Diagramme de classes UML relatif aux seacutequences associeacutees agrave un variant

76 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

123 Formalisation

Les relations deacutecrites entre concepts propres agrave SNP-Ontology et concepts externes sont traduits en sous forme drsquoaxiomes Le Tableau 33 liste les axiomes reliant SNP-Ontology agrave lrsquoAA Ontology etSequence Ontology

SNPO amino_acid equiv AAO AminoAcidSNPO assembly equiv SO assembly (SO 0000353)SNPO contig equiv SO contig (SO 0000149)SNPO chromosome equiv SO chromosome (SO 0000340)SNPO codon ⊒ SO transcription_start_site (SO 0000315)SNPO codon ⊒ SO transcription_stop_site (SO 0000616)SNPO exon ⊒ SO exon (SO 0000147)SNPO intron ⊒ SO intron (SO 0000188)SNPO gene equiv SO gene (SO 0000704)SNPO genome equiv SO genome (SO 0001026)SNPO promotor equiv SO promotor (SO 0000167)SNPO terminator equiv SO terminator (SO 0000141)SNPO cnvr equiv SO copy_number_variation (SO 0001019)SNPO repeated_segment ⊒ SO repeat_region (SO 0000657)SNPO haplotype equiv SO haplotype (SO 0001024)SNPO transcript_region equiv SO transcript_region (SO 0000833)SNPO mature_mrna equiv SO RNA (SO 0000356)SNPO transcript equiv SO transcript (SO 0000673)SNPO genomic_region ⊒ SO QTL (SO 0000771)SNPO genomic_region ⊒ SO pseudogenic_region (SO 0000462)SNPO genomic_region ⊒ SO intergenic_region (SO 0000605)SNPO genomic_region ⊒ SO regulatory_region (SO 0005836)SNPO genomic_region ⊒ SO binding_site (SO 0000409)SNPO genomic_region ⊒ SO haplotype_block (SO 0000355)SNPO genomic_region ⊒ SO chromosome_part (SO 0000830)SNPO genomic_region ⊒ SO regulatory_region (SO 0005836)

T 33 ndash Liste des axiomes deacutecrivant les relations entre concepts propres agrave SNP-Ontology (SNPO) etconcepts externes importeacutes de AA Ontology (AAO) et Sequence Ontology (SO) Les identifiants desconcepts de SO sont donneacutes entre parenthegraveses

124 Impleacutementation

Les Figures 35 et 36 scheacutematisent certains concepts et rocircles de SNP-Ontology Ces deux figurespeuvent ecirctre compareacutees aux diagrammes de classes UML (Figures 33 et 34) pour illustrer la conversionentre diagrammes de classes UML et SNP-Ontology est disponible en OWL-DL sur le Web agrave lrsquoadressesuivante httpwwwloriafr~couletsnpontology14_descriptionphp

Sa version 14 contient 69 concepts dont 21 concepts deacutefinis et 59 rocirclesConcernant la conversion en OWL des ontologies articuleacutees AA Ontology est deacuteveloppeacutee en OWL

donc elle ne neacutecessite aucune conversion En revanche Sequence Ontology est deacuteveloppeacutee dans un for-

1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre 77

Variant

owl Thing

AAVariation

NucelotideVariation

ObservedVariation

Sequence

AASequence

NucleotideSequence

mRNASequence

DNASequence

isminusa

isminusa

isminusa

isminusa

isminusa

isminusa

isminusa

isminusa

isminusa

isminusaSequencePosition

F 35 ndash Repreacutesentation partielle de la hieacuterarchie de concepts de SNP-Ontology impleacutementeacutee en OWL

Variant

Sequence

AAVariation

SequencePosition

inRefSequence

hasSequence

hasAAVariation

stopPosition

owl Class owl ObjectProperty

startPosition

owl DatatypeProperty

1

2

owl ObjectProperty

includeSubSequence

isOneObservedAllele

isObservedIn

hasVariant hasPosition

owl domain

owl range

owl range

owl range

owl range

owl range

owl range

owl range

owl range

owl domain

owl domain

owl domain

owl domain

owl domain

owl domain

owl domain owl range

owl range

owl cardinality

owl minCardinality

owl maxCardinality

intdatatype

rdf

F 36 ndash Repreacutesentation scheacutematique de quelques concepts et rocircles de SNP-Ontology impleacutementeacutes enOWL NB en OWL les concepts sont appeleacutes des classes et les rocircles sont soit des proprieacuteteacutes drsquoobjets(ObjectProperty) soit des proprieacuteteacutes de type de donneacutees (ObjectDataTypeProperty) Les rocircles preacutesententun domaine et un co-domaine (noteacutes respectivement owl domain et owl range) et parfois une contraintede cardinaliteacute (owl minCardinality par exemple)

78 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

mat particulier appeleacute OBO53 il est donc neacutecessaire de la convertir en OWL Cette conversion est reacutealiseacuteeagrave lrsquoaide du plugin BONG de Proteacutegeacute [WSGA03] puis valideacutee manuellement

125 Eacutevaluation

SNP-Ontology et ses relations avec les ontologies externes sont consistantesAssocieacutee agrave un ensemble de wrappers deacuteveloppeacutes speacutecialement et agrave lrsquoapplication SNP-Converter

deacutecrite section 312 SNP-Ontology permet de reacutepondre aux questions de compeacutetence speacutecifieacuteesSNP-Ontology permet de repreacutesenter les connaissances relatives aux variations geacutenomiques qui peu-

vent ecirctre extraites de dbSNP OMIM PharmGKB HapMap et des bases de donneacutees locus speacutecifiquesCes reacutesultats ne sont pas plus deacutetailleacutes ici car lrsquoutilisation de SNP-Ontology pour lrsquointeacutegration de

donneacutees relatives aux variations geacutenomiques (section 31) illustre son eacutevaluation

126 Discussion

SNP-Ontology constitue une premiegravere repreacutesentation formelle des variations geacutenomiques mise agravedisposition via diverses bibliothegraveques drsquoontologies notamment le BioPortal Sa disponibiliteacute lui permetdrsquoecirctre reacuteutiliseacutee discuteacutee et modifieacutee librement par les membres de la communauteacute des bio-ontologies

Un autre atout de lrsquoontologie provient des choix faits lors de sa construction qui sont notamment la prise en compte du contenu des principales bases de donneacutees de variations pour le choix des conceptset lrsquoeacutevaluation de sa capaciteacute agrave ecirctre instancieacutee avec le contenu de ces bases De ces choix reacutesulte unerelative faciliteacute agrave eacutetablir des correspondances entre les donneacutees des bases drsquoune part et les concepts etrocircles de lrsquoontologie drsquoautre part Ce genre de correspondance est indispensable pour deacutefinir les mappingsdonneacutees-ontologie sur lesquels srsquoappuie le processus drsquointeacutegration de donneacutees agrave lrsquoaide drsquoune ontologiedeacutecrit dans la section 2 de ce chapitre Enfin la deacutefinition de relations avec des concepts provenantdrsquoontologies externes permet de reacuteutiliser de faccedilon coheacuterente dans le cadre de SNP-Ontology lrsquoensembledes connaissances speacutecialiseacutees eacutelaboreacutees par des consortiums drsquoexperts comme le -consortium54

53Format OBO httpwwwgeneontologyorgGOformatobo-1_2shtml (Derniegravere visite le 27072008)54-consortium httpwwwgeneontologyorgGOconsortiumlistshtml (Derniegravere visite le 27072008)

1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre 79

13 Construction drsquoune ontologie pour la pharmacogeacutenomique SO-Pharm

131 Speacutecification

Domaine couvert par SO-Pharm SO-Pharm (pour Suggested Ontology for Pharmacogenomics) estune proposition de repreacutesentation formelle des connaissances pharmacogeacutenomiques SO-Pharm articuleplusieurs ontologies des sous-domaines compleacutementaires de la pharmacogeacutenomique ie relatives auxgeacutenotype pheacutenotype meacutedicaments et essais cliniques Elle permet de repreacutesenter des relations phar-macogeacutenomiques entre un meacutedicament une variation geacutenomique et un trait du pheacutenotype SO-Pharmpermet de repreacutesenter eacutegalement des patients et plus geacuteneacuteralement des panels impliqueacutes dans des essaiscliniques et des populations SO-Pharm permet de repreacutesenter les variables mesureacutees chez ces patientscomme lrsquoobservation drsquoun pheacutenotype ou le geacutenotypage de variations geacutenomiques Elle inclut des con-naissances relatives aux eacutetudes de cas agrave lrsquoinvestigation clinique et au test de nouvelles hypothegraveses enpharmacogeacutenomique

Objectifs de SO-Pharm SO-Pharm comme SNP-Ontology est conccedilue pour faciliter lrsquointeacutegration de

donneacutees et lrsquoextraction de connaissances en pharmacogeacutenomique SO-Pharm est notamment deacuteveloppeacuteepour pallier lrsquoabsence drsquoontologie elle regroupe dans une repreacutesentation coheacuterente les ontologies dessous-domaines de la pharmacogeacutenomique

Critegraveres drsquoeacutevaluation particuliers Des exemples de questions de compeacutetence auxquelles SO-Pharmdoit reacutepondre sont

ndash Un patient qui prend un traitement de codeacuteine par voie orale avec une posologie de 50 mg troisfois par jours preacutesente-t-il un risque de faire une reacuteaction adverse

ndash Des troubles neurologiques peuvent-ils ecirctre une conseacutequence drsquoun traitement agrave la codeacuteine ndash Existe-t-il des variations geacutenomiques du gegravene CYP2D6 qui sont associeacutees agrave lrsquoabsence drsquoeffet anal-

geacutesique en reacuteponse agrave la codeacuteine ndash La reacuteponse agrave un traitement de statines est il soumis agrave lrsquoinfluence de facteurs geacuteneacutetiques SO-Pharm doit permettre de repreacutesenter les connaissances pharmacogeacutenomiques qui peuvent ecirctre

extraites de OMIM et PharmGKB ainsi que des connaissances extraites de la litteacuterature du domaine parexemple les reacutesultats rapporteacutes dans [DGDM91 MTB+99 HVK+02 MMK+03]

Liste de sources de donneacutees et de connaissances relatives Dans le cas de SO-Pharm les experts dudomaine ont deacutefini quatre listes de termes relative chacune agrave la description drsquoun sous-domaine diffeacuterent geacutenotype pheacutenotype meacutedicament et essai clinique La liste des sources de donneacutees et de connaissancesrepreacutesenteacutee Tableau 34 est eacutetablie pour enrichir les quatre listes de termes Certaines sources ont eacuteteacuteajouteacutees au cours des diffeacuterentes iteacuterations du processus de construction de SO-Pharm Lrsquoajout drsquounesource peut amegravener agrave lrsquoajout de nouveaux termes de nouveaux concepts et agrave lrsquoarticulation avec denouvelles ontologies Le Tableau 35 repreacutesente les sources de connaissances seacutelectionneacutees pour ecirctrearticuleacutees avec SO-Pharm

132 Conceptualisation

Les trois Figures 37 38 et 39 sont trois diagrammes de classes construits pour la conceptualisationde SO-Parm Ils preacutesentent respectivement la conceptualisation adopteacutee pour la notion drsquoitem clinique

(ie une donneacutee enregistreacutee relative agrave un patient) celle drsquoessai clinique et celle de protocole La FigureD1 en Annexe D propose une vue plus geacuteneacuterale du modegravele conceptuel et permet notamment de situerles uns par rapport aux autres les trois diagrammes de classes preacutesenteacutes La Figure 37 repreacutesente entre

80 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

Nom de la source Type de source Domaine URL

dbSNP Scheacutema XML modegravele de donneacutees geacutenotype http wwwncbinlmnihgovprojectsSNP

HapMap Scheacutema XML geacutenotype http wwwhapmaporg

HGVBase DTD modegravele de donneacutees geacutenotype http hgvbasecgbkise

OMIM Source de donneacutees geacutenotypepheacutenotype

http wwwncbinlmnihgovomim

OMG SNP modegravele de donneacutees geacutenotype http wwwomgorgtechnologydocumentsformalsnphtm

MECV Controlled vocabulary geacutenotype http wwwebiacukmutations

SNP-Ontology Ontologie OWL geacutenotype

AA Ontology Ontologie OWL geacutenotype http wwwco-odeorgontologiesamino-acid

PharmGKB Scheacutema XML modegravele de donneacutees geacutenotypemeacutedicamentpheacutenotype

http wwwpharmgkborg

PharmacogeneticsOntology

Vocabulaire controcircleacute genotypepheacutenotype

http wwwpharmgkborghomeprojectsproject-pojsp

Sequence Ontology Vocabulaire controcircleacute geacutenotype http songsourceforgenet

Gene Ontology Vocabulaire controcircleacute geacutenotype http wwwgeneontologyorg

PubChem Source de donneacutees meacutedicament http pubchemncbinlmnihgov

RX-Norm Vocabulaire controcircleacute meacutedicament http wwwnlmnihgovresearchumlsrxnormindexhtml

ChEBI Vocabulaire controcircleacute meacutedicament http wwwebiacukchebi

CDISC Scheacutema XML pheacutenotype http wwwcdiscorg

ICD-10 Vocabulaire controcircleacute pheacutenotype http wwwwhointclassificationsicd

Disease Ontology Vocabulaire controcircleacute pheacutenotype http diseaseontologysourceforgenet

Mammalian Phenotype Vocabulaire controcircleacute pheacutenotype http wwwinformaticsjaxorgsearchesMP_formshtml

PATO Vocabulaire controcircleacute pheacutenotype http obosourceforgenet

Unit Ontology Vocabulaire controcircleacute pheacutenotype http obosourceforgenet

Pathway Ontology Vocabulaire controcircleacute geacutenotypepheacutenotype

http rgdmcwedutoolsontology

SNOMED-Clinical Vocabulaire controcircleacute pheacutenotype http wwwsnomedorgsnomedctglossaryhtml

Family Bond Ontology Ontologie OWL essaiclinique

http wwwloriafrsimcouletontologyfamilybondversion01f-amilybondowl

Clinical Trial Ontology Ontologie OWL essaiclinique

http wwwbioontologyorgwikiindexphpCTO Main_Page

Ontology of BiomedicalInvestigations

Ontologie OWL essaiclinique

http obisourceforgenet

OBO relationship types Vocabulaire controcircleacute meacuteta-ontologie

http wwwobofoundryorgro

Basic Formal Ontology Ontologie OWL meacuteta-ontologie

http wwwifomisorgbfo

T 34 ndash Liste des sources exploreacutees pour enrichir la liste de termes relatifs aux sous-domaines de lapharmacogeacutenomique La troisiegraveme colonne preacutecise le sous-domaine que la source concerne Les vocab-ulaires controcircleacutes eacutetoileacutes () sont des ontologies OBO

autres les deux types principaux drsquoitem cliniques les items relatifs au geacutenotype (Genotype item) et lesitems relatifs au pheacutenotype (Phenotype item) Les premiers peuvent ecirctre des variants comme deacutefinis pourSNP-Ontology Les seconds peuvent ecirctre composeacutes agrave lrsquoaide des concepts deacutecrits pour lrsquoontologie PATOLa Figure 38 preacutesente notamment qursquoun item clinique (Clinical item) est mesureacute durant un eacutevenement(Clinical trial event) deacutefini dans le cadre drsquoun essai clinique est mesureacute chez un individu (Individual)

1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre 81

Nom Description Pre f ixe Namespace

SNP-Ontology Variations geacutenomiques SNPO ~ontologysnpontologyversion15snpontology_fullowl

Mutation Event Ont Classification des variations MEO ~ontologymeoversion10meoowl

AA Ontology acides amineacutes AAO http wwwco-odeorgontologiesamino-acid20051011a-mino-acidowl

Sequence Ontology Seacutequences et variations SO http purlorgoboowlSO

Pharmacogenetics Ont Meacutethodes de geacutenotypage etde mesures

PGO ~ontologysopharmversion20pharmacogeneticsontologyowl

Disease Ontology Classification des maladies DOID ~ontologysopharmversion20diseaseontologyowl

Mammalian Phenotype Critegraveres relatifs au pheacutenotype MP http purlorgoboowlMP

PATO Attributes et valeurs pour lepheacutenotype

PATO ~ontologypatoversion133qualityowl

Unit Ontology Uniteacutes de mesures UO ~ontologyunitversion19unitowl

ChEBI Composeacute moleacuteculaires CHEBI ~ontologysopharmversion20chebiowl

Family Bond Ont Liens de parenteacute FB ~ontologyfamilybondversion01familybondowl

Clinical Trial Ontology Protocole CTO http wwwowl-ontologiescomOntology1178899652owl

Ontology of BiomedicalInvestigation

Protocole OBI http obisourceforgenetontologyOBIowl

Relationship Ontology Types de relation OBO_REL http wwwobofoundryorgroroowl

Biomedical FunctionOntology

Meacuteta-ontologie BFO http wwwifomisorgbfo10

T 35 ndash Les 15 ontologies articuleacutees avec SO-Pharm Le preacutefixe repreacutesenteacute par le symbole ~ correspondagrave lrsquoURL http wwwloriafr~coulet

et est mesureacute selon une meacutethode (Measurement method) deacutefinie dans le cadre drsquoun protocole (Clinicaltrial protocole)La Figure 39 repreacutesente notamment qursquoun protocole peut ecirctre composeacute drsquoun traitementmeacutedicamenteux (Drug treatment) composeacute drsquoun meacutedicament (Drug) et drsquoune posologie (Posology) preacute-cise

133 Formalisation

La formalisation des relations avec les concepts des ontologies seacutelectionneacutees est rapporteacutee dans leTableau 36

134 Impleacutementation

SO-Pharm est disponible en OWL sur le Web agrave lrsquoadresse suivante httpwwwloriafr~couletsopharm20_descriptionphp

La version 20 alpha contient 70 concepts dont 37 concepts deacutefinis et 56 rocircles En incluant les on-tologies articuleacutees avec SO-Pharm le nombre de concepts srsquoeacutelegraveve agrave 84786 et celui des rocircles agrave 189 Cenombre important de concepts est en grande partie ducirc au nombre eacuteleveacute de concepts deacuteriveacutes des vocabu-laires speacutecialiseacutes comme ChEBI ou Disease Ontology dont le nombre de termes atteint par exemple 15192 pour la version 46 de ChEBI

Concernant la conversion en OWL des ontologies articuleacutees elle deacutepend du format drsquoorigine dechaque ontologie Par exemple sont disponibles en OWL et ne neacutecessitent donc aucune conversionSNP-Ontology AA Ontology CTO OBI BFO Les ontologies disponibles dans le format OBO sontconverties agrave lrsquoaide du plugin BONG de Proteacutegeacute [WSGA03] puis valideacutees manuellement Les ontologies

82 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

F 37 ndash Diagramme de classes UML centreacute sur la conceptualisation des items cliniques

F 38 ndash Diagramme de classes UML centreacute sur la conceptualisation drsquoessais cliniques

F 39 ndash Diagramme de classes UML centreacute sur la conceptualisation drsquoun protocole drsquoessai clinique

1 Construction drsquoontologie meacutethodologie proposeacutee et mise en œuvre 83

SOPHARM phenotype_item ⊒MP phenotype_ontology (MP 0000001)SOPHARM disease_diagnostic ⊒ DOID disease_and_injuries (DOID 952)SOPHARM surgical_operation ⊒ DOID procedures (DOID 1008)SOPHARM drug ⊒ CHEBI drug (CHEBI 23888)SOPHARM chemical_compound ⊒ CHEBI molecular_entities (CHEBI 23367)SOPHARM chemical_compound ⊒ CHEBI unclassified (CHEBI 27189)SOPHARM chemical_compound ⊒ OBI ChEBI_objects (OBI 263)SOPHARM chromosome_variation ⊒ SO chromosome_variation (SO 0000240)SOPHARM genomic_variation ⊑ SNPO variantSOPHARM genomic_variation ⊒MEO genomic_variation (MEO 001)SOPHARM observed_allele equiv SNPO sequence ⊓ forall isPartOfSOPHARM genomic_genotypeSOPHARM population ⊒ SNPO populationSOPHARM genotype_measurement_method ⊒ PGO genotyping_methodsSOPHARM phenotype_measurement_method ⊒ PGO phenotyping_methodsSOPHARM phenotype_measurement_method ⊒ CTO observationsSOPHARM phenotype_item ⊑(forall PATO is_magnitude_ofPATO quality ⊓ =1 PATO is_magnitude

_of) ⊔ (forall PATO is_measurement_ofPATO quantitative ⊓ =1 PATO is_measurement_of)SOPHARM phenotype_item ⊑ forall PATO has_unitUO unit ⊓ =1 PATO has_unitSOPHARM drug_dose ⊑ PATO physical_quality ⊓ BFO qualitySOPHARM drug_dose ⊑ forall PATO has_unitUO unit ⊓ =1 PATO has_unitSOPHARM administration_frequency ⊑ PATO frequency ⊓ BFO qualitySOPHARM administration_frequency ⊑ forall PATO has_unitUO unit ⊓ =1 PATO has_unitSOPHARM person ⊑ FB family_member

T 36 ndash Les principaux axiomes deacutecrivant des relations entre les concepts propres agrave SO-Pharm(SOPHARM) et les concepts externes des ontologies articuleacutees (voir Tableau 35) Les identifiants desconcepts associeacutes sont donneacutes entre parenthegraveses lorsqursquoils existent La liste complegravete inclut eacutegalementdes axiomes qui formalisent des relations entre rocircles

disponibles sous drsquoautres formats sont converties manuellement Crsquoest le cas de lrsquoontologie Pharmaco-

genetics Ontology disponible en HTML ou de lrsquoontologie Mutation Event Ontology construite agrave partirdu vocabulaire controcircleacute Mutation Event Controlled Vocabulary et drsquoune partie de Sequence Ontology

135 Eacutevaluation

Le grand nombre de concepts articuleacutes limite lrsquoutilisation des meacutecanismes de raisonnement qui per-mettent la validation de la consistance et la classification des concepts Les impleacutementations actuelles deces meacutecanismes sont sensibles agrave la complexiteacute de la utiliseacutee (ici SHOIN(D)) mais aussi au nombrede concepts de lrsquoontologie Aussi pour valider la consistance et permettre la classification des conceptssur une station de travail (CPU Intel Pentium M 18GHz RAM 2 Go) nous avons utiliseacute les meacutecan-ismes de raisonnement sur lrsquoensemble des paires drsquoontologies possibles (SO-Pharm ndash Disease Ontologypuis SO-Pharm ndash ChEBI puis etc)

Associeacutee agrave un ensemble de wrappers deacuteveloppeacutes speacutecialement SO-Pharm permet de reacutepondre auxquestions de compeacutetences speacutecifieacutees Lrsquoutilisation de SO-Pharm dans le cadre drsquoextraction de connais-sances en pharmacogeacutenomique (voir section 24 du chapitre 4) permet notamment de mieux reacutepondre agraveces questions

SO-Pharm permet de repreacutesenter les connaissances pharmacogeacutenomiques qui peuvent ecirctre extraites

84 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

de OMIM et PharmGKB ainsi que des connaissances extraites de la litteacuterature du domaine par exempleles reacutesultats rapporteacutes dans [DGDM91 MTB+99 HVK+02 MMK+03] SO-Pharm permet eacutegalement derepreacutesenter de nouvelles hypothegraveses de connaissances pharmacogeacutenomiques comme lrsquoassociation entreune variation geacutenomique un traitement et un ensemble de signes relevant drsquoun pheacutenotype Lrsquoutilisationde SO-Pharm dans lrsquoobjectif drsquoextraire des connaissances deacutecrite chapitre 4 a permi lrsquoeacutevaluation puislrsquoameacutelioration de lrsquoontologie

136 Discussion

Au final la construction manuelle de lrsquoontologie SO-Pharm propose une mise en correspondancecoheacuterente de quinze ontologies seacutelectionneacutees Lrsquoavantage est la maicirctrise de la coexistence de conceptsdont lrsquointerpreacutetation est eacutequivalente ou se recouvre de maniegravere plus ou moins partielle et surtout demaniegravere plus ou moins ambigueuml La construction et la mise en correspondance manuelles demandentun effort important qui est justifieacute par la possibiliteacute reacutesultante de repreacutesenter des connaissances phar-macogeacutenomiques en instanciant des relations existant entre plusieurs ontologies de sous-domaines etde raisonner sur ces connaissances de faccedilon coheacuterente par les meacutecanismes de raisonnement classiquesDe faccedilon similaire agrave SNP-Ontology SO-Pharm preacutesente lrsquoavantage de proposer agrave la communauteacute unepremiegravere repreacutesentation formelle de son domaine avec lrsquoobjectif de faciliter sa reacuteutilisation et son eacutevo-lution Pour aller dans ce sens les derniegraveres versions de SO-Pharm satisfont aux exigences de qualiteacuteproposeacutees par lrsquoOBO Foundry Ces deacuteveloppements permettent agrave SO-Pharm de faire partie de lrsquoOBOFoundry55 Des indications sur la faccedilon dont SO-Pharm reacutepond aux critegraveres de cette forge particuliegraveresont disponibles en ligne httpwwwloriafr~couletontologysopharmversion20foundry_requirementsphpIl est inteacuteressant de noter que certains de ces critegraveres font deacutebat et notamment le principe drsquoorthogona-

liteacute selon lequel le domaine recouvert par une nouvelle ontologie ne doit pas chevaucher celui des on-tologies existantes dans la forge Ce principe cherche agrave favoriser lrsquoameacutelioration des ontologies existantesde faccedilon communautaire plutocirct qursquoau deacuteveloppement drsquoontologies concurrentes pour un mecircme domaineCe point est discutable drsquoune part parce que la notion drsquoorthogonaliteacute nrsquoest pas deacutefinie de faccedilon preacuteciseet drsquoautre part parce qursquoune ontologie est une repreacutesentation drsquoun domaine selon un point de vue parti-culier Par conseacutequent deux ontologies peuvent repreacutesenter selon deux points de vues diffeacuterents un seulet mecircme domaine Pour cette raison les critegraveres drsquoinclusion drsquoOBO-Foundry sont discuteacutes au sein de lacommunauteacute et sont ameneacutes agrave eacutevoluer

55httpobofoundryorgcgi-bindetailcgiid=pharmacogenomics

2 Inteacutegration de donneacutees guideacutee par une ontologie 85

2 Inteacutegration de donneacutees guideacutee par une ontologie

21 Description geacuteneacuterale de lrsquoapproche proposeacutee

F 310 ndash Architecture geacuteneacuterale de notre systegraveme drsquointeacutegration de donneacutees Lrsquoontologie utiliseacutee par lemeacutediateur est la mecircme que celle qui constitue la TBox de la Base de Connaissances

Malgreacute lrsquoexistence drsquoarchitectures de reacutefeacuterence ([CGL+98] par exemple) il nrsquoexiste pas drsquoarchi-tecture standard pour les systegravemes drsquointeacutegration de donneacutees fondeacutes sur une ontologie Lrsquoarchitecturerepreacutesenteacutee Figure 310 que nous avons choisie peut ecirctre compareacutee agrave celle drsquoune approche meacutediateurcomme deacutecrit dans le chapitre 2 les diffeacuterentes sources sont mises en correspondance avec un vocabu-laire global dont la particulariteacute ici est drsquoecirctre une ontologie lrsquoextraction des donneacutees est prise en chargepar des wrappers et centraliseacutee sous forme drsquoune reacuteponse unique par le meacutediateur Des mappings deacutefinisentre chaque source de donneacutees et lrsquoontologie permettent la traduction de requecirctes pour lrsquointerrogationdes sources puis en sens inverse la traduction des reacuteponses aux requecirctes Crsquoest dans cette derniegravere phaseque reacuteside la distinction et lrsquoapport majeur de notre approche En effet le meacutediateur eacutelabore agrave lrsquoaide deswrappers en reacuteponse agrave une requecircte utilisateur une liste drsquoassertions qui sert agrave instancier (ou peupler) la associeacutee agrave lrsquoontologie

Le deacuteclanchement de lrsquointeacutegration consiste en la soumission drsquoune requecircte par lrsquoutilisateur La re-quecircte initiale est deacutecrite dans les termes de lrsquoontologies et le meacutediateur la traduit en requecirctes sur lesscheacutemas locaux des sources de donneacutees la traduction de la requecircte de lrsquoutilisateur dans les termes desscheacutemas locaux suit des approches deacutejagrave deacutecrites [CGLV01 Len02] nous ne deacutetaillons pas cette pre-miegravere phase En revanche les sections suivantes preacutesentent plus amplement la faccedilon dont sont deacutefinisles mappings entre les sources de donneacutees et lrsquoontologie puis deacutecrit lrsquointeraction entre les wrappers et lemeacutediateur

Dans la suite de cette section nous consideacuterons chacune des sources comme une base de donneacutees

posseacutedants un scheacutema propre sur lequel il est possible drsquoexeacutecuter des requecirctes

R Nous nous limitons ici agrave lrsquoutilisation des bases de donneacutees mais il pourrait ecirctre envis-ageable de deacutevelopper des wrappers mettant en oeuvre des meacutethodes de Traitement Automatique de laLangue (TAL) pour peupler la

86 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

22 Deacutefinition des mappings donneacuteesndashassertions

Pour chaque base de donneacutees consideacutereacutee la deacutefinition drsquoune requecircte dans les termes de son scheacutemaet la transformation de la reacuteponse agrave cette requecircte en une liste drsquoassertions srsquoappuient sur un mappingdonneacutees-assertions [PLC+08] Ces mappings sont deacutefinis au preacutealable manuellement et en consideacuterationdes connaissances drsquoexperts du domaine

Deacutefinition 31 (Mapping donneacutees ndash assertions) Soit un quadruplet (SMdminusa FO) ougrave

ndash S est le scheacutema drsquoune base de donneacutees ie un ensemble de relations n-aires de la forme R(A1 A2

An) et de domainenprod

i=1Di tels que Ai est lrsquoattribut drsquoindice i et de domaine Di

ndash O est une ontologie ie les concepts drsquoun domaine et les rocircles qui deacutecrivent les relations entre ces

concepts

ndash Mdminusa est un ensemble drsquoassociations entre des donneacutees et des assertions dont chacune est de la

forme

Φ Ψ

ougrave Φ est une requecircte arbitraire sur la base de donneacutees de scheacutema S et Ψ est un ensemble drsquoasser-

tions de concepts et drsquoassertions de rocircles de lrsquoontologie O

ndash Enfin F un ensemble de fonctions de la forme fi(v) applicables aux diffeacuterentes valeurs reacutesultant

des requecirctes Φ pour les transformer en noms drsquoindividus dans Ψ

Les fonctions de F appliqueacutees sur les valeurs des attributs sont deacutefinies de telle sorte que ndash deux valeurs drsquoattribut distinctes dans une ou plusieurs bases de donneacutees donnent lieu agrave deux noms

drsquoindividus distincts dans la ndash deux valeurs drsquoattributs potentiellement distinctes mais qui font reacutefeacuterence agrave la mecircme entiteacute dans

des bases de donneacutees diffeacuterentes donnent lieu agrave la creacuteation drsquoun seul et mecircme nom drsquoindividundash pour chaque mapping impliquant fi isin F il est possible de deacutefinir une fonction inverse noteacutee f minus1

i

qui permet agrave partir drsquoun identifiant drsquoindividu de la de retrouver la valeur correspondante dansune base de donneacutees

Les fonctions peuvent ecirctre deacutefinie soit manuellement soit par des heuristiques Comme lrsquoillustre lasuite de la thegravese (chapitre 3 section 31 et chapitre 4 section 1) une fonction peut notamment ecirctre unecomposition drsquoautres fonctions ou prendre en compte les valeurs prises par drsquoautres attributs

Lrsquoeacutetape de peuplement de la associeacutee agrave lrsquoontologie O revient agrave ajouter agrave la pour lrsquoensembledes n-uplets reacuteponses aux requecirctes Φ lrsquoensemble des assertions de concepts et des assertions de rocircles Ψdu mappingMdminusa deacutefini entre le scheacutema S et lrsquoontologie O Les individus impliqueacutes dans les assertionsdu mapping qui nrsquoexistent pas encore dans la associeacutee agrave O sont creacuteeacutes De cette faccedilon les fonctionsappliqueacutees aux valeurs drsquoattributs peuvent ecirctre utiliseacutees pour nettoyer transformer homogeacuteneacuteiser le con-tenu des bases de donneacutees lors de lrsquoinstanciation

Exemple Soit BD1 et BD2 deux bases de donneacutees dont les scheacutemas S1 et S2 contiennent respective-ment les deux relations suivantes R1 et R2

R1 (A1 A2 A3)R2 (A1 B2 B3)

Dans cet exemple nous consideacuterons que les attributs A1 de R1 et de R2 sont identiques ils ont le mecircmenom font reacutefeacuterence au mecircme concept et leurs valeurs sont repreacutesenteacutees en suivant la mecircme syntaxeLes attributs A2 et B2 font reacutefeacuterence agrave un mecircme concept mais leurs valeurs sont repreacutesenteacutees suivant dessyntaxes diffeacuterentes ce qui rend neacutecessaire lrsquoutilisation de fonctions diffeacuterentes ( f2 et f4) pour qursquoelles

2 Inteacutegration de donneacutees guideacutee par une ontologie 87

soient transformeacutees en identifiants drsquoindividus qui suivent une syntaxe homogegravene Les attributs A3 et B3

font reacutefeacuterence agrave des concepts diffeacuterentsDeux exemples de deacutefinition de mapping possibles Mdminusa A entre la base de donneacutees BD1 et lrsquoon-

tologie O et Mdminusa B entre BD2 et la mecircme ontologie O sont preacutesenteacutes ci-apregraves sous la forme de lrsquoas-sociation entre une requecircte SQL et une liste drsquoassertions en Les notations sont inspireacutees de Poggi et

al [PLC+08] En particulier on utilise la notation f1(A1) pour repreacutesenter de faccedilon geacuteneacuterique le nom dechaque individu ce qui correspond agrave lrsquoimage de la fonction f1 associeacutee agrave chaque valeur prise par lrsquoattributA1 dans la requecircte SQL

Mdminusa 1 ConceptUn( f1(A1))ConceptDeux( f2(A2))

SELECT A1 A2 A3 RoleUnVersDeux( f1(A1) f2(A2))FROM R1 RoleUnVersDeuxminus( f2(A2) f1(A1))

ConceptTrois( f3(A3))RoleUnVersTrois( f1(A1) f3(A3))RoleUnVersTroisminus( f3(A3) f1(A1))

Mdminusa 2 ConceptUnS peci f ique( f1(A1))ConceptDeux( f4(B2))

SELECT A1 B2 B3 RoleUnVersDeux( f1(A1) f4(B2))FROM R2 RoleUnVersDeuxminus( f4(B2) f1(A1))WHERE B3 =ldquoaSpecificValuerdquo ConceptQuatre( f5(B3))

RoleUnVersQuatre( f1(A1) f5(B3))RoleUnVersQuatreminus( f5(B3) f1(A1))

Suivant notre exemple consideacuterons les deux tuples suivants reacuteponses respectives aux requecirctes deMdminusa 1 etMdminusa 2 sur BD1 et BD2 et les listes drsquoassertions qui leurs sont associeacutees suivant les mappings

ConceptUn(a_1)ConceptDeux(a_2)RoleUnVersDeux(a_1 a_2)

(a1a2a3) RoleUnVersDeuxminus(a_2 a_1)ConceptTrois(a_3)RoleUnVersTrois(a_1 a_3)RoleUnVersTroisminus(a_3 a_1)

ConceptUnS peci f ique(a_1)ConceptDeux(a_2)RoleUnVersDeux(a_1 a_2)

(a1b2b3) RoleUnVersDeuxminus(a_2 a_1)ConceptQuatre(b_3)RoleUnVersQuatre(a_1 b_3)RoleUnVersQuatreminus(b_3 a_1)

Ainsi les deux valeurs respectives a2 et b2 des deux attributs A2 et B2 sont transformeacutes par lesfonctions f2 et f4 en un mecircme nom drsquoindividu a_2 ce qui permet la creacuteation drsquoun seul individu identifieacutepar a_2 et instance du concept ConceptDeux dans la

ConceptDeux(a_2)

88 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

Aussi si

ConceptUnS peci f ique ⊑ ConceptUn

le deuxiegraveme mapping apporte une nouvelle connaissance de par le fait que a_1 instancie non seulementConceptUn mais eacutegalement ConceptUnS peci f ique Les assertions du rocircle RoleUnVersDeux et de soninverse proposeacutees par le deuxiegraveme mapping (Mdminusa 2) sont redondantes avec les assertions proposeacutees parle premier mapping (Mdminusa 1) En conseacutequence elles ne seront pas ajouteacutees agrave la En revanche le deux-iegraveme mapping apporte une nouvelle connaissance en instanciant avec a_1 le rocircle RoleUnVersQuatre etson inverse Un exemple concret de mapping est donneacute dans ce chapitre en section 312

Il est important de remarquer que la deacutefinition drsquoun mapping en collaboration avec lrsquoexpert neacutecessitelrsquoexistence dans lrsquoontologie O des concepts et des rocircles approprieacutes qui pourront ecirctre instancieacutes dans la Si les concepts et le rocircles adeacutequats nrsquoexistent pas la deacutefinition du mapping constitue une motivationpour la mise agrave jour et lrsquoameacutelioration de lrsquoontologie

Compareacute au triplet (GSM) (associant un scheacutema global les scheacutemas des sources et les mappingsentre G et S voir section 312 du chapitre 2 et [Len02]) qui suffit agrave deacutecrire les eacuteleacutements de base drsquoun sys-tegraveme drsquointeacutegration notre approche inclut de faccedilon suppleacutementaire un ensemble de fonctions qui garantitla transformation des valeurs en identifiants drsquoindividus Le fait que chaque ensemble de fonctions soitpropre agrave une base de donneacutees et deacutefini sans ambiguiteacute permet que chaque fonction soit capable inverse-ment de transformer un identifiant drsquoindividu en une valeur de la base

23 Description de lrsquointeraction wrapperndashmeacutediateur

La premiegravere interaction entre meacutediateur et wrapper intervient lorsqursquoun utilisateur eacutemet une requecirctePar exemple ldquoQuelles sont les variations geacutenomiques et les meacutedicaments associeacutes agrave la maladie appeleacutee

Hypercholesteroleacutemie Familialerdquo Suivant le fonctionnement classique le meacutediateur prend en charge larequecircte et lrsquoadapte au scheacutema de chaque base de donneacutees Les wrappers exeacutecutent les requecirctes adapteacuteesaux diffeacuterents scheacutemas et reacutecupegraverent les donneacutees en reacuteponse

Ensuite le meacutediateur permet gracircce aux mappingsMdminusa (deacutetailleacutes dans la deacutefinition 31) drsquoinstancierla associeacutee agrave lrsquoontologie en transformant de faccedilon indeacutependante la reacuteponse transmise par un wrapper enune liste drsquoassertions de concepts et drsquoassertions de rocircles ajouteacutee agrave la Les wrappers ne communiquentpas entre eux mais le meacutediateur interagit avec la et adapte ainsi lrsquoinstanciation au contenu de la qui se peuple progressivement Si lrsquoon reprend lrsquoexemple de la requecircte relative agrave lrsquoHypercholesteacuteroleacutemieFamiliale lorsque le wrapper 2 extrait des donneacutees relatives agrave une variation geacutenomique il est possibleque le meacutediateur ait deacutejagrave creacuteeacute des individus relatifs agrave la mecircme variation en conseacutequence des donneacuteestransmises par le wrapper 1 Dans ce cas le meacutediateur nrsquoeacutecrase pas les connaissances deacutejagrave disponiblesdans la mais les complegravete si possible Au final le meacutediateur enchaicircne une seacuterie drsquoinstanciations co-heacuterentes entre elles et avec lrsquoontologie pour inteacutegrer les reacuteponses successives des diffeacuterentes bases dedonneacutees

24 Bilan

Lrsquoapproche drsquointeacutegration de donneacutees proposeacutee dans cette section srsquoinspire amplement (1) des archi-tectures classiques des systegravemes drsquointeacutegration de donneacutees [Hal01 CG05] et (2) de reacutesultats theacuteoriquesdeacutecrit reacutecemment sur la formalisation des mappings donneacuteesndashontologies [PLC+08] La principale orig-inaliteacute proposeacutee ici est drsquoutiliser et drsquoadapter ces reacutesultats theacuteoriques au cadre drsquoune architecture opeacutera-

2 Inteacutegration de donneacutees guideacutee par une ontologie 89

tionnelle qui peut ainsi articuler ainsi agrave la fois base de donneacutees et Base de Connaissances

Lrsquoapproche proposeacutee a comme principal inconveacutenient qursquoelle neacutecessite pour chaque source dedeacutefinir un mapping donneacuteesndashassertions adapteacute et de deacutevelopper le wrapper associeacute En contre-partiecette meacutethode beacuteneacuteficie des avantages de lrsquoapproche meacutediateur en terme drsquoindeacutependance vis agrave vis dessources de nouvelles sources peuvent ecirctre inteacutegreacutees sans que lrsquoontologie ne soit transformeacutee Cepen-dant si une source contient des donneacutees encore non consideacutereacutees qursquoil se reacutevegravele inteacuteressant drsquointeacutegrerlrsquoontologie peut neacutecessiter drsquoecirctre enrichie par lrsquoaddition de concepts rocircles axiomes de telle sorte que lesnouvelles donneacutees puissent correspondre agrave des assertions de la

Une autre limite provient des technologies actuelles de gestion de Les opeacuterations de raisonnementet notamment drsquointerrogation sur une sont probleacutematiques lorsque la TBox ou la ABox deviennent tropvolumineuses Cette limite est accentueacutee lorsque le langage de repreacutesentation des connaissances est drsquouneexpressiviteacute plus importante et les meacutecanismes de raisonnement plus complexes Notre approche eacutevite lepeuplement drsquoune trop volumineuse comme cela pourrait ecirctre le cas par une approche entrepocirct Ainsiune requecircte tregraves speacutecifique dont la reacuteponse contient un nombre de tuples restreint entraicircne la constitutiondrsquoune tout aussi speacutecifique et peu volumineuse Une requecircte plus geacuteneacuterale donnera une reacuteponse doteacuteede plus de tuples et constituera une eacutegalement plus geacuteneacuterale et plus volumineuse En revanche notreapproche permet drsquointeacutegrer successivement les reacuteponses de diffeacuterentes requecirctes dans la mecircme dont lecontenu srsquoeacutelargira au fur et agrave mesure De ce point de vue notre approche preacutesente certains des avantagesdes approches drsquointeacutegration type entrepocirct puisque la peupleacutee par une ou plusieurs requecirctes beacuteneacuteficiedrsquoune part de lrsquointeacutegration de donneacutees et drsquoautre part de la seacutemantique associeacutee aux donneacutees

Le fait de disposer des donneacutees inteacutegreacutees sous forme drsquoassertions dans une nous inteacuteresse partic-uliegraverement puisque cela permet tout drsquoabord de repreacutesenter des relations qui ne peuvent pas lrsquoecirctre dansle cadre drsquoune base de donneacutees relationnelle classique comme par exemple repreacutesenter le fait que deuxrepreacutesentations distinctes (par exemple de deux variations geacutenomiques) font reacutefeacuterence agrave une seule etmecircme entiteacute Cela permet eacutegalement agrave lrsquoaide des meacutecanismes de raisonnement de valider la consistancedu modegravele de classifier les individus de lrsquoontologie Enfin comme nous lrsquoexposons dans le chapitre 4la seacutemantique associeacutee agrave la peut ecirctre utiliseacutee pour guider lrsquoextraction de connaissances implicites ounouvelles et potentiellement utiles par exemple en utilisant des meacutethodes de fouille de donneacutees sur lesassertions de la

Les deux sections suivantes (31 et 32) illustrent lrsquoutilisation pour lrsquointeacutegration de donneacutees des deuxontologies dont la construction est deacutecrite en section 1

90 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

3 Expeacuterimentation

Cette section preacutesente les reacutesultats drsquoimpleacutementation et de mise en œuvre de lrsquoapproche proposeacuteesection 2 pour lrsquointeacutegration de donneacutees guideacutee par une ontologie Les reacutesultats rapporteacutes ont eacuteteacute obtenusdans le cadre drsquoexpeacuterimentation sur des donneacutees relatives aux variations geacutenomiques tout drsquoabord puisagrave la pharmacogeacutenomique

31 Inteacutegration de donneacutees relatives aux variations geacutenomiques SNP-Converter

La section 23 du chapitre 1 et notamment sa Figure 12 illustre les nombreuses faccedilons de deacutesignerde faccedilon unique une variation geacutenomique dans les bases de donneacutees publiques et priveacutees Il est importantde noter que certaines notations non-conventionnelles (regroupeacutees sous la section c dans la Figure 12)sont ambigueumls la premiegravere description ne mentionne pas le nucleacuteotide de reacutefeacuterence la troisiegraveme et laquatriegraveme font reacutefeacuterence agrave deux versions diffeacuterentes de la mecircme proteacuteine sans preacuteciser de quelle versionil srsquoagit

Lrsquoeacutevaluation preacutecise du recouvrement entre les bases de donneacutees de variations geacutenomiques est cru-ciale dans le cadre du deacuteveloppement de diagnostics geacuteneacutetiques et de lrsquoexploration du variome (ie

lrsquoensemble des variations du geacutenome humain) [dDP03 RKC06 Spe08] Cette tacircche est rendue partic-uliegraverement deacutelicate agrave cause du nombre important de repreacutesentations diffeacuterentes et pourtant eacutequivalentesAussi un systegraveme capable drsquoeacutetablir cette eacutequivalence est neacutecessaire pour des investigations impliquant lrsquoanalyse de variations geacutenomiques et de cette faccedilon est neacutecessaire comme base agrave une exploration avanceacuteede la pharmacogeacutenomique qui prend en consideacuteration les nombreuses donneacutees recueillies dans le do-maine [AK02]

311 Les solutions drsquointeacutegration existantes

Une premiegravere solution au problegraveme de la repreacutesentation heacuteteacuterogegravene des variations consiste en laconstruction drsquoune base de donneacutees unique qui permette un accegraves agrave lrsquoensemble des variants contenus ini-tialement dans diffeacuterentes sources Crsquoest lrsquoobjectif de la base de donneacutees dbSNP du NCBI qui est la plusgrande source de variations disponible sur le Web (voir la section 22 du chapitre 1) En plus de contenirles variations qui lui sont directement soumises dbSNP integravegre des donneacutees provenant drsquoautres grandesbases de donneacutees de variations geacutenomiques comme la base NCI CGAP-GAI HGVBase HapMap Perl-gen Un avantage strateacutegique de dbSNP est de faire partie des bases de donneacutees du NCBI (entre autresGenBank PubMed Gene Human Genome Project Data) et agrave ce titre drsquoecirctre interrogeable par le systegravemefeacutedeacutereacute Entrez [Bax06] Un inconveacutenient de dbSNP est de ne pas permettre la coexistence de donneacuteespubliques et de donneacutees priveacutees relatives agrave des variations que les biologistes ne souhaitent pas diffuser(par exemple une nouvelle variation ou une nouvelle annotation)

TAMAL (Time and Money are Limiting) [HSS06] et LS-SNP (Large-Scale annotation of coding non-

synonymous SNPs) [KDK+05] sont des systegravemes drsquointeacutegration de donneacutees alternatifs principalementbaseacutes sur le contenu de dbSNP mais dont lrsquoavantage est de proposer des annotations suppleacutementaireset des faciliteacutes de seacutelection de SNP drsquointeacuterecirct pour la conception drsquoeacutetudes cliniques Ces SNP drsquointeacuterecirctpeuvent ecirctre les SNP susceptibles drsquoecirctre associeacutes agrave une maladie et donc inteacuteressants agrave geacutenotyper chezles patients enrocircleacutes Ces deux systegravemes partagent lrsquoinconveacutenient de dbSNP qui est de ne pas permettrelrsquointeacutegration de donneacutees tierces

312 SNP-Converter un systegraveme de conversion et drsquointeacutegration de variations geacutenomiques

SNP-Converter est un outil original deacuteveloppeacute pour lrsquointeacutegration de donneacutees relatives aux variationsgeacutenomique en suivant lrsquoapproche deacutecrite section 2 (voir Figure 311) SNP-Converter utilise lrsquoontologie

3 Expeacuterimentation 91

F 311 ndash Architecture de SNP-Converter suivant celle proposeacutee Figure 310

SNP-Ontology pour repreacutesenter par un ensemble drsquoassertions de concepts et de rocircles nrsquoimporte quelvariant quelle que soit sa description initiale Gracircce agrave cette capaciteacute des donneacutees contenues dans dessources heacuteteacuterogegravenes peuvent ecirctre mises correspondance avec les concepts et rocircles de SNP-Ontologypar lrsquointermeacutediaire de mappings donneacuteesndashassertions Suivant ces mappings SNP-Converter permet lepeuplement drsquoune associeacutee agrave SNP-Ontology et appeleacutee SNP-KB

Tels qursquoils sont deacutecrits dans la deacutefinition 31 les mappings donneacutees-assertions sont associeacutes agrave un en-semble de fonction F qui assure la transformation des valeurs des bases de donneacutees en noms drsquoindividusqui viennent peupler la De part lrsquoheacuteteacuterogeacuteneacuteiteacute des donneacutees relatives aux variations geacutenomiques cetensemble de fonction est particuliegraverement important dans SNP-Converter puisqursquoelles sont utiliseacutees pourreacutealiser la conversion de la description drsquoune variation geacutenomique en une autre Ensuite lrsquointeacutegration

proprement dite est effectueacutee par SNP-Converter qui est capable drsquoestimer lrsquoeacutequivalence entre deux de-scriptions converties en un format pivot ie un jeu de quatre attributs (deacutecrit ci-apregraves) qui identifie defaccedilon unique une variation geacutenomique

Reacutealiser la conversion de la description drsquoune variation geacutenomique en une autre ou eacutetablir lrsquoeacutequiv-alence entre deux descriptions sont des opeacuterations qui font intervenir des connaissances explicites dudomaine des connaissances relatives agrave la structure du gegravene la deacutefinition drsquoun transcrit ou encore aucode geacuteneacutetique Lrsquoune des raisons qui a motiveacute la construction de SNP-Ontology eacutetait justement defournir une repreacutesentation de ces connaissances sur laquelle srsquoappuyer afin de permettre la conversionla comparaison et au final lrsquointeacutegration de ce type de donneacutees

Un variant est une variation observeacutee localiseacutee sur une position preacutecise le long drsquoune seacutequence Lavariation observeacutee peut ecirctre une variation de nucleacuteotides ou drsquoacides amineacutes selon que la seacutequence quisert de reacutefeacuterence agrave sa localisation est un acide nucleacuteique (ie ADN ou ARN) ou une proteacuteine Cettedeacutefinition reflegravete agrave la fois le standard proposeacute par la nomenclature HGVS et la conceptualisation deSNP-Ontology Elle implique qursquoune variation soit deacutecrite au minimum par un jeu de quatre attributs

(i) lrsquoidentifiant drsquoune seacutequence de reacutefeacuterence (ie son numeacutero drsquoaccession dans une base de donneacuteespublique)

(ii) le type de la seacutequence en question geacutenomique codanteADNc ARNm ou proteacuteine respective-ment abreacutegeacute par les lettres g c r p suivant le standard de lrsquoHGVS

(iii) la position du variant sur la seacutequence de reacutefeacuterence (iv) la variation observeacutee (GT G- -T GTAG gu GlyVal par exemple)

92 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

La conjonction de ces quatre attributs permet une description univoque du variantComme mentionneacute dans la section 23 un mecircme variant peut ecirctre deacutecrit par diffeacuterentes compositions

de ce jeu de quatre attributs selon la seacutequence de reacutefeacuterence choisie Le principe geacuteneacuteral du SNP-Converterest de prendre en entreacutee un jeu drsquoattributs et de le convertir en un jeu drsquoattributs alternatif qui repreacutesentele mecircme variant

SNP-Converter pour la conversion de formatLe processus mis en œuvre par SNP-Converter lors de la conversion de la description drsquoune variationpeut ecirctre deacutecomposeacute en quatre eacutetapes deacutetailleacutees dans la suite de cette section et illustreacutees par les Figures312 et 313

ENDONNEacuteES

ENTREacuteE

JEU DrsquoATTRIBUTS

INITIAL

JEU DrsquoATTRIBUTS

PIVOT

JEU DrsquoATTRIBUTS

FINALEN

SORTIE

DONNEacuteES(2) (4)

(4)

(1) (3)

Descriptiondu format drsquoentreacutee

Seacutelection drsquoune seacutequence de reacutefeacuterence particuliegravere

Seacutelection duformat de sortie

F 312 ndash Les diffeacuterentes eacutetapes du processus de conversion de la description drsquoune variation geacutenomiquepris en charge par SNP-Converter

NT_011295

248976

GgtT

g

11087877

GgtT

NC_000019

g

(3)

CCDS12254

c

1694

GgtT

(4)NT_011295 g 2489769 GgtT

(1a) (2)CCDS12254c1694GgtT

Descriptiondu format HGVS du format HGVS

Seacutelection de la seacutequencede reacutefeacuterence codante

CCDS12254

Seacutelection

F 313 ndash Exemple de conversion de la description drsquoune variation geacutenomique reacutealiseacutee par SNP-Converter

(1) Lrsquoeacutetape de preacuteparationCertaines descriptions ne deacutecrivant pas explicitement les quatre attributs il est neacutecessaire drsquoin-clure dans lrsquoapplication une eacutetape de preacuteparation Cette eacutetape consiste en lrsquoextraction des quatreattributs initiaux et en conseacutequence est speacutecifique agrave chaque format de source de donneacutees Lrsquoeacutetapede preacuteparation est diffeacuterente selon que la description du variant est explicite (comme la syntaxeHGVS ou la syntaxe similaire agrave celle du genome-browser) ou implicite (un identifiant de basede donneacutees) Quand la description est explicite (1a) les quatre attributs peuvent ecirctre directementobtenus en parcourant la description et en en extrayant chacun des attributs Quand la description

3 Expeacuterimentation 93

est implicite (1b) les attributs initiaux sont obtenus par une requecircte sur la base de donneacutees con-cerneacutee Par exemple si la description de deacutepart est un identifiant dbSNP il est utiliseacute durant lrsquoeacutetapede preacuteparation pour interroger dbSNP et extraire le jeu drsquoattributs initial Lrsquoeacutetape de preacuteparationpermet eacutegalement de compleacuteter une description ambigueuml (1c) soit en compleacutetant automatique-ment les donneacutees manquantes drsquoune base de donneacutees lorsque crsquoest possible soit en compleacutetantmanuellement la description

Lrsquoimpleacutementation actuelle de cette eacutetape de preacuteparation permet lrsquoextraction des quatre attributs agravepartir des entreacutees de dbSNP HGVBase HapMap PharmGKB et de fichiers plats de deux basesde donneacutees priveacutees qui suivent des repreacutesentations non-conventionnelles correspondant aux deuxpremiers exemples de la section c de la Figure 12

(2) La conversion du jeu drsquoattributs initial en un jeu pivotLe jeu drsquoattributs pivot consiste en une version particuliegravere des quatre attributs pour laquelle lrsquoi-dentifiant de la seacutequence de reacutefeacuterence est celui de la seacutequence complegravete du chromosome (ie unnumeacutero drsquoaccession RefSeq de la forme NC_0000198) qui contient la variation En conseacutequencele type de seacutequence dans le jeu pivot est geacutenomique Les deux attributs restant doivent quant agrave euxecirctre calculeacutes La position relative de la seacutequence de reacutefeacuterence initiale sur la seacutequence complegravetedu chromosome est rechercheacutee dans la base de donneacutees adapteacutee Par exemple la position relativedrsquoun gegravene peut ecirctre trouveacutee agrave partir du symbole du gegravene dans lrsquoentreacutee RefSeq du chromosomecomplet (dans la section ldquoFEATURESgenerdquo) La position geacutenomique des exons peut eacutegalementy ecirctre retrouveacutee dans la section ldquoFEATURESmRNArdquo Si la position du variant est donneacutee parrapport au deacutebut de la seacutequence traduite ie du codon start ATG les coordonneacutees des morceauxde seacutequences codantes peuvent ecirctre trouveacutees dans la base de donneacutees CCDS56 du NCBI La posi-tion exacte de la variation sur la seacutequence complegravete du chromosome peut ecirctre calculeacutee agrave partir deces donneacutees et de la position de la variation sur la seacutequence de reacutefeacuterence initiale Enfin lrsquoattributcorrespondant agrave la variation observeacutee doit ecirctre converti en une variation de seacutequence geacutenomiqueSi la variation observeacutee est initialement deacutecrite sur une seacutequence drsquoADN elle reste identique saufdans le cas exceptionnel ougrave elle est observeacutee sur le brin anti-sens auquel cas elle est convertieAutrement si la variation observeacutee lrsquoest sur une seacutequence drsquoARN les uraciles (U) doivent ecirctreconvertis en thymines (T) Une variation observeacutee au niveau drsquoune proteacuteine est convertie suiv-ant le code geacuteneacutetique En raison de la deacutegeacuteneacuterescence du code geacuteneacutetique plusieurs codons codentpour le mecircme acide amineacute ainsi la conversion acide amineacute rarr nucleacuteotide peut geacuteneacuterer plusieurspropositions de variations SNP-Converter geacutenegravere toutes les possibiliteacutes

(3) La conversion optionnelle en un jeu drsquoattributs finalCette conversion est optionnelle puisque dans le cas ougrave la description deacutesireacutee correspond au jeupivot elle est inutile Cela est notamment le cas dans le processus drsquointeacutegration de donneacutees quenous deacutetaillons par la suite qui se base sur le jeu pivot Si ce nrsquoest pas le cas lrsquoutilisateur doitseacutelectionner une seacutequence de reacutefeacuterence drsquoADN ARNc ARNm ou proteacuteique sur laquelle doit ecirctrepositionneacutee la variation Le processus de conversion suit alors exactement le mecircme raisonnementque pour la conversion preacuteceacutedente afin de deacuteterminer la nouvelle position relative et la variationobserveacutee en fonction de la seacutequence de reacutefeacuterence choisie

(4) Le formatage des donneacutees de sortieDans le cas de lrsquointeacutegration de donneacutees illustreacutee dans la section suivante cette derniegravere eacutetapeconsiste en la transformation du jeu drsquoattributs en un ensemble drsquoassertions en qui viendrontinstancier une Cependant SNP-Converter peut ecirctre utiliseacute comme simple convertiseur de for-mat indeacutependemment de tout systegraveme drsquointeacutegration Dans ce cas les donneacutees de sorties peuvent

56httpwwwncbinlmnihgovCCDS

94 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

ecirctre formateacutees selon lrsquousage qursquoil est preacutevu drsquoen faire Un premier choix peut ecirctre lrsquoeacutedition simpledu jeu drsquoattributs final suivant la syntaxe HGVS Un second choix est la creacuteation drsquoun fichier con-tenant la description de la variation dans le format speacutecifique de soumission agrave une base de donneacuteescomme par exemple le format XML de soumission agrave dbSNP

SNP-Converter a donneacute lieu au deacuteveloppement drsquoun prototype en java dont plusieurs copies drsquoeacutecransont preacutesenteacutees en Annexe E A lrsquoaide de cette impleacutementation SNP-Converter a eacuteteacute expeacuterimenteacute surles variations du gegravene LDLR contenues dans dbSNP (au format XML) et de variations du mecircme gegravenedeacutecrites de faccedilon non-conventionnelle dans des sources priveacutees sous forme de fichiers textes Lrsquoobjectifeacutetait alors de mesurer le taux de recouvrement entre les trois bases de donneacutees et plus speacutecifiquementdrsquoidentifier les variations des bases de donneacutees priveacutees qui ne sont pas enregistreacutees dans dbSNP afindrsquoenvisager leur soumission

Pour reacutealiser cette expeacuterimentation SNP-Converter a drsquoabord eacuteteacute utiliseacute pour convertir les variationscontenues dans les trois sources en leur description par le jeu pivot pour ensuite comparer les reacutesultatset eacutevaluer leur eacutequivalence potentielle La fonction du SNP-Converter permettant drsquoinstancier une aeacuteteacute utiliseacutee pour inteacutegrer les diffeacuterentes descriptions de variations et leurs eacutequivalences Lrsquoinstanciationde la et les reacutesultats obtenus sont preacutesenteacutes dans la section suivante

SNP-Converter pour lrsquointeacutegration de donneacutees

Lrsquoutilisation du SNP-Converter pour lrsquointeacutegration peut ecirctre consideacutereacutee comme un mapping indirectentre le scheacutema des sources de donneacutees initiales et lrsquoontologie Dans ce sens le mapping indirect srsquoap-puie alors sur un ensemble de fonctions de convertion des descriptions heacuteteacuterogegravenes Dans lrsquooptique drsquoin-teacutegrer un maximum de donneacutees relatives aux variations nous utilisons SNP-Converter de telle sorte quelorsqursquoil instancie un nouveau variant dans la il lui associe non seulement les attributs du jeu initialmais eacutegalement les attributs pivots calculeacutes par SNP-Converter Dans la mecircme optique de lrsquointeacutegrationdrsquoun maximum de donneacutees il est eacutegalement inteacuteressant pour chaque variation drsquointeacutegrer dans la SNP-KBdrsquoune part le jeu des quatre attributs et drsquoautre part des attributs suppleacutementaires associeacutes agrave la variation enquestion (par exemple lrsquoorganisme eacutetudieacute ou sa freacutequence drsquoobservation dans une population) Dans cecas les attributs suppleacutementaires sont extraits au mecircme titre que ceux du jeu drsquoattributs consideacutereacute maisne sont soumis agrave aucune conversion En revanche pour qursquoils puissent donner lieu agrave lrsquoinstanciation de la il faut qursquoils soient inclus dans la description du mapping donneacutees-assertions (voir section 22)

Si lrsquoon considegravere les deux bases de donneacutees PharmGKB et dbSNP dont les scheacutemas contiennentrespectivement les deux relations suivantes RPharmGKB et RdbS NP

RPharmGKB (Submission_Id GP_Position assembly Strand Variant Feature Nb_Of_Chr Frequencygene_symbole)

RdbS NP (dbSNP_Id organism genome_build alleles contig_accession contig_position functiongene_symbole)

Deux exemples de mappingMdminusa (voir deacutefinition 31) possibles entre ces bases de donneacutees et lrsquoontologieSNP-OntologyMdminusa 1 etMdminusa 2 sont deacutefinis ici par lrsquoassociation entre une requecircte SQL et des assertionsen

3 Expeacuterimentation 95

Mdminusa 1 Variant( f1(Submission_Id))Position( f2(GP_Position))

SELECT Submission_Id GP_Position Variant hasPosition( f1(Submission_Id) f2(GP_Position))FROM RPharmGKB hasPositionminus( f2(GP_Position) f1(Submission_Id))

Variation( f3(Variant))hasVariation( f1(Submission_Id) f3(Variant))hasVariationminus( f3(Variant) f1(Submission_Id))

Mdminusa 2 NonS ynonymousVariant( f4(dbSNP_Id))Position( f5(contig_position))

SELECT dbSNP_Id contig_position alleles hasPosition( f4(dbSNP_Id) f5(contig_position))FROM RdbS NP hasPositionminus( f5(contig_position) f5(dbSNP_Id))WHERE function =ldquonon-synonymousrdquo Variation( f6(alleles))

hasVariation( f4(dbSNP_Id) f6(alleles))hasVariationminus( f6(alleles) f4(dbSNP_Id))

Chaque variant reacuteponse agrave lrsquoune des deux requecirctes preacuteceacutedentes est converti par SNP-Converter (S C)en quatre valeurs correspondant au jeu drsquoattributs pivot Il est alors possible drsquoappliquer agrave ce jeu drsquoat-tributs particulier le mapping appeleacuteMdminusa S C dont un exemple est preacutesenteacute ci-apregraves Les fonctions de laforme sci repreacutesentent alors les opeacuterations de conversion reacutealiseacutees sur les valeurs des attributs du jeu ini-tial Le reacutesultat de ces fonctions constitue le jeu drsquoattributs pivot Respectivement sc1 extrait lrsquoidentifiantde la seacutequence de reacutefeacuterence sc2 la position sur cette seacutequence sc3 le type de la seacutequence de reacutefeacuterenceet sc4 la variation observeacutee Lrsquoexemple proposeacute deMdminusa S C preacutesente la particulariteacute que reacutefeacuterence po-sition et type de seacutequence soient extraits agrave partir du mecircme attribut GP_Position Les fonctions fi sont lesfonctions classiquement deacutefinies dans le cadre des mappings La fonction f7 preacutesente la particulariteacute deprendre 4 attributs en paramegravetre car elle construit un identifiant unique de variant sur la base des valeursdes quatre attributs du jeu pivot Dans un souci de clarteacute nous remplacerons dans le mapping la notation

f7(sc1(GP_Position) sc2(GP_Position) sc3(GP_Position) sc4(Variant)) = f7(jeu_pivot)

Mdminusa S C Variant( f7(jeu_pivot))S equence( f8(sc1(GP_Position)))

SELECT Submission_Id S C sc1(GP_Position) isLocatedOn( f7(jeu_pivot) f8(sc1(GP_Position))GP_Position rarr sc2(GP_Position) isLocatedOnminus( f8(sc1(GP_Position) f7(jeu_pivot))Variant sc3(GP_Position) Position( f9(sc2(GP_Position)))

FROM RPharmGKB sc4(Variant) hasPosition( f7(jeu_pivot) f9(sc2(GP_Position))hasPositionminus( f9(sc2(GP_Position) f7(jeu_pivot))Variation( f10(sc4(Variant)))hasVariation( f7(jeu_pivot))) f10(sc4(Variant))hasVariationminus( f10(sc4(Variant) f7(jeu_pivot)))

Dans le cas du second mappingMdminusa 2 les attributs de RdbS NP pris en paramegravetre par les fonctionssci sont diffeacuterents mais le mapping vers les assertions est identique

Lrsquoeacutetape drsquoinstanciation de la SNP-KB revient agravendash (1) ajouter pour lrsquoensemble des n-uplets reacuteponses aux requecirctes lrsquoensemble des assertions de con-

cepts et des assertions de rocircles du mappingMdminusa deacutefini entre SNP-Ontology et le scheacutema S de labases de donneacutees consideacutereacutee

96 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

ndash (2) agrave partir des n-uplets reacuteponses aux requecirctes extraire et convertir les valeurs en celles correspon-dant au jeu drsquoattributs pivot

ndash (3) ajouter pour lrsquoensemble des quadruplets reacutesultant lrsquoensemble des assertions du mappingMdminusa S C ndash (4) enfin deacutefinir dans la lrsquoeacutequivalence entre le variant deacutecrit par ses attributs initiaux et le

variant deacutecrit par les attributs pivot

Le fait que SNP-Converter instancie dans la eacutegalement le jeu pivot permet de tester lrsquoeacutequivalencede deux variants dont les descriptions initiales eacutetaient diffeacuterentes mais dont la description pivot est iden-tique Le test drsquoeacutequivalence peut ecirctre consideacutereacute comme une extension proceacutedurale des meacutecanismes deraisonnement classiques Le reacutesultat de ce test aboutit agrave lrsquoenrichissement de la

Pour terminer notre exemple consideacuterons les deux tuples suivants reacuteponses respectives aux requecirctesdeMdminusa 1 etMdminusa 2 sur dbSNP et PharmGKB et les assertions associeacutees

Variant(135411387_01)Position(Chr6_18247207)hasPosition(135411387 Chr6_18247207)

(135411387Chr6 18247207AG) hasPositionminus(Chr6_18247207 135411387)Variation(A_G)hasVariation(135411387_01 A_G)hasVariationminus(A_G 135411387_01)

NonS ynonymousVariant(rs1800460_01)Position(8997479)hasPosition(rs1800460_01 8997479)

(rs18004608997479GgtA) hasPositionminus(8997479 rs1800460_01)Variation(A_G)hasVariation(rs1800460_01 A_G)hasVariationminus(A_G rs1800460_01)

Ainsi les deux attributs rsquoAGrsquo et rsquoGgtArsquo sont transformeacutes par les fonctions f3 et f6 en un mecircme nomdrsquoindividu rsquoA_Grsquo et permettent ainsi la creacuteation drsquoun seul individu identifieacute par lsquoA_Grsquo qui est instancedu concept Variation dans la

3 Expeacuterimentation 97

Mdminusa S C Variant(ch6_18247207_c_A_G)S equence(NC_000006)

(135411387 S C sc1(Chr6 18247207) isLocatedOn(NC_000006 ch6_18247207_c_A_G)Chr6 18247207 rarr sc2(Chr6 18247207) isLocatedOnminus(ch6_18247207_c_A_G NC_000006)AG) sc3(Chr6 18247207) Position(18247207)

sc4(AG) hasPosition(ch6_18247207_c_A_G 18247207)hasPositionminus(18247207 ch6_18247207_c_A_G)Variation(A_G)hasVariation(ch6_18247207_c_A_G A_G)hasVariationminus(A_G ch6_18247207_c_A_G)

Mdminusa S C Variant(ch6_18247207_c_A_G)S equence(NC_000006)

(rs1800460 S C sc1(NT_007592) isLocatedOn(NC_000006 ch6_18247207_c_A_G)8997479 rarr sc2(8997479) isLocatedOnminus(ch6_18247207_c_A_G NC_000006)GgtA) sc3(NT_007592) Position(18247207)

sc4(GgtA) hasPosition(ch6_18247207_c_A_G 18247207)hasPositionminus(18247207 ch6_18247207_c_A_G)Variation(A_G)hasVariation(ch6_18247207_c_A_G A_G)hasVariationminus(A_G ch6_18247207_c_A_G)

Les deux variants exemples sont convertis (S C) puis sont mis en correspondance par le mapping (Mdminusa S C)agrave des assertions qui font reacutefeacuterence agrave un mecircme variant En pratique le variant ch6_18247207_c_A_G estinstancieacute dans la une premiegravere fois Puis la connaissance sur lrsquoeacutequivalence entre le variant initial135411387_01 et le variant ldquopivotrdquo ch6_18247207_c_A_G est ajouteacute agrave la

135411387_01 ch6_18247207_c_A_G

(ou en OWL 135411387_01 owl sameAs ch6_18247207_c_A_G)

Ensuite lors du traitement de variant rs1800460_01 celui-ci est converti (SC) et mis en correspon-dance (Mdminusa S C) agrave la liste drsquoassertion relatives mais SNP-Converter veacuterifie dans la si le variant ldquopiv-otrdquo ch6_18247207_c_A_G lui correspondant est deacutejagrave repreacutesenteacute Si crsquoest le cas il nrsquoy est pas instancieacuteagrave nouveau et seule la connaissance sur leur eacutequivalence est ajouteacutee

rs1800460_01 ch6_18247207_c_A_G

Ceci permet drsquoinduire par un raisonnement baseacute sur la transitiviteacute de lrsquoopeacuterateur la connaissancesuivante

135411387_01 rs1800460_01

SNP-Converter a eacuteteacute utiliseacute dans le cadre drsquoune expeacuterimentation drsquointeacutegration meneacutee sur les varia-tions geacutenomiques speacutecifique au gegravene LDLR Les Figures 314 et 315 illustrent les reacutesultats obtenus Troisjeux de donneacutees ont eacuteteacute soumis au SNP-Converter Ceux-ci sont constitueacutes tout drsquoabord de deux basesde donneacutees priveacutees fournies par lrsquouniteacute UMRS 538 de lrsquoINSERM contenant 274 et 55 variants deacutecrits

98 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

suivant deux formes non-conventionnelles Ensuite le troisiegraveme jeu de donneacutees est constitueacute des vari-ants situeacutes sur le gegravene LDLR contenu dans dbSNP en format XML (377) Parmi les 706 (274+55+377)variants diffeacuterents utiliseacutes pour peupler la 634 sont consideacutereacutes comme des individus uniques ie

repreacutesenteacutes une seule fois dans la ) et 35 autres sont repreacutesenteacutes 2 ou 3 fois selon des repreacutesentationsdiffeacuterentes au sein de la reacutesultante Ces derniers variants sont donc originellement contenus dans 2 ou3 des jeux de donneacutees de deacutepart

55 377

SNPminusConverter

assertions

706 assertions =

274 variants du gegravene LDLR

existencedu variant

SNPminusKB634 individus originaux +

Base deBase dedbSNP

35 individus agrave eacutequivalents

umrs538donneacutees 1

umrs538donneacutees 2

F 314 ndash Utilisation du SNP-Converter comme wrapper et meacutediateur pour le peuplement drsquoune basede connaissances relative aux variations geacuteneacutetiques du gegravene LDLR

244

224 5

4

346

44

dbSNP (377)

Base de donneacutees 1umrs538 (274) umrs538 (55)

Base de donneacutees 2

F 315 ndash Diagramme de Venn repreacutesentant le recouvrement des trois jeux de donneacutees utiliseacutees pourpeupler la base de connaissances SNP-KB

3 Expeacuterimentation 99

32 Inteacutegration de donneacutees pharmacogeacutenomiques iSO-Pharm

La pharmacogeacutenomique est un domaine drsquoeacutetude qui manipule des donneacutees complexes La consideacutera-tion de sous-domaines (la pharmacologie la biologie moleacuteculaire la meacutedecine clinique la geacuteneacutetique despopulations lrsquoeacutepigeacutenomique entre autres) aux outils objectifs et sources de donneacutees distincts constitueun premier facteur de complexiteacute Les multiples niveaux de granulariteacute entre ces sous-domaines voire ausein drsquoun sous-domaine sont eacutegalement facteurs de complexiteacute Nous pouvons ajouter que ces donneacuteessont freacutequemment interconnecteacutees

Ces diffeacuterents facteurs de complexiteacute justifient la construction drsquoun systegraveme drsquointeacutegration de donneacuteesrelatives agrave la pharmacogeacutenomique Une motivation suppleacutementaire vient du fosseacute existant entre drsquoun cocircteacuteles donneacutees sur les connaissances pharmacogeacutenomiques geacuteneacuterales et de lrsquoautre les observations cliniquesqui ont permis de connaicirctre ces relations Un tel manque de relations peut ecirctre observeacute dans la base dedonneacutees PharmGKB ougrave coexistent sans relation des associations gegravenendashmeacutedicamentndashmaladie et des jeuxde donneacutees patients contenant des donneacutees relatives aux geacutenotype pheacutentoype et traitement de patientsLe mecircme genre de lacune existe dans la base OMIM dont les entreacutees relatives aux maladies (survenantparfois dans le cadre drsquoun traitement) preacutesentent une section ldquoClinical Synopsisrdquo dont les donneacutees nesont pas relieacutees aux variations geacutenomiques associeacutees par exemple reacutefeacuterenceacutees dans dbSNP voire mecircmedans OMIM

iSO-Pharm (pour instanciate SO-Pharm en anglais) est un systegraveme qui integravegre selon la meacutethodeproposeacutee section 2 et dans le contexte drsquoune base de connaissances des sources de donneacutees pharma-cogeacutenomiques relatives drsquoune part aux relations connues entre geacutenotypendashmeacutedicamentndashpheacutenotype etdrsquoautre part agrave des donneacutees cliniques observeacutees chez des patients La Figure 316 repreacutesente lrsquoarchitecturede ce systegraveme Elle preacutecise les sources de donneacutees inteacutegreacutees le rocircle central de lrsquoontologie SO-Pharm etde mappings deacutefinis entre donneacutees (des sources) et assertions (associeacutees agrave SO-Pharm) Il faut noter quechaque jeu de donneacutees de PharmGKB inteacutegreacute neacutecessite la deacutefinition drsquoun mapping particulier de par lefait que chaque jeu est structureacute suivant un scheacutema particulier

F 316 ndash Architecture de iSO-Pharm instanciant lrsquoarchitecture geacuteneacuterale deacutecrite Figure 310

Lrsquoobjectif drsquoun tel systegraveme est drsquointeacutegrer agrave la fois des donneacutees cliniques (ie des donneacutees relativesau pheacutenotype et au geacutenotype de patients) et des donneacutees biologiques (ie enregistreacutees dans les bases dedonneacutees biologiques et souvent issues drsquoexpeacuterience en biologie moleacuteculaire) dans le cadre drsquoune detelle sorte qursquoil soit possible drsquoutiliser la seacutemantique associeacutee aux donneacutees pour lrsquoextraction de connais-sances en pharmacogeacutenomique Cet objectif est expeacuterimenteacute dans la section 24 du chapitre 4 La base de

100 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

lrsquoexpeacuterimentation deacutecrite dans cette section est justement le peuplement drsquoune pharmacogeacutenomique agravepartir

ndash de donneacutees cliniques de PharmGKB consigneacutees dans le cadre de lrsquoinvestigation clinique desreacuteponses de 61 patients asthmatiques agrave un meacutedicament appeleacute le montelukast et

ndash de donneacutees biologiques de PharmGKB dbSNP OMIM Gene57 et KEGG Pathway58Le peuplement de la associeacutee agrave cette expeacuterimentation megravene notamment agrave la creacuteation de 61 assertionsdu concept ldquopatientrdquo (deacutefini dans SO-Pharm) de 127 assertions du concept ldquoclinical_itemrdquo ou de sesdescendants et des nombreuses assertions du rocircle ldquopresents_clinical_itemrdquo qui permet drsquoassocier lesinstances des concepts ldquopatientrdquo et ldquoclinical_itemrdquo conformeacutement aux reacutesultats de lrsquoinvestigation clin-ique Les donneacutees biologiques permettent de creacuteer des assertions de concepts et de rocircles relatives auxvariations geacutenomiques aux gegravenes aux meacutedicaments aux pheacutenotypes et agrave des reacuteseaux meacutetaboliques

57httpwwwncbinlmnihgovsitesentrezdb=gene58httpwwwgenomejpkeggpathwayhtml

4 Discussion 101

4 Discussion

Il est possible de confronter deux faccedilons de conceptualiser des connaissances la premiegravere part desdonneacutees pour deacutefinir des concepts crsquoest en un sens le cas des meacutethodes semi-automatiques de construc-tion drsquoontologie la seconde quant agrave elle part des concepts eux-mecircmes auxquels des donneacutees peuvent ecirctreassocieacutees par la suite Cette derniegravere est plus proche drsquoune construction manuelle dirigeacutee par les connais-sances drsquoun expert Une mise en perspective proposeacutee et illustreacutee dans lrsquointroduction de la thegravese de SRudolph fait le lien entre ces deux faccedilons de conceptualiser le monde et les doctrines philosophiquesinspireacutees des penseacutees drsquoAristote et Platon lrsquoempirisme et le rationalisme [Rud06]

Un premier choix fort fait dans cette thegravese est celui drsquoopter pour une construction manuelle des on-tologies Nous justifions celui-ci par deux arguments Premiegraverement les constructions drsquoontologies quenous avons meneacutees sont orienteacutees vers deux objectifs preacutecis qui sont lrsquointeacutegration de donneacutees et la deacutecou-verte de connaissances Nous pensons que lrsquoutilisation de meacutethodes de construction semi-automatiquesagrave partir de donneacutees ou de textes introduisent un biais dans la repreacutesentation des connaissances trop con-traignant vis agrave vis de nos objectifs Notons que les bio-ontologies partageacutees sur les portails OBO-Foundryet BioPortal sont construites manuellement Un second argument allant contre une construction semi-automatique est que les sources de donneacutees disponibles en pharmacogeacutenomique ne recouvrent chacuneque partiellement ce domaine en rapide eacutevolution

En revanche nous consideacuterons lrsquoutilisation des donneacutees et des textes comme le mode principal drsquoeacute-valuation de la construction En effet le fait que les concepts et rocircles drsquoune ontologie permettent larepreacutesentation des connaissances informelles contenues dans les bases de donneacutees et les textes est in-dispensable agrave lrsquoaccomplissement de nos deux objectifs (inteacutegration de donneacutees et deacutecouverte de con-naissances) Crsquoest principalement par le test de cette capaciteacute agrave repreacutesenter les connaissances que sonteacutevalueacutees SNP-Ontology et SO-Pharm

En ce qui concerne lrsquoarticulation des ontologies existantes avec les ontologies construites nous avonsaussi preacutefeacutereacute deacutefinir manuellement la liste drsquoaxiomes qui deacutecrivent les relations entre concepts de dif-feacuterentes ontologies Les raisons de ce choix sont similaires agrave celles qui motivent le choix drsquoune construc-tion manuelle Il est possible de consideacuterer cette liste drsquoaxiomes comme une TBox agrave part entiegravere (ie uneontologie indeacutependante) Sur le plan theacuteorique crsquoest notamment ce qui semble le plus pertinent car celaeacutevite drsquoavoir agrave incorporer des concepts externes dans lrsquoontologie garantissant ainsi son inteacutegriteacute (aussibien que celle des ontologies articuleacutees) Ceci eacutevite eacutegalement drsquoimporter une ontologie volumineuselorsque seules certaines branches de sa hieacuterarchie sont utiles Cependant cela impose une modularisa-

tion des ontologies qui nrsquoest pas geacutereacutee actuellement par les outils standards utiliseacutes pour la constructiondrsquoontologies tels que OWL ou Proteacutegeacute La solution que nous avons adopteacutee est ainsi lrsquoimportation des on-tologies articuleacutees dans leur globaliteacute comme lrsquoautorisent ces outils Associeacutes agrave cette probleacutematique lestravaux reacutecents de Konev et al proposent de deacutefinir des modules drsquoontologies en qui pourraient ecirctreextraits et utiliseacutes indeacutependemment [KLWW08] Ceci permettrait drsquoutiliser les meacutecanismes de raison-nement sur SO-Pharm de faccedilon moins contraignante

Les propositions reacutecentes concernant la repreacutesentation du temps en sont des progregraves eacutegalementprofitables agrave la formalisation de domaines comme la pharmacogeacutenomique et par conseacutequent profitablesaux futures versions de SO-Pharm [BGL08 LWZ08]

Lrsquoutilisation drsquoontologies pour lrsquointeacutegration de donneacutees est freacutequemment discuteacutee dans la litteacuterature[CG05] Notre motivation pour ce choix est ici renforceacutee par le fait que le second objectif de notretravail qui fait suite agrave lrsquointeacutegration de donneacutees est lrsquoeacutetude de lrsquoutilisation de connaissances formaliseacuteespour guider la deacutecouverte de connaissances (preacutesenteacutee chapitre 4)

La meacutethode drsquointeacutegration que nous proposons peut ecirctre consideacutereacutee comme un intermeacutediaire entre uneapproche meacutediateur et une approche entrepocirct En effet elle est comparable agrave une approche entrepocirct dans

102 Chapitre 3 Ontologies pour lrsquointeacutegration de donneacutees en pharmacogeacutenomique

le sens ougrave les reacutesultats de lrsquointeacutegration sont mateacuterialiseacutes puis reacuteutiliseacutes notamment pour ecirctre analyseacutes(voir chapitre 4) Neacuteanmoins nous la comparons eacutegalement agrave lrsquoapproche meacutediateur pour souligner (1) lefait que les donneacutees manipuleacutees restent dans les sources drsquoorigine ce qui est mateacuterialiseacute est un ensembledrsquoassertions et (2) lrsquoaspect dynamique de lrsquoinstanciation de lrsquoontologie qui srsquoeffectue en reacuteponse agrave unerequecircte et permet de cette faccedilon de creacuteer des diffeacuterentes en reacuteponse agrave diffeacuterentes requecirctes

Dans sa thegravese soutenue en 2007 F Saiumls deacutecrit une approche drsquointeacutegration seacutemantique fondeacutee surun enrichissement seacutemantique des donneacutees [Saiuml07] Cet enrichissement consiste en lrsquoajout de termesdeacutecrivant les concepts et rocircles drsquoune ontologie pour annoter les donneacutees Lrsquoassociation donneacuteendashterme estalors reacutealiseacutee au travers drsquoun scheacutema XML speacutecifique Le systegraveme drsquointeacutegration prend ensuite comptedes annotations pour inteacutegrer les donneacutees entre elles Pour utiliser un vocabulaire comparable agrave celui deF Saiumls nous pouvons dire non pas que notre approche enrichit les donneacutees agrave lrsquoaide de connaissancesmais qursquoinversement nous enrichissons des connaissances agrave lrsquoaide de donneacutees Dans ce sens lrsquoajout dansune drsquoassertions de concepts et de rocircles preacutealablement associeacutees agrave des donneacutees dans des mappingspeut ecirctre consideacutereacute comme un enrichissement de la

Les contributions preacutesenteacutees dans ce chapitre ont donneacute lieu agrave deux publications La premiegravere preacutesenteSNP-Converter et la seconde expose les meacutethodes associeacutees agrave la construction et agrave la validation de lrsquoon-tologie SO-Pharm [CSTB+06 CSTND06]

Ce chapitre preacutesente une approche drsquointeacutegration de donneacutees centreacutee sur une base de connaissances() dont le reacutesultat consiste en le peuplement de cette Lrsquoobjectif de cette inteacutegration est non seulementdrsquointeacutegrer des donneacutees issues de sources heacuteteacuterogegravenes mais eacutegalement de leur associer une seacutemantiquedeacutefinie dans le cadre de la repreacutesentation des connaissances relatives agrave leur domaine De fait cette seacute-mantique est utile pour inteacutegrer les donneacutees mais nous inteacuteresse plus particuliegraverement pour ameacuteliorerles reacutesultats drsquoun processus drsquoextraction de connaissances agrave partir des donneacutees inteacutegreacutees Nous abordonsdans le chapitre suivant (chapitre 4) la faccedilon dont une peut ecirctre associeacutee agrave un processus drsquo pouren faciliter chacune des eacutetapes mais aussi comment elle peut ecirctre utiliseacutee comme eacuteleacutement central drsquountel processus en appliquant les meacutethodes de fouille sur son contenu afin de beacuteneacuteficier des connaissancesaussi bien que des donneacutees disponibles

Chapitre 4

Extraction de connaissances dans lecontexte drsquoune Base de Connaissances

Nous avons deacutefini et illustreacute la notion drsquoExtraction de Connaissances guideacutee par les Connaissances

du Domaine () dans le chapitre 2 section 4 Dans ce chapitre nous proposons et expeacuterimentons unemeacutethode drsquo dans laquelle les connaissances du domaine sont utiliseacutees pour guider lrsquoeacutetape de seacutelec-

tion de donneacutees du processus (section 1) Ensuite nous introduisons la notion nouvelle drsquoExtraction deConnaissances agrave partir drsquoune Base de Connaissances () que nous proposons comme une approcheparticuliegravere drsquoExtraction de Connaissances guideacutee par les Connaissances du Domaine (section 2) Nouspreacutesentons une meacutethode particuliegravere drsquo appeleacutee Analyse des Assertions de Rocircles () qui explore lesreacutegulariteacutes existant dans les instanciations des rocircles drsquoune en pour en extraire de nouvelles connais-sances (23) Nous illustrons cette meacutethode par une expeacuterimentation pour la deacutecouverte de connaissancesen pharmacogeacutenomique 24 Enfin la section 3 est une discussion de lrsquoutilisation des connaissances pourla deacutecouverte de connaissances

1 Seacutelection de donneacutees guideacutee par les connaissances du domaine

Dans cette section 1 nous proposons une meacutethode de seacutelection de donneacutees guideacutee par les connais-sances Celle-ci repose sur la deacutefinition de diffeacuterents ensembles de mappings entre des sources de don-neacutees et une Lrsquoapport principal de cette meacutethode est de guider lrsquoanalyste dans la seacutelection de donneacuteesagrave lrsquoaide

ndash de donneacutees disponibles dans un ensemble de sources de donneacutees heacuteteacuterogegravenes connexes au domaineeacutetudieacute

ndash de lrsquoexpressiviteacute des langages de et des meacutecanismes de raisonnement qui leur sont associeacutes

11 Motivation

Les meacutethodes de fouille de donneacutees et plus particuliegraverement les meacutethodes symboliques geacutenegraverentdes reacutesultats volumineux redondants et complexes Il en reacutesulte une phase drsquointerpreacutetation longue etfastidieuse qui limite le succegraves de lrsquoapproche

Ce problegraveme met en avant lrsquoimportance de la premiegravere eacutetape de lrsquo qursquoest la preacuteparation desdonneacutees De cette eacutetape deacutepend la suite du processus depuis le parameacutetrage et le temps de calcul ausuccegraves mecircme de lrsquoextraction de connaissance utiles Dans le cadre de la deacutecouverte de connaissances

103

104 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

en pharmacogeacutenomique Altman et Klein [AK02] soulignent lrsquoimportance du choix de sous-ensemblesde donneacutees parmi la montagne de donneacutees post-geacutenomiques disponibles La reacuteduction des donneacutees agraveprendre en compte pour la fouille a une influence directe sur le volume et la pertinence des reacutesultatsCette reacuteduction est drsquoautant plus cruciale en biologie que les sources de donneacutees sont de plus en plusnombreuses et volumineuses [Bat08]

Reacuteduire la quantiteacute de donneacutees agrave fouiller par une opeacuteration de seacutelection permet de prendre en compteles connaissances (subjectives) des experts avant drsquoeffectuer la fouille (voir chapitre 2 section 123)Lrsquoobjectif drsquoune telle seacutelection est de reacuteduire le temps de calcul et le volume des reacutesultats produits sansen eacuteliminer les eacuteleacutements inteacuteressants ce qui facilite indirectement lrsquointerpreacutetation Il srsquoagit donc drsquoeacutelim-iner progressivement et en accord avec les objectifs de la fouille les eacuteleacutements redondants triviaux etdeacutenueacutes drsquointeacuterecirct Les connaissances alors utiliseacutees le sont habituellement de faccedilon manuelle agrave partir deconnaissances propres agrave lrsquoanalyste et des informations qursquoil peut collecter dans les bases de donneacutees

Lrsquoutilisation de systegravemes empiriques baseacutes sur des meacutethodes statistiques etou drsquoapprentissage est unpremier moyen drsquoassister lrsquoanalyste dans la seacutelection de donneacutees Une vue drsquoensemble de ces meacutethodesest proposeacutee dans [SIL05] ainsi que dans la section 1 du chapitre 2

Dans cette derniegravere section il est question drsquoun second moyen drsquoassister lrsquoanalyste par lrsquoutilisationde connaissances cependant les connaissances utiliseacutees ne sont jamais repreacutesenteacutees dans un formalismequi permette la mise en œuvre de meacutecanismes de raisonnement Ce qui nous inteacuteresse ici est justementlrsquoutilisation de connaissances dans le cadre de systegravemes de seacutelection de donneacutees avec comme objectifde tirer parti des connaissances formaliseacutees dans une en afin de guider agrave la fois le systegraveme (pardes meacutecanismes de raisonnement) et celui qui le pilote Le sceacutenario drsquoextraction de connaissances enbiologie exposeacute ci-apregraves illustre la distinction entre le rocircle des connaissances de lrsquoexpert le contenu debases de donneacutees et lrsquoutilisation drsquoune

variable_clin01 variable_clin m variant01 variant02 variant p

patient01

patient02

patient n

T 41 ndash Forme geacuteneacuterale du jeu de donneacutees eacutetudieacute dans le sceacutenario

Sceacutenario drsquoextraction de connaissancesUn biologiste eacutetudie la pharmacogeacutenomique lieacutee au traitement de lrsquoHypercholesteacuteroleacutemie Familiale (HF)agrave partir de donneacutees biologiques et geacutenomiques pour un panel de patients traiteacutes Le jeu de donneacutees dont

il dispose preacutesente pour chaque patient un ensemble de variables cliniques et plus de 500 geacutenotypes de

variants geacutenomiques localiseacutes sur diffeacuterents gegravenes (Tableau 41)

Pour seacutelectionner un sous-ensemble de donneacutees le biologiste peut utiliser

sa propre connaissance pour seacutelectionner les reacutegions du geacutenome ougrave les variants sont susceptibles de

lrsquointeacuteresser les gegravenes impliqueacutes dans lrsquoHF (LDLR APOE APOB LPL) et plus particuliegraverement

les exons les promoteurs et les reacutegions flanquantes des exons de ces gegravenes Cependant le biolo-

giste est incapable sur la base de sa seule connaissance drsquoassocier aux variants les reacutegions sur

lesquels ils sont situeacutes

le contenu de bases de donneacutees par exemple Genome Browser ou dbSNP lui permettent drsquoidentifier

parmi les variants exploreacutes dans son panel lesquels sont localiseacutes dans les reacutegions qui lrsquoin-

teacuteressent

1 Seacutelection de donneacutees guideacutee par les connaissances du domaine 105

lrsquoutilisation drsquoune Base de Connaissances lui permet potentiellement de savoir que les gegravenes en re-

lation avec la pharmacogeacutenomique de lrsquoHF sont plus nombreux et incluent eacutegalement les gegravenes

MTTP et ESR1 Il peut alors seacutelectionner les variants localiseacutes sur sa nouvelle liste de gegravenes sans

passer par une base de donneacutees Le biologiste peut eacutegalement observer qursquoil existe au sein des

variants des sous-ensembles pertinents les tag-SNP et les variants non-synonymes qursquoil peut

eacutegalement isoler directement gracircce agrave la Il peut seacutelectionner les variants des gegravenes qui codent

pour des proteacuteines impliqueacutees dans les reacuteactions du meacutetabolisme de lrsquoatorvastatine59 ou plus

geacuteneacuteralement du meacutetabolisme drsquoune statine (classe agrave laquelle appartient lrsquoatorvastatine)

Parce qursquoelle integravegre et structure les connaissances du domaine auquelle elle rattache les donneacuteesbrutes qursquoelle utilise un formalisme expressif et parce qursquoelle peut ecirctre associeacutee agrave des meacutecanismes deraisonnement la est un outil preacutecieux pour guider lrsquoanalyste dans un processus semi-automatique deseacutelection de donneacutees

Lrsquoanalyste aussi expert soit-il peut tirer parti de la repreacutesentation des connaissances encyclopeacutediquesdrsquoune ontologie pour orienter ses choix lors de la seacutelection De plus la somme de connaissances disponibleslaisse envisager que des tacircches demandant moins drsquoexpertise (comme par exemple la tacircche de seacutelectionmoins ldquopointuerdquo que la tacircche drsquointerpreacutetation) puissent ecirctre reacutealiseacutee par un analyste dont le niveau drsquoex-pertise est infeacuterieur mais capable de srsquoappuyer sur le reacuteferentiel deacutejagrave existant (ie la )

12 Meacutethode proposeacutee

La meacutethode preacutesenteacutee ici a pour objectif lors de lrsquoeacutetape de preacuteparation dans un processus drsquodrsquoaider lrsquoanalyste agrave seacutelectionner un sous-ensemble pertinent de donneacutees agrave fouiller que lrsquoensemble com-plet Cette approche se veut indeacutependante de la suite du processus et notamment de la meacutethode de fouilleutiliseacutee

Le principe est de permettre agrave lrsquoanalyste de faire cette seacutelection en prenant en compte les connais-sances du domaine formaliseacutees dans une preacutealablement deacuteveloppeacutee Pour cela un mapping entrechaque base de donneacutees consideacutereacutee et la doit ecirctre reacutealiseacute en collaboration avec un expert du domaineLa figure 41 deacutecrit les quatre eacutetapes principales de lrsquoapproche

1 La premiegravere est lrsquoinstanciation de la Celle-ci se fait suivant la meacutethode deacutecrite dans le chapitre 3section 2 ie sur la base de mappings deacutefinis entre les scheacutemas de bases de donneacutees et lrsquoontologieCes mappings sont exploiteacutes par des wrappers qui instancient les concepts et rocircles de lrsquoontologie agravepartir des tuples des bases de donneacutees consideacutereacutees Cette phase peut neacutecessiter diverses opeacuterationsde nettoyage et de transformation des donneacutees

2 La deuxiegraveme eacutetape consiste en la deacutefinition drsquoun jeu de donneacutee initial ensemble de donneacutees extraitdrsquoune ou plusieurs bases de donneacutees qui constite lrsquoensemble initial de donneacutees agrave analyser

3 Lrsquoeacutetape suivante est la deacutefinition drsquoun mapping entre la et le jeu de donneacutee initial Ce mappingnrsquoest pas deacutefini manuellement mais est deacuteduit des deux premiegraveres eacutetapes Son objectif est de per-mettre la reacutepercussion drsquoune seacutelection drsquoindividus dans la en une reacuteduction en largeur (ie dunombre drsquoattributs) ou en longueur (ie des tuples) du jeu de donneacutees initial

4 La derniegravere eacutetape est la seacutelection par lrsquoanalyste drsquoun ensemble drsquoindividus de la menant ainsiagrave la reacuteduction du jeu de donneacutee initial en un jeu de donneacutees reacuteduit Lrsquoanalyste ne seacutelectionne pasdirectement des donneacutees mais des individus de la agrave lrsquoaide du contenu des TBox et ABox Il estensuite possible gracircce au mapping preacuteceacutedent de faire correspondre agrave la seacutelection drsquoindividus uneseacutelection de donneacutees

59Lrsquoatorvastatine est un meacutedicament de la classe des statines preacutescrit notamment pour preacutevenir la survenue drsquoaccidentscardio-vasculaires

106 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

F 41 ndash Description geacuteneacuterale de la meacutethode de seacutelection de donneacutees guideacutee par les connaissances

Finalement le jeu de donneacutees reacuteduit peut ecirctre soumis aux eacutetapes suivantes de lrsquo la fouille etlrsquointerpreacutetation Les quatre eacutetapes de la meacutethode de seacutelection proposeacutee sont deacutetailleacutees dans la suite decette section Celles-ci font notamment intervenir trois mappings positionneacutes Figure 42

121 Instanciation de la

La premiegravere eacutetape drsquoinstanciation de la suit la meacutethode drsquointeacutegration guideacutee par une ontologieproposeacutee chapitre 3 section 2

Pour chaque base de donneacutees consideacutereacutee en entreacutee du processus drsquo un mapping entre le scheacutemade la base de donneacutees et les concepts rocircles et individus de lrsquoontologie doit ecirctre deacutefini par un expert dudomaine Ce mapping suit la deacutefinition 31 du mapping donneacutees-assertionsMdminusa deacutecrit dans le chapitre3

Il reacutesulte de ce processus une instancieacutee agrave partir des donneacutees des bases de donneacutees consideacutereacutees

122 Deacutefinition du jeu de donneacutees initial

Le jeu de donneacutees initial est deacutefini comme un ensemble de n-uplets suivant une relation n-aire uniqueRinit(B1 B2 Bm) Les attributs Bi de Rinit peuvent ecirctre issus de diffeacuterentes bases de donneacutees crsquoestpourquoi la deacutefinition du jeu de donneacutees initial neacutecessite la deacutefinition drsquoun mapping entre les scheacutemasdes bases de donneacutees consideacutereacutees pour lrsquo et la relation du jeu de donneacutees initial

Deacutefinition 41 (Mapping donneacutees ndash donneacutees) Soit un quadruplet (SMdminusdHRinit) ougrave

ndash S est le scheacutema drsquoune base de donneacutees ie un ensemble de relations n-aires de la forme R(A1 A2

An) et de domainenprod

i=1Di tels que Ai est lrsquoattribut drsquoindice i et de domaine Di

ndash Rinit est la relation n-aire unique qui deacutecrit le jeu de donneacutees initial Rinit(B1 B2 Bm)

1 Seacutelection de donneacutees guideacutee par les connaissances du domaine 107

ndash Mdminusd est une association entre les donneacutees de la base de donneacutees de scheacutema S et les donneacutees du

jeu de donneacutee initial structureacutees selon son unique relation Rinit

Φ Υ (41)

ougrave Φ est une requecircte relationnelle arbitraire sur la base de donneacutees de scheacutema S et Υ est un

ensemble drsquoinsertions de tuples dans la relation unique Rinit du jeu de donneacutees initial

ndash Enfin H un ensemble de fonctions de la forme hi(v) applicables aux diffeacuterentes valeurs reacutesultant

des requecirctes Φ pour les transformer dans le format de valeurs adeacutequat agrave leur insertion dans Rinit

deacutecrit dans Υ

Exemple Soit deux relations Rclinique et Rgenetique issues de deux bases de donneacutees dont on souhaiteextraire une partie des donneacutees pour constituer le jeu de donneacutees initial qui suit la relation Rinit

Rclinique (Patient_id Age LDL_c HDL_c TG_c xanthome arc_corneen)Rgenetique (Patient_id rs28942078 rs28942079 rs28942080)

Rinit (Patient_id LDL_c_mgl xanthome rs28942076 rs28942078 rs28942079 rs28942080 rs28942081 rs28942082rs28942083 rs28942084 rs28942085)

Deux exemples de mappings possiblesMdminusd associent une requecircte SQL sur Rclinique ou Rgenetique agraveune insertion dans Rinit

Mdminusd 1 SELECT Patient_id LDL_c INSERT INTO Rinit(Patient_id LDL_c_mgl xanthome)xanthome VALUES (h1(Patient_id) h2(LDL_c) h3(xanthome))

FROM Rclinique

WHERE Age ge 18

Mdminusd 2 SELECT Patient_id rs28942078 INSERT INTO Rinit(Patient_id rs28942078 rs28942079rs28942079 rs28942080 rs28942080)

FROM Rgenetique VALUES (h1(Patient_id) h4(rs28942078)h4(rs28942079) h4(rs28942080))

Un tel mapping preacutesente lrsquoavantage de permettre de deacutefinir un jeu de donneacutees initial agrave partir dedonneacutees issues de diffeacuterentes bases et de permettre leur transformation Le mapping Mdminusd 1 met enœuvre une transformation de donneacutees entre autres par lrsquoutilisation de la fonction gprime qui transforme lesvaleurs de concentration en LDL cholesteacuterol circulant en mollminus1 ie lrsquoattribut LDL_c en valeurs de lamecircme mesure mais avec une uniteacute diffeacuterente le mglminus1 ie lrsquoattribut LDL_c_mgl

Lrsquoensemble des mappings Mdminusd impliquant les bases de donneacutees consideacutereacutees dans le processusdrsquo permet de constituer le jeu de donneacutees initial Celui-ci peut ecirctre vu comme un tableau dont lescolonnes seraient les attributs et les lignes seraient les n-uplets de la relation Rinit En suivant lrsquoexemplepreacuteceacutedent ce tableau est conforme agrave la forme geacuteneacuterale proposeacutee dans le Tableau 41

R Pour ecirctre tout agrave fait complet dans la description de la seacutelection de donneacutees il faut noterlrsquoexistence drsquoune premiegravere eacutetape de seacutelection preacutealable agrave lrsquoapproche que nous deacutecrivons Celle-ci con-siste dans le choix des bases de donneacutees agrave consideacuterer pour lrsquo Nous ne la discutons pas dans cetravail

108 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

123 Mapping entre la et le jeu de donneacutees initial

Les deux premiers mappings entre donneacutees et assertions puis entre donneacutees et donneacutees permettent dedeacuteduire un mapping entre les donneacutees du jeu de donneacutees initial et les individus de lrsquoontologie Lrsquoinversionde ce mapping fournit une correspondance entre certains individus de la et lrsquoensemble des attributs etn-uplets du jeu de donneacutees initial

Lrsquoeacutetablissement du mapping entre la et le jeu de donneacutees srsquoappuie sur le fait que le jeu de don-neacutees initial est constitueacute agrave partir de sous-ensembles de donneacutees qui ont servi agrave instancier la Drsquounemaniegravere informelle la deacuteduction du mapping suit les phases suivantes dans un premier temps le map-ping donneacuteesndashassertionsMdminusa geacuteneacuteral est reacuteduit aux seules donneacutees du jeu de donneacutees initial ensuitedepuis le mapping reacuteduit sont extraites des associations entre attributs du jeu de donneacutees et individusde la Ces associations sont finalement inverseacutees sous forme de relations entre individus et attributsSi un individu est associeacute agrave lrsquoattribut cleacute du jeu de donneacutees lrsquoassociation individu-attribut est eacutetendue agravelrsquoensemble du tuple

Ces phases peuvent ecirctre formaliseacutees selon les deacutefinitions suivantes

Deacutefinition 42 (Mapping donneacutees ndash assertions indirect) A partir des deux quadruplets (SMdminusa FO)et (SMdminusdHRinit) suivant les deacutefinitions 31 et 41 nous deacutefinissons le quintuplet intermeacutediaire

(RinitMdminusa FHO)

ougrave

ndash Mdminusa est lrsquoassociation entre les donneacutees du jeu de donneacutees initial et un ensemble drsquoassertions de

lrsquoontologie O

Φ Ψ

ougrave Φ est une requecircte relationnelle arbitraire sur la relation Rinit etΨ est un ensemble drsquoassertions

de concepts et drsquoassertions de rocircles de lrsquoontologie O

ndash Enfin un ensemble de fonctions composeacutees agrave partir des ensembles H et F de la forme fi(hminus1j

(v))applicables aux diffeacuterents types de valeurs v reacutesultant des requecirctes Φ sur le jeu de donneacutees initial

pour les transformer en noms drsquoindividus dans Ψ h j(v) est une fonction de transformation des

valeurs v issues des bases de donneacutees consideacutereacutees en leur format dans le jeu de donneacutee initial

(voir deacutefinition 41) hminus1j

(v) est lrsquoinverse de cette fonction fi(v) est une fonction de transformation

des valeurs v reacuteponses de Φ en noms drsquoindividus (voir deacutefinition 31)

Deacutefinition 43 (Mapping donneacutees ndash individus) Soit (RinitMdminusi FHO) un autre quintuplet suivant la

deacutefinition 42 avecMdminusi un mapping extrait deMdminusa qui est deacutefini comme un ensemble drsquoassociations

1 n entre un attribut Bi de la relation Rinit du jeu de donneacutees initial et un ou plusieurs individus a j de O

Bi a j

Les attributs Bi peuvent ecirctre indiffeacuteremment des cleacutes de la relation Rinit ou non

La deacutefinition de ce mapping permet que chaque n-uplet (ie chaque cleacute) et que chaque attribut du jeude donneacutees initial soit associeacute agrave un ou plusieurs individus de la

Deacutefinition 44 (Mapping individus ndash donneacutees) Selon la deacutefinition 43 du quintuplet (RinitMdminusi FHO)nous deacutefinissons le quintuplet (RinitMiminusd FHO) ougrave

1 Seacutelection de donneacutees guideacutee par les connaissances du domaine 109

ndash Miminusd inverse deMdminusi (Mdminusi =Mminus1iminusd

) est un ensemble drsquoassociations binaires bijectives (1 1)

entre un individu de la et un attribut Bi du jeu de donneacutees initial

a Bi

Bi peut ecirctre une cleacute de la relation Rinit

Exemple Une partie du mapping Mdminusi deacuteduit entre Rinit (voir lrsquoexemple de la section 122) et lrsquoon-tologie SNP-Ontology est

Patient_id f1 (hminus11 (Patient_id)) = patient_id

LDL_c_mgl f2 (hminus12 (LDL_c_mgl)) = f2 hminus1

2 (LDL_c_mgl)) = f2 (LDL_c) = ldl_c_mol_lxanthome f3 (hminus1

3 (xanthome)) = xanthome

rs28942076 f4 (hminus14 (rs28942076)) = rs28942076_01

Si lrsquoon observe le mapping proposeacute pour lrsquoattribut LDL_c il faut drsquoabord rappeler que lrsquoattribut LDL_c de larelation Rclinique avait eacuteteacute transformeacute par la fonction h2 en LDL_c_mgl dans Rinit hminus1

2 assure ainsi la premiegraveretransformation inverse pour retrouver le format originel de lrsquoattribut LDL_c Ensuite la fonction g permetde transformer les valeurs de lrsquoattribut en noms drsquoindividus dans la ie ldl_c_mol_l

La partie correspondante du mapping inverseMiminusd entre individus et attributs est simplement

patient_id Patient_id

ldl_c_mol_l LDL_c_mgl = h2 f minus12 (ldl_c_mol_l)

xanthome xanthome

rs28942076_01 rs28942076

La Figure 42 positionne les mappingsMdminusaMdminusdMiminusd deacutefinis pour la seacutelection drsquoun jeu de don-neacutees guideacutee par les connaissances du domaine ainsi que la forme des fonctions utiliseacutees pour transformerles valeurs drsquoattributs en nom drsquoindividus

124 Seacutelection drsquoindividus et reacuteduction du jeu de donneacutees initial

La reacuteduction du jeu de donneacutees initial repose sur une seacutelection reacutealiseacutee par lrsquoanalyste drsquoindividusde la Pour cela lrsquoanalyste deacutecrit un concept C0 agrave partir des concepts et des rocircles de lrsquoontologie Leconcept C0 peut ainsi ecirctre explicitement deacutefini dans lrsquoontologie ou correspondre agrave la description drsquounnouveau concept (impliquant connecteurs logiques concepts rocircles et individus) ou mecircme le concept ⊤Le meacutecanisme de raisonnement de recherche drsquoinstances (instance retrieval en anglais) permet ensuitedrsquoindiquer quels sont les individus instances de C0

Deacutefinition 45 (A0) SoitA0 lrsquoensemble des individus a instances de C0 tels que

a isin A0 si O C0(a) (42)

Les technologies du Web seacutemantique proposent diffeacuterents langages de requecircte qui permettent de retrouverles individus instances drsquoun concept drsquoune ontologie comme par exemple SPARQL

Crsquoest lorsqursquoil seacutelectionne ainsi des individus dans la que lrsquoanalyste peut beacuteneacuteficier des connais-sances formaliseacutees dans lrsquoontologie

110 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

F 42 ndash Positionnement et relations des trois mappings Mdminusa Mdminusd et Miminusd Les mappings Mdminusa

sont deacutefinis entre un scheacutema de bases de donneacutees et la Base de Connaissance Les mappingMdminusd sontdeacutefinis entre les scheacutemas des bases de donneacutees et la relation du jeu de donneacutees intial Le mappingMiminusd

est deacuteduit des deux preacuteceacutedents Les fonctions symboliques associeacutees aux mappings sont repreacutesenteacutees Laforme geacuteneacuterale des fonctions associeacutees au mappingMiminusd est la composition de lrsquoinverse de fi et de h j

ndash Lrsquoanalyste peut utiliser la hieacuterarchie de concepts pour seacutelectionner un ensemble drsquoindividus in-stances drsquoun concept plus ou moins speacutecifique La seacutelection progressive de concepts de plus enplus speacutecifiques au fur et agrave mesure des diffeacuterentes iteacuterations du processus permet de circonscrireun type drsquoindividu afin drsquoen eacutetudier les proprieacuteteacutes propres A lrsquoinverse il est possible de seacutelection-ner des concepts de plus en plus geacuteneacuteraux afin de valider la geacuteneacuteraliteacute drsquoune proprieacuteteacute mise eneacutevidence sur un ensemble restreint drsquoindividus

ndash Lrsquoanalyste peut utiliser les rocircles et les restrictions associeacutees pour seacutelectionner des individus preacutesen-tant des proprieacuteteacutes particuliegraveres

Une fois les individus seacutelectionneacutes le jeu de donneacutees peut ecirctre reacuteduit agrave lrsquoaide de A0 et du mappingindividu-donneacuteesMiminusd selon les regravegles deacutefinies comme suit

Deacutefinition 46 (Regravegles de reacuteduction) Soit Bi un attribut drsquoune relation Rinit a un individu drsquoune ontolo-

gie O le quintuplet (RinitMiminusd FHO) comme donneacute dans la deacutefinition 44 et un ensemble drsquoindividus

A0 instances drsquoun concept C0 Si

a Bi isin Miminusd

a lt A0 et

Bi cle de Rinit

(43)

alors le n-uplet dont Bi est la cleacute est supprimeacute du jeu de donneacutees initial

De faccedilon similaire si

a Bi isin Miminusd

a lt A0 et

Bi non cle de Rinit

(44)

alors lrsquoattribut Bi est supprimeacute du jeu de donneacutees initial

En fonction du type drsquoindividus seacutelectionneacutes le jeu de donneacutees est reacuteduit selon une dimension ou uneautre

1 Seacutelection de donneacutees guideacutee par les connaissances du domaine 111

Exemple Si le concept initial C0 est deacutefini par lrsquoanalyste comme suit

C0 equiv administrative_item ⊔ phenotype_item

pour les quatres individus impliqueacutes dans le mappingMiminusd proposeacute dans lrsquoexemple preacuteceacutedent les meacute-canismes de raisonnement sur SNP-Ontology donne les reacutesultats suivant

SNP-Ontology C0(patient_id)SNP-Ontology C0(ldl_c_mol_l)SNP-Ontology C0(xanthome)SNP-Ontology 2 C0(rs28942076_01)

alorspatient_id ldl_c_mol_l xanthome isin A0

rs28942076_01 lt A0

et si lrsquoon considegravere lrsquoensemble desMdminusiA0 et Rinit qui deacuteteacutermine les regravegles de reacuteduction seul lrsquoindividurs28942076_01 est inclu dans le mapping mais pas dans la seacutelection drsquoinstance

rs28942076_01 rs28942076 isin Miminusd

rs28942076_01 lt A0 et

rs28942076 non cle de Rinit

En conseacutequence lrsquoattribut rs28942076 de Rinit est supprimeacute En revanche les attributs Patient_id LDL_c_mglxanthome sont conserveacutes pour constituer une nouvelle relation Rreduit Les autres attributs de Rinit relatif augeacutenotype sont eacutegalement supprimeacutes de la relation du jeu de donneacutees initial Au final la transistion entreRinit et le schema Rreduit du jeu de donneacutee reacuteduit est

Rinit (Patient_id LDL_c_mgl xanthome rs28942076 rs28942078 rs28942079 rs28942080 rs28942081 rs28942082rs28942083 rs28942084 rs28942085)

darr

Rreduit (Patient_id LDL_c_mgl xanthome)

Les sceacutenarios preacutesenteacutes dans la section 13 illustrent lrsquoutilisation par un biologiste des connaissances dudomaine pour reacuteduire en limitant la perte drsquoinformation le nombre de n-uplets ou drsquoattributs dans le jeude donneacutees initial

13 Expeacuterimentation pour la deacutecouverte de relations geacutenotypendashpheacutenotype

131 Motivation

Nous preacutesentons dans cette section des sceacutenarios drsquoutilisation de notre approche de seacutelection dedonneacutees guideacutee par les connaissances pour la recherche de relations geacutenotypendashpheacutenotype introduiteschapitre 1 section 13

Lrsquoapproche que nous proposons pour guider lrsquoanalyste dans sa seacutelection de donneacutees vise agrave srsquoappuyerde faccedilon semi-automatique sur les connaissances disponibles du domaine Ceci se justifie pleinement enbiologie ougrave de plus en plus drsquoontologies sont construites et rendues disponibles sur Internet comme surles portails OBO Foundry et Bioportal eacutevoqueacutes chapitre 2 section 34

Afin drsquoalleacuteger la lecture les mappings deacutefinis pour cette expeacuterimentation et ayant donneacute lieu audeacuteveloppement de wrappers ne sont pas repreacutesenteacutes Cependant des exemples de ces mappings ont eacuteteacuteproposeacutes dans la section preacuteceacutedente (section 12)

112 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

F 43 ndash Approche pour la seacutelection de donneacutees (Figure 41) utiliseacutee pour lrsquoexpeacuterimentation ie larecherche de relations geacutenotypendashpheacutenotype lieacutees agrave lrsquoHF

132 Hypercholesteroleacutemie Familiale sources de donneacutees et de connaissances

Notre expeacuterimentation srsquoinscrit dans le cadre de la recherche de nouvelles connaissances relatives agravelrsquohypercholesteacuteroleacutemie familiale (HF) LrsquoHF est un deacutesordre meacutetabolique drsquoorigine geacuteneacutetique autosomaldominant causeacute par diffeacuterentes mutations du gegravene LDLR [BDdG94] Elle est caracteacuteriseacutee principalementpar une augmentation importante de la concentration en cholesteacuterol LDL (Low Density Lipoprotein) dansle sang

Lrsquoobjectif du processus drsquo mis en oeuvre ici est drsquoextraire des relations entre des variants

geacutenomiques (ie le geacutenotype) et des traits pheacutenotypiques (ie le pheacutenotype) Des relations drsquointeacuterecirct sontpar exemple celles qui impliquent des variants geacutenomiques modulateurs ie un variant (ou un groupe devariants) qui a(ont) un effet modulateur sur la graviteacute de la pathologie eacutetudieacutee (lrsquoHF par exemple) ou surun symptocircme lieacute agrave celle-ci

Par exemple il existe diffeacuterents niveaux de seacuteveacuteriteacute de lrsquoHF qui sont fonctions de lrsquoallegravele observeacutepour deux variants geacutenomiques du gegravene APOE (rs7412 et rs429358) [NBS+06] Ces variants modula-teurs preacutesentent un inteacuterecirct particulier en pharmacogeacutenomique puisqursquoils sont souvent impliqueacutes dans lamodulation du meacutetabolisme et de lrsquoeffet des meacutedicaments [GBe07]

Les sources de donneacutees exploreacutees dans le cadre de cette expeacuterimentation ont deux origines dif-feacuterentes (i) deux jeux de donneacutees priveacutes reacutesultats drsquoinvestigations cliniques relatives agrave lrsquoHF (ii) desbases de donneacutees publiques (dbSNP HapMap OMIM PharmGKB et des bases de donneacutees ldquoLocus Speacute-cifiquesrdquo60) dont certaines parties ont eacuteteacute utiliseacutees pour instancier la SNP-Ontology Cette instanciationsuit lrsquoapproche deacutecrite dans la section 121 La Figure 43 deacutecrit la meacutethode (comme la Figure 41) dansle cas preacutecis de la recherche de relations geacutenotypendashpheacutenotype lieacutees agrave lrsquoHF

De lrsquoensemble des sources de donneacutees consideacutereacutees est extrait un jeu de donneacutees initial appeleacute HFinitial

constitueacute de 125 n-uplets correspondant agrave 125 patients impliqueacutes dans une eacutetude clinique lieacutee agrave lrsquoHF et

60The WayStation http wwwcentralmutationsorg

1 Seacutelection de donneacutees guideacutee par les connaissances du domaine 113

de 304 attributs relatifs au geacutenotype (292304) et au pheacutenotype (12304) des patientsLe jeu de donneacutees HFinitial implique (α) des patients atteints drsquoune hypercholesteacuteroleacutemie drsquoorigine geacuteneacutetique (ie lrsquoHF)(β) des patients atteints drsquoune hypercholesteacuteroleacutemie drsquoorigine non-geacuteneacutetique et(γ) des patients sainsLa majoriteacute des attributs geacuteneacutetiques (289293) provient du geacutenotypage (ie les allegraveles porteacutes) de

chaque patient pour les variations geacutenomiques du gegravene LDLR exploreacutees Un exemple drsquoattribut geacuteneacutetiquede ce type sont les allegraveles observeacutes pour la variation situeacutee agrave la position Chr19 11085058 (eg AA) Lesattributs relatifs au pheacutenotype deacutecrivent les variables habituellement observeacutees ou mesureacutees dans le cadrede lrsquoexploration du meacutetabolisme des lipides par exemple la concentration en cholesteacuterol LDL circulant(eg [LDL]c=3glminus1) ou la preacutesenceabsence de xanthome61 chez le patient

133 Meacutethodes de fouille

Pour eacutevaluer la quantiteacute de reacutesultats de fouille de donneacutees dans le cadre de cette expeacuterimentationnous utilisons deux meacutethodes de fouille de donneacutees

ndash lrsquoextraction des motifs freacutequents preacutesenteacutee dans la section 132 du chapitre 2ndash la classification hieacuterarchique non superviseacutee COBWEB [Fis87]La premiegravere meacutethode produit des motifs freacutequents (MF) agrave partir desquels peuvent ecirctre isoleacutes des sous

ensembles de motifs non-redondants les motifs fermeacutes freacutequents (MFF) Nous utilisons le nombre demotifs produits pour donner une estimation de la quantiteacute de reacutesultats agrave interpreacuteter et le ratio du nombrede MF sur celui de MFF ( |MF|

|MFF|) pour donner une estimation de la redondance des reacutesulats

COBWEB produit un ensemble de clusters organiseacutes selon une hieacuterarchie Le nombre de clustersnous sert drsquoindice pour juger de la complexiteacute des reacutesultats

134 Seacutelection progressive de variants speacutecifiques ndash guideacutee par la subsomption

Le premier sceacutenario srsquoappuie sur lrsquohypothegravese que des relations geacutenotypendashpheacutenotype pertinentes peu-vent ecirctre plus facilement extraites drsquoun sous-ensemble de donneacutees ne contenant que les variants codants62

ou les variants des domaines proteacuteiques conserveacutes63 Selon notre approche ce genre de seacutelection reacutesultede la seacutelection dans lrsquoontologie SNP-Ontology des individus instances du concept le plus speacutecifique quicorrespond au type de variant choisi Cette seacutelection peut se faire par une navigation progressive dans lahieacuterarchie de lrsquoontologie en suivant les relations de subsomption Le Tableau 42 illustre une seacutelectionsuccessive (au cours de diffeacuterentes iteacuterations du processus drsquoECBD) des individus instances du conceptvariant puis de ses sous-concepts les plus speacutecifiques successivement variant puis coding_variant etenfin conserved_domain_variant La seacutelection progressive drsquoun nombre deacutecroissant drsquoindividus se reacuteper-cute en une diminution du nombre des attributs dans HFinitial respectivement 289 231 et 126 attributsLes attributs relatifs aux variants non-codants sont eacutelimineacutes dans un premier temps puis sont eacutecarteacutes lesvariants codants localiseacutes hors des reacutegions correspondant aux domaines proteacuteiques conserveacutes

En pratique la seacutelection de classes plus ou moins speacutecifiques en suivant lrsquoorganisation hieacuterarchiqueproposeacutee par lrsquoontologie se fait par lrsquointermeacutediaire drsquoune partie drsquoun plug-in de Proteacutegeacute 4 que nous avonsdeacuteveloppeacute et dont lrsquointerface graphique est repreacutesenteacutee en Annexe G

Les conseacutequences que peut avoir la reacuteduction du jeu de donneacutees sur la quantiteacute et la significativiteacute desreacutesultats bruts de la fouille de donneacutees sont illustreacutees dans le Tableau 42 Pour cela les diffeacuterents jeuxde donneacutees reacuteduits obtenus ont eacuteteacute soumis aux deux meacutethodes de fouille de donneacutees utiliseacutes pour eacutevaluer

61Un xanthome est une tumeur beacutenigne cutaneacutee souvent signe drsquoune anomalie des lipides62Localiseacutes dans les reacutegions codantes pour ecirctre preacutecis63Dont les conseacutequences proteacuteiques se localisent dans des domaines conserveacutes pour ecirctre preacutecis

114 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

C0 variant coding_variant conserved_domain_variant tag_snp

Nombre drsquoattributs 289 231 126 198

() 6928 (255) 314 (24) 304 (12) 300 (28)ratio 2717 1308 2533 1071

Clusters 194 186 56 40

T 42 ndash Caracteacuterisation quantitative des reacutesultats bruts de fouille de donneacutees en fonction du nombredrsquoattribut seacutelectionneacutes

la quantiteacute de reacutesultats produits lrsquoextraction des motifs freacutequents (avec lrsquoalgorithme Zart [SNK07]) etCOBWEB (avec lrsquoalgorithme implanteacute dans Weka64) Quand tous les variants sont consideacutereacutes (colonnevariant du Tableau 42) le nombre total de motifs freacutequents () est de 6928 et le nombre de clusters deCOBWEB est 194 Dans leur eacutetat brut ces reacutesultats de fouille sont complexes agrave interpreacuteter Le nombrede variables impliqueacutees est important et il nrsquoy a pas excepteacute leur nom drsquoinformations contextuelles a

priori qui permettent de les diffeacuterencier Par exemple les variants codants ne peuvent pas ecirctre distingueacutesdes non-codants

La quantiteacute de reacutesultats de fouille de donneacutees diminue progressivement lorsque moins drsquoindividusdonc moins drsquoattributs sont seacutelectionneacutes (colonnes coding_variant et conserved_domain_variant) Ainsile nombre de passe de 6928 agrave 304 et le nombre de clusters de 194 agrave 56

Lrsquoorganisation hieacuterarchique mateacuterialiseacutee par la relation de subsomption est une des connaissancesdu domaine qui peut ecirctre utiliseacutee pour reacuteduire le volume du jeu de donneacutees agrave fouiller Cependant unetelle seacutelection oblige agrave un compromis sur le type de variants agrave inclure dans lrsquoeacutetude

135 Unification des variants agrave lrsquoaide des Tag-SNP ndash guideacutee par les rocircles et la compostion de rocircles

Les reacutesultats de la fouille du jeu de donneacutees HFinitial preacutesentent un proportion importante de triviaux ou redondants Ceci est ducirc en partie au fait que certains variants du jeu de donneacutees appartiennentaux mecircmes haplotypes Comme deacutecrit dans la section 24 du chapitre 1 un haplotype deacutesigne un groupede variants transmis conjointement et de faccedilon homogegravene agrave travers les geacuteneacuterations Il est possible drsquoi-dentifier au sein des haplotypes un ensemble minimal de variants appeleacutees Tag-SNP dont lrsquoobservationsuffit agrave preacutedire lrsquoallegravele preacutesenteacute par les autres variants de lrsquohaplotype Reacuteduire un ensemble de variantsmembres drsquoun haplotype agrave ses tag-SNP permet de reacuteduire les relations qui traduisent la deacutependance entreces variants et ainsi reacuteduit la redondance des reacutesultats

La Figure 44 montre un haplotype et sa repreacutesentation dans lrsquoontologie SNP-Ontology Cet haplo-type est composeacute des variants rs_001 rs_002 rs_003 et rs_004 et peut ecirctre remplaceacute par son uniquetag-SNP rs_004 La description drsquoun haplotype (ici le NA01234) met en lumiegravere lrsquoexistence drsquounedeacutependance fonctionnelle entre un (ou plusieurs) tag-SNP (rs_004) et les autres membres de lrsquohaplo-type (rs_001 rs_002 rs_003) Cette deacutependance est repreacutesenteacutee dans la SNP-Ontology comme suit

rs_001 rs_002 rs_003 ≔ exist isHaplotypeMemberO f haplotype_NA01234 ⊓exist isHaplotypeMemberO f isTaggedBy rs_004

64http wwwcswaikatoacnzmlweka

1 Seacutelection de donneacutees guideacutee par les connaissances du domaine 115

F 44 ndash Concepts de SNP-Ontology instancieacutes par des individus repreacutesentant des variationsgeacutenomiques (rs_001 rs_002 rs_003 et rs_004) et un haplotype (NA_01234) Leacutegende les ovales pleinssont des concepts les ovales en tirets sont des individus la ligne pleine est une relation de subsomptionles lignes en tirets ronds sont des rocircles les lignes en tirets plats sont des assertions

et inversementrs_004 ≔ exist tags haplotype_NA01234 ⊓

exist tags containsVariants rs_001 ⊓exist tags containsVariants rs_002 ⊓exist tags containsVariants rs_003

Lrsquoontologie contient lrsquoensemble des descriptions des haplotypes des gegravenes geacutenotypeacutes pour la pop-ulation eacutetudieacutee dans lrsquoeacutetude HFinitial Les connaissances sur les haplotypes sont inteacutegreacutees agrave lrsquoontologielors de la phase drsquoinstanciation de notre approche agrave partir des donneacutees du projet HapMap et de donneacuteesissues du logiciel Haploview [Con03 BFMD05]

Le concept de tag-SNP est explicitement deacutecrit dans SNP-Ontology de la faccedilon suivante

tag_snp equiv exist tags containsVariantVariant (45)

Ainsi en limitant la deacutefinition du concept C0 agrave la deacutefinition des tag-SNP (ie C0 equiv tag_snp) lrsquoanalysteentraicircne la suppression au sein du jeu de donneacutees des attributs qui ne concernent pas des tag-SNP Suiv-ant notre exemple baseacute sur lrsquohaplotype NA01234 ceci revient finalement agrave la suppression des colonnesrs_001 rs_002 et rs_003 du jeu de donneacutee HFinitial Au niveau de lrsquoensemble du jeu de donneacutees HFinitialle Tableau 42 montre qursquoune telle seacutelection reacuteduit le nombre drsquoattributs (289 agrave 198) et diminue consid-eacuterablement la quantiteacute de reacutesultats produits par les deux meacutethodes de fouille La reacuteduction des reacutesultatsde fouille est due premiegraverement agrave la reacuteduction du nombre drsquoattributs et deuxiegravemement agrave la reacuteductiondu nombre drsquoassociations lieacutees agrave la deacutependance fonctionnelle (ie la co-segreacutegation) entre les variantsdrsquoun mecircme haplotype Le ratio |||| donne une ideacutee de la redondance65 qui existe au sein des motifsextraits lors de lrsquoextraction de motifs freacutequents et indique ainsi que la redondance entre les diminuelorsque le jeu de donneacutees est reacuteduit en utilisant les tag-SNP

R Les haplotypes sont des constructions statistiques dont la preacutecision est deacutependante delrsquoeacutechantillon drsquoindividus utiliseacute La reacuteduction du jeu de donneacutees sur la base de la composition des haplo-types souffre donc du mecircme biais

65Un motif est drsquoautant plus redondant qursquoil retrouveacute comme sous-motif drsquoun grand nombre drsquoautres motifs

116 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

136 Seacutelection de patients ndash guideacutee par la deacutefinition de concepts

Les deux premiers sceacutenarios visaient agrave reacuteduire le nombre drsquoattributs (relatifs au geacutenotypage de vari-ants geacutenomiques) Le troisiegraveme sceacutenario deacutecrit dans cette section illustre quant agrave lui la reacuteduction dunombre de n-uplets (ie de patients) du jeu de donneacutees HFinitial Pour ce faire lrsquoanalyste seacutelectionnedes individus instances des concepts deacutecrits non plus dans lrsquoontologie SNP-Ontology mais deacutecrit dansSO-Pharm dont la SNP-Ontology ne constitue qursquoune partie (voir chapitre 3 section 13)

Les concepts rocircles et individus de SO-Pharm permettent de deacutecrire de nouveaux concepts qui peu-vent preacutesenter un inteacuterecirct particulier dans le cadre de lrsquoexploration de lrsquoHF Le jeu de donneacutees regroupenotamment trois classes diffeacuterentes de patients (α β et γ) qui ne sont pas initialement repreacutesenteacutees dansSO-Pharm mais qursquoil est inteacuteressant de regrouper dans le cadre de lrsquoeacutetude afin drsquoen explorer les pro-prieacuteteacutes caracteacuteristiques et discriminantes Pour cela lrsquoanalyste peut utiliser SO-Pharm et les individuscreacuteeacutes lors de lrsquoeacutetape drsquoinstanciation pour deacutefinir le concept C0 correspondant agrave la classe de patients qursquoilveut eacutetudier

patients α C0 equiv patient ⊓

exist hasGenotypeItem LDLR_mutation

patients β C0 equiv patient ⊓

exist hasGenotypeItem no_LDLR_mutation ⊓

exist hasPhenotypeItem high_LDL_in_blood

patients γ C0 equiv patient ⊓

exist hasGenotypeItem no_LDLR_mutation ⊓

exist hasPhenotypeItem normal_LDL_in_blood

Lrsquoutilisation du meacutecanisme de recherche drsquoinstances permet de deacuteterminer quelles sont les instancesdu concept C0 Selon lrsquoapproche deacutecrite cela a se reacutepercute au niveau des donneacutees qui vont ecirctre reacuteduitesagrave un sous-ensemble de n-uplets qui partagent un attribut en commun ou qui appartiennent agrave une mecircmeclasse de patients Lrsquointeacuterecirct principal de cette reacuteduction est qursquoelle peut se faire agrave lrsquoaide drsquoattributs ou declasses qui ne sont pas preacutesents dans le jeu de donneacutees initial HFinitial mais qui sont repreacutesenteacutees danslrsquoontologie SO-Pharm

En pratique la deacutefinition de C0 srsquoeffectue de la mecircme maniegravere que dans le premier sceacutenario gracircce agravelrsquoutilisation drsquoun plug-in de Proteacutegeacute 4 (voir Annexe G)

14 Bilan

Nous avons preacutesenteacute dans cette section une meacutethode de seacutelection de donneacutees qui moyennant ladeacutefinition par lrsquoanalyste drsquoun ensemble de mappings adeacutequats lui permet de beacuteneacuteficier du contenu de la pour reacuteduire intelligemment un jeu de donneacutee initial avant la fouille

La proposition deacutecrite dans cette section pour guider la seacutelection de donneacutees agrave lrsquoaide des connais-sances du domaine et son illustration par des sceacutenarios de recherche de relations geacutenotypendashpheacutenotypeont eacuteteacute publieacutees dans le journal BMC Bioinformatics [CSTB+08]

Dans lrsquoideacutee drsquoaller plus loin dans lrsquoutilisation des connaissances disponibles pour lrsquoextraction de con-naissances la section suivante preacutesente une approche inteacutegreacutee drsquoExtraction de Connaissance agrave partir deBase de Connaissance () ougrave lrsquoensemble du processus drsquo est revisiteacute en preacutesence drsquoune Cetteapproche preacutesente en outre lrsquoavantage drsquoalleacuteger le travail de lrsquoanalyste en nrsquoexigeant que la deacutefinition

1 Seacutelection de donneacutees guideacutee par les connaissances du domaine 117

des mappings donneacuteesndashassertions (Mdminusa) neacutecessaires au peuplement de la agrave partir drsquoun ensemble debases de donneacutees heacuteteacuterogegravenes

118 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash

Nous proposons une approche particuliegravere drsquoExtraction de Connaissances guideacutee par les Connais-sances du Domaine () appelleacutee lrsquoExtraction de Connaisances agrave partir drsquoune Base de Connaissances() La nouveauteacute de celle-ci est que la nrsquoest plus positionneacutee en marge du processus mais estlrsquoeacuteleacutement central dont sont agrave la fois extraits les eacuteleacutements agrave fouiller et les connaissances pour guider lafouille

21 Description geacuteneacuterale

Nous proposons une approche drsquo dont lrsquooriginaliteacute principale est de travailler agrave partir des TBox

et ABox drsquoune Lrsquohypothegravese sous-jacente est lrsquoexistence de reacutegulariteacutes porteuses de connaissancesnouvelles et significatives dans lrsquoinstanciation (deacutefinie et induite) drsquoune

Il srsquoagit donc drsquoappliquer des meacutethodes de fouille de donneacutees sur un ensemble drsquoassertions de la dans le but de deacuteceler des reacutegulariteacutes interpreacutetables sous forme de connaissances pertinentes quiraffineront la Nous appelons cette approche lrsquoExtraction de Connaissances agrave partir drsquoune Base deConnaissance () par distinction avec lrsquoExtraction de Connaissances agrave partir de Bases de Donneacutees()

Deux obstacles se posent agrave la mise en œuvre drsquoune telle approche ndash premiegraverement les ne contiennent souvent qursquoune quantiteacute de connaissances restreinte compareacute

au contenu de bases de donneacutees ou de corpus de textes ndash deuxiegravemement les algorithmes de fouille de donneacutees sont deacuteveloppeacutes pour manipuler des donneacutees

et non des assertions de plus les reacutesultats de ces algorithmes ne sont pas repreacutesenteacutes suivant unformalisme de repreacutesentation des connaissances

Nous proposons de deacutepasser la premiegravere limite en deacuteveloppant des mappings entre le contenu desbases de donneacutees du domaine et lrsquoontologie (ou TBox) (0) Ces mappings serviront de base agrave des wrappers

deacuteveloppeacutes speacutecialement pour peupler lrsquoontologie agrave partir du contenu de bases de donneacuteesPour surmonter la deuxiegraveme limite il est neacutecessaire de reacutealiser une eacutetape de transformation (i) des as-

sertions de lrsquoontologie en un format compatible avec le format drsquoentreacutee de la meacutethode de fouille choisieApregraves lrsquoeacutetape de fouille proprement dite (ii) il est eacutegalement neacutecessaire de reacutealiser une eacutetape de transfor-mation inverse (iii) des reacutesultats de fouille en axiomes et assertions dans le formalisme de lrsquoontologie

Notre meacutethode se divise ainsi en 4 eacutetapes principales (0 i ii iii) dont les 3 derniegraveres peuventecirctre compareacutees aux trois eacutetapes principales du processus drsquo (i) la preacuteparation des donneacutees (ii)

la fouille et (iii) lrsquointerpreacutetation Nous supposons ici que la TBox de la est deacutejagrave construite La Figure45 repreacutesente scheacutematiquement cette approche iteacuterative et interactive

22 Application conjointe des Logiques de Descriptions et de lrsquoAnalyse de Concepts Formelsdans le contexte de lrsquo

Lrsquoexistant le plus proche de la meacutethode drsquo proposeacutee ci-dessus vient de travaux qui font inter-venir conjointement des formaliseacutees en et des meacutethodes drsquoAnalyse de Concepts Formels ()(chapitre 2 section 131) et partagent malgreacute des diffeacuterences fondamentales deux principes la notion de concept et lrsquoorganisation hieacuterarchique de ces concepts Bien que diffeacuterente en et en la notion de concept repose sur la mecircme ideacutee fondamentale de collection drsquoobjets partageant un certainnombre de proprieacuteteacutes Aussi lrsquoorganisation en hieacuterarchie des concepts formels produite par lrsquo preacutesentedes similitudes avec lrsquoorganisation des concepts drsquoune ontologie en Ces similitudes rendent possible

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 119

F 45 ndash LrsquoExtraction de Connaissances agrave partir drsquoune Base de Connaissances ou

lrsquoutilisation conjointe de meacutethodes ou outils provenant des deux domaines Toutefois les diffeacuterencesprincipales entre concepts en et concepts formels sont premiegraverement la faccedilon dont ils sont obtenus etdeuxiegravemement la faccedilon de les deacutecrire

En les concepts sont obtenus de faccedilon manuelle ou semi-automatique par un expert du domaineeacutetudieacute dans lrsquoobjectif de formaliser les concepts drsquointeacuterecirct du domaine en question La descriptiondrsquoun concept en est construite agrave partir de concepts atomiques (des preacutedicats unaires) de rocirclesatomiques (des preacutedicats binaires) et des constructeurs de concepts fournis par le langage de utiliseacute (existforall par exemple) Les concepts deacutecrits ainsi que les rocircles servent dans un second tempsagrave la speacutecification des proprieacuteteacutes des objets Pour plus de deacutetails voir la section 22 du chapitre 2 ou[BCM+03]

En les concepts formels sont obtenus agrave partir de contextes formels qui speacutecifient les attributs (ouproprieacuteteacute) preacutesenteacutes par chaque objet Dans un tel contexte un concept formel est deacutecrit par unensemble drsquoobjets (son extension) et un ensemble drsquoattributs (son intension) de telle sorte que lrsquoin-tension contienne exactement lrsquoensemble des attributs que les objets de lrsquoextension ont en communet qursquoinversement lrsquoextension contienne exactement lrsquoensemble des objets qui partagent tous lesattributs de lrsquointension Pour plus de deacutetails voir la section 131 du chapitre 2 ou [GW99]

Dans les deux cas les descriptions associeacutees aux concepts permettent de les organiser en une hieacuterar-chie Toutefois les deux types de concept deacutecrits de faccedilons distinctes produisent deux types de hieacuterar-chies distinctes

R Certains auteurs utilisent eacutegalement les notions drsquointension et drsquoextension concernantles concepts de Dans ce cas lrsquointension du concept est la description du concept et lrsquoextension estlrsquoensemble des individus (ie des objets) instances du concept en question

Baader et al utilisent lrsquo pour construire en partant du bas une hieacuterarchie de concepts agrave partirdrsquoun ensemble fini de concepts C1 Cn [BS04] Le principe de la meacutethode repose sur la deacutefinitiondrsquoun contexte formel agrave partir de lrsquoensemble de concepts de deacutepart et soit de leurs conjonctions soitde leurs subsumants communs les plus speacutecifiques La meacutethode drsquo utiliseacutee sur le contexte est lrsquoal-gorithme drsquoexploration drsquoattributs de Ganter [Gan84] qui permet de deacuteterminer des implications de laforme B1 rarr B2 Les implications permettent de deacuteriver des relations de subsomption entre les concepts

120 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

de deacutepart et leurs conjonctions (par exemple B1 ⊑ B2) ou entre les subsumants communs les plus speacute-cifiques des concepts de deacutepart et les concepts de deacutepart de sorte agrave geacuteneacuterer progressivement et de basen haut une hieacuterarchie En pratique ce travail est tregraves peu exploitable car les hieacuterarchies geacuteneacutereacutees au-tomatiquement sont volumineuses en raison du fait que tous les concepts qursquoil est possible de deacutecrire agravepartir des concepts de deacutepart sont construits et inclus dans la hieacuterarchie De plus la meacutethode srsquoappuiesur lrsquohypothegravese forte qursquoun subsumant commun le plus speacutecifique existe toujours et peut toujours ecirctretrouveacute ce qui nrsquoest pas le cas en pratique Enfin ce travail prend en compte la TBox sans exploiter lesconnaissances de la ABox

Des reacutesultats plus exploitables dans le cadre de lrsquo reacutesultent de deux travaux qui se complegravetent lrsquoExploration Relationnelle (que nous noterons )[Rud06] et la proposition de compleacutetion des en par Baader et al [BGSS07]

LrsquoExploration Relationnelle () deacutecrite par Rudolph srsquoappuie sur une extension de lrsquoalgorithme drsquoex-ploration drsquoattributs dans un contexte de Pour cela lrsquo se base sur la deacutefinition du contexte lieacuteagrave lrsquointerpreacutetation I en

Deacutefinition 47 (Contexte - ) Soit I une interpreacutetation sur le domaine ∆ M un ensemble de

description de concepts de ce domaine en et Ic une relation drsquoincidence Le contexteKI(M) lieacute

agrave lrsquointerpreacutetation I est deacutefini par le triplet (∆M Ic) ougrave quand la relation drsquoincidence Ic associe

agrave un individu δ de ∆ une description de concept C de M alors lrsquoindividu δ est instance du concept

CI Plus formellement

δIcCI hArr δ isin CI

A partir de cette deacutefinition il est deacutemontreacute que les implications extraites de KI par lrsquoexplorationdes attributs coiumlncident avec certains axiomes valides selon I (voir [Rud06]) Ainsi si CD sube M

alors lrsquoimplication C rarr D est extraite de KI si et seulement si I satisfait lrsquoaxiome C ⊑ DLrsquo permet drsquoexplorer les axiomes drsquoinclusion par cette correspondance et de veacuterifier leur validiteacutedans le domaine (selon I) agrave travers un systegraveme de questions-reacuteponses agrave un expert du domaineSi lrsquoassertion proposeacutee nrsquoest pas explicitement deacutecrite dans la TBox et ne peut pas ecirctre induitepar le meacutecanisme de raisonnement de subsomption alors lrsquoexpert est interrogeacute sur sa validiteacute Silrsquoassertion est vraie selon lrsquoexpert elle vient enrichir la TBox Si elle est fausse lrsquoexpert doitfournir un contre exemple qui sera ajouteacute agrave la ABox de la De cette faccedilon lrsquoimplication ne seraplus extraite lors drsquoune exploration suivante et la (TBox et ABox ) est progressivement raffineacutee

La compleacutetion des en proposeacutee par Baader et al [BGSS07] propose des ameacuteliorations permet-tant la mise en oeuvre effective de lrsquo Premiegraverement elle formalise lrsquoutilisation de lrsquo sur descontextes partiels Cette utilisation est neacutecessaire agrave la prise en consideacuteration drsquoobjets partiellementdeacutecrits par les meacutethodes de comme lrsquoexploration drsquoattributs Suivant lrsquohypothegravese du mondeouvert (deacutetailleacutee chapitre 2 section 22) les individus drsquoune en sont justement des objetspartiellement deacutecrits Deuxiegravemement la meacutethode limite agrave la seule subsomption les constructeurslogiques autoriseacutes dans les descriptions de concepts consideacutereacutes par la contexte (ie les conceptsde M de KI) Ceci permet de reacuteduire le nombre drsquoimplications et donc de questions poseacutees agravelrsquoexpert

Le beacuteneacutefice commun des reacutesultats de ces deux travaux est illustreacute par une meacutethode drsquoacquisitionsemi-automatique drsquoaxiomes en agrave partir de corpus de textes dans [VR08]

Une premiegravere limite des meacutethodes baseacutees sur lrsquoExploration drsquoAttributs est de nrsquoexploiter que lesimplications du contexte ie les regravegles dont la confiance est eacutegale agrave 1 Crsquoest justement ce qui permetdrsquoexclure un axiome C ⊑ D lorsque lrsquoexpert donne un contre-exemple agrave un axiome cela revient agrave

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 121

ajouter un objet au contexte qui preacutesente la proprieacuteteacute C sans la D ou inversement Ce nouvel objet rendforceacutement la confiance de la regravegle C rarr D infeacuterieure agrave 1 ce qui eacutevite lrsquoimplication entre C et D Nouspensons que cette limite est trop forte et peut empecirccher la mise en eacutevidence de concepts inteacuteressants agraveinclure dans la TBox Quand une est peupleacutee de nombreux individus quelque soit le mode utiliseacute pourson peuplement (manuel ou automatique) elle reste une repreacutesentation drsquoune reacutealiteacute particuliegravere soumiseaux nombreux arteacutefacts que cela implique par exemple le biais dans la repreacutesentation des connaissancesla reproduction ou lrsquointroduction de bruit drsquoerreurs lors du peuplement de la la difficulteacute agrave prendreen consideacuteration les cas extrecircmes

De plus selon la configuration de la (et notamment de son peuplement) le nombre drsquoimplicationset donc de questions poseacutees agrave lrsquoexpert peut ecirctre tregraves eacuteleveacute sans que celles-ci nrsquoapportent aucun beacuteneacuteficedans la repreacutesentation des connaissances qui inteacuteressent lrsquoexpert Par exemple un clinicien qui exploreune repreacutesentant les patients drsquoun hocircpital leurs dossiers meacutedicaux et administratifs peut selon la faccedilonavec laquelle a eacuteteacute peupleacute la geacuteneacuterer de nombreuses implications eacutevoquant des connaissances drsquoordreadministratif (ldquochocircmeurrdquo rarr ldquoassureacuteCMUrdquo ou ldquotransportEnAmbulancerdquo rarr ldquoActeDeRadiographierdquo) etfinalement tregraves peu de connaissances drsquoordre meacutedical qui puissent lrsquointeacuteresser

Nous proposons dans la section suivante une meacutethode drsquo qui utilise la compleacutementariteacute des etde lrsquo commme Rudolph et al et Baader et al Notre meacutethode se distingue notamment par

ndash la transcription des connaissances en donneacutees accessibles agrave la fouillendash la meacutethode de fouille utiliseacuteendash la position de lrsquoanalyste

et srsquooriente plus particuliegraverement vers une mise en application opeacuterationnelle sur des donneacutees reacuteeacutelles

23 Analyse des Assertions de Rocircles ndash

LrsquoAnalyse des Assertions de Rocircles ndash ougrave ndash est une approche particuliegravere drsquoExtraction de Con-naissances agrave partir de Bases de Connaissances () Lrsquo explore les reacutegulariteacutes dans les relationsdirectes et indirectes entre instances drsquoune en ie les reacutegulariteacutes des assertions de rocircles et de leurcomposition La section 231 deacutecrit lrsquo drsquoun point de vue geacuteneacuteral puis la section 232 la deacutetaille eacutetapepar eacutetape Enfin la section 24 preacutesente des reacutesultats expeacuterimentaux obtenues en pharmacogeacutenomique par

231 Description geacuteneacuterale

Lrsquo srsquoattache agrave analyser les reacutegulariteacutes preacutesentes dans la ABox (ie les assertions de concepts et de

rocircles) drsquoune ontologie en en utilisant les meacutethodes drsquoAnalyse de Concept Formel () et drsquoextractionde Regravegles Minimales Non-Redondantes Reacuteduites (RMNR) Ces reacutegulariteacutes sont susceptibles de refleacuteterlrsquoexistence de connaissances implicites dans la et de mettre en lumiegravere des relations inteacuteressantes

(selon lrsquoanalyste) mais masqueacutees qui prennent la forme de relations indirectes ou complexes entre lesindividus de la Une relation est indirecte si sa repreacutesentation neacutecessite lrsquoenchaicircnement de plusieursrocircles une relation est complexe si elle implique des relations vers plusieurs individus distincts

Pour cela nous proposons drsquoutiliser dans le cadre drsquoun processus semi-automatique et iteacuteratif leformalisme des pour deacutefinir des attributs analyseacutes par lrsquoexploration par nous permet de soncocircteacute drsquoobtenir ou drsquoaffiner des descriptions en De faccedilon informelle les exploitent les reacutesultatsobtenus par pour acqueacuterir interactivement des connaissances et lrsquo beacuteneacuteficie des pour exprimerdes connaissances relationnelles ie des connaissances sur les relations entre individus [Rud06]

Le preacuterequis indispensable agrave une telle approche est eacutevidemment de disposer drsquoune ontologie en instancieacutee pour pouvoir en utiliser les assertions Ensuite lrsquo se deacutecompose scheacutematiquement en trois

122 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

F 46 ndash LrsquoAnalyse des Assertions de Rocircles () et des ses diffeacuterentes eacutetapes

parties principalesndash La premiegravere partie (Figure 46 (i) Preacuteparation) vise agrave transformer les assertions en un contexte

formel format de donneacutees compatible avec les meacutethodes drsquo et drsquoextraction des RMNRndash La deuxiegraveme partie est lrsquoextraction desRMNR agrave partir du contexte formel et agrave lrsquoaide des meacutethodes

drsquo (Figure 46 (ii) Fouille)ndash Enfin la partie finale de lrsquo est la transformation des regravegles en concepts rocircles et assertions

de rocircles qui srsquoils sont jugeacutes inteacuteressants vis agrave vis des objectifs de lrsquoexpert et des connaissancespreacutesentes dans la de deacutepart y seront inseacutereacutes (Figure 46 (iii) Interpreacutetation)

Lrdquoiteacuteration suivante de lrsquo pourra alors prendre en entreacutee lrsquoontologie ainsi raffineacuteeNous fixons un ensemble de constructeurs minimal obligatoire pour la utiliseacutee puisque que la mise

en œuvre de lrsquo neacutecessite les constructeurs de conjonction existentiel nominal et de rocircle inverse ce quicorrespond agrave la ELOI La seule limite agrave lrsquoutilisation de plus expressives est la complexiteacute associeacuteeagrave la mise en œuvre des meacutecanismes de raisonnement utiliseacutes (notamment la recherche drsquoinstances)

Les sections suivantes deacutetaillent les eacutetapes permettant la mise en oeuvre de ces opeacuterations et pourchaque eacutetape le rocircle de lrsquoanalyste

232 Lrsquo eacutetape par eacutetape

Etapes preacuteliminaires construction et peuplement drsquoune Base de Connaissances La constructiondrsquoontologies et le peuplement de la associeacutee agrave partir du contenu de bases de donneacutees ont eacuteteacute deacuteveloppeacutesdans le chapitre 4

Etape 1 Seacutelection des instances de C0

La premiegravere eacutetape drsquoune iteacuteration drsquo est la description en par lrsquoanalyste drsquoun concept C0Il nrsquoy a pas de contrainte particuliegravere concernant la deacutefinition de C0 ce peut ecirctre le concept ⊤ un

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 123

concept atomique ou deacutefini dans la ou encore la description drsquoun concept non nommeacute dans la maisdeacutefini pour lrsquooccasion agrave partir de la et des constructeurs disponibles dans la logique choisie (ELOISHOIN(D) par exemple)

La deacutefinition de C0 sert agrave deacutelimiter les assertions qui seront analyseacutees et les concepts de la quiseront concerneacutes par lrsquoextraction de connaissances

La description de C0 permet drsquoobtenir un ensemble drsquoindividus A0 instances de C0 (voir deacutefinition45) Ces individus constituent la base de lrsquoanalyse puisque lrsquoapproche va srsquoattacher agrave eacutetudier commentceux-ci sont relieacutes aux autres individus de la et agrave mettre en eacutevidence des reacutegulariteacutes remarquables danslrsquoensemble de ces relations

Etape 2 Transformation des connaissances exploration des graphes drsquoassertions

Lrsquoobjectif de lrsquoeacutetape de transformation est de repreacutesenter dans un contexte formel (ie des donneacutees)les connaissances relatives aux relations de chaque individu deA0 avec lrsquoensemble des autres individusde la consideacutereacutee Pour ce faire nous deacutefinissons la notion de graphe drsquoassertions

Deacutefinition 48 (Graphe drsquoassertions) Soit a un individu de la O Ga(V E) est un graphe drsquoorigine

a isin V eacutetiqueteacute cyclique appeleacute le graphe drsquoassertions de a dans O ougrave

ndash V est lrsquoensemble des nœuds de Ga ougrave chaque nœud v est un individu de O relieacute agrave a directement

ou indirectement par un arc E

ndash E est lrsquoensemble des arcs de Ga ougrave chaque arc E(v1 v2) partant de v1 vers v2 est une assertion

du rocircle E entre les individus v1 et v2 dans O Les arcs sont nommeacutes par le nom du rocircle dont ils

repreacutesentent une instance Lrsquoarc E(v1 v2) peut ecirctre parcouru en sens inverse de v2 vers v1 on

note alors Eminus(v2 v1) Les arcs sont nommeacutes par le nom du rocircle dont ils repreacutesentent une instance

Le graphe Ga de a dans O contient lrsquoensemble des chemins possibles entre lrsquoindividu a et tout autreindividu v de O auquel il est relieacute directement ou indirectement par n rocircles Ei (n isin N) De cette faccedilonchacune des relations existant entre a et les autres individus de O est repreacutesenteacutee dans le graphe par unchemin de a vers un autre individu v nœud de Ga

Proprieacuteteacute 41 (Interpreacutetation drsquoun chemin dans Ga) Srsquoil existe un chemin entre lrsquoindividu a et lrsquoin-

dividu v passant successivement par les rocircles E1 E2 En alors cela signifie que a est instance drsquoun

concept noteacute Ca de forme exist E1 E2 Env ou encore

exist E1 E2 Env (a) (46)

Proprieacuteteacute 42 Soit C un concept R un rocircle et a v deux individus de la O Alors si

O exist R v (a) et O C(v)

alors exist R v ⊑ exist RC et donc

O exist RC (a) (47)

Nous proposons pour chaque individu ai isin A0 de parcourir selon un algorithme simple tous leschemins et sous-chemins possibles dans son graphe drsquoassertions Gai

Lrsquoobjectif est drsquoassocier agrave chaqueindividu ai un ensemble de chemins donc selon la Proprieacuteteacute 41 un ensemble de descriptions de conceptsCai j dont ai est instance A partir de cette association nous proposons de construire un contexte formeldont chaque objet fait reacutefeacuterence agrave un individu ai isin A0 et dont les attributs font reacutefeacuterence aux diffeacuterentsconcepts Cai j dont les ai sont instances

Pour explorer lrsquoensemble des chemins possibles dans les graphes drsquoassertions nous utilisons un algo-rithme de parcours en profondeur (deacutecrit en Annexe F) fonction drsquoun paramegravetre la profondeur maximale

du parcours pmax deacutefinie par lrsquoanalyste en deacutebut de processus et de deux restrictions

124 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

(1) un mecircme chemin ne peut pas passer deux fois par le mecircme nœud(2) apregraves avoir emprunteacute un arc qui correspond agrave un rocircle E lrsquoalgorithme interdit lors de lrsquoeacutetape

suivante drsquoemprunter un arc de mecircme label en sens inverse qui correspond au rocircle inverse EminusLe paramegravetre pmax limite le nombre maximum drsquoarcs qursquoun seul chemin peut contenir et limite ainsi

la progression en profondeur de lrsquoalgorithme La premiegravere contrainte (1) garantie lrsquoabsence de cycle dansles chemins parcourus La seconde contrainte (2) est un choix heuristique qui limite la taille finale ducontexte formel geacuteneacutereacute

Dans ce dernier cas et dans la limite de la profondeur maximale il peut ecirctre deacutemontreacute que lrsquoalgo-rithme parcourt de faccedilon complegravete le graphe drsquoassertions ie parcourt tous les nœuds et arcs eacuteloigneacutes demoins de pmax arcs [RN03]

A la fin du parcours de graphes drsquoassertions des individus de A0 agrave chaque individu ai isin A0 estassocieacute un ensemble de chemins et donc un ensemble de concepts Cai j dont ai est instance A partir decette association est alors construit un contexte formel K(GMI)

ndash Chaque individu ai entraicircne la creacuteation drsquoun objet gi isin G dont le nom est celui de ai

ndash Chaque concept Cai j dont ai est instance entraicircne la creacuteation rArr drsquoun attribut mv isin M dont le nom est la description en du concept Cai j

A la notation classiqueexist E1 E2 En v

nous preacutefeacuterons ici la notation eacutequivalente qui utilise le constructeur de concept nominal suivant(appeleacute filler en anglais)

E1 E2 En vplus court et plus simple agrave transformer en une chaicircne de caractegraveres Ainsi le nom de mv est dela forme E1_o_E2_o__o_En v Lorsque Cai j equiv Cak j ie lorsque les individus ai et ak

sont instances drsquoun mecircme concept alors mv nrsquoest creacuteeacute que la premiegravere fois

rArr drsquoune relation giImv entre lrsquoobjet gi et lrsquoattribut mv

rArr de n attributs mC dont le nom est de la forme E1_o_E2_o__o_En Cv par similariteacute avecle nom de lrsquoattribut mv mais ougrave Cv fait reacutefeacuterence agrave un concept Cv dont v est instance

rArr des n relations giImC correspondantes

Les attributs mC et les relations relatives giImC sont creacuteeacutes dans le but drsquoaugmenter le nombredrsquoattributs et de relations dans le contexte K Leur creacuteation suit la Proprieacuteteacute 42 qui dit que si vest instance drsquoun concept quelconque Cv j alors a est eacutegalement instance de existE1 E2 EnCvAinsi pour chaque concept Cv j dont v est instance et tant que Cv j ne preacutesente pas de sous-conceptdont v est eacutegalement instance ie

2 Cvk ⊑ Cv j forallk j (48)

les attributs mC et les relations giImC correspondants sont ajouteacutes au contexte K

Le Tableau 43 repreacutesente le contexte formel K reacutesultant de lrsquoexploration des graphes drsquoassertionsdes individus deA0

La taille du contexte geacuteneacutereacute selon lrsquoexploration de graphes drsquoassertions deacutepend

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 125

G

Mmv1 mC11 mC1q1

mv j mC jk mvm mCm1 mCmqm

g1 times times times times times times times times

gi times times

gn times times times times times times

T 43 ndash Contexte formel K(GMI) reacutesultat de lrsquoexploration des graphes drsquoassertions

ndash suivant la dimension des objets du nombre drsquoindividus dansA0 (n dans le Tableau 43) etndash suivant la dimension des attributs premiegraverement du nombre de nœuds dans le graphe lui mecircme

deacutependant de la valeur de pmax (m dans le Tableau 43) et deuxiegravemement du nombre de conceptsnon ascendants (voir Eacutequation 48) dont les individus v sont instances (q dans le Tableau 43)

Etape 3 Analyse du contexte formel ACF et RMNR

Les meacutethodes drsquoAnalyse de Concepts Formels () introduites dans la section 131 du chapitre2 permettent la construction drsquoune repreacutesentation des donneacutees eacutetudieacutees sous la forme drsquoun treillis deconcepts ie un ensemble de concepts formels organiseacutes selon une structure hieacuterarchique Cette structurereacutesulte drsquoune analyse automatique des reacutegulariteacutes existantes entre donneacutees ces reacutegulariteacutes reacutesultent dufait que des objets distincts ont des attributs en commun et inversement que des attributs distincts sontpreacutesenteacutes par un mecircme objet

Lrsquoobjectif de notre approche est justement de comparer la repreacutesentation reacutesultant du processus au-tomatique drsquo agrave la repreacutesentation reacutesultant drsquoun processus de modeacutelisation dirigeacute par lrsquohumain lrsquoon-tologie de domaine Pour ce faire nous proposons dans un premier temps de construire le treillis puisdrsquoutiliser les RMNR pour caracteacuteriser lrsquoorganisation en concepts formels du treillis afin lors des eacutetapessuivantes de permettre la comparaison de cette repreacutesentation agrave celle de lrsquoontologie associeacutee agrave la

La construction du treillis peut ecirctre reacutealiseacutee par lrsquoutilisation de lrsquoalgorithme classique Next Closure

Algorithm deacutecrit par Ganter [Gan84] Kuznetsov et Obiedkov ont reacutecemment affineacute cet algorithme etreacutealiseacute une comparaison des diffeacuterentes meacutethodes de construction de treillis dans [KO02]

Une fois le treillis de concepts construit son organisation peut ecirctre caracteacuteriseacutee selon diffeacuterentesmesures ou meacutethodes La mesure du stabiliteacute drsquoun treillis proposeacutee par Kuznetsov [Kuz07] permet decaracteacuteriser la faccedilon dont la description (le couple extension intension) drsquoun concept est deacutependante dechacun des objets qui compose son extension Cette mesure a eacuteteacute utiliseacutee par Jay et al [JKN08] pourdeacutecrire des groupes sociaux drsquointeacuterecirct agrave partir de concepts formels stables ie dont lrsquoexistence ne reposepas uniquement sur quelques facteurs speacutecifiques Nous proposons une meacutethode diffeacuterente lrsquoutilisationdes Regravegles Minimales Non-Redondantes Reacuteduites (RMNR voir section 132) pour caracteacuteriser les as-pects du treillis qui nous inteacuteressent plus particuliegraverement crsquoest agrave dire les relations entre les conceptsformels et le nombre drsquoobjets qui participe agrave la deacutefinition des concepts et des relations

La recherche des Regravegles drsquoAssociations () est un moyen drsquoextraire drsquoun treillis ce genre drsquoinforma-tion de faccedilon exhaustive Cependant les produites preacutesentent lrsquoinconveacutenient drsquoecirctre particuliegraverementvolumineuses et redondantes Nous preacutefeacuterons donc nous limiter agrave lrsquoextraction drsquoune famille particuliegraverede les RMNR Ce type de regravegles preacutesentent un premier avantage qui est drsquoecirctre un sous-ensembledes reacuteduit et concis ce qui facilite lrsquoeacutetape suivante drsquointerpreacutetation des regravegles par lrsquoanalyste En effetlrsquoensemble des RMNR est le plus petit ensemble de regravegles suffisant pour geacuteneacuterer lrsquoensemble des

126 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

Le deuxiegraveme avantage des RMNR est drsquoecirctre particuliegraverement repreacutesentatives de la structure du treillispuisqursquoune RMNR est produite agrave partir de la description drsquoun seul concept ou du regroupement de deuxconcepts directement relieacutes dans le treillis (ie un concept et son super- ou son sous-concept)

R En fonction de lrsquoobjectif de lrsquoanalyste il peut ecirctre inteacuteressant non pas de chercher lesregravegles freacutequentes drsquoun contexte ( ou RMNR) mais de chercher un autre type de reacutegulariteacute commepar exemple les regravegles rares [SNV07] De plus lrsquoutilisation drsquoautres meacutethodes de fouille comme leclustering hieacuterarchique [Fis87] peut proposer une repreacutesentation des donneacutees suivant une organisationdiffeacuterente de celle du treillis qursquoil est eacutegalement pertinent selon les objectifs de comparer agrave lrsquoontologiede domaine

Etape 4 Interpreacutetation des reacutegulariteacutes en terme de concepts et de rocircles

A lrsquoinverse de lrsquoeacutetape preacuteceacutedente qui est automatique cette eacutetape implique lrsquoanalyste degraves son deacutebutLrsquoanalyste doit choisir pour chaque RMNR et parmi les attributs Mr qui la composent un ensembledrsquoattributs Ms sube Mr pertinents qui servira de base agrave la creacuteation de nouveaux concepts de nouveauxrocircles etou de nouvelles assertions de rocircles

Etape 4a Description de nouveaux concepts Selon un meacutecanisme inverse agrave celui opeacutereacute durantla phase de preacuteparation (Figure 46 (i)) les attributs seacutelectionneacutes au sein drsquoune regravegle sont traduits en ladescription en du concept auquel ils font reacutefeacuterence Ainsi on distingue les attributs

mv avec un nom de la forme E1_o_E2_o__o_En v qui sont traduits en exist E1 E2 En vmC avec un nom de la forme E1_o_E2_o__o_En Cv qui sont traduits en existE1 E2 EnCv

Un nouveau concept Cnew est alors deacutefini par la conjonction des descriptions de concepts correspon-dant aux attributsMs drsquoune mecircme regravegle Par exemple si dans la regravegle de la forme ltmb rarr md me m fgtles deux attributs mb et md ont eacuteteacute seacutelectionneacutes (ieMs = mbmd)

mb nommeacute R_o_S b est traduit en exist R S bmd nommeacute T_o_U_o_V d est traduit en existS T U d

et leur conjonction permet de deacutefinir

Cnew equiv exist R S b ⊓ existS T U d

Etape 4b Creacuteation de nouveaux rocircles etou drsquoassertions de rocircles Les attributs seacutelectionneacutes parlrsquoanalyste Ms permettent eacutegalement la creacuteation de nouveaux rocircles etou assertions de rocircles Dans cetobjectif ces attributs sont traduits de la mecircme faccedilon que pour la creacuteation de nouveaux concepts hormisle fait qursquoils ne sont pas associeacutes pour creacuteer une nouvelle description et que seuls les concepts dont ladescription met en jeu le constructeur nominal (ie exist Rv ou R v) sont utiliseacutes Si parmi les descriptionsde concepts traduits depuis les attributs deMs au moins deux font intervenir un constructeur nominalavec deux nominaux diffeacuterents alors chaque paire de nominaux est utiliseacutee pour la construction drsquoun rocircleet de deux assertions de rocircles dans la Ainsi pour chaque paire de nominaux nous deacutefinissons Rnew unrocircle atomique dont le domaine et le co-domaine sont les concepts les plus speacutecifiques dont les nominauxsont instances et deux assertions de rocircle la premiegravere de Rnew et la seconde de son inverse Rminusnew par lecouple de nominaux

Par exemple si mb et md sont deux attributs seacutelectionneacutes dans une mecircme regravegle alors la paire (b d)qursquoils constituent est agrave la base de la deacutefinition du rocircle atomique Rnew dont le domaine et le co-domaine

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 127

sont respectivement le concept le plus speacutecifique dont b est instance et le concept le plus speacutecifique dontd est instance La paire (b d) est utiliseacutee pour deux instanciations de rocircles Rnew(b d) et Rminusnew(d b)

R Les nominaux peuvent ecirctre instances de plusieurs concepts sans qursquoil ne soit possibledrsquoeacutetablir une relation de subsomption entre ces concepts (ie C(a) et D(a) mais 2 D ⊑ C et 2 C ⊑ D)Dans ce cas il nrsquoexiste pas un concept unique plus speacutecifique et lrsquoanalyste est solliciteacute pour statuer surle concept agrave choisir entre C et D pour le domaine (ou le co-domaine) de Rnew

Dans le cadre de notre approche nous utilisons les regravegles (RMNR) comme un moyen de caracteacuterisa-tion de la structure du treillis La seacutemantique attacheacutee agrave une regravegle est utiliseacutee pour caracteacuteriser lrsquoextensiondrsquoun concept formel (pour les regravegles certaines) et les relations avec ses concepts voisins (pour les regraveglesapproximatives) Cependant elle nrsquoest pas utiliseacutee directement pour deacutefinir des axiomes drsquoinclusion (⊑)mais des axiomes assertionels (ie les assertions de rocircles) En revanche lrsquoeacutetape suivante permet lrsquoinser-tion des nouveaux concepts dans la initiale par la description drsquoaxiomes drsquoinclusion

Etape 5 Insertion des nouvelles connaissances

Il srsquoagit dans cette eacutetape de comparer les concepts et rocircles (Cnew et Rnew) creacuteeacutes lors de lrsquoeacutetapepreacuteceacutedente agrave ceux existants dans la de deacutepart Cette comparaison deacutetermine si les nouveaux conceptset rocircles nrsquoexistent pas deacutejagrave dans la (ie qursquoils sont veacuteritablement nouveaux) et dans le cas neacutegatifpermet de deacutefinir la faccedilon de les inseacuterer de faccedilon coheacuterente dans la

Etape 5a Insertion de concepts Le subsumant le plus speacutecifique Csubs du concept Cnew proposeacuteest rechercheacute dans lrsquoontologie associeacutee agrave la Si Cnew equiv Csubs le concept existe deacutejagrave dans lrsquoontologieet Cnew nrsquoest pas ajouteacute agrave lrsquoontologie Sinon Cnew ⊑ Csubs (sans que Csubs ⊑ Cnew) alors lrsquoanalyste adeux alternatives concernant la faccedilon drsquoinseacuterer le nouveau concept

ndash selon lrsquoanalyste Cnew est effectivement un sous-concept de Csubs Cnew est inseacutereacute par lrsquoajoutdans lrsquoontologie de lrsquoaxiome suivant Cnew ⊑ Csubs Lrsquoanalyste peut alors attribuer un nomCnew

ndash selon lrsquoanalyste les deacutefinitions de lrsquoontologie de deacutepart ne sont pas parfaites et Cnew est unedescription plus fine (ou plus exacte) de ce qui est censeacute ecirctre repreacutesenteacute par le concept CsubsDans ce cas Cnew est ajouteacute agrave lrsquoontologie par lrsquoaxiome suivant Cnew equiv Csubs

Etape 5b Insertion de rocircle Selon lrsquoexistence ou non dans lrsquoontologie de rocircles avec les mecircmesdomaine et co-domaine que Rnew une suite drsquoopeacuterations diffeacuterentes est mise en œuvre Dans le premiercas ougrave de tels rocircles existent deacutejagrave lrsquoanalyste est solliciteacute Si un des rocircles de la liste correspond agrave laseacutemantique souhaiteacutee pour Rnew il le choisit Aucun rocircle nrsquoest creacuteeacute dans lrsquoontologie le rocircle choisi et soninverse sont alors instancieacutes En revanche si aucun rocircle de la liste nrsquoest satisfaisant un nouveau rocircle estcreacuteeacute puis instancieacute

Dans le second cas ougrave aucun rocircle existant ne partage les domaine et co-domaine de Rnew un nouveaurocircle est automatiquement creacuteeacute et instancieacute Lrsquoanalyse nrsquointervient que pour nommer le nouveau rocircle

Enfin une classification drsquoinstances par les meacutecanismes de raisonnement classiques sur la raffineacuteepermet drsquoinstancier les concepts Cnew avec les individus qui en sont instances

Les deux derniegraveres eacutetapes ie lrsquointerpreacutetation des regravegles en termes de concepts et rocircles en puisleur insertion par la deacutefinition de nouveaux axiomes dans lrsquoontologie associeacutee agrave la sont formaliseacuteesdans deux algorithmes preacutesenteacutes ci apregraves le premier (Algorithme 41) deacutecrit lrsquointerpreacutetation des regraveglesen terme de nouveaux concepts de la et le second (Algorithme 42) deacutecrit lrsquointerpreacutetation des regravegles

128 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

en de nouveaux rocircles et assertions de rocircles

Algorithme 41 Depuis les attributsseacutelectionneacutes dans une regravegle agrave un nouveau concept1 Entreacutee O = (T A )K = (GMI)M0

ontologie contexte et attributs seacutelectionneacutees3 pour chaque mi deM0

4 si Cnew equivperp nouveau concept en DL5 Cnew ≔ toDL(mi) toDL retourne

la deacutescription en DL6 sinon7 Cnew ≔ Cnew ⊓ toDL(mi)8 fin si9 fin pour chaque10 si ∄ D isin T Cnew equiv D si Cnew nrsquoexist pas 11 Csubs ≔ subs(O Cnew) subs retourne le

subsumant direct de Cnew12 Question agrave lrsquoanalyste

13 selon analyste14 cas 1 insert un nouveau concept15 Cnew ⊑ Csubs16 cas 2 complegravete la definition de concept17 Csubs equiv Csubs ⊓ Cnew18 fin selon19 fin si20 Sortie O Ontologie raffineacutee

En bilan nous proposons la liste suivantes des eacutetapes de lrsquo qui tirent parti des meacutecanismes deraisonnement associeacutes agrave la

ndash lors de la seacutelection des instances la recherche drsquoinstances permet de deacuteterminer lrsquoensemble desindividus instances du concept initial C0

ndash lors de la transformation des connaissances la recherche du concept le plus speacutecifique permet dedeacuteterminer lrsquoidentiteacute du concept Cv dont v est instance pour la deacutefinition des attributs mC de laforme E1_o_E2_o__o_En Cv

ndash lors de lrsquoinsertion drsquoun nouveau concept dans la la classification des concepts (et plus exacte-ment la recherche du concept le plus speacutecifique) permet de positionner un nouveau concept deacutefiniCnew dans la hieacuterarchie de concepts

ndash apregraves lrsquoinsertion de nouveaux concepts de nouveaux rocircles et de nouvelles assertions de rocircles laclassification drsquoinstances permet de deacuteterminer pour lrsquoensemble des individus srsquoils sont instancesdrsquoun nouveau concept et pour les individus impliqueacutes dans une nouvelle assertion de rocircle srsquoilssont instances drsquoun concept ancien ou nouveau

Les deux derniegraveres utilisations des meacutecanismes de raisonnement permettent drsquoinfeacuterer de nouveauxaxiomes terminologiques et assertionnels ie de nouvelles uniteacutes de connaissances qui viennent raffiner

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 129

Algorithme G2 Depuis les attributsseacutelectionneacutes agrave de nouveaux rocircles1 Entreacutee O = (T A )K = (GMI)M0

ontologie contexte et attributs seacutelectionneacutees2 CnewR0 ≔ empty ensembles de concepts et de rocircles3 Cnew ≔perp nouveau concept4 pour chaque mi deM0

5 Cnew ≔ toDL(mi) toDL retournela description en DL

6 Cnew ≔ Cnew cup Cnew

7 fin pour chaque8 pour chaque Ci de Cnew

9 pour chaque Cj de Cnew iteacuterations emboicircteacuteespour compareacute chaque concept agrave tous les autres

10 si 2O Ci equiv Cj11 b ≔ getFiller(Ci)12 c ≔ getFiller(Cj) getFiller

retourne le ldquonominalrdquo drsquoune description de concept13 R0 ≔ domCodom(O Csubs(b) Csubs(c))

domCodom retourne lrsquoensemble des rocirclesavec domain et codomain

14 si R0 = empty description de nouveaux rocircles15 domain(Rnew) codomain(Rminusnew) ≔ Csubs(b)16 domain(Rminusnew) codomain(Rnew) ≔ Csubs(c)17 Question agrave lrsquoanalyste si Rnew est pertinent18 si pertinent19 T ≔ T cup Rnew R

minusnew nouvau rocircles

20 A ≔ A cup Rnew(b c) Rminusnew(c b)21 fin si22 sinon un rocircle existe23 pour chaque Rk de R0

24 Question agrave lrsquoanalyste est ce que Rk est pertinent 25 si pertinent26 A ≔ A cup Rk(b c) Rminus

k(c b)

27 fin si fin pour chaque fin si28 fin pour chaque fin pour chaque fin si29 Sortie O Ontologie raffineacutee

la initiale Crsquoest lrsquoinsertion de ces nouveaux axiomes dans la qui nous permet de dire que la meacutethodedrsquo autorise la deacutecouverte de connaissances implicites et nouvelles

La description de la meacutethode drsquo et son illustration avec un exemple pharmacogeacutenomique ontdonneacute lieu agrave deux publications [CSTND08b] et [CSTND08a]

La section 24 preacutesente une expeacuterimentation de la meacutethode drsquo meneacutee agrave partir de connaissancespharmacogeacutenomiques

130 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

24 Expeacuterimentation en pharmacogeacutenomique

Cette section preacutesente une expeacuterimentation de la meacutethode drsquoExtraction de Connaissance agrave partir

drsquoune Base de Connaissances () lrsquo Cette expeacuterimentation commence par le peuplement drsquoune pharmacogeacutenomique reacutealiseacute agrave lrsquoaide de lrsquooutil iSO-Pharm (preacutesenteacute section 32 chapitre 3) puis continuepar la mise en œuvre agrave partir de cette de la meacutethode drsquo (preacutesenteacutee section 23 de ce chapitre)

Cette expeacuterimentation srsquointeacuteresse aux donneacutees reacutesultant drsquoune investigation clinique des reacuteponses depatients asthmatiques agrave un meacutedicament appeleacute le montelukast Le deacuteroulement de notre expeacuterimentationest deacuteveloppeacute ci-dessous avec lrsquoobjectif drsquoillustrer et eacutevaluer la capaciteacute de lrsquo agrave (1) retrouver lesreacutesultats obtenus avec des meacutethodes statistiques classiques et (2) extraire de nouvelles connaissancesNotre motivation nrsquoest pas de discuter les reacutesultats de lrsquoinvestigation initiale mais plutocirct de donner unedeuxiegraveme vie agrave ces reacutesultats en les eacutetudiant selon une perspective diffeacuterente

241 Sources de donneacutees et de connaissances

Investigation clinique du montelukast La principale source de donneacutees exploiteacutee correspond auxdonneacutees recueillies au cours drsquoune investigation clinique meneacutee dans le cadre de lrsquoeacutetude de la diversiteacutede reacuteponses des patients asthmatiques au montelukast Des premiers reacutesultats de cette investigation onteacuteteacute publieacutes en 2006 par le groupe drsquoinvestigateurs Lima et al [LZG+06] Ces reacutesultats ont eacuteteacute mis en eacutev-idence agrave partir de donneacutees geacuteneacutetiques et cliniques recueillies sur un sous-ensemble du panel recruteacute pourcette investigation et constitueacute de 61 patients Les variables mesureacutees pour ces patients correspondentaux geacutenotypes de 26 SNP et agrave lrsquoenregistrement de deux signes cliniques principaux

ndash la survenue ou non drsquoune crise drsquoasthme durant les 6 mois de traitement noteacute ldquoExardquo pour exac-

erbation en anglais et pouvant prendre les valeurs Yes No ndash le pourcentage de modification apregraves 6 mois de traitement du Volume Expiratoire Maximum

Seconde66 (VEMS ou FEV en anglais) mesureacute par rapport au Volume Expiratoire Maximum Sec-onde preacutedit agrave 6 mois Cet attribut est noteacute ldquoPerrdquo pour percent change in predicted FEV1 est unpourcentage diviseacute par cent Ses valeurs sont comprises dans lrsquointervalle [-016 116]

Les SNP geacutenotypeacutes sont localiseacutes sur cinq gegravenes impliqueacutes dans la voie des leukotriegravenes67 ABCC1ALOX5 CYSLTR1 LTA4H et LTC4S localiseacutes respectivement sur les chromosomes 16 10 X 5 et 12

Autres sources de donneacutees Pour peupler la nous extrayons en plus des donneacutees de lrsquoinvestigationdes donneacutees des bases de donneacutees PharmGKB dbSNP OMIM Gene et KEGG Pathway relatives no-tamment aux gegravenes impliqueacutes dans la voie des leukotriegravenes leurs structures leurs variations geacutenomiquesles reacuteseaux meacutetaboliques dans lesquels ils sont impliqueacutes

242 Preacuteparation des donneacutees

Inteacutegration des donneacutees geacutenotypiques et pheacutenotypiques Les donneacutees geacuteneacutetiques et cliniques con-cernant les patients de lrsquoinvestigation sont disponibles publiquement dans deux fichiers distincts dans labase de donneacutees PharmGKB68 (preacutesenteacutee chapitre 1 section 32) Pour des raisons de confidentialiteacute lespatients sont identifieacutes dans chacun de ces deux fichiers par un identifiant distinct Une premiegravere eacutetape depreacuteparation des donneacutees est la mise en correspondance des donneacutees contenues dans ces fichiers Celle-ciest possible agrave lrsquoaide drsquoune table de correspondance entre les identifiants des patients

66Le VEMS correspond au volume expireacute pendant la premiegravere seconde drsquoune expiration forceacutee67httpwwwmedscapecomviewarticle444395_568httpwwwpharmgkborgdoserveobjId=PA142628130

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 131

Discreacutetisation des attributs Nous discreacutetisons les valeurs numeacuteriques de lrsquoattribut ldquoPerrdquo en deuxclasses Les valeurs de ldquoPerrdquo infeacuterieures ou eacutegales agrave 08 sont transformeacutees en ldquo6008rdquo et les valeurssupeacuterieures agrave 08 en ldquogt009rdquo Ces deux nouvelles valeurs de ldquoPerrdquo sont transformeacutees par le systegraveme drsquoen deux valeurs qui sont retrouveacutees dans les reacutesultats respectivement ldquoPer__-inf-008_rdquo et ldquoPer__009-inf_rdquo

Peuplement drsquoune Base de Connaissances Lrsquooutil iSO-Pharm introduit chapitre 3 section 32 estutiliseacute pour peupler une pharmacogeacutenomique notamment agrave partir des donneacutees de lrsquoeacutetude issues dePharmGKB Les 61 patients de lrsquoeacutetude et les donneacutees cliniques (pheacutenotypiques et geacutenotypiques) qui leursont associeacutees servent notamment agrave la creacuteation de 61 assertions du concept ldquopatientrdquo de 127 assertions duconcept ldquoclinical_itemrdquo ou de ses descendants et de nombreuses assertions du rocircle ldquopresents_clinical_ite-mrdquo Ce dernier rocircle permet drsquoassocier les instances des concepts ldquopatientrdquo et ldquoclinical_itemrdquo conformeacute-ment aux donneacutees de lrsquoinvestigation clinique Les donneacutees des autres bases (dbSNP OMIM Gene etKEGG Pathway) permettent drsquoinstancier des concepts et des rocircles relatifs aux variations geacutenomiquesaux gegravenes aux meacutedicaments aux pheacutenotypes et agrave des reacuteseaux meacutetaboliques

243 Plug-in Proteacutegeacute pour lrsquo

La version 4 de lrsquoeacutediteur de Proteacutegeacute69 donne la possibiliteacute drsquointerfacer avec les fonctionnaliteacutesnatives de Proteacutegeacute des outils externes ou plug-in La meacutethode drsquo deacutetailleacutee en section 23 de ce chapitreest impleacutementeacutee sous la forme drsquoun plug-in de Proteacutegeacute Une copie drsquoeacutecran de lrsquointerface graphique delrsquoonglet associeacute au plug-in est repreacutesenteacutee en Figure 47 Le plug-in comme son interface est diviseacute entrois parties distinctes qui permettent de reacutealiser respectivement les eacutetapes de preacuteparation (au centre delrsquointerface) de fouille (en haut agrave droite) et drsquointerpreacutetation (en bas agrave droite) de lrsquo

ndash La partie deacutedieacutee agrave la preacuteparation permet de deacutecrire un concept C0 et de seacutelectionner ses instancesde deacutefinir une profondeur maximale dmax et sur cette base de construire un contexte formel Unefois le contexte construit cette partie permet eacutegalement de retirer du contexte les attributs qui nesemblent pas pertinents pour la fouille

ndash La partie deacutedieacutee agrave la fouille permet de lancer une recherche des RMNR selon un support et uneconfiance minimums min_supp et conf_min Notre plug-in utilise la boite agrave outils pourrechercher ces regravegles particuliegraveres [Sza06]

ndash La partie deacutedieacutee agrave lrsquointerpreacutetation permet la visualisation des regravegles la seacutelection de regravegles puisla seacutelection drsquoattributs au sein des regravegles seacutelectionneacutees Les attributs seacutelectionneacutes servent alors agraveconstruire et inseacuterer dans la initiale de nouveaux concepts de nouveaux rocircles et de nouvellesinstances de rocircles

244 Reacutesultats

Lrsquoexpeacuterimentation meneacutee est reacutealiseacutee suivant plusieurs iteacuterations du processus drsquo sur la peu-pleacutee Les reacutesultats obtenus lors drsquoune iteacuteration deacutependent des reacutesultats des iteacuterations preacuteceacutedentes Pourcette raison nous les deacutetaillons dans lrsquoordre de leur apparition

Premiegravere iteacuteration La premiegravere iteacuteration de lrsquo est meneacutee avec les paramegravetres suivants ndash C0 equiv patient ⊓ is_enrolled_in montelukast_studyndash dmax= 2ndash min_supp = 08

69httpprotegewikistanfordeduindexphpProtege4UserDocs

132 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

F 47 ndash Capture drsquoeacutecran du plugin de Proteacutegeacute 4 pour lrsquoAnalyse drsquoAssertions de Rocircles

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 133

ndash min_conf = 08La premiegravere RMNR produite preacutesente un support et une confiance de 1 Sa composition est la

suivante

Regravegle 1

=gt is_enrolled_in_o_is_composed_of initial_visit

is_part_of RacWithe

is_enrolled_in_o_is_composed_of six_month_visit

is_enrolled_in montelukast_study

is_enrolled_in_o_is_defined_by montelukast_sty_protocol

Le symbole (qui constitue la preacutemisse de la regravegle) repreacutesente lrsquoensemble de tous les attributs ducontexte formel Cette premiegravere regravegle du fait que la confiance est eacutegale agrave 1 peut ecirctre interpreacuteteacutee commele fait que tous les individus instances de C0 sont aussi instances des concepts deacutecrits par les attributsde la conclusion de la regravegle Dans ce premier cas tous les attributs nous inteacuteressent pour constituer unnouveau concept Alors aucun attribut de la regravegle nrsquoest exclu par lrsquoutilisateur et la regravegle 1 est transformeacuteepar le systegraveme en sous la forme de la deacutefinition de concept suivante

Cnew1 equiv is_enrolled_in is_composed_of initial_visit ⊓is_part_of RacWithe ⊓is_enrolled_in is_composed_of six_month_visit ⊓is_enrolled_in montelukast_study ⊓is_enrolled_in is_defined_by montelukast_sty_protocol

On peut tout drsquoabord remarquer que la quatriegraveme ligne de la deacutefinition de Cnew1 correspond agraveune partie de la description de C0 De faccedilon informelle le concept Cnew1 peut ecirctre interpreacuteteacute commeldquolrsquoensemble des individus qui sont recruteacutes dans lrsquoeacutetude du montelukast qui sont recruteacutes dans quelquechose qui est composeacute drsquoune visite initiale et drsquoune visite agrave six mois qui sont drsquoune ethnie blanche70et qui sont recruteacutes dans quelque chose qui est deacutefini par le protocole de lrsquoeacutetude du montelukastrdquo Cecicorrespond finalement agrave une description preacutecise des patients qui sont impliqueacutees dans lrsquoeacutetude du mon-telukast Une telle description nrsquoexiste pas dans la dans laquelle la description des patients se limite agravela deacutefinition du concept patient et agrave son concept parent person

Alors le nouveau concept Cnew1 est inseacutereacute dans la Pour cela un nom plus explicite que Cnew1lui est attribueacute par lrsquoutilisateur montelukast_study_patient Le systegraveme le branche dans un premiertemps agrave la racine des concepts de la ⊤ Dans un deuxiegraveme temps lrsquoutilisation du meacutecanisme de clas-sification permet de proposer un nouveau positionnement au concept montelukast_study_patientdans la hieacuterarchie de concepts Le reacutesultat est le suivant

montelukast_study_patient ⊑ patient

Ce positionnement srsquoexplique par (1) la deacutefinition du concept patient initiale dans lrsquoontologie SO-Pharm qui contient lrsquoaxiome

patient equiv exist is_enrolled_inclinical_trial ⊔ exist is_part_ofclinical_trial_panel

et (2) lrsquoaxiome drsquoassertion

clinical_trial(montelukast_study)

70La notion drsquoethniciteacute est rapporteacutee dans lrsquoeacutetude selon les recommandations de lrsquoInstitut National de la Santeacute eacutetats-unien (leNIH) httpgrants2nihgovgrantsguidenotice-filesNOT-OD-01-053html

134 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

selon lequel lrsquoindividu montelukast_study est une instance du concept clinical_trial suite aupeuplement de la A partir de ces deux eacuteleacutements le systegraveme peut deacuteteacuterminer que la deacutefinition dunouveau concept contient un condition suffisante pour infeacuterer que toutes ses instances sont eacutegalementinstances de patient

A ce niveau lrsquoutilisateur doit deacuteterminer si le nouveau concept est une meilleure deacutefinition de ce quidevrait ecirctre repreacutesenteacute par son subsumant le plus speacutecifique ou bien si le nouveau concept est effective-ment un sous-concept de celui-ci De par le fait que le nouveau concept (montelukast_study_patient)est effectivement un concept diffeacuterent de son subsumant le plus speacutecifique (patient) le nouveau conceptest positionneacute dans la par lrsquoinsertion de lrsquoaxiome drsquoinclusion de concept proposeacute par le systegraveme

Concernant la potentielle creacuteation de nouveaux rocircles et de nouvelles assertions de rocircles les couplespossibles entre les individus impliqueacutes dans la regravegle sont examineacutes par le systegraveme Il existe deacutejagrave desassertions de rocircles entre initial_visit six_month_visit et montelukast_sty_protocol dansla aussi la possibiliteacute de creacuteer des assertions associant ces individus est rejeteacutee Les relations possiblesentre les autres individus ne paraissent pas suffisamment inteacuteressantes agrave lrsquoutilisateur pour donner lieu agravela creacuteation de rocircles ou drsquoassertions de rocircles Au final aucun rocircle ou assertion de rocircle nrsquoest creacuteeacute agrave partirde cette regravegle

Les paramegravetres de cette iteacuteration et son premier reacutesultat sont illustreacutes sur la repreacutesentation de lrsquointer-face graphique du plug-in de Proteacutegeacute deacutedieacute agrave lrsquo preacutesenteacute dans la Figure 47

Lors de cette premiegravere iteacuteration la profondeur dmax utiliseacutee est eacutegale agrave 2 Aussi les rocircles impliqueacutesdans la deacutefinition du concept sont constitueacutes au maximum drsquoune seule composition de rocircles Augmenterla profondeur de recherche dans les graphes drsquoassertions permet de geacuteneacuterer des attributs qui correspon-dent agrave des compositions multiples de rocircles (par exemple 3 compositions de rocircle au maximum pourdmax=4) Ceci est illustreacute par lrsquoiteacuteration suivante du processus drsquo qui aboutit agrave lrsquoenrichissement de ladeacutefinition de notre nouveau concept montelukast_study_patient

Deuxiegraveme iteacuteration Les paramegravetres deacutefinis pour cette deuxiegraveme iteacuteration sont identiques agrave ceux utiliseacutespreacuteceacutedemment excepteacute pour la profondeur dmax qui est augmenteacutee De cette faccedilon nous avons

ndash C0 equiv patient ⊓ is_enrolled_in montelukast_studyndash dmax= 3ndash min_supp = 08ndash min_conf = 08Preacutealablement agrave la fouille nous excluons un sous-ensemble drsquoattributs non pertinents afin de deacutecharger

le nombre drsquoattributs dans les regravegles Une des premiegraveres regravegles geacuteneacutereacutees preacutesentant un support et uneconfiance de 1 est la suivante

Regravegle 2

=gt presents_clinical_item_o_is_the_observed_genotype_for_o_isVariantIn CYSLTR1

presents_clinical_item_o_is_the_observed_genotype_for_o_isVariantIn ALOX5

presents_clinical_item_o_is_the_observed_genotype_for_o_isStoredInVarDb ncbi_dbsnp_125

presents_clinical_item_o_is_the_observed_genotype_for_o_isVariantIn LTA4H

presents_clinical_item_o_is_the_observed_genotype_for_o_isVariantIn ABCC1

is_enrolled_in montelukast_study

presents_clinical_item_o_is_the_observed_genotype_for_o_isVariantIn LTC4S

is_enrolled_in_o_is_defined_by_o_is_composed_of montelukast_treatment

La seacutelection drsquoattributs explique notamment que les attributs de la regravegle 1 (exclus lors de cette nou-velle iteacuteration) nrsquoapparaissent pas dans la regravegle 2 (sauf le sixiegraveme) En revanche les attributs ici associeacutes

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 135

nrsquoapparaissaient pas dans la regravegle 1 car les rocircles qursquoils invoquent impliquent lrsquoenchaicircnement de deuxcompositions de rocircle

Cette regravegle illustre le fait que chaque individu instance de C0 est associeacute agrave des items cliniques qui sontdes geacutenotypes observeacutes pour des variants localiseacutes sur cinq gegravenes CYSLTR1 ALOX5 LTA4H ABCC1

LTC4S Dans le cas de notre eacutetude sur le montelukast savoir que tous les patients ont des variantsgeacutenotypeacutes sur chacun de ces cinq gegravenes nrsquoest pas une connaissance nouvelle puisque celle-ci est deacutecritedans les meacuteta-donneacutees dont nous disposons agrave propos de lrsquoeacutetude (lrsquoarticle de Lima et al et les meacuteta-donneacutees associeacutees aux fichiers dans PharmGKB) Cependant la reacutegulariteacute exprimeacutee par cette regravegle peutpermettre de formaliser cette connaissance de faccedilon explicite dans la Pour cette raison nous proposonsun nouveau concept Cnew2 sur la base de cette regravegle Par ailleurs il est facile drsquoimaginer des cas ougrave lesmeacuteta-donneacutees disponibles sur les variants exploreacutes sont partielles ou inexistantes ou encore des cas ougravele nombre de variants exploreacutes est trop grand pour que ces meacuteta-donneacutees soient facilement exploitablesDans ces cas le concept traduit agrave partir de cette regravegle peut ecirctre porteur drsquoune connaissance nouvelle

Cnew2 equiv presents_clinical_item is_the_observed_genotype_for isVariantIn CYSLTR1 ⊓presents_clinical_item is_the_observed_genotype_for isVariantIn ALOX5 ⊓presents_clinical_item is_the_observed_genotype_for isVariantIn LTA4H ⊓presents_clinical_item is_the_observed_genotype_for isVariantIn ABCC1 ⊓is_enrolled_in montelukast_study ⊓presents_clinical_item is_the_observed_genotype_for isVariantIn LTC4S ⊓is_enrolled_in is_defined_by is_composed_of montelukast_treatment

Nous remarquons que le troisiegraveme attribut impliqueacute dans la conseacutequence de la regravegle 2 nrsquoa pas eacuteteacuteutiliseacute par le systegraveme dans la deacutefinition du nouveau concept Ceci est la conseacutequence de son exclusionpar lrsquoutilisateur comme le permet lrsquointerface graphique du plug-in lors de lrsquointerpreacutetation des regraveglesLa raison de ce choix deacutepend du contexte de lrsquoexpeacuterimentation pour lequel nous ne consideacuterons paspertinent le fait que tous les patients puissent ecirctre geacutenotypeacutes pour au moins un variant reacutepertorieacute dansdbSNP

Le positionnement proposeacute par le systegraveme pour ce nouveau concept dans la hieacuterarchie de conceptsde la est

Cnew2 ⊑ montelukast_study_patient

Dans ce cas le nouveau concept ne constitue pas aux yeux de lrsquoutilisateur un sous-ensemble des in-dividus deacutefinis par le concept montelukast_study_patient mais plutocirct une description diffeacuterente dece concept De fait nous choisissons drsquoenrichir la deacutefinition de montelukast_study_patient commele permet le systegraveme en positionnant Cnew2 par lrsquoajout dans la de lrsquoaxiome suivant

Cnew2 equiv montelukast_study_patient

Aucun rocircle nrsquoest creacuteeacute ou instancieacute agrave partir de cette regravegle

Les deux premiegraveres iteacuterations permettent drsquoillustrer deux fonctionnaliteacutes de lrsquo ndash premiegraverement lrsquoaugmentation du paramegravetre dmax permet drsquoextraire des connaissances qui mettent

en jeu des individus indirectement associeacutes dans la Lrsquoexemple preacutesenteacute ici illustre la deacutefinitiondrsquoun nouveau concept agrave partir de connaissances construites avec des donneacutees de lrsquoinvestigation dumontelukast et drsquoannotations sur la position des variants issues de dbSNP

ndash Deuxiegravemement une nouvelle description de concepts peut venir soit srsquoinseacuterer dans la hieacuterarchiede concepts (Cnew1) soit enrichir un deacutefinition existante (Cnew2)

136 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

Troisiegraveme iteacuteration Nous poursuivons lrsquoexploration de la avec le mecircme concept initial C0 la mecircmeprofondeur dmax = 3 mais nous diminuons le support minimum agrave 03 Les paramegravetres utiliseacutes cette foissont

ndash C0 equiv patient ⊓ is_enrolled_in montelukast_studyndash dmax= 3ndash min_supp = 03ndash min_conf = 08La recherche des RMNR reacutevegravele alors de nombreuses associations entre geacutenotypes Nous seacutelec-

tionnons les regravegles qui associent des geacutenotypes observeacutes sur le mecircme gegravene La regravegle 3 (support=031confiance=095) en est un exemple

Regravegle 3

presents_clinical_item chrX_77389891A-G

presents_clinical_item chrX_77367837A-G =gt presents_clinical_item chrX_77334462A-G

Ce genre de regravegle nous inteacuteresse particuliegraverement pour eacutetudier les geacutenotypes qui seacutegregravegent ensembleie qui sont transmis de faccedilon groupeacutee agrave la maniegravere des haplotypes Dans leur travaux Lima et al

mettent en eacutevidence trois groupes de geacutenotypes fortement associeacutes par deacuteseacutequilibre de liaison (Linkage

Desquilibrium ou LD en anglais) Ceux-ci sont reporteacutes dans la colonne de gauche du Tableau 44Suivant notre meacutethode nous isolons parmi la centaine de regravegles produites 7 regravegles qui nous permettentdrsquoisoler 7 groupes La regravegle 3 ci-dessus en est un exemple Lrsquoensemble de ces regravegles est reporteacute en AnnexeH avec leurs supports et confiances La colonne de droite du Tableau 44 repreacutesente les 7 groupes degeacutenotype associeacutes agrave partir de ces regravegles

Par ailleurs ce sont les associations entre les individus eacutevoqueacutes dans ces regravegles que nous souhaitonsinseacuterer dans la Aussi pour chaque regravegle nous ne construisons pas un nouveau concept mais cherchonsagrave instancier des rocircles entre les individus correspondant aux geacutenotypes

SO-Pharm ne dispose drsquoaucun rocircle dont le domaine et le co-domaine sont deacutefinis par le mecircme con-cept genomic_genotype ce qui permettrait drsquoassocier deux instances de ce concept auxquelles fontreacutefeacuterence les attributs des regravegles Aussi notre systegraveme drsquo propose automatiquement lors du traitementde la premiegravere regravegle associant des geacutenotypes la creacuteation drsquoun nouveau rocircle avec genomic_genotype endomaine et co-domaine Celui-ci est appeleacute par lrsquoutilisateur segregates_with Ensuite ce rocircle et soninverse (ie lui mecircme dans le cas particulier de segregates_with) sont instancieacutes avec chaque pairede geacutenotypes inclus dans une regravegle De cette faccedilon la regravegle 3 entraicircne apregraves validation de lrsquoutilisateurlrsquoinsertion dans la des 6 assertions de rocircles suivantes

segregates_with (chrX_77389891A-G chrX_77367837A-G)segregates_withminus(chrX_77389891A-G chrX_77367837A-G)

segregates_with (chrX_77389891A-G chrX_77334462A-G)segregates_withminus(chrX_77389891A-G chrX_77334462A-G)

segregates_with (chrX_77367837A-G chrX_77334462A-G)segregates_withminus(chrX_77367837A-Gbdquo chrX_77334462A-G)

Au total les 7 regravegles entraicircnent lrsquoinsertion dans la drsquoun nouveau rocircle (segregates_with) et de26 assertions de ce nouveau rocircle

Nous retrouvons les mecircmes groupes que Lima et Al Nos groupes sont plus restreints notammentpour le premier groupe du gegravene ABCC1 et celui du gegravene ALOX5 Cependant nous mettons en eacutevidence

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 137

Gegravene Geacutenotypes associeacutes Geacutenotypes associeacuteesLima et al (LD) Analyse des Assertions de Rocircles

ABCC1 Chr16 15986618G-G Chr16 15986618G-GChr16 15994334C-C Chr16 15994334C-CChr16 16016395A-A

Chr16 16045823T-T Chr16 16045823T-T Chr16 16045823C-TChr16 16047215T-T Chr16 16047215T-T Chr16 16047215C-T

ALOX5 Chr10 45190694C-T Chr10 45190694C-TChr10 45211490A-G Chr10 45211490A-G Chr10 45211490A-GChr10 45221095A-A Chr10 45221095A-G Chr10 45221095A-GChr10 45198914A-G Chr10 45198914A-AChr10 45237098A-G

CYSLTR1 empty ChrX 77346486T-TChrX 77356650G-GChrX 77389891G-G ChrX 77389891A-GChrX 77367837A-A ChrX 77367837A-GChrX 77334462A-A ChrX 77334462A-G

LTA4H empty empty

LTC4S empty empty

T 44 ndash Groupes de geacutenotypes associeacutes au sein des gegravenes eacutetudieacutes dans lrsquoinvestigation clinique de Limaet al [LZG+06] La colonne de gauche preacutesente les trois groupes de geacutenotypes mis en eacutevidence par Limaet al par la mesure des deacuteseacutequilibres de liaison (Linkage Desquilibrium ou LD en anglais) La colonnede droite preacutesente les groupes que nous avons mis en eacutevidence agrave partir du mecircme jeu de donneacutees aveclrsquo Cette deuxiegraveme colonne preacutesente dans certains cas deux associations de geacutenotypes diffeacuterents pourun mecircme groupe de variations (gegravene ABCC1 et CYSLTR1) Les regravegles dont sont extraits ces 7 groupessont reporteacutees en Annexe H

deux groupes particuliers qui correspondent agrave des allegraveles diffeacuterents de variations deacutejagrave impliqueacutees dansun groupe le couple Chr16 16045823C-T Chr16 16047215C-T et le triplet ChrX 77334462A-GChrX 77367837A-G ChrX 77389891A-G De plus nous mettons en eacutevidence une association entredeux groupes de geacutenotypes du gegravene CYSLTR1 absents des reacutesultats de Lima et al Les supports etconfiances de chaque regravegle reporteacutes en Annexe H permettent de juger la freacutequence dans la populationde ces associations

Quatriegraveme iteacuteration Nous poursuivons encore lrsquoexploration de la avec le mecircme concept initial C0

et la mecircme profondeur dmax en diminuant le support minimum cette fois agrave 02 Les paramegravetres utiliseacutessont ainsi

ndash C0 equiv patient ⊓ is_enrolled_in montelukast_studyndash dmax= 3ndash min_supp = 02ndash min_conf = 08Lrsquoobjectif de cette nouvelle iteacuteration est drsquoisoler des regravegles associant un attribut relatif au pheacutenotype

(Per= ldquogt009rdquo ldquo6008rdquo ou Exa=ldquoNordquo ldquoYesrdquo) et un ou plusieurs attributs deacutecrivant un geacutenotypespeacutecifique agrave ce pheacutenotype

138 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

Avec un support minimum de 02 le nombre de regravegles devient important (proche de 3000 regravegles)cependant les regravegles impliquant un attribut relatif au pheacutenotype sont relativement rares dans cet ensemble(lt5) Pour trouver ces regravegles plus facilement nous utilisons un systegraveme de filtres simples semblablesagrave ceux deacutecrits dans la section 14 du chapitre 2 Nous isolons au final 5 regravegles qui correspondent aumodegravele imposeacute par les filtres La regravegle 4 (support=026 confiance=080) ci-dessous en est un exempleLrsquoensemble des regravegles isoleacutees est reporteacute en Annexe H

Regravegle 4presents_clinical_item chrX_77334462A-G =gt presents_clinical_item chrX_77367837A-G

presents_clinical_item Per__-inf-008_

is_enrolled_in_o_is_defined_by_o_is_composed_of

montelukast_treatment

Le fait que la regravegle 2 ait un support et une confiance eacutegaux agrave 1 permet de deacuteduire que lrsquoattribut de saconclusion is_enrolled_in_o_is_de f ined_by_o_is_composed_o f montelukast_treatment est preacutesentdans toutes les regravegles Cet attribut nrsquoapparaicirct pas dans la regravegle 3 car nous lrsquoavions exclu de la recherchede regravegles comme le systegraveme le permet afin drsquoalleacuteger le nombre drsquoattributs dans les regravegles Nous nouspermettons cette exclusion car drsquoune part nous savons que cet attribut est preacutesent pour chaque objet ducontexte et drsquoautre part lors de lrsquoiteacuteration preacuteceacutedente nous ne cherchions pas de regravegles impliquant untraitement mais uniquement des geacutenotypes

Des cinq regravegles isoleacutees nous sommes capables drsquoidentifier quatre geacutenotypes et une paire de geacuteno-types speacutecifiques de trois pheacutenotypes diffeacuterents La colonne de droite du Tableau 45 preacutesente ces geacuteno-types La colonne de gauche de ce Tableau preacutesente les reacutesultats rapporteacutes dans Lima et al en utilisantdeux tests statistiques χ2 et le rapport de vraisemblance Avec lrsquo nous retrouvons deux des cinq geacuteno-types qursquoils associent agrave un pheacutenotype particulier (Chr5 179153244A-C et Chr12 94941021A-G) Lestrois geacutenotypes non retrouveacutes (Chr10 45221095G-G Chr16 15994335C-T et Chr12 94941021G-G)sont observeacutes dans Lima et al sur des sous-groupes de patients particuliegraverement restreints (respective-ment n = 6 8 et 5) Les donneacutees manquantes et le seuil utiliseacute (008) pour discreacutetiser lrsquoattribut ldquoPerrdquoramegravenent dans notre jeu de donneacutees ces populations agrave n= 4 5 et 5 Sur une population totale de 61patients la probabiliteacute drsquoobservation de ces geacutenotypes en mecircme temps que le pheacutenotype associeacute est alorsinfeacuterieure agrave 005 Pour les retrouver ensemble dans des regravegles il nous faudrait reacuteduire le support mini-mum en dessous de cette valeur Ceci aurait pour conseacutequence un accroissement important du nombrede regravegles et par conseacutequent du temps neacutecessaire pour isoler les regravegles pertinentes qui correspondent aumodegravele rechercheacute

Nous identifions cependant lors de cette iteacuteration quatre geacutenotypes speacutecifiques agrave des pheacutenotypes quine lrsquoavaient pas eacuteteacute par Lima et al

Au niveau de la chaque regravegle isoleacutee permet la creacuteation drsquoun nouveau concept Lrsquoutilisateur luiassocie un nom et le systegraveme lrsquoinsegravere dans la hieacuterarchie de concepts de la Par exemple la regravegle 4permet de deacutefinir le concept suivant nommeacute patient_with_low_chge_in_fev_grp2 par lrsquoutilisateur

patient_with_low_chge_in_fev_2 equiv presents_clinical_item chrX_77334462A-G ⊓presents_clinical_item chrX_77367837A-G ⊓presents_clinical_item Per__-inf-008_ ⊓

is_enrolled_in is_defined_by is_composed_of montelukast_treatment

De plus pour chaque regravegle des assertions des sous-rocircles du rocircle interacts_with sont creacuteeacutees enfonction des concepts dont sont instances les paires drsquoindividus consideacutereacutes De cette faccedilon la regravegle 4permet drsquoinseacuterer dans la entre autres les axiomes assertionnels suivants

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 139

Pheacutenotype Geacutenotypes speacutecifiques Geacutenotypes speacutecifiquesLima et al (χ2 rapport de vraisemblance) Analyse des Assertions de Rocircles

Per=ldquogt009rdquo Chr10 45221095G-G empty

Chr16 15994335C-TPer=ldquo6008rdquo empty Chr10 45211490A-A

ChrX 77334462A-GChrX 77367837A-G

Exa=ldquoNordquo Chr5 179153244A-C Chr5 179153244A-C

Chr16 161443440C-GExa=ldquoYesrdquo Chr12 94941021A-G Chr12 94941021A-G

Chr12 94941021G-G

T 45 ndash Geacutenotypes speacutecifiques aux pheacutenotypes preacutesenteacutes dans la colonne de gauche La colonne ducentre repreacutesente les geacutenotypes speacutecifiques mis en eacutevidence dans Lima et al par meacutethodes statistiques(χ2

et rapport de vraisemblance) [LZG+06] La colonne de droite repreacutesente les variations mises en eacutevidencepar notre approche drsquoAnalyse des Assertions de Rocircles Les regravegles qui mettent en eacutevidence ces associa-tions sont reporteacutees en Annexe H

interacts_with_phenotype (chrX_77334462A-G Per__-inf-008_)interacts_with_phenotypeminus(chrX_77334462A-G Per__-inf-008_)

interacts_with_drug_treatment (chrX_77334462A-G montelukast_treatment)interacts_with_drug_treatmentminus(chrX_77334462A-G montelukast_treatment)

ainsi que des axiomes de la mecircme forme impliquant le second geacutenotype (chrX_77367837A-G) etdrsquoautres agrave partir de Per__-inf-008_ et de montelukast_treatment

Au final les cinq regravegles sont agrave lrsquoorigine de cinq deacutefinitions de concepts et 68 assertions de rocirclesinseacutereacutes dans la

La classification drsquoinstances sur la permet de repreacutesenter explicitement les geacutenotypes pheacutenotypeset traitements qui interviennent dans une reacuteaction pharmacogeacutenomique agrave un traitement SO-Pharm con-tient initialement trois concepts deacutefinis de faccedilon symeacutetrique

ndash pharmacogenomic_genotype_itemndash pharmacogenomic_phenotype_item etndash pharmacogenomic_drug_treatment

Par exemple un geacutenotype qui intervient dans une reacuteaction pharmacogeacutenomique est deacutefini comme ungeacutenotype qui interagit agrave la fois avec un pheacutenotype et un traitement de la faccedilon suivante

pharmacogenomic_genotype_item equiv gt 1 interacts_with_phenotype ⊓gt 1 interacts_with_drug_treatment

Ainsi agrave partir de cette deacutefinition il est infeacutereacute que lrsquoindividu chrX_77334462A-G deacutejagrave instance degenotype_item est eacutegalement instance de pharmacogenomic_genotype_item

De la mecircme faccedilon la classification qui termine cette iteacuteration permet de statuer sur le fait quendash 6 individus instances de genotype_item sont aussi instances de pharmacogenomic_genotype_item

140 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

ndash 4 individus instances de phenotype_item sont instances de pharmacogenomic_phenotype_itemndash 1 individu instance de drug_treatment (montelukast_treatment) est eacutegalement instance depharmacogenomic_drug_treatment

245 Bilan et discussion

Lrsquo nous a permis drsquoextraire et de formaliser un certain nombre drsquouniteacutes de connaissances soitsous la forme drsquoaxiomes terminologiques (ie impliquant equiv ou ⊑) soit sous la forme drsquoaxiomes asser-tionnels (ie les assertions de rocircles et drsquoinstances) Ces uniteacutes de connaissances nrsquoeacutetaient preacutealablementpas preacutesentes dans la par conseacutequent nous les qualifions de nouvelles En outre lrsquoanalyste a lui mecircmejugeacute inteacuteressant de les inseacuterer dans la par conseacutequent nous les qualifions eacutegalement de pertinentesDe fait lrsquoexpeacuterimentation montre que lrsquo permet de retrouver lrsquoessentiel des reacutesultats qui avaient eacuteteacutemanuellement extrait par des meacutethodes statistiques classiques dans [LZG+06] des associations fortesentre geacutenotypes des associations geacutenotypendashpheacutenotype Notre meacutethode permet drsquoaller plus loin dans lrsquo-exploitation des donneacutees analyseacutees en isolant en plus de ces reacutesultats de nouvelles associations entregeacutenotypes de nouvelles relations geacutenotypendashpheacutenotype et des relations geacutenotypendashtraitementndashpheacutenotypeLrsquoensemble de ces reacutesultats est repreacutesenteacute de faccedilon formelle dans la qui peut ecirctre enrichie avec denouvelles donneacutees ou donner lieu agrave de nouvelles expeacuterimentations

Lrsquoexpeacuterimentation montre que la preacuteparation des donneacutees le parameacutetrage lrsquoexclusion drsquoattributspermettent drsquoorienter et de controcircler lrsquo Lrsquoinfluence de ces diffeacuterentes opeacuterations sur les reacutesultats delrsquoanalyse est discuteacutee dans la suite de cette section

La discreacutetisation des valeurs de lrsquoattribut ldquoPerrdquo effectueacutee lors de lrsquoeacutetape de preacuteparation des donneacuteesest un premier facteur jouant sur les reacutesultats En effet le choix drsquoun seuil moins eacuteleveacute pour la discreacuteti-sation par exemple 004 au lieu de 008 permettrait drsquoaugmenter le nombre drsquoobjets qui preacutesentent unevaleur au dessus de ce seuil et par conseacutequent drsquoaugmenter le nombre drsquoobjets qui peuvent preacutesenter agravela fois une valeur de ldquoPerrdquo au dessus du seuil et un geacutenotype particulier La valeur choisie pour ce seuilexplique en partie pourquoi contrairement agrave Lima et al nous ne retrouvons pas de geacutenotype speacutecifiqueau pheacutenotype Per=ldquogt009rdquo Lrsquoautre explication reacuteside dans le faible nombre de cas sur lesquels se basentLima et al pour estimer ces associations

Il apparaicirct au cours de lrsquoexpeacuterimentation que lrsquoexclusion des attributs les moins pertinents du con-texte facilite lrsquoeacutetape drsquointerpreacutetation Le moyen proposeacute drsquoexclure des attributs dans lrsquoimpleacutementationactuelle est entiegraverement manuel Il serait certainement inteacuteressant drsquoadapter lrsquoapproche de seacutelection dedonneacutees guideacutee par les connaissances proposeacutee dans la section 1 de ce chapitre pour faciliter lrsquoexclusiondrsquoattributs du contexte manipuleacute en

Le nombre de regravegles produites est un facteur important de la difficulteacute agrave interpreacuteter les reacutesultats Cenombre de regravegle est tout drsquoabord sensible au nombre drsquoattributs consideacutereacutes pour la recherche des regraveglesmais aussi sensible agrave drsquoautres paramegravetres Ainsi la profondeur dmax entraicircne la constitution drsquoun con-texte plus volumineux et par conseacutequent une production de regravegles souvent plus nombreuses Enfin lessupport et confiance minimums permettent de moduler le nombre de regravegles Hypotheacutetiquement il pour-rait eacutegalement ecirctre envisageacute de contraindre le parcours des graphes drsquoassertions de sorte agrave ce que seulsles chemins associeacutes agrave une seacutemantique deacutefinie soient parcourus En conseacutequence le contexte reacutesultant nepreacutesenterait que les attributs geacuteneacutereacutes agrave partir du parcours de ces chemins speacutecifiques

Voici un ordre de grandeur du nombre de regravegles produites lors des diffeacuterentes iteacuterations preacutesenteacutees

premiegravere iteacuteration lt 10 regraveglesdeuxiegraveme iteacuteration lt 20 regraveglestroisiegraveme iteacuteration lt 100 regraveglesquatriegraveme iteacuteration lt 3000 regravegles

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 141

Lorsque le support est diminueacute en deccedila de 02 le nombre de regravegles augmente davantage et lrsquointerpreacutetationdevient deacutelicate malgreacute lrsquoutilisation de filtres Ceci est en partie ducirc agrave la meacutethode de fouille utiliseacutee dontlrsquoobjectif est la recherche de regravegles freacutequentes Dans le cas ougrave les regravegles rechercheacutees apparaissent avecun support de 01 lrsquoutilisation drsquoune meacutethode baseacutee sur la notion de freacutequence est fortement discutableCependant lrsquoaspect iteacuteratif de notre approche peut ecirctre utiliseacute pour mettre en œuvre une nouvelle iteacuterationdans laquelle le concept initial C0 peut seacutelectionner un ensemble drsquoindividus plus restreints au sein duquelpeut se reacuteveacuteler freacutequente une association peu freacutequente sur un ensemble plus large drsquoindividus

Une piste particuliegraverement inteacuteressante est la mise en eacutevidence des geacutenotypes fortement associeacutes agraveun pheacutenotype rare Pour cela une meacutethode particuliegravere de recherche drsquoassociations dont le support estfaible est la recherche de regravegles rares ie drsquoassociations qui contrairement aux regravegles drsquoassociationssurviennent avec une freacutequence infeacuterieure agrave un seuil deacutefini [SNV07] Cette expeacuterimentation confirmeque les regravegles rares avec une confiance eacuteleveacutee semblent propices agrave lrsquoextraction des connaissances enpharmacogeacutenomique ougrave la notion drsquointeacuterecirct nrsquoest pas forcement coupleacutee agrave celle de freacutequence eacuteleveacutee

Actuellement seule lrsquoapparition simultaneacutee drsquoattributs dans une regravegle est utiliseacutee On peut supposeragrave premiegravere vue que lrsquoextraction de motifs freacutequents (par exemple les motifs fermeacutes freacutequents) pourraitecirctre suffisante agrave lrsquoobtention des mecircmes reacutesultats puisque la notion de regravegle (et notamment le fait qursquounattribut soit en preacutemisse ou en conclusion) nrsquoest pas exploiteacutee Cependant nous utilisons tout drsquoabordla mesure de la confiance propre aux regravegles drsquoassociations comme une marge permettant agrave supportconstant de trouver des associations non systeacutematiques entre les attributs Lrsquoexistence de donneacutees man-quantes ou entacheacutees drsquoerreurs dans les jeux de donneacutees biologiques manipuleacutes est agrave lrsquoorigine de cetteconsideacuteration Ensuite et surtout la seacutemantique associeacutee agrave une regravegle bien qursquoencore inexploiteacutee dans ladescription actuelle de lrsquo est une des eacutevolutions que nous souhaiterions apporter agrave cette meacutethodeDans ce sens Rudolph et Voumllker exploitent par exemple la seacutemantique des implications entre attributs dela forme A rarr B ougrave A et B sont deux ensembles drsquoattributs pour deacutefinir des nouveaux axiomes en dela faccedilon suivante A ⊑ B ougrave A et B sont les concepts qui correspondent aux ensembles drsquoattributs A et B

[VR08] Les reacutesultats tregraves reacutecents preacutesenteacutes par Kroumltzsch et al sur la description en de la seacutemantiqueassocieacutee agrave des regravegles constituent une base solide pour appuyer une telle eacutevolution [MK08]

Il est important de noter que la meacutethode deacutecrite nrsquoa pas la preacutetention de remplacer les meacutethodesstatistiques classiques drsquoanalyse de donneacutees En revanche nous pensons et lrsquoexpeacuterimentation preacutesenteacuteeva dans ce sens que cette meacutethode peut ecirctre utiliseacutee de faccedilon compleacutementaire en deuxiegraveme approchepour venir enrichir des reacutesultats initiaux et orienter de nouvelles investigations cliniques ou biologiques

Des expeacuterimentations suppleacutementaires non deacutecrites dans le cadre de cette section nous encouragentdans cette direction puisqursquoelles permettent drsquoutiliser les annotations des variants des gegravenes des reacuteseauxmeacutetaboliques inteacutegreacutees agrave la pour mettre en eacutevidence des reacutegulariteacutes entre un pheacutenotype intervenantdans une reacuteaction pharmacogeacutenomique et la reacutegion particuliegravere de certains gegravenes (voir regravegle 5) ou encoredes reacutegulariteacutes entre un groupe de pheacutenotypes et des variations geacutenomiques localiseacutees sur des gegravenesimpliqueacutes dans une voie meacutetabolique particuliegravere (voir regravegle 6) Les deux exemples de regravegles preacutesenteacutesci-apregraves obtenus par illustrent ce genre drsquoassociations

Regravegle 5isVariantIn_o_interacts_with Per__-inf-008_ =gt isDnaVariantIn intron

isVariantIn_o_interacts_with_o_interacts_with ALOX5

isVariantIn_o_interacts_with_o_interacts_with CYSLTR1

142 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

Regravegle 6isVariantIn_o_interacts_with exacerbation =gt isVariantIn_o_interacts_with arachidonic_acid_metabolism

isVariantIn_o_interacts_with_o_interacts_with LTC4S

isVariantIn_o_interacts_with_o_interacts_with eicosanoid_pathway

isVariantIn_o_interacts_with_o_interacts_with LTA4H

Lrsquo permet ici lrsquoacquisition et lrsquoinsertion de connaissances implicites et nouvelles dans une rel-ative agrave la variabiliteacute de reacuteponses au traitement par montelukast Ces connaissances sont acquises agrave partirdes reacutesultats drsquoune investigation particuliegravere et sont deacutefinies en tant que telle dans la Une prolonga-tion inteacuteressante de lrsquoutilisation de ce genre de connaissances serait leur interpreacutetation et leur validationexpeacuterimentale par des biologistes Ceci pourraient sur cette base geacuteneacuteraliser les connaissances mises eneacutevidence par sur un panel restreint puis les inseacuterer dans la avant de les soumettre agrave PharmGKB

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 143

25 Travaux similaires

Pour comparer agrave lrsquoexistant la meacutethode drsquo que nous proposons il est neacutecessaire de consideacutererseacuteparement lrsquoeacutetape preacuteliminaire de peuplement de la et la phase drsquoextraction de connaissances Lapremiegravere eacutetape de peuplement de lrsquoontologie (0) est abordeacutee dans le Chapitre 2 section 32 nous nrsquoyrevenons pas ici Par contre nous distinguerons deux grands groupes de travaux qui manipulent conjoin-tement meacutethodes de fouille de donneacutees et repreacutesentation des connaissances

ndash Le premier regroupe des travaux sur lrsquoacquisition de connaissances formelles agrave partir de donneacuteesde textes ou de pages Web Ils ne supposent pas lrsquoexistence de connaissances deacutejagrave formaliseacuteesagrave lrsquoorigine du travail Ces travaux megravenent le processus drsquo agrave son terme ougrave les reacutesultats de lafouille sont interpreacuteteacutes et formaliseacutes dans des langages de repreacutesentation des connaissances

ndash Le second regroupe des travaux qui tirent parti de connaissances deacutejagrave formaliseacutees pour la miseen oeuvre de meacutethodes drsquoextraction de connaissances Lrsquoobjectif de ce second type de travaux estgeacuteneacuteralement lrsquoenrichissement des connaissances initialement disponibles

251 Lrsquoacquisition de connaissances

Lrsquoacquisition de connaissances agrave partir de donneacutees de textes ou de pages Web est eacutegalement appeleacuteeapprentissage drsquoontologie (traduction de ontology learning en anglais) [BCM05] Les sources de donneacuteeset les meacutethodes de fouilles utiliseacutees dans ce cadre sont diverses Un exemple simple est lrsquoutilisation quefont Clerkin et al [CCH01] de lrsquoalgorithme COBWEB pour organiser des donneacutees selon une hieacuterarchiede clusters qui est ensuite transformeacutee en une hieacuterarchie de concepts (ou classes) sous forme drsquoun grapheRDF reprenant la structure hieacuterarchique des clusters La Figure 48 repreacutesente lrsquoexemple de geacuteneacuterationdrsquoontologie avec COBWEB donneacutee par Clerkin et al

F 48 ndash Un jeu de donneacutees exemple concernant la morphologie de cellules soumis agrave COBWEB lahieacuterarchie de cluster produite et la hieacuterarchie de concepts (ou classes) RDF deacuteduite [CCH01]

Si le nombre et le volume des bases de donneacutees ont consideacuterablement augmenteacute ces derniegraveres anneacuteesdans beaucoup de domaines un volume consideacuterable de connaissances nrsquoest encore disponible que sousforme de texte en langage naturel et notamment drsquoarticles de revues speacutecialiseacutees En conseacutequence denombreux travaux ce sont inteacuteresseacutes agrave extraire et formaliser des connaissances contenues dans des corpus

144 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

F 49 ndash Un treillis de concepts notation reacuteduite produit agrave partir de textes (agrave gauche) et la hieacuterarchie deconcepts en laquelle il est transformeacute (agrave droite) suivant la meacutethode proposeacutee dans [CHS05]

de textes (voir [BCM05] pour une vue drsquoensemble) Dans cette optique Cimiano et al deacuterivent agrave partir detextes une hieacuterarchie de concepts [CHS05] Pour cela ils construisent dans un premier temps un contexteformel agrave lrsquoaide de meacutethodes de TAL qui leur permettent drsquoextraire des relations entre termes associeacutesdans les textes Dans un deuxiegraveme temps le contexte formel construit est soumis agrave des meacutethodes drsquopour produire un treillis ensuite transformeacute et compacteacute en un ordre partiel speacutecifique qui constitue uneontologie Un exemple de treillis produit et la hieacuterarchie de concepts en laquelle il est transformeacute sontrepreacutesenteacutes Figure 49 La transformation du treillis revient agrave (1) retirer le concept bottom (2) creacuteer unconcept dit ontologique pour chaque concept formel avec comme nom lrsquointension du concept formel et(3) creacuteer un sous-concept relieacute au preacuteceacutedent pour chaque eacuteleacutement preacutesent dans lrsquoextension du conceptformel en question La hieacuterarchie produite est finalement reacuteduite afin de limiter le nombre potentiellementtregraves eacuteleveacute de concepts qui reacutesultent de la transformation drsquoun grand treillis Pour cela les concepts ditontologiques qui ont la mecircme extension en terme de concepts terminaux que leurs sous-concepts (ie

les mecircmes nœuds feuilles dans la hieacuterarchie) sont supprimeacutes Dans lrsquoexemple repreacutesenteacute Figure 49 leconcept rideable serait de cette faccedilon supprimeacute de la hieacuterarchie

Bendaoud et al ont proposeacute plus reacutecemment une meacutethode drsquoacquisition de connaissances agrave partirde textes qui srsquoappuie sur lrsquo Celle ci preacutesente deux avantages principaux par rapport agrave [BCM05] Lepremier est de produire non seulement une hieacuterarchie de concepts mais eacutegalement des instances asso-cieacutees aux concepts Ici le concept bottom est eacutelimineacute et les eacuteleacutements de lrsquoextension drsquoun concept formelservent eacutegalement agrave deacutecrire en les concepts de la hieacuterarchie comme dans [BCM05] En revanche leseacuteleacutements de lrsquointension des concepts formels servent agrave la creacuteation drsquoindividus qui instancient le conceptcorrespondant agrave lrsquoeacuteleacutement deacutecrit en extension La Figure 410 illustre cette transformation drsquoun treillisen une hieacuterarchie de concepts plus instances elle peut ecirctre compareacutee agrave la Figure 49 Dans un sens lafaccedilon de deacutecrire en les concepts formels deacutepend de la faccedilon dont les connaissances contenues dansles textes est codeacutee dans le contexte formel Cependant les correspondances entre drsquoabord lrsquoextensionde concepts formels et la description de concepts en et ensuite entre intension et instances semblentrelativement naturelles Le deuxiegraveme avantage de cette meacutethode consiste en lrsquoenrichissement de la hieacuterar-

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 145

F 410 ndash Un treillis de concepts notation reacuteduite produit agrave partir de textes (agrave gauche) et la hieacuterarchie deconcepts instancieacutee en laquelle il est transformeacute (agrave droite) suivant lrsquoalternative proposeacutee dans [BTN08]

chie de concepts par des rocircles entre les concepts en utilisant une meacutethode formelle appeleacutee lrsquoAnalyse deRelationnelle de Concepts ou Cet enrichissement preacutesente la particulariteacute de prendre en compte lahieacuterarchie des concepts pour la geacuteneacuteralisation de relations extraites des textes

Les connaissances sur la structuration des documents analyseacutes peuvent eacutegalement servir agrave guiderle processus drsquoacquisition de connaissance Crsquoest notamment le cas dans [KAB06] ougrave la connaissancedrsquoexperts sur la structuration des documents HTML est utiliseacutee pour favoriser la construction de clustersde termes homogegravenes agrave partir de pages Web

Cette cateacutegorie de travaux rassembleacutee sous le titre acquisition de connaissances peut ecirctre compareacuteeagrave lrsquoenchaicircnement des eacutetapes (ii) et (iii) de notre meacutethode drsquo Ces travaux permettent la formalisationde connaissances contenues dans des donneacutees des textes ou des pages Web et ce agrave lrsquoaide de meacutethodesde fouille de donneacutees et eacuteventuellement de repreacutesentations des connaissances du domaine pour [KAB06BTN08] Dans tous les cas les connaissances acquises par le processus sont enregistreacutees mais ne sontpas consideacutereacutees de sorte agrave pouvoir ecirctre reacuteutiliseacutees dans les opeacuterations drsquoacquisition de connaissancessuivantes Finalement ces meacutethodes considegraverent de faccedilon seacutepareacutee sources de donneacutees (bases de donneacuteestextes pages Web) et repreacutesentation des connaissances du domaine sans prendre en compte lrsquoexistencedes ontologies du domaine existant

252 La manipulation de connaissances pour extraire de nouvelles connaissances

Utilisation des meacutecanismes de raisonnement comme meacutethode drsquoapprentissage Un moyen originalde se servir de connaissances formaliseacutees pour lrsquoextraction de connaissances potentiellement utiles estlrsquoutilisation de meacutecanismes de raisonnement comme meacutethode drsquoapprentissage sur une plutocirct quedrsquoalgorithmes de fouille sur des bases de donneacutees Ce sont alors les concepts rocircles instances et axiomesde la qui sont directement manipuleacutes par ces meacutecanismes de raisonnement En pratique ceux-ci sontappliqueacutes agrave des en pour formaliser explicitement des connaissances implicites Le plus souventils mettent en lumiegravere des eacuteleacutements de connaissance eacutevidents pour lrsquoanalyste (humain) et sont rarementefficaces pour la deacutecouverte de connaissances dans le cadre de lrsquoECBD Un travail qui fait exception estla classification des proteacuteines phosphatases proposeacutee par Wostencroft et al [WLT+06] Les auteurs sebasent sur une ontologie en qui deacutecrit la composition en domaines des proteacuteines de la famille des phos-

146 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

F 411 ndash Les diffeacuterences drsquoorganisation des domaines dans une sous-famille de proteacuteines phosphatases les reacutecepteurs tyrosines phosphatases Ces organisations sont repreacutesenteacutees dans lrsquoontologie des phos-phatases et utiliseacutees pour la classification automatique de nouvelles proteacuteines [WLT+06]

phatases (voir Figure 411) Une proteacuteine y est repreacutesenteacutee comme un individu instance de lrsquoontologieauquel est associeacute la description de sa composition en domaines proteacuteiques Ils appliquent alors sur la associeacutee un meacutecanisme de raisonnement classique de classification drsquoinstances La comparaison drsquouneproteacuteine (donc drsquoun individu) aux descriptions des familles des phosphatases (ie des concepts deacutefinis)permet ainsi sa classification automatique dans la famille agrave laquelle elle appartient La classification reacute-sultante a permis drsquoaffiner la classification des phosphatases deacutefinie par les experts et de corriger pourcertaines proteacuteines lrsquoannotation qui indique leur appartenance agrave une famille ou agrave une autre

Moyennant quelques adaptations il est eacutegalement possible de transformer (ou coder) certains eacuteleacute-ments de connaissance afin que ceux ci puissent-ecirctre consideacutereacutes par des meacutethodes de fouille de donneacutees

Fouille de bases de cas Les eacuteleacutements de connaissances fouilleacutees par le systegraveme CA preacutesenteacutedans [dBL+07] sont des cas ie des couples (problegraveme solution) regroupeacutes dans une base de cas Lafouille de la base de cas par lrsquoextraction des motifs fermeacutes freacutequents a pour objectif la deacutecouverte deconnaissances drsquoadaptation ie un eacuteleacutement de connaissance qui deacutecrit comment eacutevolue la solution entredeux couples (problegraveme solution) quand le problegraveme eacutevolue Les reacutesultats extraits prennent la formede motifs fermeacutes freacutequents dont chaque eacuteleacutement deacutecrit lrsquoadaptation drsquoune proprieacuteteacute et dont lrsquoensemblepermet de deacuteduire des connaissances drsquoadaptation potentiellement utiles [dBL+07] propose dans lecontexte de bases de cas de traitement du cancer du sein un exemple de connaissance drsquoadaptationextraite et son interpreacutetation

Clustering conceptuel Les eacuteleacutements de connaissance peuvent eacutegalement ecirctre les individus drsquoune en comme dans [FdE08] pour lequel les auteurs proposent une meacutethode de clustering hieacuterarchique baseacuteesur une distance seacutemantique mesureacutee entre individus En accord avec cette distance deux individus quiappartiennent agrave un grand nombre de concepts communs dans la sont proches et inversement deuxindividus qui ne peuvent pas appartenir agrave des concepts communs sont eacuteloigneacutes (voir [FdE08] pour ladeacutefinition formelle de la distance) Le calcul de la distance neacutecessite lrsquointervention de meacutecanismes deraisonnement pour deacuteterminer lrsquoinstanciation des concepts (instance checking) Une meacutethode de cluster-ing inspireacutee des K-plus proches voisins utilise ensuite les distances entre individus pour construire unehieacuterarchie de clusters Les clusters construits peuvent ecirctre annoteacutes avec une description en qui carac-teacuterise au mieux les individus preacutesents dans le cluster en question tout en discriminant les individus desclusters de mecircme niveau dans la hieacuterarchie Cette description correspond au subsumeur commun le plus

2 Extraction de Connaissances agrave partir drsquoune Base de Connaissances ndash 147

speacutecifique de lrsquoensemble des concepts les plus speacutecifiques de chaque individu du cluster La descriptionreacutesultante est une approximation et demeure deacutependante de la description des concepts et de la reacutepar-tition des individus dans la (ie de la conceptualisation) Lrsquoajout de nouveaux individus dans la induit des modifications dans la structure hieacuterarchique en terme soit de nouveau cluster soit de nouvelledescription drsquoun cluster existant Cependant la modification de la TBox initiale agrave la vue de clusters et deleur description en associeacutee nrsquoest pas consideacutereacutee

Ces deux derniegraveres approches manipulent des connaissances repreacutesenteacutees formellement dans une mais ne reacuteutilisent pas (ou partiellement) les reacutesultats de fouille pour raffiner ou enrichir la analyseacutee

En revanche les travaux theacuteoriques de Rudolph et al [Rud06] et de Baader et al [BGSS07] (preacutesen-teacutes dans la section 22) et notre meacutethode drsquo (section 23) autorisent lrsquoenrichissement de la initiale

R Le travail de Ferreacute et al est agrave noter eacutegalement Ils utilisent aussi et conjointementmais dans un objectif inverse au nocirctre [FRS05] Lrsquoobjectif nrsquoest pas drsquoenrichir une ontologie (ou une )agrave partir de reacutesultats drsquo mais drsquoenrichir un treillis de concepts agrave lrsquoaide de la seacutemantique associeacutee aux

148 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

3 Discussion

Cette section discute dans un premier temps la meacutethode drsquoAnalyse des Assertions de Rocircles ()preacutesenteacutee dans la section 23 puis dans un second temps la proposition plus geacuteneacuterale drsquoExtraction deConnaissances agrave partir de Base de Connaissances ()

Lrsquo srsquoappuie sur un meacutecanisme qui transforme des connaissances repreacutesenteacutees en sous la formedrsquoun contexte formel manipulable par les meacutethodes drsquo Cette transformation permet de repreacutesen-ter dans le contexte formel produit (1) des assertions de rocircles qui relient les individus dans un graphedrsquoassertions (2) les assertions de concepts repreacutesenteacutees par les attributs du contexte Ainsi cette repreacutesen-tation des connaissances est une repreacutesentation partielle du contenu de la Par exemple les relations desubsomption entre concepts et entre rocircles ne sont pas repreacutesenteacutees dans le contexte Il peut pourtant ap-paraicirctre inteacuteressant de les consideacuterer dans lrsquoideacutee de retranscrire de faccedilon plus complegravete les connaissancescontenues dans la

Une meacutethode alternative agrave lrsquoexploration des graphes drsquoassertions pour retranscrire de faccedilon systeacutema-tique les connaissances drsquoune dans un format manipulable par des meacutethodes de fouille pourrait ecirctrelrsquoutilisation de la meacutethode drsquoAnalyse Relationnelle de Concept () [HHNV07] Cette meacutethode peutecirctre utiliseacutee pour consideacuterer lrsquoensemble des connaissances drsquoune agrave condition de retranscrire celles-cidans plusieurs contextes formels (par exemple un contexte pour les assertions de concepts un autre pourles assertions de rocircles encore un autre pour la hieacuterarchie de concepts etc) Lrsquo permet ensuite surla base des reacutegulariteacutes preacutesentes dans les contextes de geacuteneacuterer de nouvelles descriptions de concepts en qui prennent en consideacuteration les relations entre les eacuteleacutements impliqueacutes dans diffeacuterents contextes Lacontrainte importante associeacutee agrave lrsquoutilisation de lrsquo est la deacutefinition manuelle des contextes de leursrelations et enfin lrsquointerpreacutetation des nombreux concepts produits automatiquement En comparaisonavec lrsquo notre meacutethode drsquo propose un compromis qui permet une retranscription partielle des con-naissances de la et la production drsquoun contexte de taille raisonnable Une des hypothegraveses de deacutepartde lrsquo est notamment que les assertions de rocircles directes et indirectes peuvent deacutecrire des relationsplus ou moins freacutequentes entre diffeacuterentes cateacutegories drsquoindividus et par ce biais sont des connaissancessusceptibles drsquoecirctre porteuses de connaissances nouvelles

Un moyen drsquoeacutevaluer concregravetement lrsquoapport de lrsquo serait de comparer les reacutesultats drsquoune recherchedes RMNR sur un jeu de donneacutees brut par exemple les reacutesultats de lrsquoinvestigation clinique du mon-telukast utiliseacutee pour lrsquoexpeacuterimentation preacutesenteacutee section 24 avec les regravegles et reacutesultats produits parlrsquo Cette expeacuterimentation pourrait permettre de justifier lrsquoeffort que neacutecessite la construction de lrsquoon-tologie et la deacutefinition des mappings donneacutees-assertions pour la deacutecouverte de connaissances

Une utilisation inteacuteressante de lrsquo pourrait consister agrave positionner le concept initial C0 agrave la racine dela TBox (C0 equiv ⊤) puis agrave recueillir la totaliteacute des nouveaux concepts deacuteriveacutes des RMNR dans une nou-velle TBox vierge La comparaison entre la hieacuterarchie de concepts obtenue apregraves classification de cettenouvelle TBox et la hieacuterarchie de concepts de la initiale permettrait drsquoeacutevaluer en un sens la capaciteacutedes assertions de rocircles drsquoune agrave refleacuteter la repreacutesentation des connaissances eacutetablies et agrave en proposer denouvelles Dans une ideacutee proche les meacutethodes drsquoeacutevaluation drsquoontologies pourraient permettre de mesurerla progression entre la initiale et la finale apregraves [GCCL06]

Lrsquo (deacutetailleacutee et expeacuterimenteacutee sections 23 et 24) se veut une illustration de la proposition plusgeacuteneacuterale drsquo En effet lrsquo peut ecirctre mise en œuvre agrave lrsquoaide de diffeacuterentes meacutethodes Par exempledes meacutethodes de fouille de donneacutees alternatives agrave la recherche des RMNR pourraient ecirctre utiliseacuteesEn fonction de la meacutethode choisie il serait alors indispensable drsquoadapter les eacutetapes de preacuteparation etdrsquointerpreacutetation des reacutesultats de fouille qui deacutependent respectivement des formats drsquoentreacutee et du typedrsquouniteacutes drsquoinformation produit par la fouille Des meacutethodes de fouille alternatives qursquoil semble pertinent

3 Discussion 149

drsquoexpeacuterimenter sont par exemple la construction drsquoarbres de deacutecision ou le clustering conceptuel Unsystegraveme de repreacutesentation des connaissances diffeacuterent des pourrait eacutegalement ecirctre envisageacute

Suivant lrsquoexemple de lrsquo le processus drsquoextraction de connaissances reste centreacute sur un algorithmede fouille de donneacutees qui prend en entreacutee des connaissances preacutealablement preacutepareacutees en un format com-patible et produit en sortie des uniteacutes drsquoinformation extraites agrave interpreacuteter formaliser et inseacuterer dans la Malgreacute diffeacuterents essais cela reste un deacutefi de consideacuterer des meacutethodes drsquoapprentissage capables demanipuler les axiomes drsquoune ie capables de tenir compte de la seacutemantique qui leur est associeacutee etde leur reacutegulariteacutes [Mug91 Nap92 Ser07]

150 Chapitre 4 Extraction de connaissances dans le contexte drsquoune Base de Connaissances

Conclusion et perspectives

Lrsquoensemble de la thegravese preacutesenteacutee dans ce manuscrit conforte la conviction selon laquelle lrsquoExtractionde Connaissances agrave partir de Bases de Donneacutees () doit ecirctre guideacutee agrave partir des connaissances dudomaine Dans ce contexte nous avons proposeacute et mis en œuvre un ensemble coheacuterent de meacutethodes afinde formaliser les connaissances drsquoun domaine inteacutegrer des donneacutees heacuteteacuterogegravenes relatives agrave ce domaineau sein drsquoune Base de Connaissances () et enfin analyser le contenu de cette pour en extraire denouvelles connaissances

La premiegravere contribution deacutecrit une meacutethode de construction drsquoontologie qui favorise la reacuteutilisationdrsquoontologies deacutejagrave existantes en les inteacutegrant au processus de construction De plus cette meacutethode inclutlrsquoeacutevaluation de la capaciteacute de lrsquoontologie construite agrave repreacutesenter les connaissances du domaine

Ensuite nous deacutecrivons une approche drsquointeacutegration de donneacutees qui srsquoappuie sur une formalisationtheacuteorique de la mise en correspondance de donneacutees et de connaissances La mise en œuvre de cetteapproche conduit agrave associer une seacutemantique preacutealablement deacutefinie agrave des donneacutees heacuteteacuterogegravenes afin de lesinteacutegrer au sein drsquoune

La reacutesultante constitue lrsquoeacuteleacutement central du processus drsquoExtraction de Connaissances agrave partir

drsquoune Base de Connaissances () Lrsquoideacutee originale ici est drsquoexplorer les reacutegulariteacutes drsquoune par oppo-sition agrave la recherche de reacutegulariteacutes agrave partir de bases de donneacutees Nous rapportons des reacutesultats prometteurssur la deacutefinition et la mise en œuvre drsquoune meacutethode drsquo particuliegravere appeleacutee lrsquoAnalyse drsquoAssertionsde Rocircles () Cette meacutethode srsquoattache agrave explorer les reacutegulariteacutes dans les assertions drsquoune Les uniteacutesde connaissances produites sont exprimeacutees suivant le mecircme formalisme que celui de la ce qui permetensuite leur manipulation par des meacutecanismes de raisonnement en vue de leur inteacutegration coheacuterente dansla Cette derniegravere contribution propose ainsi un moyen de mettre en œuvre un processus drsquoExtractionde Connaissance guideacutee par les Connaissances du Domaine

Ces reacutesultats illustrent que lrsquo peut ecirctre employeacutee avec succegraves pour la deacutecouverte de connaissancesen pharmacogeacutenomique De plus le cadre geacuteneacuteral de lrsquo peut ecirctre reacuteutiliseacute pour deacutecrire de nouvellesde meacutethodes diffeacuterentes de la nocirctre

Par ailleurs lrsquoensemble coheacuterent des meacutethodes deacutecrites dans la thegravese a eacuteteacute appliqueacute au domainede la pharmacogeacutenomique Nous avons ainsi construit deux ontologies de domaine La premiegravere SNP-Ontology formalise les connaissances sur les variations geacutenomiques La seconde SO-Pharm formaliseles connaissances du domaine de la pharmacogeacutenomique SNP-Ontology et SO-Pharm ont reccedilu un ac-cueil favorable par la communauteacute scientifique inteacuteresseacutee par la mise agrave disposition et le partage desbio-ontologies

Nous avons ensuite employeacute ces ontologies pour inteacutegrer selon lrsquoapproche drsquointeacutegration proposeacuteedes donneacutees pharmacogeacutenomiques issues de bases de donneacutees heacuteteacuterogegravenes Le reacutesultat de cette inteacutegra-tions est le peuplement de Bases de Connaissances relatives agrave ce domaine particuliegraverement concerneacute parle problegraveme de lrsquointeacutegration de donneacutees Dans le cas de donneacutees relatives au geacutenotype notre systegravemeSNP-Converter permet de reacuteconcilier les diffeacuterentes repreacutesentations des variations geacutenomiques Dans lecas drsquoinvestigations cliniques notre systegraveme iSO-Pharm permet de cumuler des donneacutees relatives augeacutenotype au pheacutenotype et au meacutedicament provenant drsquoinvestigations reacuteelles

151

152 Conclusion et perspectives

Enfin nous avons expeacuterimenteacute notre meacutethode drsquo lrsquo dans le contexte drsquoune instancieacutee pariSO-Pharm agrave partir drsquoune investigation clinique particuliegravere et de donneacutees compleacutementaires provenantde bases de donneacutees publiques Nos reacutesultats confortent et enrichissent les reacutesultats publieacutes sur cet essaiqui ont eacuteteacute obtenus gracircce aux meacutethodes statistiques classiques pour ce genre drsquoeacutetudes De plus lrsquointer-preacutetation des reacutesultats de la fouille a permis drsquoinseacuterer de nouvelles connaissances dans la initiale

Les perspectives susciteacutees par ce travail sont nombreuses En premier lieu il conviendrait de deacutefinirune proceacutedure drsquoeacutevaluation de la pertinence et de la nouveauteacute des uniteacutes de connaissances deacutecou-vertes par lrsquoapproche drsquo proposeacutee dans cette thegravese Une telle proceacutedure pourrait srsquoappuyer sur desmesures comparant les uniteacutes de connaissances au contenu preacutealable de la pour aider lrsquoexpert dansla tacircche de validation des reacutesultats de fouille Une deuxiegraveme perspective plus vaste porte sur lrsquoeacutelar-gissement du domaine drsquoapplication consideacutereacute ie la pharmacogeacutenomique agrave lrsquoeacutetude plus globale desinteractions gegravenes-environnement En effet les traitements meacutedicamenteux et les facteurs geacuteneacutetiquesne sont pas les seuls eacuteleacutements ayant un impact sur les traits du pheacutenotype Par exemple lrsquoeacutetat nutri-tionnel les micro-organismes intestinaux les maladies veacutecues lrsquoacircge drsquoun individu ont des impacts surson pheacutenotype et donc sur sa reacuteponse agrave un meacutedicament Dans cette direction il est possible drsquoeacutetendreles connaissances repreacutesenteacutees dans SO-Pharm pour consideacuterer les influences possibles de nouveauxfacteurs Il serait alors possible drsquoenvisager de peupler la version eacutetendue de SO-Pharm agrave partir des reacute-sultats drsquoessais ou de cohortes eacutetudiant de faccedilon plus geacuteneacuterales ces interactions gegravenes-environnement[Mau06 CLC+06 ORT08 RLSN08] La base de connaissances reacutesultante pourrait ecirctre utiliseacutee suivantlrsquoapproche drsquo proposeacutee dans cette thegravese avec comme objectif drsquoanalyser simultaneacutement les influ-ences quantitatives et qualitatives des divers facteurs sur le pheacutenotype Suivant cette ideacutee il serait in-teacuteressant drsquoutiliser des meacutethodes de fouilles de donneacutees alternatives agrave celles expeacuterimenteacutees dans le cadrede lrsquo Par exemple lrsquoextraction de motifs rares la classification hieacuterarchique la fouille de donneacuteestemporelles sont des meacutethodes qui paraissent adapteacutees aux particulariteacutes du domaine Lrsquoutilisation desconnaissances agrave priori pour la deacutecouverte de connaissances sur les interactions gegravenes-environnement re-pose eacutegalement sur la formalisation de la notion de pheacutenotype de ces diffeacuterents niveaux de granulariteacutede ces variations inter-individuelles et temporelles Une troisiegraveme perspective porte sur lrsquoappropriationpar les experts des outils de gestion des connaissances Les nombreux travaux exploitant les technologiesdu Web seacutemantiques laissent preacutesager lrsquoeacutemergence de systegravemes permettant de compleacuteter et drsquointerrogerune via un environnement de visualisation intuitif qui exploite par exemple la structure en grapheinheacuterente agrave une impleacutementeacutee en OWL ou encore les capaciteacutes drsquointerrogation du langage SPARQL[RMKM08 BdLM08] Lrsquointeacutegration de ces avanceacutees au niveau drsquoune interface utilisateur permettrait agravelrsquoexpert drsquoecirctre plus autonome tout au long du processus drsquo Enfin une quatriegraveme perspective est lrsquoap-plication de lrsquoapproche drsquo agrave des domaines diffeacuterents de celui de la pharmacogeacutenomique De tellesexpeacuterimentations permettraient drsquoeacutevaluer agrave quel point notre approche est geacuteneacuterique

Au terme de ce travail il apparaicirct que les contributions apporteacutees tant au domaine de lrsquoinforma-tique qursquoagrave celui de la pharmacogeacutenomique sont fructueuses et prometteuses Le caractegravere particuliegravere-ment interdisciplinaire de cette thegravese nous a conduit au deacuteveloppement de systegravemes opeacuterationnels pourla pharmacogeacutenomique agrave partir de technologies du Web seacutemantique Cependant le rocircle de la pharma-cogeacutenomique dans ce travail de thegravese ne se limite pas agrave un simple domaine drsquoapplication Par la com-plexiteacute de ses probleacutematiques ce domaine a orienteacute et motiveacute les approches informatiques proposeacutees quiresteront applicables agrave drsquoautres domaines Nous espeacuterons ainsi avoir contribueacute agrave la concreacutetisation du Webseacutemantique en deacutepassant le niveau du Web de donneacutees (en anglais Web of data)

Annexe A

Algorithme de recherche des RMN et desRMNR

153

154 Annexe A Algorithme de recherche des RMN et des RMNR

Description

Cet algorithme permet la recherche des Regravegles Minimales Non-redondantes (RMN) et des RegraveglesMinimales Non-Redondantes Reacuteduites (RMNR) [Sza06] Pour cela il prend en entreacutee trois paramegravetres (1) les motifs fermeacutes freacutequents (MFF) (2) les geacuteneacuterateurs freacutequents (GF) et (3) les valeurs du supportdes motifs Pour deacutecrire cet algorithme nous utilisons deux fonctions

getProperSuperSet prend deux paramegravetres un ensemble S de motifs et un motif p La fonctionretourne le super motif direct de p dans S Cette fonction peut tirer parti drsquoune structuration desmotifs sous forme drsquoun treillis

getSupportOf prend en paramegravetre un motif quelconque et renvoie son support Cette fonction peuteacutegalement tirer parti de lrsquoorganisation en treillis des motifs

R Lrsquoalgorithme peut ecirctre facilement adapteacute pour isoler les ensembles de regravegles qui corre-spondent agrave la Base Geacuteneacuterique (BG) la Base Informative (BI) et la Base Informative Reacuteduite (BIR)[Sza06]

Algorithme

Algorithme A1 Recherche des RMN et des RMNR

Entreacutee MFF GF valeurs de support des motifsSortie ensemble des RMN et des RMNR

1 Pour chaque geacuteneacuterateur g

2 CG larr getProperSuperSet(MFFg) retourne le super motif de g parmi les MFF3 4 Pour chaque eacutelement c de CG

5 premisselarr g

6 conclusionlarr (cg)7 supportPremisselarr gsupport8 supportConclusionlarr getSupportOf(conclusion)9 10 reglelarr (premisserarr conclusion)11 12 si conf(regle) ge min_con f conf(regle)=supp(csupp(g))13 Lrsquoeacutetape suivante est optionnelle Elle doit ecirctre exeacutecuteacutee14 si lrsquoon souhaite extraire les RMNR au lieu des RMN15 si conf(regle) 1016 CG larr CGgetProperSuperSet(MFFc) le supermotif de c est eacutelimineacute de CG17 fin si18 Rlarr R cup regle19 fin si20 Pour chaque22 Pour chaque23 Retourner R

Annexe B

Constructeurs en

155

156 Annexe B Constructeurs en

Nom du syntaxe syntaxe seacutemantique associeacuteeconstructeur en OWLConcept C C (URI) CI sube ∆I

Concept universel ⊤ owlThing ⊤I = ∆I

Bottom perp owlNothing perpI= empty

Intersection C ⊓ D intersectionOf(C D) (C ⊓ D)I = CI cap DI

Union C ⊔ D unionOf(C D) (C ⊔ D)I = CI cup DI

Neacutegation notC complementOf(C) (notC)I = ∆I CI

Enumeacuteration a b oneOf(a b ) a b I = aI bI

Quantificateur existRC restriction(R (existRC)I = x|existy (x y) isin RI and y isin CI

existentiel someValuesFrom(C))Quantificateur forallRC restriction(R (forallRC)I = x|forally (x y) isin RI rarr y isin CI

universel allValuesFrom(C))Restriction agrave ni Ra restriction(R (ni Ra)I = x|(x aI) isin RI

une valeur ou Ra hasValue(a))Restrictions = n R restriction(R (= n R)I = x| cardy|(x y) isin RI = n

non qualifieacutees cardinality(C))de cardinaliteacute gt n R restriction(R (gt n R)I = x| cardy|(x y) isin RI gt n

minCardinality(C))6 n R restriction(R (6 n R)I = x| cardy|(x y) isin RI 6 n

maxCardinality(C))Quantificateur existST restriction(S (existST)I = x|existy (x y) isin SI and y isin TI

existentiel someValuesFrom(T ))Quantificateur forallST restriction(S (forallST)I = x|forally (x y) isin SI rarr y isin TI

universel allValuesFrom(T ))Restriction agrave ni Sa restriction(S (ni Sa)I = x|(x aD) isin SI

une valeur ou Sa hasValue(a))Restriction = n S restriction(S (= n S)I = x| cardy|(x y) isin SI = n

non qualifieacutee cardinality(T ))de cardinaliteacute gt n S restriction(S (gt n S)I = x| cardy|(x y) isin SI gt n

minCardinality(T ))6 n S restriction(S (6 n S)I = x| cardy|(x y) isin SI 6 n

maxCardinality(T ))

T B1 ndash Constructeurs de concepts en Logique de Descriptions et leurs correspondances en OWLC et D sont des concepts (respectivement C et D sont des classes) T est un concept particulier qui cor-respond agrave un type de donneacutees (un Datatype en OWL) n est un nombre a et b sont des individus R unrocircle (une proprieacuteteacute drsquoobjet ou ObjectProperty en OWL) et S un rocircle dont le co-domaine correspond agrave unconcept de mecircme type que T (une proprieacuteteacute de donneacutees ou DatatypeProperty en OWL)

157

nom du constructeur syntaxe en syntaxe abstraite OWL seacutemantique associeacuteeRocircle inverse Rminus inverseOf(R) (Rminus)I = (x y) | (y x) isin RIComposition de R Q ndash (R Q)I = (x z) | existy(x y) isin RI

rocircle and(y z) isin QI

T B2 ndash Constructeurs de rocircles en Logique de Descriptions et leurs correspondances en OWL R etQ sont des rocircles (des proprieacuteteacutes drsquoobjet ou ObjectProperty en OWL)

158 Annexe B Constructeurs en

Annexe C

Exemple de code OWL

159

160 Annexe C Exemple de code OWL

F C1 ndash Code OWL qui correspond agrave la repreacutesenteacutee dans le Tableau 24 Ce code est enregistreacute dansle fichier ldquoexemple_de_bcowlrdquo

Annexe D

Modegravele conceptuel de SO-Pharm

161

162 Annexe D Modegravele conceptuel de SO-Pharm

F D1 ndash Diagramme de classes UML donnant une vue geacuteneacuterale mais partielle de la conceptualisationde SO-Pharm

Annexe E

Captures drsquoeacutecrans de SNP-Converter

163

164 Annexe E Captures drsquoeacutecrans de SNP-Converter

F E1 ndash Capture drsquoeacutecran de SNP-Converter Lrsquoonglet preacutesenteacute srsquointitule Data integration Il propose deseacutelectionner une liste de sources de donneacutees et une portion du geacutenome un exon un intron un gegravene entierou un espace situeacute entre deux nucleacuteotides Lrsquoexeacutecution de la fonction drsquointeacutegration de donneacutees de SNP-Converter par le bouton Run permet lrsquoinstanciation drsquoune Base de Connaissances SNP-KB qui permetdrsquoeacutevaluer le recouvrement des donneacutees contenues dans les diffeacuterentes sources et repreacutesenteacutees dans lecadre intituleacute Database overlapp Par exemple le premier variant de la liste est initialement preacutesent dansles 4 sources de donneacutees seacutelectionneacutees le second est preacutesent uniquement dans PharmGKB le troisiegravemeest dans HGVBase et PharmGKB

165

F E2 ndash Capture drsquoeacutecran de SNP-Converter Lrsquoonglet preacutesenteacute srsquointitule Conversion Il propose de saisirla descritpion drsquoun variant ici Chr6 18251934GgtC et de choisir un type de description diffeacuterent pourdeacutecrire le variant ici la position par rapport agrave lrsquoexon Lrsquoexeacutecution par le biais du bouton Run construitla description du variant donneacutee selon la description demandeacutee TPMT_exon_6 129GgtC Le variantdonneacute en entreacutee peut ecirctre soit un identifiant drsquoune base de donneacutees soit ecirctre deacutecrit suivant la nomenclatureHGVS

F E3 ndash Capture drsquoeacutecran de SNP-Converter Lrsquoonglet est le mecircme que celui preacutesenteacute dans la FigureE2 Cette figure repreacutesente en plus les diffeacuterents type de description suivant lesquelles il est possiblede convertir le variant donneacute nomenclature HGVS du variant positionneacute relativement agrave la seacutequence duchromosome de contigs de lrsquoexon de lrsquointron de la proteacuteine ou encore lrsquoidentifiant du variant dansdbSNP

166 Annexe E Captures drsquoeacutecrans de SNP-Converter

Annexe F

Algorithme de parcours drsquoun graphedrsquoassertions

167

168 Annexe F Algorithme de parcours drsquoun graphe drsquoassertions

Description

Lrsquoalgorithme suivant permet lrsquoexploration en profondeur drsquoun graphe drsquoassertions Ga(V E) avec ndash une profondeur maximale pmax la longueur maximale drsquoun chemin est limiteacutee par pmax dont la

valeur est preacuteciseacutee par lrsquoanalyste en deacutebut de processusndash lrsquointerdiction de faire des boucles lrsquoalgorithme interdit agrave un mecircme chemin de passer deux fois

par le mecircme nœudndash lrsquointerdiction de revenir en arriegravere apregraves avoir emprunteacute un arc dans un sens lrsquoalgorithme interdit

drsquoemprunter lors de lrsquoeacutetape suivante un arc avec le mecircme label en sens inverseCet algorithme correspond agrave une exploration iteacuterative en profondeur limiteacutee notamment par les trois

critegraveres eacutenumeacutereacutes ci-dessus Pour plus de lisibiliteacute nous articulons notre algorithme en trois fonctions ndash Exploration-graphe-d-assertionndash Exploration-profondeur-limiteacutee etndash EPL-reacutecursive

La description de ces trois fonctions srsquoinspire des algorithmes drsquoexploration en profondeur limiteacutee pro-poseacutees dans le livre de Russel et Norvig [RN03]

169

Algorithme

Algorithme F1 Parcours en profondeur drsquoun graphe drsquoassertions

1 fonction Exploration-graphe-d-assertion(Ga dmax)retourne un ensemble de chemins

2 ensembleDeChemins ≔ empty initialisation3 pour chaque pro f ondeur 6 dmax

4 si Exploration-profondeur-limiteacutee interruption5 ensembleDeChemins ≔ ensembleDeChemins

cup Exploration-profondeur-limiteacutee(Ga pro f ondeur)6 fin si7 fin pour8 retourner ensembleDeChemins

9 fonction Exploration-profondeur-limiteacutee(Ga pro f ondeur)retourne un ensemble de chemins pour une profondeur donneacutee ou interruption

10 a ≔ Nœud-racine[Ga] a est le nœud racine du graphe Ga11 Vvisiteacute[Ga]≔ Vvisiteacute[Ga] cup b ensemble de nœud visiteacutes11 retourner EPL-reacutecursive(Ga a pro f ondeur) reacutesultat de la fonction EPL-reacutecursive

12 fonction EPL-reacutecursive(Ga x pro f ondeur)retourne un chemin ou interruption

13 Rminus ≔ NIL initialisation drsquoun arc Rminus14 pour chaque b isin Adjacent[x] pour chaque nœud adjacent agrave x15 si b lt Vvisiteacute[Ga] le nœud adjacent nrsquoa pas eacuteteacute visiteacute

et (x b) Rminus lrsquoarc (x b) nrsquoest pas lrsquoinverse du dernier arc emprunteacuteet Profondeur[b] 6 pro f ondeur lrsquoexploration respecte la limite

16 Vvisiteacute[Ga]≔ Vvisiteacute[Ga] cup a17 Rminus ≔ Inverse[(x b)] Rminus est lrsquoarc inverse de celui emprunteacute18 chemin ≔ AjouterNœud(chemin b)19 EPL-reacutecursive(Ga b pro f ondeur)20 retourner chemin

21 sinon22 retourner interruption23 fin si24 fin pour

170 Annexe F Algorithme de parcours drsquoun graphe drsquoassertions

Annexe G

Captures drsquoeacutecrans du plugin de Proteacutegeacute 4pour lrsquoAAR

171

172 Annexe G Captures drsquoeacutecrans du plugin de Proteacutegeacute 4 pour lrsquoAAR

F G1 ndash Capture drsquoeacutecran du plugin de Proteacutegeacute 4 pour lrsquoAnalyse drsquoAssertions de Rocircles

Annexe H

RMNR extraites de la relative agravelrsquoinvestigation clinique du montelukast

173

174 Annexe H RMNR extraites de la relative agrave lrsquoinvestigation clinique du montelukast

Regravegles associant des geacutenotypes

Regravegle H1 (supp=049 conf=1)

presents_clinical_item chr16_16045823T-T =gt presents_clinical_item chr16_16047215T-T

Regravegle H2 (supp=038 conf=96)

presents_clinical_item chr16_16047215C-T =gt presents_clinical_item chr16_16045823C-T

Regravegle H3 (supp=064 conf=095)

presents_clinical_item chr16_15994334C-C =gt presents_clinical_item chr16_15986618G-G

Regravegle H4 (supp=044 conf=090)

presents_clinical_item chr10_45190694C-T

presents_clinical_item chr10_45211490A-G =gt presents_clinical_item chr10_45221095A-G

Regravegle H5 (supp=041 conf=1)

presents_clinical_item chr10_45198914A-A

presents_clinical_item chr10_45221095A-G =gt presents_clinical_item chr10_45211490A-G

Regravegle H6 (supp=039 conf=086)

presents_clinical_item chrX_77367837A-A =gt presents_clinical_item chrX_77346486T-T

presents_clinical_item chrX_77389891G-G

presents_clinical_item chrX_77356650G-G

presents_clinical_item chrX_77334462A-A

Regravegle H7 (supp=031 conf=095)

presents_clinical_item chrX_77389891A-G

presents_clinical_item chrX_77367837A-G =gt presents_clinical_item chrX_77334462A-G

Regravegles associant geacutenotype pheacutenotype et traitement

Regravegle H8 (supp=020 conf=080)

presents_clinical_item chr12_94941021A-A

presents_clinical_item chr16_16143440C-G =gt presents_clinical_item ExaNo

is_enrolled_in_o_is_defined_by_o_is_composed_of

montelukast_treatment

175

Regravegle H9 (supp=021 conf=081)

presents_clinical_item chr10_45211490A-A =gt presents_clinical_item Per__-inf-008_

is_enrolled_in_o_is_defined_by_o_is_composed_of

montelukast_treatment

Regravegle H10 (supp=026 conf=080)

presents_clinical_item chrX_77334462A-G =gt presents_clinical_item chrX_77367837A-G

presents_clinical_item Per__-inf-008_

is_enrolled_in_o_is_defined_by_o_is_composed_of

montelukast_treatment

Regravegle H11 (supp=020 conf=1)

presents_clinical_item chr12_94941021A-G

presents_clinical_item ExaYes =gt presents_clinical_item chr16_16024772C-C

is_enrolled_in_o_is_defined_by_o_is_composed_of

montelukast_treatment

Regravegle H12 (supp=026 conf=075)

presents_clinical_item chr5_179153244A-C

presents_clinical_item ExaNo =gt presents_clinical_item chr16_16024772C-C

is_enrolled_in_o_is_defined_by_o_is_composed_of

montelukast_treatment

176 Annexe H RMNR extraites de la relative agrave lrsquoinvestigation clinique du montelukast

Bibliographie

[AAD+96] S Agarwal R Agrawal P Deshpande A Gupta JF Naughton R Ramakrishnan andS Sarawagi On the computation of multidimensional aggregates In VLDB rsquo96 Pro-

ceedings of the 22th International Conference on Very Large Data Bases pages 506ndash521San Francisco CA USA 1996 Morgan Kaufmann Publishers Inc

[ABB+00] M Ashburner CA Ball JA Blake D Botstein H Butler JM Cherry APDavis K Dolinski SS Dwight JT Eppig MA Harris DP Hill L Issel-TarverA Kasarskis S Lewis JC Matese JE Richardson M Ringwald GM Rubin andG Sherlock Gene Ontology tool for the unification of biology Nat Genet 25(1) 25ndash29 2000

[ABC+99] RB Altman M Bada XJ Chai M Whirl Carrillo RO Chen and NF Abernethy Ri-boWeb An ontology-based system for collaborative molecular biology IEEE Intelligent

Systems 14(5) 68ndash76 1999

[ABG+06] M Ackermann B Berendt Marko Grobelnik A Hotho D Mladenic G SemeraroM Spiliopoulou G Stumme V Svaacutetek and M van Someren editors Semantics Web

and Mining Joint International Workshops EWMF 2005 and KDO 2005 Porto Portu-

gal October 3 and 7 2005 Revised Selected Papers volume 4289 of Lecture Notes in

Computer Science Springer 2006

[ABH95] SS Anand DA Bell and JG Hughes The role of domain knowledge in data miningIn CIKMrsquo95 Proceedings of the fourth international conference on Information and

knowledge management pages 37ndash43 New York NY USA 1995 ACM

[AEB+08] E Antezana M Egantildea B De Baets M Kuiper and V Mironov ONTO-PERL AnAPI for supporting the development and analysis of bio-ontologies Bioinformatics24(6) 885ndash887 2008

[AFC99] DB Aronow F Fangfang and WB Croft Ad hoc classification of radiology reportsJ Am Med Inform Assoc 6(5) 393ndash411 1999

[AIS93] R Agrawal T Imielinski and AN Swami Mining association rules between sets ofitems in large databases In P Buneman and S Jajodia editors SIGMOD Conferencepages 207ndash216 ACM Press 1993

[AK02] RB Altman and T Klein Challenges for biomedical informatics and pharmacoge-nomics Annu Rev Pharmacol Toxicol 42 113ndash33 2002

[AMB06] Y An J Mylopoulos and A Borgida Building semantic mappings from databases toontologies In AAAI AAAI Press 2006

[BA96] RJ Brachman and T Anand The process of knowledge discovery in databases InUM Fayyad G Piatetsky-Shapiro P Smyth and R Uthurusamy editors Advances in

Knowledge Discovery and Data Mining pages 37ndash57 AAAIMIT Press 1996

177

178 Bibliographie

[Bar02] MR Barnes SNP and mutation data on the Web - hidden treasures for uncoveringComp Funct Genomics 3(1) 67ndash74 2002

[Bat08] A Bateman Editorial Nucleic Acids Research 36(Database issue D1) 2008

[Bax06] AD Baxevanis Searching the NCBI databases using Entrez Curr Protoc Bioinfor-

matics 1(3) 2006

[BB06] CA Ball and A Brazma Mged standards work in progress Omics 10 138ndash44 2006

[BBL05] F Baader S Brandt and C Lutz Pushing the EL envelope In Kaelbling and Saffiotti[KS05] pages 364ndash369

[BC08] BioPAX Consortium BioPAX Biological pathways exchange http wwwbiopaxorg(derniegravere consultation 14 juillet 2008)

[BCBF08] A Bairoch S Cohen-Boulakia and C Froidevaux editors Data Integration in the

Life Sciences 5th International Workshop DILS 2008 Evry France June 25-27 2008

Proceedings volume 5109 of Lecture Notes in Computer Science Springer 2008

[BCGP04] J Barrasa O Corcho and A Goacutemez-Peacuterez R2O an extensible and semantically baseddatabase-to-ontology mapping language In Semantic Web and Databases Second Inter-

national Workshop SWDB 2004 Toronto Canada 2004

[BCM+03] F Baader D Calvanese DL McGuinness D Nardi and PF Patel-Schneider editorsThe Description Logic Handbook Theory Implementation and Applications Cam-bridge University Press 2003

[BCM05] P Buitelaar P Cimiano and B Magnini Ontology Learning from Text Methods Eval-

uation and Applications volume 123 of Frontiers in Artificial Intelligence IOS Press2005

[BDdG94] P Benlian F Dairou and JL de Gennes Apports de la geacuteneacutetique moleacuteculaire dans leshypercholesteacuteroleacutemies pures primitives Bulletin de lrsquoAcadeacutemie nationale de meacutedecine178(3) 393ndash404 Mar 1994

[BdLM08] F Badra M drsquoAquin J Lieber and T Meilender EdHibou a customizable interfacefor decision support in a semantic portal In International Semantic Web Conference

poster 2008

[BFG+04] P Buitelaar J Franke M Grobelnik G Paass and V Svatek editors Proceedings of

the Workshop on Knowledge Discovery and Ontologies at ECMLPKDDrsquo04 Pisa ItalySeptember 2004

[BFMD05] J C Barrett B Fry J Maller and M J Daly Haploview analysis and visualization ofLD and haplotype maps Bioinformatics 21(2) 263ndash5 Jan 2005

[BGL08] F Baader S Ghilardi and C Lutz LTL over description logic axioms In Baader et al[BLM08]

[BGSS07] F Baader B Ganter B Sertkaya and U Sattler Completing description logic knowl-edge bases using formal concept analysis In MM Veloso editor IJCAI pages 230ndash2352007

[BGvH+03] P Bouquet F Giunchiglia F van Harmelen L Serafini and H Stuckenschmidt C-owl Contextualizing ontologies In D Fensel KP Sycara and J Mylopoulos editorsInternational Semantic Web Conference volume 2870 of Lecture Notes in Computer

Science pages 164ndash179 Springer 2003

[BHS02] B Berendt A Hotho and G Stumme editors Proceedings of the Workshop on Semantic

Web Mining (SWMrsquo02 at ECMLPKDDrsquo02) Helsinki Finland August 2002

179

[BKvH02] J Broekstra A Kampman and F van Harmelen Sesame A generic architecture forstoring and querying RDF and RDF Schema In I Horrocks and JA Hendler editorsInternational Semantic Web Conference volume 2342 of Lecture Notes in Computer

Science pages 54ndash68 Springer 2002

[BLHL01] T Berners-Lee J Hendler and O Lassila The semantic Web Scientific American284(5) 35ndash43 May 2001

[BLM08] F Baader C Lutz and B Motik editors Proceedings of the 21st International Workshop

on Description Logics (DL2008) Dresden Germany May 13-16 2008 volume 353 ofCEUR Workshop Proceedings CEUR-WSorg 2008

[BPH05] A Bernstein FJ Provost and S Hill Toward intelligent assistance for a data min-ing process An ontology-based approach for cost-sensitive classification IEEE Trans

Knowl Data Eng 17(4) 503ndash518 2005

[Bri06] L Brisson Inteacutegration de connaissances expertes dans un processus de fouille de don-

neacutees pour lrsquoextraction drsquoinformations pertinentes Thegravese en informatique Universiteacute deNice - Sophia Antipolis France Deacutec 2006

[BS85] RJ Brachman and JG Schmolze An overview of the KL-ONE knowledge representa-tion system Cognitive Science 9(2) 171ndash216 1985

[BS04] F Baader and B Sertkaya Applying formal concept analysis to description logics InEklund [Ekl04] pages 261ndash286

[BSc07] B Berendt V Svagravetek and F Zelezny editors Proceedings of the Workshop on Prior

Conceptual Knowledge in Machine Learning and Knowledge Discovery (PriCKLrsquo07) at

ECMLPKDDrsquo07 Warsaw Poland September 2007

[BTN08] R Bendaoud Y Toussaint and A Napoli PACTOLE A methodology and a systemfor semi-automatically enriching an ontology from a collection of texts In PW Eklundand O Haemmerleacute editors ICCS volume 5113 of Lecture Notes in Computer Sciencepages 203ndash216 Springer 2008

[CBBDF07] S Cohen-Boulakia O Biton SB Davidson and C Froidevaux BioGuideSRS query-ing multiple sources with a user-centric perspective Bioinformatics 23(10) 1301ndash13032007

[CCH01] P Clerkin P Cunningham and P Hayes Ontology discovery for the semantic Webusing hierarchical clustering In Bettina Berendt Gerd Stumme Andreas Hotho editorProceedings of the Workshop on Semantic Web Mining (SWMrsquo01 at ECMLPKDDrsquo01)pages 27ndash38 Freiburg Germany September 2001

[CCQF05] J Chabalier C Capponi Y Quentin and G Fichant ISYMOD a knowledge warehousefor the identification assembly and analysis of bacterial integrated systems Bioinformat-

ics 21(7) 1246ndash1256 2005

[CFCH01] WW Chapman M Fizman BE Chapman and PJ Haug A comparison of classifica-tion algorithms to automatically identify chest x-ray reports that support pneumonia J

Biomed Inform 34(1) 4ndash14 2001

[CG05] D Calvanese and G De Giacomo Data integration A logic-based perspective AI

Magazine 26(1) 59ndash70 2005

[CGL+98] D Calvanese G De Giacomo M Lenzerini D Nardi and R Rosati Description logicframework for information integration In KR pages 2ndash13 1998

180 Bibliographie

[CGL+01] D Calvanese G De Giacomo M Lenzerini D Nardi and R Rosati Data integrationin data warehousing Int J Cooperative Inf Syst 10(3) 237ndash271 2001

[CGL+06] D Calvanese G De Giacomo D Lembo M Lenzerini and R Rosati Data complexityof query answering in description logics In P Doherty J Mylopoulos and CA Weltyeditors KR pages 260ndash270 AAAI Press 2006

[CGL+07] D Calvanese G De Giacomo D Lembo M Lenzerini and R Rosati Tractable rea-soning and efficient query answering in description logics The l-lite family J Autom

Reasoning 39(3) 385ndash429 2007

[CGLR04] D Calvanese G De Giacomo M Lenzerini and R Rosati Logical foundations ofpeer-to-peer data integration In A Deutsch editor PODS pages 241ndash251 ACM 2004

[CGLV01] D Calvanese G De Giacomo M Lenzerini and MY Vardi View-based query answer-ing and query containment over semistructured data In G Ghelli and G Grahne editorsDBPL volume 2397 of Lecture Notes in Computer Science pages 40ndash61 Springer 2001

[CHS05] P Cimiano A Hotho and S Staab Learning concept hierarchies from text corporausing formal concept analysis Journal of the Artifical Intelligence Research 24 305ndash339 2005

[CHST04] P Cimiano A Hotho G Stumme and J Tane Conceptual knowledge processing withformal concept analysis and ontologies In Eklund [Ekl04] pages 189ndash207

[CLC+06] TA Clayton JC Lindon O Cloarec H Antti C Charuel G Hanton JP Provost JLLe Net D Baker RJ Walley JR Everett and JK Nicholson Pharmaco-metabonomicphenotyping and personalized drug treatment Nature 440(7087) 1073ndash1077 2006

[CMF+07] G Colombo D Merico G Frisoni M Antoniotti F De Paoli and G Mauri An on-tological modeling approach to neurovascular disease study the NEUROWEB case InProceedings of the International Workshop on Network Tools and Applications in Biol-

ogy (NETTABrsquo07) pages 177ndash186 Pisa Italy 2007

[Con01] The International Human Genome Sequencing Consortium Initial sequencing and anal-ysis of the human genome Nature 409 860ndash921 2001

[Con03] The International HapMap Consortium The International HapMap Project Nature426 789ndash796 2003

[Con05] The International HapMap Consortium A second generation human haplotype map ofover 31 million snps Nature 449(7164) 851ndash861 2005

[CR04] C Carpineto and G Romano Concept Data Analysis Theory and Applications JohnWiley amp Sons Chichester England 2004

[CRS+04] H Cespivova J Rauch V Svatek M Kejkula and M Tomeckova Roles of medical on-tology in association mining CRISP-DM Cycle In P Buitelaar J Franke M GrobelnikG Paass and V Svatek editors Proceedings of the Workshop on Knowledge Discovery

and Ontologies at ECMLPKDDrsquo04 Pisa Italy September 2004

[CSTB+06] A Coulet M Smaiumll-Tabbone P Benlian A Napoli and MD Devignes SNP-Converter An ontology-based solution to reconcile heterogeneous SNP descriptions forpharmacogenomic studies In U Leser F Naumann and BA Eckman editors DILSvolume 4075 of Lecture Notes in Computer Science pages 82ndash93 Springer 2006

[CSTB+08] A Coulet M Smaiumll-Tabbone P Benlian A Napoli and MD Devignes Ontology-guided data preparation for discovering genotype-phenotype relationships BMC Bioin-

formatics 9(Suppl 4) S3 2008

181

[CSTND06] A Coulet M Smaiumll-Tabbone A Napoli and MD Devignes Suggested Ontologyfor Pharmacogenomics (SO-Pharm) Modular construction and preliminary testing InProceedings of the International Workshop on Knowledge Systems in Bioinformatics -

KSinBITrsquo06 volume LNCS 4277 pages 648ndash57 2006

[CSTND08a] A Coulet M Smaiumll-Tabbone A Napoli and MD Devignes Ontology refinementthrough Role Assertion Analysis Example in pharmacogenomics In Baader et al[BLM08]

[CSTND08b] A Coulet M Smaiumll-Tabbone A Napoli and MD Devignes Role Assertion Analysis a proposed method for ontology refinement through assertion learning In Proceedings

of the Fourth Starting AI Researchersrsquo Symposium (STAIRS 2008) pages 47ndash58 IOSPress 2008

[CWT06] TH Cheng CP Wei and VS Tseng Feature selection for medical data mining Com-parisons of expert judgment and automatic approaches In CBMS pages 165ndash170 IEEEComputer Society 2006

[dBL+07] M drsquoAquin F Badra S Lafrogne J Lieber A Napoli and L Szathmary Case basemining for adaptation knowledge acquisition In Proc of the 20th Intl Joint Conf on

Artificial Intelligence (IJCAIrsquo07) pages 750ndash755 Hyderabad India Jan 2007 MorganKaufmann Inc

[DCGR98] R Dieng O Corby A Giboin and M Ribiegravere Methods and tools for corporate knowl-edge management Technical Report RR-3485 INRIA 1998

[dDA00] J den Dunnen and S Antonarakis Mutation nomenclature extensions and suggestions todescribe complex mutations a discussion Hum Mutat 15(1) 7ndash12 2000

[dDP03] J den Dunnen and M Paalman Standardizing mutation nomenclature why bother Hum Mutat 22(3) 181ndash182 2003

[Dev99] KJ Devlin Infosense Turning Information into Knowledge W H Freeman amp CoNew York NY USA 1999

[DGDM91] J Desmeules MP Gascon P Dayer and M Magistris Impact of environmental andgenetic factors on codeine analgesia Eur J Clin Pharmacol 41(1) 23ndash6 1991

[dLN07] M drsquoAquin J Lieber and A Napoli La repreacutesentation de points de vue dans le systegravemedrsquoaide agrave la deacutecision en canceacuterologie KASIMIR In Special issue Vues Points de vue

rocircles et paradigmes proches Du concept agrave son exploitation volume 13 pages 143ndash175Hermes - Lavoisier 2007

[DMS05] F Dau ML Mugnier and G Stumme editors Conceptual Structures Common Se-

mantics for Sharing Knowledge 13th International Conference on Conceptual Struc-

tures ICCS 2005 Kassel Germany July 18-22 2005 Proceedings volume 3596 ofLecture Notes in Computer Science Springer-Verlag Berlin Heidelberg 2005

[DPW08] M Dibernardo R Pottinger and M Wilkinson Semi-automatic Web service compo-sition for the life sciences using the BioMoby semantic Web framework J Biomed

Inform March 2008

[DQ86] R Ducournau and J Quinqueton encore un langage agrave objets agrave base de framesTechnical Report 72 INRIA 1986

[DS08] K Dellschaft and S Staab Strategies for the Evaluation of Ontology Learning IOSPress 2008

182 Bibliographie

[Duc00] R Ducournau Des langages agrave objets aux logiques terminologiques les systegravemes clas-sificatoires In Rapport de Recherche 96ndash030 LIRMM Montpellier 2000

[EA93] T Etzold and P Argos SRS - an indexing and retrieval tool for flat file data librariesComputer Applications in the Biosciences 9(1) 49ndash57 1993

[ea01] J Craig Venter et al The sequence of the human genome Science 291 1304ndash13512001

[Ekl04] PW Eklund editor Concept Lattices Second International Conference on Formal Con-

cept Analysis ICFCA 2004 Sydney Australia February 23-26 2004 Proceedings vol-ume 2961 of Lecture Notes in Computer Science Springer 2004

[ER95] J Euzenat and F Rechenmann SHIRKA 10 ans crsquoest TROPES In A Napoli editorLMO pages 13ndash34 INRIA 1995

[ER99] WE Evans and MV Relling Pharmacogenomics translating functional genomics intorational therapeutics Science 286(5439) 487ndash91 1999

[ER04] WE Evans and MV Relling Moving towards individualized medicine with pharma-cogenomics Nature 429 464ndash468 2004

[ES07] J Euzenat and P Shvaiko Ontology Matching Springer 2007

[FdE08] N Fanizzi C drsquoAmato and F Esposito Conceptual clustering and its application toconcept drift and novelty detection In S Bechhofer M Hauswirth J Hoffmann andM Koubarakis editors ESWC volume 5021 of Lecture Notes in Computer Sciencepages 318ndash332 Springer 2008

[FFR97] A Farquhar R Fikes and J Rice The Ontolingua Server a tool for collaborativeontology construction Int J Hum-Comput Stud 46(6) 707ndash727 1997

[FGPJ97] M Fernandez A Gomez-Perez and N Juristo METHONTOLOGY from ontologicalart towards ontological engineering In Proceedings of the AAAI97 Spring Symposium

Series on Ontological Engineering pages 33ndash40 Stanford USA 1997

[Fis87] DH Fisher Knowledge acquisition via incremental conceptual clustering Machine

Learning 2(2) 139ndash172 1987

[Flo05] CS Flordellis The emergence of a new paradigm of pharmacogenomics Pharmacoge-

nomics 6(5) 515ndash526 2005

[Fou08] The OBO Foundry OBO Foundry policy document Technical report 2008

[FPSM91] WJ Frawley G Piatetsky-Shapiro and CJ Matheus Knowledge discovery indatabases An overview In Knowledge Discovery in Databases pages 1ndash30 AAAIMITPress 1991

[FPSS96] UM Fayyad G Piatetsky-Shapiro and P Smyth From data mining to knowledgediscovery An overview In Fayyad et al [FPSSU96] pages 1ndash34

[FPSSU96] UM Fayyad G Piatetsky-Shapiro P Smyth and R Uthurusamy editors Advances in

Knowledge Discovery and Data Mining AAAIMIT Press 1996

[Fre98] AA Freitas On objective measures of rule surprisingness In Zytkow and Quafafou[ZQ98] pages 1ndash9

[FRS05] S Ferreacute O Ridoux and B Sigonneau Arbitrary relations in formal concept analysisand logical information systems In Dau et al [DMS05] pages 166ndash180

183

[Gai89] BR Gaines An ounce of knowledge is worth a ton of data quantitative studies ofthe trade-off between expertise and data based on statistically well-founded empiricalinduction In Proceedings of the sixth international workshop on Machine learningpages 156ndash159 San Francisco CA USA 1989 Morgan Kaufmann Publishers Inc

[Gan84] B Ganter Two basic algorithms in concept analysis Technical report TechnischeHochschule Darmstadt 1984

[Gan05] A Gangemi Ontology design patterns for semantic Web content In Y Gil E MottaV Richard Benjamins and MA Musen editors International Semantic Web Confer-

ence volume 3729 of Lecture Notes in Computer Science pages 262ndash276 Springer2005

[GBe07] KM Giacomini CM Brett and RB Altman et al The pharmacogenetics researchnetwork from SNP discovery to clinical drug response Clinical pharmacology and ther-

apeutics 81(3) 328ndash45 2007

[GCCL06] A Gangemi C Catenacci M Ciaramita and J Lehmann Modelling ontology evalua-tion and validation In Y Sure and J Domingue editors ESWC volume 4011 of Lecture

Notes in Computer Science pages 140ndash154 Springer 2006

[GDF+04] Y Gasche Y Daali M Fathi A Chiappe S Cottini P Dayer and J DesmeulesCodeine intoxication associated with ultrarapid cyp2d6 metabolism N Engl J Med351(27) 2827ndash31 2004

[GE03] I Guyon and A Elisseeff An introduction to variable and feature selection Journal of

Machine Learning Research 3 1157ndash1182 2003

[GKM04] P Gottgtroy N Kasabov and S MacDonell An ontology driven approach for knowl-edge discovery in biomedicine In Proceedings of the 8th Pacific Rim International Con-

ference on Artificial Intelligence volume LNAI 3157 pages 53ndash67 Berlin Germany2004 Springer

[GMB+05] E Gueacuterin G Marquet A Burgun O Loreacuteal L Berti-Equille U Leser and F Mous-souni Integrating and warehousing liver gene expression data and related biomedicalresources in gedaw In B Ludaumlscher and L Raschid editors DILS volume 3615 ofLecture Notes in Computer Science pages 158ndash174 Springer 2005

[GPCGFL03] A Gomez-Perez O Corcho-Garcia and M Fernandez-Lopez Ontological Engineer-

ing Springer-Verlag New York Inc Secaucus NJ USA 2003

[Gru93] TR Gruber A translation approach to portable ontology specifications Knowledge

Acquisition 5(2) 199ndash220 1993

[GS08] C Goble and R Stevens State of the nation in data integration for bioinformatics J

Biomed Inform February 2008

[GSC+08] RA George TD Smith S Callaghan L Hardman C Pierides O Horaitis MAWouters and Cotton RG General mutation databases analysis and review Journal

of Medical Genetics 45(2) 65ndash70 2008

[GSK+88] FJ Gonzalez RC Skoda S Kimura M Umeno UM Zanger DW Nebert HVGelboin JP Hardwick and UA Meyer Characterization of the common genetic defectin humans deficient in debrisoquine metabolism Nature 331(6155) 442ndash446 1988

[GVM93] A Gueacutenoche and I Van Mechelen Galois approach to the induction of concepts InCategories and concepts Theorical views and inductive data analysis pages 287ndash308Academic Press 1993

184 Bibliographie

[GW99] B Ganter and R Wille Formal Concept Analysis Mathematical Foundations Springer1999

[GW04] C Goble and C Wroe The Montagues and the Capulets Conference papers Comp

Funct Genomics 5(8) 623ndash632 2004

[Hac04] MS Hacid Special issue on Web data integration Introduction Information Systems29(1) 1ndash2 2004

[Hal01] AY Halevy Answering queries using views A survey VLDB J 10(4) 270ndash294 2001

[Hal05] AY Halevy Why your data wonrsquot mix ACM Queue 3(8) 50ndash58 2005

[HBWCH+08] T Hernandez-Boussard M Whirl-Carrillo JM Hebert L Gong R Owen M GongW Gor F Liu C Truong R Whaley M Woon T Zhou RB Altman and TEKlein The pharmacogenetics and pharmacogenomics knowledge base accentuatingthe knowledge Nucleic Acids Res 36(Database issue) D913ndashD918 2008

[HF94] J Han and Y Fu Dynamic generation and refinement of concept hierarchies for knowl-edge discovery in databases In Proceedings of AAAIrsquo94 Workshop on Knowledge Dis-

covery in Databases (KDDrsquo94) pages 157ndash168 1994

[HHNV07] M Rouane Hacene M Huchard A Napoli and P Valtchev A proposal for combin-ing formal concept analysis and description logics for mining relational data In SOKuznetsov and S Schmidt editors ICFCA volume 4390 of Lecture Notes in Computer

Science pages 51ndash65 Springer 2007

[HJ02] HJMotulsky Biostatistique une approche intuitive De Boeck Universiteacute 2002

[HK01] J Han and M Kamber Data Mining Concepts and Techniques Morgan Kaufmann2001

[HLTB04] I Horrocks L Li D Turi and S Bechhofer The Instance Store DL reasoning withlarge numbers of individuals In V Haarslev and R Moumlller editors Description Logicsvolume 104 of CEUR Workshop Proceedings CEUR-WSorg 2004

[HM03] V Haarslev and R Moumlller Racer A core inference engine for the semantic WebIn Y Sure and O Corcho editors EON volume 87 of CEUR Workshop ProceedingsCEUR-WSorg 2003

[HMS05] U Hustadt B Motik and U Sattler Data complexity of reasoning in very expressivedescription logics In Kaelbling and Saffiotti [KS05] pages 466ndash471

[Hor07] I Horrocks OBO flat file format syntax and semantics and mapping to OWL Webontology language Technical report University of Manchester 2007

[HPSvH03] I Horrocks P F Patel-Schneider and F van Harmelen FromSHIQ and RDF to OWL the making of a web ontology language J Web Sem 1(1) 7ndash26 2003

[HRT+05] ML Hastings N Rest D Traum A Stella G Guanti and AR Krainer An LKBI AT-AC intron mutation causes Peutz-Jeghers syndrome via splicing at noncanonical crypticsplice site Struct Mol Biol 12(1) 54ndash59 2005

[HSS06] BM Hemminger B Saelim and PF Sullivan TAMAL an integrated approach tochoosing SNPs for genetic studies of human complex traits Bioinformatics 22(5) 626ndash627 2006

[HVK+02] MK Higashi DL Veenstra LM Kondo AK Wittkowsky SL SrinouanprachanhFM Farin and AE Rettie Association between CYP2C9 genetic variants andanticoagulation-related outcomes during warfarin therapy JAMA 287(13) 1690ndash16982002

185

[HY90] R Hull and M Yoshikawa Ilog Declarative creation and manipulation of object iden-tifiers In D McLeod R Sacks-Davis and HJ Schek editors VLDB pages 455ndash468Morgan Kaufmann 1990

[JKN08] N Jay F Kohler and A Napoli Analysis of social communities with iceberg andstability-based concept lattices In Medina and Obiedkov [MO08] pages 258ndash272

[KAB06] L Karoui MA Aufaure and N Bennacer Context-based hierarchical clustering for theontology learning In Web Intelligence pages 420ndash427 IEEE Computer Society 2006

[KACV+04] PD Karp M Arnaud J Collado-Vides J Ingraham IT Paulsen and MH Jr SaierThe E coli EcoCyc database No longer just a metabolic pathway database ASM News70(1) 25ndash30 2004

[Kay97] D Kayser La repreacutesentation des connaissances collection informatique hermegraves edi-tion 1997

[KCH+02] P Kogut S Cranefield L Hart M Dutra K Baclawski M Kokar and J Smith UMLfor ontology development Knowl Eng Rev 17(1) 61ndash64 2002

[KDK+05] R Karchin M Diekhans L Kelly DJ Thomas U Pieper N Eswar D Haussler andA Sali LS-SNP large-scale annotation of coding non-synonymous SNPs based onmultiple information sources Bioinformatics 21(12) 2814ndash2820 2005

[KFNM04] H Knublauch RW Fergerson N Fridman Noy and MA Musen The Proteacutegeacute OWLplugin An open development environment for semantic Web applications In SA McIl-raith D Plexousakis and F van Harmelen editors International Semantic Web Confer-

ence volume 3298 of Lecture Notes in Computer Science pages 229ndash243 Springer2004

[KJ97] R Kohavi and GH John Wrappers for feature subset selection Artif Intell 97(1ndash2) 273ndash324 1997

[KK07] F Karel and J Klema Quantitative association rule mining in genomics using apri-ori knowledge In Workshop on Prior Conceptual Knowledge in Machine Learning

and Knowledge Discovery (PriCKLrsquo07) at ECMLPKDD 2007 pages 53ndash64 WarsawPoland September 2007

[KKS+04] A Kasprzyk D Keefe D Smedley D London W Spooner C Melsopp M HammondP Rocca-Serra T Cox and E Birney Ensmart A generic system for fast and flexibleaccess to biological data Genome Res 14(1) 160ndash169 2004

[KLW08] PD Karp TJ Lee and V Wagner BioWarehouse Relational integration of elevenbioinformatics databases and formats In Bairoch et al [BCBF08] pages 5ndash7

[KLWW08] B Konev C Lutz D Walther and F Wolter Semantic modularity and module extractionin description logics In ECAI 2008 18th European Conference on Artificial Intelligence

Patras Greece Proceedings pages 55ndash59 2008

[KN01] L Kruglyak and DA Nickerson Variation is the spice of life Nature Genetics 27 234ndash236 2001

[KO02] SO Kuznetsov and SA Obiedkov Comparing performance of algorithms for generat-ing concept lattices J Exp Theor Artif Intell 14(2ndash3) 189ndash216 2002

[KPL03] J Koumlhler S Philippi and M Lange SEMEDA ontology based semantic integration ofbiological databases Bioinformatics 19(18) 2420ndash2427 2003

[KPS+06] A Kalyanpur B Parsia E Sirin B Cuenca Grau and JA Hendler Swoop A Webontology editing browser J Web Sem 4(2) 144ndash153 2006

186 Bibliographie

[Kry02] M Kryszkiewicz Concise representations of association rules In Proceedings of the

ESF Exploratory Workshop on Pattern Detection and Discovery pages 92ndash109 LondonUK 2002 Springer-Verlag

[KS05] L Pack Kaelbling and A Saffiotti editors IJCAI-05 Proceedings of the Nineteenth

International Joint Conference on Artificial Intelligence Edinburgh Scotland UK July

30-August 5 2005 Professional Book Center 2005

[Kuz07] SO Kuznetsov On stability of a formal concept Ann Math Artif Intell 49(1ndash4) 101ndash115 2007

[Len02] M Lenzerini Data integration A theoretical perspective In L Popa editor PODSpages 233ndash246 ACM 2002

[LFZ99] N Lavrac PA Flach and B Zupan Rule evaluation measures A unifying view InS Dzeroski and PA Flach editors ILP volume 1634 of Lecture Notes in Computer

Science pages 174ndash185 Springer 1999

[LHCM00] B Liu W Hsu S Chen and Y Ma Analyzing the subjective interestingness of associ-ation rules IEEE Intelligent Systems 15(5) 47ndash55 2000

[LN05] U Leser and F Naumann (almost) hands-off information integration for the life sci-ences In CIDR pages 131ndash143 2005

[LNST08] J Lieber A Napoli L Szathmary and Y Toussaint First elements on KnowledgeDiscovery guided by Domain Knowledge (kddk) In S B Yahia E M Nguifo andR Belohlavek editors Concept Lattices and Their Applications (CLA 06) Lecture Notesin Artificial Intelligence 4923 pages 22ndash41 Springer Berlin 2008

[LWZ08] C Lutz F Wolter and M Zakharyaschev Temporal description logics A survey InProceedings of the 15th International Symposium on Temporal Representation and Rea-

soning time pages 3ndash14 2008

[LY05] H Liu and L Yu Toward integrating feature selection algorithms for classification andclustering IEEE Trans Knowl Data Eng 17(4) 491ndash502 2005

[LZG+06] JJ Lima S Zhang A Grant L Shao KG Tantisira H Allayee J Wang J SylvesterJ Holbrook R Wise ST Weiss and K Barnes Influence of leukotriene pathwaypolymorphisms on response to montelukast in asthma Am J Respir Crit Care Med173(4) 379ndash85 2006

[Mar03] FM Marincola Translational medicine A two-way road Journal of Translational

Medicine 1(1) 1 2003

[Mau06] S Maumus Approche de la complexiteacute du syndrome meacutetabolique et de ses indicateurs

de risque par la mise en oeuvre de meacutethodes numeacuteriques et symboliques de fouille de

donneacutees Thegravese en eacutepideacutemiologie et santeacute publique Universiteacute Henri Poincareacute ndash Nancy1 France Nov 2006

[MBB+08] F Mougin A Burgun O Bodenreider J Chabalier O Loreacuteal and P Le Beux Auto-matic methods for integrating biomedical data sources in a mediator-based system InBairoch et al [BCBF08] pages 61ndash76

[McG05] Ken McGarry A survey of interestingness measures for knowledge discovery The

Knowledge Engineering Review 20(1) 39ndash61 2005

[McK98] VA McKusick Mendelian inheritance in man a catalog of human genes and geneticdisorders 1998

187

[MD07a] D Martin and J Domingue Semantic Web services Part 1 IEEE Intelligent Systems22(5) 12ndash17 2007

[MD07b] D Martin and J Domingue Semantic Web services Part 2 IEEE Intelligent Systems22(6) 8ndash15 2007

[MDNST05] N Messai MD Devignes A Napoli and M Smaiumll-Tabbone Querying a bioinformaticdata sources registry with concept lattices In Dau et al [DMS05] pages 323ndash336

[MFJ+07] MD Mailman M Feolo Y Jin M Kimura K Tryka R Bagoutdinov L HaoA Kiang J Paschall L Phan N Popova S Pretel L Ziyabari M Lee Y Shao ZYWang K Sirotkin M Ward M Kholodov K Zbicz J Beck M Kimelman S ShevelevD Preuss E Yaschenko A Graeff J Ostell and ST Sherry The NCBI dbGaP databaseof genotypes and phenotypes Nat Genet 39(10) 1181ndash1186 2007

[MK08] P Hitzler M Kroumltzsch S Rudolph Description logic rules In ECAI 2008 18th Eu-

ropean Conference on Artificial Intelligence 2008 Patras Greece Proceedings pages80ndash84 2008

[MKS04] HM Muumlller EE Kenny and PW Sternberg Textpresso an ontology-based infor-mation retrieval and extraction system for biological literature PLoS Biol 2(11) e3092004

[MMK+03] RH Mathijssen S Marsh MO Karlsson R Xie SD Baker J Verweij A Spar-reboom and HL McLeod Irinotecan pathway genotype analysis to predict pharma-cokinetics Clin Cancer Res 9(9) 3246ndash3253 2003

[MO08] R Medina and SA Obiedkov editors Formal Concept Analysis 6th International Con-

ference ICFCA 2008 Montreal Canada February 25-28 2008 Proceedings volume4933 of Lecture Notes in Computer Science Springer 2008

[MTB+99] I Martinelli E Taioli P Bucciarelli S Akhavan and PM Mannucci Interaction be-tween the G20210A mutation of the prothrombin gene and oral contraceptive use in deepvein thrombosis Arterioscler Thromb Vasc Biol 19(3) 700ndash703 1999

[Mug91] Stephen Muggleton Inductive Logic Programming New Generation Comput 8(4) 2951991

[MVB+95] C Meacutedigue T Vermat G Bisson A Viari and A Danchin Cooperative computersystem for genome sequence analysis In CJ Rawlings DA Clark RB AltmanL Hunter T Lengauer and SJ Wodak editors ISMB pages 249ndash258 AAAI 1995

[MZCC04] AA Mitchell ME Zwick A Chakravarti and DJ Cutler Discrepancies in dbSNPconfirmation rates and allele frequency distributions from varying genotyping error ratesand patterns Bioinformatics 20(7) 1022ndash1032 2004

[Nap92] A Napoli Repreacutesentations agrave objets et raisonnement par classification en intelligence ar-

tificielle Doctorat drsquoeacutetat egraves sciences matheacutematiques Universiteacute Henri Poincareacute ndash Nancy1 France Jan 1992

[NB04] Z Nazeri and E Bloedorn Exploiting available domain knowledge to improve min-ing aviation safety and network security data In P Buitelaar J Franke M GrobelnikG Paass and V Svatek editors Proceedings of the Workshop on Knowledge Discovery

and Ontologies at ECMLPKDDrsquo04 Pisa Italy September 2004

[NBS+06] MCY Ng L Baum WY So VKL Lam Y Wang E Poon B Tomlinson S ChengK Lindpaintner and JCN Chan Association of lipoprotein lipase S447X apolipopro-tein E exon 4 and apoC3 -455T-C polymorphisms on the susceptibility to diabeticnephropathy Clin Genet 70 20ndash28 2006

188 Bibliographie

[NED00] A Napoli J Euzenat and R Ducournau Les repreacutesentations des connaissances parobjets Technique et Science Informatiques 19(1ndash3) 387ndash394 2000

[NM01] N F Noy and D McGuinness Ontology development 101 A guide to creating yourfirst ontology Technical report 2001

[NMG05] AC Need AG Motulsky and DB Goldstein Priorities and standards in pharmacoge-netic research Nat Genet 37(7) 671ndash81 2005

[NR06] N F Noy and A Rector Defining n-ary relations on the semantic Web Technical reportW3C 2006

[Ome01] B Omelayenko Learning of ontologies for the Web the analysis of existent approaches2001

[ORS+02] DE Oliver DL Rubin JM Stuart M Hewett TE Klein and RB Altman On-tology development for a pharmacogenetics knowledge base In Pacific Symposium on

Biocomputing pages 65ndash76 2002

[ORT08] RP Owen Altman RB and Klein TE PharmGKB and the international warfarinpharmacogenetics consortium the changing role for pharmacogenomic databases andsingle-drug pharmacogenetics Hum Mutat 29(4) 456ndash460 2008

[PB01] J Phillips and BG Buchanan Ontology-guided knowledge discovery in databasesIn K-CAPrsquo01 Proceedings of the 1st international conference on Knowledge capturepages 123ndash130 New York NY USA 2001 ACM

[PGC+01] M Page J Gensel C Capponi C Bruley P Genoud D Zieacutebelin D Bardou andV Dupierris A new approach in object-based knowledge representation The AROMsystem In L Monostori J Vaacutencza and M Ali editors IEAAIE volume 2070 of Lec-

ture Notes in Computer Science pages 113ndash118 Springer 2001

[PLC+08] A Poggi D Lembo D Calvanese G De Giacomo M Lenzerini and R Rosati Link-ing data to ontologies J Data Semantics 10 133ndash173 2008

[PRAC06] D Peacuterez-Rey A Anguita and J Crespo Ontodataclean Ontology-based integrationand preprocessing of distributed data In N Maglaveras I Chouvarda V Koutkias andRW Brause editors ISBMDA volume 4345 of Lecture Notes in Computer Sciencepages 262ndash272 Springer 2006

[RAC+06] MC Rousset P Adjiman P Chatalic F Goasdoueacute and L Simon Somewhere in thesemantic Web In J Wiedermann G Tel J Pokornyacute M Bielikovaacute and J Stuller editorsSOFSEM volume 3831 of Lecture Notes in Computer Science pages 84ndash99 Springer2006

[RBJ00] J Rumbaugh G Booch and I Jacobson Le guide de lrsquoutilisateur UML Eyrolles 2000

[RDM05] DL Rubin O Dameron and MA Musen Use of description logic classification toreason about consequences of penetrating injuries In Proceedings of the AMIA Annu

Symp pages 649ndash653 2005

[Rec00] F Rechenmann From data to knowledge Bioinformatics 16(5) 411 2000

[RFG+02] MC Rousset C Froidevaux H Gagliardi F Goasdoueacute C Reynaud and B Sa-far Construction de meacutediateurs pour inteacutegrer des sources drsquoinformation multiples etheacuteteacuterogegravenes le projet PICSEL Revue I3 2(1) 2002

[RIF+06] R Redon S Ishikawa KR Fitch L Feuk GH Perry and et al Global variation incopy number in the human genome Nature 444 444ndash454 2006

189

[RKC06] HZ Ring PY Kwok and RG Cotton Human variome project an international col-laboration to catalogue human genetic variation Pharmacogenomics 7(7) 969ndash9722006

[RKK+00] A Rzhetsky T Koike S Kalachikov SM Gomez M Krauthammer SH KaplanP Kra JJ Russo and C Friedman A knowledge model for analysis and simulation ofregulatory networks Bioinformatics 16(11) 1120ndash1128 2000

[RKM+05] C Rosse A Kumar JL Mejino DL Cook LT Detwiler and B Smith A strategyfor improving and integrating biomedical ontologies In Proceedings of the AMIA Annu

Symp pages 639ndash643 2005

[RLSN08] MJ Rieder RJ Livingston IB Stanaway and DA Nickerson The environmentalgenome project reference polymorphisms for drug metabolism genes and genome-wideassociation studies Drug Metabolism Review 40(2) 241ndash261 2008

[RMKM08] DL Rubin DA Moreira PP Kanjamala and Musen MA BioPortal A Web portalto biomedical ontologies 2008 AAAI Spring Symposium Series Symbiotic Relationships

between Semantic Web and Knowledge Engineering 2008

[RMM+98] C Rosse JL Mejino BR Modayur R Jakobovits KP Hinshaw and JF BrinkleyMotivation and organizational principles for anatomical knowledge representation thedigital anatomist symbolic knowledge base J Am Med Informx Assoc 5(1) 1998

[RN03] S Russell and P Norvig Artificial Intelligence - A modern approch Englewood CliffsNJ Prentice-Hall (2d Edition) 2003

[RSN07] DL Rubin NH Shah and NF Noy Biomedical ontologies a functional perspectiveBriefings in Bioinformatics 9(1) 75ndash90 2007

[Rud06] S Rudolph Relational Exploration Combining Description Logics and Formal Con-

cept Analysis for Knowledge Specification Thegravese en informatique Technischen Univer-sitaumlt ndash Dresden Germany Dec 2006

[SA95] R Srikant and R Agrawal Mining generalized association rules In U Dayal PMDGray and S Nishio editors VLDB pages 407ndash419 Morgan Kaufmann 1995

[SAA+99] G Schreiber H Akkermans A Anjewierden R Dehoog N Shadbolt W Vande-velde and B Wielinga Knowledge Engineering and Management The CommonKADS

Methodology The MIT Press December 1999

[Sah02] S Sahar Exploring interestingness through clustering A framework In ICDM pages677ndash680 IEEE Computer Society 2002

[SAR+07] B Smith M Ashburner C Rosse J Bard W Bug W Ceusters LJ Goldberg K Eil-beck A Ireland CJ Mungall The OBI Consortium N Leontis P Rocca-Serra A Rut-tenberg SA Sansone RH Scheuermann N Shah PL Whetzel and S Lewis TheOBO Foundry coordinated evolution of ontologies to support biomedical data integra-tion Nature Biotechnology 25(11) 1251ndash1255 2007

[Saiuml07] F Saiumls Inteacutegration seacutemantique de donneacutees guideacutee par une ontologie Thegravese en informa-tique Universiteacute Paris-Sud France Deacutec 2007

[SBB+00] R Stevens PG Baker S Bechhofer G Ng A Jacoby NW Paton CA Goble andA Brass Tambis Transparent access to multiple bioinformatics information sourcesBioinformatics 16(2) 184ndash186 2000

[Ser07] B Sertkaya Formal Concept Analysis Methods for Description Logics Thegravese en infor-matique Technischen Universitaumlt ndash Dresden Germany Nov 2007

190 Bibliographie

[SHB01] G Stumme A Hotho and B Berendt editors Proceedings of the Workshop on Semantic

Web Mining (SWMrsquo01 at ECMLPKDDrsquo01) Freiburg Germany September 2001

[SHSD08] B Seacuteguin B Hardy PA Singer and AS Daar Bidil recontextualizing the race debateThe Pharmacogenomics Journal 8 169ndash173 2008

[SIL05] Y Saeys I Inza and P Larrantildeaga A review of feature selection techniques in bioinfor-matics Bioinformatics 23(19) 2507ndash2517 2005

[SNK07] L Szathmary A Napoli and S O Kuznetsov ZART A Multifunctional Itemset MiningAlgorithm In Proc of the 5th Intl Conf on Concept Lattices and Their Applications

(CLArsquo07) pages 26ndash37 Montpellier France Oct 2007

[SNV07] L Szathmary A Napoli and P Valtchev Towards Rare Itemset Mining In Proc of the

19th IEEE Intl Conf on Tools with Artificial Intelligence (ICTAIrsquo07) volume 1 pages305ndash312 Patras Greece Oct 2007

[SP04] E Sirin and B Parsia Pellet An OWL DL reasoner In Proceedings of the International

Workshop on Description Logics (DL2004) 2004

[Spe08] G Spencer International consortium announces the 1000 genomes project EMBAR-

GOED 2008

[SRR05] V Svaacutetek J Rauch and M Ralbovskyacute Ontology-enhanced association mining InAckermann et al [ABG+06] pages 163ndash179

[Ste08] LD Stein Towards a cyberinfrastructure for the biological sciences progress visionsand challenges Nature Genetics 9(9) 678ndash688 2008

[SWK+01] ST Sherry MH Ward M Kholodov J Baker L Phan EM Smigielski andK Sirotkin dbSNP the NCBI database of genetic variation Nucleic Acids Res29(1) 308ndash311 2001

[SWW98] G Stumme R Wille and U Wille Conceptual knowledge discovery in databases usingformal concept analysis methods In Zytkow and Quafafou [ZQ98] pages 450ndash458

[Sza06] L Szathmary Symbolic Data Mining Methods with the Coron Platform Thegravese eninformatique Universiteacute Henri Poincareacute ndash Nancy 1 France Nov 2006

[TH06] D Tsarkov and I Horrocks FaCT++ description logic reasoner System descrip-tion In Proceedings of the International Joint Conference on Automated Reasoning

(IJCAR 2006) volume 4130 of Lecture Notes in Artificial Intelligence pages 292ndash297Springer 2006

[TKS02] PN Tan V Kumar and J Srivastava Selecting the right interestingness measure forassociation patterns In KDDrsquo02 Proceedings of the eighth ACM SIGKDD international

conference on Knowledge discovery and data mining pages 32ndash41 New York NY USA2002 ACM

[TZY+04] AL Taylor S Ziesche C Yancy P Carson R Jr DrsquoAgostino K Ferdinand M TaylorK Adams M Sabolinski M Worcel JN Cohn and African-American Heart Fail-ure Trial Investigators Combination of isosorbide dinitrate and hydralazine in blackswith heart failure N Engl J Med 351(20) 2049ndash57 2004

[UK95] M Uschold and M King Towards a methodology for building ontologies In Proceed-

ings of the IJCAI Workshop on Basic Ontological Issues in Knowledge Sharing 1995

[VB05] M Vanzin and K Becker Ontology-based rummaging mechanisms for the interpretationof Web usage patterns In Ackermann et al [ABG+06] pages 180ndash195

191

[vHY04] V van Heyningen and PL Yeyati Mechanisms of non-mendelian inheritance in geneticdisease Human Molecular Genetics 13(RI2) R225ndashR233 2004

[VMG04] P Valtchev R Missaoui and R Godin Formal concept analysis for knowledge discov-ery and data mining The new challenges In Eklund [Ekl04] pages 352ndash371

[VR08] J Voumllker and S Rudolph Lexico-logical acquisition of OWL DL axioms [MO08]pages 62ndash77

[Web97] WW Weber Pharmacogenetics Oxford University Press New York NY 1997

[WH03] AB Wilcox and G Hripcsak The role of domain knowledge in automating medical textreport classification J Am Med Inform Assoc 10(4) 330ndash338 2003

[Wil02] R Wille Why can concept lattices support knowledge discovery in databases J Exp

Theor Artif Intell 14(2ndash3) 81ndash92 2002

[WLT+06] K Wolstencroft P Lord L Tabernero A Brass and R Stevens Protein classificationusing ontology classification Bioinformatics 22(14) e530ndashe538 2006

[WMF+08] ST Weiss HL McLeod DA Flockhart ME Dolan NL Benowitz JA JohnsonMJ Ratain and KM Giacomini Creating and evaluating genetic tests predictive ofdrug response Nat Rev Drug Discov 7(7) 568ndash74 2008

[WMS+05] K Wolstencroft R McEntire R Stevens L Tabernero and A Brass Constructingontology-driven protein family databases Bioinformatics 21(8) 1685ndash1692 2005

[WSGA03] C Wroe R Stevens CA Goble and M Ashburner A methodology to migrate the geneontology to a description logic environment using daml+oil In Pacific Symposium on

Biocomputing pages 624ndash635 2003

[WZTS05] JTL Wang MJ Zaki HTT Toivonen and DE (Eds) Shasha Data Mining in Bioin-

formatics Springer 2005

[YHTL08] HH Yang N Hu PR Taylor and MP Lee Whole genome-wide association studyusing affymetrix SNP chip a two-stage sequential selection method to identify genesthat increase the risk of developing complex diseases Methods Mol Med 141 23ndash352008

[YL04] L Yu and H Liu Efficient feature selection via analysis of relevance and redundancyJournal of Machine Learning Research 5 1205ndash1224 2004

[YSS07] T Yu SJ Simoff and D Stokes Incorporating prior domain knowledge into a kernelbased feature selection algorithm In ZH Zhou H Li and Q Yang editors PAKDDvolume 4426 of Lecture Notes in Computer Science pages 1064ndash1071 Springer 2007

[ZQ98] JM Zytkow and M Quafafou editors Principles of Data Mining and Knowledge Dis-

covery Second European Symposium PKDD rsquo98 Nantes France September 23-26

1998 Proceedings volume 1510 of Lecture Notes in Computer Science Springer 1998

192 Bibliographie

Reacutesumeacute

Cette thegravese porte sur lrsquoutilisation drsquoontologies et de bases de connaissances pour guider diffeacuterenteseacutetapes du processus drsquoextraction de connaissances agrave partir de bases de donneacutees (ECBD) et une applica-tion dans le domaine de la pharmacogeacutenomique Les donneacutees relatives agrave ce domaine sont heacuteteacuterogegravenescomplexes et distribueacutees dans diverses bases de donneacutees ce qui rend cruciale lrsquoeacutetape preacuteliminaire depreacuteparation et drsquointeacutegration des donneacutees agrave fouiller Je propose pour guider cette eacutetape une approche orig-inale drsquointeacutegration de donneacutees qui srsquoappuie sur une repreacutesentation des connaissances du domaine sousforme de deux ontologies en logiques de description SNP-Ontology et SO-Pharm Cette approche a eacuteteacuteimpleacutementeacutee gracircce aux technologies du Web seacutemantique et conduit au peuplement drsquoune base de con-naissances pharmacogeacutenomique Le fait que les donneacutees agrave fouiller soient alors disponibles dans une basede connaissances entraicircne de nouvelles potentialiteacutes pour le processus drsquoextraction de connaissances Jeme suis drsquoabord inteacuteresseacute au problegraveme de la seacutelection des donneacutees les plus pertinentes agrave fouiller en mon-trant comment la base de connaissances peut ecirctre exploiteacutee dans ce but Ensuite jrsquoai deacutecrit et appliqueacuteagrave la pharmacogeacutenomique une meacutethode qui permet lrsquoextraction de connaissances directement agrave partir

drsquoune base de connaissances Cette meacutethode appeleacutee Analyse des Assertions de Rocircles (ou AAR) permetdrsquoutiliser des algorithmes de fouille de donneacutees sur un ensemble drsquoassertions de la base de connaissancespharmacogeacutenomique et drsquoexpliciter des connaissances nouvelles et pertinentes qui y eacutetaient enfouies

Mots-cleacutes extraction de connaissances agrave partir de bases de donneacutees inteacutegration de donneacutees seacutelectionde donneacutees repreacutesentation des connaissances ontologie base de connaissances logiques de descriptionSNP pharmacogeacutenomique

Abstract

This thesis studies the use of ontology and knowledge base for guiding various steps of the Knowl-edge Discovery in Databases (KDD) process in the domain of pharmacogenomics Data related to thisdomain are heterogeneous complex and disseminated through several data sources Consequently thepreliminary step that consists in the preparation and the integration of data is crucial For guiding thisstep an original approach is proposed based on a knowledge representation of the domain within twoontologies in description logics SNP-Ontology and SO-Pharm This approach has been implementedusing semantic Web technologies and leads finally to populating a pharmacogenomic knowledge baseAs a result data to analyze are represented in the knowledge base which is a benefit for guiding fol-lowing steps of the knowledge discovery process Firstly I study this benefit for feature selection byillustrating how the knowledge base can be used for this purpose Secondly I describe and apply topharmacogenomics a new method named Role Assertion Analysis (or RAA) that enables knowledgediscovery directly from knowledge bases This method uses data mining algorithms over assertions ofour pharmacogenomic knowledge base and results in the discovery of new and relevant knowledge

Keywords knowledge discovery in databases data integration feature selection knowledge represen-tation ontology knowledge base description logics SNP pharmacogenomics

Page 5: Construction et utilisation d’une base de connaissances
Page 6: Construction et utilisation d’une base de connaissances
Page 7: Construction et utilisation d’une base de connaissances
Page 8: Construction et utilisation d’une base de connaissances
Page 9: Construction et utilisation d’une base de connaissances
Page 10: Construction et utilisation d’une base de connaissances
Page 11: Construction et utilisation d’une base de connaissances
Page 12: Construction et utilisation d’une base de connaissances
Page 13: Construction et utilisation d’une base de connaissances
Page 14: Construction et utilisation d’une base de connaissances
Page 15: Construction et utilisation d’une base de connaissances
Page 16: Construction et utilisation d’une base de connaissances
Page 17: Construction et utilisation d’une base de connaissances
Page 18: Construction et utilisation d’une base de connaissances
Page 19: Construction et utilisation d’une base de connaissances
Page 20: Construction et utilisation d’une base de connaissances
Page 21: Construction et utilisation d’une base de connaissances
Page 22: Construction et utilisation d’une base de connaissances
Page 23: Construction et utilisation d’une base de connaissances
Page 24: Construction et utilisation d’une base de connaissances
Page 25: Construction et utilisation d’une base de connaissances
Page 26: Construction et utilisation d’une base de connaissances
Page 27: Construction et utilisation d’une base de connaissances
Page 28: Construction et utilisation d’une base de connaissances
Page 29: Construction et utilisation d’une base de connaissances
Page 30: Construction et utilisation d’une base de connaissances
Page 31: Construction et utilisation d’une base de connaissances
Page 32: Construction et utilisation d’une base de connaissances
Page 33: Construction et utilisation d’une base de connaissances
Page 34: Construction et utilisation d’une base de connaissances
Page 35: Construction et utilisation d’une base de connaissances
Page 36: Construction et utilisation d’une base de connaissances
Page 37: Construction et utilisation d’une base de connaissances
Page 38: Construction et utilisation d’une base de connaissances
Page 39: Construction et utilisation d’une base de connaissances
Page 40: Construction et utilisation d’une base de connaissances
Page 41: Construction et utilisation d’une base de connaissances
Page 42: Construction et utilisation d’une base de connaissances
Page 43: Construction et utilisation d’une base de connaissances
Page 44: Construction et utilisation d’une base de connaissances
Page 45: Construction et utilisation d’une base de connaissances
Page 46: Construction et utilisation d’une base de connaissances
Page 47: Construction et utilisation d’une base de connaissances
Page 48: Construction et utilisation d’une base de connaissances
Page 49: Construction et utilisation d’une base de connaissances
Page 50: Construction et utilisation d’une base de connaissances
Page 51: Construction et utilisation d’une base de connaissances
Page 52: Construction et utilisation d’une base de connaissances
Page 53: Construction et utilisation d’une base de connaissances
Page 54: Construction et utilisation d’une base de connaissances
Page 55: Construction et utilisation d’une base de connaissances
Page 56: Construction et utilisation d’une base de connaissances
Page 57: Construction et utilisation d’une base de connaissances
Page 58: Construction et utilisation d’une base de connaissances
Page 59: Construction et utilisation d’une base de connaissances
Page 60: Construction et utilisation d’une base de connaissances
Page 61: Construction et utilisation d’une base de connaissances
Page 62: Construction et utilisation d’une base de connaissances
Page 63: Construction et utilisation d’une base de connaissances
Page 64: Construction et utilisation d’une base de connaissances
Page 65: Construction et utilisation d’une base de connaissances
Page 66: Construction et utilisation d’une base de connaissances
Page 67: Construction et utilisation d’une base de connaissances
Page 68: Construction et utilisation d’une base de connaissances
Page 69: Construction et utilisation d’une base de connaissances
Page 70: Construction et utilisation d’une base de connaissances
Page 71: Construction et utilisation d’une base de connaissances
Page 72: Construction et utilisation d’une base de connaissances
Page 73: Construction et utilisation d’une base de connaissances
Page 74: Construction et utilisation d’une base de connaissances
Page 75: Construction et utilisation d’une base de connaissances
Page 76: Construction et utilisation d’une base de connaissances
Page 77: Construction et utilisation d’une base de connaissances
Page 78: Construction et utilisation d’une base de connaissances
Page 79: Construction et utilisation d’une base de connaissances
Page 80: Construction et utilisation d’une base de connaissances
Page 81: Construction et utilisation d’une base de connaissances
Page 82: Construction et utilisation d’une base de connaissances
Page 83: Construction et utilisation d’une base de connaissances
Page 84: Construction et utilisation d’une base de connaissances
Page 85: Construction et utilisation d’une base de connaissances
Page 86: Construction et utilisation d’une base de connaissances
Page 87: Construction et utilisation d’une base de connaissances
Page 88: Construction et utilisation d’une base de connaissances
Page 89: Construction et utilisation d’une base de connaissances
Page 90: Construction et utilisation d’une base de connaissances
Page 91: Construction et utilisation d’une base de connaissances
Page 92: Construction et utilisation d’une base de connaissances
Page 93: Construction et utilisation d’une base de connaissances
Page 94: Construction et utilisation d’une base de connaissances
Page 95: Construction et utilisation d’une base de connaissances
Page 96: Construction et utilisation d’une base de connaissances
Page 97: Construction et utilisation d’une base de connaissances
Page 98: Construction et utilisation d’une base de connaissances
Page 99: Construction et utilisation d’une base de connaissances
Page 100: Construction et utilisation d’une base de connaissances
Page 101: Construction et utilisation d’une base de connaissances
Page 102: Construction et utilisation d’une base de connaissances
Page 103: Construction et utilisation d’une base de connaissances
Page 104: Construction et utilisation d’une base de connaissances
Page 105: Construction et utilisation d’une base de connaissances
Page 106: Construction et utilisation d’une base de connaissances
Page 107: Construction et utilisation d’une base de connaissances
Page 108: Construction et utilisation d’une base de connaissances
Page 109: Construction et utilisation d’une base de connaissances
Page 110: Construction et utilisation d’une base de connaissances
Page 111: Construction et utilisation d’une base de connaissances
Page 112: Construction et utilisation d’une base de connaissances
Page 113: Construction et utilisation d’une base de connaissances
Page 114: Construction et utilisation d’une base de connaissances
Page 115: Construction et utilisation d’une base de connaissances
Page 116: Construction et utilisation d’une base de connaissances
Page 117: Construction et utilisation d’une base de connaissances
Page 118: Construction et utilisation d’une base de connaissances
Page 119: Construction et utilisation d’une base de connaissances
Page 120: Construction et utilisation d’une base de connaissances
Page 121: Construction et utilisation d’une base de connaissances
Page 122: Construction et utilisation d’une base de connaissances
Page 123: Construction et utilisation d’une base de connaissances
Page 124: Construction et utilisation d’une base de connaissances
Page 125: Construction et utilisation d’une base de connaissances
Page 126: Construction et utilisation d’une base de connaissances
Page 127: Construction et utilisation d’une base de connaissances
Page 128: Construction et utilisation d’une base de connaissances
Page 129: Construction et utilisation d’une base de connaissances
Page 130: Construction et utilisation d’une base de connaissances
Page 131: Construction et utilisation d’une base de connaissances
Page 132: Construction et utilisation d’une base de connaissances
Page 133: Construction et utilisation d’une base de connaissances
Page 134: Construction et utilisation d’une base de connaissances
Page 135: Construction et utilisation d’une base de connaissances
Page 136: Construction et utilisation d’une base de connaissances
Page 137: Construction et utilisation d’une base de connaissances
Page 138: Construction et utilisation d’une base de connaissances
Page 139: Construction et utilisation d’une base de connaissances
Page 140: Construction et utilisation d’une base de connaissances
Page 141: Construction et utilisation d’une base de connaissances
Page 142: Construction et utilisation d’une base de connaissances
Page 143: Construction et utilisation d’une base de connaissances
Page 144: Construction et utilisation d’une base de connaissances
Page 145: Construction et utilisation d’une base de connaissances
Page 146: Construction et utilisation d’une base de connaissances
Page 147: Construction et utilisation d’une base de connaissances
Page 148: Construction et utilisation d’une base de connaissances
Page 149: Construction et utilisation d’une base de connaissances
Page 150: Construction et utilisation d’une base de connaissances
Page 151: Construction et utilisation d’une base de connaissances
Page 152: Construction et utilisation d’une base de connaissances
Page 153: Construction et utilisation d’une base de connaissances
Page 154: Construction et utilisation d’une base de connaissances
Page 155: Construction et utilisation d’une base de connaissances
Page 156: Construction et utilisation d’une base de connaissances
Page 157: Construction et utilisation d’une base de connaissances
Page 158: Construction et utilisation d’une base de connaissances
Page 159: Construction et utilisation d’une base de connaissances
Page 160: Construction et utilisation d’une base de connaissances
Page 161: Construction et utilisation d’une base de connaissances
Page 162: Construction et utilisation d’une base de connaissances
Page 163: Construction et utilisation d’une base de connaissances
Page 164: Construction et utilisation d’une base de connaissances
Page 165: Construction et utilisation d’une base de connaissances
Page 166: Construction et utilisation d’une base de connaissances
Page 167: Construction et utilisation d’une base de connaissances
Page 168: Construction et utilisation d’une base de connaissances
Page 169: Construction et utilisation d’une base de connaissances
Page 170: Construction et utilisation d’une base de connaissances
Page 171: Construction et utilisation d’une base de connaissances
Page 172: Construction et utilisation d’une base de connaissances
Page 173: Construction et utilisation d’une base de connaissances
Page 174: Construction et utilisation d’une base de connaissances
Page 175: Construction et utilisation d’une base de connaissances
Page 176: Construction et utilisation d’une base de connaissances
Page 177: Construction et utilisation d’une base de connaissances
Page 178: Construction et utilisation d’une base de connaissances
Page 179: Construction et utilisation d’une base de connaissances
Page 180: Construction et utilisation d’une base de connaissances
Page 181: Construction et utilisation d’une base de connaissances
Page 182: Construction et utilisation d’une base de connaissances
Page 183: Construction et utilisation d’une base de connaissances
Page 184: Construction et utilisation d’une base de connaissances
Page 185: Construction et utilisation d’une base de connaissances
Page 186: Construction et utilisation d’une base de connaissances
Page 187: Construction et utilisation d’une base de connaissances
Page 188: Construction et utilisation d’une base de connaissances
Page 189: Construction et utilisation d’une base de connaissances
Page 190: Construction et utilisation d’une base de connaissances
Page 191: Construction et utilisation d’une base de connaissances
Page 192: Construction et utilisation d’une base de connaissances
Page 193: Construction et utilisation d’une base de connaissances
Page 194: Construction et utilisation d’une base de connaissances
Page 195: Construction et utilisation d’une base de connaissances
Page 196: Construction et utilisation d’une base de connaissances
Page 197: Construction et utilisation d’une base de connaissances
Page 198: Construction et utilisation d’une base de connaissances
Page 199: Construction et utilisation d’une base de connaissances
Page 200: Construction et utilisation d’une base de connaissances
Page 201: Construction et utilisation d’une base de connaissances
Page 202: Construction et utilisation d’une base de connaissances
Page 203: Construction et utilisation d’une base de connaissances
Page 204: Construction et utilisation d’une base de connaissances
Page 205: Construction et utilisation d’une base de connaissances
Page 206: Construction et utilisation d’une base de connaissances
Page 207: Construction et utilisation d’une base de connaissances
Page 208: Construction et utilisation d’une base de connaissances
Page 209: Construction et utilisation d’une base de connaissances