les ontologies : concepts et applications en génomique
DESCRIPTION
Les ontologies : concepts et applications en génomique. Bernard Jacq, M2 BBSG 2008 Module GF. Les ontologies : concepts et applications en génomique. Plan du cours - Introduction : Pourquoi des ontologies, définitions - Description détaillée des ontologies - PowerPoint PPT PresentationTRANSCRIPT
Les ontologies : concepts et applications en génomique
QuickTime™ et undécompresseur TIFF (non compressé)
sont requis pour visionner cette image.
QuickTime™ et undécompresseur TIFF (non compressé)
sont requis pour visionner cette image.
Bernard Jacq, M2 BBSG 2008Module GF
Les ontologies : concepts et applications en génomique
QuickTime™ et undécompresseur TIFF (non compressé)
sont requis pour visionner cette image.
QuickTime™ et undécompresseur TIFF (non compressé)
sont requis pour visionner cette image.
Plan du cours
- Introduction : Pourquoi des ontologies, définitions
- Description détaillée des ontologies
- La construction d’ontologies
- Un exemple concret d’ontologie : Gene Ontology (GO)
• Les ontologies sont une réponse possible, amenée par l’informatique, à plusieurs besoins grandissants de l’ère post-génomique :
– La nécessité de disposé d’un vocabulaire contrôlé pour décrire notamment l’aspect fonctionnels des gènes et des protéines.
– La nécessité de disposer de descriptions qui soient valables pour toutes les espèces ou le plus grand nombre d’espèces possibles.
– La nécessité de structurer et hiérarchiser ces connaissances.– La nécessité d’avoir un mode de description utilisable par un
ordinateur
Pourquoi utiliser des ontologies
en Biologie ?
• Il existe un continuum de complexité et de contenu informationnel croissant entre : donnée, information et connaissance
– donnée : … --- …
– information : SOS
– connaissance : en cas d’alerte, déclencher les secours
• La connaissance permet de produire de nouvelles données, informations, connaissances : inférence
Définitions: donnée, information, connaissance
• Ethymologiquement, du grec, (participe présent duverbe être), "Partie de la métaphysique qui étudie l’être entant qu’être, étude des propriétés générales de ce qui existe"(cf Aristote, théorie des Catégories).
• Ultérieurement, terme utilisé en histoire de la médecine : étude de l’être de la maladie: doctrine qui prétend étudier l’être de la maladie – des fièvres, notamment – comme si l’être de la maladie existait conformément à un type bien défini, à l’essence. (Robert, Dictionnaire historique de la langue française, Alain Rey, 1994)
• En Informatique :• Gruber " Specification of a conceptualization "• Schulze-Kremer "Concise and unambiguous description of principle
relevant entities with their potential, valid relations to each other "
Définition des ontologies
Crédit: Christine Froidevaux
Comment représenter des connaissances dans un ordinateur
?
• Il existe au moins 4 modes, de richesse croissante, permettant de décrire des connaissances sous une forme essentiellement textuelle :
– Listes – Thesauri – Taxonomies– Ontologies
NB : Il existe d’autres modes, plus structurés, de stockage des données et représentation des connaissances : Bases de données et bases de connaissances
• La forme la plus simple de représentation des connaissances est une liste de l’ensemble des objets d’une catégorie précise donnée (par exemple, la liste des gènes contenus dans le génome humain, la liste de tous les types cellulaires d’un organisme, la liste des espèces vivantes ….), habituellement triée par ordre alphabétique.
• Une liste est donc la collection de tous les concepts d’un domaine sans aucune relation implicite ou explicite entre eux.
• La couverture d’un domaine donné au moyen de listes nécessitera d’en élaborer plusieurs et non une seule. Il faudra autant de listes que l’on pourra dénombrer de « sujets » dans le domaine.
1. Les Listes
QuickTime™ et undécompresseur TIFF (non compressé)
sont requis pour visionner cette image.
Exemple : pour rendre compte, de façon simplifiée, des connaissances sur les maladies, 3 listes peuvent suffire : une sur les gènes ou protéines impliquées dans des maldies, une listant les différentes maladies et une décrivant les tissus affectés.
Une des limitations évidentes de ce mode de représentation est qu’aucun lien n’est fait entre les différentes listes.
Les listes se révèlent très utiles pour des applications simples :
- Elles sont à la base de toutes les recherches indexées utilisant des mots-clés (les instances des apparitions d’un mot dans un texte sont représentées sous forme d’une liste de mots où chacun est suivi du numéro des pages où il apparaît).
- On peut les utiliser comme un vocabulaire contôlé pour contraindre et accélérer l’entrée d’informations « validées » dans un système en évitant les ereurs orthographiques et/ou les erreurs typographiques.
2. Les
thesauri • Un thesaurus peut être défini commme un recueil documentaire
alphabétique de termes servant de descripteur pour :– analyser un corpus– indexer des documents
• Les Thesauri (singulier : un thesaurus) ont la même structure que les listes avec l’addition d’un composant important : les Thesauri stockent des synonymes (et parfois des termes reliés) pour chaque terme de la liste pour lesquels on en dispose.
• Un synonyme est un concept identique ou très similaire à une des entrées de la liste, mais ayant une dénomination différente.
• Des exemples de synonymes pour le terme 'heart attack' dans un thesaurus médical anglais seraient 'myocardial necrosis' et 'cardiac arrest'.
QuickTime™ et undécompresseur TIFF (non compressé)
sont requis pour visionner cette image.
Les synonymes sont stockés sous la forme de relations avec les termes principaux du type IS-SYNONYM-OF (est-synonyme-de) :
• Les synonymes présentent une grande utilité dans l’amélioration de la complétude des recherches basée sur des mots-clés. En étendant une recherche à tous les synonymes d’un concept donné, on peut « récupérer » tous les articles où le(s) synonyme(s) est (sont) utilisé(s) à la place du terme de base.
• Exemple : Une recherche avec le terme « myocardial infection » stocjé dans un thesaurus retournera aussi des articles où le terme « heart attack » aurait été utilisé, augmentant ainsi la couverture de la recherche.
3. Les
taxonomies
• Les taxonomies sont un enrichissement des thesauri dans lesquelles un nouveau niveau de relations est ajouté de façon à structurer les listes avec des liens de type « parent-enfant ».
• Les relations sont de la forme « IS-A » (est-un), par exemple 5HT1A IS-A GPCR; Anorexia IS-A Eating Disorder.
• Prises dans leur ensemble, ces relations permettent la création d’une hierarchie taxonomique de tous les concepts d’un sujet donné. Ceci permet de donner une structure arborescente familière et intuitive à l’organisation des différents concepts :
QuickTime™ et undécompresseur TIFF (non compressé)
sont requis pour visionner cette image.
• En plus de la relation « IS-A », la relation « IS-PART-OF »(est-une partie-de » est particulièrement utile dans certains domaines tels que l’anatomie, ou il est ainsi aisé de décrire de façon hiérarchique tous les organes d’un organisme, puis tous les constituants de chaque organe.
Exemple: hepatocyte IS-PART-OF lobule, hepatic lobule IS-PART-OF liver. Des taxonomies construites uniquement à partir de relations « IS-PART-OF » sont appelées des partonomies.
• Il est noter que le terme « taxonomie » est souvent confondu avec le terme « ontologie ».
Les taxonomies ont plusieurs types d’applications :
- Tout d’abord, elles donnent une vision d’ensemble d’un concept en présentant ses propriétés générales et en les affinant progressivement.
- Ensuite, la hiérarchisation des concepts offre une classification contre laquelle le contenu d’articles peut être comparé, permettant une catégorisation de ceux-ci. Ceci est d’une grande utilité en recherche d’informations textuelles où un article pourra être indexé comme parlant de tel ou tel sujet.
- La connaissance de la profondeur dans la hiérarchie des sujets ou mots-clés ayant été indexés permet d ’apprécier le degré de généralisation ou au contraire de spécialisation d’un article.
4. Les ontologies • Par rapport aux taxonomies, les ontologies ajoutent encore des
relations plus riches et plus descriptives entre les concepts.
• Les ontologies sont le premier niveau de représentation qui commence à combiner des relations entre concepts dans des listes differentes.
• Exemple : p53 IS-UPREGULATED-IN Breast Cancer on établit un lien entre un concept de la liste « Targets » list et un
de la liste « Diseases ».
Les ontologies permettent de disposer d’un moyen riche et puissant de description de tout un domaine entier qui peut être utilisé de plusieurs manières.
- Au niveau le plus bas : puisqu’elle contient l’essentiel des concepts et relations nécessaires à la description d’un domaine, une ontologie peut être utilisée pour construire des taxonomies, thesauri et listes spécifiques : En sélectionnant les concepts et les relations utilisées, on peut soit :
• exporter les concepts pour construire des listes
• exporter les concepts et les synonymes pour construire des thesauri
• exporter les concepts, les synonymes et les relations « IS-A » pour construire des taxonomies.
Récapitulatif
QuickTime™ et undécompresseur TIFF (non compressé)
sont requis pour visionner cette image.
QuickTime™ et undécompresseur TIFF (non compressé)
sont requis pour visionner cette image.
QuickTime™ et undécompresseur TIFF (non compressé)
sont requis pour visionner cette image.
Listes
Taxonomies
Thesauri
Ontologies
Les ontologies : concepts et applications en génomique
QuickTime™ et undécompresseur TIFF (non compressé)
sont requis pour visionner cette image.
QuickTime™ et undécompresseur TIFF (non compressé)
sont requis pour visionner cette image.
Plan du cours
- Introduction : Pourquoi des ontologies, définitions
- Description détaillée des ontologies
- La construction d’ontologies
- Un exemple concret d’ontologie : Gene Ontology (GO)
Description détaillée des ontologies
Une ontologie correspond à une Conceptualisation et une structuration d’un domaine d’intérêt
• Concepts (gènes, macromolécule)• Relations (IS-A, PART-OF, etc.)• Attributs/rôles (a_pour_fonction, a_pour_produit)• Contraintes (male ou femelle mais pas les 2)• Objets (instances des concepts)• Valeurs (le produit du gène trpA est trytophan-synthetase)• Axiomes (les acides nucléiques de moins 20 résidus sont des oligonucléotides)
Crédit: Christine Froidevaux
Description détaillée des ontologies
Exemple : Structure de GO (Gene Ontology)
• Deux relations fondamentales (transitives):
- is_a : relation sous-classe / classeex : nuclear chromosome is_a chromosome
- part_of : C part_of D signifie que chaque fois que C estprésent, C est toujours une partie de D, mais C peut ne pas
êtreprésent
ex : nucleus part_of cell; les noyaux font toujours partie d’une cellule, mais les cellules n’ont pas toutes des noyaux (bactéries)
Crédit: Christine Froidevaux
Description détaillée des ontologies
Exemple : Structure de GO (Gene Ontology) (2)
• Structure de DAG (Directed Acyclic Graph) : graphe sans circuit
QuickTime™ et undécompresseur
sont requis pour visionner cette image.
• Héritage multiple
ex : le terme biological process hexose biosynthesis a 2parents, hexose metabolism et monosaccharidebiosynthesis, car biosynthesis est un sous-type de metabolism,et un hexose est un type de monosaccharide
• Si un gène est annoté par un terme, il est annoté par lesdeux termes parents
Description détaillée des ontologies
Exemple : Structure de GO (Gene Ontology) (3)
Description détaillée des ontologies
Exemple : Structure de GO (Gene Ontology) (2)
• Structure de DAG (Directed Acyclic Graph) : graphe sans circuit
Crédit: Christine Froidevaux
Description détaillée des ontologies
Rappels :Différences entre une hiérarchie et une ontologie(arborescence vs DAG)
QuickTime™ et undécompresseur
sont requis pour visionner cette image.
• Des étapes importantes :
• Identifier, modéliser les concepts d'un domaine, pertinents pour une/des applications
• Se mettre d'accord, au sein d'une communauté, sur les termes employés pour se référer à ces concepts
• Composant réutilisable
• Réutilisation : généralité, abstraction (reuse)
• Partage : consensus, standardisation (sharing)
• Accord sur conceptualisation partagée : engagement ontologique (commitment)
Description détaillée des ontologies
Les ontologies : concepts et applications en génomique
QuickTime™ et undécompresseur TIFF (non compressé)
sont requis pour visionner cette image.
QuickTime™ et undécompresseur TIFF (non compressé)
sont requis pour visionner cette image.
Plan du cours
- Introduction : Pourquoi des ontologies, définitions
- Description détaillée des ontologies
- La construction d’ontologies
- Un exemple concret d’ontologie : Gene Ontology (GO)
• Méthodologie : Processus en V pour assurer la qualité:
• 1) Spécifier : identifier le domaine et le but de l’ontologiebonne spécification => évaluation et réutilisation possibles
• 2) Acquérir les connaissances : expertise des biologistes, textes d’articles (text mining), méta-données de bases de données etc.
=> dresser une liste de questions de compétences
• 3) Conceptualiser : identifier les concepts-clés du domaine, leurs propriétés et leurs relations; identifier les termes pertinents du langage naturel; structurer le savoir du domaine
Crédit: Christine Froidevaux
Construction d’ontologies (1)
• 6) Identifier les relations pertinentes : subClassOf, isa, partOf, hasPart, closeTo, over, under, contains, connected, etc. Utiliser des règles pour combiner les concepts et les relations : partOf est transitive
• 5) Intégrer : utiliser ou spécialiser une ontologie existante 6) Encoder : choisir un langage de représentation formel
• 7) Documenter : produire des définitions formelles, informelles, complètes, pour préciser la signification des termes de l’ontologie; donner des exemples
• 8) Evaluer : déterminer l’adéquation de l’ontologie pour l’application visée; évaluation à faire de façon pragmatique
=> critères : cohérence, complétude, concision (pas de redondance, avec un bon degré de granularité), etc.
Crédit: Christine Froidevaux
Construction d’ontologies (2)
Construction d’ontologies (3)
• 9) Prévoir des procédures de mise à jour (ajout, suppression, déplacement dans l’ontologie) et de visualisation
• Difficultés et pièges à éviter (Schulze-Kremer 2002) : e.g. définir un concept par des négations ; utiliser le terme qu’on définit dans la définition (circularisation)
=> imperfections de GO ?
Are the current ontologies in biology good ontologies ?(Soldatova et King 2005)
The reality is that the construction of ontologies is an art rather than a science (Fernandez, METHONTOLOGY)
Crédit: Christine Froidevaux
Quelques difficultés rencontrées
terme
Mot de la langue naturelle qui désigne un (des) concept(s) :
cat, chat, greffier, matou
termes qui désignent le concept de chat• synonymie : plusieurs termes dénotent
le même concept • ambiguïté : plusieurs concepts dénotés
par le même terme
Construction d’ontologies (4)
‘chambre’ :
Chambre d'hôtel ?Chambre d'écho ?Chambre des députés ?Chambre d'enregistrement ?Chambre noire ?Chambre funéraire ?
Construction d’ontologies (5)Quelques difficultés rencontrées
Ambiguïté
Les ontologies : concepts et applications en génomique
QuickTime™ et undécompresseur TIFF (non compressé)
sont requis pour visionner cette image.
QuickTime™ et undécompresseur TIFF (non compressé)
sont requis pour visionner cette image.
Plan du cours
- Introduction : Pourquoi des ontologies, définitions
- Description détaillée des ontologies
- La construction d’ontologies
- Un exemple concret d’ontologie : Gene Ontology (GO)
http://www.geneontology.org
Un exemple concret d’ontologie en Biologie moléculaire et
Génomique
What is GO ? (1)
The Gene Ontology (GO) project is a collaborative effort to address the need for consistent descriptions of gene products in different databases. The GO collaborators are developing three structured, controlled vocabularies (ontologies) that describe gene products in terms of their associated :
- biological processes, - cellular components,- and molecular functions
in a species-independent manner. There are three separate aspects to this effort: first, we write and maintain the ontologies themselves; second, we make cross-links between the ontologies and the genes and gene products in the collaborating databases, and third, we develop tools that facilitate the creation, maintainence and use of ontologies.
Credit: Jennifer Clark, GO Editorial Office
What is GO ? (2)
• Molecular Function Ontology: activités effectuées par desproduits de gènes individuels au niveau moléculaire
ex : carbohydrate binding and ATPase activity
• Biological Process Ontology: série d’événements effectuéspar un ou plusieurs assemblages ordonnés de fonctions moléculaires
ex : mitosis ou purine metabolismNB : un processus biologique n’est pas équivalent à un pathway
• Cellular Component Ontology: structure anatomique, groupede produits de gènes
ex : nucleus ou ribosome
What is GO? (3)
The use of GO terms by several collaborating databases facilitates uniform queries across them.
The controlled vocabularies are structured so that you can query them at different levels. For example, you can use GO:
- to find all the gene products in the mouse genome that are involved in signal transduction,
- or you can zoom in on all the receptor tyrosine kinases.
This structure also allows annotators to assign properties to gene products at different levels, depending on how much is known about a gene product.
Credit: Jennifer Clark, GO Editorial Office
Un exemple d’utilisation de GO dans les bases de données :
The Saccharomyces Genome Database (SGD)
Un exemple d’utilisation de GO dans les bases de données :
The Saccharomyces Genome Database (SGD)
Molecular
Function
Biological Process
Cellular Compone
nt
Annotations et « evidence codes » dans GO
• Des recommandations pour annoter un produit de gène : annoter au niveau le plus bas de l’ontologie ; annoter par 0 ou plusieurs termes GO de chaque ontologie de façon indépendante; annoter avec des termes reflétant l’activité normale du gène etc
• L’annotation doit indiquer quelle sorte d’évidence est trouvée dans la source citée, entre le produit de gène et le terme GO associé : essentiel pour évaluer la qualité de l’annotation.
Un simple vocabulaire contrôlé est utilisé pour stockerl’évidence (expérimentale, prédite, copiée …).
Il y a 13 codes d’évidence :
• ND : No Data (available)• IC : Inferred by Curator• IDA : Inferred from Direct Assay (Enzyme assay; Immuno fluorescence…)• IEA : Inferred from Electronic Annotation• etc…
Terms:
October 200420 395 terms (defined: 95%)
molecular_function: 7913biological_process: 10677cellular_component: 1805
October 14, 2008 26212 terms, 98.3% with definitions
15565 biological_process2226 cellular_component8421 molecular_function
Quelques statistiques sur GO
Credit: Jennifer Clark, GO Editorial Office
Credit: Jennifer Clark, GO Editorial Office
Credit: Jennifer Clark, GO Editorial Office
Credit: Jennifer Clark, GO Editorial Office
Gene Association file QC - Redundancy
http://www.geneontology.org/GO.annotation.shtml#script
http://www.geneontology.org/GO.indices.shtml
Mapping Files -
Uniprot keywords and Interpro2GO updated
!
Credit: Jennifer Clark, GO Editorial Office
More than 100 tools (GO consortium and external) available
http://www.geneontology.org/GO.tools.shtmlCredit: Jennifer Clark, GO Editorial Office
Outils dédiés aux ontologies (1)
http://www.geneontology.org/GO.tools.shtmlCredit: Jennifer Clark, GO Editorial Office
Outils dédiés aux ontologies (1)
http://www.geneontology.org/GO.tools.shtmlCredit: Jennifer Clark, GO Editorial Office
Outils dédiés aux ontologies (1)
http://www.godatabase.org/
Outils dédiés aux ontologies (2)
http://www.godatabase.org/
Outils dédiés aux ontologies (2)
Outils dédiés aux ontologies (3)
Lomax J, The Gene Ontology Consortium Get ready to GO! A biologist's guide to the Gene Ontology. Brief Bioinform. 2005 ; 6: 298-304.
Clark JI, Brooksbank C, Lomax J It's all GO for plant scientists. Plant Physiol. 2005 ; 138: 1268-1279.
Harris MA, Lomax J, Ireland A, Clark JI The Gene Ontology project. Encyclopedia of Genetics, Genomics, Proteomics and Bioinformatics, Part 4, Bioinformatics [Subramaniam S (ed.), Wiley and Sons, Inc., New York.]. 2005
Arnaud MB, Costanzo MC, Skrzypek MS, Binkley G, Lane C, Miyasato SR, Sherlock G The Candida Genome Database (CGD), a community resource for Candida albicans gene and protein information. Nucleic Acids Res. 2005 ; 33: D358-D363.
Drabkin HJ, Hollenbeck C, Hill DP, Blake JA Ontological visualization of protein-protein interactions. BMC Bioinformatics. 2005 ; 6: 29.
de la Cruz N et al. The Rat Genome Database (RGD): developments towards a phenome database. Nucleic Acids Res. 2005 ; 33: D485-D491.
Gene ontology : quelques publications
Lewis SE Gene Ontology: looking backwards and forwards. Genome Biology. 2005 ; 6: 103.
Haas BJ et al. Complete reannotation of the Arabidopsis genome: methods, tools, protocols and the final release. BMC Biol. 2005 ; 3: 7.
Zhang P, Foerster H, Tissier CP, Mueller L, Paley S, Karp PD, Rhee SY MetaCyc and AraCyc. Metabolic pathway databases for plant research. Plant Physiol. 2005 ; 138: 27-37.
The Gene Ontology Consortium The Gene Ontology (GO) project in 2006. Nucleic Acids Res. 2006 ; 34: D322-D326.
Stover NA, Krieger CJ, Binkley G, Dong Q, Fisk DG, Nash R, Sethuraman A, Weng S, Cherry JM Tetrahymena Genome Database (TGD): a new genomic resource for Tetrahymena thermophila research. Nucleic Acids Res. 2006 ; 34: D500-503.
Hirschman JE et al. Genome Snapshot: a new resource at the Saccharomyces Genome Database (SGD) presenting an overview of the Saccharomyces cerevisiae genome. Nucleic Acids Res. 2006 ; 34: D442-445.
Gene ontology : quelques publications
Le cours De Génomique fonctionnelle est maintenant terminé
Pour vos présentations
Rendez-vous demain matin
Dans cette salle
Bonne soirée (… et pas de folies !)