application de méthodes de fouille de textes pour l’annotation fonctionnelles de gènes
DESCRIPTION
Application de méthodes de fouille de textes pour l’annotation fonctionnelles de gènes. 22 mai 2006 UMR_S 729 Ingénierie des connaissances en santé Natalia Grabar Inès Jilani Marie-Christine Jaulent. Sommaire. Contexte - PowerPoint PPT PresentationTRANSCRIPT
Application de méthodes de fouille de textes pour
l’annotation fonctionnelles de gènes
22 mai 2006
UMR_S 729 Ingénierie des connaissances en
santéNatalia Grabar
Inès Jilani Marie-Christine Jaulent
Sommaire Contexte
Confronter les résultats expérimentaux en biologie à ceux déjà publiés dans la littérature
Thématiques de recherche associées Apport de l’ingénierie des connaissances et du
traitement automatique des langues (TAL) Travaux de recherche
Consortium au sein de la Plateforme « biologie des systèmes » de Paris 5 (C. Néri)
En pratique Premiers résultats Perspectives
Introduction
D’après Stéphane LE CROM (séminaire biopuces, février 2006)Méthodes bioinformatique d'analyse des puces à ADN : analyse de l'image, normalisation et stockage des données
Contexte Validation et interprétation des résultats
expérimentaux Confrontation avec des connaissances antérieures
Ressources La littérature travail manuel fastidieux Gene Ontology (GO) une ressource terminologique Les bases de données nombreuses mais
incomplètes Mises à jour manuellement à partir de la littérature en
utilisant les termes de GO Recherche active (Gene Ontology Annotation
consortium)
Contexte Validation et interprétation des résultats
expérimentaux Confrontation avec des connaissances antérieures
Ressources La littérature travail manuel fastidieux Gene Ontology (GO) une ressource terminologique Les bases de données nombreuses mais
incomplètes Mises à jour manuellement à partir de la littérature en
utilisant les termes de GO Recherche active (Gene Ontology Annotation
consortium) Objectifs
Développer des outils informatiques pour extraire des connaissances de sources textuelles en biologie
Accélérer le processus de validation
Enjeux Recherche d’information sur Internet très coûteuse en temps
(analyse de grands volumes de données)
Analyse des articles pour extraire la connaissance Plusieurs approches mises en concurrence lors de compétitions
internationales
U729 : Ingénierie des connaissances en santé
Acquérir, modéliser et représenter les connaissances médicales
Connaissance implicite et explicite Extraction de connaissances par des méthodes de
fouille de textes Construire des systèmes à base de connaissances (SBC) qui
s’intègrent dans la pratique médicale (serveurs d’expertise) Codage et partage du dossier médical, détection de signal en
pharmacovigilance, systèmes d’assistance à la décision (alertes), prescription automatique, estimation personnalisée des risques, diffusion des guides de bonnes pratiques, …
Service web : Annotation fonctionnelle de gènes Evaluation
Qualité, acceptabilité, impact Comparer les connaissances extraites des textes
avec celles qui se trouvent déjà dans les bases (précision et rappel)
Travaux de recherche dans le cadre de la plateforme « biologie des systèmes » de l’université Paris 5
Consortium INSERM AVENIR IFR77 – Laboratoire de
biologie génomique Christian Néri, Céline Lefebvre, Edouard Hérion
CNRS UMR 8145 – MAP5 Antoine Chambaz,
CRIP5 – Centre de recherche en Informatique de Paris 5 – équipe IAD Sylvie Després, Valentina Ceausu
INSERM UMR_S 729 IFR 58 – SPIM Natalia Grabar, Inès Jilani, Marie-Christine
Jaulent
Le contexte biologique du projet
Clusters obtenus par la méthode Best-Balanced Constraint Procedure*
A x
A y
Bx
B y
δ seq
δ seq
δ exp δ exp
A : Organisme A
B : Organisme B
A x, A y : gènes de l’organisme A
B x, B y : gènes de l’organisme B
δ seq : mesure de l’homologie de séquences des protéines
δ exp : mesure de la coexpression des gènes
*Lefebvre C, Aude JC, Clément E, and Néri C. Balancing protein similarity and gene co-expression reveals new links between genetic conservation and developmental diversity in invertebrates. Bioinformatics 2005;21(8):1550--8.
Le contexte biologique du projet
Clusters obtenus par la méthode Best-Balanced Constraint Procedure*
F17A9.6cey-2ima-2
wee-1.3
ctyps
Kap-alpha3wee
----
FCM 211:
*Lefebvre C, Aude JC, Clément E, and Néri C. Balancing protein similarity and gene co-expression reveals new links between genetic conservation and developmental diversity in invertebrates. Bioinformatics 2005;21(8):1550--8.
Le système envisagé
Example de requête :est-ce que ces gènes partagent des fonctions communes ?
Annotation fonctionnelle des gènes
Sélectionner les articles pertinents
GO = Gene Ontology
Méthodes de fouille de texte
Les objectifs spécifiques Retrouver automatiquement les documents pertinents
depuis Medline Filtrage automatique à partir des noms des gènes Score de pertinence pour les documents
Créer les ressources lexicales nécessaires Normalisation des termes GO Désambiguïsation des noms de gènes
Implémenter des méthodes d’extraction de connaissances
Couples (gène, fonction) annotation fonctionnelle de gènes
Développer des services pour les biologistes
Les objectifs spécifiques Retrouver automatiquement les documents pertinents
depuis Medline Filtrage automatique à partir des noms des gènes Score de pertinence pour les documents
Créer les ressources lexicales nécessaires Normalisation des termes GO Désambiguïsation des noms de gènes
Implémenter des méthodes d’extraction de connaissances Couples (gène, fonction) annotation fonctionnelle de gènes
Développer des services pour les biologistes
Mais aussi Contribuer à la mise à jour les bases de données Identifier de nouvelles connaissances
Les objectifs spécifiques Retrouver automatiquement les documents pertinents
depuis Medline Filtrage automatique à partir des noms des gènes Score de pertinence pour les documents
Créer les ressources lexicales nécessaires Normalisation des termes GO Désambiguïsation des noms de gènes
Implémenter des méthodes d’extraction de connaissances Couples (gène, fonction) annotation fonctionnelle de gènes
Développer des services pour les biologistes
Mais aussi Contribuer à la mise à jour les bases de données Identifier de nouvelles connaissances
Les méthodes d’extraction de connaissances Patrons lexico-syntaxiques (Jilani et al., 2006)
repérage par rapport aux schémas réccurrents dans la langue
Log-Facteur de vraisemblance (Grabar et al., 2005)
cooccurrences stables => relations sémantiques Règles d’association (Ceausu et al., 2006)
attraction de mots et de termes Approche interne (en cours)
déchiffrage de fonctions encodées dans les noms de gènes
Les méthodes d’extraction de connaissances Patrons lexico-syntaxiques (Jilani et al., 2006)
repérage par rapport aux schémas réccurrents dans la langue
Log-Facteur de vraisemblance (Grabar et al., 2005)
cooccurrences stables => relations sémantiques Règles d’association (Ceausu et al., 2006)
attraction de mots et de termes Approche interne (en cours)
déchiffrage de fonctions encodées dans les noms de gènes
Un exemple de PLS <Nom><Verbe>by the<Nom>
Les PLS pour l’annotation fonctionnelle de gènes
Interface de validation
Qualifier les résultats obtenus avec des scores de confiance
Les expérimentations réalisées 1) Deux espèces : D melanogaster & C
elegans 719 clusters (3851 gènes) 1040 gènes annotés avec llr
2) Deux espèces : H sapiens & C elegans 69 clusters (416 gènes) 158 gènes annotés avec llr & PLS
La validation est en cours
Comparer les méthodes par exemple pour le FCM 197
Termes GO t Cyk-1
(cael)
Ima-2
(cael)
Kpna-2
(hosa)
Man1a1
(hosa)
Snrpn
(hosa)
Zc410.3
(cael)
nuclear chromosome cc llr llr llr
M phase bp pls pls
cytokinesis bp llr, man, pls
larval development bp man man
binding mf man
calcium ion binding mf man
DNA methylation bp llr, pls
cell cycle bp llr pls
embryonic cleavage bp
cell wall biosynthesis bp llr
man (annotation manuelle); pls (patrons lexico-syntaxiques); llr (log-facteur de vraissemblance)
Perspectives Sélection des articles pertinents
Prendre en compte l’ambiguïté et la synonymie des noms de gènes et des termes :
it, and, wee, ct … Combiner les différentes méthodes
d’extraction de connaissance afin qu’elles contribuent à améliorer les résultats
Prendre en compte les scores de confiance dans la procédure de validation des couples
Rendre le sytème le plus générique possible application à d’autres espèces
La méthodologie de validation des couples (gènes fonctions) obtenus
Comparer avec les informations contenues dans des bases de données existantes
L’utilisation des termes Gene Ontology (Gene Ontology Consortium, 2000) facilite cette évaluation puisqu’ils sont utilisés dans ces mêmes bases et par notre méthode.
Compétitions organisées pour l’évaluation d’outils automatiques
Est-ce que la méthode adoptée arrive à extraire les informations recherchées ?
Validation par les biologistes : Comparaison avec les clusters obtenus par la
méthode BBCP