enrichissement automatique d’une base de connaissances biologiques à l’aide des outils du web...
DESCRIPTION
Présentation d'Ines Jilani et Florence Amardeilh à IC 2009.TRANSCRIPT
IC 2009
Enrichissement automatique d’une base de connaissances biologiques à l’aide des outils du Web sémantique
Inès Jilani (SPIM)Florence Amardeilh(MoDyCo)
Projet STIC-AMSUD Microbio
Contexte 1
Maîtrise des techniques deMaîtrise des techniques deséquençage du génomeséquençage du génome
Explosion des données et desExplosion des données et desconnaissancesconnaissances
La littérature est la source dedonnées et de connaissances la plus importante.Le travail des annotateurs est assuré manuellement.
Besoin d’outils automatiques
Projet Microbio
Programme STIC-AMSUD
Collaboration avec l’Institut Pasteur de Montevideo (Uruguay)
Recherche de connaissances sur les miARN: ARN simple-brin (21 à 24 nucléotides) qui s'apparient à des ARN messagers, ils guident leur dégradation, ou la répression de leur traduction en protéine, entraînant l’apparition ou au contraire l'inhibition de maladies
Problématique Microbio Phases du projet Microbio :
1. Construire une ontologie de domaine sur les miARNs
1. Identifier et extraire les mutations et les régulations impliquant des miARNs
Identifier l’information modale pour enrichir la connaissance extraite des textes bio-médicaux
Fournir aux biologistes des interfaces pour explotier la basede connaissance ainsi générée
Construction manuelle d’une ontologie de domaine
A partir de : la littérature scientifique bio-médicale Les bases de données existantes sur les gènes, les
maladies, les miARN, les mutations, etc. Les modélisation de terminologies ou d’ontologies existantes
se rapprochant du sujet de notre étude (Gene Ontology, Sequence Ontologgy, …)
Entretiens avec les biologistes de l’IP¨Uruguay
Modélisation d’une ontologie au sujet des régulations et des mutations entre miARN et mARN
Ontologie Microbio
Extension de la « Sequence
Ontology » pour prendre en compte les spécificités des
miARN
Validation de l’ontologie miARN
En cours par les biologistes de l’IP
Travail également en cours : création semi-automatique d’une ontologie des
miARNs à partir des corpus issus de MedLine Comparaison des deux ontologies pour leur
validation et enrichissement potentiel
Matériel pour l’extraction de connaissances
Pubmed: portail de Medline1
Règlessurlignées parl’expertbiologiste
1 www.ncbi.nlm.nih.gov/entrez/
Matériel pour l’extraction de connaissances
Terminologies utilisées pour construire les dictionnaires
Corpus collecté
Requête:SNPs [MH] AND miRNAs [MH] AND human [MH]
Résultat: 35 articles dont 21 disponibles en entier (533 853 tokens pour une taille de 2,2 Mo)
Méthode d’extraction
Patrons de tri/quadri-occurrence:
Evaluation de la tâche de Peuplement de l’ontologie
Résultats de l’extraction de connaissances sur les miARN: 35 annotations différentes extraites automatiquement
Evaluation: 30 annotations étaient à retrouver (annotations réalisées manuellement par l’expert biologiste)
Précision = 25/35 = 0,72 Rappel = 15/30 = 0,50
Discussion sur l’évaluation Rappel relativement bas: pas de prise en
compte des variantes morphologiques des maladies par exemple. L’outil ne détecte pas une phrase qui contient « lung
cancers » car notre dictionnaire n’inclut que les formes au singulier « lung cancer ».
Le chiffre de la précision souffre de la synonymie des noms de gènes avec les noms propres, ou des acronymes utilisés pour référencer des techniques en biologie.
Mise en place du processus de peuplement de l’ontologie
Utilisation de l’infrastructure offerte par le CA Manager Outil d’extraction d’information « miR Discovery » exploitant les
patrons présentés Référentiel sémantique : Sesame
Définition des règles d’acquisition de connaissance pour exprimer le passage des informations extraites en instances de connaissances
Définition des algorithmes de consolidation pour fsiltrer et améliorer les résultats obtenus par l’extraction
Conclusion et travaux futurs Améliorer la performance de l’outil d’extraction et continuer
le développement de sa couverture
Achever les connecteurs au serveur de connaissance Sesame (via le CA Manager) et ajouter l’enrichissement automatique à partir d’autres sources de données accessibbles par web services
Fournir des informations de confiance aux biologistes concernant les nouvelles instances créées dans la base de connaissance (information sur les relations identifiées entre les entités, preuves de l’expérimentation, etc.) grâce à l’information modale pouvant être identifiée dans les textes analysés