midb-op: um modelo de integração de dados biológicos...
Post on 27-Nov-2018
214 Views
Preview:
TRANSCRIPT
MIDB-OP: um Modelo de Integração
de Dados Biológicos apoiado em
Ontologias e Procedência de dados
Caroline Beatriz Perlin
Orientador: Prof. Dr. Ricardo Rodrigues Ciferri
8/6/20102
Agenda
Introdução
Bancos de dados biológicos (BDBs)
Integração de dados
Procedência de dados
Ontologias
Abordagens de integração de BDBs
Proposta de dissertação
8/6/20103
Introdução: Contextualização
Advento do Projeto Genoma
Crescimento do número de dados biológicos a serem armazenados
em Bancos de Dados Biológicos
BDBs heterogêneos e independentes
8/6/20104
Introdução: Motivação
BDBs são heterogêneos e têm crescimento acelerado, bem como
os dados neles armazenados.
Problemas na integração de dados biológicos:
• Conflitos semânticos;
• Conflitos de valores nos atributos de entidades;
• Entidades similares que poderiam ser agrupadas;
• Uma entidade que poderia representar um agrupamento.
8/6/20105
Introdução: Objetivos
Criação de um modelo de integração de dados armazenados nos
diferentes BDBs
Esse modelo terá o uso de ontologias e procedências.
Modelo de Integração de Dados Biológicos apoiado em Ontologias
e Procedências (MIDB-OP)
8/6/20106
Bancos de Dados Biológicos: Dados biológicos
Armazenam grande heterogeneidade de dados biológicos. Muitos
deles provêm da área da bioinformática.
1. Sequências de nucleotídeos e aminoácidos
Representam nucleotídeos compostos pelas bases:
• Citosina (C)
• Timina (T)
• Guanina (G)
• Adenina (A) *
• Uracila (U) **
• ou por strings que representam os 20 aminoácidos que compõem as proteínas (i.e., {A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y}).
* Exclusiva do DNA
** Exclusiva do RNA
8/6/20107
Dados biológicos
2. Ácido nucleico
• Ácido desoxirribonucleico (DNA)
• Pentose: desoxirribose
• Bases nitrogenadas: A, C, G, T.
• Ácido ribonucleico (RNA)
• Pentose: ribose
• Bases nitrogenadas: A, G, T e U.
3. Genoma
• Conjunto de genes de uma espécie
• Gene: sequência de nucleotídeos que contém informação genética
8/6/20108
Dados biológicos
4. Proteoma
• Conjunto de proteínas que participam de processos químicos e biológicos numa
célula, tecido ou organismo de uma espécie.
5. Anotação de gene
• Inclusão informações importantes para a análise e interpretação de genes.
• De acordo com o ambiente onde a anotação é realizada, ela pode ser
classificada em:
• Manual
• Automática
• Importada
8/6/20109
Dados biológicos
6. Estruturas de proteínas
• Estruturas tridimensionais (3D) que exibem a representação geométrica
das proteínas
Estrutura da proteína serum albumina humana, adaptado de wwPDB (2010).
8/6/201010
Dados biológicos
7. Dados bibliográficos
• Publicações, citações, resumos e artigos completos disponíveis para
consulta.
Trecho do resultado da busca por “soya cancer” no PubMed
8/6/201011
Formato de sequências nos BDBs
Foi realizada uma pesquisa em dados de sequência em três BDBs,
obtendo como resultado a tabela abaixo:
• GenBank
• DDBJ
• EMBL
8/6/201012
Integração de banco de dados
Visão integrada para facilitar o acesso aos dados e o seu reuso
através de um único ponto de acesso.
Dados de diferentes sistemas de informação complementares são
combinados para gerar um BD mais abrangente.
Em nível de:
• Esquema
• Instância
Esquema Mediado
Wrapper Wrapper Wrapper Wrapper
8/6/201013
Integração em nível de instância ou Resolução de
Entidades (RE)
Integração de registros similares que são fundidos (merge)
Suponha as três relações abaixo:
Podemos fundir r1e r2 baseado no campo RG:
O registro r12 pode ser fundido ao registro r3:
Existem algoritmos para realizar a resolução de entidades: o de força bruta
e o G-swoosh.
R1 Nome RG R2 RG Email R3 Nome Email
R12 Nome RG EmailR12 Nome RG Email
R123 Nome RG Email
8/6/201014
Integração de dados biológicos - desafios
Heterogeneidade de dados biológicos.
Formato de representação dos dados biológicos.
Diferentes interfaces de consulta.
8/6/201015
Procedência de Dados
Armazenamento de metadados que permitem a construção do
histórico de um determinado dado (TOMAZELA, 2008).
Sinônimos: proveniência (provenance), linhagem de dados (lineage
ou pedigree) e data tracking.
8/6/201016
Aspectos da coleta e consulta da procedência de dados
Decisão de quais dados armazenar
• Tipos de dados
• Granularidade
Decisão da estratégia de coleta de dados
• Abordagens manual ou automática
• Abordagens lazy ou eager
Decisão de como armazenar estes dados
• Arquivos
• BDs
Decisão de como consultar os dados.
• Abordagens de consulta tipo rastreamento e/ou tipo filtro.
8/6/201017
Ontologias: Motivação
Heterogeneidade de termos em BDs, havendo as seguintes
situações:
• dois termos diferentes referem-se ao mesmo objeto;
Ex.: cachorro, cão.
• dois termos iguais referem-se a objetos diferentes;
• termos sinônimos em um banco de dados não são assim considerados
por outro banco de dados.
8/6/201018
Ontologias: Definição e características
Definida como “uma especificação formal e explícita de uma
conceitualização compartilhada” (GRUBER, 1993).
Características
• Conceitos (ou classes)
• Propriedades: atributos + relacionamentos
• Instância
• Axioma
• Inferência
Uma forma de expressar: linguagem Web Ontology Language
(OWL), recomendação do W3C.
8/6/201019
Gene Ontology e Sequence Ontology
Gene Ontology
• Provê conjunto de vocabulários controlados para anotações de genes,
produtos de genes e sequências.
• Possui 3 ontologias independentes:
• Ontologia de função molecular
• Ontologia de processo biológico
• Ontologia de componente celular
Sequence Ontology
• Vocabulários controlados para anotações de sequências, focando em
suas características.
8/6/201020
Abordagens de integração de BDBs
8/6/201021
Abordagens de integração de BDBs
Tipos de dados tratados pelos trabalhos correlatos ao modelo proposto.
8/6/201022
Proposta de dissertação
Funcionalidades que devem estar presentes no MIDB-OP:
• Reconciliador de dados biológicos para identificar inconsistências entre
dados biológicos de diferentes fontes;
• Uso de ontologias do domínio de biologia molecular, como a Gene
Ontology e Sequence Ontology como vocabulário controlado;
• Uso de procedência de dados para permitir a reaplicação de decisões
de integração realizadas previamente;
• Desenvolvimento de uma interface gráfica para visualização dos dados
integrados e da fonte de origem.
Tipo de dado que será objeto dessa pesquisa: sequências
8/6/201023
Reconciliador de dados biológicos
Arquitetura da ferramenta Reconciliador de Dados Biológicos, adaptado de
Tomazela et al (2008)
Árvore-NM1
Documento 1
Conjunto de
Visões 1
Repositório de
Árvores-NM
Repositório de
Documentos
Conjunto de
Visões 2Visão 1 Visão 2
Árvore-NM2
Documento 2
Módulo
ExtratorMódulo
Reconciliador
Módulo
Extrator
8/6/201024
Uso de ontologias do domínio de biologia molecular
Objetivo do uso das ontologias:
• Resolver conflitos semânticos e de valores de atributos.
• Identificação de uma entidade que representa um agrupamento.
• Para agrupamento de entidades similares.
• Vocabulário controlado.
Exemplo do uso de ontologias para verificar similaridade, adaptado de Eilbeck et al (2005)
Exon:
CG14478:1
Exon:
CG14478:2
Exon:
CG14478:3
Transcript:
CG14478:RA
Transcript:
CG14478:RB
Gene:
CG14478
8/6/201025
Uso da procedência de dados
Após a fase de reconciliação, pode ser necessária decisão do
usuário de qual dado utilizar
Os BDB são proprietários, logo não podemos propagar a decisão do
usuário para o BDB
Solução:
•Armazenar as decisões como operações em um repositório
•Essas operações serão reaplicadas quando ocorrer situação similar
8/6/201026
Arquitetura do sistema proposto
Dados
integrados
Repositório de
operações
Componente de
consulta
BDBs
públicos
Componente de
integração
1Ontologias
(Gene e Sequence)
Projetos
genoma
Outros
BDBs
Procedência
Re
ap
lica
çã
o
8/6/201027
Cronograma de atividades
Defesa da qualificação de mestrado
Revisão do estado da arte na literaturaEstudo e tratamento dos problemas de
identificação de agrupamentos de
entidades similares no domínio biológico
de sequências de nucleotídeos e de
aminoácidos, e identificação da entidade
representativa de um agrupamento
Desenvolvimento de um reconciliador de
dados biológicosProposta do modelo de integração de
dados biológicosImplementação do modelo de integração
Desenvolvimento da interface gráfica
Trabalho com estudos de caso
Análise comparativa com trabalhos
do estado da arteRedação e submissão de artigos a
eventos e periódicos nacionais e
internacionaisEscrita da monografia da
dissertação de mestradoPreparação para a defesa da
dissertação de mestradoDefesa da dissertação de
mestrado
Obrigada!
Contato:
carolineperlin@yahoo.com.br
top related