enumeração de soluções de distância de rearranjo e alinhamento de sequências utilizando...
TRANSCRIPT
Enumeração de Soluções de Distância de Rearranjo e
Alinhamento de Sequências utilizando Eventos de Rearranjo
Christian BaudetZanoni Dias (Orientador)
Instituto de Computação – UnicampCampinas, 05 de Setembro de 2008
Roteiro Motivação
Conceitos
Descrição do Projeto
Estágio no Exterior
Cronograma de Atividades
Motivação
Importância da pesquisa genômica
Rearranjo de genomas
Mecanismos de evolução
Rearranjo de Genomas Eventos de rearranjos
Transformam o genoma das espécies Grande influência na evolução Espécies próximas
Diferenças na ordem dos genes Reversões Transposições Translocações
Reversões Inversão na direção de um trecho do
cromossomo:
Reversões Permutações não orientadas
Problema NP-Completo (Caprara, 1999) Berman, Hannehalli e Karpinski, 2002
Algoritmo de aproximação com fator 1.375 Permutações orientadas
Tempo polinomial O(n4) – Hannenhalli e Pevzner, 1995 O(n2) – Bergeron, 2001
Apenas cálculo de d() O(n) – Bader, Moret e Yan, 2001
Transposições Troca de posições entre dois blocos
consecutivos no cromossomo:
Transposições Ordenação por transposições
Problema em aberto Bafna e Pevzner, 1995
Primeiro algortimo de aproximação O(n2) e fator 1.5
Christie, 1996 Block-interchange – Algoritmo O(n2)
Elias e Hartman, 2005 Algoritmo de aproximação com fator 1.375
Translocações Trocas entre prefixos/sufixos de dois
cromossomos diferentes:
Translocações Permutações não orientadas
Problema em aberto Kececioglu e Ravi, 1995
Algoritmo de aproximação com fator 2 Permutações orientadas
O(n3) – Hannehalli, 1996 O(n2) – Wang et al., 2005 Apenas cálculo de distância de translocação
O(n) – Li et al., 2002
Enumeração de Soluções de Distância de Reversão
Braga et al. The Solution Space of Sorting by Reversals
(2007) Exploring the Solution Space of Sorting by
Reversals, with Experiments and an Application to Evolution (2008)
Enumeração de todas as soluções
Utilização do conceito de traces
Traces Relação de equivalência
Se ρ e θ são reversões e não se sobrepõem, então ρθ e são θρ equivalentes
Classes de equivalências Relação acima é aplicada às soluções do
problema de distância de reversão Traces têm a propriedade de “compactar” o
enorme conjunto de soluções Resultados mais representativos
Traces – Forma Normal Decomposição: s = u1|...|um
Todo par de elementos da sub-palavra ui comutam entre si
Para todo elemento ρ de uma sub-palavra ui (i > 1), existe ao menos um elemento θ da palavra ui-1 tal que ρ e θ não comutam
Toda palavra ui é uma palavra crescente não vazia com relação à ordem lexográfica induzida por A
Teorema – Cartier e Foata, 1969 Todo trace possui uma única forma normal
Enumeração de Soluções de Distância de Reversão
Siepel, 2003 Optimal i-sequence : s= ρ1 ρ2... ρi
d( ρ1 ρ2... ρi) = d() – i Obtém todas optimal 1-sequences em tempo O(n3)
Algoritmo iterativo Calcular todas i-sequences a partir de todas as (i-
1)-sequences
Braga et al. 2007 Calcular todos i-traces a partir de todos os (i-
1)-traces
Enumeração de Soluções de Distância de Reversão
Braga et al. 2007 e 2008 Algoritmo que enumera todos os traces das
soluções do problema de distância de reversão
Algoritmo exponencial Altas complexidades de tempo e de espaço Limitado a permutações pequenas (n < 20)
Adição de restrições biológicas para reduzir o espaço de soluções
Alinhamento de Sequências com Reversões
Vellozo et. al Alignment with Non-overlapping Inversions
in O(n3)-Time (2006)
Alinhamento de sequências Inversões que não se sobrepõem Complexidade de tempo O(n3) Complexidade de espaço O(n2)
Alinhamento de Sequências com Reversões
Grafo de edição
Alinhamento de Sequências com Reversões
Grafo de edição estendido
Alinhamento de Sequências com Reversões
Alinhamento de Sequências com Reversões
Matriz B Cada célula (i,j) mantém o peso do caminho
ótimo de (0,0) até (i,j)
Diversas matrizes e vetores auxiliares
Alinhamento de Sequências com Reversões
Vellozo et. al, 2006 Algoritmo utiliza espaço quadrático
Não utiliza pontuação afim
Peso de reversão constante
Projeto Enumeração de Soluções
Aplicar o algoritmo ao gênero Wolbachia
Reduzir consumo de memória
Combinar conceitos: Traces + Transposição Algoritmo de aproximação de fator 1.375
para o problema de distância de transposição
Projeto Alinhamento com eventos de rearranjo
Estender algoritmo para utilização de pontuação afim
Função que penalize as reversões conforme os seus tamanhos
Transposição Algoritmo que realize alinhamento utilizando
eventos de transposição
Estágio no exterior Estágio em Lyon – França
Professora Marie-France Sagot Grupo BAMBOO-BAOBAB Visita em Fevereiro/2007
Braga e Vellozo trabalham no laboratório Intercâmbio com pessoas familiarizadas com
os problemas que serão abordados no projeto
Cronograma
1. Disciplinas2. Revisão Bibliográfica3. Visita ao grupo BAOBAB4. Preparação para o Exame de
Qualificação Específico
Cronograma
5. Aplicar algoritmo de enumeração de soluções de distância de reversão ao gênero Wolbachia
6. Incorporação de pontuação afim ao algoritmo de alinhamento de sequências com reversões
Cronograma
7. Estágio no Exteriora. Redução de consumo de memória do
algoritmo de enumeraçãob. Redução de consumo de memória do
algoritmo de alinhamentoc. Adição de função de peso para as
reversões ao algoritmo de alinhamento
Cronograma
8. Algoritmo de alinhamento de sequências usando transposições
9. Algoritmo de enumeração de soluções de distância de transposição
10. Conclusão da escrita da tese11. Defesa12. Entrega da versão final