seqüenciamento de dna via phred-phrap-consed carlos andré c. pessoa algoritmos para processamento...

30
Seqüenciamento de DNA via Phred-Phrap-Consed Carlos André C. Pessoa Algoritmos para Processamento de Cadeias CIn - UFPE - Mestrado/2001.1

Upload: alana-de-cotis

Post on 07-Apr-2016

227 views

Category:

Documents


5 download

TRANSCRIPT

Page 1: Seqüenciamento de DNA via Phred-Phrap-Consed Carlos André C. Pessoa Algoritmos para Processamento de Cadeias CIn - UFPE - Mestrado/2001.1

Seqüenciamento de DNA via Phred-Phrap-Consed

Carlos André C. Pessoa

Algoritmos para Processamento de Cadeias CIn - UFPE - Mestrado/2001.1

Page 2: Seqüenciamento de DNA via Phred-Phrap-Consed Carlos André C. Pessoa Algoritmos para Processamento de Cadeias CIn - UFPE - Mestrado/2001.1

RoteiroIntroduçãoProblemasIntegração Phred-Phrap-ConsedPhred Exemplos

Phrap Exemplos

ConsedReferências

Page 3: Seqüenciamento de DNA via Phred-Phrap-Consed Carlos André C. Pessoa Algoritmos para Processamento de Cadeias CIn - UFPE - Mestrado/2001.1

IntroduçãoO seqüênciamento de DNA possui várias etapas distintas (algumas vezes isoladas), mas com um único objetivo global.

Gel Electrophroresis, Chromatograms, Base Calling, Sequence Assembly, etc.

Page 4: Seqüenciamento de DNA via Phred-Phrap-Consed Carlos André C. Pessoa Algoritmos para Processamento de Cadeias CIn - UFPE - Mestrado/2001.1

ProblemasA realização isolada de atividades gera alguns problemas Perda de informações Duplicação de trabalho

Para compensar informações perdidas! Queda de performance Incompatibilidade de dados Lentidão no processo

Page 5: Seqüenciamento de DNA via Phred-Phrap-Consed Carlos André C. Pessoa Algoritmos para Processamento de Cadeias CIn - UFPE - Mestrado/2001.1

DesafiosComo integrar a cadeia de processos necessária para o seqüenciamento de DNA ?

?

Page 6: Seqüenciamento de DNA via Phred-Phrap-Consed Carlos André C. Pessoa Algoritmos para Processamento de Cadeias CIn - UFPE - Mestrado/2001.1

Solução: Phred-Phrap-Consed

Coordenado pelo Dr. Phil Green, Universidade de Washington, Seattle desde 1993.Sucesso mundial em projetos acadêmicos e comerciais.

Mais de 900 projetos e 36 países utilizam.Abrange desde a análise em laboratório de um organismo até a montagem de seus fragmentos de DNA em computador.

Page 7: Seqüenciamento de DNA via Phred-Phrap-Consed Carlos André C. Pessoa Algoritmos para Processamento de Cadeias CIn - UFPE - Mestrado/2001.1

Phred-Phrap-ConsedTrês ferramentas destinadas a trabalhar em conjunto (pipeline) e explorar os benefícios dessa integração

Podem ser usadas isoladamente, mas os resultados são melhores quando usadas em conjunto

Exemplo: Phred gera dados extras que podem ser utilizados pelo Phrap como dados opcionais para melhorar seu desempenho. O mesmo ocorre entre Phrap e Consed.

Page 8: Seqüenciamento de DNA via Phred-Phrap-Consed Carlos André C. Pessoa Algoritmos para Processamento de Cadeias CIn - UFPE - Mestrado/2001.1

Phred-Phrap-Consed - Pipeline

Cromatogramas

Phred

SeqüênciasCACATCCCCCTTTCGCCAG

40 52 55 47 19 10 34 ...Qualidade

PhrapContigs

+Informações úteis

Consed

Visualização dos contigs

Page 9: Seqüenciamento de DNA via Phred-Phrap-Consed Carlos André C. Pessoa Algoritmos para Processamento de Cadeias CIn - UFPE - Mestrado/2001.1

PhredRealiza a transformação de cromatogramas (traces), provenientes das máquinas de seqüenciamento, em seqüências de DNA.

Baseado na análise do cromatograma, também associa um fator de qualidade para cada base da seqüência gerada.

Page 10: Seqüenciamento de DNA via Phred-Phrap-Consed Carlos André C. Pessoa Algoritmos para Processamento de Cadeias CIn - UFPE - Mestrado/2001.1

Phred – Iterface via arquivos

Formatos:•SCF•ABI 737/377•MegaBACE ESD

Cromatograma

Phred

Formatos:•FASTA•XBAP•PHD•SCF

SeqüênciaCACATCCCCCTTT 12 23 20 56 50 53 ...

Qualidade

Page 11: Seqüenciamento de DNA via Phred-Phrap-Consed Carlos André C. Pessoa Algoritmos para Processamento de Cadeias CIn - UFPE - Mestrado/2001.1

Phred – Fator de qualidadeA qualidade de cada base varia entre 4 e 60. Indica a chance da base estar correta

Quanto maior melhor É determinado pela análise do cromatograma

Q Pe Segurança10 1 em 10 90%20 1 em 100 99%30 1 em 1.000 99,9%40 1 em 10.000 99,99%50 1 em

100.00099,999%

Q = -10 * log10(Pe)

Pe = Probabilidade da base estar errada

Page 12: Seqüenciamento de DNA via Phred-Phrap-Consed Carlos André C. Pessoa Algoritmos para Processamento de Cadeias CIn - UFPE - Mestrado/2001.1

Phred - ExemploEntrada:

Arquivo de cromatograma: LCP5AGGEU!LIKAA05.g Formato ABI 377

Saída:

Seqüência (formato FASTA):

>LCP5AGGEU!LIKAA05.g ...tgagtggnnnnnnntttgaacactgtg... ...cagtggcggggccggggcaacggtgtt......aaaccagctcttcttatatagg

Qualidade (formato FASTA):

>LCP5AGGEU!LIKAA05.g ... 6 8 8 8 6 6 4 0 0 0 0 0 0 0 4... ...15 11 9 8 8 8 8 8 9 9 9 9 9 11......8 7 7 7 7 7

Page 13: Seqüenciamento de DNA via Phred-Phrap-Consed Carlos André C. Pessoa Algoritmos para Processamento de Cadeias CIn - UFPE - Mestrado/2001.1

Phred –Exemplo (visualização)

•Bases: 105-128

• Visualização via applet TraceViewer

•Qualidade ótima

Page 14: Seqüenciamento de DNA via Phred-Phrap-Consed Carlos André C. Pessoa Algoritmos para Processamento de Cadeias CIn - UFPE - Mestrado/2001.1

Phred –Exemplo (visualização)

•Bases: 658-690

•Qualidade ruim

•Definição inferior

Page 15: Seqüenciamento de DNA via Phred-Phrap-Consed Carlos André C. Pessoa Algoritmos para Processamento de Cadeias CIn - UFPE - Mestrado/2001.1

Phred – ParâmetrosAo executar o Phred, 50 parâmetros podem ser especificados de acordo com a necessidade do usuário. Exemplos:

Diretório dos arquivos de entrada/saída; Tipo do formato de saída; Rejeitar bases cuja qualidade seja inferior

a um limite especificado;

Page 16: Seqüenciamento de DNA via Phred-Phrap-Consed Carlos André C. Pessoa Algoritmos para Processamento de Cadeias CIn - UFPE - Mestrado/2001.1

Phrap – Phragment Assembly Program

Realiza a montagem de seqüências de DNA em contigs.

Se as informações sobre a qualidade das seqüências lidas existir, estas são usadas para melhorar o desempenho.

Produz diversas informações sobre os contigs gerados

Úteis para ajudar na visualização do resultado e no processo de finalização da montagem de fragmentos.

Page 17: Seqüenciamento de DNA via Phred-Phrap-Consed Carlos André C. Pessoa Algoritmos para Processamento de Cadeias CIn - UFPE - Mestrado/2001.1

Phrap – Interface via arquivos

Formato:•FASTA

Seqüências de DNA

Phrap

Formato:•FASTA

ContigsCCCCTTTCGCCAGACACAC

CCCCTTTCGCCAGTCGCCAGACACACTTTTTAAACC

Qualidade das seqüências10 12 10 20 30 23 12 ...13 35 23 43 34 33 34 ...10 23 12 23 34 23 23 ...

opcional

TTTTTAAACC

Informações Extras•Informações para Consed (.ace)•Lista de seqüências em cada contig•Qualidade das bases em cada contig•...

Page 18: Seqüenciamento de DNA via Phred-Phrap-Consed Carlos André C. Pessoa Algoritmos para Processamento de Cadeias CIn - UFPE - Mestrado/2001.1

Phrap – Definição de contigs

1. Realiza um pre-processamento da entrada;

2. Determina regiões de overlap entre todos os pares de seqüências;

3. Cria um grafo direcionado baseado no passo 2;

4. Produz contigs baseado no grafo definido em 3;– Utiliza o algoritmo guloso para selecionar as arestas

em ordem decrescente

Page 19: Seqüenciamento de DNA via Phred-Phrap-Consed Carlos André C. Pessoa Algoritmos para Processamento de Cadeias CIn - UFPE - Mestrado/2001.1

Phrap – Pre-processamento

1. Constrói os complementos das seqüências lidas (do arquivo “nome.fasta”) e adiciona ao conjunto de seqüências;

2. Elimina do conjunto as seqüências duplicadas;I. A similaridade entre todos os pares já é calculada

aqui;3. Faz um vector screening no conjunto;4. Salva o resultado num arquivo FASTA;

I. Esse novo arquivo (nomeado “nome.fasta.screen”) será o arquivo utilizado pelo phrap;

II. Um novo arquivo de qualidade, nomeado “nome.fasta.screen.qual” é também criado;

Page 20: Seqüenciamento de DNA via Phred-Phrap-Consed Carlos André C. Pessoa Algoritmos para Processamento de Cadeias CIn - UFPE - Mestrado/2001.1

Phrap – Vector ScreeningI. Encontra no conjunto seqüências de bases que

correspondem a vectors. Tais bases são modificadas para ´X´ e não serão utilizadas pelo phrap;

II. Essas bases foram introduzidas em laboratório para a geração dos cromatogramas, portanto não fazem parte do organismo em estudo;

III. Os vectors a serem procurados, que são seqüências normais (acgt...), devem estar em um arquivo no formato FASTA;

IV. Caso este arquivo não seja informado, o phrap utiliza um arquivo padrão que contém todos os possíveis vectors usados normalmente;

Page 21: Seqüenciamento de DNA via Phred-Phrap-Consed Carlos André C. Pessoa Algoritmos para Processamento de Cadeias CIn - UFPE - Mestrado/2001.1

Phrap – Exemplo Abordagem: Partir de uma seqüência conhecida,

dividir em partes, processar e observar a qualidade do resultado;

Explorar seqüências com repetições; Não foram utilizados arquivos de

qualidade, uma vez que as seqüências foram editadas manualmente;

Page 22: Seqüenciamento de DNA via Phred-Phrap-Consed Carlos André C. Pessoa Algoritmos para Processamento de Cadeias CIn - UFPE - Mestrado/2001.1

Phrap – ExemploSeqüência original:

Entrada criada:

Resultado: Reconstrução total

1 2 3X X X 4

1 2

3

X

X2

3 X 4

X X

1 2 3X X X 4

Page 23: Seqüenciamento de DNA via Phred-Phrap-Consed Carlos André C. Pessoa Algoritmos para Processamento de Cadeias CIn - UFPE - Mestrado/2001.1

Phrap – ParâmetrosAo executar o Phrap, 53 parâmetros podem ser especificados de acordo com a necessidade do usuário. Exemplos:

Qualidade padrão para cada base (caso não haja arquivo de qualidade);

Scores usados no alinhamento de seqüências (mismatch, insertion, deletion, etc);

Tamanho mínimo de overlap entre seqüências para que haja alinhamento;

Page 24: Seqüenciamento de DNA via Phred-Phrap-Consed Carlos André C. Pessoa Algoritmos para Processamento de Cadeias CIn - UFPE - Mestrado/2001.1

Consed – The Contig Editor for Phred-Phrap

Ferramenta de visualização do resultado produzido pelo Phrap

Permite edição visual dos dados Inserção, remoção e alteração de (blocos de) bases

Fortemente integrada com o Phrap Permite que o Phrap perceba as alterações realizadas

em seu resultado e automaticamente tome as mesmas decisões em futuras montagens realizadas no mesmo projeto.

Page 25: Seqüenciamento de DNA via Phred-Phrap-Consed Carlos André C. Pessoa Algoritmos para Processamento de Cadeias CIn - UFPE - Mestrado/2001.1

Consed – Iterface

ConsedFormato:•FASTA

ContigsCCCCTTTCGCCAGACACTTTTTAAACC

Informações•Informações para Consed (.ace)•Lista de seqüências em cada contig•Qualidade das bases em cada contig•...

Page 26: Seqüenciamento de DNA via Phred-Phrap-Consed Carlos André C. Pessoa Algoritmos para Processamento de Cadeias CIn - UFPE - Mestrado/2001.1

Considerações FinaisEmbora os três programas sejam bastante parametrizáveis ...

Phred, 50 parâmetros; Phrap, 53 parâmetros

... se eles forem utilizados em conjunto, apenas um comando, PhredPhrap, é necessário para executar os programas e poder visualizar o resultado.

Page 27: Seqüenciamento de DNA via Phred-Phrap-Consed Carlos André C. Pessoa Algoritmos para Processamento de Cadeias CIn - UFPE - Mestrado/2001.1

Considerações FinaisA utilização separada dos programas só é recomendada se o projeto não possuir os cromatogramas

Caso contrário, ou seja, se a entrada tiver origem de máquinas de seqüenciamento, o ideal é utilizar o Phred para gerar as seqüências.

Para que os arquivos de qualidade a serem usados pelo Phrap sejam produzidos.

Page 28: Seqüenciamento de DNA via Phred-Phrap-Consed Carlos André C. Pessoa Algoritmos para Processamento de Cadeias CIn - UFPE - Mestrado/2001.1

Considerações FinaisA visualização do cromatograma pelo TraceViewer mostra que a não utilização dos arquivos de qualidade é uma grande desvantagem e é muito perigosa

Pois um fator de qualidade padrão tanto prejudica a montagem de partes boas quanto ruins da seqüência.

Page 29: Seqüenciamento de DNA via Phred-Phrap-Consed Carlos André C. Pessoa Algoritmos para Processamento de Cadeias CIn - UFPE - Mestrado/2001.1

Considerações FinaisAo executar o phrap, observar se os vectors utilizados no seqüenciamento em laboratório estão sendo corretamente mascarados nas seqüências. Observando se no arquivo “.fasta.screen” os

vectors foram substituídos por seqüências de ‘X’; Se não, definir um novo arquivo com as

seqüências para cada vector.

Page 30: Seqüenciamento de DNA via Phred-Phrap-Consed Carlos André C. Pessoa Algoritmos para Processamento de Cadeias CIn - UFPE - Mestrado/2001.1

ReferênciasThe Phred - Phrap Package: A brief description, http://www.phrap.com/background.htm

Phred, http://www.phrap.com/phred/index.htm

Consed - The Contig Editor for Phred-Phrap, http://www.phrap.com/consed/index.htm

The Phred/Phrap/Consed System Home Page, http://www.phrap.org/

Interpretation of Sequencing Chromatograms, http://seqcore.brcf.med.umich.edu/doc/dnaseq/interp.html

Trace Viewer, http://bcf.arl.arizona.edu/tools/TraceViewerApplet/phred-upload.php3