alinhamento local

Post on 07-Dec-2015

244 Views

Category:

Documents

2 Downloads

Preview:

Click to see full reader

DESCRIPTION

alinha localmente dna

TRANSCRIPT

Alinhamento local- Utilização do BLAST

BLAST

Tipos de BLAST

Compara nucleotídeos(blastn)

(blastp) Compara proteínas

Utiliza nucleotídeo como “query” , este é traduzido nos seus 6 quadros de leitura e é comparado contra banco de proteína

Utiliza proteína como “query” , esta é comparada contra banco de nucleotídeo traduzido nos 6 quadros de leitura

Utiliza nucleotídeo como “query” , este é traduzido nos seus 6 quadros de leitura e é comparado contra banco de nucleotídeo traduzido nos 6 quadros de leitura

Submissão de seqüências Blastn

Seqüência a ser alinhada ou numero de acesso

Bases de dados

Busca por palavra chave

ProgramaMegablast + rapido

Parâmetros do blastn

Programa:Megablast utiliza “seeds” maiores (28 bases) fazendo com que o algoritmo seja mais rápidoDiscontiguos megablast- Utiliza seeds maiores, mas exige que apenas algumas bases sejam coincidentes dentro de um padrão definido.Blastn- seeds menores (11 bases, podendo ser ajustado ate 7 bases). Mais sensível mas também mais lento

Parâmetros do blastn

Max Target sequences- Numero de alinhamentos mostradosShort queries- Ajuste automático de parâmetros para seqüências pequenasExpect threshold- Ajuste da exigência mínima de relevância estatistica para seqüência ser mostradaWord size- Tamanho do “seed”

Parâmetros do blastn

Match/Mismatch scores- escores para alinhamento coreto e incorretoGap costs- Penalização para abertura de “gaps”

Filtros- Filtragem de região de baixa complexidade ou repetiçõesMascaras- Filtragem de seqüências para busca dos “seeds” e mascaramento dado pelo usuario

Interpretação do resultado do blast

Interpretação do resultado do blast

Accesion – Numero de acesso para seqüência alinhada

Description- Descrição breve da seqüência

Max score- escore máximo resultante de um único HSPs (High-scoring Segment

Pairs)

Total score- Escore resultante da soma de HSPs

Query coverage- Porcentagem da seqüência submetida ao programa que é

coberta pelo alinhamento

E-value- Parâmetro de confiança

Max identity- Identidade máxima obtida por um HSP

Escore do blast

• Escore do blast

O escore do blast é normalizado e é dado pela seguinte equação:

l e K são parâmetros estatísticos utilizados utilizada que buscam normalizar os escores de resultados derivados de diferentes matrizes e espaços de busca

expected value (e-value)

• Parâmetro de confiança do alinhamento

Onde E = expect value

m e n-tamanho das seqüências alinhadas

S´- escore normalizado

Relação entre e-value e p-value

E p

10 0.99995460

5 0.99326205

2 0.86466472

1 0.63212056

0.1 0.09516258

0.05 0.04877058

0.001 0.00099950

0.0001 0.0001000

Interpretação de e-value

• O e-value permite-nos ter uma idéia de quão significativos são os alinhamentos que obtemos. Entretanto a interpretação de um resultado nem sempre é trivial e muitas vezes dependo do que o usuário busca (definição de função, busca de motivos conservados, etc..) e também do tamanho da seqüência submetida (seqüências muito pequenas nunca obterão um e-value muito baixo mesmo obtendo um alinhamento perfeito)

• O fato de termos um e-value significativo não implica que necessariamente podemos postular a função de uma proteína, pois em alguns casos isso reflete meramente a conservação de algum motivo ou domínio que podem esta presentes em proteínas com funções diversas

Interpretação do resultado do blast

Traços verticais representam

identidade entre nucleotídeos

Letras minúsculas em cinza

representam trechos

mascarados

Traços horizontais

representam “gaps”

Query- seqüência submetida

ao programa

Subject- seqüência do banco

de dados alinhada a

seqüência submetida

Interpretação do resultado do blast

Resultado tem dois HSPs (High-scoring Segment Pairs), estatísticas para

cada um deles é dada.

Submissão de seqüências Blastp

Basicamente o mesmo que o

blastn

Podem ser utilizados 3 programas:

Blastp- algoritimo normal

PSI-Blast- Matriz modificada

PHI-BLAST-Busca sequencias

contendo um motivo indicado pelo

usuário

Proteína X proteína

Submissão de seqüências Blastp

• Word size padrão para proteínas é 3 (contra 7 dos nucleotideos), entretanto somente aqueles mais significativos são utilizados como seeds

Parâmetros do PSI-blast

Interpretação do resultado do blastp

Espaços com letras na linha

do meio do alinhamento

indicam conservação do

aminoácido

Sinal + neste espaço indica

uma substituição com escore

positivo segundo a matriz de

substituição utilizada

PSI-BLAST

• O PSI-blast inicia-se como um blastp normal e recupera proteínas contendo similaridades com a proteína inserida.

• Entretanto o algoritmo se utiliza das seqüências resultantes desta primeira pesquisa que obtiveram um escore acima de um certo limite para criar uma nova matriz (position-specific score matrix) baseada no alinhamento destas seqüências

• Esta matriz tenderá a fornecer escores mais altos para regiões conservadas dentro desta família e escores baixos para regiões pouco conservadas

• Uma nova busca é realizada com esta matriz e com os novos alinhamentos formados uma nova matriz pode ser criada

PSI-Blast

Resultado primeiro

alinhamento

PSI-Blast

Resultado Primeiro

alinhamento

PSI-Blast

Resultado terceiro

alinhamento

Primeiro alinhamento –melhor hit

Terceiro alinhamento –

melhor hit

Terceiro alinhamento –

melhor hit do primeiro

alinhamento

Interpretação do resultado do blastx

Quadro de leitura da tradução da seqüência submetida

Interpretação do resultado do tblastn

Quadro de leitura da tradução da seqüência do banco de dados

Interpretação do resultado do tblastx

Quadro de leitura da

tradução da seqüência

submetida

Provável resultado espúrio

devido a conservação de

bases no quadro de leitura

positivo

Quadro de leitura da

tradução da seqüência do

banco

Interpretação do resultado do tblastx

• Quando utilizamos o tblastx muitas vezes temos alinhamentos em quadros de leitura que não possuem nenhum sentido biológico, mas que são similares entre as seqüências devido a pouca divergência entre elas

• É recomendável quando analisamos uma seqüência de nucleotídeos tentarmos deduzir primeiramente a proteína codificada por este (através da dedução do quadro de leitura mais longo) e após isso utilizar o programa tblastn

Blast 2 sequences

Permite a realização de alinhamento local entre duas seqüências

Parâmetros semelhante ao do blast

Blast 2 sequences

Estatísticas são calculadas

levando-se em conta o banco nr

do NCBI

BLAST Assembled Genomes

BLAST Assembled Genomes

Ab-initio RNA ou protein-

seqüências deduzidas a partir

de programas de predição de

genes utilizando a informação

disponível para o organismo

Build RNA ou protein-

Combinação dos dados de ref-

Seq mais as seqüências ab-

initio (dando preferência a

primeira)

Traces- Dados brutos de

seqüenciamento em larga

escala

top related