alineamiento de secuencias encuentra las 12 diferencias

30
Alineamiento de secuencias Encuentra las 12 diferencias

Upload: rodolfo-aybar

Post on 10-Feb-2015

66 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Alineamiento de secuencias Encuentra las 12 diferencias

Alineamiento de secuencias

Encuentra las 12 diferencias

Page 2: Alineamiento de secuencias Encuentra las 12 diferencias

Alineamiento de secuencias

La Bioinformática es una disciplina basada en el conocimiento

Page 3: Alineamiento de secuencias Encuentra las 12 diferencias

Alineamiento de secuencias

Secuencia → Estructura → Función

Las secuencia del ADN determina la secuencia

de una proteína.

La secuencia de una proteína determina su

estructura 3D.

La estructura 3D de una proteína determina su

función biológica.

Por tanto, es muy probable que

secuencias similares den lugar a proteínas

con estructura y función parecidas.

Page 4: Alineamiento de secuencias Encuentra las 12 diferencias

Alineamiento de secuencias

Alineamiento de secuencias

El análisis de secuencias es una herramienta básica de la bioinformática que permite

obtener información funcional, estructural y evolutiva en secuencias biológicas

Similar sequence leads to similar structureSimilar structure leads to similar function

El alineamiento de secuencias permite descubrir el grado de similitud que hay entre ellas para poder determinar si se trata de secuencias homólogas

Para comparar secuencias es necesario hacer un alineamiento: se colocan una encima de la otra de modo que el número de símbolos

conservados que ocupen una misma posición sea máximo

Page 5: Alineamiento de secuencias Encuentra las 12 diferencias

Alineamiento de secuencias

Un alineamiento múltiple de secuencias

Se conservan las regiones que son importantes para mantener la estructura y/o

función

Page 6: Alineamiento de secuencias Encuentra las 12 diferencias

Alineamiento de secuencias

El “santo grial” de la bioinformática

Determinar la estructura 3D a partir de la secuencia

Page 7: Alineamiento de secuencias Encuentra las 12 diferencias

Alineamiento de secuenciasPara alinear dos secuencias de longitud n y m, respectivamente, se

colocan una encima de la otra de manera que el número de símbolos coincidentes sea máximo. Si es necesario, se introducen huecos (gaps).

* Un sistema de puntuación

Alineamiento de secuencias

Page 8: Alineamiento de secuencias Encuentra las 12 diferencias

Alineamiento de secuencias

Las tres posibilidades: match, mismatch, gap

En cada una de las posiciones de un alineamiento de secuencias se puede encontrar:

Un símbolo idéntico (match) que se ha conservado a lo largo de la evolución

Un símbolo distinto (mismatch) que ha sido sustituido (o que ha mutado) a lo largo de la evolución

Un hueco (gap), que es el resultado de la desaparicón (deletion) de un símbolo en una secuencia o de la inserción (insertion) de un símbolo en la otra. Como ambos casos son indistinguibles, también se les llama indel.

Page 9: Alineamiento de secuencias Encuentra las 12 diferencias

Alineamiento de secuenciasEn función del número de secuencias que se comparan podemos distinguir:

Alineamiento de dos secuencias

Alineamiento múltiple de secuencias

Tipos de alineamiento

Page 10: Alineamiento de secuencias Encuentra las 12 diferencias

Alineamiento de secuenciasA veces es interesante comparar una secuencia

consigo misma. En un dot-plot las características más sobresalientes de la secuencia se identifican fácilmente

Alineamiento de una secuencia consigo misma

Page 11: Alineamiento de secuencias Encuentra las 12 diferencias

Alineamiento de secuencias

Parecidas

Posibles causas del parecido entre dos secuencias

Comparación de dos

secuencias

Idénticas Herencia genética

Homólogas

Análogas

Ancestro común

Evolución convergente

En un mismo organismoEn distintos organismos

XenólogasOrtólogas Parálogas

Especiación Duplicación de un genTransferencia horizontal de

genesConserva la función Adquiere nueva función

Page 12: Alineamiento de secuencias Encuentra las 12 diferencias

Alineamiento de secuencias

Suelen conservar la función

Suelen adquirir nuevas funciones

Diversos tipos de homología (1)

Page 13: Alineamiento de secuencias Encuentra las 12 diferencias

Alineamiento de secuencias

Diversos tipos de homología (2)

Page 14: Alineamiento de secuencias Encuentra las 12 diferencias

Alineamiento de secuenciasHomólogas: secuencias similares de dos organismos

distintos, que proceden de una misma secuencia ancestral.

Ortólogas: secuencias similares de dos organismos distintos, que han aparecido durante un proceso de

especiación. Conservan la misma función.

Parálogas: secuencias similares de un mismo organismo, que han aparecido durante un proceso de duplicación génica. Pueden adquirir distinta función.

Xenólogas: secuencias similares que han surgido como consecuencia de un proceso de transferencia

horizontal de genes. (virus, simbiosis, etc.)

Diversos tipos de homología (2)

Page 15: Alineamiento de secuencias Encuentra las 12 diferencias

Alineamiento de secuenciasDos secuencias siempre se pueden alinear y son

muchos los posibles alineamientos. Para determinar cuál es el mejor, es necesario un sistema de puntuación.

Alineamiento óptimo

¿Cuál es el mejor?

HEAGAWGHEE

PAWHEAEEjemplo:

HEAGAWGHE-EP-A--W-HEAE

HEAGAWGHE-E--P-AW-HEAE

El alineamiento que obtenga la puntuación más elevada se denomina alineamiento óptimo

Page 16: Alineamiento de secuencias Encuentra las 12 diferencias

Alineamiento de secuenciasSi hay más de un alineamiento con la misma puntuación,

será criterio del investigador decir cuál es el más probable.

Alineamiento óptimo (2)

Page 17: Alineamiento de secuencias Encuentra las 12 diferencias

Alineamiento de secuenciasEl sistema más sencillo consiste en otorgar una

puntuación discreta a las coincidencias (match), otra a las diferencias (mismatch) y otra a los huecos (gaps).

En muchos casos se utiliza una matriz de puntuación (scoring matrix) donde se tiene en

cuenta que no todos los aa sustituyen a otro con la misma probabilidad (muchas de las

sustituciones observadas son conservativas)

Hay diversos criterios para puntuar los huecos. Se considera que en la evolución es más lógico que se introduzca un hueco de longitud n que n huecos de

longitud 1. Por eso se otorga una penalización al introducir un hueco y otra (menor) por cada carácter añadido

El sistemas de puntuación

Page 18: Alineamiento de secuencias Encuentra las 12 diferencias

Alineamiento de secuencias

Tipos de alineamiento

Alineamiento global (longitud de la

secuencia parecida)

Alineamiento local (longitud de la

secuencia parecida)

Alineamiento semiglobal (longitud

de las secuencias muy distinta

Page 19: Alineamiento de secuencias Encuentra las 12 diferencias

Alineamiento de secuencias

Alineamiento global

Es especialmente adecuado cuando:

• Se comparan genes o proteínas con una misma función• Las secuencias tienen aproximadamente la misma longitud• Las secuencias están estrechamente relacionadas• Los dominios conservados se encuentran en el mismo orden

Un alineamiento global intenta alinear cada residuo de una secuencia con un residuo (o

un indel) de la otra.

Un alineamiento global permite:

• establecer relaciones de homología entre las secuencias• hacer un análisis filogenético de las secuencias

Para hacer un alineamiento global se utiliza el algoritmo de Needleman y Wunsch

Page 20: Alineamiento de secuencias Encuentra las 12 diferencias

Alineamiento de secuencias

Alineamiento local

Es especialmente adecuado cuando:• Se comparan secuencias muy divergentes (de igual o distinta longitud)• No se conoce el orden de los dominios conservados• Se compara ADNc (o EST) con el ADN genómico

En un alineamiento local, una o más regiones de una

secuencia se alinean con una o más regiones de la otra.

Un alineamiento local permite:• detectar pequeñas regiones conservadas de similitud local (centros activos, dominios proteicos, exones)• distinguir entre exones y intrones• ensamblar contigs a partir de fragmentos más pequeños

Para hacer un alineamiento local se utiliza el algoritmo de Smith y Waterman

Page 21: Alineamiento de secuencias Encuentra las 12 diferencias

Alineamiento de secuencias

Alineamiento semiglobal

Es especialmente adecuado cuando:• Se comparan secuencias de muy distinta longitud• El final de una secuencia se solapa con el inicio de la otra• Los dominios conservados se encuentran en el mismo orden

Un alineamiento semiglobal se utiliza para

alinear secuencias con una longitud muy distinta

Un alineamiento semiglobal permite:• ensamblar contigs a partir de fragmentos más pequeños• comparar ADNc (o EST) con el ADN genómico para establecer la estructura del gen

Para hacer un alineamiento semiglobal se utiliza una variante del algoritmo de Smith y Watermina que no aplica

penalizaciones ni al principio ni al final de la secuencia

Page 22: Alineamiento de secuencias Encuentra las 12 diferencias

Alineamiento de secuencias

Ejemplo de alineamiento semiglobal

Page 23: Alineamiento de secuencias Encuentra las 12 diferencias

Alineamiento de secuencias

Alineamientos de secuencias de ácidos nucleicos

En las bases de datos, los 4 nucleótidos aparecen con la misma frecuencia

Todos los cambios posibles tienen una probabilidad similar

Se basa fundamentalmente en la coincidencia directa entre los textos

Método lento, porque las bases de datos de ácidos nucleicos contienen un

número muy elevado de caracteres

Es preferible “traducir” una secuencia de DNA a 6 proteínas (los 6 ORF) y alinear las secuencias de proteínas

No queda más remedio que hacerlo si se trata de secuencias no codificantes

Son menos sensibles que los alineamientos de proteínas ...

Page 24: Alineamiento de secuencias Encuentra las 12 diferencias

Alineamiento de secuencias

Alineamientos de secuencias de proteínas

1.- Aportan más información (más de 4 bits por aa).

3.- El código genético es redundante, casi 1/3 de las bases no están sometidas a presión selectiva y generan ruido, lo que afecta a la sensibilidad de la búsqueda

4.- Las búsquedas en bases de datos de ácidos nucleicos son más lentas porque son mucho más grandes a causa de los proyectos genómicos y, además, contienen muchas secuencias no codificantes.5.- A diferencia de los nucleótidos, las probabilidades de sustituir un aa por otro son muy distintas. Teniendo en cuenta este hecho se mejora enormemente la eficacia de la búsqueda.

2.- Se obtienen resultados estadísticamente significativos con alineamientos más cortos

Page 25: Alineamiento de secuencias Encuentra las 12 diferencias

Alineamiento de secuencias

AUGGAGCTGATCTCAGCGATCTCAGCGCTGATCGTCGAGTGAAUGGAATTAATTAGTGCTATTAGTGCTTTAATTGTTGAATAA

Consideremos estas dos secuencias:

AUGGAGCTGATCTCAGCGATCTCAGCGCTGATCGTCGAGTGA

AUGGAATTAATTAGTGCTATTAGTGCTTTAATTGTTGAATAA

Hagamos un alineamiento sin huecos:

Hay 23 nucleótidos idénticos de un total de 42 (Un 55% de similitud)

Alineamientos de 2 secuencias de ácidos nucleicos

Page 26: Alineamiento de secuencias Encuentra las 12 diferencias

Alineamiento de secuencias

Alineamientos de las proteínas codificadas

AUGGAGCTGATCTCAGCGATCTCAGCGCTGATCGTCGAGTGAAUGGAATTAATTAGTGCTATTAGTGCTTTAATTGTTGAATAA

Secuencias de ADN:

Traducción a proteínas:

MELISAISALIVEMELISAISALIVE

A nivel de aminoácidos, las dos secuencias son idénticas

Page 27: Alineamiento de secuencias Encuentra las 12 diferencias

Alineamiento de secuencias

La complejidad no es mala

Page 28: Alineamiento de secuencias Encuentra las 12 diferencias

Alineamiento de secuencias

Estrategias para alinear dos secuencias

Existen diversos métodos para el alineamiento de dos secuencias:

1.- El algoritmo de fuerza bruta

2.- Matrices de puntos (dot-plot)

3.- El algoritmo de programación dinámica

4.- Métodos heurísticos (FASTA, BLAST)

Page 29: Alineamiento de secuencias Encuentra las 12 diferencias

Alineamiento de secuencias

A lo bestia: el algoritmo de fuerza bruta

O (2n × 2m)

Page 30: Alineamiento de secuencias Encuentra las 12 diferencias

Alineamiento de secuenciasTrata de encontrar la secuencia común de mayor tamaño (LCS)

entre dos secuencias X e Y de longitudes m y n, respectivamente.

Se determinan todas las subsecuencias posibles de X (2m) y se comparan con todas las subsecuencias posibles de Y (2n)

En total, hay que hacer 4(m+n) comparaciones

En la práctica, resulta imposible, tanto por el tiempo que se necesita como por los recursos de memoria que le harían falta al ordenador

Con gaps, hay que repetir los cálculos 2N veces para examinar la presencia de gaps en todas las

posiciones posibles de las dos secuencias

Según Waterman (1989) comparar dos secuencias de 300 aminoácidos requiere examinar 1088 posibilidades, casi el mismo

número de partículas elementales que hay en el Universo.

El algoritmo de la “fuerza bruta”