BiotecnologıaAlineacion de secuencias
Dpto. Ciencias de la Computacion e Inteligencia ArtificialUniversidad de Sevilla
Busqueda de similaridad en secuencias
• Los secuenciadores de ultima generacion hacen quesecuenciar organismos sea cada vez mas ”barato”
• El ensamblado y anotacion de las secuencias continuasiendo una ardua tarea
• Ya hay mucha informacion de secuencias previamenteanotadas
• No necesitamos partir de cero, se puede tratar de inferirinformacion de anotaciones previas
• Para ello, existen muchas herramientas de busqueda desecuencias similares a la nuestra
Motivacion
Una vez localizado un “gen”
• Buscamos parecidos con genes de los que se conoce su funcion
El oncogen ν − sis del virus simian sarcoma (causante de untipo de cancer en monos) coincide con el gen platelet-derivedgrowth factor (PDGF) que da lugar a una proteına que seencarga de estimular el crecimiento celular.
El problema es que se expresa en el momento equivocado.
Eyeless
• Una parte relativamente grande de los genes de cualquierorganismo es compartida incluso entre especies remotamenterelacionadas.• Versiones ligeramente distintas del gen regulador eyeless se
encuentran en especies muy diversas:• Humanos, ratones, ascidias, calamares, tigres, . . .
• La proteına que produce da lugar a una cascada de senales queactiva otros genes (en algunos casos mas de 2000) encargadosde la formacion de los ojos
• El resto de los distintos genes involucrados en la formacion delos ojos no son homologos y han evolucionado de formaindependiente.
• En algunos organismos este gen controla la formacion de losoıdos, . . .
Mutacion/Expresion de un gen
https://www.slideshare.net/bellevictorino/chapter7-59678255
Expresion de un gen similar
https://www.studyblue.com/notes/note/n/genetic-control-of-development/deck/8768442
Dominios de proteınas
• Dependiendo de su funcion una proteına puede tener uno omas dominios (pequenos tramos) que realizan diferentestareas.
• En la mayorıa de los casos son la parte mas importante de lamolecula por lo que se conserva invariante.
• En el gen eyeless hay un tramo, que codifica unos 60aminoacidos, que se encuentra en un gran numero de genesreguladores.
Homologıa
• Gen homologo: Heredado por dos especies a partir de unancestro comun. Suelen tener una secuenciacion similar.• Gen ortologo: Las especies son diferentes• Gen paralogo: Dentro de la misma especie por duplicidad
Pares de genes/proteınas homologas suelen tener:
• Secuencias parecidas
• Funcionalidades parecidas
• Estructuras 3D parecidas
Secuencias similares no tienen por que significar homologıa.Secuencias homologas no tienen por que ser similares
Ortologıa/Parologıa
es ortologo entre las especies B, E y F
y (dentro de la especie C) son parologos
y son homologos (ni ortologos, ni parologos)
Alineacion de secuencias
La alineacion de secuencias se utiliza sobre todo para medir elgrado de similitud entre dos secuencias.
• Prediccion: Inferir la funcion de proteınas desconocidas apartir de una proteına similar en algun otro organismo.
• Busqueda en bases de datos: Localizar, dado un genconocido, una secuencia similar en otros organismos.
• Localizacion de genes: Comparar la secuencia completa de dosorganismos puede revelar la existencia de genes desconocidos
• Ensamblado de secuencias• En proteınas, > 25% aminoacidos identicos• En genes, > 70% nucleotidos identicos
Importancia de la similaridad
Si dos secuencias son similares, muy probablemente...
• Deriven de una secuencia ancestral comun
• Compartan una misma estructura
• Tengan una funcion biologica similar
• La busqueda de similaridad se lleva a cabo mediante elalineamiento de secuencias• Alineamiento de dos cadenas (entre dos dadas, o de una dada
contra una base de datos)• Global (secuencia completa contra otra/s)• Local (busca subsecuencias similares)• Semiglobal (huecos en extremos no penalizados)
• Alineamiento multiple
Preguntas
• ¿Cual es la mejor forma de alinear dos secuencias?
• ¿Como podemos medir la calidad de una alineacion?
• La alineacion ¿es fruto del azar o es debida a una historiacomun?
– V I V A L A S V E G A SS V I V A D A – V – – I S
Mutaciones, inserciones/borrados (indels)
Alinear dos secuencias
Incluir saltos en alguna de las dos (nunca en las dossimultaneamente).
• Primera:
– T G C – A T A TA T C C G A T – –
• Segunda:
– T G C A T A TA T C C G – A T
• Tercera:
T G C A T – – – A T– – – A T C C G A T
• ...
Valoracion
Si dos letras coinciden: match, si difieren: mismatch, si hayhuecos: indels, los huecos superiores: insertions y los huecosinferiores, deletions
– T G C – A T A TA T C C G A T – –
ins. mat. mis. mat. ins. mat. mat. del. del.
Cuatro matches, un mismatch y cuatro indels.
Valoracion
Si dos letras coinciden: match, si difieren: mismatch, si hayhuecos: indels, los huecos superiores: insertions y los huecosinferiores, deletions
– T G C A T A TA T C C G – A T
ins. mat. mis. mat. mis. del. mat. mat.
Cuatro matches, dos mismatch y dos indels.
Valoracion
Si dos letras coinciden: match, si difieren: mismatch, si hayhuecos: indels, los huecos superiores: insertions y los huecosinferiores, deletions
T G C A T – – – A T– – – A T C C G A T
del. del. del. mat. mat. ins. ins. ins. mat. mat.
Cuatro matches y seis indels.
Valoracion
Si dos letras coinciden: match, si difieren: mismatch, si hayhuecos: indels, los huecos superiores: insertions y los huecosinferiores, deletions
T G C A T – – – A T– – – A T C C G A T
del. del. del. mat. mat. ins. ins. ins. mat. mat.
Cuatro matches y seis indels.
A cada una se le da una puntuacion ¿que puntuamos?
• Elegir un metodo para puntuarlas
• Elegir una alineacion con la que se obtenga la mejorpuntuacion.
Cada alineacion se corresponde con un camino en la siguientematriz:
T G C A T A TATCCGAT
• Primera:↑ ↖ ↖ ↖ ↑ ↖ ↖ ← ←– T G C – A T A TA T C C G A T – –
T G C A T A T
A ↑T ↖C ↖C ↖G ↑
A ↖T ↖
← ←
• Segunda:↑ ↖ ↖ ↖ ↖ ← ↖ ↖– T G C A T A TA T C C G – A T
T G C A T A T
A ↑T ↖C ↖C ↖G ↑ ↖
←A ↖ ↖T ↖ ↖
← ←
• Tercera:← ← ← ↖ ↖ ↑ ↑ ↑ ↖ ↖T G C A T – – – A T– – – A T C C G A T
T G C A T A T← ← ←
A ↑ ↖T ↖ ↖C ↖ ↑C ↖ ↑G ↑ ↖ ↑
←A ↖ ↖T ↖ ↖
← ←
Alineacion global
• Asignacion de huecos a dos secuencias (incluidos los extremos)de tal forma que se pueda establecer una correspondenciaentre los sımbolos (o sımbolo y hueco) de ambas.
• Representacion: Matriz de dos filas y c columnas, cada filacon los sımbolos (y huecos intercalados) de cada una de lassecuencias.• No hay dos huecos en una misma columna.• c no puede ser mayor que la suma de las longitudes de ambas.
T G C A T . . . – – – A Tx1 x2 x3 x4 x5 . . . xc−4 xc−3 xc−2 xc−1 xc– – – A T . . . C C G A Ty1 y2 y3 y4 y5 . . . yc−4 yc−3 yc−2 yc−1 yc
Alineacion global
• Asignacion de huecos a dos secuencias (incluidos los extremos)de tal forma que se pueda establecer una correspondenciaentre los sımbolos (o sımbolo y hueco) de ambas.
• Representacion: Matriz de dos filas y c columnas, cada filacon los sımbolos (y huecos intercalados) de cada una de lassecuencias.• No hay dos huecos en una misma columna.• c no puede ser mayor que la suma de las longitudes de ambas.
• Puntuacion: una funcion σ : A ∪ {–} × A ∪ {–} → R• Valoracion de la alineacion:
c∑i=1
σ(xi , yi )
Ejemplo
Dada la funcion de puntuacion:
σ(−, a) = σ(a,−) = σ(a, b) = −1 ∀a, b ∈ A | a 6= bσ(a, a) = 2 ∀a ∈ A
La alineacion
– V I V A L A S V E G A SS V I V A D A – V – – I S
tiene una valoracion de(−1)+2+2+2+2+(−1)+2+(−1)+2+(−1)+(−1)+(−1)+2 = 8.
Matrices de sustitucion
Dado un alfabeto A de longitud nUna matriz de sustitucion o matriz de puntuacion, M, asociada aA se define como:
• una matriz cuadrada y simetrica de orden (n + 1)× (n + 1)
• las n primeras filas y columnas se corresponden con lossımbolos del alfabeto A• la ultima fila y columna corresponden con el hueco –.
Los elementos Mi ,j , para todo 1 ≤ i , j ≤ n, representa el valorasociado a la correspondencia entre los sımbolos ai y aj .Los elementos Mi ,n+1 y Mn+1,i , para todo 1 ≤ i ≤ n, representa elvalor asociado a la correspondencia entre los sımbolos ai y el hueco–.
Matrices de susticion para nucleotidos
Matrices de susticion para nucleotidos
Los nucleotidos se dividen en purinas {A,G} y pirimidinas{C ,T}.• Sustituciones entre nucleotidos del mismo tipo se denominan
transiciones.
• Sustituciones entre nucleotidos de distinto tipo se denominantransversiones.
• Debido a sus propiedades bioquımicas las transiciones son masfrecuenteas que las transversiones
A T C G –
A 1 -1.5 -1.5 -1 -2T -1.5 1 -1 -1.5 -2C -1.5 -1 1 -1.5 -2G -1 -1.5 -1.5 1 -2– -2 -2 -2 -2 N/D
Matrices de sustitucion para aminoacidos
• No todas las sustituciones posibles entre aminoacidos seobservan con la misma frecuencia debido a sus propiedadesbioquımicas tales como tamano, poralidad y hidrofobicidad.
• Las matrices de sustitucion tienden a dar menorespenalizaciones a los aminoacidos mas intercambiables.• Las dos familias de matrices de substitucion mas utilizadas
para aminoacidos son:• La familia de matrices PAM (Point Accepted Mutations)• La familia de matrices BLOSUM (BLOcks Substitution
Matrix)
Matrices de susticion para aminoacidos
Matrices PAM
• Se obtienen a partir de una matriz base PAM1 que se estimarealizando un aprendizaje supervisado a partir dealineamientos conocidos entre secuencias que tan solo sediferencian en un 1%.
• Para comparar secuencias mas divergentes se utilizanextrapolaciones de esta matriz que se obtienen comopotencias de PAM1. Por ejemplo, PAM250 se obtienemultiplicando PAM1 por sı misma 250 veces.
• CUIDADO: la extrapolacion no es lineal, es decir, PAM250no se utiliza para secuencias que divergen un 250%.
PAM250
Matrices BLOSUM
• Las matrices BLOSUM (BLOcks SUbstitution Matrix) seestiman a partir de alineamientos conocidos entre secuenciasque son identicas en un porcentaje fijo.
• Por ejemplo, la matriz BLOSUM62 se construye utilizandosecuencias para las que es conocido que coinciden en un 62%.
• Cada termino se calcula con la siguiente formula:
Mij =1
λlog
pijqi · qj
• λ: factor de escala para asegurar que la matriz contengavalores enteros dispersos y facilmente tratables
• pij : probabilidad de que dos aminoacidos i y j reemplacen unoal otro en una secuencia homologa
• qi (resp. qj): probabilidad de encontrar el aminoacido i (resp.j) en cualquiera de las proteınas
BLOSUM62
Bioconductor• La familia de matrices PAM y BLOSUM se encuentran
disponibles en paquetes del proyecto Bioconductor
• Bioconductor es un proyecto de desarrollo de softwarecolaborativo que proporciona herramientas para el analisis dedatos genomicos de altas prestaciones (microarrays, RNA-seq,qPCR, citometrıa de flujo, etc).
• Bioconductor esta formado por muchas bibliotecas).
• Para instalar alguna de dichas bibliotecas utiliza las siguientesinstrucciones:
> if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
> BiocManager::install("nombreDeLaBiblioteca")
> library("nombreDeLaBiblioteca")
• Instalar la biblioteca Biostrings y cargar los datos referentes alas matrices PAM250 y BLOSUM62 con las instruccionesdata(PAM250) y data(BLOSUM62)
Matrices PAM y BLOSUM
• PAMNUM• Tiempo evolutivo• Numeros mayores representan mayores tiempos de divergencia
desde el ancestro en comun
• BLOSUMNUM• Similitud de secuencias• Numeros mayores representan una mayor similitud
Alineacion global optima
Alineacion global entre dos secuencias que maximiza su valoracion
• De ahı la importancia en la eleccion de la puntuacion
• El numero de posibles alineaciones entre dos secuencias detamano n es de
(2nn
)∗• Algoritmo Needleman–Wunsch (1970)
(∗) (nk
)= n!
k!(n−k)!, para n = 30 alrededor de 1017
Needleman–Wunsch
Para alinear s = “ATGA” y t = “ACGAT”
1. Construir las matrices de valoracion y rastreo
– A T G A– 0ACGAT
– A T G A– *ACGAT
Needleman–Wunsch
Para alinear s = “ATGA” y t = “ACGAT”.
1. Construir las matrices de valoracion y rastreo
– A T G A– 0 -2 -4 -6 -8A -2C -4G -6A -8T -10
– A T G A– * ← ← ← ←A ↑C ↑G ↑A ↑T ↑
V1,j = V1,j−1 + σ(sj−1,−) R1,j =←
Vi ,1 = Vi−1,1 + σ(−, ti−1) Ri ,1 =↑
Needleman–Wunsch
Para alinear s = “ATGA” y t = “ACGAT”.
1. Construir las matrices de valoracion y rastreo
– A T G A– 0 -2 -4 -6 -8A -2C -4G -6A -8T -10
– A T G A– * ← ← ← ←A ↑C ↑G ↑A ↑T ↑
Vi,j = max
Vi−1,j−1 + σ(sj−1, ti−1)Vi,j−1 + σ(sj−1,−)Vi−1,j + σ(−, ti−1)
Ri,j =
↖←↑
segun argmax
Needleman–Wunsch
Para alinear s = “ATGA” y t = “ACGAT”.
1. Construir las matrices de valoracion y rastreo
– A T G A– 0 -2 -4 -6 -8A -1 0 + 1C -4G -6A -8T -10
– A T G A– * ← ← ← ←A ↑ ↖C ↑G ↑A ↑T ↑
Vi,j = max
Vi−1,j−1 + σ(sj−1, ti−1)Vi,j−1 + σ(sj−1,−)Vi−1,j + σ(−, ti−1)
Ri,j =
↖←↑
segun argmax
Needleman–Wunsch
Para alinear s = “ATGA” y t = “ACGAT”.
1. Construir las matrices de valoracion y rastreo
– A T G A– 0 -2 -4 -6 -8
A -20 + 1
-2+(-2)C -4G -6A -8T -10
– A T G A– * ← ← ← ←
A ↑ ↖←
C ↑G ↑A ↑T ↑
Vi,j = max
Vi−1,j−1 + σ(sj−1, ti−1)Vi,j−1 + σ(sj−1,−)Vi−1,j + σ(−, ti−1)
Ri,j =
↖←↑
segun argmax
Needleman–Wunsch
Para alinear s = “ATGA” y t = “ACGAT”.
1. Construir las matrices de valoracion y rastreo
– A T G A– 0 -2 -4 -6 -8
A -20 + 1-2+(-2)-2+(-2)
C -4G -6A -8T -10
– A T G A– * ← ← ← ←
A ↑↖←↑
C ↑G ↑A ↑T ↑
Vi,j = max
Vi−1,j−1 + σ(sj−1, ti−1)Vi,j−1 + σ(sj−1,−)Vi−1,j + σ(−, ti−1)
Ri,j =
↖←↑
segun argmax
Needleman–Wunsch
Para alinear s = “ATGA” y t = “ACGAT”.
1. Construir las matrices de valoracion y rastreo
– A T G A– 0 -2 -4 -6 -8A -2 1C -4G -6A -8T -10
– A T G A– * ← ← ← ←A ↑ ↖C ↑G ↑A ↑T ↑
Vi,j = max
Vi−1,j−1 + σ(sj−1, ti−1)Vi,j−1 + σ(sj−1,−)Vi−1,j + σ(−, ti−1)
Ri,j =
↖←↑
segun argmax
Needleman–Wunsch
Para alinear s = “ATGA” y t = “ACGAT”.
1. Construir las matrices de valoracion y rastreo
– A T G A– 0 -2 -4 -6 -8A -2 1 -1 -3 -5C -4 -1 0 -2 -4G -6 -3 -2 1 -1A -8 -5 -4 -1 2T -10 -7 -4 -3 0
– A T G A– * ← ← ← ←A ↑ ↖ ← ← ↖C ↑ ↑ ↖ ← ←G ↑ ↑ ↑ ↖ ←A ↑ ↖ ↑ ↑ ↖T ↑ ↑ ↖ ↑ ↑
Vi,j = max
Vi−1,j−1 + σ(sj−1, ti−1)Vi,j−1 + σ(sj−1,−)Vi−1,j + σ(−, ti−1)
Ri,j =
↖←↑
segun argmax
Needleman–Wunsch
Para alinear s = “ATGA” y t = “ACGAT”.
2. Reconstruir la alineacion siguiendo la matriz de rastreo
– A T G A– 0 -2 -4 -6 -8A -2 1 -1 -3 -5C -4 -1 0 -2 -4G -6 -3 -2 1 -1A -8 -5 -4 -1 2T -10 -7 -4 -3 0
– A T G A– * ← ← ← ←A ↑ ↖ ← ← ↖C ↑ ↑ ↖ ← ←G ↑ ↑ ↖ ↖ ←A ↑ ↖ ↖ ↑ ↖T ↑ ↑ ↖ ↑ ↑
Valoracion: 0↖ ↖ ↖ ↖ ↑A T G A –A C G A T
Otra funcion de puntuacion
A T C G –A 2 -2 -2 -2 -1T -2 2 -1 -2 -1C -2 -1 2 -1 -1G -2 -2 -1 2 -1– -1 -1 -1 -1 N/D
– A T G A– 0 -1 -2 -3 -4A -1 2 1 0 -1C -2 1 1 0 -1G -3 0 0 3 2A -4 -1 -1 2 5T -5 -2 1 1 4
– A T G A– * ← ← ← ←A ↑ ↖ ← ← ↖C ↑ ↑ ↖ ↖ ←G ↑ ↑ ↑ ↖ ←A ↑ ↖ ↑ ↑ ↖T ↑ ↑ ↖ ↑ ↑
Valoracion: 4↖ ↖ ↖ ↖ ↑A T G A –A C G A T
Algunas propiedades
• Vi+1,j+1 proporciona el valor optimo en el alineamiento de lassubsecuencias s[1 : j ] y t[1 : i ].
• Puede existir mas de una solucion (dependiendo de la eleccionen los casos de empate)
Alineacion local
Alineacion global entre dos subsecuencias
• Dominios comunes entre proteınas distintas
Q U E V I V A L A S V E G A SV I V A D A – V I S
Alineacion local optima: la mejor alineacion global entrecualesquiera dos subsecuencias
• Algoritmo Smith–Waterman (1981)
Smith–Waterman
Para alinear s = “SVVIVADE” y t = “VIVAASES”.
1. Construir las matrices de valoracion y rastreo
– S V V I V A D E
– 0
V
I
V
A
A
S
E
S
– S V V I V A D E
– *
V
I
V
A
A
S
E
S
Smith–Waterman
Para alinear s = “SVVIVADE” y t = “VIVAASES”.
1. Construir las matrices de valoracion y rastreo
– S V V I V A D E– 0 0 0 0 0 0 0 0 0V 0I 0V 0A 0A 0S 0E 0S 0
– S V V I V A D E– * * * * * * * * *V *I *V *A *A *S *E *S *
V1,j = 0 R1,j = ∗
Vi ,1 = 0 Ri ,1 = ∗
Smith–Waterman
Para alinear s = “SVVIVADE” y t = “VIVAASES”.
1. Construir las matrices de valoracion y rastreo
– S V V I V A D E– 0 0 0 0 0 0 0 0 0V 0 0 2 2 1 2 1 0 0I 0 0 1 1 4 3 2 1 0V 0 0 2 3 3 6 5 4 3A 0 0 1 2 2 5 8 7 6A 0 0 0 1 1 4 7 7 6S 0 2 1 0 0 3 6 6 6E 0 1 0 0 0 2 5 5 8S 0 2 1 0 0 1 4 4 7
– S V V I V A D E– * * * * * * * * *V * * ↖ ↖ ← ↖ ← * *I * * ↑ ↖ ↖ ← ← ← *V * * ↖ ↖ ↑ ↖ ← ← ←A * * ↑ ↑ ↖ ↑ ↖ ← ←A * * * ↑ ↖ ↑ ↖ ↖ ↖S * ↖ ← * * ↑ ↑ ↖ ↖E * ↑ * * * ↑ ↑ ↖ ↖S * ↖ ← * * ↑ ↑ ↖ ↑
Vi,j = max
0Vi−1,j−1 + σ(sj−1, ti−1)Vi,j−1 + σ(sj−1,−)Vi−1,j + σ(−, ti−1)
Ri,j =
∗↖←↑
segun argmax
Smith–Waterman
Para alinear s = “SVVIVADE” y t = “VIVAASES”.
2. Localizar el maximo y reconstruir la alineacion
– S V V I V A D E– 0 0 0 0 0 0 0 0 0V 0 0 2 2 1 2 1 0 0I 0 0 1 1 4 3 2 1 0V 0 0 2 3 3 6 5 4 3A 0 0 1 2 2 5 8 7 6A 0 0 0 1 1 4 7 7 6S 0 2 1 0 0 3 6 6 6E 0 1 0 0 0 2 5 5 8S 0 2 1 0 0 1 4 4 7
– S V V I V A D E– * * * * * * * * *V * * ↖ ↖ ← ↖ ← * *I * * ↑ ↖ ↖ ← ← ← *V * * ↖ ↖ ↑ ↖ ← ← ←A * * ↑ ↑ ↖ ↑ ↖ ← ←A * * * ↑ ↖ ↑ ↖ ↖ ↖S * ↖ ← * * ↑ ↑ ↖ ↖E * ↑ * * * ↑ ↑ ↖ ↖S * ↖ ← * * ↑ ↑ ↖ ↑
Valoracion: 8S V V I V A D E
V I V A A S E S
Homologıa
Alineacion global
• Generamos permutaciones de una de las secuencias
• Calculamos la distribucion de las valoraciones de lasalineaciones globales con la otra secuencia
Alineacion local
• Generamos una permutacion de una de las secuencias
• Calculamos las valoraciones de todas las posibles alineacioneslocales.
La valoracion con la secuencia original debe estar por encima de lamenor valoracion obtenida por el 5% de las mejores valoracionescon la secuencia aleatoria.
Fragmento emparejado
Localizar secuencias similares en una base de datos y proporcionaruna estimacion de la relevancia de los resultados obtenidos.
• Subsecuencias del mismo tamano alineadas sin huecos
• Localmente optimo: Su valoracion no puede mejorarsemodificando el tamano de las subsecuencias.
• Maximo: Maximo fragmento emparejado con la mayorvaloracion entre todos los posibles
BLAST
• Basic Local Alignment Search Tool
• Busca emparejamientos de fragmentos (de un determinadotamano) con una valoracion superior a cierto umbral (basadoen alguna consideracion estadıstica) e intenta extenderlos paraobtener el mayor fragmento posible con una valoracion porencima del umbral.
• Desarrollado por Stephen Altschul, Warren Gish, Webb Miller,Eugene Myers, y David J. Lipman (et. al.) en 1990
Utilizar BLAST para comparar:
• Homeobox protein HOXA7 [Homo sapiens]: AAD01939
• Antennapedia [Drosophila virilis]: AAQ67266
Caracterısticas
• Algoritmo mas extendido de alineamiento local
• Metodo heurıstico, no garantiza solucion optima
• Emplea programacion dinamica
• Busca secuencias similares en bases de datos
• Existen muchos programas de la familia blast
• Existen muchas variantes de BLAST
• Y muchas herramientas para ello
Resultados con BLAST (I)
Buscar secuencias parecidas a “Homeobox protein HOXA7 [Homosapiens]” (ID AAD01939)
Resultados con BLAST (II)
Buscar parecidos entre “Homeobox protein HOXA7 [Homosapiens]” (ID AAD01939) y “Antennapedia [Drosophila virilis]” (IDAAQ67266)
BLAST: descripcion
Funcionamiento basico• Busqueda de hits, subsecuencias similares cuya puntuacion
supere un umbral:• Regiones identicas (o, al menos, con una alta puntuacion
segun la matriz de puntuacion) de una cierta longitud.
• Extension de pares de hits proximos (si tras la extensionsuperan umbral ⇒ HSP, high scoring pair)
• Evaluacion del alineamiento (e-value)
BLAST: (Algunos detalles)
• un par: dos subsecuencias, una del problema y la otra de labase datos, de la misma longitud, superando un umbral depuntuacion.
• El algoritmo busca coincidencias de longitud fija, que seextienden a continuacion hasta que se alcanzan ciertosparametros umbral.
• Los pares de puntuacion alta (HSP, high scoring pairs)constituyen la base de los alineamientos que obtiene comosalida BLAST.
Variantes de BLAST
• blastp: proteınas con base de datos de proteınas
• tblastn: proteınas con bd nucleotidos
• blastn: nucleotidos con base de datos de nucleotidos
• blastx: nucleotidos con base de datos de proteınas
• tblastx: a partir de nucleotidos traduce a proteınas, quecompara con base de datos de nucleotidos
Multiples secuencias
Comparamos la secuencia MODELO con MUNDO, CORDEL yMODO.
M O D E L OM U N D O +1C O R D E L +2M O D O +3
Se pueden introducir huecos a fin de aumentar la similitud:
M O D E L OM U N D - O +2C O R D E L +2M O - D - O +4
O bien podemos hacer esta otra distribucion
M O - D E L OM U N D - - O +3C O R D E L +4M O - D - - O +4
Alineaciones multiples
• Asignacion de huecos a k secuencias (incluidos los extremos)de tal forma que se pueda establecer una correspondenciaentre los sımbolos (o sımbolo y hueco) de todas ellas.
• Representacion: Matriz de k filas y c columnas, cada fila conlos sımbolos (y huecos intercalados) de cada una de lassecuencias.• No hay ninguna columna con k huecos
• Los algoritmos de alineacion tienen un coste que creceexponencialmente con k
• CLUSTAL: Intenta establecer que secuencias tienen un mayorgrado de similitud utilizando tecnicas de clustering