gramaticas para el analisis de secuencias biologicas
TRANSCRIPT
![Page 1: GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS](https://reader035.vdocuments.net/reader035/viewer/2022062309/5665b4711a28abb57c918092/html5/thumbnails/1.jpg)
GRAMATICAS PARA EL GRAMATICAS PARA EL ANALISIS DE SECUENCIAS ANALISIS DE SECUENCIAS
BIOLOGICASBIOLOGICAS
![Page 2: GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS](https://reader035.vdocuments.net/reader035/viewer/2022062309/5665b4711a28abb57c918092/html5/thumbnails/2.jpg)
Secuencias y estructuras
• Los algoritmos de análisis de secuencias tratan al DNA, RNA y a las proteínas como strings de nucleótidos o aminoácidos
• La mayoría de estos algoritmos asume strings de elementos sin relación, donde el valor de un residuo en una posición no tiene efecto sobre el valor de otro residuo.
Esta suposición se rompe dramáticamente para el RNA!
![Page 3: GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS](https://reader035.vdocuments.net/reader035/viewer/2022062309/5665b4711a28abb57c918092/html5/thumbnails/3.jpg)
• La estructura secundaria del RNA pone constrains sobre la secuencia del RNA.
![Page 4: GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS](https://reader035.vdocuments.net/reader035/viewer/2022062309/5665b4711a28abb57c918092/html5/thumbnails/4.jpg)
tRNA en acción!
![Page 5: GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS](https://reader035.vdocuments.net/reader035/viewer/2022062309/5665b4711a28abb57c918092/html5/thumbnails/5.jpg)
Se deben adoptar nuevos modelos que consideren las
correlaciones a larga distancia entre pares de
residuos
![Page 6: GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS](https://reader035.vdocuments.net/reader035/viewer/2022062309/5665b4711a28abb57c918092/html5/thumbnails/6.jpg)
GRAMATICASErase una vez un lenguaje...
![Page 7: GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS](https://reader035.vdocuments.net/reader035/viewer/2022062309/5665b4711a28abb57c918092/html5/thumbnails/7.jpg)
Gramáticas transformacionales
• Una gramática caracteriza un lenguaje
• Una gramática consiste de:– N: Un conjunto de símbolos no terminales– V: Un conjunto de símbolos terminales
(son los que realmente aparecen en el string)
– S: Un símbolo no terminal de start S– P: Un conjunto de producciones
![Page 8: GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS](https://reader035.vdocuments.net/reader035/viewer/2022062309/5665b4711a28abb57c918092/html5/thumbnails/8.jpg)
Una gramática para codones stop
• Lenguaje: UAA, UAG, UGA
• N: {s, c1, c2, c3, c4}
• S: s
• V: {A, C, G, U}
• P: s c1 c1 Uc2 c2 Ac3 c3 A
c2 Gc4 c3 G
c4 A
![Page 9: GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS](https://reader035.vdocuments.net/reader035/viewer/2022062309/5665b4711a28abb57c918092/html5/thumbnails/9.jpg)
Árbol de parsing para UAG
![Page 10: GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS](https://reader035.vdocuments.net/reader035/viewer/2022062309/5665b4711a28abb57c918092/html5/thumbnails/10.jpg)
Gramáticas probabilísticas
![Page 11: GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS](https://reader035.vdocuments.net/reader035/viewer/2022062309/5665b4711a28abb57c918092/html5/thumbnails/11.jpg)
Jerarquía de Chomsky
![Page 12: GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS](https://reader035.vdocuments.net/reader035/viewer/2022062309/5665b4711a28abb57c918092/html5/thumbnails/12.jpg)
Gramáticas regulares uXv uX
Gramáticas libres de contexto u
Gramáticas sensitivas al contexto 1 u 2 1 2
Gramáticas irrestrictas 1 u 2
donde u y v son no terminales, X es un terminal, y son cualquier secuencia de terminales / no terminales, excluyendo el string nulo, y es cualquier secuencia de terminales / no terminales
![Page 13: GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS](https://reader035.vdocuments.net/reader035/viewer/2022062309/5665b4711a28abb57c918092/html5/thumbnails/13.jpg)
Gramaticas y parsers
Máquina de TuringGramática irrestricta
Automata linealmente acotadoGramática sensitiva al contexto
Automata de pilaGramática libre de contexto
Automata de estados finitosGramática Regular
Automata de parsingGramática
![Page 14: GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS](https://reader035.vdocuments.net/reader035/viewer/2022062309/5665b4711a28abb57c918092/html5/thumbnails/14.jpg)
De las gramáticas regulares a las gramáticas libres de
contexto
![Page 15: GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS](https://reader035.vdocuments.net/reader035/viewer/2022062309/5665b4711a28abb57c918092/html5/thumbnails/15.jpg)
RNA: palindromos complementarios
![Page 16: GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS](https://reader035.vdocuments.net/reader035/viewer/2022062309/5665b4711a28abb57c918092/html5/thumbnails/16.jpg)
Lo que necesitamos modelar para nuestro problema del RNA
es la simetría, como un palíndromo
![Page 17: GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS](https://reader035.vdocuments.net/reader035/viewer/2022062309/5665b4711a28abb57c918092/html5/thumbnails/17.jpg)
Extensión
• Para cubrir estas interacciones a larga distancia necesitamos hacer una extensión a nuestras reglas de escritura:
• Gramáticas regulares{NoTerminal} {Terminal}{NoTerminal} {Terminal}
• Gramáticas libres de contexto{NoTerminal} string de simbolos
![Page 18: GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS](https://reader035.vdocuments.net/reader035/viewer/2022062309/5665b4711a28abb57c918092/html5/thumbnails/18.jpg)
Principal ventaja
• Las gramaticas regulares generan strings de izquierda a derecha, las gramaticas libres de contexto pueden generar strings de afuera hacia adentro.
• Veamos: S aSa bSb bb aa .. (Context
Free)
Versus: S aS bS b a (Regular)
![Page 19: GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS](https://reader035.vdocuments.net/reader035/viewer/2022062309/5665b4711a28abb57c918092/html5/thumbnails/19.jpg)
CFG y RNA• Aca vemos una gramatica context free que puede
generar un stem de 3 bases, y un loop de GAAA o GCAA
![Page 20: GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS](https://reader035.vdocuments.net/reader035/viewer/2022062309/5665b4711a28abb57c918092/html5/thumbnails/20.jpg)
De las gramáticas libres de contexto a las gramáticas
sensitivas al contexto
![Page 21: GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS](https://reader035.vdocuments.net/reader035/viewer/2022062309/5665b4711a28abb57c918092/html5/thumbnails/21.jpg)
Pseudoknots
• Las gramaticas sensitivas al contexto permiten modelar lenguajes Copy, que son los que se presentan en los pseudoknots.
![Page 22: GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS](https://reader035.vdocuments.net/reader035/viewer/2022062309/5665b4711a28abb57c918092/html5/thumbnails/22.jpg)
Problema
No se conocen algoritmos generales en tiempo polinomial
para
parsear gramaticas sensitivas al contexto
![Page 23: GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS](https://reader035.vdocuments.net/reader035/viewer/2022062309/5665b4711a28abb57c918092/html5/thumbnails/23.jpg)
Tres problemas basicos• Scoring: Cuan probable es una secuencia
dado un SCFG parametrizado?Algoritmo Inside
• Training: Dada un conjunto de secuencias, como estimamos los parametros de un SCFG?Algoritmo Inside Outside
• Alineamiento: Cual es el parsing mas probable de una secuencia a un SCFG parametrizado?Algoritmo CYK
![Page 24: GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS](https://reader035.vdocuments.net/reader035/viewer/2022062309/5665b4711a28abb57c918092/html5/thumbnails/24.jpg)
• α (i,j,v): la probabilidad suma de todos los subtrees de parsing de raiz v para la subsecuencia de i a j
Determinando la probabilidad de una secuencia: El Algoritmo Inside
![Page 25: GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS](https://reader035.vdocuments.net/reader035/viewer/2022062309/5665b4711a28abb57c918092/html5/thumbnails/25.jpg)
El algoritmo Inside
![Page 26: GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS](https://reader035.vdocuments.net/reader035/viewer/2022062309/5665b4711a28abb57c918092/html5/thumbnails/26.jpg)
El algoritmo Inside
• Inicializacion: (i,i,v) = ev (xi )
• Iteracion
• Terminacion: Pr(x) = (1,L,1)
![Page 27: GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS](https://reader035.vdocuments.net/reader035/viewer/2022062309/5665b4711a28abb57c918092/html5/thumbnails/27.jpg)
El algoritmo Outside: (i,j,v)
![Page 28: GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS](https://reader035.vdocuments.net/reader035/viewer/2022062309/5665b4711a28abb57c918092/html5/thumbnails/28.jpg)
Algoritmo CYK
• Dada una secuencia X encontrar el parsing mas probable.
• A la probabilidad del parsing mas probable del substring Xi...Xj con raiz en V la llamamos (i,j,V).
• Empezamos con (i,i,V) = log P(VXi)• Para todo j > i, buscamos todas las
producciones VYZ y nos quedamos con la de maxima probabilidad.
![Page 29: GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS](https://reader035.vdocuments.net/reader035/viewer/2022062309/5665b4711a28abb57c918092/html5/thumbnails/29.jpg)
Algoritmo CYK (i,i,V) = log P(VXi), no terminal V, 1iNfor i=1 to N-1 for j=i+1 to N no terminal V
(i,j,V) = maxx maxy maxikj [log P(VXY)+ (i,k,X)+ (k+1,j,Y)];
endforendforreturn (1,N,S)
![Page 30: GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS](https://reader035.vdocuments.net/reader035/viewer/2022062309/5665b4711a28abb57c918092/html5/thumbnails/30.jpg)
Recordamos las elecciones hechas en CYK en cada paso para reconstruir el
parser optimo!
![Page 31: GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS](https://reader035.vdocuments.net/reader035/viewer/2022062309/5665b4711a28abb57c918092/html5/thumbnails/31.jpg)
Veamos una aplicación de la gramatica a la
estructura secundaria del RNA
.
![Page 32: GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS](https://reader035.vdocuments.net/reader035/viewer/2022062309/5665b4711a28abb57c918092/html5/thumbnails/32.jpg)
Algoritmo Nussinov
• Dada: Una secuencia RNA• Objetivo: Encontrar la estructura secundaria que
maximice el numero de apareamiento de bases• Algoritmo recursivo: Encuentra la mejor estructura
para los inputs i...j intentando una de las siguientes 4 posibilidades:– Agregar el par i, j sobre la mejor estructura i+1...j-1– Agregar i sin aparear a la mejor estructura i+1...j– Agregar j sin aparear a la mejor estructura i...j-1– Combinar las dos estructuras optimas i...k y k+1...j
![Page 33: GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS](https://reader035.vdocuments.net/reader035/viewer/2022062309/5665b4711a28abb57c918092/html5/thumbnails/33.jpg)
Casos en Nussinov
![Page 34: GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS](https://reader035.vdocuments.net/reader035/viewer/2022062309/5665b4711a28abb57c918092/html5/thumbnails/34.jpg)
Algoritmo Nussinov
• La secuencia a analizar tiene longitud L.
• Es un algoritmo de programacion dinamica que llena una matriz de L x L, con la informacion del maximo apareamiento de las bases.
• Hacemos la funcion (xi, xj) = 1, si xi y xj se aparearian entre si, y (xi, xj) = 0, en caso contrario.
![Page 35: GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS](https://reader035.vdocuments.net/reader035/viewer/2022062309/5665b4711a28abb57c918092/html5/thumbnails/35.jpg)
Algoritmo Nussinov• Inicializacion:
(i, i-1) = 0, i= 2...L
(i, i) = 0, i= 1...L• Recursion: for i=1...L-1, j=i+1...L
• Terminacion: maxima cantidad de apareamientos de bases: (1, L)
![Page 36: GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS](https://reader035.vdocuments.net/reader035/viewer/2022062309/5665b4711a28abb57c918092/html5/thumbnails/36.jpg)
Nussinov traceback• Inicializacion: Push (1,L) en el stack• Recursion: Repetir hasta que el stack este vacio
pop(i,j)
if i > j continuar
else if (i+1, j) = (i, j) push (i+1, j)
else if (i, j-1) = (i, j) push (i, j-1)
else if (i+1, j-1)+ij = (i, j):
registrar i, j como apareamiento
push (i+1, j-1)
else for k= i+1 to j-1: if (i,k)+ (k+1,j)= (i,j):
push (k+1,j)
push (i,k)
break
![Page 37: GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS](https://reader035.vdocuments.net/reader035/viewer/2022062309/5665b4711a28abb57c918092/html5/thumbnails/37.jpg)
Ejemplo
![Page 38: GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS](https://reader035.vdocuments.net/reader035/viewer/2022062309/5665b4711a28abb57c918092/html5/thumbnails/38.jpg)
Version SCFG de Nussinov
• S GSC: 3 CSG: 3 ASU: 2USA: 2 GSU: 1 USG: 1
• S SS: 0 : 0
• S AS: 0 CS: 0 GS: 0 US: 0
• S SA: 0 SC: 0 SG: 0 SU: 0
![Page 39: GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS](https://reader035.vdocuments.net/reader035/viewer/2022062309/5665b4711a28abb57c918092/html5/thumbnails/39.jpg)
Para profundizar sobre el tema...
• Biological sequence analysis (Capitulos 9 y 10). Durbin, R., Eddy, S., Krogh, A., Mitchison, G., Cambridge University Press, 1998.
• Bioinformatics, The Machine Learning Approach, 2da. Edicion (Capitulo 11). Baldi, P. & Brunak, S., MIT press, 2001.
• Bioinformatics: sequence and genome analysis (Capitulo 5). Mount, D., Cold Spring Harbor Laboratory Press, 2001. • The language of RNA: a formal grammar that
includes pseudoknots. Rivas E., Eddy, S.R., Bioinformatics. 2000 Apr;16(4):334-40.