curs einesbioinformatiques juny2011_bloc1_sessio3

32
Curs de Formació UEB Eines bioinformàtiques per a la investigació biomèdica 1 r bloc: Introducció a la Bioinformàtica i les bases de dades 3ª sessió: Aplicacions guiades: Blast. Genome Browsers. Ferran Briansó (tècnic UEB) [email protected] https://ueb.ir.vhebron.net Vall d'Hebron Institut de Recerca 21/06/2011

Upload: vhir-vall-dhebron-institut-de-recerca

Post on 04-Jul-2015

380 views

Category:

Technology


0 download

TRANSCRIPT

Page 1: Curs einesbioinformatiques juny2011_bloc1_sessio3

Curs de Formació UEB

Eines bioinformàtiques per a la investigació biomèdica

1r bloc: Introducció a la Bioinformàtica i les bases de dades

3ª sessió: Aplicacions guiades: Blast. Genome Browsers.

Ferran Briansó (tècnic UEB)[email protected]

https://ueb.ir.vhebron.net

Vall d'Hebron Institut de Recerca 21/06/2011

Page 2: Curs einesbioinformatiques juny2011_bloc1_sessio3

Sesión 3 – Índice de contenidos

Vall d'Hebron Institut de Recerca 21/06/2011

BLAST- Motivación: predicción funcional- Similaridad vs Homología- Alineamiento por parejas

– Sistemas de puntuación– Sistemas de puntuación para proteínas– Matrices de substitución (PAM, BLOSUM)

- BLAST (Alineamiento contra BD)– Blast en NCBI– ¿Cómo funciona?– Parámetros, criterios, Bit-scores, E-values– ¿Dónde cortar?– ¿Existe homología?

GENOME BROWSERS- Ensembl- NCBI Map Viewer- UCSC- VEGA

Page 3: Curs einesbioinformatiques juny2011_bloc1_sessio3

Vall d'Hebron Institut de Recerca 21/06/2011

BLASTBúsqueda de homologías

Page 4: Curs einesbioinformatiques juny2011_bloc1_sessio3

Predicción funcional de una proteína/gen

Vall d'Hebron Institut de Recerca 21/06/2011

- Secuencia problema:Queremos averiguar sus posibles propiedades.

- La evolución es un proceso conservativoCambian los residuos en una secuencia pero se conservan

las propiedades bioquímicas y los procesos fisiológicos

- Si somos capaces de encontrar secuencias homólogas a la secuencia problema podemos inferir que ésta “debe de tener” propiedades similares a las de la secuencia conocida.

- La búsqueda (el hallazgo, de hecho) de secuencias homólogas puede ser una vía para predecir la función de una proteína o un gen.

Page 5: Curs einesbioinformatiques juny2011_bloc1_sessio3

Similaridad vs Homología

Vall d'Hebron Institut de Recerca 21/06/2011

- Homología:

- Descendencia de un ancestro común

- Medida cualitativa: dos secuencias son homólogas o

no lo son

- Similaridad

- Medida cuantitativa para determinar el grado de

relación entre dos secuencias

- Podemos usar una medida de similaridad para inferir

homología

Page 6: Curs einesbioinformatiques juny2011_bloc1_sessio3

Sistemas de puntuación

Vall d'Hebron Institut de Recerca 21/06/2011

- Queremos medir el grado de similaridad de dos secuencias

- Es necesario definir un criterio(sistema de puntuación) que evalue esta similaridad

Ejemplo:- Match=1- Mismatch=0

S= A T G C A G TT= A T A A G T

Page 7: Curs einesbioinformatiques juny2011_bloc1_sessio3

Sistemas de puntuación

Vall d'Hebron Institut de Recerca 21/06/2011

- El alineamiento de las secuencias puede aumentar la puntuación:

S= A T G C A G TT= A T A A G Tp(s,t) 1 1 0 0 0 0 Σ = 2

S= A T G C A G TT= A T A A ▬ G Tp(s,t) 1 1 0 0 -1 1 1 Σ = 3

S= A T G C A G TT= A T ▬ A A G T

- Match=1- Mismatch=0- Gap=-1

Page 8: Curs einesbioinformatiques juny2011_bloc1_sessio3

Sistemas de puntuación

Vall d'Hebron Institut de Recerca 21/06/2011

S= A T G C A G TT= A T A A G Tp(s,t) 1 1 -1 -1 -1 -1 Σ= -2

S= A T G C A G TT= A T A A ▬ G Tp(s,t) 1 1 -1 -1 -5 1 1 Σ= -3

S= A T G C A G TT= A T ▬ A A G Tp(s,t) 1 1 -5 -1 1 1 1 Σ= -1

- Match=1- Mismatch=-1- Gap Open=-3- Gap Ext.=-2

Page 9: Curs einesbioinformatiques juny2011_bloc1_sessio3

Sistemas de puntuación para proteínas

Vall d'Hebron Institut de Recerca 21/06/2011

- Match=1- Mismatch=0- Gap=-1

S= T T Y G A P P W C ST= − T G Y A P P P W Sp(s,t) -1 1 0 0 1 1 1 0 0 1 Σ= 4

S= T T Y G A P P W C ST= T G Y A P P P W S −

Page 10: Curs einesbioinformatiques juny2011_bloc1_sessio3

Sistemas de puntuación para proteínas

Vall d'Hebron Institut de Recerca 21/06/2011

Los AA tienen distintas propiedades posibilidades distintas de ser sustituidos unos por otros en la evolucion

CP

GGAVI

L

MF

Y

W HK

RE Q

DN

S

T

CSH

S+S

positive

chargedpolar

aliphatic

aromatic

small

tiny

hydrophobic

Page 11: Curs einesbioinformatiques juny2011_bloc1_sessio3

Matrices de substitución

Vall d'Hebron Institut de Recerca 21/06/2011

A 4 R -1 5 N -2 0 6 D -2 -2 1 6 C 0 -3 -3 -3 9 Q -1 1 0 0 -3 5 E -1 0 0 2 -4 2 5 G 0 -2 0 -1 -3 -2 -2 6 H -2 0 1 -1 -3 0 0 -2 8 I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 K -1 2 0 -1 -1 1 1 -2 -1 -3 -2 5 M -1 -2 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 A R N D C Q E G H I L K M F P S T W Y V

Pairwise alignment scoresare determined using a scoring matrix such asBlosum62

Page 12: Curs einesbioinformatiques juny2011_bloc1_sessio3

Matrices de substitución

Vall d'Hebron Institut de Recerca 21/06/2011

BLOSUM62

S= T T Y G A P P W C ST= − T G Y A P P P W Sp(s,t) -1 5 -3 -3 4 7 7 -4 -2 4 Σ= 14

S= T T Y G A P P W C ST= T G Y A P P P W − S

Page 13: Curs einesbioinformatiques juny2011_bloc1_sessio3

Matrices de substitución

Vall d'Hebron Institut de Recerca 21/06/2011

- No hay una matriz única que se pueda usar siempre

- Según la familia de proteínas y el grado de similitud esperado se usará una u otra

- Las más utilizadas PAM y BLOSUM- PAM: Percent Accepted Mutation Matrix

- Derivadas de alineamientos globales de secuencias próximas- PAM40 PAM250. A mayor nº, mayor distancia evolutiva

- BLOSUM: BLOcks of amino acid SUbstitution Matrix- Derivadas de alineamientos locales de secuencias distantes- BLOSUM90 BLOSUM45 El nº representa porcentaje de

identidad

Page 14: Curs einesbioinformatiques juny2011_bloc1_sessio3

Matrices de substitución

Vall d'Hebron Institut de Recerca 21/06/2011

- Generalmente, la matrices BLOSUM funcionan mejor que las PAM para búsquedas de similaridad local(Henikoff & Henikoff, 1993).

- Cuando comparamos proteinas cercanas deberíamos usar matrices PAM mas bajas o BLOSUM mas altas, mientras que para proteinas distantes sería mas conveniente el uso de matrices PAM mas altas o BLOSUM mas bajas.

- Para búsquedas en BBDD sin información previa es bastante comun el uso de una BLOSUM62.

Page 15: Curs einesbioinformatiques juny2011_bloc1_sessio3

Alineamiento contra BD

Vall d'Hebron Institut de Recerca 21/06/2011

Supongamos que buscamos secuencias homólogas a nuestra secuencia problema.

- Una estrategia posible es hacer alineamientos contra una base de datos de secuencias.

- El algoritmo de Smith-Waterman obtiene un alineamiento local óptimo, dado un sistema de puntuacion dado

- Demasiado lento para buscar contra una BBDD

Page 16: Curs einesbioinformatiques juny2011_bloc1_sessio3

Alineamiento vs BD

Vall d'Hebron Institut de Recerca 21/06/2011

- El algoritmo BLAST(Basic Local Alignment Search Tool) permite un rápida comparación(alineamiento) de una secuencia problema contra una BBDD

- Es rápido y preciso (ademas, accesible via web)

- Algoritmo heurístico: puede obviar alineamientos óptimos

Page 17: Curs einesbioinformatiques juny2011_bloc1_sessio3

Blast en NCBI

Vall d'Hebron Institut de Recerca 21/06/2011

Page 18: Curs einesbioinformatiques juny2011_bloc1_sessio3

Blast en NCBI

Vall d'Hebron Institut de Recerca 21/06/2011

Page 19: Curs einesbioinformatiques juny2011_bloc1_sessio3

Ejemplo

Vall d'Hebron Institut de Recerca 21/06/2011

Page 20: Curs einesbioinformatiques juny2011_bloc1_sessio3

Ejemplo

Vall d'Hebron Institut de Recerca 21/06/2011

Page 21: Curs einesbioinformatiques juny2011_bloc1_sessio3

¿Cómo funciona Blast?

Vall d'Hebron Institut de Recerca 21/06/2011

- Fase 1: compilar una lista de palabras (w=3) con score por encima de un threshold T (high-scoring segment pairs (HSPs))

- Ejemplo: búsqueda para “human RBP”…FSGTWYA…

Lista de palabras (w=3):FSG SGT GTW TWY WYAYSG TGT ATW SWY WFAFTG SVT GSW TWF WYS

Page 22: Curs einesbioinformatiques juny2011_bloc1_sessio3

¿Cómo funciona Blast?

Vall d'Hebron Institut de Recerca 21/06/2011

Fase 2:

- Escaneo de la base de datos para buscar entradas que coincidan con la lista compilada.

- Esto es relativamente rápido y fácil.

Page 23: Curs einesbioinformatiques juny2011_bloc1_sessio3

¿Cómo funciona Blast?

Vall d'Hebron Institut de Recerca 21/06/2011

- Fase 3: cuando encontramos un hit

(es decir, una coincidencia entre una palabra y una entrada de la BBDD), extender el hit en ambas direcciones.

- Calcular los “scores” a cada paso (usando la matriz de substitución)

- Parar cuando la puntuación cae por debajo de cierto “cutoff”.

KENFDKARFSGTWYAMAKKDPEG RBP (query)

MKGLDIQKVAGTWYSLAMAASD lactoglobulin (hit)

Hit!extender extender

Page 24: Curs einesbioinformatiques juny2011_bloc1_sessio3

Parámetros del algoritmo

Vall d'Hebron Institut de Recerca 21/06/2011

Page 25: Curs einesbioinformatiques juny2011_bloc1_sessio3

Criterios de selección

Vall d'Hebron Institut de Recerca 21/06/2011

Page 26: Curs einesbioinformatiques juny2011_bloc1_sessio3

Bit-scores

Vall d'Hebron Institut de Recerca 21/06/2011

- El valor de la puntuaciones obtenidas por un emparejamiento carecen de sentido si no se tiene en cuenta el tamaño de la base de datos y el sistema de puntuación

- Los Bit-scores normalizan las puntuaciones para independizarlas de ambos factores de forma que podamos compararlas

Page 27: Curs einesbioinformatiques juny2011_bloc1_sessio3

E-values

Vall d'Hebron Institut de Recerca 21/06/2011

- Dada una secuencia que ha obtenido una puntuacion E-value es el número esperado de puntuaciones iguales o superiores a las de dicha secuencia atribuibles al azar.

- Un E-value de 10 para una coincidencia significa, que, en una base de datos de secuencias aleatorias del mismo tamaño en la que se ha realizado la búsqueda, se podría esperar encontrar hasta 10 coincidencias con la misma puntuación o similar.

- El E-value es la medida de corte más utilizada en las búsquedas en bases de datos. Sólo se informa de las coincidencias que superan un nivel mínimo

- El E-value oscila entre 0 y cualquier valor

E = Kmn e-λS

Page 28: Curs einesbioinformatiques juny2011_bloc1_sessio3

¿Dónde cortar?

Vall d'Hebron Institut de Recerca 21/06/2011

- Valores bajos de E se pueden interpretar como un p-valor (probabilidad de encontrar por azar una secuencia con la misma puntuación o superior)

- Si queremos seguridad de que las seqs. que encontramos son realmente homologas (mas especificidad), tomaremos valores de corte pequeños (E=0.05, 0.1 + Bit scores altos + Alto porcentaje de identidad)

- Si, en cambio, nos interesa explorar y priorizamos no perder información por delante de la seguridad (mas sensibilidad), podemos relajar el punto de corte (E=1, 10 + Bit scores normales + Alto porcentaje de identidad)

Page 29: Curs einesbioinformatiques juny2011_bloc1_sessio3

¿Existe homología?

Vall d'Hebron Institut de Recerca 21/06/2011

>gb|AAA60147.1| placental protein 14 [Homo sapiens]Length=162 Score = 33.9 bits (76), Expect = 0.34 Identities = 24/107 (22%), Positives = 46/107 (42%), Gaps = 11/107 (10%) Query 28 RVKENFDKARFSGTWYAMAKKDPEGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWD- 86 + K++ + + +GTW++MA + L + A V T + +L+ W+ Sbjct 5 QTKQDLELPKLAGTWHSMAMA-TNNISLMATLKAPLRVHITSLLPTPEDNLEIVLHRWEN 63Query 87 -VCADMVGTFTDTEDPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTY 132 C + T +P KFK+ Y ++ ++DTDYD +Sbjct 64 NSCVEKKVLGEKTGNPKKFKINYTVA--------NEATLLDTDYDNF 102

- RBP4 y PAEP:Bit-score bajo, E-value 0.34, 22% identidad (“zona gris”).

- Pero son, en efecto, homólogas. Se puede comprovar con una búsqueda BLAST con PAEP como secuencia “query”, y se encuentran muchas lipocalinas.

Page 30: Curs einesbioinformatiques juny2011_bloc1_sessio3

Vall d'Hebron Institut de Recerca 21/06/2011

Genome browsers

Page 31: Curs einesbioinformatiques juny2011_bloc1_sessio3

Sesión 3 – Índice de contenidos

Vall d'Hebron Institut de Recerca 21/06/2011

BLAST- Motivación: predicción funcional- Similaridad vs Homología- Alineamiento por parejas

– Sistemas de puntuación– Sistemas de puntuación para proteínas– Matrices de substitución (PAM, BLOSUM)

- BLAST (Alineamiento contra BD)– Blast en NCBI– ¿Cómo funciona?– Parámetros, criterios, Bit-scores, E-values– ¿Dónde cortar?– ¿Existe homología?

GENOME BROWSERS- Ensembl- NCBI Map Viewer- UCSC- VEGA

Page 32: Curs einesbioinformatiques juny2011_bloc1_sessio3

Genome Browsers

Vall d'Hebron Institut de Recerca 21/06/2011

Ensembl http://www.ensembl.org

NCBI Map Viewerhttp://www.ncbi.nlm.nih.gov/projects/mapview

UCSC Genome Browserhttp://genome.ucsc.edu/

VEGA Genome Browserhttp://vega.sanger.ac.uk