matrices de substitución pam y blosum miguel angel orrego mabel karel raza luis a. vega noviembre,...

31
Matrices de Substitución PAM Y BLOSUM Miguel Angel Orrego Mabel Karel Raza Luis A. Vega Noviembre, 2004

Upload: adelita-henao

Post on 23-Jan-2016

222 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Matrices de Substitución PAM Y BLOSUM Miguel Angel Orrego Mabel Karel Raza Luis A. Vega Noviembre, 2004

Matrices de SubstituciónPAM Y BLOSUM

Miguel Angel OrregoMabel Karel Raza

Luis A. Vega

Noviembre, 2004

Page 2: Matrices de Substitución PAM Y BLOSUM Miguel Angel Orrego Mabel Karel Raza Luis A. Vega Noviembre, 2004

Bioinfo-UPCH 2

Índice

Introducción Matrices PAM Ejemplo de Matriz PAM Matrices BLOSUM Ejemplo de Matriz BLOSUM Matrices GONNET Referencias

Page 3: Matrices de Substitución PAM Y BLOSUM Miguel Angel Orrego Mabel Karel Raza Luis A. Vega Noviembre, 2004

Bioinfo-UPCH 3

Introducción

Cada método de comparación de secuencias requiere un conjunto de scores.

La similaridad entre secuencias esta definida por una función de optimización basada en la medida de similaridad entre sus amino ácidos.

Asi, la similaridad de matrices son la base de los métodos de análisis de secuencias.

Elegir una matrix que influya en el resultado del análisis.

Page 4: Matrices de Substitución PAM Y BLOSUM Miguel Angel Orrego Mabel Karel Raza Luis A. Vega Noviembre, 2004

Bioinfo-UPCH 4

Similaridad vs Distancia Matrices

Similaridad matrices: Usada por base de datos de busqueda.

Distancia matrices: Comunmente usado en el análisis Filogenético.

Una similaridad maxima es fundamentalmente lo mismo que una distancia mínima.

Page 5: Matrices de Substitución PAM Y BLOSUM Miguel Angel Orrego Mabel Karel Raza Luis A. Vega Noviembre, 2004

Bioinfo-UPCH 5

Scores de Sustitución Los elementos de la diagonal son scores dados a los

amino ácidos identicos.

Los elementos fuera de la diagonal son scores dados para los amino ácidos de substitución.

Diversas propiedades estan dadas por Propiedades químicas. Similitud estructural

Page 6: Matrices de Substitución PAM Y BLOSUM Miguel Angel Orrego Mabel Karel Raza Luis A. Vega Noviembre, 2004

Bioinfo-UPCH 6

Scoring Matrices Se tiene en cuenta:

Similitud estructural (aminoácidos de igual tamaño)

Similitud química (pI, hidrofobicidad, etc)

La matriz que se utilice puede ser determinante en la comparación de secuencias.

Las matrices más utilizadas son: PAM BLOSUM

Page 7: Matrices de Substitución PAM Y BLOSUM Miguel Angel Orrego Mabel Karel Raza Luis A. Vega Noviembre, 2004

Bioinfo-UPCH 7

Matrices PAM(Point Accepted Mutation o Percent of Accepted

Mutations)

M. Dayhoff and R. Schwartz. Matrices for detecting distant relationship. Atlas of Protein Sequences, pages 353-358, 1979.

PRINCIPIOMatrices PAM están basadas en el alineamiento global de secuencias de proteínas estrechamente relacionadas y asumen que una modificación en algún sitio depende solamente del aminoácido presente en ese sitio

Mutaciones Independientes

Page 8: Matrices de Substitución PAM Y BLOSUM Miguel Angel Orrego Mabel Karel Raza Luis A. Vega Noviembre, 2004

Bioinfo-UPCH 8

Matriz PAM

1-PAM: refleja la “distancia evolutiva” que produce (en promedio) una mutación cada 100 aminoácidos en una generación.

X-PAM: X mutaciones cada 100 aminoácidos en una generación.

250-PAM se utiliza para comparar secuencias que está a 250 unidades de evolución

Las X-PAM son calculadas desde la 1-PAM

Page 9: Matrices de Substitución PAM Y BLOSUM Miguel Angel Orrego Mabel Karel Raza Luis A. Vega Noviembre, 2004

Bioinfo-UPCH 9

Propiedades de una matriz de probabilidad de mutación:

La matriz M1 establece una unidad de cambio evolutivo.

Aplicaciones sucesivas de una matriz M1 a una secuencia produce matrices M2, M3, ..., Mn.

Los elementos de la matriz PAM 0 son 1 para Mii y 0 para Mij.

La PAM 1 acepta una mutación cada 100 aminoácidos

En general, k unidades de evolución = M k2

kalgún para

ijkjikij MMMM

iki

Page 10: Matrices de Substitución PAM Y BLOSUM Miguel Angel Orrego Mabel Karel Raza Luis A. Vega Noviembre, 2004

Bioinfo-UPCH 10

TIPS

i -> j = j -> i Porque para dos secuencias cualquiera, el a.a ancestro en el árbol filogenético no es conocido usualmente.(Mount 78)

Odds score : Cociente de cambio de substitución de un amino ácido.

Permite determinar si las secuencias : Variación evolutiva autentica Secuencias aleatorias con ninguna significancia

biológica.

El modelo de Darhoff es un proceso de Markov.

Page 11: Matrices de Substitución PAM Y BLOSUM Miguel Angel Orrego Mabel Karel Raza Luis A. Vega Noviembre, 2004

Bioinfo-UPCH 11

Procedimiento para construir una matriz PAM

Page 12: Matrices de Substitución PAM Y BLOSUM Miguel Angel Orrego Mabel Karel Raza Luis A. Vega Noviembre, 2004

Bioinfo-UPCH 12

1. Alinear una conjunto de secuencias quetengan una identidad no inferior al 85 %

Inicio

2. Reconstruir un árbol filogenetico de lassecuencias alineadas con el fin de inferir

ancestros

3. Calcular Aij

Las secuencias secomparan por pares y

los cambios se hanpresentado por

Selección Natural

4. Calcular mj

Donde :Aij : frecuencia de que el amino ácido jfue reemplazo por el amino ácido i entodas las comparaciones

mj : Probabilidad de que el amino ácido jsea reemplazado por cualquier aminoácido.

Mij: Matriz de probabilidad de mutaciónpara una PAM de distancias evolutivas

5. Generar la Matriz deprobabilidad de mutación

6. Calcular la matriz de “LogsOdds ” de similaridad

Rij= Mij/fi

Sij=Log (Rij)

Rij : Matriz de Relatedness Odds

f i: Frecuencia del amino ácido i

S: Matriz “Logs Odds”Fin

Page 13: Matrices de Substitución PAM Y BLOSUM Miguel Angel Orrego Mabel Karel Raza Luis A. Vega Noviembre, 2004

Bioinfo-UPCH 13

PAM70

A R N D C Q E G H I L K M F P S T W Y VA 5 -4 -2 -1 -4 -2 -1 0 -4 -2 -4 -4 -3 -6 0 1 1 -9 -5 -1R -4 8 -3 -6 -5 0 -5 -6 0 -3 -6 2 -2 -7 -2 -1 -4 0 -7 -5N -2 -3 6 3 -7 -1 0 -1 1 -3 -5 0 -5 -6 -3 1 0 -6 -3 -5D -1 -6 3 6 -9 0 3 -1 -1 -5 -8 -2 -7 -10 -4 -1 -2 -10 -7 -5C -4 -5 -7 -9 9 -9 -9 -6 -5 -4 -10 -9 -9 -8 -5 -1 -5 -11 -2 -4Q -2 0 -1 0 -9 7 2 -4 2 -5 -3 -1 -2 -9 -1 -3 -3 -8 -8 -4E -1 -5 0 3 -9 2 6 -2 -2 -4 -6 -2 -4 -9 -3 -2 -3 -11 -6 -4G 0 -6 -1 -1 -6 -4 -2 6 -6 -6 -7 -5 -6 -7 -3 0 -3 -10 -9 -3H -4 0 1 -1 -5 2 -2 -6 8 -6 -4 -3 -6 -4 -2 -3 -4 -5 -1 -4I -2 -3 -3 -5 -4 -5 -4 -6 -6 7 1 -4 1 0 -5 -4 -1 -9 -4 3

L -4 -6 -5 -8 -10 -3 -6 -7 -4 1 6 -5 2 -1 -5 -6 -4 -4 -4 0K -4 2 0 -2 -9 -1 -2 -5 -3 -4 -5 6 0 -9 -4 -2 -1 -7 -7 -6M -3 -2 -5 -7 -9 -2 -4 -6 -6 1 2 0 10 -2 -5 -3 -2 -8 -7 0F -6 -7 -6 -10 -8 -9 -9 -7 -4 0 -1 -9 -2 8 -7 -4 -6 -2 4 -5P 0 -2 -3 -4 -5 -1 -3 -3 -2 -5 -5 -4 -5 -7 7 0 -2 -9 -9 -3S 1 -1 1 -1 -1 -3 -2 0 -3 -4 -6 -2 -3 -4 0 5 2 -3 -5 -3T 1 -4 0 -2 -5 -3 -3 -3 -4 -1 -4 -1 -2 -6 -2 2 6 -8 -4 -1

W -9 0 -6 -10 -11 -8 -11 -10 -5 -9 -4 -7 -8 -2 -9 -3 -8 13 -3 -10Y -5 -7 -3 -7 -2 -8 -6 -9 -1 -4 -4 -7 -7 4 -9 -5 -4 -3 9 -5V -1 -5 -5 -5 -4 -4 -4 -3 -4 3 0 -6 0 -5 -3 -3 -1 -10 -5 6

Page 14: Matrices de Substitución PAM Y BLOSUM Miguel Angel Orrego Mabel Karel Raza Luis A. Vega Noviembre, 2004

Matrices Blosum

Page 15: Matrices de Substitución PAM Y BLOSUM Miguel Angel Orrego Mabel Karel Raza Luis A. Vega Noviembre, 2004

Bioinfo-UPCH 15

La matriz "BLOcks SUbstitution" fue propuesta por Steven Henikoff and Jorja G. Henikoff en el año de 1992, fue creada a partir de un estudio sobre bloques conservados.

Page 16: Matrices de Substitución PAM Y BLOSUM Miguel Angel Orrego Mabel Karel Raza Luis A. Vega Noviembre, 2004

Bioinfo-UPCH 16

BLOSUM METHOD

Data base

Data Base of blocks

Deriving a frequency tables from a data base of blocks

Computing a logarithm ofodds matrix

1 .. .. w1 A .. .. ..

.. .. .. .. ..

S .. .. .. ..

1.27.5 6.31.9 5.5 3.16.5 2.0 8.1 4.33.7 5.8 2.9 7.7 3.2

Page 17: Matrices de Substitución PAM Y BLOSUM Miguel Angel Orrego Mabel Karel Raza Luis A. Vega Noviembre, 2004

Bioinfo-UPCH 17

Page 18: Matrices de Substitución PAM Y BLOSUM Miguel Angel Orrego Mabel Karel Raza Luis A. Vega Noviembre, 2004

Bioinfo-UPCH 18

........A…….

........A…….

........A…….

........A…….

........S…….

........A…….

........A…….

........A…….

........A…….

........A…….Como un ejemplo del cálculo, si una columna

presente en un bloque, posee 10 aminoácidos de los cuales 9 son A y 1 es S:

Page 19: Matrices de Substitución PAM Y BLOSUM Miguel Angel Orrego Mabel Karel Raza Luis A. Vega Noviembre, 2004

Bioinfo-UPCH 19

Hay 8+7+6…..+1= 36 posibles pares AA (fAA) y 9 posibles pares AS (fAS) para ser comparados.

La frecuencia de ocurrencia de un par AA, q AA = f AA/( f AA + f AS ) = 36/(36+9)= 0.8 y para un par AS, q AS = f AS /(f AA + f AS ) = 9/ (36+9) = 0.2.

Page 20: Matrices de Substitución PAM Y BLOSUM Miguel Angel Orrego Mabel Karel Raza Luis A. Vega Noviembre, 2004

Bioinfo-UPCH 20

La frecuencia esperada de que A este en un par, p A = (q AA + q AS /2) = 0.8+0.2/2 = 0.9 y para S, p S = q AS/2 = 0.1

La frecuencia esperada de ocurrencia del par AA, e AA = p A X p A = 0.9 X 0.9 = 0.81 y para el par AS, e AS = 2 X p S X p A = 2 X 0.9 X 0.1 = 0.18

Las proporciones son luego convertidas en logaritmo de base 2.

Para AA, s AA = log2 (q AA / e AA ) = -0.04 y para AS, sAS = log2 (q AS / e AS) = 0.30

Page 21: Matrices de Substitución PAM Y BLOSUM Miguel Angel Orrego Mabel Karel Raza Luis A. Vega Noviembre, 2004

Bioinfo-UPCH 21

Procedimiento para la construcción de una matriz Blosum:

Se inicia con segmentos (bloques) conservados de secuencias:

Alinear las secuencias sin permiter la presencia de huecos.

Establecer el número de aminoácidos alineados por pares (fij).

Page 22: Matrices de Substitución PAM Y BLOSUM Miguel Angel Orrego Mabel Karel Raza Luis A. Vega Noviembre, 2004

Bioinfo-UPCH 22

La frecuencia observada de cada para de aminoácidos (qij) es el cociente entre el valor de fij y el número total de pares aminoácidos (esto incluye los pare i=j, es decir los casos en los que no se presenta sustitución).

La frecuencia esperada de un par de aminoácidos es el producto de las frecuencias de cada aminoácidos en el conjunto de datos.

Las secuencias de un bloque son agrupadas según unos umbrales de similiaridad, por ejemplo si se utiliza un 80% de similaridad se contruye una matriz Blosum80.

Page 23: Matrices de Substitución PAM Y BLOSUM Miguel Angel Orrego Mabel Karel Raza Luis A. Vega Noviembre, 2004

Bioinfo-UPCH 23

Page 24: Matrices de Substitución PAM Y BLOSUM Miguel Angel Orrego Mabel Karel Raza Luis A. Vega Noviembre, 2004

Bioinfo-UPCH 24

Características

Los valores de la matriz están basados en la observación de los cambios sucedidos en patrones de aminoácidos conservados llamados bloques.

Estos bloques fueron hallados en bases de datos de secuencias proteicas que representan mas de 500 familias, actuando como marcas características de dichas familias.

Page 25: Matrices de Substitución PAM Y BLOSUM Miguel Angel Orrego Mabel Karel Raza Luis A. Vega Noviembre, 2004

Bioinfo-UPCH 25

De esta manera las matrices Blosum están basadas por un tipo mas extenso de datos y de un análisis de secuencias completamente diferente que las matrices PAM.

Page 26: Matrices de Substitución PAM Y BLOSUM Miguel Angel Orrego Mabel Karel Raza Luis A. Vega Noviembre, 2004

Bioinfo-UPCH 26

GONNET Es un metodo alternativo para medir diferencias entre

aminoacidos.

Fue desarrollado por Gonnet, Cohen and Benner (1992) usando aineamiento exhaustivo de alineamiento de pares de las base de datos proteicas como las existentes actualmente.

Ello usan la medida clasica de distancia para estmar un alineamiento de proteinas. Luego usan estos datos para estimar una nueva matrix distancia.

Esto fue usado para refinar el alineamiento, estimando una nueva matrix de distancia.

Page 27: Matrices de Substitución PAM Y BLOSUM Miguel Angel Orrego Mabel Karel Raza Luis A. Vega Noviembre, 2004

Bioinfo-UPCH 27

CaracteristicasGonnet revised PAM matrix in 1992

Conocido como la Gonnet92 matrix

Ordena las secuencias en un árbol

Secuencias similares son representadas con ramas cercanas en el árbol.

Como punto de inicio de la secuencia fueron alineados usando N (Aspargina) & W(triptofano) y matrices PAM originales.

Page 28: Matrices de Substitución PAM Y BLOSUM Miguel Angel Orrego Mabel Karel Raza Luis A. Vega Noviembre, 2004

Bioinfo-UPCH 28

MATRIX GONNET

Page 29: Matrices de Substitución PAM Y BLOSUM Miguel Angel Orrego Mabel Karel Raza Luis A. Vega Noviembre, 2004

Bioinfo-UPCH 29

¿Cuál matriz usar?

PAM: Si no se tiene idea de cuánto tiempo hace que divergieron las secuencias, entonces conviene usar varias matrices que cubran todas las posibilidades (PAM40, PAM120, PAM250)

Las matrices PAM están diseñadas fundamentalmente para estudiar homología a nivel global entre secuencias. Tienen muy en cuenta el factor de distancia evolutiva.

Las matrices BLOSUM, en cambio, son preferibles cuando se estudian secuencias conservadas (sec. consenso). El factor del tiempo evolutivo es menos importante.

Page 30: Matrices de Substitución PAM Y BLOSUM Miguel Angel Orrego Mabel Karel Raza Luis A. Vega Noviembre, 2004

Bioinfo-UPCH 30

PAM Versus BLOSUM (Resumen)

PAM esta basado en un modelo evolutivo. BLOSUM esta basado en familia de proteinas. PAM esta basado en alineamiento global. BLOSUM esta basado en alineamiento local.

Page 31: Matrices de Substitución PAM Y BLOSUM Miguel Angel Orrego Mabel Karel Raza Luis A. Vega Noviembre, 2004

Bioinfo-UPCH 31

Referencias

1. Atlas of Protein Sequence and Structure, Suppl 3, 1978, M.O. Dayhoff, ed. National Biomedical Research Foundation, 1979

2 Urmila Kulkarni-Kale Bioinformatics Centre, University of Pune, Pune 411 [email protected]

3. Bioinformatics, Sequence and Genome AnalysisMount David W. University of Arizona, Tucson 2001. PAM pags. 76 - 85

4. Bioinformatics, Sequence and Genome AnalysisMount David W. University of Arizona, Tucson 2001.BLOSUM pags. 85 - 89