an alisis estad stico de secuencias - universidad de …tabla de frecuencias de d meros, codones,...

48
Biotecnolog´ ıa An´ alisis estad´ ıstico de secuencias Dpto. Ciencias de la Computaci´ on e Inteligencia Artificial Universidad de Sevilla

Upload: others

Post on 10-Mar-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

BiotecnologıaAnalisis estadıstico de secuencias

Dpto. Ciencias de la Computacion e Inteligencia ArtificialUniversidad de Sevilla

Informatica aplicada a la biologıa

• Obtener informacion relevante de la cantidad masiva de datosde sistemas biologicos importantes.

• Profundizar en el conocimiento.• Descubrir principios subyacentes.

• Tecnicas de exploracion: Data mining, Big data, ...

• Desarrollo de algoritmos y estadısticos para descubrirconexiones entre datos.

• Analisis e interpretacion de distintos tipos de datos(nucleotidos, aminoacidos, proteınas , ...).

• Desarrollo de herramientas para facilitar el acceso, gestion einteraccion con la informacion disponible.

Informatica aplicada a la biologıa

• Obtener informacion relevante de la cantidad masiva de datosde sistemas biologicos importantes.

• Profundizar en el conocimiento.• Descubrir principios subyacentes.

• Tecnicas de exploracion: Data mining, Big data, ...

• Desarrollo de algoritmos y estadısticos para descubrirconexiones entre datos.

• Analisis e interpretacion de distintos tipos de datos(nucleotidos, aminoacidos, proteınas , ...).

• Desarrollo de herramientas para facilitar el acceso, gestion einteraccion con la informacion disponible.

Informatica aplicada a la biologıa

• Obtener informacion relevante de la cantidad masiva de datosde sistemas biologicos importantes.

• Profundizar en el conocimiento.• Descubrir principios subyacentes.

• Tecnicas de exploracion: Data mining, Big data, ...

• Desarrollo de algoritmos y estadısticos para descubrirconexiones entre datos.

• Analisis e interpretacion de distintos tipos de datos(nucleotidos, aminoacidos, proteınas , ...).

• Desarrollo de herramientas para facilitar el acceso, gestion einteraccion con la informacion disponible.

Informatica aplicada a la biologıa

• Obtener informacion relevante de la cantidad masiva de datosde sistemas biologicos importantes.

• Profundizar en el conocimiento.• Descubrir principios subyacentes.

• Tecnicas de exploracion: Data mining, Big data, ...

• Desarrollo de algoritmos y estadısticos para descubrirconexiones entre datos.

• Analisis e interpretacion de distintos tipos de datos(nucleotidos, aminoacidos, proteınas , ...).

• Desarrollo de herramientas para facilitar el acceso, gestion einteraccion con la informacion disponible.

Informatica aplicada a la biologıa

• Obtener informacion relevante de la cantidad masiva de datosde sistemas biologicos importantes.

• Profundizar en el conocimiento.• Descubrir principios subyacentes.

• Tecnicas de exploracion: Data mining, Big data, ...

• Desarrollo de algoritmos y estadısticos para descubrirconexiones entre datos.

• Analisis e interpretacion de distintos tipos de datos(nucleotidos, aminoacidos, proteınas , ...).

• Desarrollo de herramientas para facilitar el acceso, gestion einteraccion con la informacion disponible.

Modelizacion

• Tecnicas de investigacion: Modelizacion formal.

• Diseno de teorıas matematicas que representen un sistemabiologico objeto de estudio (del que se tiene gran cantidad dedatos).

• Desarrollo de herramientas que permitan la gestion del modelomatematico para constatar su adecuacion a los datos.

• Analisis del comportamiento del sistema ante escenarios deinteres.

• Convergencia: biologıa, informatica, quımica, matematicas, ...

Modelizacion

• Tecnicas de investigacion: Modelizacion formal.

• Diseno de teorıas matematicas que representen un sistemabiologico objeto de estudio (del que se tiene gran cantidad dedatos).

• Desarrollo de herramientas que permitan la gestion del modelomatematico para constatar su adecuacion a los datos.

• Analisis del comportamiento del sistema ante escenarios deinteres.

• Convergencia: biologıa, informatica, quımica, matematicas, ...

Modelizacion

• Tecnicas de investigacion: Modelizacion formal.

• Diseno de teorıas matematicas que representen un sistemabiologico objeto de estudio (del que se tiene gran cantidad dedatos).

• Desarrollo de herramientas que permitan la gestion del modelomatematico para constatar su adecuacion a los datos.

• Analisis del comportamiento del sistema ante escenarios deinteres.

• Convergencia: biologıa, informatica, quımica, matematicas, ...

Sobreajuste en el modelo

Dado un conjunto de datos: {(x , f (x))} (con f desconocida)

construir/ajustar h para “coincidir” con f

(h es consistente si coincide con f en todos los ejemplos)

Ejemplo: Ajuste de una curva:

Sobreajuste en el modelo

Dado un conjunto de datos: {(x , f (x))} (con f desconocida)

construir/ajustar h para “coincidir” con f

(h es consistente si coincide con f en todos los ejemplos)

Ejemplo: Ajuste de una curva:

Sobreajuste en el modelo

Dado un conjunto de datos: {(x , f (x))} (con f desconocida)

construir/ajustar h para “coincidir” con f

(h es consistente si coincide con f en todos los ejemplos)

Ejemplo: Ajuste de una curva:

Sobreajuste en el modelo

Dado un conjunto de datos: {(x , f (x))} (con f desconocida)

construir/ajustar h para “coincidir” con f

(h es consistente si coincide con f en todos los ejemplos)

Ejemplo: Ajuste de una curva:

Sobreajuste en el modelo

Dado un conjunto de datos: {(x , f (x))} (con f desconocida)

construir/ajustar h para “coincidir” con f

(h es consistente si coincide con f en todos los ejemplos)

Ejemplo: Ajuste de una curva:

Sobreajuste en el modelo

Dado un conjunto de datos: {(x , f (x))} (con f desconocida)

construir/ajustar h para “coincidir” con f

(h es consistente si coincide con f en todos los ejemplos)

Ejemplo: Ajuste de una curva:

Navaja de Ockham: en igualdad de condiciones, la explicacion massencilla sera la mas probable

¿Que es el genoma?

• Un conjunto de moleculas de ADN entrelazadas formandocromosomas

http://www.lab314.com/jauja314.htm

¿para que sirve?

• Contiene codificada la informacion necesaria para la expresion,altamente coordinada y adaptable al ambiente, del proteoma

• Las proteınas son las moleculas efectoras; funcionesestructurales, enzimaticas, metabolicas, reguladoras,senalizadoras..., se organizan en redes funcionales deinteracciones.

• Fundamenta la morfologıa y funcionalidad de cada celula,• la organizacion estructural y funcional de las distintas celulas

conforma cada tejido y cada organo• y, finalmente, el organismo vivo en su conjunto

¿por que secuenciarlo?

• Conocer las bases moleculares de las enfermedades hereditarias

• Diagnostico presintomatico y prenatal

• Terapia genica (lınea somatica y en lınea germinal)

• Terapia farmacologica

Primeros pasos...

...en la secuenciacion del genoma

• Frederick Sanger (y su equipo)

1977 fago virus φX174 [5] con5.368 bp

1981 mitocondrial humano [1] con16.571 bp

Bioquımico ingles: 1918-2013

• Craig Venter (y su equipo)

1995 bacteria Haemophilusinfluenzae [3] con 1.830 Kb

Biologo y empresario estadounidense:1946-

• Mas de 100 laboratorios entodo el mundo

1996 hongo unicelular(levadura) Saccharomycescerevisiae [4] con 12’5 Mb cepa utilizada para hacer Albarino

http://seresmodelicos.csic.es/llevat.html

... y han continuado a ritmo creciente (exponencial)

Datos obtenidos de NCBI (en los tres ultimos cursos)

Procariotas (0’1 Mb – 68 Mb) - 189.493• Bacteria: 186.240 (129.855, 88.623)• Archaea: 3.253 (2.389, 1.094)

Virus (0’17 Kb – 49 Mb): 28.083 (22.192, 19.271)

Eukaryotas (11 Kb – 32 Gb): 7.933 (5.350, 4.122)

Organulos (1 Kb – 41 Mb): 12.170 (11.229, 9.212)• Mitocondria• Cloraplasto ...

• International Human Genome Sequencing Consortium IHGSC(mas de 20 instituciones en 6 paıses: Francia, Alemania,Japon, China, Reino Unido y Estados Unidos)

2001 (2003-2004) Homo sapiens [2] con 3.200 Mb (iniciado en 1990)

https://www.nature.com/nature/volumes/409/issues/6822

Bases de datos

Todas las secuencias publicadas en revistas cientıficas seencuentran en bases de datos publicas a traves de internet.

International Nucleotide Sequence Database Collaboration

• DNA Data Bank of Japan (DDBJ)

• European Bioinformatics Institute, part of the EuropeanMolecular Biology Laboratory (EMBL-EBI)

• GenBank en el National Center for Biotechnology Information(NCBI)

Sımbolos que pueden aparecer...

... al descargar una secuenciacion (ADN o ARN)

Sımbolo Nombre Nucleotido

A Adenine AT Thymine TC Cytosine CG Guanine GU Uracil UW Weak A TS Strong C GM aMino A CK Keto G TR puRine A GY pYrimidine C T

B no A C G TV no T A C GD no C A G TH no G A C T

N aNy base A C G T

Analisis de la composicion ...

... de una secuencia

• Tabla de frecuencias (absolutas y relativas) en la secuencia dedistintos elementos del alfabeto (global/local).• Individuales o conjuntas (C + G vs A + T ).

• Variabilidad: tabla de frecuencias para cada subsecuencia detamano k .

• Identificar posiciones en las que se producen cambios

• Tabla de frecuencias de dımeros, codones, ...

Variabilididad

Enterobacteria phage lambda (48502 b.)

Otros analisis interesantes

• Composicion GC

• Poca variacion en el contenido de los nucleotidos C y G• Localizar secuencias procedentes de otros organimos• Las zonas ricas en nucleotidos A y T necesitan menos energıa

para separarse (son mas inestables).

• Puntos de cambio

• K-meros y motif bias (sesgo en el uso de motivos)

• Elementos usuales/inusuales (N - frecuencia):

odds ratio ≈ N(xy)

N(x)N(y)

• Regiones reguladoras de los genes• Sitios de union de los factores de transcripcion

Transferencia horizontal de genes (I)

Visualizacion de los datos

0 500000 1000000 1500000

0.34

0.36

0.38

0.40

0.42

0.44

0.46

Local GC content in H. influenzae

Position

GC

con

tent

local GC content

global GC content

Transferencia horizontal de genes (II)

Formulacion de una hipotesis

Contraste de hipótesis para

comparar la media de dos muestras

Comprobar normalidad

shapiro.test

Comprobar igualdad devarianzasvar.test

Contraste NO paramétricowilcox.test

Datos no normalesp-value < 0.05

Datos normalesp-value ~ 1

H0: μ

1 = μ

2

H1: μ

1 > μ

2 ó μ

1 < μ

2 ó μ

1 ≠ μ

2

H0: Datos normales

H1: Datos NO normales

H0: var

1/var

2 = 1

H1: var

1/var

2 ≠ 1

t.testvar.equal=FALSE

t.testvar.equal=TRUE

Varianzas igualesp-value ~ 1

Varianzas diferentesp-value < 0.05

Transferencia horizontal de genes (III)

Conclusion0.

350.

400.

45

Probabilidad

Val(X ) = {x1, . . . , xn} Val(Y ) = {y1, . . . , ym}

• Independencia: P(X = x & Y = y) = P(X = x)P(Y = y)

• Marginalizacion: P(X = x) =∑m

j=1 P(X = x & Y = Yj)

• Regla del producto

P(X = x & Y = y) = P(X = x |Y = y)P(Y = y)= P(Y = y |X = x)P(X = x)

Regla de Bayes: P(X = x |Y = y) = P(X=x & Y=y)P(Y=y)

• Extension de la regla del producto

P(X = x & Y = y |Z = z) = P(X = x |Z = z)P(Y = y |X = x & Z = z)

• De las reglas anteriores se deduce:

1 =∑n

i=1 P(X = xi |Y = y)

Modelo para un conjunto de secuencias

• Secuencia sobre un alfabeto A = {a1, . . . , an}

s = s1s2 · · · sN donde cada st ∈ A 1 ≤ t ≤ N

• Consideramos las siguientes variables aleatorias (1 ≤ t):

Xt ≡ elemento que ocupa la posicion t en una secuencia

• Se tiene que Val(Xt) = A para todo 1 ≤ t.• Capturan suficientes propiedades y son computacionalmente

eficientes• Los algoritmos son validos para cualquier alfabeto A• Para cualquier secuencia s = s1s2 · · · sN sobre el alfabeto

P(s) = P(X1 = s1 & X2 = s2 & . . . & XN = sN)

Un primer modelo: Multinomial

Sean a, b ∈ A (dos elementos cualesquiera del alfabeto) y 1 ≤ r , t(dos ındices cualesquiera)

Suposicion: las sımbolos de las secuencias del conjunto aparecenen las mismas de forma independiente e identicamente distribuida(i.i.d.)

• La aparicion de cada elemento del alfabeto en la secuencia esindependiente del contenido del resto de la secuencia

P(Xr = a & Xt = b) = P(Xt = a) · P(Xt = b)

• Todas las variables tienen la misma distribucionprobabilidad.

P(Xr = a) = P(Xt = a)

Elementos que definen el modelo

Un modelo multinomial para un conjunto de secuencias, vienedefinido por:

• El alfabeto: A = {a1, . . . , an}• Una distribucion de probabilidad:P(Xt = a1) = pa1 , . . . ,P(Xt = an) = panpor lo que debe verificarse:

0 ≤ pa ≤ 1 (para todo a ∈ A) y∑a∈A

pa = 1

• Se suele denominar: M(pa1 , . . . , pan)

Probabilidad de una secuencia

• Dado un modelo multinomial para un conjunto de secuenciassobre un alfabeto A = {a1, . . . , an}: M(pa1 , . . . , pan)

• Recordemos: para cualquier secuencia s sobre el alfabeto A

P(s) = P(X1 = s1 & X2 = s2 & . . . & XN = sN)

• Por ser independientes

P(s) = P(X1 = s1) · P(X2 = s2) · · · · · P(XN = s)

• Por ser identicamente distribuidas, si cada a ∈ A aparece saveces en s

P(s) = psa1a1 · . . . p

sanan =

∏a∈A

psaa

Estimacion de los parametros del modeloDado un conjunto de secuencias S con un total de N sımbolos(entre todas las secuencias del conjunto, incluidas las repeticiones)sobre el alfabeto A = {a1, . . . , an}Hipotesis de maxima verosimilitud, notada hML (maximumlikelihood en ingles):

hML = argmaxh∈H

P(S|h)

• El conjunto de hipotesis (infinito) es

H = {h = M(θa1 , . . . θan) : θa ∈ [0, 1] ∧ 1 =∑a∈A

θa}

• Suponemos que todas las hipotesis h ∈ H son igualmenteprobables a priori

Estimacion de los parametros del modeloDado un conjunto de secuencias S con un total de N sımbolos(entre todas las secuencias del conjunto, incluidas las repeticiones)sobre el alfabeto A = {a1, . . . , an}Hipotesis de maxima verosimilitud, notada hML (maximumlikelihood en ingles):

hML = argmaxh∈H

P(S|h)

• Para cada una de las posibles multinomiales se tiene que:

P(S|h) =∏a∈A

θsaa

{= θsaa (1− θa)N−sa

}a∈A

donde sa es el numero de veces que aparece a en S

Estimacion de los parametros del modeloDado un conjunto de secuencias S con un total de N sımbolos(entre todas las secuencias del conjunto, incluidas las repeticiones)sobre el alfabeto A = {a1, . . . , an}Hipotesis de maxima verosimilitud, notada hML (maximumlikelihood en ingles):

hML = argmaxh∈H

P(S|h)

• Para cada una de las posibles multinomiales se tiene que:

P(S|h) =∏a∈A

θsaa

{= θsaa (1− θa)N−sa

}a∈A

donde sa es el numero de veces que aparece a en S• Se trata de encontrar la multinomial que maximiza dicha

probabilidad

Estimacion de los parametros del modeloDado un conjunto de secuencias S con un total de N sımbolos(entre todas las secuencias del conjunto, incluidas las repeticiones)sobre el alfabeto A = {a1, . . . , an}Hipotesis de maxima verosimilitud, notada hML (maximumlikelihood en ingles):

hML = argmaxh∈H

P(S|h)

• Para cada una de las posibles multinomiales se tiene que:

P(S|h) =∏a∈A

θsaa

{= θsaa (1− θa)N−sa

}a∈A

donde sa es el numero de veces que aparece a en S• Para maximizar es habitual: tomar logaritmos

(log-probabilidades), derivar respecto de cada θa e igualar a 0

LP(S|h) =∑a∈A

salog(θa) {= salog(θa) + (N − sa)log(1− θa)}a∈A

Estimacion de los parametros del modeloDado un conjunto de secuencias S con un total de N sımbolos(entre todas las secuencias del conjunto, incluidas las repeticiones)sobre el alfabeto A = {a1, . . . , an}Hipotesis de maxima verosimilitud, notada hML (maximumlikelihood en ingles):

hML = argmaxh∈H

P(S|h)

• Para cada una de las posibles multinomiales se tiene que:

P(S|h) =∏a∈A

θsaa

{= θsaa (1− θa)N−sa

}a∈A

donde sa es el numero de veces que aparece a en S• Para maximizar es habitual: tomar logaritmos (log-probabilidades),

derivar respecto de cada θa e igualar a 0{dLP(S|h)

dθa=

saθa− N − sa

1− θa= 0

}a∈A⇒{θa =

saN

}a∈A

Estimacion de los parametros del modeloDado un conjunto de secuencias S sobre el alfabeto A con un totalde L sımbolos (entre todas las secuencias del conjunto, incluidaslas repeticiones)

Hipotesis de maxima verosimilitud, notada hML (maximumlikelihood en ingles):

hML = argmaxh∈H

P(S|h)

hML = M(sa1

N, . . . ,

sanN

)

• En la practica, para evitar que alguna de estas probabilidadessea 0, se aplica un suavizado de Laplace:

θa =sa + 1

N + n

Problema: la longitud de las secuencias

Supongamos que tenemos un modelo multinomial (por simplificar,equiprobable) sobre un conjunto de proteınas y una proteına scompuesta por 50 aminoacidos.

• |A| = 20 y |s| = 50

• Equiprobables: pa = 1/20 para todo a ∈ A

P(s) =1

2050≈ 8.8 ∗ 10−66

• Como se evitan esos valores:

LP10(s) = log10(P(s)) = −50 ∗ log10(20) ≈ −65.05

LP(s) = ln(P(s)) = −50 ∗ ln(20) ≈ −149.79

El problema no es solo de este modelo

Variabilididad

¿Por que es insuficiente este modelo?

Enterobacteria phage lambda (48502 b.)

Cadenas de Markov

Sean a, b, c ∈ A (tres elementos cualesquiera del alfabeto) y1 ≤ r < t (dos ındices cualesquiera)

Suposiciones:

• Conocido el sımbolo que aparece en una determinadaposicion, la probabilidad del sımbolo inmediatamente posteriorno se ve afectada por ningun otro conocimiento sobre lossımbolos anteriores.

P(Xt+1 = b|Xr = c & Xt = a) = P(Xt+1 = b|Xt = a)

• Esa relacion es identica para cualquiera de las posiciones.

P(Xt+1 = b|Xt = a) = P(Xr+1 = b|Xr = a)

Elementos que definen el modelo

El modelo de cadena de Markov viene definido por:

• El alfabeto: A = {a1, . . . , an}• Matriz de transicion: MT = (pai ,aj )1≤i ,j≤n donde

Pb,a = P(Xt+1 = a|Xt = b)

0 ≤ Pb,a ≤ 1 y∑a∈A

pb,a = 1

• Vector inicial: π = (πai )1≤i≤n donde πa = P(X1 = a)

0 ≤ πa ≤ 1 y∑a∈A

πa = 1

Representacion grafica

Para un alfabeto A = {a, b}

πa Pa,b πb

a b

Pa,a Pb,bPb,a

Probabilidad de una secuencia

Recordemos: para cualquier secuencia s sobre el alfabeto A

P(s) = P(X1 = s1 & X2 = s2 & . . . & XN = sN)

P(X1 = s1 & . . . & XN = sN)r.producto

=

P(X1 = s1 & . . . & XN−1 = sN−1)P(XN = sN |X1 = s1 & . . . & XN−1 = sN−1)cad.Markov

=

P(X1 = s1 & . . . & XN−1 = sN−1)P(XN = sN |XN−1 = sN−1) = · · · =

P(X1 = s1 & X2 = s2)P(X3 = s3|X2 = s2) . . .P(XN = sN |XN−1 = sN−1)r.producto

=

P(X1 = s1)P(X2 = s2|X1 = s1)P(X3 = s3|X2 = s2) . . .P(XN = sN |XN−1 = sN−1)

P(s) = πs1

∏1≤t<N

Pst ,st+1

Estimacion de los parametros del modelo

Dado un conjunto de secuencias S con un total de N sımbolos(entre todas las secuencias del conjunto, incluidas las repeticiones)sobre el alfabeto A

Pa,b =sabsa

(suavizadosab + 1

sa + n)

πa =saN

(suavizadosa + 1

N + n)

donde sab es el numero de veces que el dımero ab aparece en S ysa es el numero de veces que aparece a en S

Bibliografıa

[1] S. Anderson, A.T. Bankier, B.G. Barrell, M.H.L. de Bruijn, A.R. Coulson, J. Drouin, I.C. Eperon, D.P.Nierlich, B.A. Roe, F. Sanger, P.H. Schreier, A.J.H. Smith, R. Staden, and I.G. Young. Sequence andorganization of the human mitochondrial genome. Nature, 290:457–465, Abril 1981. doi: 10.1038/290457a0.

[2] International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome.Nature, 409:860–921, Febrero 2001. doi: 10.1038/35057062.

[3] R.D. Fleischmann, M.D. Adams, O. White, R.A. Clayton, E.F. Kirkness, A.R. Kerlavage, C.J. Bult, J.F. Tomb,B.A. Dougherty, J.M. Merrick, and et al. Whole-genome random sequencing and assembly of haemophilusinfluenzae rd. Sciencie, 269(5223):496–512, Julio 1995. doi: 10.1126/science.7542800.

[4] A. Goffeau, B.G. Barrell, H. Bussey, R.W. Davis, B. Dujon, H. Feldmann, F. Galibert, J.D. Hoheisel, C. Jacq,M. Johnston, E.J. Louis, H.W. Mewes, Y. Murakami, P. Philippsen, H. Tettelin, and S.G. Oliver. Life with6000 genes. Science, 274(5287):46–567, Octubre 1996. doi: 10.1126/science.274.5287.546.

[5] F. Sanger, G.M. Air, B.G. Barrel, N.L. Brown, A.R. Coulson, J.C. Fiddes, C.A. Hutchison, P.M. Slocombe, andM. Smith. Nucleotide sequence of bacteriophage φx174 dna. Nature, 265:687–695, Febrero 1977. doi:10.1038/265687a0.