¿es el análisis bayesiano sensible a ramas...

8
¿Es el Análisis Bayesiano Sensible a Ramas Largas? Claudia Marcela Mayorga-Díaz 2061291 Introducción La atracción de ramas largas (LBA) es la agrupación errónea de dos o más ramas largas como grupos hermanos debido a artefactos metodológicos, esto se ha considerado simplemente de manera hipotética, pero se ha llegado a poner en duda si efectivamente afecta a datos reales (Bergsten, 2005). El LBA es un fenómeno particular de datos moleculares, dado que el número de nucleótidos diferentes se limita a cuatro, entonces la evolución convergente indistinguible de los caracteres se considera común (Bergsten, 2005). El LBA fue primero demostrado en teoría por Felsenstein en 1978, en un experimento extraordinario con un árbol de cuatro terminales, que mostraba que bajo ciertas condiciones modelo, la máxima parsimonia y los métodos de compatibilidad fallarían en estimar el árbol correcto con una cantidad infinita de datos (Kim, 1996). Esta combinación de parámetros evolutivos para los cuales un método provee estimados inconsistentes de filogenia ha sido llamada la zona de Felsenstein (Huelsenbeck & Hillis, 1993). Se le ha asociado con los métodos basados en parsimonia, y además se cree que los métodos basados en modelos son mucho menos sensibles a este problema, tales como Máxima Verosimilitud, Neighbor-Joining y el Análisis Bayesiano (Wiens, 2005). Por lo tanto, el objetivo de este trabajo es evaluar la sensibilidad del análisis bayesiano a las ramas largas, a partir de simulaciones de tres arboles base, bajo dos modelos evolutivos. Materiales y métodos Los tres arboles base usados en este análisis se observan en la Figura 1. El primer árbol tiene una longitud de ramas largas de 0.36, ramas cortas de 0.0036 y ramas internas de 0.36 (Fig. 1.a). El segundo árbol tiene una longitud de ramas largas de 0.36, ramas cortas 0.0036 y ramas internas de 0.0036 (Fig. 1.b). El tercer árbol tiene una longitud de ramas largas de 0.36, ramas cortas 0.0036 y ramas internas de 0.18 (Fig. 1.c). Se generaron tres secuencias de ADN por cada árbol mediante el programa Seq-Gen1.3.2 (Rambaut & Grassly, 1997). Las secuencias de ADN con longitud de 500 nucleótidos, fueron creadas a partir de dos modelos evolutivos, Jukes-Cantor (JC) y el modelo general reversible (GTR). Para verificar el modelo evolutivo de cada secuencia se implementó, bajo el criterio Akaike, el programa R 2.0.8 (Venables & Smith, 2008) en el cual se cargó la librería Ape (Paradis et

Upload: vudieu

Post on 06-Oct-2018

213 views

Category:

Documents


0 download

TRANSCRIPT

¿Es el Análisis Bayesiano Sensible a Ramas Largas?

Claudia Marcela Mayorga-Díaz 2061291

Introducción

La atracción de ramas largas (LBA) es la agrupación errónea de dos o más ramas largas

como grupos hermanos debido a artefactos metodológicos, esto se ha considerado

simplemente de manera hipotética, pero se ha llegado a poner en duda si efectivamente

afecta a datos reales (Bergsten, 2005). El LBA es un fenómeno particular de datos

moleculares, dado que el número de nucleótidos diferentes se limita a cuatro, entonces la

evolución convergente indistinguible de los caracteres se considera común (Bergsten,

2005).

El LBA fue primero demostrado en teoría por Felsenstein en 1978, en un experimento

extraordinario con un árbol de cuatro terminales, que mostraba que bajo ciertas

condiciones modelo, la máxima parsimonia y los métodos de compatibilidad fallarían en

estimar el árbol correcto con una cantidad infinita de datos (Kim, 1996). Esta combinación

de parámetros evolutivos para los cuales un método provee estimados inconsistentes de

filogenia ha sido llamada la zona de Felsenstein (Huelsenbeck & Hillis, 1993).

Se le ha asociado con los métodos basados en parsimonia, y además se cree que los

métodos basados en modelos son mucho menos sensibles a este problema, tales como

Máxima Verosimilitud, Neighbor-Joining y el Análisis Bayesiano (Wiens, 2005). Por lo

tanto, el objetivo de este trabajo es evaluar la sensibilidad del análisis bayesiano a las

ramas largas, a partir de simulaciones de tres arboles base, bajo dos modelos evolutivos.

Materiales y métodos

Los tres arboles base usados en este análisis se observan en la Figura 1. El primer árbol

tiene una longitud de ramas largas de 0.36, ramas cortas de 0.0036 y ramas internas de

0.36 (Fig. 1.a). El segundo árbol tiene una longitud de ramas largas de 0.36, ramas cortas

0.0036 y ramas internas de 0.0036 (Fig. 1.b). El tercer árbol tiene una longitud de ramas

largas de 0.36, ramas cortas 0.0036 y ramas internas de 0.18 (Fig. 1.c). Se generaron tres

secuencias de ADN por cada árbol mediante el programa Seq-Gen1.3.2 (Rambaut &

Grassly, 1997). Las secuencias de ADN con longitud de 500 nucleótidos, fueron creadas a

partir de dos modelos evolutivos, Jukes-Cantor (JC) y el modelo general reversible (GTR).

Para verificar el modelo evolutivo de cada secuencia se implementó, bajo el criterio Akaike,

el programa R 2.0.8 (Venables & Smith, 2008) en el cual se cargó la librería Ape (Paradis et

al. 2008). Para el modelo GTR se emplearon tasas relativas para las seis sustituciones

nucleotídicas reversibles de 0.70772, 4.08141, 1.72015, 0.76465, 9.01668, 1.00000.

Finalmente, se realizó el análisis de inferencia bayesiana en el programa MrBayes 3.1

(Huelsenbeck & Ronquist 2001). Se corrieron cuatro cadenas de Markov-Montecarlo bajo

el algoritmo de Metropolis-Hastings (MCMC) por 1.000.000 de generaciones, se hicieron

tres corridas independientes por cada secuencia, para un total de 54 corridas, con el fin de

encontrar convergencia entre las mismas. Los distintos arboles fueron graficados en

FigTree 1.2.2 (Rambaut 2009).

Resultados y discusión

Los modelos especificados en R 2.0.8 correspondieron a los generados en las secuencias

por Seq-Gen1.3.2 (Fig. 2 y 3). Las simulaciones del árbol 1 (Fig. 1a) bajo el modelo JC69 y

GTR arrojaron topologías similares a las del árbol inicial, manteniendo las relaciones entre

grupos hermanos (B, C) y (D, E), con probabilidades a posteriori de 1 (Fig. 4 y 5).

Los simulaciones del árbol 2 (Fig. 1b) resultaron para el modelo JC69 en tres arboles que

disminuyeron sus probabilidades a posteriori. Las simulaciones 1 y 3 mantuvieron las

relaciones entre grupos hermanos (B, C) y (D, E), mientras que en la simulación 2 se

presentó una politomia, y sólo se resolvieron las relaciones entre D y E con una

probabilidad a posteriori baja de 0.54 (Fig. 6). Mientras que para el modelo GTR, se

observó en las tres simulaciones una relación entre grupos no hermanos B y E, lo cual hace

pensar que hubo una atracción de ramas largas, al disminuir la longitud de la ramas

internas (Fig. 7).

Las simulaciones del árbol 3 (Fig. 1c) para el modelo JC69 recuperaron el árbol inicial con

probabilidades a posteriori de 1, observándose la relación entre grupos hermanos (B, C) y

(D, E) (Fig. 8). Para el modelo GTR también se observaron probabilidades a posteriori de 1,

y se mantuvo la relación entre (B, C) y (D, E) (Fig. 9).

Aunque se ha dicho que la atracción de ramas largas (LBA) es un problema de los métodos

basados en parsimonia (Felsenstein, 1978), puede también presentarse en los métodos

basados en modelos (Wiens, 2005), como se observó en este trabajo, para las simulaciones

bajo el modelo GTR cuando la longitud de las ramas internas era 100 veces menor que la

longitud de las ramas largas. Mientras que para las simulaciones bajo el mismo modelo,

pero con una longitud de ramas internas de la mitad e igual a la longitud de ramas largas

no se observó LBA.

Las probabilidades a posteriori disminuyeron al reducir considerablemente la longitud de

las ramas internas respecto a las ramas largas, sin embargo esto sólo se simuló bajo un

árbol base, en el cual la longitud de las ramas internas fue 0,0036, faltaría probar con otras

longitudes para determinar en qué momento empiezan a cambiar las probabilidades a

posteriori, ya que en este análisis se utilizaron sólo tres enfoques de ramas internas (0.36,

0.18 y o.oo36).

En este trabajo, las simulaciones bajo el modelo JC69 no presentaron atracción de ramas

largas, al parecer la complejidad del modelo (GTR), más la menor longitud de ramas

internas conllevan a la aparición de este fenómeno. No obstante, en este trabajo sólo se

evaluaron dos modelos, por lo tanto es indispensable comparar con otros de distinto

grado de complejidad. Las simulaciones de datos tienen limitaciones que a menudo se

ocultan o se pasan por alto (Huelsenbeck, 1995), por esto sería muy útil probar si ocurre o

no este fenómeno en el análisis de inferencia bayesiana con datos reales.

Bibliografía

Bergsten, J. 2005. A review of long-branch attraction. Cladistics 21 163–193.

Huelsenbeck, J.P., and Hillis D.M. 1993. Success of phylogenetic methods in the four-taxon

case. Syst. Biol. 42:247-264.

Huelsenbeck, J.P. 1995. Performance of Phylogenetic Methods in Simulation. Systematic

Biology, Vol. 44, No. 1. pp. 17-48.

Huelsenbeck, J.P and Ronquist, F. 2001. MrBayes v3.1.2: Bayesian inference of phylogeny.

Bioinformatics 17; 754-755.

Kim J. 1996. General inconsistency conditions for maximum parsimony: Effects of branch

lengths and increasing numbers of taxa. Syst. Biol. 45(3):363-374.

Paradis E., Claude J. & Strimmer K. 2004. APE: analyses of phylogenetics and evolution in R

language. Bioinformatics 20: 289-290.

Rambaut, A. and Grassly, N. C. 1997. Seq-Gen: An application for the Monte Carlo

simulation of DNA sequence evolution along phylogenetic trees. Comput. Appl. Biosci.

13: 235-238.

Rambaut, A. 2009. Tree Figure Drawing Tool. Versión 1.2.3. Institute of Evolutionary

Biology, University of Edinburgh.

Venables W. N., Smith D. M. 2008. R: A Programming Environment for Data Analysis and

Graphics Version 2.8.0.

Wiens, J. J. 2005. Can Incomplete Taxa Rescue Phylogenetic Analyses from Long-Branch

Attraction? Syst. Biol. 54(5):731-742.

Figuras y Tablas

Figura 1. Arboles base. Longitud de ramas cortas es igual 0.0036, longitud de ramas largas es 0.36.

Longitud de ramas internas 0.36 (a). Longitud de ramas interna 0.0036 (b). Longitud de rama

internas 0.18 (c).

Figura 2. Modelo evolutivo JC69. Árbol base1 (a). Árbol base 2 (b). Árbol 3 (c).

Figura 3. Modelo evolutivo GTR. Árbol base1 (a). Árbol base 2 (b). Árbol 3 (c).

Figura 4. Árbol base 1 bajo el modelo JC69. Simulación 1 (a). Simulación 2 (b) Simulación 3 (c).

Figura 5. Árbol base 1 bajo el modelo GTR. Simulación 1 (a). Simulación 2 (b) Simulación 3 (c).

Figura 6. Árbol base 2 bajo el modelo JC69. Simulación 1 (a). Simulación 2 (b) Simulación 3 (c).

Figura 7. Árbol base 2 bajo el modelo GTR. Simulación 1 (a). Simulación 2 (b) Simulación 3 (c).

Figura 8. Árbol base 3 bajo el modelo JC69. Simulación 1 (a). Simulación 2 (b) Simulación 3 (c).

Figura 9. Árbol base 3 bajo el modelo GTR. Simulación 1 (a). Simulación 2 (b) Simulación 3 (c).