Download Efecto del ajuste de las frecuencias nucleotídicas sobre la
Document related concepts
no text concepts found
Transcript
Efecto del ajuste de las frecuencias nucleotídicas sobre la probabilidad a posteriori en análisis bayesiano para tres set de datos moleculares de la tribu Lepiotaeae Orlando Fuentes, Sistemática, Escuela de Biología, Universidad Industrial de Santander, 2010 Introducción El Teorema de Bayes asigna probabilidades posteriores a determinadas soluciones de los datos partiendo de probabilidades asignadas a priori en conjunto con la verosimilitud de la evidencia dada esos datos. La mayoría de estudios filogenéticos que utilizan el análisis Bayesiano asumen este conocimiento a priori como simple, p. ej. dar a todos los árboles iguales probabilidades (“flat prior”) ya que implementar conocimiento a priori real no es posible aún (Archibald et al., 2003). Esta misma asunción se hace para las frecuencias nucleotídicas; aunque irónicamente es la habilidad de incorporar información a priori lo que hace esta aproximación verdaderamente bayesiana. El uso o no de conocimiento a priori en el análisis de inferencia bayesiana es un tema bastante discutido ya que resulta un poco subjetivo y restrictivo, pues al añadir conocimiento a priori válido puede ayudar a obtener la verdadera filogenia, mientras que si asocia con parámetros inválidos podría conducir a una estimación inexacta de la filogenia (Archibald et al., 2003). Es por ello que el propósito de este trabajo es el de observar el efecto del ajuste de las frecuencias nucleotídicas sobre la probabilidad a posteriori en análisis bayesiano para tres set de datos moleculares de cuatro taxa de la tribu Lepiotaeae. Metodología Para el análisis se evaluaron tres set de datos moleculares para cuatro organismos de la tribu Lepiotaeae (L. cristata, L. clyopeolaria, L. felina y L. subincarnata) según Johnson (1999). Los números de acceso para los genes utilizados (mtSSU, n5.8s y n25s) se encuentran en la Tabla 1. Las secuencias fueron alineadas mediante el programa Muscle 3.6 (Robert, 2004). El modelo evolutivo que mejor se ajustó a los datos se halló con jModelTest (Posada, 2008). A continuación se realizó un análisis de Inferencia Bayesiana utilizando las frecuencias nucleotídicas por defecto [statefreqpr=dirichlet(1.0,1.0,1.0,1.0)] para cada gen y los genes en conjunto. Así mismo, se ajustaron los parámetros statefreqpr=dirichlet(10.0,10.0,10.0,10.0)y statefreqpr=dirichlet(100.0,100.0,100.0,100.0) con el fin de hacer más énfasis en las frecuencias nucleotídicas iguales para cada gen y los genes en conjunto. Posteriormente se ajustó la distribución según el número de observaciones de cada nucleótido para cada gen y los genes en conjunto. Las diferentes variables consideradas se observan en la Tabla 2. Estos datos se analizaron en el programa MrBayes v3.1.2 (Huelsenbeck & Ronquist, 2001), con ngen=1000000 printfreq=1000 y samplefreq=100. Resultados y discusión El modelo evolutivo hallado para los genes mtSSU y n5.8s fue GTR+Γ, mientras que para el gen n25s fue GTR+I+ Γ. En general, se puede rescatar que para los datos moleculares n25s y los genes en conjunto se obtuvo el mismo cladograma consenso (Tablas 5 y 6), al igual que el obtenido con las relaciones analizadas para el gen mtSSU en las combinaciones T1 y T2 pero que difiere de la politomía encontrada en las combinaciones T3 y T4 (Tabla 3). Los cladogramas resultado de las conjunciones en el gen n5.8s se presentaron singulares a las demás (Tabla 4). Al observar las probabilidades posteriores para el gen mtSSU se puede subrayar la interacción T1 (mtSSU*distribución 1.0, por defecto) que mostró el valor más alto de probabilidad posterior así como el mejor valor de Likelihood (Tabla 3). Para el caso de las interacciones realizadas al gen n5.8s se destaca la integración de variables T8 (n5.8s*distribución Obs) que mostró el valor más alto de probabilidad posterior aunque el valor óptimo de Likelihood se presentó en la combinación T6 (n5.8s*distribución 10.0) (Tabla 4). Para todas las interacciones estudiadas al gen n25s se obtuvo el máximo valor de probabilidad a posteriori y en el caso del mejor valor de Likelihood se obtuvo en las interacciones T9 y T10 (Tabla 5). Al analizar los datos de los genes en conjunto se halló valores altos de probabilidad pero donde se destaca la interacción T16 (mtSSU+n5.8s+n25s*distribución Obs) si bien el valor de Likelihood óptimo estuvo en el combinado T14 (mtSSU+n5.8s+n25s*distribución 10.0). Para la mayoría de los resultados obtenidos se halló que concuerda con lo propuesto por Huelsenbeck y col. en el 2002 cuando afirmó que en un análisis Bayesiano típico los resultados tienden a ser insensibles a los priores. Aunque esto difiere de lo encontrado por Rannala & Yang en el 2005 cuando demostraron que las probabilidades posteriores son sensibles a la especificación de priores para el caso de la longitud interna de las ramas. Conclusión Los resultados derivados de este trabajo no muestran un efecto de la variación de frecuencias nucleotídicas sobre las probabilidades posteriores, lo cual puede haber estar relacionado con lo afirmado por Pickett (2005) cuando asevera que la estimación de las probabilidades a priori es difícil cuando se conoce poco sobre la filogenia de un grupo, por lo cual se recomienda aumentar el set de datos aunque esto implique contradecir a Huelsenbeck y col. (2002) cuando señala que el efecto de los parámetros a priori en la probabilidad posterior disminuye al aumentar el set de datos. Referencias Archibald, J.K., Mort, M.E. & Crawford, D.J. 2003. Bayesian inference of phylogeny: a non-technical primer. Taxon 52: 187-191. Huelsenbeck, J. P. & Ronquist, F. 2001. MRBAYES: Bayesian inference of phylogeny, Bioinformatics 17:754-755. Huelsenbeck, J.P., Larget, B., Miller, R.E. & Ronquist, F. 2002. Potential Applications and Pitfalls of Bayesian Inference of Phylogeny. Syst. Biol. 51(5): 673-688. Huelsenbeck, J.P., Ronquist, F., Mark, P. 2005. Mr bayes 3.1 manual. School of Computational Science and Division of Biological Sciences. Johnson J. 1999.Phylogenetic relationships within Lepiota sensu lato based on morphological and molecular data. Mycologia 91(3): 443-458. Pickett, K.M. & Randle, C.P. 2005. Strange bayes indeed: uniform topological priors imply nonuniform clade priors. Molecular Phylogenetics and Evolution 34: 203-211. Posada D. In press. 2008. jModelTest: Phylogenetic Model Averaging. Molecular Biology and Evolution. Robert C, E. 2004. MUSCLE: multiple sequence aligment with high accuracy and high throughput, Nucleic Acids Research 32(5): 1792-97. Yang, Z. & Rannala, B. 2005. Branch-Length Prior Influences Bayesian Posterior Probability of Phylogeny. Syst. Biol. 54(3): 455-470. Anexos mtSSU n5.8s n25s L. cristata U85359 U85327 U85292 L. clyopeolaria U85358 U85326 U85291 L. felina U85362 U85330 U85295 L. subincarnata U85361 U85329 U85294 Tabla 1. Números de acceso al GenBank para los taxa utilizados. Distribución 1.0 10.0 100.0 Obs mtSSU T1 T2 T3 T4 n5.8s T5 T6 T7 T8 n25s T9 T10 T11 T12 mtSSU+n5.8s+n25s T13 T14 T15 T16 Tabla 2. Interacción de variables analizadas. Árbol consenso p(posteriori) Likelihood pi(A) pi(C) pi(G) pi(T) T1 (1,3,(2,4)) 0.506 -953.20 0.363 0.139 0.207 0.289 T2 (1,3,(2,4)) 0.501 -953.22 0.355 0.146 0.210 0.286 T3 (1,2,3,4) 0.483 -956.64 0.314 0.187 0.225 0.271 T4 (1,2,3,4) 0.454 -970.42 0.268 0.232 0.242 0.256 Tabla 3. Resultados para gen mtSSU. 1: L. cristata 2: L. subincarnata 3: L. clyopeolaria 4: L. felina Árbol consenso p(posteriori) Likelihood pi(A) pi(C) pi(G) pi(T) T5 (1,2,(3,4)) 0.654 -1966.33 0.236 0.226 0.224 0.312 T6 (1,2,(3,4)) 0.653 -1966.27 0.237 0.227 0.225 0.309 T7 (1,2,(3,4)) 0.656 -1966.48 0.240 0.232 0.232 0.293 T8 (1,2,(3,4)) 0.660 -1969.31 0.246 0.243 0.243 0.266 Tabla 4. Resultados para gen n5.8s. 1: L. cristata 2: L. subincarnata 3: L. clyopeolaria 4: L. felina Árbol consenso p(posteriori) Likelihood pi(A) pi(C) pi(G) pi(T) T9 (1,3,(2,4)) 1.0 -1595.05 0.267 0.201 0.295 0.235 T10 (1,3,(2,4)) 1.0 -1595.05 0.266 0.202 0.294 0.235 T11 (1,3,(2,4)) 1.0 -1595.42 0.262 0.215 0.282 0.239 T12 (1,3,(2,4)) 1.0 -1599.84 0.253 0.240 0.259 0.247 Tabla 5. Resultados para gen n25s. 1: L. cristata 2: L. subincarnata 3: L. clyopeolaria 4: L. felina Árbol consenso p(posteriori) Likelihood pi(A) pi(C) pi(G) pi(T) T13 (1,3,(2,4)) 0.997 -4665.16 0.275 0.197 0.252 0.273 T14 (1,3,(2,4)) 0.997 -4665.10 0.275 0.198 0.252 0.273 T15 (1,3,(2,4)) 0.997 -4665.25 0.272 0.204 0.252 0.270 T16 (1,3,(2,4)) 0.998 -4674.91 0.255 0.239 0.250 0.255 Tabla 6. Resultados para los genes en conjunto. 1: L. cristata 2: L. subincarnata 3: L. clyopeolaria 4: L. felina