Download Efecto del ajuste de las frecuencias nucleotídicas sobre la

Document related concepts
no text concepts found
Transcript
Efecto del ajuste de las frecuencias nucleotídicas sobre la probabilidad a posteriori en
análisis bayesiano para tres set de datos moleculares de la tribu Lepiotaeae
Orlando Fuentes, Sistemática, Escuela de Biología, Universidad Industrial de Santander, 2010
Introducción
El Teorema de Bayes asigna probabilidades posteriores a determinadas soluciones de los datos
partiendo de probabilidades asignadas a priori en conjunto con la verosimilitud de la evidencia
dada esos datos. La mayoría de estudios filogenéticos que utilizan el análisis Bayesiano asumen
este conocimiento a priori como simple, p. ej. dar a todos los árboles iguales probabilidades (“flat
prior”) ya que implementar conocimiento a priori real no es posible aún (Archibald et al., 2003). Esta
misma asunción se hace para las frecuencias nucleotídicas; aunque irónicamente es la habilidad
de incorporar información a priori lo que hace esta aproximación verdaderamente bayesiana. El
uso o no de conocimiento a priori en el análisis de inferencia bayesiana es un tema bastante
discutido ya que resulta un poco subjetivo y restrictivo, pues al añadir conocimiento a priori válido
puede ayudar a obtener la verdadera filogenia, mientras que si asocia con parámetros inválidos
podría conducir a una estimación inexacta de la filogenia (Archibald et al., 2003). Es por ello que el
propósito de este trabajo es el de observar el efecto del ajuste de las frecuencias nucleotídicas
sobre la probabilidad a posteriori en análisis bayesiano para tres set de datos moleculares de
cuatro taxa de la tribu Lepiotaeae.
Metodología
Para el análisis se evaluaron tres set de datos moleculares para cuatro organismos de la tribu
Lepiotaeae (L. cristata, L. clyopeolaria, L. felina y L. subincarnata) según Johnson (1999). Los
números de acceso para los genes utilizados (mtSSU, n5.8s y n25s) se encuentran en la Tabla 1.
Las secuencias fueron alineadas mediante el programa Muscle 3.6 (Robert, 2004). El modelo
evolutivo que mejor se ajustó a los datos se halló con jModelTest (Posada, 2008). A continuación
se realizó un análisis de Inferencia Bayesiana utilizando las frecuencias nucleotídicas por defecto
[statefreqpr=dirichlet(1.0,1.0,1.0,1.0)] para cada gen y los genes en conjunto. Así
mismo, se ajustaron los parámetros statefreqpr=dirichlet(10.0,10.0,10.0,10.0)y
statefreqpr=dirichlet(100.0,100.0,100.0,100.0) con el fin de hacer más énfasis en
las frecuencias nucleotídicas iguales para cada gen y los genes en conjunto. Posteriormente se
ajustó la distribución según el número de observaciones de cada nucleótido para cada gen y los
genes en conjunto. Las diferentes variables consideradas se observan en la Tabla 2. Estos datos
se analizaron en el programa MrBayes v3.1.2 (Huelsenbeck & Ronquist, 2001), con
ngen=1000000 printfreq=1000 y samplefreq=100.
Resultados y discusión
El modelo evolutivo hallado para los genes mtSSU y n5.8s fue GTR+Γ, mientras que para el gen
n25s fue GTR+I+ Γ.
En general, se puede rescatar que para los datos moleculares n25s y los genes en conjunto se
obtuvo el mismo cladograma consenso (Tablas 5 y 6), al igual que el obtenido con las relaciones
analizadas para el gen mtSSU en las combinaciones T1 y T2 pero que difiere de la politomía
encontrada en las combinaciones T3 y T4 (Tabla 3). Los cladogramas resultado de las
conjunciones en el gen n5.8s se presentaron singulares a las demás (Tabla 4).
Al observar las probabilidades posteriores para el gen mtSSU se puede subrayar la interacción T1
(mtSSU*distribución 1.0, por defecto) que mostró el valor más alto de probabilidad posterior así
como el mejor valor de Likelihood (Tabla 3). Para el caso de las interacciones realizadas al gen
n5.8s se destaca la integración de variables T8 (n5.8s*distribución Obs) que mostró el valor más
alto de probabilidad posterior aunque el valor óptimo de Likelihood se presentó en la combinación
T6 (n5.8s*distribución 10.0) (Tabla 4). Para todas las interacciones estudiadas al gen n25s se
obtuvo el máximo valor de probabilidad a posteriori y en el caso del mejor valor de Likelihood se
obtuvo en las interacciones T9 y T10 (Tabla 5). Al analizar los datos de los genes en conjunto se
halló
valores
altos
de
probabilidad
pero
donde
se
destaca
la
interacción
T16
(mtSSU+n5.8s+n25s*distribución Obs) si bien el valor de Likelihood óptimo estuvo en el combinado
T14 (mtSSU+n5.8s+n25s*distribución 10.0).
Para la mayoría de los resultados obtenidos se halló que concuerda con lo propuesto por
Huelsenbeck y col. en el 2002 cuando afirmó que en un análisis Bayesiano típico los resultados
tienden a ser insensibles a los priores. Aunque esto difiere de lo encontrado por Rannala & Yang
en el 2005 cuando demostraron que las probabilidades posteriores son sensibles a la
especificación de priores para el caso de la longitud interna de las ramas.
Conclusión
Los resultados derivados de este trabajo no muestran un efecto de la variación de frecuencias
nucleotídicas sobre las probabilidades posteriores, lo cual puede haber estar relacionado con lo
afirmado por Pickett (2005) cuando asevera que la estimación de las probabilidades a priori es
difícil cuando se conoce poco sobre la filogenia de un grupo, por lo cual se recomienda aumentar el
set de datos aunque esto implique contradecir a Huelsenbeck y col. (2002) cuando señala que el
efecto de los parámetros a priori en la probabilidad posterior disminuye al aumentar el set de
datos.
Referencias
Archibald, J.K., Mort, M.E. & Crawford, D.J. 2003. Bayesian inference of phylogeny: a non-technical
primer. Taxon 52: 187-191.
Huelsenbeck, J. P. & Ronquist, F. 2001. MRBAYES: Bayesian inference of phylogeny,
Bioinformatics 17:754-755.
Huelsenbeck, J.P., Larget, B., Miller, R.E. & Ronquist, F. 2002. Potential Applications and Pitfalls of
Bayesian Inference of Phylogeny. Syst. Biol. 51(5): 673-688.
Huelsenbeck, J.P., Ronquist, F., Mark, P. 2005. Mr bayes 3.1 manual. School of Computational
Science and Division of Biological Sciences.
Johnson J. 1999.Phylogenetic relationships within Lepiota sensu lato based on morphological and
molecular data. Mycologia 91(3): 443-458.
Pickett, K.M. & Randle, C.P. 2005. Strange bayes indeed: uniform topological priors imply nonuniform clade priors. Molecular Phylogenetics and Evolution 34: 203-211.
Posada D. In press. 2008. jModelTest: Phylogenetic Model Averaging. Molecular Biology and
Evolution.
Robert C, E. 2004. MUSCLE: multiple sequence aligment with high accuracy and high throughput,
Nucleic Acids Research 32(5): 1792-97.
Yang, Z. & Rannala, B. 2005. Branch-Length Prior Influences Bayesian Posterior Probability of
Phylogeny. Syst. Biol. 54(3): 455-470.
Anexos
mtSSU
n5.8s
n25s
L. cristata
U85359
U85327
U85292
L. clyopeolaria
U85358
U85326
U85291
L. felina
U85362
U85330
U85295
L. subincarnata
U85361
U85329
U85294
Tabla 1. Números de acceso al GenBank para los taxa utilizados.
Distribución
1.0
10.0
100.0
Obs
mtSSU
T1
T2
T3
T4
n5.8s
T5
T6
T7
T8
n25s
T9
T10
T11
T12
mtSSU+n5.8s+n25s
T13
T14
T15
T16
Tabla 2. Interacción de variables analizadas.
Árbol consenso
p(posteriori)
Likelihood
pi(A)
pi(C)
pi(G)
pi(T)
T1
(1,3,(2,4))
0.506
-953.20
0.363
0.139
0.207
0.289
T2
(1,3,(2,4))
0.501
-953.22
0.355
0.146
0.210
0.286
T3
(1,2,3,4)
0.483
-956.64
0.314
0.187
0.225
0.271
T4
(1,2,3,4)
0.454
-970.42
0.268
0.232
0.242
0.256
Tabla 3. Resultados para gen mtSSU. 1: L. cristata 2: L. subincarnata 3: L. clyopeolaria 4: L. felina
Árbol consenso
p(posteriori)
Likelihood
pi(A)
pi(C)
pi(G)
pi(T)
T5
(1,2,(3,4))
0.654
-1966.33
0.236
0.226
0.224
0.312
T6
(1,2,(3,4))
0.653
-1966.27
0.237
0.227
0.225
0.309
T7
(1,2,(3,4))
0.656
-1966.48
0.240
0.232
0.232
0.293
T8
(1,2,(3,4))
0.660
-1969.31
0.246
0.243
0.243
0.266
Tabla 4. Resultados para gen n5.8s. 1: L. cristata 2: L. subincarnata 3: L. clyopeolaria 4: L. felina
Árbol consenso
p(posteriori)
Likelihood
pi(A)
pi(C)
pi(G)
pi(T)
T9
(1,3,(2,4))
1.0
-1595.05
0.267
0.201
0.295
0.235
T10
(1,3,(2,4))
1.0
-1595.05
0.266
0.202
0.294
0.235
T11
(1,3,(2,4))
1.0
-1595.42
0.262
0.215
0.282
0.239
T12
(1,3,(2,4))
1.0
-1599.84
0.253
0.240
0.259
0.247
Tabla 5. Resultados para gen n25s. 1: L. cristata 2: L. subincarnata 3: L. clyopeolaria 4: L. felina
Árbol consenso
p(posteriori)
Likelihood
pi(A)
pi(C)
pi(G)
pi(T)
T13
(1,3,(2,4))
0.997
-4665.16
0.275
0.197
0.252
0.273
T14
(1,3,(2,4))
0.997
-4665.10
0.275
0.198
0.252
0.273
T15
(1,3,(2,4))
0.997
-4665.25
0.272
0.204
0.252
0.270
T16
(1,3,(2,4))
0.998
-4674.91
0.255
0.239
0.250
0.255
Tabla 6. Resultados para los genes en conjunto. 1: L. cristata 2: L. subincarnata 3: L. clyopeolaria
4: L. felina