Download materiales y metodos - Facultad de Ciencias

Document related concepts

Filogenética computacional wikipedia , lookup

Transcript
EFECTOS DE LOS GAP EN ANÁLISIS FILOGENÉTICOS DE SECUENCIAS GENICAS
Héctor Mauricio Casanova Navarro, Facultad de Ciencias, Escuela de Biología, UIS, 2009
Introducción
El auge en las últimas décadas en la investigación sobre material genético (ADN-ARN-PROTEINAS) ha
revolucionado la manera de realizar análisis filogenéticos (Carroll. et al., 1999). Partiendo de la idea
que los análisis de secuencias tienen su origen en el alineamiento múltiple, cuyo objetivo es comparar
las posibles regiones de correspondencia base a base, aminoácidos o entre proteínas estableciendo
de esta forma la hipótesis de homología taxica o transformacional a nivel de cada nucleótido
(Gonzáles, 1996); el resultado de un análisis filogenético basado en este tipo de datos es altamente
dependiente de la homología entre las secuencias; al igual que cualquier otro cambio en las
secuencias de nucleótidos o de proteínas, los gap o indels (inserciones-deleciones), son el resultado
de mutaciones y por tanto pueden llegar a contener información importante sobre la evolución,
estructura y función de las secuencias (Giribet & Wheeler. 1999).
En la mayoría de los análisis las indels se consideran simplemente como marcadores de posición,
como regiones poco informativa (ambiguas) o excluidos del análisis, sin embargo en otros tantos
estudios los indels son codificados como informativos (gap) (Gonzáles, 1996) , se usa la “codificación
de gap” ya que este término se aplica a la codificación cuantitativa de caracteres , mientras que la
codificación de indels se refire a los procesos que no se observan (inserciones-deleciones) (Simmons &
Ochoterena. 2000). En la sistemática molecular esto suele evaluarse en términos de transición,
transverción e Indel, los resultados filogenéticos pueden estar más relacionados con estos costos
que con el método de análisis. Wheeler (1995) propuso un método de análisis de sensibilidad para
explorar el efecto de la variación de estos y otros parámetros, como la apertura y extensión del gap
(aunque Wheeler sólo examinó la transición, transversión, y los costos del indel). En el presente
trabajo se pretende evaluar el efecto de los gap en los análisis filogenéticos de secuencias génicas
mediante la implementación del modelo de la apertura y extensión del gap (Wheeler. et al., 2006).
Mientras la apertura y penalización de la extensión del gap se conocen bien conceptualmente, sus
efectos sobre la alineación de secuencias múltiples, y en consecuencia en los resultados de la filogenia
no son tan bien entendidas.
Materiales y Métodos
Se analizaron dos conjuntos de datos, entre los que se encuentran, 20 taxa pertenecientes al filo
Mollusca, 18 taxa (ingroup) distribuidos en los ordenes Nautilida, Octopoda, Cirroctopoda,
Vampyromorpha, Sepioida y Teuthida y 2 taxa (outgroup), petenecientes a las clases Polyplacophora y
Bivalvia (Lindgren et al. 2004) y un segundo set de datos incluyendo 20 taxa pertenecientes al filo
Rotifera, 18 taxa (ingroup) de las clases Seisonidea, Bdelloidea, Monogononta y Acanthocephala y 2
taxa (outgroup), pertenecientes al filo Platelminthes (Sorensen & Giribet, 2006), teniendo para todos,
datos moleculares correspondientes a los genes 18S (nuclear) y gen COI (mitocondrial), (Tablas 1 y 2
respectivamente).
Para la evaluación del efecto de los gap en los análisis filogenéticos de secuencias génicas, se
implementaron distintos enfoques, bajo el primer enfoque se considera implícitamente los gap como
hipótesis de homologia primaria, (quinto estado de carácter) dando pesos diferenciales a la apertura
y extensión del gap. Bajo el segundo enfoque eliminándolos, dado que se consideran sin ningún valor
filogenético; para este análisis se implemento el programa POY 4.O BETA (Varón et al. 2007). La
búsqueda de árboles parsimoniosos se realizo con el programa TNT 1.1 (Goloboff et al., 2007)
mediante bootstrap con 1000 replicas. Un segundo análisis bajo hipótesis de homologia primaria se
realizo mediante WINCLADA ver 1.00.08 (Nixon, 1999) previo alineamiento de las secuencias en
MUSCLE3.6 (Robert, 2004); codificando a los gaps de los genes COI de los dos set de datos como
carácter adicional. Donde por cada columna que presenta un gap, se agrego una nueva columna en la
cual se registro la presencia o ausencia de los mismos, denominado “codificación simple de indel”
(Simmons & Ochotorena. 2000). Para la evaluación de cada enfoque se analizaron las reconstrucciones
de hipótesis filogenéticas mediante resoluciones topológicas.
Resultados y Discusión
La codificación de los gap como 5th carácter elimina la posibilidad de que el gap sea un artificio del
alineamiento (Simmons. et al., 2007)mediante la utilización de costos diferenciales de apertura y
extensión del gap (tabla 3) para la realización de un análisis implementando alineamiento implícito,
empleando el comando gap opening (Varón. et al., 2007) para todos los caracteres utilizados, con las
matrices obtenidas como resultado del análisis en POY, se evalúa parsimonia mediante Boostrap no
parametrico. Para el primer conjunto de datos las topologías obtenidas para el gen 18S con el costo 1
muestra poca resolución evidenciándo parafilia; para los costos 2 y 3 las relaciones monofileticas
aparecen para algunos de los ordenes (Sepiolida, Cirroctópoda y Octópoda), sin embargo la resolución
dentro de los ordenes entre los taxones no es muy clara; para el caso del 4 costo encontramos un
clado resuelto donde se observa la monofilia de Decabrachia y Octobrachia, además las relaciones
entre los diferentes ordenes son evidentes incluyendo las relaciones entre la mayoría de sus
terminales, es claro que para el conjunto de datos la codificación como 5th carácter teniendo en
cuenta los costos usados de apertura y extensión del gap son aplicables a caracteres informativos
filogenéticamente. En contraste para el gen COI las relaciones obtenidas para el primer costo muestra
una mayor resolución que la mostrada en el análisis con el segundo costo, evidenciando en esta una
politomia, los valores de limite de confianza de los nodos fueron los más bajos de todo el análisis los
cuales no tan solo se presentaron en este set sino se hizo generalizado para el conjunto de datos del
gen COI del filo Mollusca, a pesar de esto el uso del los costos 3 y 4 arroja topologías mas resueltas en
las cuales resalta con mayor resolución la del costo 4, donde se rescata la monofilia de Sepiolida. La
baja resolución obtenida en este análisis puede estar relacionada con la variabilidad que presenta la
secuencia, teniendo en cuenta además el reducido número de indels con los que cuenta el gen.
Para el segundo conjunto de datos la aplicación de la codificación al gap como 5th carácter en el gen
18S del filo Rotífera en el primer costo, evidencio que las relaciones entre los diferentes grupos no se
mantienen; las relaciones entre terminales fue poco clara lo cual es semejante a lo ocurrido con el gen
18S, sin embargo los dos grandes grupos Hemirotifera y Monogononta manifiestan las diferencia en
las secuencias de estos dos genes entre análisis y la mayor tasa de gap presentes en la secuencia del
gen de Mollusca, la cual está influenciada por los valores que tendrían de aperturas y de extensión de
los gap lo que podría ser evidencia para la resolución de la monofilia del filo Rotífera y sus ordenes,
aunque las relaciones entre taxones no es muy evidente. Para las topologías generadas a partir de los
costos 2 y 3, las relaciones entre grupos se mantienen y se resuelven la mayoría de conflictos entre
ramas de cada orden manteniendo la linealidad con respecto a la aplicación de los costos y la
resolución de las topologías como las más parsimoniosas. La aplicación del último costo deja de
manifiesto la importancia de la codificación de los gap como 5th carácter ya que al no considerarlo
como tal el análisis es menos explicativo ya que se puede perder información histórica. (Giribet &
Wheeler. 1999).
Para el gen COI de Rotífero las relaciones son más resueltas, que lo observado en gen COI de Mollusca
ya que aunque COI de Rotífera es una región variable aun así se presentan más homología entre sus
taxones. Sin embargo para el gen COI de Rotífera con los costos 1,2, no son muy claras las relaciones
entre sus taxones, mientras que para los costo 3 y 4 la monofilia de las clases y sus grupos internos
son bastante esclarecidas afirmando una vez más la importancia de la codificación de los gap como
5th carácter y la asignación de costos diferenciales que contribuyan al esclarecimiento de las
topologías apoyando la hipótesis de homología de las mismas teniendo en cuenta que de otro modo
las secuencias de diferentes longitudes podrían no ser adecuadas para el análisis.
Es evidente que el uso de costos diferenciales en la apertura y extensión del gap contribuye a la
resolución de las topologías así como la codificación de este como un carácter y no como una
ambigüedad o ausencia ya que de no incluirse en el análisis de parsimonia no se evaluaría la
congruencia que pueda tener con otros caracteres (Gonzáles. 1996).
El análisis con prealineamiento usado en POY no asume los gap, para los genes 18S de Mollusca y
Rotífera se observan variaciones considerables en las relaciones, lo cual soporta el argumentó
expuesto en cuanto a la importancia de la codificación y asignación de costos a los gaps,
contribuyendo a la idea de que los indels también representan una hipótesis de homología potencial.
Simmons & Ochotorena (2000) propusieron el método (SIC) de sus siglas en ingles “simple indel
coding” en el cual se hace la codificación de los gap teniendo en cuenta su origen y finalización de la
secuencias, además los gap deben ser más de uno, continuos y presentarse en dos o más taxones para
que sea informativo (Simmons & Ochotorena 2000). Se evaluaron los genes COI de Rotífera y Mollusca
implementando Winclada, en la topología obtenida se evaluo el mapeo de caracteres 661 y 662
demostrándose que son informativo (fig. 25-26) para los taxones pomp- echy-main-momo y pompechy respectivamente (ver codificación de taxones Tablas .4-5). Dejando de manifiesto la importancia
de la codificación de los gap como caracteres informativos permitiendo de esta manera evaluar
hipótesis de homología de una forma sustancial, teniendo en cuenta que los gap son cruciales en la
evaluación de hipótesis desde el punto de vista teórico (Giribet & Wheeler. 1999).
En contraste con muchos de los estudio filogenéticos que no asumen a los gap como informativos se
da en este trabajo un aporte más para que esta idea sea rebatida y entienda como la necesidad de
codificar los gap como informativos, atendiendo sin duda que los costos asignados a los gap deben
ser los mismos tanto para el alineamiento como para los análisis de inferencias filogenéticos. Se
sugiere se empleen otros costos diferenciales para estudios posteriores y postulación de mecanismos
que contribuyan con resolución de los diferentes enfoques sobre la forma de asumir los indel en los
análisis filogenéticos.
BIBLIOGRAFIA
Carroll, H. Ridge, P. Clement, M. & Snell,Q. 2006. Effects of Gap Open and Gap Extension. Computer
Science Department, Brigham Young University Provo.
GIRIBET, G., AND W. C. WHEELER. 1999. On gaps. Mol. Phylogenet. Evol. 13:132–143.
Goloboff, P.A., Farris, J.S., Nixon, K.C. 2007. T.N.T. Tree analysis using new technology. Programa y
documentación disponible en: http://www.zmuc.dk/public/phylogeny/TNT/.
GONZÁLEZ, D. 1996. Codificación de las insercionesdeleciones en el análisis filogenético de secuencias
génicas. Bol. Soc. Bot. Mex. 59:115–129.
Lindgren, A.R., Giribet, G., Nishiguchi, M.K. (2004) A combined approach to the phylogeny of
Cephalopoda (Mollusca). Cladistics 20, 454–486.
Nixon,1 K.C. (1999) WINCLADA (BETA), Version 0.9.9. Published by the author, Cornell University, Ithaca,
New York. Nixon, K.C. & Carpenter, J.M. (1993) On Outgroups. Cladistics, 9, 413–426.
Robert C, E. (2004) MUSCLE: multiple sequence aligment with high accuracy and high
throughput, Nucleic Acids Research 32(5). 1792-97
Simmons, M. & Ochoterena, H. 2000. Gaps as Characters in Sequence-Based Phylogenetic Analyses.
Syst. Biol. 49(2):369–381. New York , USA
Simmons, M. Muller, K. & Norton, A. 2007. The relative performance of indel-coding methods in
simulations. Molecular Phylogenetics and Evolution 44 724-740.
Sorensen, M.V., Giribet, G., 2006. A modern approach to rotiferan phylogeny: Combining
morphological and molecular data. Molecular Phylogenetics and Evolution 40:585–608.
Varón, A., L. S. Vinh, I. Bomash, W. C.Wheeler. (2007) POY 4.0 Beta 2398. American Museum of Natural
History.
Wheeler, W. C. (1995). Sequence alignment, parameter sensitivity, and the phylogenetic analysis of
molecular data. Syst. Biol. 44: 321–331.
Wheeler, W., Giribet, G., Aagesen, L., Arango, C., Faivovich, J., Grant, T., D’Haese, C., Janies, D., Smith,
W.L., Varon, A., in press. 2006. Dynamic homology and phylogenetic systematics: a uniWed approach
using POY. American Museum of Natural History series.
Anexos
TAXON
Chiton olivaceus
Yoldia limatula
Nautilus pompilius
Haliphron atlanticus
Argonauta nodosa
Japetella diaphana
Ocythoe tuberculata
Bathypolypus arcticus
Eledone cirrosa
Grandeledone verrucosa
Thaumeledone guntheri
Cirrothauma murrayi
Stauroteuthis syrtensis
Vampyroteuthis infernalis
Heteroteuthis hawaiiensis
Sepiola affinis
Sepia officinalis
Loligo formosana
Gonatus antarcticus
Gonatus fabricii
GEN 18S
AY377651
AF120528
AY557452
AY557460
AY557462
AY557463
AY557464
AY557465
AY557467
AY557468
AY557469
AY557456
AY557457
AY557459
AY557472
AY557474
AY557471
AY557478
AY557497
AY557498
GEN COI
AY377716
AF120642
AY557514
AY557516
AY557517
AY557518
AY557519
AF000029
AY557520
AF000042
AY557521
AF000034
AF000067
AF000071
AF000044
AY557523
AF000062
AY557524
AY557536
AY557537
TABLA 1. Números de acceso al genbank de los genes nuclear (18S) y el gen mitocondrial (COI) de cada una de las especies
incluidas en el análisis del filo Mollusca.
TAXON
Microstomum lineare
Haplopharynx rostratus
Seison nebaliae
Adineta vaga
Rotaria neptunia
Rotaria rotatoria
Collotheca campanulata
Conochilus hippocrepis
Ptygura libera
Brachionus calyciXorus
Lecane bulla
Lecane leontina
Macrochaetus collinsi
Notommata alantois
Notommata cordonella
Proales doliaris
Echinorhynchus gadi
Macracanthorhynchus ingens
Moniliformis monoliformis
Pomphorhynchus laevis
GEN 18S
D85092
AJ012511
DQ297761
DQ079913
AY218122
AY218121
DQ297686
DQ297687
DQ297689
DQ297692
DQ297698
DQ297700
DQ297705
DQ297710
DQ297711
DQ297717
AY218123
AF001844
Z19562
AY218124
GEN COI
AJ405979
AJ405977
DQ297765
DQ079961
AY218094
AY218093
DQ297766
DQ297767
DQ297768
DQ297770
DQ297775
DQ297777
DQ297780
DQ297784
DQ297785
DQ297790
AY218095
AF416997
AF416998
AY218096
TABLA 2. Números de acceso al genbank de los genes nuclear (18S) y el gen mitocondrial (COI) de cada una de las especies
incluidas en el análisis del filo Rotifera.
costo
Ts - Tv
Extensión del gap
Apertura del gap
1
1
1
1
2
1
1
2
3
1
1
4
4
1
1
8
5
1
4
8
TABLA 3. Costos empleados para el análisis en POY.
Taxón
Chiton olivaceus
Yoldia limatula
Nautilus pompilius
Haliphron atlanticus
Argonauta nodosa
Japetella diaphana
Ocythoe tuberculata
Bathypolypus arcticus
Eledone cirrosa
Grandeledone verrucosa
Thaumeledone guntheri
Cirrothauma murrayi
Stauroteuthis syrtensis
Vampyroteuthis infernalis
Heteroteuthis hawaiiensis
Sepiola affinis
Sepia officinalis
Loligo formosana
Gonatus antarcticus
Gonatus fabricii
TABLA 4. Abreviaturas empleadas en las topologías (Mollusca).
Abreviatura
chit
yold
naup
hali
argo
jape
ocyt
bath
elec
gran
thau
cirro
stau
vamp
hete
saff
sepi
loli
goan
gota
Taxón
Microstomum lineare
Haplopharynx rostratus
Seison nebaliae
Adineta vaga
Rotaria neptunia
Rotaria rotatoria
Collotheca campanulata
Conochilus hippocrepis
Ptygura libera
Brachionus calyciXorus
Lecane bulla
Lecane leontina
Macrochaetus collinsi
Notommata alantois
Notommata cordonella
Proales doliaris
Echinorhynchus gadi
Macracanthorhynchus ingens
Moniliformis monoliformis
Pomphorhynchus laevis
TABLA 5. Abreviaturas empleadas en las topologías (Rotifera).
Abreviatura
mili
haro
sene
adiv
rone
roro
coll
cohi
ptli
bcal
lebu
leon
maco
noal
noco
prdo
echy
main
momo
pomp
Gen 18S Mollusca
FIGURA 1. Árbol de parsimonia para el gen 18S (Mollusca) en TNT v1.1, con sus respectivos valores de bootstrap
(extensión 1 – apertura 1).
FIGURA 2. Árbol de parsimonia para el gen 18S (Mollusca) en TNT v1.1, con sus respectivos valores de bootstrap
(extensión 1 – apertura 2).
FIGURA 3. Árbol de parsimonia para el gen 18S (Mollusca) en TNT v1.1, con sus respectivos valores de bootstrap
(extensión 1 – apertura 4).
FIGURA 4. Árbol de parsimonia para el gen 18S (Mollusca) en TNT v1.1, con sus respectivos valores de bootstrap
(extensión 1 – apertura 8).
FIGURA 5. Árbol de parsimonia para el gen 18S (Mollusca) en TNT v1.1, con sus respectivos valores de bootstrap
(extensión 4 – apertura 4).
Gen COI Mollusca
FIGURA 6. Árbol de parsimonia para el gen COI (Mollusca) en TNT v1.1, con sus respectivos valores de bootstrap
(extensión 1 – apertura 1).
FIGURA 7. Árbol de parsimonia para el gen COI (Mollusca) en TNT v1.1, con sus respectivos valores de bootstrap
((extensión 1 – apertura 2).
FIGURA 8. Árbol de parsimonia para el gen COI (Mollusca) en TNT v1.1, con sus respectivos valores de bootstrap
(extensión 1 – apertura 4).
FIGURA 9. Árbol de parsimonia para el gen COI (Mollusca) en TNT v1.1, con sus respectivos valores de bootstrap
(extensión 1 – apertura 8).
FIGURA 10. Árbol de parsimonia para el gen COI (Mollusca) en TNT v1.1, con sus respectivos valores de
bootstrap (extensión 4 – apertura 4).
Gen 18S Mollusca (gaps eliminados)
FIGURA 11. Árbol de parsimonia para el gen 18S (Mollusca) en TNT v1.1, con sus respectivos valores de
bootstrap .
Gen COI Mollusca (gaps eliminados)
FIGURA 12. Árbol de parsimonia para el gen COI (Mollusca) en TNT v1.1, con sus respectivos valores de
bootstrap .
Gen 18S Rotifera
FIGURA 13. Árbol de parsimonia para el gen 18S (Rotifera) en TNT v1.1, con sus respectivos valores de bootstrap
(extensión 1 – apertura 1).
FIGURA 14. Árbol de parsimonia para el gen 18S (Rotifera) en TNT v1.1, con sus respectivos valores de bootstrap
(extensión 1 – apertura 2).
FIGURA 15. Árbol de parsimonia para el gen 18S (Rotifera) en TNT v1.1, con sus respectivos valores de bootstrap
(extensión 1 – apertura 4).
FIGURA 16. Árbol de parsimonia para el gen 18S (Rotifera) en TNT v1.1, con sus respectivos valores de bootstrap
(extensión 1 – apertura 8).
FIGURA 17. Árbol de parsimonia para el gen 18S (Rotifera) en TNT v1.1, con sus respectivos valores de bootstrap
(extensión 4 – apertura 4).
Gen COI Rotifera
FIGURA 18. Árbol de parsimonia para el gen COI (Rotifera) en TNT v1.1, con sus respectivos valores de bootstrap
(extensión 1 – apertura 1).
FIGURA 19. Árbol de parsimonia para el gen COI (Rotifera) en TNT v1.1, con sus respectivos valores de bootstrap
(extensión 1 – apertura 2).
FIGURA 20. Árbol de parsimonia para el gen COI (Rotifera) en TNT v1.1, con sus respectivos valores de bootstrap
(extensión 1 – apertura 4).
FIGURA 21. Árbol de parsimonia para el gen COI (Rotifera) en TNT v1.1, con sus respectivos valores de bootstrap
(extensión 1 – apertura 8).
FIGURA 22. Árbol de parsimonia para el gen COI (Rotifera) en TNT v1.1, con sus respectivos valores de bootstrap
(extensión 4 – apertura 4).
Gen 18S Rotifera (gaps eliminados)
FIGURA 23. Árbol de parsimonia para el gen 18S (Rotifera) en TNT v1.1, con sus respectivos valores de
bootstrap.
Gen COI Rotifera (gaps eliminados)
FIGURA 24. Árbol de parsimonia para el gen COI (Rotifera) en TNT v1.1, con sus respectivos valores de
bootstrap.
FIGURA 25. Mapeo de caracteres mediante el método “codificación simple de indel” _ COI Rotifera_carácter 661.
FIGURA 26. Mapeo de caracteres mediante el método “codificación simple de indel” _ COI Rotifera_carácter 662.