Download materiales y metodos - Facultad de Ciencias
Transcript
EFECTOS DE LOS GAP EN ANÁLISIS FILOGENÉTICOS DE SECUENCIAS GENICAS Héctor Mauricio Casanova Navarro, Facultad de Ciencias, Escuela de Biología, UIS, 2009 Introducción El auge en las últimas décadas en la investigación sobre material genético (ADN-ARN-PROTEINAS) ha revolucionado la manera de realizar análisis filogenéticos (Carroll. et al., 1999). Partiendo de la idea que los análisis de secuencias tienen su origen en el alineamiento múltiple, cuyo objetivo es comparar las posibles regiones de correspondencia base a base, aminoácidos o entre proteínas estableciendo de esta forma la hipótesis de homología taxica o transformacional a nivel de cada nucleótido (Gonzáles, 1996); el resultado de un análisis filogenético basado en este tipo de datos es altamente dependiente de la homología entre las secuencias; al igual que cualquier otro cambio en las secuencias de nucleótidos o de proteínas, los gap o indels (inserciones-deleciones), son el resultado de mutaciones y por tanto pueden llegar a contener información importante sobre la evolución, estructura y función de las secuencias (Giribet & Wheeler. 1999). En la mayoría de los análisis las indels se consideran simplemente como marcadores de posición, como regiones poco informativa (ambiguas) o excluidos del análisis, sin embargo en otros tantos estudios los indels son codificados como informativos (gap) (Gonzáles, 1996) , se usa la “codificación de gap” ya que este término se aplica a la codificación cuantitativa de caracteres , mientras que la codificación de indels se refire a los procesos que no se observan (inserciones-deleciones) (Simmons & Ochoterena. 2000). En la sistemática molecular esto suele evaluarse en términos de transición, transverción e Indel, los resultados filogenéticos pueden estar más relacionados con estos costos que con el método de análisis. Wheeler (1995) propuso un método de análisis de sensibilidad para explorar el efecto de la variación de estos y otros parámetros, como la apertura y extensión del gap (aunque Wheeler sólo examinó la transición, transversión, y los costos del indel). En el presente trabajo se pretende evaluar el efecto de los gap en los análisis filogenéticos de secuencias génicas mediante la implementación del modelo de la apertura y extensión del gap (Wheeler. et al., 2006). Mientras la apertura y penalización de la extensión del gap se conocen bien conceptualmente, sus efectos sobre la alineación de secuencias múltiples, y en consecuencia en los resultados de la filogenia no son tan bien entendidas. Materiales y Métodos Se analizaron dos conjuntos de datos, entre los que se encuentran, 20 taxa pertenecientes al filo Mollusca, 18 taxa (ingroup) distribuidos en los ordenes Nautilida, Octopoda, Cirroctopoda, Vampyromorpha, Sepioida y Teuthida y 2 taxa (outgroup), petenecientes a las clases Polyplacophora y Bivalvia (Lindgren et al. 2004) y un segundo set de datos incluyendo 20 taxa pertenecientes al filo Rotifera, 18 taxa (ingroup) de las clases Seisonidea, Bdelloidea, Monogononta y Acanthocephala y 2 taxa (outgroup), pertenecientes al filo Platelminthes (Sorensen & Giribet, 2006), teniendo para todos, datos moleculares correspondientes a los genes 18S (nuclear) y gen COI (mitocondrial), (Tablas 1 y 2 respectivamente). Para la evaluación del efecto de los gap en los análisis filogenéticos de secuencias génicas, se implementaron distintos enfoques, bajo el primer enfoque se considera implícitamente los gap como hipótesis de homologia primaria, (quinto estado de carácter) dando pesos diferenciales a la apertura y extensión del gap. Bajo el segundo enfoque eliminándolos, dado que se consideran sin ningún valor filogenético; para este análisis se implemento el programa POY 4.O BETA (Varón et al. 2007). La búsqueda de árboles parsimoniosos se realizo con el programa TNT 1.1 (Goloboff et al., 2007) mediante bootstrap con 1000 replicas. Un segundo análisis bajo hipótesis de homologia primaria se realizo mediante WINCLADA ver 1.00.08 (Nixon, 1999) previo alineamiento de las secuencias en MUSCLE3.6 (Robert, 2004); codificando a los gaps de los genes COI de los dos set de datos como carácter adicional. Donde por cada columna que presenta un gap, se agrego una nueva columna en la cual se registro la presencia o ausencia de los mismos, denominado “codificación simple de indel” (Simmons & Ochotorena. 2000). Para la evaluación de cada enfoque se analizaron las reconstrucciones de hipótesis filogenéticas mediante resoluciones topológicas. Resultados y Discusión La codificación de los gap como 5th carácter elimina la posibilidad de que el gap sea un artificio del alineamiento (Simmons. et al., 2007)mediante la utilización de costos diferenciales de apertura y extensión del gap (tabla 3) para la realización de un análisis implementando alineamiento implícito, empleando el comando gap opening (Varón. et al., 2007) para todos los caracteres utilizados, con las matrices obtenidas como resultado del análisis en POY, se evalúa parsimonia mediante Boostrap no parametrico. Para el primer conjunto de datos las topologías obtenidas para el gen 18S con el costo 1 muestra poca resolución evidenciándo parafilia; para los costos 2 y 3 las relaciones monofileticas aparecen para algunos de los ordenes (Sepiolida, Cirroctópoda y Octópoda), sin embargo la resolución dentro de los ordenes entre los taxones no es muy clara; para el caso del 4 costo encontramos un clado resuelto donde se observa la monofilia de Decabrachia y Octobrachia, además las relaciones entre los diferentes ordenes son evidentes incluyendo las relaciones entre la mayoría de sus terminales, es claro que para el conjunto de datos la codificación como 5th carácter teniendo en cuenta los costos usados de apertura y extensión del gap son aplicables a caracteres informativos filogenéticamente. En contraste para el gen COI las relaciones obtenidas para el primer costo muestra una mayor resolución que la mostrada en el análisis con el segundo costo, evidenciando en esta una politomia, los valores de limite de confianza de los nodos fueron los más bajos de todo el análisis los cuales no tan solo se presentaron en este set sino se hizo generalizado para el conjunto de datos del gen COI del filo Mollusca, a pesar de esto el uso del los costos 3 y 4 arroja topologías mas resueltas en las cuales resalta con mayor resolución la del costo 4, donde se rescata la monofilia de Sepiolida. La baja resolución obtenida en este análisis puede estar relacionada con la variabilidad que presenta la secuencia, teniendo en cuenta además el reducido número de indels con los que cuenta el gen. Para el segundo conjunto de datos la aplicación de la codificación al gap como 5th carácter en el gen 18S del filo Rotífera en el primer costo, evidencio que las relaciones entre los diferentes grupos no se mantienen; las relaciones entre terminales fue poco clara lo cual es semejante a lo ocurrido con el gen 18S, sin embargo los dos grandes grupos Hemirotifera y Monogononta manifiestan las diferencia en las secuencias de estos dos genes entre análisis y la mayor tasa de gap presentes en la secuencia del gen de Mollusca, la cual está influenciada por los valores que tendrían de aperturas y de extensión de los gap lo que podría ser evidencia para la resolución de la monofilia del filo Rotífera y sus ordenes, aunque las relaciones entre taxones no es muy evidente. Para las topologías generadas a partir de los costos 2 y 3, las relaciones entre grupos se mantienen y se resuelven la mayoría de conflictos entre ramas de cada orden manteniendo la linealidad con respecto a la aplicación de los costos y la resolución de las topologías como las más parsimoniosas. La aplicación del último costo deja de manifiesto la importancia de la codificación de los gap como 5th carácter ya que al no considerarlo como tal el análisis es menos explicativo ya que se puede perder información histórica. (Giribet & Wheeler. 1999). Para el gen COI de Rotífero las relaciones son más resueltas, que lo observado en gen COI de Mollusca ya que aunque COI de Rotífera es una región variable aun así se presentan más homología entre sus taxones. Sin embargo para el gen COI de Rotífera con los costos 1,2, no son muy claras las relaciones entre sus taxones, mientras que para los costo 3 y 4 la monofilia de las clases y sus grupos internos son bastante esclarecidas afirmando una vez más la importancia de la codificación de los gap como 5th carácter y la asignación de costos diferenciales que contribuyan al esclarecimiento de las topologías apoyando la hipótesis de homología de las mismas teniendo en cuenta que de otro modo las secuencias de diferentes longitudes podrían no ser adecuadas para el análisis. Es evidente que el uso de costos diferenciales en la apertura y extensión del gap contribuye a la resolución de las topologías así como la codificación de este como un carácter y no como una ambigüedad o ausencia ya que de no incluirse en el análisis de parsimonia no se evaluaría la congruencia que pueda tener con otros caracteres (Gonzáles. 1996). El análisis con prealineamiento usado en POY no asume los gap, para los genes 18S de Mollusca y Rotífera se observan variaciones considerables en las relaciones, lo cual soporta el argumentó expuesto en cuanto a la importancia de la codificación y asignación de costos a los gaps, contribuyendo a la idea de que los indels también representan una hipótesis de homología potencial. Simmons & Ochotorena (2000) propusieron el método (SIC) de sus siglas en ingles “simple indel coding” en el cual se hace la codificación de los gap teniendo en cuenta su origen y finalización de la secuencias, además los gap deben ser más de uno, continuos y presentarse en dos o más taxones para que sea informativo (Simmons & Ochotorena 2000). Se evaluaron los genes COI de Rotífera y Mollusca implementando Winclada, en la topología obtenida se evaluo el mapeo de caracteres 661 y 662 demostrándose que son informativo (fig. 25-26) para los taxones pomp- echy-main-momo y pompechy respectivamente (ver codificación de taxones Tablas .4-5). Dejando de manifiesto la importancia de la codificación de los gap como caracteres informativos permitiendo de esta manera evaluar hipótesis de homología de una forma sustancial, teniendo en cuenta que los gap son cruciales en la evaluación de hipótesis desde el punto de vista teórico (Giribet & Wheeler. 1999). En contraste con muchos de los estudio filogenéticos que no asumen a los gap como informativos se da en este trabajo un aporte más para que esta idea sea rebatida y entienda como la necesidad de codificar los gap como informativos, atendiendo sin duda que los costos asignados a los gap deben ser los mismos tanto para el alineamiento como para los análisis de inferencias filogenéticos. Se sugiere se empleen otros costos diferenciales para estudios posteriores y postulación de mecanismos que contribuyan con resolución de los diferentes enfoques sobre la forma de asumir los indel en los análisis filogenéticos. BIBLIOGRAFIA Carroll, H. Ridge, P. Clement, M. & Snell,Q. 2006. Effects of Gap Open and Gap Extension. Computer Science Department, Brigham Young University Provo. GIRIBET, G., AND W. C. WHEELER. 1999. On gaps. Mol. Phylogenet. Evol. 13:132–143. Goloboff, P.A., Farris, J.S., Nixon, K.C. 2007. T.N.T. Tree analysis using new technology. Programa y documentación disponible en: http://www.zmuc.dk/public/phylogeny/TNT/. GONZÁLEZ, D. 1996. Codificación de las insercionesdeleciones en el análisis filogenético de secuencias génicas. Bol. Soc. Bot. Mex. 59:115–129. Lindgren, A.R., Giribet, G., Nishiguchi, M.K. (2004) A combined approach to the phylogeny of Cephalopoda (Mollusca). Cladistics 20, 454–486. Nixon,1 K.C. (1999) WINCLADA (BETA), Version 0.9.9. Published by the author, Cornell University, Ithaca, New York. Nixon, K.C. & Carpenter, J.M. (1993) On Outgroups. Cladistics, 9, 413–426. Robert C, E. (2004) MUSCLE: multiple sequence aligment with high accuracy and high throughput, Nucleic Acids Research 32(5). 1792-97 Simmons, M. & Ochoterena, H. 2000. Gaps as Characters in Sequence-Based Phylogenetic Analyses. Syst. Biol. 49(2):369–381. New York , USA Simmons, M. Muller, K. & Norton, A. 2007. The relative performance of indel-coding methods in simulations. Molecular Phylogenetics and Evolution 44 724-740. Sorensen, M.V., Giribet, G., 2006. A modern approach to rotiferan phylogeny: Combining morphological and molecular data. Molecular Phylogenetics and Evolution 40:585–608. Varón, A., L. S. Vinh, I. Bomash, W. C.Wheeler. (2007) POY 4.0 Beta 2398. American Museum of Natural History. Wheeler, W. C. (1995). Sequence alignment, parameter sensitivity, and the phylogenetic analysis of molecular data. Syst. Biol. 44: 321–331. Wheeler, W., Giribet, G., Aagesen, L., Arango, C., Faivovich, J., Grant, T., D’Haese, C., Janies, D., Smith, W.L., Varon, A., in press. 2006. Dynamic homology and phylogenetic systematics: a uniWed approach using POY. American Museum of Natural History series. Anexos TAXON Chiton olivaceus Yoldia limatula Nautilus pompilius Haliphron atlanticus Argonauta nodosa Japetella diaphana Ocythoe tuberculata Bathypolypus arcticus Eledone cirrosa Grandeledone verrucosa Thaumeledone guntheri Cirrothauma murrayi Stauroteuthis syrtensis Vampyroteuthis infernalis Heteroteuthis hawaiiensis Sepiola affinis Sepia officinalis Loligo formosana Gonatus antarcticus Gonatus fabricii GEN 18S AY377651 AF120528 AY557452 AY557460 AY557462 AY557463 AY557464 AY557465 AY557467 AY557468 AY557469 AY557456 AY557457 AY557459 AY557472 AY557474 AY557471 AY557478 AY557497 AY557498 GEN COI AY377716 AF120642 AY557514 AY557516 AY557517 AY557518 AY557519 AF000029 AY557520 AF000042 AY557521 AF000034 AF000067 AF000071 AF000044 AY557523 AF000062 AY557524 AY557536 AY557537 TABLA 1. Números de acceso al genbank de los genes nuclear (18S) y el gen mitocondrial (COI) de cada una de las especies incluidas en el análisis del filo Mollusca. TAXON Microstomum lineare Haplopharynx rostratus Seison nebaliae Adineta vaga Rotaria neptunia Rotaria rotatoria Collotheca campanulata Conochilus hippocrepis Ptygura libera Brachionus calyciXorus Lecane bulla Lecane leontina Macrochaetus collinsi Notommata alantois Notommata cordonella Proales doliaris Echinorhynchus gadi Macracanthorhynchus ingens Moniliformis monoliformis Pomphorhynchus laevis GEN 18S D85092 AJ012511 DQ297761 DQ079913 AY218122 AY218121 DQ297686 DQ297687 DQ297689 DQ297692 DQ297698 DQ297700 DQ297705 DQ297710 DQ297711 DQ297717 AY218123 AF001844 Z19562 AY218124 GEN COI AJ405979 AJ405977 DQ297765 DQ079961 AY218094 AY218093 DQ297766 DQ297767 DQ297768 DQ297770 DQ297775 DQ297777 DQ297780 DQ297784 DQ297785 DQ297790 AY218095 AF416997 AF416998 AY218096 TABLA 2. Números de acceso al genbank de los genes nuclear (18S) y el gen mitocondrial (COI) de cada una de las especies incluidas en el análisis del filo Rotifera. costo Ts - Tv Extensión del gap Apertura del gap 1 1 1 1 2 1 1 2 3 1 1 4 4 1 1 8 5 1 4 8 TABLA 3. Costos empleados para el análisis en POY. Taxón Chiton olivaceus Yoldia limatula Nautilus pompilius Haliphron atlanticus Argonauta nodosa Japetella diaphana Ocythoe tuberculata Bathypolypus arcticus Eledone cirrosa Grandeledone verrucosa Thaumeledone guntheri Cirrothauma murrayi Stauroteuthis syrtensis Vampyroteuthis infernalis Heteroteuthis hawaiiensis Sepiola affinis Sepia officinalis Loligo formosana Gonatus antarcticus Gonatus fabricii TABLA 4. Abreviaturas empleadas en las topologías (Mollusca). Abreviatura chit yold naup hali argo jape ocyt bath elec gran thau cirro stau vamp hete saff sepi loli goan gota Taxón Microstomum lineare Haplopharynx rostratus Seison nebaliae Adineta vaga Rotaria neptunia Rotaria rotatoria Collotheca campanulata Conochilus hippocrepis Ptygura libera Brachionus calyciXorus Lecane bulla Lecane leontina Macrochaetus collinsi Notommata alantois Notommata cordonella Proales doliaris Echinorhynchus gadi Macracanthorhynchus ingens Moniliformis monoliformis Pomphorhynchus laevis TABLA 5. Abreviaturas empleadas en las topologías (Rotifera). Abreviatura mili haro sene adiv rone roro coll cohi ptli bcal lebu leon maco noal noco prdo echy main momo pomp Gen 18S Mollusca FIGURA 1. Árbol de parsimonia para el gen 18S (Mollusca) en TNT v1.1, con sus respectivos valores de bootstrap (extensión 1 – apertura 1). FIGURA 2. Árbol de parsimonia para el gen 18S (Mollusca) en TNT v1.1, con sus respectivos valores de bootstrap (extensión 1 – apertura 2). FIGURA 3. Árbol de parsimonia para el gen 18S (Mollusca) en TNT v1.1, con sus respectivos valores de bootstrap (extensión 1 – apertura 4). FIGURA 4. Árbol de parsimonia para el gen 18S (Mollusca) en TNT v1.1, con sus respectivos valores de bootstrap (extensión 1 – apertura 8). FIGURA 5. Árbol de parsimonia para el gen 18S (Mollusca) en TNT v1.1, con sus respectivos valores de bootstrap (extensión 4 – apertura 4). Gen COI Mollusca FIGURA 6. Árbol de parsimonia para el gen COI (Mollusca) en TNT v1.1, con sus respectivos valores de bootstrap (extensión 1 – apertura 1). FIGURA 7. Árbol de parsimonia para el gen COI (Mollusca) en TNT v1.1, con sus respectivos valores de bootstrap ((extensión 1 – apertura 2). FIGURA 8. Árbol de parsimonia para el gen COI (Mollusca) en TNT v1.1, con sus respectivos valores de bootstrap (extensión 1 – apertura 4). FIGURA 9. Árbol de parsimonia para el gen COI (Mollusca) en TNT v1.1, con sus respectivos valores de bootstrap (extensión 1 – apertura 8). FIGURA 10. Árbol de parsimonia para el gen COI (Mollusca) en TNT v1.1, con sus respectivos valores de bootstrap (extensión 4 – apertura 4). Gen 18S Mollusca (gaps eliminados) FIGURA 11. Árbol de parsimonia para el gen 18S (Mollusca) en TNT v1.1, con sus respectivos valores de bootstrap . Gen COI Mollusca (gaps eliminados) FIGURA 12. Árbol de parsimonia para el gen COI (Mollusca) en TNT v1.1, con sus respectivos valores de bootstrap . Gen 18S Rotifera FIGURA 13. Árbol de parsimonia para el gen 18S (Rotifera) en TNT v1.1, con sus respectivos valores de bootstrap (extensión 1 – apertura 1). FIGURA 14. Árbol de parsimonia para el gen 18S (Rotifera) en TNT v1.1, con sus respectivos valores de bootstrap (extensión 1 – apertura 2). FIGURA 15. Árbol de parsimonia para el gen 18S (Rotifera) en TNT v1.1, con sus respectivos valores de bootstrap (extensión 1 – apertura 4). FIGURA 16. Árbol de parsimonia para el gen 18S (Rotifera) en TNT v1.1, con sus respectivos valores de bootstrap (extensión 1 – apertura 8). FIGURA 17. Árbol de parsimonia para el gen 18S (Rotifera) en TNT v1.1, con sus respectivos valores de bootstrap (extensión 4 – apertura 4). Gen COI Rotifera FIGURA 18. Árbol de parsimonia para el gen COI (Rotifera) en TNT v1.1, con sus respectivos valores de bootstrap (extensión 1 – apertura 1). FIGURA 19. Árbol de parsimonia para el gen COI (Rotifera) en TNT v1.1, con sus respectivos valores de bootstrap (extensión 1 – apertura 2). FIGURA 20. Árbol de parsimonia para el gen COI (Rotifera) en TNT v1.1, con sus respectivos valores de bootstrap (extensión 1 – apertura 4). FIGURA 21. Árbol de parsimonia para el gen COI (Rotifera) en TNT v1.1, con sus respectivos valores de bootstrap (extensión 1 – apertura 8). FIGURA 22. Árbol de parsimonia para el gen COI (Rotifera) en TNT v1.1, con sus respectivos valores de bootstrap (extensión 4 – apertura 4). Gen 18S Rotifera (gaps eliminados) FIGURA 23. Árbol de parsimonia para el gen 18S (Rotifera) en TNT v1.1, con sus respectivos valores de bootstrap. Gen COI Rotifera (gaps eliminados) FIGURA 24. Árbol de parsimonia para el gen COI (Rotifera) en TNT v1.1, con sus respectivos valores de bootstrap. FIGURA 25. Mapeo de caracteres mediante el método “codificación simple de indel” _ COI Rotifera_carácter 661. FIGURA 26. Mapeo de caracteres mediante el método “codificación simple de indel” _ COI Rotifera_carácter 662.