Document related concepts
Transcript
Anterior IV Congreso Internacional de Ingeniería Bioquímica y XV Congreso Nacional de Ingeniería Bioquímica Del 4 al 7 de abril del 2006 en la ciudad de Morelia Mich. México. APLICACIÓN DE LOS MODELOS DE MARKOV Y DE ALINEAMIENTOS NUCLEOTÍDICOS PROTEIN-MODELADOS A LA CONSTRUCCIÓN DEL ÁRBOL FILOGENÉTICO BACTERIANO. Flores-Cortes Perla y Méndez-Tenorio Alfonso, Laboratorio de Tecnología del DNA, Escuela Nacional de Ciencias Biológicas, IPN, México D.F. pfloresc0401@ipn.mx Introducción. Tradicionalmente los árboles filogenéticos de las bacterias son derivados a partir de la secuencia nucleotídica de un gen conservado que se encuentra en todas las bacterias en estudio. Sin embargo la historia evolutiva de las bacterias puede ser muy diferente si se analizan varios genes simultáneamente o el genoma completo. En este trabajo se describe una estrategia para buscar genes de proteínas altamente conservadas, alinearlos, y generar un árbol filogenético a partir de ellos. Objetivo. Construcción de Modelos Ocultos de Markov de proteínas altamente conservadas para el alineamiento de proteínas bacterianas altamente conservadas y construcción de un árbol filogenético consenso para todos los genes y bacterias en estudio. Desarrollo experimental y metodología. En la base de datos de Dominios Conservados del NCBI (Conserved Domain Database, CDD) se buscó un grupo de proteínas pertenecientes a la división de Grupos de Genes Ortólogos (Clusters of Orthologous Genes, COG) distribuidas y conservadas en una amplia variedad de bacterias. La base de datos CDD del NCBI incluye una colección de alineamientos de proteínas ampliamente conservadas en la que incluyen representantes de proteínas ortólogas (COG). Un Modelo Oculto de Markov (Hidden Markov Models, HMM) es una representación estadística de un alineamiento múltiple, en el que se modelan los aminoácidos conservados y todas las inserciones y eliminaciones presentes. A partir de los COGs reportados en la CDD se construyeron Modelos Ocultos de Markov para la representación del alineamiento múltiple con el programa HMMER v2.1. Por otra parte a partir de las secuencias de los genomas completos de 181 bacterias se extrajeron todas las secuencias de nucleótidos que codifican para las proteínas reportadas en la división de COG. Las secuencias de nucleótidos de cada COG se tradujeron a aminoácidos y se construyó el alineamiento múltiple de ellas con el programa HMMER empleando los HMM de las proteínas reportadas en CDD. Los alineamientos de las proteínas se utilizaron como molde para alinear las secuencias de nucleótidos respetando los codones que codifican para cada aminoácido utilizando el programa RevTrans v1.4. Los alineamientos de nucleótidos se utilizaron para construir árboles filogenéticos de distancias utilizando la suite de programas Phylip v3.6 (alpha3) asimismo se calculó un árbol filogenético consenso de todos los árboles obtenidos. conservadas y presentes en todas las bacterias estudiadas con las cuales se derivaron los alineamientos de nucleótidos, guiados por el alineamiento de las correspondientes secuencias de aminoácidos. De cada alineamiento se derivó un árbol y finalmente se calculó un árbol consenso. Este árbol muestra algunas semejanzas con las clasificaciones filogenéticas tradicionales de las bacterias aunque se presentan algunas diferencias importantes. Este árbol sin embargo toma en cuenta mayor cantidad de información genética comparada con aquella empleada en técnicas tradicionales en las cuales normalmente se estudia la evolución de una secuencia sencilla. Yersinia pestis biovar Medievalis str 91001 Yersinia pseudotuberculosis IP 32953 Yersinia pestis CO92 Yersinia pestis KIM Salmonella enterica subsp enterica serovar Paratypi A str ATCC 9150 Salmonella enterica subsp enterica serovar Choleraesuis str SC-B67 Salmonella typhimurium LT2 Salmonella enterica subsp enterica serovar Typhi str CT18 Escherichia coli O157 H7 Escherichia coli K12 Erwinia carotovora subsp atroseptica SCRI1043 Fig.1. Sección del árbol filogenético consenso, se observa a Escherichia coli y la relación más estrecha con otras bacterias. El árbol filogenético consenso de se construyó a partir de 17 proteínas presentes en 181 genomas bacterianos. Conclusiones. Se obtuvo un árbol consenso de distancias derivadas del alineamiento de 17 proteínas altamente conservadas existente en un grupo de 181 bacterias cuyos genomas han sido totalmente secuenciados y que por lo tanto incluye mayor información relativa a la evolución de estas bacterias. Referencias. 1.Rasmus Wernersson and Anders Gorm Pedersen (2003): RevTrans - Constructing alignments of coding DNA from aligned amino acid sequences. Nucl. Acids Res.,31(13): 3537-3539. 2.Durbin R., S. R. Eddy, A. Krogh, G. Mitchison. (1998): Biological sequence analysis: Probabilistic models of proteins and nucleic acids. Cambridge University Press, London, England. 3. Wolf YI, Rogozin IB, Grishin NV, Tatusov RL, Koonin EV. (2001): Genome trees constructed using five different approaches suggest new major bacterial clades. BMC Evol Biol. 2001; 1: 8. 4. Felsenstein J. (2003): Inferring Phylogenies, Sinauer Associates, USA. Resultados y discusión. De la colección completa de proteína CDD se seleccionó un grupo de 17 proteínas altamente COLEGIO MEXICANO DE INGENIEROS BIOQUÍMICOS, A. C. Mar del Norte No. 5, Col. San Álvaro Azcapotzalco C. P. 02090, México, D. F. Tel. y Fax: 5623 3088 E-mail: colegioibq@hotmail.com y colegioibq@yahoo.com.mx