Download Construcción de árboles filogenéticos
Document related concepts
Transcript
Curso Teórico-Práctico de Posgrado Herramientas informáticas para el análisis estructural de ácidos nucleicos y proteínas A. CONSTRUCCIÓN DE ÁRBOLES FILOGENÉTICOS Herramientas - Nancy I. López 2011 Construcción de árboles filogenéticos ¿Qué es un árbol? Modelo/ estructura matemática que se usa para modelar la historia evolutiva de un grupo de secuencias o de organismos. Filogenia es la ciencia de estimar el pasado evolutivo. Filogenia molecular basada en comparación de secuencias Árbol filogenético 1° alineamiento múltiple. Árbol obtenido dependiente de este alineamiento. Herramientas - Nancy I. López 2011 FILOGENIA MOLECULAR Es el estudio de relaciones evolutivas entre organismos o genes por una combinación de biología molecular y técnicas estadísticas. Si se estudian relaciones entre organismos con fines de clasificación también se denomina sistemática molecular. Historia Uso de datos moleculares en filogenia comenzó en los ´60 secuenciación de proteínas: relaciones entre ordenes de mamíferos otras técnicas moleculares tales como hibridización DNA-DNA . Técnicas de DNA recombinante ´70s : rápida acumulación de datos de secuencias de DNA. ’85 PCR Herramientas - Nancy I. López 2011 ¿Cómo puede medirse el cambio evolutivo? Distancia evolutiva entre 2 especies medida por diferencias en la secuencias de nucleótidos o aa de macromoléculas homólogas. Las secuencias de DNA, RNA y proteínas han cambiado muy lentamente durante la evolución. Diferentes moléculas: diferentes velocidades de evolución. Muchas secuencias son mosaicos de diferentes velocidades evolutivas. RNA: diferentes regiones estructurales evolucionan a diferentes velocidades Proteinas: Cambios silenciosos (x ej. posición 3 de codones). Carácter degenerado del código genético. Herramientas - Nancy I. López 2011 ¿Qué secuencias deberíamos utilizar? Elección de la secuencia: ¿evolución rápida o lenta? ¿relaciones cercanas o distantes? Herramientas - Nancy I. López 2011 Elección de la molécula correcta . Distribución universal . Funcionalmente homóloga . Alineamiento de secuencias debe permitir determinar regiones de homología y regiones de heterogeneidad . Secuencia elegida debería variar en forma proporcional con la distancia evolutiva a medir . No debe estar sujeta a transferencia entre organismos filogenéticamente distantes (transferencia lateral) . La cantidad de información debe ser suficiente para que el análisis sea estadísticamente significativo. Herramientas - Nancy I. López 2011 Elección de la mejor molécula para estimar el tiempo evolutivo Debido a la antigüedad del proceso de síntesis de proteínas, el RNA es una excelente molécula para discernir relaciones evolutivas entre organismos vivientes .Tiene distribución universal y cumple una misma función . Cambia muy lentamente . Posee regiones altamente conservadas en todos los organismos y regiones con mayor variabilidad. Permite comparaciones entre organismos muy relacionados o poco relacionados RNA mejor cronómetro o reloj molecular Herramientas - Nancy I. López 2011 Ribosomas: Presentes en todos los organismos (procariotas, plantas, animales). Características en procariotas 3 tipos de moléculas RNA: 5S, 16S y 23S. Subunidad pequeña (30S): 16S Subunidad mayor (50S): 5S, y 23S 16S 1500 nucleótidos 18S eucariotas 1874 nucleótidos Regiones + conservadas y regiones variables. Más conservadas para comparar los más distantes y más variables para los más cercanos. Regiones únicas secuencia firma (signature) usadas para diseñar sondas. •Técnicas de secuenciación desarrolladas y mejoradas para facilitar el análisis. Gen 16S rRNA: 2 cadenas confirman la secuencia (PCR simple). Otras moléculas Citocromo c y ribulosa 1,5 bisfosfato carboxilasa (Rubisco). No universales. Herramientas - Nancy I. López 2011 Mólecula del 16S rDNA en procariotas tiene su equivalente en 18S rDNA de eucariotas Eucariotas Homo sapiens S. cereviceae Zea maize Escherichia coli Anacystis nidulans Thermotoga maritima Methanococcus vannielii Thermococcus celer Sulfolobus sulfotaricus Alineamiento de una región altamente conservada del 16S/18S rRNA ...GTGCCAGCAGCCGCGGTAATTCCAGCTCCAATAGCGTATATTAAAGTTGCTGCAGTTAAAAAG... ...GTGCCAGCAGCCGCGGTAATTCCAGCTCCAATAGCGTATATTAAAGTTGTTGCAGTTAAAAAG... ...GTGCCAGCAGCCGCGGTAATTCCAGCTCCAATAGCGTATATTTAAGTTGTTGCAGTTAAAAAG... ...GTGCCAGCAGCCGCGGTAATACGGAGGGTGCAAGCGTTAATCGGAATTACTGGGCGTAAAGCG... ...GTGCCAGCAGCCGCGGTAATACGGGAGAGGCAAGCGTTATCCGGAATTATTGGGCGTAAAGCG... ...GTGCCAGCAGCCGCGGTAATACGTAGGGGGCAAGCGTTACCCGGATTTACTGGGCGTAAAGGG... ...GTGCCAGCAGCCGCGGTAATACCGACGGCCCGAGTGGTAGCCACTCTTATTGGGCCTAAAGCG... ...GTGGCAGCCGCCGCGGTAATACCGGCGGCCCGAGTGGTGGCCGCTATTATTGGGCCTAAAGCG... ...GTGTCAGCCGCCGCGGTAATACCAGCTCCGCGAGTGGTCGGGGTGATTACTGGGCCTAAAGCG... Procariotas Herramientas - Nancy I. López 2011 Regiones conservadas y variables en la molécula del 16S rRNA Estructura tridimensional compleja que interactúa con proteínas y otros RNAs. E. coli 1.542 pb Cambios en esta maquinaria son contra seleccionados. Modificaciones que han ocurrido en billones de años de evolución son usados para construir árboles filogenéticos. Herramientas - Nancy I. López 2011 “Revolución de Woese” RNA ribosomal 16S/18S 1977 Carl Woese Filogenia universal. Sus investigaciones sentaron las bases de la filogenia molecular de procariotas utilizando el 16S rDNA. Sustento experimental Herramientas - Nancy I. López 2011 Woese y Fox. 1977. Phylogenetic structure of the prokaryotic domain: the primary kingdoms. PNAS 74:5088-5090. Otras aplicaciones del 16S rRNA •Exploración de diversidad de procariotas no cultivables. Nuevos phyla descubiertos por análisis molecular de hábitats naturales Arbol filogenético basado en secuencias del gen del 16S rRNA de Bacteria, basado en cultivos puros y bibliotecas genómicas de muestras naturales. (Hugenholz, P, Goebel BM and Pace, NR. 1998. J. Bacteriol. 180:4765-4774). Herramientas - Nancy I. López 2011 Otras aplicaciones del 16S rRNA •Identificación: diseño de sondas marcadas a partir de las secuencias “firma” del 16S rRNA . Monitoreo de comunidades microbianas por técnicas independientes del cultivo. . Detección de patógenos en una comunidad. Células de E. coli, Bordetella y Legionella. Hibridización con sonda para bacterias (Eub338verde) y con sonda específica para Legionella micdadei (amarillo). FlSH (Fluorescent in situ hybridization) Herramientas - Nancy I. López 2011 Bases de datos Bases de datos de Nucleótidos: .GenBank: International Collaboration NCBI (USA), EMBL (Europe), DDBJ (Japan and Asia) Herramientas BLAST Ribosomal Database Project Michigan State University (http://rdp.cme.msu.edu/) RDP Release 10, Update 18 :: Jan 25, 2010 :: 1,358,426 16S rRNAs RDP Release 10, Update 3 :: September 4, 2008 :: 677,057 16S rRNAs Septiembre 2006 (Release 9.42), 262.030 secuencias 84.442 bacterias cultivadas 177.588 de muestras ambientales 101.877 casi largo total (1200 bases) 5.543 secuencias de especies tipo (type strains). Importantes por su valor taxonómico y filogenético. Herramientas - Nancy I. López 2011 Herramientas - Nancy I. López 2011 Herramientas - Nancy I. López 2011 ERA GENÓMICA Herramientas - Nancy I. López 2011 Filogenómica Árboles ¿en qué se basan? Análisis filogenético clásico: Darwin (Origin of species, November 24, 1859) propiedades morfológicas y fisiológicas (ej.: sangre fría y sangre caliente, escamas, dientes, alas, etc.) Métodos basados datos moleculares: secuencias homólogas en diferentes especies (DNA o proteinas) La filogenia molecular permite obtener árboles basados en genes o secuencias y estos pueden ser adecuados como árboles para organismos. Herramientas - Nancy I. López 2011 Datos moleculares (en particular secuencias de DNA) son más “potentes” que los datos morfológicos y fisiológicos .- Proteínas y de DNA evolución + regular .- Ofrecen amplias posibilidades de tratamientos cuantitativos. .- Son más abundantes. Moléculas como testimonio de la historia evolutiva Herramientas - Nancy I. López 2011 Construcción de árboles filogenéticos 1. Definir conjunto de secuencias a analizar (DNA, RNA o proteínas) provenientes de distintos organismos 2. Alinear correctamente esas secuencias 3. Aplicar métodos adecuados para la construcción de árboles filogenéticos 4. Evaluar estadísticamente el árbol filogenético obtenido Herramientas - Nancy I. López 2011 Árboles . se pueden graficar de cualquier manera . complejidad rotación (todas las ramas pueden rotar alrededor del plano de sus nodos árboles =) . crecen de izquierda a derecha OTU . etiquetas son horizontales. Herramientas - Nancy I. López 2011 Árboles con y sin raíz Raíz: nodo del cual los otros descienden. Da dirección Patrón de ramificación: topología Definir outgroup: . Miembro no natural del grupo de interés. . punto medio Herramientas - Nancy I. López 2011 Number of sequences 3 4 5 6 7 8 9 10 Number of unrooted trees Number of rooted trees 1 3 15 105 945 10395 135135 2027025 3 15 105 945 10395 135135 2027025 34459425 Nr=(2n-3)!/[2n-2*(n-2)!], n ≥2 Nu=(2n-5)!/[2n-3*(n-3)!], n ≥3 Nr para n = Nu para n+1 Herramientas - Nancy I. López 2011 Esquema árbol OTUs son: .- Monofiléticos. Ej.: B y C. .- Polifiléticos. Ej.: D y C. Herramientas - Nancy I. López 2011 Dendrograma: Término general Cladograma: es el modelo básico y simplemente muestra la distancia al antecesor común en términos relativos. Las ramas son de igual longitud por lo cual no indican el tiempo evolutivo. Filograma: contiene información adicional dada por la longitud de las ramas. Los números asociados con cada rama corresponden a un atributo de las secuencias, tal como cantidad de cambio evolutivo. Es aditivo. Métricos. Ultramétricos: tipo especial de árbol aditivo en el cual los extremos del árbol son Herramientas - Nancy I. López equidistantes de la raíz y son proporcionales2011 al tiempo de divergencia. Ultramétricos. ÁRBOLES ADITIVOS 1) Todas las distancias son positivas. 2) Una distancia entre 2 puede ser cero si los 2 puntos son iguales: d(x,y)=0 si x=y. 3) Distancias son simétricas d(x,y)= d(y,x). 4) d (x,y)< d(x,z)+d(z,y). Arboles ultramétricos Siguen estas reglas (son aditivos) y : * d(x,y)≤máx {d(x,z),d(z,y)}. Define triángulo Herramientas - Nancy I. López isósceles 2011 Secuencias alineadas Algoritmo Árbol filogenético Algoritmos: Métodos de Distancia: UPGMA (Unweighted Pair Group Method with Arithmetic Mean), Vecino más cercano (Neighbor Joining) Métodos basados en el carácter (secuencia): Máxima parsimonia (Maximum Parsimony), Máxima verosimilitud (Maximum Likelihood). Herramientas - Nancy I. López 2011 Métodos para la construcción de árboles filogenéticos Métodos de distancia Utilizan matrices de distancia UPGMA: (Unweighted Pair Group Method with Arithmetic Mean) Agrupamiento pareado no ponderado utilizando media aritmética. Es el método más simple. Asume la existencia de un reloj molecular evolutivo. NJ-Neighbour Joining. Vecino más cercano Minimum evolution. Utiliza el método de cuadrados mínimos. Métodos discretos Operan directamente con las secuencias Parsimonia: usa un carácter. Criterio: buscar el menor número de cambios evolutivos requeridos Las hipótesis más sencillas son más probables que las más complicadas. Máxima verosimilitud (Maximum likelihood): utiliza el estado del carácter y la distancia. Encuentra el árbol que con mayor probabilidad haya dado origen a los datos observados. Herramientas - Nancy I. López 2011 Matriz de distancias Sitios Secuencias 1 2 3 4 5 6 7 1 2 3 4 T A A A T A A A A T A A T T A A T T A A A A T A A A A T Distancias 10 2 30 3 5 40 4 5 4 20 ___________ 1 2 34 Diferencia o divergencia entre las secuencias .- Rápidos .- información restringida al árbol Herramientas - Nancy I. López 2011 Métodos discretos Analizan cada columna dentro del alineamiento y construyen el mejor árbol que se ajusta a esa codición .- lentos .- ricos en información. Hipótesis para cada columna dentro del alineamiento. Puede obtenerse información sobre evolución de sitios específicos en la molécula (Ej.: sitios catalíticos o regiones regulatorias). Herramientas - Nancy I. López 2011 Máxima parsimonia Utiliza más información que los métodos de distancia No requiere un modelo de evolución Herramientas - Nancy I. López Se justifica con argumentos filosóficos más que estadísticos 2011 ¿Cómo comparar diferentes métodos de construcción de árboles? Eficiencia : rapidez “potencia”: número de datos requeridos para obtener resultados razonables Consistencia Robustez: sensibilidad a desviaciones Información sobre si los supuestos son violados. METODO IDEAL DEBERIA CUMPLIR LOS 5 CRITERIOS PERO NO EXISTE Probar árboles con más de un método Herramientas - Nancy I. López 2011 Comparación de métodos para la construcción de árboles filogenéticos Tener en cuenta los supuestos de cada método. El funcionamiento de un método es testeado por modelos de simulación con computadora y por pruebas empíricas. Ej.: . Modelos simples por ej. Subunidad pequeña del rRNA para comparar eucariotas. . Bacteriofago T7 manipulado en lab. a través de muchas generaciones analizando la tasa de mutación. Pocos métodos son explícitos acerca del patrón y la tasa de sustitución de nucleótidos. Herramientas - Nancy I. López 2011 4. Evaluación estadística del árbol filogenético obtenido El test más simple para probar si el conjunto de datos “soportan” el árbol obtenido es el del bootstrap. Es un método estadístico que puede estimar las distribuciones por creación repetida y análisis de conjuntos de datos artificiales. Medir el error de muestreo: tomar muchas muestras de la población estudiada y compararlas. Bootstrap simula esto pero en lugar de muestrear de una población “remuestrea” los datos originando pseudorréplicas. Herramientas - Nancy I. López 2011 Valores de bootstrap ( %). > 50 %. Puede aplicarse a todos los métodos Herramientas - Nancy I. López 2011 Purinas Transiciones Pirimidinas Herramientas - Nancy I. López 2011 Programas ClustalW Alineamiento Graficar con Treeview, Phylodraw NJ-Plot PHYLIP MEGA 3.1 Es el más fácil de manejar (Molecular Evolutionary Genetics Analysis) PAUP* (POP STAR). Es el más sofisticado y versátil Herramientas - Nancy I. López 2011 TRABAJO PRÁCTICO -TP6.A Secuencias simples Alineamiento múltiple. Analizar. Observar árbol guía. ClustalW para construir el árbol. Modificar opciones en la ventana “Phylogenetic tree”. Método utilizado por el programa es el del NJ-Vecino más cercano (Neighbour Joining). Elegir entre los posibles formatos de árbol (Neighbour, Phylip, Distance) Con el archivo obtenido del CLustalW entrar en el programa Treeview y graficar el árbol. Herramientas - Nancy I. López 2011 TREEVIEW Herramientas - Nancy I. López 2011 Programa MEGA 3.1 Tutorial 0. Armar archivo. Alineamiento múltiple. Herramientas - Nancy I. López 2011 Alineamiento Herramientas - Nancy I. López 2011 Herramientas - Nancy I. López 2011 Construir el árbol con bootstrap. Probar distintos métodos Herramientas - Nancy I. López 2011 B. Comparación de los árboles filogenéticos obtenidos para microorganismos construidos en base a la secuencia de proteínas y a secuencias del 16S rRNA Herramientas - Nancy I. López 2011 TRANSFERENCIA HORIZONTAL Especiación: Proceso por el cual los organismos evolucionan: determinado por transferencia vertical o herencia Genotipo parental pasa a la progenie. Bacterias pueden adquirir material genético de otros organismos a través de diversos mecanismos por un fenómeno denominado transferencia horizontal o lateral. Rápidos cambios en la estructura poblacional en cortos períodos de t. Ej.: resistencia a antibióticos. Duplicación de genes, transferencia lateral entre otros procesos puede producir discrepancias entre filogenias basadas en genes y las referidas a organismos. Transferencia lateral es uno de los mecanismos que crea confusión en la interpretación de árboles filogenéticos Herramientas - Nancy I. López 2011 Árboles basados en distintas moléculas Diferentes moléculas pueden obtenerse árboles MUY diferentes a partir de los mismos organismos Requisito que debe cumplir un marcador no ser objeto de transferencia horizontal. Herramientas - Nancy I. López 2011 Transferencia horizontal Rojo: genes adquiridos por transferencia horizontal Discrepancia en datos de rRNA? Existe cierta evidencia que los genes ribosomales sufren transferencia lateral y recombinación genética. Herramientas - Nancy I. López 2011 Microbiology (2000), 146, 2845-2854 Comparative sequence analyses reveal frequent occurrence of short segments containing an abnormally high number of non-random base variations in bacterial rRNA genes Yue Wang1 and Zhenshui Zhang1 Microbial Collection and Screening Laboratory, Institute of Molecular and Cell Biology, 30 Medical Drive, Singapore 117609 1 May 2003 Journal of Phycology Volume 41 Issue 2 Page 380 - April 2005 EVIDENCE FOR LATERAL TRANSFER OF AN IE INTRON BETWEEN FUNGAL AND RED ALGAL SMALL SUBUNIT rRNA GENES1 Kirsten M. Müllera2, Darlene W. Ellenora, Alison R. Sherwoodb, Robert G. Sheathc, Jamie J. Cannoned and Robin R. Gutelld J Bacteriol. 2003 December; 185(24): 7241–7246. Horizontal Transfer of Segments of the 16S rRNA Genes between Species of the Streptococcus anginosus Group Leo M. Schouls,1* Corrie S. Schot,1 and Jan A. Jacobs2 Laboratory for Vaccine-Preventable Diseases, National Institute of Public Health and the Environment, Bilthoven,1 Department of Medical Microbiology, University Hospital -ofNancy Maastricht, Maastricht, The Netherlands2 Herramientas I. López 2011 TRANSFERENCIA HORIZONTAL DE INFORMACIÓN GENÉTICA EN BACTERIAS Movimiento de material genético por mecanismos distintos a la reproducción o transferencia vertical. Mecanismos: Transformación Conjugación Transducción Agentes: Virus Plásmidos Elementos genéticos móviles Secuencias de insercióntransposones Islas bacterianas Herramientas - Nancy I. López 2011 Construcción de árboles filogenéticos del gen o proteína de interés vs. 16S rRNA Transferencia horizontal puede ser inferida Análisis del contenido de G+C del gen vs. el resto del genoma Uso de codones Herramientas - Nancy I. López 2011 TRABAJO PRÁCTICO A. Construcción de un árbol filogenético B. Comparación de los árboles filogenéticos obtenidos a partir de secuencias de proteínas y de secuencias del gen del 16S rRNA Herramientas - Nancy I. López 2011 Construcción de árboles filogenéticos 1. Definir conjunto de secuencias a analizar (DNA, RNA o proteínas) provenientes de distintos microorganismos 2. Alinear correctamente esas secuencias 3. Aplicar métodos adecuados para la construcción de árboles filogenéticos 4. Evaluar estadísticamente el árbol filogenético obtenido Herramientas - Nancy I. López 2011 TP6 parte B 1. Secuencias de la 1,2 y de la 2,3 catecol dioxigenasa. Armar archivo. 2. Buscar las secuencias correpondientes al gen del 16 S rRNA de las especies que poseen la enzima. 3. Realizar los árboles filogenéticos. Probar con más de un método 4. Comparar los árboles obtenidos. Herramientas - Nancy I. López 2011 Catecol dioxigenasas (1,2 CDO-2,3 CDO) Catechol 1,2 dioxygenase Catechol 2,3 dioxygenase Herramientas - Nancy I. López 2011 Gram –/Proteobacterias Alfa-Proteobacterias Bradyrhizobium japonicum 1,2 CDO Bradyrhizobium sp. 1,2 CDO Rhizobium etli 1,2 CDO Rhizobium sp. ZJF08 2,3 CDO Catecol dioxigenasas (1,2 CDO-2,3 CDO) Catechol 1,2 dioxygenase Catechol 2,3 dioxygenase ß-Proteobacteria Burkholderia sp. TH2 1,2 CDO Burkholderia sp. 383 Burkholderia sp. RP007 2,3 CDO Alcaligenes sp. 2,3 CDO Ralstonia eutropha/Cupriavidus necator H16 2,3 CDO Achromobacter sp. 2,3 CDO Ralstonia eutropha JMP134 1,2 CDO Gram + Delftia tsuruhatensis 2,3 CDO Rhodococcus sp. RHA1 1,2 CDO Rhodococcus sp. RHA1 1,2 CDO Gama-Proteobacterias Rhodococcus opacus 1,2 CDO Pseudomonas stutzeri 2,3 CDO Arthrobacter sp. BA-5-17 2,3 CDO Pseudomonas mendocina 2,3 CDO Geobacillus thermoglucosidasius 2,3 CDO Pseudomonas aeruginosa 2,3 CDO Azotobacter vinelandii 2,3 CDO Pseudomonas putida KT2440 1,2 CDO Pseudomonas aeruginosa PAO1 1,2 CDO Pseudomonas fluorescens PfO-1 1,2 CDO Marinobacter algicola 2,3 CDO Herramientas - Nancy I. López Acinetobacter 1,2 CDO 2011