Download Construcción de árboles filogenéticos

Document related concepts

Filogenética computacional wikipedia , lookup

Transferencia genética horizontal wikipedia , lookup

Alineamiento de secuencias wikipedia , lookup

Ácido ribonucleico ribosómico wikipedia , lookup

Último antepasado común universal wikipedia , lookup

Transcript
Curso Teórico-Práctico de Posgrado
Herramientas informáticas
para el análisis estructural
de ácidos nucleicos y
proteínas
A. CONSTRUCCIÓN DE ÁRBOLES FILOGENÉTICOS
Herramientas - Nancy I. López
2011
Construcción de árboles filogenéticos
¿Qué es un árbol? Modelo/ estructura matemática
que se usa para modelar la historia evolutiva de un
grupo de secuencias o de organismos.
Filogenia es la ciencia de estimar el pasado
evolutivo.
Filogenia molecular basada en comparación de
secuencias
Árbol filogenético
1° alineamiento múltiple.
Árbol obtenido dependiente de este alineamiento.
Herramientas - Nancy I. López
2011
FILOGENIA MOLECULAR
Es el estudio de relaciones evolutivas entre organismos o genes por una
combinación de biología molecular y técnicas estadísticas.
Si se estudian relaciones entre organismos con fines de clasificación
también se denomina sistemática molecular.
Historia
Uso de datos moleculares en filogenia comenzó en los ´60
secuenciación de proteínas: relaciones entre ordenes de mamíferos
otras técnicas moleculares tales como hibridización DNA-DNA .
Técnicas de DNA recombinante ´70s : rápida acumulación de datos de
secuencias de DNA.
’85 PCR
Herramientas - Nancy I. López
2011
¿Cómo puede medirse el cambio evolutivo?
Distancia evolutiva entre 2 especies medida por diferencias en la
secuencias de nucleótidos o aa de macromoléculas homólogas.
Las secuencias de DNA, RNA y proteínas han cambiado muy
lentamente durante la evolución.
Diferentes moléculas: diferentes velocidades de evolución. Muchas
secuencias son mosaicos de diferentes velocidades evolutivas.
RNA: diferentes regiones estructurales evolucionan a diferentes
velocidades
Proteinas: Cambios silenciosos (x ej. posición 3 de codones). Carácter
degenerado del código genético.
Herramientas - Nancy I. López
2011
¿Qué secuencias deberíamos utilizar?
Elección de la secuencia:
¿evolución rápida o lenta?
¿relaciones cercanas o distantes?
Herramientas - Nancy I. López
2011
Elección de la molécula correcta
. Distribución universal
. Funcionalmente homóloga
. Alineamiento de secuencias debe permitir determinar regiones de
homología y regiones de heterogeneidad
. Secuencia elegida debería variar en forma proporcional con la
distancia evolutiva a medir
. No debe estar sujeta a transferencia entre organismos
filogenéticamente distantes (transferencia lateral)
. La cantidad de información debe ser suficiente para que
el análisis sea estadísticamente significativo.
Herramientas - Nancy I. López
2011
Elección de la mejor molécula para
estimar el tiempo evolutivo
Debido a la antigüedad del proceso de síntesis de
proteínas, el RNA es una excelente molécula para
discernir relaciones evolutivas entre organismos
vivientes
.Tiene distribución universal y cumple una misma función
. Cambia muy lentamente
. Posee regiones altamente conservadas en todos los
organismos y regiones con mayor variabilidad. Permite
comparaciones entre organismos muy relacionados o poco
relacionados
RNA mejor cronómetro o reloj molecular
Herramientas - Nancy I. López
2011
Ribosomas:
Presentes en todos los organismos (procariotas, plantas, animales).
Características en procariotas
3 tipos de moléculas RNA: 5S, 16S y 23S.
Subunidad pequeña (30S): 16S
Subunidad mayor (50S): 5S, y 23S
16S 1500 nucleótidos
18S eucariotas 1874 nucleótidos
Regiones + conservadas y regiones variables.
Más conservadas para comparar los más distantes y más
variables para los más cercanos.
Regiones únicas secuencia firma (signature) usadas para diseñar sondas.
•Técnicas de secuenciación desarrolladas y mejoradas para facilitar el análisis. Gen
16S rRNA: 2 cadenas confirman la secuencia (PCR simple).
Otras moléculas
Citocromo c y ribulosa 1,5 bisfosfato carboxilasa (Rubisco). No
universales.
Herramientas - Nancy I. López
2011
Mólecula del 16S rDNA en procariotas tiene su equivalente
en 18S rDNA de eucariotas
Eucariotas
Homo sapiens
S. cereviceae
Zea maize
Escherichia coli
Anacystis nidulans
Thermotoga maritima
Methanococcus vannielii
Thermococcus celer
Sulfolobus sulfotaricus
Alineamiento de una región altamente
conservada del 16S/18S rRNA
...GTGCCAGCAGCCGCGGTAATTCCAGCTCCAATAGCGTATATTAAAGTTGCTGCAGTTAAAAAG...
...GTGCCAGCAGCCGCGGTAATTCCAGCTCCAATAGCGTATATTAAAGTTGTTGCAGTTAAAAAG...
...GTGCCAGCAGCCGCGGTAATTCCAGCTCCAATAGCGTATATTTAAGTTGTTGCAGTTAAAAAG...
...GTGCCAGCAGCCGCGGTAATACGGAGGGTGCAAGCGTTAATCGGAATTACTGGGCGTAAAGCG...
...GTGCCAGCAGCCGCGGTAATACGGGAGAGGCAAGCGTTATCCGGAATTATTGGGCGTAAAGCG...
...GTGCCAGCAGCCGCGGTAATACGTAGGGGGCAAGCGTTACCCGGATTTACTGGGCGTAAAGGG...
...GTGCCAGCAGCCGCGGTAATACCGACGGCCCGAGTGGTAGCCACTCTTATTGGGCCTAAAGCG...
...GTGGCAGCCGCCGCGGTAATACCGGCGGCCCGAGTGGTGGCCGCTATTATTGGGCCTAAAGCG...
...GTGTCAGCCGCCGCGGTAATACCAGCTCCGCGAGTGGTCGGGGTGATTACTGGGCCTAAAGCG...
Procariotas
Herramientas - Nancy I. López
2011
Regiones conservadas y variables en la
molécula del 16S rRNA
Estructura tridimensional compleja
que interactúa con proteínas y otros RNAs.
E. coli 1.542 pb
Cambios en esta maquinaria son
contra seleccionados.
Modificaciones que han ocurrido
en billones de años de evolución
son usados para construir árboles
filogenéticos.
Herramientas - Nancy I. López
2011
“Revolución de Woese”
RNA ribosomal 16S/18S
1977 Carl Woese Filogenia universal. Sus investigaciones sentaron las bases
de la filogenia molecular de procariotas utilizando el 16S rDNA.
Sustento experimental
Herramientas - Nancy I. López
2011
Woese y Fox. 1977. Phylogenetic structure of the prokaryotic domain: the primary kingdoms. PNAS 74:5088-5090.
Otras aplicaciones del 16S rRNA
•Exploración de diversidad de procariotas no cultivables.
Nuevos phyla descubiertos por análisis molecular de hábitats
naturales
Arbol filogenético basado
en secuencias del gen
del 16S rRNA de
Bacteria, basado en
cultivos puros y
bibliotecas genómicas de
muestras naturales.
(Hugenholz, P, Goebel BM and Pace, NR. 1998. J. Bacteriol. 180:4765-4774).
Herramientas - Nancy I. López
2011
Otras aplicaciones del 16S rRNA
•Identificación: diseño de sondas
marcadas a partir de las
secuencias “firma” del 16S rRNA
. Monitoreo de comunidades
microbianas por técnicas
independientes del cultivo.
. Detección de patógenos en una
comunidad.
Células de E. coli, Bordetella y Legionella.
Hibridización con sonda para bacterias (Eub338verde) y con sonda específica para Legionella
micdadei (amarillo). FlSH (Fluorescent in situ
hybridization)
Herramientas - Nancy I. López
2011
Bases de datos
Bases de datos de Nucleótidos:
.GenBank: International Collaboration
NCBI (USA), EMBL (Europe), DDBJ (Japan and Asia)
Herramientas BLAST
Ribosomal Database Project Michigan State University
(http://rdp.cme.msu.edu/)
RDP Release 10, Update 18 :: Jan 25, 2010 :: 1,358,426 16S rRNAs
RDP Release 10, Update 3 :: September 4, 2008 :: 677,057 16S rRNAs
Septiembre 2006 (Release 9.42), 262.030 secuencias
84.442 bacterias cultivadas
177.588 de muestras ambientales
101.877 casi largo total (1200 bases)
5.543 secuencias de especies tipo (type strains). Importantes por su valor
taxonómico y filogenético.
Herramientas - Nancy I. López
2011
Herramientas - Nancy I. López
2011
Herramientas - Nancy I. López
2011
ERA GENÓMICA
Herramientas - Nancy I. López
2011
Filogenómica
Árboles ¿en qué se basan?
Análisis filogenético clásico: Darwin (Origin of
species, November 24, 1859) propiedades
morfológicas y fisiológicas (ej.: sangre fría y
sangre caliente, escamas, dientes, alas, etc.)
Métodos basados datos moleculares:
secuencias homólogas en diferentes especies
(DNA o proteinas)
La filogenia molecular permite
obtener árboles basados
en genes o secuencias y estos pueden
ser adecuados como árboles para
organismos.
Herramientas - Nancy I. López
2011
Datos moleculares (en particular secuencias de DNA)
son más “potentes” que los datos morfológicos y
fisiológicos
.- Proteínas y de DNA evolución + regular
.- Ofrecen amplias posibilidades de tratamientos
cuantitativos.
.- Son más abundantes.
Moléculas como testimonio de la historia evolutiva
Herramientas - Nancy I. López
2011
Construcción de árboles filogenéticos
1. Definir conjunto de secuencias a analizar (DNA,
RNA o proteínas) provenientes de distintos
organismos
2. Alinear correctamente esas secuencias
3. Aplicar métodos adecuados para la
construcción de árboles filogenéticos
4. Evaluar estadísticamente el árbol filogenético
obtenido
Herramientas - Nancy I. López
2011
Árboles
. se pueden graficar de cualquier manera
. complejidad
rotación (todas las ramas
pueden rotar alrededor del plano de sus
nodos
árboles =)
. crecen de izquierda a derecha
OTU
. etiquetas son horizontales.
Herramientas - Nancy I. López
2011
Árboles con y sin raíz
Raíz: nodo del cual los otros descienden.
Da dirección
Patrón de ramificación:
topología
Definir outgroup:
. Miembro no natural del grupo de interés.
. punto medio
Herramientas - Nancy I. López
2011
Number of
sequences
3
4
5
6
7
8
9
10
Number of
unrooted trees
Number of rooted trees
1
3
15
105
945
10395
135135
2027025
3
15
105
945
10395
135135
2027025
34459425
Nr=(2n-3)!/[2n-2*(n-2)!], n ≥2
Nu=(2n-5)!/[2n-3*(n-3)!], n ≥3
Nr para n = Nu para n+1
Herramientas - Nancy I. López
2011
Esquema árbol
OTUs son:
.- Monofiléticos. Ej.: B y C.
.- Polifiléticos. Ej.: D y C.
Herramientas - Nancy I. López
2011
Dendrograma: Término general
Cladograma: es el modelo básico y simplemente muestra la distancia al antecesor común
en términos relativos. Las ramas son de igual longitud por lo cual no indican el tiempo
evolutivo.
Filograma: contiene información adicional dada por la longitud de las ramas. Los números
asociados con cada rama corresponden a un atributo de las secuencias, tal como cantidad
de cambio evolutivo. Es aditivo. Métricos.
Ultramétricos: tipo especial de árbol aditivo en el cual los extremos del árbol son
Herramientas - Nancy I. López
equidistantes de la raíz y son proporcionales2011
al tiempo de divergencia. Ultramétricos.
ÁRBOLES ADITIVOS
1) Todas las distancias son positivas.
2) Una distancia entre 2 puede ser cero si los 2
puntos son iguales: d(x,y)=0 si x=y.
3) Distancias son simétricas d(x,y)= d(y,x).
4) d (x,y)< d(x,z)+d(z,y).
Arboles ultramétricos
Siguen estas reglas (son aditivos) y :
* d(x,y)≤máx {d(x,z),d(z,y)}. Define triángulo
Herramientas - Nancy I. López
isósceles
2011
Secuencias
alineadas
Algoritmo
Árbol filogenético
Algoritmos:
Métodos de Distancia: UPGMA (Unweighted Pair Group Method with
Arithmetic Mean), Vecino más cercano (Neighbor Joining)
Métodos basados en el carácter (secuencia): Máxima parsimonia (Maximum
Parsimony), Máxima verosimilitud (Maximum Likelihood).
Herramientas - Nancy I. López
2011
Métodos para la construcción
de árboles filogenéticos
Métodos de distancia
Utilizan matrices de distancia
UPGMA: (Unweighted Pair Group Method with Arithmetic Mean)
Agrupamiento pareado no ponderado utilizando media aritmética. Es el método más
simple. Asume la existencia de un reloj molecular evolutivo.
NJ-Neighbour Joining. Vecino más cercano
Minimum evolution. Utiliza el método de cuadrados mínimos.
Métodos discretos
Operan directamente con las secuencias
Parsimonia: usa un carácter. Criterio: buscar el menor número de cambios evolutivos
requeridos Las hipótesis más sencillas son más probables que las más complicadas.
Máxima verosimilitud (Maximum likelihood): utiliza el estado del carácter y la distancia.
Encuentra el árbol que con mayor probabilidad haya dado origen a los datos observados.
Herramientas - Nancy I. López
2011
Matriz de distancias
Sitios
Secuencias
1 2 3 4 5 6 7
1
2
3
4
T
A
A
A
T
A
A
A
A
T
A
A
T
T
A
A
T
T
A
A
A
A
T
A
A
A
A
T
Distancias
10
2 30
3 5 40
4 5 4 20
___________
1 2 34
Diferencia o divergencia entre las secuencias
.- Rápidos
.- información restringida al árbol
Herramientas - Nancy I. López
2011
Métodos discretos
Analizan cada columna dentro del
alineamiento y construyen el mejor árbol que
se ajusta a esa codición
.- lentos
.- ricos en información. Hipótesis para cada
columna dentro del alineamiento. Puede
obtenerse información sobre evolución de
sitios específicos en la molécula (Ej.: sitios
catalíticos o regiones regulatorias).
Herramientas - Nancy I. López
2011
Máxima parsimonia
Utiliza más información que los métodos de distancia
No requiere un modelo de evolución
Herramientas - Nancy I. López
Se justifica con argumentos
filosóficos más que estadísticos
2011
¿Cómo comparar diferentes métodos de
construcción de árboles?
Eficiencia : rapidez
“potencia”: número de datos requeridos para
obtener resultados razonables
Consistencia
Robustez: sensibilidad a desviaciones
Información sobre si los supuestos son
violados.
METODO IDEAL DEBERIA CUMPLIR LOS 5
CRITERIOS PERO NO EXISTE
Probar árboles con más de un método
Herramientas - Nancy I. López
2011
Comparación de métodos para la
construcción de árboles filogenéticos
Tener en cuenta los supuestos de cada método.
El funcionamiento de un método es testeado por
modelos de simulación con computadora y por
pruebas empíricas.
Ej.: . Modelos simples por ej. Subunidad pequeña
del rRNA para comparar eucariotas.
. Bacteriofago T7 manipulado en lab. a través de
muchas generaciones analizando la tasa de
mutación.
Pocos métodos son explícitos acerca del patrón y la
tasa de sustitución de nucleótidos.
Herramientas - Nancy I. López
2011
4. Evaluación estadística del árbol
filogenético obtenido
El test más simple para probar si el
conjunto de datos “soportan” el árbol
obtenido es el del bootstrap.
Es un método estadístico que puede estimar
las distribuciones por creación repetida y
análisis de conjuntos de datos artificiales.
Medir el error de muestreo: tomar muchas muestras de la
población estudiada y compararlas. Bootstrap simula esto pero
en lugar de muestrear de una población “remuestrea” los datos
originando pseudorréplicas.
Herramientas - Nancy I. López
2011
Valores de bootstrap ( %).
> 50 %.
Puede aplicarse a todos los métodos
Herramientas - Nancy I. López
2011
Purinas
Transiciones
Pirimidinas
Herramientas - Nancy I. López
2011
Programas
ClustalW Alineamiento
Graficar con Treeview, Phylodraw
NJ-Plot
PHYLIP
MEGA 3.1 Es el más fácil de manejar
(Molecular Evolutionary Genetics Analysis)
PAUP* (POP STAR). Es el más sofisticado y
versátil
Herramientas - Nancy I. López
2011
TRABAJO PRÁCTICO -TP6.A
Secuencias simples
Alineamiento múltiple. Analizar. Observar árbol guía.
ClustalW para construir el árbol. Modificar opciones
en la ventana “Phylogenetic tree”. Método utilizado
por el programa es el del NJ-Vecino más cercano
(Neighbour Joining). Elegir entre los posibles
formatos de árbol (Neighbour, Phylip, Distance)
Con el archivo obtenido del CLustalW entrar en el
programa Treeview y graficar el árbol.
Herramientas - Nancy I. López
2011
TREEVIEW
Herramientas - Nancy I. López
2011
Programa MEGA 3.1
Tutorial
0. Armar archivo.
Alineamiento múltiple.
Herramientas - Nancy I. López
2011
Alineamiento
Herramientas - Nancy I. López
2011
Herramientas - Nancy I. López
2011
Construir el árbol con bootstrap. Probar distintos métodos
Herramientas - Nancy I. López
2011
B. Comparación de los árboles filogenéticos
obtenidos para microorganismos
construidos en base a la secuencia de
proteínas y a secuencias del 16S rRNA
Herramientas - Nancy I. López
2011
TRANSFERENCIA HORIZONTAL
Especiación: Proceso por el cual los organismos evolucionan:
determinado por transferencia vertical o herencia
Genotipo parental pasa a la progenie.
Bacterias pueden adquirir material genético de otros organismos a
través de diversos mecanismos por un fenómeno denominado
transferencia horizontal o lateral.
Rápidos cambios en la estructura poblacional en cortos períodos de t.
Ej.: resistencia a antibióticos.
Duplicación de genes, transferencia lateral entre otros procesos
puede producir discrepancias entre filogenias basadas en genes y las
referidas a organismos.
Transferencia lateral es uno de los mecanismos que crea
confusión en la interpretación de árboles filogenéticos
Herramientas - Nancy I. López
2011
Árboles basados en distintas moléculas
Diferentes moléculas pueden obtenerse
árboles MUY diferentes a partir de los
mismos organismos
Requisito que debe cumplir un marcador
no ser objeto de transferencia horizontal.
Herramientas - Nancy I. López
2011
Transferencia horizontal
Rojo: genes adquiridos por transferencia horizontal
Discrepancia en datos de rRNA?
Existe cierta evidencia que los genes ribosomales sufren transferencia
lateral y recombinación genética.
Herramientas - Nancy I. López
2011
Microbiology (2000), 146, 2845-2854
Comparative sequence analyses reveal frequent occurrence of short
segments containing an abnormally high number of non-random base
variations in bacterial rRNA genes
Yue Wang1 and Zhenshui Zhang1
Microbial Collection and Screening Laboratory, Institute of Molecular and Cell Biology, 30 Medical Drive, Singapore 117609 1
May 2003
Journal of Phycology
Volume 41 Issue 2 Page 380 - April 2005
EVIDENCE FOR LATERAL TRANSFER OF AN IE INTRON BETWEEN FUNGAL AND RED ALGAL SMALL
SUBUNIT rRNA GENES1
Kirsten M. Müllera2, Darlene W. Ellenora, Alison R. Sherwoodb, Robert G. Sheathc, Jamie J. Cannoned and Robin R. Gutelld
J Bacteriol. 2003 December; 185(24): 7241–7246.
Horizontal Transfer of Segments of the 16S rRNA Genes between Species of the Streptococcus
anginosus Group
Leo M. Schouls,1* Corrie S. Schot,1 and Jan A. Jacobs2
Laboratory for Vaccine-Preventable Diseases, National Institute of Public Health and the Environment, Bilthoven,1
Department of Medical Microbiology, University
Hospital -ofNancy
Maastricht,
Maastricht, The Netherlands2
Herramientas
I. López
2011
TRANSFERENCIA HORIZONTAL DE
INFORMACIÓN GENÉTICA EN BACTERIAS
Movimiento de material genético por mecanismos distintos a la
reproducción o transferencia vertical.
Mecanismos:
Transformación
Conjugación
Transducción
Agentes:
 Virus
Plásmidos
 Elementos genéticos móviles
Secuencias de insercióntransposones
Islas bacterianas
Herramientas - Nancy I. López
2011
Construcción de árboles filogenéticos
del gen o proteína de interés vs. 16S rRNA
Transferencia
horizontal
puede ser
inferida
Análisis del contenido de G+C del
gen vs. el resto del genoma
Uso de codones
Herramientas - Nancy I. López
2011
TRABAJO PRÁCTICO
A. Construcción de un árbol filogenético
B. Comparación de los árboles
filogenéticos obtenidos a partir de
secuencias de proteínas y de secuencias
del gen del 16S rRNA
Herramientas - Nancy I. López
2011
Construcción de árboles filogenéticos
1. Definir conjunto de secuencias a analizar (DNA,
RNA o proteínas) provenientes de distintos
microorganismos
2. Alinear correctamente esas secuencias
3. Aplicar métodos adecuados para la
construcción de árboles filogenéticos
4. Evaluar estadísticamente el árbol filogenético
obtenido
Herramientas - Nancy I. López
2011
TP6 parte B
1. Secuencias de la 1,2 y de la 2,3 catecol
dioxigenasa. Armar archivo.
2. Buscar las secuencias correpondientes
al gen del 16 S rRNA de las especies
que poseen la enzima.
3. Realizar los árboles filogenéticos.
Probar con más de un método
4. Comparar los árboles obtenidos.
Herramientas - Nancy I. López
2011
Catecol dioxigenasas
(1,2 CDO-2,3 CDO)
Catechol 1,2 dioxygenase
Catechol 2,3 dioxygenase
Herramientas - Nancy I. López
2011
Gram –/Proteobacterias
Alfa-Proteobacterias
Bradyrhizobium japonicum 1,2 CDO
Bradyrhizobium sp. 1,2 CDO
Rhizobium etli 1,2 CDO
Rhizobium sp. ZJF08 2,3 CDO
Catecol dioxigenasas
(1,2 CDO-2,3 CDO)
Catechol 1,2 dioxygenase
Catechol 2,3 dioxygenase
ß-Proteobacteria
Burkholderia sp. TH2 1,2 CDO
Burkholderia sp. 383
Burkholderia sp. RP007 2,3 CDO
Alcaligenes sp. 2,3 CDO
Ralstonia eutropha/Cupriavidus necator H16 2,3 CDO
Achromobacter sp. 2,3 CDO
Ralstonia eutropha JMP134 1,2 CDO
Gram +
Delftia tsuruhatensis 2,3 CDO
Rhodococcus sp. RHA1 1,2 CDO
Rhodococcus sp. RHA1 1,2 CDO
Gama-Proteobacterias
Rhodococcus opacus 1,2 CDO
Pseudomonas stutzeri 2,3 CDO
Arthrobacter sp. BA-5-17 2,3 CDO
Pseudomonas mendocina 2,3 CDO
Geobacillus thermoglucosidasius 2,3 CDO
Pseudomonas aeruginosa 2,3 CDO
Azotobacter vinelandii 2,3 CDO
Pseudomonas putida KT2440 1,2 CDO
Pseudomonas aeruginosa PAO1 1,2 CDO
Pseudomonas fluorescens PfO-1 1,2 CDO
Marinobacter algicola 2,3 CDO
Herramientas - Nancy I. López
Acinetobacter 1,2 CDO
2011