Download Diapositiva 1

Document related concepts

Metagenómica wikipedia , lookup

Transcript
Bioinformática para el análisis de metagenomas
Javier Tamames
Centro Superior de Investigación en Salud Pública
Generalitat Valenciana
Proyectos de metagenómica
2
11
7
72
1600
200
110
62
2
200
1
<1
2000
316
28
180
6123
727
Hugenholtz et al, Nature 455, 481 (2008)
Proyectos de metagenómica
SYNTHETIC
AERIAL
WORMS
ANIMALS
CORALS
INSECTS
19
Completed
Ongoing
96
VIRAL
BIOREACTOR
FOSSIL
PLANTS
HUMAN
36:MARINE
35:MARINE
34:HUMAN
33:AQUATIC
32:SIMULATED
31:MARINE
30:PLANTS
29:AQUATIC
28:ANIMALS
27:
26:MARINE
25:AQUATIC
24:BIOREACTOR
23:SOIL
22:PLANTS
21:FOSSIL
20:HUMAN
19:PLANTS
18:EXTREME
17:WORMS
16:FOSSIL
15:MARINE
14:EXTREME
13:SOIL
12:AQUATIC
11:SOIL
10:MARINE
9:AQUATIC
8:MARINE
7:BIOREACTOR
6:HUMAN
5:SAND
4:EXTREME
3:MARINE
2:FOSSIL
1:FOSSIL
SOIL
AQUATIC
EXTREME
MARINE
10
15
20
Number of projects
25
180
160
140
120
100
80
60
40
20
0
20
00
20
01
20
02
20
03
20
04
20
05
20
06
20
07
Number of articles
5
0
500
1000
Size (Mb)
1500
2000
Year
Estudio de comunidades bacterianas
Secuenciación 16S
rDNA
Objetivo
Usos
Secuenciación
metagenómica
Estudiar la composición y
abundancia de especies
en la muestra
Estudiar genes y genomas
presentes en la muestra
Estudiar el número de
especies en la muestra
Describir el perfil funcional
de la muestra
Estudiar la distribución
taxonómica en la muestra
Obtención de genes de
interés
Describir la diversidad de
la muestra
Relacionar funciones y
especies de procedencia
Comparar diferentes
muestras a nivel de la
composición en especies
Comparar diferentes
muestras a nivel de la
composición funcional
Relacionar poblaciones
con factores externos
Determinar posibles
relaciones en la
comunidad
Secuenciación del 16S rDNA
PCR
Of 16S
rDNA genes
16S
Ligation
rDNA
amplicons
Transformation
Total DNA:
Sequencing
Analysis
Insert
PCR
(Giuseppe d’Auria)
Estimación del número de especies
Cluster distance
0.03
0.05
ID
Reads
OTU
ACE
Chao1
OTU
ACE
Chao1
FS396
17666
6326
23315
20949
5573
18003
16889
Sogin et al, Proc Natl Acad Sci USA 103, 12115-20 (2006)
SChao1=Sobs+ F12/ 2F2
Estimación del número de especies
Est. Error Est. OTUs
Power law
Fungi
Desert
Prairie
Rainforest
30.0
20.5
9.66
2 x 104
2 x 109
2 x 103
Log-normal
Fungi
Desert
Prairie
Rainforest
42.7
23.7
9.00
7 x 104
1 x 106
2 x 104
Logarithmic
Fungi
Desert
Prairie
Rainforest
62.0
29.0
28.1
2 x 103
2 x 103
1 x 103
Fierer et al, Appl Environm Microbiol 73, 7059-66 (2007)
Diversidad de las comunidades
Indices de diversidad
Tratan de medir la forma de la distribución de
especies en la comunidad
Indice de Simpson
D =  ni (ni -1) / N (N -1)
Asignación taxonómica de secuencias 16S rDNA
RDP classifier
http://rdp.cme.msu.edu
Bacteria[100%]
Proteobacteria[100%]
Alphaproteobacteria[100%]
Rhodobacterales[100%]
Rhodobacteraceae[97%]
Sulfitobacter[90%]
Blast hits
Asignación taxonómica de secuencias 16S rDNA
Sundquist et al, BMC Microbiol 7, 108 (2007)
Comparación de la composición de comunidades
Eckburg et al, Science 308, 1635-8 (2005)
Comparación de comunidades
TreeClimber algorithm
Schloss & Handelsman, Appl Environ Microb 72, 2379-84 (2006)
Relación con factores externos
Comparing the populations (PCA)
Analyzing the relationships between
populations and the environment (DCA)
Other tissues
Eckburg et al, Science 308, 1635-8 (2005)
Tamames et al (2009)
Estudio de comunidades bacterianas
Secuenciación 16S
rDNA
Objetivo
Usos
Secuenciación
metagenómica
Estudiar la composición y
abundancia de especies
en la muestra
Estudiar genes
presentes en la muestra
Estudiar el número de
especies en la muestra
Describir el perfil
funcional de la muestra
Estudiar la distribución
taxonómica en la muestra
Obtención de genes de
interés
Describir la diversidad de
la muestra
Relacionar funciones y
especies de procedencia
Comparar diferentes
muestras a nivel de la
composición en especies
Comparar diferentes
muestras a nivel de la
composición funcional
Relacionar poblaciones
con factores externos
Determinar posibles
relaciones en la
comunidad
Métodos de secuenciación de alto rendimiento
454
SOLiD
Ligación
Longitud lecturas: 35-50 nt
Precio:0.0005 $/base
Síntesis, liberación de pirofosfato
Longitud lecturas: 100-150/400 nt
Precio:0.003 $/base
Illumina
Amplificación: terminadores
y fluoróforos
Longitud lecturas: 35 nt
Precio:0.0007 $/base
Bioinformatics workflow for metagenomics
AAGACGTGGACA
GTCCGTCACAACTGA
AAGACGTGGACAGATCTGCTCAGGCTAGCATGAAC
CATGCGTGCATG
GATAGGTGGACCGATATGCATTAGACTTGCAGGGC
AGTCGTCAGTCATGGG
Short reads (40-150 bps)
1
3000
Assembly
Contigs
Gene prediction
6000
1
1
3000
6000
2000
Homology searching
ORFs
Proteins, families, functions
Functional classification
Ontologies
Binning
Sequences into species
Functional profiles
Problemas asociados a las secuencias metagenómicas
Ensamblaje
Anotación
funcional
Binning
Secuencias
procedentes de
diversas especies
Formación de
quimeras
Sin efecto
Lo hace
necesario
Secuencias cortas
Métodos
genómicos no
aptos
Homología
con solo una
parte del hit
Poca señal
filogenética o
composicional
Secuencias con
errores
Menor soporte
para los contigs
Poco efecto
Poco efecto
Ensamblaje de metagenomas
Cantidad ensamblada
Errores
JAZZ 29%
Arachne 33%
Phrap 56%
JAZZ 32%
Arachne 44%
Phrap 66%
JAZZ 2%
Arachne 2%
Phrap 40%
Otros ensambladores: Newbler, Mira
Mavromatis et al, Nature Meth 4, 495-500 (2007)
Predicción de genes en metagenomas
Predicción de genes: Para genomas procariotas existen herramientas que funcionan
con alta precisión (>98%), pero no son utilizables para secuencias metagenómicas
Otros predictores: MetaGene
Mavromatis et al, Nature Meth 4, 495-500 (2007)
Búsquedas de homología mediante computación en grid
Tamaño de diversos metagenomas:
 Human gut microbiome: 10 Kb
 Whale fall 1: 28 Kb
 Minessotta farm soil: 135 Kb
 Sargasso Sea waters: 810 Kb
En colaboración con ITACA-UPV, usando EELA grid:
Búsquedas de homología en GenBank nr para el metagenoma del Mar de
los Sargazos
Realizado en 8 dias de tiempo real (25 genomas bacterianos medios/dia)
Asignación funcional a COGs
Dalevi et al, Bioinformatics 24, i7 (2008)
Comparing metagenomes
Turnbaugh et al, Nature 444, 1027-31 (2006)
Finding relationships between community members
Woyke et al, Nature 443, 950-5 (2006)
Tyson et al. Nature 428, 37-43 (2004)
Binning filogenético: MEGAN
Method
Sargasso Sea metagenome
E.coli assignment (2000 sequences)
Huson et al, Genome Res 17, 377 (2007)
Aproximaciones al binning
Aproximaciones filogenéticas
Basadas en el estudio de la filogenia de la secuencia problema
Dificultades
• Secuencias truncadas, no informativas para realizar la filogenia
• Filogenias ruidosas: Duplicaciones, HGT, diferentes tasas de mutación
• Resolución limitada en la taxonomía
• Costosas computacionalmente
Métodos composicionales de binning
Composición de las secuencias como vectores de oligonucleótidos
Seq1
Seq2
AGAG
0
0.12
AGAT
0.14
0.02
Filogenia 16S
AGGC
0.14
0
ATTA
0
0.05
CGTA
0.14
0.11
GACC
0
0.02
GATT
0
0.08
Filogenia tetranucleótidos
…
…
…
Métodos composicionales de binning
 Clasificadores Bayesianos (Sanberg et al, Genome Res 2001, 11: 1404-9)
 Máquinas de Soporte Vectorial (McHardy et al, Nature Methods 2007, 4, 63-72)
 Modelos de Markov (Teeling et al, Env Microbiol 2004, 6: 938-47)
 Mapas autoorganizativos (SOMs) (Abe et al, Genome Res 2003, 13, 693-702)
SVM: Phylopythia
(McHardy et al, Nature Methods 2007, 4, 63-72)
SOM
(Abe et al, Genome Res 13, 693-702, 2003)
Aproximaciones al binning
Aproximaciónes composicionales
Basadas en el estudio de la composición de las secuencias
Dificultades
• Secuencias cortas, por debajo de lo requerido por los métodos
• Se complica mucho en metagenomas complejos
• Confundidas facilmente por eventos de HGT
• Resolución limitada en el tiempo (pérdida de señal por amelioración)
Detección de eventos de HGT
Tamames et al, BMC Genomics 9, 136 (2008)
Metatranscriptómica
Alta expresión
Genes muy activos
3’
5’ 3’
Gen X
mRNA
Genoma
Gen Y
Metatranscriptoma
Metagenoma
(Gilbert)
(Frias-López)
DNA
Baja expresión
Genes poco activos
Frias López et al, Proc Natl Acad Sci USA 105, 3805 (2008)
Gilbert et al, PLoS ONE 3, e3042 (2008)
Conclusiones
Bioinformática para el estudio de metagenomas
• Ensamblaje
Varios métodos ya desarrollados
Buenos resultados para metagenomas simples (en torno a 50% ensamblado)
Muy dificil para metagenomas complejos
• Predicción de genes
Varios métodos ya desarrollados, con buenos resultados para la mayoría de casos
• Búsqueda de homologías
Problema computacional por la gran cantidad de datos. Supercomputación, grids
• Asignación funcional
Muy buena precisión, pero posible para menos de la mitad de genes
• Binning
Varios métodos ya desarrollados
Buena precisión para secuencias largas (>5 Kb). Poco útiles en la práctica
• Metatranscriptómica
Métodos en desarrollo