Download Diapositiva 1
Transcript
Bioinformática para el análisis de metagenomas Javier Tamames Centro Superior de Investigación en Salud Pública Generalitat Valenciana Proyectos de metagenómica 2 11 7 72 1600 200 110 62 2 200 1 <1 2000 316 28 180 6123 727 Hugenholtz et al, Nature 455, 481 (2008) Proyectos de metagenómica SYNTHETIC AERIAL WORMS ANIMALS CORALS INSECTS 19 Completed Ongoing 96 VIRAL BIOREACTOR FOSSIL PLANTS HUMAN 36:MARINE 35:MARINE 34:HUMAN 33:AQUATIC 32:SIMULATED 31:MARINE 30:PLANTS 29:AQUATIC 28:ANIMALS 27: 26:MARINE 25:AQUATIC 24:BIOREACTOR 23:SOIL 22:PLANTS 21:FOSSIL 20:HUMAN 19:PLANTS 18:EXTREME 17:WORMS 16:FOSSIL 15:MARINE 14:EXTREME 13:SOIL 12:AQUATIC 11:SOIL 10:MARINE 9:AQUATIC 8:MARINE 7:BIOREACTOR 6:HUMAN 5:SAND 4:EXTREME 3:MARINE 2:FOSSIL 1:FOSSIL SOIL AQUATIC EXTREME MARINE 10 15 20 Number of projects 25 180 160 140 120 100 80 60 40 20 0 20 00 20 01 20 02 20 03 20 04 20 05 20 06 20 07 Number of articles 5 0 500 1000 Size (Mb) 1500 2000 Year Estudio de comunidades bacterianas Secuenciación 16S rDNA Objetivo Usos Secuenciación metagenómica Estudiar la composición y abundancia de especies en la muestra Estudiar genes y genomas presentes en la muestra Estudiar el número de especies en la muestra Describir el perfil funcional de la muestra Estudiar la distribución taxonómica en la muestra Obtención de genes de interés Describir la diversidad de la muestra Relacionar funciones y especies de procedencia Comparar diferentes muestras a nivel de la composición en especies Comparar diferentes muestras a nivel de la composición funcional Relacionar poblaciones con factores externos Determinar posibles relaciones en la comunidad Secuenciación del 16S rDNA PCR Of 16S rDNA genes 16S Ligation rDNA amplicons Transformation Total DNA: Sequencing Analysis Insert PCR (Giuseppe d’Auria) Estimación del número de especies Cluster distance 0.03 0.05 ID Reads OTU ACE Chao1 OTU ACE Chao1 FS396 17666 6326 23315 20949 5573 18003 16889 Sogin et al, Proc Natl Acad Sci USA 103, 12115-20 (2006) SChao1=Sobs+ F12/ 2F2 Estimación del número de especies Est. Error Est. OTUs Power law Fungi Desert Prairie Rainforest 30.0 20.5 9.66 2 x 104 2 x 109 2 x 103 Log-normal Fungi Desert Prairie Rainforest 42.7 23.7 9.00 7 x 104 1 x 106 2 x 104 Logarithmic Fungi Desert Prairie Rainforest 62.0 29.0 28.1 2 x 103 2 x 103 1 x 103 Fierer et al, Appl Environm Microbiol 73, 7059-66 (2007) Diversidad de las comunidades Indices de diversidad Tratan de medir la forma de la distribución de especies en la comunidad Indice de Simpson D = ni (ni -1) / N (N -1) Asignación taxonómica de secuencias 16S rDNA RDP classifier http://rdp.cme.msu.edu Bacteria[100%] Proteobacteria[100%] Alphaproteobacteria[100%] Rhodobacterales[100%] Rhodobacteraceae[97%] Sulfitobacter[90%] Blast hits Asignación taxonómica de secuencias 16S rDNA Sundquist et al, BMC Microbiol 7, 108 (2007) Comparación de la composición de comunidades Eckburg et al, Science 308, 1635-8 (2005) Comparación de comunidades TreeClimber algorithm Schloss & Handelsman, Appl Environ Microb 72, 2379-84 (2006) Relación con factores externos Comparing the populations (PCA) Analyzing the relationships between populations and the environment (DCA) Other tissues Eckburg et al, Science 308, 1635-8 (2005) Tamames et al (2009) Estudio de comunidades bacterianas Secuenciación 16S rDNA Objetivo Usos Secuenciación metagenómica Estudiar la composición y abundancia de especies en la muestra Estudiar genes presentes en la muestra Estudiar el número de especies en la muestra Describir el perfil funcional de la muestra Estudiar la distribución taxonómica en la muestra Obtención de genes de interés Describir la diversidad de la muestra Relacionar funciones y especies de procedencia Comparar diferentes muestras a nivel de la composición en especies Comparar diferentes muestras a nivel de la composición funcional Relacionar poblaciones con factores externos Determinar posibles relaciones en la comunidad Métodos de secuenciación de alto rendimiento 454 SOLiD Ligación Longitud lecturas: 35-50 nt Precio:0.0005 $/base Síntesis, liberación de pirofosfato Longitud lecturas: 100-150/400 nt Precio:0.003 $/base Illumina Amplificación: terminadores y fluoróforos Longitud lecturas: 35 nt Precio:0.0007 $/base Bioinformatics workflow for metagenomics AAGACGTGGACA GTCCGTCACAACTGA AAGACGTGGACAGATCTGCTCAGGCTAGCATGAAC CATGCGTGCATG GATAGGTGGACCGATATGCATTAGACTTGCAGGGC AGTCGTCAGTCATGGG Short reads (40-150 bps) 1 3000 Assembly Contigs Gene prediction 6000 1 1 3000 6000 2000 Homology searching ORFs Proteins, families, functions Functional classification Ontologies Binning Sequences into species Functional profiles Problemas asociados a las secuencias metagenómicas Ensamblaje Anotación funcional Binning Secuencias procedentes de diversas especies Formación de quimeras Sin efecto Lo hace necesario Secuencias cortas Métodos genómicos no aptos Homología con solo una parte del hit Poca señal filogenética o composicional Secuencias con errores Menor soporte para los contigs Poco efecto Poco efecto Ensamblaje de metagenomas Cantidad ensamblada Errores JAZZ 29% Arachne 33% Phrap 56% JAZZ 32% Arachne 44% Phrap 66% JAZZ 2% Arachne 2% Phrap 40% Otros ensambladores: Newbler, Mira Mavromatis et al, Nature Meth 4, 495-500 (2007) Predicción de genes en metagenomas Predicción de genes: Para genomas procariotas existen herramientas que funcionan con alta precisión (>98%), pero no son utilizables para secuencias metagenómicas Otros predictores: MetaGene Mavromatis et al, Nature Meth 4, 495-500 (2007) Búsquedas de homología mediante computación en grid Tamaño de diversos metagenomas: Human gut microbiome: 10 Kb Whale fall 1: 28 Kb Minessotta farm soil: 135 Kb Sargasso Sea waters: 810 Kb En colaboración con ITACA-UPV, usando EELA grid: Búsquedas de homología en GenBank nr para el metagenoma del Mar de los Sargazos Realizado en 8 dias de tiempo real (25 genomas bacterianos medios/dia) Asignación funcional a COGs Dalevi et al, Bioinformatics 24, i7 (2008) Comparing metagenomes Turnbaugh et al, Nature 444, 1027-31 (2006) Finding relationships between community members Woyke et al, Nature 443, 950-5 (2006) Tyson et al. Nature 428, 37-43 (2004) Binning filogenético: MEGAN Method Sargasso Sea metagenome E.coli assignment (2000 sequences) Huson et al, Genome Res 17, 377 (2007) Aproximaciones al binning Aproximaciones filogenéticas Basadas en el estudio de la filogenia de la secuencia problema Dificultades • Secuencias truncadas, no informativas para realizar la filogenia • Filogenias ruidosas: Duplicaciones, HGT, diferentes tasas de mutación • Resolución limitada en la taxonomía • Costosas computacionalmente Métodos composicionales de binning Composición de las secuencias como vectores de oligonucleótidos Seq1 Seq2 AGAG 0 0.12 AGAT 0.14 0.02 Filogenia 16S AGGC 0.14 0 ATTA 0 0.05 CGTA 0.14 0.11 GACC 0 0.02 GATT 0 0.08 Filogenia tetranucleótidos … … … Métodos composicionales de binning Clasificadores Bayesianos (Sanberg et al, Genome Res 2001, 11: 1404-9) Máquinas de Soporte Vectorial (McHardy et al, Nature Methods 2007, 4, 63-72) Modelos de Markov (Teeling et al, Env Microbiol 2004, 6: 938-47) Mapas autoorganizativos (SOMs) (Abe et al, Genome Res 2003, 13, 693-702) SVM: Phylopythia (McHardy et al, Nature Methods 2007, 4, 63-72) SOM (Abe et al, Genome Res 13, 693-702, 2003) Aproximaciones al binning Aproximaciónes composicionales Basadas en el estudio de la composición de las secuencias Dificultades • Secuencias cortas, por debajo de lo requerido por los métodos • Se complica mucho en metagenomas complejos • Confundidas facilmente por eventos de HGT • Resolución limitada en el tiempo (pérdida de señal por amelioración) Detección de eventos de HGT Tamames et al, BMC Genomics 9, 136 (2008) Metatranscriptómica Alta expresión Genes muy activos 3’ 5’ 3’ Gen X mRNA Genoma Gen Y Metatranscriptoma Metagenoma (Gilbert) (Frias-López) DNA Baja expresión Genes poco activos Frias López et al, Proc Natl Acad Sci USA 105, 3805 (2008) Gilbert et al, PLoS ONE 3, e3042 (2008) Conclusiones Bioinformática para el estudio de metagenomas • Ensamblaje Varios métodos ya desarrollados Buenos resultados para metagenomas simples (en torno a 50% ensamblado) Muy dificil para metagenomas complejos • Predicción de genes Varios métodos ya desarrollados, con buenos resultados para la mayoría de casos • Búsqueda de homologías Problema computacional por la gran cantidad de datos. Supercomputación, grids • Asignación funcional Muy buena precisión, pero posible para menos de la mitad de genes • Binning Varios métodos ya desarrollados Buena precisión para secuencias largas (>5 Kb). Poco útiles en la práctica • Metatranscriptómica Métodos en desarrollo