Download Gusano
Document related concepts
Transcript
¿Por qué es útil la comparación de la secuencia? Lipman, David (NIH/NLM/NCBI) Casi 100 Trillones BLAST comparaciones por cuarto (10/01) 1.E+14 9.E+13 8.E+13 7.E+13 6.E+13 5.E+13 4.E+13 3.E+13 2.E+13 . 1 E+13 0.E+00 1998 1999 Quarter 2000 2001 Similaridad rápida busca en banco de datos ácido nucleico y proteína. Con el desarrollo de bancos grandes de datos de secuencias de proteína y ácido nucleico, la necesidad de métodos eficientes en la búsqueda en tales bancos para secuencias similares a una secuencia dada que se ha convertido en evidente. Presentamos un algoritmo para la comparación global de secuencias basadas en matching k-tuples de secuencia de elementos para una k fijada. El método resulta en reducción sustancial en el tiempo requerido para buscar en una base de datos cuando se compara con técnicas anteriores de análisis de similaridad, con pérdida mínima en la sensibilidad. El algoritmo también ha sido adaptado, en una implementación separada, para producir alineamientos rigurosos de secuencia. Actualmente, usando el sistema DEC KL-10, podemos comparar todas las secuencias en todo el Banco de Datos de Proteínas de la Fundación Nacional de investigación Biomédica con a 350-residue query sequence en menos de 3 minutos y efectuar un análisis similar con una 500-base query sequence contra todas las secuencias eucariótas en la Base de Datos de Acido Nucleico Los Alamos en menos de 2 minutos. Gen del cáncer encuentra su pareja NY Times Julio 3, 1983 “…una búsqueda en computadora con serendipia…” v-sis: 6 QGDPIPEELYKMLSGHSIRSFDDLQRLLQGDSGKEDGAELDLNMTRSHSGGELESLARGK 65 QGDPIPEELY+MLS HSIRSFDDLQRLL GD G+EDGAELDLNMTRSHSGGELESLARG+ PDGF : 10 QGDPIPEELYEMLSDHSIRSFDDLQRLLHGDPGEEDGAELDLNMTRSHSGGELESLARGR 69 v-sis: 66 RSLGSLSVAEPAMIAECKTRTEVFEISRRLIDRTNANFLVWPPCVEVQRCSGCCNNRNVQ 125 RSLGSL++AEPAMIAECKTRTEVFEISRRLIDRTNANFLVWPPCVEVQRCSGCCNNRNVQ PDGF : 70 RSLGSLTIAEPAMIAECKTRTEVFEISRRLIDRTNANFLVWPPCVEVQRCSGCCNNRNVQ 129 v-sis: 126 CRPTQVQLRPVQVRKIEIVRKKPIFKKATVTLEDHLACKCEIVAAARAVTRSPGTSQEQR 185 CRPTQVQLRPVQVRKIEIVRKKPIFKKATVTLEDHLACKCE VAAAR VTRSPG SQEQR PDGF : 130 CRPTQVQLRPVQVRKIEIVRKKPIFKKATVTLEDHLACKCETVAAARPVTRSPGGSQEQR 189 v-sis: 186 AKTTQSRVTIRTVRVRRPPKGKHRKCKHTHDKTALKETLGA 226 AKT Q+RVTIRTVRVRRPPKGKHRK KHTHDKTALKETLGA PDGF : 190 AKTPQTRVTIRTVRVRRPPKGKHRKFKHTHDKTALKETLGA 230 V-sis y Factor de crecimiento derivado de plaquetas (PDGF) Un temprano, muy sutil descubrimiento… Productos genéticos virales src gene están relacionados a la cadena catalítica de mamíferos dependiente de la proteínkinasa cAMP Barker WC, Dayhoff MO. PNAS 1982 May;79(9):2836-2839 Query: 113 YAAQIVLTFEYLHSLDLIYRDLKPENLLIDQQGYIQVTDFGFAKR---VKGRTWT---LC 166 Y+ +V +LHS +++ DLKP N+LI +Q +++DFG +++ ++GR + + Sbjct: 125 YSLDVVNGLLFLHSQSILHLDLKPANILISEQDVCKISDFGCSQKLQDLRGRQASPPHIG 184 Query: 167 GTPEYLAPEIILSKGYNKAVDWWALGVLIYEMAAGYPPFFADQPIQIYEKIVSGKVR 223 GT + APEI+ + D ++ G+ +++M P ++ +P + +V+ +R Sbjct: 185 GTYTHQAPEILKGEIATPKADIYSFGITLWQMTTREVP-YSGEPQYVQYAVVAYNLR 240 Biología no algoritmos - Compara proteínas, no DNA - deberá detectar aminoácidos similares no sólo identificarlos ¿Con qué frecuencia encontraríamos parejas? ¿Cuantas familias de proteínas podría haber? En 1983, hubo sólo un pequeño porcentaje de genes del genoma de varios organismos distantes en la evolución (hombre, mosca, levadura, e. coli). Similitudes inesperadas son deberían ser extremadamente raras. Estimando el número de familias de proteínas Primeras estimaciones del número de familias de proteínas - ~1000 • Zuckerkandl,E. (1974) Accomplissement et perspectives de la paleogenetique chimique. In: Ecole de Roscoff –1974, p. 69. Paris:CNRS. “The appearance of new structures and functions in proteins during evolution”, J. Mol. Evol. 7, 1-57 (1975). • Dayhoff, M.O. (1974) Federation Proceedings 33, 2314. “The origin and evolution of protein superfamilies”, Fed.Proc. 35, 2132-2138 (1976). Margaret Dayhoff Atlas de secuencia de proteínas y estructura, Vol. 5, Suplemento 3 (1978) pg. 10: “Se ha estimado que en humanos hay aproximadamente 50,000 proteínas de importancia funcional o médica. … Un hito en la biología molecular ocurrirá cuando un miembro de cada superfamilia haya sido elucidado. A la tasa actual de 25 por año, se logrará en menos de 15 años.” Hubris, el proyecto Genoma y las familias de proteínas Chothia, C. (1992). One thousand families for the molecular biologist. Nature, 357, 543-544. Green P, Lipman D, Hillier L, Waterson R, States,D, and Claverie JM (1993). Ancient Conserved Regions in New Gene Sequences and the Protein Databases. Science, 259, 17111716. ACR = similitud detectada entre secuencias de organismos relacionados en forma distante 1992: ¿Qué nuevas familias tenemos del proyecto genoma? Códigos de secuencias Secuencias con ACR Set N humanos ESTs 2644 600-1200 197 (16-33%) 103 gusanos ESTs 1472 1370 570 (42%) 240 Genes de gusanos 234 234 74 (32%) 59 Levadura ORF 182 182 43 (24%) 35 Comparación de sets Secuencias pareadas ACR ACR ACR en base de datos gusano ESTs, humano ESTs 77, 66 34 31 (91%) gusano ESTs, levadura ORFs 23, 13 9 8 (89%) Gusano genes, humano ESTs 17, 17 12 12 (100%) Gusano genes, levadura ORFs 6, 4 4 3 (75%) humano ESTs, levadura ORFs 14, 13 10 10 (100%) Crecimiento acumulado en número de proteínas y número de dominios conservados 6 Green et al. 85% de ACR 100 6 1.0*10 8.0*10 6.0*10 4.0*10 2.0*10 80 5 Familias con dominio conservado 60 5 5 5 Dayhoff 10% de superfamilias 40 Secuencia 20 de proteínas 0 0.0 1960 1965 1970 1975 1980 1985 1990 1995 2000 % Familias Número de proteínas 1.2*10 ¿Porqué pocas familias y por qué evolucionan lentamente? Típica Muy rara Vista estructural Termodinámica: Finkelstein, AV, “Why are the same protein folds used to perform different functions?” FEBS 325, pp. 23-28 (1993) Forzamiento debido a función biológica puede ser más importante Compare pares de secuencias de clases Un gene de proteínas relacionadas – Todas las secuencias deberán, al menos, compartir similaridad estructural Duplicación de genes – La divergencia de tiempos para todas las secuencias deberá ser aproximadamente la misma – Secuencias dentro de una clase comparten función pero secuencias entre clases tienen función diferente eucariotes Grado de similitud en clases > similitud entre clases indica la importancia de forzar debido a función biológica. Divergencia funcional Último ancestro universal común procariotes Ejemplo de las Aminoacyl-tRNA sintetasas (aaRS) (de E. Koonin y Y. Wolf) •Dos clases no relacionadas de aaRS, cada una incluyendo 10 aaRS relacionadas entre ellas •El antecesor común universal (LUCA) de formas de vida moderna ya tenía al menos 17 aaRS •La duplicación da lugar a aaRS de diferentes especialidades que debería ocurrir durante un periodo corto relativamente de evolución temprana •La evolución post-LUCA de fue más largo que las fases tempranas cuando las especificidades fueron establecidas. Sin embargo, los cambios que ocurrieron después de que las aaRS fueron encerradas en sus especificidades son pequeños comparados a los cambios trazados en la fase temprana. Ortologs … (de S. Bryant) Paralogs … (de S. Bryant) Ejemplo de la Aminoaxyl-tRNA sintetasas (aaRS) (de E. Koonin y Y. Wolf) ArgRS HisRS 1.0 1.0 0.8 0.8 0.6 o 0.6 o 0.4 n 0.4 n 0.2 0.2 0.0 0.0 0.00 0.10 0.20 0.30 0.40 0.00 0.10 ValRS 0.30 0.40 TrpRS 1.0 1.0 0.8 0.8 0.6 o 0.6 0.4 n 0.4 0.2 Excepciones glutamina/glutamato,asparagina/ aspartato y triptofano/tirosina 0.2 0.0 0.00 0.20 0.0 0.10 0.20 0.30 0.40 0.00 0.10 0.20 0.30 0.40 ¿Cuantos genes humanos? 80,000 Antequera F & Bird A, “Number of CpG islands and genes in human and mouse”, PNAS 90, 11995-11999 (1993). 120,000 Liang F et al., “Gene Index analysis of the human genome estimates approximately 120,000 genes”, Nat. Gen., 25, 239-240 (2000) 35,000 Ewing B & Green P, “Analysis of expressed sequence tags indicates 35,000 human genes”, Nat. Gen. 25, 232-234 (2000) 28,000-34,000 Roest Crollius, H. et al., “Estimate of human gene number Provided by genome-wide analysis using Tetraodon nigroviridis DNA Sequence”, Nat. Gen. 25, 235-238 (2000). 41,000-45,000 Das M et al., “Assessment of the Total Number of Human Transcription Units”, Genomics 77, 71-78 (2001) ¿Cuantos genes humanos con ACR? (de S. Resenchuk, T.Tatusov, L. Wagner, A. Souverov) 12,245 RNAm caracterizados de RefSeq 78% tienen ACR, i.e., llegan fuera de vertebrados en E <10e-6 ( 9,496/12,245) 90% de estos tienen predicciones de GenomeScan correspondientes los cuales también tienen ACR (8501/9496) 20,245 modelos GS para todo el genoma humano tienen ACR 15,573 modelos GS después de la corrección por división (20,245/1.3) 17,300 estimados genes humanos con ACR ( ~15,573/.9) ¿Cuantos genes humanos? 17,303 estimados genes humanos con ACR Ahora use la comparación de genomas S.cerev. ACR/ genes S. Pombe A.thal. C. Elegans D. mela. 4022/6306 4846/6593 14443/24605 11598/20850 10469/14335 63% 73% 58% 55% 73% 17,303/.55 = ~31,500 Total Genes Humanos ¡Más complicado que eso! Conservación, nivel de expresión, longitud de proteína y número exon EST # 0 0-20 0-200 >200 All RefSeq # 396 2716 9454 2791 12,245 RS + ACR 240 (61%) 1718 (63%) 7049 (75%) 2447 (88%) 9496 (78%) GS + ACR 158 (66%) 1424 (83%) 6256 (89%) 2245 (92%) 8501 (90%) Long. Prot. 319 419 486 517 493 Exon 3.82 promedio# 6.25 8.78 10.38 9.15 23,600 genes humanos estimados revisados con ACRs (~15,573/.66) 43,000 límite superior sobre el total estimado de genes humanos (23,600/.55) 35,000 es más razonable límite con esta forma La relación de conservación de la proteína y longitud de la secuencia • Lipman DJ, Souvorov A, Koonin EV, Panchenko AR, Tatusova TA • BMC Evol Biol. 2002 2:20 140 E-coli 4279 120 proteínas Número 100 80 60 40 20 0 0 200 400 Longitud 600 800 1000 Archaeoglobus fulgidus 100 80 2420 proteínas Número 60 40 20 0 0 200 400 Longitud 600 800 1000 Levadura 400 6305 350 proteínas Número 300 250 200 150 100 50 0 0 200 400 Longitud 600 800 1000 5 0 Drosophila Número 2390 40 proteínas 30 20 10 0 0 200 400 Longitud 600 800 1000 300 Humano 250 14538 proteínas Número 200 150 100 50 0 0 200 400 600 Longitud 800 1000 200 E-value 1.e-3 E-coli 4279 proteínas Número 150 A 100 50 0 0 4279 proteínas 140 200 400 600 800 1000 Longitud E-value 1.e-9 E-coli 120 Número 100 B 80 60 40 20 00 200 400 Longitud 600 800 1000 1.2 10 8 0.8 6 0.6 4 0.4 2 0.2 0 0 200 400 600 Longitud 800 0 1000 Densidad de contacto Fracción 1 Agradecimientos Steve Bryant Lewis Geer Alex Kondrashov Eugene Koonin Jim Ostell Sergei Resenchuk Greg Schuler Alex Souverov Tatiana Tatusov Lukas Wagner Yuri Wolf Phil Murphy (NIAID) Y todos mis colegas en NCBI y NIH