Download Dr. Omar Orellana
Document related concepts
Transcript
¿Qué podemos resolver mediante Bioinformática ? : ¿ Qué es la bioinformática ? • Identificar genes específicos en un genoma, identificar todos los genes y todas las proteínas de un organismo. • Inferir la forma de una proteína (estructura terciaria) y su función a partir de una secuencia de aminoácidos. • Determinar los sitios en la estructura de una proteína donde se pueden unir ligandos. Dr. Omar Orellana 2013 • Determinar las interacciones entre los genes y proteínas que pertenecen a un sistema biológico. Para estos propósitos, la búsqueda de SIMILITUDES entre secuencias o estructuras conocidas es el criterio principal. Procedimientos que se utilizan en bioinformática • Búsquedas por similitud • Alineamiento de estructuras primarias (secuencias) • Construcción de árboles filogenéticos • Predicción de estructura secundaria (RNA y proteínas) • Alineamiento de estructuras terciarias • Predicción de estructuras terciarias (RNA y proteínas) • Clasificación de dominios y estructuras (familias) • Predicción de función de proteínas • Agrupamiento de datos de expresión (microarrays, geles 2-D) • Reconstrucción metabólica • Simulación de procesos celulares 1 Secuenciamento del DNA: método con dideoxinucleótidos (Técnica 1) Secuenciamento del DNA: método con dideoxinucleótidos (Técnica 1) Secuenciamento del DNA: “pirosecuenciamiento” (Técnica 1) 2 Secuenciamento del DNA: “pirosecuenciamiento” Genoma de Haemophilus influenzae (Técnica 1) 3 Genomas secuenciados 4 Bases de datos de proteínas: Bases de datos de secuencias de ácidos nucleicos EMBL http://www.ebi.ac.uk/embl/ GeneBank http://www.ncbi.nlm.nih.gov/ DDBJ Expressed sequence tag (EST) http://www.ncbi.nlm.nih.gov/dbEST/ KEGG http://www.genome.jp/kegg/ Primarias (secuencias) PIR (Protein Information Resource) http://pir.georgetown.edu/pirwww/dbinfo/iproclass.shtml Swiss-Prot http://www.expasy.ch/sprot/ Secundarias (patrones) Prosite http://expasy.org/prosite/ Pfam Identify PDBsum (estructuras) ¿Cómo se ingresa una secuencia a una base de datos? Motivos estructurales: Secuencias cortas que se conservan. [GR] - C - [IV] - G - R - [ILS] - x – W Unión de hemo Zinc finger CXXC anotación automática: es la integración de diversas herramientas bioinformáticas con múltiples bases de datos en una única “suite” para gestionar automáticamente el análisis y almacenamiento de una secuencia. anotación manual: una persona (anotador) revisa la anotación, gen por gen, verificando la anotación automática, agregando anotaciones manuales, corrigiendo eventualmente algún problema particular. 5 http://www.oxfordjournals.org/nar/database/a Análisis de secuencias de macromoléculas: Identificar genes en una secuencia Determinar la función de un gen Identificar proteínas y su función Identificar regiones conservadas (patrones) Identificar regiones funcionales en un genoma Inferir relaciones evolutivas Algoritmos para el análisis de secuencias: Alineamiento simple (dos secuencias) Nucl. Acids Res. (2011) 39 (suppl 1): D1-D6. The 2011 Nucleic Acids Research Database Issue and the online Molecular Biology Database Collection (1330) Michael Y. Galperin1,* and Guy R. Cochrane2 Matrices de puntos (“dot plots”) Alineamiento global (Needleman – Wunsch) Alineamiento local (Smith – Waterman) Programación dinámica Heurísticas para búsqueda en bases de datos de secuencias FastA BLAST 6 Alineamiento de pares de secuencias Definición: comparación lineal de secuencias aminoacídicas o nucleotídicas donde se han hecho inserciones de espacios (“gaps”) para ubicar correctamente las posiciones equivalentes en secuencias adyacentes. Son la base de los métodos de análisis de secuencias, y se usan para identificar la ocurrencia de motivos conservados. ¿Cómo alinear dos secuencias de forma óptima? GAC G GAT T GAT C G GTT GA- C G GATT GAT C G G - TT ¿Qué nos interesa saber de una secuencia de DNA? ¿Cómo identificamos la función de una secuencia nueva? >ttttggccgtatcggtcgcattgttttccgtgctgctcaga Aacgttctgacatcgagatcgttgcaatcaacgacctgtta Gacgctgattacatggcatacatgctgaaatatgactccac Tcacggccgtttcgacggtaccgttgaagtgaaagacggtc Atctgatcgttaacggtaaaaaaatccgtgttaccgctgaa Cgtgatccggctaacctgaaatgggacgaagttggtgttga Cgttgtcgctgaagcaactggtctgttcctgactgacgaaa Ctgctcgtaaacacatcaccgctggtgcgaagaaagtggtt Atgactggtccgtctaaagacaacactccgatgttcgttaa Aggcgctaacttcgacaaatatgctggccaggacatcgttt Ccaacgcttcctgcaccaccaactg Ir a BLAST 7 8 MARCO 1 MARCO 2 MARCO 3 ttttggccgtatcggtcgcattgttttccgtgctgctcagaaacgttctgacatcgagatcgttgcaatcaacgacctgttagacgc F W P Y R S H C F P C C S E T F * H R D R C N Q R P V R R F G R I G R I V F R A A Q K R S D I E I V A I N D L L D A L A V S V A L F S V L L R N V L T S R S L Q S T T C * T L MARCO 1 MARCO 2 MARCO 3 tgattacatggcatacatgctgaaatatgactccactcacggccgtttcgacggtaccgttgaagtgaaagacggtcatctgatcgt * L H G I H A E I * L H S R P F R R Y R * S E R R S S D R D Y M A Y M L K Y D S T H G R F D G T V E V K D G H L I V I T W H T C * N M T P L T A V S T V P L K * K T V I * S L MARCO 1 MARCO 2 MARCO 3 taacggtaaaaaaatccgtgttaccgctgaacgtgatccggctaacctgaaatgggacgaagttggtgttgacgttgtcgctgaagc * R * K N P C Y R * T * S G * P E M G R S W C * R C R * S N G K K I R V T A E R D P A N L K W D E V G V D V V A E A T V K K S V L P L N V I R L T * N G T K L V L T L S L K Q MARCO 1 MARCO 2 MARCO 3 aactggtctgttcctgactgacgaaactgctcgtaaacacatcaccgctggtgcgaagaaagtggttatgactggtccgtctaaaga N W S V P D * R N C S * T H H R W C E E S G Y D W S V * R T G L F L T D E T A R K H I T A G A K K V V M T G P S K D L V C S * L T K L L V N T S P L V R R K W L * L V R L K T MARCO 1 MARCO 2 MARCO 3 caacactccgatgttcgttaaaggcgctaacttcgacaaatatgctggccaggacatcgtttccaacgcttcctgcaccaccaactg Q H S D V R * R R * L R Q I C W P G H R F Q R F L H H Q L N T P M F V K G A N F D K Y A G Q D I V S N A S C T T N C T L R C S L K A L T S T N M L A R T S F P T L P A P P T A http://www.ncbi.nlm.nih.gov/ Ir a ORFFINDER FGRIGRIVFRAAQKRSDIEIVAINDLLDADYMAYMLKYDSTHGRFDGTVEVKDGHLIV NGKKIRVTAERDPANLKWDEVGVDVVAEATGLFLTDETARKHITAGAKKVVMTGPSKD NTPMFVKGANFDKYAGQDIVSNASCTTNC Ir a BLAST http://www.ncbi.nlm.nih.gov/ 9 Matriz PAM 250 10 Matriz Blosum62 ¿Cómo definimos un gen en bacterias? 11 Predicción de Promotores Criterios y herramientas para la anotación de genes Glimmer Critica Testcode Genscan RBS finding Neuralnetworks Codon usage %GC HMM-based Comparative Analyses Probabilistic tools Probabilistic tools Motif-based Motif based Genome properties Genome properties •NNPP es un Programa para búsqueda de promotores eucarióticos y procarioticos en una secuencia de DNA. • La base del programa es una red neural (timedelay) que reconoce la caja TATA y la secuencia iniciadora, que se encuentra en la región que comprende el inicio de la transcripción. http://www.fruitfly.org/seq_tools/promoter.html 12 Búsqueda de terminadores de la transcripción. Búsqueda de terminadores de la transcripción. •Transterm encuentra terminadores de la transcripción rhoindependiente en genomas bacterianos. •A cada terminador se le asigna un valor de confianza que estima la probabilidad de ser un terminador verdadero http://rna.igmors.u-psud.fr/toolbox/arnold/index.php ARNold • ARNold encuentra terminadores rho independientes en secuencias de ácidos nucleicos. La búsqueda usa dos programas complementarios Erpin y RNAmotif. • En el programa Erpin, a partir de un set de entrenamiento de 1200 secuencias terminadoras de Bacillus subtilis y Escherichia coli, se construye un perfil de puntuación y en base a este perfil se busca en las secuencias entregadas por el usuario. • RNAmotif usa un algoritmo que reconoce terminadores de E. coli que además puede ser aplicado para búsqueda de terminadores de cualquier especie. Se basa en la descripción de una hélice de 4-18 pb, un espaciador de 0 a 2 nt y una región rica en T. A las búsquedas de RNAmotif se les asigna un valor de puntuación dependiendo del contenido de T y la estabilidad del stem-loop. • Se calcula la energía libre de la estructura stem-loop terminadora usando RNAfold. Este valor de energía libre se usa como valor de confianza para la predicción de terminadores. 13 Genoma de Haemophilus influenzae Predicción de la estructura secundaria de la Gliceraldehído 3 fosfato deshidrogenasa Análisis de la estructura de una proteína 11 FGRIGRIVFRAAQKRSDIEIVAINDLLDADYMAYMLKYDSTHGRFDGTVE VKDGHLIVNGKKIRVTAERDPANLKWDEVGVDVVAEATGLFLTDETARKH Secuencia aminoacídica de un segmento de una proteína ITAGAKKVVMTGPSKDNTPMFVKGANFDKYAGQDIVSNASCTTNCLAPLA FGRIGRIVFRAAQKRSDIEIVAINDLLDADYMAYMLKYDSTHGRFDGTVEVKDGHLIV NGKKIRVTAERDPANLKWDEVGVDVVAEATGLFLTDETARKHITAGAKKVVMTGPSKD NTPMFVKGANFDKYAGQDIVSNASCTTNC KVINDNFGIIEGLMTTVHATTATQKTVDGPSHKDWRGGRGASQNIIPSST GAAKAVGKVLPELNGKLTGMAFRVPTPNVSVVDLTVRLEKAATYEQIKAA VKAAAEGEMKGVLGYTEDDVVSTDFNGEVCTSVFDAKAGIALNDNFVKLV http://www.ncbi.nlm.nih.gov/ SWYDNETGYSNKVLDLIAHISK estructura alfa estrctura beta vuelta (loop) 14 http://swissmodel.expasy.org/workspace/index.php?userid=omarore@yahoo.com&key=a121072a984a78c349cc5a3a3f77c965 &func=workspace_modelling&prjid=P000001 15 Estructura primaria (secuencia de aminoácidos) Modelo final Predicción estructura secundaria Generación de modelos basados en un molde Refinamiento y validación del modelo 9 Alineamiento de las secuencias de la Gliceraldehído 3 fosfato deshidrogenasa de de diferentes organismos E.coli S.typhimurium S.cerevisiae H.sapiens H.pylori FGRIGRIVFRAAQKRSDIEIVAIND-LLDADYMAYMLKYDSTHGRFDGTV FGRIGRIVFRAAQKRSDIEIVAIND-LLDAEYMAYMLKYDSTHGRFDGTV FGRIGRLVLRLALQRKDIEVVAVNDPFISNDYAAYMVKYDSTHGRYKGTV FGRIGRLVTRAAFNSGKVDIVAINDPFIDLNYMVYMFQYDSTHGKFHGTV TGRIGLCAIRVASQRKDVEIVAINS-TAELETLLHLIRHDSVHGHFEAKL **** . * * : .:::**:*. . : ::.::**.**::...: E.coli S.typhimurium S.cerevisiae H.sapiens H.pylori EVKDGHLIVNGKKIRVTAERDPANLKWDEVGVDVVAEATGLFLTDETARKHITAGAKKVV EVKDGHLIVNGKKIRVTAERDPANLKWDEVGVDVVAEATGIFLTDETARKHITAGAKKVV SHDDKHIIIDGVKIATYQERDPANLPWGSLKIDVAVDSTGVFKELDTAQKHIDAGAKKVV KAENGKLVINGNPITIFQERDPSKIKWGDAGAEYVVESTGVFTTMEKAGAHLQGGAKRVI NANRTLNIGHSKNILVLSERDINKLDFSVANAEIIIECTGKFNSLEASSAHLKNSVKKVI . . : .. * *** :: :. : :.** * : : *: ..*:*: 118 112 118 120 118 E.coli S.typhimurium S.cerevisiae H.sapiens H.pylori MTGPSKDNTPMFVKGANFDKYA-GQDIVSNASCTTNCLAPLAKVINDNFGIIEGLMTTVH LTGPSKDNTPMFVKGANFDKYE-GQDIVSNASCTTNCLAPLAKVINDNFGIIEGLMTTVH ITAPSS-SAPMFVVGVNHTKYTPDKKIVSNASCTTNCLAPLAKVINDAFGIEEGLMTTVH ISAPSA-DAPMFVMGVNHEKYDNSLKIISNASCTTNCLAPLAKVIHDNFGIVEGLMTTVH ISAPAQ-NAPTFVYGVNHTNYH-NESVISNASCTTNATAPLLKILDEAFKVENALLTTIH ::.*: .:* ** *.*. :* . .::********. *** *::.: * : :.*:**:* 177 171 177 179 176 58 52 58 60 58 16 Predicción de la estructura y función de ácidos ribonucleicos Predicción de genes que codifican para RNA de transferencia 17 Acidithiobacillus ferrooxidans •Gram negative, γ proteobacterium • acidophile (pH 1,5-4,0), autotrophic • chemolithotrophic: • oxidizes ferrous ions • reduced sulfur compounds • bioleaching of minerals • high cytochromes content • Two GluRS (GluRS1, GluRS2) • GluQRS • AspRS • four tRNAGlu, four tRNAGln • No GlnRS, AsnRS • gatCAB (AdT) Río Tinto, Spain • GluTR • GSAm Comparación de dos genomas de A. ferrooxidans Genes tRNA 59 96 37 = genes de tRNA 18 Predicción de posibles operones en el Cluster de genes de tRNA 19 Predicción de la estructura secundaria de un RNA similar a tRNA Fin 20