Download De secuencias a Biología: Genómica / Bioinformática
Document related concepts
Transcript
AGROBIOTECNOLOGIA CURSO 2015 De secuencias a Biología: Genómica / Bioinformática Maximo Rivarola PhD rivarola.maximo@inta.gob.ar Departamento de Fisiología, Biología Molecular y Celular Facultad de Ciencias Exactas y Naturales Universidad de Buenos Aires - Experimentación in-silico: Calculo e interpretación Podemos generar gran cantidad de datos. Resultados complejos provenientes de algoritmos complejos. Tiempos cortos (dependiendo del volumen de datos). Existen herramientas especificas muy útiles para realizar las tareas que se plantean con la pregunta biológica que queremos contestar. Es muy importante: Saber que pregunta queremos contestar. Saber que estamos haciendo con el software y en lo posible como lo hace. Saber que la salida del software es una cuenta, la interpretación de esa cuenta por parte nuestra es el verdadero resultado. Los resultados in-silico deben ser validados experimentalmente. Temario Usando la bacteria Buty como ejemplo: Ensamblado. Anotación estructural y funcional. Algoritmos de alineamiento (BLAST). Ontologías y Vocabulario controlado Porque usar Unix (Linux). Galaxy, acercándose a Linux. Un ejemplo de un Proyecto Genómico desarrollado en el INTA Una bacteria aislada en el Instituto de Patobiología-INTA Se obtuvo ~ 500 mil lecturas del genoma de Butyrivibrio fibrisolvens con Roche 454 (cobertura 26X) Descubrir genes involucrados en la degradación de celulosa y en metanogénesis Llegaron los datos, que hacemos? Datos crudos Ensamblado Análisis de calidad Contigs / Scaffolds Anotación Estructural Predicción de genes Anotación Funcional Anotación de genoma Ensamblado Es actualmente objeto de investigación ya que no es un problema totalmente resuelto (como muchos de los temas de los cuales hablaremos). Problema general: “Armar” el genoma a patir de pequeños fragmentos (lecturas). Algoritmos de ensamblado: Overlap layout consensus Lecturas largas Grafos de De Brujin Lecturas cortas Un juego... Rompecabezas de ~ 0.5 millón de piezas (caso Buty) Ingredientes para un “buen” ensamblado Overlap layout consensus Ensamblado de-novo del Genoma Reads Contig Ensamblado del Genoma de Buty Anotación estructural Búsqueda de genes in-silico. Debido al tipo de algoritmos utilizado esta búsqueda se denomina predicción. Métodos de predicción: Extrínsecos Búsqueda utilizando herramientas de alineamiento (Ej. BLAST) Ab-initio Métodos matemáticos-probabilísticos con o sin información externa. Modelos ocultos de Markov (Ej. glimmerhmm) Redes neuronales Entrenamiento Procedimientos híbridos Anotación estructural Procariotas: Genomas pequeños Ausencia de intrones Alta densidad de genes Eucariotas: Genomas grandes Presencia de intrones y exones Baja densidad de genes Paso 1 • Encontrar marcos de lecturas abierto (ORFs). …TAGAAAAATGGCTCTTTAGATAAATTTCATGAAAAATATTGA… Stop codon Stop codon Un “ORF” es de stop a stop Paso 2 • Buscar en otra hebra (ORFs). Reverse strand Stop codon …ATCTTTTTACCGAGAAATCTATTTAAAGTACTTTTTATAACT… …TAGAAAAATGGCTCTTTAGATAAATTTCATGAAAAATATTGA… Stop codon Shifted Stop Stop codon • Pero se sobre-ponen!!!!!! problema (distintos marcos de lectura) %GC genera mas problemas Campylobacter jejuni RM1221 30.3%GC Mycobacterium smegmatis MC2 67.4%GC Lineas Violetas son verdaderos genes! El resto, NO (muchos ORFs NO son verdaderos genes) Herramientas para encontrar y decidir que es un Gen? (no todo ORF es gen) Por homología a Genes conocidos? → no se descubren genes “nuevos” Usar genes mas “obvios” (por ejemplo por BLASTX) para entrenar el “software” y después buscar otros vía otros métodos (ab initio): - codon composition - Ribosome binding site “Codon Composition” Nucleotide variation at codon position: Mycobacterium smegmatis Campylobacter jejuni Codon Position Codon Position 1 2 1 3 2 3 a 36% 36% 36% a 19% 23% 6% c 13% 17% 9% c 27% 28% 48% g 30% 14% 10% g 42% 20% 39% t 21% 33% 44% t 12% 28% 7% “Reverse Scoring” • A los “Orfs” se les asigna un puntaje que refleja si usan una determinada frecuencia de codones desde su 3’ a su 5’; del “stop” hacia su codon inicio. • Este tipo de puntaje ayuda a encontrar el verdadero codon inicio y suma evidencia a que ese Orf sea un “gen” – El codon inicio deberia ser cuando la funcion se encuentre en su pico de puntaje acumulativo. Reverse Scoring Probable sitio de codon inicio 5' Codon stop 3' Codon stop Validar genes con herramientas para encontrar patrones en ADN • Se utilizan los ORFs (secuencias) obtenidas para identificar / validar genes, buscando: • Motivos específicos, por ejemplo el del Ribosome binding site position weight matrix (PWM) for the ribosome binding site. Anotación funcional Anotación funcional Alineamientos? Cuantificar el alineamiento Son iguales todos los “mismatches”? Matrices de sustitución Significado evolutivo PAM Modelo evolutivo. Mutaciones observadas en alineamientos globales. PAMX: Altos valores de X Grandes distancias evolutivas. BLOSUM Secuencias de proteínas empíricamente relacionadas. Regiones altamente conservadas (BLOCKS). BLOSUMX: Altos valores de X evolutivas. Bajas distancias Algoritmos de alineamiento Alineamiento global: Útil para secuencias de tamaño similar. Algoritmo Needleman-Wunsh: Programación dinámica. Algoritmo completo, siempre encuentra el mejor alineamiento. Realiza todas las comparaciones posibles y se queda con la mejor, en consecuencia es computacionalmente costoso. Alineamiento múltiple: ClustalW: Método progresivo (heurística). Construye un alineamiento final a partir de alineamientos entre pares de secuencias. La determinación del orden de los alineamientos se da a partir de un árbol filogenético (Algoritmo de clustering). Algoritmos de alineamiento Alineamiento local: Útil para secuencias diferenciadas que poseen regiones similares. Algoritmo Smith-Waterman: Similar a NW para alineamientos locales. BLAST (Basic local alignment search tool): Algoritmo heurístico, sacrifica exactitud absoluta para poder funcionar mas rápido. Elijo la mejor solución en base a un criterio elegido con anterioridad (problema de mínimos locales). Búsqueda de fragmentos y extensión del alineamiento. Brinda información estadística sobre la significancia del resultado. E-value (No es el único): Para valores bajos, representa la probabilidad que el alineamiento sea obtenido al azar, teniendo en cuenta el tamaño de la base de datos. BLAST WORD size: 3 Tamaño de palabra en BLAST • La comparación entre secuencias no se realiza residuo a residuo sino por grupos de residuos, – 2 residuos en AA. – 6 bases en DNA. • A mayor tamaño de palabra menor es la sensibilidad y mayor la especificidad. • El efecto de variar el tamaño de palabra se muestra en los dot-plots: A mayor tamaño menor numero de coincidencias. BLAST • Aproximación en aparear fragmentos cortos que irá extendiendo para buscar alineamientos locales • Utiliza un modelo estadístico para encontrar los mejores alineamientos entre la secuencia desconocida y la DB • HSP: High-scoring Segment Pair – La unidad fundamental de trabajo con BLAST – Corresponde a una región de máxima similitud entre dos subsecuencias (palabras, W) con una puntuación más grande o igual a una puntuación umbral, T BLAST: Algoritmo 1. Compilar todas las palabras de medida n que den una puntuación superior al umbral (HSP) 2. Comparar estas palabras con las de la BD para identificar las identidades exactas (“hits”) 3. Extender las palabras que han superado el umbral, en las dos direcciones mirando de mejorar la puntuación – La extensión acabará si baja la puntuación por debajo de otro umbral, si llega a cero o si se acaba la secuencia Listar los segmentos extendidos de puntuación más alta Algoritmo de BLAST (1) Algoritmo de BLAST (2) Algoritmo de BLAST (3) Tamaño de Base de Datos vs significancia Una secuencia (un alineamiento con un score S) encontrada en una búsqueda contra un genoma bacteriano con 1000-5000 secuencias va a ser 50-250 veces más significativa que un alineamiento con exactamente el mismo score en una base de datos como nr (varios millones de secuencias) Anotación funcional Búsqueda de función biológica de secuencia de interés. Nuevamente tenemos 2 métodos principales: Inferencia de función mediante búsqueda de secuencias homologas con algoritmos de alineamiento local (Ej. Blast2GO). Búsqueda de motivos funcionales: Secuencias consenso generadas a partir de alineamientos múltiples (Ej BlastProDom) Modelos ocultos de Markov (Ej. PFAM, TIGRFAM) Anotación funcional Búsqueda de función biológica de secuencia de interés. Nuevamente tenemos 2 métodos principales: Inferencia de función mediante búsqueda de secuencias homologas con algoritmos de alineamiento local (Ej. Blast2GO). Búsqueda de motivos funcionales: Secuencias consenso generadas a partir de alineamientos múltiples (Ej BlastProDom) Modelos ocultos de Markov (Ej. PFAM, TIGRFAM) Anotación funcional Utilización de dominios: Familia → Grupo de proteínas con una función común Dominio → Unidad evolutiva básica La función de una proteína es el resultado de las funciones de sus dominios... (punto de vista simple) Proteínas homólogas pueden tener diferente organización de dominios Anotación funcional GO: Gene Ontology Vocabulario controlado aplicado a describir funcionalmente los genes de cualquier organismo Organizado en forma de grafo → Terminos hijos amplian el nivel de especificidad Se encontraron ~57 proteínas involucradas con el metabolismo de polisacáridos Validar/Confirmar el uso de estas secuencias para su uso biotecnológico Como guardamos todos esos datos y luego analizarlos/verlos? Visualizador de Anotación Funcional: ATGC Porque utilizar Unix Unix es un entorno de programación muy potente para el manejo de texto, la mayoría de las aplicaciones bioinformáticas trabajan con archivos de texto. Posee herramientas altamente optimizadas dedicadas para este propósito, por ejemplo, herramientas para buscar, seleccionar, combinar y manipular texto. Debido a los volúmenes de datos que se manejan en la actualidad (y seguiremos creciendo) ya no nos es posible manejar los archivos con procesadores de texto con formato (Ej. Word). Galaxy, acercándose a Linux Es una plataforma web que posee una gran cantidad de herramientas (no solo bioinformáticas) disponibles orientadas al procesamiento de archivos. Podemos realizar tareas complicadas de procesamiento sobre archivos de manera simple y organizada. Permite la creación de workflows Impacto de la Bioinformática La Genómica produce datos de alta fidelidad y de gran procesividad; La Bioinformática provee el análisis e interpretación a este masivo grupo de datos Es imposible separar las nuevas Tecnologías en Genómica con las herramientas bioinformáticas Anotación funcional Pequeñas zonas conservadas Caracteres funcionales Centros Activos Sitios de unión de ligandos Anotación funcional Utilización de alineamientos múltiples BLAST es menos sensible frente a homólogos remotos Alineamiento múltiple Observación de posiciones mas importantes Búsquedas de homólogos mas sensibles Dos secuencias alineadas: ADGHLSCETR-DLWYALDSOP--RL -EGHI-CECSSELWPILDTOPPPDL Anotación funcional Cómo aprovechamos la información de un alineamiento múltiple? -Secuencias consenso: AGTVATVSC AGTSATHAC IGRCARGSC IGEMARLAC IGDYARWSC ......... IGTVARVSC <= Ejemplo de secuencia consenso -Patrones o expresiones regulares: (para caracterizar motivos) ALRDFATHDDF SMTAEATHDSI ECDQAATHEAS ATH[DE] -Perfiles y perfiles HMM (Modelos ocultos de Markov) Anotación funcional Perfiles HMM (Modelos ocultos de Markov) Base probabilistica compleja Modela probabilidad de aparición de un aminoácido en una determinada posición en función de sus vecinos Anotación funcional Software y bases de datos de interés: InterProScan Secuencias consenso Patrones Perfiles simples y HMM Organiza información de conjunto de programas PFAM TIGRFAM TMHMM signalP ...