Download Predicción de Genes
Document related concepts
Transcript
Predicción de Genes Jesús Alejandro Hernández Mejía Cinvestav-Zacatenco 2 de Julio de 2013 Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 1 / 52 1 Predicción de genes Introducción Categorías de los programas de predicción de genes Predicción de genes en procariotas Determinación convencional de marcos abiertos de lectura Predicción de genes usando Modelos de Markov y Modelos Ocultos de Markov Evaluación del desempeño Predicción de genes en eucariotas Programas Programas Programas Evaluación de predicción de genes ab initio basados en homología basados en consenso del desempeño Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 2 / 52 Predicción de genes 1 Introducción Predicción de genes Introducción Categorías de los programas de predicción de genes Predicción de genes en procariotas Determinación convencional de marcos abiertos de lectura Predicción de genes usando Modelos de Markov y Modelos Ocultos de Markov Evaluación del desempeño Predicción de genes en eucariotas Programas Programas Programas Evaluación de predicción de genes ab initio basados en homología basados en consenso del desempeño Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 3 / 52 Predicción de genes Introducción Introducción En los años recientes ha habido una rápida acumulación de información genómica que necesita ser procesada para predecir la estructura de los genes. Dicho proceso incluye la detección de marcos abiertos de lectura (ORF’s) así como la descripción de exones e intrones en organismos eucariotas. El objetivo principal es describir todos los genes en una cadena de ADN con 100 % de precisión . Sin embargo, la predicción de genes representa uno de los problemas más difíciles en el área, debido a que las regiones codificantes (regiones compuestas de exones que codifican proteínas) no suelen tener motivos conservados. La predicción de genes en general no sólo incluye la identificación de genes codificantes de proteínas, sino también genes codificantes de ARN o de regiones reguladoras. Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 4 / 52 Predicción de genes Introducción Introducción Ha habido mucho progreso en la predicción de genes procariotas, con varios algoritmos que presentan diversos grados de éxito. Sin embargo, para organismos eucariotas, aún no hay resultados satisfactorios. Esto se debe a que los organismos eucariotas son más complejos que los procariotas, recordemos que estos últimos generalmente no tienen intrones y están compuestos de una sola hebra de ADN que es relativamente pequeña (de 0.5 a 10 Mbp) Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 5 / 52 Predicción de genes 1 Categorías de los programas de predicción de genes Predicción de genes Introducción Categorías de los programas de predicción de genes Predicción de genes en procariotas Determinación convencional de marcos abiertos de lectura Predicción de genes usando Modelos de Markov y Modelos Ocultos de Markov Evaluación del desempeño Predicción de genes en eucariotas Programas Programas Programas Evaluación de predicción de genes ab initio basados en homología basados en consenso del desempeño Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 6 / 52 Predicción de genes Categorías de los programas de predicción de genes Categorías de los programas de predicción de genes Los métodos de predicción de genes actuales se pueden clasificar en dos categorías principales: ab initio y basados en homología. El enfoque ab initio se basa en dos características de los genes: La existencia de señales en genes, éstas señales pueden ser codones de inicio y parada, sitios de enlaces ribosomales, etc. El contenido del gen por sí mismo, ya que las regiones codificantes varían significativamente de las regiones no codificantes. Los modelos probabilísticos como los modelos ocultos de Markov ayudan a esta tarea. Los métodos basados en homología hacen sus predicciones comparando una secuencia con secuencias conocidas de genes. Algunos algoritmos pueden hacer uso de ambas estrategias, este tipo de algoritmos se les conoce como basados en consenso. Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 7 / 52 Predicción de genes 1 Predicción de genes en procariotas Predicción de genes Introducción Categorías de los programas de predicción de genes Predicción de genes en procariotas Determinación convencional de marcos abiertos de lectura Predicción de genes usando Modelos de Markov y Modelos Ocultos de Markov Evaluación del desempeño Predicción de genes en eucariotas Programas Programas Programas Evaluación de predicción de genes ab initio basados en homología basados en consenso del desempeño Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 8 / 52 Predicción de genes Predicción de genes en procariotas Predicción de genes en procariotas El entendimiento detallado de la estructura genética de estos organismos se vuelve muy útil para la predicción de genes. Veamos algunos puntos clave: La densidad de genes es de más del 90 %. Un gen se compone de una sola tira de un marco abierto de lectura sin interrupciones. Hay muy pocas secuencias repetitivas. La mayoría de los genes tienen un codón de inicio ATG (AUG en ARN). Aunque también puede haber GTG y TTG como codones de inicio. Además de los codones de inicio, otra características están asociadas con la traducción. Un ejemplo es la secuencia de Shine-Dalgarno, esta secuencia está compuesta por 6 o 7 nucleótidos antes del codón de inicio y regula la iniciación de la traducción. Existen tres posibles codones de parada. Hay genes típicos y atípicos. Los genes típicos varían en longitud desde 100 hasta 500 aminoácidos, mientras que los atípicos son mucho más cortos. Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 9 / 52 Predicción de genes Predicción de genes en procariotas Predicción de genes en procariotas Figura : Estructura típica de un gen procariota. Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 10 / 52 Predicción de genes 1 Predicción de genes en procariotas Predicción de genes Introducción Categorías de los programas de predicción de genes Predicción de genes en procariotas Determinación convencional de marcos abiertos de lectura Predicción de genes usando Modelos de Markov y Modelos Ocultos de Markov Evaluación del desempeño Predicción de genes en eucariotas Programas Programas Programas Evaluación de predicción de genes ab initio basados en homología basados en consenso del desempeño Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 11 / 52 Predicción de genes Predicción de genes en procariotas Predicción de genes en procariotas Esto nos lleva a concluir que la identificación de genes puede estar basada en la determinación de ORFs y de las señales principales. Como primer paso, el ADN se puede traducir a sus seis maneras diferentes (recordemos que se toman codones de 3 nucleótidos), tres en un sentido y tres en sentido inverso. Debido a que un codón de parada puede ocurrir por azar cada veinte codones, un marco con más de 50 o 60 codones sin codones de parada es sugerente para ser una región codificante. El gen supuesto se confirma buscando señales de inicio y la secuencia Shine-Dalgarno. Posteriormente se traduce a una proteína y se compara en una base de datos de proteínas. Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 12 / 52 Predicción de genes Predicción de genes en procariotas Predicción de genes en procariotas Figura : Los seis posibles marcos de lectura Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 13 / 52 Predicción de genes Predicción de genes en procariotas Predicción de genes en procariotas Los primeros algoritmos para la predicción de genes se basaron en una regla empírica. En una región codificante la tercera posición de un codón suele tener preferencia por la base G o C o suele repetirse mucho. Esta regla tiende a identificar sólo genes típicos y omite los atípicos. La nueva genración de algoritmos de predicción usan modelos estadísticos más sofisticados. Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 14 / 52 Predicción de genes 1 Predicción de genes en procariotas Predicción de genes Introducción Categorías de los programas de predicción de genes Predicción de genes en procariotas Determinación convencional de marcos abiertos de lectura Predicción de genes usando Modelos de Markov y Modelos Ocultos de Markov Evaluación del desempeño Predicción de genes en eucariotas Programas Programas Programas Evaluación de predicción de genes ab initio basados en homología basados en consenso del desempeño Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 15 / 52 Predicción de genes Predicción de genes en procariotas Predicción de genes en procariotas Un modelo de Markov describe la probabilidad de la distribución de los nucleótidos en una secuencia de ADN, en la que la probabilidad condicional de una posición particular de la secuencia depende de las k posiciones previas. En este caso, k es el orden de un modelo de Markov. Un modelo de Markov de segundo orden se fija en las dos bases precedentes para determinar a la base que sigue, algo que es característico en los codones. Entre mayor sea el grado del modelo de Markov, más precisamente se puede predecir un gen. Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 16 / 52 Predicción de genes Predicción de genes en procariotas Predicción de genes en procariotas Figura : Un modelo oculto de Markov de segundo orden para predicción de genes procariotas. Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 17 / 52 Predicción de genes Predicción de genes en procariotas Predicción de genes en procariotas Los análisis estadísticos han mostrado que la frecuencia de seis nucleótidos únicos en una región codificante es mucho más alta que por mero azar. Sería lógico entonces usar un modelo de Markov de quinto orden. Sin embargo, los modelos de Markov de orden grande no son eficaces para secuencias de genes cortas. Para enfrentar esta limitación se usa un modelo de Markov de orden variable, llamado Modelo de Markov Interpolado (IMM por sus siglas en inglés). Este método toma una muestra del mayor número de patrones de secuencias con k desde 1 a 8 y usa un esquema ponderado, con más peso en k-meros raros y menos en los más frecuentes. Los genes atípicos tienden a escapar al modelo de Markov. Por tanto, para tener un algoritmo robusto de predicción, se necesita más de un modelo de Markov. Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 18 / 52 Predicción de genes Predicción de genes en procariotas Predicción de genes en procariotas Existen aplicaciones en la red que implementan distintos tipos de modelos de markov para la predicción de genes de procariotas. GeneMark - Implementa HMM’s de quinto orden. El programa principal está entrenado con genomas microbianos. El HMM puede usar el ADN de un organismo que tenga relación al genoma de entrada o se puede proporcionar un ADN, siempre y cuando tenga al menos 100 kbp. También tiene variante para organismos eucariotas. Glimmer - Implementa un IMM, al igual que GeneMark primero entrena el modelo y después hace la predicción. También tiene variante para organismos eucariotas. FGENESB - Usa HMM’s de quinto orden. Está entrenado con secuencias de bacterias y usa el algoritmo Vertibi para encontrar el resultado óptimo. RBSfinder - Utiliza la salida de Glimmer para buscar las secuencias Shine-Dalgarno en el vecindario del codón de inicio. Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 19 / 52 Predicción de genes 1 Predicción de genes en procariotas Predicción de genes Introducción Categorías de los programas de predicción de genes Predicción de genes en procariotas Determinación convencional de marcos abiertos de lectura Predicción de genes usando Modelos de Markov y Modelos Ocultos de Markov Evaluación del desempeño Predicción de genes en eucariotas Programas Programas Programas Evaluación de predicción de genes ab initio basados en homología basados en consenso del desempeño Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 20 / 52 Predicción de genes Predicción de genes en procariotas Predicción de genes en procariotas La precisión de la predicción puede ser medida por la sensibilidad y la especificidad. Recapitulemos los cuatro parámetros y la fórmula de estas métricas: Sensibilidad = VP/(VP + FN) Especificidad = VP/(VP + FP) Donde VP = Verdadero Positivo, VN = Verdadero Negativo, FP = Falso Positivo y FN = Falso Negativo. La sensibilidad es la proporción de señales verdaderas predichas de todas las señales verdaderas las posibles. La especificidad es la proporción de señales verdaderas predichas de todas las señales predichas. Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 21 / 52 Predicción de genes Predicción de genes en procariotas Predicción de genes en procariotas Para predecir completamente la precisión, se necesita un solo valor que resuma la especificidad y la sensibilidad. Un valor llamado coeficiente de correlación (CC) se usa con este fin y está dado por la siguiente fórmula: CC = √ VP×VN−FP×FN (VP+FP)(VN+FN)(FP+VN El valor de CC varía de -1 a 1 siendo 1 una predicción siempre correcta y -1 una predicción incorrecta. Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 22 / 52 Predicción de genes 1 Predicción de genes en eucariotas Predicción de genes Introducción Categorías de los programas de predicción de genes Predicción de genes en procariotas Determinación convencional de marcos abiertos de lectura Predicción de genes usando Modelos de Markov y Modelos Ocultos de Markov Evaluación del desempeño Predicción de genes en eucariotas Programas Programas Programas Evaluación de predicción de genes ab initio basados en homología basados en consenso del desempeño Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 23 / 52 Predicción de genes Predicción de genes en eucariotas Predicción de genes en eucariotas Análogamente a como lo hicimos con los procariotas, veamos algunas características de los organismos eucariotas. Los genomas son usualmente más grandes que en los procariotas, variando desde 10Mbp a 670 Gbp, con una densidad de genes mucho más baja. El espacio entre genes es usualmente muy grande y rico en secuencias repetitivas y elementos transponibles. Lo más importante quizá es que los genomas tienen una organización en la que la parte codifican de un gen tiene partes intermedias no codificantes. La transcripción (de ADN a ARNm) pasa por tres etapas antes de la traducción de proteínas. Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 24 / 52 Predicción de genes Predicción de genes en eucariotas Predicción de genes en eucariotas La primer fase es el capping (la adición de un nucleótido especial en el extremo 5’ del ARN) La segunda fase es el splicing, en que se eliminan los intrones y se juntan los exones. Esta fase se puede complicar pues los exones se pueden juntar de diferentes maneras y generan una transcripción diferente (Splicing alternativo). La última fase es la adición de un tira de A’s (aprox. 250) en el extremo 3’. Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 25 / 52 Predicción de genes Predicción de genes en eucariotas Predicción de genes en eucariotas El problema principal en la predicción de genes eucariotas es la identificación de exones, intrones y posiciones de splicing. El splicing hace particularmente difícil este problema. Afortunadamente hay secuencias conservadas que permiten la predicción. Por ejemplo, la intersección de intrones y exones siguen la regla GT-AG en que un intrón en la intersección de splicing 5’ tiene un motivo de consenso GTAAGT y en la intersección de splicing 3’ un motivo de consenso (Py )12 NCAG. Otra caractersística son las islas CpG, que son regiones cerca del inicio del gen con alta densidad de dinucleótidos CG. Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 26 / 52 Predicción de genes Predicción de genes en eucariotas Predicción de genes en eucariotas Figura : Transcripción de un gen eucariota y splicing. Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 27 / 52 Predicción de genes 1 Predicción de genes en eucariotas Predicción de genes Introducción Categorías de los programas de predicción de genes Predicción de genes en procariotas Determinación convencional de marcos abiertos de lectura Predicción de genes usando Modelos de Markov y Modelos Ocultos de Markov Evaluación del desempeño Predicción de genes en eucariotas Programas Programas Programas Evaluación de predicción de genes ab initio basados en homología basados en consenso del desempeño Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 28 / 52 Predicción de genes Predicción de genes en eucariotas Predicción de genes en eucariotas Este tipo de programas predicen exones, basados en las señales y el contenido del gen. Las señales incluyen la de inicio, de parada, presuntas posiciones de splice o consensos reconocibles. El contenido se refiere a las estadísticas de las regiones codificantes, lo cual incluye distribución de nucleótidos no aleatoria, frecuencias de hexámeros, etc. La frecuencia de hexámeros parece ser muy buena para discriminar las regiones codificantes. Tres técnicas son prominentes para la predicción: redes neuronales, modelos ocultos de markov y análisis de discriminantes. Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 29 / 52 Predicción de genes Predicción de genes en eucariotas Predicción de genes en eucariotas En los métodos basados en redes neuronales, una red neuronal es entrenada con cadenas de genes conocidos, donde la información del gen está apropiadamente separada en varias características. La red recibe como entrada una secuencia con intrones y exones, y devuelve como salida la probabilidad de la estructura del exón. GRAIL es un programa en la red que usa redes neruonales y está especializado en los organismos humano, de ratón, Arabidopsis, Drosophila y E. coli. Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 30 / 52 Predicción de genes Predicción de genes en eucariotas Predicción de genes en eucariotas Figura : Estructura básica de una red neuronal para predicción de genes Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 31 / 52 Predicción de genes Predicción de genes en eucariotas Predicción de genes en eucariotas Las técnicas que usan análisis de discriminantes funcionan graficando en dos dimensiones las señales codificantes contra todas las posiciones potenciales de slice 3’. El análisis lineal divide las señales codificantes de las no codificantes mediante una linea. El análisis cuadrático divide las señales codificantes de las no codificantes mediante una curva. Programas que implementan este análisis son FGENES y MZEF. Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 32 / 52 Predicción de genes Predicción de genes en eucariotas Predicción de genes en eucariotas Figura : LDA vs QDA, los triángulos son características codificantes, los taches son regiones no codificantes. Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 33 / 52 Predicción de genes Predicción de genes en eucariotas Predicción de genes en eucariotas Varios programas están disponibles en la red que usan HMM. GENSCAN es uno de ellos y usa un modelo de markov de quinto orden. HMMgene es otro de ellos que utiliza una característica única llamada probabilidad condicional máxima para discriminar. Esta propiedad dice que si una secuencia tiene una región que ya ha sido identificada como codificante, se queda fija y la predicción subsecuente se hace con un sesgo hacia la región fija. Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 34 / 52 Predicción de genes 1 Predicción de genes en eucariotas Predicción de genes Introducción Categorías de los programas de predicción de genes Predicción de genes en procariotas Determinación convencional de marcos abiertos de lectura Predicción de genes usando Modelos de Markov y Modelos Ocultos de Markov Evaluación del desempeño Predicción de genes en eucariotas Programas Programas Programas Evaluación de predicción de genes ab initio basados en homología basados en consenso del desempeño Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 35 / 52 Predicción de genes Predicción de genes en eucariotas Predicción de genes en eucariotas Los programas basados en homología toman ventaja del hecho de que las estructuras de los exones y las secuencias de exones entre especies están altamente conservadas. Los marcos codificantes pueden traducirse y alinearse contra las proteínas homólogas más cercanas para encontrar regiones emparejadas casi perfectamente. El inconveniente de esta técnica es la confianza que se tiene en las secuencias de la base de datos y más aún, la presencia de estas. En caso de no existir, no se puede emplear esta técnica. Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 36 / 52 Predicción de genes Predicción de genes en eucariotas Predicción de genes en eucariotas Algunos programas en la red basados en homología: GenomeScan - Combina los resultados de GENSCAN con las búsquedas de similitud de BLASTX. EST2Genome - Basado enteramente en el enfoque de alineamiento de secuencias (con programación dinámica) para establecer los límites de intrones y exones. Es especialmente bueno para encontrar exones pequeños y exones en splicings alternativos. SGP-1 - Alinea dos secuencias de ADN de organismos relacionados. Traduce los exones potenciales a proteínas y hace un alineamiento por pares. TwinScan Muy parecido a GenomeScan. Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 37 / 52 Predicción de genes Predicción de genes en eucariotas Predicción de genes en eucariotas En lugar de usar las propiedades estadísticas de los exones, el problema se puede ver de la siguiente manera: Dada una proteína objetivo y una secuencia genómica, se necesita encontrar las subcadenas (substring) en la secuencia genómica cuya concatenación se ajusta mejor al objetivo. El enfoque por fuerza bruta busca todas las similitudes locales entre las secuencias y entrega un exón candidato. El mejor subconjunto de subcadenas que no se traslapan corresponde al mejor candidato a ser un exón. En el enfoque de programación dinámica, cada exón se modela con un intervalo ponderado en la secuencia genómica, descrito por tres parámetros (l,r,w). w refleja la probabilidad de el intevalo sea un exón, l y r son las posiciones de inicio y de fin del exón. Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 38 / 52 Predicción de genes Predicción de genes en eucariotas Predicción de genes en eucariotas Definamos una cadena como un conjunto de intervalos ponderados que no se traslapan. El peso total de una cadena es la suma de pesos de los intervalos. Un posible algoritmo puede recibir un conjunto de n intervalos ponderados, creando un grafo G de 2n vertices, donde n de ellos representan las posiciones de inicio y las n restantes las posiciones de fin. Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 39 / 52 Predicción de genes Predicción de genes en eucariotas Predicción de genes en eucariotas Existirán 3n-1 aristas, n de ellas conectan a li y ri con peso wi . Las 2n-1 restantes tienen peso 0 y conectan vértices adyacentes, en el siguiente algoritmo si representa el camino más largo hasta el vértice vi . Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 40 / 52 Predicción de genes Predicción de genes en eucariotas Predicción de genes en eucariotas EXONCHAINING(G , n) 1 2 3 4 for i ← 1 to2n si ← 0 for i ← 1 to 2n if vértice vi en G corresponde al extremo derecho del intervalo I . 5 j ← índice del vértice del extremo izquierdo del intervalo I 6 w ← peso del intervalo I 7 si ← max(sj + w , si−1 ) 8 9 10 else si ← si−1 return s2 n Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 41 / 52 Predicción de genes Predicción de genes en eucariotas Predicción de genes en eucariotas Un defecto de éste enfoque es que los puntos finales de los exones candidatos no están muy bien definidos. Más importante, la primer cadena de intervalos óptima puede ser similar a un sufijo de una proteína mientras que el segundo intervalo puede ser similar a un prefijo. En este caso los exones supuestos no se pueden combinar en un alineamiento válido. (Splicing tradicional). Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 42 / 52 Predicción de genes Predicción de genes en eucariotas Predicción de genes en eucariotas En 1966, Mikhail Gelfand et al propusieron el algoritmo spliced alignment (programación dinámica). El primer paso del algoritmo es seleccionar los posibles exones de ciertos sitios (dinucleótidos AG y GT) o de hallar todas las subcadenas similares a una proteína objetivo. Dado un conjunto de exones candidatos y una proteína objetivo, se exploran todas las posibles cadenas del exón candidato que se parezca más a la proteína. Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 43 / 52 Predicción de genes Predicción de genes en eucariotas Predicción de genes en eucariotas Sea G = g1 ...gn la secuencia genómica, T = t1 ...tm la secuencia objetivo (proteína) y B el conjunto de exones candidatos. El objetivo es encontrar una cadena de exones candidatos en la secuencia genómica que mejor se ajusta a la secuencia objetivo. El problema del spliced alignment se puede ver como encontrar un camino en un grafo acćlico dirigido. Los vértices del grafo corresponden a exones y las aristas sólo conectan vértices que no se traslapan. Los vértices están etiquetados con la cadena del posible exón, por tanto, un camino en el grafo deletrea la cadena final. El peso de un camino en el grafo está definido por el alineamiento entre la secuencia objetivo y la cadena del camino. Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 44 / 52 Predicción de genes Predicción de genes en eucariotas Predicción de genes en eucariotas Figura : Un ejemplo de grafo de spliced alignment. El grafo es acíclico, las aristas solo conectan vértices que no se traslapan. Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 45 / 52 Predicción de genes Predicción de genes en eucariotas Predicción de genes en eucariotas La recurrencia que usa el algoritmo define el puntaje de similitud entre el prefijo i del grafo y el prefijo j de la secuencia objetivo. La dificultad yace en que típicamente hay muchos prefijos que contienen la posición i (muchos prefijos i). Sea B = gleft ...gi ...gright un exón candidato que contenga la posición i en la secuencia genómica G. Definase el prefijo-i de B como B(i) = gleft ...gi y end(B) = right (right se usa como índice) Si la cadena Γ = (B1 , B2 , ..., B) termina en el bloque B, se define Γ ∗ (i) como la concatenación de todos los exones candidatos en la cadena hasta B, más todos los caracteres en B hasta i. Γ ∗ (i) = B1 ◦ B2 ... ◦ B(i) Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 46 / 52 Predicción de genes Predicción de genes en eucariotas Predicción de genes en eucariotas Finalmente, sea S(i, j, B) = maxs(Γ ∗ (i), T (j)) de todas las cadenas Γ que terminan en B Esto es, dados i, j y un exón candidato B que cubre la posicione i, S(i, j, B) es el puntaje del spliced alignment óptimo entre el prefijo i de G y el prefijo j de T . En la siguiente recurrencia se usa σ y δ como penalización por huecos y matriz de puntaje respectivamente. S(i − 1, j, B) − σ S(i, j − 1, B) − σ S(i, j, B) = max S(i − 1, j − 1, B) + δ(gi , tj ) Si i no es la posición inicial. Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 47 / 52 Predicción de genes Predicción de genes en eucariotas Predicción de genes en eucariotas Si i es la posición inicial. S(i, j − 1, B) − σ max(S(end(B 0 ), j − 1, B 0 ) + δ(gi , tj ) S(i, j, B) = max max(S(end(B 0 ), j, B 0 ) + σ Siendo B’ todos los bloques que preceden a B Esta matriz tridimensional tendrá el puntaje óptimo del spliced alignment en maxB S(end(B), m, B) Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 48 / 52 Predicción de genes 1 Predicción de genes en eucariotas Predicción de genes Introducción Categorías de los programas de predicción de genes Predicción de genes en procariotas Determinación convencional de marcos abiertos de lectura Predicción de genes usando Modelos de Markov y Modelos Ocultos de Markov Evaluación del desempeño Predicción de genes en eucariotas Programas Programas Programas Evaluación de predicción de genes ab initio basados en homología basados en consenso del desempeño Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 49 / 52 Predicción de genes Predicción de genes en eucariotas Predicción de genes en eucariotas Estos programas trabajan reteniendo las predicciones en común de los algoritmos de homología y ab initio. Eliminan las predicciones inconsistentes, con lo cual mejora la especificidad al costo de más baja sensibilidad. GeneComber - Es un programa web que combina HMMGene y GenScan. DIGIT - Use las predicciones de tres programas ab initio FGENESH, GENSCAN y HMMgene. Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 50 / 52 Predicción de genes 1 Predicción de genes en eucariotas Predicción de genes Introducción Categorías de los programas de predicción de genes Predicción de genes en procariotas Determinación convencional de marcos abiertos de lectura Predicción de genes usando Modelos de Markov y Modelos Ocultos de Markov Evaluación del desempeño Predicción de genes en eucariotas Programas Programas Programas Evaluación de predicción de genes ab initio basados en homología basados en consenso del desempeño Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 51 / 52 Predicción de genes Predicción de genes en eucariotas Predicción de genes en eucariotas La complejidad adicional de los organismos eucariotas tiene como consecuencia que sea necesario redefinir la sensibilidad y la especificidad al nivel de exones y genes. La sensibilidad al nivel de los exones y de los genes es la proporción de exones o genes correctamente predichos de entre los exones o genes que sí están presentes. Al mismo nivel, la especificidad es la proporción de exones o genes predichos de todas las predicciones. En lugar de usar el CC se calcula un promedio de sensibilidad y especificidad. Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 52 / 52