Download MDD - Decsai
Document related concepts
Transcript
INTRODUCCIÓN A LA BIOLOGÍA COMPUTACIONAL Prediction of Complete Gene Structures in Human Genomic DNA. Joan Miquel Fuster Mollá José María Hidalgo Utrera Ana Isabel Martínez García ÍNDICE Introducción Problemas Conocimientos básicos Objetivos Modelo general. Métodos Limitaciones Resultados Conclusión Introducción ¿Qué es GENSCAN? Es un modelo probabilístico capaz de encontrar múltiples genes o genes parciales en una secuencia. (http://genes.mit.edu/GENSCAN.html). Es un programa diseñado para predecir estructuras genéticas completas, incluyendo exones intrones, promotores y señales de polyadenilación en secuencias genómicas. Difiere de la mayoría porque permite búsquedas sobre genes incompletos y sobre cadenas simples o dobles. • Desarrollado en 1997 por Chris Burge (MIT). • Uno de los gene finders (ab initio, se basa en las propiedades generales y características de la proteína codificadora de genes) más precisos. • Modela en forma explícita la duración dentro de los estados del HMM (distintas longitudes de exones). • El modelo tiene distintos parámetros para regiones con distinto contenido de GC. • HMMs para exones, intrones e intergénicos. • Weight Matrix para sitios de splicing (acceptor, branch point), polyA y promotores. • Árboles de decisión para sitio donor de splicing. Dentro de la predicción de genes podemos encontrar distintos tipos: Por Homología: búsquedas de homología en las bases de datos (alineamientos). El hallazgo de homólogos es una señal casi definitiva de que el gen existe. La búsqueda de homología con otras proteínas, ya que si la similitud entre dos proteínas es alta, en la gran mayoría de los casos van a desempeñar la misma función y se puede transferir la anotación funcional de una a otra. Información adicional sobre otras propiedades de la secuencia (predicciones de estructura, dominios conocidos, predicciones de localización subcelular, etc.) es de gran ayuda a la hora de asignar función o confirmar la asignación hecha por homología. La búsqueda de genes o de productos génicos homólogos es uno de los métodos más antiguos y más usados para identificar secuencias codificantes y determinar la estructura de genes. Este tipo de métodos se califican como extrínsecos porque se basan en usar información procedente del estudio de otros genomas. Son, por tanto, menos eficientes en Eucariotas que en Procariotas dada la menor abundancia de información de especies evolutivamente cercanas. La familia de aplicaciones BLAST incluye programas que permiten hacer diferentes tipos de búsquedas. - BLASTN permitiría identificar genes parecidos en bases de datos de secuencias de ADN, usando la secuencia genómica como "query". - BLASTX traduce la secuencia "query" en las seis fases de lectura posibles y hace búsquedas en bases de datos de proteínas; esto permitiría identificar productos génicos parecidos a los codificados por la secuencia genómica, y serviría para identificar regiones codificantes (no intrones). - TBLASTX traduce la secuencia "query" en las seis fases abiertas de lectura y hace búsquedas en bases de datos de secuencias de ADN también traducidas en la seis fases de lectura posibles; esto serviría para identificar secuencias que codifican para productos parecidos a los que codifica la secuencia "query". Si se conoce, o se puede predecir, la secuencia del producto génico, o parte de ella, otros programas permiten usar la secuencia de aminoácidos como "query": - BLASTP busca proteínas parecidas en bases de datos de proteínas. - TBLASTN hace búsquedas en bases de datos de secuencias de ADN traducidas en las seis fases de lectura posible. Por uso de Señales: el análisis de señales o motivos se considera un método de tipo intrínseco. Estos métodos se basan en la identificación de motivos de secuencia característicos de los elementos que forman parte de los genes, tales como promotores, codones de inicio y terminación, sitios de procesamiento del ARN (en Eucariotas), terminadores de transcripción (en Procariotas), etc. El grado de conservación de cualquiera de esos motivos varía considerablemente. Aquellos relativamente conservados pueden ser identificados mediante búsquedas con secuencias consenso, que representan la secuencia del motivo para una cierta mayoría de ejemplos. Fuzznuc es un ejemplo de programa para buscar ocurrencias de una secuencia consenso en otra secuencia. El programa permite especificar el número de fallos (mismatches) que serían aceptables, así como utilizar secuencias consenso ambiguas (por ejemplo, [ACG] significa A, C o G). Así podría ser buscando promotores y sitios poli A, inicio de la traslación y unión de donantes y aceptores. Los métodos para detectarlos pueden ser llamados sensores de señal: Transcripción - promotores y terminadores de transcripción - varios sitios de unión de factores de transcripción - sitios de polyadenylacion Unión - sitios de unión Traslación - codones de inicio y terminación - sitios de unión al ribosoma Por análisis Estadístico: estos métodos se basan en el análisis de las propias secuencias de ADN y son, por tanto, de tipo intrínseco (en oposición a los métodos extrínsecos). Consisten en el análisis estadístico de la composición del ADN, muy frecuentemente para detectar sesgos en las frecuencias de trinucleótidos impuestas por las restricciones que impone el código genético en las zonas codificantes. - El contenido G+C es la medida más simple. Aún así, puede ser de ayuda a la hora de deducir la estructura de un gen dado que el contenido en G+C es más alto en las 5'-UTR que en las 3'-UTR. Esta diferencia es especialmente marcada en los vertebrados de sangre caliente. - El contenido en G+C de la tercera posición de los codones de bacterias con alto contenido en G+C, como las del género Streptomyces, puede ser de hasta un 92% (mientras que el contenido en G+C del genoma de Streptomyces coelicolor, por ejemplo, es del 73%). Esta particularidad es la usada por el programa FramePlot para identificar regiones codificantes. - GC3s. Este parámetro es parecido al anterior y mide la frecuencia de codones sinónimos en los que la tercera posición es G o C. - Uso de Codones. Las frecuencias de uso de cada uno de los codones, y las frecuencias de uso de codones sinónimos, pueden también usarse para predecir si una secuencia es codificante o no. Dado que dichas frecuencias varían entre genomas y entre genes de un mismo genoma, es necesario disponer de tablas de frecuencias específicas, apropiadas para la secuencia que se va a analizar. Existen muchos programas para calcular tablas de de uso de codones a partir de secuencias ya caracterizadas (por ejemplo el contenido en la Sequence Manipulation Suite, que es accesible a través de Internet), y también pueden ser obtenidas de bases de datos especializadas (Codon Usage Database). - Índice de Adaptación de Codones (CAI). Este parámetro mide el grado en que el uso de codones de una secuencia se adapta a las frecuencias de uso de codones calculadas previamente para un organismo, o para un subconjunto de genes del mismo. Más que para predecir la existencia de zonas de uso de codones, el CAI se usa para predecir el nivel de expresión de un gen o para comparar el uso de codones entre organismos. El programa CodonW puede ser usado para calcular el CAI, así como para realizar otros cálculos estadísticos relacionados con el uso de codones. - Otros parámetros relacionados con el uso de codones miden la frecuencia en la que ocurren pares de codones sucesivos (dicodon counts), la periodicidad de oligonucleótidos repetidos o la complejidad en la composición de nucleótidos. Problemas La bioinformática nace a principios de la década de los ochenta, cuando se crean las bases de datos que acumulan las secuencias de ácidos nucleicos y de proteínas. Incluso antes, había algunos trabajos pioneros que aplicaban la computación a problemas de la biología. Cuando los ordenadores empezaron a generalizarse en las universidades, en la década de los sesenta, se inició el desarrollo de aplicaciones de computación para biología. Podemos decir que la bioinformática como tal no se establece hasta principios de los años ochenta y su importancia no se hace patente hasta que se inicia el proyecto del genoma humano, a finales de los años ochenta y principios de los noventa. Así podemos clasificar que: Al principio, el problemas se basaba en encontrar elementos funcionales, promotores, splice, regiones codificadas, todo ello utilizando métodos biológicos. Después, una vez evolucionaron los métodos informáticos, el problema se centró en la predicción de genes completos pero con limitaciones, ya que: - algunos algoritmos suponen que las secuencias contienen genes completos. - y que sólo el 50% de los exones son identificados en estos métodos. Conocimientos básicos Como es sabido, GENSCAN trabaja mejor con genes de tipo eucariota. Por tanto empezaremos explicando las distintas zonas de este tipo de gen: - promotor: zona donde empieza el gen. terminador: donde acaba el gen. UTR: secuencia que no se traduce. CDS: secuencia codificada, donde se encuentran los intrones(zonas sin información relevante) y los exones(zonas con información importante). Donador: donde empieza el intrón. Aceptador: donde acaba el intrón y por tanto empieza el siguiente exón. Esto lo veremos mejor en el siguiente gráfico: PROMOTOR Secuencia que no se traduce Intrón 1 Intrón 2 Secuencia que no se traduce Intrón 3 5` 3` Región reguladora reguladora EXON 1 UTR EXON 2 EXON 3 EXON 4 CDS EXON n Región UTR intron exon start - exon donor acceptor Splice sites: zonas de corte y empalme entre exones. Se trata de quedarnos únicamente con las secuencias que codifican el gen. intron exon intron exon exon Objetivos El objetivo principal de Genscan es encontrar, mediante métodos ompultacionales, la exacta localización de las zonas anteriormente descritas (exones, intrones, zonas de corte y empalme…) en secuencias genómicas. Para ello, utiliza un modelo probabilístico. Las características más importantes de este modelo son: - - Es capaz de capturar las diferencias en la estructura de genes y composición entre distintas regiones C+G del genoma humano. Presenta la capacidad de predecir múltiples genes en una secuencia, partes o genes completos y de predecir sistemas constantes de genes que se encuentran en cualquier o ambos filamentos del ADN. Para la localización de las zonas de corte y empalme (splicing) del donante y aceptadr se usan modelos estadísticos que capturan dependencias importantes entre las posiciones de la señal. Genscan puede ser usado para detectar genes nóveles, esto es, genes que no se encuentran en la base de datos. En la práctica, se suele utilizar distintos programas en paralelo con Genscan para obtener mejores resultados. Estos podrían ser: 1.- CENSOR: identifica y enmascara secuencias repetidas. 2.- A continuación se podría usar Genscan u otro programa de predicción de genes y las secuencias obtenidas buscarlas en bases de datos de proteínas con BLASTP para detectar posibles homólogos. 3.1- Si se detectan homólogos, podemos refinar la predicción sometiendo la región del genoma correspondiente junto con la proteína homologa usando Procrustes (que utliliza el algoritmo ”spliced alignment” para emparejar la secuencia del genoma a la proteína). 3.2.- Sino se detectan homólogos, se podría usar la base de datos Expressed Sequence Tags para precisar terminos 3’. 4.- Por último, los programas RT-PCR y 3’ RACE, usados para precisar las posiciones exactas de los exones/intrones y posibles zonas de unión (splicing). Con esto lo que conseguimos es una predicción más exacta. Modelo general Nuestro sistema se basa en los modelos de Markov, un modelo probabilístico basado en la estadística y que toma información adicional de los residuos de los vecinos. Según el número de vecinos que se utilicen para obtener la información y hacer la predicción de lo que hacemos después tendremos distintos órdenes: Primer orden: Toma la información del vecino más cercano Orden N: Toma la información de los N vecinos más cercanos. En el caso del GENSCAN, se trata de un modelo de Markov de 5º orden, lo que signfica que la información vendrá de los 5 nucleótidos anteriores al que queremos predecir. Lógicamente aquí el vecino de los modelos de Markov es un nucleótido. Como se ha dicho, el modelo de Markov utiliza la estadística. En el GENSCAN la estística se utiliza para predecir el nucleótido que vendrá a continuación partiendo de los 5 nucleótidos anteriores, es decir, que en función de la zona en la que se supone que estamos y de los 5 nucleótidos anteriores se determina qué zona y qué nucleótido viene a continuación. Esta estadística no se ha establecido al azar, sino que se ha utilizado un conjunto de secuencias y se ha hecho un análisis acerca de las proporciones de las bases ACGT que hay en cada unidad funcional de un gen (exón, intrón, etc…) y cómo se distribuyen unas en función de otras. Además de los métodos para aprender en qué consiste estructuralmente cada unidad funcional dependiendo de la zona en la que esté el programa utilizamos distintos modelos, de manera que el modelo de Markov que utilizamos no es único, sino que se basa en los siguientes modelos que forman uno compuesto: Initial, transition probabilities. Transcriptional Translational signals. Signal Models Algorithmic issues State length distributions Splice Signals MDD Reverse-strand states Acceptor splice Site model Exon models Estos modelos son explicados en el apartado de métodos. El algoritmo puede verse en el gráfico de la página siguiente. Dado que el programa es capaz de leer en ambas hebras del ADN aparece una figura simétrica. Lo que se hace en la parte positiva es igual a lo que se hace en la parte negativa pero en orden inverso, así que explicaremos sólo una parte y la inversa es exactamente igual. El algorimo se basa en un grafo unidireccional con dos tipos de estados: rombos y círculos. Estos estado representan una unidad funcional del gen eucariota. Los rombos indican que se lanza en ellos una probabilidad para determinar lo que viene a continuación. Los circulares son estados en los que no hay que establecer ninguna probabilidad debido a que no cabe ninguna otra posibilidad de lo que viene. Por ejemplo, después del promotor solamente puede venir la zona UTR, así que no hay que establecer ninguna probabilidad. La notación de los estados es la siguiente: N = inicio de la región intergénica P = promotor F = región no traducida 5’ Esngl = gen de exon único Einit = exon inicial Eterm = exon final (estos dos hacen referencia a los genes multiexón) T = región no traducida 3’ Ik = intron de fase k (0<=k<=2) A = señal poly-A Ek = Exon interno de fase k (0<=k<=2) La fase k indica la posición del exón o del intrón en el que estamos: para la hebra positiva k = 0 (Aceptador), k = 1 (Región codificante) y k = 2 (Donador), y para la negativa justo al contrario. Donadores, aceptadores y señales de inicio y fin se consideran dentro del exon correspondiente, puesto que para el nivel de predicción que aquí consideramos no hay que tenerlos en cuenta. El algoritmo comienza con la zona Intergénica, donde se lanza una probabilidad para establecer si nos vamos a encontrar el promotor o la señal poly-A. Si sale el promotor es que estamos en la hebra positiva y si sale poly-A en la hebra negativa. En el caso de que vayamos al promotor lo que sólo puede venir a continuación es la zona UTR 5’, así que no hay que lanzar probabilidades. En la UTR puede ocurrir que nos encontremos con un gen multiexón, con lo que lo siguiente será el exón inicial, o un gen sin intrones, con lo cual sólo tendremos el exón. Según la probabilidad elegiremos uno u otro. Para el multiexón se van sucediendo los intrones y los exones con cierta probabilidad hasta que sale más alto la probabilidad de Exón terminal, tras lo cual vendrá la zona UTR 3’ y después la señal poly-A para volver de nuevo a la zona intergénica. Para el gen de exón único como no hay intrones, directamente pasaría a la UTR 3’. El GENSCAN también es capaz de determinar genes parciales, de ahí que en zonas como UTR 3’ lance probabilidades por si se vuelve de nuevo a la zona intergénica. La forma de establecer las probabilidades en cada caso vienen dadas en los modelos indicados anteriormente y de los que se hablará en el apartado métodos. Métodos Conjunto de secuencias: Como ya se ha indicado GENSCAN utiliza probabilidades. Estas probabilidades han sido obtenidas a partir de una análisis estadístico de un conjunto de secuencias que le han servido de entrenamiento y que se guardan en una base de datos interna para cuando necesite hacer homología. El proceso para elegir estas secuencias de genes fue el siguiente: Se cogió del GenBank un conjunto inicial no redundante (Kulp/Reese) de secuencias completas pero que también incluían regiones 5’ 3’ no traducidas. Para eliminar la redundancia entre las secuencias se utilizó BLASP. Limpieza genes: Se eliminaron los genes que sólo contenían CDS, tenían exones inciertos o putativos, genes solapados, pseudogenes, o genes de origen viral porque la célula estuviese infectada. Con esto quedaron 428 secuencias. Borrado de genes con más de un 25% de igualdad a nivel de aminoácidos mediante PROSET. Con lo que quedaron 238 secuencias multi-exón y 142 de exón único, un total de 2.580.965 pbs. Todos los métodos y modelos del estudio utilizan estas secuencias, salvo dos casos: Modelo promotor: basado en otras fuentes. Modelo de región codificante: sustitución por otro conjunto de proteinas humanas de 100 aminoácidos de longitud mínimo. Algorithmic Issues En una situación normal, cuando hay que determinar probabilidades, el GENSCAN genera todas las posibles secuencias que pueden venir a continuación. Para ello utiliza parsers, que son conjuntos de estados qi y sus duraciones di que, junto a un modelo probabilístico de cada uno de los tipos de estado, genera una secuencia S de longitud L de ADN. La probabilidad de generar un parse es: n P{ i , S} q1 f q1 (d1 ) P{si | q1 , d1} Tqk 1 ,qk P{sk | qk , d k } k 2 Para ello utiliza un algoritmo recursivo(hacia delante y hacia atrás), de Viterbi: P{S} se calcula con el algoritmo hacia delante; hacia atrás sólo se utiliza en los casos en los que nos podemos encontrar un exón de fase k: P{E[ x , y ] | S} (K ) i :E[(xk,)y ] i P{ i , S } P{S } La sumatoria es obtenida a partir de los parses que hacen referencia al mismo exon E. En la práctica esto crece linealmente con la longitud de las secuencias de Kb o más. Probabilidades inicial y de transición Estas probabilidades se utilizan al principio del algoritmo y en los casos normales de transición. Para establecerlas se utilizó un análisis estádistico y se vió que las propiedades de las secuencias cambiaban en función del contenido en porcentaje de C+T (citosina y timina). Se establecen cuatro grupos: I (menos del 43%), II(entre 43 y 51%), III (entre 51 y 57%) y IV (más del 57%). La siguiente tabla indica esas propiedades: Cuando estamos en transiciones obligatorias, como por ejemplo de P+ a F+, la probabilidad asociada a la transición es 1, con lo que así no hay que preocuparse de si hay que lanzar o no probabilidad. State length distributions: En la predicción de genes, es importante la longitud de los exones porque sino tiene una longitud adecuada se pueden producir fallos al incluir el exon en el mRNA final. Así como interferencias en los factores que reconocen las zonas de corte y empalme y podría hacer la unión de exones pequeños más difícil. La idea es que para que haya más precisión en la predicción el exon interno debería tener entre 50 y 300 pares de base, como podemos observar en el siguiente gráfico, con un pico entre 120 y 150 bp. Lo mismo ocurre para los exones iniciales con un pico en aproximadamente 80 bp. Es importante decir que estos resultados han sido obtenidos en 1997 y que desde entonces se han añadido más genes a la base de datos y por tanto actualmente se obtengan unas gráficas distintas. Signal Models: Hay varios modelos de señales, los que utiliza Genscan son los siguientes Modelo weight matrix method WMM de Staden: – – – Frecuencia pij de cada nucleótido j a cada posición i de una señal de longitud n. Calcula la probabilidad de generar una secuencia particular (X=x1,x2,…,xn). Modelo más simple usado para cierto tipo de señales. Modelo weight array (WAM) de Zhang & Marr: – – – Considera las dependencias entre las posiciones adyacentes Calcula la probabilidad de generar una secuencia particular. Deriva al modelo MDD. Transcriptional and translactional: El modelado de señales que se utiliza en Genscan es el siguiente: Señal polyA: 6 bp usando para su predicción el modelo WMM (consensus: AATAAA). Señal de iniciación de la traducción: (“CDS”): 12 bp WMM model. Señal de terminación de la traducción: codón de parada (UAA, UAG, UGA) y para los siguientes tres nucleótidos usamos modelo WMM. Splice signals: En la predicción de genes las señales de donante y aceptador son las más críticas de predecir. Se ha estudiado que existen significantes dependencias tanto en posiciones no adyacentes como en las adyacentes en la señal del donante. La región de consenso del donante se encuentra en los últimos 3 bp del exón (posiciones -3 a -1) y los primeros 6 bp del siguiente intrón (1 a 6). Con estos datos se crea una tabla en la que se obtienen valores de dependencia entre cada par de nucleótidos. Esto es, por ejemplo, si hay una G en la posición -1, la posición -2 e dependiente de la -1 en 82.8. Mediante métodos estadísticos se ha calculado que una dependencia mayor que 16 es una dependencia fuerte, por tanto a tener en cuenta(en la tabla se muestra con un asterisco). MDD: El objetivo del proceso MDD es generar, a partir de un alineamiento de secuencias de señales de tamaño considerable (por ejemplo varias miles o más secuencias), un modelo que captura las dependencias más significativas entre posiciones, esencialmente remplazando las incondicionales probabilidades WMM por las apropiadas probabilidades condicionales provenidas estas de suficientes datos que nos permitan hacer esto realidad. Dado un conjunto de datos D compuesto de N secuencias de alineamiento de longitud k, el primer paso es asignar un nucleótido consenso o nucleótidos a cada posición. Luego, para cada par de posiciones, se calcula la chi-cuadrado Ci frente a Xj para cada par i, j con i distinta de j. Si no se detectan dependencias significativas, entonces con un simple SMM sería suficiente. Si se detectan dependencias significativas, pero si hay exclusividad o predominancia entre posiciones adyacentes, entonces un modelo WAM puede ser lo apropiado. Si, por el contrario, hay fuertes dependencias tanto entre posiciones no adyacentes como en posiciones adyacentes, entonces el proceso sería el siguiente. (1) Calcular para cada posición i, la suma Si=Σj≠iX2(Xi,Xj) (), que es una medida de la suma de dependencias entre las variables Ci y los nucleótidos en dichas posiciones. (2) Elegir el valor i1 tal que Si1 sea el mayor y divida a D en dos subconjuntos: Di1, todas las secuencias que tengan un nucleótido consenso en la posición i1; y Di1 todas las secuencias que no. Ahora se repiten los pasos (1) y (2) en cada uno de los subconjuntos, Di1 y Di1 y así pues se va haciendo una subdivisión binaria en árbol con (al menos) k-1 niveles. Este proceso de subdivisión es lleva a cabo sucesivamente en cada una de las ramificaciones de las tres hasta que ocurra una de las tres siguientes condiciones: (1) el k-1ésimo nivel es podado(no es posible hacer más subdivisiones); (2) se detecta que no existen dependencias significativas entre posiciones de un subconjunto (no es posible indicar más subdivisiones); (3) el número de secuencias en un subconjunto llega a ser demasiado pequeño para que las frecuencias WMM pudieran determinar más subdivisiones. Finalmente, los modelos WMM son derivados de cada uno de los subconjuntos del árbol, y éstos se combinan para formar un modelo como se describe más abajo. La figura ilustra la aplicación del proceso MDD al conjunto de 1254 donadores de L. La subdivisión inicial está hecha de acuerdo al consenso (G) en la posición 5 de la señal donadora, obteniendo los subconjuntos G5 y H5 (H significa A, C o U) conteniendo 1057 y 197 secuencias de intrones, respectivamente. Consideramos el número 175 como el tamaño mínimo razonable para un subconjunto, así que el subconjunto H5 no se subdivide. El subconjunto G5 es suficientemente grande y demuestra una dependencia significativa entre las posiciones (datos no mostrados), así que subdividiremos de acuerdo al consenso (G) en la posición -1, los subconjuntos G5G1 y G5H-1. El modelo MDD: (0) Los nucleótidos X1 y X2 se generan. (1) X5 es generado a partir del original WMM. (2a) Si X5≠G, entonces el modelo WMM para el conjunto H5 es usado para generar los nucleótidos de las posiciones de los donadores. (2b) Si X5=G, entonces X-1 se genera a partir del modelo WMM para el subconjunto G5. (3a) Si (X5=G y) X-1≠G, entonces usamos el modelo WMM para el subconjunto G5H-1. (3b) Si (X5=G y) X-1=G, X-2 es generado a partir del modelo para G5G-1; y así, hasta que la secuencia 9 bp se haya generado entera. Aceptor splice site model: El primer paso en el proceso MDD también se aplicó a 1254 aceptores de genes multiexón de L, pero se encontraron dependencias entre las posiciones. Sin embargo, se aplica una modificación del método WAM para modelar la señal. Específicamente, las bases desde la -20 hasta la +3 relativas al cruce intrón/exón, abarcando la región pyrimidine-rich y el espacio de los aceptores por si mismo, son modeladas por un modelo WAM como describen Zhang & Marr (1993). La región del punto de poda es tristemente difícil de modelar, incluso el punto mas degenerado está presente en solo una fracción de la secuencia de aceptor. Por ejemplo, YYRAY estuvo presente en la región apropiada [-40, -21] en solo el 30% de la secuencias de aceptores de nuestro conjunto de datos; de forma similar se han observado frecuencias más bajas en secuencias de punto de branch, ej. Harris & Senapathy (1990). Para modelar esta región, introducimos un “windowed seocnd-order WAM model” (WWAM), en aquellos nucleótidos que son generados condicionados por los nucleótidos situados 2 posiciones antes. En regla para tener suficientes datos para estimar estas probabilidades condicionales, se promedian las frecuencias condicionales sobre una envergadura de cinco posiciones, por ejemplo, la entrada WAM para la posición i se compone de una media de las frecuencias condicionales de las posiciones i-2, i-1, i, i+1 y i+2. Este modelo captura el débil, pero con tendencia hacia la tripleta YYY tan cierto como la tripleta branch point-related tales como TGA, TAA, GAC, y AAC en esta región, sin requerir la ocurrencia de algún branch point específico. Exon Models: Las porciones de exones se modelan usando un modelo oculto de quinto orden (3-periódico) de Markov como por Borodovsky & McIninch (1993); como también Gelfand (1995). En este sentido, las matrices de transición de quinto orden de Markov son determinantes para las posiciones de los codones de fin de cada uno de los árboles, denominadas c1, c2, c3, respectivamente. Los exones se modelan usando las matrices c1, c2, c3 sucesivamente para generar cada codón. Esta transición deriva del conjunto C de secuencias de código completas descritas previamente. Con respecto a esta elección de modelo de secuencia de código, tenemos a Fickett & Tung (1992) muestran que son generalmente los más acertados discriminadores compuestos de código frente a las regiones no codificadas. En este estudio se encontraron, como tantos otros, que los genes A+T-rich son a menudo difíciles de predecir usando tales parámetros hexamerderived. Por consiguiente, un conjunto de matrices de quinto orden de Markov derivaron para una composición C+G de regiones de grupo I (<43% C+G). Específicamente, las secuencias de código de todos los genes de grupos I de L fueron combinadas con todos cDNAs de <48% C+G de C: este hecho fue comprobado en 638 secuencias de un total aproximadamente de 1139Mb. Reverse-strand states: La secuencia generadora para estas hebras deriva de los correspondientes modelos de hebra avanzados por la simple operación de complementación inversa. Por ejemplo, si el modelo de señal de hebra avanzado de terminación genera las tripletas TAG, TAA y TGA con probabilidades p1, p2 y p3, respectivamente, entonces el modelo de hebra avanzado reverse generará las tripletas CTA (complemente invertido de TAG), TTA y TCA, con probabilidad p1, p2 y p3. Equivalentemente, el modelo de hebra avanzado se usa para generar un “trecho” de secuencia, y entonces se toma/coge el complemento inverso de la secuencia. Limitaciones Número de genes El número de genes predecidos en una secuencia es normalmente aproximadamente el correcto, pero puede suceder, que se interprete como un gen único en lugar de más de uno. Organismo El programa fue en principio diseñado para predecir genes en secuencias genómicas humanas o de verte3brados, así que puede funcionar peor para no vertebrados. Para secuencias procariotas o de levadura, se recomiendan los programas Glimmer o GeneMark. Tests no representativos Como está enfocado para genes cortos en estructuras exón/intrón simples las tablas estadísticas mostradas pueden no ser totalmente representativas. Tipo de exón Los exones internos son predecidos más fácilmente que los iniciales o los finales. A su vez, los exones son predecidos más fácilmente que las señales poli-A o promotor. Señales de Splice Para predecir sitios de corte y empalme en RNA es mejor otros programas como el de Brendel and colleagues. Resultados: Para evaluar cómo de bueno es GENSCAN, se probó con un conjunto de 570 secuencias multiexón correspondientes a vertebrados (conjunto de Burset/Guigó), y se comparó con otros programas de predicción de genes. La evaluación se hace en varios niveles: Nivel de Base (Nucleótido): Fiabilidad de la predicción por base Nivel de Exón (Estructura del exón): Fiabilidad de la predicción con respecto a la predicción exacta del comienzo y fin del exón. Nivel de Proteína (Proteína): Fiabilidad de la predicción con respecto a la proteina codificada por el gen predicho. Nivel de Gen: Indica qué proporción de genes son predichos exactamente. Resultados a nivel de base Para definir las medidas a este nivel, es necesario conocer cuatro variables, definidas a partir del dibujo: Falso negativo (FN): En la realidad existe un trozo de exón que el progama no ha detectado Falso positivo (FP): El programa ha detectado un trozo de exón que no está presente en la secuencia. Verdadero negativo (TN): No hay nada en la secuencia y el programa tampoco detecta nada. Verdadero positivo (TP): El tozo de exón presente en la secuencia es predicho por el programa. Además existen otras dos variables: AP (real positivo, coincidencia exacta en longitud con el exón existente) y AN (real negativo, coincidencia exacta en longitud con una zona inexistente). Según estas variables podemos definir varias medidas: Sn: Sensibilidad = TP/(TP+FN). Hace referencia a la proporción de lo que se ha detectado bien frente al total que existe. Sp: Especificidad = TN/(TN+FP). Es la proporción de lo no detectado frente al total que no existe. AC: Correlación aproximada. AC 1 TP TP TN TN 1 2 AP PP AN PN CC: Coeficiente de correlación CC TP * TN FP * FN PP * PN * AP * AN Resultados a nivel de exón Para determinar las medidas hay que tener en cuentra las tres posibilidades que se dan en la imagen: Un exón erroneo es aquel que no existe en la secuencia pero se ha predicho. Un exón perdido es justo lo contrario: existe pero no se predice. Un exón correcto es aquel que existe y se detecta, pero además la predicción coincide exactamente en las posiciones de inicio y fin. Según esto podemos definir: Sn: Sensibilidad =Num exones correctos/Num exones reales Sp: Especificidad =Num exones correctos/Numero exones predichos ME = Numero exones perdidos/Numero exones reales WE = Numero exones erroneos/Numero exones predichos Resultados a nivel de proteína Sólo hay una medida, % Sim, que es el porcentaje de similaridad entre la secuencia de aminoácidos codificada por el gen predicho y la secuencia de aminoácidos codificada por el gen real. Dado que el documento es del año 1996, esta medida no está reflejada en el mismo, pero la incluimos porque esta clasificación de los resultados están obtenidos de la página oficial de GENSCAN, en los que sí aparece. Resultados para los niveles de Base y de Exón Los resultados se pueden ver en la siguiente tabla: Como se puede ver, en todas las medidas GENSCAN es muy superior a los demás programas, salvo en ME que GeneID+ es mejor. En todas las medidas interesa obtener el valor mayor, salvo en ME y WE, que como hacen referencia a valores incorrectos, interesa que sea lo más bajo posible. De ahí que GeneID+ sea mejor en ME con un valor más pequeño. De los demás programas podemos decir que: los tres programas que siguen a GENSCAN (FGENEH,GeneID y Genie), no utilizan homología, mientras de GeneID+ y GeneParser3 sí lo hacen. Por otro lado GeneID utiliza un modelo de Markov y Genie sólo es capaz de predecir secuencias multiexón en una secuencia con un solo gen. Resultados a nivel de gen Indica qué proporción de genes son predichos exactamente. Se obtuvo un 0.43 (243 secuencias frente al total de 570). Esto hizo llegar a la conclusión de que es posible predecir estructuras multi-exón más complejas con un resultado razonable. Por ejemplo, el gen gástrico humano con 22 exones codificantes. A diferencia de los otros niveles, es relativamente insensible al contenido de C+G. En este nivel se define un factor p (Probabilidad adelante-atrás) que es la probabilidad de que un exon predicho sea correcto y pueda ser usado para señalar regiones de una predicción que son más o menos ciertos. En total se consiguieron 2678 exones predichos en el conjunto Burset/Guigó. La siguiente tabla muestra a distintos niveles de probabilidad, cuántos exones se detectaron y de esos qué porcentaje era correcto: p Número exones Porcentaje correctos >0.99 917 98% [0.95,0.99] 551 92% [0.90,0.95] 263 88% [0.75,0.90] 337 75% [0.50,0.75] 362 54% [0.00,0.50] 248 30% Entrenamiento En este caso se utilizó un conjunto independiente al anterior. Los resultados fueron los mismos que con el conjunto Burset/Guigó, aunque aquí vuelve a haber diferencias según los cuatro grupos de proporciones del contenido de C+G. Se definieron dos conjuntos: uno con 28 secuencias y el otro con 34. Resultados para secuencias largas: Pero todos estos datos no son del todo fiables, puesto que no se ajustan a la realidad. Hasta ahora sólo hemos trabajado con secuencias cortas. Para secuencias largas sólo GRAIL ha sido capaz de conseguir resultados aceptables, aunque también se encontraron dificultades. Si comparamos GENSCAN Y GRAIL en la figura de la página siguiente, vemos que ambos encuentran resultados aceptables, pero mientras GENSCAN predice genes, GRAIL predice exones en la secuencia. Se puede ver que GENSCAN está detectando el principio y el fin de los genes, mientras que GRAIL no lo hace: En rojo vemos GRAIL, en azul GENSCAN y en verde vemos los exones que existen realmente (exones anotados). Conclusión Es capaz de identificar estructuras completas de exones/intrones dentro de una cadena de ADN. Predicción de genes múltiples en una secuencia. Con un 75-80% de exones identificados. Gran precisión en secuencias C+G y para distintos grupos de vertebrados