Download MDD - Decsai

Document related concepts

Exón wikipedia , lookup

Empalme alternativo wikipedia , lookup

Intrón wikipedia , lookup

ARN mensajero wikipedia , lookup

Genómica comparativa wikipedia , lookup

Transcript
INTRODUCCIÓN A LA
BIOLOGÍA COMPUTACIONAL
Prediction of Complete Gene
Structures in Human Genomic
DNA.
Joan Miquel Fuster Mollá
José María Hidalgo Utrera
Ana Isabel Martínez García
ÍNDICE
Introducción
Problemas
Conocimientos básicos
Objetivos
Modelo general. Métodos
Limitaciones
Resultados
Conclusión
Introducción
¿Qué es GENSCAN?
Es un modelo probabilístico capaz de encontrar múltiples genes o genes parciales en
una secuencia. (http://genes.mit.edu/GENSCAN.html). Es un programa diseñado para
predecir estructuras genéticas completas, incluyendo exones intrones, promotores y
señales de polyadenilación en secuencias genómicas. Difiere de la mayoría porque
permite búsquedas sobre genes incompletos y sobre cadenas simples o dobles.
• Desarrollado en 1997 por Chris Burge (MIT).
• Uno de los gene finders (ab initio, se basa en las propiedades generales y
características de la proteína codificadora de genes) más precisos.
• Modela en forma explícita la duración dentro de los estados del HMM (distintas
longitudes de exones).
• El modelo tiene distintos parámetros para regiones con distinto contenido de
GC.
• HMMs para exones, intrones e intergénicos.
• Weight Matrix para sitios de splicing (acceptor, branch point), polyA y
promotores.
• Árboles de decisión para sitio donor de splicing.
Dentro de la predicción de genes podemos encontrar distintos tipos:
 Por Homología: búsquedas de homología en las bases de datos (alineamientos).
El hallazgo de homólogos es una señal casi definitiva de que el gen existe. La
búsqueda de homología con otras proteínas, ya que si la similitud entre dos
proteínas es alta, en la gran mayoría de los casos van a desempeñar la misma
función y se puede transferir la anotación funcional de una a otra. Información
adicional sobre otras propiedades de la secuencia (predicciones de estructura,
dominios conocidos, predicciones de localización subcelular, etc.) es de gran
ayuda a la hora de asignar función o confirmar la asignación hecha por
homología.
La búsqueda de genes o de productos génicos homólogos es uno de los métodos
más antiguos y más usados para identificar secuencias codificantes y determinar
la estructura de genes. Este tipo de métodos se califican como extrínsecos
porque se basan en usar información procedente del estudio de otros genomas.
Son, por tanto, menos eficientes en Eucariotas que en Procariotas dada la menor
abundancia de información de especies evolutivamente cercanas.
La familia de aplicaciones BLAST incluye programas que permiten hacer
diferentes tipos de búsquedas.
- BLASTN permitiría identificar genes parecidos en bases de datos de
secuencias de ADN, usando la secuencia genómica como "query".
- BLASTX traduce la secuencia "query" en las seis fases de lectura posibles y
hace búsquedas en bases de datos de proteínas; esto permitiría identificar
productos génicos parecidos a los codificados por la secuencia genómica, y
serviría para identificar regiones codificantes (no intrones).
- TBLASTX traduce la secuencia "query" en las seis fases abiertas de lectura y
hace búsquedas en bases de datos de secuencias de ADN también traducidas en
la seis fases de lectura posibles; esto serviría para identificar secuencias que
codifican para productos parecidos a los que codifica la secuencia "query".
Si se conoce, o se puede predecir, la secuencia del producto génico, o parte de
ella, otros programas permiten usar la secuencia de aminoácidos como "query":
- BLASTP busca proteínas parecidas en bases de datos de proteínas.
- TBLASTN hace búsquedas en bases de datos de secuencias de ADN traducidas
en las seis fases de lectura posible.
 Por uso de Señales: el análisis de señales o motivos se considera un método de
tipo intrínseco. Estos métodos se basan en la identificación de motivos de
secuencia característicos de los elementos que forman parte de los genes, tales
como promotores, codones de inicio y terminación, sitios de procesamiento del
ARN (en Eucariotas), terminadores de transcripción (en Procariotas), etc.
El grado de conservación de cualquiera de esos motivos varía
considerablemente. Aquellos relativamente conservados pueden ser identificados
mediante búsquedas con secuencias consenso, que representan la secuencia del
motivo para una cierta mayoría de ejemplos. Fuzznuc es un ejemplo de
programa para buscar ocurrencias de una secuencia consenso en otra secuencia.
El programa permite especificar el número de fallos (mismatches) que serían
aceptables, así como utilizar secuencias consenso ambiguas (por ejemplo,
[ACG] significa A, C o G). Así podría ser buscando promotores y sitios poli A,
inicio de la traslación y unión de donantes y aceptores. Los métodos para
detectarlos pueden ser llamados sensores de señal:
 Transcripción
- promotores y terminadores de transcripción
- varios sitios de unión de factores de transcripción
- sitios de polyadenylacion
 Unión
- sitios de unión
 Traslación
- codones de inicio y terminación
- sitios de unión al ribosoma
 Por análisis Estadístico: estos métodos se basan en el análisis de las propias
secuencias de ADN y son, por tanto, de tipo intrínseco (en oposición a los
métodos extrínsecos). Consisten en el análisis estadístico de la composición del
ADN, muy frecuentemente para detectar sesgos en las frecuencias de
trinucleótidos impuestas por las restricciones que impone el código genético en
las zonas codificantes.
- El contenido G+C es la medida más simple. Aún así, puede ser de ayuda a
la hora de deducir la estructura de un gen dado que el contenido en G+C es
más alto en las 5'-UTR que en las 3'-UTR. Esta diferencia es especialmente
marcada en los vertebrados de sangre caliente.
- El contenido en G+C de la tercera posición de los codones de bacterias con
alto contenido en G+C, como las del género Streptomyces, puede ser de
hasta un 92% (mientras que el contenido en G+C del genoma de
Streptomyces coelicolor, por ejemplo, es del 73%). Esta particularidad es la
usada por el programa FramePlot para identificar regiones codificantes.
- GC3s. Este parámetro es parecido al anterior y mide la frecuencia de
codones sinónimos en los que la tercera posición es G o C.
- Uso de Codones. Las frecuencias de uso de cada uno de los codones, y las
frecuencias de uso de codones sinónimos, pueden también usarse para
predecir si una secuencia es codificante o no. Dado que dichas frecuencias
varían entre genomas y entre genes de un mismo genoma, es necesario
disponer de tablas de frecuencias específicas, apropiadas para la secuencia
que se va a analizar. Existen muchos programas para calcular tablas de de
uso de codones a partir de secuencias ya caracterizadas (por ejemplo el
contenido en la Sequence Manipulation Suite, que es accesible a través de
Internet), y también pueden ser obtenidas de bases de datos especializadas
(Codon Usage Database).
- Índice de Adaptación de Codones (CAI). Este parámetro mide el grado en
que el uso de codones de una secuencia se adapta a las frecuencias de uso de
codones calculadas previamente para un organismo, o para un subconjunto
de genes del mismo. Más que para predecir la existencia de zonas de uso de
codones, el CAI se usa para predecir el nivel de expresión de un gen o para
comparar el uso de codones entre organismos. El programa CodonW puede
ser usado para calcular el CAI, así como para realizar otros cálculos
estadísticos relacionados con el uso de codones.
- Otros parámetros relacionados con el uso de codones miden la frecuencia
en la que ocurren pares de codones sucesivos (dicodon counts), la
periodicidad de oligonucleótidos repetidos o la complejidad en la
composición de nucleótidos.
Problemas
La bioinformática nace a principios de la década de los ochenta, cuando se crean
las bases de datos que acumulan las secuencias de ácidos nucleicos y de proteínas.
Incluso antes, había algunos trabajos pioneros que aplicaban la computación a
problemas de la biología. Cuando los ordenadores empezaron a generalizarse en las
universidades, en la década de los sesenta, se inició el desarrollo de aplicaciones de
computación para biología.
Podemos decir que la bioinformática como tal no se establece hasta principios de
los años ochenta y su importancia no se hace patente hasta que se inicia el proyecto del
genoma humano, a finales de los años ochenta y principios de los noventa.
Así podemos clasificar que:
 Al principio, el problemas se basaba en encontrar elementos funcionales,
promotores, splice, regiones codificadas, todo ello utilizando métodos
biológicos.
 Después, una vez evolucionaron los métodos informáticos, el problema se centró
en la predicción de genes completos pero con limitaciones, ya que:
- algunos algoritmos suponen que las secuencias contienen genes completos.
- y que sólo el 50% de los exones son identificados en estos métodos.
Conocimientos básicos
Como es sabido, GENSCAN trabaja mejor con genes de tipo eucariota. Por tanto
empezaremos explicando las distintas zonas de este tipo de gen:
-
promotor: zona donde empieza el gen.
terminador: donde acaba el gen.
UTR: secuencia que no se traduce.
CDS: secuencia codificada, donde se encuentran los intrones(zonas sin
información relevante) y los exones(zonas con información importante).
Donador: donde empieza el intrón.
Aceptador: donde acaba el intrón y por tanto empieza el siguiente exón.
Esto lo veremos mejor en el siguiente gráfico:
PROMOTOR
Secuencia que no se traduce
Intrón 1
Intrón 2
Secuencia que no se traduce
Intrón 3
5`
3`
Región reguladora
reguladora
EXON 1
UTR
EXON 2
EXON 3
EXON 4
CDS
EXON n
Región
UTR
intron
exon
start
-
exon
donor acceptor
Splice sites: zonas de corte y empalme entre exones. Se trata de quedarnos
únicamente con las secuencias que codifican el gen.
intron
exon
intron
exon
exon
Objetivos
El objetivo principal de Genscan es encontrar, mediante métodos
ompultacionales, la exacta localización de las zonas anteriormente descritas (exones,
intrones, zonas de corte y empalme…) en secuencias genómicas. Para ello, utiliza un
modelo probabilístico.
Las características más importantes de este modelo son:
-
-
Es capaz de capturar las diferencias en la estructura de genes y composición
entre distintas regiones C+G del genoma humano.
Presenta la capacidad de predecir múltiples genes en una secuencia, partes o
genes completos y de predecir sistemas constantes de genes que se
encuentran en cualquier o ambos filamentos del ADN.
Para la localización de las zonas de corte y empalme (splicing) del donante y
aceptadr se usan modelos estadísticos que capturan dependencias
importantes entre las posiciones de la señal.
Genscan puede ser usado para detectar genes nóveles, esto es, genes que no se
encuentran en la base de datos.
En la práctica, se suele utilizar distintos programas en paralelo con Genscan para
obtener mejores resultados. Estos podrían ser:
1.- CENSOR: identifica y enmascara secuencias repetidas.
2.- A continuación se podría usar Genscan u otro programa de predicción de genes
y las secuencias obtenidas buscarlas en bases de datos de proteínas con BLASTP
para detectar posibles homólogos.
3.1- Si se detectan homólogos, podemos refinar la predicción sometiendo la región
del genoma correspondiente junto con la proteína homologa usando Procrustes
(que utliliza el algoritmo ”spliced alignment” para emparejar la secuencia del
genoma a la proteína).
3.2.- Sino se detectan homólogos, se podría usar la base de datos Expressed
Sequence Tags para precisar terminos 3’.
4.- Por último, los programas RT-PCR y 3’ RACE, usados para precisar las
posiciones exactas de los exones/intrones y posibles zonas de unión (splicing).
Con esto lo que conseguimos es una predicción más exacta.
Modelo general
Nuestro sistema se basa en los modelos de Markov, un modelo probabilístico basado
en la estadística y que toma información adicional de los residuos de los vecinos. Según
el número de vecinos que se utilicen para obtener la información y hacer la predicción
de lo que hacemos después tendremos distintos órdenes:
 Primer orden: Toma la información del vecino más cercano
 Orden N: Toma la información de los N vecinos más cercanos.
En el caso del GENSCAN, se trata de un modelo de Markov de 5º orden, lo que
signfica que la información vendrá de los 5 nucleótidos anteriores al que queremos
predecir. Lógicamente aquí el vecino de los modelos de Markov es un nucleótido.
Como se ha dicho, el modelo de Markov utiliza la estadística. En el GENSCAN la
estística se utiliza para predecir el nucleótido que vendrá a continuación partiendo de los
5 nucleótidos anteriores, es decir, que en función de la zona en la que se supone que
estamos y de los 5 nucleótidos anteriores se determina qué zona y qué nucleótido viene
a continuación. Esta estadística no se ha establecido al azar, sino que se ha utilizado un
conjunto de secuencias y se ha hecho un análisis acerca de las proporciones de las bases
ACGT que hay en cada unidad funcional de un gen (exón, intrón, etc…) y cómo se
distribuyen unas en función de otras.
Además de los métodos para aprender en qué consiste estructuralmente cada unidad
funcional dependiendo de la zona en la que esté el programa utilizamos distintos
modelos, de manera que el modelo de Markov que utilizamos no es único, sino que se
basa en los siguientes modelos que forman uno compuesto:










Initial, transition probabilities.
Transcriptional Translational signals.
Signal Models
Algorithmic issues
State length distributions
Splice Signals
MDD
Reverse-strand states
Acceptor splice Site model
Exon models
Estos modelos son explicados en el apartado de métodos.
El algoritmo puede verse en el gráfico de la página siguiente. Dado que el programa
es capaz de leer en ambas hebras del ADN aparece una figura simétrica. Lo que se hace
en la parte positiva es igual a lo que se hace en la parte negativa pero en orden inverso,
así que explicaremos sólo una parte y la inversa es exactamente igual. El algorimo se
basa en un grafo unidireccional con dos tipos de estados: rombos y círculos. Estos
estado representan una unidad funcional del gen eucariota. Los rombos indican que se
lanza en ellos una probabilidad para determinar lo que viene a continuación. Los
circulares son estados en los que no hay que establecer ninguna probabilidad debido a
que no cabe ninguna otra posibilidad de lo que viene. Por ejemplo, después del
promotor solamente puede venir la zona UTR, así que no hay que establecer ninguna
probabilidad.
La notación de los estados es la siguiente:










N = inicio de la región intergénica
P = promotor
F = región no traducida
5’ Esngl = gen de exon único
Einit = exon inicial
Eterm = exon final (estos dos hacen referencia a los genes multiexón)
T = región no traducida 3’
Ik = intron de fase k (0<=k<=2)
A = señal poly-A
Ek = Exon interno de fase k (0<=k<=2)
La fase k indica la posición del exón o del intrón en el que estamos: para la hebra
positiva k = 0 (Aceptador), k = 1 (Región codificante) y k = 2 (Donador), y para la
negativa justo al contrario. Donadores, aceptadores y señales de inicio y fin se
consideran dentro del exon correspondiente, puesto que para el nivel de predicción que
aquí consideramos no hay que tenerlos en cuenta.
El algoritmo comienza con la zona Intergénica, donde se lanza una probabilidad
para establecer si nos vamos a encontrar el promotor o la señal poly-A. Si sale el
promotor es que estamos en la hebra positiva y si sale poly-A en la hebra negativa. En
el caso de que vayamos al promotor lo que sólo puede venir a continuación es la zona
UTR 5’, así que no hay que lanzar probabilidades. En la UTR puede ocurrir que nos
encontremos con un gen multiexón, con lo que lo siguiente será el exón inicial, o un gen
sin intrones, con lo cual sólo tendremos el exón. Según la probabilidad elegiremos uno
u otro. Para el multiexón se van sucediendo los intrones y los exones con cierta
probabilidad hasta que sale más alto la probabilidad de Exón terminal, tras lo cual
vendrá la zona UTR 3’ y después la señal poly-A para volver de nuevo a la zona
intergénica. Para el gen de exón único como no hay intrones, directamente pasaría a la
UTR 3’.
El GENSCAN también es capaz de determinar genes parciales, de ahí que en zonas
como UTR 3’ lance probabilidades por si se vuelve de nuevo a la zona intergénica.
La forma de establecer las probabilidades en cada caso vienen dadas en los modelos
indicados anteriormente y de los que se hablará en el apartado métodos.
Métodos
Conjunto de secuencias:
Como ya se ha indicado GENSCAN utiliza probabilidades. Estas probabilidades han
sido obtenidas a partir de una análisis estadístico de un conjunto de secuencias que le
han servido de entrenamiento y que se guardan en una base de datos interna para cuando
necesite hacer homología. El proceso para elegir estas secuencias de genes fue el
siguiente:



Se cogió del GenBank un conjunto inicial no redundante (Kulp/Reese) de
secuencias completas pero que también incluían regiones 5’ 3’ no traducidas.
Para eliminar la redundancia entre las secuencias se utilizó BLASP.
Limpieza genes: Se eliminaron los genes que sólo contenían CDS, tenían exones
inciertos o putativos, genes solapados, pseudogenes, o genes de origen viral
porque la célula estuviese infectada. Con esto quedaron 428 secuencias.
Borrado de genes con más de un 25% de igualdad a nivel de aminoácidos
mediante PROSET. Con lo que quedaron 238 secuencias multi-exón y 142 de
exón único, un total de 2.580.965 pbs.
Todos los métodos y modelos del estudio utilizan estas secuencias, salvo dos casos:
 Modelo promotor: basado en otras fuentes.
 Modelo de región codificante: sustitución por otro conjunto de proteinas
humanas de 100 aminoácidos de longitud mínimo.
Algorithmic Issues
En una situación normal, cuando hay que determinar probabilidades, el GENSCAN
genera todas las posibles secuencias que pueden venir a continuación. Para ello utiliza
parsers, que son conjuntos de estados qi y sus duraciones di que, junto a un modelo
probabilístico de cada uno de los tipos de estado, genera una secuencia S de longitud L
de ADN. La probabilidad de generar un parse es:
n
P{ i , S}   q1 f q1 (d1 ) P{si | q1 , d1}   Tqk 1 ,qk P{sk | qk , d k }
k 2
Para ello utiliza un algoritmo recursivo(hacia delante y hacia atrás), de Viterbi: P{S}
se calcula con el algoritmo hacia delante; hacia atrás sólo se utiliza en los casos en los
que nos podemos encontrar un exón de fase k:
P{E[ x , y ] | S} 
(K )

 i :E[(xk,)y ]  i
P{ i , S }
P{S }
La sumatoria es obtenida a partir de los parses que hacen referencia al mismo exon
E. En la práctica esto crece linealmente con la longitud de las secuencias de Kb o más.
Probabilidades inicial y de transición
Estas probabilidades se utilizan al principio del algoritmo y en los casos normales de
transición. Para establecerlas se utilizó un análisis estádistico y se vió que las
propiedades de las secuencias cambiaban en función del contenido en porcentaje de
C+T (citosina y timina). Se establecen cuatro grupos: I (menos del 43%), II(entre 43 y
51%), III (entre 51 y 57%) y IV (más del 57%). La siguiente tabla indica esas
propiedades:
Cuando estamos en transiciones obligatorias, como por ejemplo de P+ a F+, la
probabilidad asociada a la transición es 1, con lo que así no hay que preocuparse de si
hay que lanzar o no probabilidad.
State length distributions:
En la predicción de genes, es importante la longitud de los exones porque sino
tiene una longitud adecuada se pueden producir fallos al incluir el exon en el mRNA
final. Así como interferencias en los factores que reconocen las zonas de corte y
empalme y podría hacer la unión de exones pequeños más difícil. La idea es que para
que haya más precisión en la predicción el exon interno debería tener entre 50 y 300
pares de base, como podemos observar en el siguiente gráfico, con un pico entre 120 y
150 bp. Lo mismo ocurre para los exones iniciales con un pico en aproximadamente 80
bp.
Es importante decir que estos resultados han sido obtenidos en 1997 y que desde
entonces se han añadido más genes a la base de datos y por tanto actualmente se
obtengan unas gráficas distintas.
Signal Models:
Hay varios modelos de señales, los que utiliza Genscan son los siguientes

Modelo weight matrix method WMM de Staden:
–
–
–

Frecuencia pij de cada nucleótido j a cada posición i de una señal de
longitud n.
Calcula la probabilidad de generar una secuencia particular
(X=x1,x2,…,xn).
Modelo más simple usado para cierto tipo de señales.
Modelo weight array (WAM) de Zhang & Marr:
–
–
–
Considera las dependencias entre las posiciones adyacentes
Calcula la probabilidad de generar una secuencia particular.
Deriva al modelo MDD.
Transcriptional and translactional:
El modelado de señales que se utiliza en Genscan es el siguiente:



Señal polyA: 6 bp usando para su predicción el modelo WMM (consensus:
AATAAA).
Señal de iniciación de la traducción: (“CDS”): 12 bp WMM model.
Señal de terminación de la traducción: codón de parada (UAA, UAG, UGA) y
para los siguientes tres nucleótidos usamos modelo WMM.
Splice signals:
En la predicción de genes las señales de donante y aceptador son las más críticas de
predecir. Se ha estudiado que existen significantes dependencias tanto en posiciones no
adyacentes como en las adyacentes en la señal del donante.
La región de consenso del donante se encuentra en los últimos 3 bp del exón
(posiciones -3 a -1) y los primeros 6 bp del siguiente intrón (1 a 6).
Con estos datos se crea una tabla en la que se obtienen valores de dependencia entre
cada par de nucleótidos.
Esto es, por ejemplo, si hay una G en la posición -1, la posición -2 e dependiente de
la -1 en 82.8. Mediante métodos estadísticos se ha calculado que una dependencia
mayor que 16 es una dependencia fuerte, por tanto a tener en cuenta(en la tabla se
muestra con un asterisco).
MDD:
El objetivo del proceso MDD es generar, a partir de un alineamiento de
secuencias de señales de tamaño considerable (por ejemplo varias miles o más
secuencias), un modelo que captura las dependencias más significativas entre
posiciones, esencialmente remplazando las incondicionales probabilidades WMM por
las apropiadas probabilidades condicionales provenidas estas de suficientes datos que
nos permitan hacer esto realidad. Dado un conjunto de datos D compuesto de N
secuencias de alineamiento de longitud k, el primer paso es asignar un nucleótido
consenso o nucleótidos a cada posición. Luego, para cada par de posiciones, se calcula
la chi-cuadrado Ci frente a Xj para cada par i, j con i distinta de j. Si no se detectan
dependencias significativas, entonces con un simple SMM sería suficiente. Si se
detectan dependencias significativas, pero si hay exclusividad o predominancia entre
posiciones adyacentes, entonces un modelo WAM puede ser lo apropiado. Si, por el
contrario, hay fuertes dependencias tanto entre posiciones no adyacentes como en
posiciones adyacentes, entonces el proceso sería el siguiente.
(1) Calcular para cada posición i, la suma Si=Σj≠iX2(Xi,Xj) (), que es una medida de la
suma de dependencias entre las variables Ci y los nucleótidos en dichas posiciones.
(2) Elegir el valor i1 tal que Si1 sea el mayor y divida a D en dos subconjuntos: Di1,
todas las secuencias que tengan un nucleótido consenso en la posición i1; y Di1 todas las
secuencias que no.
Ahora se repiten los pasos (1) y (2) en cada uno de los subconjuntos, Di1 y Di1 y
así pues se va haciendo una subdivisión binaria en árbol con (al menos) k-1 niveles.
Este proceso de subdivisión es lleva a cabo sucesivamente en cada una de las
ramificaciones de las tres hasta que ocurra una de las tres siguientes condiciones: (1) el
k-1ésimo nivel es podado(no es posible hacer más subdivisiones); (2) se detecta que no
existen dependencias significativas entre posiciones de un subconjunto (no es posible
indicar más subdivisiones); (3) el número de secuencias en un subconjunto llega a ser
demasiado pequeño para que las frecuencias WMM pudieran determinar más
subdivisiones. Finalmente, los modelos WMM son derivados de cada uno de los
subconjuntos del árbol, y éstos se combinan para formar un modelo como se describe
más abajo.
La figura ilustra la aplicación del proceso MDD al conjunto de 1254 donadores
de L. La subdivisión inicial está hecha de acuerdo al consenso (G) en la posición 5 de la
señal donadora, obteniendo los subconjuntos G5 y H5 (H significa A, C o U)
conteniendo 1057 y 197 secuencias de intrones, respectivamente. Consideramos el
número 175 como el tamaño mínimo razonable para un subconjunto, así que el
subconjunto H5 no se subdivide. El subconjunto G5 es suficientemente grande y
demuestra una dependencia significativa entre las posiciones (datos no mostrados), así
que subdividiremos de acuerdo al consenso (G) en la posición -1, los subconjuntos G5G1 y G5H-1. El modelo MDD:
(0) Los nucleótidos X1 y X2 se generan.
(1) X5 es generado a partir del original WMM.
(2a) Si X5≠G, entonces el modelo WMM para el conjunto H5 es usado para generar los
nucleótidos de las posiciones de los donadores.
(2b) Si X5=G, entonces X-1 se genera a partir del modelo WMM para el subconjunto G5.
(3a) Si (X5=G y) X-1≠G, entonces usamos el modelo WMM para el subconjunto G5H-1.
(3b) Si (X5=G y) X-1=G, X-2 es generado a partir del modelo para G5G-1; y así, hasta que
la secuencia 9 bp se haya generado entera.
Aceptor splice site model:
El primer paso en el proceso MDD también se aplicó a 1254 aceptores de genes
multiexón de L, pero se encontraron dependencias entre las posiciones. Sin embargo, se
aplica una modificación del método WAM para modelar la señal. Específicamente, las
bases desde la -20 hasta la +3 relativas al cruce intrón/exón, abarcando la región
pyrimidine-rich y el espacio de los aceptores por si mismo, son modeladas por un
modelo WAM como describen Zhang & Marr (1993). La región del punto de poda es
tristemente difícil de modelar, incluso el punto mas degenerado está presente en solo
una fracción de la secuencia de aceptor. Por ejemplo, YYRAY estuvo presente en la
región apropiada [-40, -21] en solo el 30% de la secuencias de aceptores de nuestro
conjunto de datos; de forma similar se han observado frecuencias más bajas en
secuencias de punto de branch, ej. Harris & Senapathy (1990). Para modelar esta región,
introducimos un “windowed seocnd-order WAM model” (WWAM), en aquellos
nucleótidos que son generados condicionados por los nucleótidos situados 2 posiciones
antes. En regla para tener suficientes datos para estimar estas probabilidades
condicionales, se promedian las frecuencias condicionales sobre una envergadura de
cinco posiciones, por ejemplo, la entrada WAM para la posición i se compone de una
media de las frecuencias condicionales de las posiciones i-2, i-1, i, i+1 y i+2. Este
modelo captura el débil, pero con tendencia hacia la tripleta YYY tan cierto como la
tripleta branch point-related tales como TGA, TAA, GAC, y AAC en esta región, sin
requerir la ocurrencia de algún branch point específico.
Exon Models:
Las porciones de exones se modelan usando un modelo oculto de quinto orden
(3-periódico) de Markov como por Borodovsky & McIninch (1993); como también
Gelfand (1995). En este sentido, las matrices de transición de quinto orden de Markov
son determinantes para las posiciones de los codones de fin de cada uno de los árboles,
denominadas c1, c2, c3, respectivamente. Los exones se modelan usando las matrices
c1, c2, c3 sucesivamente para generar cada codón. Esta transición deriva del conjunto C
de secuencias de código completas descritas previamente. Con respecto a esta elección
de modelo de secuencia de código, tenemos a Fickett & Tung (1992) muestran que son
generalmente los más acertados discriminadores compuestos de código frente a las
regiones no codificadas. En este estudio se encontraron, como tantos otros, que los
genes A+T-rich son a menudo difíciles de predecir usando tales parámetros hexamerderived. Por consiguiente, un conjunto de matrices de quinto orden de Markov
derivaron para una composición C+G de regiones de grupo I (<43% C+G).
Específicamente, las secuencias de código de todos los genes de grupos I de L
fueron combinadas con todos cDNAs de <48% C+G de C: este hecho fue comprobado
en 638 secuencias de un total aproximadamente de 1139Mb.
Reverse-strand states:
La secuencia generadora para estas hebras deriva de los correspondientes
modelos de hebra avanzados por la simple operación de complementación inversa. Por
ejemplo, si el modelo de señal de hebra avanzado de terminación genera las tripletas
TAG, TAA y TGA con probabilidades p1, p2 y p3, respectivamente, entonces el modelo
de hebra avanzado reverse generará las tripletas CTA (complemente invertido de TAG),
TTA y TCA, con probabilidad p1, p2 y p3. Equivalentemente, el modelo de hebra
avanzado se usa para generar un “trecho” de secuencia, y entonces se toma/coge el
complemento inverso de la secuencia.
Limitaciones

Número de genes
El número de genes predecidos en una secuencia es normalmente aproximadamente
el correcto, pero puede suceder, que se interprete como un gen único en lugar de
más de uno.

Organismo
El programa fue en principio diseñado para predecir genes en secuencias genómicas
humanas o de verte3brados, así que puede funcionar peor para no vertebrados. Para
secuencias procariotas o de levadura, se recomiendan los programas Glimmer o
GeneMark.

Tests no representativos
Como está enfocado para genes cortos en estructuras exón/intrón simples las tablas
estadísticas mostradas pueden no ser totalmente representativas.

Tipo de exón
Los exones internos son predecidos más fácilmente que los iniciales o los finales. A
su vez, los exones son predecidos más fácilmente que las señales poli-A o promotor.

Señales de Splice
Para predecir sitios de corte y empalme en RNA es mejor otros programas como el
de Brendel and colleagues.
Resultados:
Para evaluar cómo de bueno es GENSCAN, se probó con un conjunto de 570
secuencias multiexón correspondientes a vertebrados (conjunto de Burset/Guigó), y se
comparó con otros programas de predicción de genes.
La evaluación se hace en varios niveles:




Nivel de Base (Nucleótido): Fiabilidad de la predicción por base
Nivel de Exón (Estructura del exón): Fiabilidad de la predicción con respecto a
la predicción exacta del comienzo y fin del exón.
Nivel de Proteína (Proteína): Fiabilidad de la predicción con respecto a la
proteina codificada por el gen predicho.
Nivel de Gen: Indica qué proporción de genes son predichos exactamente.
Resultados a nivel de base
Para definir las medidas a este nivel, es necesario conocer cuatro variables, definidas
a partir del dibujo:




Falso negativo (FN): En la realidad existe un trozo de exón que el progama
no ha detectado
Falso positivo (FP): El programa ha detectado un trozo de exón que no está
presente en la secuencia.
Verdadero negativo (TN): No hay nada en la secuencia y el programa
tampoco detecta nada.
Verdadero positivo (TP): El tozo de exón presente en la secuencia es
predicho por el programa.
Además existen otras dos variables: AP (real positivo, coincidencia exacta en
longitud con el exón existente) y AN (real negativo, coincidencia exacta en longitud
con una zona inexistente).
Según estas variables podemos definir varias medidas:



Sn: Sensibilidad = TP/(TP+FN). Hace referencia a la proporción de lo que se
ha detectado bien frente al total que existe.
Sp: Especificidad = TN/(TN+FP). Es la proporción de lo no detectado frente
al total que no existe.
AC: Correlación aproximada.
AC 

1  TP TP TN TN 



1
2  AP PP AN PN 
CC: Coeficiente de correlación
CC 
TP * TN  FP * FN
PP * PN * AP * AN
Resultados a nivel de exón
Para determinar las medidas hay que tener en cuentra las tres posibilidades que se
dan en la imagen:



Un exón erroneo es aquel que no existe en la secuencia pero se ha predicho.
Un exón perdido es justo lo contrario: existe pero no se predice.
Un exón correcto es aquel que existe y se detecta, pero además la predicción
coincide exactamente en las posiciones de inicio y fin.
Según esto podemos definir:




Sn: Sensibilidad =Num exones correctos/Num exones reales
Sp: Especificidad =Num exones correctos/Numero exones predichos
ME = Numero exones perdidos/Numero exones reales
WE = Numero exones erroneos/Numero exones predichos
Resultados a nivel de proteína
Sólo hay una medida, % Sim, que es el porcentaje de similaridad entre la secuencia
de aminoácidos codificada por el gen predicho y la secuencia de aminoácidos codificada
por el gen real. Dado que el documento es del año 1996, esta medida no está reflejada
en el mismo, pero la incluimos porque esta clasificación de los resultados están
obtenidos de la página oficial de GENSCAN, en los que sí aparece.
Resultados para los niveles de Base y de Exón
Los resultados se pueden ver en la siguiente tabla:
Como se puede ver, en todas las medidas GENSCAN es muy superior a los demás
programas, salvo en ME que GeneID+ es mejor. En todas las medidas interesa obtener
el valor mayor, salvo en ME y WE, que como hacen referencia a valores incorrectos,
interesa que sea lo más bajo posible. De ahí que GeneID+ sea mejor en ME con un
valor más pequeño.
De los demás programas podemos decir que: los tres programas que siguen a
GENSCAN (FGENEH,GeneID y Genie), no utilizan homología, mientras de GeneID+
y GeneParser3 sí lo hacen. Por otro lado GeneID utiliza un modelo de Markov y Genie
sólo es capaz de predecir secuencias multiexón en una secuencia con un solo gen.
Resultados a nivel de gen
Indica qué proporción de genes son predichos exactamente. Se obtuvo un 0.43 (243
secuencias frente al total de 570). Esto hizo llegar a la conclusión de que es posible
predecir estructuras multi-exón más complejas con un resultado razonable. Por
ejemplo, el gen gástrico humano con 22 exones codificantes.
A diferencia de los otros niveles, es relativamente insensible al contenido de C+G.
En este nivel se define un factor p (Probabilidad adelante-atrás) que es la probabilidad
de que un exon predicho sea correcto y pueda ser usado para señalar regiones de una
predicción que son más o menos ciertos. En total se consiguieron 2678 exones
predichos en el conjunto Burset/Guigó. La siguiente tabla muestra a distintos niveles de
probabilidad, cuántos exones se detectaron y de esos qué porcentaje era correcto:
p
Número
exones
Porcentaje
correctos
>0.99
917
98%
[0.95,0.99]
551
92%
[0.90,0.95]
263
88%
[0.75,0.90]
337
75%
[0.50,0.75]
362
54%
[0.00,0.50]
248
30%
Entrenamiento
En este caso se utilizó un conjunto independiente al anterior. Los resultados fueron
los mismos que con el conjunto Burset/Guigó, aunque aquí vuelve a haber diferencias
según los cuatro grupos de proporciones del contenido de C+G. Se definieron dos
conjuntos: uno con 28 secuencias y el otro con 34.
Resultados para secuencias largas:
Pero todos estos datos no son del todo fiables, puesto que no se ajustan a la realidad.
Hasta ahora sólo hemos trabajado con secuencias cortas. Para secuencias largas sólo
GRAIL ha sido capaz de conseguir resultados aceptables, aunque también se
encontraron dificultades.
Si comparamos GENSCAN Y GRAIL en la figura de la página siguiente, vemos
que ambos encuentran resultados aceptables, pero mientras GENSCAN predice genes,
GRAIL predice exones en la secuencia. Se puede ver que GENSCAN está detectando el
principio y el fin de los genes, mientras que GRAIL no lo hace:
En rojo vemos GRAIL, en azul GENSCAN y en verde vemos los exones que
existen realmente (exones anotados).
Conclusión

Es capaz de identificar estructuras completas de exones/intrones dentro de una
cadena de ADN.

Predicción de genes múltiples en una secuencia.

Con un 75-80% de exones identificados.

Gran precisión en secuencias C+G y para distintos grupos de vertebrados