Download Búsqueda automática de genes

Document related concepts

Genómica comparativa wikipedia , lookup

Exón wikipedia , lookup

Empalme alternativo wikipedia , lookup

Transcript
Búsqueda automática de
genes
Manuel Calaza
Departamento de Matemática Aplicada
Universidad de Santiago de Compostela
Introducción
La predicción y anotación de genes por métodos computacionales es el
primer paso hacia la comprensión del contenido funcional de los
genomas.
Como la mayoría de los genes humanos tienen intrones, la clave está en
detectar las señales de los sitios de splice y localizar las regiones
codificantes.
En los años 80 se desarrollaron programas usando sólo señales de splice y
codones. Más tarde, en los 90, se añadieron técnicas estadísticas,
lingüísticas y de aprendizaje automático. Últimamente, se han añadido
técnicas de comparación entre genomas.
Manuel Calaza
Depto Matemática Aplicada
Predicción de genes ab initio
Predicción de señales.
Predicción de exones.
Ensamblaje de exones.
Manuel Calaza
Depto Matemática Aplicada
Señales
START
DONOR
GCCGCCRCCATGG
CAG|GTRAGT
ACCEPTOR
(Y)nNCAG|G
BRANCH
CTRAY
STOP
TAA, TAG, TGA
Manuel Calaza
Depto Matemática Aplicada
Señales
Estas secuencias consenso se construyen a
partir de las frecuencias de aparición de los
nucleótidos en cada una de las posiciones de la
señal, sobre un conjunto de datos de
entrenamiento. Se organizan de forma
matricial:
Donor
A G G
T R A G T
Manuel Calaza
Depto Matemática Aplicada
Señales
Branch
Acceptor
Y Y Y Y Y Y Y Y Y Y N C A G G
Senapathy et al, 1990.
Manuel Calaza
Depto Matemática Aplicada
Señales
M ij
f ij =
M ij
 f ij 
Sij = log f 

i
100
fi
€
€
WEIGHT MATRIX MODEL (WMM)
€
€
Nos permite puntuar las señales como sumas
de las puntuaciones Sij de cada una de las
bases según su posición en la señal.
Manuel Calaza
Depto Matemática Aplicada
Señales
El WMM presenta varios problemas:
Asume independencia en posiciones diferentes de las señales. (Dependencia
de Markov: equivale a extender las filas de la matriz para considerar duplas,
tripletas,...pero necesitaríamos más datos de entrenamiento (WAM); Dividir
(con un arbol de decisión) los datos de entrenamiento en subgrupos de
secuencias donde se pueda suponer esa independencia y adoptar distintos
WMMs).
Ignora el contenido de GC de la secuencia. (Adoptar dos WMMs distintos
según el contenido alto o bajo de GC en la secuencia).
Manuel Calaza
Depto Matemática Aplicada
Señales
A pesar de estos refinamientos, el mejor error medio
(falsos positivos + falsos negativos) que se puede obtener
(Pertea et al. 2001) para acceptor o donor es del orden del
5%.
En regiones grandes con 40 señales verdaderas y 4000
falsas, por cada señal verdadera que perdamos, ganaremos
100 falsas!!!!
El reconocimiento efectivo de las señales de splice sólo
puede hacerse en combinación con el reconocimiento de
exones.
Manuel Calaza
Depto Matemática Aplicada
Exones
Una vez detectadas las señales, si construimos todos los exones
formales con todas las señales, a partir de un error del 5% en
señales podemos cometer errores en torno al 10% en exones.
La puntuación de los posibles exones que formalmente definen
las señales se hace valorando su potencialidad codificante.
score de frecuencias de aparición de hexámeros en un marco de lectura
Manuel Calaza
Depto Matemática Aplicada
Exones
fE (w, i)
frecuencia de aparición del hexámero w en el marco i
calculado a partir de secuencias de entrenamiento.
fI (w)
frecuencia de aparición del hexámero w en en los intrones
que flanquean exones calculado a partir de las mismas
secuencias de entrenamiento.
LE (w, i) = log
!
fE (w, i)
fI (w)
"
fE (w, i)
PE (w, i) =
fE (w, i) − fI (w)
score log-odd
score de preferencia
Manuel Calaza
Depto Matemática Aplicada
Exones
Podemos definir medidas de este tipo para las regiones
intrónicas que flanquean exones:
!
"
fI (w)
fI (w)
PI (w) =
LI (w) = log
fE (w) + fI (w)
fE (w)
fE (w) = (fE (w, 0) + fE (w, 1) + fE (w, 2))/3
Son inútiles en regiones exónicas no CDS (UTRs).
El tamaño del exón interno codificante sigue una
distribución log-normal centrada en 125 pb.
Manuel Calaza
Depto Matemática Aplicada
Exones
Consideremos secuencias con un exón auténtico o bien un pseudoexón (AG-algo aleatorio-GT).
Sobre este conjunto definimos una serie de variables x=(x1, x2, ...,xn)
cuantificadoras del potencial codificante:
x1= media de los LI(w) para todos los hexámeros a lo largo de la región intrónica que flanquea al extremo
5’.
x2= score del acceptor.
x3= la media de los LE(w,i) sobre todos los hexámeros y maximizando luego en i.
x4= el tamaño del exón.
.............
xn= media de los LI(w) para todos los hexámeros a lo largo de la región intrónica que flanquea al extremo
3’.
Manuel Calaza
Depto Matemática Aplicada
Exones
De este modo, cada secuencia del conjunto de entrenamiento se
representa por un punto en el espacio n-dimensional.
Existen varios métodos estadísticos y de aprendizaje automático
para construir una función de discriminación óptima
(minimización de falsos positivos y falsos negativos).
Esta función (el predictor de exones) es una “hypersuperficie”
de decisión en el espacio n-dimensional que separa los exones
auténticos de los pseudo-exones aleatorios.
Los algoritmos más empleados para esta tarea han sido LDA(algoritmo de discriminación lineal) y QDA-(algoritmo de
discriminación cuadrática)
Manuel Calaza
Depto Matemática Aplicada
Ensamblaje de exones
El problema de ensamblar exones en un gen es que las
posibilidades de combinación crecen exponencialmente
respecto al número de candidatos a exones.
La búsqueda de un óptimo sin evaluar todas las posibilidades
se puede hacer desde la programación dinámica.
(FGENEH >>>> LDA en exones + DP en ensamblaje)
Manuel Calaza
Depto Matemática Aplicada
Ensamblaje de exones
La otra alternativa actualmente son los modelos de Markov
ocultos generalizados (HMMs).
Los diferentes tipos de componentes estructurales (como
exones e intrones) están caracterizados por un estado y el
modelo del gen está generado por una máquina de estados.
Empezando de 5’ a 3’, cada par de bases está generada por una
probabilidad de emisión condicionada al estado actual, y la
transición entre estados está gobernada por una probabilidad
de transición.
Manuel Calaza
Depto Matemática Aplicada
Ensamblaje de exones
Todos los parámetros de las probabilidades de emisión y
transición se aprenden de un conjunto de datos de
entrenamiento.
¿Cuál sería el conjunto de estados consecutivos que hacen
máxima la probabilidad de observar la secuencia a examen,
condicionada a unas probabilidades de emisión y transición
fijadas?
Para responder a esta pregunta, se puede utilizar el algoritmo
de Viterbi.
Manuel Calaza
Depto Matemática Aplicada
Un ejemplo: GeneID
Manuel Calaza
Depto Matemática Aplicada
Manuel Calaza
Depto Matemática Aplicada
Manuel Calaza
Depto Matemática Aplicada
Manuel Calaza
Depto Matemática Aplicada
Manuel Calaza
Depto Matemática Aplicada
Manuel Calaza
Depto Matemática Aplicada
Manuel Calaza
Depto Matemática Aplicada
Predicción de genes por comparación
Las regiones del genoma que codifican proteínas se conservan a lo largo
de la evolución mejor que las no funcionales.
(Abril et al, 2003)
Manuel Calaza
Depto Matemática Aplicada
Query genómica contra target proteica
Con Blastx una query genómica es traducida (6 frames) en
un conjunto de secuencias de aminoácidos y comparadas
con una base de datos de secuencias de aminoácidos.
Complementariamente, se necesita información sobre
codones START y STOP, etc que Blastx no puede
proporcionar.
Manuel Calaza
Depto Matemática Aplicada
Query genómica contra target proteica
A partir de las secuencia target con un buen score repecto de
nuestra secuencia query, podemos realizar un alineamiento
“splice” entre ellas.
Este tipo de alineamientos permiten grandes gaps, que deberían
corresponderse con las regiones intrónicas de nuestra secuencia
query, y regiones de similitud casi completa, que deberían
corresponderse con exones altamente probables de nuestra
secuencia query.
Finalmente, queda la cuestión de encontrar la mejor estructura
exónica posible para lo que se emplea generalmente DP.
(PROCRUSTES, GENEWISE-ENSEMBL)
Manuel Calaza
Depto Matemática Aplicada
Query genómica contra target proteica
Alternativamente, los resultados de realizar comparaciones con
bases de datos pueden integrarse en los programas ab initio.
El score de un candidato a exón, además de estar definido por
los scores de las señales que lo delimitan y su potencial
codificante, se incrementa en función de su similitud con
secuencias codificantes conocidas.
Se potencia la aparición en la predicción final del gen de exones
con fuerte similitud con secuencias codificantes conocidas (de
la misma u otra especie).
(GENOMESCAN extiende GENSCAN)
Manuel Calaza
Depto Matemática Aplicada
Query genómica contra target genómica
Con la disponibilidad de más y más genomas completos, y
asumiendo que las regiones conservadas por la evolución
coresponden a exones codificantes de genes homólogos, la
comparación de secuencias de genomas completos están
ganando popularidad.
EXOFISH predice exones humanos basándose en la
utilización de comparaciones (usando TBLASTX) con una
base de datos de secuencias de Tetraodon nigroviridis.
Manuel Calaza
Depto Matemática Aplicada
Query genómica contra target genómica
Desde otro punto de vista (Pedersen et al y Blayo et al.), se
puede plantear el problema como una extensión del problema
del alineamiento de secuencias: dadas dos secuencias genómicas
codificantes de genes homólogos, predecir la estructura exónica de cada
una de e*as maximizando el score del alineamiento de las dos
secuencias.
Algunos programas
como SLAM y DOUBLESCAN
combinan dos modelos de Markov ocultos independientes,
uno para realizar el alineamiento de las secuencias y otro para
realizar la predicción génica, realizándose las dos tareas
simultáneamente, sin que una se derive completamente de la
otra.
Manuel Calaza
Depto Matemática Aplicada
Query genómica contra target genómica
Otro tipo de programas separan claramente la predicción de
genes del alineamiento de secuencias (ROSETTA, SGP1).
Comienzan por realizar un alineamiento entre las dos
secuencias y luego prediccen la estructura de genes de forma
que los exones sean compatibles con los alineamientos.
Todos estos enfoques comparten un problema evidente que
es la necesidad de secuencias homólogas (e incluso siendo
secuencias homólogas, si ha habido reordenaciones de genes
o pérdida de regiones sinténicas en la evolución, puede haber
genes en una secuencia sin homólogo en la otra)
Manuel Calaza
Depto Matemática Aplicada
Query genómica contra target genómica
Para superar esta limitación, los programas TWINSCAN y
SGP2 utilizan un enfoque similar al empleado por
GENOMESCAN para introducir la similitud a proteínas
conocidas al sistema de score de GENSCAN.
Esencialmente, la secuencia query es comparada con una
colección de secuencias del genoma informante y el resultado
de la comparación es utilizado para modificar los scores de los
exones de algún programa de predicción ab initio.
GENSCAN + BLASTN >>>> TWINSCAN
GENEID + TBLASTX >>>> SGP2
Manuel Calaza
Depto Matemática Aplicada
Exactitud en la predicción de genes
Medidas:
Para evaluar los programas de predicción génica sobre una
secuencia test, se compara la estructura predicha con la
real.
Las mediciones se hacen a distintos niveles: de nucleótido,
de exón y de gen.
En cada nivel hay dos medidas básicas: la sensitividad y la
especificidad.
Manuel Calaza
Depto Matemática Aplicada
Medidas.
La sensitividad es la proporción de elementos reales que han
sido correctamente predichos.
La especificidad es la proporción de elementos predichos que
son correctos.
TP, nº de elementos codificantes correctamente predichos,
TN, nº de elementos no codificantes correctamente predichos,
FP, nº de elementos no codificantes predichos como codificantes, y
FN, nº de elementos codificantes predichos como no codificantes.
TP
Sen =
TP + FN
TP
Esp =
TP + FP
Manuel Calaza
Depto Matemática Aplicada
Medidas.
A nivel de nucleótidos la medida más utilizada es el
coeficiente de correlación, CC:
TP · TN − FN · FP
CC = !
(T P + F N ) · (T N + F P ) · (T P + F P ) · (T N + F N )
Manuel Calaza
Depto Matemática Aplicada
Medidas.
A nivel de exón, se consideran correctamente predichos los
exones que coinciden totalmente con los reales (incluidas las
fronteras 5’ y 3’), un exón predicho se considera incorrecto si
no tiene superposición con ningún exón real, y un exón real se
considera perdido si no tiene superposición con ningún exón
predicho.
Una medida considerada efectiva a este nivel es la media entre
la especifidad y la sensitividad.
Manuel Calaza
Depto Matemática Aplicada
Medidas.
A nivel de gen, se considera que un gen está
correctamente predicho si todas las regiones codificantes
han sido identificadas, todas las fronteras entre exón e
intrón son correctas, y todos los exones están incluídos en
el gen real.
Manuel Calaza
Depto Matemática Aplicada
Mediciones.
En 1996, Burset y Guigó, realizaron una comparativa.
Se evaluaron programas sobre 570 secuencias genómicas de
vertebrados que contenían un único gen, depositadas en
GenBank después de 1993 (para evitar entrenamiento de los
programas sobre esas secuencias).
A nivel de nucleótidos, CC varió entre 0’65 y 0’78.
A nivel de exones, la media entre sensitividad y especificidad
varió entre 0’37 y 0’60.
Manuel Calaza
Depto Matemática Aplicada
Mediciones.
En 2001, Rogic et al, realizaron otra nueva comparativa.
Se evaluaron 7 programas sobre secuencias genómicas que
contenían un único gen, depositadas en GenBank después de la
fecha de aparición de los programas.
Los resultados han mejorado respecto de la comparativa
anterior.
A nivel de nucleótidos, CC varió entre 0’66 y 0’91.
A nivel de exones, la media entre sensitividad y especificidad
varió entre 0’43 y 0’76.
Manuel Calaza
Depto Matemática Aplicada
Mediciones.
Estas comparativas pueden reflejar una situación mejor
de la real. Fundamentalmente porque las secuencias eran
cortas y con un único gen de estructura simple.
Estas secuencias no son representativas del contexto
actual: secuencias largas de baja densidad codificante,
codificando varios genes y/o genes incompletos, con
estructuras génicas complejas.
Manuel Calaza
Depto Matemática Aplicada
Mediciones.
Sobre la anotación génica actual del cromosoma 22 se ha
realizado una nueva comparativa con los resultados que se
sospechaban: la precisión desciende considerablemente.
El CC de GENSCAN baja desde el 0’91 en la comparativa
de Rogic et al. hasta el 0’64 en el cromosoma 22.
Pero incluso programas más sofisticados que utilizan
comparación con secuencias (como GENEWISEENSEMBL) se quedan en valores de CC en torno a 0’75.
¡Prudencia!
Manuel Calaza
Depto Matemática Aplicada
Sistemas de anotación génica.
Actualmente hay tres bases de datos públicas de anotaciones
de genes humanos:
EBI&Sanger Institute ENSEMBL,
http://www.ensembl.org
UCSC Genome Browser,y
http://genome.ucsc.edu
NCBI LocusLink.
http://www.ncbi.nim.nih.gov/LocusLink/
Manuel Calaza
Depto Matemática Aplicada
Sistemas de anotación génica.
Los genes anotados en ENSEMBL han sido generados
automáticamente por herramientas propias de ENSEMBL. El
motor básico de anotación es GENEWISE.
Para un número determinado de cromosomas (6, 13, 14, 20, 22)
también están disponibles las anotaciones manuales del sistema
VEGA (http://vega.sanger.ac.uk/Homo_sapiens/).
Hay tres tipos de genes anotados en ENSEMBL:
Los que codifican completamente una proteína,
Los que presentan gran homología con proteínas de otros organismos,
Los predichos por GENESCAN que presentan gran homología con proteínas
o mRNA de vertebrados.
Conservadoramente, predice en total de unos 24.500 genes.
Manuel Calaza
Depto Matemática Aplicada
Sistemas de anotación génica.
El UCSC Genome Browser proporciona un acceso rápido y muy
informativo a las anotaciones.
Parte de las anotaciones e informaciones son realizadas en la UCSC
a partir de datos públicos y el resto son proporcionados por
colaboradores.
El motor básico de anotación es BLAT que predice genes por
comparación usando alineamientos muy rápidos (en comparación
con BLAST) entre proteínas de primates y otros vertebrados con el
genoma humano.
En sus predicciones incluyen, además de los 24.500 genes de
ENSEMBL, 25.600 genes de TWINSCAN, 32.400 genes de
GENEID, 39.800 genes de FGENESH++ y 45.000 genes de
GENSCAN.
Manuel Calaza
Depto Matemática Aplicada
Sistemas de anotación génica.
El NCBI LocusLink predice genes por comparación
usando alineamientos con MegaBLAST de secuencias de
genes de RefSeq y mRNA con el genoma humano.
Además, los genes predichos por GENOMESCAN son
anotados sólo si no se solapan con los predichos por los
alineaminetos con mRNA.
GENOMESCAN ha predicho 38.600 genes.
Manuel Calaza
Depto Matemática Aplicada
Sistemas de anotación génica.
Las anotaciones proporcionadas por estos sistemas hay que
considerarlas altamente hipotéticas dada la precisión de los
programas actuales de predicción de genes.
Falta un largo camino para que los sistemas automáticos
puedan predecir todos los genes dentro de una secuencia
genómica.
Se necesita conocer mejor lo que realmente es un gen, y los
procesos biológicos involucrados en la especificación génica
(especialmente lo referente a los sitios de splice y codón de
START).
Manuel Calaza
Depto Matemática Aplicada