Download Búsqueda automática de genes
Document related concepts
Transcript
Búsqueda automática de genes Manuel Calaza Departamento de Matemática Aplicada Universidad de Santiago de Compostela Introducción La predicción y anotación de genes por métodos computacionales es el primer paso hacia la comprensión del contenido funcional de los genomas. Como la mayoría de los genes humanos tienen intrones, la clave está en detectar las señales de los sitios de splice y localizar las regiones codificantes. En los años 80 se desarrollaron programas usando sólo señales de splice y codones. Más tarde, en los 90, se añadieron técnicas estadísticas, lingüísticas y de aprendizaje automático. Últimamente, se han añadido técnicas de comparación entre genomas. Manuel Calaza Depto Matemática Aplicada Predicción de genes ab initio Predicción de señales. Predicción de exones. Ensamblaje de exones. Manuel Calaza Depto Matemática Aplicada Señales START DONOR GCCGCCRCCATGG CAG|GTRAGT ACCEPTOR (Y)nNCAG|G BRANCH CTRAY STOP TAA, TAG, TGA Manuel Calaza Depto Matemática Aplicada Señales Estas secuencias consenso se construyen a partir de las frecuencias de aparición de los nucleótidos en cada una de las posiciones de la señal, sobre un conjunto de datos de entrenamiento. Se organizan de forma matricial: Donor A G G T R A G T Manuel Calaza Depto Matemática Aplicada Señales Branch Acceptor Y Y Y Y Y Y Y Y Y Y N C A G G Senapathy et al, 1990. Manuel Calaza Depto Matemática Aplicada Señales M ij f ij = M ij f ij Sij = log f i 100 fi € € WEIGHT MATRIX MODEL (WMM) € € Nos permite puntuar las señales como sumas de las puntuaciones Sij de cada una de las bases según su posición en la señal. Manuel Calaza Depto Matemática Aplicada Señales El WMM presenta varios problemas: Asume independencia en posiciones diferentes de las señales. (Dependencia de Markov: equivale a extender las filas de la matriz para considerar duplas, tripletas,...pero necesitaríamos más datos de entrenamiento (WAM); Dividir (con un arbol de decisión) los datos de entrenamiento en subgrupos de secuencias donde se pueda suponer esa independencia y adoptar distintos WMMs). Ignora el contenido de GC de la secuencia. (Adoptar dos WMMs distintos según el contenido alto o bajo de GC en la secuencia). Manuel Calaza Depto Matemática Aplicada Señales A pesar de estos refinamientos, el mejor error medio (falsos positivos + falsos negativos) que se puede obtener (Pertea et al. 2001) para acceptor o donor es del orden del 5%. En regiones grandes con 40 señales verdaderas y 4000 falsas, por cada señal verdadera que perdamos, ganaremos 100 falsas!!!! El reconocimiento efectivo de las señales de splice sólo puede hacerse en combinación con el reconocimiento de exones. Manuel Calaza Depto Matemática Aplicada Exones Una vez detectadas las señales, si construimos todos los exones formales con todas las señales, a partir de un error del 5% en señales podemos cometer errores en torno al 10% en exones. La puntuación de los posibles exones que formalmente definen las señales se hace valorando su potencialidad codificante. score de frecuencias de aparición de hexámeros en un marco de lectura Manuel Calaza Depto Matemática Aplicada Exones fE (w, i) frecuencia de aparición del hexámero w en el marco i calculado a partir de secuencias de entrenamiento. fI (w) frecuencia de aparición del hexámero w en en los intrones que flanquean exones calculado a partir de las mismas secuencias de entrenamiento. LE (w, i) = log ! fE (w, i) fI (w) " fE (w, i) PE (w, i) = fE (w, i) − fI (w) score log-odd score de preferencia Manuel Calaza Depto Matemática Aplicada Exones Podemos definir medidas de este tipo para las regiones intrónicas que flanquean exones: ! " fI (w) fI (w) PI (w) = LI (w) = log fE (w) + fI (w) fE (w) fE (w) = (fE (w, 0) + fE (w, 1) + fE (w, 2))/3 Son inútiles en regiones exónicas no CDS (UTRs). El tamaño del exón interno codificante sigue una distribución log-normal centrada en 125 pb. Manuel Calaza Depto Matemática Aplicada Exones Consideremos secuencias con un exón auténtico o bien un pseudoexón (AG-algo aleatorio-GT). Sobre este conjunto definimos una serie de variables x=(x1, x2, ...,xn) cuantificadoras del potencial codificante: x1= media de los LI(w) para todos los hexámeros a lo largo de la región intrónica que flanquea al extremo 5’. x2= score del acceptor. x3= la media de los LE(w,i) sobre todos los hexámeros y maximizando luego en i. x4= el tamaño del exón. ............. xn= media de los LI(w) para todos los hexámeros a lo largo de la región intrónica que flanquea al extremo 3’. Manuel Calaza Depto Matemática Aplicada Exones De este modo, cada secuencia del conjunto de entrenamiento se representa por un punto en el espacio n-dimensional. Existen varios métodos estadísticos y de aprendizaje automático para construir una función de discriminación óptima (minimización de falsos positivos y falsos negativos). Esta función (el predictor de exones) es una “hypersuperficie” de decisión en el espacio n-dimensional que separa los exones auténticos de los pseudo-exones aleatorios. Los algoritmos más empleados para esta tarea han sido LDA(algoritmo de discriminación lineal) y QDA-(algoritmo de discriminación cuadrática) Manuel Calaza Depto Matemática Aplicada Ensamblaje de exones El problema de ensamblar exones en un gen es que las posibilidades de combinación crecen exponencialmente respecto al número de candidatos a exones. La búsqueda de un óptimo sin evaluar todas las posibilidades se puede hacer desde la programación dinámica. (FGENEH >>>> LDA en exones + DP en ensamblaje) Manuel Calaza Depto Matemática Aplicada Ensamblaje de exones La otra alternativa actualmente son los modelos de Markov ocultos generalizados (HMMs). Los diferentes tipos de componentes estructurales (como exones e intrones) están caracterizados por un estado y el modelo del gen está generado por una máquina de estados. Empezando de 5’ a 3’, cada par de bases está generada por una probabilidad de emisión condicionada al estado actual, y la transición entre estados está gobernada por una probabilidad de transición. Manuel Calaza Depto Matemática Aplicada Ensamblaje de exones Todos los parámetros de las probabilidades de emisión y transición se aprenden de un conjunto de datos de entrenamiento. ¿Cuál sería el conjunto de estados consecutivos que hacen máxima la probabilidad de observar la secuencia a examen, condicionada a unas probabilidades de emisión y transición fijadas? Para responder a esta pregunta, se puede utilizar el algoritmo de Viterbi. Manuel Calaza Depto Matemática Aplicada Un ejemplo: GeneID Manuel Calaza Depto Matemática Aplicada Manuel Calaza Depto Matemática Aplicada Manuel Calaza Depto Matemática Aplicada Manuel Calaza Depto Matemática Aplicada Manuel Calaza Depto Matemática Aplicada Manuel Calaza Depto Matemática Aplicada Manuel Calaza Depto Matemática Aplicada Predicción de genes por comparación Las regiones del genoma que codifican proteínas se conservan a lo largo de la evolución mejor que las no funcionales. (Abril et al, 2003) Manuel Calaza Depto Matemática Aplicada Query genómica contra target proteica Con Blastx una query genómica es traducida (6 frames) en un conjunto de secuencias de aminoácidos y comparadas con una base de datos de secuencias de aminoácidos. Complementariamente, se necesita información sobre codones START y STOP, etc que Blastx no puede proporcionar. Manuel Calaza Depto Matemática Aplicada Query genómica contra target proteica A partir de las secuencia target con un buen score repecto de nuestra secuencia query, podemos realizar un alineamiento “splice” entre ellas. Este tipo de alineamientos permiten grandes gaps, que deberían corresponderse con las regiones intrónicas de nuestra secuencia query, y regiones de similitud casi completa, que deberían corresponderse con exones altamente probables de nuestra secuencia query. Finalmente, queda la cuestión de encontrar la mejor estructura exónica posible para lo que se emplea generalmente DP. (PROCRUSTES, GENEWISE-ENSEMBL) Manuel Calaza Depto Matemática Aplicada Query genómica contra target proteica Alternativamente, los resultados de realizar comparaciones con bases de datos pueden integrarse en los programas ab initio. El score de un candidato a exón, además de estar definido por los scores de las señales que lo delimitan y su potencial codificante, se incrementa en función de su similitud con secuencias codificantes conocidas. Se potencia la aparición en la predicción final del gen de exones con fuerte similitud con secuencias codificantes conocidas (de la misma u otra especie). (GENOMESCAN extiende GENSCAN) Manuel Calaza Depto Matemática Aplicada Query genómica contra target genómica Con la disponibilidad de más y más genomas completos, y asumiendo que las regiones conservadas por la evolución coresponden a exones codificantes de genes homólogos, la comparación de secuencias de genomas completos están ganando popularidad. EXOFISH predice exones humanos basándose en la utilización de comparaciones (usando TBLASTX) con una base de datos de secuencias de Tetraodon nigroviridis. Manuel Calaza Depto Matemática Aplicada Query genómica contra target genómica Desde otro punto de vista (Pedersen et al y Blayo et al.), se puede plantear el problema como una extensión del problema del alineamiento de secuencias: dadas dos secuencias genómicas codificantes de genes homólogos, predecir la estructura exónica de cada una de e*as maximizando el score del alineamiento de las dos secuencias. Algunos programas como SLAM y DOUBLESCAN combinan dos modelos de Markov ocultos independientes, uno para realizar el alineamiento de las secuencias y otro para realizar la predicción génica, realizándose las dos tareas simultáneamente, sin que una se derive completamente de la otra. Manuel Calaza Depto Matemática Aplicada Query genómica contra target genómica Otro tipo de programas separan claramente la predicción de genes del alineamiento de secuencias (ROSETTA, SGP1). Comienzan por realizar un alineamiento entre las dos secuencias y luego prediccen la estructura de genes de forma que los exones sean compatibles con los alineamientos. Todos estos enfoques comparten un problema evidente que es la necesidad de secuencias homólogas (e incluso siendo secuencias homólogas, si ha habido reordenaciones de genes o pérdida de regiones sinténicas en la evolución, puede haber genes en una secuencia sin homólogo en la otra) Manuel Calaza Depto Matemática Aplicada Query genómica contra target genómica Para superar esta limitación, los programas TWINSCAN y SGP2 utilizan un enfoque similar al empleado por GENOMESCAN para introducir la similitud a proteínas conocidas al sistema de score de GENSCAN. Esencialmente, la secuencia query es comparada con una colección de secuencias del genoma informante y el resultado de la comparación es utilizado para modificar los scores de los exones de algún programa de predicción ab initio. GENSCAN + BLASTN >>>> TWINSCAN GENEID + TBLASTX >>>> SGP2 Manuel Calaza Depto Matemática Aplicada Exactitud en la predicción de genes Medidas: Para evaluar los programas de predicción génica sobre una secuencia test, se compara la estructura predicha con la real. Las mediciones se hacen a distintos niveles: de nucleótido, de exón y de gen. En cada nivel hay dos medidas básicas: la sensitividad y la especificidad. Manuel Calaza Depto Matemática Aplicada Medidas. La sensitividad es la proporción de elementos reales que han sido correctamente predichos. La especificidad es la proporción de elementos predichos que son correctos. TP, nº de elementos codificantes correctamente predichos, TN, nº de elementos no codificantes correctamente predichos, FP, nº de elementos no codificantes predichos como codificantes, y FN, nº de elementos codificantes predichos como no codificantes. TP Sen = TP + FN TP Esp = TP + FP Manuel Calaza Depto Matemática Aplicada Medidas. A nivel de nucleótidos la medida más utilizada es el coeficiente de correlación, CC: TP · TN − FN · FP CC = ! (T P + F N ) · (T N + F P ) · (T P + F P ) · (T N + F N ) Manuel Calaza Depto Matemática Aplicada Medidas. A nivel de exón, se consideran correctamente predichos los exones que coinciden totalmente con los reales (incluidas las fronteras 5’ y 3’), un exón predicho se considera incorrecto si no tiene superposición con ningún exón real, y un exón real se considera perdido si no tiene superposición con ningún exón predicho. Una medida considerada efectiva a este nivel es la media entre la especifidad y la sensitividad. Manuel Calaza Depto Matemática Aplicada Medidas. A nivel de gen, se considera que un gen está correctamente predicho si todas las regiones codificantes han sido identificadas, todas las fronteras entre exón e intrón son correctas, y todos los exones están incluídos en el gen real. Manuel Calaza Depto Matemática Aplicada Mediciones. En 1996, Burset y Guigó, realizaron una comparativa. Se evaluaron programas sobre 570 secuencias genómicas de vertebrados que contenían un único gen, depositadas en GenBank después de 1993 (para evitar entrenamiento de los programas sobre esas secuencias). A nivel de nucleótidos, CC varió entre 0’65 y 0’78. A nivel de exones, la media entre sensitividad y especificidad varió entre 0’37 y 0’60. Manuel Calaza Depto Matemática Aplicada Mediciones. En 2001, Rogic et al, realizaron otra nueva comparativa. Se evaluaron 7 programas sobre secuencias genómicas que contenían un único gen, depositadas en GenBank después de la fecha de aparición de los programas. Los resultados han mejorado respecto de la comparativa anterior. A nivel de nucleótidos, CC varió entre 0’66 y 0’91. A nivel de exones, la media entre sensitividad y especificidad varió entre 0’43 y 0’76. Manuel Calaza Depto Matemática Aplicada Mediciones. Estas comparativas pueden reflejar una situación mejor de la real. Fundamentalmente porque las secuencias eran cortas y con un único gen de estructura simple. Estas secuencias no son representativas del contexto actual: secuencias largas de baja densidad codificante, codificando varios genes y/o genes incompletos, con estructuras génicas complejas. Manuel Calaza Depto Matemática Aplicada Mediciones. Sobre la anotación génica actual del cromosoma 22 se ha realizado una nueva comparativa con los resultados que se sospechaban: la precisión desciende considerablemente. El CC de GENSCAN baja desde el 0’91 en la comparativa de Rogic et al. hasta el 0’64 en el cromosoma 22. Pero incluso programas más sofisticados que utilizan comparación con secuencias (como GENEWISEENSEMBL) se quedan en valores de CC en torno a 0’75. ¡Prudencia! Manuel Calaza Depto Matemática Aplicada Sistemas de anotación génica. Actualmente hay tres bases de datos públicas de anotaciones de genes humanos: EBI&Sanger Institute ENSEMBL, http://www.ensembl.org UCSC Genome Browser,y http://genome.ucsc.edu NCBI LocusLink. http://www.ncbi.nim.nih.gov/LocusLink/ Manuel Calaza Depto Matemática Aplicada Sistemas de anotación génica. Los genes anotados en ENSEMBL han sido generados automáticamente por herramientas propias de ENSEMBL. El motor básico de anotación es GENEWISE. Para un número determinado de cromosomas (6, 13, 14, 20, 22) también están disponibles las anotaciones manuales del sistema VEGA (http://vega.sanger.ac.uk/Homo_sapiens/). Hay tres tipos de genes anotados en ENSEMBL: Los que codifican completamente una proteína, Los que presentan gran homología con proteínas de otros organismos, Los predichos por GENESCAN que presentan gran homología con proteínas o mRNA de vertebrados. Conservadoramente, predice en total de unos 24.500 genes. Manuel Calaza Depto Matemática Aplicada Sistemas de anotación génica. El UCSC Genome Browser proporciona un acceso rápido y muy informativo a las anotaciones. Parte de las anotaciones e informaciones son realizadas en la UCSC a partir de datos públicos y el resto son proporcionados por colaboradores. El motor básico de anotación es BLAT que predice genes por comparación usando alineamientos muy rápidos (en comparación con BLAST) entre proteínas de primates y otros vertebrados con el genoma humano. En sus predicciones incluyen, además de los 24.500 genes de ENSEMBL, 25.600 genes de TWINSCAN, 32.400 genes de GENEID, 39.800 genes de FGENESH++ y 45.000 genes de GENSCAN. Manuel Calaza Depto Matemática Aplicada Sistemas de anotación génica. El NCBI LocusLink predice genes por comparación usando alineamientos con MegaBLAST de secuencias de genes de RefSeq y mRNA con el genoma humano. Además, los genes predichos por GENOMESCAN son anotados sólo si no se solapan con los predichos por los alineaminetos con mRNA. GENOMESCAN ha predicho 38.600 genes. Manuel Calaza Depto Matemática Aplicada Sistemas de anotación génica. Las anotaciones proporcionadas por estos sistemas hay que considerarlas altamente hipotéticas dada la precisión de los programas actuales de predicción de genes. Falta un largo camino para que los sistemas automáticos puedan predecir todos los genes dentro de una secuencia genómica. Se necesita conocer mejor lo que realmente es un gen, y los procesos biológicos involucrados en la especificación génica (especialmente lo referente a los sitios de splice y codón de START). Manuel Calaza Depto Matemática Aplicada