Download Parte 2
Document related concepts
Transcript
Otras aplicaciones de HMM •Búsqueda de familias (dominios) •Alineamientos no globales (búsqueda de secuencias flanqueantes a un patrón particular) En eucariotas los genes son interrumpidos, consisten de series interrumpidas de exones e intrones. Los exones son secuencias presentes en el RNA maduro. Por definición un gen termina y empieza con un exón. Los intrones son secuencias que son removidas cuando el transcripto primario es procesado. Algunas características de los genes eucariotas: •Muestran una distribución muyyyyy amplia de tamaños •No hay grandes diferencias en el tamaño de los exones en diferentes tipos de organismos •En general los intrones son mas largos que los exones •La distribución de los tamaños de los intrones varía desde el mismo largo que los exones (>200 pb) hasta 50-60 Kb en casos extremos •El orden de las partes de un gen es el mismo en el genoma como en el RNA maduro •Los genes tienen la misma estructura en todos los tejidos, incluida la línea germinal y somática en las que puede estar expresado o no. La presencia de un intrón es una característica invariable. •Los genes que están evolutivamente relacionados tiene organizaciones similares. •Genes muy largos son el resultados de intrones muy largos No hay una correlación entre el tamaño del gen y el tamaño de los RNAms •No hay buena una correlación entre tamaño del gen y el número de exones • Las secuencias de los exones son conservadas pero los intrones varían Especies Promedio Promedio del Promedio de Nº de largo del gen de largo exones (Kb) mRNA(kb) S. cerevisae 1 1.6 1.6 Tamaño del genoma 1.3x104 Fungi 3 1.5 1.4 2.7x104 C.elegans 4 4 3 8 x104 Drosophila melanogaster 4 11.3 2.7 1.4x105 Aves 9 13.9 2.4 1.2x106 Mamíferos 7 16.6 2.2 3.3x106 •Los intrones son removidos del RNA nuclear por un sistema que reconoce secuencias de consenso conservadas en las uniones intrón-exón y dentro del intrón •Esto requiere un complejo aparato de splicing (splicisoma) donde proteínas y riboproteínas forman una gran partícula compleja. Algunas caracteristicas importantes.. •No hay homolgía o complementariedad entre los extremos de los intrones. • Los sitios de unión son muy conservados. GT-AG = 99.24% GC-AG = 0.7% AT-AC = 0.05% La secuencia altamente conservada (99%) se encuentra inmediatamente dentro del intrón en los sitios de unión La secuencia de un intrón genérico se define como GT………….AG Modelos oculto de Markov: Es un modelo probabilístico de problema de etiquetado de secuencias lineales Un ejemplo sencillo…… Reconocer un sitio de splicing 5’ Asumimos que : •La secuencia de ADN comienza en un exón, contiene solo un sitio de splice 5´ y termina en un intrón. El problema es identificar donde ocurre el splicing •Las secuencias de los exones, intrones y sitios de splicing deben tener diferentes propiedades estadísticas Exones: tienen una composición uniforme de bases , ATCG (25%) de cada una. Intrones: ricos en A/T (40% de A, 40% de T), 10% de C y 10%G. Sitio de Splicing (SS) : es casi siempre una G (95%) y A (5%) El HMM tiene tres estados E (exon), 5’ sitio de splicing e I (intron) Cada estado tiene su propia probabilidad de emisión y transición •probabilidad de emisión: es la probabilidad de composición de bases en cada estado, describe las características estadística de los residuos de ADN •probabilidad de transición: es la probabilidad de moverse del estado en el que se está a otro nuevo estado, describe el orden linear que esperamos que los estados ocurran en uno o mas: E´s, un 5’, uno o mas I´s. Cuando visitamos un estado emitimos un residuo de acuerdo a la distribución de las probabilidades de emisión de los estados, luego elegimos cual estado visitar de acuerdo a la distribución de las probabilidades de transición de los estados. El modelo genera dos strings de información: una cadena de estados subyacente (etiquetas), la otra es la secuencia observada de ADN Cadena de estados = cadena de Markov: el estado siguiente al que se llega depende sólo del estado en que se está. La cadena de estados subyacentes (etiquetas que queremos inferir) está oculta ,es una CADENA OCULTA DE MARKOV. La Probabilidad P (S, π/HMM, θ) que una HMM con parámetros θ genere una cadena de estados π y una secuencia observada S es el producto de todas las probabilidades de emisión y transición que fueron usadas. Una HMM es un modelo probabilístico completo P tiene que tener significancia estadística : se usa la teoría de probabilidad Bayesiana para optimizar parámetros, interpretar las significancia estadística de los scores. Para problemas mas reales hay muchas secuencias de estados posibles, se usa Algoritmo de Viterbi (programación dinámica) para hallar la secuencia mas probable de estados dada una determinada secuencia y una HMM. Para problemas mas grandes, se usan algoritmos de programación dinámica Forward y Backward : suman todos los posibles secuencias de estados en lugar de elegir la mejor. Las limitaciones del modelo HMM asume que cada residuo depende solo de un estado subyacente y cada estado en la cadena de estados depende solamente del estado previo, HMM no es bueno en análisis de estructura secundaria de ARN donde apareamiento de bases conservadas inducen correlaciones entre residuos distantes La cadena de estado de una HMM no tiene memoria Para localizar genes el método más simple es buscar ORFs, los cuales comienzan con un codón Start (AUG) y finaliza con uno de los tres codones stops. En procariotas es mas sencillo DNA que codifica para proteínas se transcribe en RNA m el cual se traduce a proteínas sin modificaciones En eucariotas es mas difícil , porque el RNA m se procesa. La búsqueda por homología de los posibles ORF sólo predice un 50% de los genes El 50% remanente debe ser hallado usando otro mecanismo Programas de Predicción de genes Procariota: Sistema Glimmer (Gene Locator and Interpolated Markov Modeler) permite hallar genes en DNA microbiano, usa IMM para identificar regiones codificantes y distinguir regiones no codificantes. Consiste de dos programas principales: •build-imm : programa de entrenamiento, toma un input de secuencias y construye las IMM para ellas, las secuencias pueden ser genes completos o ORFs parciales. Para un nuevo genoma pueden consistir de genes con fuertes hits en bases de datos o ORFs que son estadísticamente cercanos a genes. *Glimmer: usa IMM para identificar posibles genes en un genoma entero http://glimmer.sourceforge.net/ Output from HMMgene The output of the program is in GFF format, which is a sequence annotation format developed with gene finding in mind. It is very simple and therefore it is easy to develop programs in perl or awk to post-process th output. The following is an example of the form it takes with hmmgene. Note that hmmgene only predicts coding regions. That is, the first exon (`firstex' below) is only the coding part of the first coding exon and similarly for the last exon (`lastex' below). Below a `gene' therefore means th region of the gene from start to stop codon. SEQ1 HMMgene1.1 firstex 692 702 0.347 + 2 bestparse:cds_1 SEQ1 HMMgene1.1 exon_1 2473 2711 0.421 + 1 bestparse:cds_1 SEQ1 HMMgene1.1 exon_2 2897 3081 0.544 + 0 bestparse:cds_1 SEQ1 HMMgene1.1 exon_3 10376 10563 0.861 + 2 bestparse:cds_1 SEQ1 HMMgene1.1 exon_4 11841 11891 0.857 + 2 bestparse:cds_1 SEQ1 HMMgene1.1 exon_5 12387 12483 0.993 + 0 bestparse:cds_1 SEQ1 HMMgene1.1 exon_6 13076 13211 0.970 + 1 bestparse:cds_1 SEQ1 HMMgene1.1 exon_7 13332 13415 0.926 + 1 bestparse:cds_1 SEQ1 HMMgene1.1 exon_8 13515 13603 1.000 + 0 bestparse:cds_1 SEQ1 HMMgene1.1 exon_9 14180 14235 1.000 + 2 bestparse:cds_1 SEQ1 HMMgene1.1 exon_10 14321 14408 0.999 + 0 bestparse:cds_1 SEQ1 HMMgene1.1 exon_11 14483 14579 0.877 + 1 bestparse:cds_1 SEQ1 HMMgene1.1 exon_12 14697 14764 0.639 + 0 bestparse:cds_1 SEQ1 HMMgene1.1 exon_13 14901 15030 0.835 + 1 bestparse:cds_1 SEQ1 HMMgene1.1 lastex 15643 15704 0.987 + 0 SEQ1 HMMgene1.1 CDS 692 15704 0.132 + . bestparse:cds_1 bestparse:cds_1 Columns 1. Sequence identifier 2. Program name 3. Prediction . 4. Beginning 5. End 6. Score between 0 and 1 7. Strand: $+$ for direct and $-$ for complementary 8. Frame (for exons it is the position of the donor in the frame) 9. Group to which prediction belong. If several CDS's are found they will be called cds_1, cds_2, etc. `bestparse:' is there because alternative predictions will also be available (see below). The score that comes with all the exons as well as the entire gene `CDS' above) is a probability, so a value close to one means that the program is fairly certain.