Download Parte 2

Document related concepts
Transcript
Otras aplicaciones de HMM
•Búsqueda de familias (dominios)
•Alineamientos no globales (búsqueda de
secuencias flanqueantes a un patrón particular)
En eucariotas los genes son interrumpidos, consisten de series
interrumpidas de exones e intrones.
Los exones son secuencias presentes en el RNA maduro. Por
definición un gen termina y empieza con un exón.
Los intrones son secuencias que son removidas cuando el transcripto
primario es procesado.
Algunas características de los genes eucariotas:
•Muestran una distribución muyyyyy amplia de tamaños
•No hay grandes diferencias en el tamaño de los exones en
diferentes tipos de organismos
•En general los intrones son mas largos que los exones
•La distribución de los tamaños de los intrones varía desde
el mismo largo que los exones (>200 pb) hasta 50-60 Kb en
casos extremos
•El orden de las partes de un gen es el mismo en el
genoma como en el RNA maduro
•Los genes tienen la misma estructura en todos los tejidos,
incluida la línea germinal y somática en las que puede
estar expresado o no. La presencia de un intrón es una
característica invariable.
•Los genes que están evolutivamente relacionados tiene
organizaciones similares.
•Genes muy largos son el resultados de intrones muy
largos
No hay una correlación entre el tamaño del gen y el
tamaño de los RNAms
•No hay buena una correlación entre tamaño del gen y el
número de exones
• Las secuencias de los exones son conservadas pero los
intrones varían
Especies
Promedio Promedio del Promedio
de Nº de largo del gen de largo
exones
(Kb)
mRNA(kb)
S. cerevisae
1
1.6
1.6
Tamaño
del
genoma
1.3x104
Fungi
3
1.5
1.4
2.7x104
C.elegans
4
4
3
8 x104
Drosophila
melanogaster
4
11.3
2.7
1.4x105
Aves
9
13.9
2.4
1.2x106
Mamíferos
7
16.6
2.2
3.3x106
•Los intrones son removidos del RNA nuclear por
un sistema que reconoce secuencias de consenso
conservadas en las uniones intrón-exón y dentro del
intrón
•Esto requiere un complejo aparato de splicing
(splicisoma) donde proteínas y riboproteínas
forman una gran partícula compleja.
Algunas caracteristicas importantes..
•No hay homolgía o complementariedad entre los extremos
de los intrones.
• Los sitios de unión son muy conservados.
GT-AG = 99.24%
GC-AG = 0.7%
AT-AC = 0.05%
La secuencia altamente conservada (99%) se encuentra
inmediatamente dentro del intrón en los sitios de unión
La secuencia de un intrón genérico se define como GT………….AG
Modelos oculto de Markov: Es un modelo probabilístico de
problema de etiquetado de secuencias lineales
Un ejemplo sencillo……
Reconocer un sitio de splicing 5’
Asumimos que :
•La secuencia de ADN comienza en un exón, contiene solo un sitio de
splice 5´ y termina en un intrón.
El problema es identificar donde ocurre el splicing
•Las secuencias de los exones, intrones y sitios de splicing deben
tener diferentes propiedades estadísticas
Exones: tienen una composición uniforme de bases , ATCG (25%) de
cada una.
Intrones: ricos en A/T (40% de A, 40% de T), 10% de C y 10%G.
Sitio de Splicing (SS) : es casi siempre una G (95%) y A (5%)
El HMM tiene tres estados E (exon), 5’ sitio de splicing e I
(intron)
Cada estado tiene su propia probabilidad de emisión y
transición
•probabilidad de emisión: es la probabilidad de composición de bases
en cada estado, describe las características estadística de los residuos
de ADN
•probabilidad de transición:
es la probabilidad de moverse del estado en el que se está a otro
nuevo estado, describe el orden linear que esperamos que los estados
ocurran en uno o mas: E´s, un 5’, uno o mas I´s.
Cuando visitamos un estado emitimos un residuo de acuerdo a la
distribución de las probabilidades de emisión de los estados, luego
elegimos cual estado visitar de acuerdo a la distribución de las
probabilidades de transición de los estados.
El modelo genera dos strings de información: una cadena de
estados subyacente (etiquetas), la otra es la secuencia observada
de ADN
Cadena de estados = cadena de Markov: el estado siguiente al que
se llega depende sólo del estado en que se está.
La cadena de estados subyacentes (etiquetas que queremos
inferir) está oculta ,es una CADENA OCULTA DE MARKOV.
La Probabilidad P (S, π/HMM, θ) que una HMM con parámetros θ
genere una cadena de estados π y una secuencia observada S es el
producto de todas las probabilidades de emisión y transición que
fueron usadas.
Una HMM es un modelo probabilístico completo
P tiene que tener significancia estadística : se usa la teoría de
probabilidad Bayesiana para optimizar parámetros, interpretar las
significancia estadística de los scores.
Para problemas mas reales hay muchas secuencias de estados
posibles, se usa Algoritmo de Viterbi (programación dinámica)
para hallar la secuencia mas probable de estados dada una
determinada secuencia y una HMM.
Para problemas mas grandes, se usan algoritmos de programación
dinámica Forward y Backward : suman todos los posibles secuencias
de estados en lugar de elegir la mejor.
Las limitaciones del modelo
HMM asume que cada residuo depende solo de un estado
subyacente y cada estado en la cadena de estados depende
solamente del estado previo, HMM no es bueno en análisis de
estructura secundaria de ARN donde apareamiento de bases
conservadas inducen correlaciones entre residuos distantes
La cadena de estado de una HMM no tiene memoria
Para localizar genes el método más simple es buscar ORFs, los cuales
comienzan con un codón Start (AUG) y finaliza con uno de los tres
codones stops.
En procariotas es mas sencillo DNA que codifica para proteínas se
transcribe en RNA m el cual se traduce a proteínas sin
modificaciones
En eucariotas es mas difícil , porque el RNA m se procesa.
La búsqueda por homología de los posibles ORF sólo predice un
50% de los genes
El 50% remanente debe ser hallado usando otro mecanismo
Programas de Predicción de genes
Procariota: Sistema Glimmer (Gene Locator and Interpolated
Markov Modeler) permite hallar genes en DNA microbiano, usa
IMM para identificar regiones codificantes y distinguir regiones no
codificantes.
Consiste de dos programas principales:
•build-imm : programa de entrenamiento, toma un input de
secuencias y construye las IMM para ellas, las secuencias pueden ser
genes completos o ORFs parciales. Para un nuevo genoma pueden
consistir de genes con fuertes hits en bases de datos o ORFs que son
estadísticamente cercanos a genes.
*Glimmer: usa IMM para identificar posibles genes en un genoma
entero
http://glimmer.sourceforge.net/
Output from HMMgene
The output of the program is in GFF format, which is a sequence annotation format developed with gene finding in mind. It is very simple and therefore it is easy to develop programs in perl or awk to post-process th
output. The following is an example of the form it takes with hmmgene.
Note that hmmgene only predicts coding regions. That is, the first exon (`firstex' below) is only the coding part of the first coding exon and similarly for the last exon (`lastex' below). Below a `gene' therefore means th
region of the gene from start to stop codon.
SEQ1 HMMgene1.1 firstex 692
702
0.347 + 2
bestparse:cds_1
SEQ1 HMMgene1.1 exon_1 2473
2711
0.421 + 1
bestparse:cds_1
SEQ1 HMMgene1.1 exon_2 2897
3081
0.544 + 0
bestparse:cds_1
SEQ1 HMMgene1.1 exon_3 10376 10563 0.861 + 2
bestparse:cds_1
SEQ1 HMMgene1.1 exon_4 11841 11891 0.857 + 2
bestparse:cds_1
SEQ1 HMMgene1.1 exon_5 12387 12483 0.993 + 0
bestparse:cds_1
SEQ1 HMMgene1.1 exon_6 13076 13211 0.970 + 1
bestparse:cds_1
SEQ1 HMMgene1.1 exon_7 13332 13415 0.926 + 1
bestparse:cds_1
SEQ1 HMMgene1.1 exon_8 13515 13603 1.000 + 0
bestparse:cds_1
SEQ1 HMMgene1.1 exon_9 14180 14235 1.000 + 2
bestparse:cds_1
SEQ1 HMMgene1.1 exon_10 14321 14408 0.999 + 0
bestparse:cds_1
SEQ1 HMMgene1.1 exon_11 14483 14579 0.877 + 1
bestparse:cds_1
SEQ1 HMMgene1.1 exon_12 14697 14764 0.639 + 0
bestparse:cds_1
SEQ1 HMMgene1.1 exon_13 14901 15030 0.835 + 1
bestparse:cds_1
SEQ1 HMMgene1.1 lastex 15643 15704 0.987 + 0
SEQ1 HMMgene1.1 CDS 692 15704 0.132 + .
bestparse:cds_1
bestparse:cds_1
Columns
1.
Sequence identifier
2.
Program name
3.
Prediction .
4.
Beginning
5.
End
6.
Score between 0 and 1
7.
Strand: $+$ for direct and $-$ for complementary
8.
Frame (for exons it is the position of the donor in the frame)
9.
Group to which prediction belong. If several CDS's are found they will be called cds_1, cds_2, etc. `bestparse:' is there because alternative predictions will also
be available (see below).
The score that comes with all the exons as well as the entire gene `CDS' above) is a probability, so a value close to one means that the program is fairly certain.