Download 4. Alejando Mass: Descubriendo genes.

Document related concepts

Gen wikipedia , lookup

Genómica comparativa wikipedia , lookup

Marcador de secuencia expresada wikipedia , lookup

Introducción a la genética wikipedia , lookup

Exón wikipedia , lookup

Transcript
Información y Aleatoriedad
de los Genes
Iniciativa Científica Milenio
SANTIAGO, 15 de Noviembre de 2006
Desafío
tecnológico:
biolixiviación de
metales contenidos
en minerales
mediante el uso de
microorganismos
que lo hacen en
forma natural
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Secuencia ADN
Información
Expresión de genes
Problema
Biotecnológico
Información y Aleatoriedad de los Genes
Redes de Interacción
de genes
Metagenómica
SANTIAGO, 15 de Noviembre de 2006
Un poco de biología: hacia
un modelo matemático
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Ejemplo de una Bacteria
Membrana
ADN
Citoplasma
- Proteínas
- ARN
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
James D. Watson y Francis H.C. Crick
Premio Nobel 1962
1953 – 2003 50 años de la doble hélice
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
James D. Watson y Francis H.C. Crick
Premio Nobel 1962
1953 – 2003 50 años de la doble hélice
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Estructura del ADN: bases nitrogenadas
A
T
G
Información y Aleatoriedad de los Genes
C
SANTIAGO, 15 de Noviembre de 2006
Genes y Genoma
El ADN tiene la información necesaria
para construir las proteínas que la
bacteria necesita
La región del ADN que codifica una
proteína se denomina “gen”
El “genoma” es la secuencia completa
de todo el ADN
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Fábrica de proteínas
ADN
Se transcribe
ARN
Se traduce
Parte del ADN se
copia en ARN (RNA
polimerasa)
El ARN indica
cómo construir la
proteína (en el ribosoma)
PROTEINA
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Modelo Unidimensional del
ADN: secuencia de letras de
una hebra
AGCTTTTCATTCTGACTGCAACGGGAGTGTCTGATAGCAGCTTCTGAACTGGT
TACCTGCCGTGAGTAAATTAAAATTTTATTGACTTAGGTCACTAAATACTTTAAC
CAATATAGGCATAGCGCACAGACAGATAAAAATTACAGAGTACACAACATCCA
TGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAAC
GGT
......
GCGGGCTGACGCGTACAGGAAACACAGAAAAAAGCCCGCACCTGACAGTGC
GGGCTTTTTTTTTCGACCAAAGGTAACGAGGTAACAACCATGCGAGTGTTGAA
GTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATA
TTCTGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCC
CG
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Genes: subpalabras del ADN
Hebra 1
AGCTTTTCATTCTGACTGCAACGGGAGTGTCTGATAGCAGCTTCTGAACTGGT
TACCTGCCGTGAGTAAATTAAAATTTTATTGACTTAGGTCACTAAATACTTTAAC
CAATATAGGCATAGCGCACAGACAGATAAAAATTACAGAGTACACAACATCCA
TGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAAC
GGT
......
GCGGGCTGACGCGTACAGGAAACACAGAAAAAAGCCCGCACCTGACAGTGC
GGGCTTTTTTTTTCGACCAAAGGTAACGAGGTAACAACCATGCGAGTGTTGAA
GTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATA
TTCTGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCC
CG
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Genes: subpalabras del ADN
Hebra -1
AGCTTTTCATTCTGACTGCAACGGGAGTGTCTGATAGCAGCTTCTGAACTGGT
TACCTGCCGTGAGTAAATTAAAATTTTATTGACTTAGGTCACTAAATACTTTAAC
CAATATAGGCATAGCGCACAGACAGATAAAAATTACAGAGTACACAACATCCA
TGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAAC
GGT
......
GCGGGCTGACGCGTACAGGAAACACAGAAAAAAGCCCGCACCTGACAGTGC
GGGCTTTTTTTTTCGACCAAAGGTAACGAGGTAACAACCATGCGAGTGTTGAA
GTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATA
TTCTGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCC
CG
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Genes: subpalabras del ADN
Hebras 1 y -1
AGCTTTTCATTCTGACTGCAACGGGAGTGTCTGATAGCAGCTTCTGAACTGGT
TACCTGCCGTGAGTAAATTAAAATTTTATTGACTTAGGTCACTAAATACTTTAAC
CAATATAGGCATAGCGCACAGACAGATAAAAATTACAGAGTACACAACATCCA
TGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAAC
GGT
......
GCGGGCTGACGCGTACAGGAAACACAGAAAAAAGCCCGCACCTGACAGTGC
GGGCTTTTTTTTTCGACCAAAGGTAACGAGGTAACAACCATGCGAGTGTTGAA
GTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATA
TTCTGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCC
CG
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Genes  Proteínas
en bacterias
ATGGGCGTATATCC…..AATCGCGTAT
GEN
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Genes  Proteínas
en bacterias
ATGGGCGTAGATCC…..AATCGCGTAT
CODON INICIO
Conjunto pequeño
Conocido (3-4)
CODON FIN
GEN
Información y Aleatoriedad de los Genes
Conjunto pequeño
Conocido (3-4)
SANTIAGO, 15 de Noviembre de 2006
Genes  Proteínas
en bacterias
ATGGGCGTATATCC…..AATCGCGTAT
CODON (43)
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Genes  Proteínas
en bacterias
ATGGGCGTATATCC…..AATCGCGTAT
Código
Genético
M
G
V
T
P
I
A
AMINO ACIDO (20)
PROTEINA
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Proteínas
Macromoléculas que se
forman uniendo varios
aminoácidos (20 en total)
Se pliega en 3D
Funciones: catalizadoras
(enzimas), transportadoras,
etc.
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Obtención de Información
Genómica:
“leyes probabilistas de las
repeticiones”
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Secuenciamiento: obtención de secuencias
de letras de un Genoma
Tamaño DNA Bacterias: entre 1,5 y 5
millones de pares de bases
Tamaño DNA ser humano: 3 x 109 pares
de bases
TAMAÑO
Información y Aleatoriedad de los Genes
PROBLEMA
TECNOLOGICO
SANTIAGO, 15 de Noviembre de 2006
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
IDEA DE SOLUCION
LEYES DE ORGANIZACIÓN DEL ADN
Trozar el ADN en segmentos posibles de
secuenciar: tamaños accesibles con
tecnología en uso (600-800 pares de bases).
Reconstruir el ADN total a partir de los
trozos: a partir de un cierto largo, el número
de repeticiones de palabras es bajo (FALSO
en una secuencia al azar).
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Proceso de Secuenciamiento
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Secuenciamiento
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Secuenciamiento
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Secuenciamiento
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
de Cromatogramas a
Secuencias
Cromatogramas
Base Calling
Secuencias
G A T C A G G C T A C G A T C G A T C T A G C
Calidades
7 15 22 25 38 46 56 66 64 75 71 68 52 46 68 53 66 65 65 45 32
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Información:
Secuencias de largo ~ 600 correspondientes a extremos
Distancia de dichas secuencias en el genoma: 2.000
Largo 2000
ATTCGATGGCGATT
F
Información y Aleatoriedad de los Genes
ATCGCGATTGCTAGC
R
SANTIAGO, 15 de Noviembre de 2006
Ensamble de ADN
ACTTAGCGC...CTAGCTATCTATCTACTA...GTCA
Si se recolectaron trozos de un tamaño razonable (2,5 K) del ADN
del organismo en estudio
Y se hacen suficientes repeticiones (por ejemplo 4x):
LA PROBABILIDAD DE RECONSTITUIR EL GENOMA
ES SUPERIOR AL 90% EN BACTERIAS
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Información Genómica
Datos públicos
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Búsqueda de genes: una segunda
ley de probabilidad en el Genoma
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
De la secuencia a la anotación de
genes y señales
AGCTTTTCATTCTGACTGCAACGGGCAATATGTCTCTGTGTGGATTAAAAAAAGAGTGTCT
GATAGCAGCTTCTGAACTGGTTACCTGCCGTGAGTAAATTAAAATTTTATTGACTTAGGTC
ACTAAATACTTTAACCAATATAGGCATAGCGCACAGACAGATAAAAATTACAGAGTACACA
ACATCCATGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAACG
GTGCGGGCTGACGCGTACAGGAAACACAGAAAAAAGCCCGCACCTGACAGTGCGGGCTTTT
TTTTTCGACCAAAGGTAACGAGGTAACAACCATGCGAGTGTTGAAGTTCGGCGGTACATCA
GTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATATTCTGGAAAGCAATGCCAGGCAGG
GGCAGGTGGCCACCGTCCTCTCTGCCCCCGCCAAAATCACCAACCACCTGGTGGCGATGAT
TGAAAAAACCATTAGCGGCCAGGATGCTTTACCCAATATCAGCGATGCCGAACGTATTTTT
GCCGAACTTTTGACGGGACTCGCCGCCGCCCAGCCGGGGTTCCCGCTGGCGCAATTGAAAA
CTTTCGTCGATCAGGAATTTGCCCAAATAAAACATGTCCTGCATGGCATTAGTTTGTTGGG
GCAGTGCCCGGATAGCATCAACGCTGCGCTGATTTGCCGTGGCGAGAAAATGTCGATCGCC
ATTATGGCCGGCGTATTAGAAGCGCGCGGTCACAACGTTACTGTTATCGATCCGGTCGAAA
AACTGCTGGCAGTGGGGCATTACCTCGAATCTACCGTCGATATTGCTGAGTCCACCCGCCG
TATTGCGGCAAGCCGCATTCCGGCTGATCACATGGTGCTGATGGCAGGTTTCACCGCCGGT
AATGAAAAAGGCGAACTGGTGGTGCTTGGACGCAACGGTTCCGAC
ADN
Información y Aleatoriedad de los Genes
Hebra 1
Genes
Hebra -1
Ejemplo Bacteria WENELEN:
Largo: ~ 3 millones de pares de bases
Numero de Genes: ~ 3.200
Candidatos a Genes: ~ 97 %
Genes Anotados: ~ 70 %
SANTIAGO, 15 de Noviembre de 2006
Búsqueda de Candidatos a
Genes:
DOS ESTRATEGIAS CLASICAS:

Comparar con secuencias de genes conocidos:
alinear secuencias.

Aprovechar leyes probabilistas de la organización
genómica: determinar la frecuencia de aparición
de cada par de base en un contexto dado zonas
de genes y zonas intergénicas.
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Zonas codificantes y no
codificantes en bacterias:
ZONA INTERGENICA (< 10%)
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Principio: zonas codificantes y no
codificantes tienen distintas estadísticas
…TTGTACTGTCGCGATGCTACTGACGTCCGTACTGTCGCGCTACTGATGACTGTC
Prob(Xn=A | Xn+1=C, Xn+2=T, Xn+3=G)
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Principio: zonas codificantes y no
codificantes tienen distintas estadísticas
…TTGTACTGTCGCGATGCTACTGACGTCCGTACTGTCGCGCTACTGATGACTGTC
Prob(Xn=A | Xn+1=C, Xn+2=T, Xn+3=G)
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Se observa:
Prob(Xn=A | Xn-1=C, Xn-2=T, Xn-3=G)
=
Prob(Xn=A | Xn+1=C, Xn+2=T, Xn+3=G)
ALGORITMOS Y METODOS
PARA MARCAR GENES
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
BUSCAR SIMILITUDES:
ALINEAR CON SECUENCIAS CONOCIDAS
secuencia similar =>
regiones similares?
proteína similar?
función similar?
ancestros similares?
genes ortólogos?
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Comparar Secuencias
ATGCCTGA
CTGCTGCC
¿qué tan similares son?
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Alineamiento 1
ATGCCTGACTGC-TGCC
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Alineamiento 2
ATGCCTGA-------CTGCTGCC
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Función de Similitud
Premio por Similitud: +1
ATGCCTGACTGC-TGCC
Penalización por no Similitud: -1
ATGCCTGACTGC-TGCC
Penalización por Gap: -2
ATGCCTGACTGC-TGCC
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Función de Similitud (score)
Similitud = puntajes
ATGCCTGACTGC-TGCC
-1 +1 +1 +1
-2 +1 +1
-1 -2
Score = -1
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Función de Similitud (score)
ATGCCTGA-------CTGCTGCC
-2
-2
-2 -2 +1 +1 +1
-1 -2 -2 -2 -2
Score = -14
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Listar todos los casos:
¡¡muy lento !!
Score1
Scorei
ScoreN
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Estrategia:
Programación Dinámica
Calcular en base a resultados obtenidos
anteriormente.
Usar etapa N-1 para resolver etapa N
N-1
Información y Aleatoriedad de los Genes
N
SANTIAGO, 15 de Noviembre de 2006
Programación Dinámica
A
<- Extender Seq1 en una letra
-
<- Extender Seq2 en un gap
Seq1
-
<- Extender Seq1 en un gap
Seq2
G
<- Extender Seq2 en una letra
A
G
<- Extender Seq1 y Seq2 en una letra
Seq1
Seq2
N-1
N-1
Seq1
Seq2
N-1
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Score para Alineamiento
i: índice en Seq1
j: índice en Seq2
Score(i,j) = max [
Score(i-1, j) – penalizacion_gap,
Score(i, j-1) – penalizacion_gap,
Score(i-1,j-1) + similitud(i,j)
]
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Pequeño Ejemplo
Alinear:
GATCC
AGCA
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Ejemplo GATCC vs AGCA
0
A
-2
G
-4
C
-6
A
-8
G
A
T
C
C
-2
-4
-6
-8
-10
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Ejemplo GATCC vs AGCA
0
-1
A
-2
G
-4
C
-6
A
-8
G
A
T
C
C
-2
-4
-6
-8
-10
-2
-2 -1
Información y Aleatoriedad de los Genes
A
G
SANTIAGO, 15 de Noviembre de 2006
Ejemplo GATCC vs AGCA
A
G
G
A
T
C
C
0
-2
-4
-6
-8
-10
-2
-1
-1
GA-AG
-4
C
-6
A
-8
-1
-2
Información y Aleatoriedad de los Genes
-GA
AG-
SANTIAGO, 15 de Noviembre de 2006
Ejemplo GATCC vs AGCA
G
A
T
C
C
0
-2
-4
-6
-8
-10
A
-2
-1
-1
-3
-5
-7
G
-4
-1
-2
-2
-4
-6
C
-6
-3
-2
-3
-1
-3
A
-8
-5
-2
-3
-3
-2
Información y Aleatoriedad de los Genes
GATCC
-AGCA
SANTIAGO, 15 de Noviembre de 2006
Anotación funcional: candidatos a genes se
comparan con genes conocidos
Operón
Función Asociada
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Origen de replicación: una
última observación probabilista
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
SESGO: ejercicio sobre las letras
CATGATCGTATG
G-C/G+C
1/5
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
SESGO: ejercicio sobre las letras
CATAACCGTATA
G-C/G+C
-1/2
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
SESGO: ejercicio sobre las letras
AACTAGCGTATA
G-C/G+C
0
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Paseo siguiendo los genes:
Regla:
• si estoy en un gen hacia la derecha subo un peldaño
• si estoy en un gen hacia la izquierda bajo un peldaño
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Otras leyes:
(G-C/G+C) vs cambio hebra
Escherichia coli
Bacteria Biominera
Origen de Replicación
Sesgo: letras
Información y Aleatoriedad de los Genes
Paseo: genes
SANTIAGO, 15 de Noviembre de 2006
FIN
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Otro tipo de información: expresión de
genes y experimentos de “microarrays”
Identificación y Clasificación
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006
Análisis de Clasificación
Jerárquica
Extremos del dendograma
Información y Aleatoriedad de los Genes
SANTIAGO, 15 de Noviembre de 2006