Download 4. Alejando Mass: Descubriendo genes.
Document related concepts
Transcript
Información y Aleatoriedad de los Genes Iniciativa Científica Milenio SANTIAGO, 15 de Noviembre de 2006 Desafío tecnológico: biolixiviación de metales contenidos en minerales mediante el uso de microorganismos que lo hacen en forma natural Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Secuencia ADN Información Expresión de genes Problema Biotecnológico Información y Aleatoriedad de los Genes Redes de Interacción de genes Metagenómica SANTIAGO, 15 de Noviembre de 2006 Un poco de biología: hacia un modelo matemático Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Ejemplo de una Bacteria Membrana ADN Citoplasma - Proteínas - ARN Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 James D. Watson y Francis H.C. Crick Premio Nobel 1962 1953 – 2003 50 años de la doble hélice Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 James D. Watson y Francis H.C. Crick Premio Nobel 1962 1953 – 2003 50 años de la doble hélice Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Estructura del ADN: bases nitrogenadas A T G Información y Aleatoriedad de los Genes C SANTIAGO, 15 de Noviembre de 2006 Genes y Genoma El ADN tiene la información necesaria para construir las proteínas que la bacteria necesita La región del ADN que codifica una proteína se denomina “gen” El “genoma” es la secuencia completa de todo el ADN Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Fábrica de proteínas ADN Se transcribe ARN Se traduce Parte del ADN se copia en ARN (RNA polimerasa) El ARN indica cómo construir la proteína (en el ribosoma) PROTEINA Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Modelo Unidimensional del ADN: secuencia de letras de una hebra AGCTTTTCATTCTGACTGCAACGGGAGTGTCTGATAGCAGCTTCTGAACTGGT TACCTGCCGTGAGTAAATTAAAATTTTATTGACTTAGGTCACTAAATACTTTAAC CAATATAGGCATAGCGCACAGACAGATAAAAATTACAGAGTACACAACATCCA TGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAAC GGT ...... GCGGGCTGACGCGTACAGGAAACACAGAAAAAAGCCCGCACCTGACAGTGC GGGCTTTTTTTTTCGACCAAAGGTAACGAGGTAACAACCATGCGAGTGTTGAA GTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATA TTCTGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCC CG Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Genes: subpalabras del ADN Hebra 1 AGCTTTTCATTCTGACTGCAACGGGAGTGTCTGATAGCAGCTTCTGAACTGGT TACCTGCCGTGAGTAAATTAAAATTTTATTGACTTAGGTCACTAAATACTTTAAC CAATATAGGCATAGCGCACAGACAGATAAAAATTACAGAGTACACAACATCCA TGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAAC GGT ...... GCGGGCTGACGCGTACAGGAAACACAGAAAAAAGCCCGCACCTGACAGTGC GGGCTTTTTTTTTCGACCAAAGGTAACGAGGTAACAACCATGCGAGTGTTGAA GTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATA TTCTGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCC CG Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Genes: subpalabras del ADN Hebra -1 AGCTTTTCATTCTGACTGCAACGGGAGTGTCTGATAGCAGCTTCTGAACTGGT TACCTGCCGTGAGTAAATTAAAATTTTATTGACTTAGGTCACTAAATACTTTAAC CAATATAGGCATAGCGCACAGACAGATAAAAATTACAGAGTACACAACATCCA TGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAAC GGT ...... GCGGGCTGACGCGTACAGGAAACACAGAAAAAAGCCCGCACCTGACAGTGC GGGCTTTTTTTTTCGACCAAAGGTAACGAGGTAACAACCATGCGAGTGTTGAA GTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATA TTCTGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCC CG Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Genes: subpalabras del ADN Hebras 1 y -1 AGCTTTTCATTCTGACTGCAACGGGAGTGTCTGATAGCAGCTTCTGAACTGGT TACCTGCCGTGAGTAAATTAAAATTTTATTGACTTAGGTCACTAAATACTTTAAC CAATATAGGCATAGCGCACAGACAGATAAAAATTACAGAGTACACAACATCCA TGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAAC GGT ...... GCGGGCTGACGCGTACAGGAAACACAGAAAAAAGCCCGCACCTGACAGTGC GGGCTTTTTTTTTCGACCAAAGGTAACGAGGTAACAACCATGCGAGTGTTGAA GTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATA TTCTGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCC CG Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Genes Proteínas en bacterias ATGGGCGTATATCC…..AATCGCGTAT GEN Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Genes Proteínas en bacterias ATGGGCGTAGATCC…..AATCGCGTAT CODON INICIO Conjunto pequeño Conocido (3-4) CODON FIN GEN Información y Aleatoriedad de los Genes Conjunto pequeño Conocido (3-4) SANTIAGO, 15 de Noviembre de 2006 Genes Proteínas en bacterias ATGGGCGTATATCC…..AATCGCGTAT CODON (43) Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Genes Proteínas en bacterias ATGGGCGTATATCC…..AATCGCGTAT Código Genético M G V T P I A AMINO ACIDO (20) PROTEINA Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Proteínas Macromoléculas que se forman uniendo varios aminoácidos (20 en total) Se pliega en 3D Funciones: catalizadoras (enzimas), transportadoras, etc. Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Obtención de Información Genómica: “leyes probabilistas de las repeticiones” Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Secuenciamiento: obtención de secuencias de letras de un Genoma Tamaño DNA Bacterias: entre 1,5 y 5 millones de pares de bases Tamaño DNA ser humano: 3 x 109 pares de bases TAMAÑO Información y Aleatoriedad de los Genes PROBLEMA TECNOLOGICO SANTIAGO, 15 de Noviembre de 2006 Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 IDEA DE SOLUCION LEYES DE ORGANIZACIÓN DEL ADN Trozar el ADN en segmentos posibles de secuenciar: tamaños accesibles con tecnología en uso (600-800 pares de bases). Reconstruir el ADN total a partir de los trozos: a partir de un cierto largo, el número de repeticiones de palabras es bajo (FALSO en una secuencia al azar). Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Proceso de Secuenciamiento Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Secuenciamiento Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Secuenciamiento Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Secuenciamiento Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 de Cromatogramas a Secuencias Cromatogramas Base Calling Secuencias G A T C A G G C T A C G A T C G A T C T A G C Calidades 7 15 22 25 38 46 56 66 64 75 71 68 52 46 68 53 66 65 65 45 32 Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Información: Secuencias de largo ~ 600 correspondientes a extremos Distancia de dichas secuencias en el genoma: 2.000 Largo 2000 ATTCGATGGCGATT F Información y Aleatoriedad de los Genes ATCGCGATTGCTAGC R SANTIAGO, 15 de Noviembre de 2006 Ensamble de ADN ACTTAGCGC...CTAGCTATCTATCTACTA...GTCA Si se recolectaron trozos de un tamaño razonable (2,5 K) del ADN del organismo en estudio Y se hacen suficientes repeticiones (por ejemplo 4x): LA PROBABILIDAD DE RECONSTITUIR EL GENOMA ES SUPERIOR AL 90% EN BACTERIAS Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Información Genómica Datos públicos Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Búsqueda de genes: una segunda ley de probabilidad en el Genoma Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 De la secuencia a la anotación de genes y señales AGCTTTTCATTCTGACTGCAACGGGCAATATGTCTCTGTGTGGATTAAAAAAAGAGTGTCT GATAGCAGCTTCTGAACTGGTTACCTGCCGTGAGTAAATTAAAATTTTATTGACTTAGGTC ACTAAATACTTTAACCAATATAGGCATAGCGCACAGACAGATAAAAATTACAGAGTACACA ACATCCATGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAACG GTGCGGGCTGACGCGTACAGGAAACACAGAAAAAAGCCCGCACCTGACAGTGCGGGCTTTT TTTTTCGACCAAAGGTAACGAGGTAACAACCATGCGAGTGTTGAAGTTCGGCGGTACATCA GTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATATTCTGGAAAGCAATGCCAGGCAGG GGCAGGTGGCCACCGTCCTCTCTGCCCCCGCCAAAATCACCAACCACCTGGTGGCGATGAT TGAAAAAACCATTAGCGGCCAGGATGCTTTACCCAATATCAGCGATGCCGAACGTATTTTT GCCGAACTTTTGACGGGACTCGCCGCCGCCCAGCCGGGGTTCCCGCTGGCGCAATTGAAAA CTTTCGTCGATCAGGAATTTGCCCAAATAAAACATGTCCTGCATGGCATTAGTTTGTTGGG GCAGTGCCCGGATAGCATCAACGCTGCGCTGATTTGCCGTGGCGAGAAAATGTCGATCGCC ATTATGGCCGGCGTATTAGAAGCGCGCGGTCACAACGTTACTGTTATCGATCCGGTCGAAA AACTGCTGGCAGTGGGGCATTACCTCGAATCTACCGTCGATATTGCTGAGTCCACCCGCCG TATTGCGGCAAGCCGCATTCCGGCTGATCACATGGTGCTGATGGCAGGTTTCACCGCCGGT AATGAAAAAGGCGAACTGGTGGTGCTTGGACGCAACGGTTCCGAC ADN Información y Aleatoriedad de los Genes Hebra 1 Genes Hebra -1 Ejemplo Bacteria WENELEN: Largo: ~ 3 millones de pares de bases Numero de Genes: ~ 3.200 Candidatos a Genes: ~ 97 % Genes Anotados: ~ 70 % SANTIAGO, 15 de Noviembre de 2006 Búsqueda de Candidatos a Genes: DOS ESTRATEGIAS CLASICAS: Comparar con secuencias de genes conocidos: alinear secuencias. Aprovechar leyes probabilistas de la organización genómica: determinar la frecuencia de aparición de cada par de base en un contexto dado zonas de genes y zonas intergénicas. Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Zonas codificantes y no codificantes en bacterias: ZONA INTERGENICA (< 10%) Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Principio: zonas codificantes y no codificantes tienen distintas estadísticas …TTGTACTGTCGCGATGCTACTGACGTCCGTACTGTCGCGCTACTGATGACTGTC Prob(Xn=A | Xn+1=C, Xn+2=T, Xn+3=G) Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Principio: zonas codificantes y no codificantes tienen distintas estadísticas …TTGTACTGTCGCGATGCTACTGACGTCCGTACTGTCGCGCTACTGATGACTGTC Prob(Xn=A | Xn+1=C, Xn+2=T, Xn+3=G) Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Se observa: Prob(Xn=A | Xn-1=C, Xn-2=T, Xn-3=G) = Prob(Xn=A | Xn+1=C, Xn+2=T, Xn+3=G) ALGORITMOS Y METODOS PARA MARCAR GENES Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 BUSCAR SIMILITUDES: ALINEAR CON SECUENCIAS CONOCIDAS secuencia similar => regiones similares? proteína similar? función similar? ancestros similares? genes ortólogos? Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Comparar Secuencias ATGCCTGA CTGCTGCC ¿qué tan similares son? Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Alineamiento 1 ATGCCTGACTGC-TGCC Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Alineamiento 2 ATGCCTGA-------CTGCTGCC Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Función de Similitud Premio por Similitud: +1 ATGCCTGACTGC-TGCC Penalización por no Similitud: -1 ATGCCTGACTGC-TGCC Penalización por Gap: -2 ATGCCTGACTGC-TGCC Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Función de Similitud (score) Similitud = puntajes ATGCCTGACTGC-TGCC -1 +1 +1 +1 -2 +1 +1 -1 -2 Score = -1 Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Función de Similitud (score) ATGCCTGA-------CTGCTGCC -2 -2 -2 -2 +1 +1 +1 -1 -2 -2 -2 -2 Score = -14 Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Listar todos los casos: ¡¡muy lento !! Score1 Scorei ScoreN Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Estrategia: Programación Dinámica Calcular en base a resultados obtenidos anteriormente. Usar etapa N-1 para resolver etapa N N-1 Información y Aleatoriedad de los Genes N SANTIAGO, 15 de Noviembre de 2006 Programación Dinámica A <- Extender Seq1 en una letra - <- Extender Seq2 en un gap Seq1 - <- Extender Seq1 en un gap Seq2 G <- Extender Seq2 en una letra A G <- Extender Seq1 y Seq2 en una letra Seq1 Seq2 N-1 N-1 Seq1 Seq2 N-1 Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Score para Alineamiento i: índice en Seq1 j: índice en Seq2 Score(i,j) = max [ Score(i-1, j) – penalizacion_gap, Score(i, j-1) – penalizacion_gap, Score(i-1,j-1) + similitud(i,j) ] Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Pequeño Ejemplo Alinear: GATCC AGCA Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Ejemplo GATCC vs AGCA 0 A -2 G -4 C -6 A -8 G A T C C -2 -4 -6 -8 -10 Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Ejemplo GATCC vs AGCA 0 -1 A -2 G -4 C -6 A -8 G A T C C -2 -4 -6 -8 -10 -2 -2 -1 Información y Aleatoriedad de los Genes A G SANTIAGO, 15 de Noviembre de 2006 Ejemplo GATCC vs AGCA A G G A T C C 0 -2 -4 -6 -8 -10 -2 -1 -1 GA-AG -4 C -6 A -8 -1 -2 Información y Aleatoriedad de los Genes -GA AG- SANTIAGO, 15 de Noviembre de 2006 Ejemplo GATCC vs AGCA G A T C C 0 -2 -4 -6 -8 -10 A -2 -1 -1 -3 -5 -7 G -4 -1 -2 -2 -4 -6 C -6 -3 -2 -3 -1 -3 A -8 -5 -2 -3 -3 -2 Información y Aleatoriedad de los Genes GATCC -AGCA SANTIAGO, 15 de Noviembre de 2006 Anotación funcional: candidatos a genes se comparan con genes conocidos Operón Función Asociada Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Origen de replicación: una última observación probabilista Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 SESGO: ejercicio sobre las letras CATGATCGTATG G-C/G+C 1/5 Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 SESGO: ejercicio sobre las letras CATAACCGTATA G-C/G+C -1/2 Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 SESGO: ejercicio sobre las letras AACTAGCGTATA G-C/G+C 0 Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Paseo siguiendo los genes: Regla: • si estoy en un gen hacia la derecha subo un peldaño • si estoy en un gen hacia la izquierda bajo un peldaño Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Otras leyes: (G-C/G+C) vs cambio hebra Escherichia coli Bacteria Biominera Origen de Replicación Sesgo: letras Información y Aleatoriedad de los Genes Paseo: genes SANTIAGO, 15 de Noviembre de 2006 FIN Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Otro tipo de información: expresión de genes y experimentos de “microarrays” Identificación y Clasificación Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006 Análisis de Clasificación Jerárquica Extremos del dendograma Información y Aleatoriedad de los Genes SANTIAGO, 15 de Noviembre de 2006