Download Titulo titulo, titulo titulo - Decsai
Document related concepts
Transcript
Bioinformática y la era post-genómica Coral del Val Muñoz Dept. Ciencias de la Computación e Inteligencia Artificial, Universidad de Granada Dept. Molecular Biophysics, German Cancer Research Center Heidelberg, Alemania Dept. Molecular Microbiology HHMI, Washington University, St. Louis USA Volvemos al principio…“El dogma central” ADN Replicacion ARN Trascripción Proteína Traducción Biología Molecular: ProcariotasVsEucariotas • Eucariotas: tienen una membrana nuclear y orgánulos (plantas, animales, hongos,…) •Procariotas: no tienen una membrana Que separe núcleo y orgánulos (bacteria) •NO todos los organismos unicelulares son procariotas (levadura) BIOS Scientific Publishers Ltd, 1999 ¿Cómo y dónde encontramos los genes? ATGCCAGGCCCCCCACCAGCCACGTTGGGGCAGCCCCCACAGCTCCCGGCCTTCGGGCCAAGGTGTCGGGGTGCGTCTCCTGGCCCATC AATACAGATTACATATTTATATCAATCGCGGGCTCTGAGGGCGCCCTCGGAGAGCGGCCCCGCGCCTACGAAACCAAACTGGGAGTGG TCGCGCGGAAACTCTGGCTCGGGATTGGCTGCGGGCGCCCGCCGCGGTGCGGGGGGATTGCTAATCGTATTCAGCATGTTTTGCACAAG AAATGTCAGCCAGAAAGGGCTATCTGCTCCCTTCGCCAAATTATCCCACAACAATGTCATGCTCGGAGAGCCCCGCCGCGAACTCTTTT TTGGTCGACTCGCTCATCAGCTCGGGCAGAGGCGAGGCAGGCGGCGGTGGTGGTGGCGCGGGGGGCGGCGGCGGTGGCGGTTACTACG CCCACGGCGGGGTCTACCTGCCGCCCGCCGCCGACCTGCCATACGGGCTGCAGAGCTGCGGGCTCTTCCCCACGCTGGGCGGCAAGCGC AATGAGGCAGCGTCGCCGGGCAGCGGTGGCGGTGGCGGGGGTCTAGGTCCCGGGGCGCACGGCTACGGGCCCTCGCCCATAGACCTGT GGCTAGACGCGCCCCGGTCTTGCCGGATGGAGCCGCCTGACGGGCCGCCGCCGCCGCCCCAGCAGCAGCCGCCGCCCCCGCCGCAACC ACCCCAGCCAGCGCCGCAGGCCACCTCGTGCTCTTTCGCGCAGAACATCAAAGAAGAGAGCTCCTACTGCCTCTACGACTCGGCGGACA AATGCCCCAAAGTCTCGGCCACCGCCGCCGAACTGGCTCCCTTCCCGCGGGGCCCGCCGCCCGACGGCTGCGCCCTGGGCACCTCCAGC GGGGTGCCAGTGCCTGGCTACTTCCGCCTTTCTCAGGCCTACGGCACCGCCAAGGGCTATGGCAGCGGCGGCGGCGGCGCGCAGCAACT CGGGGCTGGCCCGTTCCCCGCGCAGCCCCCGGGGCGCGGTTTCGATCTCCCGCCCGCGCTAGCCTCCGGCTCGGCCGATGCGGCCCGGA AGGAGCGAGCCCTCGATTCGCCGCCGCCCCCCACGCTGGCTTGCGGCAGCGGCGGGGGCTCGCAGGGCGACGAGGAGGCGCACGCGTC GTCCTCGGCCGCGGAGGAGCTCTCCCCGGCCCCTTCCGAGAGCAGCAAAGCCTCGCCGGAGAAGGATTCCCTGGGTAAGCAGGGCTGC AGAGGGCTGCAGTCAGGCGGGCAGACAGGCAGACACAAGGAGGAGAAGGATCAGAAAACTAGGAGCCCGCGCAGCAGCCGGCCGGC CTTGGCCCAAGCTGCAGGCAGGCTGACCTTGTGAACTTGCTTTTTAATATTTGGGCGTGGGGGCGCAGTAAAATTCATGTCCGGCTTAG CGCCCCACAGCAAGACGTCCTCGGCGCTGGCCTCAGCTCCCCCTGACTAGGGACGAGGACACCAGCGAGCAGGCCCCCTCCTGTGCGCT CTTTCCTGTGGCCGGGAGGACCCAGAGCCCTGGTCCCTGCCCAGCCTGCGCGGCGCGGCCCACGCGGGGGGAGGGGGAGGGAGGGAAA GTAGCTCGCCCGCAGATAGCGCGGATGTTTGTAAGGCATCCAAAATAAGCAGCCGCCAGCGCCAATAAATAAGCCCATTAACCGGCGA AGTTCGAGTGTACGATCCCCCATGCTTTTTTCAAAGTTGCTGAGGGGCGGGAATCTTCGTGGCGGGAAGAAGAAAAGGCAAATCCGGC CTGGAAGCGGGGGGCCCTGAGCTGAGAGCCAGAGAAGGGCCATTTCCCTTCCCCTGGACCTCGGAATCGCCCAGCTATGTATCCTGGCT CCTGGAGAAACTTGAGGGAGGGCCCTTGACCCCCGAATCGGTTTTTCCTGCCTTCCCCATTGGACCAATGATGCCCTTCTTTCTCCCCTT ATCGAGTCTTGGGCAATCAGGGCCCTGGGGTGAGACAGCCAAGCTGCCTGGCCCATCTTCCAAGTAAGCACCCCGCGCTCCTAGCCTGG GGGCTACAGGAAATGCTTGTCTGCCATATGGCAAGAGGCAAAGAAAAGCGTTAAGTTCAAGATGTACAGCCTGCCCTCCCAGGCCTTTC CTTCTGCAAGCATCTACGGCTTAGCGCTAAAACAGGTGTTTGGAAAAGTGGGGGAAATGTAAATTGGAAGGGTCATGTAGATTGAAGG CCCACTCAATTTTTGTCATGACTTATGGAGGAACTGCTTGCTCTCAGCAAGCCAAAAACGGGGGCACGACTCTCTTCTCTGTGACTTGGG ACATCTCTCTTATGGGAGAAACGGAGGCAATTCACCCCCGCGGGCAGCCCGTGTGGCCTCGACTTAATCATCCCCTCTTTATTCTCTTAC ATGCCAGGCAATTCCAAAGGTGAAAACGCAGCCAACTGGCTCACGGCAAAGAGTGGTCGGAAGAAGCGCTGCCCCTACACGAAGCAC CAGACACTGGAGCTGGAGAAGGAGTTTCTGTTCAATATGTACCTTACTCGAGAGCGGCGCCTAGAGATTAGCCGCAGCGTCCACCTCAC GGACAGACAAGTGAAAATCTGGTTTCAGAACCGCAGGATGAAACTGAAGAAAATGAATCGAGAAAACCGGATCCGGGAGCTCACAGC CAACTTTAATTTTTCCTGATGAATCTCCAGGCGAC Gen procariota (bacterias) • Alta densidad de genes y estructura sencilla • Genes cortos con poca información • Genes solapados Ejemplo de promotor procariota • Pribnow box located at –10 (6-7bp) • Promoter sequence located at -35 (6bp) Eukaryotic Gene Organisation Promoter GC CAAT Proximal Promoter proximal TSS TATAPromoter Inr Core core Transcription: core promoter: loosely conserved initiator region (Inr) around TSS ~ - 25: TATA-box proximal promoter: ~ - 75: CAT (CCAAT) ~ - 170: GC-box enhancer/silencer: upstream or downstream to promoter Translation: • 5‘ Kozak sequence: GCCACCATG • 3‘ polyadenylation site: AATAAA Gen eucariota (con núcleo) • Baja densidad de genes y estructura compleja • Corte y unión alternativo (Splicing alternativo) 5'UTR • Pseudo-genes Exon 1 preRNA: Intron 1 Exon 2 3'UTR Exon 3 Intron 2 ATG TAA Splicing / Polyadenylation polyA TAA AAAAAAAAA ATG mRNA: Traducción active protein: CPLTW ..............GFL Splice variant CPLTW ..............PJC Modificación posttransduccional CPLTW ..............LAC Genes Procariotas vs Eucariotas Espliceosoma ¿Cómo reconocer un gen? • Por homología (similaridad en la secuencia) – Requiere una secuencia similar no muy distante • Ab initio – Requiere: Información de su composición – Información de señales Identificación por homología Alineamientos por pares - Globales: Needleman & Wunsch - Locales: Smith & Watterman Alineamientos múltiples: - Clustalw - T-Coffee - Di-Align - DSC Búsquedas en Bases de Datos - BLAST - Phi-BLAST - FASTA - Megablast - Psi-BLAST - BLAT - WU-BLAST Métodos por homología • Problemas: – Genes sin homólogos en las bases de datos no son detectados – Se requiere de homólogos cercanos para deducir la estructura del gen Métodos ab Initio • Integra la detección de señales con las estadísticas de codificación – Éstas se deducen de un conjunto de entrenamiento – Detectar pequeños motivos de ADN (promotores, start/stop codons, splice sites, etc.) • Un sistema de puntuación “scoring” puede ser utilizado para evaluar estas predicciones Detección de señales • El problema de la detección de señales – Las señales de ADN tienen un bajo nivel de información – Son altamente inespecíficas y degeneradas – Dificultad para distinguir un TP de un FP • Como mejorar la detección de señales – Tomar en cuenta el contexto (ej. un sitio aceptor debe encontrarse entre un intrón y un exón) – Combinar las estadísticas de codificación PSWM Gribskov Profiles Modelos Ocutos de Markov Redes Neuronales Métodos ab Initio Probabilidad de la región codificante Secuencia de ADN Búsqueda de señales y regiones codificantes Modelos Ocutos de Markov PSWM Gribskov Profiles Redes Neuronales Computational annotation tools • • • • Gene finding Repeat finding EST/cDNA alignment Homology searching – BLAST, FASTA, HMM-based methods, etc. • Protein family searching – PFAM, Prosite, etc. Which analyses need to be run? • Similarity searches – BLAST (Altschul et al., 1990) • BLASTN (nucleotide databases) • BLASTX (amino acid databases) • TBLASTX (amino acid databases, six-frame translation) – sim4 (Miller et al., 1998) • Sequence alignment program for finding near-perfect matches between nucleotide sequences containing introns • Gene predictors – Genefinder (Green, unpublished) – GenScan (Burge and Karlin, 1997) – Genie (Reese et al., 1997) • Other analyses – tRNAscanSE (Lowe and Eddy, 1996) Which analyses need to be run and how? • mRNAs – ORFFinder(Frise, unpublished) • Protein translations – HMMPFAM 2.1 (Eddy 1998) against PFAM (v 2.1.1 Sonnhammer et al. 1997, Bateman et al. 1999) – Ppsearch (Fuchs 1994) against ProSite (release 15.0) filtered with EMOTIF ( Nevill-Manning et al. 1998) – Psort II (Horton and Nakai 1997) – ClustalW (Higgins et al. 1996) Raw sequence: Adh.fa GAATTCCCGGTTCAATCTCGTAGAACTTGCCCTTGGTGGACAGTGGGACGTACAACACCTGCCGGTTTTCATTAAGCAGCTGGGCATAC TTCTTTTCCTTCTCCCTTCCCATGTACCCACTGCCATGGGACCTGGTCGCATTGCCGTTGCCATGTTGCGACATATTGACCTGATCCTG TTTGCCATCCTCGAAGACGGCCAACAGACGGAATACCTGCCCGCCCCTTGCCGTCGTTTTCACGTACTGTGGTCGTCCCTTGTTTATGG GCAGGCATCCCTCGTGCGTTGGACTGCTCGTACTGTTGGGCGAGGATTCCGTAAACGCCGGCATGTTGTCCACTGAGACAAACTTGTAA ACCCGTTCCCGAACCAGCTGTATCAGAGATCCGTATTGTGTGGCCGTGGGGAGACCCTTCTCGCTTAGCATCGAAAAGTAACCTGCGGG AATTCCACGGAAATGTCAGGAGATAGGAGAAGAAAACAGAACAACAGCAAATACTGAGCCCAAATGAGCGATAGATAGATAGATCGTGC GGCGATCTCGTACTGGTAACTGGTAATTTGATCGATTCAAACGATTCTGGGTCTCCCCGGTTTTCTGGTTCTGGCTTACGATCGGGTTT TGGGCTTTGGTTGTGGCCTCCAGTTCTCTGGCTCGTTGCCTGTGCCAATTCAAGTGCGCATCCGGCCGTGTGTGTGGGCGCAATTATGT TTATTTACTGGTAACTGGTAATTTGATCGATTCAAACGATTCTGGGTCTCCCCGGTTTTCTGTCCCGGTTCAATCTCGTAGAACTTGCC CTTGGTGGACAGTGGGACGTACAACACCTGCCGGTTTTCATTAAGCAGCTGGGCATACTTCTTTTCCTTCTCCCTTCCCATGTACCCAC TGCCATGGGACCTGGTCGCATTGCCGTTGCCATGTTGCGACATATTGACCTGATCCTGTTTGCCATCCTCGAAGACGGCCAACAGACGG AATACCTGCCCGCCCCTTGCCGTCGTTTTCACGTACTGTGGTCGTCCCTTGTTAAAGTAACCTGCGGGAATTCCACGGAAATGTCAGGA GATAGGAGAAGAAAACAGAACAACAGCAAATACTGAGCCCAAATGAGCGATAGATAGATAGATCGTGCGGCGATCTCGTACTGGTAACT GGTAATTTGATCGATTCAAACGATTCTGGGTCTCCCCGGTTTTCTGGTTCTGGCTTACGATCGGGTTTTGGGCTTTGGTTGTGGCCTCC AGTTCTCTGGCTCGTTGCCTGTGCCAATTCAAGTGCGCATCCGGCCGTGTGTGTGGGCGCAATTATGTTTATTTACTGGTAACTGGTAA TTTGATCGATTCAAACGATTCTGGGTCTCCCCGGTTTTCTGTCCCGGTTCAATCTCGTAGAACTTGCCCTTGGTGGACAGTGGGACGTA CAACACCTGCCGGTTTTCATTAAGCAGCTGGGCATACTTCTTTTCCTTCTCCCTTCCCATGTACCCACTGCCATGGGACCTGGTCGCAT TGCCGTTGCCATGTTGCGACATATTGACCTGATCCTGTTTGCCATCCTCGAAGACGGCCAACAGACGGAATACCTGCCCGCCCCTTGCC GTCGTTTTCACGTACTGTGGTCGTCCCTTGTTTATGGGCAGGCATCCCTCGTGCGTTGGACTGCTCGTACTGTTGGGCGAGGATTCCGT AAACGCCGGCATGTTGTCCACTGAGACAAACTTGTAAACCCGTTCCCGAACCAGCTGTATCAGAGATCCGTATTGTGTGGCCGTGGGGA GACCCTTCTCGCTTAGCATCGAAAAGCTTACGATCGGGTTTTGGGCTTTGGTTGTGGCCTCCAGTTCTCTGGCTCGTTGCCTGTGCCAA TTCAAGTGCGCATCCGGCCGTGTGTGTGGGCGCAATTATGTTTATTTACTGGTAACTGGTAATTTGATCGATTCAAACGATTCTGGGTC TCCCCGGTTTTCTGTCCCGGTTCAATCTCGTAGAACTTGCCCTTGGTGGACAGTGGGACGTACAACACCTGCCGGTTTTCATTAAGCAG CTGGGCATACTTCTTTTCCTTCTCCCTTCCCATGTACCCACTGCCATGGGACCTGGTCGCATTGCCGTTGCCATGTTGCGACATATTGA CCTGATCCTGTTTGACTGGTAACTGGTAATTTGATCGATTCAAACGATTCTGGGTCTCCCCGGTTTTCTGTCCCGGTTCAATCTCGTAG AACTTGCCCTTGGTGGACAGTGGGACGTACAACACCTGCCGGTTTTCATTAAGCAGCTGGGCATACTTCTTTTCCTTCTCCCTTCCCAT GTACCCACTGCCATGGGACCTGGTCGCATTGCCGTTGCCATGTTGCGACATATTGACCTGATCCTGTTTGCCATCCTCGAAGACGGCCA ACAGACGGAATACCTGCCCGCCCCTTGCCGTCGTTTTCACGTACTGTGGTCGTCCCTTGTTTATGGGCAGGCATCCCTCGTGCGTTGGA CTGCTCGTACTGTTGGGCGAGGATTCCGTAAACGCCGGCATGTTGTCCACTGAGACAAACTTGTAAACCCGTTCCCGAACCAGCTGTAT CAGAGATCCGTATTGTGTGGCCGTGGGGAGACCCTTCTCGCTTAGCATCGAAAAGTAACCTGCGGGAATTCCACGGAAATGTCAGGAGA TAGGAGAAGAAAACAGAACAACAGCAAATACTGTGCGGCGATCTCGTACTGGACGGAAATGTCAGGAGATAGGAGAAGAAAA Secuencias reguladoras • Promotores – Elementos del nucleo promotor • Caja TATA • Initiador (Inr) • Elementos posteriores al promotor (DPE) – Factores de transcripción (“TF”) • • • • caja CAAT caja GC sitios SP-1 caja GAGA – Sitios activadores de la transcripción Espliceosoma Gracias por su atención… http://www.m4m.es