Download Especial: Bases de datos con integración de fenotipo
Document related concepts
Transcript
Especial: Bases de datos con integración de fenotipo-genotipo Bases de datos con integración de fenotipo-genotipo Autores: Julio Bonis Sanz, Ferrán Sanz Grup de Recerca en Informàtica Biomèdica (GRIB), Institut Municipal d’Investigació Mèdica, Universitat Pompeu Fabra, Barcelona. 1. INTRODUCCIÓN 28 Uno de los puntos clave en la sinergia entre los campos clásicos de la bioinformática y la informática médica es la generación de bases de datos que integren información genotípica y fenotípica. El desarrollo de estas bases de datos no es un asunto baladí, pues de ello depende en gran medida que las promesas de la revolución genómica tengan impacto en la salud humana. Pese a que en un principio pudiera parecer sencillo, son numerosas las dificultades a superar cuando se trata de combinar datos de naturaleza tan heterogénea. Comparando la información genotípica con la fenotípica, la impresión general es que la primera está muy bien estructurada en un marco concreto, mientras que la segunda se presta a mayor ambigüedad e inexactitud. Así, la secuencia concreta de un gen, o la descripción de los alelos presentes en un individuo para un determinado polimorfismo de un nucleótido son datos que a priori se prestan a un tratamiento informático más inmediato en tanto a que se trata de información bien estructurada y concreta. sin embargo, la descripción clínica de una auscultación en un paciente que sufre de bronquitis crónica es un fragmento de información de naturaleza más difusa, de tal modo que la forma de tratarlo informáticamente se presenta menos evidente. Conforme nuestro conocimiento sobre el funcionamiento de la maquinaria genómica y proteómica avanza, la naturaleza de los datos tratados por parte de la bioinformática gana en complejidad y por tanto en ambigüedad. Así mismo, el avance en las técnicas diagnósticas y la tendencia creciente en el campo de la clínica a la protocolización sistemática hacen que las descripciones clínicas sean cada vez más estructuradas. En este marco es donde se están desarrollando las nuevas bases de datos que contienen tanto datos genotípicos como fenotípicos. En este artículo revisamos algunas de las disponibles actualmente. En un primer grupo podría englobarse aquellas bases de datos más generales que no se limitan a una enfermedad o gen concreto. En el caso de las enfermedades que por su escasa prevalencia se han denominado “enfermedades raras” estas bases de datos son muy útiles pues permiten la obtención de datos sobre casos clínicos a escala mundial, facilitando la compresión de las bases moleculares de estas enfermedades. Existen varias iniciativas en el campo de las enfermedades metabólicas raras. También existen bases de datos centradas en los aspectos farmacogenómicos, o en aquellas en las que se observa un patrón de herencia mendeliano. RAMEDIS (http://www-bm.ipk-gatersleben.de/stable/php/ramedis/). Es una base de datos de enfermedades metabólicas raras. La idea es recoger la información de investigadores distribuidos mundialmente para combinar los datos fenotípicos y genotípicos y obtener tamaños suficientes. Por el momento se han recogido 87 enfermedades metabólicas raras, y se dispone de información sobre 665 pacientes. Se puede buscar por síntoma, por valores de laboratorio, por terapia administrada, por tipo de dieta, por tipo de mutación genética o por diagnóstico. Es de especial interés la codificación de los síntomas y otras mediciones clínicas, como el peso y la talla, en una línea temporal. METAGENE (http://www.metagene.de/) Metagene es un repositorio de datos sobre enfermedades metabólicas. La base de datos ofrece acceso a información detallada sobre 373 enfermedades metabólicas, incluyendo información sobre el genotipo causante, datos clínicos y de laboratorio y enlaces a publicaciones recientes. Incluye enlaces dinámicos a OMIM y Expasy. Online Mendelian Inheritance in Man (OMIM). (http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=OMIM) Se trata de un catálogo de genes humanos y enfermedades genéticas con enlaces a referencias bibliográficas, secuencias, mapas genéticos y bases de datos relacionadas. Es mantenido de manera manual. PharmGKB (http://pharmgkb.org/) Es una herramienta desarrollada por la universidad de Stanford. Su objetivo es ayudar a los investigadores a comprender como las variaciones genéticas pueden contribuir a distintas respuestas a fármacos. Especial: Bases de datos con integración de fenotipo-genotipo La base de datos es un repositorio con información clínica y genética sobre pacientes que han participado en estudios de investigación en diversas clínicas pertenecientes a la “NIH Pharmacogenetics Research Network”. Incluye datos genómicos así como datos fenotípicos a nivel celular. Además integra información sobre vías metabólicas a través de la Gen Ontology. Permite búsquedas por enfermedad, por gen, por fármaco y mucho más. Human Genome Variation Database (http://hgvbase.cgb. ki.se/) Aunque aún no incluye información fenotípica al día de hoy, es de destacar que esta gran base de datos ha decidido orientarse hacia la integración fenotipo/genotipo, y en la actualidad se encuentra en un periodo de rediseño en este sentido. Otras bases de datos se centran en un gen o locus determinado. Suelen tratarse de genes cuya disfunción produce la aparición de enfermedades denominadas monogénicas o bien genes que han mostrado tener un papel fundamental en la regulación de procesos celulares críticos (como el p53). PAHDB (http://www.pahdb.mcgill.ca/). Una de las bases de datos centradas en un locus determinado. En este caso en el locus de la enzima fenilalanina hidroxilasa (PAH). La base de datos es alimentada de manera manual. Las mutaciones en alguno de los 13 exones de la PAH producen generalmente hiperfelinalaninemia, en algunos casos con fenilcetonuria. Los datos son recogidos por una red de 82 investigadores distribuidos en más de 30 países. Permite búsquedas por nombre de mutación, población, localización geográfica, región del gen, número de codón, tipo de mutación, tipo de sustitución, fenotipo y muchas más. FBN1(http://www.umd.necker.fr/Site%20Marfan/01AHOME%20PAGE .html). En un esfuerzo para estandarizar la información relativa a las mutaciones en el gen FBN1, un grupo de investigadores genero una base de datos en formato de tabla simple con información sobre las mutaciones en el gen de la fibrilina, tanto publicadas en la literatura como en congresos y comunicaciones. Incluye información a nivel del gen, como el exon y el codón, la variante salvaje y mutante, el tipo de mutación. A nivel de la proteína incluye información sobre el cambio de aminoácido y el dominio afectado y a nivel clínico incluye información sobre la ausencia o presencia de diversas alteraciones esqueléticas, oculares, cardiovasculares o neurológicas. Base de datos sobre p53 (http://p53.curie.fr/). Incluye más de 15000 registros sobre variantes del p53, con información tanto genética como clínica y anatomopatológica. Hipercolesterolemia familiar congénita. (http://www. umd.necker.fr/LDLR/research.html). Esta base de datos, en forma de tabla, incluye información sobre polimorfismos (cebadores, métodos de obtención, localización, frecuencias en poblaciones) y mutaciones (incluyendo tanto fenotipos como los niveles de colesterol total, población e información de la mutación a nivel genético) Deficiencias en tetrahidrobiopterina (http://www.bh4.org/). Esta base de datos incluye información sobre el gen, la región, el polimorfismo y las características clínicas asociadas. PAX6 (http://pax6.hgu.mrc.ac.uk/).La “PAX6 Allelic Variant Database” incluye información sobre genotipos y fenotipos relacionados con este gen. Receptor androgénico (http://srs.ebi.ac.uk/srs5bin/cgi-bin/ wgetz?-page+LibInfo+-id+4Flds1F1PA4+-lib+ANDROGENR). La base de datos sobre mutaciones en el receptor androgénico incluye información tanto de la mutación a nivel molecular como de la enfermedad producida, los antecedentes familiares e incluso datos farmacodinámicos. Otra de las posibles aproximaciones es centrar el diseño de la base de datos en torno a una enfermedad compleja, de herencia poligénica, como el cáncer o la esquizofrenia. Cáncer de Mama (http://condor.bcm.tmc.edu/ermb/bcgd/). La “Breast Cancer Gene Database” incluye información enlazada sobre distintos genes y las características clínicas y anatomopatológicas de casos de cancer de mama. Se basa en datos publicados en la literatura científica y su mantenimiento es manual. SNP500Cancer (http://snp500cancer.nci.nih.gov/home.cfm). El proyecto SNP500Cancer resecuenció 102 muestras de referencia procedentes de 4 grupos étnicos a partir del Coriell Biorepository (Camdem, NJ). El objetivo es la validadción de los SNPs y otras variantes genéticas y su impacto en la epidemiología del cancer. DSV Database for Schizophrenia candidate genes focusing on Variations (http://bioinfo.tsinghua.edu.cn:8080/ vsd/index.php). Esta base de datos contiene 23648 variantes en un total de 186 genes, de los cuales 45 han sido relacionados con diversos aspectos clínicos y farmacogenómicos de la esquizofrenia, y el resto (141) pertenecen a rutas metabólicas potencialmente relacionadas. El presente artículo ha tratado de revisar algunas de las bases de datos disponibles actualmente que integran tanto información genotípica como fenotípica en humanos. El diseño conceptual de estas bases de datos, bien sean centradas en un gen específico, en una patología específica o mediante un abordaje más generalista, tiene un impacto importante en la viabilidad de las mismas, por la complejidad de su mantenimiento y actualización constante. Es necesario el desarrollo de marcos de diseño que permitan la integración de datos moleculares y clínicos, por ejemplo mediante el uso de ontologías comunes o el mapeado de ontologías ya disponibles en los distintos dominios. También será fundamental trabajar en el desarrollo de métodos de alimentación automática de datos, bien a través de la colaboración de grupos de investigación dispersos geográficamente a través de interfaces y modelos de datos unificados, o a través de técnicas de minería de textos que permita extraer la información disponible en la literatura científica. 29