Download 13 Genomas y Genómica
Document related concepts
Transcript
13 Genomas y Genómica Preguntas clave - ¿Cómo se elaboran los mapas de las secuencias de genomas? - ¿Cómo se descifra la información de los genomas? - ¿Qué puede revelar la genómica comparativa sobre la estructura y evolución del genoma? - ¿Cómo afecta al análisis genético el que se pueda disponer de la secuencia genómica? Esquema 13.1 La revolución genómica 13.2 Creando el mapa de la secuencia de un genoma 13.3 Bioinformática: dando significado a la secuencia genómica 13.4 La estructura del genoma humano 13.5 Genómica comparativa 13.6 Genómica funcional y genética inversa En 1997, un grupo de investigación de la Universidad de Munich encabezado por Svante Päävo publicó la secuenciación de una región de 379 pb de DNA mitocondrial obtenida del fémur del fósil original de Neandertal descubierto en 1856 (Figura 13-1). La obtención de esta secuencia fue un logro técnico asombroso. Las moléculas de DNA se rompen y acumulan modificaciones químicas con el paso del tiempo, por lo que sólo una serie de secuencias muy cortas pudieron ser descifradas y yuxtapuestas. La cantidad de DNA mitocondrial presente en la muestra era muy pequeña y la cantidad de DNA nuclear era despreciable. Además, los científicos tuvieron que tener mucho cuidado para asegurarse que la secuencia que obtuvieron no era una contaminación de la de humanos modernos o de alguna otra fuente. Más apasionante aún fue el hecho de que la secuencia del fragmento de DNA mitocondrial indicó que los Neandertales se extinguieron sin contribuir al DNA mitocondrial de los humanos modernos. Menos de 10 años después, el grupo de Päävo, ahora en el Instituto Max Planck de Antropología Evolutiva en Leipzig, anunció que habían obtenido más de 1 millón de pares de bases de la secuencia de DNA nuclear de un espécimen de Neandertal. (pág. 453) (pág. 454) Además, pretendían obtener secuencias genómicas completas, no sólo de nuestro primo recientemente extinguido, sino también de diez Neandertales individuales. Estos avances en la genética del Neandertal ilustran los tremendos avances en la tecnología y las ambiciones de la genómica: el estudio de los genomas en su totalidad. Lo que empezó como un goteo es ahora un torrente de datos. En 1995 se secuenció el primer genoma de un organismo vivo de vida libre: el genoma de 1.8 Mb (1.8 megabases) de la bacteria Hemophilus influenzae. En 1996 vino el genoma de 12 Mb de Saccharomyces cerevisiae; en 1998 el genoma de 100 Mb de C. elegans; en el 2000, el genoma de 180 Mb de Drosophila melanogaster; en el 2001, el primer borrador de las 3000 Mb del genoma humano; y en el 2005, el primer borrador de nuestro pariente viviente más cercano: el chimpancé. Estas especies son sólo una pequeña muestra; ahora tenemos las secuencias de más de 300 genomas bacterianos, 50 genomas de hongos, muchas plantas (Arabidopsis y el arroz, por ejemplo) y un listado de mamíferos que crece rápidamente (la rata, el perro, la zarigüeya) y otros animales. La genómica ha revolucionado los métodos de análisis genético y ha abierto grandes líneas de investigación que eran inconcebibles pocos años atrás. La mayoría de los análisis genéticos que se han considerado hasta aquí emplean una aproximación directa para analizar los procesos genéticos y biológicos. Es decir, el análisis empieza primero buscando sistemáticamente mutantes que afectan algún fenotipo observable, y la caracterización de estos mutantes eventualmente conducen hasta el gen y la función del DNA, el RNA y las secuencias proteicas. Por el contrario, el hecho de tener la secuencia de DNA completa del genoma de un organismo permite a los genetistas trabajar en ambas direcciones: directa, del fenotipo al gen, e inversa, del gen al fenotipo. Sin excepción, las secuencias genómicas revelan muchos genes que no se detectaron mediante análisis mutacionales clásicos. Mediante la genética inversa, los genetistas pueden ahora estudiar sistemáticamente las funciones de estos genes que no habían sido identificados previamente. Además, la falta de estudios genéticos clásicos previos ha dejado de ser un impedimento en la investigación genética de los organismos. Las fronteras del análisis experimental están creciendo mucho más allá de los límites del modesto número de organismos modelo que han sido explorados ampliamente. Los análisis de genomas completos permean ahora en todos los rincones de la investigación biológica. En genética humana, la genómica está proporcionando nuevas formas de localizar genes que contribuyen a muchas de las enfermedades genéticas determinadas por combinaciones complejas de factores genéticos. En los sistemas modelo, el disponer de las secuencias genómicas de especies ampliamente estudiadas y sus parientes ha acelerado enormemente la identificación de genes, el análisis de la función de genes y la caracterización de elementos no codificadores en el genoma. Las nuevas tecnologías para el análisis global en un genoma del papel fisiológico de todos los productos génicos está conduciendo al desarrollo de un nuevo campo: la biología de sistemas. Desde una perspectiva evolutiva, la genómica proporciona una visión detallada de cómo los genomas han divergido y se han adaptado a lo largo del tiempo geológico. En la investigación ecológica, los biólogos están desarrollando nuevos métodos para estudiar la distribución de los organismos a partir de la detección de la presencia y la concentración de distintos genomas en muestras tomadas de la naturaleza. Y en la medicina humana ya se vislumbra el día en el que la secuencia genómica de una persona formará parte rutinaria de su historial médico. La secuencia de DNA del genoma es el punto de partida para un nuevo conjunto de análisis enfocados a entender la estructura, función y evolución del genoma y de sus componentes. En este capítulo nos centraremos en tres aspectos dominantes de los análisis genómicos: - la Bioinformática, que analiza el contenido informativo de genomas completos. Esta información incluye los números y tipos de genes y de productos génicos, así como los sitios de unión al DNA y al RNA que permiten a los productos funcionales ser producidos en el tiempo y lugar precisos. (pág. 454) (pág. 455) - la Genómica comparativa, que estudia los genomas tanto de especies estrechamente relacionadas como de especies lejanas para adquirir nuevo conocimiento sobre la evolución, y se utilizan las secuencias conservadas como guía para el análisis de la función génica. - la Genómica funcional, que usa una variedad cada vez mayor de métodos, incluyendo la genética inversa, para la comprensión de las funciones génicas y la definición de redes de genes y proteínas que interactúan en procesos biológicos. 13.1 La revolución genómica Después del desarrollo de la tecnología del DNA recombinante en la década de los 70, los laboratorios de investigación solían clonar y secuenciar un único gen, y sólo después de que se hubiera encontrado algo interesante sobre el gen mediante un análisis mutacional clásico. Los pasos que se requerían para ir desde la obtención de un mapa genético clásico de un locus hasta el aislamiento del DNA que codifica el gen (clonar) y determinar su secuencia, eran con frecuencia numerosos y largos. En la década de los 80, algunos científicos se dieron cuenta de que un equipo grande de investigadores podría, haciendo un esfuerzo coordinado, clonar y secuenciar el genoma entero de un organismo determinado. Tales proyectos genoma permitirían que tanto los clones como la secuencia fueran recursos disponibles públicamente. Un atractivo de este recurso es que cuando los investigadores se interesan en un gen de una especie cuyo genoma ha sido secuenciado, sólo necesitan encontrar dónde está localizado el gen en el mapa del genoma para aproximarse a su secuencia y potencialmente a su función. De este modo, un gen podría ser caracterizado mucho más rápido que clonándolo y secuenciándolo desde cero, un proyecto que podría tardar varios años en completarse. Esta aproximación más rápida es ahora una realidad para todos los organismos modelo. De forma similar, en genética humana, la secuencia genómica puede ayudar a identificar genes causantes de enfermedad. Desde una perspectiva más amplia, los proyectos genoma tienen el atractivo de arrojar luz sobre los principios de construcción de los genomas. Obtener una secuencia genómica es como haber desenterrado una antigua tablilla en un lenguaje no descifrable. El genoma humano, por ejemplo, está compuesto de 24 cadenas de pares de bases, representando a los cromosomas X e Y y los 22 autosomas. En total, el genoma humano contiene 3 mil millones de pares de bases de DNA. Aunque nos podamos convencer a nosotros mismos de que entendemos un determinado gen de interés, el mayor reto de la genómica hoy en día es el alfabetismo genómico: ¿cómo leemos este gran almacén de información codificada en la secuencia de los genomas? Las técnicas básicas necesarias para secuenciar genomas enteros estaban ya disponibles en la década de los 80, incluyendo los plásmidos bacterianos y los cromosomas de bacteriófagos (usados como vehículos para clonar DNA), la reacción en cadena de la polimerasa (PCR, del inglés “polymerase chain reaction”) para amplificar genes y máquinas de secuenciación de DNA. Pero la escala necesaria para secuenciar genomas complejos estaba, desde la perspectiva de un proyecto de ingeniería, muy lejos de la capacidad de la comunidad científica del momento. La genómica de finales de los 80 y los 90 evolucionó a partir de los grandes centros de investigación que podían integrar estas tecnologías elementales en una línea de producción a nivel industrial. Estos centros desarrollaron la robótica y la automatización para llevar a cabo los varios miles de pasos de clonación y millones de reacciones de secuenciación necesarios para ensamblar la secuencia de un organismo complejo. Con estos centros a punto, los años de finales de los 90 y a partir de 2000 han sido la época de oro de la secuenciación de genomas. La velocidad de secuenciación de genomas está en continua aceleración. Nuevas tecnologías que combinan microfluidos y fibra óptica pueden obtener más de 25 millones de bases de secuencia en un día de trabajo con un solo aparato. La genómica, con la ayuda de una tecnología de la información creciendo de modo explosivo, ha impulsado nuevas formas de experimentación en los investigadores, así como el análisis computacional del genoma en su conjunto, en lugar de analizar un gen cada vez. También ha demostrado el valor de reunir conjuntos de datos a gran escala con anterioridad a su uso, por su gran potencial para atacar problemas científicos específicos. La genómica también ha (pág. 455) (pág. 456) cambiado la sociología de la investigación biológica, demostrando el valor de la colaboración en grandes redes científicas como un complemento de los pequeños laboratorios científicos independientes (que todavía florecen). Estos efectos incrementarán conforme aumente la información, la tecnología y la comprensión de la genética. En la última sección de este capítulo exploraremos algunas maneras en las que la genómica impulsa la investigación básica y aplicada en la genética actual. En los capítulos siguientes veremos cómo la genómica está catalizando avances en el conocimiento de las dinámicas de la mutación, la recombinación y la evolución. Mensaje: Caracterizar genomas enteros es importante para una comprensión fundamental de los principios que operan en los organismos vivos y para el descubrimiento de nuevos genes, como los que están implicados en enfermedades genéticas humanas. 13.2 Elaboración del mapa de la secuencia de un genoma Cuando se encuentra un nuevo territorio, una de las primeras actividades es elaborar un mapa. Esta práctica es cierta para exploradores, geógrafos, oceanógrafos y astrónomos, y es igualmente cierta para genetistas. Los genetistas usan muchos tipos de mapas para explorar el terreno de un genoma. Algunos ejemplos son los mapas de ligamiento basados en los patrones de herencia de los alelos de los genes, y mapas citogenéticos basados en la localización de las características visibles en el microscopio, como puntos de rotura de reordenaciones. El mapa de mayor resolución es la secuencia completa de DNA del genoma; es decir, la secuencia completa de nucleótidos A, T, C y G de cada doble hélice en el genoma. Puesto que hacer un mapa de la secuencia completa del genoma es una empresa de gran envergadura, de un tipo no visto antes en biología, deben usarse nuevas estrategias basadas en la automatización. Conversión de lecturas de secuencias en mapas de secuencia Probablemente habrá visto un juego de magia en el que el mago corta una página de un periódico a pedazos, los mezcla en su sombrero, dice unas palabras mágicas y voilà! una página intacta del periódico reaparece. Básicamente, así es como se producen los mapas de secuencia genómicos. La aproximación es la siguiente: (1) romper un genoma en miles o millones de segmentos más o menos al azar, (2) leer la secuencia de cada pequeño segmento, (3) computacionalmente buscar el solapamiento entre los pequeños segmentos donde sus secuencias son idénticas y (4) continuar solapando en piezas aún mayores hasta que todos los segmentos pequeños se hayan unido (Figura 13-2). En este punto, se ha ensamblado un mapa de la secuencia de un genoma. ¿Por qué este proceso debe ser automatizado? Para entenderlo, consideremos el genoma humano, que contiene aproximadamente 3 x 109 pb de DNA, ó 3 mil millones de pares de bases (3 giga-pares de bases = 3 Gpb). Supongamos que podemos purificar el DNA intacto de cada uno de los 24 cromosomas humanos (el X, el Y y los 22 autosomas), poner separadamente cada una de estas muestras de DNA en una máquina de secuenciación y leer sus secuencias directamente desde un telómero al otro. Crear un mapa de la secuencia completa sería tan fácil como leer un libro de 24 capítulos, aunque un libro muy, muy largo con 3 mil millones de caracteres (aproximadamente el tamaño de 3000 novelas). Desafortunadamente, tal máquina de secuenciación no existe. Por el contrario, la secuenciación automática basada en fluorescencia del tipo que se discutió en el Capítulo 20 es ahora la tecnología más moderna de secuenciación de DNA. Reacciones de secuenciación individuales (llamadas lecturas de secuenciación) proporcionan generalmente cadenas de letras de aproximadamente 600 bases de largo. Estas longitudes son minúsculas comparadas con el DNA de un solo cromosoma (aproximadamente 3 x 108 pb de DNA) y sólo aproximadamente el 0.00002% del genoma humano entero. Por lo tanto, un reto principal al que se enfrenta un proyecto genoma es el ensamblado de secuencias, es decir, la construcción, (pág. 456) (pág. 457) a partir de las lecturas individuales, de una secuencia consenso, una secuencia por la cual hay consenso (o concordancia) y que es la auténtica representación de la secuencia por cada una de las moléculas de DNA en este genoma. Veamos ahora estos números de otro modo para entender la magnitud del problema. Como sucede con cualquier observación experimental, las máquinas de secuenciación automática no siempre dan lecturas de secuencias perfectamente correctas. Además, la tasa de error no es constante; depende de factores tales como los colorantes que se unen a las moléculas secuenciadas, la pureza y la homogeneidad de la muestra inicial de DNA y la secuencia específica de pares de bases en la muestra de DNA. Por lo tanto, para asegurar la exactitud, los proyectos genoma obtienen típicamente múltiples (hasta 10) lecturas de secuencia independientes para cada par de bases en el genoma. Una cobertura de diez veces (indicada como 10) asegura que los errores al azar en las lecturas no causan una reconstrucción falsa de la secuencia consenso. Dada una longitud promedio de lectura de secuencia de unas 600 bases de DNA y un genoma humano de 3 mil millones de pares de bases, una cobertura promedio de 10 veces por cada par de bases requiere 50 millones de lecturas exitosas independientes. No obstante, no todas las lecturas son exitosas y por lo tanto el número de lecturas que deben intentarse es aún mayor. Así, la (pág. 457) (pág. 458) cantidad de información y material a ser rastreados es enorme. Para intentar minimizar tanto el error humano como la necesidad de personal que lleve a cabo tareas muy repetitivas, los laboratorios de los proyectos genoma han implementado la automatización, el seguimiento informático mediante el uso de códigos de barras y sistemas de análisis informático siempre que sea práctico. Por estas razones, la preparación de clones, el aislamiento del DNA, la electroforesis y los protocolos de secuenciación se han adaptado a la automatización. Por ejemplo, uno de los adelantos recientes ha sido el desarrollo de máquinas de secuenciación en cadena que trabajan las veinticuatro horas del día sin ningún tipo de intervención humana. Los grandes genomas de mamíferos han sido secuenciados en centros genómicos que tienen muchas máquinas de secuenciación trabajando en paralelo y que son capaces de producir hasta 150 000 lecturas en un solo día. Un solo centro de secuenciación tiene la capacidad de ensamblar la secuencia de un genoma de mamífero de 3-Gpb en 1 ó 2 años. La Figura 13-3 muestra una cadena de montaje de secuenciación. Nuevos desarrollos están acelerando aún más la velocidad de secuenciación, a la vez que disminuyendo los costes. ¿Cuáles son los objetivos de secuenciar un genoma? En primer lugar, elaborar una secuencia consenso que sea una representación verdadera y fiel del genoma a partir de un organismo individual o de líneas estándares a partir de las cuales se ha obtenido el DNA. Esta secuencia servirá luego de secuencia de referencia para esta especie. Ahora se sabe que hay muchas diferencias en la secuencia del DNA entre distintos individuos dentro de una misma especie e incluso dentro de un único individuo diploide. Por eso, ninguna secuencia genómica representa verdaderamente el genoma de toda la especie. Sin embargo, la secuencia del genoma sirve como estándar o referencia con la que comparar otras secuencias y se puede analizar para determinar la información codificada en el DNA, incluyendo el inventario de los RNAs y polipéptidos codificados. Como en los manuscritos escritos, las secuencias genómicas pueden variar desde la calidad de borrador (el esbozo general está ahí, pero hay errores tipográficos, errores gramaticales, (pág. 458) (pág. 459) huecos, secciones que necesitan ser reordenadas, etc.), a calidad finalizada (una tasa muy baja de errores tipográficos, faltan algunas secciones pero se ha hecho todo lo que es actualmente posible para rellenar estas secciones), a verdaderamente completa (no hay errores tipográficos, cada par de bases es absolutamente correcto de telómero a telómero). En las siguientes secciones se considerarán los métodos generales para elaborar ensamblajes borrador y finalizados de secuencias genómicas, así como algunas de las características de los genomas que desafían a los proyectos de secuenciación de genomas. Establecimiento de una genoteca de clones Hay dos estrategias generales para ensamblar la secuencia de un genoma. Una se llama secuenciación aleatoria de genomas completos (WGS, del inglés “whole-genome shotgun”) y la otra se llama secuenciación de clones ordenados. Ambas estrategias se basan en la determinación de la secuencia de muchos segmentos de DNA genómico que se han generado rompiendo los largos cromosomas de DNA en muchos segmentos cortos. Cada aproximación empieza con la elaboración de genotecas (o bibliotecas genómicas), que son colecciones de estos segmentos cortos de DNA que representan a todo el genoma. Los segmentos cortos de DNA de una de estas genotecas se insertan en uno de varios tipos de cromosomas accesorios (elementos no esenciales como los plásmidos, los virus bacterianos modificados o los cromosomas artificiales) y se propagan en microbios, normalmente bacterias o levadura. Estos cromosomas accesorios que llevan insertos de DNA se llaman vectores. Para generar una genoteca primero se debe trocear el DNA genómico purificado usando enzimas de restricción que cortan el DNA en secuencias específicas. Algunas enzimas cortan el DNA en muchos sitios, mientras que otras lo cortan en pocos sitios; así se puede controlar si el DNA se corta, en promedio, en trozos más o menos largos. Los fragmentos resultantes contienen en ambos extremos fragmentos cortos de DNA de cadena sencilla. Estos fragmentos se unen luego al DNA del cromosoma accesorio, que también se habrá cortado con una enzima de restricción y que tiene extremos que son complementarios a los de los fragmentos genómicos. Para que todo el genoma esté representado, se deben generar miles o millones de tales moléculas recombinantes a partir de múltiples copias del DNA genómico con cortes únicos al azar. Después se propaga el conjunto de moléculas de DNA recombinante resultante, típicamente mediante su introducción en células bacterianas, de forma que cada célula contiene una molécula recombinante. Luego cada molécula recombinante se replica dentro del ciclo normal de crecimiento y división de su hospedador, y como resultado se producen muchas copias idénticas del fragmento insertado para su uso en el análisis del fragmento de la secuencia de DNA. Debido a que cada molécula recombinante se amplifica a partir de una célula individual, cada célula es un clon distinto. (Podrá encontrar más detalles sobre la clonación del DNA en el Capítulo 20). La mayoría de las estrategias de secuenciación de genomas están basadas en clones. Con el uso de los clones de una genoteca se puede obtener la secuencia del DNA genómico que se ha insertado junto al DNA del vector. Esta información se usa luego de distintas formas para ensamblar la secuencia genómica, dependiendo de si se aplica una secuenciación aleatoria o una aproximación ordenada. Secuenciación de un genoma simple usando la aproximación de la secuenciación aleatoria de genomas completos La lógica detrás de la secuenciación aleatoria de genomas completos es la siguiente: primero secuenciar, luego cartografiar. En primer lugar, se obtienen las lecturas de secuencias a partir de clones seleccionados al azar de una genoteca que no contiene información sobre la localización de estos clones en el genoma. Esta genoteca se llama genoteca genómica. Luego, estas lecturas de secuencia se ensamblan en una secuencia consenso que cubre todo el genoma mediante la unión de secuencias homólogas compartidas por lecturas de clones que se solapan. El DNA bacteriano es esencialmente DNA de copia única, sin secuencias repetidas. Así, cualquier lectura de secuencia de DNA de un genoma bacteriano viene de un único lugar en este genoma. Además, un genoma bacteriano típico es de sólo unos (pág. 459) (pág. 460) pocos pares de megabases de DNA en tamaño. Gracias a estas propiedades, la secuenciación aleatoria de genomas completos se puede aplicar fácilmente a los genomas bacterianos. ¿Cómo se obtienen las secuencias? La reacción de secuenciación empieza a partir de un cebador de secuencia conocida. Debido a que la secuencia del inserto clonado no se conoce (y de hecho es la finalidad del experimento), los cebadores se diseñan a partir de la secuencia de DNA del vector adyacente y se usan para guiar la reacción de secuenciación del fragmento insertado. Por lo tanto, estos cebadores permiten secuenciar cortas regiones a uno o a ambos extremos de las inserciones genómicas (Figura 13-4). Después de la secuenciación, el resultado es una gran colección de secuencias cortas al azar, algunas de ellas solapadas. Las secuencias de las lecturas que se solapan son ensambladas en unidades llamadas contigs (secuencias que son contiguas o que se tocan), de modo que cada contig cubre una región larga del genoma bacteriano. Con el uso de la aproximación de la secuenciación aleatoria del genoma completo, en julio de 2006 se habían secuenciado completamente 320 especies bacterianas y varios centenares de proyectos de secuenciación de otras bacterias estaban en curso. Uso de la aproximación de la secuenciación aleatoria de genomas completos para crear una secuencia borrador de un genoma complejo Una gran dificultad en el ensamblaje de una secuencia consenso de un genoma eucariótico es la existencia de numerosas clases de secuencias repetidas, algunas organizadas en tándem y otras dispersas. ¿Por qué son un problema para la secuenciación genómica? En pocas palabras, porque una lectura de la secuencia de DNA repetitivo encaja en muchos lugares del borrador del genoma. No es infrecuente que la secuencia repetitiva en tándem sea en total más larga que la longitud máxima de una lectura de secuencia, de modo que no hay forma de llenar el hueco entre las secuencias únicas adyacentes. Los elementos repetitivos dispersos pueden causar alineamientos erróneos y la asignación errónea de lecturas a diferentes cromosomas o a diferentes partes del mismo cromosoma. Mensaje: el paisaje de los cromosomas eucarióticos incluye una variedad de segmentos de DNA repetitivos. Estos segmentos son difíciles de alinear a partir de las lecturas de secuencias. La secuenciación aleatoria de genomas completos es particularmente conveniente para elaborar secuencias de calidad borrador de genomas complejos que contienen muchas secuencias repetitivas. Por ejemplo, consideremos el genoma de la mosca de la fruta D. melanogaster, que fue inicialmente secuenciado usando este método. El proyecto empezó con la secuenciación de genotecas de clones genómicos de distintos tamaños (2 kb, 10 kb ó 150 kb). Las lecturas de secuencias se obtuvieron a partir de ambos extremos de los insertos de los clones genómicos, y estas se alinearon mediante una lógica idéntica a la usada para la secuenciación aleatoria de genomas completos de procariotas. Según esta lógica se identificaron los solapamientos de secuencias homólogas y se ordenaron los clones, elaborando contigs: secuencias consenso para estos fragmentos de copia única del genoma. Aún así, a diferencia de la situación en bacterias donde sólo hay DNA de copia única, los contigs avanzaban hasta encontrarse con un segmento de DNA repetitivo que impidió su ensamblaje preciso en un genoma completo. Estos contigs tenían un tamaño promedio de aproximadamente 150 kb, y el reto fue conseguir colocar los miles de estos contigs en su correcto orden y orientación. La solución a este problema fue utilizar los pares de lecturas de la secuencia de los extremos opuestos de los insertos genómicos del mismo clon: estas lecturas se llaman lecturas de extremos emparejados. La idea era encontrar lecturas de extremos emparejados que abarcaran los (pág. 460) (pág. 461) huecos entre dos contigs (Figure 13-5). En otras palabras, si un extremo de un inserto era parte de un contig y el otro extremo era parte del segundo contig, luego este inserto debía abarcar el hueco entre los dos contigs, y los dos contigs debían estar necesariamente uno junto al otro. De hecho, ya que el tamaño de cada clon era conocido (es decir, venía de una genoteca que contenía insertos genómicos de tamaño uniforme, ya fuere librerías de 2 kb, de 100 kb ó de 150 kb), la distancia entre las lecturas de los extremos era conocida. Además, el alineamiento de las secuencias de dos contigs usando lecturas de extremos emparejados automáticamente determina la orientación relativa de los dos contigs. De este modo se pudieron unir los contigs de copia única, aunque con huecos en donde los elementos repetitivos residían. Estas colecciones de contigs unidos que contienen huecos se llaman andamios (a veces también referidos como supercontigs). Debido a que la mayoría de las repeticiones en Drosophila son largas (3-8 kb) y ampliamente espaciadas (una repetición cada aproximadamente 150 kb), esta técnica fue extremadamente efectiva para elaborar una secuencia borrador correctamente ensamblada del DNA de copia única. La Figura 13-6 muestra un resumen de la lógica de esta aproximación. Uso de la aproximación de clones ordenados para secuenciar un genoma complejo La lógica de la secuenciación de clones ordenados es opuesta a la de la aproximación de la secuenciación aleatoria de genomas completos: primero cartografiar, luego secuenciar. Los insertos individuales clonados de una genoteca se exploran para buscar similitudes en, por ejemplo, los sitios de reconocimiento de enzimas de restricción, indicando que dos insertos se solapan para formar un contig de clones (Figura 13-7). El solapamiento nos indica que estos insertos son contiguos en el genoma. Este procedimiento resulta en un conjunto de clones ordenados y orientados que conjuntamente abarcan todo el genoma. Tal conjunto de clones ordenados y orientados que cubren el genoma completo se llama el mapa físico del genoma. Aquí, la palabra “físico” se utiliza en el sentido de que el mapa está compuesto de objetos reales (segmentos de DNA) que se pueden aislar y estudiar en un tubo de ensayo. En las primeras fases de un proyecto genoma, son numerosos los contigs de clones que son segmentos separados del genoma, pero a medida que se van caracterizando más clones, estos permiten el solapamiento de dos contigs de clones previamente separados y (pág. 461) (pág. 462) su unión permite la fusión de los dos contigs de clones en un sólo contig más largo. Este proceso de fusión de contigs continúa hasta que finalmente el número de contigs de clones es igual al número de cromosomas. En este punto, si cada contig de clones se extiende hasta los telómeros de su cromosoma, se dice que se ha completado el mapa físico. Mensaje: La cartografía física se desarrolla mediante el ensamblaje de clones en grupos que se solapan, llamados contigs de clones. A medida que se acumulan más datos, los contigs de clones acaban abarcando la longitud de los cromosomas enteros. Después de que se ha obtenido el mapa físico, el siguiente paso es la elección, de entre todos los clones usados para elaborar el mapa, de un conjunto de clones que se solapan mínimamente y que conjuntamente cubren todo el genoma (Figura 13-8). Luego estos clones se secuencian completamente, tratando cada clon genómico como un proyecto de secuenciación de un mini-genoma en el que múltiples lecturas de secuencia para el clon se juntan usando la lógica de la aproximación de la secuenciación aleatoria de genomas completos. Finalmente, las secuencias de los clones se ensamblan en una secuencia consenso global del genoma según el orden conocido de estos clones en el mapa físico. Esta capacidad de contar con el mapa físico para ordenar y orientar las secuencias de los clones es una enorme ventaja de la aproximación de clones ordenados. Una segunda ventaja muy importante es la posibilidad de incluir ciertos elementos repetitivos, ya que su localización dentro del clon es precisa, siendo ésta una ventaja capital para la creación de la secuencia consenso clon a clon. Los vectores que pueden llevar largos insertos son los más útiles, porque el genoma se romperá en menos piezas y habrá menos clones de los que seguir la pista. Sin embargo, aún usando vectores que lleven largos insertos, crear un mapa físico es una tarea abrumadora. Incluso los supuestos genomas pequeños contienen grandes cantidades de DNA. Considere, por ejemplo, el genoma de 100-Mpb del diminuto nematodo Caenorhabditis elegans. Dos vectores usados comúnmente para transportar clones son los cósmidos (híbridos del DNA del fago y del DNA de plásmido bacteriano en forma circular) y los vectores BAC derivados del plásmido F bacteriano. Debido a que un inserto promedio de un cósmido es de aproximadamente 40 kb, por lo menos 2500 cósmidos serían necesarios para cubrir este genoma, y muchos más para estar seguros de que todos los segmentos del genoma estarán representados. Una librería de BACs para C. elegans con un tamaño promedio de los insertos de 200 kb simplificaría la tarea cinco veces. Mensaje: Las dos aproximaciones básicas de secuenciación de genomas son la secuenciación aleatoria de genomas completos y la secuenciación de clones ordenados a partir de mapas físicos. Rellenado de huecos en la secuencia Tanto en la secuenciación aleatoria de genomas completos como en la secuenciación de clones ordenados, generalmente quedan algunos huecos. Algunos huecos esporádicos aparecen siempre que por azar una región del genoma no se encuentra en la genoteca genómica, por ejemplo porque algunos fragmentos de DNA no se replican bien en algunos vectores de clonación. En estos casos se deben usar técnicas especiales para rellenar estos huecos en los ensamblajes de secuencias. Si los huecos son cortos, los fragmentos faltantes se pueden generar usando las secuencias conocidas (pág. 462) (pág. 463) de los extremos de los ensamblajes como cebadores para amplificar y analizar la secuencia genómica de en medio. Si los huecos son más largos, se puede intentar clonar estas secuencias en un hospedador distinto, como por ejemplo la levadura. Si la clonación en un hospedador distinto fracasa, entonces los huecos en la secuencia permanecerán. El hecho de decidir secuenciar un genoma según los estándares de la secuencia “borrador” o “finalizada” es una cuestión de análisis coste-beneficio. Mientras que elaborar un borrador es relativamente fácil, resulta muy difícil elaborar una secuencia finalizada usando los métodos actuales. 13.3 La bioinformática: significado a partir de la secuencia genómica La secuencia genómica es un código sumamente cifrado que contiene la información para construir y mantener un organismo funcional. El estudio del contenido informativo de los genomas recibe el nombre de bioinformática. Estamos lejos de poder leer esta información de principio a fin en la forma en la que leeríamos un libro. Aunque sabemos qué tripletes codifican los aminoácidos en los segmentos que codifican proteínas, la mayor parte de la información contenida en un genoma no se puede descifrar con una mera inspección. La naturaleza del contenido informativo del DNA El DNA contiene información, ¿pero en qué forma está codificada? Convencionalmente, la información se considera como la suma de todos los productos génicos, tanto proteínas como RNAs. Sin embargo, el contenido informativo del genoma es más complejo que esto. El (pág. 463) (pág. 464) genoma también contiene sitios de unión para distintas proteínas y RNAs. Muchas proteínas se unen a sitios localizados en el propio DNA, mientras que otras proteínas y RNAs se unen a sitios localizados en el mRNA (Figura 13-9). La secuencia y las posiciones relativas de dichos sitios permiten a los genes ser transcritos, procesados y traducidos correctamente, en el momento y en el tejido adecuado. Por ejemplo, los sitios de unión a proteínas reguladoras determinan cuándo, dónde y en qué cantidad se expresará un gen. A nivel de RNA en los eucariotas, las localizaciones de los sitios de unión para los RNAs y las proteínas del espliceosoma determinarán los sitios de corte y empalme 5’ y 3’ por donde se eliminarán los intrones. Tanto si un sitio de unión actúa como tal en el DNA como si lo hace en el RNA, el sitio tiene que estar codificado en el DNA. Por lo tanto, la información en el genoma puede ser considerada como la suma de todas las secuencias que codifican las proteínas y los RNAs, más los sitios de unión que determinan el tiempo y el espacio de sus acciones. El principal objetivo después del ensamblado de un genoma borrador y mientras éste se continúa mejorando, es la identificación de todos los elementos funcionales del genoma. Este proceso recibe el nombre de anotación. Deducción de los genes que codifican proteínas a partir de la secuencia genómica Debido a que las proteínas que están presentes en una célula en gran medida determinan su morfología y sus propiedades fisiológicas, uno de los principales objetivos del análisis genómico y de la anotación es intentar hacer un inventario de todos los polipéptidos que están codificados en el genoma de un organismo. Este inventario recibe el nombre de proteoma del organismo, y puede ser considerado como un “listado de las partes” de la célula. Para determinar este listado de polipéptidos, la secuencia de cada mRNA codificado en el genoma debe ser deducida. Debido al corte y empalme de los intrones, esta tarea supone un desafío en el caso de los eucariotas multicelulares, donde los intrones son la norma. En humanos, por ejemplo, un gen promedio tiene aproximadamente 10 exones. Además, varios genes codifican exones alternativos; es decir, algunos exones son incluidos en algunas versiones de un mRNA procesado pero no son incluidos en otras (véase el Capítulo 8). Los mRNAs que son procesados alternativamente pueden codificar polipéptidos que compartan la mayoría, pero no toda la secuencia aminoacídica. Aunque hay un gran número de genes y mRNAs completamente secuenciados, todavía no se puede identificar con mucha exactitud los sitios de corte y empalme 5’ y 3’ a partir únicamente de la secuencia de DNA. Por eso, no podemos estar seguros de qué secuencias corresponden a los intrones. La predicción de los exones que son usados alternativamente es aún más propensa a error. Por estas razones, la deducción del listado completo de polipéptidos en los eucariotas superiores es aún un gran reto. A continuación se detallan algunas aproximaciones. Detección de ORFs La principal aproximación para elaborar un listado de polipéptidos es usar el análisis computacional de la secuencia genómica para predecir secuencias de mRNAs y polipéptidos, lo que representa una parte importante de la bioinformática. La aproximación básica es buscar secuencias que tengan las características de los genes. Estas secuencias tendrían el tamaño de los genes (pág. 464) (pág. 465) y estarían compuestas de codones con sentido después de que los posibles intrones fueran eliminados. Las secuencias correspondientes a los extremos 5’ y 3’ estarían presentes, como por ejemplo los codones de inicio y final de la traducción. Las secuencias que tienen estas características típicas de los genes se llaman marcos abiertos de lectura (ORFs, del inglés “open reading frames”). Para encontrar ORFs candidatos, el ordenador rastrea la secuencia de las dos cadenas del DNA para cada posible marco de lectura. Como hay tres marcos de lectura por cada cadena, en total hay seis marcos de lectura posibles. Evidencia directa a partir de secuencias de cDNA Otra forma de identificar ORFs y exones es a través del análisis de la expresión del mRNA. Este análisis se lleva a cabo mediante la creación de librerías de moléculas de DNA que son complementarias a las secuencias del mRNA, llamadas cDNA. Las secuencias de DNA complementarias son extremadamente valiosas en dos aspectos. En primer lugar, son la evidencia directa de que un determinado segmento del genoma se expresa y puede, por lo tanto, codificar un gen. En segundo lugar, debido a que el cDNA es complementario al mRNA maduro, los intrones del transcrito primario han sido ya eliminados, lo que facilita enormemente la identificación de los exones y los intrones del gen (Figura 13-10). El alineamiento de cDNAs con sus secuencias genómicas correspondientes claramente delinea los exones, y por lo tanto los intrones se revelan como las regiones que caen en medio de los exones. En el cDNA, el ORF debería ser continuo desde el codón de inicio hasta el codón de fin de la traducción. Por lo tanto, las secuencias de cDNA pueden ayudar enormemente a identificar el marco de lectura correcto, incluyendo los codones de inicio y fin de la traducción. La evidencia de cDNAs completos se usa como prueba de oro de que uno ha identificado la secuencia de una unidad de transcripción, incluyendo sus exones y su localización en el genoma. Además de las secuencias de cDNA completas, hay grandes conjuntos de datos de cDNAs en los que sólo los extremos 5’ ó 3’ ó ambos han sido secuenciados. Estas lecturas cortas de secuencias de cDNAs reciben el nombre de etiquetas de secuencia expresada (ESTs, del inglés “expressed sequence tags”). Las etiquetas de secuencia expresada se pueden alinear con el DNA genómico y así determinar los extremos 5’ y 3’ de los transcritos o, en otras palabras, determinar los límites del transcrito, tal i como se muestra en la Figura 13-10. Predicciones de los sitios de unión Como ya se discutió anteriormente, un gen consiste de un segmento de DNA que codifica un transcrito, así como de señales reguladoras que determinan cuándo, dónde y cuánto se produce un transcrito. A su vez, este transcrito tiene las señales necesarias para determinar su corte y empalme en el mRNA y la traducción de este (pág. 465) (pág. 466) mRNA a un polipéptido (Figura 13-11). Actualmente hay programas de ordenador “buscadores de genes” estadísticos, que buscan dentro del DNA genómico las secuencias predichas de los varios sitios de unión a promotores, sitios de inicio de la transcripción, sitios 5’ y 3’ de corte y empalme, y codones de inicio de la traducción. Estas predicciones están basadas en motivos consenso para secuencias conocidas de este tipo, pero no son ni mucho menos perfectas. Uso de la similitud de polipéptidos y DNA Debido a que los organismos tienen ancestros comunes, también tienen muchos genes con secuencias similares en común. Por lo tanto, un gen tendrá seguramente parientes entre los genes aislados y secuenciados de otros organismos, especialmente en los más cercanos. Así, los genes candidatos predichos por las técnicas anteriores pueden a menudo ser verificados mediante su comparación con todas las otras secuencias génicas que se han encontrado hasta entonces. Una secuencia candidata es enviada como una “secuencia problema” a las bases de datos públicas que contienen las secuencias para todos los genes conocidos. Este procedimiento recibe el nombre de búsqueda por BLAST (BLAST significa herramienta básica de búsqueda de alineamientos locales, del inglés “Basic Local Alignment Search Tool”). La secuencia puede enviarse como secuencia nucleotídica (una búsqueda BLASTn) o como una secuencia traducida a aminoácidos (BLASTp). El ordenador explora la base de datos y retorna un listado de “aciertos”, completos o parciales, empezando con las mejores coincidencias. Si la secuencia candidata se parece mucho a la de un gen previamente identificado en otro organismo, esta semejanza es una clara evidencia de que el gen candidato es un gen real. Incluso las coincidencias menos cercanas son útiles. Por ejemplo, una identidad de aminoácidos de sólo el 35%, pero en posiciones idénticas, es un claro indicador de que dos proteínas tienen una estructura tridimensional común. (pág. 466) (pág. 467) Las búsquedas por BLAST son útiles en muchos otros aspectos, aunque el objetivo es siempre descubrir algo más sobre alguna secuencia de interés identificada. Predicciones basadas en el sesgo en el uso de codones Recuerde del Capítulo 9 que el código de tripletes es degenerado para los aminoácidos; es decir, la mayoría de los aminoácidos están codificados por dos o más codones (véase Figura 9-6). Los múltiples codones para un único aminoácido se llaman codones sinónimos. En una especie dada, no todos los codones sinónimos para un aminoácido son usados con la misma frecuencia, sino que ciertos codones están presentes mucho más a menudo en los mRNAs (y por lo tanto en el DNA que los codifica). Por ejemplo, en D. melanogaster, de los dos codones para la cisteína, el UGC es usado un 73% de las veces, mientras que el UGU es usado sólo el 27%. Este uso sirve de diagnóstico en Drosophila porque en otros organismos este “sesgo en el uso de codones” es algo distinto. Se cree que el sesgo en el uso de los codones es debido a la abundancia relativa de los tRNAs complementarios a los distintos codones de una especie dada. Si el sesgo en el uso de codones de un ORF predicho coincide con el patrón conocido del sesgo en el uso de codones de la especie, luego esta coincidencia respalda la evidencia de que el ORF propuesto es genuino. Reuniendo todas la piezas La Figura 13-12 ilustra un resumen de cómo se combinan las diferentes fuentes de información para crear la mejor predicción de mRNAs y genes. Estos distintos tipos de evidencia son complementarios y pueden (pág. 467) (pág. 468) reforzarse entre sí. Por ejemplo, la estructura de un gen puede ser inferida a partir de la evidencia de similitud proteica dentro de una región del DNA genómico limitada por ESTs 5’ y 3’. Pero incluso se pueden hacer predicciones útiles sin ninguna secuencia de cDNA o evidencia de similitudes proteicas: un programa de predicción de sitios de unión puede proponer un ORF hipotético, y un sesgo en el uso de codones apropiado estaría apoyando la evidencia. Mensaje: Las predicciones de estructuras de mRNAs y polipéptidos a partir de la secuencia del DNA genómico dependen de la integración de la información procedente de la secuencia de cDNAs, predicciones de sitios de unión, similitudes de polipéptidos y el sesgo en el uso de los codones. Consideremos la nueva comprensión que se ha obtenido de un primer análisis de las estructuras genómicas en su conjunto y del listado global de algunas especies cuyos genomas ya han sido secuenciados. Empezaremos con nosotros mismos. ¿Qué podemos aprender mirando al genoma humano en sí mismo? Posteriormente, veremos qué podemos aprender comparando nuestro genoma con el de otros organismos. 13.4 La estructura del Genoma Humano Para hacer una descripción de la estructura global del genoma humano, primero debemos enfrentarnos con su estructura repetitiva. Una fracción considerable del genoma humano, aproximadamente el 45%, es repetitiva. La mayor parte de este DNA repetitivo está compuesto por copias de elementos transponibles. De hecho, incluso dentro del DNA de copia única restante, una fracción contiene secuencias que sugieren que podrían descender de elementos transponibles antiguos que son ahora inmóviles y que han acumulado mutaciones al azar, causando que su secuencia diverja de los elementos transponibles ancestrales. Por lo tanto, la mayor parte del genoma humano parece estar compuesto por “autoestopistas” genéticos. Sólo una pequeña parte del genoma humano codifica polipéptidos; es decir, algo menos del 3% de éste codifica los exones de los mRNAs. Los exones son típicamente pequeños (aproximadamente 150 bases), mientras que los intrones son largos, muchos extendiéndose más de 1000 bases y algunos incluso más de 100 000 bases. Los transcritos están compuestos de 10 exones en promedio, aunque muchos tienen substancialmente más. Finalmente, los intrones pueden ser eliminados del mismo gen en distintos lugares. Esta variación en la localización de los sitios de corte y empalme genera una diversidad añadida considerable en el mRNA y la secuencia de polipéptidos. Considerando los datos de cDNAs y ESTs actuales, el 60% de los genes que codifican proteínas en humanos tienen probablemente dos o más variantes de corte y empalme. En promedio, hay aproximadamente tres variantes de corte y empalme por gen. Por lo tanto, el número de proteínas distintas codificadas por el genoma humano es aproximadamente tres veces mayor al número de genes reconocidos. El número de genes en el genoma humano no ha sido fácil de estimar. En el borrador inicial del genoma humano, había unos 30 000 a 40 000 genes identificados que codificaban proteínas. Sin embargo, la compleja arquitectura de estos genes y del genoma puede hacer difícil su anotación. Algunas secuencias anotadas como genes pueden de hecho ser exones de genes más largos. Además, hay más de 19 000 pseudogenes, que son ORFs o ORFs parciales que pueden parecer genes a primera vista pero que no son funcionales o bien están inactivos por como se originaron o debido a mutaciones. Los supuestos pseudogenes procesados son secuencias de DNA que han sido retrotranscritas a partir del RNA e insertadas al azar en el genoma. El noventa% aproximadamente de los pseudogenes humanos es de este tipo. Alrededor de 900 pseudogenes parecen ser genes convencionales que han adquirido una o más mutaciones durante el curso de la evolución que interrumpen el ORF. A medida que las dificultades en la anotación se han ido superando, el número estimado de genes en el genoma humano ha ido cayendo de forma continua. La cifra actual, a fecha de junio del 2006, es de unos 22 000 genes, y la cifra final podría ser cercana a los 19 000 genes funcionales. Un modo en el que la anotación del genoma humano ha progresado es mediante la finalización de las secuencias de cada cromosoma, uno a uno. Estas (pág. 468) (pág. 469) secuencias se convierten luego en el terreno dónde se van a cazar genes candidatos. La Figura 13-13 muestra un ejemplo de predicciones de genes en un cromosoma del genoma humano. Tales predicciones están siendo continuamente revisadas a medida que están disponibles nuevos datos y nuevos programas computacionales. El estado actual de las predicciones se puede ver en muchos sitios Web, notablemente en los bancos de datos públicos de los Estados Unidos y de Europa (véase el Apéndice B). Estas predicciones son actualmente las mejores inferencias de genes que codifican las proteínas presentes en la especie secuenciada y, como tales, son trabajos en curso. Las proteínas se pueden agrupar en familias de proteínas relacionadas, similares en estructura y función, basándose en la similitud de la secuencia de los aminoácidos. Para una familia proteica que se conoce en muchos organismos, el número de proteínas en la familia es generalmente superior en los humanos que en los invertebrados cuyos genomas han sido secuenciados. Las proteínas están compuestas de dominios modulares que se combinan y ajustan para llevar a cabo varias funciones. Muchos de estos dominios están asociados con funciones biológicas específicas. El número de dominios modulares por proteína también parece ser superior en los humanos que en los organismos invertebrados. A medida que se dispone de información más refinada del genoma humano, se pueden averiguar nuevas características. Un ejemplo reciente es el mapa de la secuencia finalizada de uno de los cromosomas humanos mejor estudiado: el cromosoma 7. Inicialmente, este cromosoma fue estudiado intensamente porque contiene el gen que al mutar causa la fibrosis quística. El gen de la fibrosis quística fue identificado al comienzo del Proyecto Genoma Humano mediante el solapamiento del mapa de ligamiento con los mapas físico y de secuencia, tal y como se describió en el Capítulo 4. El cromosoma 7 humano se ha continuado estudiando en detalle, y actualmente hay alrededor de 800 clones del mapa físico cartografiados en este cromosoma. Un posible uso de los clones del mapa físico es la localización de puntos de rotura de reordenaciones asociadas con enfermedades humanas. Las reordenaciones cromosómicas son un tipo de mutaciones que resultan de la rotura de un cromosoma en un punto, el punto de rotura de la reordenación, y su reunión con otro sitio roto de forma similar en el mismo cromosoma o en otro. Estas roturas causan mutaciones cuando un gen reside en el punto de rotura. Con el uso de clones físicos, se han podido localizar aproximadamente 1600 puntos de rotura de reordenaciones asociadas con enfermedades humanas en el (pág. 469) (pág. 470) cromosoma 7, lo que ha permitido elaborar un mapa citogenético de alta densidad (Figura 13-14). De estos puntos de rotura, 440 han sido secuenciados, lo que ha permitido la asociación de fenotipos mutantes a genes que están en la secuencia del DNA. 13.5 Genómica comparativa Uno de las formas más poderosas de avanzar en el análisis de nuestro o de cualquier otro genoma es mediante la comparación de la estructura y de la secuencia genómica entre especies relacionadas. Debido a que la selección natural generalmente elimina las mutaciones que disminuyen la eficacia biológica, los genes y otras secuencias de DNA funcionales están conservados durante largos períodos de la evolución. Un trozo de secuencia de DNA que es común entre especies divergentes seguramente lleva a cabo una función necesaria, y estos trozos comunes se pueden usar para guiar estudios cuyo objetivo es descubrir estas funciones. Además, los genes que ya han identificados en una especie modelo son más fácilmente identificables, a partir de su secuencia y localización en el genoma, en otras especies relacionadas. Además de la identificación de regiones conservadas, la genómica comparativa tiene el potencial de revelar como divergen las especies. Las especies evolucionan y sus rasgos característicos cambian (pág. 470) (pág. 471) a través de cambios en la secuencia del DNA. La comparación de los genomas de las especies puede desvelar sucesos únicos en linajes particulares que han podido contribuir a las diferencias en la fisiología, el comportamiento o la anatomía. A continuación estudiaremos unos cuantos ejemplos de como la genómica comparativa revela qué es similar y qué es diferente entre las especies. Sobre ratones y humanos La secuencia del genoma del ratón ha sido particularmente informativa para comprender el genoma humano, debido al antiguo papel del ratón como especie modelo en genética, el amplio conocimiento en genética clásica y la relación evolutiva del ratón con los humanos. Los linajes del ratón y el humano divergieron hace aproximadamente 75 millones de años, tiempo suficiente para que las mutaciones hayan hecho diferir sus genomas, en promedio, alrededor de uno de cada dos nucleótidos. De este modo, las secuencias comunes a los genomas del ratón y el humano es probable que indiquen funciones comunes. El primer paso en la comparación de genomas es la identificación de los genes más estrechamente relacionados, llamados homólogos. Es importante distinguir aquí dos clases de genes homólogos. Algunos homólogos son el mismo locus genético heredado de un antecesor común; nos referimos a estos genes como ortólogos. Sin embargo, muchos genes pertenecen a familias que se han expandido (o contraído) en número a lo largo de la evolución. Los genes que están relacionados por sucesos de duplicación génica en el genoma reciben el nombre de parálogos. En las comparaciones genómicas, no siempre es posible identificar las relaciones entre los parálogos en familias génicas. Los homólogos se identifican porque tienen secuencias de DNA similares. El análisis del genoma del ratón indica que contiene un número de genes que codifican proteínas que es similar al del genoma humano. Una inspección más detallada de los genes del ratón revela que al menos un 99% de todos los genes del ratón tienen algún homólogo en el genoma humano, y que al menos un 99% de todos los genes humanos tienen algún homólogo en el genoma del ratón. Así, los tipos de proteínas codificadas en cada genoma son los mismos. Además, alrededor del 80% de todos los genes del ratón y humanos se pueden identificar claramente como ortólogos. Las similitudes entre los genomas se extienden mucho más allá del inventario de genes que codifican proteínas y llegan hasta la organización genómica. Más del 90% de los genomas del ratón y humano pueden ser divididos en regiones correspondientes de sintenia conservada, donde el orden de los genes dentro de bloques de tamaño variable es el mismo que su orden en el ancestro común más reciente de las dos especies. Esta sintenia es muy útil cuando se relacionan los mapas de dos genomas. Por ejemplo, el cromosoma 17 humano es ortólogo a un único cromosoma del ratón (el cromosoma 11). Aunque ha habido muchas reordenaciones intracromosómicas en el cromosoma humano, hay 23 segmentos de secuencias colineares de más de 100 kb de tamaño (Figura 13-15). (pág. 471) (pág. 472) Hay algunas diferencias detectables entre los inventarios de genes de ratón y humano. El ratón posee más copias de genes involucrados en inmunidad, olfacción y reproducción. El mayor número de estas clases de genes puede sugerir que los sistemas fisiológicos han estado evolucionando en el linaje de los roedores. Esto sin duda tiene sentido si se tiene en cuenta el estilo de vida de las especies. Los ratones dependen mucho de su sentido del olfato, y se encuentran con constelaciones muy diferentes de patógenos respecto a las que se encuentran los humanos (o nuestros ancestros antropoides). Además, nuestras fisiologías reproductivas son muy diferentes. Aún así, estas diferencias en el contenido génico son relativamente modestas a la luz de las enormes diferencias en la anatomía y el comportamiento. La similitud general en los genomas del ratón y el humano se corresponde con el cuadro que emerge del examen del juego de herramientas genético que controla el desarrollo en diferentes taxones (véase el Capítulo 12). Estas grandes diferencias pueden evolucionar de los genomas que contienen conjuntos de genes similares. Mensaje: Los genomas de mamíferos, incluyendo los de los humanos, contienen conjuntos similares de genes. Se ilustra el mismo mensaje cuando se compara nuestro genoma con el de nuestro pariente vivo más cercano: el chimpancé. Genómica comparativa de chimpancés y humanos Los chimpancés y los humanos tuvieron el último ancestro común hace aproximadamente 6 millones de años. Desde entonces, se han acumulado diferencias genéticas mediante mutaciones que han ocurrido en cada linaje. La secuenciación de genomas ha revelado que hay alrededor de 35 millones de diferencias de un único nucleótido entre los chimpancés y los humanos, correspondiendo a un grado de divergencia de aproximadamente 1.06%. Además, aproximadamente 5 millones de inserciones o deleciones, desde sólo un único nucleótido hasta más de 15 kb, contribuyen a un total de aproximadamente 90 Mb de secuencia de DNA divergente (alrededor de un 3% del total del genoma). La mayoría de estas inserciones o deleciones están fuera de las regiones codificadoras. En conjunto, las proteínas codificadas por los genomas humano y del chimpancé son extremadamente parecidas. El 29% de todas las proteínas ortólogas son idénticas en secuencia, y la mayoría de las que difieren lo hacen en sólo dos cambios aminoacídicos aproximadamente. Sin embargo, hay algunas diferencias detectables entre los chimpancés y los humanos en el conjunto de genes funcionales. Alrededor de 80 genes que eran funcionales en su ancestro común ya no son funcionales en los humanos, dando como resultado su deleción o la acumulación de mutaciones. Algunos de estos cambios podrían contribuir a diferencias fisiológicas. Además de cambios en genes particulares, las duplicaciones de segmentos cromosómicos en un único linaje han contribuido a la divergencia de los genomas. Más de 170 genes en el genoma humano y más de 90 genes en el genoma del chimpancé están presentes en largos segmentos duplicados. Estas duplicaciones son responsables de una cantidad aún mayor de divergencia genómica total que todas las mutaciones de un único nucleótido sumadas. Sin embargo, no está todavía claro que estas duplicaciones contribuyan a diferencias fenotípicas mayores. ¿Qué hacen los genetistas hoy en día? Elementos no codificadores conservados y ultraconservados La discusión hasta el momento se ha centrado exclusivamente en las regiones del genoma que codifican proteínas. Este énfasis es debido más a la facilidad de análisis que a la importancia biológica. Debido a la simplicidad y universalidad del código genético, la detección de ORFs y exones es mucho más fácil que la detección de secuencias funcionales no codificadoras. Como se ha dicho previamente, sólo alrededor del 3% del genoma humano codifica exones de mRNAs, y menos de la mitad de estas secuencias exónicas, aproximadamente el 1 o el 2% del DNA genómico total, codifica secuencias proteicas. Así, más del 98% de nuestro genoma no codifica proteínas. ¿Cómo podemos identificar otras partes funcionales del genoma? (pág. 472) (pág. 473) A parte de las regiones promotoras de los genes, que contienen algunos motivos de secuencia típicos (véase el Capítulo 11), es difícil asignar función a la mayoría de las secuencias no codificadoras. Sin embargo, una forma de localizar elementos no codificadores potencialmente funcionales es buscar secuencias conservadas, que no han cambiado demasiado a lo largo de millones de años de evolución. Las comparaciones de los genomas del ratón y el humano revelan que aproximadamente el 5% de toda la secuencia está conservada, correspondiendo alrededor de un tercio de esta cantidad a secuencias que codifican proteínas y los restantes dos tercios a secuencias que no codifican proteínas. Así, la proporción del genoma que dirige cómo se regulan los genes podría ser mayor que la que codifica proteínas. La genómica comparativa puede facilitar la identificación de elementos funcionales no codificadores. Por ejemplo, uno puede buscar secuencias de tamaño modesto ultraconservadas entre unas cuantas especies, o bien secuencias más largas pero no tan conservadas entre un número de especies mayor. Las comparaciones del genoma humano, de la rata y del ratón han dado lugar a la identificación de los supuestos elementos ultraconservados, que son secuencias que están perfectamente conservadas entre las tres especies. Las búsquedas en estos genomas han arrojado más de 5000 secuencias de más de 100 pb y 481 secuencias de más de 200 pb que están absolutamente conservadas. La extensión de este análisis para incluir el genoma del perro ha dado lugar a más de 140 000 elementos muy conservados de 50 ó más pb de longitud fuera de las secuencias que codifican proteínas. Aunque el 50% de estos elementos están en regiones pobres en genes, están sobrerepresentadas cerca de genes reguladores que son importantes para el desarrollo. La mayoría de estos elementos no codificadores ultraconservados podrían estar en gran parte involucrados en regular la expresión del juego de herramientas genético que se requiere para el desarrollo de los mamíferos y otros vertebrados. ¿Cómo podemos verificar que los elementos conservados juegan un papel en la regulación de los genes? Estos elementos podrían ser estudiados de la misma manera que los elementos reguladores de la transcripción que actúan en cis, examinados en los capítulos anteriores, mediante el uso de genes informadores. El investigador pone regiones reguladoras candidatas adyacentes a un promotor y a un gen informador, e introduce el gen informador en una especie hospedadora. La Figura 13-16 muestra uno de estos ejemplos. Un elemento que está ultraconservado entre los mamíferos, la gallina y una especie de rana está a 488 kb del extremo 3’ del gen ISL1 humano, el cual codifica una proteína necesaria para la diferenciación de las neuronas motoras. Este elemento se colocó aguas arriba de un promotor y del gen informador β-galactosidasa (lacZ), y el constructo se inyectó en el pronúcleo de oocitos de ratón fecundados. El gen informador se expresó a lo largo de la cuerda espinal y en la cabeza, como se esperaría de la localización de las futuras neuronas motoras (Figura 13-16). Más significativo aún, el patrón de expresión se corresponde parcialmente al patrón de expresión del gen ISL1 típico del ratón (presumiblemente otros elementos no codificadores controlan otras características de la expresión de ISL1). Muchos miles de elementos reguladores no codificadores de humanos podrían ser identificados teniendo en cuenta la conservación de la secuencia y de su actividad en ensayos de genes informadores. Las comparaciones de los proteomas del ratón, los humanos y los chimpancés, así como la identificación y análisis de sus elementos no codificadores comunes, subrayan la naturaleza conservadora de la evolución genómica. Sin embargo, la genómica comparativa también ha desvelado algunas diferencias dramáticas en el contenido genómico, con enormes implicaciones para la medicina humana. A continuación estudiaremos uno de estos ejemplos. Genómica comparativa de E. coli no patogénica y patogénica Escherichia coli es generalmente un simbionte benigno que se encuentra en nuestras bocas y tractos intestinales en grandes cantidades. Debido a su papel central en la investigación genética, fue uno de los primeros genomas bacterianos en ser secuenciado. El genoma de E. coli es de aproximadamente 4.6 Mb de tamaño y contiene 4405 genes. Sin embargo, el hecho de llamarlo “el genoma de E. coli” no es nada acertado. El primer genoma en ser secuenciado provenía (pág. 473) (pág. 474) de la cepa común de E. coli del laboratorio K-12. Pero existen muchas otras cepas de E. coli, incluyendo varias de importancia para la salud humana. En el 1982, hubo un brote en varios estados de los EEUU de una enfermedad humana relacionada con el consumo de carne picada de ternera poco cocida. La cepa de E. coli O157:H7 fue identificada culpable, y desde entonces se ha asociado con algunos brotes de infección a gran escala. De hecho, hay unos 75 000 casos estimados cada año en los Estados Unidos. Aunque la mayoría de la gente se recupera de la infección, una fracción desarrolla el síndrome hemolítico urémico, una enfermedad de los riñones potencialmente mortal. Para entender las bases genéticas de la patogenicidad, se secuenció el genoma de una cepa O157:H7 de E. coli. Las cepas O157 y K-12 tienen un contenido común de 3574 genes que codifican proteínas, y la identidad nucleotídica media entre genes ortólogos es del 98.4%, comparable a la de los ortólogos entre humanos y chimpancés. Aproximadamente el 25% de los ortólogos de E. coli codifican proteínas idénticas, un valor similar al 29% que hay entre los ortólogos de humanos y chimpancés. A pesar de las similitudes en muchas proteínas, los genomas y proteomas difieren enormemente en contenido. El genoma de la E. coli O157 codifica 5416 genes, mientras que el genoma de la E. coli K-12 codifica 4405 genes. El genoma de la E. coli O157 contiene 1387 genes que no se encuentran en el genoma de la K-12, y 528 genes que están en el genoma de la K-12 no están en el genoma de la O157. La comparación de los mapas genómicos revela que el contenido común de las dos cepas está entremezclado junto a islas de genes específicos la K-12 o de O157 (Figura 13-17). Entre los 1387 genes específicos de E. coli O157 hay muchos genes candidatos que codifican factores de virulencia, incluyendo toxinas, proteínas de invasión celular, proteínas de adhesión (pág. 474) (pág. 475) y sistemas de secreción, así como posibles genes metabólicos que podrían ser necesarios para el transporte de nutrientes, la resistencia a los antibióticos y otras actividades que podrían conferir la posibilidad de sobrevivir en distintos hospedadores. La mayoría de estos genes no se conocían antes de la secuenciación y no se conocerían todavía hoy si los investigadores se hubieran basado sólo en la E. coli K-12 como guía para todas las E. coli. El nivel sorprendente de diversidad entre dos miembros de la misma especie muestra cuán dinámica puede ser la evolución del genoma. Se cree que la mayoría de genes nuevos en las cepas de E. coli se introdujeron por transferencia horizontal desde genomas de virus y de otras bacterias. Las diferencias también podrían haber evolucionado a partir de deleciones de genes. Otras especies patogénicas de E. coli y de otras bacterias muestran también una tendencia a acumular muchas diferencias en el contenido génico, al compararlas con sus primos no patogénicos. La identificación de genes que podrían contribuir directamente a la patogenicidad abre nuevas puertas a la prevención y al tratamiento de la enfermedad. 13.6 Genómica funcional y genética inversa Durante las últimas décadas, los genetistas han estado estudiando la expresión y las interacciones de productos génicos. Sin embargo, estos estudios eran a pequeña escala, considerando sólo un gen o unos pocos genes a la vez. Con la aparición de la genómica, tenemos la oportunidad de expandir estos estudios a un nivel global, usando aproximaciones de genomas completos para estudiar la mayoría o todos los productos génicos sistemática y simultáneamente. Esta aproximación global al estudio de la función, la expresión y la interacción de productos génicos recibe el nombre de genómica funcional. Oma, dulce oma Además del genoma, hay otros conjuntos de datos globales de interés. Siguiendo el ejemplo del término genoma, en el que “gen” más “oma” se convierte en un término para “todos los genes”, los investigadores genómicos han acuñado varios términos para describir otros conjuntos de datos globales en los que están trabajando. Esta lista de -omas deseados incluye: El transcriptoma. La secuencia y patrones de expresión de todos los transcritos (dónde, cuándo, cuánto). El proteoma. La secuencia y patrones de expresión de todas las proteínas (dónde, cuándo, cuánto). El interactoma. El conjunto completo de interacciones físicas entre proteínas y segmentos de DNA, entre proteínas y segmentos de RNA, y entre proteínas. No consideraremos todos estos –omas en esta sección, sino que nos centraremos en algunas de las técnicas globales que se están empezando a explotar para obtener estos conjuntos de datos. Uso de microarrays de DNA para estudiar el transcriptoma Suponga que queremos responder a la pregunta: ¿qué genes están activos en una célula particular bajo ciertas condiciones? Estas condiciones pueden ser una o más etapas en el desarrollo, o pueden ser la presencia o ausencia de un patógeno o de una hormona. Los genes activos se transcriben a RNA, por lo que el conjunto de transcritos de RNA presentes en una célula puede decirnos qué genes están activos. Aquí es donde se manifiesta la gran potencia de la nueva tecnología de los chips de DNA, usada para analizar los transcritos de RNA. Los chips de DNA son muestras de DNA dispuestas como una serie de gotas microscópicas unidas a un “chip” de vidrio del tamaño de un cubreobjetos de microscopio. Un chip puede contener gotas de segmentos de DNA correspondientes a todos los genes del genoma. El conjunto de DNAs así expuesto recibe el nombre de microarray. El chip de DNA es expuesto a una muestra de RNA marcado (pág. 475) (pág. 476) (llamado sonda) tomado de una célula; cada transcrito de RNA se unirá (hibridará) con su secuencia de DNA complementaria. Las gotas que han sido unidas en el chip indican qué genes se están transcribiendo activamente en una condición dada. Los chips de DNA han revolucionado la genética permitiendo el análisis de los transcritos de RNA para todos los genes simultáneamente en un solo experimento. Veamos como funciona este proceso en más detalle. A continuación de indica un protocolo para hacer chips de DNA. Máquinas robotizadas con múltiples inyectores parecidas a plumillas estilográficas en miniatura descargan gotitas microscópicas de solución de DNA en posiciones específicas (direcciones) del chip. Se seca el DNA y se trata de forma que quede unido al vidrio, pudiéndose aplicar miles de muestras sobre un chip. En una primera aproximación, la colección de DNAs consiste en todos los cDNAs conocidos del genoma. Otro tipo de colección contiene oligonucleótidos sintéticos cortos que representan la mayoría o todos los genes del genoma. Estas colecciones se exponen a una sonda, por ejemplo una que consiste en el conjunto total de moléculas de RNA extraídas de un tipo celular particular en una etapa específica del desarrollo. Se unen unos marcadores fluorescentes a la sonda, y la unión de las moléculas de la sonda a las gotas de DNA homólogo en el chip de vidrio se monitoriza automáticamente con el uso de un microscopio iluminado por rayos láser. La Figura 13-18 muestra unos resultados típicos. De este modo se pueden analizar los genes que están activos en cualquier etapa del desarrollo o bajo unas determinadas condiciones. La Figura 13-19 muestra un ejemplo de un perfil de expresión de un gen del desarrollo generado por el análisis este tipo de chip. Sabiendo qué genes están activos o inactivos en una etapa dada, en un tipo celular particular, o en varias condiciones ambientales, se pueden identificar los conjuntos de genes que podrían responder a inputs de regulación similares. Además, los perfiles de expresión génica pueden dibujar un cuadro de las diferencias entre las células normales y las enfermas. Mediante la identificación de genes cuya expresión se ha alterado por mutaciones, en las células cancerosas o por un patógeno, los investigadores podrían ser capaces de concebir nuevas estrategias terapéuticas. Uso de la prueba del doble híbrido para estudiar el interactoma Una de las actividades más importantes de las proteínas es su interacción con otras proteínas. Debido al elevado (pág. 476) (pág. 477) número de proteínas que hay en cualquier célula, los biólogos han buscado formas de estudiar sistemáticamente todas las interacciones de proteínas individuales de una célula. Una de las formas más comunes de estudio del interactoma usa un sistema de ingeniería en células de levadura llamado prueba del doble híbrido, que detecta interacciones físicas entre dos proteínas. La base de la prueba es el activador transcripcional codificado por el gen GAL4 de la levadura (véase el Capítulo 11). Recuerde que esta proteína tiene dos dominios: (1) un dominio de unión al DNA que se une al sitio de inicio de la transcripción y (2) un dominio de activación que activará la transcripción, pero que no puede por si mismo unirse al DNA. Así, los dos dominios tienen que estar muy próximos para que ocurra la activación transcripcional. En el sistema del doble híbrido, el gen del activador transcripcional Gal4 se separa entre dos plásmidos, de modo que un plásmido contiene la parte que codifica el dominio de unión al DNA y el otro plásmido contiene la parte que codifica el dominio de activación. En un plásmido, el gen de una proteína estudiada es empalmado al dominio de unión al DNA, y esta proteína fusionada actúa como “cebo”. En el otro plásmido, un gen para otra proteína estudiada es empalmada al dominio de activación y la proteína fusionada resultante se dice que es la “diana” (Figura 13-20). Los dos plásmidos híbridos se introducen entonces en la misma célula de levadura, quizás uniendo células haploides que contienen los plásmidos cebo y diana. El último paso es esperar que se produzca la activación de la transcripción por un constructo con un gen informador regulado por Gal4, que sería la prueba de que cebo y diana se han unido. El sistema del doble híbrido puede automatizarse para permitir la búsqueda de interacciones proteicas en todo el proteoma. (pág. 477) (pág. 478) Estudio del interactoma utilizando el ensayo de inmunoprecipitación de la cromatina (ChIP, del inglés chromatin immunoprecipitation assay) La especificidad de secuencia en la unión de las proteínas al DNA es crítica para la correcta expresión de los genes. Por ejemplo, las proteínas reguladoras se unen a los promotores y activan o reprimen la transcripción tanto en las bacterias como en los eucariotas (véase los Capítulos 10, 11 y 12). En el caso de los eucariotas, los cromosomas están organizados en la cromatina, cuya unidad fundamental, el nucleosoma, contiene DNA enrollado alrededor de las histonas. La modificación postraduccional de las histonas a menudo dicta qué proteínas se unen y dónde (véase el Capítulo 11). La importancia de las interacciones proteína-DNA ha llevado al desarrollo de varias tecnologías que facilitan el aislamiento de regiones específicas de la cromatina de modo que el DNA y sus proteínas asociadas pueden ser analizados conjuntamente. El método más usado es la ChIP (siglas de inmunoprecipitación de la cromatina, del inglés chromating immunoprecipitation), cuyas aplicaciones se describen a continuación (Figura 13-21). Supongamos que ha aislado un gen de levadura y sospecha que codifica una proteína que se une al DNA cuando la levadura se ha cultivado a temperatura elevada. Quiere saber si esta proteína se une al DNA y, en caso afirmativo, a qué secuencia de la levadura. Una forma de abordar esta cuestión es primero tratar las células de la levadura que han sido cultivadas a altas temperaturas con una sustancia química que hace que las proteínas y el DNA se unan entre sí (interconexión). De este modo, las proteínas que estén unidas al DNA durante el aislamiento de la cromatina permanecerán unidas a lo largo de los tratamientos sucesivos. El siguiente paso es romper la cromatina en trozos pequeños. Para separar el fragmento que contiene el complejo proteína/DNA del resto, aísla un anticuerpo que reaccione específicamente con la proteína codificada. Añada el anticuerpo a la mezcla de modo que forme un inmunoprecipitado que pueda ser purificado. Entonces, proteína y DNA pueden ser analizados separadamente después de que la interconexión sea revertida. El DNA unido por la proteína puede ser amplificado en muchas copias, clonándolo en una bacteria o amplificándolo por PCR, como preparación para la secuenciación del DNA (véase el Capítulo 20). (pág. 478) (pág. 479) Como se vio en el Capítulo 11, las proteínas reguladoras a menudo activan la transcripción de muchos genes simultáneamente cuando se unen a varias regiones promotoras. Se ha ideado una variación del método ChIP, llamada ChIP-chip, para identificar múltiples sitios de unión en un genoma secuenciado. Las proteínas que se unen a muchas regiones genómicas son inmunoprecipitadas como se describió arriba, y después de que la interconexión sea revertida, los fragmentos de DNA son marcados y usados para sondear chips de microarrays que contienen, en este caso, la secuencia genómica entera de la levadura. El procedimiento ChIP-chip también se ha usado para descifrar el código de las histonas en algunos organismos. Por ejemplo, se han aislado anticuerpos que reconocen histonas con modificaciones postraduccionales específicas, como por ejemplo la metilación de un residuo de lisina particular (véase el Capítulo 11). El uso de este anticuerpo con ChIP-chip debería identificar secuencias de DNA en el genoma que están asociadas con histonas y que tienen esta modificación. La genómica y las otras áreas “ómicas” han engendrado una nueva disciplina llamada biología de sistemas. Mientras que la aproximación de la genética ha sido tradicionalmente reduccionista, diseccionando un organismo con mutaciones para ver cuáles son sus partes, la biología de sistemas intenta agrupar las partes para entender el conjunto como un sistema. Un sistema biológico engloba redes de regulación génica, cascadas de transducción de señales, comunicación célula-célula y varias formas de interacciones, no sólo entre moléculas “genéticas” sino con todas las otras moléculas de la célula y del ambiente. La genética inversa Los tipos de datos obtenidos de los experimentos de microarrays y de los rastreos de interacciones proteicas son indicativos de las interacciones dentro del genoma y el proteoma, pero no nos permiten sacar ninguna conclusión convincente acerca de las funciones de los genes y de las interacciones in vivo. Por ejemplo, el hallazgo de que la expresión de ciertos genes se pierde en algunos cánceres no es prueba de causa y efecto. Es necesario alterar específicamente la función del gen y entender los fenotipos en las condiciones naturales. Empezando por las secuencias génicas disponibles, los investigadores pueden ahora usar una variedad de métodos para alterar la función de un gen específico. Estos métodos reciben el nombre de genética inversa. El análisis por genética inversa empieza con una molécula conocida: una secuencia de DNA, un mRNA o una proteína, y trata de alterar esta molécula para valorar el papel del producto génico normal en la biología del organismo. Hay varias aproximaciones a la genética inversa. Una aproximación es introducir mutaciones al azar en el genoma pero luego dirigirse hacia el gen de interés mediante la identificación molecular de mutaciones en el gen. Una segunda aproximación es conducir una mutagénesis dirigida que produzca mutaciones directamente en el gen de interés. Una tercera aproximación es crear fenocopias (con efectos comparables a los fenotipos mutantes), mediante el tratamiento con agentes que interfieren con el mRNA o con la actividad del producto proteico final. Cada aproximación tiene sus ventajas. La mutagénesis al azar es la más fácil de llevar a cabo, pero requiere tiempo y esfuerzo para examinar cuidadosamente todas las mutaciones hasta encontrar la pequeña proporción de ellas que incluye el gen de interés. La mutagénesis dirigida también requiere mucho esfuerzo, pero una vez se ha obtenido la mutación dirigida, su caracterización es más sencilla. La creación de fenocopias puede ser muy eficiente, pero existen límites respecto a los tipos de fenocopias que pueden ser copiados. Consideraremos ejemplos de cada una de estas aproximaciones. Genética inversa mediante mutagénesis al azar La mutagénesis al azar de la genética inversa emplea los mismos tipos de mutágenos generales que se usan en la genética directa: agentes químicos, radiación o elementos genéticos transponibles (véase la página 211). Sin embargo, en lugar de rastrear el genoma a gran escala para buscar mutaciones que ejerzan un efecto fenotípico particular, la genética inversa se centra en el gen en cuestión y puede ser llevada a cabo en una de dos formas generales. La primera aproximación es centrarse en la localización del gen en el mapa. Sólo las mutaciones que caigan en la región del genoma donde está localizado el gen son retenidas para (pág. 479) (pág. 480) un análisis molecular más detallado. Por lo tanto, en esta aproximación las mutaciones recuperadas deben ser cartografiadas. Una forma sencilla es cruzar un nuevo mutante con un mutante que contenga una deleción conocida o una mutación en el gen de interés. Simbólicamente, el emparejamiento es mutante nuevo/mutante conocido. Sólo los emparejamientos que den lugar a progenie con el fenotipo mutante (mostrando falta de complementación) se guardan para el estudio. En otra aproximación, se identifica el gen de interés en el genoma mutagenizado y se verifica la presencia de mutaciones. Por ejemplo, si un mutágeno causa pequeñas deleciones, después de la amplificación por PCR se pueden comparar los genes de los genomas parental y mutagenizado y buscar un genoma mutagenizado en el que el gen de interés esté reducido en tamaño. También existen técnicas para el reconocimiento de sustituciones de un único par de bases. De este modo, un conjunto de genomas que contienen mutaciones al azar puede ser rastreado de forma efectiva para identificar la pequeña fracción de las mutaciones que son de interés para el investigador. Genética inversa mediante mutagénesis dirigida Durante la mayor parte del siglo veinte, los investigadores contemplaron la posibilidad de dirigir mutaciones hacia un gen específico como el “Santo Grial” inalcanzable de la genética. Sin embargo, ahora existen muchas técnicas para hacerlo. Después de que un gen ha sido inactivado en un individuo, los genetistas pueden evaluar el fenotipo resultante para buscar claves sobre la función del gen. En general, las herramientas para hacer mutaciones génicas dirigidas se basan en técnicas genéticas desarrolladas para los organismos modelo. Así, aunque se puede alterar de forma eficiente y directa los genes de la levadura, de la mosca o del ratón, tal alteración no es posible en muchas especies que no son especies modelo. La mutagénesis específica de gen a menudo requiere el reemplazamiento de una copia residente de tipo salvaje de un gen entero por una versión mutada de este mismo gen. El gen mutado se inserta en el cromosoma por un mecanismo que se parece a la recombinación homóloga, reemplazando la secuencia normal por la mutada (Figura 1322). Esta aproximación puede usarse para el noqueado dirigido de genes, en el que un alelo nulo sustituye la copia de tipo salvaje. Algunas técnicas son tan eficientes que, en E. coli, por ejemplo, hay esfuerzos en marcha para sistemáticamente mutar cada gen del genoma K-12 para determinar su función biológica. Mensaje: La mutagénesis dirigida es la forma más precisa de obtener mutaciones en un gen específico y ahora puede practicarse en una variedad de sistemas modelo incluyendo ratones y moscas. (pág. 480) (pág. 481) Genética inversa mediante fenocopiado La ventaja de inactivar un gen en sí mismo es que las mutaciones se transmitirán de una generación a la siguiente, y por lo tanto, una vez que se obtiene siempre habrá disponible una línea de mutantes para su estudio posterior. Sin embargo, estas manipulaciones sólo pueden llevarse a cabo en los organismos bien desarrollados como modelos moleculares. Por el contrario, el fenocopiado puede aplicarse a un número mucho mayor de organismos, con independencia de lo desarrollada que esté la tecnología genética para la especie en cuestión. Las dos secciones siguientes describen dos técnicas de fenocopiado. Interferencia de RNA Un hallazgo apasionante de los últimos 10 años ha sido el descubrimiento de un mecanismo muy extendido cuya función natural parece ser proteger a la célula del DNA foráneo. Este mecanismo recibe el nombre de interferencia de RNA (RNAi), descrito en la página 314. Los investigadores han aprovechado este mecanismo celular para diseñar un método potente para inactivar genes específicos. La inactivación se lleva a cabo como sigue. Se elabora un RNA de doble cadena con secuencia homóloga a parte del gen estudiado y se introduce en la célula (Figura 13-23). Luego, el complejo de silenciamiento inducido por RNA, o RISC (del inglés RNA-induced silencing complex), degrada cualquier mRNA natural que sea complementario al RNA de doble cadena. El resultado final es una reducción considerable de los niveles de mRNA, que dura horas o días, anulando de este modo la expresión del gen. La técnica se ha aplicado con éxito en muchos sistemas modelo, incluyendo C. elegans, Drosophila, el pez zebra y varias especies de plantas. Para aplicar las técnicas de fenocopiado a organismos que no son modelo, los genes diana pueden ser identificados mediante genómica comparativa. Entonces, las secuencias de RNAi son producidas para dirigir la inhibición de genes diana específicos. Esta técnica se ha aplicado ya al mosquito que transmite la malaria (Anopheles gambiae). Usando estas técnicas, los científicos pueden entender mejor los mecanismos biológicos subyacentes a los efectos médicos o económicos de esta especie. Por ejemplo, los genes que controlan el complejo ciclo vital del parásito de la malaria, que ocurre parcialmente dentro de un mosquito hospedador y parcialmente dentro del cuerpo humano, pueden ser comprendidos mejor, revelando nuevas formas de controlar la enfermedad infecciosa más común del mundo. Genética química Otra etapa en el proceso de transferencia de información que puede usarse como objetivo para el fenocopiado es la misma proteína. Se ha desarrollado una técnica a escala genómica para tal propósito, llamada genética química. Esta técnica, ampliamente usada en la industria farmacéutica, se basa en reducir la actividad del producto proteico de un gen diana a través de la unión de una pequeña molécula inhibidora (Figura 13-24). Con el uso de la robótica se pueden analizar bibliotecas de miles de pequeñas moléculas sintéticas relacionadas y probar su habilidad de unirse fuertemente a una proteína específica, inhibiendo así su actividad in vitro. Entonces, una molécula prometedora se puede introducir en las células y probar su habilidad de alterar la función. Si un compuesto inhibe la actividad proteica suficientemente, entonces una célula o un organismo podrían ser tratados con este compuesto químico para conseguir una fenocopia del fenotipo mutante para el gen diana. A pesar de su nombre, la genética química no es una técnica genética, porque no implica a la herencia. Por el contrario, es una extensión sistemática del uso antiguo de fármacos inhibitorios (una forma de fenocopiar) para inactivar una proteína en un proceso bioquímico específico en la célula. El problema con la mayoría de fármacos inhibitorios es que no son 100 por cien específicos a una única proteína, y por lo tanto, (pág. 481) (pág. 482) inadvertidamente inhiben a menudo proteínas y múltiples procesos bioquímicos de un organismo, causando ambigüedades que hacen difícil la interpretación de los resultados. Mediante el uso de bibliotecas químicas y de pruebas robóticas para especificidad, la genómica química mantiene la promesa de desarrollar compuestos con mucha más especificidad, eficacia y seguridad que los métodos tradicionales de rastreo de fármacos. Mensaje: El RNAi y la genómica química proporcionan métodos para interferir experimentalmente la función de un gen específico sin cambiar su secuencia de DNA (generalmente denominado fenocopiado). Genómica funcional con organismos no modelo La mayor parte de nuestra consideración acerca del análisis minucioso de las mutaciones y el fenocopiado se ha centrado en organismos modelo para la genética. Uno de los siguientes desafíos es aplicar estos sistemas más abiertamente, incluyendo las especies que tienen efectos negativos sobre la sociedad humana, como los parásitos, los transmisores de enfermedades o las pestes agrícolas. Las técnicas genéticas clásicas no están todavía a punto para ser aplicadas en la mayoría de estas especies, pero las funciones de genes específicos pueden ser estudiadas por transgénesis o fenocopiado. La Figura 13-25 muestra una primera aproximación (la inserción de transgenes). El ejemplo trata de escarabajos, muchos de los cuales causan plagas agrícolas. En este caso, los transgenes fueron insertados al azar en el genoma del escarabajo. Los escarabajos transgénicos se pueden obtener usando una metodología similar a la que se usa para producir Drosophila transgénicas (véase el Capítulo 20). Sin embargo, es necesario algún método para identificar las transgénesis exitosas. Así, la técnica requiere el uso de un gen informador que se pueda expresar en un destinatario de tipo salvaje. La proteína fluorescente verde (GFP, del inglés green fluorescent protein), que fue originalmente aislada de una medusa, es un marcador útil para esta aplicación. Como en Drosophila, los transgenes son insertados como partes de los transposones, y un plásmido ayudante que codifica una transposasa facilita la inserción del transposón que lleva el transgén. La Figura 13-25 muestra el uso de los transgenes GFP conducidos por un elemento intensificador que dirige la expresión en el ojo del insecto. Este método se ha usado eficazmente para crear transgenes que expresan GFP en la especie del mosquito que transmite la fiebre amarilla y la fiebre dengue (Aedes aegypti), el escarabajo de la harina (Tribolium castaneum) y la polilla del gusano de la seda (Bombyx mori) (Figura 13-26). (pág. 482) (pág. 483) Resumen El análisis genómico usa las aproximaciones del análisis genético y las aplica a la colección de conjuntos de datos globales para cumplir con objetivos tales como la cartografía y secuenciación de genomas enteros y la caracterización de todos los transcritos y proteínas. Las técnicas genómicas requieren el procesado rápido de grandes conjuntos de material experimental, y por lo tanto son completamente dependientes de la automatización extensiva. El principal problema en la compilación de la secuencia precisa de un genoma es relacionar lecturas cortas de secuencia entre ellas según la identidad de secuencia para elaborar una secuencia consenso de un genoma completo. Esto se puede llevar a cabo muy fácilmente en los genomas bacterianos o de las arqueobacterias, mediante el alineamiento de secuencias de diferentes lecturas de secuencia que se solapan para finalmente compilar el genoma entero, porque en estos organismos hay muy pocos o ningún segmento de DNA que esté presente en más de una copia. Sin embargo, los genomas complejos están repletos de secuencias repetitivas que interfieren con la producción de contigs de secuencia exacta. El problema se resuelve ya sea por secuenciación aleatoria de genomas completos con el uso de lecturas de extremos emparejados, o por secuenciación de clones ordenados, que trata los elementos repetitivos dispersos como únicos en el contexto de un clon. A diferencia de la secuenciación WGS, la secuenciación clon a clon requiere la elaboración de un mapa físico de la distribución de los clones ordenados y orientados. La elaboración del mapa de la secuencia genómica proporciona el texto bruto y encriptado del genoma. El objetivo de la bioinformática es la interpretación de esta información encriptada. Para el análisis de los productos génicos, se usan técnicas computacionales para la identificación de marcos abiertos de lectura y de RNAs no codificadores, y luego para la integración de estos resultados con evidencias experimentales disponibles de estructuras de transcritos (secuencias de cDNA), similitudes de proteínas y el conocimiento de motivos de secuencia característicos. Uno de los métodos más potentes para avanzar en el análisis y la anotación de los genomas es la comparación de los genomas de especies relacionadas. La conservación de secuencias entre especies es una guía fiable para identificar secuencias funcionales en los organismos complejos de muchos animales y plantas. La genómica comparativa puede también desvelar cómo han cambiado los genomas durante el curso de la evolución y cómo estos cambios podrían relacionarse con diferencias en la fisiología, la anatomía o el comportamiento entre las especies. En la genómica bacteriana, comparaciones entre cepas patogénicas y no patogénicas han desvelado muchas diferencias en el contenido génico que podrían contribuir a la patogenicidad. La genómica funcional trata de entender el funcionamiento del genoma como un sistema entero. Dos elementos clave son el transcriptoma, el conjunto de todos los transcritos producidos, y el interactoma, el conjunto de productos génicos y otras moléculas en interacción que conjuntamente permiten la producción y el funcionamiento de la célula. La función de genes individuales y productos génicos para los que no hay disponibles mutaciones clásicas pueden ser estudiados mediante la genética inversa, por mutación dirigida o fenocopiado. Términos clave andamio (p. 461) anotación (p. 464) bioinformática (p. 463) biología de sistemas (p. 479) ChIP (ensayo de inmunoprecipitación de la cromatina) (p. 478) contig de clones (p. 461) contig de secuencias (p. 460) ensamblado de secuencias (p. 456) etiquetas de secuencia expresada (EST) (p. 465) genética inversa (p. 479) genética química (p. 481) genómica (p. 454) genómica comparativa (p. 470) genómica funcional (p. 475) genoteca genómica (p. 459) homólogo (p. 471) interferencia de RNA (RNAi) (p. 481) lectura de extremos emparejados (p. 461) mapa físico (p. 461) marco abierto de lectura (ORF) (p. 465) microarray (p. 475) ortólogo (p. 471) parálogo (p. 471) proteoma (p. 464) proyecto genoma (p. 455) prueba del doble híbrido (p. 477) pseudogén (p. 468) pseudogén procesado (p. 468) secuencia consenso (p. 457) sintenia (p. 471) supercontig (p. 461) vector (p. 459) Problemas resueltos Problema resuelto 1. Quiere estudiar el desarrollo del sistema olfativo (recepción de olores) en el ratón. Sabe que las células que perciben olores químicos específicos (odorantes) están localizados en el revestimiento de las fosas nasales del ratón. Describa algunas aproximaciones para usar la genética inversa con el objetivo de estudiar la olfacción. (pág. 483) (pág. 484) SOLUCIÓN Pueden idearse muchas aproximaciones. En la genética inversa, querría identificar genes candidatos que se expresen en el revestimiento de las fosas nasales. Dadas las técnicas de la genómica funcional, esta identificación se podría llevar a cabo mediante la purificación del RNA aislado de las células de las fosas nasales y el uso de este RNA como sonda para los chips de DNA que contengan las secuencias correspondientes a todos los mRNAs conocidos del ratón. Por ejemplo, podría escoger para examinar en primer lugar los mRNAs que se expresan exclusivamente en el revestimiento de las fosas nasales y no en otras partes del ratón, como candidatos importantes para funciones específicas en la olfacción. (Muchas de las moléculas importantes podrían también tener otras funciones en otras partes del cuerpo, pero debe empezar por algún sitio.) Alternativamente, podría escoger para empezar los genes cuyos productos proteicos son proteínas candidatas para la unión con los odorantes. Sin reparar en su elección, el siguiente paso sería diseñar un noqueado dirigido del gen que codifica cada mRNA o proteína de interés o usar una inyección de RNA antisentido o RNA de doble cadena para intentar fenocopiar el fenotipo de pérdida de función de cada uno de los genes candidatos. Problemas PROBLEMAS BÁSICOS 1. El término contig deriva de la palabra contiguo. Explique la derivación. 2. Explique la aproximación que aplicaría para secuenciar el genoma de una especie bacteriana recientemente descubierta. 3. Las lecturas de secuenciación de los extremos de los insertos de clones son una parte rutinaria de la secuenciación genómica. Pero, ¿cómo se obtiene la parte central del inserto del clon? 4. ¿Cuál es la diferencia entre contig y andamio? 5. Se sospecha que dos clones son adyacentes, posiblemente separados por DNA repetitivo. En un intento de vincularlos, las secuencias de los extremos son usadas como cebadores para intentar llenar el hueco. ¿Es razonable esta aproximación? ¿En qué situación no funcionará? 6. Un segmento de DNA clonado que contiene un gen que codifica una proteína se marca radiactivamente y se usa en una hibridación in situ. La radioactividad fue observada en cinco regiones de distintos cromosomas. ¿Cómo podríamos explicar este resultado? 7. En un experimento de hibridación in situ, un determinado clon se pudo relacionar únicamente con el cromosoma X en un niño sin síntomas de enfermedad. Sin embargo, en un niño con distrofia muscular de Duchenne (enfermedad recesiva ligada al cromosoma X), el clon fue relacionado con el cromosoma X y con un autosoma. Explique. ¿Podría ser este clon útil para aislar el gen de la distrofia muscular de Duchenne? 8. En un análisis genómico en el que se pretende buscar un determinado gen, se encuentra un gen candidato que tiene una sustitución de un solo par de bases que resulta en un cambio aminoacídico no sinónimo. ¿Qué debería comprobar antes de descorchar el cava? 9. ¿Es un operador bacteriano un sitio de unión? 10. Un determinado cDNA de 2 kb de tamaño hibridó con ocho fragmentos genómicos que sumaban un tamaño total de 30 kb e incluyó dos ESTs cortos. Los ESTs también se encontraron en dos de los fragmentos genómicos, cada uno de 2 kb de tamaño. Sugiera una posible explicación para estos resultados. 11. Un fragmento de DNA secuenciado en Drosophila fue usado en una búsqueda por BLAST. El mejor emparejamiento (el más cercano) fue con el gen de una quinasa de Neurospora. ¿Significa este emparejamiento que la secuencia de Drosophila contiene el gen de una quinasa? 12. En una prueba del doble híbrido, un determinado gen A dio resultados positivos con dos clones: M y N. Cuando M fue usado, este dio positivos con tres clones: A, S i Q. El clon N dio sólo un positivo (con A). Desarrolle una posible interpretación para estos resultados. 13. Tiene las siguientes lecturas de secuencia de un clon genómico del genoma de Drosophila melanogaster: Lectura 1: TGGCCGTGATGGGCAGTTCCGGTG Lectura 2: TTCCGGTGCCGGAAAGA Lectura 3: CTATCCGGGCGAACTTTTGGCCG Lectura 4: CGTGATGGGCAGTTCCGGTG Lectura 5: TTGGCCGTGATGGGCAGTT Lectura 6: CGAACTTTTGGCCGTGATGGGCAGTTCC Use estas seis lecturas de secuencias para crear un contig de la secuencia de esta parte del genoma de D. melanogaster. 14. A veces, los cDNAs se convierten en “monstruos”; es decir, fusiones de copias de DNA de dos mRNAs distintos se insertan accidentalmente adyacentes el uno al otro en el mismo clon. Sospecha que un clon de cDNA del nematodo Caenorhabditis elegans es un monstruo de éstos porque la secuencia del inserto de cDNA predice una proteína con dos dominios estructurales que normalmente no se observan juntos en la misma proteína. ¿Cómo usaría la disponibilidad de la secuencia genómica entera para determinar si este clon de cDNA es un monstruo o no? 15. Ha secuenciado el genoma de la bacteria Salmonella typhimurium, y está haciendo un análisis por BLAST para identificar similitudes dentro del genoma de S. typhimurium con proteínas conocidas. Encuentra una proteína que es 100 por cien idéntica en la bacteria Escherichia coli. Cuando compara las secuencias nucleotídicas de los genes de S. typhimurium y E. coli, encuentra que las secuencias nucleotídicas son sólo un 87% idénticas. a. Explique esta observación. (pág. 484) (pág. 485) b. ¿Qué le dicen estas observaciones acerca de las ventajas de las búsquedas por similitud de nucleótidos versus proteínas para la identificación de genes relacionados? 16. Para inactivar un gen por RNAi, ¿qué información necesita? ¿Necesita la posición en el mapa del gen diana? 17. Describa dos métodos distintos usados para generar fenocopias. ¿Cuál es el propósito de generar una fenocopia? 18. ¿Cuál es la diferencia entre la genética directa y la inversa? PROBLEMAS PARA PENSAR 19. Tiene las siguientes lecturas de secuencia de un clon genómico del genoma de Homo sapiens: Lectura 1: ATGCGATCTGTGAGCCGAGTCTTTA Lectura 2: AACAAAAATGTTGTTATTTTTATTTCAGATG Lectura 3: TTCAGATGCGATCTGTGAGCCGAG Lectura 4: TGTCTGCCATTCTTAAAAACAAAAATGT Lectura 5: TGTTATTTTTATTTCAGATGCGA Lectura 6: AACAAAAATGTTGTTATT a. Use estas seis lecturas de secuencias para crear un contig de la secuencia de esta parte del genoma de H. sapiens. b. Traduzca el contig de secuencia en todos los marcos de lectura posibles. c. Vaya a la página del BLAST del Centro Nacional de Información Biotecnológica, o NCBI (del inglés National Center for Biotechnology Information) (http://www.ncbi.nlm.nih.gov/BLAST/, y vea el Apéndice B), e intente identificar el gen al que pertenece esta secuencia, usando cada uno de los marcos de lectura como secuencia problema para una comparación proteínaproteína (BLASTp). 20. Algunas regiones bastante grandes de los distintos cromosomas del genoma humano son más del 99% idénticas entre ellas. Estas regiones no fueron consideradas para la elaboración de la secuencia borrador del genoma humano debido a su elevado nivel de similitud. De entre las técnicas discutidas en este capítulo, ¿cuál permitiría a los investigadores genómicos identificar la existencia de estas regiones duplicadas? 21. Algunos exones del genoma humano son bastante pequeños (menos de 75 pb). La identificación de estos “microexones” es difícil, ya que estas distancias son demasiado cortas para usar con fiabilidad la identificación de ORFs o el sesgo en el uso de codones para determinar si estas secuencias genómicas tan pequeñas son realmente parte de un mRNA y de un polipéptido. ¿Qué técnicas de “búsqueda de genes” podrían usarse para intentar descubrir si una región dada de 75 pb constituye un exón? 22. Está estudiando proteínas involucradas en la traducción en el ratón. Mediante un análisis por BLAST de las proteínas predichas en el genoma del ratón, identifica un conjunto de genes en el ratón que codifican proteínas con secuencias similares a los factores de inicio de la traducción conocidos en los eucariotas. Está interesado en determinar los fenotipos asociados con mutaciones de pérdida de función en estos genes. a. ¿Usaría aproximaciones de genética directa o inversa para identificar estas mutaciones? b. Explique a grandes rasgos dos aproximaciones distintas que podría usar para buscar fenotipos de pérdida de función en uno de estos genes. 23. El genoma entero de la levadura Saccharomyces cerevisiae ha sido secuenciado. Esta secuenciación ha llevado a la identificación de todos los marcos abiertos de lectura (ORFs, secuencias generalizadas con señales adecuadas de inicio y fin de la traducción) en el genoma. Algunos de estos ORFs son genes ya conocidos con funciones establecidas; sin embargo, el resto son marcos de lectura no asignados (URFs, del inglés unassigned reading frames). Con el objetivo de deducir las posibles funciones de los URFs, estos están siendo sistemáticamente, uno a uno, convertidos en alelos nulos mediante técnicas de noqueado in vitro. Los resultados son los siguientes: El 15% son letales cuando son noqueados. El 25% muestran algún fenotipo mutante (morfología alterada, alimentación alterada, etcétera). El 60% no muestra ningún fenotipo mutante detectable, pareciéndose al tipo salvaje. Explique las posibles bases genético-moleculares de estas tres categorías mutantes, inventando ejemplos cuando sea posible. 24. Diferentes cepas de E. coli son responsables de infecciones enterohemorrágicas y del tracto urinario. Considerando las diferencias entre la cepa benigna K-12 y la cepa enterohemorrágica O157:H7, ¿predeciría que hay diferencias genómicas obvias: a. Entre la cepa K-12 y la uropatogénica? b. Entre la cepa O157:H7 y la uropatogénica? c. ¿Qué podría explicar las diferencias a pares en el contenido genómico? d. ¿Cómo se podría probar la función de los genes específicos de cepa? (pág. 485) (pág. 486) EXPLORACIÓN DE LOS GENOMAS Una tutoría en Web sobre bioinformática Introducción a las bases de datos genómicas ¿Dónde acude un investigador para encontrar información sobre un gen? Las bases de datos genéticas integradas están mantenidas por varias organizaciones privadas y gubernamentales. En la primera tutoría de Genómica en el sitio Web www.whfreeman.com/iga9e, se le introducirá a los recursos disponibles a través del Centro Nacional de Información Biotecnológica (NCBI, del inglés National Center for Biotechnology Information) en Washington, D.C. Aprenda a usar ENTREZ El programa ENTREZ del NCBI es una herramienta de búsqueda integrada que enlaza varias bases de datos que tienen distintos tipos de contenidos. En la tutoría de Genómica en el sitio Web www.whfreeman.com/iga9e, podrá usar ENTREZ para buscar el gen de la distrofina asociado con la distrofia muscular y encontrar referencias de la literatura científica, la secuencia del gen y sus dominios conservados, el gen equivalente en varios organismos a parte del humano, y su localización en el mapa cromosómico. Aprenda a usar BLAST Para comparar una secuencia proteica con otra, a menudo usamos un programa de ordenador llamado BLAST. Este programa nos permite usar una secuencia proteica para buscar y encontrar secuencias de otros organismos que se le asemejan. En la tutoría de Genómica en el sitio Web www.whfreeman.com/iga9e, podrá lanzar un BLAST sobre una proteína pequeña y simple, la insulina (véase el Capítulo 11), y sobre una de larga y compleja, la distrofina. El uso del BLAST parar comparar secuencias de ácidos nucleicos El algoritmo BLAST también es capaz de buscar secuencias de ácidos nucleicos y compararlas. En la tutoría de Genómica en el sitio Web www.whfreeman.com/iga9e, verá que la comparación de secuencias de RNA de transferencia entre especies es una buena manera de explorar esta utilidad. Aprenda a usar PubMed PubMed proporciona una base de datos consultable de la literatura científica del mundo. En la tutoría de Genómica en el sitio Web www.whfreeman.com/iga9e, aprenderá a hacer búsquedas de literatura para encontrar el primer anuncio de una secuencia génica y artículos sucesivos que demuestran la función del gen. Clusters de grupos ortólogos A medida que las bases de datos crecen, encontramos más genes similares en diferentes especies. Estos ortólogos pueden ser analizados para investigar su grado de conservación y su distribución en el árbol filogenético. En la tutoría de Genómica en el sitio Web www.whfreeman.com/iga9e, aprenderá cómo llevar a cabo estas investigaciones usando la base de datos de COGs (del inglés Clusters of Orthologous Groups), que contiene información sobre la conservación y distribución de ortólogos inferidos a partir de genomas completamente secuenciados. Análisis de todo el genoma Ahora tenemos muchos genomas completamente secuenciados con los que jugar. Su disponibilidad permite el análisis computacional como el que vimos para analizar la base de datos de COGs. También nos permite diseñar experimentos para probar qué genes actúan en qué procesos y cómo los varios productos génicos interaccionan entre ellos. En la tutoría de Genómica en el sitio Web www.whfreeman.com/iga9e, verá como investigar estas cuestiones en el nivel de todo el genoma, usando técnicas como la deleción de genes para examinar los fenotipos de pérdida de función o los métodos para investigar interacciones proteína-proteína a gran escala. PIES DE FIGURAS Figura inicial El genoma nuclear humano contemplado como un conjunto de DNA marcado. El DNA de cada cromosoma se ha marcado con un colorante que emite fluorescencia para una determinada longitud de onda, produciendo un color específico. [Evelin Schrock y Thomas Ried.] Figura 13-1 Muestra de hueso de neandertal para la secuenciación del DNA Una muestra (abajo) fue sacada del fémur izquierdo (arriba) del espécimen original de neandertal para su uso en la secuenciación del DNA. [De M. Krings et al., “Neanderthal DNA Sequences and the Origin of Modern Humans”, Cell 90, 1997, 19-30, Fig. 1.] Figura 13-2 Lógica de la elaboración de un mapa de la secuencia del genoma Para elaborar un mapa de la secuencia del genoma, se cortan en piezas pequeñas múltiples copias del genoma, que luego serán clonadas y secuenciadas. Las lecturas de secuencia resultantes se solapan emparejando las secuencias idénticas en distintos clones hasta que se ha producido una secuencia consenso de cada doble hélice del DNA del genoma. Figura 13-3 La secuenciación de genomas se realiza actualmente de forma automatizada Parte de la cadena de producción automatizada de un gran centro de secuenciación del genoma humano. Todo este equipamiento es usado para el rápido procesado de enormes cantidades de clones para la secuenciación del DNA. [Copyright Bethany Versoy; todos los derechos reservados.] Figura 13-4 Las lecturas de los extremos de múltiples insertos pueden solaparse para producir un contig Las lecturas de secuencia se efectúan sólo de los extremos de los insertos clonados. (a) El uso de dos sitios cebadores distintos, uno en cada extremo del vector, permite la secuenciación de hasta 600 pares de bases a cada extremo del inserto genómico. Si se secuencian los dos extremos del mismo clon, las dos lecturas de secuencia resultantes reciben el nombre de lecturas de extremos emparejados. Figura 13-5 Las lecturas de extremos emparejados pueden usarse para unir dos contigs de secuencia Las lecturas de extremos emparejados pueden usarse para unir dos contigs de secuencia en un solo andamio ordenado y orientado. Figura 13-6 Estrategia usada para el ensamblaje de la secuenciación aleatoria de genomas completos En el uso de la aproximación de la secuenciación aleatoria de genomas completos, primero los solapamientos de secuencia únicos entre lecturas de secuencias son usados para formar los contigs. Luego se usan las lecturas de extremos emparejados para cubrir los huecos y para ordenar y orientar los contigs en unidades más largas, llamadas andamios. Figura 13-7 Un mapa físico pone los clones en orden Elaboración de un mapa físico mediante cartografía de huellas digitales de clones. (a) Se digieren cuatro clones con múltiples enzimas de restricción, y la mezcla de fragmentos de restricción resultante se separa por tamaño mediante electroforesis en gel. Las bandas que contienen los fragmentos se tiñen para mostrar su localización y se determina el número de bandas de tamaño idéntico para cada par de digestiones. Las digestiones A y B comparten más del 50% de las bandas, igual como las digestiones B y C, indicando que vienen de regiones que se solapan en el genoma. Varias bandas están presentes en A, B y C, lo que sugiere que alguna parte de los tres clones se solapa. (b) Mapa físico derivado de los datos de la parte (a). El clon D es de algún otro sitio del genoma, porque no se solapa con ninguno de los otros tres clones. Figura 13-8 Estrategia usada para la secuenciación de clones ordenados La cartografía física identifica una serie de clones que se solapan mínimamente. Los clones se dividen en subclones, los cuales son secuenciados y reensamblados. Figura 13-9 El contenido informativo del genoma incluye los sitios de unión Un gen dentro del DNA puede verse como una serie de sitios de unión para proteínas y RNAs. Figura 13-10 Los cDNA y los ESTs revelan exones o los extremos de los genes en los rastreos genómicos Alineamiento de DNAs complementarios completamente secuenciados (cDNAs) y etiquetas de secuencia expresada (ESTs) con el DNA genómico. Las líneas discontinuas indican regiones de alineamiento; en el caso del cDNA, estas regiones se corresponden con los exones del gen. Los puntos entre segmentos del cDNA o de los ESTs indican regiones en el DNA genómico que no se alinean con el cDNA o las secuencias de ESTs; estas regiones se corresponden con los intrones. Los números encima de la línea del cDNA indican las coordenadas de las bases de la secuencia del cDNA, donde la base 1 es la base situada más cerca a la región 5’ y la base 816 es la base situada más cerca a la región 3’ del cDNA. En el caso de los ESTs, sólo se obtiene una pequeña lectura de secuencia de cada extremo (5’ y 3’) del cDNA correspondiente. Estas lecturas de secuencia limitan los bordes de la unidad de transcripción, pero no son informativas respecto a la estructura interna del transcrito a menos que las secuencias de ESTs atraviesen un intrón (como ocurre con el EST situado en la región 3’ de la figura). Figura 13-11 Los rastreos genómicos buscan varios sitios de unión La información en los eucariotas se transfiere del gen a la cadena polipeptídica. Nótese que a los “sitios de unión” del DNA y del RNA se unen complejos proteicos con el fin de iniciar los eventos de la transcripción, el proceso de corte y empalme y la traducción. Figura 13-12 Se integran muchos tipos de evidencia para hacer predicciones de genes Los distintos tipos de evidencia de productos génicos (los cDNAs, los ESTs, los aciertos por similitud del BLAST, el sesgo en el uso de codones y los aciertos en la búsqueda de motivos) se integran para hacer predicciones de genes. Cuando múltiples clases de evidencia se encuentran asociadas a una secuencia de DNA genómico particular, es más probable que la predicción del gen sea acertada. Figura 13-13 Mapa de la secuencia del cromosoma 20 humano Se han identificado muchos genes en el cromosoma 20 humano. Las coordenadas de los mapas de recombinación y citogenético se muestran en las líneas superiores de la figura. En las secciones intermedias varios gráficos representan la densidad génica y diferentes propiedades del DNA. Los identificadores de los genes predichos se muestran en la parte inferior del panel. [Cortesía de Jim Kent, Ewan Birney, Darryl Leja y Francis Collins. Según el Consorcio Internacional de Secuenciación del Genoma Humano, “Inicial Sequencing and Analysis of the Human Genome”, Nature 409, 2001, 860-921.] Figura 13-14 Mapa citogenético del cromosoma 7 humano En el cromosoma 7 se han cartografiado los puntos de rotura de reordenaciones de pacientes con trastornos genéticos, creando un mapa citogenético. [Según W. S. Scherer et al., “Human Chromosome 7: DNA Sequence and Biology”, Science 300, 2003, 769 y 771, Figs. 2 y 5.] Figura 13-15 Los genomas del ratón y el humano tienen largos bloques sinténicos de genes en común Sintenia entre el cromosoma 17 humano y el cromosoma 11 del ratón. Se muestran largos bloques sinténicos conservados de 100 o más kb de tamaño en el cromosoma 17 humano, el cromosoma 11 del ratón y el cromosoma inferido de su último ancestro común (reconstruido a partir del análisis de otros genomas de mamíferos). Los bloques directos de sintenia se muestran en azul claro y los bloques invertidos en verde. Los tamaños de los cromosomas se indican en megabases (Mb). [Según M. C. Zody et al., “DNA Sequence of Human Chromosome 17 and Analysis of Rearrangement in the Human Lineage”, Nature 440, 2006, 1045-1049, Fig. 2.] Figura 13-16 Prueba del papel de un elemento conservado en la regulación génica Se ha identificado un elemento regulador de la transcripción que actúa en cis en un elemento ultraconservado del genoma humano. El elemento ultraconservado, que está cerca del gen ISL1 humano, fue unido a un gen informador e inyectado en oocitos fecundados de ratón. Las regiones en las que se expresa el gen aparecen manchadas en azul o negro. (a) El gen informador se expresa en la cabeza y médula espinal de un ratón transgénico, mostrándose aquí el día 11.5 de la gestación. Este patrón de expresión se corresponde con el (b) del patrón de expresión natural del gen ISL1 de ratón en el día 11.5 de la gestación. Este experimento demuestra cómo los elementos no codificadores funcionales pueden ser identificados mediante genómica comparativa y probados en un organismo modelo. [De G. Bejerono et al., “A Distal Enhancer and an Ultraconserved Exon Are Derived from a Novel Retroposon”, Nature 441, 2006, 87-90, Fig. 3.] Figura 13-17 Dos cepas de E. coli contienen islas de genes específicos de cada cepa Los mapas genómicos circulares de las cepas de E. coli K-12 y O157:H7. El círculo representa la distribución de secuencias específicas de cada cepa. El esqueleto colineal común a las dos cepas se muestra en azul. Las posiciones de las secuencias específicas de la cepa O157:H7 se muestran en rojo, mientras que las específicas de la cepa K-12 se muestran en verde. Las posiciones de las secuencias específicas de O157:H7 y K-12 que coinciden en la misma posición se muestran en marrón claro. Las secuencias hipervariables se muestran en morado. [Según N. T. Perna et al., “Genome Sequence of Enterohaemorrhagic Escherichia coli O157:H7”, Nature 409, 2001, 7529-7533. Cortesía de Guy Plunkett III and Frederick Blattner.] Figura 13-18 El transcriptoma se estudia utilizando microarrays de DNA Detección por fluorescencia de uniones a microarrays de DNA. Las sondas son cDNAs obtenidos de la retrotranscripción de mRNAs. (a) Matriz de 1046 cDNAs hibridados con cDNAs marcados fluorescentemente obtenidos de mRNA de médula ósea. La señal del nivel de hibridación sigue los colores del espectro, con el rojo indicando más hibridación y azul menos hibridación. (b) GeneChip de Affymetrix, una matriz de 65 000 oligonucleótidos que representan 1641 genes hibridados con cDNAs específicos de tejido. [(a) Cortesía de Mark Scheria, Universidad de Stanford. La imagen apareció en Nature Genetics el 16 de junio de 1997, p. 127, Fig. 1a. (b) Cortesía de Affymetrix Inc., Santa Clara, California. La imagen fue tomada por David Lockhart. Affymetrix y GeneChip son marcas comerciales registradas en los Estados Unidos usadas por Affymetrix. La imagen apareció en Nature Genetics el 16 de junio de 1997, p. 127, Fig. 1b.] Figura 13-19 Los microarrays de DNA revelan perfiles de expresión génica Muestra de los patrones de expresión detectados por microarrays de DNA. Cada fila es un gen distinto, y cada columna es un punto en la línea del tiempo. El rojo indica que los niveles de transcrito para el gen son superiores que en el momento inicial, mientras que el verde indica que los niveles de transcrito son inferiores. Las cuatro columnas marcadas como +cyc son de células cultivadas en ciclohexamida, lo que indica que no tuvo lugar síntesis proteica en estas células. [Mike Eisen y Vishy Iyer, Universidad de Stanford. La imagen apareció en Nature Genetics el 18 de marzo de 1998, p. 196, Fig. 1.] WWW.ANIMATED ART: Microarrays de DNA: uso de una matriz de oligonucleótidos para analizar los patrones de expresión de genes Figura 13-20 Estudio de las interacciones proteicas utilizando el sistema del doble híbrido en la levadura El sistema usa la unión de dos proteínas que se están investigando para restaurar la función de la proteína Gal4, que activa un gen informador. Cam, Trp y Leu son componentes de los sistemas de selección para trasladar los plásmidos entre células. El gen informador es lacZ, que reside en un cromosoma de la levadura (mostrado en azul). Figura 13-21 Pasos del ensayo de immunoprecipitación de la cromatina (ChIP) ChIP es una técnica para aislar el DNA y sus proteínas asociadas en una región específica de la cromatina, de forma que ambos puedan ser analizados conjuntamente. Figura 13-22 Alteración de la función génica utilizando mutagénesis dirigida El suceso molecular básico en la sustitución dirigida de genes. Un transgén, que contiene las secuencias de los extremos de un gen pero con un segmento de DNA que puede seleccionarse en medio, es introducido en una célula. Una doble recombinación entre el transgén y el gen cromosómico normal produce un gen cromosómico recombinante que ha incorporado el segmento anormal. Figura 13-23 Alteración de la función génica utilizando la interferencia de RNA Tres formas para crear e introducir un RNA de doble cadena (dsRNA) en una célula. El dsRNA después estimulará el RNAi, degradando las secuencias que coinciden con las del dsRNA. [Reimpreso con permiso de S. Hammond, A. Caudy y G. Hannon, Nat. Rev. Genet. 2, 2001, 116.] Figura 13-24 Alteración de la función proteica utilizando genética química La genética química se usa para reducir la actividad de una proteína de un gen diana a través de la unión de una pequeña molécula inhibidora. (a) Ejemplo de genética química directa, en la que moléculas pequeñas son directamente probadas en células de levadura para identificar una que produzca un fenotipo de interés. (b) Ejemplo de la genética química inversa, en la que una pequeña molécula se une primero a una proteína de interés y subsecuentemente se prueba su efecto fenotípico cuando se aplica a las células. [De B. Stockwell, “Chemical Genetics: Ligand-Based Discovery of Gene Function”, Nat. Rev. Genet. 1, 2000, 117.] Figura 13-25 Inserción de transgenes en un organismo no modelo Creación de escarabajos transgénicos que expresan una proteína verde fluorescente. TIR, repetición invertida terminal (del inglés terminal inverted repeat). [De E. A. Wimmer, “Applications of Insect Transgenesis”, Nat. Rev. Genet. 4, 2003, 225-232.] Figura 13-26 Ejemplos de insectos no modelos expresando un transgén Ejemplos de una proteína informadora transgénica verde fluorescente expresada en los ojos de algunos insectos no modelo. La expresión es dirigida por un único promotor activo en el ojo. Los insectos son el mosquito (Aedes aegypti), la polilla del gusano de la seda (Bombyx mori) y el escarabajo (Tribolium castaneum). [(a-c) Cortesía de V. A. Kooks y Alexander S. Raikhel. (d) De J. L. Thomas et al. Copyright 2002 de Elsevier Science. (e y f) Cortesía de Marek Jindra. (g-i) Copyright 2000 de Elsevier Science.] PARCHEADOS Figura 13-2 Lógica de la elaboración de un mapa de secuencia del genoma 1 Genoma 2 Se cortan varias copias del genoma en fragmentos aleatorios. 3 Se hace una librería de los fragmentos clonados. 4 Se secuencia cada clon. 5 Se solapan las lecturas de secuencias. 6 Se solapan los contigs en una secuencia completa. Figura 13-4 Las lecturas de los extremos de múltiples insertos pueden solaparse para producir un contig 1 Cebador 2 2 Cebador 1 Figura 13-5 Las lecturas de extremos emparejados pueden usarse para unir dos contigs de secuencia 1 Contig secuenciado A 2 Contig secuenciado B 3 Lectura de secuencia 1 4 Lectura de secuencia 2 5 Lecturas de extremos emparejados del mismo inserto clonado 6 Vector de un inserto largo 7 Andamio A-B Figura 13-6 Estrategia usada para el ensamblaje de la secuenciación aleatoria de genomas completos 1 Lecturas de extremos emparejados 2 Lecturas de extremos emparejados 3 Andamio 4 Contig secuenciado 1 5 Hueco 6 Contig secuenciado 2 7 Hueco 8 Contig secuenciado 3 Figura 13-7 Un mapa físico pone los clones en orden 1 Huella digital del DNA 2 Clon 3 Digestiones de restricción separadas en gel 4 Mapa físico Figura 13-8 Estrategia usada para la secuenciación de clones ordenados 1 Se ordenan los clones de insertos largos mediante el solapamiento de huellas del DNA para crear un mapa físico. 2 Marcador molecular 3 Mapa físico 4 Se seleccionan los clones con un solapamiento mínimo. 5 Se dividen en subclones. 6 Se secuencian los subclones. 7 Se ensamblan los subclones para crear la secuencia del genoma. Figura 13-9 El contenido informativo del genoma incluye los sitios de unión 1 Una proteína reguladora se une al DNA. 2 La RNA polimerasa se une al DNA. 3 El ribosoma se une al mRNA. 4 Los tRNAs se unen a cada codón del mRNA. 5 El espliceosoma se une al transcrito de RNA primario. 6 La proteína de terminación de la traducción se une al mRNA. 7 La polimerasa poli(A) se une al transcrito de RNA primario. 8 Intrón 9 Exón 10 Elemento de regulación de la transcripción 11 Promotor 12 Sitio de inicio de la traducción 13 Codones 14 Sitio de corte y empalme 5’ 15 Codones 16 Sitio de corte y empalme 3’ 17 Codones 18 Sitio de fin de la traducción 19 Sitio de poliadenilación Figura 13-10 Los cDNA y los ESTs revelan exones o extremos de los genes en los rastreos genómicos 1 Exón 1 2 Exón 2 3 Exón 3 4 Exón 4 5 DNA genómico Figura 13-11 Los rastreos genómicos buscan varios sitios de unión 1 Mapa de los sitios de unión en el genoma 2 Exón 3 Sitio de unión de la RNA polimerasa 4 Sitio de unión del ribosoma 5 Sitio de corte y empalme 5’ 6 Sitio de corte y empalme 3’ 7 Sitio de corte y empalme 5’ 8 Sitio de corte y empalme 3’ 9 Promotor 10 Sitio de inicio de la traducción 11 Intrón 12 Exón 13 Exón 14 DNA genómico 15 Sitio de unión de la RNA polimerasa 16 Cadena codificadora 17 Cadena molde 18 Transcripción 19 Transcrito de RNA primario 20 Sitio de corte y empalme 3’ 21 Sitio de corte y empalme 5’ 22 Sitio de corte y empalme 5’ 23 Sitio de corte y empalme 3’ 24 Corte y empalme 25 Sitio de unión del ribosoma 26 Traducción 27 Polipéptido Figura 13-12 Se integran muchas formas de evidencia para hacer predicciones de genes 1 Predicciones a partir de la proteína 2 Similitud por BLAST 3 Predicciones a partir del mRNA y sus propiedades 4 Sesgo en el uso de codones 5 Motivo de secuencia 6 Predicciones a partir de los programas de análisis de sitios de unión 7 Sitio promotor 8 Sitios de corte y empalme 9 Sitio de inicio de la traducción 10 Sitios de corte y empalme 11 Sitio de terminación de la traducción 12 Sitio de poliadenilación 13 Intrón 14 Exón 15 Intrón 16 Exón 17 Intrón 18 Exón 19 Marco abierto de lectura (ORF) 20 Gen predicho Figura 13-13 Mapa de la secuencia del cromosoma 20 humano 1 Cromosoma 20 Figura 13-14 Mapa citogenético del cromosoma 7 humano 1 Todos los puntos de rotura de reordenaciones 2 Todos los puntos de rotura de reordenaciones asociadas a malignidad 3 Todos los puntos de rotura de reordenaciones caracterizados a nivel de secuencia Figura 13-15 Los genomas del ratón y el humano tienen largos bloques sinténicos de genes en común 1 Cromosoma 11 del ratón 2 Cromosoma ancestral 3 Cromosoma 17 humano Figura 13-17 Dos cepas de E. coli contienen islas de genes específicos de cada cepa 1 Comparación de las cepas O157:H7 y K-12 de E. coli Figura 13-19 Los microarrays de DNA desvelan perfiles de expresión génica 1 Tiempo Figura 13-20 Estudio de las interacciones proteicas con el uso del sistema de dos híbridos de la levadura 1 Vectores de doble híbrido de levadura 2 Dominio de unión de Gal4 (DU) 3 Proteína “cebo” 4 Dominio de activación de Gal4 (DA) 5 Proteína “diana” 6 Unión 7 Interacción 8 Diana 9 Cebo 10 Transcripción 11 Promotor GAL 12 Gen informador lacZ 13 Gal4 DA 14 Gal4 DU Figura 13-21 Pasos en el ensayo de inmunoprecipitación de la cromatina (ChIP) 1 Interconexión entre las proteínas y el DNA. 2 Se rompe la cromatina en piezas pequeñas. 3 Se añade el anticuerpo a la proteína diana y se purifica. 4 Se revierten las interconexiones para separar el DNA y la proteína. 5 Anticuerpo 6 Amplificación y secuenciación Figura 13-22 Alteración de la función génica usando la mutagénesis dirigida 1 Gen A con un segmento mutante 2 Secuencia mutante 3 Cromosoma 4 Gen A 5 Recombinación entre el transgén mutante y el gen cromosómico 6 Gen A mutante 7 Cromosoma Figura 13-23 Alteración de la función génica usando la interferencia de RNA 1 El dsRNA es sintetizado in vitro. 2 Un transgén que contiene una repetición invertida es introducido en el genoma. 3 Un transgén que contiene dos promotores en orientaciones opuestas es introducido en el genoma. 4 El transcrito de RNA forma una estructura autocomplementaria de tallo y bucle. 5 Las moléculas de RNA complementarias se transcriben e hibridan. 6 El dsRNA es inyectado a la célula. Figura 13-24 Alteración de la función proteica usando la genética química 1 Genética química directa 2 Genética química inversa 3 Proteína de interés 4 Pocillos con colonias de levadura 5 Se añade un compuesto por pocillo. 6 Se explora qué compuestos se unen a la proteína. 7 Se encuentra el compuesto que produce el fenotipo de interés. 8 Se trata las células con la molécula que se une a la proteína. 9 Se identifica la proteína diana del compuesto. 10 Se hacen experimentos para determinar el fenotipo. Figura 13-25 Inserción de transgenes en un organismo no modelo 1 Promotor-intensificador GFP del ojo 2 Transposasa 3 Plásmido donador 4 Plásmido ayudante 5 Núcleo 6 Embrión 7 Microinyección de una mezcla de plásmidos en el embrión 8 Células germinales primordiales (algunas han incorporado los plásmidos) 9 El constructo del transgén se transpone en el genoma de algunas células de la línea germinal 10 Siguiente generación 11 Los escarabajos con los ojos verde fluorescente han heredado un transgén integrado en el genoma Figura del ejercicio 24 1 K-12 no patogénica 2 CFT073 uropatogénica 3 O157:H7 enterohemorrágica 4 Número total de proteínas = 7638 2996 (39.2%) en las tres cepas 911 (11.9%) en dos de las tres cepas 3554 (46.5%) en una de las tres cepas