Download genómica y evolución - Evolibro
Document related concepts
Transcript
Evolibro- La enseñanza de la Evolución GENÓMICA Y EVOLUCIÓN Lic. Ivanna Tomasco Laboratorio de Evolución Facultad de Ciencias. Universidad de la República Si definimos Genómica como el conjunto de ciencias y técnicas dedicadas al estudio integral del funcionamiento, el contenido, la evolución y el origen de los genomas, la importancia que esta tiene en la teoría evolutiva es evidente. Pero en realidad es más que eso. La clave aquí, es que todo proceso evolutivo de los discutidos anteriormente, como la selección natural en cualquiera de sus variantes, la deriva genética, el flujo génico, etc. dejan una huella característica en el ADN y esta puede ser identificada. La historia está escrita en el genoma. Hasta hace poco tiempo, los evolucionistas nos conformábamos con el estudio caso a caso y gen a gen, para poder estudiar la importancia relativa de cada uno de estos procesos en la evolución, y esperábamos que por acumulación llegáramos a conclusiones generales. Afortunadamente, ahora contamos con genomas completos, cada vez de más especies, y esto nos ha permitido evaluar lo anterior de una forma más integral. Debates históricos como el de seleccionismo vs. neutralismo en la evolución molecular (cuál es la importancia relativa de la selección natural positiva y la deriva genética en la evolución molecular) pueden analizarse a escala genómica. Además, la posibilidad de contar con comparaciones de genomas permite poner a prueba hipótesis que ya teníamos sobre la evolución de los mismos, habilitando un abanico de posibilidades de estudio en la teoría evolutiva. Y por último, surge un campo completamente nuevo de estudio, con concomitante descubrimiento patrones y fenómenos que requieren su explicación e interpretación, como se mencionará al final de este capítulo. Y, aunque obvio para algunos, vale la pena destacar que tanto los nuevos hallazgos como el uso de los genomas con aproximaciones anteriormente desarrolladas, siguen apoyando las ideas principales de la teoría evolutiva actual. No hace más que ampliar su aplicabilidad y fortalecerla. Como se trabaja con genómica Debido a su pequeño genoma, Haemophilus influenzae fue el primer organismo de vida libre cuyo genoma completo fue secuenciado, en 1995 por Craig Venter. En 2001 es publicado el primer borrador del genoma humano, por un consorcio internacional “Proyecto genoma humano”. La secuenciación de un genoma completo era hasta ese entonces un proceso costoso, tanto en tiempo como en dinero. Sin embargo por ese entonces comenzaron a desarrollarse nuevas tecnologías más eficientes que son las que actualmente se utilizan para la secuenciación de genomas. Una vez más, los avances concomitantes de la biología molecular y de la bioinformática han permitido desarrollar tecnologías que permiten la secuenciación a gran escala, de millones de fragmentos de ADN en simultáneo, lo que se conoce como tecnologías de secuenciación de nueva generación (NGS, de la sigla en inglés "next-generation sequencing"). Esto ha permitido que en los últimos años la adquisición de datos multilocus se vuelva cada vez más automatizado y accesible para la mayoría de los organismos. La tradicional secuenciación Sanger, en su versión automatizada con fluorocromos, sigue siendo usada para el trabajo a una escala menor, con objetivos diferentes. Y otras nuevas tecnologías proyectan ser aún más eficientes y económicas que las NGS, como la promesa de secuenciar un genoma humano en menos de 1 hora por aprox. 100 dólares (ej. a través de la secuenciación en tiempo real de una molécula de ADN, Pacific Biosciences, https://www.youtube.com/watch?v=v8p4ph2MAvI). www.evolibro.webnode.es Más allá de las variantes particulares y de los detalles de la técnica, una de las variantes de NGS comúnmente usada actualmente (ej. Illumina) es generar pequeñas secuencias de ADN de aproximadamente 100 pares de bases, que están distribuidas al azar por todo el genoma, llamadas reads. Estos millones de secuencias luego se solapan entre ellas, se ensamblan, por similitud de secuencia, en secuencias más largas. Sobre estas secuencias largas o contigs, de miles de pares de bases, se comienzan a identificar por su estructura diferentes regiones. Por ejemplo, se buscan marcos abiertos de lectura u ORF (del inglés Open Reading Frames), que son regiones que comienzan en un codón de inicio y terminan en un codon stop, y tienen un largo mínimo, lo que hace sospechar que son posibles candidatos a genes codificantes de proteínas. Una vez identificadas estas regiones, son comparadas por similitud de secuencia y estructura con otros genes previamente descritos, y puede sugerirse entonces que genes están presentes y las regiones dentro y entre éstos, proceso conocido como anotación. También se anotan regiones que no son genes codificantes de proteínas, pueden ser regiones estructurales, genes ribosomales, etc. Un conjunto de contigs anotados pueden servir para armar un borrador de genoma (scafold). Para tener un genoma completamente anotado, como el que tenemos hoy de humanos y otros seres vivos carismáticos o de interés productivo, es necesario además una etapa de mapeo cromosómico, es decir identificar cada scafold a que cromosoma del cariotipo descrito de la especie pertenece. Para todo este proceso, no es necesario contar con un genoma previamente descrito (secuenciación de novo), pero el contar con un genoma ya descrito y anotado de una especie cercana filogenéticamente, puede facilitar todo el proceso. Todas estas etapas, más otras muchas no descritas (como la eliminación de secuencias de baja calidad, de contaminantes humanos y de otros organismos como hongos, bacterias, entre otros) se realizan a través de complejos algoritmos informáticos. De hecho, si uno quisiera hacerlo, es muy difícil revisar estos datos “a ojo”, ya que el volumen de información es tal que muchos procesadores comunes ni siquiera pueden abrir el archivo con todos los reads que se generan. Si bien el investigador sabe los pasos que va siguiendo y puede cambiar ciertos parámetros en esos algoritmos, son procesos que se hacen en procesadores muy potentes, a veces incluso en servidores internacionales, y consumen bastante tiempo y memoria, además de mucho entrenamiento en recursos humanos. Asimismo, es importante rescatar la importancia que tiene toda esta información tan costosa para la comunidad científica. Como se menciona en el párrafo anterior, los avances y logros obtenidos dependen muchas veces de la información previa obtenida por otros grupos, Todos estos datos, desde los reads originales, como los archivos intermedios de evaluación de calidad de las secuencias, y los genomas completamente anotados, se encuentran disponibles en bases de datos públicas para que todos los puedan usar. También hay otras bases de datos de otras “ómicas” (ej.: proteómica, metabolómica, transcriptómica, etc.) intentando conecciones entre ellas mediante referencia cruzada, y pueda navegarse de una a la otra con fluidez. Algo que estamos enfrentando esta última década, es que ciertamente existe mucha mayor capacidad de generar datos que de analizarlos. Además de la genómica, hay otras formas de trabajo a gran escala que pueden ser usadas y que según el objetivo de trabajo son más económicas (en tiempo y dinero). Por ejemplo, el uso de transcriptomas es algo bastante usado. El transcriptoma es la secuenciación semejante a la descrita anteriormente, de todos los transcritos (ARN mensajeros) presentes en la célula. Básicamente, se extrae el ARN y con la transcriptasa reversa se hace ADN a partir de ARN, y luego se envía a secuenciar. Para un genoma dado, habrá muchos transcriptomas, dependiendo del tejido usado, o incluso dentro del mismo tejido, de las condiciones a las que se someta a las células en cuestión. Muchos de los genes serán compartidos entre transcriptomas (los genes de mantenimiento celular, que toda célula tiene activos para sobrevivir), y otros serán de uso exclusivo de cada tipo www.evolibro.webnode.es celular o condición fisiológica, etc. Aunque no tengamos la información de todo el genoma sino de de lo que se esté traduciendo en el momento, ni de los genes completos con sus intrones y zonas reguladoras, nos permite contar la región codificante de proteínas de muchos genes y poner a prueba muchas hipótesis. Además, se puede estudiar que genes son los activos en uno u otro tipo celular, compara entre células enfermas y sanas para identificar genes responsables de una determinada patología por ejemplo, etc. Una vez obtenidos los transcriptomas (o genomas) es posible diseñar experimentos más específicos, como de captura de exones o para a partir de una muestra detectar miles de mutaciones puntuales para usar como marcadores genéticos (SNP, del inglés Single Nucleotide Polymorphism). De esta forma, es posible evaluar cientos o miles de marcadores genéticos forma más directa, rápida y económica, ya que un requisito para aplicar estas metodologías es contar con información de alta calidad preexistente, de manera de identificar las regiones de interés y alinear las secuencias resultantes, para descubrir nuevas variantes. Nuevas respuestas a preguntas viejas Una de los aspectos más “taquilleros” de la evolución, es nuestro origen como especie. En los últimos 40 años se ha acumulado mucha información, tanto fósil como molecular, que nos ha permitido tener una visión bastante acabada del proceso. Sin embargo, aún hasta hace pocos años existían dudas sobre el origen geográfico de la especie humana moderna. La teoría más aceptada era que la especie humana moderna se habría originado en África hace no más de 200 mil años, y de ahí habría invadido otros continentes, reemplazando a homínidos anteriores, como el Neandertal de Europa y Asia. La evidencia molecular, tanto ADN mitocondrial, cromosoma Y,y marcadores nucleares, apoyaba la hipótesis anterior. Algunos autores, apoyados en evidencia fósil, como la coexistencia tanto espacial como temporal del Neandertal con humanos modernos, planteaban que habría habido hibridización entre ambas especies y cuestionaban el rol que los Neandertales habrían tenido en nuestra diferenciación como especie. Pero, nada como el genoma completo de ambas especies para resolver la incertidumbre. Sí, el genoma del Neandertal fue secuenciado, gracias a las nuevas técnicas de secuenciación NGS. El Neandertal es un subfósil y si bien se puede obtener ADN, este se encuentra muy degradado. Los métodos antiguos de secuenciación no permitían obtener secuencias largas, y solo algunos genes mitocondriales fueron secuenciados exitosamente. Con el procedimiento descrito anteriormente de NGS se secuenciaron millones de fragmentos degradados y éstos fueron ensamblados para conformar el genoma, con la facilidad adicional de contar con el genoma de H. sapiens, una especie muy relacionada. Las comparaciones de genomas neandertales y humanos, confirma la teoría del origen africano de la especie humana. Además, teniendo los genomas para comparar, es posible identificar aquellos alelos exclusivos que nos diferencian de los neandertales y del chimpancé (usado como grupo externo en la comparación por ser la especie viviente más emparentada), y buscar en estos genes señales de selección positiva. De esta forma existen muchos genes candidatos de haber estado implicados en la evolución adaptativa de los humanos como especie, y en paralelo estudiar que función cumplen y que ventaja selectiva podría haber tenido la variante involucrada. La diferencia genética de humano con el Neandertal, o incluso con los chimpancés no es mucha, pero unos pocos genes www.evolibro.webnode.es dan cuenta de nuestra diferencia con nuestros parientes más cercanos. Sin duda, estas aproximaciones nos acercan mucho más a conocer la respuesta a esta pregunta, y mucho se ha avanzado al respecto. Por otro lado, una vez que se cuenta con un volumen de información tal y los procesadores adecuados, fue posible aplicar nuevas formas de análisis que antes no se podía por falta de datos. Entre las formas de análisis, recientemente se ha propuesto una aproximación basada en la Teoría del Coalescente (teoría matemática) para detectar grados de hibridización/parentesco entre tres poblaciones cercanamente emparentadas mediante la estimación del estadístico llamado “estadístico D”, basado en la frecuencia de asimetrías entre dos árboles de genes no congruentes en un árbol de tres poblaciones y una cuarta como grupo externo. La no congruencia entre árboles se generaría por diferentes escenarios demográficos, y este estadístico es sensible a estas diferencias. Cada árbol de gen, se obtendría a partir de un sitio nucleotídico bialélico, por lo que para estimar la frecuencia de estas asimetrías se requiere de un muestreo denso, generado por ejemplo a partir de datos multilocus. Además, D tiene la ventaja de detectar hibridización en el pasado, contando sólo con muestras de las poblaciones actuales y un individuo de cada especie. Esta prueba se aplicó por primera vez para detectar el grado de hibridización entre los Neandertales y los humanos modernos, y posteriormente a otros grupos. El resultado es que efectivamente, en una etapa temprana de nuestra diferenciación como especie, habría habido un porcentaje menor de hibridización con Neandertal, de aproximadamente 5%. En general, se puede decir que existe mayor semejanza entre humanos modernos y Neanderthal en Eurasia, que de que con que en otras regiones. Para el caso de nuestra especie, es claro que la cantidad de información siempre es más y de mejor calidad que para otras. Por ese motivo es en nuestra especie donde muchos modelos nuevos se prueban por primera vez, como en el caso anterior. También, habiendo tantos genomas de H. sapiens para comparar se han desarrollado estudios de genética de poblaciones a nivel de resolución muy fino. Por ejemplo, se han realizado análisis de cientos de miles de SNPs en miles de individuos de todo el mundo, y es sorprendente ver que con esta información es posible identificar el país de procedencia de una persona, por ejemplo, lo que puede tener importares implicancias, por ejemplo a nivel de la criminalística. Sorpresas te da la vida La comparación de genomas nos ha permitido visualizar patrones de variación genética que desconocíamos hasta el momento. Dos de ellos se describen someramente en los siguientes párrafos. Elementos no codificantes conservados (CNC, de la sigla en inglés “Conserved noncoding elements”). Hasta no contar con genomas de eucariotas secuenciados, se sabía que gran parte del ADN presente en las células era no codificante, y muchas veces se le llamaba ADN basura. Pero al comparar genomas se ha descubierto que gran parte del mismo, a pesar de no ser codificante es extremadamente conservado, poco variable, entre taxa muy distantes, incluso entre animales y plantas. Más conservadas aún que las regiones codificantes funcionales. Estas regiones CNC están distribuidas en todo tipo de regiones no codificantes de proteínas, como intrones, UTRs, transposones y seudogenes, entre otras. Se sospecha entonces que deben tener alguna función que restringe su variación; www.evolibro.webnode.es es decir, una fuerte selección purificadora que elimina las variantes deletéreas que surgen, manteniéndose constantes. Se ha sugerido que estas regiones deben tener una función reguladora, y que pueden jugar un papel importante en la evolución de la complejidad eucariota. En promedio, las plantas contienen menos CNSs por gen que los mamíferos, y esto puede relacionarse con la capacidad de poliploidización, o duplicación del genoma. También se ha sugerido que cambios en algunas regiones CNC han jugado un rol importante en la evolución humana. Pero todo esto es muy reciente, y aún no dejan de ser conjeturas a ser probadas con mayor rigurosidad. A medida que surjan más datos, más investigación arrojará luz sobre el tema. Variación en el número de copias de genes (CNV, de su sigla en inglés “Copy number variation”). Otro hallazgo interesante, primero para humanos donde hubo más de un genoma de la especie para poder comparar, y luego para otros organismos, es que el número de genes, o regiones cromosómicas, presente puede variar dentro de una misma especie. Sí, el lector y quien suscribe, podemos ser más diferentes en cuanto a la cantidad de genes que tenemos que a la secuencia misma de estos. Esta variación, parece ser en parte heredada, pero varias líneas de evidencia proponen que se genera de novo en diferentes partes del cuerpo (tal vez diferentes células en nuestro cuerpo tengan variación a este nivel) o incluso luego de la fertilización (es decir, que los gemelos no serían copias genéticas idénticas). Parece haber zonas más variables que otras, en algunos casos esta variación está asociada a enfermedades y en otros casos no. Algunos autores aportan ejemplos de cómo estas regiones pueden surgir y mantenerse por selección y otros simplemente lo adjudican a la deriva genética. Todo está en estudio y evaluación continua. Más en general, nos hemos percatado que las duplicaciones y deleciones de genes, partes de genes o regiones cromosómicas son mucho más comunes de lo que se creía. La visión del genoma, es mucho más dinámica de lo que creíamos hace unos años. Comentario final Lo que se ha comentado en este capítulo, son simples ejemplos que ilustran apenas algunas pocas de las muchas aproximaciones al estudio de genomas. No pretende ser una revisión del tema. Algo que es importante ilustrar con estos ejemplos, es que una visión evolutiva resulta esencial para entender la composición del genoma (incluido el humano) y la diversidad de distintas regiones del mismo, así como también lo es para entender el resto de los procesos biológicos, incluidos aquellos que afectan la calidad de vida de la humanidad, y que seguramente atraen la atención de muchos alumnos, como la evolución viral y el desarrollo de vacunas, la evolución de resistencias a herbicidas, antibióticos, etc. Tiene por lo tanto importantes consecuencias prácticas. Se espera que este resumen refleje que la genómica es un campo en pleno desarrollo, y también de continua retroalimentación positiva: para estudiar los genomas es necesario usar herramientas de la teoría de la evolución, y al mismo tiempo los genomas son usados para encontrar formas de abordar problemas en evolución. Las aplicaciones en el campo crecen, al igual que se vuelven más evidentes los desafíos que presenta para biólogos, matemáticos, otros. www.evolibro.webnode.es Gracias a la acumulación de información y genomas reportados para diferentes especies, se está comenzando estudios poblacionales y etapa de integración con otras “omicas” Bibliografía Green RE, Malaspinas AS, Krause J, et al. (25 co-autores). 2008. A complete Neandertal mitochondrial genome sequence determined by high-throughput sequencing. Cell, 134(3):416–426. Green RE, Krause J, Briggs AW, et al. (51 co-autores). 2010. A draft sequence of the Neandertal genome. Science, 328(5979):710-22. www.evolibro.webnode.es