Download genómica y evolución - Evolibro

Document related concepts

Genómica wikipedia , lookup

Genómica comparativa wikipedia , lookup

Predicción de genes wikipedia , lookup

Genómica funcional wikipedia , lookup

Gen wikipedia , lookup

Transcript
Evolibro- La enseñanza de la Evolución
GENÓMICA Y EVOLUCIÓN
Lic. Ivanna Tomasco
Laboratorio de Evolución
Facultad de Ciencias. Universidad de la República
Si definimos Genómica como el conjunto de ciencias y técnicas dedicadas al estudio integral
del funcionamiento, el contenido, la evolución y el origen de los genomas, la importancia que
esta tiene en la teoría evolutiva es evidente. Pero en realidad es más que eso.
La clave aquí, es que todo proceso evolutivo de los discutidos anteriormente, como la
selección natural en cualquiera de sus variantes, la deriva genética, el flujo génico, etc. dejan
una huella característica en el ADN y esta puede ser identificada. La historia está escrita en el
genoma. Hasta hace poco tiempo, los evolucionistas nos conformábamos con el estudio caso
a caso y gen a gen, para poder estudiar la importancia relativa de cada uno de estos procesos
en la evolución, y esperábamos que por acumulación llegáramos a conclusiones generales.
Afortunadamente, ahora contamos con genomas completos, cada vez de más especies, y esto
nos ha permitido evaluar lo anterior de una forma más integral. Debates históricos como el de
seleccionismo vs. neutralismo en la evolución molecular (cuál es la importancia relativa de la
selección natural positiva y la deriva genética en la evolución molecular) pueden analizarse a
escala genómica. Además, la posibilidad de contar con comparaciones de genomas permite
poner a prueba hipótesis que ya teníamos sobre la evolución de los mismos, habilitando un
abanico de posibilidades de estudio en la teoría evolutiva. Y por último, surge un campo
completamente nuevo de estudio, con concomitante descubrimiento patrones y fenómenos
que requieren su explicación e interpretación, como se mencionará al final de este capítulo.
Y, aunque obvio para algunos, vale la pena destacar que tanto los nuevos hallazgos como el
uso de los genomas con aproximaciones anteriormente desarrolladas, siguen apoyando las
ideas principales de la teoría evolutiva actual. No hace más que ampliar su aplicabilidad y
fortalecerla.
Como se trabaja con genómica
Debido a su pequeño genoma, Haemophilus influenzae fue el primer organismo de vida libre
cuyo genoma completo fue secuenciado, en 1995 por Craig Venter. En 2001 es publicado el
primer borrador del genoma humano, por un consorcio internacional “Proyecto genoma
humano”. La secuenciación de un genoma completo era hasta ese entonces un proceso
costoso, tanto en tiempo como en dinero. Sin embargo por ese entonces comenzaron a
desarrollarse nuevas tecnologías más eficientes que son las que actualmente se utilizan para
la secuenciación de genomas. Una vez más, los avances concomitantes de la biología
molecular y de la bioinformática han permitido desarrollar tecnologías que permiten la
secuenciación a gran escala, de millones de fragmentos de ADN en simultáneo, lo que se
conoce como tecnologías de secuenciación de nueva generación (NGS, de la sigla en inglés
"next-generation sequencing"). Esto ha permitido que en los últimos años la adquisición de
datos multilocus se vuelva cada vez más automatizado y accesible para la mayoría de los
organismos. La tradicional secuenciación Sanger, en su versión automatizada con
fluorocromos, sigue siendo usada para el trabajo a una escala menor, con objetivos diferentes.
Y otras nuevas tecnologías proyectan ser aún más eficientes y económicas que las NGS,
como la promesa de secuenciar un genoma humano en menos de 1 hora por aprox. 100
dólares (ej. a través de la secuenciación en tiempo real de una molécula de ADN, Pacific
Biosciences, https://www.youtube.com/watch?v=v8p4ph2MAvI).
www.evolibro.webnode.es
Más allá de las variantes particulares y de los detalles de la técnica, una de las variantes de
NGS comúnmente usada actualmente (ej. Illumina) es generar pequeñas secuencias de ADN
de aproximadamente 100 pares de bases, que están distribuidas al azar por todo el genoma,
llamadas reads. Estos millones de secuencias luego se solapan entre ellas, se ensamblan, por
similitud de secuencia, en secuencias más largas. Sobre estas secuencias largas o contigs,
de miles de pares de bases, se comienzan a identificar por su estructura diferentes regiones.
Por ejemplo, se buscan marcos abiertos de lectura u ORF (del inglés Open Reading Frames),
que son regiones que comienzan en un codón de inicio y terminan en un codon stop, y tienen
un largo mínimo, lo que hace sospechar que son posibles candidatos a genes codificantes de
proteínas. Una vez identificadas estas regiones, son comparadas por similitud de secuencia y
estructura con otros genes previamente descritos, y puede sugerirse entonces que genes
están presentes y las regiones dentro y entre éstos, proceso conocido como anotación.
También se anotan regiones que no son genes codificantes de proteínas, pueden ser regiones
estructurales, genes ribosomales, etc. Un conjunto de contigs anotados pueden servir para
armar un borrador de genoma (scafold). Para tener un genoma completamente anotado, como
el que tenemos hoy de humanos y otros seres vivos carismáticos o de interés productivo, es
necesario además una etapa de mapeo cromosómico, es decir identificar cada scafold a que
cromosoma del cariotipo descrito de la especie pertenece. Para todo este proceso, no es
necesario contar con un genoma previamente descrito (secuenciación de novo), pero el contar
con un genoma ya descrito y anotado de una especie cercana filogenéticamente, puede
facilitar todo el proceso.
Todas estas etapas, más otras muchas no descritas (como la eliminación de secuencias de
baja calidad, de contaminantes humanos y de otros organismos como hongos, bacterias, entre
otros) se realizan a través de complejos algoritmos informáticos. De hecho, si uno quisiera
hacerlo, es muy difícil revisar estos datos “a ojo”, ya que el volumen de información es tal que
muchos procesadores comunes ni siquiera pueden abrir el archivo con todos los reads que se
generan. Si bien el investigador sabe los pasos que va siguiendo y puede cambiar ciertos
parámetros en esos algoritmos, son procesos que se hacen en procesadores muy potentes, a
veces incluso en servidores internacionales, y consumen bastante tiempo y memoria, además
de mucho entrenamiento en recursos humanos.
Asimismo, es importante rescatar la importancia que tiene toda esta información tan costosa
para la comunidad científica. Como se menciona en el párrafo anterior, los avances y logros
obtenidos dependen muchas veces de la información previa obtenida por otros grupos, Todos
estos datos, desde los reads originales, como los archivos intermedios de evaluación de
calidad de las secuencias, y los genomas completamente anotados, se encuentran disponibles
en bases de datos públicas para que todos los puedan usar. También hay otras bases de
datos de otras “ómicas” (ej.: proteómica, metabolómica, transcriptómica, etc.) intentando
conecciones entre ellas mediante referencia cruzada, y pueda navegarse de una a la otra con
fluidez. Algo que estamos enfrentando esta última década, es que ciertamente existe mucha
mayor capacidad de generar datos que de analizarlos.
Además de la genómica, hay otras formas de trabajo a gran escala que pueden ser
usadas y que según el objetivo de trabajo son más económicas (en tiempo y dinero). Por
ejemplo, el uso de transcriptomas es algo bastante usado. El transcriptoma es la
secuenciación semejante a la descrita anteriormente, de todos los transcritos (ARN
mensajeros) presentes en la célula. Básicamente, se extrae el ARN y con la transcriptasa
reversa se hace ADN a partir de ARN, y luego se envía a secuenciar. Para un genoma
dado, habrá muchos transcriptomas, dependiendo del tejido usado, o incluso dentro del
mismo tejido, de las condiciones a las que se someta a las células en cuestión. Muchos
de los genes serán compartidos entre transcriptomas (los genes de mantenimiento celular,
que toda célula tiene activos para sobrevivir), y otros serán de uso exclusivo de cada tipo
www.evolibro.webnode.es
celular o condición fisiológica, etc. Aunque no tengamos la información de todo el genoma
sino de de lo que se esté traduciendo en el momento, ni de los genes completos con sus
intrones y zonas reguladoras, nos permite contar la región codificante de proteínas de
muchos genes y poner a prueba muchas hipótesis. Además, se puede estudiar que genes
son los activos en uno u otro tipo celular, compara entre células enfermas y sanas para
identificar genes responsables de una determinada patología por ejemplo, etc.
Una vez obtenidos los transcriptomas (o genomas) es posible diseñar experimentos más
específicos, como de captura de exones o para a partir de una muestra detectar miles de
mutaciones puntuales para usar como marcadores genéticos (SNP, del inglés Single
Nucleotide Polymorphism). De esta forma, es posible evaluar cientos o miles de
marcadores genéticos forma más directa, rápida y económica, ya que un requisito para
aplicar estas metodologías es contar con información de alta calidad preexistente, de
manera de identificar las regiones de interés y alinear las secuencias resultantes, para
descubrir nuevas variantes.
Nuevas respuestas a preguntas viejas
Una de los aspectos más “taquilleros” de la evolución, es nuestro origen como especie.
En los últimos 40 años se ha acumulado mucha información, tanto fósil como molecular,
que nos ha permitido tener una visión bastante acabada del proceso. Sin embargo, aún
hasta hace pocos años existían dudas sobre el origen geográfico de la especie humana
moderna. La teoría más aceptada era que la especie humana moderna se habría
originado en África hace no más de 200 mil años, y de ahí habría invadido otros
continentes, reemplazando a homínidos anteriores, como el Neandertal de Europa y Asia.
La evidencia molecular, tanto ADN mitocondrial, cromosoma Y,y marcadores nucleares,
apoyaba la hipótesis anterior. Algunos autores, apoyados en evidencia fósil, como la
coexistencia tanto espacial como temporal del Neandertal con humanos modernos,
planteaban que habría habido hibridización entre ambas especies y cuestionaban el rol
que los Neandertales habrían tenido en nuestra diferenciación como especie. Pero, nada
como el genoma completo de ambas especies para resolver la incertidumbre.
Sí, el genoma del Neandertal fue secuenciado, gracias a las nuevas técnicas de
secuenciación NGS. El Neandertal es un subfósil y si bien se puede obtener ADN, este se
encuentra muy degradado. Los métodos antiguos de secuenciación no permitían obtener
secuencias largas, y solo algunos genes mitocondriales fueron secuenciados
exitosamente. Con el procedimiento descrito anteriormente de NGS se secuenciaron
millones de fragmentos degradados y éstos fueron ensamblados para conformar el
genoma, con la facilidad adicional de contar con el genoma de H. sapiens, una especie
muy relacionada.
Las comparaciones de genomas neandertales y humanos, confirma la teoría del origen
africano de la especie humana. Además, teniendo los genomas para comparar, es posible
identificar aquellos alelos exclusivos que nos diferencian de los neandertales y del
chimpancé (usado como grupo externo en la comparación por ser la especie viviente más
emparentada), y buscar en estos genes señales de selección positiva. De esta forma
existen muchos genes candidatos de haber estado implicados en la evolución adaptativa
de los humanos como especie, y en paralelo estudiar que función cumplen y que ventaja
selectiva podría haber tenido la variante involucrada. La diferencia genética de humano
con el Neandertal, o incluso con los chimpancés no es mucha, pero unos pocos genes
www.evolibro.webnode.es
dan cuenta de nuestra diferencia con nuestros parientes más cercanos. Sin duda, estas
aproximaciones nos acercan mucho más a conocer la respuesta a esta pregunta, y mucho
se ha avanzado al respecto.
Por otro lado, una vez que se cuenta con un volumen de información tal y los
procesadores adecuados, fue posible aplicar nuevas formas de análisis que antes no se
podía por falta de datos. Entre las formas de análisis, recientemente se ha propuesto una
aproximación basada en la Teoría del Coalescente (teoría matemática) para detectar
grados de hibridización/parentesco entre tres poblaciones cercanamente emparentadas
mediante la estimación del estadístico llamado “estadístico D”, basado en la frecuencia de
asimetrías entre dos árboles de genes no congruentes en un árbol de tres poblaciones y
una cuarta como grupo externo. La no congruencia entre árboles se generaría por
diferentes escenarios demográficos, y este estadístico es sensible a estas diferencias.
Cada árbol de gen, se obtendría a partir de un sitio nucleotídico bialélico, por lo que para
estimar la frecuencia de estas asimetrías se requiere de un muestreo denso, generado
por ejemplo a partir de datos multilocus. Además, D tiene la ventaja de detectar
hibridización en el pasado, contando sólo con muestras de las poblaciones actuales y un
individuo de cada especie. Esta prueba se aplicó por primera vez para detectar el grado
de hibridización entre los Neandertales y los humanos modernos, y posteriormente a otros
grupos. El resultado es que efectivamente, en una etapa temprana de nuestra
diferenciación como especie, habría habido un porcentaje menor de hibridización con
Neandertal, de aproximadamente 5%. En general, se puede decir que existe mayor
semejanza entre humanos modernos y Neanderthal en Eurasia, que de que con que en
otras regiones.
Para el caso de nuestra especie, es claro que la cantidad de información siempre es más
y de mejor calidad que para otras. Por ese motivo es en nuestra especie donde muchos
modelos nuevos se prueban por primera vez, como en el caso anterior. También,
habiendo tantos genomas de H. sapiens para comparar se han desarrollado estudios de
genética de poblaciones a nivel de resolución muy fino. Por ejemplo, se han realizado
análisis de cientos de miles de SNPs en miles de individuos de todo el mundo, y es
sorprendente ver que con esta información es posible identificar el país de procedencia de
una persona, por ejemplo, lo que puede tener importares implicancias, por ejemplo a nivel
de la criminalística.
Sorpresas te da la vida
La comparación de genomas nos ha permitido visualizar patrones de variación genética
que desconocíamos hasta el momento. Dos de ellos se describen someramente en los
siguientes párrafos.
Elementos no codificantes conservados (CNC, de la sigla en inglés “Conserved noncoding
elements”). Hasta no contar con genomas de eucariotas secuenciados, se sabía que gran
parte del ADN presente en las células era no codificante, y muchas veces se le llamaba
ADN basura. Pero al comparar genomas se ha descubierto que gran parte del mismo, a
pesar de no ser codificante es extremadamente conservado, poco variable, entre taxa
muy distantes, incluso entre animales y plantas. Más conservadas aún que las regiones
codificantes funcionales. Estas regiones CNC están distribuidas en todo tipo de regiones
no codificantes de proteínas, como intrones, UTRs, transposones y seudogenes, entre
otras. Se sospecha entonces que deben tener alguna función que restringe su variación;
www.evolibro.webnode.es
es decir, una fuerte selección purificadora que elimina las variantes deletéreas que surgen,
manteniéndose constantes. Se ha sugerido que estas regiones deben tener una función
reguladora, y que pueden jugar un papel importante en la evolución de la complejidad
eucariota. En promedio, las plantas contienen menos CNSs por gen que los mamíferos, y
esto puede relacionarse con la capacidad de poliploidización, o duplicación del genoma.
También se ha sugerido que cambios en algunas regiones CNC han jugado un rol
importante en la evolución humana. Pero todo esto es muy reciente, y aún no dejan de ser
conjeturas a ser probadas con mayor rigurosidad. A medida que surjan más datos, más
investigación arrojará luz sobre el tema.
Variación en el número de copias de genes (CNV, de su sigla en inglés “Copy number
variation”). Otro hallazgo interesante, primero para humanos donde hubo más de un
genoma de la especie para poder comparar, y luego para otros organismos, es que el
número de genes, o regiones cromosómicas, presente puede variar dentro de una misma
especie. Sí, el lector y quien suscribe, podemos ser más diferentes en cuanto a la
cantidad de genes que tenemos que a la secuencia misma de estos. Esta variación,
parece ser en parte heredada, pero varias líneas de evidencia proponen que se genera de
novo en diferentes partes del cuerpo (tal vez diferentes células en nuestro cuerpo tengan
variación a este nivel) o incluso luego de la fertilización (es decir, que los gemelos no
serían copias genéticas idénticas). Parece haber zonas más variables que otras, en
algunos casos esta variación está asociada a enfermedades y en otros casos no. Algunos
autores aportan ejemplos de cómo estas regiones pueden surgir y mantenerse por
selección y otros simplemente lo adjudican a la deriva genética. Todo está en estudio y
evaluación continua.
Más en general, nos hemos percatado que las duplicaciones y deleciones de genes,
partes de genes o regiones cromosómicas son mucho más comunes de lo que se creía.
La visión del genoma, es mucho más dinámica de lo que creíamos hace unos años.
Comentario final
Lo que se ha comentado en este capítulo, son simples ejemplos que ilustran apenas
algunas pocas de las muchas aproximaciones al estudio de genomas. No pretende ser
una revisión del tema.
Algo que es importante ilustrar con estos ejemplos, es que una visión evolutiva resulta
esencial para entender la composición del genoma (incluido el humano) y la diversidad de
distintas regiones del mismo, así como también lo es para entender el resto de los
procesos biológicos, incluidos aquellos que afectan la calidad de vida de la humanidad, y
que seguramente atraen la atención de muchos alumnos, como la evolución viral y el
desarrollo de vacunas, la evolución de resistencias a herbicidas, antibióticos, etc. Tiene
por lo tanto importantes consecuencias prácticas.
Se espera que este resumen refleje que la genómica es un campo en pleno desarrollo, y
también de continua retroalimentación positiva: para estudiar los genomas es necesario
usar herramientas de la teoría de la evolución, y al mismo tiempo los genomas son
usados para encontrar formas de abordar problemas en evolución. Las aplicaciones en el
campo crecen, al igual que se vuelven más evidentes los desafíos que presenta para
biólogos, matemáticos, otros.
www.evolibro.webnode.es
Gracias a la acumulación de información y genomas reportados para diferentes especies,
se está comenzando estudios poblacionales y etapa de integración con otras “omicas”
Bibliografía
Green RE, Malaspinas AS, Krause J, et al. (25 co-autores). 2008. A complete Neandertal
mitochondrial genome sequence determined by high-throughput sequencing. Cell,
134(3):416–426.
Green RE, Krause J, Briggs AW, et al. (51 co-autores). 2010. A draft sequence of the
Neandertal genome. Science, 328(5979):710-22.
www.evolibro.webnode.es