Download Molecular Basis of comorbidity - Master en Bioinformática y Biología
Document related concepts
Transcript
Exploración de las bases moleculares de la comorbilidad entre cáncer y enfermedades del sistema nervioso central Estudiante: Jon Sánchez Valle MÁSTER EN BIOINFORMÁTICA Y BIOLOGÍA COMPUTACIONAL ESCUELA NACIONAL DE SALUD- INSTITUTO DE SALUD CARLOS III 2013-2014 Centro Nacional de Investigaciones Oncológicas (CNIO) Grupo de Biología Computacional Estructural Director: Alfonso Valencia Herrera Tutora: Ana María Rojas Mendoza Fecha: (17/09/2014) ÍNDICE Agradecimientos Resumen Objetivos 1. Introducción 1.1. Comorbilidad 1.1.1. Antecedentes 1.1.2. Análisis a realizar 1.1.3. Enfermedades del Sistema Nervioso Central 1.1.3.1. Enfermedad de Alzheimer 1.1.3.2. Enfermedad de Párkinson 1.1.3.3. Esquizofrenia 1.1.3.4. Esclerosis múltiple 1.2. Métodos Meta-analíticos 2. Materiales y Métodos 2.1. Conjuntos de datos, pre-procesado y meta-análisis 2.2. Análisis de rutas enriquecidas 3. Resultados 4. Discusión 5. Conclusiones 6. Perspectivas Futuras 7. Bibliografía 1 2 3 4 4 4 6 7 7 8 8 9 9 18 18 24 25 38 41 42 43 AGRADECIMIENTOS Quiero agradecer en primer lugar al Máster de Bioinformática y Biología Computacional del Instituto de Salud Carlos III (ISCIII) y al Centro Nacional de Investigaciones oncológicas (CNIO) la oportunidad que me han brindado de realizar este proyecto Fin de Máster. Agradecer al Dr. Alfonso Valencia por permitirme trabajar en el grupo de Biología Computacional Estructural del CNIO y por proponerme el tema objeto del proyecto y efectuar el seguimiento del mismo. Asimismo, quiero agradecer la inconmensurable ayuda que me han prestado José Luis Portero, Federico Abascal y Rafael Tabarés Seisdedos, guiándome y aconsejándome a lo largo de todo el proyecto, proponiendo siempre nuevas ideas. De manera especial, me gustaría agradecer a Kristina Ibañez todo el apoyo que me ha brindado a lo largo de estos 3 meses, compartiendo conmigo todos los datos de los estudios previos, proponiendo nuevos rumbos, ayudándome a solucionar todos los problemas que surgían y en especial por escuchar todas mis preocupaciones. En cuarto lugar, y no por ello menos importante, quiero agradecer a mi familia todo el apoyo que me han otorgado a lo largo no solo del desarrollo del proyecto Fin de Máster, sino de todo el Máster en general, relajándome en los periodos de máximo estrés y animándome en los momentos de debilidad, financiándome la estancia en Madrid y haciéndome la vida más fácil. Por último, quiero agradecer a mis compañeros de piso, Máster, laboratorio y amigos en general el haber estado a mi lado durante todo este recorrido y el haberse interesado por la evolución de mi trabajo. 1 RESUMEN En el presente trabajo se ha llevado a cabo un meta-análisis de datos de microarrays de expresión de 4 enfermedades del Sistema Nervioso Central (Alzheimer, Párkinson, esquizofrenia y esclerosis múltiple) y 11 tipos de cánceres (astrocitoma, glioblastoma, oligodendroglioma, cáncer de mama, colon, riñón, hígado, pulmón, ovario, páncreas y próstata), utilizando para ello el modelo de efectos fijos y el modelo de efectos aleatorios, con intención de analizar los solapamientos entre los genes diferencialmente expresados en cada una de las enfermedades (mediante un test de Fisher). Mediante dicho análisis, se han confirmado los resultados obtenidos por Ibañez et al., 2014, donde detectaron evidencias de comorbilidad inversa entre Alzheimer, Párkinson y Esquizofrenia con cáncer de colon, pulmón y próstata, y además se han detectado evidencias de comorbilidad directa entre astrocitoma, glioblastoma y oligodendroglioma con las enfermedades de Alzheimer y Párkinson. Así mismo, mediante el análisis de las rutas de cáncer de KEGG, se ha observado un solapamiento importante en las rutas de señalización, como MAPK, entre tumores cerebrales y Alzheimer. Como resultados complementarios al estudio, se ha comprobado que la mayoría de los genes en astrocitoma, glioblastoma y oligodendroglioma se comportan igual, que las similitudes entre Alzheimer y Párkinson son enormes, comprobadas mediante solapamiento de genes, indicando que el Párkinson podría incluirse como un sub-tipo de Alzheimer, y que se da una fuerte variación en los patrones de expresión génica en una misma enfermedad dependiendo de la zona del organismo que se estudie. A partir de todas las relaciones de encontradas entre las distintas enfermedades, resultaría interesante, de cara a futuros estudios, centrarse en el reposicionamiento de fármacos, haciendo hincapié en las rutas compartidas por las distintas enfermedades. Además, sería interesante también tratar de localizar aquellos genes con comportamiento inverso que puede ser responsables de un estado de muerte celular (Alzheimer) a un estado de proliferación descontrolada (tumores cerebrales). 2 OBJETIVOS - Estudiar la existencia de comorbilidad entre diferentes enfermedades del sistema nervioso central (Alzheimer, Párkinson, Esquizofrenia y Esclerosis múltiple) y cánceres de distintas localizaciones (cerebro, colon, pulmón, próstata, mama, ovario, páncreas, riñones e hígado). - Confirmar los resultados obtenidos previamente por Ibañez et al., 2014, añadiendo nuevos conjuntos de datos a los ya existentes previamente, y confirmar los presentados por Catalá-López et al., 2014 tras su meta-análisis. - Analizar los genes que se comportan de manera similar en los 3 tipos de tumores cerebrales (astrocitoma, glioblastoma y oligodendroglioma). - Estudiar las diferencias entre Alzheimer y tumores cerebrales, las cuales pueden ser responsables de un paso de muerte celular (Alzheimer) a crecimiento descontrolado (cáncer). - Evaluar las diferencias y similitudes entre las enfermedades a nivel funcional (análisis de rutas de KEGG). - Comprobar la existencia de diferencias al analizar la misma enfermedad tomando muestras de 2 localizaciones distintas (estudiar la esclerosis múltiple y las muestras tomadas de líquido cefalorraquídeo y sangre periférica). - Confirmar los casos particularmente relevantes obtenidos con un análisis detallado de la bibliografía. 3 1. INTRODUCCIÓN 1.1. Comorbilidad La comorbilidad se define como la presencia de enfermedades adicionales en relación a una enfermedad en un individuo. La comorbilidad o la multimorbilidad (presencia de varias enfermedades en un individuo), es un problema médico universal debido a que son muy comunes los pacientes con varios desórdenes médicos en un momento determinado (algunos investigadores consideran que 9/10 pacientes tiene más de un problema de salud crónico) (Tabarés-Seisdedos et al., 2011). Existen 2 tipos de comorbilidad, la directa y la inversa. La comorbilidad directa implica que los pacientes que presentan una determinada enfermedad tienen una probabilidad mayor de la esperada de sufrir otros tipos de enfermedades, mientras que la inversa implica justo lo contrario, es decir, que los pacientes con una determinada enfermedad tienen una probabilidad menor de la esperada de sufrir otras enfermedades (entendiendo que la presencia de una enfermedad puede otorgar una defensa frente a otros tipos de enfermedades). Existen 3 maneras de que enfermedades diferentes estén presentes en el mismo individuo en un preciso momento: por azar, sesgo de selección (es más probable detectar más de una enfermedad a las personas que presentan una y están bajo revisión médica que a las que no lo están) o asociaciones causales. En el caso de tratarse de asociaciones causales, puede deberse a que la presencia de una causa la presencia de la otra o a que los factores de riesgo de una enfermedad están correlacionados con los de la otra (Valderas et al., 2009). Respecto a esto, hay muchos factores diferentes y no mutuamente excluyentes relacionados con la genética, comportamiento, ambiente y cuidado de la salud que pueden ser responsables de una co-ocurrencia disminuida entre desórdenes médicos (Tabarés-Seisdedos et al., 2011). Tal y como se ha comentado en el apartado objetivos, en el presente estudio se va a realizar un meta-análisis para estudiar la presencia de comorbilidades directas e inversas entre diferentes enfermedades del Sistema Nervioso Central y distintos tipos de cánceres. 1.1.1. Antecedentes Catalá-López et al., 2014 llevaron a cabo un meta-análisis para evaluar la presencia de comorbilidades directas e inversas entre diferentes enfermedades del Sistema Nervioso Central (CNSd) y distintos tipos de cánceres, para lo cual utilizaron datos de 50 estudios observacionales que incluían un total de 577.013 participantes. Las CNSd que se estudiaban en los artículos eran: Alzheimer (AD), Párkinson (PD), Esquizofrenia (SCZ), Esclerosis Múltiple (MS), Esclerosis Lateral Amiotrófica (ALS), Enfermedad de Huntington (HD), Síndrome de Down (DS) y autismo. En la Figura 1 se representan, a modo de resumen, las comorbilidades encontradas entre las distintas enfermedades en el citado estudio, que se desarrollan de una manera resumida en el siguiente párrafo. En este estudio, los autores identificaron que aquellos enfermos con AD, presentaban una ocurrencia menor de la esperada de distintos tipos de cánceres de una 4 manera generalizada (los estudios analizados no se centraban en cánceres específicos). También mostraban que aquellos pacientes con PD presentaban una menor probabilidad de sufrir cáncer de próstata, colon y pulmón, pero una mayor probabilidad de tener cáncer de cerebro o de mama. Respecto a los pacientes con MS, se apreciaba una coocurrencia mayor de la esperada de tumores cerebrales, pero una co-ocurrencia menor de la esperada de sufrir cáncer de pulmón, próstata y melanoma. En lo referente a los pacientes con SCZ, se daba una mayor co-ocurrencia de cáncer de mama y una menor co-ocurrencia de cáncer de próstata y melanoma, no encontrando asociación alguna entre la enfermedad y tumores cerebrales, cáncer colorrectal o cáncer de pulmón. En el caso de los pacientes con DS, se observaba que había una mayor frecuencia de casos con cáncer testicular o con leucemia. Por último, los pacientes con HD presentaban menores tasas de cáncer de mama, cánceres gastrointestinales, cáncer de pulmón y linfomas. Figura 1. Representación del tipo de comorbilidad detectada entre enfermedades del Sistema Nervioso Central y distintos tipos de cánceres. En verde se indican los casos de comorbilidad inversa y en rojo los de comorbilidad directa. Imagen cedida por el Dr. Rafael Tabarés Seisdedos. En un estudio publicado el mismo año, Ibañez et al., 2014, utilizando datos de microarrays de expresión, llevaron a cabo un meta-análisis en el que buscaban evidencias moleculares de comorbilidad inversa entre CNSd y distintos tipos de cánceres. En este caso, estudiaron AD, PD y SCZ por parte de las CNSd y cáncer de pulmón, próstata y colon por parte de los cánceres. Además, decidieron estudiar la relación de estas 6 enfermedades con 5 enfermedades control (asma, VIH, malaria, 5 distrofia y sarcoidosis), para probar que efectivamente no se observaban comorbilidades entre ellas. Como resultado de este estudio, observaron que realmente existían evidencias de comorbilidad inversa entre los 3 tipos de cánceres y los 3 tipos de CNSd, reflejo de la gran cantidad de genes con un comportamiento inverso entre los dos tipos de enfermedades (es decir, los genes que estaban sobre-expresados en las CNSd estaban sub-expresados en los distintos tipos de cánceres y viceversa). Además, en este estudio se llevó a cabo un análisis funcional, con intención de conocer las funciones en las que estaban enriquecidas las listas de genes sub-expresados y sobre-expresados en las distintas enfermedades, permitiendo obtener una visión más global del problema a estudio. Mediante este análisis, observaron que el 89% de las rutas de KEGG en las que estaban enriquecidas las listas de genes que estaban sobreexpresados en cáncer y sub-expresados en CNSd estaban relacionadas con el metabolismo y el procesado de la información genética, mientras que las rutas con el comportamiento inverso estaban relacionadas con la comunicación de las células con su ambiente. 1.1.2. Análisis a realizar: Tras revisar los estudios anteriores, se planteó realizar un meta-análisis con datos de expresión como el realizado por Ibañez et al., 2014, añadiendo nuevas enfermedades al estudio, tanto por parte de las CNSd como de los cánceres. Por parte de las enfermedades del Sistema Nervioso Central, además de las enfermedades estudiadas en el trabajo anterior por Ibañez et al., 2014 (Alzheimer, Párkinson y Esquizofrenia), se decidió añadir al estudio datos de Esclerosis Múltiple, para los que se encontraron datos obtenidos a partir de muestras con 2 localizaciones diferentes: líquido cefalorraquídeo y células mononucleares de sangre periférica (se consideró interesante introducir ambos tipos de muestras por separado, para tratar de comprobar si la localización de la muestra influía en la variación de los niveles de expresión entre individuos sanos y enfermos). No se pudo añadir datos de la enfermedad de Huntington, autismo, Esclerosis Lateral Amiotrófica ni Síndrome de Down porque, o bien no se encontraron datos obtenidos en las plataformas utilizadas para el análisis (HG_U133A y HG_U133Plus2), o la cantidad de estudios localizados no era suficiente. Por parte de los distintos tipos de cánceres, además de los 3 analizados por Ibañez et al., 2014 (cáncer colorrectal, de pulmón y próstata), se decidió estudiar casos de tumores cerebrales, ya que resultaba realmente interesante tener un punto de contraste con un cáncer en el mismo tejido que las CNSd estudiadas (para los que se encontraron datos de astrocitomas, glioblastomas y oligodendrogliomas, que fueron estudiados por separado, ver Materiales y Métodos), pudiendo así también evaluar la existencia de evidencias de comorbilidad directa entre este tipo de tumores y PD y MS, mencionada por Catalá-López et al., 2014. Además, Lehrer, 2010 proponía que AD y glioblastoma compartían alguna ruta de tejido periférica, aún desconocida, que podía promover la progresión de ambas enfermedades (en el presente trabajo se trata de probar esta hipótesis). Además, se añadieron datos de estudios de cáncer de mama (también analizados por Catalá-López et al., 2014) y otros tumores que no se 6 mencionaban en estudios previos (cáncer de hígado y de riñón) como cánceres que presentasen comorbilidad, fuese del tipo que fuese, con enfermedades del sistema nervioso central. 1.1.3. Enfermedades del Sistema Nervioso Central: Con objeto de conocer un poco acerca de las distintas CNSd analizadas en nuestro estudio, se añade a continuación una breve información acerca de cada una de ellas: 1.1.3.1.Enfermedad de Alzheimer: Es una enfermedad neurodegenerativa, caracterizada por una disfunción de la memoria y la cognición, como resultado de la formación en el cerebro de placas seniles que contienen ß-amiloide (Aß), y ovillos neurofibrilares que poseen tau hiperfosforilada asociada a microtúbulos (Kim et al., 2010). Como consecuencia de la enfermedad, se da una pérdida irreversible de neuronas, particularmente en el córtex y el hipocampo (Nussbaum et al., 2003). La proteína precursora de amiloide (APP) es una proteína integral de membrana, que es escindida secuencialmente por α-, ß- (BACE1) y -secretasas para producir proteínas de Aß amiloidogénicas y no-amiloidogénicas (ver Figura 2). El Aß noamiloidogénico (forma no tóxica para las neuronas) se genera por la rotura de APP en el aminoácido 83 mediada por la α-secretasa, mientras que el Aß amiloidogénico se produce por una rotura de APP en el aminoácido 99 mediada por la ß-secretasa (Querfurth et al., 2010). Aß42, un péptido con 42 aminoácidos, forma fibrillas tóxicas insolubles que se acumulan en las placas seniles, siendo su principal componente en los cerebros de pacientes con AD. Aunque la mayoría de las proteínas Aß son secretadas al medio extracelular, se ha visto que el Aß42 inicia estrés oxidativo en la célula, que está implicado también en la patogénesis de AD. Figura 2. Representación esquemática de Aß, obtenida de Querfurth et al., 2010, donde se puede apreciar tanto el procesamiento no-amiloidogénico del APP como el amiloidogénico. Los ovillos neurofibrilares, característicos también de pacientes con AD, son inclusiones filamentosas en las neuronas piramidales. El principal componente de estos ovillos es una forma de la proteína tau hiper-fosforilada y agregada, insoluble y que 7 carece de afinidad por los microtúbulos, asociándose a las estructuras de filamentos helicoidales apareados (Querfurth et al., 2010). El aumento del estrés oxidativo, el impedimento del plegamiento de proteínas en el retículo endoplasmático y la eliminación deficiente de las proteínas dañadas, mediada por el proteosoma o autofagia, aceleran la acumulación de proteínas TAU y Aß en AD. Entre los genes más estudiados de esta enfermedad se encuentran: APP, APOE, PSEN1 y PSEN2. 1.1.3.2. Enfermedad de Parkinson: Es el trastorno neurodegenerativo del movimiento más común, originado por la muerte prematura de neuronas que contienen dopamina en la sustancia negra (medio del cerebro), afectando particularmente al componente ventral de la pars compacta, originando temblores y rigidez muscular entre otros síntomas (Devine et al., 2011). El estudio genético de esta enfermedad se ha centrado en el sistema ubiquitinaproteosoma, responsable de la proteólisis intracelular y otros procesos que mantienen la viabilidad celular. Entre los genes más estudiados de esta enfermedad se encuentran: SNCA, PARK2, UCHL1, PINK1, PARK7, LRRK2, ATP13A2, GBA y FBXO7. Esta enfermedad se caracteriza, entre otras cosas, por los cuerpos de Lewy, que son inclusiones de α-sinucleina inmunoreactiva malformada, proteínas neurofilamentosas y proteínas proteolíticas, entre las que se incluyen ubiquitinas (proteínas de shock-térmico que juegan un papel importante señalando proteínas para su descomposición). Las mutaciones en el gen α-sinucleina (SNCA) son responsables de algunas formas hereditarias/familiares de PD, y su acumulación en los cuerpos de Lewy están muy relacionada con la pérdida neuronal característica de esta enfermedad (Davie et al., 2008). Se ha visto que mutaciones en la proteína Parkin (ubiquitina ligasa E3, proteína que facilita la unión de ubiquitina (ubiquitinación) a otras proteínas como α-sinucleina, dando lugar a la formación de cuerpos de Lewy) producen un síndrome parkinsoniano en casos juveniles. Se ha visto que otra de las posibles causas de esta enfermedad es la inhibición del complejo I de la cadena de transporte de electrones mitocondrial, que provoca un aumento de la producción de radicales libres y Ca++ por una disminución del ATP. Moskvina et al., 2013, llevaron a cabo un estudio para evaluar el posible solapamiento patológico entre AD y PD, ya que hay evidencias patológicas de deposición de cuerpos de Lewy en pacientes con AD, especialmente de tipo familiar, y también las hay de fuertes asociaciones en el área que contiene el gen MAPT. Con sus resultados, vieron que los loci que aumentan el riesgo de AD y PD no están generalizados y que el solapamiento podría darse aguas abajo de los genes de susceptibilidad principales que aumentan el riesgo de cada enfermedad. 1.1.3.3. Esquizofrenia: Es una enfermedad psiquiátrica crónica severa que afecta al 1% de la población mundial (Takahashi, 2012, Berry et al., 2003). A pesar de que las causas de la esquizofrenia siguen sin ser claras, las evidencias de familia, gemelos y estudios de 8 adopción demuestran claramente que se agrega en familias, siendo el agrupamiento atribuible más a temas genéticos que ha factores ambientales o culturales. Sin embargo, se ha visto que la herencia per se no implica más que una susceptibilidad a la enfermedad, pareciendo necesarios los factores ambientales para la manifestación de la enfermedad en muchos, si no todos los casos (Berry et al., 2003). Mediante estudios con gemelos, se ha establecido que la esquizofrenia presenta una heredabilidad del 80% (Riley et al., 2006, Takahashi, 2012). Sin embargo, la detección de posibles mutaciones para la patogénesis está inhibida por la heterogeneidad de la enfermedad, pudiendo verse dicha heterogeneidad al revisar los artículos que se han ido publicando a lo largo de los años, de manera que genes que al inicio eran considerados responsables de la enfermedad han sido rechazados en estudios más recientes, y viceversa (Takahashi, 2012). Recientemente, Merenlender-Wagner et al., 2013, señalaron la autofagia como una de las causas de la enfermedad (se ha visto que la autofagia, un proceso muy regulado con un impacto crucial en la homeostasis celular, es particularmente importante en las neuronas, donde es responsable de la supervivencia celular preservando el balance entre síntesis y degradación y el reciclado de componentes celulares). En este estudio encontraron niveles bajos de beclin 1 en el hipocampo de pacientes con esquizofrenia y una descompensación de la regulación ADNP/ADNP2/Bcl2 como posibles responsables de la enfermedad. 1.1.3.4. Esclerosis múltiple: La esclerosis múltiple es una enfermedad inflamatoria crónica del sistema nervioso central, que da lugar a la desmielinización y degeneración axonal acompañado por un deterioro neurológico (Goldenberg et al., 2012). La contribución genética a la susceptibilidad de desarrollar la enfermedad es innegable. Mientras que el efecto más grande se encuentra en la región clase II del antígeno leucocitario humano (HLA), se han encontrado más loci de riesgo independientemente en dicha región. Sin embargo, no están claros los mecanismos por los que los alelos HLA afectan a la susceptibilidad de la enfermedad (Gourraud et al., 2012). En 2007 identificaron que genes que codificaban el receptor de la interleuquina 7 (IL7R ) e IL2R estaban significativamente asociados con la enfermedad. Otro gen, CYP27B1, asociado con el metabolismo de la vitamina D, se encuentra entre las nuevas asociaciones con la enfermedad (se ha sugerido que la vitamina D regula más del 80% de los genes asociados con MS). 1.2. Métodos meta-analíticos Actualmente, podemos encontrar gran cantidad de estudios transcriptómicos disponibles para la misma enfermedad o enfermedades relacionadas, cada una de ellas con un tamaño muestral relativamente pequeño, lo cual implica un limitado poder estadístico (Chang et al., 2013). Esta cantidad de conjuntos de datos transcriptómicos cada vez más grande puede contener las claves para nuevos descubrimientos, dando lugar al desarrollo de nuevos fármacos o terapias (Taminau et al., 2014). Además, debido a la falta de estándares para los experimentos de microarrays, se generan 9 conjuntos de datos heterogéneos con los que no se puede hacer una comparación directa (Choi et al., 2003), pudiendo diferir unos estudios de otros en la plataforma utilizada, las características de las muestras o en los juegos de sondas, provocando que, pese a estudiar una misma enfermedad, los resultados puedan variar de unos a otros (Shi et al., 2011). Por ello, una posible solución para aumentar la sensibilidad, validar las conclusiones y evitar el peligro de descubrimientos o artefactos estudio-específicos, es combinar la información de estos estudios independientes que han sido diseñados para estudiar el mismo problema biológico. Dicha integración de la información genómica es similar al clásico meta-análisis en estadística, donde se combinan los resultados de múltiples estudios de una hipótesis de investigación similar para encontrar resultados concluyentes. El meta-análisis se puede definir como el uso de los métodos estadísticos para integrar cuantitativamente los resultados de un conjunto de estudios empíricos sobre un mismo problema de investigación (Sánchez-Meta et al., 2006). En el caso de que todos los estudios en el análisis fuesen igualmente precisos, se podría computar simplemente la media de los tamaños del efecto, pero como no es así, y algunos son más precisos que otros, resulta lógico tratar de otorgar un mayor peso a aquellos que aportan más información En lo referentes a los métodos de integración de la información de estudios genómicos, existen dos tipos (ver Figura 3): los análisis integrativos genómicos verticales, que combinan diferentes eventos moleculares, generalmente en la misma cohorte de muestras (por ejemplo: perfil transcriptómico, genotipos, variación en el número de copias, microRNA, proteoma y fenoma, como pueden ser las bases de datos como el “The Cancer Genome Atlas” (TCGA)), y los meta-análisis genómicos horizontales, que combinan diferentes cohortes de muestras para el mismo evento molecular (Tseng et al., 2012). Figura 3. Tipos de análisis integrativos genómicos. Dentro de los meta-análisis genómicos horizontales, en el caso de trabajar con datos de microarrays, que son técnicas de alto rendimiento para medir los niveles de expresión en cientos de genes simultáneamente, se pueden tomar 2 enfoques diferentes: 10 el meta-análisis propiamente dicho, por el que recibe el nombre este tipo de análisis de integración de la información genómica, y el enfoque de fusión (ver Figura 4), que integra datos de microarrays a nivel de valores de expresión tras transformar los valores de expresión en medidas numéricamente comparables (Taminau et al., 2014). Figura 4. Representación esquemática de los 2 enfoques de análisis integrativos de microarrays (orientados a la identificación de genes diferencialmente expresados). A la izquierda está el enfoque meta-analítico, donde primero se obtienen los resultados de los estudios individuales y luego se combinan dichos resultados. A la derecha el enfoque de fusión, donde primero se combinan los datos y luego se obtienen resultados a partir de dicho conjunto de datos mayor. Obtenida de Taminau et al., 2014. Una de las aplicaciones más frecuentes de los meta-análisis, al trabajar con datos de microarrays, es la detección de genes diferencialmente expresados (Shi et al., 2011). Existen 4 categorías de métodos para combinar información genómica para la detección de genes diferencialmente expresados, de los cuales 3 son métodos meta-analíticos y 1 es un método de fusión (Tseng et al., 2012): · Meta-análisis: - Combinar p-valores. Una de las grandes ventajas de estos métodos es que permiten la estandarización de las asociaciones de estudios genéticos a una escala común, además de su simplicidad y extensibilidad para diferentes tipos de variables resultantes (Wang, 2011). Tipos: 11 - - o Fisher. Este método suma los p-valores transformados a logaritmos obtenidos a partir de estudios individuales. Los p-valores menores contribuyen con mayores valores al estadístico de Fisher. o Stouffer. Suma el inverso de los p-valores transformados normales. Menores p-valores contribuyen más al valor de Stouffer, pero en menor magnitud. o Fisher ponderado adaptativamente (AW). Este método asigna diferentes pesos a cada estudio individual y busca entre todos los posibles pesos para encontrar el mejor peso adaptativo con el menor p-valor derivado. Una de las grandes ventajas de este método es que tiene la capacidad de indicar que estudios contribuyen a la agregación de evidencias y elucidar la heterogeneidad en el meta-análisis. o P-valor mínimo. Toma el p-valor mínimo entre los K estudios como el test estadístico. Este método detecta genes diferencialmente expresados siempre que exista un p-valor bajo en cualquiera de los K estudios. o P-valor máximo. Toma el p-valor máximo como el test estadístico. Se centra en genes diferencialmente expresados que tienen un p-valor pequeño en todos los estudios. Combinar tamaños del efecto. Muchos métodos meta-analíticos se han basado en la asunción de que los tamaños del efecto estandarizados son combinables entre los estudios. Estos métodos otorgan información acerca de la magnitud y dirección de la expresión de genes, y son más restrictivos en sus asunciones que la categoría anterior (Wang, 2011). Para combinar tamaños del efecto existen principalmente 2 enfoques (se da más información sobre cada uno de ellos en el siguiente apartado): o Modelo de Efectos Fijos (FEM) o Modelo de Efectos Aleatorios (REM) Combinar rangos. Una posible desventaja de los métodos anteriores es que los resultados pueden estar dominados por valores atípicos. A diferencia de los pvalores o los tamaños del efecto, los rangos de evidencia de genes diferencialmente expresados se calculan para cada gen en cada estudio, calculando después como test estadístico el producto, media o suma equivalente de todos los estudios. o RankProd & RankSum. Se basan en la creencia biológica común de que si un gen está, de manera repetida, en el top de las listas ordenadas por el cambio de sobre- o sub-expresión en experimentos replicados, es más probable que el gen esté diferencialmente expresado. o Producto de rangos & Sumatorio de rangos. Estos métodos aplican un producto o sumatorio “ingenuo” de los rangos de evidencia de expresión diferencial a lo largo de los estudios. · Fusión: - Fusionar directamente después de normalizar (mega-análisis). Pese a la preocupación por la heterogeneidad a lo largo de los estudios, muchas aplicaciones de meta-análisis de microarrays eligen normalizar a lo largo de los 12 estudios y fusionar directamente los conjuntos de datos para detectar genes diferencialmente expresados. Este tipo de aplicación suele restringir la selección de estudios a plataformas de microarrays similares, lo que puede permitir el preprocesado mediante RMA (model-based robust multi-array). Hay que tener cuidado con este tipo de metodología, ya que la normalización no garantiza eliminar todas las discrepancias entre estudios. Comparando las 3 primeras categorías (combinar p-valores, combinar tamaños del efecto y combinar rangos), cabe decir que mediante la combinación de los tamaños del efecto (ya sea mediante FEM o REM) se identifican automáticamente genes que están consistentemente sobre- o sub-expresados en todos los estudios, lo cual no ocurre en el caso de los métodos que combinan p-valores o rangos si los p-valores y los rangos se obtienen mediante el testeo de hipótesis bilateral. En este último caso, la sobre- y sub-expresión se considera una evidencia igual de fuerte, y por ello, un gen puede ser detectado en el meta-análisis con una evidencia fuerte de sobre-expresión en un estudio y una evidencia fuerte de sub-expresión en otro estudio, dando lugar a conclusiones confusas. Considerando un meta-análisis de K estudios de perfiles de expresión de genes, siendo x gs la intensidad de expresión génica de un gen g y una muestra s en un estudio , con n muestras perteneciendo a un grupo control y n + m a un grupo enfermo, normalmente la hipótesis nula para cada gen g se considera como: H0: g1 = ··· = gk = 0, Donde gk representa el efecto génico del gen g en el estudio . En base al trabajo de Birnbaum y Li y Tseng, los métodos meta-analíticos pueden ser clasificados en 2 configuraciones de hipótesis complementarias: HSA y HSB (Chang et al., 2013), dependiendo de la naturaleza del experimento en el que se obtienen los efectos del gen ( gk): HSA:{H0 vs HA: gk 0, 1 ≤ ≤ K}, HSB:{H0 vs HB: al menos un gk 0, 1 ≤ ≤K}, Además, es posible usar diferentes métodos para considerar explícita o implícitamente diferentes sub-grupos o variaciones de las 2 hipótesis alternativas: HSA2: {H0 vs HA2: gk 0, gk ~ N ( g, 2 )}, Para evitar la confusión, se usa la notación HA para hacer referencia al espacio de parámetros de la hipótesis alternativa correspondiente. Pese a que HA contiene HB, representan dos familias de interpretaciones complementarias. Bajo H A, el gen g es identificado solo cuando está diferencialmente expresado en todos los estudios (el objetivo es detectar genes diferencialmente expresados que tienen tamaños del efecto distintos de 0 en todos los estudios). Bajo HB, el gen g es seleccionado solo si está diferencialmente expresado en uno o más estudios (el objetivo es detectar genes 13 diferencialmente expresados que tienen tamaños del efecto distinto de 0 en al menos un estudio). Desde el punto de vista biológico, el diseño experimental y los objetivos del meta-análisis determinan la lista de biomarcadores de interés. Por ejemplo, si trabajamos con 2 grupos de muestras (sanas y enfermas) de 3 regiones del cuerpo diferentes, como pueden ser pulmón, corazón y páncreas, en caso de querer ver la lista de genes que están expresados de una manera consistente en todos los tejidos, esta podría definirse como GA (lista de marcadores que se expresan invariablemente en los diferentes tejidos), cuyo análisis correspondería a la familia de hipótesis alternativas HA. Si, por el contrario, se quisiese asumir una fisiología tejido-específica que modifica los niveles de expresión, el tipo de análisis a realizar debería formar parte de la familia de hipótesis alternativas HB, generándose una lista de biomarcadores tejido-específicos GB. En el caso de realizar un meta-análisis trabajando con conjuntos de datos de un único tejido del cuerpo, como podría ser estudiar muestras de tejido de próstata normal vs próstata con cáncer, sería recomendable realizar análisis basados en la familia de hipótesis alternativas HA, ya que es claramente de mayor interés biológico, dado que pueden darse diferencias entre los estudios debido a la heterogeneidad de la población de muestras o diferencias en protocolos experimentales (Li et al., 2011)… En la Tabla 1 se presenta una lista de los métodos meta-analíticos usados habitualmente para estudios de microarrays, sus hipótesis alternativas correspondientes y biomarcadores dianas (obtenido de Li et al., 2011, Tseng et al., 2012 y Chang et al., 2013). 14 Tabla 1. Lista de métodos meta-analíticos utilizados para estudios de microarrays, sus hipótesis alternativas correspondientes y biomarcadores diana: Métodos Suma ponderada equitativamente de log(p-valores) P-valor mínimo Valor máximo al lado izquierdo y derecho de Fisher Suma adaptativa ponderada de log(p-valores) RankSum RankProd Modelo de efectos fijos P-valor máximo Modelo de efectos aleatorios Enfoque Bayesiano PI Enfoque Bayesiano SEI Abreviatura Hipótesis alternativa Lista de biomarcadores diana EW HB GB minP HB GB PR HB GB AW HB GB RS RP HB HB GB GB FEM HB GB maxP HA GA REM HA2 GA PI NA GA SEI NA GA Tamaño del Efecto: Cohen define el tamaño del efecto como el grado o magnitud en el que el fenómeno bajo estudio está presente en la población de estudio (Cohen, 1988). Esta medida indica lo fuerte que es la falsedad de la hipótesis nula (que afirma la ausencia de efecto), sin implicar por ello afirmaciones de tipo causal. Es uno de los componentes que posee mayor relevancia para el análisis del poder estadístico (medida que indica la fuerza con la que el investigador está evitando equivocarse con un error de tipo II) (Macbeth et al., 2007). Además, el tamaño del efecto presenta varias características que ofrecen ventajas para ser aplicadas a los datos de microarrays, entre ellas: - Otorga un índice estandarizado. Debido a que los microarrays de expresión solo informan acerca del cambio en la expresión de los genes en relación a una referencia (rara vez estandarizada), obtener los tamaños del efecto ofrece la comparación directa entre los resultados de diferentes medidas. - Se basa en un marco de trabajo estadístico bien establecido para combinar resultados diferentes. El objetivo principal de calcular los tamaños del efecto en lugar de estadísticas tradicionales es sacar una conclusión sintética a partir de 15 - varios estudios, pudiendo integrar de manera eficiente datos de microarrays de diferentes orígenes. Es superior a otros métodos meta-analíticos en lo referente al manejo de la variabilidad entre estudios. Ya que el modelado correcto de la variación entre estudios es un factor clave para la elaboración de un meta-análisis exitoso (especialmente importante al trabajar con microarrays donde se suelen dar diferencias entre estudios), esto supone una ventaja para ser aplicado a datos de microarrays. Para medir la expresión diferencial de un gen, una de las posibilidades es utilizar la diferencia de medias estandarizadas como un índice del tamaño del efecto. Para ello, se puede usar la fórmula: d = (Xt – Xn) / Sp Donde Xt y Xn representan las medias de los grupos tumorales y normales (control, libre de tumor) respectivamente, y Sp indica una estima de la desviación estándar combinada. Cuando un estudio consta de n muestras, la estima no sesgada se obtiene como d´ = d – 3d/(4(n-2)-1), que indica la corrección para el sesgo del tamaño de muestra. La varianza estimada del tamaño del efecto no sesgado viene dado como: d2 = (nt-1 + nn-1) + d2(2(nt + nn))-1 Donde nt y nn son el tamaño de muestra de cada grupo y d es el tamaño del efecto no sesgado, que indica la precisión de la medida que otorga cada grupo. Siendo µ la media global e yi el tamaño del efecto observado para estudios independientes, el modelo general viene dado como: yi = i + i=µ + , i, i ~ N (0, Si2), 2 ), i ~ N (0, i Donde la varianza entre estudios τ2 representa la variabilidad entre estudios mientras que la varianza intra-estudios Si2 representa el error de muestreo condicionada en el i-ésimo estudio . En esta aplicación, yi y Si2 vienen dadas por d y d2 descritos arriba. Por lo tanto, µ es la medida promedio de expresión diferencial a lo largo de los conjuntos de datos para cada gen. Modelo de Efectos Fijos (FEM): Un modelo de efectos fijos se asume que hay un verdadero tamaño del efecto que es compartido por todos los estudios incluidos, µ, siendo el error aleatorio dentro de los estudios la única fuente de error (con esto aquellos estudios con un tamaño muestral elevado tendrán un error cercano a 0), lo cual implica que τ2 = 0, y como consecuencia yi ~ N (µ, Si2) (Choi et al., 2003). Los efectos observados se distribuyen alrededor de µ con una varianza 2, que depende principalmente del tamaño muestral de cada estudio. 16 De esta manera, se pueden asignar pesos a todos los estudios basándose completamente en la cantidad de información que proporciona el estudio, de manera que un estudio con un tamaño muestral elevado recibirá más peso y uno con un tamaño pequeño podría llegar a ser ignorado (Borenstein et al., 2007). Figura 5. El efecto observado en el estudio 1 (T 1) es calculado como el efecto común µ más el error dentro de los estudios ( 1). Modelo de Efectos Aleatorios (REM): Mediante el modelo de efectos aleatorios, se permite que el verdadero tamaño del efecto pueda variar entre estudios (se trata de estimar la media de una distribución de efectos verdaderos). Este modelo postula que cada tamaño del efecto es el reflejo de una distribución con una media estudio-específica i y varianza Si2. De hecho, se asume que cada i es un reflejo de alguna superpoblación con la media global µ y varianza τ2, con lo que yi ~ N ( i , Si2) y i ~ N (µ, τ2) (Choi et al., 2003). De esta manera, estudios grandes pueden generar estimaciones más precisas que los pequeños, asegurándose de que la media se calcula usando todos los tamaños del efecto (con lo que lo pesos que se asignan están más balanceados que en el modelo de efectos fijos, siendo menos probable que los estudios grandes dominen el análisis y los pequeños sean excluidos). En este modelo existen 2 fuentes de error, el número de sujetos por estudio y el número de estudios (Borenstein et al., 2007). Figura 6. El efecto observado T 1 (cuadrado) se obtiene de una distribución de efectos verdaderos 2 . El efecto verdadero 1, de manera sucesiva, se obtiene de una distribución con 1 y varianza media µ y varianza τ2. 17 2. MATERIALES Y MÉTODOS 2.1. Conjuntos de datos, pre-procesado y meta-análisis: Según Ramasamy et al., 2008, hay 7 cuestiones diferentes que han de ser resueltas para llevar a cabo un meta-análisis de conjuntos de datos de microarrays (ver Figura 7). El primer paso, identificar los conjuntos de datos de microarray adecuados, implica plantearse los objetivos del metaanálisis que se va a llevar a cabo. En nuestro caso, como bien se ha comentado en el apartado anterior, se trata de localizar genes diferencialmente expresados en distintas enfermedades del Sistema Nervioso Central (SNC) y distintos tipos de cánceres, que se cree pueden presentar comorbilidad directa o inversa. Las enfermedades que se han considerado interesantes a estudiar son las analizadas por Catalá-López et al., 2014, mencionadas también en el apartado anterior. Para analizar dichas enfermedades, se ha planteado, al igual que en el estudio anterior elaborado por Ibañez et al., 2014, utilizar conjuntos de datos de microarrays de expresión obtenidos a partir de 2 plataformas concretas, HG_U133A y HG_U133_Plus, con 14.538 y 23.945 genes identificados respectivamente, y que son similares entre sí (la segunda contiene las Figura 7. Representación esquemática de los mismas sondas que la primera y 9.407 pasos a seguir a la hora de llevar a cabo un Meta-análisis de conjuntos de datos de sondas más, ver Figura 8). La búsqueda de microarrays de expresión génica, sacado de los conjuntos de datos se ha realizado en Ramasamy et al., 2008. diferentes repositorios públicos online como NCBI GEO ómnibus (http://www.ncbi.nlm.nih.gov/geo/) y ArrayExpress (http://www.ebi.ac.uk/arrayexpress/), y en otros pertenecientes a universidades u hospitales, como por ejemplo la base de datos genómica online del Stanley Medical Research Institute (https://www.stanleygenomics.org). De todas las enfermedades consideradas de interés para analizar la posible existencia de comorbilidad, solo se han encontrado conjuntos de datos suficientes, en las plataformas deseadas, para: Alzheimer, Esquizofrenia, Párkinson y Esclerosis múltiple (para la cual se han encontrado datos obtenidos a partir líquido cefalorraquídeo por un lado y de células mononucleares de sangre periférica (PBMC)) por parte de las enfermedades del sistema nervioso central, y cáncer de pulmón, mama, próstata, colon y 18 cerebro por parte de los diferentes tipos de cánceres. Además, se han encontrado y añadido al estudio conjuntos de datos de cáncer de ovario, hígado y riñones, por si se pudiese observar alguna relación interesante, pese a no haberse descrito previamente en la literatura casos de comorbilidad con estos tipos de cánceres (para ver los conjuntos de datos utilizados y sus referencias ver Tablas 2 y 3 y datos suplementarios). En lo referente a los tumores cerebrales, los conjuntos de datos utilizados, o bien no presentaban una cantidad suficiente de muestras control, o bien los controles utilizados no se consideraban adecuados por tratarse de cerebros con epilepsia. Para solventar este problema se utilizaron como control muestras provenientes de estudios de Alzheimer. En el segundo paso, extraer datos de los estudios, es recomendable extraer los datos en formato .CEL, sin que hayan sido previamente pre-procesados, para evitar diferencias entre estudios. Esta parte es vital y limitante, ya que, pese a que actualmente es obligatorio tener accesibles los datos crudos con los que se ha realizado el estudio, hace unos años no lo era, de manera que se pueden encontrar gran cantidad de estudios que muestran únicamente las listas de genes diferencialmente expresados (en el caso de estudio se ha prescindido de este tipo de estudios, a fin de tratar de ser lo más homogéneos posibles en lo que al procesado de datos se refiere, es decir, se han seleccionado únicamente aquellos estudios que tenían los datos “crudos” disponibles, pese a que esto haya disminuido la cantidad de estudios a incluir en el meta-análisis). Como parte principal del tercer paso, preparar los conjuntos de datos de las diferentes plataformas, hay que convertir los datos crudos en un matriz de datos de expresión de genes (preprocesado), que representa un resumen de la expresión de genes de todas las sondas y muestras. El paso del pre-procesado es realmente importante, dado que afecta directamente a las medidas de expresión de genes y por lo tanto a los pasos siguientes. Debido a que en el paso 1 se han seleccionado solo aquellos Figura 8. Diagrama de Venn que refleja el estudios cuyos datos de expresión solapamiento de los genes identificados en las se habían obtenido mediante 2 plataformas HG_U133A y HG_U133Plus2. plataformas de microarrays de la empresa Affymetrix, que además son muy similares, se ha podido utilizar el mismo algoritmo de pre-procesado (evitando insertar mayor variabilidad en los estudios). Esto es ventajoso ya que existen pocos algoritmos de pre-procesado que puedan ser aplicados de manera universal a los datos de plataformas diferentes (Ramasamy et al., 2008). El proceso de normalización de los datos se ha llevado a cabo utilizando “frozen Robust Multiarray Analysis” (fRMA) (McCall et al., 2012), del paquete Affy de R (Gautier et 19 al., 2004). En el diseño de sondas de microarrays se utilizan regiones de interés de los genes, dado que el uso de la secuencia completa de los mismos puede dar lugar a uniones no específicas. Por ello, diferentes plataformas suelen presentar sondas diferentes para un mismo gen. Como consecuencia de esto, es necesario identificar que sondas representan un gen concreto dentro y entre los conjuntos de datos, lo cual se trata de realizar en el cuarto paso. En el caso de estudio, al usarse 2 plataformas muy similares, tanto que una contiene a la otra, las sondas utilizadas en ambas son idénticas, con lo que este paso no entraña ningún problema. Sea como sea, lo que se suele hacer para afrontar este problema es transformar los nombres de sondas en identificadores de genes, como pueden ser los de UniGene, RefSeq, Entrez Gene ID o Gene Symbol (en este estudio se le ha asignado a cada sonda su Gene Symbol correspondiente). Dado que los conjuntos de datos de expresión pueden presentar números diferentes de genes y estar ordenados de manera diferente, mediante la función MetaDE.merge del paquete de R MetaDE (Wang et al., 2012), se han extraído los genes comunes a lo largo de los estudios, permitiéndonos trabajar con los mismos genes en el mismo orden. Otro de los problemas que hay que solventar es que hay gran cantidad de plataformas en las que hay más de una sonda para un mismo gen, lo cual puede fragmentar la información disponible para el meta-análisis. En el quinto paso se trata de solucionar este problema, para el cual existen diferentes soluciones, como por ejemplo reemplazar las sondas que se relacionan con un mismo gen por el identificador de dicho gen, que asegura que el software use toda la información disponible de manera que se evita perder información relevante. Sin embargo, Ramasamy et al., 2008 recomienda resumir todas las sondas en un único valor representativo por gen en cada estudio. Una de las soluciones para resumir esta información es trabajar con medidas estandarizadas como p-valores o tamaños del efecto, pudiendo elegir los valores más extremos que son los que son menos probables que ocurran por azar. En nuestro caso, mediante la función MetaDE.match del paquete de R MetaDE (Wang et al., 2012), se han seleccionado aquellas sondas que presentan un mayor rango intercuartílico (una mayor cantidad de información). Tras resolver este problema, queda un estadístico por identificador del gen por estudio. Una vez realizado este paso, hay que decidir si usar todas las sondas disponibles en el array o si se va a realizar un filtrado de las sondas. En este caso, utilizando la función MetaDE.filter del paquete de R MetaDE (Wang et al., 2012), se filtraron los genes que presentaban niveles de expresión bajos a lo largo de la mayoría de los estudios (calculando la intensidad media de cada gen a lo largo de todas las muestras de cada estudio y eliminando aquellos con un porcentaje alfa menor) y aquellos genes que variaban poco (reemplazando la intensidad media por la desviación estándar y eliminando los que menos porcentaje beta presentaban). Es importante mencionar que, en el marco de trabajo publicado por Ramasamy et al., 2008, el proceso de filtrado se llevaba a cabo en el paso 3, pero nosotros hemos decidido seguir el mismo procedimiento que Ibañez et al., 2014, realizando el filtrado únicamente con los genes comunes a todos los estudios y que otorgan una mayor cantidad de información. 20 Como penúltimo paso, hay que elegir una técnica meta-analítica. La búsqueda de genes diferencialmente expresados es una comparación entre dos clases (en este caso enfermedad vs sano). De las 4 categorías mencionadas en el apartado 1.2., se considera que la mejor opción es combinar los tamaños del efecto, debido a que: - Requiere datos individuales a nivel de pacientes. - Considera la información de todos los genes disponibles y no únicamente los declarados significativos en los estudios originales. - Dado que se estudiarán más algunos genes que otros a lo largo de los estudios, es preferible usar una técnica que trate los genes estudiados a lo largo de todos los estudios y los genes raramente estudiados de una manera equivalente. El estudio de los tamaños del efecto calcula la media ponderada de dichos tamaños. - Produce resultados en una escala mucho más fina. - Es computacionalmente rápido, lo que permite incluir un mayor número de estudios. - Otorga una medida de discriminación biológicamente interpretable. - Es la única técnica que pondera la contribución de cada estudio en base a su precisión, que está relacionado con el tamaño muestral de cada estudio. - Permite utilizar un “forest plot” para investigar de una manera visual las contribuciones de los estudios individuales y la cantidad de heterogeneidad a lo largo de los conjuntos de datos. Por todo esto, se ha decidido estudiar el tamaño del efecto estudio-específico para cada gen y luego compararlos entre estudios, utilizando el modelo de efectos fijos y el modelo de efectos aleatorios, ambos explicados en el apartado 1.2. de la introducción. El séptimo y último paso consiste en analizar, presentar e interpretar los resultados para tratar de obtener conclusiones biológicas. Como resultado de todo este proceso se obtienen, para cada enfermedad, 2 listas de genes, una con los genes que están significativamente sobre-expresados (FDR < 0.05) y otra con los genes que están significativamente sub-expresados. Para analizar si realmente existe comorbilidad entre las enfermedades de los 2 tipos (SNC y cáncer), se compararon las listas de genes diferencialmente sobre- y subexpresados de cada CNSd con las listas de cada uno de los diferentes tipos de cáncer, evaluando la significancia de los solapamientos entre los genes diferencialmente expresados mediante el test exacto de Fisher de una cola, corregido para testeo múltiple mediante Bonferroni (q-valor < 0.05). Para poder realizar el test de Fisher se estableció que el número de genes de fondo era 14.538, que es el número de gene symbols que se estudian mediante la plataforma HG_U133A (la más pequeña de las 2 utilizadas). 21 Tabla 2. Conjuntos de datos utilizados para estudiar las enfermedades del Sistema Nervioso Central (Alzheimer, Parkinson, Esquizofrenia y Esclerosis Múltiple), indicándose su identificador, el tejido y la región de la que se han obtenido los datos, la plataforma para dicha obtención de datos, el repositorio online de donde han sido descargados, así como el número de muestras para los casos y para los controles y el artículo de referencia a dichos datos (en caso de no haberlo se indica como “ -“). Enfermedad Identificador conjuntos de datos Tejido GSE5281 Alzheimer Cerebro GSE48350 GSE4757 Parkinson Esquizofrenia Esclerosis Múltiple GSE7621 GSE20141 GSE20146 GSE4036 AltarA AltarC Bahn Kato Dobrin Laeng Kemether GSE52139 E-MTAB-69 Región Corteza Entorrinal Hipocampo Giro Temporal Medio Cingulado Posterior Giro Frontal Superior Corteza Visual Primaria Corteza Entorrinal Hipocampo Giro Postcentral Giro Frontal Superior Plataforma HG_U133Plus2 Repositorio online GEO Cerebro Mesencéfalo (sustancia negra) Globus pallidus interna Cerebelo Área de Brodmann 46 Hipocampo Tálamo Líquido Cefalorraquídeo 20 (10/10) HG_U133Plus2 HG_U133A GEO HG_U133Plus2 GEO HG_U133A Stanley Medical Research Institute HG_U133Plus2 GEO - HG_U133Plus2 ArrayExpress Referencia Liang et al., 2007 31 (19/12) 53 (14/39) 62 (19/43) 68 (25/43) 69 (21/48) Corteza Entorrinal Cerebro Número de muestras (casos / control) 23 (10/13) 23 (10/13) 28 (16/12) 22 (9/13) 34 (23/11) 25 (16/9) 18 (10/8) 20 (10/10) 23 (11/12) 66 (32/34) 50 (21/29) 67 (34/33) 69 (35/34) 55 (30/25) 41 (20/21) 26 (14/12) 16 (8/8) 32 (14/18) 30 (12/18) Blair et al., 2013 Dunckley et al., 2006 Lesnick et al., 2007 Zheng et al., 2010 - Brynedal et al., 2010 22 Tabla 3. Conjuntos de datos utilizados para estudiar diferentes tipos de tumores (Astrocitoma, Glioblastoma, Oligodendroglioma, cáncer de colon, cáncer de pulmón y cáncer de próstata), indicándose su identificador, el tejido del que se han obtenido los datos, la plataforma para dicha obtención de datos, el repositorio online de donde han sido descargados, así como el número de muestras para los casos y para los controles y el artículo de referencia a dichos datos (en caso de no haberlo se indica como “-“). Identificador conjuntos de datos GSE4290 Astrocitoma GSE15824 GSE4290 Glioblastoma GSE15824 GSE4290 Oligodendroglioma GSE15824 GSE4183 Cáncer de colon GSE8671 GSE19188 Cáncer de pulmón GSE19804 GSE7307 Cáncer de próstata GSE17951 Enfermedad Tejido Plataforma Repositorio online Cerebro HG_U133Plus2 GEO Colon HG_U133Plus2 GEO NSCLC HG_U133Plus2 GEO Próstata HG_U133Plus2 GEO Número de muestras (casos / control) 20 (7/13) 21 (8/13) 39 (26/13) 25 (12/13) 34 (21/13) 20 (7/13) 53 (14/39) 64 (32/32) 144 (94/50) 120 (60/60) 30 (17/13) 154 (141/13) Referencia Sun et al., 2006 Grzmil et al., 2011 Sun et al., 2006 Grzmil et al., 2011 Sun et al., 2006 Grzmil et al., 2011 Guorffy et al., 2009 Sabates-Bellver et al., 2007 Hou et al., 2010 Lu et al., 2010 Wang et al., 2010 23 2.2. Análisis de rutas enriquecidas: Con objeto de llevar a cabo un análisis funcional de los resultados obtenidos, en lugar de realizar un análisis gen a gen, se ha decidido, igual que en el trabajo anterior (Ibañez et al., 2014), realizar un análisis funcional de los genes diferencialmente expresados en cada una de las enfermedades, de manera que podamos tener una visión global de las funciones enriquecidas en cada una de las enfermedades. Para llevar a cabo este proceso, se ha decidido utilizar la aplicación web: WEBbased Gene SeT AnaLysis Toolkit (http://bioinfo.vanderbilt.edu/webgestalt/, Zhang et al., 2005 & Wang et al., 2013). Esta herramienta web permite llevar a cabo análisis de enriquecimientos funcionales, pudiendo estudiar 8 organismos diferentes (humano, ratón, rata, perro, mosca, gusano, pez cebra y levadura), reconociendo 201 tipos de identificadores diferentes que mapean con identificadores de genes de Entrez, y disponiendo de 78.612 categorías funcionales donde poder clasificar los genes diferencialmente expresados (Wang et al., 2013). El funcionamiento de la herramienta web es considerablemente sencillo y se puede resumir en los siguientes pasos: - Introducir la lista de los genes diferencialmente expresados (ya sea pegando los nombres directamente o subiendo un archivo de texto plano que contenga dicha lista), seleccionar el organismo que se está estudiando y el tipo de identificador de los genes que se ha introducido (en nuestro caso Gene Symbol, pero acepta una gran diversidad de identificadores), los cuales se transformarán a identificadores de genes de Entrez (el programa devuelve también aquellos genes para los que no se ha encontrado identificador de genes Entrez). - Seleccionar el tipo de análisis de enriquecimiento a realizar: GO, KEGG, Wikipathways, Pathway Commons, dianas de Factores de Transcripción, dianas de microRNAs, redes de interacción de proteínas, localización cromosómica, asociación a enfermedades, asociación a fármacos, fenotipos o PheWAS. - Seleccionar el conjunto de datos de referencia para el análisis de enriquecimiento. En nuestro caso utilizamos como referencia la lista de gene symbols que se analizan en la plataforma de arrays HG_U133A, indicando el tipo de lista que estamos facilitándole. - Seleccionar el método de ajuste para testeo múltiple (BH, BY, Bonferroni, holm, hommel o ninguno) y el nivel de significancia, en nuestro caso Bonferroni y 0.05 respectivamente. El método estadístico utilizado por esta herramienta para evaluar la significancia del enriquecimiento en una función determinada es el test hipergeométrico: donde n y m son el número de genes en el conjunto de genes de estudio y en el de referencia respectivamente, y k y j son el número de genes del conjunto de genes de estudio y del conjunto de genes de referencia respectivamente que pertenecen a una categoría concreta. 24 3. RESULTADOS Como ya se ha mencionado en el apartado de materiales y métodos, se ha realizado un meta-análisis utilizando el modelo de efectos fijos y el modelo de efectos aleatorios (por separado), comparando después, para cada uno de los modelos, las listas de genes diferencialmente expresados obtenidas, utilizando el test exacto de Fisher de una cola para dicha comparación, obteniendo los solapamientos de genes sobreexpresados en una enfermedad y sub-expresados en la otra, o los solapamientos de genes que se comportan de la misma manera en 2 enfermedades distintas (genes sobreo sub-expresados en ambas enfermedades). Como consecuencia de introducir una cantidad elevada de enfermedades para el estudio, incluyendo enfermedades para las que no se habían obtenido resultados de comorbilidad en estudios anteriores y enfermedades que introducían una gran variabilidad, los resultados obtenidos no permitían una apreciación clara de los casos de comorbilidad, por lo que se ha realizado un filtrado seleccionando aquellas enfermedades para las que se observaban solapamientos significativos (para ver la tabla con los resultados del test de Fisher incluyendo todas las enfermedades, ver datos suplementarios, Figura 1). Las enfermedades para las que se ha observado una clara comorbilidad son: Alzheimer y Párkinson por parte de las enfermedades del Sistema Nervioso Central, y Astrocitoma, Glioblastoma, Oligodendroglioma, cáncer de colon, de pulmón y de próstata por parte de los cánceres. Los valores de dicho solapamiento se presentan en las Figuras 9 y 10 (solapamientos de las listas de genes diferencialmente expresados obtenidas mediante FEM y REM respectivamente). Astrocytoma_Down Glioblastoma_Down Oligodendroglioma_Down Colon_Down Lung_Down Prostate_Down 5110 5787 6076 Alzheimer_Up 3337 1267 Parkinson_Up 2.31e-08 1607 Alzheimer_Down 509 2.64e-142 5132 Parkinson_Down 2.49e-223 2421 5.75e-46 1872 2860 906 9.07e-290 3337 Parkinson_Up Glioblastoma_Up 1607 Alzheimer_Down 5132 Parkinson_Down 1872 1709 656 533 1079 Oligodendroglioma_Up 4382 Colon_Up 5068 Lung_Up 5912 Prostate_Up 3035 7.31e-290 1991 5.13e-48 636 1096 6.24e-51 2910 4685 0 1.45e-36 1525 2.40e-27 2741 1.37e-119 4.48e-60 1083 3878 4345 1.74e-120 1.57e-196 2.50e-78 Astrocytoma_Up Alzheimer_Up 3799 2.071e-77 1842 1.83e-32 766 2.07e-07 681 642 2.64e-67 2209 6.04e-06 724 1.26e-58 2448 2.87e-12 870 2.46e-120 1581 9.93e-67 669 Figura 9. Comparación de genes significativamente sobre- y sub-expresados (q-valor < 0.05) en enfermedades del Sistema Nervioso Central (Alzheimer y Párkinson) y distintos tipos de cánceres (Astrocitoma, Glioblastoma, Oligodendroglioma, cáncer de colon, de pulmón y de próstata), obtenidos tras realizar el meta-análisis mediante el modelo de efectos fijos (FEM). En negrita se indican los valores obtenidos mediante el test exacto de Fisher y en un tamaño de letra menor, dentro de la misma celda, se indica el número de genes en común. En verde se indican aquellos casos en los que el solapamiento se da entre genes que se comportan de la misma manera en ambas enfermedades, y en naranja el solapamiento entre genes con comportamientos inversos. Las celdas blancas indican que no se está dando un solapamiento significativo entre dichas enfermedades. 25 Astrocytoma_Down Glioblastoma_Down Oligodendroglioma_Down Colon_Down Lung_Down Prostate_Down 3590 3869 3832 Alzheimer_Up 2472 7.12e-49 2113 3.145 9.89e-57 597 Parkinson_Up 733 301 9.94e-71 3960 Parkinson_Down 1.203e-126 1360 3.68e-22 1185 1586 428 7.49e-142 2113 Glioblastoma_Up 1011 Alzheimer_Down 3960 Parkinson_Down 1185 831 Oligodendroglioma_Up 2495 Colon_Up 2616 Lung_Up 4089 Prostate_Up 1091 1.04e-142 1040 3.21e-26 278 443 2377 8.03e-204 1.59e-13 1398 1.14e-20 521 2677 Parkinson_Up 1.87e-61 4.38e-47 Astrocytoma_Up Alzheimer_Up 158 6.75e-11 1011 Alzheimer_Down 686 1.308e-08 795 1.08e-14 365 1.801e-11 266 265 6.28e-14 857 6.68e-21 1.52e-53 1290 0.003 519 9.86e-15 373 160 Figura 10. Comparación de genes significativamente sobre- y sub-expresados (q-valor < 0.05) en enfermedades del Sistema Nervioso Central (Alzheimer y Párkinson) y distintos tipos de cánceres (Astrocitoma, Glioblastoma, Oligodendroglioma, cáncer de colon, de pulmón y de próstata), obtenidos tras realizar el meta-análisis mediante el modelo de efectos aleatorios (REM). En negrita se indican los valores obtenidos mediante el test exacto de Fisher y en un tamaño de letra menor, dentro de la misma celda, se indica el número de genes en común. En verde se indican aquellos casos en los que el solapamiento se da entre genes que se comportan de la misma manera en ambas enfermedades, y en naranja el solapamiento entre genes con comportamientos inversos. Las celdas blancas indican que no se está dando un solapamiento significativo entre dichas enfermedades. Tras realizar el estudio de solapamientos mediante el test de Fisher, en lo referente a los casos de comorbilidad entre los 3 tipos de tumores cerebrales y las 2 CNSd (comorbilidad directa), pese a variar los q-valores (disminuyendo para el caso de REM (donde se tiene en cuenta tanto la variabilidad intra-estudios como la variabilidad entre-estudios) respecto a FEM (donde solo se tiene en cuenta la variabilidad intraestudios)), se siguen obteniendo resultados considerablemente significativos, siendo en ambos casos más significativos los solapamientos para el caso de glioblastomas (frente a astrocitoma y oligodendroglioma) y Alzheimer (frente a Párkinson). Sin embargo, en lo que respecta a las enfermedades que presentan comorbilidad inversa (cáncer de colon, pulmón y próstata con Alzheimer y Párkinson), si bien la relación AD con los 3 tipos de cáncer se mantiene (fluctuando entre ambos modelos) y se siguen obteniendo solapamientos significativos, no es así para el caso de Párkinson, manteniéndose únicamente una relación de comorbilidad inversa plena (que se de solapamiento tanto entre los genes sobre-expresados en una enfermedad y sub-expresados en la otra como entre los genes sub-expresados en una enfermedad y sobre-expresados en la otra) en el caso de cáncer de pulmón (ver Figuras 9 y 10). Tal y como hicieron Ibañez et al., 2014, se ha trabajado con los datos obtenidos mediante FEM. Tras el análisis de solapamiento, queda patente también que las enfermedades que presentan comorbilidad con Alzheimer lo presentan también con Párkinson, siendo además el mismo tipo de comorbilidad. Esto nos llevó a plantearnos la cantidad de genes compartidos por ambas enfermedades, más aun tras ver que algunos autores han sugerido en estudios anteriores que el Párkinson podría clasificarse como un sub-tipo de 26 Alzheimer (Moskvina et al., 2013). Tras analizar la cantidad de genes compartidos por ambas enfermedades, se vio que prácticamente la totalidad de los genes sub-expresados en Párkinson están también sub-expresados en Alzheimer (84,34%), siendo lo mismo para los genes sobre-expresados, aunque en menor medida (61,97%, ver Figura 12). Al observar que los 3 tipos de tumores cerebrales presentan el mismo tipo de comorbilidad, con valores muy elevados de solapamiento, se ha considerado interesante analizar la cantidad de genes que se comportan igual entre los 3 tipos (ver Figura 11). Figura 11. Representación en formato de diagramas de Venn de los genes que se comportan de la misma manera (genes sub-expresados en la parte izquierda de la figura y sobre-expresados en la parte derecha) en los 3 tipos de tumores cerebrales (astrocitoma, glioblastoma y oligodendroglioma). Analizando el solapamiento entre los 3 tipos de tumores cerebrales, se ha visto que la gran mayoría de los genes sub-expresados son comunes a los 3 tipos, con 4.363 genes compartidos entre los 3 para un máximo de 6.076 (oligodendroglioma), y para los genes sobre-expresados, con 3.102 genes compartidos para un máximo de 4.685 (glioblastoma). A partir de este punto, todos los análisis se han realizado considerando los 3 tumores cerebrales como un solo tipo de cáncer, trabajando solo con los genes compartidos por los 3, a fin de simplificar un poco el análisis y poder generalizar, si bien queda pendiente analizar las diferencias entre los 3. 27 Figura 12. Representación en formato de diagramas de Venn de los genes que se comportan de la misma manera (genes sub-expresados en la parte izquierda de la figura y sobre-expresados en la parte derecha) en Alzheimer (circunferencia verde) y Párkinson (circunferencia naranja). En la realización del estudio, tal y como se ha mencionado en el apartado de Materiales y Métodos, surgió un problema a la hora de recoger datos para analizar los 3 tipos de tumores cerebrales, ya que los conjuntos de datos disponibles o bien no presentaban una cantidad suficiente de muestras control, o bien utilizaban como muestras control datos de cerebros con epilepsia. Para poder estudiar la posible existencia de comorbilidad en estos tipos de tumores se realizó una búsqueda de conjuntos de datos de expresión de cerebros control. Surgió el problema de que en los conjuntos de datos con muestras de casos de tumores cerebrales no se indica la región del cerebro de la que se toman las muestras, cosa que si se hace en los conjuntos de datos con muestras control del cerebro (principalmente estudios de Alzheimer). En el estudio inicial se utilizaron como control datos de expresión de muestras obtenidas del hipocampo. De cara a comprobar si los resultados obtenidos se debían al hecho de haber seleccionado como muestras control aquellas obtenidas a partir del hipocampo, se repitió el estudio utilizando como control diferentes regiones del cerebro (giro temporal medio, cingulado posterior, giro frontal superior, córtex visual primario y córtex entorrinal), obtenidas todas a partir de los conjuntos de datos utilizados para estudiar la enfermedad de Alzheimer. Como resultado se dicho análisis se ha visto que la tendencia es la misma utilizando cualquiera de las regiones (variando únicamente la magnitud del q-valor) salvo el córtex entorrinal, donde se dan solapamientos entre genes sobre-expresados en los 3 tipos de tumores cerebrales y sub-expresados en Alzheimer y Párkinson (para esta enfermedad no se observa esta relación con glioblastomas, pero sí con astrocitomas y oligodendrogliomas), en lugar de darse solapamientos entre los genes sobre- o subexpresados en ambas enfermedades (ver Figura 13). 28 Alzheimer_Up Parkinson_Up Alzheimer_Down Parkinson_Down Astrocytoma_Down 1 1 2.64e-142 5.75e-46 Glioblastoma_Down 1 1 2.49e-223 2.50e-78 Hippocampus Oligodendroglioma_Down Astrocytoma_Up 1 9.07e-290 1 1.45e-36 1.57e-196 1 4.48e-60 1 Glioblastoma_Up 0 5.13e-48 1 1 Oligodendroglioma_Up 7.31e-290 1.83e-32 1 1 Medial_Temporal_Gyrus Astrocytoma_Down Glioblastoma_Down Oligodendroglioma_Down Astrocytoma_Up Glioblastoma_Up Oligodendroglioma_Up Alzheimer_Up 1 1 1 2.65516944418894e-249 0 6.21218001439691e-270 Parkinson_Up 1 1 1 6.69422090473943e-24 1.27283354202363e-40 6.65271650217351e-25 Alzheimer_Down 2.34290168001383e-91 2.62524939862229e-155 9.07221845130844e-130 1 1 1 Parkinson_Down 2.89468130924647e-22 1.5078282216725e-50 1.11311210887436e-32 1 1 1 Posterior_Cingulate Astrocytoma_Down Glioblastoma_Down Oligodendroglioma_Down Astrocytoma_Up Glioblastoma_Up Oligodendroglioma_Up Alzheimer_Up 1 1 1 9.89910522044001e-259 7.16808735577404e-296 8.41361627162041e-240 Parkinson_Up 1 1 1 4.05234424226145e-34 6.39499303598533e-47 4.76846497487909e-34 Alzheimer_Down 2.3621786490209e-105 2.47823067770062e-179 5.79714303556238e-159 1 1 1 Parkinson_Down 1.03944297447106e-36 9.61666885629715e-69 4.88889259105679e-55 1 1 1 Superior_Frontal_Gyrus Astrocytoma_Down Glioblastoma_Down Oligodendroglioma_Down Astrocytoma_Up Glioblastoma_Up Oligodendroglioma_Up Alzheimer_Up 1 1 1 3.47216021682221e-296 4.68373141360556e-315 8.7814158951891e-270 Parkinson_Up 1 1 1 5.91448673493984e-46 6.99405761636848e-59 1.47755413129375e-49 Alzheimer_Down 4.12581191909821e-81 3.79100997741102e-138 3.13500747173379e-102 1 1 1 Parkinson_Down 1.02742859216098e-11 3.17449562796378e-40 1.95612717086656e-18 1 1 1 Primary_Visual_Cortex Astrocytoma_Down Glioblastoma_Down Oligodendroglioma_Down Astrocytoma_Up Glioblastoma_Up Oligodendroglioma_Up Alzheimer_Up 1 1 1 4.22737838921789e-175 5.5083523192802e-205 1.21800599495283e-154 Parkinson_Up 1 1 1 4.21851993639764e-15 1.92225635850959e-21 3.92200514008679e-12 Alzheimer_Down 1.3816821100949e-81 5.55362386348789e-136 9.62608367013061e-106 1 1 1 Parkinson_Down 1.43095717562232e-24 1.58234849548828e-46 8.91509407048863e-32 1 1 1 Entorhinal_Cortex Astrocytoma_Down Glioblastoma_Down Oligodendroglioma_Down Astrocytoma_Up Glioblastoma_Up Oligodendroglioma_Up Alzheimer_Up 1 1 1 6.79368433581791e-129 2.6580052962257e-167 8.05139366379648e-121 Parkinson_Up 1 1 1 1.13603051198654e-30 1.27840359344385e-40 1.10479878722112e-26 Alzheimer_Down 6.16874174461925e-10 8.73712158160989e-33 8.28670679408704e-14 2.2604822706818e-09 0.00188009808087085 3.92619516534872e-10 Parkinson_Down 1 7.31733205430393e-07 1 0.000279660512676944 1 0.00016215704118281 Figura 13. Comparación de genes significativamente sobre- y sub-expresados (q-valor < 0.05) en Alzheimer y Párkinson frente a astrocitoma, glioblastoma y oligodendroglioma, obtenidos tras realizar el meta-análisis mediante el modelo de efectos fijos y utilizando como datos control para los casos de los 3 tumores cerebrales diferentes regiones del cerebro (hipocampo, giro temporal medio, cingulado posterior, giro frontal superior, córtex visual primario y córtex entorrinal). En verde se indican aquellos casos en los que el solapamiento se da entre genes que se comportan de la misma manera en ambas enfermedades, y en naranja el solapamiento entre genes con comportamientos inversos. Las celdas blancas indican que no se está dando un solapamiento significativo entre dichas enfermedades. Con objeto de conocer mejor las funciones enriquecidas en los distintos tipos de enfermedades, se ha realizado un análisis de enriquecimiento funcional, tal y como se ha mencionado en el apartado de Materiales y Métodos. Tras este estudio, no se han obtenido funciones enriquecidas para Párkinson con una significación menor de 0.05. Entre las rutas en las que están enriquecidas las listas de genes sub-expresadas en Alzheimer y tumores cerebrales y sobre-expresadas en cáncer de colon, pulmón y próstata, encontramos las rutas “rutas en cáncer”, “adhesión focal”, “migración trasendotelial de leucocitos”, “diferenciación de osteoclastos” y la “regulación del citoesqueleto de actina” (ver Figura 14). Resulta curioso encontrar la ruta de KEGG “rutas en cáncer” enriquecida en las listas de genes sobre-expresados en los tumores cerebrales y en las listas de genes sub-expresados en cáncer de pulmón y próstata, indicando que una cantidad elevada de estos genes se comporta de manera inversa dependiendo del tejido en el que se desarrolle (este caso concreto se analiza en más detalle en el apartado Discusión). Pese a que en el test de Fisher se obtienen solapamientos significativos entre los genes sub-expresados en Alzheimer y los que presentan el mismo comportamiento en los 3 tumores cerebrales, no se encuentra ni un 29 solo enriquecimiento en común entre los genes sub-expresados en Alzheimer y los subexpresados también en tumores cerebrales (ver Figura 15). Focal_adhesion Leukocyte_transendothelial_migration Osteoclast_differentiation Pathways_in_cancer Regulation_of_actin_cytoskeleton Staphylococcus_aureus_infection B_cell_receptor_signaling_pathway Cell_adhesion_molecules_(CAMs) Cytokine-cytokine_receptor_interaction Leishmaniasis Malaria NOD-like_receptor_signaling_pathway Toxoplasmosis Amoebiasis Apoptosis Chemokine_signaling_pathway Chronic_myeloid_leukemia Hematopoietic_cell_lineage MAPK_signaling_pathway Natural_killer_cell_mediated_cytotoxicity Prostate_cancer T_cell_receptor_signaling_pathway TGF-beta_signaling_pathway Acute_myeloid_leukemia Allograft_rejection Alzheimers_disease Antigen_processing_and_presentation Bacterial_invasion_of_epithelial_cells Cell_cycle Chagas_disease_(American_trypanosomiasis) Colorectal_cancer Complement_and_coagulation_cascades ECM-receptor_interaction Endocytosis Fc_gamma_R-mediated_phagocytosis Graft-versus-host_disease Intestinal_immune_network_for_IgA_production Neurotrophin_signaling_pathway Pancreatic_cancer Parkinsons_disease Phagosome Phosphatidylinositol_signaling_system Primary_immunodeficiency Rheumatoid_arthritis Small_cell_lung_cancer Systemic_lupus_erythematosus Toll-like_receptor_signaling_pathway Vascular_smooth_muscle_contraction Viral_myocarditis Alzheimer_Up Brain_Up Colon_Down Lung_Down Prostate_Down 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 - Figura 14. Representación de las funciones en las que están enriquecidas los genes sobre-expresados en Alzheimer y tumores cerebrales y sub-expresados en cáncer de colon, pulmón y próstata tras la elaboración del meta-análisis. Un 1 indica que los genes diferencialmente expresados en una enfermedad concreta están enriquecidos en una función determinada, mientras que un “-“ indica que no lo está. Las funciones más compartidas entre las listas de DEGs de las distintas enfermedades están ordenadas de mayor a menor, de arriba abajo. 30 Alzheimers_disease Huntingtons_disease Metabolic_pathways Oxidative_phosphorylation Parkinsons_disease Proteasome Purine_metabolism Ribosome_biogenesis_in_eukaryotes Aminoacyl-tRNA_biosynthesis Cardiac_muscle_contraction Cell_cycle DNA_replication N-Glycan_biosynthesis Peroxisome Protein_processing_in_endoplasmic_reticulum Pyrimidine_metabolism RNA_transport Spliceosome Base_excision_repair Bile_secretion Calcium_signaling_pathway Citrate_cycle_(TCA_cycle) Collecting_duct_acid_secretion Glycosaminoglycan_biosynthesis-heparan_sulfate Homologous_recombination Mismatch_repair Neuroactive_ligand-receptor_interaction Nucleotide_excision_repair Olfactory_transduction Phagosome Propanoate_metabolism Pyruvate_metabolism RNA_polymerase Salivary_secretion Terpenoid_backbone_biosynthesis Ubiquitin_mediated_proteolysis Valine_leucine_and_isoleucine_degradation Vibrio_cholerae_infection Alzheimer_Down Parkinson_Down Brain_Down Colon_Up Lung_Up Prostate_Up 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 - Figura 15. Representación de las funciones en las que están enriquecidas los genes sub-expresados en Alzheimer, Párkinson y tumores cerebrales y sobre-expresados en cáncer de colon, pulmón y próstata tras la elaboración del meta-análisis. Un 1 indica que los genes diferencialmente expresados en una enfermedad concreta están enriquecidos en una función determinada, mientras que un “-“ indica que no lo está. Las funciones más compartidas entre las listas de DEGs de las distintas enfermedades están ordenadas de mayor a menor, de arriba abajo. De cara a analizar, de una manera más concreta los genes que se comportan de manera inversa en distintos tipos de cánceres, se ha obtenido la ruta de KEGG “rutas en cáncer” a partir de la herramienta WEB-based Gene SeT AnaLysis Toolkit (ver Figura 16). Con intención de analizar dichos comportamientos inversos, se ha procedido a solapar dicha ruta para cada una de las 3 enfermedades con sus respectivas proteínas enriquecidas en las listas de genes. Resulta de especial interés el estudio a fondo de aquellas proteínas cuyos genes están sobre-expresados en Alzheimer y tumores cerebrales y sub-expresados en cáncer de pulmón, ya que en ellos se están dando casos de comorbilidad directa (mayor probabilidad de presentar una enfermedad si tienes la otra) por parte de Alzheimer y tumores cerebrales, y comorbilidad inversa (menor probabilidad de presentar una enfermedad si tienes la otra) por parte de Alzheimer y cáncer de pulmón. Se ha visto que 32 genes de los 131 por parte de los genes subexpresados en cáncer de pulmón están entre los 105 sobre-expresados en tumorescerebrales (suponiendo el 24,42 y 30,47% respectivamente). De cara a la discusión nos hemos centrado en el entorno de la familia de proteínas RAF. 31 Figura 16. Rutas implicadas en cáncer obtenidas a partir de KEGG, en letra roja se resaltan aquellas proteínas cuyos genes están sobre-expresados en Alzheimer, en cajas rojas aquellas cuyos genes están sobre-expresados en los 3 tumores cerebrales, en azul aquellas cuyos genes están sub-expresados en cáncer de pulmón y en marrón aquellas cuyos genes están sobre-expresados en los 3 tumores cerebrales y sub-expresados en cáncer de pulmón. 32 De cara a verificar que los listados de genes diferencialmente expresados obtenidos para cada una de las enfermedades mediante el meta-análisis no se debían a artefactos o a un incorrecto tratamiento de los datos, se ha realizado una búsqueda bibliográfica orientada a detectar si el comportamiento de determinados genes se corresponde con lo descrito hasta el momento. Para ello, se ha considerado interesante estudiar el caso de las proteínas de la familia Raf y su entorno que, en nuestro estudio, están sobre-expresados en Alzheimer y los 3 tumores cerebrales y sub-expresados en cáncer de pulmón (ver Figura 16). Las rutas de señalización intracelular son líneas de comunicación entre el ambiente extracelular y el genoma, y permiten la amplificación de las señales, de manera que cambios pequeños de concentración de factores extracelulares pueden implicar fuertes cambios en la células (Atkinson et al., 2010). Se ha visto que el exceso de señalización por receptores de factores de crecimiento es esencial para la génesis de muchos tumores cerebrales malignos. Actualmente, se puede identificar una sobreexpresión del receptor del factor de crecimiento epidérmico (EGFR) en la mayoría de glioblastomas primarios (en el 60% de los gliomas está sobre-expresado) y una sobreexpresión del receptor del factor de crecimiento derivado de plaquetas (PDGFR), causada por un loop de estimulación autocrino (Hagemman et al., 2009), que está asociado principalmente con glioblastomas secundarios (Puputti et al., 2006), aunque también se ha visto en estudios anteriores que la supresión de PDGFRA da lugar a una eliminación de la oligodendrogénesis (demostrando que está asociado a más de un tipo de tumor cerebral). Como resultado de esta sobre-expresión de EGFR se da una activación constitutiva de las rutas de señalización Ras-RAF-MEK-ERK (ruta involucrada en la regulación de un amplio rango de funciones celulares), evento común en gran cantidad de cánceres humanos. En relación a esta ruta y a la sobre-expresión de PDGFRA, Chen et al., 2014 sugieren que la expresión en superficie de la misma está regulada por la actividad de MEK y ERK, lo cual tiene consecuencias en la proliferación y hace que pueda ser manipulada para hacer frente a la proliferación en gliomas. Tras la activación de EGFR se da una activación de los miembros de la familia de proteínas Ras, un grupo de proteínas-G pequeñas, que se ha visto presentan al menos un gen sobre-expresado (K-Ras, N-Ras o H-Ras) en aproximadamente el 30% de los tumores cerebrales. Una vez Ras está activo pasa a activar a las proteínas Raf. En mamíferos, existen 3 isoformas diferentes de la proteína Raf, que se originan a partir de 3 genes independientes: Raf-1 (o c-Raf), B-Raf y A-Raf (Matallanas et al., 2011). Lyustikman et al., 2008 demostraron que la señalización por Raf juega un papel importante en la gliomagénesis, de hecho, la activación de Raf-1 coopera con la pérdida del supresor de tumores Arf y/o la activación de Akt para inducir gliomas. Además de la citada activación de Raf-1, se ha detectado en estudios anteriores una sobre-expresión de las otras 2 isoformas de Raf a nivel mRNA en gliomas humanos malignos, las cuales se ha visto tienen un efecto negativo en la supervivencia de pacientes con gliomas. En relación a esto, se sabe que, en contraste con las células normales, las células tumorales se han adaptado a condiciones de hipoxia cambiando su 33 metabolismo a una glicólisis anaerobia, que está caracterizada por elevadas tasas de consumo de glucosa y tasas reducidas de fosforilación oxidativa, causando una elevada producción de lactato incluso en presencia de oxígeno. Recientemente, se ha mostrado que A-Raf se une directamente a la enzima glicolítica piruvato quinasa M2 (M2-PK), induce su transición de la forma dimérica a la tetramérica, favorece la producción de energía glicolítica y promueve la transformación celular y tumorigénesis. Como consecuencia de esto, la sobre-expresión de A-Raf genera un efecto negativo sobre la supervivencia de los pacientes. En lo referente a Raf en Alzheimer, se ha visto que la ruta MAPK está activada, y que juega un papel central en la señalización de estrés oxidativo, control del ciclo celular (induciendo la apoptosis neuronal), así como la activación enzimática de las ß- y -secretasas, así como la fosforilación y estabilización de APP (Kim et al., 2010). Se ha visto que los agregados de Aß42 inducen la activación de macrófagos, que produce ROS y citoquinas pro-inflamatorias como TNF- y IL-1ß, que estimulan la ruta MAPK. Mei et al., 2006 demostraron en su estudio que había una fuerte asociación entre Alzheimer y Raf-1, encontrando que se daba una mayor fosforilación en regiones críticas de activación y que había mayor niveles de Raf-1 asociado a Ras. Estos resultados confirman nuestro estudio, en el que se ha obtenida que Raf-1 estaba sobre-expresada. Entre otros tantos procesos, se ha visto que la activación de Raf-1 puede promover la activación de NF-kB. NF- B hace referencia a la familia Rel de factores de transcripción, que consisten en 5 miembros: p65/relA, relB, REL (c-rel), p50/NFKB1 y p52/NFKB2 (ver Figura 17). Existen 2 sub-grupos en la familia, 3 de las sub-unidades, p65, relB y REL contienen dominios de activación de la transcripción en el c-terminal. El p50 y p52 son escindidos proteolíticamente a partir de proteínas más grandes (p105 y p100, respectivamente), y no contienen dichos dominios, actuando en su lugar como supresores transcripcionales (Tilstra et al., 2011). El complejo NF-kB es responsable de la expresión de IL-2, IL-6, TNF- , TNFß, c-Myc, Jun-b, APP, p53, PDGF… Figura 17. Representación esquemática de los miembros de la familia NF- B. p65/RelA, c-Rel y RelB contienen dominios de activación de la transcripción (TAD), mientras que P100/p52 (NFKB2) y P105/p50 (NFKB1) no lo presentan. Figura obtenida de Tilstra et al., 2011. 34 Bajo la mayoría de las situaciones, NF- B está inactivado en el citoplasma debido a la unión de I B a NF- B. Mediante la activación de IKK se da la disociación del complejo NF- B/ I B como resultado de la fosforilación y degradación de I B por IKK. Como consecuencia de la sobre-expresión de EGFR o PDGFRA en casi el 50% de los casos de glioblastoma primario, se da una activación de NF- B. En contra de los resultados obtenidos en este estudio, donde se detecta una sobre-expresión de NFKBIA, gen que da lugar a I B, Rinkenbaugh et al., 2011 detectaron que NFKBIA estaba delecionado, lo cual podía promover el crecimiento celular descontrolado, ya que actúa como supresor de tumores inactivando NF- B. En lo referente a los patrones de expresión de estos genes en Alzheimer, es importante decir que, mediante mapeo de motivos, se ha determinado que NF- B es el factor de transcripción más asociado al envejecimiento. De hecho, las rutas biológicas implicadas en el envejecimiento, incluyendo respuestas inmunes, senescencia celular, apoptosis y metabolismo están todas reguladas al menos en parte por NF- B. Se ha visto que, en pacientes de Alzheimer, se da un aumento de citoquinas durante la enfermedad, posiblemente mediante la estimulación de la actividad NF- B en la microglía (Tilstra et al., 2011). Se ha sugerido que NF- B juega un papel clave en la formación de placas e incluso un papel más importante en la inflamación y señalización de citoquinas en la progresión de la enfermedad. De manera similar a la neurodegeneración en pacientes con AD, hay un aumento en la señalización inflamatoria y señalización de citoquinas en Párkinson. En concreto, se ha determinado que hay un aumento de 70 veces en la concentración de p65/RelA en neuronas dopaminérgicas (neuronas que son centrales en la patología de la enfermedad), comparando casos de PD con casos control de la misma edad. A partir del análisis de la Tabla 4 se puede ver que, la única diferencia de expresión entre Alzheimer y los tumores cerebrales se da en la isoforma NFKB2, por lo que esta podría ser una de las diferencias que hacen que, pese a presentar solapamientos de genes expresados en la misma dirección, sigue habiendo genes con comportamientos inversos que pueden ser los últimos responsables del paso de una situación en la que se está dando una muerte celular (Alzheimer), a una situación en la que se da una proliferación descontrolada (tumores cerebrales). STAT3 afecta a la transcripción de genes implicados en la apoptosis y el ciclo celular, por lo que un control de la actividad de dicha proteína previene la transformación de células. Como consecuencia de la sobre-expresión de EGFR se da también un aumento directo en la actividad de STAT3 en las células de glioblastomas. En un estudio previo Carro et al., 2010 demostraron que STAT3 es uno de los principales reguladores de la transformación mesenquimática, dando lugar al fenotipo mesenquimático característico de la agresividad de los glioblastomas. En un estudio Lee et al., 2009 demostraron que STAT3 activado constitutivamente mantiene la actividad constitutiva de NF- B en cánceres inhibiendo que sea exportado del núcleo. Esto define una cooperatividad entre STAT3 y NF- B en cáncer, y ayuda a explicar por que ambos factores de transcripción parecen estimular un 35 repertorio bastante solapante de genes angiogénicos, proliferativos y de supervivencia (Atkinson et al., 2010). En relación con STAT3 y NF- B, Garner et al., 2013 realizaron análisis de microarrays y revelaron una des-regulación de la ruta de señalización de Notch. Vieron que Notch1 estaba sobre-expresado y que algunos reguladores negativos de la ruta Notch como CTBP1 estaban sub-expresados (igual que en los resultados de nuestro análisis) en glioma. En lo referente a STAT3 y Alzheimer, Wan et al., 2010 identificaron a STAT3 como un factor clave potencial en la patofisiología de la enfermedad. Vieron que la para que se diese la fosforilación de STAT3 se requería la activación de una tiroxina quinasa (Tyk2, sobre-expresada en nuestro análisis) para que se produjese la muerte celular de las neuronas, características de esta enfermedad. En su estudio encontraron sobreexpresión de STAT3 (al igual que en el presente estudio). En la Tabla 4 se pueden observar los estados de expresión de la mayoría de las proteínas y sus respectivos genes de los que se ha estado hablando en el apartado de discusión. Todos estos datos permiten demostrar que mediante el meta-análisis se obtienen resultados ya publicados en otros artículos, mostrándonos las posibles relaciones entre enfermedades que presentan comorbilidad. Con objeto de comprobar si los resultados obtenidos en nuestro estudio, que indican una posible causa de comorbilidad inversa por presentar solapamientos entre genes con comportamientos inversos en 2 enfermedades distintas (por ejemplo Alzheimer y cáncer de pulmón) son correctos, se ha realizado una búsqueda bibliográfica. Para ello, no hemos centrado en las proteínas Raf. En lo referente a la situación de Raf-1 en cáncer de pulmón, que en el estudio realizado se ha visto que está sub-expresado, se ha visto que su sobre-expresión en “Small Cell Lung Cáncer” (SCLC) da lugar a una disminución de la proliferación de los tumores, pero por desgracia no se han encontrado datos en la bibliografía que hagan referencia a esta sub-expresión en “Non Small Cell Lung Cáncer” (NSCLC), que es el tipo de cáncer de pulmón analizado en nuestro estudio (Ravi et al., 1998). 36 Tabla 4. Tabla resumen del estado de expresión de determinados genes implicados en tumores cerebrales y Alzheimer. Proteína EGFR PDGFRA K-Ras H-Ras N-Ras Raf-1 A-Raf B-Raf Stat3 Tyk2 p65/RelA c-Rel p100/p52 (NFKB2) p105/p50 (NFKB2) Estado Sobre-expresado en Alzheimer, tumores cerebrales y pulmón. Sobre-expresado en Párkinson y tumores cerebrales, sub-expresado en cáncer de pulmón, colon y próstata. Sub-expresado en Alzheimer y tumores cerebrales, sobre-expresado en próstata. Sub-expresado en Párkinson, Alzheimer y tumores cerebrales, sobre-expresado en cáncer de colon. Sub-expresado en Alzheimer y cáncer de colon, sobre-expresado en tumores cerebrales . Sobre-expresado en Párkinson, Alzheimer y tumores cerebrales, sub-expresado en cáncer de pulmón y próstata. Sobre-expresado en Alzheimer y tumores cerebrales, sub-expresado en cáncer de pulmón. Sub-expresado en Párkinson y Alzheimer, sobre-expresado en tumores cerebrales. Sobre-expresado en Alzheimer, tumores cerebrales y cáncer de colon, subexpresado en cáncer de pulmón. Sobre-expresado en Párkinson, Alzheimer, glioblastoma y cáncer de colon, sub-expresado en cáncer de próstata. Sobre-expresado en Alzheimer, Párkinson, tumores cerebrales y cáncer de colon. Sobre-expresado en Alzheimer, tumores cerebrales y cáncer de colon, subexpresado en cáncer de pulmón. Sobre-expresado en Alzheimer y cáncer de colon, sub-expresado en tumores cerebrales y cáncer de pulmón. Sobre-expresado en Alzheimer, párkinson, tumores cerebrales y cáncer de colon, subexpresado en cáncer de pulmón. 37 4. DISCUSIÓN En el presente estudio se ha observado que existe un solapamiento muy significativo entre los genes que están sobre-expresados en Alzheimer y Párkinson y los genes sobre-expresados en los 3 tipos de tumores cerebrales (astrocitoma, glioblastoma y oligodendroglioma), ocurriendo lo mismo con los genes sub-expresados en las 5 enfermedades (Figura 9). El hecho de que se de el mismo tipo de solapamiento entre las 2 enfermedades del Sistema Nervioso Central y los 3 tipos de tumores cerebrales es esperable al ver la gran cantidad de genes con el mismo comportamiento entre las enfermedades del mismo tipo (el 84 y 62% de los genes sobre- y sub-expresados respectivamente en Párkinson lo están también en Alzheimer, y el 66 y 71% de los genes sobre- y sub-expresados respectivamente son comunes a los 3 tipos de tumores cerebrales, ver Figuras 11 y 12). Estos datos parecen indicar, tal y como hipotetizaba Lehrer, 2010, que los glioblastomas y la enfermedad de Alzheimer pueden compartir rutas y presentar causas comunes. De hecho, estos solapamientos obtenidos tras el metaanálisis y el test de Fisher, pueden justificar la co-ocurrencia mayor de lo esperada entre Párkinson y tumores cerebrales descrita por Catalá-López et al., 2014. Los resultados obtenidos podrían indicar, de la misma manera que en lo referente a Párkinson y tumores cerebrales, la existencia de una mayor probabilidad de presentar tumores cerebrales en caso de sufrir Alzheimer, datos que no se indicaban en el estudio de Catalá-López et al., 2014 debido a la falta de disponibilidad de datos que indicasen la relación de la enfermedad con tipos específicos de cáncer. Esta explicación como posible causa de la denominada “comorbilidad directa”, se basa en la interpretación molecular de que el riesgo de presentar una enfermedad cuando un paciente ya presenta otra aumenta si los comportamientos de los genes son similares (están expresados en la misma dirección). De manera inversa, en lo que respecta a la relación entre Alzheimer y Párkinson y cáncer de pulmón, colon o próstata (Figura 9), se han obtenido resultados idénticos a los obtenidos por Ibañez et al., 2014 tras su meta-análisis (esperable teniendo en cuenta que gran parte de los conjuntos de datos utilizados para estudiar las enfermedades eran comunes a los 2 estudios). Además de estas 2 CNSd, se analizaron los solapamientos de genes diferencialmente expresados en esquizofrenia y esclerosis múltiple con los diferencialmente expresados en distintos tipos de cánceres. En lo referente a esquizofrenia, no se observaron patrones claros de solapamiento con las distintas enfermedades, dándose solapamientos significativos de los genes sobre-expresados en esquizofrenia y sobre-expresados en un cáncer concreto, por ejemplo glioblastoma, y a la vez solapamientos significativos de los genes sub-expresados en esquizofrenia y los sobre-expresados en glioblastoma (Figura 1 datos suplementarios). Esto puede deberse a que, tal y como indica Takahashi, 2012, la esquizofrenia es una enfermedad muy heterogénea a nivel genético y sintomático. En lo referente a la esclerosis múltiple, tal y como se indicaba en los apartados anteriores, se utilizaron, por separado, muestras de líquido cefalorraquídeo y muestras de células mononucleares de sangre periférica, con objeto de analizar los solapamientos 38 de los distintos tipos de cánceres con los 2 tipos de muestras y comprobar si estas relaciones fluctúan al usar muestras de distinta procedencia. Tal y como se puede observar en la Figura 1 de los datos suplementarios, los solapamientos obtenidos presentan, en gran parte de los cánceres, comportamientos inversos (los 3 tumores cerebrales, cáncer de mama, colon, riñones, hígado…), indicando que hay una cantidad importante de genes que se comportan de manera inversa dependiendo de la localización de la muestra (para diagnosticar la enfermedad se realizan exámenes tanto de sangre, para descartar afecciones similares, como de líquido cefalorraquídeo mediante punción lumbar). Se plantea que estas diferencias podrían deberse a que, debido a la barrera hematoencefálica, la sangre no entra en contacto con el cerebro, cosa que si hace el líquido cefalorraquídeo. Pese a mostrar comportamientos inversos, el solapamiento de genes sobre-expresados en los 3 tumores cerebrales y en las muestras de líquido cefalorraquídeo (mismo caso para los genes sub-expresados en ambos tipos de enfermedades) podrían estar indicando, al igual que en el caso de Párkinson mencionado anteriormente, una relación causal de la comorbilidad directa mencionada por Catalá-López et al., 2014. Los solapamientos obtenidos entre los genes con mismos comportamientos (sobre-expresados o sub-expresados en ambas enfermedades) entre Párkinson y Alzheimer (Figura 12) concuerdan con lo mencionado por Moskvina et al., 2013, que consideraban que pese a ser enfermedades clínicamente distintas, existía la posibilidad de un solapamiento patológico. Para estudiar este posible solapamiento realizaron estudios de asociación a lo largo del genoma, concluyendo que si bien los genes que aumentan el riesgo de padecer cada una de las enfermedades no están generalizados, puede darse un solapamiento aguas abajo de los principales genes de susceptibilidad (lo cual concuerda con los solapamientos obtenidos, especialmente importante en los genes sub-expresados). En lo que respecta a las muestras utilizadas como control para el caso de los 3 tipos de tumores cerebrales (para los que se ha tenido que utilizar controles obtenidos a partir de conjuntos de datos diferentes por la ausencia de una cantidad suficiente de los mismos o porque no se consideraban adecuados), como ya se comentaba en el apartado de Materiales y Métodos, nos hemos encontrado con el problema de elegir la región para la obtención de dichas muestras (en los conjuntos de datos disponibles en la red no está disponible la región concreta a partir de la que se obtienen las muestras, estando indicadas todas como “brain tissue”). En un primer momento se utilizaron muestras obtenidas a partir del hipocampo de individuos sanos, ya que múltiples autores analizaban los gliomas de dichas región (Ali et al., 2014, Barreto et al., 2011). Con intención de comprobar que los resultados obtenidos, reflejo de las posibles causas de la comorbilidad directa observada en estudios anteriores, no se debían a la región utilizada, se repitió el estudio, utilizando como control muestras obtenidas a partir de 6 regiones diferentes. Los resultados obtenidos (ver Figura 13) demuestran que, si bien la significancia del solapamiento varía al utilizar unas regiones u otras, el tipo de solapamiento es el mismo para todos los casos salvo para el que se utilizaron como control muestras del córtex entorrinal, para los que los datos mostraban distintos tipos de solapamientos. Estos resultados son esperables ya que los tumores cerebrales se dan 39 principalmente en la materia blanca, y el córtex está compuesto por materia gris, con lo que no es una región habitual de origen gliomas. En lo que respecta a las rutas enriquecidas, queda patente que las enfermedades de Alzheimer y Párkinson presentan funciones similares, como consecuencia de los fuertes solapamientos de genes que presentan, especialmente de genes sub-expresados. No se ha encontrado ni una sola ruta que esté enriquecida en todas las enfermedades, lo cual puede deberse a que la metodología empleada para el análisis estudiaba solo las listas de genes significativamente diferencialmente expresados, obviando todos aquellos genes diferencialmente expresados pero no de una manera suficientemente significativa. Esto podría explicar que, en el estudio realizado por Ibañez et al., 2014, se obtuviesen rutas concretas enriquecidas en las listas de genes diferencialmente expresados de las 6 enfermedades estudiadas y en nuestro estudio no, ya que dichos autores, para realizar el análisis de enriquecimiento, utilizaron GSEA, que tiene en cuenta no solo los genes significativamente diferencialmente expresados sino también aquellos que no llegan a estar significativamente diferencialmente expresados. Para terminar, se ha visto que, pese a que el Alzheimer presenta evidencias de comorbilidad directa con los tumores cerebrales e inversa con los cánceres de colon, pulmón y próstata, presentan una cantidad importante de genes con comportamientos idénticos (Figuras 2 y 3, datos suplementarios), siendo en ocasiones incluso mayor el número de genes con un mismo comportamiento. De hecho, se ha visto que, para el caso de cáncer de pulmón, el 15,44% de sus genes sub-expresados lo están también en Alzheimer y tumores cerebrales, comportándose solo el 6,2% de sus genes sobreexpresados de la misma manera en Alzheimer y tumores cerebrales (Figura 4, datos suplementarios). 40 5. CONCLUSIONES Mediante el presente estudio se han detectado nuevas evidencias sobre la relación de comorbilidad directa que presentan Alzheimer y Párkinson con astrocitoma, glioblastoma y oligodendroglioma. Ha quedado demostrado que los resultados obtenidos son correctos, ya que se corresponden con datos publicados previamente, lo cual valida la técnica utilizada, y permite analizar en conjunto las evidencias moleculares responsables de cada una de las enfermedades. Tras el análisis de los genes que forman parte de las rutas de señalización celular, ha quedado patente la importancia de los mismos en la enfermedad de Alzheimer y en los tumores cerebrales. Se ha visto que, pese a tratarse de tumores distintos, astrocitoma, glioblastoma y oligodendroglioma comparten un gran porcentaje de genes con un mismo comportamiento. 41 6. PERSPECTIVAS FUTURAS De cara a completar el presente trabajo, tal vez orientado a una posible publicación, resultaría de alto interés analizar aquellas pequeñas diferencias existentes a nivel de rutas entre los 3 tipos de tumores cerebrales (astrocitoma, glioblastoma y oligodendroglioma, tal y como se ha realizado en este estudio entorno a la familia de proteínas Raf). Como trabajo a realizar en el futuro, sería interesante analizar la situación en el interactoma de las proteínas que se comportan de manera similar en Alzheimer y tumores cerebrales y de manera inversa en cáncer de pulmón, además de realizar estudios de reposicionamiento de fármacos para tratar las enfermedades estudiadas (tal y como se mencionaba en el apartado de objetivos, una primera referencia en este campo es el trabajo realizado por Jahchan et al., 2013). Además, resultaría interesante también centrarse en aquellos genes que presentan comportamientos inversos entre enfermedades en las que se ha descrito una comorbilidad directa, para tratar de localizar los genes que pueden ser responsables del paso de un estado de muerte celular (Alzheimer) a un estado de proliferación descontrolada (tumores cerebrales). 42 7. BIBLIOGRAFÍA - - - - - - - - - - Ali, A.N., Ogunleye, T., Hardy, C.W., Shu, H., Curran, W.J. & Crocker, I. (2014) “Improved hippocampal dose with reduced margin radiotherapy for glioblastoma multiforme”. Radiation Oncology. 9:20. Atkinson, G.P., Nozell, S.E. & Benveniste, E.N. (2010) “NF- B and STAT3 signaling in glioma: targets for future therapies”. Expert Review of Neurotherapeutics. 10:575-586. Barretto, R.P.J., Ko, T.H., Jung, J.C., Wang, T.J., Capps, G., Waters, A.C., Ziv, Y., Attardo, A., Recht, L. & Schnitzer, M.J. (2011) “Time-lapse Imaging of disease progression in deep brain áreas Using fluorescence microendoscopy”. Nature Medicine. 17:223-228. Blair, L.J., Nordhues, B.A., Hill, S.E., Scaglione, K.M., O’Leary, J.C. 3rd, Fontaine, S.N., Breydo, L., Zhang, B., Li, P., Wang, L., Cotman, C., Paulson, HL., Muschol, M., Uversky, V.N., Klengel, T., Binder, E.B., Kayed, R., Golde, T.E., Berchtold, N. & Dickey, C.A. (2013) “Accelerated neurodegeneration through chaperone-mediated oligomerization of tau”. The Journal of Clinical Investigation. 123:4158-4169. Berry, N., Jobanputra, V. & Pal, H. (2003) “Molecular genetics of schizophrenia: a critical review”. Journal of Psychiatry & Neuroscience. 28:415-429. Borenstein, M., Hedges, L. & Rothstein, H. (2007) “Introduction to MetaAnalysis”. 1st Edition. John Wiley & Sons, New York. Pages: 86-115 Brynedal, B., Khademi, M., Wallström, E., Hillert, J., Olsson, T. & Duvefelt, K. (2010) “Gene expression profiling in multiple sclerosis: a disease of the central nervous system, but with relapses triggered in the periphery?”. Neurobiology of Disease. 37:613-621. Carro, M.S., Lim, W.K., Alvarez, M.J., Bollo, R.J., Zhao, X., Snuder, E.Y., Sulman, E.P., Anne, S.L., Doetsch,F., Colman, H., Lasorella, A., Aldape, K., Califano, A. & Iavarone, A. (2010) “The transcriptional network for mesenchymal transformation of brain tumours”. Nature. 463:318-325. Catalá-López, F., Suárez-Pinilla, M., Suárez-Pinilla, P., Valderas, J.M., GómezBeneyto, M., Martínez, S., Balanzá-Martínez, V., Climent, J., Valencia, A., McGrath, J., Crespo-Facorro, B., Sánchez-Moreno, J., Vieta, E. & TabarésSeisdedos, R. (2014) “Inverse and Direct Cancer Comorbidity in People with Central Nervous System Disorders: A Meta-Analysis of Cancer Incidence in 577,013 Participants of 50 Observational Studies”. Psychotherapy and Psychosomatics. 83:89-105 Chang, L., Lin, H., Sibille, E. & Tsheng, G.C. (2013) “Meta-analysis methods for combining multiple expression profiles: comparisons, statistical characterization and an Application guideline”. BMC Bioinformatics. 14:368 Chen, D., Zuo, D., Luan, C., Liu, M., Na, M., Ran, L., Sun, Y., Persson, A., Englund, E., Salford, L.G., Renström, E., Fan, X. & Zhang, E. (2014) “Glioma Cell Proliferation Controlled by ERK Activity-Dependent Surface Expression of PDGFRA”. PLoS One. 9:e87281. 43 - - - - - - - - - Choi, J.K., Yu, U., Kim, S. & Yoo, O.J. (2003) “Combining multiple microarray studies and modeling interstudy variation” Bioinformatics. 19 Suppl 1: i84-90 Cohen, J. (1988) “Statistical Power Analysis for the Behavioral Sciences”. Chapte: The Analysis of Variance. Lawrence Erlbaum Associates. Pages: 273406. Davie, C.A. (2008) “A review of Parkinson´s disease”. British Medical Bulletin. 86: 109-127. Devine, M.J., Plun-Favreau, H. & Wood, N.W. (2011) “Parkinson’s disease and cancer two wars, one front”. Nature Reviews. 11:812-823. Dunckley, T., Beach, T.G., Ramsey, K.E., Grover, A., Mastroeni, D., Walker, D.G., LaFleur, B.J., Coon, K.D., Brown, K.M., Caselli, R., Kukull, W., Higdon, R., McKeel, D., Morris, J.C., Hulette, C., Schmechel, D., Reiman, E.M., Rogers, J. & Stephan, D.A. (2006) “Gene expression correlates of neufibrillary tangles in Alzheimer’s disease”. Neurobioogy of Aging. 27:1359-1371. Garner, J.M., Fan, M., Yang, C.H., Du, Z., Sims, M., Davidoff, A.M. & Pfeffer, L.M. (2013) “Constitutive Activation of Signal Transducer and Activator of Transcription 3 (STAT3) and Nuclear Factor B Signaling in Glioblastoma Cancer Stem Cells Regulates the Notch Pathway”. The Journal of Biological Chemistry. 288:26167-26176. Gautier, L., Cope, L., Bolstad, B.M. & Irizarry, R.A. (2004) “affy-analysis of Affymetrix GeneChip data at the probe level”. Bioinformatics. 20:307-315. Goldenberg, M.M. (2012) “Multiple Sclerosis Review”. 37:175-184. Gourraud, P., Harbo, H.F., Hauser, S.L. & Baranzini, S.E. (2012) “The genetics of multiple sclerosis: an up-to-date review”. Immunological Reviews. 248:87103. Grzmil, M., Morin, P.Jr., Lino, M.M., Merlo, A., Frank, S., Wang, Y., Moncayo, G. & Hemmings B.A. (2011) “MAP kinase-interacting kinase 1 regulates SMAD2-dependent TGF-ß signaling pathway in human glioblastoma”. Cancer Research. 71:2392-2402. Guorffy, B., Molnar, B., Hermann, L., Szallasi, Z. & Eklund, A.C. (2009) “Evaluation of Microarray Preprocessing Algorithms Based on Concordance with RT-PCR in Clinical Samples”. PLoS One. 4:e5645. Hagemann, C., Gloger, J., Anacker, J., Said, H.M., Gerngras, S., Kühnel, S., Meyer, C., Rapp, U.R., Kämmerer, U., Vordermark, D., Flentje, M., Roosen, K. & Vince, G.H. (2009) “RAF expression in human astrocytic tumors”. International Journal of Molecular Medicine. 23:17-31. Hou, J., Aerts, J., den Hamer, B., van Ljcken,W., den Bakker, M., Riegman, P., van der Leest, C., van der Spek, P., Foekens, J.A., Hoogsteden, H.C., Grosveld, F. & Philipsen, S. (2010) “Gene expression-based classification of non-small cell lung carcinomas and survival prediction”. PLoS One. 5:e10312. Ibáñez, K., Boullosa, C., Tabarés-Seisdedos, R., Baudot, A. & Valencia, A. (2014) “Molecular Evidence for the Inverse Comorbidity between Central Nervous System Disorders and Cancers Detected by Transcriptomic Metaanalyses”. PLoS Genetics. 10: e1004173. 44 - - - - - - - - - - Jahchan, N.S., Dudley, J.T., Mazur, P.K., Flores, N., Yang, D., Palmerton, A., Zmoos, A., Vaka, D., Tran, K.Q.T., Zhou, M., Krasinska, K., Riess, J.W., Neal, J.W., Khatri, P., Park, K.S., Butte, A.J. & Sage, J. (2013) “A Drug Repositioning Approach Identifies Tricyclic Antidepressants as Inhibitors of Small Cell Lung Cancer and Other Neuroendocrine Tumors”. Cancer Discovery. 3:1-14. Kim, E.K. & Choi, E. (2010) “Pathological roles of MAPK signaling pathways in human diseases”. Biochimica et Biophysica Acta. 1802:396-405. Lee, H., Herrmann, A., Deng, J.H., Kujawski, M., Niu, G., Li, Z., Forman, S., Jove, R., Pardoll, D.M. & Yu, H. (2009) “Persistently activated Stat3 maintains constitutive NF-kappaB activity in tumors”. Cancer Cell. 15:283-293. Lehrer, S. (2010) “Glioblastoma and dementia may share a common cause”. Medical Hypotheses. 75:67-68. Lesnick, T.G., Papapetropoulos, S., Mash, D.C., Ffrench-Mullen, J., Shehadeh, L., de Andrade, M., Henley, J.R., Rocca, W.A., Ahlskog, J.E. & Maraganore, D.M. (2007) “A genomic pathway approach to a complex disease: axón guidance and Parkinson disease”. PLoS Genetics. 3:e98. Li, J. & Tseng, G.C. (2011) “An adaptively wieghted statistic for detecting differential gene expression when combining multiple Transcriptomic studies”. The Annals of Applied Statistics. 5: 994-1019 Liang, W.S., Dunckley, T., Beach, T.G., Grover, A., Mastroeni,D., Walker, D.G., Caselli, R.J., Kukull, W.A., McKeel, D., Morris, J.C., Hulette, C., Schmechel, D., Alexander, G.E., Reiman, E.M., Rogers, J. & Stephan, D.A. (2007) “Gene expression profiles in anatomically and functionally distinct regions of the normal aged human brain”. Physiological Genomics. 12:311-322. Lu, T.P., Tsai, M.H., Lee, J.M., Hsu, C.P., Chen, P.C., Lin, C.W., Shih, J.Y., Yang, P.C., Hsiao, C.K., Lai, L.C. & Chuang, E.Y. (2010) “Identification of a novel biomarker, SEMA5A, for non-small cell lung carcinoma in nonsmoking women”. Cancer Epidemiology, Biomarkers & Prevention. 19:2590-2597. Lyustikman, Y., Momota, H., Pao, W. & Holland, E.C. (2008) “Constitutive Activation of Raf-1 Induces Glioma Formation in Mice”. Neoplasia. 10:501510. Macbeth, G., Cortada de Kohan, N. & Razumiejczyk, E. (2007) “El MetaAnálisis: La Integración de los Resultados Científicos”. Evaluar. 7:34-46. Matallanas, D., Birtwistle, M., Romano, D., Zebisch, A., Rauch, J., von Kriegsheim, A. & Kolch, W. (2011) “Raf Family Kinases: Old Dogs Have Learned New Tricks”. Genes & Cancer. 2:232-260. McCall, M.N., Jaffee, H.A. & Irizarry, R.A. (2012) “fRMA ST: frozen robust Multiarray analysis for Affymetrix Exon and Gene ST arrays”. Bioinformatics. 28:3153-3154. Mei, M., Su, Bo, Harrison, K., Chao, M., Siedlak, S.L., Previll, L.A., Jackson, L., Cai, D.X. & Zhu, X. (2006) “Distribution, levels and phosphorylation of Raf1 in Alzheimer’s disease”. Journal of Neurochemistry. 99: 1377-1388. 45 - - - - - - - - - Merenlender-Wagner, A., Malishkevich, A., Shemer, Z., Udawela, M., Gibbons, A., Scarr, E., Dean, B., Levine, J., Agam, G. & Gozes, I. (2013) “Autophagy has a key role in the pathophysiology of schizophrenia”. Molecular Psychiatry. 1-7. Moskvina, V., Harlod, D., Russo, G., Vedernikov, A., Sharma, M., Saad, M., Holmans, P., Bras, J.M., Bettella, F., Keller, M.F., Nicolaou, N., SimónSánchez, J., Gibbs, J.R., Schulte, C., Durr, A., Guerreiro, R., Hernandez, D., Brice, A., Stafánsson, H., Majamaa, K., Gasser, T., Heutink, P., Wood, N., Martinez, M., Singleton, A., Nalls, M.A., Hardy, J., Owen, M., O’Donovan, M.C., Williams, J., Morris, H.R. & Williams, N.M. (2013) “Analysis of Genome-Wide Association Studies of Alzheimer Disease and of Parkinson Disease to Determine If These 2 Diseases Share a Common Genetic Risk”. JAMA Neurology. 70:1268-1276. Nussbaum, R.L. & Christopher, E.E. (2003) “Alzheimer’s Disease and Parkinson’s Disease”. The NEW ENGLAND JOURNAL of MEDICINE”. 348:1356-1364. Puputti, M., Tynninen, O., Sihto, H., Blom, T., Mäenpää, H., Isola, J., Paetau, A., Joensuu, H. & Nupponen, N.N. (2006) “Amplification of KIT, PDGFRA, VEGFR2, and EGFR in Gliomas”. Molecular Cancer Research. 12:927-934. Querfurth, H.W. & LaFerla, F.M. (2010) “Alzheimer’s Disease”. The NEW ENGLAND JOURNAL of MEDICINE. 362: 329-44. Ramasamy, A., Mondry, A., Holmes, C.C. & Altman, D.G. (2008) “Key Issues in Conducting a Meta-Analysis of Gene Expression Microarray Datasets”. PLoS Medicine. 5: 1320-1332. Ravi, R.K., Weber, E., McMahon, M., Williams, J.R., Baylin, S., Mal, A., Harter, M.L., Dillehay, L.E., Claudio, P.P., Giordano, A., Nelkin, B.D. & Mabry, M. (1998) “Activated Raf-1 Causes Growth Arrest in Human Small Cell Lung Cancer Cells”. The Journal of Clinical Investigation. 101:153-159. Riley, B. & Kendler, K.S. (2006) “Molecular genetic studies of schizophrenia”. European Journal of Human Genetics. 14:669-680. Rinkenbaugh, A.L. & Baldwin, A.S. (2011) “Monoallelic Deletion of NFKBIA in Glioblastoma: When Less Is More”. Cancer Cell. 163-165. Sabates-Bellver, J., Van der Flier, LG., de Palo, M., Cattaneo, E., Maake, C., Rehrauer, H., Laczko, E., Kurowski, M.A., Bujnicki, J.M., Menigatti, M., Luz, J., Ranalli, T.V., Gomes, V., Pastorelli, A., Faggiani, R., Anti, M., Jiricny, J., Clevers, H. & Marra, G. (2007) “Transcriptome profile of human colorrectal adenomas”. Molecular Cancer Research. 5:1263-1275. Sanchez-Meca, J., Martínez, F.M. & Medina, T.B. (2006) “Revisiones Sistemáticas en las Ciencias de la Vida. El concepto de Salud a través de la síntesis de la Evidencia Científica”. Capítulo: Modelo de efectos fijos y modelo de efectos aleatorios. FISCAM, páginas: 189-204. Shi, F., Abraham, G., Leckie, C., Haviv, I. & Kowalczyk, A. (2011) “Metaanalysis of gene expression microarrays with missing replicates”. Bioinformatics. 12:84 46 - - - - - - - - - - - Sun, L., Hui, A.M., Su, Q., Vortmeyer, A., Kotliarov, Y., Pastorino, S., Passaniti, A., Menon, J., Walling, J., Bailey, R., Rosenblum, M., Mikkelsen, T. & Fine, H.A. (2006) “Neuronal and glioma-derive stem cell factor induces angiogénesis within the brain”. Cancer Cell. 9:287-300 Tabarés-Seisdedos, R., Dumont, N., Baudot, A., Valdera, J.M., Climent, J., Valencia, A., Crespo-Facorro, B., Vieta, E., Gómez-Beneyto, M., Martínez, S. & Rubenstein, J.L. (2011) “No paradox, no progress: inverse cancer comorbidity in people with other complex disease”. The Lancet Oncology. 12:604-608. Tabarés-Seisdedos, R. & Rubenstein, J.L. (2013) “Inverse cancer comorbidity: a serendipitous Opportunity to gain insight into CNS disorders”. Nature Reviews. 14:293-304. Takahashi, S. (2012) “Heterogeneity of Schizophrenia: Genetic and Symptomatic Factors”. American Journal of medical genetics. 162B:648-652. Taminau, J., Lazar, C., Meganck, S. & Nowé, A. (2014) “Comparison of Merging and Meta-Analysis as Alternative Approaches for Integrative Gene Expression Analysis”. ISRN Bioinformatics. Tilstra, J.S., Clauson, C.L., Niedernhofer, L.J. & Robbins, P.D. (2011) “NF- B in Aging and Disease”. Aging and Disease. 2:449-465. Tseng, G.C., Ghosh, D. & Feingold, E. (2012) “Comprehensive literatura review and statistical considerations for microarray meta-analysis”. Nucleic Acids Research. 40: 3785-3799. Valderas, J.M., Starfield, B., Sibbald, B., Salisbury, C. & Roland, M. (2009) “Defining Comorbidity: Implications for Understanding Health and Health Services”. Annals of Family Medicine. 7:357-363. Wan, J., Fu, A.K.Y., Ip, F.C.F., Ng, H., Hugon, J., Page, G., Wang, J.H., Lai, K., Wu, Z. & Ip, N.Y. (2010) “Tyk2/STAT3 Signaling Mediates ß-AmyloidInduced Neuronoal cell Death: Implications in Alzheimer’s Disease”. Neurobiology of Disease. 30:6873-6881. Wang, J., Duncan, D., Shi,Z. & Zhang, B. (2013) WEB-based Gene SeT AnaLysis Toolkit (WebGestalt): update 2013”. Nucleic Acids Research. 41:W77-83. Wang, X. (2011) “Genomic meta-nalysis combining microarray studies with confounding clinical variables: Application to depression analysis”. University of Pittsburgh. Wang, X., Kang, D.D., Shen, K., Song, C., Lu, S., Chang, L., Liao, S.G., Huo, Z., Tang, S., Ding, Y., Kaminski, N., Sibille, E., Lin, Y., Li, J. & Tseng, G.C. (2012) “An R package suite for microarray meta-analysis in quality control, differentially expressed genes analysis and pathway enrichment detection”. Bioinformatics. 28: 2534-2536. Wang, Y., Xia, X.Q., Jia, Z., Sawyers, A., Yao, H., Wang-Rodriguez, J., Mercola, D. & McClelland, M. (2010) “In silico estimates of tissue components in surgical samples based on expression profiling data”. Cancer Research. 70:6448-6455. 47 - - Zhang, B., Kirov, S. & Snoddy, J. (2005) “WebGestalt: an integrated system for exploring gene sets in various biological contexts”. Nucleic Acids Research. 33:W741-748. Zheng, B., Liao, Z., Locascio, J.J., Lesniak, K.A., Roderick, S.S., Watt, M.L., Eklund, A.C., Zhang-James, Y., Kim, P.D., Hauser, M.A., Grünblatt, E., Moran, L.B., Mandel, S.A., Riederer, P., Miller, R.M., Federoff, H.J., Wüllner, U., Papapetropoulos, S., Youdim, M.B., Cantuti-Castelvetri, I., Young, A.B., Vance, J.M., Davis, R.L., Hedreen, J.C., Adler, C.H., Beach, T.G., Graeber, M.B., Middleton, F.A., Rochet, J.C., Scherzer, C.R. & Global PD Gene Expression (GPEX) Consortium. (2010) “PGC-1 , a potential therapeutic target for early intervention in Parkinson’s disease”. Science Translational Medicine. 6:52ra73. 48