Download Data Analysis and Visualization - Master en Bioinformática y
Document related concepts
Transcript
Índice Visual Analysis Workflow for GWAS Estudiante: Carlos Garrido-Allepuz Herrera MÁSTER EN BIOINFORMÁTICA Y BIOLOGÍA COMPUTACIONAL ESCUELA NACIONAL DE SALUD- INSTITUTO DE SALUD CARLOS III 2013-2014 Integromics/Perkin Elmer Pablo Riesgo Ferreiro, Eduardo Gonzalez Couto, David Gonzalez Knowles Miguel Vazquez FECHA: 11 de Septiembre del 2014 1 Índice Portada................................................................................................................1 Índice...................................................................................................................2 A - Objetivos.......................................................................................................3 B - Introducción.................................................................................................4 C- Material y Métodos........................................................................................7 D- Resultados 1) Estudio del arte.................................................................................11 a.- Tipos de Análisis y Filtros....................................................12 a.- Elección de programas/scripts............................................16 2) Búsqueda y obtención de datos para elaborar el protocolo y contrastar resultados............................................................................17 3) Análisis visual en Spotfire...............................................................20 a.- Filtrado de Muestras y SNPs................................................21 b.- Análisis y selección de Genes Drivers................................26 c.- Análisis y selección de SNPs...............................................30 d.- Integración y Análisis de información adicional................35 e.- Análisis del set de datos usado...........................................38 E - Discusión de Resultados 1) Búsqueda y tratamiento de datos...................................................41 2) Proceso de Análisis de los datos....................................................42 3) Análisis del set de datos..................................................................43 F - Conclusiones..............................................................................................45 G - Bibliografía.................................................................................................46 2 A - Objetivos A - Objetivos: 1.- Estudio del estado del arte en el análisis de datos de NGS. a. Estudio de las diferentes alternativas de análisis y elaboración de un diagrama para nuestro prototipo. b. Elección y desarrollo de programas/scripts para este fin. 2.- Búsqueda y obtención de datos para el proyecto. 3.- Filtrado de Muestras y SNPs. a. Filtrado de muestras por PCA. b. Filtrado de SNPs por PCA y LD. 4.- Análisis y aproximaciones. selección de Genes Drivers usando diferentes a. Frecuencia de mutaciones (FM). b. Impacto Funcional (FI). c. Expresión Diferencial. 5.- Análisis y selección de SNPs. a. Representación de los resultados de los test de asociación de los SNPs en el genoma completo. b. Representación de los resultados de los test de asociación y de OR de los SNPs asociados a cada gen en detalle. 6.- Integración y Análisis de información adicional. a. Integración y Análisis de datos de pathways metabólicos. b. Integración y Análisis de datos de agrupación y clustering. 7.- Análisis del set de datos usado. Objetivo Final: Desarrollar una herramienta que permita integrar datos caso/control de tres pipelines: expresión diferencial, genome wide association studies (GWAS) y Gene driver selection, en la plataforma de business intelligence Spotfire. Usando las capacidades de Spotfire implementaremos una herramienta que permita realizar un análisis visual conjunto de los tres tipos de datos, optimizada y bajo el control del usuario. 3 B - Introducción B – Introducción: Actualmente nos encontramos en la denominada “Era Genómica”, un tiempo donde se están consiguiendo grandes avances en la obtención de datos genómicos, cada vez en mayor cantidad. Los diferentes procesos, aparatos y mecánicas para la obtención de dichos datos se engloban dentro de lo que se conoce como Next Generation Sequencing o NGS [1-3]. Los pasos que se siguen desde la secuenciación hasta la interpretación de los datos se podrían resumir en tres puntos: 1 – Obtención de datos del genoma por secuenciación (SNPs, Expresión Profiles, etc.) 2 – Análisis de los datos obtenidos (filtrado de muestras, estudios estadísticos, anotación de nuevos datos, etc..). 3 – Interpretación de los datos analizados. Elegir de manera sensata que se realizara en cada uno de los pasos condiciona enormemente el conocimiento final que obtengamos. Los diferentes tipos de secuenciación que existen, presentan diferentes complejidades en su análisis y pueden mostrar diferentes tipos de datos. Actualmente de los más utilizados son: 1) mRNA-seq: secuenciación del RNA mensajero de los tejidos. Este método nos da información acerca de la expresión de los genes, sitios de splicing y la aparición de variantes alélicas [4]. 2) Whole Genome Sequencing (WGS): esta secuenciación analiza el genoma completo. Es una técnica que genera muchos datos, lo que requiere también un análisis más cuidadoso y complejo [5-8]. 3) Whole Exome Sequencing (WES): parecido al WGS, pero, mediante un paso previo a la secuenciación, la muestra se enriquece en las regiones exónicas de los genes. Esto permite un estudio mucho mejor de las variantes exónicas presentes. Al presentar una menor cantidad de datos su manejo y análisis es más sencillo que las anteriores, pero se pierde cobertura [9, 10]. Con respecto al tipo de datos que se pueden obtener de la secuenciación, podríamos decir que estos son los principales: SNPs: Single Nucleotide Polymorphism, o reconocer cambios en la secuencia que afecten a un solo nucleótido. En este ámbito también se pueden incluir Indels o inserciones o delecciones de uno a 50 nucleótido/s en la secuencia [11]. 4 B - Introducción CNV: Copy Number Variants, o identificar aquellas regiones o genes del genoma que presentan un numero anormal de copias. Muchas enfermedades están ligadas a una cantidad anómala de proteína, asociada a una cantidad anormal en el numero de alelos presentes [12, 13]. Expresión Diferencial: extrae de la secuenciación los patrones de expresión de las regiones de genoma a partir de la lectura del mRNA. Comparándolos entre diferentes individuos o poblaciones se pueden obtener los niveles de expresión de cada gen. Aunque existen excepciones, la cantidad de mRNA secuenciado se considera un buen reflejo de la cantidad de proteína que se está formando. [14]. La mayoría de las investigaciones se basan en el análisis de un solo tipo de estos datos, obteniendo informaciones “unidimensionales” que pueden dar conclusiones sesgadas. Un ejemplo contrastado de esto fue el primer acercamiento tipo GWAS, que buscaba "variantes comunes a enfermedades comunes" [15] . En cambio, en la literatura se han podido encontrar diversos ejemplos, en los cuales, el uso de más de un tipo de datos, es decir un análisis “multidimensional”, arroja unos resultados mucho más precisos, permitiendo encontrar relaciones y características nuevas. Estos análisis son denominados Integrados [16, 17, referencias incluidas en estos articulos]. Las ventajas que aporta la integración de los diferentes tipos de datos, hace que este tipo de estudios sean, hoy en día, casi una necesidad para el avance en el estudio de diversos campos, sobretodo en el clínico. El problema de este tipo de análisis multidimensionales, es que esto requiere también protocolos o programas que permitan tratar e integrar los diferentes tipos de datos. Además no solo se integran los datos obtenidos de secuenciación. Existen numerosas bases de datos que contienen mas información de cada región y/o gen, esta información puede ser sobre pathways metabólicos, asociación con enfermedades, etc. Estos, son solo unos ejemplos de mas información que puede integrarse durante el análisis de los datos con el fin de permitir una interpretación mucho más efectiva [18-20]. Este completo análisis de los resultados obtenidos por NGS es fundamental para conseguir extraer de ellos los datos interesantes que pueden permitir al investigador analizar e interpretar correctamente los fenómenos observados. Esto cobra más importancia en el estudio de enfermedades con un gran componente genético, como el cáncer [21-25]. El conocimiento que se obtenga de estos estudios puede llegar a traducirse en el desarrollo de tratamientos, métodos de detección precoces y prognosis. 5 B - Introducción El principal problema radica en el tratamiento de la gran cantidad de datos que se obtienen. Un buen análisis ha de ser capaz de filtrar y organizar estos datos, extrayendo aquellos que sean capaces de transmitir al investigador una información sensible y fiable, sin sesgos ni errores, que permita una correcta interpretación del fenómeno estudiado. Con este fin se han desarrollado múltiples herramientas de análisis de datos de NGS así como diferentes protocolos [17]. Se encuentran disponibles en la red numerosos programas que permiten cubrir cada parte del análisis, desde la anotación y filtrado [26, 27], hasta el estudio estadístico de los datos [28, 29]. Como podemos observar, todo el estudio se puede dividir en dos partes: a) análisis de datos y b) interpretación de estos. En muchas ocasiones existe una gran desconexión entre ambas fases del estudio, lo que se puede traducir en pérdidas de información e interpretaciones erróneas/sesgadas. Como nota final, se ha comprobado que un análisis visual de los datos es mucho mas intuitivo y productivo que ver números ordenados en tablas [30, 31]. Esto se debe a que una gran cantidad de datos numéricos saturan al investigador impidiéndole ver detalles y matices que son los que, al final, permiten extraer la información útil. Con esto en mente, el objetivo principal de este trabajo es la elaboración y presentación de un prototipo que permita al usuario, realizar y dirigir el análisis de resultados de NGS, integrando diferentes tipos de datos junto con otros adicionales (pathways, clusterización, estructura de cromosomas y genes), que le permitan obtener la información necesaria de manera precisa y facilite su interpretación, todo ello en un entorno visual de fácil manejo. 6 C - Material y Métodos C – Material y Métodos La plataforma visual para el desarrollo de esta herramienta de análisis ha sido Spotfire [32, 33]. Este programa permite al usuario gestionar, modificar, transformar, relacionar y elaborar diferentes visualizaciones de los datos, que han de ser introducidos en tabla, aceptando múltiples formatos. La plataforma Spotfire presente en Integromics tiene incorporadas diversas herramientas, elaboradas por la empresa, que se agrupan en la suite de Omics Office (https://www.integromics.com/omicsoffice-suite/). De estas herramientas usaremos la del análisis tipo LIMMA para realizar los cálculos para la expresión diferencial de las muestras (Anexo tablas: Expresión Diferencial). Para el manejo y transformación de los archivos .vcf hemos usado la suite de comandos VCFtools [34]. La hemos necesitado en dos ocasiones: 1. Fusión de los diferentes archivos .vcf en uno solo: vcf-merge -d -R 0/0. 2. Ordenación los cromosomas en el vcf: vcf-sort -c. Hemos usado la opción -R 0/0 para la fusión de los archivos vcf con el fin de simplificar los datos, considerando que aquellas variantes no encontradas en las distintas muestras se debe a que presentan el alelo wild type, no por una falta de lecturas en esa región. Para la anotación y filtrado del archivo .vcf resultante se usaron las herramientas de anotación de GATK [26] y el anotador desarrollado en Integromics, Variant Annotator: 1. Marcar para filtrado usando GATK [26]: java -jar GenomeAnalysisTKLite.jar -T VariantFiltration -R human_g1k_v37.fasta --variant combined2.sorted2.vcf --filterExpression "DP<20" --filterName LowCov --filterExpression "DP>70" --filterName HighCov 2. Filtramos el archivo eliminando aquellos con LowCov y HighCov: cat combined2.filtered.under20X.over70X.vcf | grep -v 'LowCov' | grep -v 'HighCov' > FilteredDP.vcf 3. Anotamos el archivo vcf con la información del Variant Annotator y las puntuaciones de CADD [20]. 7 C - Material y Métodos Para los cómputos estadísticos hemos usado la suite R. Para el cálculo de las métricas y otros parámetros nos hemos servido de las siguientes librerías: SNPrelate [35]: esta librería se ha usado para el análisis de componentes principales (PCA) y de Linkage Desequilibrium Pairwise (LD). MClust (http://www.stat.washington.edu/mclust/): esta librería se ha usado para estimar el número de grupos o clústeres presentes en un conjunto de muestras con diferentes mediciones. Con esta suite hemos realizado los cálculos de frecuencia de mutación (FM), impacto funcional (FI), clusterización, análisis de componentes principales (PCA) y análisis de desequilibrio de ligamiento (LD). Para el cálculo de Odds Ratio (OR) hemos introducido una columna calculada mediante Spotfire. Para el análisis de estratificación de las muestras, filtrado por frecuencia alélica mínima (MAF), estudio de heterocigosidad media, análisis de frecuencia de alelos perdidos y el estudio de asociación genotipo-fenotipo para los SNPs hemos usado la suite PLINK [28, 29]: 1. Para la estratificación hemos usado el comando --genome. 2. Para el test de asociación hemos usado el comando --model. 3. Para filtrar por MAF usamos la opción --maf. Todos los comandos de R y PLINK usados han sido agrupados en los siguientes scripts de R (incluidos en la carpeta de scripts): 1. PCA_LD_PED.R: usa el archivo .vcf anotado y devuelve 4 tablas con los análisis de PCA para muestras, PCA para SNPs, LD de SNPs y Heterocigosidad/Alelos perdidos para las muestras (Anexo tablas: PCA muestra, PCA SNP, LD, Het/Miss). Además también devuelve la información en formato ped y bed. 2. parservcf2.R: este script va a necesitar, como argumentos el archivo anotado VCF, el número de casos y el número de controles presentes en la muestra, así como un vector con los nombres o identificadores de cada muestra. Analizara el archivo obteniendo la información relevante de cada SNP, su distribución entre las muestras y los valores estadísticos de FI y FM (Anexo tablas: Cancer_SNP, SNPMuestras, Cancer Gene Scores). 3. AssoAnalysis.R: este script va a realizar el test de asociación para los SNPs, dándonos los resultados para los cinco tipos 8 C - Material y Métodos diferentes de pruebas: alélico, genotípico, aditivo, dominante y recesivo. Además también realizara el estudio de estratificación y de frecuencia alelica minima (Anexo tablas: Cancer_SNP_Association). 4. clustering.R: este script se va a encargar de realizar el análisis de agrupación de los genes y SNPs. Usa las funciones de agrupación de R clara y kmeans. Para calcular el número aproximado de clústeres usamos las funciones de MClust. Debido a problemas con la memoria y los vectores que genera este paquete en muestras grandes, usamos una aproximación de muestreo con reemplazo de 5000 genes cada vez y lo repetimos 10000 veces para el cálculo del número de clústeres (Anexo Tablas: Clustering). Este script, al contrario que el resto, no está automatizado, de modo que hay que el usuario ha de usarlo a mano, paso a paso. La información de las tablas que se obtienen de estos scripts se ha incluido en el archivo Anexo Tablas. Para realizar la estructura de citobandas del cromosoma se han usado datos del UCSC Genome Browser. Para la estructura de los genes se han usado los datos de RefSeq [36] del release 66. Los datos para relacionar genes con los pathways se han obtenido de la base de datos Reactome [19]. Los datos usados para el desarrollo de este proyecto se encuentran en GEO, provenientes de un estudio de cohortes de diferentes canceres de mama [37]: http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE52194 Titulo: mRNA-sequencing of breast cancer subtypes and normal tissue [37-39] . Contenido: este estudio se basa en la secuenciación de RNA mensajero (mRNA-seq) para realizar un análisis comparativo entre tres diferentes tipos de cáncer de mama: TNBC, No-TNBC y HER-2+. Este análisis se centra tanto en la presencia de variantes entre los diferentes tipos y los valores de expresión. Diseño: 17 muestras de Cáncer de mama y 3 controles divididas en los siguientes archivos: GSM1261016 – TNBC1 GSM1261017 – TNBC2 9 C - Material y Métodos GSM1261018 – TNBC3 GSM1261019 – TNBC4 GSM1261020 – TNBC5 GSM1261021 – TNBC6 GSM1261022 – Non-TNBC1 GSM1261023 – Non-TNBC2 GSM1261024 – Non-TNBC3 GSM1261025 – Non-TNBC4 GSM1261026 – Non-TNBC5 GSM1261027 – Non-TNBC6 GSM1261028 – HER2-1 GSM1261029 – HER2-2 GSM1261030 – HER2-3 GSM1261031 – HER2-4 GSM1261032 – HER2-5 GSM1261033 – NBS1 Control GSM1261034 – NBS2 Control GSM1261035 – NBS3 Control El base-calling se realizo con el pipeline de Illumina v1.3.2 paired end. Como alineador usaron TopHat. El variant calling fue SAMTools con la función mpileup. Para la expresión de los transcritos se uso la herramienta cuffdiff usando como filtro aquellos transcritos con FPKMs por encima de 0.01. Los datos están presentados en 20 archivos VCF y 20 archivos GTF donde se almacenan los datos de los SNPs y los de expresión respectivamente. Las muestras de cáncer fueron obtenidas de biopsias de pacientes mientras que los tres controles fueron tomados de diferentes mujeres. No existe relación familiar entre las diferentes muestras. 10 E - Resultados D – Resultados 1.- Estudio del arte El análisis es una parte fundamental del estudio de datos de NGS. La diferencia entre una gran y una pobre interpretación se basa en que el análisis de unos resultados comprensibles y fiables. Esto es aun mas importante si estamos hablando de problemas que presenten un componente genético importante, como, por ejemplo, el cáncer [16, 21-24, 37]. El tipo de estudio más usado en estos casos es el estudio de cohortes [por ejemplo, 40, 41]. En este tipo de trabajo, se enfrentan los datos (SNPs, expresión, etc.) pertenecientes a dos conjuntos o poblaciones de individuos diferentes. En clínica, las dos poblaciones usadas son: a) Casos, o aquellos individuos que presentan el problema, característica, enfermedad, etc. y b) Controles, que son individuos sanos o que no portan la característica o problema diferencial. De esta comparación, se puede llegar a entender cuáles son las causas de la enfermedad y desarrollar tratamientos y predictores [4244]. Los datos provenientes de NGS se pueden presentar en diversos formatos dependiendo del tipo de información que contengan. Para SNPs y variantes el formato de referencia es el VCF [34]. En este archivo se van a ir enumerando cada uno de los SNPs, Indels, y otros cambios encontrados en el estudio, indicando siempre el cromosoma donde se produce, el nucleótido en el que ocurre, el tipo de cambio, en que muestras se encuentra y, además, información acerca de la calidad del alineamiento, y otras métricas. La calidad de la secuencia se puede estimar por el valor de Depth Coverage o DP que indica la "profundidad" de las lecturas. Una mayor profundidad indica una lectura más fiable y por lo tanto más seguridad con respecto a la información sobre ese SNP. Este punto es crítico, puesto que muestras que tengan un DP por debajo de lo que consideremos aceptable indican que su secuenciación no ha sido del todo satisfactoria y, por lo tanto, no es fiable trabajar con esos datos. Pero existen múltiples sesgos en los datos que se obtienen. Algunos SNPs se heredan juntos, algunas muestras pueden provenir de familiares cercanos, pueden haber sido mal etiquetadas, etc. Para evitar esto se realizan unos controles de calidad para encontrar muestras y/o SNPs que puedan comprometer los resultados del estudio. Una vez producido el filtrado y seleccionado los SNPs objeto de estudio el archivo VCF sigue sin aportar suficiente información útil al usuario. ¿Qué efecto tiene cada SNP? ¿Cómo se puede relacionar con la enfermedad? ¿Es común? 11 E - Resultados Las respuestas a todas estas preguntas se encuentran dispersas por numerosas bases de datos en la red. Esto hace que sea necesario el uso de anotadores, procesos que recaben la información pertinente a cada SNP de nuestra muestra en las diferentes bases de datos y la incluyan en el archivo o fichero que estamos usando, ofreciendo mucha más información al usuario. Nuestro pipeline o workflow debe incluir, por lo tanto, filtros que ayuden a depurar los resultados, antes del análisis. De los revisados, hemos decidido incluir estos: 1 - Depth Coverage. 2 - Análisis de componentes principales de muestras y de SNPs. 3 - Heterocigosidad media y Alelos perdidos. 4 - Análisis de Linkage Desequilibrium de SNPs. Depth Coverage: El proceso de filtrado de muestras y SNPS comienza por la calidad del alineamiento de la secuencia. Esto lo medimos por el Depth Coverage de cada SNP. El Depth Coverage al que se aspira en los experimentos actuales es de 20 o 30x, según el aparato y técnica usada. Aquellas secuencias que presenten valores inferiores o muy superiores a lo establecido indican un bajo grado de calidad y por lo tanto no son fiables. Para nuestro estudio filtraremos los SNPs dejando solo aquellos que tengan un DP de 30x hasta 70x, para asegurar la fiabilidad de los datos que usaremos y disminuir la carga de información que se analizará. Análisis de componentes principales de muestras y de SNPs: Otro de los métodos más usados para filtrar tanto muestras como SNPs es el análisis de componentes principales o PCA, el cual va a aportar la información acerca de cómo se comportan las diferentes muestras o SNPs en diferentes "componentes" y permitiendo observar su distribución y detectar aquellas que tengan un comportamiento anómalo, también denominadas outlaiers [35, 45]. Estos outliers pueden contaminar y sesgar los resultados de modo que han de ser eliminados del estudio. Heterocigosidad media y Alelos perdidos: Existen otros varemos para determinar la calidad de la secuenciación de las muestras, estos son los niveles de heterocigosidad media y de alelos perdidos [28, 35]. 12 E - Resultados Los niveles de heterocigosidad, o heterocigosidad media, miden la cantidad de alelos en heterocigosis en cada muestra. Un nivel muy bajo o demasiado alto es un indicador de problemas durante la secuenciación o la identificación de los SNPs. Los alelos perdidos hacen referencia a aquellas regiones que no han sido secuenciadas en todas las muestras del estudio. Aquellas muestras que no presenten información alguna sobre esa región, se consideran que presentan un "alelo perdido". Un número excesivo de estos en una muestra es indicativo de que su secuenciación no ha sido del todo óptima de modo que los resultados que presenta no son fiables. Análisis de Linkage Desequilibrium de SNPs: Normalmente los SNPs presentes en una muestra son independientes unos de otros, es decir se heredan por separado. Pero hay ocasiones que, ya sea por cercanía u otros motivos, dos o más SNPs no se heredan de manera independiente, sino que se heredan ligados o "en bloque". Si no se tiene en cuenta esta posibilidad, los resultados del análisis pueden resultar sesgados. Teniendo en cuenta esto, es conveniente filtrar los SNPs solo quedándonos con aquellos que se hereden independientemente del resto, evitando sesgos posteriores [35]. Una vez realizado el filtrado, tendremos un archivo de texto, en formato VCF sobre el cual podremos anotar mas información y realizar los análisis estadísticos para seleccionar aquellos más interesantes para el estudio. Llegados a este punto, existen dos abordajes a la hora del análisis estadístico, no excluyentes y normalmente complementarios: a.- Nivel de Gen b.- Nivel de SNP Nivel de Gen: Hablar de nivel de gen se refiere a poder identificar aquellos genes interesantes que puedan estar relacionados con la enfermedad o el problema, sea como marcadores o como causantes de esta. Esta selección es conocida como Gene Driver Selection. Nuestra herramienta contara, por lo tanto, con un método de selección de Gene Drivers. Pero para ello necesitamos una guía o criterio de selección. En la bibliografía existen tres aproximaciones: 1) Frecuencia de mutación: las mutaciones, en condiciones normales, se producen al azar en los genes. El acumulo de estas sobre el mismo gen o 13 E - Resultados región puede producir que, eventualmente, aparezca una que provoque un cambio profundo en la proteína codificante, desencadenando el problema. Bajo este contexto los genes que presenten tasas de mutaciones más elevadas de lo esperado estarían indicando la presencia de una selección positiva por parte de la enfermedad o proceso y por ende serian candidatos a ser Gene Drivers [46, 47]. No hay una única aproximación estadística para estudiar este fenómeno. Lo fundamental es siempre tener el valor de BMR o Background Mutation Rate, que se define como la tasa de mutación estándar o "normal" del gen o región. El análisis se resume en comparar las tasas de mutación de cada gen (gMR) con la BMR y ver si son significativamente diferentes. Lo fundamental de esta parte es el determinar el BMR, punto en el que hay bastante controversia, puesto que la tasa de mutación es muy dependiente del individuo, tipo celular, región y enfermedad [48]. En nuestro estudio la calculamos sobre la población control que usamos. Resumiendo, vamos a comparar que genes se encuentran más mutados en nuestros casos que en los controles. Como aproximación estadística nos hemos basado en la de CaMP o Cáncer Mutation Prevalence [49], la cual la hemos adaptado para poder calcular el p-valor para cada gen mediante una distribución binomial acumulada. Esta es una aproximación clara y sencilla de fácil implementación en R. 2) Impacto Funcional (FI): esta vertiente surgió en 2012 en respuesta a los problemas que venían asociados a la variabilidad en el numero de mutaciones entre diferentes estudios y la falta de reproducibilidad de los resultados [50]. La idea, que define el contexto de este análisis, es que aquellos genes que presenten mutaciones mas perturbadoras o deletéreas para la proteína que codifican, seguramente sean causales de la enfermedad o problema y por lo tanto son candidatos a ser Gene Drivers [50]. En nuestro estudio, vamos a comparar el índice de impacto de las mutaciones presentes en cada gen con el índice de impacto medio de mutaciones de toda la población de estudio. De modo que el gen driver se definirá como aquel que presente un índice de impacto de mutaciones mayor que el índice de impacto medio de la muestra. Para indicar la gravedad de la mutación, es decir su índice de impacto, usaremos la puntuación obtenida de CADD [20], que ofrece una puntuación basada en 63 características diferentes. Presenta dos valores, uno, crudo, ideal para análisis estadísticos y otro escalado usando la manera escala phred, ideal para estratificar. Para determinar el FI de cada gen, podemos usar, o bien el valor medio de las mutaciones de dicho gen, o bien el su valor máximo. Esta puntuación se compararía mediante un test de muestreo con reemplazo con el resto de genes de la muestra. 14 E - Resultados 3) ODDS RATIO (OR): es una expresión estadística que se ha estado usando mucho en estudios poblacionales y epidémicos. Consiste en comparar el número de individuos que poseen cierta característica y los que no, en las dos poblaciones del estudio. De modo que permite tener una métrica acerca de cuan de probable es pertenecer a una población u otra (por ejemplo sano/enfermo) al poseer esa característica [51-55]. La adaptación que hemos realizado para nuestro proyecto es la siguiente: Los SNPs se encuentran tanto en muestras control como muestras caso. De modo que la característica que usamos es la presencia o no del SNP, es tener o no el SNP y las dos poblaciones que comparamos son Casos y Controles. Esta aproximación permite obtener un valor estadístico de cuán fácil es que la presencia de un SNP o varios en un gen, hagan que el individuo sufra la enfermedad (es decir que pertenezca a la población de casos). 4) Expresión Diferencial: a nivel de gen también se pueden encontrar datos de expresión. Para analizar los datos de expresión en estudios de cohortes, el método más usado es LIMMA, que indica, para cada gen, el cambio de expresión entre las diferentes poblaciones y un valor estadístico asociado a dicho cambio [56]. Aunque, inicialmente fue desarrollado para microarrays, su uso está muy extendido para comparar las expresiones en estudios de cohortes de diferente índole. En nuestro estudio, los genes interesantes serán aquellos que presenten unos niveles de expresión significativamente superiores o inferiores a la población control. Como podemos observar, cada aproximación tiene sus ventajas y sus inconvenientes. Es más, incluso usando los mismos datos, la selección de genes puede ser completamente diferente según que métrica se use. El uso de una sola métrica puede llevar a resultados sesgados y parciales, por el contrario la posibilidad de integrar varias diferentes a la hora de seleccionar los genes darán lugar a datos más fiables. Nivel de SNP: Ahora analizaremos cada SNP por separado. Usaremos las métricas previamente calculadas de OR su puntación de CADD. Además, usaremos otro test estadístico para estudiar la relación del SNP con la enfermedad, el denominado Test de Asociación. Este test, realmente son 5 diferentes, cada uno basándose en diferentes criterios, pero todos ellos buscan el definir el cómo de relacionado esta el SNP con la enfermedad. En este punto tambien se estudia la frecuencia alelica minima (MAF). 15 E - Resultados Estos dos niveles del análisis pueden darse en cualquier orden, e incluso de manera independiente. Con estos pasos queda definido el workflow de nuestro proyecto (Figura 1). Figura 1: Workflow de los datos del proyecto. Se pueden observar en cada paso que se realizara y como. Al final todo se integra en Spotfire. Gene driver selection y SNP selection, pueden darse secuencialmente, en el orden deseado o ser independientes la una de la otra (flecha puntuada), cada una usara unas métricas analíticas para su selección (flechas azules). Elección de programas/scripts Este es un punto sensible, como queremos diseñar un modo accesible y útil para el análisis de los datos, tenemos que elegir con cuidado que programas 16 E - Resultados vamos a usar en cada paso para optimizar los tiempos de computación y resultados. Ya hemos adelantado que todos los datos serán integrados en la plataforma de Spotfire [32] de Integromics. El resto de programas elegidos y scripts desarrollados lo han sido pensando siempre en la utilidad, el resultado que queremos obtener según nuestro workflow (ver Figura 1), simplicidad y optimización. En la sección de Material y Métodos vienen descritos todos ellos así como las tablas que se obtienen de cada uno. Todos los scripts se encuentran anotados y comentados, explicando cada una de las partes. 2.- Búsqueda y obtención de datos para elaborar el protocolo y contrastar resultados. Existen numerosas bases de datos online que almacenan numerosos estudios de cohortes de diferentes enfermedades, información de secuenciación de voluntarios, de pacientes de cáncer, etc. Para nuestro proyecto, lo ideal sería usar un estudio de cohortes que tenga accesibles los datos de secuenciación acompañados de datos de expresión para la integración. Como parte de este trabajo, hemos estado revisando las diferentes bases de datos existentes, haciendo un pequeño catalogo/resumen sobre qué tipo de información podemos encontrar en ellas: 1000 Genomes Project [57-59]: esta web presenta numerosos datos sobre diferentes muestras, pudiendo acceder a los datos en VCF de estudios de exoma, mRNA, etc.. Son muestras procedentes de donantes voluntarios, no siguen ninguna pauta de enfermedad/población/etc. Personal Genome Project [60, 61]: muy similar a la anterior. Donantes de diferentes tipos ceden muestras para su secuenciación y acceso. ENCODE [62]: presenta datos de secuenciación realizados sobre poblaciones celulares. Es la más completa a la hora de datos en formato VCF y de información adicional. GEO database [63-65]: es la base de datos del NCBI en la cual se guardan las muestras y sus datos por estudios y artículos realizados con estos. La ventaja es que como provienen de estudios ya realizados y publicados, no solo vienen los datos de las muestras ya preparados para analizar sino que además se puede estimar la replicación de los resultados. The Cáncer Genome Atlas [66-68]: si se requieren realizar estudios sobre cáncer, esta es la base de datos más completa al respecto. Guarda una 17 E - Resultados cantidad ingente de datos de diferentes tipos de canceres (acceso restringido en algunos). Después de buscar entre todas ellas, encontramos los datos de un estudio sobre Cáncer de Mama almacenados en GEO (ver Material y Métodos). Siguiendo la línea de pensamiento del articulo original [37], decidimos agrupar las diferentes muestras de cáncer en una misma población de casos, esta decisión facilitaba y simplificaba toda la realización del proyecto, al no tener que estar gestionando los datos por separado. De esta manera nuestro proyecto se realizará sobre un estudio de cohortes con 17 casos y 3 controles. Este set de datos fue escogido porque realmente lo queremos hacer es un concepto de prueba del desarrollo de una herramienta. Aunque los datos no son los más indicados (no harías este tipo de estudio con datos de mRNA-seq), aportan todas las ventajas técnicas que necesitamos (Casos/Controles, SNPs y expresión). Antes de realizar el análisis de los datos, procedimos a su procesamiento: 1) Fusión de los diferentes ficheros VCF en uno solo usando VCFtools (ver Material y Métodos). Después de este paso tenemos un archivo VCF con 193638 SNPs en 20 muestras diferentes. Para simplificarlo más, para agilizar el desarrollo del prototipo, también eliminamos los SNPs presentes en cromosomas sexuales y las inserciones muy extensas, quedándonos con 147266 SNPs. 2) Anotación del archivo VCF obtenido y filtrado de este por Depth Coverage (ver Material y Métodos). Al final tenemos dos archivos de partida para realizar el workflow de nuestro proyecto (Figura 2): 1) Archivo VCF anotado con 82717 SNPs. Contiene información sobre el tipo de mutación que presentan, puntuación de CADD, etc. 2) Archivo de texto con los genes y sus valores de expresión (FKPM) en cada individuo. 18 E - Resultados Figura 2: workflow ampliado del proyecto con los programas y scripts a usar. Cada parte tiene sus objetivos marcados. El usuario seguirá y controlara en todo momento el análisis permitiéndole una mejor interpretación de los resultados. 19 E - Resultados Análisis visual en Spotfire: Con esos dos archivos de partida, procedemos a usar los scripts correspondientes (Figura 2 y Material y Métodos) y obtener las diferentes tablas (Anexo Tablas) que cargaremos en Spotfire. Dentro de Spotfire todas estas tablas se van a relacionar unas con otras tendiendo puentes y conexiones entre los diferentes tipos de datos (Figura 3). Figura 3: esquema de la relación entre los diferentes datos. Cada SNP pertenece a un gen, con lo que los valores de Odds Ratio de cada gen se calculan a partir de sus SNPs. Cada SNP y cada Gen están relacionados con cada tipo de muestra/población. De este modo todos los datos introducidos y que se calculen pueden relacionarse con cada una de las partes del estudio, integrándolo todo. 20 E - Resultados De todas las tablas generadas, estas dos son las que van a permitir la integración de los datos: a) Tabla de datos del VCF (Cancer_SNP). b) Tabla de Muestras-SNPs (SNPMuestras). Esto se debe a que ambas tienen toda la información genérica de los SNPs; a que gen pertenecen, que muestras los portan, cuantas en heterocigosis, cuantas en homocigosis, que efecto tienen, posición, etc.. 3.- Filtrado de Muestras y SNPs: Como dijimos anteriormente (Figuras 1 y 2, Material y Métodos), el primer paso es filtrar los datos que tenemos. Esto se realizara a dos niveles: a. Filtrado de muestras por PCA. b. Filtrado de SNPs por PCA y LD. Para ello usaremos la información de las siguientes tablas: a) Tabla de PCA components de las muestras (PCA muestra). b) Tabla de PCA components de los SNPs (PCA SNP). c) Tabla de Missingness/Heterozigoseness de PLINK de los SNPs (LD). d) Tabla de LD de los SNPs (Het/Miss). a. Filtrado de muestras por PCA (Figura 4): Figura 4: presentación de la pestaña de filtrado de Muestras. 21 E - Resultados Las diferentes representaciones son: 1. Scatterplot 3D (Figura 5) representando en los tres ejes los tres primeros componentes principales del análisis de las muestras realizado. La representación 3D permite localizar que elementos se alejan más de la tendencia del conjunto, de manera más efectiva. Cada punto representa una de las muestras del estudio, con el numero de SNPs asociados a cada una, así como a la población a la cual pertenece. Cada tipo de muestra tiene un forma y un color diferente. El tamaño representa el numero de SNPs y la forma la población. Esto permite observar si las muestras de la misma población se distribuyen de la misma manera, así como si todas presentan un numero parecido de SNPs. Distribuciones extrañas o números anormalmente bajos de SNPs son indicativos de problemas en el proceso de secuenciación. En nuestro caso, podemos observar que la muestra Her2-5 no solo tiene un numero anormalmente bajo de SNPs (aproximadamente 5000 frente a una media de 20000 del resto de Her2), sino que se distribuye junto a las del tipo TNBC. Figura 5: PCA análisis 3D, cada eje representa una de las componentes principales. Cada población está representada por una forma/color y el tamaño de las figuras es proporcional al número de SNPs que presentan. 22 E - Resultados 2. Heatmap jerárquico (Figura 6), esta representación se deriva de la anterior complementándola. Las celdas representan los valores de las tres primeras componentes principales, agrupando las diferentes muestras según estos. Esta representación permite ver, de manera más fina, el comportamiento de cada muestra, permitiendo observar aquellas que se comportan como las de una población a la que no pertenecen. La distribución ideal que se espera con el filtrado será aquella que agrupe juntas las muestras de cada población. En nuestro set de datos vemos que hay varias muestras que se agrupan en otras poblaciones (TNBC-1, nonTNBC-3), y que al eliminarlas, tenemos la agrupación ideal que esperamos. Esta representación se realizo con la herramienta de Hierarchical Cluster de Spotfire Figura 6: Heatmap de los valores medios de los PCA de las muestras. En esta representación ya han sido filtradas alcanzándose la distribución correcta. 3. La tercera representación es un scatterplot que enfrenta los valores de alelos perdidos contra los de heterocigosidad media (Missingness/Heterozigoseness) (Figura 7). Hemos establecido como limites para considerar valores no aceptables, 2 veces la desviación típica. Nuestros datos no presentan ninguna muestras con valores no aceptables así que no eliminamos ninguna por este criterio. 23 E - Resultados Figura 7: representación del ratio de alelos perdidos vs la heterocigosidad media (Missingness/Heterozigoseness). La lineas claras representan los límites establecidos por dos veces la desviación típica de cada eje. Todas las muestras se sitúan en el 0 de alelos perdidos debido al tratamiento de los datos (ver Material y Métodos). 4. La última representación es una tabla con la información de cada SNP (Figura 8). Está relacionada de tal manera que los SNPs que presenta vienen filtrados por las selecciones que hagamos en el resto de las representaciones. Figura 8: Tabla-resumen de los datos de los SNPs. Solo muestra aquellos que pertenezcan a las muestras seleccionadas. 24 E - Resultados b. Filtrado de SNPs por PCA y LD (Figura 9): Figura 9: presentación de la pestaña de filtrado de SNPs. Las diferentes representaciones son: 1. P i e c h a r t representando el % de SNPs que considera en desequilibrio de ligación (LD) e independientes (Figura 10). Esta calculado para 5 tresholds diferentes (Material y Métodos) el usuario puede elegir cual usar, siendo el 0.1, el más restrictivo hasta 0.8, el más permisivo. Figura 10: Piechart para el análisis de LD. El usuario ve que % de SNPs considera independientes y puede elegir el treshold de selección. 25 E - Resultados 2. Scatterplot 3D de componentes principales (Figura 11) de manera similar al de las muestras, pero, en este caso para los SNPs. El color depende del cromosoma en el que se encuentren. Además se detalla la información de cada SNP indicando el gen en el que esta y el número de casos y controles que lo presentan. Figura 11: Scatterplot 3D del análisis PCA de SNPs con los tres primeros componentes principales. 3. Tabla con la información de los SNPs como la del apartado anterior (Figura 9). En el apartado de selección por LD, solo vamos a elegir los SNPs representativos, que el programa a determinado que son independientes, para la realización del test de asociación. Esto permite realizar un test menos sesgado y computacionalmente más ligero. Más adelante los SNPs que no fueron usados en el test se relacionaran con los que si fueron usados. Una vez realizados el filtrado las tablas, con los SNP y muestras seleccionadas, se usaran para los diferentes cálculos estadísticos propuestos anteriormente (asociación, frecuencia de mutación, etc. ver Material y Métodos). 4.- Selección de Gene Drivers (Figura 12): Ahora entramos en el análisis propiamente dicho de los datos. Las primeras representaciones van a ir encaminadas a determinar los denominados Gene 26 E - Resultados Drivers, o genes causales de la enfermedad. Para ello usaremos estas tres métricas: a. Frecuencia de mutaciones (FM). b. Impacto Funcional (FI). c. Expresión Diferencial. Las tablas usadas son: a. Tabla de Gene Scores (Cáncer Gene Scores). b. Tabla de expresión diferencial (Expresión Diferencial). Figura 12: presentación de la pestaña de selección de Gene Drivers. El usuario puede filtrar los resultados según la ruta metabólica. El cuadro amarillo ofrece información acerca de que datos y que programas han sido usados. Las diferentes representaciones son: 1. Scatterplot que enfrenta los p-valores (escala logarítmica) de la frecuencia de mutación contra el factor de impacto, calculado según el valor máximo de CADD (Figura 13 izquierda, ver Material y Métodos). Se ha marcado como limite el p-valor 0.05. Esta representación permite al usuario elegir los genes por cualquiera de los dos criterios, o ambos al unísono, dando la posibilidad de un análisis multidimensional. 27 E - Resultados 2. Volcano plot que enfrenta los valores de cambio de expresión o fold change contra el p-valor del test de expresión diferencial (escala logarítmica) (Figura 13 derecha). El test se ha realizado entre los casos y controles (Material y Métodos). Los colores definen una sobreexpresión significativa en casos (rojas), o un silenciamiento significativo (azules) o bien, presenten un cambio no significativo (gris). Esta representación y la anterior están relacionadas de modo que al seleccionar los genes en una, se seleccionan en la otra, integrando así las tres métricas y permitiendo un análisis multidimensional (Figuras 14A y B). Figura 13: Scatterplot con los FI y FM, volcano plot para la expresión diferencial y Scatterplot para el Odds Ratio (OR). Las líneas discontinuas representan los limites estadísticos (p-valor 0.05) para indicar si los datos son significativos o no. 3. Scatterplot que muestra, para cada gen seleccionado en las tablas anteriores, su OR medio en escala logarítmica (Figura 14 A y B). Los genes están marcados por flechas indicando si están sobreexpresados (flecha hacia arriba) o silenciados (hacia abajo), en los casos. Esta representación añade otra dimensión mas a la hora de determinar qué genes son los Gene Drivers. 28 E - Resultados Figura 14: ejemplos de relación entre las visualizaciones. Al seleccionar los genes por FI y FM, estos se marcan en el volcano plot y podemos ver su OR (A), del mismo modo, si los seleccionamos primero en el volcano, se seleccionan en el scatterplot y en el OR. 4. Tabla con la puntuación de CADD score máxima y el numero de SNPs por Gen en cada tipo poblacional (Figura 15A y B izquierda). Esto permite al usuario la información de cada gen desglosada según la población a la que pertenecen las muestras. 5. Tabla con el valor de fold change de cada gen en cada tipo de población (Figura 15A y B derecha). Estas representaciones permiten al usuario un acercamiento multidimensional en la determinación de los Gene Drivers. 29 E - Resultados Figura 15: Tabla con los valores del valor máximo de CADD y numero de SNPs por gen, junto a la tabla con los valores de Fold Change por gen y población (A). Una vez seleccionados algunos genes en el volcano plot y/o en el scatterplot, estos son filtrados en las tablas, solo mostrando la información de los seleccionados (B). 5.- Análisis de asociación y selección de SNPs. A continuación se va a proceder a analizar y escoger aquellos SNPs que sean más relevantes o estén más relacionados con la enfermedad o problema que estamos investigando. Esta fase consta de dos partes: c. Representación de los resultados de los test de asociación de los SNPs en el genoma completo. d. Representación de los resultados de los test de asociación y de OR de los SNPs asociados a cada gen en detalle. Hay que recordar que no se usaron todos los SNPs para los test de asociación, solo aquellos que tenían una herencia independiente. En la segunda fase de esta parte, se podrán estudiar al tiempo tanto los SNPs testeados como aquellos que no lo fueron, relacionados por el gen al que pertenecen. Con este fin usaremos las siguientes tablas: a. Tabla de test de asociación (Cancer_SNP_Association). b. Tablas de citobandas (ver Material y Métodos). c. Tablas de estructura de genes y transcritos (ver Material y Métodos). 30 E - Resultados a. Representación de los resultados de los test de asociación de los SNPs en el genoma completo (Figura 16): La representación es un scatterplot del tipo Manhattan Plot. El genoma se encuentra dividido en pequeñas ventanas, cada una representando un cromosoma. En el eje de las X de cada uno se encuentra la posición y en el eje de las Y, el p-valor, en escala logarítmica, de los test de asociación. Además se ha incluido el limite estándar de valor significativo (p < 0.05). Asi mismo, en el eje de la X están representadas las estructuras de cada cromosoma en forma de citobandas. Cada SNP viene representado por un Piechart que indica que proporción de casos (rojo), controles (azul claro) tienen presente el SNP y que proporción total de muestras (gris) no lo tienen. En este punto el usuario puede seleccionar tanto los resultados del test que elija (Figura 16A y B), asi como dos opciones de filtrado, denominadas Positive Selection y Negative Selection. La primera escoge a aquellos SNPs que se encuentren presentes en una mayor proporción de controles que de casos. Por el contrario, la segunda escoge a los SNPs que se encuentren en una mayor proporción de casos que de controles. Todo ello teniendo en cuenta el número total de muestras de cada población (Figura 16A y B). Esta opción de filtrado es muy interesante puesto que aquellos SNPs elegidos por la Positive Selection pueden sugerir protección, mientras que los provenientes de la Negative Selection sugieren causalidad. 31 E - Resultados Figura 16: Representacion tipo Manhatan Plot del test de asociacion de los SNPs. Se encuentran separados por cromosomas, indicando las citobandas presentes. La primera representacion es una seleccion positiva del test genotipico (A). La segunda es negativa del test cochran-armitage trend (B). 32 E - Resultados b. Representación de los resultados de los test de asociación y de OR de los SNPs asociados a cada gen en detalle (Figura 17): Las representaciones son: 1) Manhattan Scatterplot, pero ahora en vez de presentar todo el genoma, los cromosomas están separados en paneles, de modo que el usuario puede ver en detalle que cromosoma es el que le interesa (Figura 17). Los datos de esta representación son filtrados por los elegidos en el anterior punto. 2) Scatterplot (Figura 17A y B, izquierda), que enfrenta la posición en el gen de los SNPs contra el valor de Odds Ratio (OR). Esta representación es la que relaciona los SNPs no usados en los test de asociación con los que si lo fueron. Una vez elegido un SNP por su valor en el test de asociación, esta representación muestra el gen completo con su estructura (Figura 17B), además de todos los SNPs del estudio que se encuentran asociados a dicho gen. De este modo el usuario, una vez determinado que SNP presenta una asociación buena con el problema, puede elegir aquel o aquellos SNPs que presenten un OR alto o estén en mayor proporción en casos (siguientes representaciones). 3) Las otras dos representaciones tienen la misma información de diferentes formas. La primera (Figura 17A y B, derecha-arriba) es un stacked barplot para cada SNP seleccionado indicando su distribución por colores en cada tipo de muestra. La otra representación (Figura 17A y B, derecha-abajo), que muestra numéricamente el mismo dato. Con estas representaciones el usuario no solo ve que SNPs tienen un valor interesante en los test de asociación, sino todos los SNPs asociados a los elegidos y la información sobre ellos. Esto evita una pérdida masiva de información y un análisis más preciso de los datos. Al ser este trabajo una prueba de concepto no se ha hecho un análisis exhaustivo de los SNPs de nuestro set de datos, estando más interesados en ver como se visualizan los datos y que información transmiten. 33 Figura 17: Manhattan Scatterplot con el detalle de los test de asociación. En caso de no elegir ningún SNP en particular, no se observar ni la distribución ni el OR (A). Una vez elegido uno o varios, se pueden estudiar todos los SNP relacionados con este, mirar su localización en la estructura del gen y la distribución en las poblaciones (B). Con estas representaciones, la de Gene Drivers y la de SNP selection, el usuario puede seleccionar, de manera independiente aquellos Genes o SNPs que sean de interes para su estudio. Además, con los filtros, puede acotar los datos de manera que ahorre tiempo y esfuerzo en el análisis. Otra ventaja que presenta es que ambas selecciones pueden ser realizadas en el orden deseado. 6.- Integración y Análisis de información adicional. a. Integración y Análisis de datos de pathways metabólicos. 34 E - Resultados b. Integración y Análisis de datos de agrupación y clustering. El proceso de integración es el pilar básico de este proyecto. En las visualizaciones anteriores ya se ha conseguido integrar todos los datos sobre los genes, los SNPs y la expresión diferencial. Pero para conseguir un análisis más exhaustivo, completo y eficaz, toda información es poca. Para complementar todo lo anterior, hemos incluido datos acerca de los pathways metabólicos y de clustering de genes. a. Integración y Análisis de datos de pathways metabólicos (Figura 18): Figura 18: pestaña de análisis de pathways, usando la opción de filtrado El usuario puede filtrar los datos según las rutas o pathways que desee antes de empezar el análisis. Una vez escogida/s procedemos con las visualizaciones: 1) La primera representación tabla que contiene las rutas y que genes presentan SNPs en cada tipo de caso. De este modo se puede observar que genes están afectados según la población y estimar las diferencias (Figura 18 y 19 izquierda-arriba). 2) La siguiente es un barplot donde se indica el Fold Change global de cada ruta. Cada ruta presenta dos barras, una roja (positiva) y una azul (negativa) que indican el grado de sobreexpresión y de silenciamiento global de la ruta en los casos (Figura 18 y 19 izquierda-abajo). 35 E - Resultados 3) Las otras dos representaciones son barplots que muestran, en columnas separadas según la población, cuantos genes de cada ruta están mutados (Figura 18 y 19 derecha-arriba) y cuantos SNPs presenta cada ruta (Figura 18 y 19 derecha-abajo). Estas dos representaciones, en conjunción con las anteriores, permiten al usuario ver cuáles son las rutas más afectadas en nuestro estudio. Todas estas representaciones están relacionadas con las anteriores de análisis de genes y de SNPs, de esta manera, los genes o SNPs que elijamos en ellas, filtraran los datos de las rutas en estas (Figura 19). Figura 19: análisis de pathways filtrado por el análisis de Gene Driver. En este caso se escogieron aquellos genes con la expresión más elevada en casos que en controles. b. Integración y Análisis de datos de agrupación y clustering (Figura 20). Aunque el análisis de clustering no es una característica de obligado estudio, el poder agrupar los genes o SNPs en grupos según su parecido en su comportamiento es muy útil puesto que puede aportar más información al usuario de la que se podría ver a simple vista. Lo primero es que el usuario puede elegir qué tipo de algoritmo quiere usar para la clusterización, kmeans o clara. Una vez escogido se procede con las visualizaciones: 1) Scatterplot 3D (Figura 20 arriba) que enfrenta las tres variables seleccionadas para la clusterización. En nuestro caso escogimos 36 E - Resultados la puntuación máxima de CADD para cada gen, el Fold Change de la expresión diferencial y su Odds Ratio (OR), puesto que resumen las 3 dimensiones que hemos estado usando para la selección de Gene Drivers. Cada gen esta coloreado según al clúster al que pertenezcan. Esta visualización permite observar la distribución de los genes y los clústeres en relación a nuestras tres variables, permitiendo definir las características de cada grupo. 2) Barplot que muestra cuantos SNP hay presentes en cada clúster. De modo que podemos ver cuál es el clúster que agrupa mas SNPs en el estudio (Figura 20 izquierda-abajo). 3) Las otras dos representaciones son dos tablas cruzadas (Figura 20 derecha-abajo) las cuales muestran cuantos SNPs tiene cada gen en cada grupo del clúster (tabla superior) y cuantos SNPs tiene cada ruta metabólica en cada grupo del clúster (tabla inferior). Los nombres de los clústeres son artificiales, creados por nosotros al ver las características de cada clúster, siendo meramente descriptivos. Como en el caso de las visualizaciones de las rutas metabólicas, las visualizaciones de la clusterización están ligadas a las del análisis de genes y de SNPs. De este modo todos los datos de clusterización se filtraran según lo que se elija en las anteriores. 37 E - Resultados Figura 20: análisis de clusterización de los genes de la muestra. 7.- Análisis del set de datos usado. Para probar la potencia de nuestro prototipo, probamos a analizar el set que hemos usado para desarrollarlo y comparar los resultados obtenidos con los del artículo original [37]. Debido a problemas de tiempo y trabajo, puesto que el foco del proyecto consistió en realizar el prototipo, el análisis fue bastante superficial, de modo que los resultados que obtuvimos son muy parciales. Decidimos seleccionar los genes de manera "bidimensional", usando como criterios de selección el índice de impacto (FI) y la frecuencia de mutación (FM, Figura 14A). Este grupo de genes, se comparo con la base de datos de COSMIC [18], encontrándose íntimamente relacionados con el cáncer de mama. Estos genes se encuentran mutados, como mínimo, en el 2% de los canceres, presentando variaciones en el número de copias (CNV) en aproximadamente el 15-25% de los casos (Tabla 1). Lo interesante, es que todos ellos pertenecen a rutas de reparación de DNA, RNA, transcripción y crecimiento de tejidos, especialmente el adiposo. Además, podemos ver que tres de esos genes, LPR8, RCOR3 y MEF2A presentan un Odds Ratio (OR) muy elevado, lo que sugiere una posible relación con el desarrollo del cáncer. Gen % SNP presentes % SNV presentes 38 E - Resultados BRWD 2% 15% C10orf137 1% 20% FTO 2% 25% MEF2A 2% 10% INPP4B 1% 17% KiAA1370 2% 21% TTC8 1% 30% GL5 2% 16% LRP8 2% 30% RCOR3 1% 62% DYNCRB1 1% 32% RBM12B 2% 54% CLTC 2% 33% Tabla 1: porcentajes de presencia de SNP y de CNV en los genes seleccionados según COSMIC. Analizando las rutas en las que se encuentran implicados encontramos que engloban: señalización celular e internalización de moléculas señalizadores y colesterol (LRP8), activación de sistemas de respuesta y reparación ante stress (MEF2A) y represión de transcripción (RCOR3). Todas estas rutas son muy importantes en el desarrollo y crecimiento de los tejidos y se encuentran implicadas en el cáncer. Siguiendo con el análisis, quisimos comparar los resultados obtenidos con los del articulo original de los datos [37]. Así pues, comparamos los resultados que obtuvimos de expresión diferencial, con las herramientas de Omics Office incluidas en Spotfire de Integromics (LIMMA, ver Material y Métodos), con los presentados en el artículo. La coincidencia de resultados, es decir la semejanza de genes que consideran sobre-expresados o silenciados se eleva hasta casi el 97% (96,77%) indicando una gran reproducción. El coeficiente de correlación era solo del 50%, debido a que los valores de cambio de expresión asignados a cada gen, variaban bastante entre los dos estudios, seguramente debido a los algoritmos usados (Figura 21). 39 E - Resultados Figura 21: resumen del estudio comparativo entre los resultados del articulo y nuestro proyecto. El análisis de la expresión diferencial fue llevada a cabo por la herramienta de "LIMMA" integrada en el paquete de OmicsOffice Tools de Integromics. 40 E - Discusión de Resultados E - Discusión de Resultados. Nuestro objetivo final era elaborar un programa u aplicación que permitiera al usuario monitorizar y controlar todo el proceso de análisis terciario de datos de NGS, es decir partiendo de los archivos VCF o GTF, además de integrarlo con otro tipo de informaciones adicionales, que le permitan obtener unos datos útiles para una interpretación satisfactoria. Al final de este trabajo, hemos conseguido desarrollar un prototipo que integra tanto datos de expresión como de SNPs, añadiendo datos sobre la estructura de genes, cromosomas, rutas y clustering. Además, el usuario esta en todo momento visualizando y controlando cada una de las fases del análisis. Búsqueda y tratamiento de datos La búsqueda de datos ocupo una parte importante de este proyecto. Como nuestro objetivo era integrar diferentes tipos de información en un mismo análisis necesitábamos encontrar sets de datos muy específicos, que contuvieran más de un tipo de información para las mismas muestras. Debido a las limitaciones de tiempo y el objetivo de poder llegar a desarrollar el prototipo, se buscaron los set de datos que requirieran el menor tiempo de procesado y presentasen varios tipos de información. El set elegido fue el realizado para un estudio de cáncer de mama del 2012 [37, ver Material y Métodos]. Este presenta datos tanto de variantes alélicas como de expresión, y al estar en formato VCF no requiere ningún paso previo. Estas ventajas lo hacían perfecto para el desarrollo del prototipo, a pesar de que se trataba de mRNA-seq en vez de DNAseq que sería lo ideal. Al trabajar con este set, tuvimos que fusionar los diferentes archivos VCF en uno solo (ver Material y Métodos y Resultados), decidiendo, de manera arbitraria, que los SNPs que no se encontrasen en determinadas muestras, por defecto, tendrían el alelo wild type. Esto, en un estudio serio, no se debería hacer puesto que realmente no se sabe si es que esos SNPs, no están en esas muestras o es que esa región no se ha secuenciado. Pero para el desarrollo de la plataforma, esto no tiene mayor influencia y, además, simplifica y agiliza el procesado. Esto explica la distribución de las muestras en la línea del valor 0 en la representación del filtrado por proporción de alelos perdidos y heterocigosidad (Figura 7). Otro dato que nos sorprendió fue el hecho que, con el filtrado de Depth Coverage (DP) nos quedásemos con menos de la mitad de los SNPs. Este hecho, nos indicaba que seguramente la arbitrariedad de la fusión edulcoro los datos reales del set. 41 E - Discusión de Resultados En general, todo los procesos de cálculo, que realizan los scripts, fueron bastante rápidos, pudiendo obtener todas las visualizaciones en menos de 11 horas. Las partes que consumieron más tiempo fueron en las que intervenían los muestreos con reemplazo. Cuando se pula mas este prototipo, se puede introducir paralelización en estos procesos lo que disminuiría el tiempo total de computación. Otro de los puntos interesantes, es la elección de la puntuación de CADD [20] para medir el factor de impacto (FI). A pesar de que lo habitual es realizar la media de varias anotaciones (SIFT; PolyPhen, MutationAdvisor), el ajustar los valores para que sean sumables, es cuanto menos, difícil y muy interpretable. En cambio CADD nos ofrece un valor que agrupa varias características; pero hay que tener en cuenta, que CADD, es un medidor del efecto deletéreo del cambio, de modo que el FI que ofrece no tiene por qué estar relacionado con la enfermedad. A pesar que se analizaron como una sola población los diferentes tipos de cáncer de mama del set, en las visualizaciones sus datos son de nuevo desglosados permitiendo observar las características propias de cada tipo (Figuras 12, 17 y 18). Proceso de Análisis de los datos Uno de los puntos más fuertes de este análisis se encuentra en la selección de Gene Drivers. Como se ha comentado antes, la mayoría de las investigaciones se basan en una sola característica o dimensión lo que puede provocar sesgos. Esto queda de manifiesto en nuestro proyecto, debido a que, como podemos ver en la Figura 14, si seleccionamos los genes por FI y FM, observamos que los elegidos no presentan una expresión diferencial entre casos y controles. En cambio si elegimos los que se encuentran sobreexpresados en casos, solo 2 de ellos comparten un FI o FM significativo. Esto demuestra la existencia un problema grave en el análisis de datos de variantes y como nuestro programa, gracias a la integración de diferentes métricas, lo solventa. Otro de los puntos clave de nuestro proyecto se centra en la selección de SNPs. Al realizar filtrados de SNPs según desequilibrios de ligamiento (LD), nos quedamos con una pequeña parte del total (por ejemplo, usando el treshold de 0.2 solo nos quedamos con 12683 SNPs, una sexta parte del total). La duda que surge siempre es si esos SNPs, que van a ser usados para el test de asociación, son los más indicados o los más interesantes para la investigación que se está llevando a cabo. Nuestro proyecto, da una solución a esto, gracias relacionar todos los SNPs presentes en el set de datos con el gen al que pertenecen. Esto se traduce en 42 E - Discusión de Resultados que cuando se elige un SNP en el Manhattan Plot (Figura 17), en la visualización adyacente (Figura 17) se pueden ver todos los SNPs que se encuentran en el mismo gen, fueran discriminados o no en el análisis de LD. Esto, junto a la métrica de OR y la estructura del gen que acompaña la visualización, permite al usuario elegir el o los SNP/s que pueda/n ser más interesante/s para cada gen en su estudio, De esta manera, el usuario puede elegir el SNP que le parezca a el más interesante o importante, no perdiendo ninguna información al respecto. En el futuro, cuando este prototipo se desarrolle mas, esta solución se puede afinar, relacionando los SNPs en grupos, en los cuales se determina cual ha sido elegido como independiente y se identifican los considerados dependientes de este. De modo que al seleccionar un SNP según el resultado del test de asociación, te muestre todos los que están en desequilibrio de ligamiento con él, no solo los asociados al mismo gen. Hemos encontrado un fallo en la visualización de la estructura de los genes en la figura 17. Los datos son de mRNA-seq de modo que todos los SNPs, deberían pertenecer a regiones exónicas. Como la anotación de las estructuras se realizo con RefSeq, esta no incluye todas las formas alternativas de transcrito de cada gen ni pseudogenes o aquellos genes que estan siendo estudiados en el momento. Además, también puede deberse al "ruido transcripciones", donde puede ocurrir un cierto nivel de transcripción basal aleatoria en diferentes genes o regiones, que no tienen por qué tener una relevancia biológica. Este prototipo inicial, está bastante optimizado para un determinado tipo de datos y para los que presenta el set usado en su desarrollo, sobretodo en la parte de clusterización y de expresión diferencial. Con más trabajo y refinamiento, esta herramienta se mejorara para facilitar el uso de datasets diferentes. Análisis del set de datos Para demostrar las ventajas del uso de una plataforma visual de exploración, probamos a analizar el set que hemos usado para su desarrollo. A pesar de que fue un estudio muy parcial, la selección de Gene Drivers fue muy interesante, porque conseguimos distinguir varios genes (Tabla 1) con una gran influencia en el cáncer de mama, además de ser comunes a todos los tipos de este cáncer. Estos genes, de haber usado solo un criterio de selección, como, por ejemplo, la expresión diferencial, no habrían sido escogidos. Esto pone de manifiesto la potencia y utilidad de nuestras visualizaciones y los acercamientos multidimensionales en los análisis de genes y SNPs. No solo 43 E - Discusión de Resultados eso, gracias al resto de informaciones que ofrece nuestro prototipo, como Odds Ratio, pathways, etc. Una vez elegidos los genes, podemos ver cuales pueden estar más relacionados con el cáncer, que pathways se encuentran afectados y como lo están; pudiendo desglosar esta información según el tipo de cáncer al que pertenecen. Todos estos datos, en manos de un investigador competente agilizan y permiten una interpretación exitosa. Resumiéndolo todo, nuestro prototipo no solo reproduce los resultados ya existentes, sino que, además, arroja datos nuevos, coherentes y fiables que permiten una mejor y más profunda interpretación de los datos de este set. 44 F - Conclusiones F - Conclusiones A la vista del trabajo realizado y los resultados obtenidos, podemos afirmar que: 1) Hemos cumplido todos los objetivos que nos habíamos propuesto. Desde una actualización de los procesos y pipelines que se usan para el análisis de hasta el desarrollo de la herramienta de análisis e integración. 2) Hemos desarrollado una herramienta intuitiva, gracias a las representaciones graficas, que permite al usuario, sin necesidad de tener grandes conocimientos de estadística, controlar el análisis paso a paso. 3) Hemos conseguido integrar con éxito datos de diferentes fuentes, consiguiendo obtener resultados que superan con creces a la mera suma de las informaciones, que individualmente, arrojan. 4) Demostramos que un análisis multidimensional de los datos es mucho más coherente y menos sesgado que los análisis unidimensionales basados en una sola característica. 5) Conseguimos reproducir los resultados de otros trabajos con el mismo set de datos, añadiendo nuevas informaciones y aproximaciones. Como apunte final, hay que decir que esta herramienta solo es un prototipo, el cual será refinado y automatizado para permitir su uso repetido con diferentes tipos de datos. Este trabajo es un ejemplo perfecto de prototipo que podría desarrollarse más adelante como un producto comercial en Integromics. 45 G - Bibliografía G - Bibliografía 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. Ansorge, W.J., Next-generation DNA sequencing techniques. N Biotechnol, 2009. 25(4): p. 195-203. Lander, E.S., Initial impact of the sequencing of the human genome. Nature, 2011. 470(7333): p. 187-97. Hancock-Hanser, B.L., et al., Targeted multiplex next-generation sequencing: advances in techniques of mitochondrial and nuclear DNA sequencing for population genomics. Mol Ecol Resour, 2013. 13(2): p. 254-68. Chu, Y. and D.R. Corey, RNA sequencing: platform selection, experimental design, and data interpretation. Nucleic Acid Ther, 2012. 22(4): p. 271-4. Manolio, T.A., Genomewide association studies and assessment of the risk of disease. N Engl J Med, 2010. 363(2): p. 166-76. Frayling, T., Genome-wide association studies: the good, the bad and the ugly. Clin Med, 2014. 14(4): p. 428-31. Kundu, S., et al., Estimating the predictive ability of genetic risk models in simulated data based on published results from genome-wide association studies. Front Genet, 2014. 5: p. 179. Moutsianas, L. and A.P. Morris, Methodology for the analysis of rare genetic variation in genome-wide association and re-sequencing studies of complex human traits. Brief Funct Genomics, 2014. Bashiardes, S., et al., Direct genomic selection. Nat Methods, 2005. 2(1): p. 639. Choi, M., et al., Genetic diagnosis by whole exome capture and massively parallel DNA sequencing. Proc Natl Acad Sci U S A, 2009. 106(45): p. 19096101. Ziller, M.J., et al., Charting a dynamic DNA methylation landscape of the human genome. Nature, 2013. 500(7463): p. 477-81. Stankiewicz, P. and J.R. Lupski, Structural variation in the human genome and its role in disease. Annu Rev Med, 2010. 61: p. 437-55. Pinto, D., et al., Functional impact of global rare copy number variation in autism spectrum disorders. Nature, 2010. 466(7304): p. 368-72. Rapaport, F., et al., Comprehensive evaluation of differential gene expression analysis methods for RNA-seq data. Genome Biol, 2013. 14(9): p. R95. Pearson, T.A. and T.A. Manolio, How to interpret a genome-wide association study. JAMA, 2008. 299(11): p. 1335-44. Kwon, S.M., et al., Perspectives of integrative cancer genomics in next generation sequencing era. Genomics Inform, 2012. 10(2): p. 69-73. Hawkins, R.D., G.C. Hon, and B. Ren, Next-generation genomics: an integrative approach. Nat Rev Genet, 2010. 11(7): p. 476-86. Bamford, S., et al., The COSMIC (Catalogue of Somatic Mutations in Cancer) database and website. Br J Cancer, 2004. 91(2): p. 355-8. Croft, D., et al., Reactome: a database of reactions, pathways and biological processes. Nucleic Acids Res, 2011. 39(Database issue): p. D691-7. Kircher, M., et al., A general framework for estimating the relative pathogenicity of human genetic variants. Nat Genet, 2014. 46(3): p. 310-5. Selinski, S., Urinary bladder cancer risk variants: recent findings and new challenges of GWAS and confirmatory studies. Arch Toxicol, 2014. 88(7): p. 1469-75. 46 G - Bibliografía 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40. 41. Lewis, A. and I. Tomlinson, Cancer. The utility of mouse models in post-GWAS research. Science, 2012. 338(6112): p. 1301-2. Bensen, J.T., et al., Genetic polymorphism and prostate cancer aggressiveness: a case-only study of 1,536 GWAS and candidate SNPs in African-Americans and European-Americans. Prostate, 2013. 73(1): p. 11-22. Dai, J., et al., GWAS-identified colorectal cancer susceptibility loci associated with clinical outcomes. Carcinogenesis, 2012. 33(7): p. 1327-31. Kristensen, V.N. and A.L. Borresen-Dale, SNPs associated with molecular subtypes of breast cancer: on the usefulness of stratified Genome-wide Association Studies (GWAS) in the identification of novel susceptibility loci. Mol Oncol, 2008. 2(1): p. 12-5. McKenna, A., et al., The Genome Analysis Toolkit: a MapReduce framework for analyzing next-generation DNA sequencing data. Genome Res, 2010. 20(9): p. 1297-303. Zhu, P., et al., OTG-snpcaller: an optimized pipeline based on TMAP and GATK for SNP calling from ion torrent data. PLoS One, 2014. 9(5): p. e97507. Renteria, M.E., A. Cortes, and S.E. Medland, Using PLINK for Genome-Wide Association Studies (GWAS) and data analysis. Methods Mol Biol, 2013. 1019: p. 193-213. Purcell, S., et al., PLINK: a tool set for whole-genome association and population-based linkage analyses. Am J Hum Genet, 2007. 81(3): p. 559-75. Xing, E.P., et al., GWAS in a box: statistical and visual analytics of structured associations via GenAMap. PLoS One, 2014. 9(6): p. e97524. Gorenstein, J., et al., Reducing the multidimensionality of high-content screening into versatile powerful descriptors. Biotechniques, 2010. 49(3): p. 663-5. Kaushal, D. and C.W. Naeve, Analyzing and visualizing expression data with Spotfire. Curr Protoc Bioinformatics, 2004. Chapter 7: p. Unit 7 9. Kaushal, D. and C.W. Naeve, An overview of Spotfire for gene-expression studies. Curr Protoc Hum Genet, 2005. Chapter 11: p. Unit 11 9. Danecek, P., et al., The variant call format and VCFtools. Bioinformatics, 2011. 27(15): p. 2156-8. Zheng, X., et al., A high-performance computing toolset for relatedness and principal component analysis of SNP data. Bioinformatics, 2012. 28(24): p. 3326-8. Pruitt KD, et al., RefSeq: an update on mammalian reference sequences. Nucleic Acids Res, 2014. 1(42): p. 756-763. Eswaran, J., et al., Transcriptomic landscape of breast cancers through mRNA sequencing. Sci Rep, 2012. 2: p. 264. Eswaran, J., et al., RNA sequencing of cancer reveals novel splicing alterations. Sci Rep, 2013. 3: p. 1689. Horvath, A., et al., Novel insights into breast cancer genetic variance through RNA sequencing. Sci Rep, 2013. 3: p. 2256. Barrdahl, M., et al., Post-GWAS gene-environment interplay in breast cancer: results from the Breast and Prostate Cancer Cohort Consortium and a metaanalysis on 79 000 women. Hum Mol Genet, 2014. Shigemizu, D., et al., The construction of risk prediction models using GWAS data and its application to a type 2 diabetes prospective cohort. PLoS One, 2014. 9(3): p. e92549. 47 G - Bibliografía 42. 43. 44. 45. 46. 47. 48. 49. 50. 51. 52. 53. 54. 55. 56. 57. 58. He, Q., et al., Genome-wide prediction of cancer driver genes based on SNP and cancer SNV data. Am J Cancer Res, 2014. 4(4): p. 394-410. Okolicsanyi, R.K., et al., Association of the SNP rs2623047 in the HSPG modification enzyme SULF1 with an Australian Caucasian breast cancer cohort. Gene, 2014. 547(1): p. 50-4. Straume, A.H., S. Knappskog, and P.E. Lonning, Effects of SNP variants in the 17beta-HSD2 and 17beta-HSD7 genes and 17beta-HSD7 copy number on gene transcript and estradiol levels in breast cancer tissue. J Steroid Biochem Mol Biol, 2014. 143: p. 192-8. Horne, B.D. and N.J. Camp, Principal component analysis for selection of optimal SNP-sets that capture intragenic genetic variation. Genet Epidemiol, 2004. 26(1): p. 11-21. Liu, X., et al., Inferring population mutation rate and sequencing error rate using the SNP frequency spectrum in a sample of DNA sequences. Mol Biol Evol, 2009. 26(7): p. 1479-90. Tamborero, D., et al., Comprehensive identification of mutational cancer driver genes across 12 tumor types. Sci Rep, 2013. 3: p. 2650. Evans, P., et al., Adjusting for background mutation frequency biases improves the identification of cancer driver genes. IEEE Trans Nanobioscience, 2013. 12(3): p. 150-7. Ahmed, F.E., Colon cancer: prevalence, screening, gene expression and mutation, and risk factors and assessment. J Environ Sci Health C Environ Carcinog Ecotoxicol Rev, 2003. 21(2): p. 65-131. Gonzalez-Perez, A. and N. Lopez-Bigas, Functional impact bias reveals cancer drivers. Nucleic Acids Res, 2012. 40(21): p. e169. Simon, S.D., Understanding the odds ratio and the relative risk. J Androl, 2001. 22(4): p. 533-6. Hoesley, C., R.M. Centor, and G.R. Heudebert, Use of statistics and scientific inference: odds ratios, likelihood ratio, and receiving operating characteristic curves. J Infect Dis, 1998. 178(3): p. 921-3. Yang, C.H., et al., Single nucleotide polymorphism barcoding to evaluate oral cancer risk using odds ratio-based genetic algorithms. Kaohsiung J Med Sci, 2012. 28(7): p. 362-8. Lai, H.W., et al., Incidence and odds ratio of appendicitis as first manifestation of colon cancer: a retrospective analysis of 1873 patients. J Gastroenterol Hepatol, 2006. 21(11): p. 1693-6. Vernick, L.J. and L.H. Kuller, A case-control study of cholecystectomy and right-side colon cancer: the influence of alternative data sources and differential interview participation proportions on odds ratio estimates. Am J Epidemiol, 1982. 116(1): p. 86-101. Diboun, I., et al., Microarray analysis after RNA amplification can detect pronounced differences in gene expression using limma. BMC Genomics, 2006. 7: p. 252. Santpere, G., et al., Genome-wide analysis of wild-type Epstein-Barr virus genomes derived from healthy individuals of the 1,000 Genomes Project. Genome Biol Evol, 2014. 6(4): p. 846-60. Wise, J., Consortium hopes to sequence genome of 1000 volunteers. BMJ, 2008. 336(7638): p. 237. 48 G - Bibliografía 59. 60. 61. 62. 63. 64. 65. 66. 67. 68. Overbeek, R., et al., The subsystems approach to genome annotation and its use in the project to annotate 1000 genomes. Nucleic Acids Res, 2005. 33(17): p. 5691-702. Ball, M.P., et al., Harvard Personal Genome Project: lessons from participatory public research. Genome Med, 2014. 6(2): p. 10. Jones, B., Genomics: personal genome project. Nat Rev Genet, 2012. 13(9): p. 599. Birney, E., et al., Identification and analysis of functional elements in 1% of the human genome by the ENCODE pilot project. Nature, 2007. 447(7146): p. 799816. Barrett, T., et al., NCBI GEO: archive for functional genomics data sets--update. Nucleic Acids Res, 2013. 41(Database issue): p. D991-5. Barrett, T., et al., NCBI GEO: mining tens of millions of expression profiles-database and tools update. Nucleic Acids Res, 2007. 35(Database issue): p. D760-5. Barrett, T., et al., NCBI GEO: mining millions of expression profiles--database and tools. Nucleic Acids Res, 2005. 33(Database issue): p. D562-6. Akbani, R., et al., A pan-cancer proteomic perspective on The Cancer Genome Atlas. Nat Commun, 2014. 5: p. 3887. Ma, C.X. and M.J. Ellis, The Cancer Genome Atlas: clinical applications for breast cancer. Oncology (Williston Park), 2013. 27(12): p. 1263-9, 1274-9. McCain, J., The cancer genome atlas: new weapon in old war? Biotechnol Healthc, 2006. 3(2): p. 46-51B. 49