Download Análisis de Datos de Microarrays de Expresión
Document related concepts
Transcript
Análisis de Datos de Microarrays de Expresión Ejemplo para un set de 3 muestras CONTROLES normales frente a 3 muestras ALTERADAS 3 CO vs 3 ALT 1. Cálculo de la señal de expresión de cada muestra con corrección de background y normalización robusta. 2. Cálculo de la expresión diferencial significativa para múltiples réplicas biológicas en 2 estados: control y alterado. PERSONA DE CONTACTO: Dr. José García García e-mail: josegarcia@univX.es ENTIDAD: Centro de Investigación … FICHEROS DE DATOS CRUDOS Control1.CEL DE LOS MICROARRAYS: Control2.CEL Control3.CEL Alterado1.CEL Alterado2.CEL Alterado3.CEL TIPO DE ANÁLISIS: Señal y Expresión Diferencial FECHA: XX.Mar.07 Análisis de datos de microarrays de expresión 2/9 1. Cálculo de la señal de expresión de cada muestra con corrección de background y normalización robusta. 1.1. Introducción a la técnica de microarrays. Los microarrays de expresión de alta densidad de oligonucleótidos miden la señal de expresión a nivel genómico-transcriptómico de miles de genes expresados en una muestra dada. Para ello son dispositivos capaces de medir a la vez la cantidad de mRNA correspondiente a miles de genes presentes en la muestra analizada utilizando la técnica de hibridación específica RNA-DNA (técnica equivalente a los northern blot de biología molecular). A continuación explicamos brevemente la arquitectura de los microarrays de genoma completo de Affymetrix de última generación (por ejemplo GeneChip U133 plus2 para genoma humano) que son los utilizados en todo este estudio-informe. Como se ha dicho, son microarrays de oligonucleótidos de alta densidad que incluyen entre 40 y 60.000 conjuntos de sondas de oligonucleótidos (llamados probesets) con secuencias de todo el transcriptoma de la especie estudiada, representando para humano unos 25.000 genes. Cada conjunto de sondas (probeset) es una serie de 11-16 oligos distintos que corresponden a distintas regiones codificantes del gen que representan. A su vez, cada sonda es un oligo (de 25 nucleótidos, 25mer) del que hay miles de copias en cada microcelda del microarray, que en conjunto tiene miles de microceldas, una por cada tipo de oligo. Figura 1. En la figura se muestra un microarray de Affymetrix, un dibujo con las microceldas con los oligos de 25 nucleótidos mostrando las miles de copias incluidas en cada celda, y un esquema de los conjuntos de sondas (probesets) que corresponden a un gen dado. Los probesets están distribuidas de manera aleatoria en micro-celdas y debajo de cada celda con el oligo original (llamado Perfect Match, PM), hay otra celda con un oligo mutado en el nucleótido 13 central (llamado Mis Match, MM) que se puede usar para medir la hibridación inespecífica. Miles de fragmentos de cRNA marcados, obtenidos como copias del mRNA total extraído de las muestras analizadas se hibrídan sobre las sondas oligos del microarray. La medida en un solo microarray de todas las sondas hibridadas permite Unidad de Bioinformática - Centro de Investigación del Cáncer (CIC-IMBCC, CSIC/USAL) Análisis de datos de microarrays de expresión 3/9 cuantificar la expresión de miles de genes simultáneamente. Esta cuantificación debe ser proporcional a la cantidad de mRNA transcrito de cada gen, es decir, proporcional a su nivel de expresión en la muestra analizada. Para incrementar esta complejidad sucede que algunos locus génicos son grandes y pueden tener varios tipos de transcritos y por ello Affymetrix suele representarlos con varios conjuntos de sondas distintos (distintos probesets para un mismo gen). Finalmente, para obtener datos fiables es necesario hacer varias replicas biológicas de cada muestra, lo cual de nuevo supone un aumento importante del número de datos por experimento. El manejo, tratamiento y análisis de los miles de datos de expresión génica derivados de microarrays de alta densidad no es trivial y sólo se puede abordar computacionalmente siguiendo criterios robustos y sistemáticos que tengan significación y sentido tanto matemático-estadístico como biológico-funcional. 1.2. Controles de calidad y cálculo de señal. 1.2.1. Control de la imagen global de datos de cada microarray Microarray CO1.CEL CO2.CEL CO3.CEL ALT1.CEL ALT2.CEL ALT3.CEL Control 9 9 9 9 9 9 Antes de realizar ningún análisis se estudian las imágenes de expresión de cada uno de los microarrays a partir de los datos crudos obtenidos del scanner, para ver si los microarrays han funcionado bien de modo global. Se realiza una exploración visual de cada imagen para detectar si hay algún posible defecto observable como manchas o zonas de hibridación desigual. En la tabla superior se indica si se encontró algún defecto en alguno de los microarrays. 1.2.2. Cálculo de señal por probeset (gen) y por microarray (muestra) control de las distribuciones de datos. A continuación se hace el cálculo de la señal de expresión por probeset de cada uno de los microarrays de modo global multi-muestra con el algoritmo RMA (Robust Microarray Analysis) [1-3] que incluye 3 pasos: (i) corrección de background, (ii) normalización por cuantiles y (iii) calculo sumarizado de la señal por probeset utilizando una mediana pulida. Los resultados de este algoritmo dan lugar a valores de expresión absolutos en escala logarítmica (log2) que oscilan aproximadamente entre 2 para las intensidades menores y 14 para las intensidades mayores. Unidad de Bioinformática - Centro de Investigación del Cáncer (CIC-IMBCC, CSIC/USAL) Análisis de datos de microarrays de expresión 4/9 La figura 2 incluye las curvas de densidad o frecuencia de expresión (eje Y) frente a la intensidad de señal (eje X). En la grafica se comparan los microarrays de muestras controles (en azul) con los microarrays de muestras alteradas (en rojo). Las distribuciones son bastante parecidas indicando la eficacia de la normalización realizada. En general, los microarrays muestran una gran cantidad de probesets con valores de expresión bajos y menos datos en la mitad derecha. Esto refleja el hecho de que la mayoría de los genes para una muestra dada no están expresados. Por otro lado, es muy importante darse cuenta que la señal de expresión dada por los microarrays de Affymetrix es expresión absoluta y no relativa. No es un “ratio” como dan los microarrays de cDNA de dos colores, sino una señal absoluta que cuantifica la cantidad de mRNA presente en cada muestra. Finalmente, también hay que dejar claro que, por las características de los microarrays de Affymetrix, en todos los análisis se identifica gen con probeset, sabiendo que bastantes genes, sobre todo en humano, tienen más de un probeset. Por el momento, casi todos los algoritmos de análisis de expresión a partir de datos de microarrays de Affymetrix asumen esta pseudo-identificación gen=probeset, aunque biológicamente la entidad que deberíamos considerar sería gen expresado. Figura 2. Distribuciones de la señal de expresión en los microarrays controles (en azul) y los microarrays alterados (en rojo). Unidad de Bioinformática - Centro de Investigación del Cáncer (CIC-IMBCC, CSIC/USAL) Análisis de datos de microarrays de expresión 5/9 A continuación, también como control de la señal de expresión, se presenta un resumen de los valores de expresión que caracterizan las distribuciones de cada microarray. Cada columna en las tablas adjuntas corresponde a un microarray e incluye el valor mínimo y el máximo de su distribución, así como los valores de centralidad: mediana, media, primer cuartil (25%) y tercer cuartil (75%). Con estos valores numéricos nos hacemos una buena idea de los márgenes de cambio de la distribución de datos de expresión dentro de cada microarray. Valor Mínimo CO1.CEL CO2.CEL CO3.CEL 2.235 2.235 2.235 er 1 . cuartil 3.300 3.300 3.300 Mediana 4.153 4.153 4.153 Media 4.567 4.567 4.567 3er. cuartil 5.448 5.448 5.448 Valor máximo 13.579 13.579 13.579 ALT1.CEL ALT2.CEL ALT3.CEL Valor Mínimo 2.235 2.235 2.235 1er. cuartil 3.300 3.300 3.300 Mediana 4.153 4.153 4.153 Media 4.567 4.567 4.567 3er. cuartil 5.448 5.448 5.448 Valor máximo 13.579 13.579 13.579 2. Cálculo de la expresión diferencial significativa para múltiples réplicas biológicas en 2 estados: control y alterado. 2.1. Visualización del contraste crudo entre muestras control y alterado. Tras el cálculo de la señal para cada probeset en cada microarray procedemos a realizar la búsqueda e identificación de genes que tienen una expresión diferencial significativa entre los microarrays de los 2 estados estudiados: control versus alterado. Este cálculo se va a realizar con el algoritmo SAM (Significance Analysis of Microarrays) [4] que es un test de contraste diferencial tipo t-test modificado, que incluye discriminación de los p-valores mediante permutaciones y que además tiene ajuste de los p-valores para tests múltiples utilizando el cálculo de FDR (False Discovery Rate) [5] para una correcta estimación de la significación estadística de los contrastes. Unidad de Bioinformática - Centro de Investigación del Cáncer (CIC-IMBCC, CSIC/USAL) Análisis de datos de microarrays de expresión 6/9 Antes de aplicar el algoritmo SAM, realizamos una visualización de la variabilidad de los datos mediante la representación llamada MvA plot que permite hacer una comparación de las señales de varios microarrays mostrando como se comporta entre microarrays la relación o ratio de cambio (fold change) a lo largo del rango de intensidades (intensity range) en escala logaritmica (log2). La figura 3 presenta dicho MvA plot e incluye tres comparaciones: (i) en rojo los puntos que resultan de comparar el promedio de los microarrays controles frente al promedio de los microarrays alterados (es decir, presenta la variabilidad entre controles y alterados); (ii) en negro los puntos que resultan de comparar unos microarrays controles frente a otros controles (es decir, presenta la variabilidad biológica de las muestras control); (iii) en azul los puntos correspondientes a la comparación de un microarray control contra si mismo (es decir, indica el rango de amplitud de intensidad sin cambio en ratio o fold). La gráfica ayuda a saber el grado de diferencia que hay entre las muestras alteradas y control, ya que hemos de esperar que los gene-probesets que estén diferencialmente sobreexpresados o reprimidos caigan en la zona de los puntos rojos. Figura 3. MvA plot que representa la relación de cambio (FOLD.change) a lo largo de todo el rango de intensidades (INTENSITY.range, en escala log2) para todas las señales de expresión de varios microarrays comparados. 2.2. Cálculo de los genes de expresión diferencial. Como se ha indicado, calculamos expresión diferencial significativa entre los microarrays de los dos estados estudiados (control versus alterado) utilizando el algoritmo SAM. Este algoritmo permite obtener un determinado número de genes significativos para un determinado umbral de FDR (False Discovery Rate) que indica el número máximo estimado de falsos positivos que admitimos en la lista de genes estadísticamente significativos. El FDR se corta usando el valor delta (∆ ó d(i)) del algoritmo. Cada delta se corresponde con un determinado FDR y con un determinado número de genes significativos, como se muestra en las graficas de la figura 4 y en la tabla adjunta debajo. Unidad de Bioinformática - Centro de Investigación del Cáncer (CIC-IMBCC, CSIC/USAL) Análisis de datos de microarrays de expresión 7/9 Figura 4. Gráficas que muestran la correlación entre el valor de delta (∆) y el FDR o entre el delta (∆) y el número de genes significativos. Estas graficas ayudan a elegir el punto de corte adecuado.. Delta ∆ ó d(i) Nº Falsos Nº Llamados FDR 0.1 9737.85 12663 0.769 1.5 58.65 488 0.120 2.2 20.09 203 0.099 2.9 9.94 108 0.092 4.2 3.78 43 0.088 5.6 2.20 25 0.083 7.0 0.75 9 0.072 En el caso estudiado para los microarrays de los 2 estados (control versus alterado) seleccionamos un delta de 2.2 que da 203 genes significativos con un FDR = 0.099, que corresponde a admitir aproximadamente un 10% de falsos positivos. Esta selección es buena ya que nos proporciona a la vez un número de genes suficientes para un posible estudio y caracterización biológico-funcional posterior y también para la posible validación experimental de lo encontrado. En la figura 5 se muestran los 203 genes que han sido seleccionados con el delta de 2.2 en un grafico que evalúa las permutaciones del algoritmo SAM y coloca en la diagonal de observados frente a esperados los genes que no varían (en Unidad de Bioinformática - Centro de Investigación del Cáncer (CIC-IMBCC, CSIC/USAL) Análisis de datos de microarrays de expresión 8/9 negro) y separados de la diagonal los genes que si varían entre los 2 estados contrastados (en verde): por arriba los sobreexpresados y por debajo los reprimidos. La lista completa de los genes significativos se proporciona en un archivo adjunto (en formato EXCEL, .xls) que incluye los identificadores de cada gen y sus parámetros de significación: p-value, q-value equivalente al p-value con corrección para test múltiple por FDR y R-fold. Además, el archivo incluye los nombres y descripción de cada gen. En la lista se diferencian dos grupos de genes: los genes que se sobreexpresan (en ROJO) y los que se reprimen (en VERDE) respecto a los controles. A modo ilustrativo se presenta debajo una tabla que corresponde a la cabecera del archivo de genes con los 20 primeros genes más significativos ordenados por p-valor. En la tabla completa la significación de cada gen es dada por este p-valor, y toda la lista esta ordenada de menor (más significativo) a mayor (menos significativo). Este orden puede ayudar luego a seleccionar genes concretos y a evaluar el significado biológico combinado con el significado estadístico. An‡lisis de Expresion Diferencial: 3 ma CONTROLES vs 3 ma ALTERADOS n¼ probeset ID d.value p.value q.value R.fold Genename 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 1419703_at 1448254_at 1426851_a_at 1422688_a_at 1422912_at 1454060_a_at 1417063_at 1421267_a_at 1448891_at 1448823_at 1434089_at 1421365_at 1417381_at 1454838_s_at 1448748_at 1452141_a_at 1449578_at 1426852_x_at 1418835_at 1418296_at -18.2295639 12.9655857 12.7774303 -12.3438645 12.2766874 -11.9724743 11.8966285 -11.7688394 11.3284739 10.8150183 10.6655765 10.6379121 10.5320282 10.4644643 10.3930057 9.86485248 -9.79480231 9.7223807 -9.71442924 -9.62159968 4.41E-06 8.81E-06 1.32E-05 1.76E-05 2.20E-05 2.64E-05 3.09E-05 3.53E-05 3.97E-05 4.41E-05 4.85E-05 5.29E-05 5.73E-05 6.17E-05 6.61E-05 7.05E-05 7.49E-05 7.93E-05 8.37E-05 8.81E-05 0.09033542 0.09033542 0.09033542 0.09033542 0.09033542 0.09033542 0.09033542 0.09033542 0.09033542 0.09033542 0.09033542 0.09033542 0.09033542 0.09033542 0.09033542 0.09033542 0.09033542 0.09033542 0.09033542 0.09033542 0.22826857 2.84497614 5.48164708 0.16689154 3.26053935 0.21333524 4.68701788 0.3704521 3.98733953 3.44856521 3.51262111 2.37526784 4.40438653 3.26440072 2.00674027 7.06236083 0.18625183 6.29421727 0.43397714 0.53331852 Col5a3 Ptn Nov Nras Bmp4 Nras C1qb Cited2 Msr2 Cxcl12 Synpo Fst C1qa AW548124 Plek Sepp1 Supt16h Nov Phlda1 Fxyd5 203 gene-probesets con FDR = 0.10 (10% falsos positivos) Description procollagen, type V, alpha 3 pleiotrophin nephroblastoma overexpressed gene neuroblastoma ras oncogene bone morphogenetic protein 4 neuroblastoma ras oncogene complement component 1, q subcomponent, beta polypeptide Cbp/p300-interacting transactivator, with Glu/Asp-rich carboxy-terminal domain, macrophage scavenger receptor 2 chemokine (C-X-C motif) ligand 12 synaptopodin follistatin complement component 1, q subcomponent, alpha polypeptide expressed sequence AW548124 pleckstrin selenoprotein P, plasma, 1 suppressor of Ty 16 homolog (S. cerevisiae) nephroblastoma overexpressed gene pleckstrin homology-like domain, family A, member 1 FXYD domain-containing ion transport regulator 5 Unidad de Bioinformática - Centro de Investigación del Cáncer (CIC-IMBCC, CSIC/USAL) Análisis de datos de microarrays de expresión 9/9 APÉNDICE I Bibliografía sobre los métodos usados [1] Irizarry, R.A., et al. (2003). Summaries of Affymetrix GeneChip probe level data. Nucleic Acids Res. 31(4): p. e15. [2] Bolstad, B.M., et al. (2003). A comparison of normalization methods for high density oligonucleotide array data based on variance and bias. Bioinformatics. 19(2): p. 185-93. [3] Irizarry, R.A., et al. (2003). Exploration, normalization, and summaries of high density oligonucleotide array probe level data. Biostatistics. 4(2): p. 249-64. [4] Tusher, V.G., R. Tibshirani, and G. Chu (2001). Significance analysis of microarrays applied to the ionizing radiation response. Proc. Natl. Acad. Sci. USA. 98(9): p. 5116-21. [5] Benjamini, Y. and Y. Hochberg (1995). Controlling the False Discovery Rate: A Practical and Powerful Approach to Multiple Testing. J Roy Stat. Soc. (Ser B) 57: p. 289-300. APÉNDICE II Posibles análisis posteriores: análisis funcional La lista de genes con expresión diferencial significativa proporcionada debe servir de base sólida para un posterior estudio biológico-funcional de los genes que se han obtenido. El análisis funcional no entra dentro del servicio proporcionado en este informe, pero para ayudar al mismo hemos desarrollado en la Unidad de Bioinformática del CIC (http://ubioinfo.cicancer.org) una página web con información sobre enlaces útiles a diferentes herramientas bioinformáticas que pueden facilitar dicho análisis biológico-funcional. Unidad de Bioinformática - Centro de Investigación del Cáncer (CIC-IMBCC, CSIC/USAL)