Download X CONGRESO LATINOAMERICANO DE SOCIEDADES DE
Document related concepts
Transcript
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 ESTIMACIÓN DE TRANSFORMACIONES ESTABILIZADORAS DE VARIANZAS, CON APLICACIONES A DATOS DE MICROARREGLOS SUSANA RUIZ1 y DIANA KELMANSKY2 1 Facultad de CEFyN de la UNSJ sbruizr@gmail.com 2 Instituto de Cálculo de la UBA dkelmansky@gmail.com RESUMEN En el presente trabajo se describen y comparan alternativas de estimación de transformaciones para estabilizar varianzas con aplicación a datos de experimentos de microarreglos. Las diferentes propuestas basadas en relaciones de media varianza parametrizadas utilizan estimaciones por Mínimos Cuadrados, Mínimos Cuadrados Truncados y Máxima Verosimilitud. Todas las propuestas se implementan en R y son posteriormente comparadas mediante un estudio intensivo de Monte Carlo. Se generan datos con una distribución de medias similar a la de un conjunto de datos reales provenientes de un experimento de microarreglos. Además satisfacen un modelo con parámetros conocidos con una relación media varianza cuadrática y también en varios escenarios de alejamiento de dicha estructura media varianza inicial. Mediante las modificaciones propuestas se logra mejorar las estimaciones de transformaciones estabilizadoras de varianzas de Simon M. Lin et al. (2008) en casos donde la presencia de datos contaminados rompen con la estructura de la relación media varianza considerada, como también en casos donde la estructura de la relación es mucho más general que la planteada inicialmente. PALABRAS CLAVE: microarreglos - estabilización de varianzas - relación media varianza. X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 1. INTRODUCCIÓN En muchos tipos de experimentos los datos muestran una relación entre media y varianza, tal es el caso para datos de experimentos de microarreglos, donde para mayores intensidades se observan mayores variaciones cuando se mide repetidamente. La estabilización de varianza para datos de experimentos de microarreglos es un paso correspondiente al pre-procesamiento de datos, de mucha importancia cuando se quiere aplicar métodos clásicos para hacer comparaciones como por ejemplo un ANAVA. En este contexto también es de interés tener presente la posible presencia de datos contaminados que pueden afectar enormemente las estimaciones. Una salida al problema mencionado de heteroscedasticidad es transformar los datos de manera tal que los datos transformados muestren varianza constante o al menos en forma aproximada. Varias transformaciones se han propuesto para estabilizar varianzas para datos de experimentos de microarreglos. La preferida por los Biólogos es la transformación logaritmo en base 2, debido a que es muy simple interpretar los valores transformados (Smyth et al. (2003)). Pero esta transformación ha sido duramente criticada por su comportamiento en los valores bajos ya que estabiliza varianza en valores altos pero infla varianzas en valores bajos y no están definidas para valores negativos (Durbin et al.(2002)). Otras transformaciones aplicadas son las correspondientes a la familia Box y Cox, que resultan muy inestables para valores cercanos al cero, y no están definidas para valores negativos (Huang,S. et al, (2004)). Como solución al problema anterior varios autores (Rocke y Durbin (2003)-Durbin et al.(2002)- Huber et al.(2002) han propuesto trabajar con la familia de transformaciones logaritmo generalizado, definidas para valores negativos, y que surge de considerar un modelo de error aditivo-multiplicativo. Esta familia de transformaciones también ha sido utilizada en el estudio de datos de concentraciones de análisis químicos. Varios métodos han sido propuestos para seleccionar un miembro de la familia de transformaciones logaritmo generalizado con el objetivo de estabilizar varianzas para datos de experimentos de microarreglos. Unos de éstos es el método VSN propuesto por Huber et al. (2003), para estabilizar varianzas sobre microarreglos con pocos replicados técnicos de sondas con afinidad a un mismo tipo de gen y con distribución en lugares fijos en cada microarreglo. Otro método es el método VST, propuesto por Simón Lin et al.(2008), para estabilizar varianzas sobre microarreglos con mayor número de replicados técnicos que los X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 convencionales. Este grupo de científicos, destacado por sus aportes en esta área, comparan el método VST bajo la implementación propuesta por Pan Du y Simón Lin (2008), en R, con los métodos VSN y la transformación log2, y concluyen en su trabajo que el método VST resulta ser más apropiado para estabilizar varianzas para datos de experimentos de microarreglos con las características de tener 30 o más réplicas técnicas de sondas con afinidad a un mismo tipo de gen y con distribución aleatoria sobre el soporte (Lin et al.(2008)). Por otro lado la transformación logaritmo generalizado ha sido criticada por Speed (2003), debido a su comportamiento en los valores altos. Speed comenta que esta transformación es muy severa en estos valores y cuando uno transforma los datos lo que hace es invertir la heteroscedasticidad. Como solución a este problema, más recientemente las Dras. Diana Kelmansky y Elena Martínez han propuesto que se trabaje con la familia de transformaciones de Potencia Generalizada, que contiene al Logaritmo Generalizado entre uno de sus miembros así como la familia Box y Cox contiene al logaritmo natural entre sus miembros (Kelmansky D.M. y Martinez E.J. (2010)) . El objetivo general de este trabajo es la de proponer y estudiar alternativas metodológicas que pudieran mejorar el método y la implementación propuestos por Simón Lin y colegas, en el año 2008, para estabilizar varianzas para datos de experimentos de microarreglos. 2. METODOLOGÍAS Los métodos que se emplean en este trabajo son: 2.1. Método VST: Simón Lin et al. (2008) proponen el método VST para estimar transformaciones que estabilicen varianzas en forma asintótica, dentro de la familia de transformaciones logaritmo generalizado. Los autores a partir de considerar un modelo de error aditivo multiplicativo para intensidades sobre microarreglos (Rocke y Durbin (2001), Huber et al. (2003)) muestran que la relación media-varianza responde a una relación cuadrática tal que a medida que la media de intensidades aumenta la varianza también; y proponen estimar la transformación estabilizadora de varianzas asintótica, que responde a la forma de una transformación logaritmo generalizado, modelando la relación media varianza (Lin S. et al. (2008)). Respecto a la implementación propuesta por Pan Du y Simon Lin (2008) en R se observa que utilizan tanto la media aritmética como ajustes lineales por mínimos cuadrados para estimar X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 los parámetros de la transformación. Teniendo en cuenta que tanto la media aritmética como los estimadores por mínimos cuadrados son muy sensibles a la presencia de datos contaminados, se modifican las propuestas de implementación del método VST, que tienen como base la implementación original dada en R. En estas nuevas propuestas se utilizan ajustes lineales por mínimos cuadrados truncados (LTS) con el propósito de obtener estimaciones más resistentes a la presencia de datos contaminados. 2.2. Método Resistente: El Método Resistente se basa en la aplicación del método de Máxima Verosimilitud, y postula como modelo adecuado a: , donde G es la transformación verdadera, que se asume dentro de la familia de potencia generalizada con parámetro P próximo a 0, k en la réplica i, es la intensidad asociada a sondas con afinidad al gen especifico es el nivel de expresión media en escala transformada para el gen k, y es el término de error, componente aleatoria que se sume con distribución normal, media 0 y varianza constante. Los parámetros a estimar son transformación que se asume verdadera, correspondientes a la para cada tipo de gen, y la varianza del término de error. Los estimadores por máxima verosimilitud son sensibles a desviaciones de normalidad y a la presencia de datos contaminados. Por lo que este método propone como estimadores de los niveles de expresión media para cada tipo de gen, y la varianza del término de error a los que se obtienen de maximizar la función de verosimilitud, considerando valores fijos, previa eliminación de datos extremos. Mientras que los estimadores de los parámetros de la transformación ( se obtienen al maximizar una expresión modificada de la log- verosimilitud, que resulta de reemplazar las expresiones de los estimadores de , para cada gen k, y la varianza del término de error, (hallados previamente), y sólo considerar aquellos datos correspondientes a los genes cuya suma de residuos al cuadrado sean más bajas. Este criterio está en intima relación con el criterio utilizado en ajustes lineales LTS para obtener estimaciones más resistentes a la presencia de datos contaminados. 3. RESULTADOS Para comparar las distintas propuestas metodológicas de estimación de transformaciones estabilizadoras de varianzas mencionadas en la sección anterior, en distintas situaciones, tanto para datos reales como simulados, con errores normales y normales contaminados, se X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 disponen de datos reales correspondientes a cuatro muestras bilógicas que contienen información sobre diluciones de sangre y placenta humana. Los datos son de Barnes y se pueden acceder a ellos desde internet o desde R bajando la librería “lumi”. Para las simulaciones, en términos generales, se generan datos de tal forma que posean una distribución de frecuencias y un rango de valores similares a los extraídos experimentalmente, la transformación adecuada sea conocida y dentro de la familia de potencia generalizada con parámetro P próximo a cero, y permitan evaluar las distintas propuestas metodológicas que se desean comparar. Respecto a los datos contaminados, estos se generan de tal forma que rompan con la estructura de relación media varianza , tanto para intensidades bajas como también para intensidades medias altas, en niveles de contaminación del 0, 5 y hasta un 10%. Específicamente los escenarios de simulación se corresponden con datos de microarreglos con la característica de tener 30 o más réplicas técnicas de sondas con afinidad a un mismo tipo de gen, con distribución aleatoria sobre el soporte; la cantidad de genes que se consideran en un microarreglo es de 1000 ó 8000 ( bajo selección aleatoria); la cantidad de microarreglos por simulación es uno; y el software sobre la cual se trabaja es R, ya que es libre, gratuito y la mayoría de los científicos la utilizan para realizar sus aportes en esta área. Luego de un estudio exhaustivo de Montecarlo, teniendo en cuenta los resultados de los Errores Cuadráticos Medios en la estimación de los parámetros de la transformación estabilizadora de varianzas adecuada, se concluye que se logra mejorar la implementación del método VST, cuando los datos responden a una estructura de relación media varianza cuadrática original y ésta se rompe ante la presencia de datos contaminados en niveles de contaminación del 5 y hasta un 10%. Por otro lado se propone una nueva alternativa metodológica para estimar transformaciones estabilizadoras de varianzas para datos de experimentos de microarreglos, el procedimiento es el que denominamos método Resistente. Esta nueva alternativa muestra resultados alentadores cuando se trabaja con datos cuya estructura de relación media varianza se aleja de la propuesta original; como también para datos contaminados en niveles de contaminación de hasta un 10%. 4. REFERENCIAS X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 DURBIN,B.P., HARDIN,J.S., HAWKINS,D.M. and ROCKE,D.M. (2002) “A variancestabilizing transformation for gene-expression microarray data”. Bioinformatics, 18(Suppl. 1), S105–S110. HUANG,S., YEO,A.A., GELBERT,L., LIN,X., NISENBAUM,L. and BEMIS,K.G. (2004) “At what scale should microarray data be analyzed?” Am. J. Pharmacogenomics, 4, 129– 139. HUBER W., HEYDEBRECK A., SUELTMANN H., POUSTKA A. and VINGRON M. (2003) “Parameter estimation for the calibration and variance stabilization of microarray data”. Statistical Applications in Genetics and Molecular Biology”. Volume 2, Inssue 1, Article 3. http:/www.bepress.com/sagmb/vol2/iss1/art3. HUBER,W., VON HEYDEBRECK,A., SULTMANN,H., POUSTKA,A. and VINGRON,M. (2002) “Variance stabilization applied to microarray data calibration and to the quantification of differential expression”. Bioinformatics, 18(Suppl. 1), S96–S104. KELMANSKY D. M., MARTINEZ E.J. (2010) “Generalized Power Transformations”. CLATSE IX –Viña del Mar –Chile-octubre 2010. LIN S.M., PAN DU, HUBER W. and WARREN A. K. (2008) “Model-based variancestabilizing transformation for Illumina microarray data”. Nucleic Acids Research, 2008, Vol. 36. No 2. ROCKE D. M. and DURBIN B.(2001). “A Model for Measurement Error for Gene Expression Arrays”. Journal of Computational Biology. Volume 8, Number 6, 2001. Mary Ann Liebert, Inc. Pp. 557-569. ROCKE D. M. and DURBIN B (2003) .-“Approximate variance-stabilizing transformations for gene-expression microarray data”. Bioinformatics, 19, 966972. SMYTH G.K., YANG Y.H, SPEED T. (2003). “Statistical issues in cDNA microarray data analysis”. Methods Mol Biol;224:111-36.