Download X CONGRESO LATINOAMERICANO DE SOCIEDADES DE

Document related concepts

Perfil de expresión génica wikipedia , lookup

Inferencia bayesiana en filogenia wikipedia , lookup

Transcript
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
ESTIMACIÓN DE TRANSFORMACIONES ESTABILIZADORAS DE
VARIANZAS, CON APLICACIONES A DATOS DE MICROARREGLOS
SUSANA RUIZ1 y DIANA KELMANSKY2
1 Facultad de CEFyN de la UNSJ sbruizr@gmail.com
2 Instituto de Cálculo de la UBA dkelmansky@gmail.com
RESUMEN
En el presente trabajo se describen y comparan alternativas de estimación de transformaciones
para estabilizar varianzas con aplicación a datos de experimentos de microarreglos. Las
diferentes propuestas basadas en relaciones de media varianza parametrizadas utilizan
estimaciones
por Mínimos Cuadrados, Mínimos Cuadrados Truncados y Máxima
Verosimilitud. Todas las propuestas se implementan en R y son posteriormente comparadas
mediante un estudio intensivo de Monte Carlo. Se generan datos con una distribución de
medias similar a la de un conjunto de datos reales provenientes de un experimento de
microarreglos. Además satisfacen un modelo con parámetros conocidos con una relación
media varianza cuadrática y también en varios escenarios de alejamiento de dicha estructura
media varianza inicial.
Mediante las modificaciones propuestas se logra mejorar las
estimaciones de transformaciones estabilizadoras de varianzas de Simon M. Lin et al. (2008)
en casos donde la presencia de datos contaminados rompen con la estructura de la relación
media varianza considerada, como también en casos donde la estructura de la relación es
mucho más general que la planteada inicialmente.
PALABRAS CLAVE: microarreglos - estabilización de varianzas - relación media varianza.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
1.
INTRODUCCIÓN
En muchos tipos de experimentos los datos muestran una relación entre media y varianza, tal
es el caso para datos de experimentos de microarreglos, donde para mayores intensidades se
observan mayores variaciones cuando se mide repetidamente. La estabilización de varianza
para datos de experimentos de microarreglos es un paso correspondiente al pre-procesamiento
de datos, de mucha importancia cuando se quiere aplicar métodos clásicos para hacer
comparaciones como por ejemplo un ANAVA. En este contexto también es de interés tener
presente la posible presencia de datos contaminados que pueden afectar enormemente las
estimaciones.
Una salida al problema mencionado de heteroscedasticidad es transformar los datos de
manera tal que los datos transformados muestren varianza constante o al menos en forma
aproximada.
Varias transformaciones se han propuesto para estabilizar varianzas para datos de
experimentos de microarreglos. La preferida por los Biólogos es la transformación logaritmo
en base 2, debido a que es muy simple interpretar los valores transformados (Smyth et al.
(2003)). Pero esta transformación ha sido duramente criticada por su comportamiento en los
valores bajos ya que estabiliza varianza en valores altos pero infla varianzas en valores bajos
y no están definidas para valores negativos (Durbin et al.(2002)). Otras transformaciones
aplicadas son las correspondientes a la familia Box y Cox, que resultan muy inestables para
valores cercanos al cero, y no están definidas para valores negativos (Huang,S. et al, (2004)).
Como solución al problema anterior varios autores (Rocke y Durbin (2003)-Durbin et
al.(2002)- Huber et al.(2002) han propuesto trabajar con la familia de transformaciones
logaritmo generalizado, definidas para valores negativos, y que surge de considerar un
modelo de error aditivo-multiplicativo. Esta familia de transformaciones también ha sido
utilizada en el estudio de datos de concentraciones de análisis químicos.
Varios métodos han sido propuestos para
seleccionar un miembro de la familia de
transformaciones logaritmo generalizado con el objetivo de estabilizar varianzas para datos de
experimentos de microarreglos. Unos de éstos es el método VSN propuesto por Huber et al.
(2003), para estabilizar varianzas sobre microarreglos con pocos replicados técnicos de
sondas con afinidad a un mismo tipo de gen y con distribución en lugares fijos en cada
microarreglo. Otro método es el método VST, propuesto por Simón Lin et al.(2008), para
estabilizar varianzas sobre microarreglos con mayor número de replicados técnicos que los
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
convencionales. Este grupo de científicos, destacado por sus aportes en esta área, comparan el
método VST bajo la implementación propuesta por Pan Du y Simón Lin (2008), en R, con los
métodos VSN y la transformación log2, y concluyen en su trabajo que el método VST resulta
ser más apropiado para estabilizar varianzas para datos de experimentos de microarreglos con
las características de tener 30 o más réplicas técnicas de sondas con afinidad a un mismo tipo
de gen y con distribución aleatoria sobre el soporte (Lin et al.(2008)).
Por otro lado la transformación logaritmo generalizado ha sido criticada por Speed (2003),
debido a su comportamiento en los valores altos. Speed comenta que esta transformación es
muy severa en estos valores y cuando uno transforma los datos lo que hace es invertir la
heteroscedasticidad. Como solución a este problema, más recientemente las Dras. Diana
Kelmansky y Elena Martínez han propuesto que se trabaje con la familia de transformaciones
de Potencia Generalizada, que contiene al Logaritmo Generalizado entre uno de sus miembros
así como la familia Box y Cox contiene al logaritmo natural entre sus miembros (Kelmansky
D.M. y Martinez E.J. (2010)) .
El objetivo general de este trabajo es la de proponer y estudiar alternativas metodológicas que
pudieran mejorar el método y la implementación propuestos por Simón Lin y colegas, en el
año 2008, para estabilizar varianzas para datos de experimentos de microarreglos.
2.
METODOLOGÍAS
Los métodos que se emplean en este trabajo son:
2.1. Método VST: Simón Lin et al. (2008) proponen el método VST
para estimar
transformaciones que estabilicen varianzas en forma asintótica, dentro de la familia de
transformaciones logaritmo generalizado. Los autores a partir de considerar un modelo de
error aditivo multiplicativo para intensidades sobre microarreglos (Rocke y Durbin (2001),
Huber et al. (2003)) muestran que la relación media-varianza responde a una relación
cuadrática tal que a medida que la media de intensidades aumenta la varianza también; y
proponen estimar la transformación estabilizadora de varianzas asintótica, que responde a la
forma de una transformación logaritmo generalizado, modelando la relación media varianza
(Lin S. et al. (2008)).
Respecto a la implementación propuesta por Pan Du y Simon Lin (2008) en R se observa que
utilizan tanto la media aritmética como ajustes lineales por mínimos cuadrados para estimar
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
los parámetros de la transformación. Teniendo en cuenta que tanto la media aritmética como
los estimadores por mínimos cuadrados son muy sensibles a la presencia de datos
contaminados, se modifican las propuestas de implementación del método VST, que tienen
como base la implementación original dada en R. En estas nuevas propuestas se utilizan
ajustes lineales por mínimos cuadrados truncados (LTS) con el propósito de obtener
estimaciones más resistentes a la presencia de datos contaminados.
2.2. Método Resistente: El Método Resistente se basa en la aplicación del método de Máxima
Verosimilitud, y postula como modelo adecuado a:
, donde G es la
transformación verdadera, que se asume dentro de la familia de potencia generalizada con
parámetro P próximo a 0,
k en la réplica i,
es la intensidad asociada a sondas con afinidad al gen especifico
es el nivel de expresión media en escala transformada para el gen k, y
es el término de error, componente aleatoria que se sume con distribución normal, media 0 y
varianza constante. Los parámetros a estimar son
transformación que se asume verdadera,
correspondientes a la
para cada tipo de gen, y la varianza del término
de error.
Los estimadores por máxima verosimilitud son sensibles a desviaciones de normalidad y a la
presencia de datos contaminados. Por lo que este método propone como estimadores de los
niveles de expresión media para cada tipo de gen, y la varianza del término de error a los que
se obtienen de maximizar la función de verosimilitud, considerando
valores fijos,
previa eliminación de datos extremos. Mientras que los estimadores de los parámetros de la
transformación (
se obtienen al maximizar una expresión modificada de la log-
verosimilitud, que resulta de reemplazar las expresiones de los estimadores de
, para cada
gen k, y la varianza del término de error, (hallados previamente), y sólo considerar aquellos
datos correspondientes a los genes cuya suma de residuos al cuadrado sean más bajas. Este
criterio está en intima relación con el criterio utilizado en ajustes lineales LTS para obtener
estimaciones más resistentes a la presencia de datos contaminados.
3.
RESULTADOS
Para comparar las distintas propuestas metodológicas de estimación de transformaciones
estabilizadoras de varianzas mencionadas en la sección anterior, en distintas situaciones, tanto
para datos reales como simulados, con errores normales y normales contaminados, se
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
disponen de datos reales correspondientes a cuatro muestras bilógicas que contienen
información sobre diluciones de sangre y placenta humana. Los datos son de Barnes y se
pueden acceder a ellos desde internet o desde R bajando la librería “lumi”. Para las
simulaciones, en términos generales, se generan datos de tal forma que posean una
distribución de frecuencias y un rango de valores similares a los extraídos experimentalmente,
la transformación adecuada sea conocida y dentro de la familia de potencia generalizada con
parámetro P próximo a cero, y permitan evaluar las distintas propuestas metodológicas que se
desean comparar. Respecto a los datos contaminados, estos se generan de tal forma que
rompan con la estructura de relación media varianza , tanto para intensidades bajas como
también para intensidades medias altas, en niveles de contaminación del 0, 5 y hasta un 10%.
Específicamente los escenarios de simulación se corresponden con datos de microarreglos con
la característica de tener 30 o más réplicas técnicas de sondas con afinidad a un mismo tipo de
gen, con distribución aleatoria sobre el soporte; la cantidad de genes que se consideran en un
microarreglo es de 1000 ó 8000 ( bajo selección aleatoria); la cantidad de microarreglos por
simulación es uno; y el software sobre la cual se trabaja es R, ya que es libre, gratuito y la
mayoría de los científicos la utilizan para realizar sus aportes en esta área.
Luego de un estudio exhaustivo de Montecarlo, teniendo en cuenta los resultados de los
Errores Cuadráticos Medios en la estimación de los parámetros de la transformación
estabilizadora de varianzas adecuada, se concluye que se logra mejorar la implementación del
método VST, cuando los datos responden a una estructura de relación media varianza
cuadrática original y ésta se rompe ante la presencia de datos contaminados en niveles de
contaminación del 5 y hasta un 10%.
Por otro lado se propone una nueva alternativa metodológica para estimar transformaciones
estabilizadoras de varianzas para datos de experimentos de microarreglos, el procedimiento es
el que denominamos método Resistente. Esta nueva alternativa muestra resultados alentadores
cuando se trabaja con datos cuya estructura de relación media varianza se aleja de la
propuesta original; como también para datos contaminados en niveles de contaminación de
hasta un 10%.
4.
REFERENCIAS
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012

DURBIN,B.P., HARDIN,J.S., HAWKINS,D.M. and ROCKE,D.M. (2002) “A variancestabilizing transformation for gene-expression microarray data”. Bioinformatics, 18(Suppl.
1), S105–S110.

HUANG,S., YEO,A.A., GELBERT,L., LIN,X., NISENBAUM,L. and BEMIS,K.G. (2004)
“At what scale should microarray data be analyzed?” Am. J. Pharmacogenomics, 4, 129–
139.

HUBER W., HEYDEBRECK A., SUELTMANN H., POUSTKA A. and VINGRON M.
(2003) “Parameter estimation for the calibration and variance stabilization of microarray
data”. Statistical Applications in Genetics and Molecular Biology”. Volume 2, Inssue 1,
Article 3. http:/www.bepress.com/sagmb/vol2/iss1/art3.

HUBER,W., VON HEYDEBRECK,A., SULTMANN,H., POUSTKA,A. and VINGRON,M.
(2002) “Variance stabilization applied to microarray data calibration and to the
quantification of differential expression”. Bioinformatics, 18(Suppl. 1), S96–S104.

KELMANSKY D. M., MARTINEZ E.J. (2010) “Generalized Power Transformations”.
CLATSE IX –Viña del Mar –Chile-octubre 2010.

LIN S.M., PAN DU, HUBER W. and WARREN A. K. (2008) “Model-based variancestabilizing transformation for Illumina microarray data”. Nucleic Acids Research, 2008, Vol.
36. No 2.

ROCKE D. M. and
DURBIN
B.(2001). “A Model for Measurement Error for Gene
Expression Arrays”. Journal of Computational Biology. Volume 8, Number 6, 2001. Mary
Ann Liebert, Inc. Pp. 557-569.

ROCKE D. M. and DURBIN B (2003) .-“Approximate variance-stabilizing transformations
for gene-expression microarray data”. Bioinformatics, 19, 966972.

SMYTH G.K., YANG Y.H, SPEED T. (2003). “Statistical issues in cDNA microarray data
analysis”. Methods Mol Biol;224:111-36.