Download Medidas de resumen de expresion

Document related concepts
no text concepts found
Transcript
Medidas de expresión para
microarrays de Affimetrix
Tipos de microarrays
• Las tecnologías para fabricar microarrays
utilizan dos tipos de técnicas diferentes:
– Fabricar las pruebas (“probes”) in vitro para
sembrarlas (“spot”) después sobre el chip
• Típicamente: chips de cDNA pero también pueden
ser chips de oligonucleótidos
– Fabricar las pruebas in situ, sobre el chip
• Típicamente chips de oligonucleótidos de
Affymetrix, pero no los únicos
2
Visión general del proceso en chips
Affy
3
@Affymetrix
De la intensidad de la imagen a
las medidas de expresión
• Como en otros microarrays tras escanear la
imagen se obtiene una serie de valores de
intensidad de cada elemento del chip.
• Estos valores deben preprocesarse antes de
realizar cualquier análisis basado en ellos.
• Esto consiste básicamente en:
– Corrección del ruido de fondo
– Normalización
– Resumen de los valores del probe-set
4
Medidas de expresión
(absoluta)
• A diferencia de los chips de cDNAs, aquí
las medidas de expresión son absolutas:
cada chip se hibrida con un único tejido
• Hay muchos métodos para estimar la
expresión, (más de 30 publicados)
• Cada método contempla de forma
explícita o implícita las tres formas de
preprocesado: corrección del fondo,
normalización y resumen.
5
Métodos principales que
estudiamos
– Microarray Suite (MAS)
• Oficial de Affymetrix. Versiones 4.05.0
– dChip: Li and Wong
• Basado en modelos multichip
– RMA (Bioconductor)
• Mejora del anterior
6
M.A.S. 4.0 y 5.0
M.A.S. 4.0
• 1ª medida introducida por Affymetrix
• Corrección del fondo
– Ej=PMj-MMj
• Normalización
– Global: Transformaciones de forma que la
media de todo el chip sea la misma.
• Resumen de los probesets
– Promedio de diferencias absolutas
8
MAS 4: Media de diferencias
absolutas
1
Avg.diff 

 ( PM
j
j
 MM j )
• Ignora los pares que se desvían más de 3σ de µ
• Presenta muchos problemas conocidos
– 1/3 de los MM son mayores que los PM
– Pueden aparecer valores MM negativos
– El uso de los MM añade ruído
• Ha sido sustituida por otras (MAS 5.0)
9
MicroArray Suite 5.0 (i)
• Utiliza un estadístico robusto, el biweight
de Tukey, para:
– ponderar el fondo (bg) y
– calcular (estimar) la señal
• El biweight de Tukey Tbi pondera los
valores por su distancia a la mediana m
– Mide tendencia central pero
– Realiza un ajuste de outliers
10
MicroArray Suite 5.0 (ii)
• El valor de MM no siempre tiene sentido,
– p.ej si MM > PM no lo tiene
• En este caso: se introduce el background
específico de un conjunto de pruebas i de
tamaño n basado en los pares de pruebas j:
SBi = Tbi(log(PMi,j)-log(MMi,j)) : j = 1,…,n
• SB se utiliza para decidir como se ajusta el
background
– Si es grande los datos suelen ser fiables
– Si es pequeño mejor basarse tan sólo en PM
11
MicroArray Suite 5.0 (iii)
Se introduce el Mismatch idealizado: IM:
IM i , j
MM i , j

 PM i , j
 2SB i

PM i , j

 

 contrast 
  contrast  SBi 
 2 1 scale   


si MM i , j  PM i , j
si MM i , j  PM i , j y SB i   (contraste)
si MM i , j  PM i , j y SB i   (contraste)
contraste  0.03, escala   10
12
MAS 5.0 (iv): Medida de
expresión
• Tras calcular el Mismatch Idealizado se
estima la intensidad de las pruenbas
individuales (Probe Values) por:
PVi,j=log[max(PMi,j-IMi,j,δ)] , δ=2-20
• Expresión de la prueba
Señali=Tbi(PVi,1,…,PVi,n)
13
MAS 5.0 (v): Críticas
• No tiene mucho sentido promediar las
pruebas entre arrays, pues éstos pueden
tener características de hibridación
intrínsecamente distintas
• El método no mejora “aprendiendo” del
funcionamiento entre arrays de las
pruebas individuales
•  Idea: Ajustar modelos basados en
multiples arrays
14
Modelos multi-chip
Motivación para modelos multichip
• En 2001 Cheng Li & Wing Wong
introducen el resumen de la intensidad de
las pruebas basado en modelos.
• Basado en una observación bien simple:
– Los valores de expresión dentro de un
probeset son muy estables entre arrays,
– Es decir es menor la variabilidad inter-chips
que intra-chips.
16
Estabilidad entre arrays: 1 chip
17
Estabilidad entre arrays: 2 chips
18
Estabilidad entre arrays: 5 chips
19
Estabilidad entre arrays: 10
chips
20
Modelización de las pruebas a
nivel de señal individual
Pruebas
1
2
3
chip 1
chip 2
21
Modelización de las pruebas a
nivel de señal individual
• Li & Wong realizan las siguientes suposiciones:
– La señal de cada prueba es proporcional a:
• Cantidad de muestra diana (target):qi
• Afinidad de la secuencia específica de la prueba por la diana: fj
– Gran afinidad no significa gran especificidad
• Una prueba puede dar una señal alta con una diana y también con
otras secuencias (muy afin y poco específica)
– La señal del MM sólo depende de la cantidad de diana
• MMij = ni + qiaj + eij
– La señal del PM depende de la diana y la afinidad
• PMij = ni + qiaj +qifj + eij
22
Modelos Multiplicativos
•
Asumiendo las suposiciones anteriores y
tomando como base de la estimación la
diferencia PMij – MMij se obtiene el modelo
multiplicativo:
PMij – MMij= fj x qi + eij

La estimación se realiza utilizando métodos
robustos con eliminación de outliers y reestimaciones sucesivas hasta la convergencia
23
Criticas al modelo de Li-Wong
• El modelo supone homocedasticidad, es
decir que la distribución de los errores
tiene variancia constante.
• En la práctica, la mayoría de medidas
biológicas, presenta errores dependientes
depende de la intensidad: a mayor valor
suelen tener mayor varianza.
24
El método RMA
Robust Multi-Array Average
• Para compensar algunas deficiencias del
método de dChip, Irizarry et al. introducen
un método basado en
– Modelización lineal del logaritmo del modelo
anterior
– Con la estimación basada en métodos de
estadística robustos.
• Método “preferido” actualmente por
muchos usuarios de Bioconductor.
26
Robust Multi-array Average (RMA)
I.
Ajusta el fondo (background) basandose sólo en los
valores PM
II. Toma logaritmos base 2 de cada intensidad ajustada
por el background.
III. Realiza una normalización por cuantiles de los valores
del paso 2 entre todos los chips.
IV. Realiza un pulido de medianas separadamente para
cada conjunto de pruebas sobre una matriz de datos
que tiene los arrays en filas y los “probesets” en
columnas.
V. Utiliza los efectos filas estimados del punto 4 como
medidas específicas de expresión para cada array.
27
(I) RMA. Ajuste del fondo (1)
• El método supone que el perfect match
depende de una señal y un fondo:
PM = Signal + Background
• siendo
– Signal: S ~ exp(λ) y
– Background: B ~ N(μ,σ2)
28
Densidad de probabilidad de una ley exponencial
con pàrámetro alfa=1000
yexp<-dexp(x=1:60000,
rate=0.001)
plot(1:60000,yexp, t="l",
ylim=c(0,0.001),
xlab="Signal",
ylab="Exponential
density; Rate =0.0001")
29
Densidad de probabilidad de una ley normal
de media 1000 y variancia 300^2
Normal density; mu=1000; sigma=300^2
3 e-06
2 e-06
1 e-06
0 e+00
f(b)
plot(-300000:300000,ynorm,
t="l",xlab="Backgrnd"
, ylab="f(b)",
main="Normal density;
mu=1000;
sigma=300^2")
4 e-06
ynorm<-dnorm(x=300000:300000,
mean=1000,sd=300^2)
-3 e+05
-1 e+05
1 e+05
3 e+05
Background
30
Densidad combinada de señal +
background
z<-yexp+ynorm2
1 e-03
8 e-04
6 e-04
4 e-04
2 e-04
0 e+00
f(bck+sig)
plot(1:60000,z, t="l",
,xlab="Background+
signal",
ylab="f(bck+sig)",
main="Combined density:
Normal +
exponential")
Combined density: Normal + exponential
0
10000 20000
30000
40000 50000
60000
Background+signal
31
(I) RMA: Ajuste del fondo (2)
E(S | PM) = PM - μ - λσ
2
Densidad de la N(0,1)
φ((PM - μ - λσ 2 ) / σ ) - φ((μ + λσ 2 ) / σ )
+σ
Φ((PM - μ - λσ 2 ) / σ ) - Φ((μ + λσ 2 ) / σ ) - 1
Función de distribución de N(0,1)
Estimamos μ, σ, y alfa por separado de cada chip,
utilizando la distribución observada de PMs.
Introduciendo estos estimadores en la fórmula superior
se obtiene un estimador de E(S|PM) para cada valor de PM
Éstos serán los valores ajustados para el background.
32
(I) RMA: Ajuste del fondo (y 3)
• ¿Estimación de μ, σ, y alfa?
– Estimamos la moda de la distribución de PM utilizando un
estimador de nucleo.
– Estimamos la densidad de los valores de PM que se encuentran
por debajo de la moda La moda de esta segunda densidad se
toma como estimación de μ.
– Suponemos que los datos que quedan a la izquierda de la
estimación de μ son los valores del fondo que quedan por
debajo de la media  Utilizamos estas observaciones para
estimar σ.
– Restamos la estimación de μ de todas las observaciones
mayores que la estimación. La moda de esta distribución
resultante se toma como estimación de alfa
33
Estimación de la densidad de PM basada en datos simulados
Density
Los datos debajo de la moda se utilizan para estimar
los parámetros de fondo, μ y σ.
34
Estimación de nucleo de los datos que se encuentran
Por debajo de la moda de la distribución de PM
Density
Estos datos se utilizan
para estimar σ= 642.3.
Estimación def μ = 1612
35
^
Estimación nucleo de los valoresPM – μ mayores de cero
Density
La media de estos valores sería un
estimador más adecuado para alfa en este
ejemplo
(La media vale 9848 y alfa=10000.)
Estimate of 1/λ = 2019
36
(III) RMA: Normalización por
cuantiles
• La idea de este método es forzar la distribución empírica
de las intensidades de las pruebas para que sea la misma
para cada chip de un experimento.
• Esta distribución común se obtiene promediando cada
cuantil entre chips de la manera siguiente:
1.
2.
3.
4.
Tras el ajuste de fondo buscar el mínimo valor log2(PM) en
cada chip.
Promediar los valores del paso 1.
Substituir cada valor del paso por el promedio calculado en el
paso 2.
Repetir los pasos 1 hasta 3 para los segundos valores más
pequeños, los terceros más pequeños, … hasta el mayor
valor.
37
Diagrama esquemático de la
normalización por cuantiles
38
39
40
41
(IV) RMA: Pulido de medianas
•
Dado un probe set con J probe pairs, sea yij el valor
ajustado por el fondo, transformado logaritmicamente y
normalizado por quantil del chip i y prueba j.
•
Supongamos yij = μi + αj + eij con α1 + α2 + ... + αn = 0.
Expresión
génica del
probe set en el
chip i
•
Influencia de la
afinidad de las
pruebas
Por la j-esima prueba
del probe set
Residuos de la j-esima
prueba
Sobre el chip i-esimo
Se realiza un pulido de medianas de Tukey sobre la
matriz de valores yij con yij in la fila ith y la columna jth.
42
(IV) RMA: Pulido de medianas
• Sea yij el valor ajustado de yij que
resultará del procedimiento de pulido de
medianas.
• Sea αj = y.j – y.. con y.j =Σiyij , y..=ΣiΣjyij,
("I" indica el número de chips).
• Sea μi = yi. =Σjyij / J
• μi es la medida de expresión
correspondiente a cada probeset para el
chip i.
43
An Example
Suppose the following are background-adjusted,
log2-transformed, quantile-normalized PM intensities
for a single probe set. Determine the final RMA
expression measures for this probe set.
GeneChip
Probe
1
2
3
4
5
1
4
8
6
9
7
2
3
1
2
4
5
3
6
10
7
12
9
4
4
5
8
9
6
5
7
11
8
12
10
44
An Example (continued)
4
8
6
9
7
3
1
2
4
5
6
10
7
12
9
4
5
8
9
6
7
11
8
12
10
0
0
-1
0
0
-1
-7
-5
-5
-2
2
2
0
3
2
0
-3
1
0
-1
3
3
1
3
3
4
8
7
9
7
row
medians
matrix after
removing
row medians
45
An Example (continued)
0
0
-1
0
0
-1
-7
-5
-5
-2
2
2
0
3
2
0
-3
1
0
-1
3
3
1
3
3
0
-5
2
0
3
column medians
0
0
-1
0
0
4
-2
0
0
3
0
0
-2
1
0
0
-3
1
0
-1
0
0
-2
0
0
matrix after
subtracting
column medians
46
An Example (continued)
0
0
-1
0
0
4
-2
0
0
3
0
0
-2
1
0
0
-3
1
0
-1
0 0
0 0
-2 -1
0 0
0 0
0
0
0
0
0
4
-2
1
0
3
0
0
-1
1
0
0
-3
2
0
-1
0
0
-1
0
0
row
medians
matrix after
removing
row medians
47
An Example (continued)
0
0
0
0
0
4
-2
1
0
3
0
0
-1
1
0
0
-3
2
0
-1
0
0
-1
0
0
0
1
0
0
0
column medians
0
0
0
0
0
3
-3
0
-1
2
0
0
-1
1
0
0
-3
2
0
-1
0
0
-1
0
0
matrix after
subtracting
column medians
48
An Example (continued)
0
0
0
0
0
3
-3
0
-1
2
0
0
-1
1
0
0
-3
2
0
-1
0
0
-1
0
0
All row medians and column medians are 0.
Thus the median polish procedure has converged.
This above is the residual matrix that we will
subtract from the original matrix to obtain the
fitted values.
49
An Example (continued)
residuals from median polish
original matrix
4
8
6
9
7
3
1
2
4
5
4
8
6
9
7
6
10
7
12
9
4
5
8
9
6
7
11
8
12
10
0
0
0
0
0
3
-3
0
-1
2
matrix of fitted values
row means
=
4.2
0
6
4
7
=
8.2
4
10
8
11
=
6.2
2
8
6
9
=
9.2
5
11
9
12
=
7.2
3
9
7
10
0
0
-1
1
0
0
-3
2
0
-1
μ^ 1
μ^ 2
μ^ 3
μ^ 4
μ^ 5
0
0
-1
0
0
RMA
expression
measures
for the 5
GeneChips
50
R Commands for Obtaining RMA Expression
Measures from Affymetrix .CEL Files
# load the affy package.
library(affy)
#Set the working directory to the directory containing
#all the .CEL files.
setwd("C:/z/Courses/Smicroarray/AffyCel")
#Read the .CEL file data.
Data<-ReadAffy()
#Compute the RMA measures of expression.
expr=rma(Data)
#Write the data to a tab-delimited text file.
write.exprs(expr, file="mydata.txt")
51
Agradecimientos
• Esta presentación se ha basado en los
artículos originales de Boldstat e Irizarry
así como en presentaciones de Ben
Boldstat y el documento "RMA explained"
(de quien no he localizado la autoría )
• Gracias a todos ellos por hacer accesible
su material.
52