Download Charla introductoria

Document related concepts

Perfil de expresión génica wikipedia , lookup

Chip de ADN wikipedia , lookup

ARN mensajero wikipedia , lookup

Transcript
Experimentos de Microarreglos:
desde la biología molecular a la
estadística
Diana M. Kelmansky
Instituto de Cálculo
FCEN-UBA
¿Qué son los microarreglos?
• Microarreglos: pequeños soportes
sólidos
• sobre los que se inmobilizan ó pegan,
miles de secuencias de diferentes genes,
• en posiciones fijas ordenadas
2
Dos tecnologías
http://www.kbrin.louisville.edu/archives/fellows/dobbins.html
gslc.genetics.utah.edu
Delivery
Synthesis
arrays
chips
3
• spotted: oligonucleotidos (oligos) son
“espoteados” –spotted- directamente sobre el
arreglo
• síntesis directa base por base: los
oligonucleótidos se fabrican in situ utilizando
métodos tales como fotolitografía (ej. Affymetrix
chips)
o síntesis química (ej., ink-jet Agilent)
• ?????????????????????????????????
4
Portaobjeto y cabezal de impresión print head
5
http://www.stat.berkeley.edu/~sandrine/Docs/Talks/MBI04/Lects/lect1MarrayTech.pdf
6
Un segmento de un spot de un microarreglo - las hebras
son las moléculas de ADN depositadas - figura tomada
de (Duggan et al., Nature Genetics 21: 10-14, 1999)
7
Objetivo: Identificar genes
expresados diferencialmente
Cambios en la abundancia de:
• genes expresados: mRNA – arreglo de
transcriptomas
• ADN genomico
entre condiciones diferentes
8
¡Grandes Esperanzas!
Cantidad de publicaciones por año
7000
6000
5000
4000
3000
2000
1000
0
1994
1996
1998
2000
2002
2004
2006
Datos obtenidos en PubMed
Schena M,et al. Quantitative monitoring of gene expression patterns with
a complementary DNA microarray. Science (1995)
9
¡Grandes Esperanzas!
Mark Schena
Microarray Analysis – Wiley 2003
Al final de la introducción:
“Fifty years from now, and long after human
disease has been eradicated, we will look back
incredulously at the start of this millennium and
wonder how we ever endured cancer, heart
disease, AIDS and thousands of other illnesses
that compromise our well-being”
10
• ¿De qué se trata todo esto?
• ¿Cómo está relacionado con estadística?
Comencemos
11
Expresión de un gen
• Casi todas las células de nuestro cuerpo contienen un
conjunto completo de cromosomas y genes idénticos.
• Sólo una fracción de estos genes están “encendidos” .
• Este subconjunto, que está “expresado”, le confiere
propiedades específicas a cada tipo de célula.
•"Gene expression“ . Términos utilizados para describir
la transcripción de la información contenida dentro de
los cromosomas en moléculas de ARN mensajero.
• Luego estas son traducidas a las proteinas que
realizan principales funciones de las células
12
Adenina
Timina
Guanina
Citosina
13
ROSALIND FRANKLIN la fotógrafa del ADN
•Francis Crick, James Watson y Maurice
Wilkins
-modelo del ADN 1953en base al
• trabajo de Rosalind Franklin como bióloga
molecular y cristalógrafa
Murió de cáncer en 1958 con 37 años
Premio Nobel de Medicina -196214
Transcripción
15
Dogma central de la biología molecular
Doble cadena de ADN
 transcripción o expresión
Simple cadena de ARNm
Microarreglo


 traducción
Proteína
16
¿Cómo funciona un microarreglo?
• Utiliza la capacidad de las moléculas de
ARNm de adherirse específicamente, o
hibridar a su cadena complementaria de
ADN
cADN probe
ARN target
...AAAAAGCTAGTCGATGCTAG...
...UUUUUCGAUCAGCUACGAUC...
17
18
Al finalizar el experimento tenemos
two color spotted microarray
un microarreglo de dos colores
19
Datos
Imagen superpuesta de un sector de
un Microarreglo
¿Cuáles son los datos en un experimento de
microarreglos ?
con colores artificiales
Archivos tiff de
las imágenes digitales escaneadas
Una para cada color
La intensidad de cada pixel representa la
abundancia del gen transcripto en el sitio
correspondiente del arreglo
Procesamiento de la imagen
Datos Crudos
20
Imperfecciones de los spots
21
Redondeamos – microarrays de dos canalesARNm tejido patógeno de hígado cADN etiqueta fluorescente (label) (Cy5)
ARNm tejido sano de hígado
cADN etiqueta fluorescente (label) (Cy3)
reverse
transcription
Hibridice igual cantidad de mARN para cada muestra sobre el microarreglo
Lave el microarray para eliminar pegado inespecífico - unspecific binding.
Escanee el microarray con longitudes de onda diferentes para exitar a cada uno de los tintes
2 imágenes digitales, una para el fluor Cy3 y la otra para el Cy5
representan las intensidades para cada una de las muestras en el estudio
 datos crudos pixel por pixel
Señal de fluorescencia “Promedio” para cada gen = nivel
+ otros estadísticos
de expresión del gen
     datos iniciales gen por gen
Este experimento tiene muchos errores sistemáticos y aleatorios
22
MA-plot
• Diagrama de dispersión (Scatter plot) de
◦ M = log2 ( Xred / Xgreen )
= log2 ( Xred ) - log2 ( Xgreen )
versus
◦ A = (log2 ( Xred ) + log2 ( Xgreen )) / 2
Intensidad
23
Experimento SELF-SELF ideal
MA plot
MXY plot
24
Experimento SELF-SELF real
MA plot
MXY plot
Sesgo dependiente de la intensidad
sesgo espacial
25
Objetivo: Identificación de genes
expresados diferencialmente
Requiere múltiples tests
con un nivel global razonable
(false discovery rate)
26
Algunos aspectos estadísticos de los experimentos
y análisis de datos de microarrays
A.Diseño. El diseño del experimento afecta la
validez y la eficiencia de los resultados.
“In other contexts, and possibly in these, the
results have been driven by study
inadequacies rather than by biology. Beware!
(T. Speed 2005)”
27
Algunos aspectos estadísticos de los
experimentos y análisis de datos de microarrays
B. Preprocesamiento.
• análisis de imágen cuantificación de los
“spots”: distinguir las intensidades del
foreground de las del background y los
artifacts. Medidas resumen.
• normalización - control del sesgo dentro y
entre microarreglos, transformaciones de los
datos.
28
Algunos aspectos estadísticos de los
experimentos y análisis de datos de microarrays
C. Inferencia. Procedimientos de tests simultáneos
Multiple testing procedures. Generalmente
respecto a qué genes están expresados
diferencialmente.
29
Algunos aspectos estadísticos de los
experimentos y análisis de datos de microarrays
D. Clustering y discriminación
(llamados Clasificación por “microarray biologists”).
Clases (categorías, etiquetas): pueden ser
muestras ( 1 - cientos)
o
genes . (10000 - 40000)
30
D. Clustering y discriminación - cont
 Clases desconocidas –
clasificación no supervisada:
cluster analysis por los estadísticos,
unsupervised learning por los computadores
científicos
class discovery por biólogos de microarreglos.
31
Clustering y discriminación - cont
 Clases definidas de antemano – clasificación
supervisada - supervised classification – sobre por lo
menos una parte de los datos:
Los objetivos incluyen describir diferencias entre clases y/o
clasificar observaciones fututas. Llamadas clasificación
o discriminación y class prediction por microarray
biologists.
Los datos para los que las clases son conocidas forman el
llamado training o learning set, aquellos datos cuyas
clases no son utilizadas pero conocidas forman el test
set. También se utiliza Allocation para describir la
asignación de clases a los nuevos datos.
Estas distinciones no son universales.
32
A) Diseño. Consenso 1: La replicación biologica es
indispensable.
Pueden realizarse dos tipos de replicaciones
• replicación técnica: el ARNm de un único caso biológico
es utilizado en múltiples microarreglos
• replicaciones biológicas: se extrae ARNm de diferentes
sujetos
33
A) Diseño. Consenso 2: Es necesario aumentar la
potencia mediante el tamaño de la muestra.
• Deben realizarse análisis de potencia:
Aplicando estimaciones específicas para experimentos de
microarrays
Más replicaciones proveen mayor potencia.
• No hay concenso respecto de cuales procedimientos
para hallar el tamaño de la muestra son los mejores.
34
A) Diseño. Consenso 3: “Pooling” muestras
biologicas puede ser útil.
La variabilidad entre arreglos puede ser reducida “pooling”
ARNm de replicaciones biológicas.
Por ejemplo:
15 casos divididos en 5 pools de 3, cada pool
corrido en un array por separado tendrá:
más potencia que 5 casos corridos an arreglos
diferentes
menos potencia que cuando los 15 casos son corridos en
arregos diferentes
35
A) Diseño. Consenso 3: “Pooling”
muestras biologicas puede ser útil. Cont
Sin embargo: Pooling ARN de n casos y creando n
replicaciones técnicas no es una estrategia mejor que
hibridizar n arrays a las n muestras individuales de RNA:
Problema potencial: el ‘poisoned pool’, un outlier puede
arruinar los resultados.
36
A) Diseño. Consenso 4: Evite los factores de
confusión - confounding
Las mediciones de Microarrays pueden estar muy
influenciadas por factores externos.
Por ejemplo:
Si dos tratamientos son aplicados a dos grupos de pacientes cuando los
factores externos no están totalmente balanceados entre los grupos esto
puede confundir el estudio y llevar a conclusiones falsas. (Confounding –
epidemiología)
Los arreglos deberían provenir de un únco lote y procesados en el mismo
día por el mismo técnico.
Analizar la misma cantidad de muestras de los dos grupos en estudio y
aleatorizar los casos a los niveles de estos factores (lotes de arreglos,
técnicos, día)
37
B) Preprocesamiento
• Análisis de la imagen. Hay diferentes propuestas,
fundamentalmente en la distinción entre las intensidades
del forward y el backward – segmentation.
• Normalization. Diversos procedimientos para permitir las
comparaciones entre los arreglos.
38
C) Inferencia . Consenso
• Solo fold change |M| > k, no es adecuado
Mi = log2(Ri/Gi)
• Utilice un estadístico que incorpore la variabilidad
t=
nM / s
• Use “variance shrinkage”
nM
t* 
as
• Use métodos de estimación del FDR en las
comparaciones múltiples
39
D) Classificación Consenso 1
La clasificación no supervisada se utiliza en
exceso. Es una de las primeras técnicas
estadísticas utilizadas en el análisis de microarrays
y es una de las preferidas.
El investigador tiene garantizada la obtención de un
agrupamiento (clustering) de genes, sin importar
•el tamaño de la muestra,
•la calidad de los datos,
•el diseño del experimento o
•cualquier otra validez biológica que esté asociada
con el agrupamiento.
40
D) Clasificación Consenso 1. Cont.
•Clasificación no supervisada, debería ser
validada utilizando procedimientos basados en
re-muestreo (resampling-based procedures).
•Si la clasificación no supervisada es inevitable,
debería proveerse algún tipo de medida de
reproducibilidad. Aquellos procedimientos que remuestrean a nivel de caso – más que a nivel de
gen- todos tienen una performance razonable y
ninguno es considerado el mejor.
41
D) Classificación Consenso 2
Los procedimientos de clasificación
supervisada requieren cross-validación
independiente.
•Las reglas de predicción están basadas en una cantidad
relativamente pequeña de muestras de distintos tejidos de
tipos conocidos que contienen los datos de expresión de
muchos (posiblemente miles) de genes.
•Problemas posibles:
•sobreajuste (overfitting),
•sesgo de selección (selection bias)
42
Estudios futuros
Microarray data analysis: from disarray to consolidation and consensus
Allison D, Cui X, Page G, Sabripour M (2006) Nature Reviews |
Genetics Vol 7 Jan
Sugieren estudiar
• If and how the vast number of genes assayed in
microarray experiments could be used to partially
compensate for small sample sizes when using
resampling-based inference.
• For all statistical procedures, the fact that transcripts are
not necessarily independent (co-regulation) should be
considered.
43
MÁS ESTADÍSTICA
Semilinear High-Dimensional Model for Normalization of
Microarray Data: A Theoretical Analysis and Partial Consistency
(2005) Fan J, Peng H, Huang T. JASA, vol. 100, no. 471, pp. 781796. With discussion.
“All of the discussants call for more statistical understanding of
various procedures in use.
We agree whole heartedly with this and contribute the article
under discussion in the hope that it will stimulate more
statisticians to work on this area.”
44
¿Recuerdan?
Cantidad de publicaciones por año
7000
6000
5000
4000
3000
2000
1000
0
1994
1996
1998
2000
2002
2004
2006
¿Cuántos incluyen análisis estadístico?
45
7000
6000
5000
4000
Statistical Analysis
3000
Microarrays
2000
1000
0
1995 1997 1999 2001 2003 2005 2007
46
Algunas referencias
A Model Based Background Adjustement for Oligonucleotide Expression
Arrays. Wu Z, Irizarry RA, Gentleman R, Martinez Murillo F, Spencer F
(2004) JASA, 99, 909-917.
Semilinear High-Dimensional Model for Normalization of Microarray
Data: A Theoretical Analysis and Partial Consistency (2005) Fan J, Peng
H, Huang T. JASA, vol. 100, no. 471, pp. 781-796
Selection bias in gene extraction on the basis of microarray geneexpression data. Ambroise C, McLachlan G (2002) PNAS
Prediction by Supervised Principal Components. Bair E, Hastie T, Paul
D, Tibshirani T (2006) JASA, vol. 101, no. 473, pp. 119-137
Microarray data analysis: from disarray to consolidation and consensus
Allison D, Cui X, Page G, Sabripour M (2006) Nature Reviews |
Genetics Vol 7 Jan
47
¡MUCHAS GRACIAS!
48