Download ETSE_microarrays
Document related concepts
Transcript
Biocomputación aplicada al análisis de microarrays. http://ibb.uab.es/revresearch Dogma de la biologia molecular DNA->RNA->Proteinas->Fenotipo DNA - GEN Expresión Gen ->... Proteina->... Función celular. Traducción RNA -> Proteina:: 4 bases nitrogenadas -> 20 aminoácidos RNA Proteina Proteinas :: Estructura espacial funcional Regulación génica :: El sistema se retroalimenta . Las proteinas sintetizadas propician o inhiven la expresión de nuevos genes. . Además lo hacen interactuando entre ellas y con señales externas. Problemas que afronta la biología computacional. Similarity search Proble ms in Biological Science Pairwise sequence alignment Database search for similar sequences Mult iple sequence alignment Phylogenetic tree reconstruction Prot ein 3D structure alignment Structure/func tion ab initio prediction prediction Knowledge based prediction Mole cular classifi cation RNA seconda ry struc ture prediction RNA 3D structure prediction Protein 3D structure prediction Motif extraction Func tiona l sit e prediction Cellular locali zation p rediction Coding region p rediction Transmembrane domain prediction Protein seconda ry structure prediction Protein 3D structure prediction Supe rfamil y classification Ortholog/p aralog grouping of gene s 3D fold classification Math/Stat/CompSci method Optimi zation algorithms Dynamic progra mmi ng (DP) Simulated annealing (SA) Genetic algorithms (GA) Markov Chain Monte Carlo (MCMC: Metropolis and Gibbs sampl ers) Hopfield neural networ k Pattern recogn iti on and learning algo rit hms Discrimi nan t ana lysis Neural networks Suppor t vec tor machin es Hidden Markov models (HMM) Forma l gramm ar CART Clustering algorithms Hierarchical, k-means , etc PCA, MDS, etc Self -organ izing maps, etc Genómica :: Genes-DNA Genómica :: aliniamiento de secuencias. GAP Proteómica:: Determinar la funcionallidad, interactividad y posivilidades de la proteína. La Estructura espacial es clave en la operativilidad de la proteína. Problemas NP complejos -> Métodos heurísticos y aproximación polinomial Utilizan principios matemáticos, sobre todo el análisis probabilístico para encontrar resultados cercanos al óptimo. Fixed-parameter tractability : an approach to attacking NP-hard problems with multiple inputs. Abordaje de un problema NP-complejo usando múltiples parámetros o entradas que acaban reduciendo el problema. Regulación génica :: el comportamiento celular. Tecnología de Microarrays. – Permiten estudiar en que grado y bajo que circunstancias se van expresando los genes. Ventajas : Tenemos el nivel de expresión de miles de genes bajo las mismas circunstancias. Limitación : No tenemos la interacción de las proteínas producto de esa expresión. Micrarray technology :: miles de genes bajo las mismas condiciones experimentales Condiciones muestrales Genes Porqué varía el grado de expressión de los genes. Promoter Enhancer Microarrays para la comparación de tejidos. Aplicando drogas, sustancias, o canviando las condiciones experimentales. Stimulus Signal Transduction Transcription mRNA Downward, Nature, 411, 759, 2001 La tecnología de microarrays produce mucho ruido. Affimetrix Incyte 660 206 58 47 3 50 34 Agilent Cicatiello et al. Napoli, It; NETTAB Workshop Nov. 2003 Análisis básicos de Microarrays Encontrar genes marcadores. Agrupar genes y condiciones muestrales. – clustering Gene clustering Los genes co-regulados se expresarán igual bajo las mismas circunstancias. Estudio de similitud entre las expresiones de genes. Estudio de las distancias entre la expresión de dos genes Minkowski distance d (i, j) q (| x x |q | x x |q ... | x x |q ) i1 j1 i2 j2 ip jp If q = 1, d is Manhattan distance (semi-metric distance) d (i, j) | x x | | x x | ... | x x | i1 j1 i2 j 2 ip j p If q = 2, d is Euclidean distance (metric distance) d (i, j) (| x x |2 | x x |2 ... | x x |2 ) i1 j1 i2 j 2 ip jp Pearson correlation coefficient (semi-metric distance) n ( x x )( x x ) i 1 i1 1 i2 2 d (i, j) n 2 n ( x x ) 2 (x x ) i 1 i1 1 i 1 i 2 2 aij | cor ( xi , x j ) | Genes X Genes -0.2 0.2 -0.1 0.2 -0.1 0.2 -2.0 0.0 Martingale.Res 0.2 ME.blue -0.2 0.08 0.22 -0.2 0.19 0.2 ME.brow n -0.1 0.2 ME.green 0.14 0.42 0.27 0.09 0.78 0.09 -0.2 0.1 ME.grey 0.55 -0.1 0.2 ME.turquoise 0.12 0.41 0.39 0.67 0.72 0.01 -2.0 0.0 0.07 0.13 -0.2 0.2 0.08 0.04 -0.2 0.1 -0.3 0.0 ME.yellow 0.34 -0.3 0.0 Agrupar los genes por similitud (clustering). Para agrupar los genes usaremos técnicas de clustering. Microarray con los genes agrupados por similitud Calcular la distancia entre Clusters Single-linkage clustering :: nearestneighbour Complete-linkage :: furthest-neighbour Average-linkage :: unweighted pair-group method average (UPGMA) ... Aglomerative clustering. 0 1 a b c d e genes a,b 2 3 4 Aglomerative clustering. 0 1 2 a b a,b c d e genes d,e 3 4 Aglomerative clustering. 0 1 2 3 a b a,b c d e genes c,d,e d,e 4 Aglomerative clustering. 0 1 2 3 4 a b a,b a,b,c,d,e c d e c,d,e d,e …y tenemos el hierchical clustering genes Hierarchical clustering Two-way clustering of genes (y-axis) and cell lines (x-axis) (Alizadeh et al., 2000) We can extract conclusions! K-means clustering Step 4 – Points re-assigned to nearest centroid Step 5 – New centroids calculated Iterates until centroids don’t move K=3 Self-organizing maps (SOM) Principal components analysis (PCA) An exploratory technique used to reduce the dimensionality of the data set to 2D or 3D For a matrix of m genes x n samples, create a new matrix of size n x n Thus transform some large number of variables into a smaller number of uncorrelated variables called principal components (PCs). Page 211 PCA: objectives • to reduce dimensionality • to determine the linear combination of variables • to choose the most useful variables (features) • to visualize multidimensional data • to identify groups of objects (e.g. genes/samples) • to identify outliers Page 211 PCA examples Support Vector Machines (SVM) Linear classifiers Attempt to avoid overfitting by finding the optimal hyperplane that separates the data HOW??? By maximizing the Margin.. Support Vectors Introduced by V.Vapnic and co-workers in 1995 Support Vector Machines (SVM) And what about datasets that are not linearly separable?? Map the data into higher dimensional space and make linear classification there (theorem!!) Support Vector Machines (SVM) SVM: More experiments… T.furey, N.Cristianini, N. Duffy, D. Bednarski, M. Schummer and D Haussler, “Support Vector Machine Classification and Validation of Cancer Tissue Samples Using Microarray Expressioin Data”, Bioinformatics, 2000. Gene expression data on tissue 97,802 DNA clones 31 tissue samples Genes Experiment ex-1 ex-2 ……. g-1 g-2 …… g-n Cancer ovarian Normal ovarian Normal non-ovarian Cancer Not Cancer ... ……. ... Tissue ex-m Cancer Classification Herramientas para el análisis de microarrays Software específico Software stadístico – – – – – – – – Excel MATLAB Octave SAS SPSS S-PLUS Statistica R Free Software for microarray analysis GEPAS Free Software for microarray analysis TM4 Geo – Una base de datos de microarrays. Geo – Buscando genes marcadores Geo – Buscando genes marcadores Number of probesets Geo – Buscando genes marcadores Genes marcadores GEO – Expresión de los genes marcadores Example: Breast cancer • Left y-axis is (supposed to be) log two based (must check to verify) expression level. • Right y-axis is the percentile of this expression level in the entire chip. • All the chips are normalized. Geo – Buscando de que patologías es marcador un gen Geo – Buscando de que patologías/procesos es marcador un gen Data mining software and knowledge discovery Main purposes 1. Filtering and normalization 2. Statistical inference of differentially expressed genes 3. Identification of biologically meaningful patterns, i.e. expression profile; expression fingerprint/ signature 4. Visualization 5. Other analysis like pathway reconstruction etcs. Cruzar la información extraida de la microarray con otras bases de datos con información biomédica. Microarray analysis pipeline Gene markers and Global analyisis Data mining and knowledge discovery IBB-UAB :: Nuestro objetivo principal en el microarray analysis Extraer la máxima información útil al gran numero de genes y condiciones muestrales. A partir de microarrays con largo número de condiciones muestrales, modelar el comportamiento holístco de la célula/tejido analizado. Estrategias para obtener el comportamiento holístico de la célula. Estudio de las relaciones LINEALES entre las expresiones de genes. Estudio de las relaciones NO LINEALES entre las expresiones de genes. Estudio de las relaciones NO CONTINUAS entre las expresiones de genes. Facilitar la navegación através de la información generada. – Ampliar el analisis progresivamente incluyendo más genes y agrupando las muestras en clases de muestras. aij | cor ( xi , x j ) | Genes X Genes -0.2 0.2 -0.1 0.2 -0.1 0.2 -2.0 0.0 Martingale.Res 0.2 ME.blue -0.2 0.08 0.22 -0.2 0.19 0.2 ME.brow n -0.1 0.2 ME.green 0.14 0.42 0.27 0.09 0.78 0.09 -0.2 0.1 ME.grey 0.55 -0.1 0.2 ME.turquoise 0.12 0.41 0.39 0.67 0.72 0.01 -2.0 0.0 0.07 0.13 -0.2 0.2 0.08 0.04 -0.2 0.1 -0.3 0.0 ME.yellow 0.34 -0.3 0.0 Análisis no lineal de las relaciones entre la expresión de los genes Hay genes que están relacionados no linealmente. Usaremos las Principal Curve of Oriented Points. The PCOP is a very suitable analysis for recognising non-lineal patterns among independent variables. POPj POPi The PCOP is a very suitable analysis for recognising non-lineal patterns among independent variables. POPj POPi Gene-expression relationships detectable by PCOP analysis. Positively co-expressed genes. Negatively co-expressed genes. Genes mutually excluding in their expression. genes which are dependent in their expression only because one of the genes must be over-expressed or under-expressed to activate the expression fluctuations of the other gene. Non-linear correlated genes. One of the main keys of the PCOP is the calculus of the correlation factor. The Variance explained by the curve: Permits one to know if the Principal Curve is able to follow the sample-cloud tendency. Goes up when the sample cloud has a regular behaviour being well identified by the Principal Curve. Residual Variance: The degree of dispersion of the samples around the Principal Curve. The Generalized Total Variance: The sum of these two dispersion parameters. f factor: RV divided by the GTV Correlations graph and minimum-spanning-tree among the same microarray gene-expressions using R2 correletion or the f value provided by the PCOP calculus. ( PCOP ) Minimum spanning tree among the same microarray genes using R2 and the f value provided by the PCOP calculus. Only co-expressed Not only co-coexpressed Ampliar el análisis en función de las relaciones continuas 1. 2. El usuario introduce n genes marcadores El sistema proporciona los genes que relacionan esos genes marcadores en términos de expresión génica. Ampliar el análisis en función de las relaciones contínuas. Query genes Selected genes Ampliar el análisis en función de las relaciones contínuas. Query genes Selected genes A medida que nos alejamos de los genes marcadores los genes seleccionados tienen una mayor correlación entre sí. Ampliar el análisis en función de las relaciones no contínuas. Hay genes que no están correlacionados para toda su expresión sino solo para parte de ella. Definición de clases Por conocimientos previos – – Biomedico (clases del Geo) Estadístico (PC, Biclustering, etc..) Por rango de expresión. Por describir una parte concreta de la relación entre unos genes. Seleccionando un POP son seleccionados las muestras que pertenecen al hypercluster del POP POPj Hyper-clusteri POPi Hyper-clusterj Definición de clases Cada clase representará un estado celular concreto en el cual los genes se comportan de determinada manera. Búsqueda de genes que sigan determinada distribución de las clases en su expressión. Ej. Las muestras de la clase A se sobrexpresen respecto a las muestras de la clase C. El sistema nos proporciona los genes marcadores. – Analizando dichos genes podemos seguir perfilando el estado celular que representa la clase. Redefinir las clases Redefinir las clases Clase orignial: Remodelación de tejido Nueva subclase A: Remodelación de tejido Sin diferenciación celular Nueva subclase B: Remodelación de tejido Con diferenciación celular Redefinir las clases Redefinir las clases progresivamente según los intereses del usuario. Cruzar la información con Bases de datos remotas Buscar si los genes marcadores de nuestras clases son genes marcadores en las BD Geo. Busca nueva información sobre los genes marcadores. – – – – Si sus proteínas interactúan Si pertenecen a una vía de activación conocida. Si hay artículos científicos que los relacionan. ... Cruzar la información con Bases de datos remotas Objetivo :: caracterizar el estado celular que representa cada clase de muestras Abarcar el máximo nº de genes pertenecientes al máximo nº de procesos diferentes – Obtener el comportamiento holístico de la célula. Estudio de los tumores desde una perspectiva holística Estrés celular; proliferación celular; diferenciación celular; Inferencia del sist. nervioso; actividad mitocondrial; niveles de pH; potencial de membrana; canales de iones; ROS; PPARs; ritmos circadianos; respuesta inmunológica; actividad bacteriana; apoptosis; metástasis. Nuestra línea de investigación :: Revertir el dogma de la biología molecular ¿La evolución no es producto del azar? Las mutaciones forman parte de un proceso adaptativo (aprendizaje no supervisado). Gran parte de las enfermedades que hombres y animales sufren son producto de este proceso adaptativo. Estrés celular y cáncer. Mutaciones