Download Minería de Datos
Document related concepts
no text concepts found
Transcript
Módulo Minería de Datos Diplomado Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS Minería de Datos - Agrupamiento Clustering ECSAGO Basado en: ● Densidad ● Conceptos de evolución natural ● Areas densas son clusters ● Clusters circulares centro y radio ● Encuentra centros y radios de los clusters ● Minería de Datos - Agrupamiento Clustering ECSAGO Inspirado en la formación de “Nichos” en la naturaleza Cada nicho es un grupo (cluster) el algoritmo intenta encontrar los nichos usando un algoritmo evolutivo y una técnica de “niching” Minería de Datos - Agrupamiento Algoritmo evolutivo Encuentra centroides Un individuo candidato a ser centroide del cluster Fitness densidad de un cluster hipotetico en esa localización Estrategía de Niching Optimización multimodal: Permite mantener clusters (niches representan clusters: centro y radio) Minería de Datos - Agrupamiento Algoritmo Genetico Minería de Datos - Agrupamiento Codificación Un individuo representa un cluster candidato El centroide es un vector n-dimensional (n el número de dimensiones de los datos) La escala (radio) es estimado usando optimización analítica Minería de Datos - Agrupamiento Fitness Fitness, para un candidato a centoride es la densidad de un supuesto cluster en esa localización N ∑ w ij f i= j=1 σ 2i where w ij =exp − d 2ij 2σ 2i σi: proporcinal al Niche radio o escala (tamaño). 2 σi N σ 2i = 1 2 ∑ w ij d 2ij j=1 N ∑ w ij j=1 Minería de Datos - Agrupamiento 1 X radius 0.75 X radius 0.5 X radius 0.25 X radius Minería de Datos - Agrupamiento Reproducción Operadores ● Crossover - Cruce Aplicar un punto de cruce independiente ● Mutation - Mutación ● Cada bit es complementado con alguna probabilidad 9 Minería de Datos - Agrupamiento Niching ● Deterministic Crowding: Hijos remplazan al padre mas cercano si ellos tienen mejor fitness restricción en el Mating Solo individuos que pertenecen al mismo niche pueden reproducirse los hijos pertenecen al mismo niche ¿ ¿ ¿ IF ¿ dist P i , P j K max σ i , σ j ¿ THEN ¿ restrict ¿ mating ¿ 10 Minería de Datos - Agrupamiento Population Evolution for 10 cluster data set Initial population Binary Encoding Real Encoding: Faster convergence Gen #10 Gen #10 Gen #30 Gen #50 Gen #100 Gen #30 Gen #50 Gen #100 Minería de Datos - Agrupamiento http://webmining.spd.louisville.edu/NSF_Career/s oftware/clustering/ECSAGO/demo/ Minería de Datos - Agrupamiento