Download Capítulo 3 - Departamento de Informática USM
Document related concepts
Transcript
REDES NEURONALES ARTIFICIALES TEORÍA Y APLICACIONES Dr. Héctor Allende Departamento de Informática Universidad Técnica Federico Santa María Capítulo 3 SOM/KOHONEN Network Mapas Autoorganizativos Profesor: Dr. Héctor Allende Redes Neuronales Artificiales 2 Estructura de la Red SOM (Self-Organization Map o Kohonen Network) Teuvo Kohonen Rev. Information Science(1984) – Red de aprendizaje no supervisado. – Posee una única capa, la capa de salida. • Posee un feedback lateral. En general es de forma indirecta ( tipo “Sombrero Mejicano”). • Consiste en K neuronas. • Puede ser unidimensional (K) o multidimensional ( KxK). – La capa adicional de entrada solo distribuye la entrada en la capa de salida. • Consiste en N neuronas (dimensión de la entrada). • No hay procesamiento Profesor: Dr. Héctor Allende Redes Neuronales Artificiales 3 Estructura de la red de Kohonen Profesor: Dr. Héctor Allende Redes Neuronales Artificiales 4 Sombrero mejicano Las Neuronas cercanas reciben un feedback (+) Las Neuronas a mediana distancia reciben feedback (-). Las Neuronas lejanas no son afectadas. Profesor: Dr. Héctor Allende Redes Neuronales Artificiales 5 Estructura de la Red. • Obervaciones: – La distancia entre neuronas es discreta. 0 para la neurona misma, 1 para las neuronas más cercanas etc. – La función de feedback determina la velocidad de aprendizaje. – Vecindad Neuronal: Area afectada por el feedback lateral. – Para grandes vecindades, la distancia puede considerarse función continua. Profesor: Dr. Héctor Allende Redes Neuronales Artificiales 6 El Proceso de aprendizaje • Matriz de pesos: W {wij }ij11,..,,..,NK • Vector de entrada: X {xi }i 1,.., N – Entrada es una función paramétrizada x = x(t) • Entrada total: a = W x • La neurona k que tiene un peso asociado W (k , :) N tal que: || W (k , :) T x || min || W ( j , :) T x || j 1,.., K se declara ganadora. Profesor: Dr. Héctor Allende Redes Neuronales Artificiales 7 Proceso de aprendizaje • Todas las neuronas incluidas en la vecindad neuronal incluida ella misma participan en el proceso de aprendizaje. Las otras neuronas no son afectadas. • El proceso de aprendizaje consiste en cambiar el vector de pesos en la dirección del vector de entrada (feedback positivo). • Existe también un proceso de olvido proceso que retarda el progreso (feedback negativo) Profesor: Dr. Héctor Allende Redes Neuronales Artificiales 8 Proceso de aprendizaje • Aprendizaje lineal: cambios ocurren en direccion de la combinación lineal de X y W(j,:) para cada neurona: dW ( x, W ) ( x, W ) dt donde y son funciones escalares (no lineales). : feedback positivo : feedback negativo • A continuación se considera que la vecindad neuronal es toda la red. Profesor: Dr. Héctor Allende Redes Neuronales Artificiales 9 Tipos de aprendizaje • La ecuacion diferencial Trivial: dW ( j , :) x T W ( j , :) 0, 0 dt forma matricial : dW 1̂x T W dt Condición inicial : W(0) W0 . Solución : t T t t ' W (t ) 1̂ x (t ' )e dt ' W0 e 0 Para t, W(j,:) es un promedio exponencialmente ponderado de X. Profesor: Dr. Héctor Allende Redes Neuronales Artificiales 10 Tipos de Aprendizaje • La ecuación simple: dW ( j , :) a j (t ) x T W ( j , :) 0, 0 dt forma matricial, a Wx : dW 1a (t ) x T W W (xxT I ) dt Aprox. en tiempo discreto : dW W W (t 1) W (t ) W (t )[x (t ) x T (t ) I ] dt t (t 1) t W (t 1) W (t )[x (t ) x T (t ) I I ] Condición inicial : W(0) W0 . Profesor: Dr. Héctor Allende Redes Neuronales Artificiales 11 Tipos de Aprendizaje • La Solución de la ecuación simple: t 1 W (t ) W0 [x(t ) x T (t ) I I ] t ' 0 – La solución puede ser divergente o convergente a cero, casos ambos casos son inaceptables. – Para tiempos cortos la solución se aproxima a procesos asintóticamente estables. • Para t ; relativamente pequeños y 0: t 1 T W (t ) W0 I x(t ' ) x (t ' ) t ' 0 Profesor: Dr. Héctor Allende Redes Neuronales Artificiales 12 Tipos de Aprendizaje • La Ecuación diferencial de Riccati: dW ( j , :) xT a jW ( j , :) 0, 0 dt como a j W ( j , :) x xT W ( j , :) T dW ( j , :) xT [I W ( j , :) T W ( j , :)] dt En notación matricial : dW 1̂xT (Wx1̂T ) W dt Profesor: Dr. Héctor Allende Redes Neuronales Artificiales 13 Tipos de Aprendizaje • Ecuación de Riccati: – Proposición: Considerando un acercamiento estadístico a la ecuación de Riccati, si una existe solución, la solución de W es de la forma: T lim t W x 1̂ || x || si x 0̂ donde x E{x / W } cte – Todo W(j,:) llega a estar paralelo a <x> y tendrá || W ( j, :) || / la norma Profesor: Dr. Héctor Allende Redes Neuronales Artificiales 14 Tipos de Aprendizaje • Ecuaciones más generales: Teorema: Sea > 0, a =Wx y (a) una función arbitraria tal que E{(a)|W} existe. Sea x = x(t) un vector con propiedades estadísticas estacionarias (e independiente de W). Entonces, si el proceso de aprendizaje es del tipo: dW ( j , :) xT (a j )W ( j , :) dt en notación matricial : j 1,.., K dW 1̂xT [ (a )1̂T ] W dt tiene soluciones W acotada para t, entonces debe tener la forma: lim t W 1̂ x T donde <x> es la esperanza de x(t). ie., W(j,:) llega a ser paralelo a <x> Profesor: Dr. Héctor Allende Redes Neuronales Artificiales 15 Tipos de Aprendizaje Teorema: Sea > 0, a = Wx y (a) una función arbitraria tal que E{(a)|W} existe. Sea <xxT>=E{xxT|W}. Sea max=máxl l el valor propio máximo de < xxT > y umax el vector propio asociado. Entonces, si el proceso de aprendizaje es del tipo: dW ( j , :) a j xT (a )W ( j , :) dt en notación matricial : dW axT [ (a )1̂T ] W dt tiene soluciones no triviales W acotada para t, entonces debe tener la forma: lim t W 1̂ x T donde Wumax Ô, W(0) = W0 ; ie, W(j,:) llega a ser paralelo a umax Profesor: Dr. Héctor Allende Redes Neuronales Artificiales 16 Dinámica de la Red • Función de ejecución de la red: Para cada vector de entrada X , W ( j, :) T n la neurona k para la cual || W (k , :) T X || min || W ( j , :) T X || j 1,.., K se declara ganadora. El ganador es usado para decidir que pesos serán cambiados. Todas las neuronas pertenecientes a la vecindad neuronal participan en el aprendizaje. Profesor: Dr. Héctor Allende Redes Neuronales Artificiales 17 Dinámica de la Red • Función de aprendizaje de la red: – – – – El proceso de aprendizaje es no-supervisado. El aprendizaje se desarrolla en tiempo discreto. W=W(t) En t = 0 los pesos son inicializados con valores aleatorios pequeños W(0) = W0 . – Los pesos se actualizan de la siguiente forma: • Para x(t) encontrar la neurona ganadora k. • Actualizar los pesos según modelo elegido: W W (t ) W (t 1) (dW / dt ) Profesor: Dr. Héctor Allende Redes Neuronales Artificiales 18 Dinámica de la Red • Inicialización y condición de parada: – Los pesos son inicializados con valores aleatorios pequeños. – La condición de parada del proceso de aprendizaje puede ser: • Elegir un número fijo de pasos. • El proceso de aprendizaje continúa hasta que la cantidad de ajuste: wji= wji(t+1)-wji (t) Profesor: Dr. Héctor Allende Redes Neuronales Artificiales 19 El Algoritmo • Para toda las neuronas en la capa de salida: inicializar los pesos con 2 valores aleatorios U (0,1) • Si se trabaja con vectores normalizados, Normalizar vectores • Elegir el modelo de aprendizaje ( Ecuación diferencial) • Elegir un modelo de vecino neuronal ( fu. de feedback lateral). • Elegir condición de parada. • Construir a partir de la ED, la fórmula de adaptación de los pesos. • Considerando tiempo discreto, repetir los pasos anteriores hasta que la condición de parada se cumpla: – Tomar la entrada x(t) – Para todas las neuronas j en la capa de salida, encontrar la ganadora. – Conociendo la ganadora, actualizar los pesos. Profesor: Dr. Héctor Allende Redes Neuronales Artificiales 20 Fórmula de adaptación de pesos • La ecuacion diferencial Trivial: dW 1̂x T W dt Dada la fu de feedback lateral h(k, j) h(k, j) o, para , j N c ; 0,.etoc h(k, j) h exp[ (k j ) 2 ] Para t, W(j,:) es un promedio exponencialmente ponderado de X. Profesor: Dr. Héctor Allende Redes Neuronales Artificiales 21 Fórmula de adaptación de pesos La ecuación Trivial: h(k , j ) exp (t ) 0 exp( f (t )) W (t 1) W (t ) (t )[ h(normx)1̂T ] [ 1̂xT (t ) W ] Condición inicial : W(0) W0 . Profesor: Dr. Héctor Allende Redes Neuronales Artificiales 22