Download capítulo iii - Sisbib
Document related concepts
Transcript
Las Redes Neuronales Artificiales y su importancia como herramienta en la toma de decisiones. Villanueva Espinoza, María del Rosario CAPÍTULO III III. 1 ELEMENTOS DE UNA RED NEURONAL ARTIFICIAL Las redes neuronales son modelos que intentan reproducir el comportamiento del cerebro. Como modelos, son una simplificación de lo que emulan, incorporando los elementos relevantes del sistema . Una elección adecuada de sus características, más una estructura conveniente, es el procedimiento convencional utilizado para construir redes capaces de realizar una determinada tarea. Un modelo de red neuronal consta de dispositivos elementales de proceso: las neuronas. A partir de ellas se pueden generar representaciones específicas, de modo que un estado conjunto de ellas puede representar una letra, un número o cualquier objeto. Generalmente se pueden encontrar tres tipos de neuronas: 1. Aquellas que reciben estímulos externos, relacionadas con el aparato sensorial, que toman la información de entrada. 2. Esta información se trasmite a ciertos elementos internos que se ocupan de su procesamiento. Es en las sinapsis y neuronas de este segundo nivel donde se genera cualquier tipo de representación interna de la información. Puesto que no tienen relación directa con la información de entrada ni con la de salida, estos elementos se denominan unidades ocultas. 3. Una vez que ha finalizado el procesamiento, la información llega a las unidades de salida, cuya misión es dar la respuesta del sistema. La neurona artificial pretende emular las características de las neuronas biológicas. Cada neurona i-ésima está caracterizada en cualquier instante por un valor numérico denominado valor o estado de activación ai(t). Asociado a cada unidad, existe una Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM Las Redes Neuronales Artificiales y su importancia como herramienta en la toma de decisiones. Villanueva Espinoza, María del Rosario función de salida fi, que transforma el estado actual de activación en una señal de salida, yi. Dicha señal es enviada a través de los canales de comunicación unidireccionales a otras unidades de la red. En estos canales la señal se modifica de acuerdo con la sinapsis (el peso sináptico, wji) asociada a cada uno de ellos según una determinada regla. Las señales moduladas que han llegado a la unidad j-ésima se combinan entre ellas, generando así la entrada total, Net j, Netj = ∑ yw i ji i Una función de activación, F, determina el nuevo estado de activación aj (t+1) de la neurona, teniendo en cuenta la entrada total calculada y el anterior estado de activación aj (t). La dinámica que rige la actualización de los estado de las neuronas (evolución de la red neuronal) puede ser de dos tipos: asincrónico y sincrónico. En el primer caso, las neuronas evalúan su estado continuamente, según les va llegando información, y lo hacen de forma independiente. En el caso sincrónico, aunque la información llega de forma continua, los cambios se realizan simultáneamente. Los sistemas neuronales biológicos muy probablemente actúan de una forma mixta. Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM Las Redes Neuronales Artificiales y su importancia como herramienta en la toma de decisiones. Villanueva Espinoza, María del Rosario Neurona Uh yh Neurona Uj wjh Neurona Ui yi wji . . . . Netj F(aj(t), Netj) = aj (t+1) fj(aj(t+1)) = yj yj wjg Neurona Ug yg III. 1. 1 La Neurona Artificial Si tenemos N unidades (neuronas), podemos ordenarlas arbitrariamente y designar la j-ésima unidad como Uj. Su trabajo consiste únicamente en recibir las entradas de las neuronas vecinas y calcular un valor de salida, que es enviado a todas las neuronas restantes. Es útil identificar tres tipos de unidades: entradas, salidas y ocultas. • Las unidades de entrada reciben señales desde el entorno. Estas entradas (que son entradas a la red) pueden provenir de sensores o de otros sectores del sistema. • Las unidades de salida envían la señal fuera del sistema. Estas pueden controlar directamente potencias u otros sistemas. • Las unidades ocultas son aquellas cuyas entradas y salidas se encuentran dentro del sistema, es decir, no tienen contacto con el exterior. Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM Las Redes Neuronales Artificiales y su importancia como herramienta en la toma de decisiones. Villanueva Espinoza, María del Rosario Se conoce como capa o nivel a un conjunto de neuronas cuyas entradas provienen de la misma fuente, y cuyas salidas van al mismo destino (que pueden ser en ambos casos otra capa de neuronas). III. 1. 2 Estado de Activación Además del conjunto de neuronas, la representación necesita considerar los estados del sistema en un tiempo t. Esto se especifica por un vector de N números reales A(t), que representa el estado de activación del conjunto de neuronas. Cada elemento del vector representa la activación de la unidad en el tiempo t. Si la activación de la unidad Ui en el tiempo t se designa por ai(t), tenemos: A(t) = (a 1(t), a2(t), ...., ai(t), …, aN(t)) El procesamiento que realiza la red se ve como una evolución de un patrón de activación en el conjunto de neuronas que lo componen, a través del tiempo. Todas las neuronas que conforman la red se hallan en cierto estado. Podemos decir que hay dos posibles estados: reposo y excitado, llamados genéricamente estados de activación; a cada uno de los cuales se le asigna un valor. Estos valores pueden ser a su vez continuos o discretos. Es necesario además saber qué criterios o reglas siguen las neuronas para alcanzar estos estado de activación. Esto depende de dos factores: Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM Las Redes Neuronales Artificiales y su importancia como herramienta en la toma de decisiones. Villanueva Espinoza, María del Rosario • Dado que el comportamiento de las redes no es producto de la actuación de cada neurona individualmente, sino del conjunto como un todo, es necesario conocer el mecanismo de interacción entre ellas. El estado de activación estará influenciado por estas interacciones, dado que el efecto que producirá una neurona sobre otra será proporcional a la fuerza, peso o magnitud de la conexión entre ambas. • La señal que envía cada neurona a sus vecinas depende de su propio estado de activación. III. 1. 3 Función de Salida o de Transferencia Entre las neuronas que componen la red existe un conjunto de conexiones que las unen. Cada neurona trasmite señales a aquellas que están conectadas con su salida. Asociada a cada unidad Ui hay una función de salida fi(ai(t)), que transforma el estado actual de activación ai(t) en una señal de salida yi(t); es decir: yi(t) = fi(ai(t)) En consecuencia, el vector que contiene las salidas de todas las neuronas en un instante t es: Y(t) = (f 1(a1(t)), f 2(a2(t)), ..., fi(ai(t)), ..., fN(aN(t))) En algunos modelos, esta salida es igual al nivel de activación de la unidad, en cuyo caso la función fi es la función identidad, fi(ai (t)) = ai (t). A menudo, fi es de tipo sigmoidal, y suele ser la misma para todas las neuronas. Existen cuatro funciones de transferencia típicas que determinan los distintos tipos de neuronas: • Función Identidad Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM Las Redes Neuronales Artificiales y su importancia como herramienta en la toma de decisiones. Villanueva Espinoza, María del Rosario • Función Escalón, • Función lineal y mixta • Sigmoidal, • Función gaussiana La función escalón o umbral únicamente se utiliza cuando las salidas de la red son binarias. La salida de una neurona se activa sólo cuando el estado de activación es mayor o igual que cierto valor umbral (la función puede ser desplazada sobre los ejes). La función lineal o identidad equivale a no aplicar función de salida, y se usa muy poco. Las funciones mixta y sigmoidal son las más apropiadas cuando queremos como salida una información analógica. Neurona de Función Escalón y y 1 1 0 x x -1 1 si x ≥ 0 f ( x) = 0 si x < 0 1 si x ≥ 0 f ( x) = − 1 si x < 0 En ambos casos se ha tomado que el umbral es cero; en caso de no serlo, el escalón quedaría desplazado Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM Las Redes Neuronales Artificiales y su importancia como herramienta en la toma de decisiones. Villanueva Espinoza, María del Rosario Neurona de Función Lineal y Mixta y y 1 -c 1 0 c x -c 0 c x -1 0 si x < −c f ( x) = 1 si x > c x /( 2c ) + 1 / 2 en otro caso − 1 si x < −c f ( x) = 1 si x > c a.x en otro caso c = límite superior de la suma de todas las entradas de activación -c = límite inferior Neurona de Función Continua (sigmoidal) y 1 y 1/2 0 x x 0 -1/2 f ( x) = 1 1 + e −ax La importancia de la función sigmoidal (o cualquier otra función similar) es que su derivada es siempre positiva y cercana a cero para los valores grandes positivos o negativos. Además, toma su valor máximo cuando x es 0. Esto es particularmente útil para definir métodos de aprendizaje en los cuales se usan derivadas. Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM Las Redes Neuronales Artificiales y su importancia como herramienta en la toma de decisiones. Villanueva Espinoza, María del Rosario Neurona de Función de transferencia gaussiana y x y = A.e − Bx Los centros y anchura de estas funciones pueden ser adaptados, lo cual las hace más adaptativas que las funciones sigmoidales. Mapeos que suelen requerir dos niveles ocultos (neuronas que se ubican entre las de entrada y las de salida) con neuronas de transferencia sigmoidales, algunas veces se pueden realizar con un solo nivel empleando neuronas de transferencia gaussiana. III. 1. 4 Conexiones entre Neuronas Las conexiones entre las neuronas de una red tienen asociado un peso, que es el que hace que la red adquiera conocimiento. Tomemos el valor yi como el valor de salida de una neurona i en un instante dado. Una neurona recibe un conjunto de señales que le dan información del estado de activación de todas las neuronas con las que se encuentra conectada. Cada conexión (sinapsis) entre la neurona i y la neurona j está ponderada por un peso wji. Normalmente, como simplificación, se considera que el efecto de cada señal es aditivo, de forma que la entrada neta que recibe una neurona (potencial post sináptico) net j es la suma del producto de cada señal individual por el valor de la sinapsis que conecta ambas neuronas: Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM Las Redes Neuronales Artificiales y su importancia como herramienta en la toma de decisiones. Villanueva Espinoza, María del Rosario N netj = ∑ wji • yi i Esta regla muestra el procedimiento a seguir para combinar los valores de entrada a una neurona con los pesos de las conexiones que llegan a esa neurona, y es conocida como regla de propagación. Suele utilizarse una matriz W con todos los pesos wji que reflejan la influencia que la neurona j tiene sobre la neurona i. W es una matriz de elementos positivos, negativos o nulos. Si wji es positivo, significa que la interacción entre ambas neuronas es excitadora, es decir, siempre que la neurona i esté activada, la neurona j recibirá una señal proveniente de i que tenderá a activarla. Si wji es negativo, la sinapsis será inhibidora; es decir, si i está activada, enviará un mensaje a la neurona j que tenderá a desactivarla. Por último, si wji es cero, significa que no hay conexión entre ambas neuronas. III. 1. 5 Función o Regla de Activación Así como es necesario una regla que combine las entradas a una neurona con los pesos de sus conexiones, también se requiere una regla que combine las entradas con el estado actual de la neurona, para producir un nuevo estado de activación. Esta función, F, produce un nuevo estado a partir del estado (ai) que existía y la combinación de las entradas con los pesos de las conexiones (neti). Dado el estado de activación ai(t) de la neurona Ui, y la entrada total que llega a ella, Neti, el estado de activación siguiente, ai(t+1) se obtiene aplicando la función de activación F: ai(t+1) = F(a i(t), Neti) Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM Las Redes Neuronales Artificiales y su importancia como herramienta en la toma de decisiones. Villanueva Espinoza, María del Rosario En la mayor parte de los casos, F es la función identidad, por lo que el estado de activación de una neurona en t+1 coincide con el Net de la misma en el tiempo t. En este caso, la salida de la neurona i (yi) será: N yi( t + 1) = f ( Neti ) = f ( ∑ wij yj( t )) j =1 y1 . . . yj . . . yN wi1 f wij yj wiN Normalmente la función de activación no está centrada en el origen del eje que representa el valor de la entrada neta, sino que existe cierto desplazamiento debido a las características internas de la propia neurona, y que no es igual en todas ellas. Este valor se denota como θi, y representa el umbral de activación de la neurona i. N yi (t + 1) = f ( Neti − θi) = f (∑ wij yj (t ) − θi) j =1 Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM Las Redes Neuronales Artificiales y su importancia como herramienta en la toma de decisiones. Villanueva Espinoza, María del Rosario En el caso de neuronas de respuesta todo-nada, este parámetro representa el umbral de disparo de la neurona, es decir, el nivel mínimo que debe alcanzar el potencial post sináptico para que la neurona se dispare o active. III. 1. 6 Regla de Aprendizaje El aprendizaje se entiende como la modificación del comportamiento inducido por la interacción con el entorno, y como resultado de experiencias conducente al establecimiento de nuevos modelos de respuesta a estímulos externos. Biológicamente, se suele aceptar que la información memorizada en el cerebro está más relacionada con los valores sinápticos de las conexiones entre las neuronas, que con ellas mismas; es decir, el conocimiento se encuentra en las sinapsis. En el caso de las redes neuronales artificiales, el conocimiento se encuentra representado en los pesos de las conexiones entre neuronas. Todo proceso de aprendizaje implica cambios en estas conexiones, es decir, se aprende modificando los valores de los pesos de la red. Durante el proceso de aprendizaje, los pesos de las conexiones de la red sufren modificaciones, por lo tanto se puede afirmar que la red “ha aprendido” cuando los valores de los pesos permanecen estables (dwij/dt = 0). Un aspecto importante respecto al aprendizaje de las redes neuronales es el conocer cómo es que se modifican estos valores; es decir, cuáles son los criterios que se siguen para cambiar los valores asignados a las conexiones cuando se pretende que la red aprenda una nueva información. Estos criterios determinan lo que se conoce como la regla de aprendizaje de la red. De modo general, se distinguen: Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM Las Redes Neuronales Artificiales y su importancia como herramienta en la toma de decisiones. Villanueva Espinoza, María del Rosario • Redes Neuronales con aprendizaje supervisado. • Redes neuronales con aprendizaje no supervisado o autoorganizado. La diferencia fundamental entre ambos tipos radica en la existencia o no de un agente externo (supervisor) que controle el proceso de aprendizaje de la red. III. 1. 7 Formas de Conexión entre Neuronas La conectividad entre los nodos de una red neuronal está relacionada con la forma en que las salidas de las neuronas están canalizadas para convertirse en entradas de otras neuronas. La señal de salida de un nodo puede ser una entrada de otro elemento de proceso, o incluso ser una entrada de sí mismo en una conexión auto recurrente. Cuando ninguna salida de las neuronas de una capa es entrada de neuronas del mismo nivel o de niveles precedentes, se dice que la red tiene propagación hacia delante. En caso contrario se dice que la red es de propagación hacia atrás. Las redes de propagación hacia atrás que tienen lazos cerrados se dice que son sistemas recurrentes. Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM I1 O1 I2 O2 . . . . . . . . . . . . . . . . . . Im SALIDAS ENTRADAS Las Redes Neuronales Artificiales y su importancia como herramienta en la toma de decisiones. Villanueva Espinoza, María del Rosario Om Nivel de Entrada Niveles Ocultos Nivel de Salida Estructura de una red multinivel con todas las conexiones hacia adelante Nodo con propagación hacia atrás sobre sí mismo O2 . . . . . . SALIDAS O1 Om Red con propagación hacia atrás a nodos de niveles anteriores Ejemplos de conexiones con propagación hacia atrás Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM