Download agrupación ecohidrológica de corrientes en la cuenca magdalena
Document related concepts
Transcript
AGRUPACIÓN ECOHIDROLÓGICA DE CORRIENTES EN LA CUENCA MAGDALENA-CAUCA DENTRO DEL MARCO DE REFERENCIA ELOHA, EMPLEANDO MAPAS AUTORGANIZADOS DE KOHONEN FEDERICO GONZÁLEZ CUÉLLAR PONTIFICIA UNIVERSIDAD JAVERIANA FACULTAD DE INGENIERÍA MAESTRÍA EN HIDROSISTEMAS BOGOTÁ D. C. 2012 AGRUPACIÓN ECOHIDROLÓGICA DE CORRIENTES EN LA CUENCA MAGDALENA-CAUCA DENTRO DEL MARCO DE REFERENCIA ELOHA, EMPLEANDO MAPAS AUTORGANIZADOS DE KOHONEN Estudiante FEDERICO GONZÁLEZ CUÉLLAR Ingeniero Civil Trabajo de grado para optar al título de MAGISTER EN HIDROSISTEMAS Director NELSON OBREGÓN NEIRA Ingeniero Civil, M.Sc., Ph.D. PONTIFICIA UNIVERSIDAD JAVERIANA FACULTAD DE INGENIERÍA MAESTRÍA EN HIDROSISTEMAS BOGOTÁ D. C. 2012 Nota de aceptación __________________________ __________________________ __________________________ _________________________ Director del Proyecto _________________________ Jurado _________________________ Jurado _________________________ Jurado Bogotá D. C., enero de 2012 A María Camila porque cumplir esta meta es como verte a ti crecer y sentir orgullosamente la satisfacción del deber cumplido. AGRADECIMIENTOS Expreso mis más sinceros agradecimientos al director de esta investigación, el Ingeniero Nelson Obregón Neira, quien aparte de guiarme sabiamente a lo largo de mi vida profesional y académica, se ha encargado especialmente de convertirme en una mejor persona, por lo cual, estoy seguro, se ha ganado el título de padre académico para mí y para muchos de mis compañeros. A mi familia, quienes me dieron ese apoyo que necesité en momentos difíciles y supieron perdonar el sacrificio de mi ausencia para el desarrollo de este proyecto. A mis compañeros Eder Cárdenas, Jaime Moreno y Felipe Ardila, quienes colaboraron en el desarrollo de los programas de computador elaborados para este proyecto y quienes tuvieron la paciencia de enseñarme aquellos trucos de programación vitales para la culminación de este proyecto. A Patricia Pineda por su valiosa colaboración en la elaboración de los mapas geográficos de clasificación. Finalmente agradezco a Ingetec S. A., especialmente al Ingeniero Fernando Manjarrés, por brindarme el apoyo económico y laboral que necesité para finalizar este proceso. TABLA DE CONTENIDO 1. INTRODUCCIÓN .............................................................................................. 1 2. ASPECTOS GENERALES ............................................................................... 4 2.1. PLANTEAMIENTO DEL PROBLEMA Y JUSTIFICACIÓN...................................................... 4 2.2. OBJETIVOS DE LA INVESTIGACION ......................................................................................... 6 2.2.1. Objetivo General .............................................................................................................................. 7 2.2.2. Objetivos específicos ....................................................................................................................... 7 2.3. ALCANCES DE LA INVESTIGACIÓN .......................................................................................... 7 3. MARCO TEÓRICO Y ESTADO DEL ARTE ..................................................... 9 3.1. LÍMITES ECOLÓGICOS DE ALTERACIÓN HIDROLÓGICA (ELOHA) .............................. 9 3.1.1. Antecedentes de ELOHA en Colombia.......................................................................................... 12 3.2. AGRUPAMIENTO DE INFORMACIÓN ..................................................................................... 23 3.2.1. Métodos Jerárquicos....................................................................................................................... 23 3.2.2. Métodos No Jerárquicos o Particionales ........................................................................................ 24 3.2.3. Redes de Kohonen ......................................................................................................................... 25 3.2.3.1. Arquitectura de las redes de Kohonen .................................................................................. 26 3.2.3.2. Funcionamiento de las redes de Kohonen ............................................................................ 28 3.2.3.3. Visualización de los resultados de las Redes de Kohonen.................................................... 31 3.2.3.4. Aplicaciones comunes de los mapas de Kohonen ................................................................ 37 3.2.4. Antecedentes de clasificación de corrientes hidrológicas .............................................................. 38 4. METODOLOGÍA............................................................................................. 40 5. MÉTODO DE CLASIFICACIÓN DE KOHONEN ............................................ 43 5.1. EJEMPLO ILUSTRATIVO DEL MÉTODO DE KOHONEN ..................................................... 43 5.2. PROGRAMACIÓN DEL MÉTODO DE KOHONEN.................................................................. 49 6. PROCESO DE CLASIFICACIÓN DE CORRIENTES DE LA CUENCA MAGDALENA-CAUCA MEDIANTE EL MÉTODO DE KOHONEN ...................... 50 6.1. DISEÑO EXPERIMENTAL............................................................................................................ 50 6.1.1. Aplicativo computacional del método de Kohonen ....................................................................... 51 6.2. DESCRIPCIÓN DE RESULTADOS DEL APLICATIVO COMPUTACIONAL ..................... 52 6.2.1. Resultados del aplicativo computacional ....................................................................................... 52 6.2.2. Resultados por Método de Kohonen .............................................................................................. 53 6.2.3. Resultados por Clúster topológico ................................................................................................. 57 6.2.4. Métricas de desempeño en la clasificación de la información ....................................................... 63 7. ANÁLISIS DE CLASIFICACIÓN DE CORRIENTES PARA DIFERENTES TIPOLOGÍAS DE VARIABLES EN LA CUENCA MAGDALENA-CAUCA ........... 66 7.1. TIPOLOGÍA DE VARIABLES NO. 1 ........................................................................................... 66 7.2. TIPOLOGÍA DE VARIABLES NO. 2 ........................................................................................... 70 7.3. TIPOLOGÍA DE VARIABLES NO. 3 ........................................................................................... 73 7.4. TIPOLOGÍA DE VARIABLES NO. 4 ........................................................................................... 76 7.5. TIPOLOGÍA DE VARIABLES NO. 5 ........................................................................................... 79 7.6. TIPOLOGÍA DE VARIABLES NO. 6 ........................................................................................... 82 7.7. RESUMEN DEL NÚMERO DE GRUPOS POR TIPOLOGÍA DE VARIABLES .................... 84 8. ANÁLISIS DE INVARIANCIA Y VARIABLES IMPORTANTES .................... 86 8.1. ANÁLISIS DE INVARIANCIA DE CORRIENTES SIMILARES ............................................. 86 8.1.1. Tipología de variables óptima frente a clasificación Ingfocol 2010 .............................................. 89 8.2. COMPARACIÓN DE KOHONEN CON OTRO MÉTODO DE CLASIFICACIÓN ............... 94 8.3. VARIABLES IMPORTANTES DENTRO DEL PROCESO DE CLASIFICACIÓN ............... 96 9. COMENTARIOS FINALES, CONCLUSIONES Y RECOMENDACIONES .. 103 10. REFERENCIAS BIBLIOGRÁFICAS......................................................... 107 11. ANEXOS ................................................................................................... 110 ÍNDICE DE FIGURAS Figura 3.1. Relación entre los conceptos claves de la Gestión Integrada del Recurso Hídrico (Tomado de UNESCO, 2007)........................................................ 9 Figura 3.2. Esquema metodológico de ELOHA (Tomado de Poff y otros, 2010). .. 11 Figura 3.3. Logaritmo de la verosimilitud en función del número de clústeres (Tomado de Ingfocol, 2010). .................................................................................. 17 Figura 3.4. Resumen del proceso de clasificación de corrientes en la cuenca Magdalena-Cauca (Tomado de Ingfocol, 2010). .................................................... 18 Figura 3.5. Distribución de las familias obtenidas en la cuenca Magdalena-Cauca (Tomado de Ingfocol, 2010). .................................................................................. 19 Figura 3.6. Subclasificación (Subfamilias) de corrientes para cada una de las 6 familias obtenidas (Tomado de Ingfocol, 2010). .................................................... 20 Figura 3.7. Categorías de los Sistemas Inteligentes (Tomado de Hopgood, 2000). ............................................................................................................................... 25 Figura 3.8. Arquitectura de las redes de Kohonen. ................................................ 27 Figura 3.9. Topologías más usadas en las redes de Kohonen (Tomado de MathWorks Inc., 2002). .......................................................................................... 27 Figura 3.10. Grados de vecindad en una Topología rectangular (Tomado de MathWorks Inc., 2002). .......................................................................................... 28 Figura 3.11. Funcionamiento de las Redes de Kohonen (C: ciclo y CT: total de ciclos). .................................................................................................................... 28 Figura 3.12. Patrones de entrada – ejemplo para visualización de los mapas de Kohonen. ............................................................................................................... 32 Figura 3.13. Mapa de topología del modelo – ejemplo para visualización de los mapas de Kohonen. ............................................................................................... 33 Figura 3.14. Mapa de conexiones laterales del vecindario – ejemplo para visualización de los mapas de Kohonen. ............................................................... 33 Figura 3.15. Mapa de hits – ejemplo para visualización de los mapas de Kohonen. ............................................................................................................................... 34 Figura 3.16. Mapas de variables de entrada – ejemplo para visualización de los mapas de Kohonen. ............................................................................................... 35 Figura 3.17. Mapa de distancia entre neuronas (U_Matrix) – ejemplo para visualización de los mapas de Kohonen. ............................................................... 36 Figura 3.18. Mapa de ubicación de los pesos de las neuronas – ejemplo para visualización de los mapas de Kohonen. ............................................................... 37 Figura 4.1. Diagrama de Flujo del proceso metodológico. .................................... 40 Figura 5.1. Patrones de entrada del ejemplo de clasificación. ............................... 44 Figura 5.2. Topología del modelo de red de Kohonen. .......................................... 44 Figura 5.3. Variación del error del modelo. ............................................................ 48 Figura 5.4. Agrupamiento de datos para cada iteración. ....................................... 48 Figura 6.1. Sentido de numeración de las neuronas en las matrices de resultados. ............................................................................................................................... 53 Figura 6.2. Gráficas de hits para la tipología No. 6. ............................................... 54 Figura 6.3. Gráficas de distancias entre neuronas (U-Matrix) para la tipología No. 6. ............................................................................................................................ 55 Figura 6.4. Clústeres topológicos para Radios de 0.1 y 0.2 – modelo 400 neuronas tipología No. 6. ....................................................................................................... 58 Figura 6.5. Clústeres topológicos para Radios de 0.3 y 0.4 – modelo 400 neuronas tipología No. 6. ....................................................................................................... 59 Figura 6.6. Clústeres topológicos para Radios de 0.5 y 0.6 – modelo 400 neuronas tipología No. 6. ....................................................................................................... 60 Figura 6.7. Clústeres topológicos para Radios de 0.7 y 0.8 – modelo 400 neuronas tipología No. 6. ....................................................................................................... 61 Figura 6.8. Clústeres topológicos para Radios de 0.9 y 1 – modelo 400 neuronas tipología No. 6. ....................................................................................................... 62 Figura 7.1. Gráficas de hits y U-Matrix para el modelo de 225 neuronas en la tipología No. 1. ....................................................................................................... 67 Figura 7.2. Gráficas de hits y U-Matrix para el modelo de 400 neuronas en la tipología No. 1. ....................................................................................................... 68 Figura 7.3. Gráficas de hits y U-Matrix para el modelo de 900 neuronas en la tipología No. 1. ....................................................................................................... 69 Figura 7.4. Gráficas de hits y U-Matrix para el modelo de 225 neuronas en la tipología No. 2. ....................................................................................................... 70 Figura 7.5. Gráficas de hits y U-Matrix para el modelo de 400 neuronas en la tipología No. 2. ....................................................................................................... 71 Figura 7.6. Gráficas de hits y U-Matrix para el modelo de 900 neuronas en la tipología No. 2. ....................................................................................................... 72 Figura 7.7. Gráficas de hits y U-Matrix para el modelo de 225 neuronas en la tipología No. 3. ....................................................................................................... 73 Figura 7.8. Gráficas de hits y U-Matrix para el modelo de 400 neuronas en la tipología No. 3. ....................................................................................................... 74 Figura 7.9. Gráficas de hits y U-Matrix para el modelo de 900 neuronas en la tipología No. 3. ....................................................................................................... 75 Figura 7.10. Gráficas de hits y U-Matrix para el modelo de 225 neuronas en la tipología No. 4. ....................................................................................................... 76 Figura 7.11. Gráficas de hits y U-Matrix para el modelo de 400 neuronas en la tipología No. 4. ....................................................................................................... 77 Figura 7.12. Gráficas de hits y U-Matrix para el modelo de 900 neuronas en la tipología No. 4. ....................................................................................................... 78 Figura 7.13. Gráficas de hits y U-Matrix para el modelo de 225 neuronas en la tipología No. 5. ....................................................................................................... 79 Figura 7.14. Gráficas de hits y U-Matrix para el modelo de 400 neuronas en la tipología No. 5. ....................................................................................................... 80 Figura 7.15. Gráficas de hits y U-Matrix para el modelo de 900 neuronas en la tipología No. 5. ....................................................................................................... 81 Figura 7.16. Clasificación de corrientes del modelo de 225 neuronas para la tipología No. 5. ....................................................................................................... 82 Figura 7.17. Clasificación de corrientes de los modelos de 25, 100, 225 y 400 neuronas para la tipología No. 6. ........................................................................... 83 Figura 8.1. Árbol de decisión para la determinación de variables importantes en el proceso de clasificación correspondiente a la tipología No. 5. .............................. 97 Figura 8.2. Árbol de decisión para la determinación de variables importantes en el proceso de clasificación correspondiente a la tipología No. 6. .............................. 98 Figura 8.3. Mapa de variables de entrada del Método de Kohonen para la Tipología No. 5..................................................................................................... 100 Figura 8.4. Mapa de variables de entrada del Método de Kohonen para la Tipología No. 6..................................................................................................... 101 ÍNDICE DE TABLAS Tabla 3.1. Variables iniciales tenidas en cuenta dentro del proceso de clasificación de corrientes en la cuenca Magdalena-Cauca (Tomado de Ingfocol, 2010). ......... 13 Tabla 3.2. Variables definitivas para el proceso de clasificación después del análisis de componentes principales y correlación lineal entre variables (Tomado de Ingfocol, 2010). ................................................................................................. 16 Tabla 5.1. Patrones de entrada del ejemplo de clasificación. ................................ 43 Tabla 5.2. Inicialización de pesos de las 20 neuronas. .......................................... 45 Tabla 5.3. Distancias euclidianas y neurona ganadora – Patrón 1, iteración 1. ..... 46 Tabla 5.4. Factor de ponderación – Patrón 1, iteración 1. .................................... 46 Tabla 5.5. Factor de ponderación – Patrón 1, iteración 3. .................................... 46 Tabla 5.6. Pesos actualizados de la red – Patrón 1, iteración 1. .......................... 47 Tabla 5.7. Comparación de los pesos actualizados para el patrón 6 de la iteración 5 entre el ejercicio de Excel y el código de Matlab. ............................................... 49 Tabla 6.1. Métrica de ajuste de cada uno de los modelos realizados para la tipología No. 6. ....................................................................................................... 57 Tabla 6.2. Número de clústeres para cada radio de vecindad – Modelo de 400 neuronas tipología No. 6. ....................................................................................... 57 Tabla 6.3. Métricas de homogeneidad en la clasificación del modelo de 400 neuronas y tipología No. 6. .................................................................................... 64 Tabla 6.4. Métricas de homogeneidad del modelo de 400 neuronas y tipología No. 6. ............................................................................................................................65 Tabla 7.1. Resumen del proceso de clasificación de corrientes de la cuenca Magdalena-Cauca para diferentes tipologías de variables. ................................... 84 Tabla 8.1. Matriz de invariancia de corrientes - tipologías de variables No. 5 y 6. 87 Tabla 8.2. Grupos de corrientes invariantes entre las tipologías de variables No. 5 y 6. .........................................................................................................................88 Tabla 8.3. Matriz de invariancia de corrientes - clasificación Ingfocol 2010 y tipología No 5. ........................................................................................................ 89 Tabla 8.4. Grupos de corrientes invariantes entre la clasificación Ingfocol 2010 y la tipología No. 5. ....................................................................................................... 90 Tabla 8.5. Matriz de invariancia de corrientes - clasificación Ingfocol 2010 y tipología No 6. ........................................................................................................ 91 Tabla 8.6. Grupos de corrientes invariantes entre la clasificación Ingfocol 2010 y la tipología No. 6. ....................................................................................................... 92 Tabla 8.7. Grupos de corrientes de invariancia nula para las tipologías de variables No. 5 y 6 con respecto a la clasificación realizada por Ingfocol en 2010. .............. 93 Tabla 8.8. Número de grupos para comparación de métodos de clasificación. ..... 95 LISTA DE ANEXOS ANEXO A: Geodatabase – Variables de clasificación. ANEXO B: Ejemplo ilustrativo de clasificación por el método de Kohonen. ANEXO C: Aplicativo computacional para clasificación de corrientes por el método de Kohonen. ANEXO D: Reportes de clasificación para cada tipología de variables. ANEXO E: Resultados del proceso de clasificación de corrientes de la cuenca Magdalena-Cauca ANEXO F: Mapas de clasificación de las tipologías No. 5 y 6. ANEXO G: Aplicativo computacional y resultados del análisis de invariancia de grupos de corrientes ANEXO H: Resultados de la comparación del método de Kohonen con el método de Clustering Difuso. XIX 1. INTRODUCCIÓN Este documento es el resultado del trabajo investigativo efectuado para optar al título de Magister en Hidrosistemas de la Pontificia Universidad Javeriana, el cual surgió de la necesidad de encontrar una metodología idónea para el agrupamiento de corrientes de agua dentro del marco de referencia para la determinación de caudales ecológicos a nivel regional denominado Ecological Limits of Hydrologic Alteration (ELOHA). Teniendo en cuenta que en la mayoría de metodologías para clasificación de datos es necesario introducir como parámetro inicial el número de grupos en los cuales se desea hacer la clasificación, en este caso se postula a las Redes de Kohonen como metodología de clasificación de información precisamente porque no necesita de manera predeterminada el número de grupos. Dentro del marco de referencia metodológico ELOHA para la asignación de caudales ecológicos a nivel regional, tal vez el proceso más importante y definitivo en la obtención de óptimos resultados es la elaboración adecuada de las curvas de alteración hidrológica versus respuesta ecológica de cada ecosistema, no obstante, para ello es muy importante identificar qué ríos o tramos de río dentro de la zona de estudio pertenecen a un ecosistema u otro, ya que las curvas de alteración-respuesta son propias de cada ecosistema e incluso, en ocasiones, se pueden desarrollar para especies específicas de los ecosistemas encontrados. Para identificar los ecosistemas, este marco metodológico contempla una etapa previa de clasificación de corrientes que principalmente debe hacerse con información hidrológica, que es la que condiciona las características de los ecosistemas. El proceso de clasificación de corrientes no sólo permite elaborar estratégica y adecuadamente las curvas de alteración hidrológica versus respuesta ecológica, sino que es el aspecto que le da el carácter regional de asignación de caudales ecológicos a esta metodología, pues mientras las metodologías tradicionales se enfocan en tramos de río específicos, ELOHA a través de la clasificación de corrientes puede sintetizar en grupos de corrientes y por tanto en ecosistemas, grandes territorios, lo cual le permite establecer caudales ecológicos en grandes regiones. Con base en experiencias anteriores de proyectos similares, se identificó que el proceso de clasificación en Hidroinformática y especialmente el de clasificación de corrientes en el caso de ELOHA, es un proceso complejo y difícil de llevar a cabo. Usualmente se emplean métodos de tipo jerárquico y no jerárquico para clasificar información, sin embargo, con estos métodos resulta engorroso y difícil responder preguntas de investigación como por ejemplo cuál es el número de grupos que realmente subyace a una información dada, pues como ya se mencionó, estos 1 métodos por lo general necesitan de entrada precisamente el número de grupos. Teniendo en consideración la característica de no supervisión de las Redes de Kohonen y por tanto el hecho de que no necesita de manera predeterminada el número de grupos, en esta investigación y con ayuda de esta herramienta se profundiza en las características propias del proceso de clasificación de corrientes dentro de ELOHA como se describirá más adelante en detalle. Como se podrá observar a lo largo de este documento, los dos ejes de esta investigación están en concordancia con dos de los paradigmas postulados como pilares de la Maestría en Hidrosistemas: La Hidroinformática y la Ecohidrología. Por un lado se abordó un problema de ingeniería como es la clasificación de corrientes desde el punto de vista hidroinformático, postulando a las Redes Neuronales Artificiales, concretamente a las Redes de Kohonen, como un método adecuado para la clasificación de información ecohidrológica. Desde el punto de vista Ecohidrológico, dentro del marco de referencia ELOHA se abordó el tema de caudales ecológicos a nivel regional, cuya discusión hasta ahora se está debatiendo a nivel mundial, con lo cual se busca promover el entendimiento y la utilización de nuevas herramientas para el uso adecuado de los recursos naturales, en especial el que se refiere al recurso hídrico, teniendo en cuenta, por supuesto, un desarrollo sostenible para Colombia. Otro aspecto importante de este proyecto tiene que ver precisamente con el sentido investigativo de la Maestría en Hidrosistemas, para lo cual se tomó información de una de las cuencas más importantes de Colombia, la cuenca de los ríos Magdalena y Cauca, para investigar y comprobar las hipótesis planteadas como objetivos de esta investigación. Para difundir los resultados de este proyecto, se presentó una ponencia a unos de los eventos científicos internacionales más importantes (sino el más importante) en el tema de Ecohidráulica y Caudales Ecológicos. Se trata del 9no Simposio Internacional en Ecohidráulica, que se desarrollará en septiembre de 2012 en Austria, y el nombre de la ponencia es Stream Classification and Assessment of Hydrologic Alterations towards an Environmental Flow Appraisal of The Magdalena-Cauca River Basin (Colombia). El documento se divide en varios capítulos. Aparte de este primer capítulo introductorio, a continuación se presenta un Capítulo 2 de Aspectos Generales donde se describe entre otros temas la justificación de esta investigación, se plantea el problema y la pregunta de investigación y finalmente se presentan los objetivos del proyecto. Posteriormente en el Capítulo 3 se presenta el Marco Teórico y Estado del Arte donde se muestra la esencia conceptual y teórica que subyace a los ejes fundamentales de esta investigación y donde se muestra también a manera de antecedentes cuál ha sido el avance de estos temas en el mundo y particularmente en Colombia. 2 A continuación, en el Capítulo 4 denominado Metodología, se presenta el modelo metodológico planteado para el desarrollo de esta investigación. En el Capítulo 5 se presenta un ejemplo ilustrativo hecho paso a paso, que sirvió para el completo entendimiento del método de Kohonen y con base en el cual se pudo desarrollar un aplicativo computacional inicial del método para clasificar información. Dicho aplicativo fue validado con la información del ejemplo ilustrativo. El Capítulo 6 contiene inicialmente el diseño experimental planteado para lograr los objetivos propuestos y posteriormente, tomando como ejemplo una de las tipologías de variables planteadas, se describen los resultados que se obtienen con el aplicativo computacional desarrollado para la clasificación de corrientes en la cuenca Magadalena-Cauca. El aplicativo computacional descrito en este capítulo difiere del aplicativo presentado en el capítulo anterior, pues para este caso se desarrolló un aplicativo que contiene el Toolbox de Matlab para redes neuronales, específicamente el de Mapas Autorganizados de Kohonen (SOM), ya que proporciona diferentes gráficas para el análisis de resultados. El Capítulo 7 contiene el análisis de los resultados obtenidos en el proceso de clasificación de corrientes de la cuenca Magdalena-Cauca mediante el método de las Redes de Kohonen, el cual incluye el número de clústeres óptimo para cada tipología de variables. En el Capítulo 8 se encuentra el análisis de invariancia y familiaridad de corrientes frente a diferentes tipologías de variables y la determinación de las variables relevantes en el proceso de clasificación. También se incluye una comparación entre el método de Kohonen y otro método de agrupamiento en el marco de la clasificación de corrientes de la cuenca Magdalena-Cauca. Por último, al final del documento se presentan los Capítulos 9, 10 y 11 que corresponden a los comentarios finales y conclusiones, referencias bibliográficas y Anexos respectivamente. 3 2. ASPECTOS GENERALES Este capítulo contiene aspectos generales del proyecto tales como la motivación y justificación, los cuales permiten introducir el planteamiento del problema y a su vez permiten plantear la pregunta de investigación que da lugar al establecimiento de los objetivos para responderla. 2.1. PLANTEAMIENTO DEL PROBLEMA Y JUSTIFICACIÓN Dentro de la Gestión Integrada del Recurso Hídrico existen más de 200 metodologías para determinar caudales ecológicos, las cuales pueden clasificarse en metodologías hidrológicas, hidráulicas, de simulación de hábitat y holísticas (Diez, 2008). Una de las metodologías más reconocidas y empleadas a nivel mundial se denomina Instream Flow Incremental Methodology o IFIM por sus siglas en inglés (Bovee y Milhous, 1978) y hace parte de las metodologías de simulación de hábitat, sin embargo, esta metodología, al igual que la mayoría de metodologías para determinar caudales ecológicos, es aplicada a tramos de ríos específicos, lo cual limita la posibilidad de abarcar grandes superficies. En algunos casos lo anterior resulta ser una limitación para las autoridades ambientales, cuya jurisdicción puede ser muy amplia y sus recursos económicos limitados. El Marco de referencia Ecological Limits of Hydrologic Alteration (ELOHA) pretende precisamente determinar, así sea de manera gruesa, caudales ecológicos de manera regional. Esta metodología se considera regional porque en vez de asignar caudales ecológicos a cada corriente de manera particular, a partir de un proceso de clasificación y agrupación de corrientes es posible plantear curvas de alteración hidrológica vs respuesta ecológica para cada grupo de corrientes con las cuales se asignan los caudales ecológicos. Lo anterior simplifica el análisis y permite abarcar grandes regiones (Poff y otros, 2010). Dentro de ELOHA son varios los retos a afrontar para obtener resultados satisfactorios. Específicamente en el proceso científico se destacan dos aspectos de las múltiples actividades que se deben realizar: la clasificación de corrientes y la obtención de las curvas de alteración hidrológica vs respuesta ecológica, claro está que la obtención de curvas de alteración-respuesta depende en gran medida de una óptima clasificación de corrientes, pues entre mejor sea el proceso de clasificación desde el punto de vista ecohidrológico, más representativas serán las curvas de alteración-respuesta. En consecuencia, la actividad de clasificación de corrientes dentro del proceso científico de ELOHA se considera una actividad fundamental para garantizar el 4 éxito de esta metodología, no obstante, esta actividad puede resultar en un proceso altamente complejo y difícil de llevar a cabo. Por ejemplo, autores como Wagener y otros (2008), perciben el problema de clasificación de cuencas hidrológicas como un problema que aún no se ha resuelto porque los hidrólogos en esta materia no tienen un sistema de clasificación de cuencas generalmente aceptado, lo cual en parte se debe a que las clasificaciones actuales no son dinámicas y en este sentido desconocen que los aspectos que caracterizan las cuencas van cambiando en el tiempo. Adicionalmente, estos autores resaltan la necesidad de observar cada cuenca desde una perspectiva más holística que involucre diferentes tipos de variables, para lo cual sugieren un marco conceptual para el proceso de clasificación de cuencas. Existen muchas metodologías que se pueden aplicar para el proceso de clasificación de corrientes. Tradicionalmente dentro de la hidroclimatología se han empleado métodos de clasificación de tipo jerárquico y no jerárquico como Ward y K-means respectivamente, sin embargo, éstos requieren de un proceso supervisado, es decir, de asignar predeterminadamente el número de grupos para supervisar y calibrar el proceso de clasificación (Lin y Chen, 2006). Lo anterior resulta ser una limitación, pues un proceso ideal de clasificación no sólo debe agrupar información homogénea en grupos lo suficientemente heterogéneos, sino que idealmente debería identificar qué variables condicionan el agrupamiento e identificar el número de grupos que realmente representan la información analizada, siendo este último aspecto el más difícil de responder ya que no existe forma de encontrar de manera objetiva y predeterminada el número de grupos usando los métodos convencionales de clasificación. En la práctica se escoge predeterminadamente el número de grupos mediante aproximaciones subjetivas y ensayos de prueba y error. En este sentido las redes de Kohonen se postulan como una metodología de clasificación que no necesita de un proceso de aprendizaje supervisado y en consecuencia tampoco necesita de manera predeterminada el número de familias o clústeres. Teniendo en cuenta esta característica y enfocando la problemática a la clasificación de corrientes en la cuenca Magdalena-Cauca dentro del marco de referencia ELOHA, se abre la posibilidad de plantear preguntas que con los métodos de clasificación tradicionales no es posible responder eficientemente como las que se enuncian a continuación: ¿Existe un único número de grupos de corrientes que represente ecohidrológicamente la cuenca Magdalena-Cauca? ¿Cuáles variables determinan la conformación de ese único número de grupos? ¿Existen grupos de corrientes específicas dentro de la cuenca Magdalena-Cauca que permanezcan dentro de un mismo grupo independientemente de la tipología de variables que se emplee en el proceso de clasificación? 5 A pesar de que el problema de clasificación dentro de ELOHA aplicado a la cuenca Magdalena-Cauca se puede resolver con metodologías de clasificación convencionales, responder las preguntas planteadas anteriormente soportaría mejor este proceso pues se lograría una mejor representación de la cuenca Magdalena-Cauca desde el punto de vista ecohidrológico y también se obtendrían resultados más óptimos. Adicionalmente, mediante la aplicación del método de Kohonen se evitaría emplear criterios subjetivos para obtener el número de familias para representar ecohidrológicamente la cuenca y por el contrario se obtendría el número de familias que en realidad subyace a la información de las corrientes de la cuenca en cuestión. Si bien las redes de Kohonen no se han aplicado al tema específico de clasificación de corrientes dentro de ELOHA y tampoco a la clasificación ecohidrológica de la cuenca Magdalena-Cauca, éstas han sido ampliamente utilizadas a nivel mundial para regionalización hidrológica, especialmente a partir de eventos extremos, obteniendo, incluso, mejores resultados que metodologías comunes de clasificación (Lin y Chen, 2006). En síntesis, en el caso particular de esta investigación, las características de las redes de Kohonen, concretamente la de aprendizaje no supervisado, postulan a este método de clasificación como un método adecuado para establecer óptima y objetivamente cuál es el número de grupos que en realidad subyace a la información ecohidrológica de las corrientes de la cuenca Magdalena-Cauca, aspecto principal de la investigación. Con los otros métodos no existe una forma objetiva de responder esta pregunta ya que es necesario establecer predeterminadamente el número de grupos en el cual se desea clasificar cualquier tipo de información. Teniendo en cuenta los aspectos mencionados anteriormente, especialmente la característica de no supervisión en el proceso de aprendizaje de las redes de Kohonen (no asignación predeterminada del número de grupos) y la evidente complejidad en la clasificación de corrientes de la cuenca Magdalena-Cauca enmarcada dentro de ELOHA, surge la siguiente pregunta de investigación: Cuál es el grado de invariancia del número de grupos y corrientes familiares de la cuenca Magdalena-Cauca para diferentes tipologías de variables de clasificación y qué variables determinan dicha invariancia dentro del marco de referencia ELOHA? 2.2. OBJETIVOS DE LA INVESTIGACION Para responder la pregunta de investigación planteada anteriormente se proponen los siguientes objetivos. 6 2.2.1. Objetivo General Agrupar con criterio ecohidrológico las corrientes de la cuenca Magdalena-Cauca dentro del marco de referencia ELOHA mediante mapas autorganizados de Kohonen. 2.2.2. Objetivos específicos • Identificar el número óptimo de familias en función de cada tipología de variables empleada en el proceso de clasificación de corrientes en la cuenca Magdalena-Cauca y dentro del marco de referencia ELOHA. • Identificar cuáles son los posibles grupos de corrientes que son invariantes a la tipología de variables empleada en la clasificación. • Identificar las variables más relevantes de cada tipología de variables empleada en el proceso de clasificación. 2.3. ALCANCES DE LA INVESTIGACIÓN Se diferencian 3 tipos de alcances: el alcance conceptual y metodológico y el alcance espacial y de información. Desde el punto de vista conceptual, esta investigación fue concebida para desarrollarse dentro del marco de referencia ELOHA, por consiguiente, los criterios y las variables a tener en cuenta dentro del proceso de clasificación de corrientes deben corresponder precisamente a los que contempla ELOHA, no obstante, teniendo en cuenta que ELOHA a pesar de ser una metodología compleja y holística, es sobre todo una metodología adaptativa y flexible, es posible incluir dentro del proceso de clasificación variables de tipo social y ecológico si se considera pertinente. De otro lado, desde el punto de vista espacial y de información, es preciso recalcar que el proceso de clasificación de corrientes que se plantea en esta investigación se aplicará a la cuenca Magdalena-Cauca únicamente con información secundaria. Finalmente, desde el punto de vista metodológico existen muchas metodologías para llevar a cabo el proceso de clasificación, sin embargo se van a emplear únicamente las Redes de Kohonen, pues como ya se describió anteriormente esta metodología se caracteriza ventajosamente frente a las otras metodologías en que no necesita fijar de manera predeterminada el número de familias y en este 7 sentido esta herramienta serviría para responder eficaz y eficientemente la pregunta de investigación planteada anteriormente. También es preciso aclarar que debido a que las redes de Kohonen son modelos guiados por datos y por tanto no se apoyan en la física propia de los problemas para resolverlos, no es posible discernir fácilmente acerca de los procesos hidrológicos, ecológicos, geográficos, etc. que condicionan el proceso de clasificación. 8 3. MARCO TEÓRICO Y ESTADO DEL ARTE Este capítulo contiene el marco teórico y estado del arte referente a los dos temas principales que le competen a esta investigación: La Ecohidrología, más específicamente los caudales ecológicos a nivel regional representados en el marco de referencia ELOHA, y la clasificación de información o “Clustering”, que en este caso se refiere concretamente al proceso de clasificación de corrientes dentro de ELOHA. En cada caso, a manera de antecedentes se describe el estado del arte de los dos ejes fundamentales de esta investigación. 3.1. LÍMITES ECOLÓGICOS DE ALTERACIÓN HIDROLÓGICA (ELOHA) El marco de referencia para la determinación de caudales ecológicos ELOHA (Ecological Limits of Hydrologial Alteration o Límites Ecológicos de Alteración Hidrológica en español), hace parte de lo que se denominan Caudales Ecológicos (E-flows en inglés), los cuales a su vez se ubican dentro de lo que la UNESCO ha denominado el nuevo paradigma en el uso sustentable de los recursos hídricos: la Ecohidrología. Esta disciplina, que combina la Ecología y la Hidrología, surgió en 1992 en Dublin durante las conclusiones de la Conferencia Internacional sobre el Agua y el Ambiente en el marco del Programa Hidrológico Internacional (UNESCO, 2007). En la Figura 3.1 se muestra un esquema conceptual de la relación entre los conceptos que se encuentran enmarcados dentro de la Gestión Integrada de Recursos Hídricos (GIRH o IWRM por sus siglas en inglés) según la UNESCO. Figura 3.1. Relación entre los conceptos claves de la Gestión Integrada del Recurso Hídrico (Tomado de UNESCO, 2007). 9 Si bien existen muchas definiciones acerca del término Caudal Ecológico o Caudal Ambiental, especialmente si se tiene en cuenta que todavía está abierta la discusión a nivel mundial acerca de las diferencias entre estos dos términos (Ingfocol, 2010), se considera pertinente la definición que el Ministerio de Ambiente, Vivienda y Desarrollo Territorial (MAVDT) propuso en su proyecto de resolución acerca de este tema: “Caudal Ambiental: Volumen de agua necesario en términos de calidad, cantidad, duración y estacionalidad para el sostenimiento de los ecosistemas acuáticos y para el desarrollo de las actividades socioeconómicas de los usuarios aguas abajo de una fuente” (MAVDT, 2010). La mayoría de metodologías para determinar caudales ecológicos se enfocan en un tramo de río, lo cual impide a las autoridades ambientales cubrir rápidamente su jurisdicción y reglamentar las concesiones de agua con un criterio profundamente científico pero teniendo en cuenta el uso del recurso hídrico para el desarrollo de las regiones. Ecological Limits of Hydrologic Alteration (ELOHA) es una metodología que surgió conceptualmente en 2006 precisamente con el objeto de abarcar grandes territorios en materia de caudales ambientales regionales (Arthington y otros, 2006). Se trata de una metodología adaptativa que se divide en tres procesos fundamentales: el científico, el social y el de monitoreo. En el proceso científico se obtienen los insumos e información necesarios para negociar entre los diferentes actores el régimen de caudales ambientales que se acuerda en el proceso social. El proceso de monitoreo es el que hace de esta metodología una metodología adaptativa, pues en él es posible evaluar, adaptar y corregir los modelos, las hipótesis y la información empleada en los procesos científico y social. En la Figura 3.2 se puede observar el esquema metodológico de ELOHA. 10 Figura 3.2. Esquema metodológico de ELOHA (Tomado de Poff y otros, 2010). En la Figura 3.2 es posible observar que dentro del proceso científico existen cuatro pasos cuyo objetivo es obtener las curvas que relacionan la alteración hidrológica con la respuesta ecológica para cada familia de corrientes. Estos cuatro pasos son: 1. Fundamento hidrológico: busca obtener los hidrogramas antes y después del desarrollo de cada alteración analizada. En ocasiones es necesario implementar modelos hidrológicos que permitan obtener esos hidrogramas, dada la ausencia de información en los puntos de interés. 2. Clasificación de corrientes: Este paso es el que permite que esta metodología sea de tipo regional ya que para abarcar grandes territorios resulta necesario agrupar las corrientes de características similares y hacer los análisis subsiguientes para cada grupo de corrientes. Las corrientes del área de estudio se deben clasificar según sus coincidencias geomorfológicas e hidrológicas especialmente. Este paso es uno de los dos ejes fundamentales de esta investigación. 3. Alteración de caudales: con el fin de establecer las implicaciones que tienen las alteraciones o “desarrollos” en cada tipo de río o corriente, es necesario inicialmente medir los impactos que éstas generan desde el punto de vista 11 hidrológico para poder relacionar el grado de alteración hidrológica con el grado de alteración ecológica (siguiente paso). Existen diferentes programas de computador como IHA (Indicators of Hydrologic Alterations) que permiten evaluar la alteración hidrológica (TNC, 2011). 4. Relaciones caudal ecológica: con base en la clasificación de corrientes se deben construir curvas con la respuesta ecológica que cada tipo de río presenta ante los diferentes grados de alteración hidrológica. En este caso resulta importante que por cada familia de corrientes se tengan por lo menos tres puntos o corrientes con diferentes grados de alteración hidrológica para poder construir las curvas. En caso de ausencia de información, los expertos pueden plantear curvas teóricas o esperadas que deberán ser validadas en el proceso de monitoreo. Estas curvas permitirán establecer en el proceso social las condiciones ecológicas deseadas en función de una alteración hidrológica o un aprovechamiento hídrico específico, asociado a cada familia de corrientes. 3.1.1. Antecedentes de ELOHA en Colombia El marco de referencia ELOHA, a pesar de ser una metodología relativamente nueva, se ha aplicado con éxito en varios países como Estados Unidos, China, Australia (Kennard y otros, 2010) y recientemente en Colombia donde Ingfocol Ltda aplicó para TNC (The Nature Conservancy) y el MAVDT el marco de referencia ELOHA en la cuenca Magdalena-Cauca hasta obtener las relaciones entre la alteración hidrológica y la respuesta ecológica para cada una de las familias obtenidas en el proceso de clasificación (Ingfocol, 2010). Teniendo en consideración que este último aspecto, el de la clasificación de corrientes dentro de ELOHA, es uno de los temas fundamentales dentro de esta investigación, a continuación se describen con mayor profundidad los resultados que se obtuvieron en este proyecto en lo que al tema de clasificación de corrientes dentro de la cuenca Magdalena-Cauca se refiere. En el estudio de Ingfocol Ltda desarrollado en 2010 se llevó a cabo un proceso de clasificación ecohidrológica de corrientes para el cual se emplearon 174 estaciones hidrológicas pertenecientes al IDEAM y varios métodos de clasificación como son: análisis de componentes principales, análisis de correlación lineal, conocimiento experto, Clústeres de tipo jerárquico y no jerárquico y árboles de decisión (Ingfocol, 2010). La complejidad de agrupar familias de corrientes de la cuenca Magdalena-Cauca desde el punto de vista ecohidrológico hizo que después de varios ensayos aplicando los métodos descritos anteriormente por si solos, fuera necesario introducir el criterio de expertos con lo cual finalmente la clasificación de corrientes se hizo en dos etapas: una primera clasificación de regímenes hidrológicos basada en la elevación de las estaciones analizadas, en la cual se obtuvieron 6 12 familias de corrientes y una subclasificación de esas familias en función de los hidrogramas anuales promedio de cada familia. A pesar de la primera etapa de clasificación y debido a la complejidad del conjunto de hidrogramas anuales promedio de cada familia, en el proceso de subclasificación fue necesario emplear nuevamente los métodos de clasificación que ya se mencionaron. Adicionalmente, en los casos donde estos métodos no arrojaron resultados satisfactorios, fue necesario emplear nuevamente el criterio de expertos mediante la clasificación no sistematizada de los hidrogramas, lo cual resalta la complejidad que se esconde en el proceso de clasificación ecohidrológica de corrientes en la cuenca Magdalena-Cauca. Inicialmente se tuvieron en cuenta 73 variables para el proceso de clasificación, la cuales se muestran en la Tabla 3.1. De estas 73 variables, 68 corresponden a parámetros obtenidos de IHA, 3 a las coordenadas espaciales de la estación y las 2 restantes a los dos primeros momentos estadísticos de las series de cada estación hidrológica analizada. Es de aclarar que la variable No. 27 no se obtiene del software IHA directamente, sino que se calcula a partir de sus resultados. Tabla 3.1. Variables iniciales tenidas en cuenta dentro del proceso de clasificación de corrientes en la cuenca Magdalena-Cauca (Tomado de Ingfocol, 2010). No. CLASIFICACIÓN NOMBRE DESCRIPCIÓN October Caudal medio de Octubre 2 November Caudal medio de Noviembre December Caudal medio de Diciembre January Caudal medio de Enero February Caudal medio de Febrero March Caudal medio de Marzo April Caudal medio de Abril May Caudal medio de Mayo June Caudal medio de Junio July Caudal medio de Julio August Caudal medio de Agosto September Caudal medio de Septiembre 1-day min Mínimos anuales, media de 1 día 3-day min Mínimos anuales, media de 3 días 7-day min Mínimos anuales, media de 7 días 30-day min Mínimos anuales, media de 30 días 90-day min Mínimos anuales, media de 90 días 1-day max Máximos anuales, media de 1 día 3-day max Máximos anuales, media de 3 días 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 IHA - PARÁMETROS IHA (INDICADORES DE ALTERACIÓN HIDROLÓGICA) 1 13 No. CLASIFICACIÓN NOMBRE DESCRIPCIÓN 20 7-day max 21 30-day max Máximos anuales, media de 30 días 22 90-day max Máximos anuales, media de 90 días 23 Zero days Cantidad de días con caudal cero 24 Base flow Índice de flujo base: caudal mínimo de 7 días/caudal medio anual 25 Date min Fecha juliana de cada mínimo anual de 1 día 26 Date max Fecha juliana de cada máximo anual de 1 día 27 Nm Cuatrimestre en que ocurre el flujo más alto 28 Lo pulse # Cantidad de pulsos bajos en cada año hidrológico 29 Lo pulse L Media de la duración de los pulsos bajos en días 30 Hi pulse # Cantidad de pulsos altos en cada año hidrológico 31 Hi pulse L 32 Rise rate 33 Fall rate 34 Reversals Media de la duración de los pulsos altos en días Tasas de ascenso: Media de todas las diferencias positivas entre valores diarios consecutivos Tasas de descenso: Media de todas las diferencias negativas entre valores diarios consecutivos Cantidad de inversiones hidrológicas Máximos anuales, media de 7 días Oct lowf Valor medio de los caudales bajos de Octubre 36 Nov lowf Valor medio de los caudales bajos de Noviembre Dec lowf Valor medio de los caudales bajos de Diciembre Jan lowf Valor medio de los caudales bajos de Enero Feb lowf Valor medio de los caudales bajos de Febrero Mar lowf Valor medio de los caudales bajos de Marzo Apr lowf Valor medio de los caudales bajos de Abril May lowf Valor medio de los caudales bajos de Mayo June lowf Valor medio de los caudales bajos de Junio July lowf Valor medio de los caudales bajos de Julio Aug lowf Valor medio de los caudales bajos de Agosto Sept lowf Valor medio de los caudales bajos de Septiembre 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 IHA - PARÁMETROS EFC (COMPONENTES DEL CAUDAL ECOLÓGICO) 35 Xlow1 peak Valor medio del caudal extremadamente bajo Xlow1 dur Media de la duración del caudal extremadamente bajo Fecha juliana del caudal extremadamente bajo Frecuencia de los caudales extremadamente bajos durante el año Xlow1 freq hidrológico High1 peak Valor medio de los eventos de pulso alto Xlow1 time High1 dur Media de la duración de los eventos de pulso alto High1 time Fecha juliana de los eventos de pulso alto High1 freq Frecuencia de los eventos de pulso alto High1 rise Tasa de ascenso de los eventos de pulso alto High1 fall Tasa de descenso de los eventos de pulso alto 14 No. CLASIFICACIÓN NOMBRE DESCRIPCIÓN 57 Sfld1 peak Valor medio de las pequeñas inundaciones 58 Sfld1 dur Media de la duración de las pequeñas inundaciones 59 Sfld1 time Fecha juliana de las pequeñas inundaciones 60 Sfld1 freq Frecuencia de las pequeñas inundaciones 61 Sfld1 rise Tasa de ascenso de las pequeñas inundaciones 62 Sfld1 fall Tasa de descenso de las pequeñas inundaciones 63 Lfld1 peak Valor medio de las grandes inundaciones 64 Lfld1 dur Media de la duración de las grandes inundaciones 65 Lfld1 time Fecha juliana de las grandes inundaciones 66 Lfld1 freq Frecuencia de las grandes inundaciones 67 Lfld1 rise Tasa de ascenso de las grandes inundaciones 68 Lfld1 fall Tasa de descenso de las grandes inundaciones Media Valor medio del caudal CV Coeficiente de variación del valor medio del caudal Elev Elevación de la estación hidrológica X Coordenada "X" de la estación hidrológica Y Coordenada "Y" de la estación hidrológica 69 70 MOMENTOS ESTADÍSTICOS 71 72 73 COORD. ESPACIALES En el Anexo A se encuentran los valores de las 73 variables para cada una de las 174 estaciones hidrológicas analizadas. Es preciso mencionar que la Tabla de datos que se muestra en este anexo también corresponde a la información base de clasificación tomada para el desarrollo de esta investigación. Adicionalmente, este Anexo A también incluye los valores estandarizados de las 73 variables en cada una de las 174 estaciones que servirán para clasificar las corrientes con el método de Kohonen. Como ya se mencionó, para el proceso de clasificación de corrientes dentro de este proyecto, fue necesario realizar un análisis de componentes principales y de correlación lineal con el fin de determinar qué variables realmente eran relevantes para la clasificación de corrientes y así disminuir considerablemente el número de variables de análisis. Este análisis estuvo acompañado de una selección de variables hidrológicas en función de su relevancia ecológica y adicionalmente todo el proceso de clasificación estuvo acompañado y validado por conocimiento de expertos en la cuenca Magdalena-Cauca. Después de llevar a cabo este análisis conjunto se obtuvieron las 26 variables que se muestran a continuación en la Tabla 3.2. 15 Tabla 3.2. Variables definitivas para el proceso de clasificación después del análisis de componentes principales y correlación lineal entre variables (Tomado de Ingfocol, 2010). No. VARIABLE No. VARIABLE 1 Número de días con flujo cero 14 Magnitud de pequeñas inundaciones 2 Índice de flujo base 15 Duración de pequeñas inundaciones 3 Cuatrimestre en que ocurre el flujo más alto 16 Frecuencia de pequeñas inundaciones 4 Tasa de ascenso del flujo 17 Tasa de ascenso de pequeñas inundaciones 5 Número de inversiones al año 18 Tasa de descenso de pequeñas inundaciones 6 Magnitud del flujo extremo bajo 19 Magnitud de grandes inundaciones 7 Duración del flujo extremo bajo 20 Duración de grandes inundaciones 8 Frecuencia de flujos extremos bajos 21 Frecuencia de grandes inundaciones 9 Magnitud de flujos altos 22 Tasa de ascenso de grandes inundaciones 10 Duración de flujos altos 23 Tasa de descenso de grandes inundaciones 11 Frecuencia de flujos altos 24 Caudal medio diario 12 Tasa de ascenso de flujos altos 25 Coeficiente de variación del caudal medio diario 13 Tasa de descenso de flujos altos 26 Elevación de la estación Con estas 26 variables se realizó el análisis de agrupamiento o clasificación, para lo cual, mediante el software Waikato Environment for Knowledge Analysis (WEKA) de la Universidad de Waikato, Nueva Zelanda (Hall et al, 2009), se aplicaron varios métodos de Clústeres de tipo jerárquico y no jerárquico como son el método de K-means y el clúster con distribución de probabilidad. Finalmente se encontró que el método que arrojó los mejores resultados era el EM (Expectation Maximization). Dada la complejidad de la información analizada, el análisis de clúster tuvo que ser complementado en dos oportunidades por conocimiento experto de la cuenca Magdalena-Cauca. Un aspecto importante de este proyecto que tiene que ver directamente con el objetivo principal de esta investigación fue el criterio empleado para establecer el número de grupos, ya que los métodos empleados para la clasificación de corrientes, así como la mayoría de métodos de clasificación, necesitan este parámetro como dato de entrada. Precisamente es este aspecto el que le da la importancia a las Redes de Kohonen, que se describirán posteriormente, como método de clasificación de información, pues como su aprendizaje es no supervisado, no necesita como parámetro de entrada el número de grupos. En este proyecto, el criterio empleado para determinar el número de grupos fue el de la máxima verosimilitud. En la Figura 3.3 se puede observar como el logaritmo de la verosimilitud crece a medida que aumenta el número de grupos, no obstante, existen segmentos de la curva que muestran que a pesar de que aumenta el número de grupos, no hay ganancia en la verosimilitud, y son precisamente estos segmentos de tasa de variación igual a cero los que se emplearon como criterio 16 para escoger el número de grupos. Este aspecto evidencia la gran dificultad que se tiene en la determinación del número de grupos en los análisis de clasificación de información. Figura 3.3. Logaritmo de la verosimilitud en función del número de clústeres (Tomado de Ingfocol, 2010). Teniendo en cuenta que el análisis de clasificación fue validado, por un lado, por los expertos que participaron en los talleres y, por otro, contrastando los resultados con mapas de geomorfología de la cuenca Magdalena-Cauca elaborados anteriormente por diversas entidades, finalmente se obtuvieron 6 familias de corrientes y 23 subfamilias. Uno de los aspectos clave logrado en los talleres de expertos consistió en que los grupos de regímenes hidrológicos debían hacerse en función de los rangos de altitud, lo cual era consistente con las divisiones geomorfológicas. En la Figura 3.4Figura 3.5 se puede observar un esquema del proceso de clasificación desarrollado y en la Figura 3.5 y la Figura 3.6 se pueden observar de manera gráfica los resultados obtenidos. 17 Figura 3.4. Resumen del proceso de clasificación de corrientes en la cuenca Magdalena-Cauca (Tomado de Ingfocol, 2010). 18 FAMILIAS PÁRAMO (> 3000 msnm) ALTA MONTAÑA (2000 – 3000 msnm) MEDIA MONTAÑA (800 – 2000 msnm) PIEDEMONTE (500 – 800 msnm) BAJA MONTAÑA (< 500 msnm) PLANICIE DE INUNDACIÓN (< 500 msnm) Figura 3.5. Distribución de las familias obtenidas en la cuenca Magdalena-Cauca (Tomado de Ingfocol, 2010). 19 Figura 3.6. Subclasificación (Subfamilias) de corrientes para cada una de las 6 familias obtenidas (Tomado de Ingfocol, 2010). 20 Continuación Figura 3.6. Subclasificación (Subfamilias) de corrientes para cada una de las 6 familias obtenidas (Tomado de Ingfocol, 2010). 21 Continuación Figura 3.6. Subclasificación (Subfamilias) de corrientes para cada una de las 6 familias obtenidas (Tomado de Ingfocol, 2010). 22 3.2. AGRUPAMIENTO DE INFORMACIÓN Teniendo en cuenta que el eje principal de esta investigación radica en la clasificación de corrientes de la cuenca Magdalena-Cauca dentro del marco de referencia ELOHA, a continuación se describen con mayor profundidad los aspectos conceptuales y teóricos relevantes para esta investigación en cuanto a clasificación o agrupamiento de información se refiere. Los objetivos planteados en esta investigación, así como la justificación descrita en un capítulo anterior, postulan a las Redes de Kohonen como el método más adecuado para cumplir dichos objetivos, lo cual hace que el marco teórico y conceptual que a continuación se desarrolla, se enfoque principalmente en esta metodología de agrupamiento. Cuando se habla de agrupamiento de información (“Clustering” en inglés), finalmente lo que se busca es clasificar la información de análisis en grupos que sean heterogéneos entre sí, pero maximizando la homogeneidad al interior de cada grupo, con lo cual se espera que las observaciones o patrones que conforman un grupo conserven características similares y al mismo tiempo se diferencien lo suficiente de observaciones de otros grupos. Lo anterior permite sintetizar el análisis de grandes conjuntos de observaciones al análisis de grupos con características similares. Esto resulta muy útil en este caso, pues es posible asignar caudales ecológicos a grupos de corrientes con características similares, evitando analizar cada tramo de río en particular, lo cual permite gestionar y administrar el recurso hídrico abarcando grandes regiones de una forma mucho más rápida que con metodologías que analizan tramos de ríos individualmente. Los métodos convencionales de agrupamiento se pueden dividir en métodos de tipo jerárquico y no jerárquico o particional. También existen métodos de agrupamiento no convencionales como las Redes Neuronales Artificiales, concretamente las Redes de Kohonen. A continuación se describirán conceptualmente estos tipos de métodos y se profundizará en la teoría y matemática del método de Kohonen, ya que es el método escogido para el desarrollo de esta investigación. 3.2.1. Métodos Jerárquicos Los métodos de agrupamiento jerárquico unen o separan grupos de información similar sucesivamente. Si el método jerárquico es aglomerativo, parte de un número de grupos igual al número de observaciones y los grupos similares se van uniendo hasta formar un solo grupo; es claro que la homogeneidad de cada grupo en este caso se va reduciendo a medida que disminuye el número de grupos. En cambio, si el método jerárquico es divisivo, el funcionamiento es contrario al 23 aglomerativo, es decir que se parte de un grupo que incluye todas las observaciones, el cual se va dividiendo en grupos cada vez más homogéneos hasta obtener un número de grupos igual al número de observaciones. Este tipo de métodos se llama jerárquico porque a medida que se va uniendo o separando la información dependiendo si es aglomerativo o divisivo, se van produciendo grupos a diferentes niveles lo cual establece una jerarquía en la estructuración del agrupamiento. Este proceso de agrupamiento puede representarse mediante un diagrama en forma de árbol que se denomina dendograma. El número de grupos en los que se divide la información analizada depende del nivel o jerarquía que se observe en el dendograma. En esta investigación, lo anterior resulta ser un problema ya que debe escogerse subjetivamente el nivel del dendograma para establecer el número de grupos en los cuales se clasifica la información, a menos de que este número se establezca predeterminadamente o se diseñe un procedimiento para estimar el número de grupos aproximadamente óptimo. Uno de los métodos jerárquicos más conocidos y usados para clasificar información hidrológica, que se tipifica como aglomerativo, es el método de Ward. 3.2.2. Métodos No Jerárquicos o Particionales Los métodos de agrupamiento no jerárquicos o particionales, asumen de entrada un número fijo de grupos a los cuales se les asigna aleatoriamente una de las observaciones o patrones como centroide. El proceso de agrupamiento consiste en que los patrones se van incluyendo al grupo del centroide más cercano y con base en el nuevo agrupamiento, el centroide se recalcula como el valor medio de las observaciones que pertenecen a ese grupo. Este proceso se detiene cuando el valor del centroide no cambia. El método no jerárquico más empleado para el agrupamiento de información es el denominado K-medias (K-means en inglés), sin embargo, su principal desventaja, que además resulta un aspecto clave en esta investigación, radica en que hay que establecer predeterminadamente el número de grupos y por tanto no es posible emplear este tipo de métodos para cumplir el principal objetivo de este proyecto de investigación que precisamente busca establecer el número de grupos que en realidad subyace a la información analizada. Para esta investigación es de interés el método denominado Clustering Difuso (Chiu, 1994), ya que va a ser implementado dentro del proceso de clasificación topológica y adicionalmente se va a usar para comparar el método de Kohonen con otros de métodos de clasificación. 24 3.2.3. Redes de Kohonen Las Redes de Kohonen, también conocidas como Redes Autorganizadas o Mapas Autorganizados de Kohonen (Self-Organizing Maps, SOM) hacen parte de un subconjunto de los Sistemas Inteligentes denominado Redes Neuronales Artificiales o RNA (ver Figura 3.7). Las RNA son modelos de caja negra conocidos a nivel mundial por su alta capacidad para mapear, clasificar, interpolar y reconocer gran cantidad de información. Figura 3.7. Categorías de los Sistemas Inteligentes (Tomado de Hopgood, 2000). Los Mapas Autorganizados de Kohonen usualmente son empleados para clasificar información y reducir el número de variables en un análisis específico, ya que sin importar cuantas variables se tengan, las Redes de Kohonen permiten visualizar la información en planos bidimensionales que conservan y reflejan la estructura de los datos de entrada. La visualización del proceso de clasificación es, tal vez, una de las mayores ventajas que poseen las Redes de Kohonen, pues con otros métodos de clasificación cuando hay más de tres variables la visualización del proceso de clasificación se complejiza enormemente. Este tipo de redes neuronales se caracteriza porque su aprendizaje es no supervisado, ya que no hace falta presentarle a la red patrones de salida para su entrenamiento (supervisión), sino que la red se va modificando y autorganizando conforme va entendiendo mejor la estructura de los datos de entrada. 25 Otra característica importante de este modelo es que su aprendizaje es competitivo, es decir que cada vez que se le presenta un patrón a la red, las neuronas compiten para ver cuál es la que más se le parece. La neurona ganadora se activa mientras que las demás neuronas de la red se inhiben, no obstante, el modelo se calibra haciendo que los pesos de la neurona ganadora, así como los de algunas neuronas cercanas ubicadas dentro de lo que se denomina vecindad, se modifiquen para que la distancia entre éstos y el patrón presentado sea cada vez menor. La actualización de los pesos de las neuronas de la vecindad se pondera de acuerdo con la distancia entre cada neurona y la neurona ganadora. El factor de ponderación para la neurona ganadora tiene un valor de uno y va disminuyendo a medida que aumenta el radio de vecindad. Usualmente se utiliza la función gausiana para ponderar la actualización de los pesos de cada neurona en función del radio de vecindad. Realmente el proceso de la actualización de los pesos en la vecindad de la neurona ganadora es el gran responsable de que este tipo de RNA sea autorganizado, ya que patrones con similares características obligatoriamente deben ubicarse dentro de la misma vecindad. Este aspecto es el que convierte a esta herramienta de clasificación como una de las más potentes. En cierta medida, dependiendo de cuantos patrones tengan la misma neurona ganadora y de la precisión final del modelo, la salida de la red, es decir, los pesos actualizados, son una representación fiel de los patrones de entrada pero de forma organizada, con lo cual es posible diferenciar los grupos de patrones con características similares. 3.2.3.1. Arquitectura de las redes de Kohonen Las Redes de Kohonen están conformadas por una capa de entrada en la cual se presentan los patrones de entrada al modelo y una capa de salida, también conocida como la capa de Kohonen, donde los pesos de las neuronas se actualizan en función de los patrones de entrada. La capa de Kohonen es el espacio bidimensional que se autorganiza en función de la estructura de los patrones de entrada. Cada una de las neuronas de la capa de entrada se conecta con todas las neuronas de la capa de Kohonen o capa de salida. Si bien físicamente no hay conexiones laterales entre neuronas de la misma capa, el concepto de vecindad y sobre todo la actualización de los pesos de la capa de kohonen en función de la vecindad de la neurona ganadora, generan un vínculo de similaridad entre neuronas cercanas que finalmente se ve reflejado en el agrupamiento o autorganización de neuronas con características similares. 26 En la Figura 3.8 se puede observar un esquema de la arquitectura de este tipo de modelo de RNA. Figura 3.8. Arquitectura de las redes de Kohonen. Normalmente se emplea un arreglo bidimensional de neuronas en la capa de salida con el fin de facilitar la visualización de los resultados y la creación de los mapas toplógicos, sin embargo, esta capa de salida puede estructurarse de manera lineal e incluso en 3 dimensiones. Las conexiones entre las capas van de la capa de entrada a la capa de salida, haciendo que la red se alimente hacia adelante (feedforward). Existen varias topologías que condicionan la forma de la vecindad de cada neurona. En la Figura 3.9 se pueden observar las tres topologías más usadas donde las neuronas se diferencian en color rojo. Rectangular Hexagonal Aleatoria Figura 3.9. Topologías más usadas en las redes de Kohonen (Tomado de MathWorks Inc., 2002). La vecindad de una neurona ganadora está conformada por las neuronas más próximas que se ubican alrededor de ella y se distinguen varios grados de 27 vecindad. Por ejemplo, en la Figura 3.10 se muestra una topología rectangular donde se señalan 3 grados de vecindad para una neurona ganadora dada. Figura 3.10. Grados de vecindad en una Topología rectangular (Tomado de MathWorks Inc., 2002). 3.2.3.2. Funcionamiento de las redes de Kohonen El funcionamiento de las Redes de Kohonen se muestra en la Figura 3.11 y los pasos correspondientes se explican posteriormente. 1. Normalización de variables 2. Creación del modelo 3. Inicialización pesos 4. Asignación de parámetros por ciclo 5. Alimentación del modelo y medida de similitud 6. Actualización de pesos NO C=CT SI FIN Figura 3.11. Funcionamiento de las Redes de Kohonen (C: ciclo y CT: total de ciclos). 28 Paso 1: Normalización de variables. Normalizar las variables de los patrones de entrada entre cero y uno para evitar que por los diferentes órdenes de magnitud de las variables influyan de manera equivocada el proceso de clasificación. Paso 2: Creación del modelo de Red. Se crea la capa de Kohonen como un arreglo bidimensional usualmente, estableciendo el número de filas y columnas del arreglo de neuronas y también escogiendo la topología deseada (rectangular, hexagonal, aleatoria, etc). Para diferenciar los grupos de patrones adecuadamente, se recomienda emplear arreglos de neuronas en la capa de salida lo más grandes posible, no obstante, una capa de salida con muchas neuronas aumenta considerablemente los tiempos de entrenamiento Paso 3: Inicialización de pesos de la neuronas. Los pesos de cada neurona se inicializan para poder comparar cada neurona con los patrones de entrada. En este sentido, cada neurona debe tener tantos pesos como variables tengan los patrones de entrada. Se recomienda que los pesos de las neuronas de la capa de salida inicialmente sean cercanos a cero con el fin de que la red pueda empezar a organizarse y clasificar la información rápidamente. La inicialización de los pesos puede hacerse de forma aleatoria o bien puede hacerse de una forma predeterminada si se conoce de antemano la estructura de agrupación de los datos. Paso 4: Establecimiento de los parámetros de modelación por ciclo. Antes de alimentar la red con el primer patrón, es necesario establecer cuántos ciclos se van a realizar. Asimismo se debe establecer cuál va a ser el valor inicial de la vecindad y de la tasa de aprendizaje de la red, además de sus respectivas variaciones a lo largo de los ciclos. Para garantizar una adecuada clasificación de la información, se recomienda realizar un número de ciclos no menor a 500 veces el número de neuronas en la capa de salida. También se recomienda emplear valores de tasa de aprendizaje cercanos a 1 para los primeros ciclos e ir disminuyendo su valor a medida que avanzan los ciclos propuestos. De igual forma, se recomienda en los primeros ciclos emplear un grado de vecindad que cubra toda la capa de salida e ir reduciéndolo a medida que se cumplen los ciclos, incluso hasta que en el último ciclo únicamente se actualicen los pesos de la neurona ganadora. Paso 5: Alimentación del modelo y medida de similitud. En este paso empiezan a contar los ciclos de entrenamiento. Inicialmente se presenta un patrón de entrada al modelo y se calcula alguna medida de similaridad entre dicho patrón 29 y las neuronas de la capa de salida. La neurona que guarde mayor similitud con el patrón de entrada será la neurona ganadora. En caso de que inicialmente existan varias neuronas ganadoras, podrá escogerse alguna de ellas con cualquier criterio, ya que a medida que la red se vaya entrenando, la capa de salida comenzará a autorganizarse y las neuronas se irán especializando en los diferentes patrones, haciendo que sólo exista una neurona ganadora para cada patrón de entrada. Por lo general se emplea la distancia euclidiana como medida de similitud (Ecuación 1), donde dj es la distancia entre el patrón de entrada X y la neurona Wj, siendo a su vez M el número de neuronas de la capa de salida, xi el valor de la variable i del patrón de entrada y wij el peso correspondiente a la variable i de la neurona j. [1] En un ciclo la red puede entrenarse con la alimentación de todos los patrones de entrada o bien puede entrenarse con un solo patrón que puede escogerse ordenadamente o de forma aleatoria. Paso 6: Actualización de los pesos. Una vez se determina la neurona ganadora y se tiene claro el valor de la tasa de aprendizaje y el grado de vecindad según el ciclo correspondiente, los pesos de la neurona ganadora así como los de la vecindad correspondiente deberán actualizarse de acuerdo con la Ecuación 2. [2] Donde Wj representa el conjunto de los pesos de la neurona j, t el ciclo correspondiente, η la tasa de aprendizaje de la red para el ciclo actual, hj el factor de ponderación de la neurona j en función de la vecindad establecida para el ciclo actual con respecto a la neurona ganadora y X el conjunto de variables del patrón presentado a la red. El factor de ponderación de la neurona j en función del ciclo y de la vecindad con respecto a la neurona ganadora normalmente se determina con una función gausiana como la que se presenta en la Ecuación 3. 30 [3] Donde hj es el factor de ponderación de la neurona j, uj es el grado de vecindad de la neurona j teniendo en cuenta que el grado de vecindad de la neurona ganadora con respecto a ella misma, uj*, es igual a 1 y σ es el tamaño de la vecindad escogido para el ciclo actual. Una vez se presentan todos los patrones escogidos para un ciclo de entrenamiento, se vuelve al paso 5 hasta terminar con el número de ciclos establecido. 3.2.3.3. Visualización de los resultados de las Redes de Kohonen Una de las ventajas que tiene este método de clasificación frente a los métodos normalmente empleados, es que sin importar el número de variables incluidas en el proceso de clasificación, la visualización de los resultados se hace sobre mapas bidimensionales. Esto resulta muy útil cuando se tiene una gran cantidad de variables y cuando es muy complejo entender la estructura de los datos. Con este método de clasificación es posible visualizar una variedad de mapas que facilitan la interpretación de los resultados y del modelo como tal. Con respecto a la construcción topológica del modelo se destacan dos mapas: el mapa de la topología del modelo y el mapa de conexiones laterales del vecindario. Es importante reiterar que físicamente en este tipo de RNA no hay conexiones laterales, sin embargo, de acuerdo con la topología escogida para el modelo, se generan diferentes conexiones laterales virtuales entre las neuronas de la capa de salida, de ahí que sea posible visualizar el mapa de conexiones laterales del vecindario. De otro lado, para la visualización e interpretación de los resultados se destacan los siguientes 3 mapas: el de hits, el de variables de entrada y el de distancias entre neuronas; a este último se le conoce también como el mapa UMatrix. Para entender mejor estos mapas, mediante la ilustración de un ejemplo sencillo a continuación se van a describir con más detalle. Estos mapas se elaboraron mediante el ToolBox de Redes Neuronales de Matlab. Suponga que se quiere clasificar la información que se muestra en la Figura 3.12. Evidentemente la información mostrada se puede agrupar en 3 familias diferentes, una por cada disco. Se trata de 956 patrones constituidos por parejas de coordenadas horizontales y verticales. 31 1 Coordenada Y 0.8 0.6 0.4 0.2 0 0 0.2 0.4 0.6 Coordenada X 0.8 1 Figura 3.12. Patrones de entrada – ejemplo para visualización de los mapas de Kohonen. Para resolver este problema de clasificación, se plantea un modelo de red de Kohonen de 400 neuronas distribuidas en un arreglo de 20 filas por 20 columnas. Se determina un valor de 500 para el número de iteraciones. Como se puede observar en la Figura 3.13, en este caso se escogió una topología de tipo hexagonal (neuronas de forma hexagonal también), con lo cual las neuronas que no se encuentran en los bordes de la capa de Kohonen siempre tienen 6 neuronas vecinas con las cuales se conectan virtualmente como se muestra en la Figura 3.14. Estos dos mapas son los que se relacionan con la construcción topológica del modelo. 32 Figura 3.13. Mapa de topología del modelo – ejemplo para visualización de los mapas de Kohonen. Figura 3.14. Mapa de conexiones laterales del vecindario – ejemplo para visualización de los mapas de Kohonen. Con respecto a la visualización de los resultados, como ya se anticipó, existen 3 mapas que se destacan. El primero de ellos es el mapa de hits, donde se resaltan 33 las neuronas ganadoras y en donde el valor que está dentro de cada neurona indica la cantidad de patrones de entrada que cada una de ellas representa, es decir, la cantidad de victorias de cada neurona. El mapa de hits obtenido en este ejemplo se muestra en la Figura 3.15. Figura 3.15. Mapa de hits – ejemplo para visualización de los mapas de Kohonen. Nótese como dentro del mapa de hits existen neuronas cuyo valor es 0, es decir que corresponden a neuronas que no ganaron y en consecuencia no representan a ningún patrón dentro del proceso de clasificación. Teniendo en cuenta que las neuronas ganadoras son una representación de los patrones de entrada y a su vez que los pesos de estas neuronas son una representación de cada una de las variables de los patrones de entrada, es posible visualizar la distribución de los valores de cada una de las variables en el 34 espacio topológico mediante los mapas de variables de entrada. Estos mapas indican qué tan fuerte es la influencia de cada una de las variables en el proceso de clasificación. En la Figura 3.16 se muestran los mapas de las variables de entrada obtenidos para el ejemplo de visualización. Figura 3.16. Mapas de variables de entrada – ejemplo para visualización de los mapas de Kohonen. Por último, uno de los resultados más importantes del método de clasificación de Kohonen es el mapa de distancias entre neuronas, más conocido como el mapa U-Matrix, el cual permite visualizar qué tan diferente es una neurona de la otra; los colores oscuros indican una gran diferencia mientras que los colores claros indican similitud entre neuronas y por tanto entre patrones. Este mapa es el más indicado para visualizar el número de grupos en los que se clasifica la información como se muestra en la Figura 3.17, que corresponde al mapa U-Matrix del ejemplo de visualización y donde se diferencian claramente los 3 grupos de información como era de esperarse. 35 Figura 3.17. Mapa de distancia entre neuronas (U_Matrix) – ejemplo para visualización de los mapas de Kohonen. En la figura anterior es posible identificar dos caminos de color oscuro que dividen el mapa en 3 partes, las cuales corresponden a los tres grupos en los que evidentemente se debía clasificar la información. En este caso particular, dado que el modelo planteado posee una gran cantidad de neuronas, los caminos de color oscuro de la Figura 3.17 también pueden identificarse en algunos sectores como caminos con neuronas de valor 0 en el mapa de hits (Figura 3.15), aunque allí resulta más difícil identificar los diferentes grupos puesto que en modelos con menos neuronas es posible que todas la neuronas sean ganadoras y no se formen caminos con neuronas de valor 0. Adicionalmente, existen aplicaciones en las cuales la clasificación de información pasa a un segundo plano y toma más relevancia el reconocimiento de patrones. Es el caso de la digitalización de información por ejemplo. Si se supone que el objetivo de la aplicación del método de Kohonen en este ejercicio no era clasificar la información sino reconocer fielmente los patrones de entrada, un sexto mapa 36 toma relevancia (ver Figura 3.18). En este sexto mapa, conocido como mapa de ubicación de los pesos de las neuronas, es posible observar como las neuronas se organizan ya no en el espacio topológico sino en el espacio real de la información para representar fielmente los patrones. Figura 3.18. Mapa de ubicación de los pesos de las neuronas – ejemplo para visualización de los mapas de Kohonen. En la Figura 3.18 se observan los patrones de color verde en el fondo y las neuronas de color gris encima. 3.2.3.4. Aplicaciones comunes de los mapas de Kohonen Dentro de las aplicaciones más comunes de los mapas autorganizados de Kohonen se encuentran (Fernández, 2006): 37 • • • • • • • Reconocimiento de patrones Robótica Búsqueda de documentos en la Web (WEBSOM) Compresión de imágenes Cuantificación vectorial y agrupamiento Análisis estadístico y visualización de datos multidimensionales Minería de datos en múltiples campos como reconocimiento de imágenes, discurso hablado, diagnóstico médico, etc.) En Colombia, por ejemplo, se resaltan las investigaciones realizadas con el método de Kohonen por Gaitán (2009) y De Moya (2003), que consistieron en vigilancia tecnológica científica de Ciclos Biogeoquímicos y en representación y clasificación de datos geoespaciales respectivamente. 3.2.4. Antecedentes de clasificación de corrientes hidrológicas Por lo general, el proceso de clasificación de corrientes se hace mediante análisis conjuntos de componentes principales, correlación lineal, análisis de agrupamiento por clústeres (clustering), bien sean de tipo jerárquico o no jerárquico, e incluso mediante conocimiento experto, sin embargo estas metodologías pueden resultar limitadas cuando se trata de problemas complejos como es mapear y agrupar el clima y la hidrología de una región dada. En este sentido, las Redes Neuronales Artificiales, especialmente los Mapas de Kohonen se postulan como una metodología óptima para este tipo de procesos de clasificación (Lin y Chen, 2006). En la literatura existen varios estudios documentados acerca de la clasificación hidroclimatológica de regiones en donde las metodologías más usadas son la de K-means (agrupamiento no jerárquico) y Ward (agrupamiento jerárquico) y especialmente se enfocan al análisis de frecuencia regional como es el caso de Burn, 1989; Guttman, 1993; Guttman y otros, 1993; Lecce, 2000 y Smithers y Schulze, 2001 entre otros. De otro lado, existe literatura acerca de la aplicación de Redes Neuronales Artificiales para clasificación hidroclimatológica de regiones como es el caso de Lin y Chen en 2006, quienes aplicaron las redes de Kohonen para clasificar regiones homogéneas de Taiwán para análisis de frecuencia con base en datos de precipitación efectiva. Por su parte, Mangiameli y otros en 1996 demostraron que el método de los Mapas Autorganizados o mapas de Kohonen obtuvo los mejores resultados con respecto a otros siete métodos de agrupamiento jerárquico. En Colombia, el IDEAM como instituto rector de la hidrología y el clima del país, efectuó una clasificación hidrológica de las cuencas de segundo orden del país con base en las zonas y subzonas hidrográficas (IDEAM, 2009). 38 En cuanto a la clasificación hidroclimatológica de la cuenca Magdalena-Cauca, se destaca por un lado la clasificación de corrientes efectuada por Ingfocol Ltda en 2010, la cual se describió en detalle en la Sección 3.1.1, y por otro lado la clasificación de cuencas efectuada por TNC (The Nature Conservancy) cuyo objetivo era establecer áreas prioritarias para la conservación de la cuenca. El proceso de clasificación de cuencas realizado por TNC se hizo en dos etapas: una clasificación inicial por tamaños de cuenca donde se obtuvieron 4 familias y una segunda clasificación con base en 24 variables de tipo geomorfológico, hidrológico y climático entre otros, con lo cual el resultado final fue un agrupamiento de 105 familias de cuencas de las 505 subcuencas analizadas dentro de la gran cuenca Magdalena-Cauca (TNC, 2009). 39 4. METODOLOGÍA En este capítulo se describen los aspectos metodológicos establecidos para el cumplimiento de los objetivos planteados anteriormente. En términos generales, el proceso metodológico consiste en implementar el método de los mapas autorganizados de Kohonen para clasificar las corrientes de la cuenca MagdalenaCauca, para lo cual se requiere desarrollar un aplicativo computacional que contenga el método de kohonen y lo aplique a los datos de entrada disponibles. Este proceso debe hacerse dentro del marco de referencia ELOHA. En la Figura 4.1 se muestra el esquema metodológico empleado dentro de esta investigación y a continuación se profundiza en cada uno de sus aspectos. Figura 4.1. Diagrama de Flujo del proceso metodológico. 40 Construcción de la Geodatabase. Para esto es necesario obtener toda la información secundaria relevante para el proceso de clasificación, la cual debe estar debidamente almacenada mediante un programa que sea compatible con el programa en el que se realice el método de Kohonen, como por ejemplo Excel o Acces. En el proyecto desarrollado por Ingfocol Ltda en 2010 se construyó una Geodatabase con la cual se llevó a cabo la clasificación de corrientes de la cuenca Magdalena-Cauca, que finalmente, como se describió en el Capítulo 3, se hizo con una variedad de metodologías incluyendo especialmente el criterio de expertos. Para el desarrollo de esta investigación se tomó la misma Geodatabase que empleó Ingfocol, la cual no incluye directamente variables de tipo ecológico ni social, pero contiene variables hidrológicas con relevancia ecológica significativa, como por ejemplo las variables de tipo EFC obtenidas a partir del programa IHA. Desarrollo del aplicativo computacional con el algoritmo de Kohonen. Inicialmente se deberá realizar un ejercicio sencillo de clasificación, el cual deberá contener paso a paso el método para asegurar su entendimiento. Posteriormente se deberá automatizar el método mediante la programación de su algoritmo en un programa que proporcione las ayudas y herramientas adecuadas para el desarrollo del método de Kohonen como por ejemplo Matlab. El algoritmo programado se deberá validar implementando los datos del ejercicio elaborado inicialmente. Finalmente, el programa del método de Kohonen deberá modificarse para poder clasificar las corrientes de la cuenca Magdalena-Cauca y así cumplir los objetivos plateados en esta investigación. Diseño Experimental. Con base en la cantidad y tipología de las variables obtenidas en la Geodatabase, se deberá diseñar un plan experimental para realizar los ensayos que se consideren pertinentes para cumplir los objetivos propuestos en esta investigación. Estos ensayos deberán contemplar diferentes combinaciones de variables, incluyendo la combinación final de 26 variables que se obtuvo en el proyecto desarrollado por Ingfocol Ltda en 2010 (Ver sección 3.1.1). Modelación. Esta fase de la investigación se refiere a la implementación del aplicativo computacional desarrollado anteriormente, tomando como datos de entrada las diferentes combinaciones de variables planteadas en el diseño experimental. Los resultados de cada uno de los ensayos deberán almacenarse adecuadamente con el fin de realizar los análisis posteriores que se relacionan con el cumplimiento de los objetivos planteados. Número de Clústeres óptimo. De acuerdo con los resultados obtenidos en la fase anterior y su respectivo análisis, deberá establecerse cuál es el número de clústeres óptimo para cada una de las tipologías de variables establecidas en el diseño experimental. Este análisis dará cumplimiento al primer objetivo específico planteado en esta investigación. 41 Invariancia de corrientes familiares. Con base en el número de clústeres o familias obtenido para cada tipología de variables, especialmente con los miembros de cada una de esas familias, deberá determinarse cuáles grupos de corrientes son invariantes a pesar de que se empleen diferentes tipologías de variables en el proceso de clasificación. Es posible que no haya grupos de corrientes que con otra tipología de variables permanezca exactamente igual (con los mismos miembros exactamente), sin embargo, sí es posible que haya pequeños grupos de corrientes al interior de los clústeres que permanezcan invariantes frente a diferentes tipologías de variables, lo cual deberá identificarse, pues esto puede indicar una clasificación de corrientes aún más fina. La culminación de esta actividad dará cumplimiento al segundo objetivo específico establecido en este proyecto. Variables relevantes en el proceso de clasificación. Adicionalmente, también con base en los ensayos para los cuales se obtuvo el número de clústeres óptimo de cada tipología de variables, deberá establecerse cuáles son las variables relevantes en el proceso de clasificación. En este caso podrán emplearse otros métodos de clasificación como por ejemplo métodos de tipo jerárquico, en cuyo proceso de clasificación es posible determinar las jerarquías de las variables clasificadoras. Este análisis culminará el cumplimiento de los objetivos específicos estipulados en la Sección 2.2.2. Validación con experiencias de clasificación anteriores en la cuenca MagdalenaCauca. Teniendo en cuenta que en el proyecto desarrollado por Ingofocol Ltda en 2010 se obtuvo una clasificación de corrientes que fue validada por expertos de la cuenca Magdalena-Cauca, deberá establecerse cuál tipología de variables proporciona una clasificación exacta o similar a la obtenida por Ingfocol Ltda en ese entonces. Es posible que la tipología de variables que proporcione los mejores resultados contenga menos variables que las obtenidas por Ingfocol Ltda, lo cual indicaría que este proceso de clasificación para la cuenca Magdalena-Cauca puede hacerse con menos variables y por tanto con mayor facilidad, además de que postularía al método de kohonen como un buen camino no sólo de clasificación sino de optimización del proceso de clasificación en la cuenca Magdalena-Cauca. Comparación con otros métodos de clasificación. Finalmente, con base la tipología que arroje los mejores resultados respecto a la clasificación obtenida por Ingfocol en 2010, se compararán diferentes métodos de clasificación, como es el caso del método de Kohonen y el Clustering Difuso. Mediante un análisis global del desarrollo y los resultados obtenidos en los tres objetivos específicos será posible establecer cuál es la combinación adecuada de variables y a su vez la correspondiente clasificación de corrientes que represente mejor a la cuenca Magdalena-Cauca desde la perspectiva de ELOHA, con lo cual se cumplirá el objetivo general planteado dentro de esta investigación. 42 5. MÉTODO DE CLASIFICACIÓN DE KOHONEN Para una óptima comprensión del proceso de clasificación que lleva a cabo el método de Kohonen, se realizó un ejemplo de clasificación de información, que posteriormente fue automatizado mediante un aplicativo computacional desarrollado en Matlab. Este ejercicio inicialmente fue desarrollado paso a paso mediante el programa de computador Excel. 5.1. EJEMPLO ILUSTRATIVO DEL MÉTODO DE KOHONEN Se realizó un ejercicio de clasificación mediante el método de kohonen para entender a fondo su funcionamiento. El ejercicio consistió en clasificar 6 patrones constituidos por coordenadas en las 3 dimensiones, los cuales se generaron predeterminadamente para que se agruparan en 3 familias como se muestra en la Tabla 5.1. Tabla 5.1. Patrones de entrada del ejemplo de clasificación. PATRON 1 2 3 4 5 6 COORD X COORD Y COORD Z GRUPO 0.3 0.25 0.9 3 0.8 0.8 0.15 1 0.2 0.25 0.2 2 0.35 0.25 0.9 3 0.85 0.85 0.15 1 0.15 0.2 0.1 2 Estos mismos datos pueden observarse de manera gráfica en la Figura 5.1. Como se puede observar, el grupo 3 en las coordenadas X y Y es similar al grupo 2, sin embargo en la coordenada Z se diferenciaron significativamente para ver si el método de kohonen era capaz de separarlos. 43 Grupo 3 0.9 0.8 COORDENADA Z 0.7 0.6 0.5 0.4 0.3 Grupo 2 Grupo 1 0.2 1 0.8 0.6 0.1 1 0.4 0.9 0.8 0.7 0.6 0.2 0.5 0.4 0.3 0.2 0 COORDENADA X COORDENADA Y Figura 5.1. Patrones de entrada del ejemplo de clasificación. Para resolver este problema se planteó un modelo de red auto-organizada con 20 neuronas distribuidas en 5 filas por 4 columnas como se muestra en la Figura 5.2, donde se señala el número de cada neurona en negro y el número de cada fila y columna respectivamente en rojo. F/C 1 2 3 4 1 1 2 3 4 2 5 6 7 8 3 9 10 11 12 4 13 14 15 16 5 17 18 19 20 Figura 5.2. Topología del modelo de red de Kohonen. Teniendo en cuenta que son 3 variables por patrón, se inicializaron los pesos de cada neurona, obteniéndose la matriz que se muestra en la Tabla 5.2. En esta matriz se observa para cada neurona igual número de pesos como variables 44 tienen los patrones. La generación de estos pesos se hizo de forma aleatoria entre 0 y 0.5 para permitirle a la red organizarse más fácilmente. Tabla 5.2. Inicialización de pesos de las 20 neuronas. F/C 1 2 3 4 5 1 2 3 4 0.280 0.178 0.126 0.372 0.182 0.391 0.308 0.023 0.340 0.413 0.386 0.194 0.125 0.168 0.380 0.263 0.154 0.044 0.166 0.148 0.012 0.419 0.012 0.444 0.058 0.465 0.480 0.424 0.246 0.455 0.308 0.322 0.498 0.422 0.367 0.442 0.481 0.022 0.300 0.433 0.481 0.331 0.044 0.342 0.214 0.365 0.445 0.316 0.028 0.181 0.409 0.493 0.193 0.125 0.468 0.043 0.282 0.486 0.433 0.326 Para definir los valores de la tasa de aprendizaje y la vecindad, previamente se determinó que el número de iteraciones iba a ser 5, entendiendo por una iteración en este caso la presentación a la red de los 6 patrones. El valor inicial de la tasa de aprendizaje se estableció en 0.5 y se fue disminuyendo a razón de 0.1 por iteración para culminar con un valor de 0.1. Igualmente, la vecindad para la primera iteración se estableció del tamaño de la red, es decir 5, y fue disminuyendo paulatinamente hasta que en la iteración 5 el valor de la vecindad resultó en 1. En cada iteración, el proceso de aprendizaje de la red consistió en: 1. Presentarle a la red cada uno de los patrones y calcular la distancia euclidiana entre cada neurona y el patrón. 2. Declarar la neurona ganadora como la más cercana al patrón de acuerdo con las distancias euclidianas obtenidas a partir de la Ecuación 4. Por ejemplo, en la Tabla 5.3 se muestran las distancias euclidianas de la red con respecto al patrón 1 de la primera iteración. En rojo se señala la neurona ganadora y en escala de naranjas la magnitud de la distancia euclidiana para cada neurona, siendo naranja oscuro la distancia con mayor magnitud y naranja claro el caso contrario. [4] 45 Tabla 5.3. Distancias euclidianas y neurona ganadora – Patrón 1, iteración 1. F/C 1 2 3 4 5 1 0.7776 0.5185 0.6043 0.7278 0.5548 2 0.8622 0.9038 0.5280 0.5303 0.4620 3 0.4085 0.4882 0.6669 0.6283 0.7380 4 0.6191 0.5655 0.8007 0.6731 0.6305 3. En función de la neurona ganadora, asignarle a todas las neuronas de la red el factor de ponderación según su grado de vecindad y de acuerdo con la función gausina (Ecuación 5). Para el mismo ejemplo, en la Tabla 5.4 se muestra la distribución del factor de ponderación de la red. Nótese como la neurona ganadora tiene un factor de ponderación de 1 y a medida que el grado de vecindad es mayor (colores oscuros) el factor de ponderación va disminuyendo. Es importante resaltar el hecho de que la vecindad de la neurona ganadora va disminuyendo a medida que aumentan las iteraciones, por ejemplo, en la Tabla 5.5 se muestra la distribución del factor de ponderación para el mismo patrón pero en la iteración 3 donde la vecindad también tiene un valor de 3. Nótese como las neuronas fuera de la vecindad (filas 4 y 5 y columna 1) tienen un factor de ponderación nulo, es decir que ya no se actualizan en función de este patrón por encontrarse alejadas de la neurona ganadora correspondiente. [5] Tabla 5.4. Factor de ponderación – Patrón 1, iteración 1. F/C 1 2 3 4 5 1 0.9231 0.9231 0.9231 0.8353 0.7261 2 0.9802 0.9802 0.9231 0.8353 0.7261 3 1.0000 0.9802 0.9231 0.8353 0.7261 4 0.9802 0.9802 0.9231 0.8353 0.7261 Tabla 5.5. Factor de ponderación – Patrón 1, iteración 3. F/C 1 2 3 4 5 1 2 0.8007 0.8007 0.8007 46 3 0.9460 0.9460 0.8007 4 1.0000 0.9460 0.8007 4. Actualización de pesos de la red en función del patrón presentado (Ecuación 6). Los pesos actualizados son los pesos con los cuales se calcula posteriormente la distancia euclidiana para el siguiente patrón. Por ejemplo, en la primera iteración cuando se actualizaron los pesos de la red con respecto al primer patrón, se obtuvieron los pesos que se muestran en la Tabla 5.6, que a su vez fueron el insumo para calcular las distancias euclidianas con respecto al segundo patrón. [6] Tabla 5.6. Pesos actualizados de la red – Patrón 1, iteración 1. F/C 1 2 3 4 5 1 2 3 4 0.2892 0.2112 0.4832 0.3388 0.2134 0.6259 0.3043 0.1278 0.5985 0.3658 0.3292 0.4889 0.1885 0.1978 0.5688 0.2811 0.2010 0.4635 0.2317 0.1980 0.4472 0.3641 0.1219 0.6545 0.1591 0.3752 0.6554 0.3790 0.2475 0.6166 0.3040 0.2860 0.6990 0.3622 0.3097 0.6665 0.3975 0.1272 0.5769 0.3775 0.3845 0.5686 0.1369 0.3086 0.4631 0.3331 0.3494 0.6022 0.1613 0.2148 0.6496 0.4039 0.2193 0.4827 0.3978 0.1295 0.5401 0.4185 0.3666 0.5344 Estos cuatro pasos se repitieron para cada patrón en cada una de las 5 iteraciones planeadas. Las ecuaciones mostradas en los pasos fueron descritas en la Sección 3.2.3.2 de este documento. Finalmente, para cada iteración se calculó el error como la suma de las distancias euclidianas de las 6 neuronas ganadoras correspondientes a cada patrón, obteniéndose la curva que se muestra en la Figura 5.3. Los cálculos detallados de este ejercicio se incluyen en el Anexo B de este documento. 47 VARIACIÓN DEL ERROR 3.5 3.0 ERROR 2.5 2.0 1.5 1.0 0.5 0.0 0 1 2 3 4 5 6 ITERACIÓN Figura 5.3. Variación del error del modelo. Finalmente, en la Figura 5.4 se muestra la ubicación de la neurona ganadora por patrón en cada iteración. Los números señalados en las neuronas ganadoras hacen referencia al patrón respectivo y los colores rojo, azul y verde señalan los grupos 1, 2 y 3 respectivamente. 6 3 1 y 4 3 y 6 1 y 4 2 y 5 ITERACIÓN 1 3 y 6 1 y 4 2 y 5 ITERACIÓN 2 3 y 6 1 y 4 2 y 5 ITERACIÓN 3 3 y 6 1 y 4 2 y 5 ITERACIÓN 4 2 y 5 ITERACIÓN 5 Figura 5.4. Agrupamiento de datos para cada iteración. De la figura anterior es importante destacar que: • Desde la primera iteración clasificó correctamente los grupos 1 (rojo) y 3 (verde), obteniendo los patrones respectivos una sola neurona ganadora. • En la primera iteración, el grupo 2 (azul) quedó asignado en dos neuronas consecutivas por el efecto de la vecindad. Esto resulta consistente ya que los patrones del grupo 2 son los más distanciados entre sí y es normal que de entrada no tengan la misma neurona ganadora, sin embargo, éstas sí deben ser consecutivas como en efecto ocurrió • En la primera iteración, el grupo 2 quedó justo al lado del grupo 3, lo cual también es consistente pues de entrada el modelo los trata de agrupar porque sus coordenadas, con excepción de la coordenada Z, son muy similares. • No obstante, sabiendo que los grupos 2 y 3 se diferencian significativamente en sus coordenadas Z, el modelo los separó desde la iteración 2, ubicándolos en extremos diferentes a pesar de poseer coordenadas X y Y similares. 48 • A partir de la segunda iteración el método clasificó correctamente el 100% de los patrones. De ahí en adelante fue ajustando más los pesos de las neuronas para que representaran mejor a los patrones. 5.2. PROGRAMACIÓN DEL MÉTODO DE KOHONEN Con base en el entendimiento del método y el ejercicio descrito anteriormente, se procedió a programar el método de Kohonen en Matlab. En el Anexo B también se incluye el código desarrollado para emplear el método de Kohonen. Este código fue validado con exactamente los mismos datos del ejercicio de la sección anterior. La comparación de ambos resultados está incluida en el archivo de Excel del ejercicio. Se encontraron diferencias entre los modelos a partir del patrón 2 de la iteración 4, sin embargo, estas diferencias se pueden atribuir a diferencias en los decimales de cálculo entre los dos métodos. En la Tabla 5.7 se muestran los pesos actualizados del patrón 6 en la iteración 5. Como se puede observar, a pesar de encontrar diferencias atribuibles al cálculo con diferentes decimales, el error en la resta de los pesos se ubica en el tercer decimal, lo cual indica que ello es aceptable al igual que el código desarrollado. Tabla 5.7. Comparación de los pesos actualizados para el patrón 6 de la iteración 5 entre el ejercicio de Excel y el código de Matlab. F/C 1 2 3 4 5 1 2 3 4 0.0000 0.0000 0.0000 0.0022 0.0018 0.0014 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0013 0.0003 0.0056 0.0021 0.0011 0.0050 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 -0.0012 -0.0001 -0.0045 -0.0008 0.0003 -0.0047 0.0000 0.0000 0.0000 -0.0040 -0.0040 0.0013 -0.0016 -0.0015 0.0004 0.0000 0.0000 0.0000 0.0001 0.0008 -0.0030 0.0000 0.0000 0.0000 -0.0040 -0.0040 0.0013 0.0000 0.0000 0.0000 49 6. PROCESO DE CLASIFICACIÓN DE CORRIENTES DE LA CUENCA MAGDALENA-CAUCA MEDIANTE EL MÉTODO DE KOHONEN En este capítulo se describe el proceso de clasificación de corrientes de la cuenca Magdalena-Cauca tomando como ejemplo uno de los ensayos propuestos dentro de la investigación. En el siguiente capítulo se muestran de manera resumida los resultados obtenidos en todos los ensayos. La descripción de estos resultados inicia con el diseño experimental que incluye la presentación del aplicativo computacional empleado para la clasificación de corrientes y finaliza con los resultados obtenidos en el ensayo que se tomó como ejemplo para la descripción de los resultados. 6.1. DISEÑO EXPERIMENTAL Teniendo en cuenta que el ejercicio de clasificación de corrientes de la cuenca Magdalena-Cauca realizado por Ingfocol Ltda en 2010 resultó satisfactorio dentro del marco de referencia ELOHA y además contó con la orientación y aprobación de varios expertos de la cuenca, se decidió tomar exactamente la misma Geodatabase para el desarrollo de esta investigación con el fin de poder validar los diferentes ensayos de clasificación que posteriormente se describirán. El tipo, cantidad y calidad de la información contenida en esa Geodatabase permitió plantear distintos ensayos que pusieron a prueba el método de Kohonen. Un aspecto importante en la etapa inicial del proceso de modelación tuvo que ver con la definición de los ensayos a realizar, para lo cual fue necesario elaborar un diseño experimental. Teniendo en cuenta que los objetivos planteados dentro de esta investigación giran en torno a diferentes tipologías de variables, lo primero que hubo que hacer en este sentido fue precisamente definir las variables que iban a incluirse en cada ensayo. Con base en el amplio espectro de variables contenidas en la Geodatabase, se plantearon 6 ensayos con tipologías diferentes, los cuales se mencionan a continuación. • • • • • Tipología 1 - todas la variables. Todas las variables de la Tabla 3.1. Tipología 2 – variables IHA. Variables 1 a 34 de la Tabla 3.1. Tipología 3 – variables CCE. Variables 35 a 68 de la Tabla 3.1. Tipología 4 – variables Ingfocol 2010. Variables de la Tabla 3.2. Tipología 5 – 12 Q mensuales y elevación. Variables 1 a 12 y 71 de la Tabla 3.1. 50 • Tipología 6 – cuatrimestre donde se presenta el flujo más alto, Q medio extremadamente bajo, Q medio grandes inundaciones, Q medio y elevación. Variables 27, 47, 63, 69 y 71 de la Tabla 3.1. Si bien una de las recomendaciones en cuanto a la aplicación del método de Kohonen es hacer la capa de kohonen lo más grande posible para visualizar mejor la estructura de agrupación de los patrones, se decidió probar modelos con diferente cantidad de neuronas en la capa de salida para establecer cuál era el efecto de esta variación en los resultados. Se probaron modelos con 25, 100, 225, 400 y 900 neuronas en la capa de salida. Con el desarrollo del aplicativo computacional del método de Kohonen fue posible identificar la posibilidad de llevar a cabo una clasificación adicional del espacio topológico de la red para automatizar la definición del número de grupos. En este sentido se implementó dentro del aplicativo computacional un segundo método de clasificación al espacio topológico denominado Clustering Difuso. Teniendo en cuenta que este método requiere como parámetro de entrada el radio de vecindad de agrupamiento, se probaron modelos con radios de vecindad igual a 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9 y 1. Finalmente, si bien es posible determinar el error del modelo de Kohonen para representar los patrones de entrada a la red, en el desarrollo del aplicativo computacional también se incluyó una sección cuyo objetivo es medir la precisión del proceso de clasificación escogiendo la neurona centroide de cada grupo (haya sido cada uno de éstos escogido automáticamente o no) y calculando métricas de homogeneidad al interior de cada clúster o familia de corrientes. 6.1.1. Aplicativo computacional del método de Kohonen Con base en los experimentos planteados en el diseño experimental y con ayuda del Toolbox en Redes Neuronales Artificiales de Matlab, se desarrolló un aplicativo computacional para clasificar las corrientes de la cuenca Magdalena-Cauca con diferentes tipologías de variables. Este aplicativo se apoyó en el Toolbox de Matlab porque éste a diferencia del que se describió en el capítulo anterior, ofrece un paquete para la visualización de los resultados. En el Anexo C se incluye el código desarrollado para la clasificación de corrientes de la cuenca Magdalena-Cauca y la función para aplicar el segundo método de clasificación al espacio topológico de Kohonen, la cual fue desarrollada por el Ingeniero Felipe Ardila. Cada una de las líneas de este código está comentada para facilitar su comprensión. 51 6.2. DESCRIPCIÓN DE RESULTADOS DEL APLICATIVO COMPUTACIONAL Con ayuda del aplicativo computacional que se mencionó en la sección anterior de este capítulo, se realizaron los ensayos respectivos para cada una de las tipologías de variables. Tomando como ejemplo la tipología de variables No. 6, es decir la que contiene las variables: cuatrimestre donde se presenta el flujo más alto, Q medio extremadamente bajo, Q medio grandes inundaciones, Q medio y elevación, a continuación se describen los resultados que proporciona el aplicativo computacional desarrollado para la clasificación de corrientes de la cuenca Magdalena Cauca. 6.2.1. Resultados del aplicativo computacional En resumen, los resultados que proporciona el aplicativo desarrollado para la clasificación de corrientes se pueden dividir en las siguientes secciones: 1. Resultados del método de Kohonen 1.1. Pesos actualizados de la red correspondientes a la última iteración 1.2. Matriz de hits de la red 1.3. Gráfica de hits 1.4. Gráfica de distancias entre neuronas (U-Matrix) 1.5. Cálculo de las métricas de ajuste entre las neuronas ganadoras y los patrones de entrenamiento 2. Resultados del clúster topológico 2.1. Matriz de coordenadas de las neuronas para el clúster topológico 2.2. Análisis de clúster topológico mediante K-means Difuso 2.3. Número de clústeres 2.4. Clúster correspondiente a cada neurona ganadora 2.5. Error del agrupamiento 2.6. Coordenadas del centroide de cada grupo 3. Cálculo de las métricas de homogeneidad por grupo 3.1. Transformación de clústeres de neuronas a clústeres de patrones 3.2. Cálculo de las métricas de desempeño en el agrupamiento de la información El aplicativo computacional se programó para que proporcionara estos resultados para diferentes modelos, es decir, para modelos de red con diferentes neuronas en la capa de salida y su vez para clústeres topológicos con diferentes radios de vecindad. A continuación se describen con más detalle cada una de las secciones. 52 6.2.2. Resultados por Método de Kohonen En la tabla de pesos actualizados que proporciona el aplicativo, las filas corresponden a las neuronas de modelo y las columnas a los pesos de cada neurona. La cantidad de pesos de cada neurona es igual a la cantidad de variables que posee cada patrón. Los pesos que aparecen en esta tabla corresponden a los pesos actualizados después de la última iteración. A pesar de que las neuronas se organizan en el mapa de forma bidimensional, en esta tabla, así como en la de hits que se describe a continuación, las neuronas se enumeran linealmente empezando por la neurona de la última fila y primera columna y terminando en la neurona de la primera fila y la última columna. En la Figura 6.1, que corresponde al modelo de 25 neuronas de la tipología No. 6, se muestra el sentido en el que se organizan las neuronas en las matrices de resultados. Figura 6.1. Sentido de numeración de las neuronas en las matrices de resultados. En la matriz de hits, las filas corresponden a las neuronas, que también se enumeran como se muestra en la Figura 6.1, y las columnas corresponden a los patrones de entrenamiento. En esta matriz los unos indican la neurona ganadora de cada patrón. A cada patrón le corresponde una sola neurona, mientras que una neurona puede ser la neurona ganadora de varios patrones. El método de Kohonen programado en el aplicativo computacional proporciona dos gráficas, la de hits y la de distancias entre neuronas (U-Matrix). En la Figura 6.2 y la Figura 6.3 se muestran estas gráficas para los ensayos correspondientes a la tipología No. 6. En las gráficas de hits, entre más grande sea la neurona de color azul más patrones representa. Las neuronas de color blanco no representan a ningún patrón. De otro lado, en las gráficas U-Matrix los colores oscuros indican una gran diferencia entre neuronas, mientras que el color amarillo gran similitud, lo cual evidencia la conformación de grupos o familias de neuronas que en consecuencia conforman grupos de patrones. 53 25 NEURONAS 100 NEURONAS 225 NEURONAS 400 NEURONAS 900 NEURONAS Figura 6.2. Gráficas de hits para la tipología No. 6. 54 25 NEURONAS 100 NEURONAS 225 NEURONAS 400 NEURONAS 900 NEURONAS Figura 6.3. Gráficas de distancias entre neuronas (U-Matrix) para la tipología No. 6. 55 De las gráficas anteriores se resaltan los siguientes aspectos: • A pesar de que en la gráfica de distancias entre neuronas correspondiente al modelo de 900 neuronas la ubicación de los grupos varía con respecto a los demás modelos, nótese como la estructura topológica, y por consiguiente el agrupamiento entre los datos, se conserva. • Si la estructura topológica se conserva, la escogencia del número de neuronas del modelo depende de la resolución a la cual se deseen observar los resultados. Entre mayor sea el número de neuronas más clara es la conformación de grupos y subgrupos, pues el espacio topológico permite no sólo diferenciar los grupos sino resaltar aún más las pequeñas diferencias entre los patrones así sean del mismo grupo. • No obstante, si el número de neuronas es muy grande, el modelo puede sobre-entrenarse y resaltar las diferencias entre cada uno de los patrones, evidenciando igual número de grupos como de patrones, con lo cual identificar cuáles patrones pertenecen al mismo grupo resulta una labor más compleja. Es de esperarse que a medida que el número de neuronas aumente, también lo haga el número de grupos identificables en el mapa. • La identificación de los grupos en las gráficas U-Matrix puede complementarse con la interpretación de las gráficas de hits. Un grupo se diferenciará más de otro si entre las neuronas que conforman cada grupo hay más neuronas con valor 0. En este sentido, los caminos “ceros” que se forman en la matriz de hits pueden indicar, dependiendo de la distancia entre neuronas, una división de grupos de información. Finalmente en cuanto al método de Kohonen, el aplicativo proporciona unas métricas que indican qué tan preciso es el modelo en relación a qué tanto se ajustaron las neuronas ganadoras a sus respectivos patrones. Entre mayor sea el número de neuronas menores van a ser las magnitudes de estas métricas, pues cada patrón va a tener la posibilidad de que una y sólo una neurona lo represente. En total se calcularon 5 métricas diferentes a saber: 1. Número de neuronas del modelo 2. M1: Distancia promedio entre cada patrón y su neurona correspondiente 3. M2: RMS (Root Mean Square) de las distancias entre patrones y neuronas ganadoras, calculado como la raíz del promedio de las distancias al cuadrado 4. M3: Distancia máxima entre algún patrón y su neurona correspondiente 5. M4: Número de los patrones a los cuales les corresponde la distancia máxima En el caso de la tipología de variables No. 6, los valores obtenidos de estas métricas para cada uno de los ensayos, es decir para 25, 100, 225, 400 y 900 neuronas, se muestra a continuación en la Tabla 6.1. 56 Tabla 6.1. Métrica de ajuste de cada uno de los modelos realizados para la tipología No. 6. # Neuronas M1 M2 M3 M4 25 0.056 0.070 0.218 158 100 0.013 0.023 0.130 112 225 0.004 0.013 0.087 123 y 172 400 0.001 0.004 0.030 78 y 79 900 0.000 0.001 0.004 74 y 82 Nótese como las tres primeras métricas van disminuyendo a medida que aumenta el número de neuronas del modelo y como en la columna correspondiente a la métrica cuatro (M4) no se repite ningún número, lo que indica la inexistencia de un patrón “problema”. 6.2.3. Resultados por Clúster topológico Como ya se anticipó, dentro del aplicativo computacional se incluyó una sección destinada a una segunda clasificación o clasificación topológica. El método programado para este fin corresponde al método de Clustering Difuso. En resumen, esta sección toma las coordenadas de las neuronas ganadoras de la gráfica de hits, las escala entre 0 y 1 y aplica el método de Clustering Difuso para determinar el número de clústeres en los que se divide el mapa de hits. También proporciona un vector columna donde indica el número del clúster que le corresponde a cada neurona según la convención de numeración indicada en la Figura 6.1. Adicionalmente, esta parte del programa proporciona el error de agrupamiento y las coordenadas del centroide de cada grupo. En la Tabla 6.2 se muestra, para el modelo de 400 neuronas de la tipología de variables No. 6, el número de grupos obtenido para cada radio de vecindad. Estos mismos resultados se pueden observar de manera gráfica en la Figura 6.4 a la Figura 6.8. Tabla 6.2. Número de clústeres para cada radio de vecindad – Modelo de 400 neuronas tipología No. 6. Radio de Vecindad Número de neuronas ganadoras Número de clústeres Radio de Vecindad Número de neuronas ganadoras Número de clústeres 0.1 151 73 0.6 151 4 0.2 151 22 0.7 151 4 0.3 151 12 0.8 151 3 0.4 151 8 0.9 151 2 0.5 151 4 1 151 1 57 Figura 6.4. Clústeres topológicos para Radios de 0.1 y 0.2 – modelo 400 neuronas tipología No. 6. 58 Figura 6.5. Clústeres topológicos para Radios de 0.3 y 0.4 – modelo 400 neuronas tipología No. 6. 59 Figura 6.6. Clústeres topológicos para Radios de 0.5 y 0.6 – modelo 400 neuronas tipología No. 6. 60 Figura 6.7. Clústeres topológicos para Radios de 0.7 y 0.8 – modelo 400 neuronas tipología No. 6. 61 Figura 6.8. Clústeres topológicos para Radios de 0.9 y 1 – modelo 400 neuronas tipología No. 6. 62 En los resultados anteriores, el centro de cada grupo se señala con una equis roja los individuos de un mismo grupo conservan el mismo color. En las gráficas como en la tabla resumen es evidente como el número de grupos va disminuyendo conforme aumenta el radio de vecindad. Con esta metodología, a pesar de que abarca todo el rango de vecindades posible, no es claro cuál de las 10 posibilidades debe escogerse como la mejor. Tal vez los únicos criterios para escoger el radio de vecindad sean en primer lugar el número de clústeres que más se repite (en este caso por ejemplo 4) y en segundo lugar el error asociado al proceso de agrupación en cada modelo, no obstante, si se contrasta cualquiera de los agrupamientos topológicos obtenidos anteriormente con el mapa U-Matrix correspondiente al modelo de 400 neuronas, es claro que ninguna de las agrupaciones obtenidas con el clúster topológico se ajusta a la estructura topológica que se forma en el mapa de distancias entre neuronas. Lo anterior se da porque el método de Clustering Difuso asume que la forma de los grupos siempre es circular, lo cual rara vez ocurre en las estructuras topológicas de Kohonen. De hecho, hay que resaltar como ni siquiera en el ejemplo que se tomó para describir la visualización de los resultados en la sección 3.2.3.3, el mapa de distancias entre neuronas muestra formas circulares a pesar de que en el espacio real de la información los patrones si las tienen. Adicionalmente, puede darse el caso de que dos neuronas ganadoras sean clasificadas por el clúster topológico como pertenecientes a un mismo grupo por ser consecutivas, pero la distancia entre ellas mostrada en el mapa U-Matrix indique que son de grupos diferentes. Esto podría subsanarse escogiendo un modelo con gran cantidad de neuronas para lograr que entre los grupos se formen franjas de neuronas no ganadoras, sin embargo, muy probablemente la forma de todos los grupos no sería circular y por tanto el clúster topológico no arrojaría resultados confiables. Los dos inconvenientes que se acaban de mencionar hacen que la automatización de la obtención del número de clústeres mediante el método de Clustering Difuso aplicado al espacio topológico de la red sea ineficaz y por tanto no deba emplearse. 6.2.4. Métricas de desempeño en la clasificación de la información En un principio y tal como quedó programado en el aplicativo computacional, las métricas de desempeño en el proceso de clasificación o métricas de homogeneidad por grupo estuvieron amarradas a los resultados del clúster topológico. Sin embargo, como se pudo observar en la sección anterior, el método empleado para llevar a cabo la clasificación del espacio topológico de kohonen es ineficaz y por tanto no debe tomarse en cuenta, razón por la cual la obtención del 63 número de grupos en cada modelo debe hacerse manualmente y con ayuda de los mapas de hits y U-Matrix. En consecuencia, fue necesario adaptar esta sección del aplicativo para que el número de grupos, el grupo al que corresponde cada patrón y los centroides correspondientes a cada grupo se introdujeran como dato de entrada después de obtenerlos manualmente. Las métricas calculadas por el aplicativo computacional son: 1. Número de patrones perteneciente a cada clúster (n) 2. M1: Distancia promedio entre cada patrón y la neurona centroide del grupo 3. M2: RMS (Root Mean Square) de las distancias entre los patrones de cada grupo y la neurona centroide correspondiente, calculado como la raíz del promedio de las distancias al cuadrado 4. M3: Distancia máxima de cada clúster determinada como la mayor distancia entre los patrones del grupo y la neurona centroide correspondiente 5. M4: Número de los patrones a los cuales les corresponde la distancia máxima de cada grupo A manera de ejemplo, en la Tabla 6.3 se muestran las métricas obtenidas en los 25 grupos del modelo de 400 neuronas de la tipología de variables No. 6. Tabla 6.3. Métricas de homogeneidad en la clasificación del modelo de 400 neuronas y tipología No. 6. # clúster 1 2 3 4 5 6 7 8 9 10 11 12 13 n 59 13 11 18 5 5 3 1 6 7 2 6 3 M1 0.19 0.04 0.06 0.07 0.03 0.02 0 0.14 0.03 0.03 0.11 0.08 M2 0.22 0.08 0.07 0.12 0.1 0.06 0.03 0 0.15 0.04 0.04 0.12 0.13 M3 0.31 0.21 0.12 0.2 0.2 0.12 0.05 0 0.24 0.06 0.05 0.16 0.22 M4 116 78 5 131 108 42 129 105 120 37 125 115 # clúster 14 15 16 17 18 19 20 21 22 23 24 25 n 5 1 2 7 3 1 3 2 6 3 1 1 M1 0.06 0 0.04 0.03 0.02 0 0.04 0 0.01 0.09 0 0 M2 0.08 0 0.06 0.03 0.03 0 0.05 0 0.01 0.1 0 0 M3 0.15 0 0.09 0.07 0.04 0 0.07 0 0.03 0.14 0 0 M4 71 171 172 27 32 141 57 123 46 0.1 133 142 122 12 Por último, con base en estos resultados es posible calcular las mismas métricas para todo el modelo, las cuales se muestran a continuación en la Tabla 6.4. 64 Tabla 6.4. Métricas de homogeneidad del modelo de 400 neuronas y tipología No. 6. n 174 M1 0.1 M2 0.15 M3 0.31 M4 116 En este caso, el clúster donde se presenta la distancia más grande (0.31) es en el grupo No. 1, lo cual es de esperarse porque este grupo contiene el mayor número de patrones (59). 65 7. ANÁLISIS DE CLASIFICACIÓN DE CORRIENTES PARA DIFERENTES TIPOLOGÍAS DE VARIABLES EN LA CUENCA MAGDALENA-CAUCA En este capítulo se presentan los resultados obtenidos en el proceso de clasificación de corrientes de la cuenca Magdalena-Cauca para las 6 tipologías de variables planteadas dentro de esta investigación. Debido a que la clasificación de corrientes de la cuenca Magdalena-Cauca realizada en esta investigación debe estar enmarcada dentro de ELOHA y la mejor clasificación que se tiene hasta el momento en este sentido es la realizada por Ingfocol en 2010, un criterio para seleccionar el modelo representativo de clasificación para cada tipología de variables necesariamente debe obedecer a que el número de clústeres de dicho modelo sea del mismo orden de magnitud del número de clústeres obtenido por Ingfocol, es decir 23 clústeres aproximadamente. En consecuencia, las tipologías de variables que en ningún modelo sugirieron un número de clústeres similar a 23 grupos, no se tuvieron en cuenta para este análisis ni para los análisis subsiguientes. 7.1. TIPOLOGÍA DE VARIABLES NO. 1 En la Figura 7.1 a la Figura 7.3 se muestran las gráficas de hits y U-Matrix para los modelos con 225, 400 y 900 neuronas correspondientes a la tipología de variables No. 1, es decir, la que contiene todas las variables de la Geodatabase. Las gráficas U-Matrix o gráficas de distancias entre neuronas de los modelos de 225 y 400 neuronas, especialmente la primera de ellas, no permiten diferenciar claramente la clasificación de la información. En cambio, en el modelo de 900 neuronas claramente se diferencian clústeres de color amarillo separados entre sí por líneas de color rojo a negro. Teniendo en cuenta que en esta tipología se incluyeron 73 variables, es de esperarse que sólo con un modelo de 900 neuronas el método logre diferenciar claramente los grupos de información. No obstante, haciendo un conteo rápido del número de clústeres que se forman en dicho modelo (ver Figura 7.3), es claro que éste sobrepasa ampliamente el valor de referencia de 23 grupos, incluso el orden de magnitud del número de grupos en este modelo es cercano al doble del valor de referencia. Por esta razón se considera innecesario continuar con el análisis de esta tipología de variables pues contiene mucha información que para ELOHA puede resultar ruidosa. 66 Figura 7.1. Gráficas de hits y U-Matrix para el modelo de 225 neuronas en la tipología No. 1. 67 Figura 7.2. Gráficas de hits y U-Matrix para el modelo de 400 neuronas en la tipología No. 1. 68 Figura 7.3. Gráficas de hits y U-Matrix para el modelo de 900 neuronas en la tipología No. 1. 69 7.2. TIPOLOGÍA DE VARIABLES NO. 2 Esta tipología contiene 34 de las 73 variables de la Geodatabase, que específicamente corresponden a las variables tipo IHA (Indicadores de Alteración Hidrológica en español) generadas por el software que lleva el mismo nombre. Las variables que contiene esta tipología específicamente se refieren a las primeras 34 variables de la Tabla 3.1. Al igual que en el caso anterior, debido a que esta tipología incluye una gran cantidad de variables, en los mapas de 225 y 400 neuronas se nota como a gran parte del mapa todavía le hace falta espacio para lograr diferenciar grupos claramente. En otras palabras, en los dos primeros mapas todavía no es evidente la generación de valles de color amarillo diferenciados por fronteras de color oscuro, lo cual si se evidencia con más claridad en el mapa de 900 neuronas, sin embargo, en este último mapa se evidencia una cantidad de grupos muy superior a la cantidad de referencia, es decir a 23 grupos, razón por la cual también se descarta esta tipología para los análisis subsiguientes. En la Figura 7.4 a la Figura 7.6 se observan los mapas correspondientes a los modelos de 225, 400 y 900 neuronas de la tipología de variables No. 2. Figura 7.4. Gráficas de hits y U-Matrix para el modelo de 225 neuronas en la tipología No. 2. 70 Figura 7.5. Gráficas de hits y U-Matrix para el modelo de 400 neuronas en la tipología No. 2. 71 Figura 7.6. Gráficas de hits y U-Matrix para el modelo de 900 neuronas en la tipología No. 2. 72 7.3. TIPOLOGÍA DE VARIABLES NO. 3 Esta tipología también contiene 34 de las 73 variables de la Geodatabase y específicamente corresponden a las variables tipo EFC (Componentes del caudal ecológico en español) generadas por el software IHA, que en la Tabla 3.1 se ubican en las posiciones 35 a 68. Este caso es exactamente igual al caso de la tipología No. 2, pues en los mapas de 225 y 400 neuronas es claro que a más de 50% del mapa le hace falta clasificarse bien, lo cual se logra con más neuronas, pues en el mapa de 900 neuronas ya se evidencian claramente la conformación de los grupos en todo el mapa. No obstante, en el mapa de 900 neuronas el número de grupos también es muy superior a 23, que es número de grupos de referencia. Lo anterior también implica que se descarte esta tipología para los análisis subsiguientes. En la Figura 7.7 a la Figura 7.9 se observan los mapas correspondientes a los modelos de 225, 400 y 900 neuronas de la tipología de variables No. 3. Figura 7.7. Gráficas de hits y U-Matrix para el modelo de 225 neuronas en la tipología No. 3. 73 Figura 7.8. Gráficas de hits y U-Matrix para el modelo de 400 neuronas en la tipología No. 3. 74 Figura 7.9. Gráficas de hits y U-Matrix para el modelo de 900 neuronas en la tipología No. 3. 75 7.4. TIPOLOGÍA DE VARIABLES NO. 4 Esta tipología incluye las 26 variables obtenidas por Ingfocol Ltda en 2010 como las variables más relevantes en el proceso de clasificación. Estas variables fueron descritas con anterioridad en la Tabla 3.2. Al igual que en las tres tipologías anteriores y muy seguramente porque estas tipologías contienen un gran número de variables, sólo con el mapa más grande, es decir con el mapa de 900 neuronas es que se logra visualizar claramente la conformación de los grupos que subyacen a la tipología de variables presentada. Sin embargo, la cantidad de grupos que en este mapa se generan también es superior al número de grupos de referencia (23 grupos), por tanto, esta tipología tampoco se va a tener en cuenta para los análisis subsiguientes. En la Figura 7.10 a la Figura 7.12 se observan los mapas correspondientes a los modelos de 225, 400 y 900 neuronas de la tipología de variables No. 4. Figura 7.10. Gráficas de hits y U-Matrix para el modelo de 225 neuronas en la tipología No. 4. 76 Figura 7.11. Gráficas de hits y U-Matrix para el modelo de 400 neuronas en la tipología No. 4. 77 Figura 7.12. Gráficas de hits y U-Matrix para el modelo de 900 neuronas en la tipología No. 4. 78 7.5. TIPOLOGÍA DE VARIABLES NO. 5 Esta tipología corresponde a 13 variables de la Geodatabase que concretamente se refieren al promedio de los caudales de los 12 meses de año mas la elevación de la estación, es decir a las variables 1 a 12 y 71 de la Tabla 3.1. En los tres mapas que se presentan a continuación en la Figura 7.13 a la Figura 7.15, es claro cómo se conserva la estructura topológica de la información a pesar de variar el número de neuronas del mapa. Esto se debe a que la cantidad de variables incluidas dentro de esta tipología así como la información que cada una de ellas contiene, puede clasificarse rápidamente incluso con mapas de 225 neuronas. En este caso ocurre todo lo contrario a las cuatro tipologías anteriores, es decir que en este caso desde el mapa más pequeño de 225 neuronas ya es clara la conformación de valles de color amarillo. Nótese como más del 50% de cada mapa parece ser del mismo grupo, a pesar de que contiene en su interior líneas oscuras que ligeramente marcan una diferencia. Figura 7.13. Gráficas de hits y U-Matrix para el modelo de 225 neuronas en la tipología No. 5. 79 Figura 7.14. Gráficas de hits y U-Matrix para el modelo de 400 neuronas en la tipología No. 5. 80 Figura 7.15. Gráficas de hits y U-Matrix para el modelo de 900 neuronas en la tipología No. 5. 81 De acuerdo con la Figura 7.16, esta tipología posee 20 grupos; un número similar al número de grupos de referencia (23 grupos). Para mayor claridad en la delimitación de los grupos, al lado del mapa U-Matrix clasificado se incluye un croquis de las fronteras de los grupos. En este caso la dificultad se centró en diferenciar los grupos que se encuentran en el gran valle de color amarillo. Esta clasificación se hizo con base en un análisis conjunto de las gráficas de hits y U_Matrix. Figura 7.16. Clasificación de corrientes del modelo de 225 neuronas para la tipología No. 5. 7.6. TIPOLOGÍA DE VARIABLES NO. 6 Esta tipología corresponde a la combinación de las variables: cuatrimestre donde se presenta el flujo más alto, Q medio extremadamente bajo, Q medio grandes inundaciones, Q medio y elevación, es decir las variables No. 27, 47, 63, 69 y 71 (ver Tabla 3.1). Esta tipología se tomó como ejemplo para describir los resultados que se obtienen mediante el aplicativo computacional (ver Capítulo 6) y por eso el análisis incluyó los modelos con 25, 100, 225, 400 y 900 neuronas. Las gráficas de hits y U-Matrix de los modelos pertenecientes a esta tipología se mostraron en el capítulo anterior, concretamente en la Figura 6.2 y la Figura 6.3. A continuación, en la Figura 7.17 se muestra la clasificación hecha a los modelos de 25 a 400 neuronas. Como se puede observar, el número de grupos obtenido en cada caso es de 12, 10, 19 y 25 para los modelos de 25, 100, 225 y 400 neuronas respectivamente. Para el análisis posterior de familiaridad se tomó el modelo de 400 neuronas debido a que el número de grupos obtenido en este caso es del mismo orden de magnitud del valor de referencia, es decir de 23 grupos, lo cual facilita la comparación entre las tipologías. 82 25 Neuronas 100 Neuronas 225 Neuronas 400 Neuronas Figura 7.17. Clasificación de corrientes de los modelos de 25, 100, 225 y 400 neuronas para la tipología No. 6. 83 7.7. RESUMEN DEL NÚMERO DE GRUPOS POR TIPOLOGÍA DE VARIABLES Lo primero que hay que resaltar en este sentido es que dentro del marco de referencia ELOHA aplicado a la cuenca Magdalena-Cauca, la inclusión de gran cantidad de variables en el proceso de clasificación mediante el método de Kohonen, como es el caso de las primeras cuatro tipologías de variables, hace que se logren visualizar los grupos únicamente con modelos de red con gran cantidad de neuronas. Esto sugiere que hay una proporcionalidad entre el número de neuronas del modelo y el número de variables de los patrones. Adicionalmente, si se tiene en cuenta que el objetivo de la clasificación de corrientes dentro de ELOHA busca por un lado agrupar las corrientes similares y por otro lado, aún más importante, obtener un hidrograma característico de cada familia de corrientes, incluir gran cantidad de variables desvía el objetivo de clasificación dentro de ELOHA, tal y como sucedió en las primeras cuatro tipologías de variables donde el número de grupos obtenido resultó ser mucho mayor que el de referencia (23 grupos). En cambio, si se emplean variables de clasificación relacionadas precisamente con el hidrograma característico de cada corriente es posible identificar un número de grupos del mismo orden de magnitud que el de la clasificación de referencia efectuada por Ingfocol Ltda en 2010. Esto pudo evidenciarse en las dos últimas tipologías, donde las variables escogidas se relacionan directamente con los hidrogramas de cada corriente de la cuenca Magdalena-Cauca. Así las cosas, en la Tabla 7.1 se presenta un resumen de los resultados obtenidos en el proceso de clasificación de corrientes de la cuenca Magdalena Cauca por el método de Kohonen y orientado a los objetivos de ELOHA. El reporte de clasificación efectuado para cada una de las tipologías de variables puede observarse en el Anexo D. Tabla 7.1. Resumen del proceso de clasificación de corrientes de la cuenca Magdalena-Cauca para diferentes tipologías de variables. Tipología de variables Cantidad de variables Cantidad de neuronas del modelo representativo Cantidad de grupos obtenido 1 73 900 >> 23 2 34 900 >> 23 3 34 900 >> 23 4 26 900 >> 23 5 13 225 20 6 5 400 25 84 En el Anexo E se incluye una tabla con el número del clúster al que pertenece cada patrón para el caso específico de las tipologías de variables No. 5 y 6, que finalmente son las que se van a tener en cuenta para los análisis posteriores. En esta tabla también se incluye el resumen del proceso de clasificación efectuado por Ingfocol Ltda en 2010. Finalmente, para facilitar el entendimiento de la clasificación efectuada por Kohonen en el caso de las tipologías de variables No. 5 y 6, en el Anexo F se incluyen los mapas de clasificación. Para las dos tipologías de variables mencionadas, se elaboraron tantos mapas como grupos de corrientes arrojó el método de Kohonen, señalando en cada caso la ubicación de las corrientes pertenecientes a cada grupo sobre el mapa familias obtenido por Ingfocol en 2010. 85 8. ANÁLISIS DE INVARIANCIA Y VARIABLES IMPORTANTES En este capítulo se presenta el análisis de invariancia de grupos de corrientes y también se presenta el análisis de las variables más importantes en el proceso de clasificación. Adicionalmente se compara el método de Kohonen con otro método de clasificación para la tipología de variables más acertada con respecto a la clasificación realizada por Ingfocol en 2010, que contó con la orientación y validación de expertos de la cuenca enmarcadas dentro de ELOHA. 8.1. ANÁLISIS DE INVARIANCIA DE CORRIENTES SIMILARES Con base en las tipologías de variables No. 5 y 6 que resultaron del análisis de clasificación enfocado a ELOHA y cuya descripción se encuentra en el capítulo anterior, se realizó un análisis de invariancia de corrientes similares. Este análisis permitió establecer cuáles corrientes permanecen dentro de un mismo grupo a pesar de que se empleen tipologías de variables diferentes. Adicionalmente, con el objetivo de establecer cuál de las dos tipologías de variables logró parecerse más a la clasificación efectuada por Ingfocol en 2010, dentro de este análisis también se incluyó la información de agrupamiento correspondiente a este proyecto. Para ello, se llevó a cabo un proceso de comparación grupo por grupo y entre tipologías, con el fin de identificar cuáles patrones permanecían juntos. En el Anexo G se presenta el código en Matlab del aplicativo computacional desarrollado para realizar este análisis, el cual se encuentra comentado para facilitar su entendimiento, y también se incluyen los resultados correspondientes. En la Tabla 8.1 se muestra el análisis de invariancia entre las tipologías de variables No. 5 y 6. Esta tabla indica cuántos patrones (en este caso corrientes) permanecen dentro de un mismo grupo a pesar de que el análisis de clasificación se haya hecho con tipologías de variables diferentes. La tabla también muestra a qué grupos específicamente pertenecen las corrientes familiares o invariantes. Finalmente, al final de cada fila y columna respectivamente se incluye el número de patrones que compone cada grupo según la clasificación efectuada para cada tipología de variables. 86 Tabla 8.1. Matriz de invariancia de corrientes - tipologías de variables No. 5 y 6. Clusters T6 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 1 1 2 2 1 1 3 2 2 1 4 12 11 6 3 2 4 1 2 2 2 1 5 1 11 1 2 6 1 1 12 1 3 1 2 3 13 14 6 5 16 1 1 17 1 2 18 27 19 22 7 20 1 3 14 1 3 1 3 3 1 59 13 11 18 3 3 2 15 # patr. 7 28 8 9 1 2 7 10 1 6 5 Clusters T5 # patr. 1 2 30 7 7 1 2 6 52 2 5 5 3 1 6 7 2 6 3 5 1 2 7 3 6 1 3 2 6 3 1 1 Es claro que en el caso donde se indica que sólo un patrón es coincidente, no existe un grupo de corrientes invariante como tal, ya que por lo menos deben ser dos los patrones o corrientes coincidentes para conformar un grupo. El total de patrones que permanecen invariantes y que conforman grupos de por lo menos dos corrientes en la tabla anterior es igual a 154. Teniendo en cuenta que el total de patrones o corrientes analizadas es 174, es posible concluir que aproximadamente el 89% de los patrones conforman grupos de corrientes invariantes en las dos tipologías de variables comparadas. En la Tabla 8.2 se muestran los patrones que conforman los grupos de corrientes invariantes de por lo menos dos individuos mostrados en la Tabla 8.1. 87 174 Tabla 8.2. Grupos de corrientes invariantes entre las tipologías de variables No. 5 y 6. #Cluster T5 #Cluster T6 3 23 5 12 58 107 112 115 117 118 6 2 69 75 78 79 88 92 6 3 4 5 23 70 87 96 126 127 128 130 134 6 6 76 89 90 6 7 91 129 7 9 109 110 8 9 56 68 113 120 8 16 46 47 9 6 25 42 12 5 67 108 13 20 27 28 35 14 1 72 73 74 81 124 131 132 PATRONES INVARIANTES 119 122 83 93 95 101 102 103 104 84 135 14 4 3 14 14 22 136 145 15 5 17 4 7 77 18 1 31 36 18 13 34 153 19 1 17 30 19 4 2 15 16 43 66 148 149 19 10 9 13 14 19 37 19 17 10 18 21 29 39 133 150 19 21 32 33 19 22 40 45 138 139 140 141 20 4 1 6 20 18 8 11 111 114 41 44 51 52 53 54 55 62 64 116 152 155 159 160 161 162 163 164 165 166 167 168 169 173 174 48 49 59 60 61 63 65 86 94 38 50 26 88 98 106 137 143 146 147 151 156 157 158 170 8.1.1. Tipología de variables óptima frente a clasificación Ingfocol 2010 Como ya se anticipó, se realizó el mismo análisis de invariancia pero en esta ocasión se hizo entre las tipologías de variables No. 5 y 6 con respecto a la clasificación de corrientes efectuada por Ingfocol en 2010. Esto con el objetivo de identificar cuál de las tipologías analizadas es la más parecida a la clasificación efectuada por Ingfocol en 2010, que en este caso se considera la clasificación de referencia de la cuenca Magdalena-Cauca dentro de ELOHA, pues tuvo la orientación y aprobación de expertos de la cuenca. En la Tabla 8.3 se muestra la matriz de invariancia de corrientes entre la clasificación realizada por Ingfocol en 2010 y la tipología de variables No. 5. Tabla 8.3. Matriz de invariancia de corrientes - clasificación Ingfocol 2010 y tipología No 5. Clusters T5 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 1 7 7 2 5 5 3 16 4 2 2 2 18 5 5 6 3 2 2 5 4 8 1 9 1 2 1 2 10 1 11 1 1 1 15 5 3 7 3 4 1 5 2 4 5 1 12 1 2 7 1 8 2 5 13 6 6 14 4 4 15 3 3 9 26 16 17 17 3 18 6 2 8 19 1 5 6 20 2 21 1 22 2 1 1 1 3 2 6 23 2 1 2 1 4 # patr. Clusters Ingfocol 2010 # patr. 2 1 2 1 7 2 28 3 1 3 2 1 2 7 1 1 9 1 5 3 1 89 2 3 14 3 15 3 3 30 52 6 174 Los patrones o corrientes invariantes que corresponden a los grupos de más de 2 individuos mostrados en la matriz de la Tabla 8.3, se muestran a continuación en la Tabla 8.4. Tabla 8.4. Grupos de corrientes invariantes entre la clasificación Ingfocol 2010 y la tipología No. 5. #Cluster Ingfocol #Cluster T5 1 2 3 4 4 5 5 5 5 6 6 7 7 8 9 10 10 11 12 13 14 15 16 16 17 18 18 19 20 21 21 22 22 23 23 23 23 6 6 9 6 9 14 16 17 19 14 19 19 20 19 14 14 19 19 20 19 19 19 18 19 18 18 19 19 18 8 13 5 12 1 3 5 8 PATRONES INVARIANTES 4 126 24 69 42 73 80 77 94 124 49 10 8 48 22 72 43 40 1 17 15 9 31 14 163 159 157 13 152 46 27 58 67 123 119 107 68 5 127 25 70 97 81 100 144 137 131 147 86 11 65 74 145 45 138 6 18 29 21 36 16 165 160 158 32 153 47 28 117 108 172 122 112 113 23 78 79 96 128 129 130 134 75 76 87 88 89 90 91 92 93 95 101 102 103 104 83 84 135 143 146 148 132 141 149 26 170 139 140 142 19 38 39 41 30 168 161 59 60 61 150 44 51 52 53 54 55 62 64 105 155 167 169 173 174 63 66 98 106 151 156 162 164 166 33 37 50 35 115 118 120 90 Así mismo, en la Tabla 8.5 y la Tabla 8.6 se muestran los resultados correspondientes al análisis de invariancia entre la clasificación efectuada por Ingfocol en 2010 y la tipología de variables No. 6, que concretamente hacen referencia a la matriz de invariancia y al grupo de corrientes invariantes. Tabla 8.5. Matriz de invariancia de corrientes - clasificación Ingfocol 2010 y tipología No 6. Clusters T6 1 1 2 3 2 5 4 5 3 11 4 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 2 5 11 4 6 2 3 7 1 2 8 4 9 1 10 1 1 5 1 1 2 4 1 18 15 5 1 13 2 1 7 4 1 2 1 1 5 1 1 11 2 1 1 4 4 8 5 12 5 4 1 14 15 16 22 # patr. 7 4 2 2 1 1 1 6 1 2 4 1 2 3 1 26 17 3 3 18 8 8 3 19 20 1 1 22 2 2 1 1 23 59 13 11 18 6 1 21 # patr. Clusters Ingfocol 2010 6 4 2 2 1 4 4 5 5 3 1 6 7 2 6 91 2 3 1 7 9 1 3 5 1 1 2 7 3 1 3 3 2 6 3 1 1 15 1 174 Tabla 8.6. Grupos de corrientes invariantes entre la clasificación Ingfocol 2010 y la tipología No. 6. #Cluster Ingfocol #Cluster T6 1 1 2 4 4 4 5 5 6 6 7 7 8 9 11 11 12 13 14 15 16 16 17 18 19 19 21 21 22 22 22 23 23 23 2 3 3 2 3 6 1 4 1 4 4 18 1 14 14 22 4 1 17 17 1 4 1 1 10 21 16 20 5 9 12 9 12 23 PATRONES INVARIANTES 78 4 126 69 70 42 73 77 49 124 26 8 48 22 99 40 1 17 29 21 30 16 163 157 13 32 46 27 67 56 58 68 107 119 79 5 127 75 87 76 80 81 147 131 149 11 65 71 136 138 2 59 150 39 31 66 165 158 37 33 47 28 108 110 117 109 112 121 23 96 128 130 134 88 92 93 95 97 101 102 103 104 89 90 83 84 85 94 135 137 143 144 146 100 148 132 82 170 139 140 3 6 7 60 61 36 41 44 51 52 53 54 55 62 63 64 98 106 151 155 156 167 169 173 174 168 159 160 161 162 164 166 50 35 111 154 113 120 115 118 122 El número de corrientes que permanecen invariantes con respecto a la clasificación efectuada por Ingfocol en 2010 correspondientes a la tipología de variables No. 5 es 151, mientras que el número de patrones o corrientes invariantes correspondientes a la tipología de variables No. 6 es 141. Lo anterior indica que el 87 y el 81% de los patrones respectivamente hacen parte de los grupos de corrientes invariantes en cada caso. En consecuencia, la tipología que más se asemeja a la clasificación realizada por Ingfocol en 2010 es la tipología de variables No. 5. Los porcentajes de corrientes invariantes obtenidos en las dos tipologías son altos, sin embargo, esto no quiere decir que el método de Kohonen haya acertado en las mismas magnitudes con respecto a la clasificación realizada por Ingfocol en 2010. 92 Lo que quiere decir es que independientemente de si son la totalidad del grupo o no, hay conjuntos de corrientes de por lo menos dos individuos que coinciden con alguna fracción de los grupos obtenidos por Ingfocol. De hecho, en ningún caso un grupo obtenido en la clasificación de las tipologías No. 5 y 6 coincidió exactamente con algún grupo obtenido por Ingfocol. Nótese como existen varios casos en los cuales todos los patrones de un grupo de corrientes de alguna tipología hacen parte del porcentaje de corrientes invariantes pero éstos corresponden a varios grupos obtenidos por Ingfocol. Por ejemplo, todos los patrones del grupo No. 2 de la tipología de variables No. 6 hacen parte del 81% de corrientes que son invariantes, sin embargo, estos patrones hacen parte de los grupos No. 1 y 4 obtenidos por Ingfocol. Esto indica que a pesar de que el método de Kohonen es una herramienta poderosa para la clasificación de corrientes, es necesario en algunos casos subdividir los grupos obtenidos y hacer combinaciones entre ellos para obtener una clasificación de corrientes óptima para el análisis de la cuenca Magdalena-Cauca en el marco de ELOHA. Asimismo esto probablemente puede indicar que en el proceso de identificación de los grupos en el mapa U-Matrix, deben tenerse en cuenta líneas de división más tenues para asignar los grupos de neuronas. Gran cantidad de números en las columnas de las matrices de invariancia mostradas en la Tabla 8.3 y la Tabla 8.5, indican la posibilidad de subdividir ese grupo en varios subgrupos para asemejarse con mayor efectividad a los grupos obtenidos por Ingfocol en 2010. En cambio, gran cantidad de números en las filas de esas matrices indican la dificultad que tiene el método de Kohonen para clasificar las corrientes de la cuenca Magdalena-Cauce dentro del marco de ELOHA. Si se enumeran los grupos de corrientes de las tipologías No. 5 y 6 donde predominan los valores iguales a uno en la Tabla 8.3 y en la Tabla 8.5 respectivamente, es decir los grupos de corrientes que reflejan predominantemente invariancia nula, se obtienen los grupos que se muestran en la Tabla 8.7. Tabla 8.7. Grupos de corrientes de invariancia nula para las tipologías de variables No. 5 y 6 con respecto a la clasificación realizada por Ingfocol en 2010. Grupos de corrientes con invariancia nula Tipología No. 5 2, 4, 7, 10, 11 y 15 Tipología No. 6 7, 8, 10, 11, 13, 15, 17, 19, 24, 25 Contrastando estos grupos de corrientes de estas dos tipologías con los 6 grandes grupos de corrientes que obtuvo Ingfocol en 2010 (Figura 3.5), es posible observar que en la Tipología No. 5 los grupos de corrientes con invariancia nula corresponden a corrientes de las familias Planicie de Inundación, Baja Montaña o 93 Parte Baja y Media Montaña. En cambio, los grupos de corrientes de la Tipología No. 6 con invariancia nula pertenecen a todas las grandes familias menos el grupo Páramo (es decir las familias Alta Montaña, Media Montaña, Piedemonte, Baja Montaña y Planicie de Inundación). Lo anterior ratifica que la clasificación realizada mediante el método de Kohonen a la Tipología No. 5 es la más parecida a la clasificación de referencia desarrollada por Ingfocol en 2010, pues únicamente involucra tres grandes familias con presencia de grupos de invariancia nula, mientras que la Tipología No. 6 involucra 5 de las 6 grandes familias. Esto a su vez indica que dentro del marco de referencia ELOHA, la clasificación de corrientes en la cuenca Magdalena-Cauca se hace más difícil a medida que se analizan corrientes que se ubican en las zonas bajas de la cuenca, especialmente las que pertenecen a las familias de Planicie de Inundación y Baja Montaña o Parte Baja. De otro lado, si se separan los grupos de corrientes que en la Tabla 8.3 y en la Tabla 8.5 presentan valores iguales a uno, pero que corresponden esta vez a la clasificación de cuencas realizada por Ingfocol en 2010, y adicionalmente se toman los que son comunes a las dos tipologías de variables analizadas, se encuentran los grupos 9, 11, 19, 21, 22 y 23 de la clasificación realizada por Ingfocol. Estos grupos de corrientes hacen parte de las familias Planicie de Inundación, Baja Montaña y Media Montaña. Esto resalta aún más el hecho de que la clasificación de corrientes en la cuenca Magdalena-Cauca enfocada a ELOHA se hace más difícil para las familias de corrientes ubicadas en la parte baja y media de la cuenca. 8.2. COMPARACIÓN DE KOHONEN CON OTRO MÉTODO DE CLASIFICACIÓN Teniendo en cuenta que la tipología de variables No. 5 fue la que más se asemejó a la clasificación obtenida por Ingfocol en 2010, a continuación se comparan los resultados obtenidos mediante Kohonen con los resultados obtenidos mediante otro método de clasificación para la misma tipología de variables. El método de Clustering Difuso basado a su vez en el método de K-means, se escogió como método de comparación frente al método de Kohonen. Para este método es necesario asignar como parámetro de entrada el radio de vecindad de los grupos. En este sentido se realizaron 10 ensayos con diferentes radios de vecindad que variaron entre 0.1 y 1 (este rango contempla la estandarización previa de los patrones entre 0 y 1 igualmente para llevar a cabo el método de Clustering Difuso). 94 En la Tabla 8.8 se muestra el número de grupos obtenido en los 10 ensayos de clasificación mediante el método de Clustering Difuso, el número de grupos obtenido mediante el método de Kohonen para la tipología de variables No. 5 y el número de grupos de referencia obtenido por Ingfocol en 2010. Clustering Difuso Tabla 8.8. Número de grupos para comparación de métodos de clasificación. RADIO Número de grupos 0.1 8 0.2 4 0.3 3 0.4 2 0.5 2 0.6 2 0.7 2 0.8 2 0.9 1 1 1 Tipología no. 5 20 Ingfocol 23 En los ensayos de clasificación realizados mediante el método de Clustering Difuso se obtuvieron números de grupos muy inferiores al número de grupos de referencia obtenido por Ingfocol en 2010 (23 grupos), lo cual quiere decir que el método de kohonen empleado para la tipología de variables No. 5 resulta ser más acertado que todos los ensayos realizados mediante Clustering Difuso, pues en ese caso se obtuvo un valor muy cercano al número de grupos de referencia (20 grupos) y adicionalmente, como se describió en la sección anterior, el 87% de los patrones conformaron grupos invariantes de corrientes frente a la clasificación realizada por Ingfocol en 2010. En el Anexo H se presentan las clasificaciones obtenidas para cada uno de los ensayos realizados con el método del Clustering Difuso y adicionalmente, a manera de referencia, también se presenta la clasificación obtenida mediante el método de Kohonen para la tipología de variables No. 5 y la clasificación obtenida por Ingfocol en 2010. En este anexo también se incluye el código en Matlab desarrollado para realizar la clasificación de información mediante el método de Clustering Difuso. Vale mencionar que este aplicativo lee los patrones de un archivo de Excel y además incluye la función de Clustering Difuso desarrollada por el Ing. Felipe Ardila. 95 8.3. VARIABLES IMPORTANTES DENTRO DEL PROCESO DE CLASIFICACIÓN Para determinar las variables más influyentes en el proceso de clasificación de corrientes de la cuenca Magdalena-Cauca, se implementó la técnica de árboles de decisión para las dos tipologías de variables que resultaron del análisis del capítulo anterior. Este proceso se llevó a cabo con ayuda del software para minería de datos WEKA, que incluye un paquete completo con diferentes algoritmos para la implementación de la técnica de árboles de decisión. En la Figura 8.1 y la Figura 8.2 se muestran los árboles obtenidos para las tipologías de variables No. 5 y 6 respectivamente. 96 Figura 8.1. Árbol de decisión para la determinación de variables importantes en el proceso de clasificación correspondiente a la tipología No. 5. 97 Figura 8.2. Árbol de decisión para la determinación de variables importantes en el proceso de clasificación correspondiente a la tipología No. 6. 98 En la Figura 8.1 se puede observar que la variable más relevante en el proceso de clasificación efectuado con el método de Kohonen para la tipología de variables No. 5, es la Elevación de la estación. Esto resulta consistente con el proceso de clasificación que llevó a cabo Ingfocol en 2010. En el siguiente nivel se encuentran las variables del caudal medio de los meses de Octubre y Enero. En el tercer nivel de importancia se encuentran las variables de caudal medio de Febrero y otra vez la de caudal medio de Octubre y la Elevación de la estación. En los niveles de importancia inferiores se vuelven a repetir las variables de Elevación de la estación y el caudal medio de Octubre, no obstante, en el nivel de importancia 4 se incluyen las variables del caudal medio de los meses de Diciembre y Junio. Nótese como las variables del caudal de los meses de Marzo, Abril, Mayo, Julio, Agosto, Septiembre y Noviembre al parecer no son relevantes en el proceso de clasificación. La variable más importante dentro del proceso de clasificación de la tipología No. 5 es la Elevación de la estación, lo cual, teniendo en cuenta que esta tipología es la más acertada en relación a la clasificación de referencia, es consistente con la variable más importante obtenida por Ingfocol en su momento. En la Figura 8.2 se observa que la variable más importante en el proceso de clasificación de la tipología de variables No. 6 es el Cuatrimestre en el cual se presenta el pico más alto del hidrograma, seguida de la Elevación de la estación y posteriormente en el nivel de relevancia 4 la magnitud del flujo más alto. En los últimos niveles de importancia (niveles 5 y 6) se ubica la magnitud del caudal más bajo del hidrograma. Nótese como el caudal medio no tiene importancia dentro del proceso de clasificación. Es claro que las variables extremas que representan los hidrogramas de cada corriente junto con la elevación de la estación, son las variables que determinan la clasificación de corrientes para esta tipología de variables. Nótese como la variable Elevación de la estación también en esta tipología es determinante para el proceso de clasificación a pesar de que la clasificación de corrientes más parecida a la de referencia sea la tipología de variables No. 5. Adicionalmente, este análisis de variables importantes pudo complementarse con el análisis de los mapas de variables de entrada que proporcionó el Método de Kohonen en el caso de las tipologías No. 5 y 6, los cuales se muestran en la Figura 8.3 y la Figura 8.4 respectivamente. 99 Figura 8.3. Mapa de variables de entrada del Método de Kohonen para la Tipología No. 5. 100 Figura 8.4. Mapa de variables de entrada del Método de Kohonen para la Tipología No. 6. 101 En la Figura 8.3, las variables (Inputs) corresponden en su orden a los 12 caudales medios mensuales desde Octubre a Septiembre y a la Elevación de la estación respectivamente, mientras que en la Figura 8.4 las variables en su orden corresponden al Cuatrimestre donde se presenta el flujo más alto, el Caudal medio extremadamente bajo, el Caudal medio para grandes inundaciones, el Caudal medio de la serie y la Elevación de la estación respectivamente. Los mapas mostrados en estas dos figuras representan la variabilidad de magnitud que poseen los pesos de las neuronas, los cuales a su vez corresponden con la variabilidad de magnitud de las variables de entrada introducidas al modelo de Kohonen. Si se comparan las formas obtenidas en estos mapas con las formas obtenidas en los mapas de distancias entre neuronas respectivos, es posible diferenciar las variables que más influyen en la conformación de los grupos definitivos, ya que los mapas de distancias entre neuronas resultan de superponer todos los mapas de variables de entrada. En el caso de la Tipología No. 5, es claro que el mapa de variables de entrada (Figura 8.3) con mayor influencia en el mapa de distancias que se muestra en la Figura 7.16, es el mapa de la variable No. 13, es decir el mapa correspondiente a la Elevación de la estación, lo cual es concordante con los resultados obtenidos mediante la técnica de árboles de decisión (Figura 8.1). Del mismo modo, en el caso de la Tipología No. 6, los mapas que más influencia tienen en el mapa de distancias que se muestra en la Figura 7.17 (400 neuronas) son los mapas de las variables No. 1 y 5 que corresponden a los mapas del Cuatrimestre donde se presenta el flujo más alto y de la Elevación de la estación, lo cual ratifica el análisis de variables importantes mostrado en la Figura 8.2. 102 9. COMENTARIOS FINALES, CONCLUSIONES Y RECOMENDACIONES Si bien el método de los mapas autorganizados de Kohonen es una herramienta potente para clasificar información de cualquier tipo y sobre todo para visualizar los resultados correspondientes, en el caso específico de la clasificación de corrientes en la cuenca Magdalena-Cauca enmarcada dentro de ELOHA, el proceso de agrupamiento con este método también debe ser guiado y validado por conocimiento experto al igual que con otros métodos de clasificación. De acuerdo con las tipologías de variables ensayadas, este método por sí solo no reproduce 100% la clasificación de referencia desarrollada por Ingfocol en 2010, aunque sí obtuvo un nivel invariancia de corrientes alto para las dos tipologías relacionadas con el hidrograma promedio de cada corriente (tipologías de variables No. 5 y 6). Vale mencionar que en la clasificación de corrientes de referencia desarrollada por Ingfocol, se emplearon varios métodos de clasificación en repetidas ocasiones incluyendo métodos manuales de clasificación, en cambio, el alto grado de invariancia de corrientes familiares obtenido mediante el método de Kohonen para las tipologías No. 5 y 6 se obtuvo con un solo ensayo en cada caso. A pesar del cambio en el número de neuronas del modelo de red para una misma tipología de variables, la estructura topológica de la información se conserva. Entre mayor sea el número de neuronas del modelo, los grupos que inicialmente se diferenciaban con modelos de menos neuronas se van dividiendo en subgrupos de información que van siendo cada vez más evidentes. No obstante, un número muy grande de neuronas en un modelo determinado puede hacer que éste se sobre-entrene, diferenciando claramente los subgrupos pero no los grandes grupos. La escogencia del número de neuronas del modelo depende, entonces, de la resolución a la cual se desee analizar la información. Bajo esta premisa es claro que, a diferencia de los métodos de clasificación normalmente empleados, con el método de Kohonen es posible obtener el número de grupos que en realidad subyace a la información analizada en función de la precisión con la que se desee analizar la información. De acuerdo a los resultados obtenidos, el proceso de clasificación de corrientes de la cuenca Magdalena-Cauca enfocada a ELOHA se dificulta a medida que se analizan corrientes que se ubican en la parte media y baja de la cuenca, especialmente las que corresponden a las familias de Planicie de Inundación y Parte Baja o Baja Montaña. La totalidad de las corrientes pertenecientes a la familia de Páramo en las dos tipologías analizadas siempre conformaron grupos de corrientes invariantes. Esto indica que el patrón de las corrientes de Páramo al parecer es más fácil de reconocer que el de las otras familias de la cuenca Magdalena-Cauca. 103 Dentro del marco de referencia ELOHA, se recomienda previamente realizar un análisis exhaustivo para determinar cuáles variables se incluyen en el proceso de clasificación, ya que esto determina el objetivo de agrupamiento de los patrones. En este sentido el método de Kohonen no difiere sustancialmente de los demás métodos, sin embargo, este método es el único que permite visualizar siempre en dos dimensiones la estructura de similitud entre los patrones y además proporciona el número de grupos que en realidad subyace a la información presentada. Teniendo en cuenta que dentro de ELOHA el objetivo fundamental del proceso de clasificación es obtener familias de corrientes que puedan representarse mediante un hidrograma característico, se recomienda utilizar variables para el proceso de clasificación que precisamente representen los hidrogramas de cada corriente. Esto puedo evidenciarse con el número de grupos obtenido en cada una de las tipologías de variables analizadas, pues las tipologías con las cuales se trató de resumir el hidrograma de cada corriente arrojaron un número de grupos similar al número de grupos de referencia, en cambio, las tipologías con gran cantidad de variables que no se relacionan directamente con el hidrograma característico de cada corriente, arrojaron siempre un número de grupos muy superior a 23 que era el número de grupos de referencia. Incluir gran cantidad de variables agrega ruido al proceso de clasificación orientado a ELOHA y a pesar de que con el método de Kohonen se logran identificar grupos claramente, este agrupamiento se sale del objetivo de clasificación de ELOHA. Los mapas pertenecientes a tipologías con gran cantidad de variables donde se pudieron visualizar claramente los grupos (mapas con gran cantidad de neuronas) sugieren que existe una proporcionalidad entre el número de variables y el número de neuronas del modelo. Entre más variables tengan los patrones más neuronas deben involucrarse en el modelo para poder diferenciar claramente los grupos. Dentro de las tipologías de variables analizadas con respecto a la clasificación de referencia, la tipología No. 5 (que incluye los caudales medios mensuales de cada uno de los 12 meses y la elevación de la estación) obtuvo un porcentaje de invariancia de grupos de corrientes familiares de 87%, lo cual indica que inicialmente esta tipología proporciona una buena idea de la clasificación óptima de corrientes de la cuenca Magdalena-Cauca dentro de ELOHA. La otra tipología relacionada con el hidrograma de cada corriente (tipología de variables No. 6) obtuvo un porcentaje de invariancia de 81%, lo cual sugiere que también puede emplearse como una primera aproximación de la clasificación de corrientes dentro de ELOHA para la cuenca Magdalena-Cauca, sobre todo teniendo en cuenta que posee únicamente 5 variables. El porcentaje de corrientes invariantes entre las dos tipologías analizadas fue de 89%, lo cual sugiere que existe una gran similitud en la clasificación efectuada para las dos tipologías de variables. 104 De acuerdo con las clasificaciones obtenidas en las tipologías de variables No. 5 y 6, la elevación de la estación y el cuatrimestre en el que se presenta el pico más alto fueron las variables más importantes de clasificación en los dos procesos respectivamente. Esto es consistente con el análisis de variables importantes realizado por Ingfocol en 2010 donde se incluyeron estas dos variables entre otras 24 más y donde claramente quedó estipulado que la variable más importante para la clasificación de corrientes en la cuenca Magdalena-Cauca dentro de ELOHA es la elevación de la estación. Lo anterior sugiere que la altura sobre el nivel del mar a la que se analice una corriente en Colombia es un aspecto esencial para poder clasificarla y a su vez asignarle un régimen de caudales ambientales dentro del marco de referencia ELOHA. Teniendo en cuenta que como criterio de efectividad para la clasificación de corrientes en la cuenca Magdalena-Cauca dentro de ELOHA se empleó el número de grupos obtenido en cada caso, pues este es el primer indicativo de que la clasificación es aproximadamente similar a la clasificación de corrientes de referencia obtenida por Ingfocol en 2010 (23 grupos), se encontró que el método de Kohonen obtuvo mejores resultados que el método de Clustering Difuso, pues mientras en el primero se obtuvieron 20 grupos, en todos los ensayos realizados con el segundo método se obtuvieron a lo sumo 8 grupos. El concepto del clúster topológico no dio buenos resultados dentro de esta investigación porque por un lado las coordenadas de las neuronas ganadoras del mapa hits no son suficientes para hacer la clasificación, ya que puede darse el caso de que dos neuronas a pesar de ser consecutivas pertenezcan a diferentes grupos, y por otro lado, el método empleado para este fin únicamente abarca vecindades con forma circular y los grupos que se observaron en los mapas de Kohonen que finalmente se compararon con la clasificación de referencia desarrollada por Ingfocol rara vez tuvieron esta forma. En este sentido se recomienda ensayar con métodos de clasificación diferentes (incluyendo otra vez al método de Kohonen) e involucrar más variables como por ejemplo la distancia euclidiana entre neuronas consecutivas. Los mapas con muchas neuronas tienden a agrupar la información de forma circular como se pudo evidenciar en las primeras cuatro tipologías de variables, por lo tanto, se recomienda emplear el clúster topológico propuesto en esta investigación a esos mapas si es que se quiere analizar la información a esa resolución (en esos casos se obtuvieron muchos más grupos que los 23 grupos de referencia). El análisis de importancia de variables realizado en esta investigación sugiere que comparando los mapas de variables de entrada con los mapas de distancias entre neuronas es posible determinar las variables relevantes dentro del proceso de clasificación únicamente empleando el método de Kohonen. 105 La Geodatabase empleada en esta investigación es exactamente igual a la que empleó Ingfocol en 2010. Esta Geodatabase no incluye variables de tipo social ni ecológico directamente, sin embargo, gran cantidad de las variables incluidas en ella tienen una relevancia ecológica significativa como por ejemplo las 34 variables obtenidas por el programa IHA que se enfocan específicamente a los componentes del caudal ecológico (variables tipo EFC). Si bien el marco de referencia ELOHA recomienda realizar inicialmente un proceso de clasificación con variables hidrológicas seguido de una subclasificación con variables geomorfológicas, se recomienda incluir dentro del análisis de agrupamiento variables de tipo social y particularmente de tipo ecológico con el fin de establecer si con estas variables adicionales el proceso de clasificación es más eficaz dentro del marco de referencia ELOHA. Adicionalmente, incluir este tipo de variables permitiría establecer el grado de relevancia ecológica que tienen asociadas las diferentes clasificaciones de corrientes que se efectuaron en esta investigación. 106 10. REFERENCIAS BIBLIOGRÁFICAS Arthington A. H., Bunn S. E., Poff N. L. y Naiman R. J, 2006. The challenge of providing environmental flow rules to sustain river ecosystems. Ecological Applications, 16, 1311–1318. Bovee K.D. y Milhous R., 1978. Hydraulic simulation in instream flow studies: theory and techniques. Instream Flow Information Paper 5. FWS/OBS-78/33. Cooperative Instream Flow Service Group. Fort Collins, Colorado. Burn D. H., 1989. Cluster analysis as applied to regional flood frequency. Journal of Water Resources Planning and Management 115: 567–582. Chiu, Stephen L., 1994. Fuzzy Model Identification Based on Cluster Estimation. Journal of Intelligent and Fuzzy Systems, Vol. 2, 267-278. De Moya, M. E., 2003. Representación y clasificación de datos geoespaciales: comparación entre mapas autoorganizativos de Kohonen y el método Gas Neuronal. Revista Ingeniería e Investigación No. 53. Diez J. M., 2008. Memorias del Curso-Taller “Modelamiento Ecohidráulico de Caudales Ecológicos”. Dictado dentro de la materia Ecohidrología y Ecohidráulica de la Maestría en Hidrosistemas de la Pontificia Universidad Javeriana. Fernández, M., 2006. Mapas auto-organizables (SOM). Presentación para curso de doctoramiento, Modelos básicos de redes neuronales artificiales. Programa de Doctoramiento Interuniversitario en Neurociencia. Universidad de Santiago de Compostela, España. http://www.gsi.dec.usc.es/~delgado/cfc/som/6_som.pdf Gaitán, C. F., 2009. Vigilancia Tecnológica Científica de Ciclos Biogeoquímicos. Journal of Technology Management & Innovation, Volume 4, Issue 2. Universidad Alberto Hurtado, Facultad de Economía y Negocios. Guttman N. B., 1993. The use of L-moments in the determination of regional precipitation climates. Journal of Climate 6: 2309–2325. Guttman N. B., Hosking J. R. M. y Wallis J. R., 1993. Regional precipitation quantile values for the continental US computed from L-moments. Journal of Climate 6: 2326–2340. Hall, Mark; Frank, Eibe; Holmes, Geoffrey; Pfahringer, Bernhard; Reutemann, Peter and Witten, Ian H, 2009. The WEKA Data Mining Software: An Update. 107 Department of Computer Science, University of Waikato. SIGKDD Explorations 11, no. 1: 10-18. http://www.kdd.org/explorations/issues/11-1-2009-07/p2V11n1.pdf Hopgood, A., 2000. Intelligent Systems for Engineers and Scientists. CRC Press. London. IDEAM, 2009. Instituto de Hidrología, Meteorología y Estudios Ambientales. Catálogo Nacional de Estaciones, versión 2009-12-28. Ingfocol, 2010. Informe Final de Consultoría: Implementación de la metodología ELOHA (Límites ecológicos de la alteración hidrológica) para la determinación de caudales ambientales regionales en la cuenca Magdalena-Cauca. Convenio entre The Nature Conservacy (TNC) y el Ministerio de Ambiente, Vivienda y Desarrollo Territorial (MAVDT). Kennard M. J., Pusey B. J., Olden J. D., Mackay S. J. Stein J. L. y Marsh N., 2010. Classification of natural flow regimes in Australia to support environmental flow management. Freshwater Biology No. 55: 171-193. Lecce S. A., 2000. Spatial variations in the timing of annual floods in the southeastern United States. Journal of Hydrology 235: 151–169. Lin G-F. y Chen L-H., 2006. Identification of homogeneous regions for regional frequency analysis using the self-organizing map. Journal of Hydrology 324: 1-9. Mangiameli P., Chen S. K. y West D., 1996. A comparison of SOM neural network and hierarchical clustering methods. European Journal of Operational Research 93: 402–417. MathWorks Inc., 2002. Neural Netoworks Toolbox, User’s Guide Version 4 for use with Matlab. MAVDT, 2010. Ministerio de Ambiente, Vivienda y Desarrollo Territorial. Proyecto de Resolución por la cual se establecen los lineamientos y criterios técnicos para la estimación del caudal ambiental y se toman otras determinaciones. Poff N. L., Richter B. D., Arthington A. H., Bunn S. E., Naiman R. J., Kendy E., Acreman M., Apse C., Bledsoe B.P., Freeman M. C., Henriksen J., Jacobson R. B., Kennen J. G., Merritt D. M., O’Keeffe J. H., Olden J. D., Rogers K., Tharme R. E. y Warner A., 2010. The ecological limits of hydrologic alteration (ELOHA): a new framework for developing regional environmental flow standards. Freshwater Biology No. 55: 147-170. 108 Smithers J. C. y Schulze R. E., 2001. A methodology for the estimation of short duration design storms in South Africa using a regional approach based on Lmoments. Journal of Hydrology 241: 42–52. TNC, 2009. The Nature Conservancy. Hacia la Conservación y Desarrollo Sostenible del Río Magdalena, Resultados del Trabajo del Acuerdo entre Cormagdalena y The Nature Conservancy entre 2008 y 2009. Portafolio de áreas prioritarias para la conservación en ecosistemas de agua dulce. TNC, 2011. The Nature Conservancy. Manual de usuario de Indicadores de Alteración Hidrológica – IHA, versión 7.1. UNESCO, 2007. Organización de las Naciones Unidas para la Educación, la Ciencia y Cultura. Ecohydrology: An Interdisciplinary Approach for the Sustainable Management of Water Resources. Impreso en Francia. http://unesdoc.unesco.org/images/0015/001529/152987e.pdf Wagener, Thorsten; Sivapalan, Murugesu y McGlynn, Brian, 2008. Catchment Classification and Services – Toward a New Paradigm for Catchment Hydrology Driven by Societal Needs. Encyclopedia of Hydrological Sciences. Edited by M. G. Anderson. 109 11. ANEXOS Nota: los anexos se incluyen como archivos magnéticos en el disco compacto adjunto 110