Download agrupación ecohidrológica de corrientes en la cuenca magdalena

Document related concepts

Aprendizaje de cuantificación vectorial wikipedia , lookup

Caudal ecológico wikipedia , lookup

Mapa autoorganizado wikipedia , lookup

Teuvo Kohonen wikipedia , lookup

Aprendizaje automático wikipedia , lookup

Transcript
AGRUPACIÓN ECOHIDROLÓGICA DE CORRIENTES EN
LA CUENCA MAGDALENA-CAUCA DENTRO DEL MARCO
DE REFERENCIA ELOHA, EMPLEANDO MAPAS
AUTORGANIZADOS DE KOHONEN
FEDERICO GONZÁLEZ CUÉLLAR
PONTIFICIA UNIVERSIDAD JAVERIANA
FACULTAD DE INGENIERÍA
MAESTRÍA EN HIDROSISTEMAS
BOGOTÁ D. C.
2012
AGRUPACIÓN ECOHIDROLÓGICA DE CORRIENTES EN
LA CUENCA MAGDALENA-CAUCA DENTRO DEL MARCO
DE REFERENCIA ELOHA, EMPLEANDO MAPAS
AUTORGANIZADOS DE KOHONEN
Estudiante
FEDERICO GONZÁLEZ CUÉLLAR
Ingeniero Civil
Trabajo de grado para optar al título de
MAGISTER EN HIDROSISTEMAS
Director
NELSON OBREGÓN NEIRA
Ingeniero Civil, M.Sc., Ph.D.
PONTIFICIA UNIVERSIDAD JAVERIANA
FACULTAD DE INGENIERÍA
MAESTRÍA EN HIDROSISTEMAS
BOGOTÁ D. C.
2012
Nota de aceptación
__________________________
__________________________
__________________________
_________________________
Director del Proyecto
_________________________
Jurado
_________________________
Jurado
_________________________
Jurado
Bogotá D. C., enero de 2012
A María Camila porque cumplir
esta meta es como verte a ti
crecer y sentir orgullosamente
la satisfacción del deber
cumplido.
AGRADECIMIENTOS
Expreso mis más sinceros agradecimientos al director de esta investigación, el
Ingeniero Nelson Obregón Neira, quien aparte de guiarme sabiamente a lo largo
de mi vida profesional y académica, se ha encargado especialmente de
convertirme en una mejor persona, por lo cual, estoy seguro, se ha ganado el título
de padre académico para mí y para muchos de mis compañeros.
A mi familia, quienes me dieron ese apoyo que necesité en momentos difíciles y
supieron perdonar el sacrificio de mi ausencia para el desarrollo de este proyecto.
A mis compañeros Eder Cárdenas, Jaime Moreno y Felipe Ardila, quienes
colaboraron en el desarrollo de los programas de computador elaborados para
este proyecto y quienes tuvieron la paciencia de enseñarme aquellos trucos de
programación vitales para la culminación de este proyecto.
A Patricia Pineda por su valiosa colaboración en la elaboración de los mapas
geográficos de clasificación.
Finalmente agradezco a Ingetec S. A., especialmente al Ingeniero Fernando
Manjarrés, por brindarme el apoyo económico y laboral que necesité para finalizar
este proceso.
TABLA DE CONTENIDO
1. INTRODUCCIÓN .............................................................................................. 1 2. ASPECTOS GENERALES ............................................................................... 4 2.1. PLANTEAMIENTO DEL PROBLEMA Y JUSTIFICACIÓN...................................................... 4 2.2. OBJETIVOS DE LA INVESTIGACION ......................................................................................... 6 2.2.1. Objetivo General .............................................................................................................................. 7 2.2.2. Objetivos específicos ....................................................................................................................... 7 2.3. ALCANCES DE LA INVESTIGACIÓN .......................................................................................... 7 3. MARCO TEÓRICO Y ESTADO DEL ARTE ..................................................... 9 3.1. LÍMITES ECOLÓGICOS DE ALTERACIÓN HIDROLÓGICA (ELOHA) .............................. 9 3.1.1. Antecedentes de ELOHA en Colombia.......................................................................................... 12 3.2. AGRUPAMIENTO DE INFORMACIÓN ..................................................................................... 23 3.2.1. Métodos Jerárquicos....................................................................................................................... 23 3.2.2. Métodos No Jerárquicos o Particionales ........................................................................................ 24 3.2.3. Redes de Kohonen ......................................................................................................................... 25 3.2.3.1. Arquitectura de las redes de Kohonen .................................................................................. 26 3.2.3.2. Funcionamiento de las redes de Kohonen ............................................................................ 28 3.2.3.3. Visualización de los resultados de las Redes de Kohonen.................................................... 31 3.2.3.4. Aplicaciones comunes de los mapas de Kohonen ................................................................ 37 3.2.4. Antecedentes de clasificación de corrientes hidrológicas .............................................................. 38 4. METODOLOGÍA............................................................................................. 40 5. MÉTODO DE CLASIFICACIÓN DE KOHONEN ............................................ 43 5.1. EJEMPLO ILUSTRATIVO DEL MÉTODO DE KOHONEN ..................................................... 43 5.2. PROGRAMACIÓN DEL MÉTODO DE KOHONEN.................................................................. 49 6. PROCESO DE CLASIFICACIÓN DE CORRIENTES DE LA CUENCA
MAGDALENA-CAUCA MEDIANTE EL MÉTODO DE KOHONEN ...................... 50 6.1. DISEÑO EXPERIMENTAL............................................................................................................ 50 6.1.1. Aplicativo computacional del método de Kohonen ....................................................................... 51 6.2. DESCRIPCIÓN DE RESULTADOS DEL APLICATIVO COMPUTACIONAL ..................... 52 6.2.1. Resultados del aplicativo computacional ....................................................................................... 52 6.2.2. Resultados por Método de Kohonen .............................................................................................. 53 6.2.3. Resultados por Clúster topológico ................................................................................................. 57 6.2.4. Métricas de desempeño en la clasificación de la información ....................................................... 63 7. ANÁLISIS DE CLASIFICACIÓN DE CORRIENTES PARA DIFERENTES
TIPOLOGÍAS DE VARIABLES EN LA CUENCA MAGDALENA-CAUCA ........... 66 7.1. TIPOLOGÍA DE VARIABLES NO. 1 ........................................................................................... 66 7.2. TIPOLOGÍA DE VARIABLES NO. 2 ........................................................................................... 70 7.3. TIPOLOGÍA DE VARIABLES NO. 3 ........................................................................................... 73 7.4. TIPOLOGÍA DE VARIABLES NO. 4 ........................................................................................... 76 7.5. TIPOLOGÍA DE VARIABLES NO. 5 ........................................................................................... 79 7.6. TIPOLOGÍA DE VARIABLES NO. 6 ........................................................................................... 82 7.7. RESUMEN DEL NÚMERO DE GRUPOS POR TIPOLOGÍA DE VARIABLES .................... 84 8. ANÁLISIS DE INVARIANCIA Y VARIABLES IMPORTANTES .................... 86 8.1. ANÁLISIS DE INVARIANCIA DE CORRIENTES SIMILARES ............................................. 86 8.1.1. Tipología de variables óptima frente a clasificación Ingfocol 2010 .............................................. 89 8.2. COMPARACIÓN DE KOHONEN CON OTRO MÉTODO DE CLASIFICACIÓN ............... 94 8.3. VARIABLES IMPORTANTES DENTRO DEL PROCESO DE CLASIFICACIÓN ............... 96 9. COMENTARIOS FINALES, CONCLUSIONES Y RECOMENDACIONES .. 103 10. REFERENCIAS BIBLIOGRÁFICAS......................................................... 107 11. ANEXOS ................................................................................................... 110 ÍNDICE DE FIGURAS
Figura 3.1. Relación entre los conceptos claves de la Gestión Integrada del
Recurso Hídrico (Tomado de UNESCO, 2007)........................................................ 9 Figura 3.2. Esquema metodológico de ELOHA (Tomado de Poff y otros, 2010). .. 11 Figura 3.3. Logaritmo de la verosimilitud en función del número de clústeres
(Tomado de Ingfocol, 2010). .................................................................................. 17 Figura 3.4. Resumen del proceso de clasificación de corrientes en la cuenca
Magdalena-Cauca (Tomado de Ingfocol, 2010). .................................................... 18 Figura 3.5. Distribución de las familias obtenidas en la cuenca Magdalena-Cauca
(Tomado de Ingfocol, 2010). .................................................................................. 19 Figura 3.6. Subclasificación (Subfamilias) de corrientes para cada una de las 6
familias obtenidas (Tomado de Ingfocol, 2010). .................................................... 20 Figura 3.7. Categorías de los Sistemas Inteligentes (Tomado de Hopgood, 2000).
............................................................................................................................... 25 Figura 3.8. Arquitectura de las redes de Kohonen. ................................................ 27 Figura 3.9. Topologías más usadas en las redes de Kohonen (Tomado de
MathWorks Inc., 2002). .......................................................................................... 27 Figura 3.10. Grados de vecindad en una Topología rectangular (Tomado de
MathWorks Inc., 2002). .......................................................................................... 28 Figura 3.11. Funcionamiento de las Redes de Kohonen (C: ciclo y CT: total de
ciclos). .................................................................................................................... 28 Figura 3.12. Patrones de entrada – ejemplo para visualización de los mapas de
Kohonen. ............................................................................................................... 32 Figura 3.13. Mapa de topología del modelo – ejemplo para visualización de los
mapas de Kohonen. ............................................................................................... 33 Figura 3.14. Mapa de conexiones laterales del vecindario – ejemplo para
visualización de los mapas de Kohonen. ............................................................... 33 Figura 3.15. Mapa de hits – ejemplo para visualización de los mapas de Kohonen.
............................................................................................................................... 34 Figura 3.16. Mapas de variables de entrada – ejemplo para visualización de los
mapas de Kohonen. ............................................................................................... 35 Figura 3.17. Mapa de distancia entre neuronas (U_Matrix) – ejemplo para
visualización de los mapas de Kohonen. ............................................................... 36 Figura 3.18. Mapa de ubicación de los pesos de las neuronas – ejemplo para
visualización de los mapas de Kohonen. ............................................................... 37 Figura 4.1. Diagrama de Flujo del proceso metodológico. .................................... 40 Figura 5.1. Patrones de entrada del ejemplo de clasificación. ............................... 44 Figura 5.2. Topología del modelo de red de Kohonen. .......................................... 44 Figura 5.3. Variación del error del modelo. ............................................................ 48 Figura 5.4. Agrupamiento de datos para cada iteración. ....................................... 48 Figura 6.1. Sentido de numeración de las neuronas en las matrices de resultados.
............................................................................................................................... 53 Figura 6.2. Gráficas de hits para la tipología No. 6. ............................................... 54 Figura 6.3. Gráficas de distancias entre neuronas (U-Matrix) para la tipología No.
6. ............................................................................................................................ 55 Figura 6.4. Clústeres topológicos para Radios de 0.1 y 0.2 – modelo 400 neuronas
tipología No. 6. ....................................................................................................... 58 Figura 6.5. Clústeres topológicos para Radios de 0.3 y 0.4 – modelo 400 neuronas
tipología No. 6. ....................................................................................................... 59 Figura 6.6. Clústeres topológicos para Radios de 0.5 y 0.6 – modelo 400 neuronas
tipología No. 6. ....................................................................................................... 60 Figura 6.7. Clústeres topológicos para Radios de 0.7 y 0.8 – modelo 400 neuronas
tipología No. 6. ....................................................................................................... 61 Figura 6.8. Clústeres topológicos para Radios de 0.9 y 1 – modelo 400 neuronas
tipología No. 6. ....................................................................................................... 62 Figura 7.1. Gráficas de hits y U-Matrix para el modelo de 225 neuronas en la
tipología No. 1. ....................................................................................................... 67 Figura 7.2. Gráficas de hits y U-Matrix para el modelo de 400 neuronas en la
tipología No. 1. ....................................................................................................... 68 Figura 7.3. Gráficas de hits y U-Matrix para el modelo de 900 neuronas en la
tipología No. 1. ....................................................................................................... 69 Figura 7.4. Gráficas de hits y U-Matrix para el modelo de 225 neuronas en la
tipología No. 2. ....................................................................................................... 70 Figura 7.5. Gráficas de hits y U-Matrix para el modelo de 400 neuronas en la
tipología No. 2. ....................................................................................................... 71 Figura 7.6. Gráficas de hits y U-Matrix para el modelo de 900 neuronas en la
tipología No. 2. ....................................................................................................... 72 Figura 7.7. Gráficas de hits y U-Matrix para el modelo de 225 neuronas en la
tipología No. 3. ....................................................................................................... 73 Figura 7.8. Gráficas de hits y U-Matrix para el modelo de 400 neuronas en la
tipología No. 3. ....................................................................................................... 74 Figura 7.9. Gráficas de hits y U-Matrix para el modelo de 900 neuronas en la
tipología No. 3. ....................................................................................................... 75 Figura 7.10. Gráficas de hits y U-Matrix para el modelo de 225 neuronas en la
tipología No. 4. ....................................................................................................... 76 Figura 7.11. Gráficas de hits y U-Matrix para el modelo de 400 neuronas en la
tipología No. 4. ....................................................................................................... 77 Figura 7.12. Gráficas de hits y U-Matrix para el modelo de 900 neuronas en la
tipología No. 4. ....................................................................................................... 78 Figura 7.13. Gráficas de hits y U-Matrix para el modelo de 225 neuronas en la
tipología No. 5. ....................................................................................................... 79 Figura 7.14. Gráficas de hits y U-Matrix para el modelo de 400 neuronas en la
tipología No. 5. ....................................................................................................... 80 Figura 7.15. Gráficas de hits y U-Matrix para el modelo de 900 neuronas en la
tipología No. 5. ....................................................................................................... 81 Figura 7.16. Clasificación de corrientes del modelo de 225 neuronas para la
tipología No. 5. ....................................................................................................... 82 Figura 7.17. Clasificación de corrientes de los modelos de 25, 100, 225 y 400
neuronas para la tipología No. 6. ........................................................................... 83 Figura 8.1. Árbol de decisión para la determinación de variables importantes en el
proceso de clasificación correspondiente a la tipología No. 5. .............................. 97 Figura 8.2. Árbol de decisión para la determinación de variables importantes en el
proceso de clasificación correspondiente a la tipología No. 6. .............................. 98 Figura 8.3. Mapa de variables de entrada del Método de Kohonen para la
Tipología No. 5..................................................................................................... 100 Figura 8.4. Mapa de variables de entrada del Método de Kohonen para la
Tipología No. 6..................................................................................................... 101 ÍNDICE DE TABLAS
Tabla 3.1. Variables iniciales tenidas en cuenta dentro del proceso de clasificación
de corrientes en la cuenca Magdalena-Cauca (Tomado de Ingfocol, 2010). ......... 13 Tabla 3.2. Variables definitivas para el proceso de clasificación después del
análisis de componentes principales y correlación lineal entre variables (Tomado
de Ingfocol, 2010). ................................................................................................. 16 Tabla 5.1. Patrones de entrada del ejemplo de clasificación. ................................ 43 Tabla 5.2. Inicialización de pesos de las 20 neuronas. .......................................... 45 Tabla 5.3. Distancias euclidianas y neurona ganadora – Patrón 1, iteración 1. ..... 46 Tabla 5.4. Factor de ponderación – Patrón 1, iteración 1. .................................... 46 Tabla 5.5. Factor de ponderación – Patrón 1, iteración 3. .................................... 46 Tabla 5.6. Pesos actualizados de la red – Patrón 1, iteración 1. .......................... 47 Tabla 5.7. Comparación de los pesos actualizados para el patrón 6 de la iteración
5 entre el ejercicio de Excel y el código de Matlab. ............................................... 49 Tabla 6.1. Métrica de ajuste de cada uno de los modelos realizados para la
tipología No. 6. ....................................................................................................... 57 Tabla 6.2. Número de clústeres para cada radio de vecindad – Modelo de 400
neuronas tipología No. 6. ....................................................................................... 57 Tabla 6.3. Métricas de homogeneidad en la clasificación del modelo de 400
neuronas y tipología No. 6. .................................................................................... 64 Tabla 6.4. Métricas de homogeneidad del modelo de 400 neuronas y tipología No.
6. ............................................................................................................................65 Tabla 7.1. Resumen del proceso de clasificación de corrientes de la cuenca
Magdalena-Cauca para diferentes tipologías de variables. ................................... 84 Tabla 8.1. Matriz de invariancia de corrientes - tipologías de variables No. 5 y 6. 87 Tabla 8.2. Grupos de corrientes invariantes entre las tipologías de variables No. 5
y 6. .........................................................................................................................88 Tabla 8.3. Matriz de invariancia de corrientes - clasificación Ingfocol 2010 y
tipología No 5. ........................................................................................................ 89 Tabla 8.4. Grupos de corrientes invariantes entre la clasificación Ingfocol 2010 y la
tipología No. 5. ....................................................................................................... 90 Tabla 8.5. Matriz de invariancia de corrientes - clasificación Ingfocol 2010 y
tipología No 6. ........................................................................................................ 91 Tabla 8.6. Grupos de corrientes invariantes entre la clasificación Ingfocol 2010 y la
tipología No. 6. ....................................................................................................... 92 Tabla 8.7. Grupos de corrientes de invariancia nula para las tipologías de variables
No. 5 y 6 con respecto a la clasificación realizada por Ingfocol en 2010. .............. 93 Tabla 8.8. Número de grupos para comparación de métodos de clasificación. ..... 95 LISTA DE ANEXOS
ANEXO A: Geodatabase – Variables de clasificación.
ANEXO B: Ejemplo ilustrativo de clasificación por el método de Kohonen.
ANEXO C: Aplicativo computacional para clasificación de corrientes por el método
de Kohonen.
ANEXO D: Reportes de clasificación para cada tipología de variables.
ANEXO E: Resultados del proceso de clasificación de corrientes de la cuenca
Magdalena-Cauca
ANEXO F: Mapas de clasificación de las tipologías No. 5 y 6.
ANEXO G: Aplicativo computacional y resultados del análisis de invariancia de
grupos de corrientes
ANEXO H: Resultados de la comparación del método de Kohonen con el método
de Clustering Difuso.
XIX
1. INTRODUCCIÓN
Este documento es el resultado del trabajo investigativo efectuado para optar al
título de Magister en Hidrosistemas de la Pontificia Universidad Javeriana, el cual
surgió de la necesidad de encontrar una metodología idónea para el agrupamiento
de corrientes de agua dentro del marco de referencia para la determinación de
caudales ecológicos a nivel regional denominado Ecological Limits of Hydrologic
Alteration (ELOHA). Teniendo en cuenta que en la mayoría de metodologías para
clasificación de datos es necesario introducir como parámetro inicial el número de
grupos en los cuales se desea hacer la clasificación, en este caso se postula a las
Redes de Kohonen como metodología de clasificación de información
precisamente porque no necesita de manera predeterminada el número de
grupos.
Dentro del marco de referencia metodológico ELOHA para la asignación de
caudales ecológicos a nivel regional, tal vez el proceso más importante y definitivo
en la obtención de óptimos resultados es la elaboración adecuada de las curvas
de alteración hidrológica versus respuesta ecológica de cada ecosistema, no
obstante, para ello es muy importante identificar qué ríos o tramos de río dentro de
la zona de estudio pertenecen a un ecosistema u otro, ya que las curvas de
alteración-respuesta son propias de cada ecosistema e incluso, en ocasiones, se
pueden desarrollar para especies específicas de los ecosistemas encontrados.
Para identificar los ecosistemas, este marco metodológico contempla una etapa
previa de clasificación de corrientes que principalmente debe hacerse con
información hidrológica, que es la que condiciona las características de los
ecosistemas.
El proceso de clasificación de corrientes no sólo permite elaborar estratégica y
adecuadamente las curvas de alteración hidrológica versus respuesta ecológica,
sino que es el aspecto que le da el carácter regional de asignación de caudales
ecológicos a esta metodología, pues mientras las metodologías tradicionales se
enfocan en tramos de río específicos, ELOHA a través de la clasificación de
corrientes puede sintetizar en grupos de corrientes y por tanto en ecosistemas,
grandes territorios, lo cual le permite establecer caudales ecológicos en grandes
regiones.
Con base en experiencias anteriores de proyectos similares, se identificó que el
proceso de clasificación en Hidroinformática y especialmente el de clasificación de
corrientes en el caso de ELOHA, es un proceso complejo y difícil de llevar a cabo.
Usualmente se emplean métodos de tipo jerárquico y no jerárquico para clasificar
información, sin embargo, con estos métodos resulta engorroso y difícil responder
preguntas de investigación como por ejemplo cuál es el número de grupos que
realmente subyace a una información dada, pues como ya se mencionó, estos
1
métodos por lo general necesitan de entrada precisamente el número de grupos.
Teniendo en consideración la característica de no supervisión de las Redes de
Kohonen y por tanto el hecho de que no necesita de manera predeterminada el
número de grupos, en esta investigación y con ayuda de esta herramienta se
profundiza en las características propias del proceso de clasificación de corrientes
dentro de ELOHA como se describirá más adelante en detalle.
Como se podrá observar a lo largo de este documento, los dos ejes de esta
investigación están en concordancia con dos de los paradigmas postulados como
pilares de la Maestría en Hidrosistemas: La Hidroinformática y la Ecohidrología.
Por un lado se abordó un problema de ingeniería como es la clasificación de
corrientes desde el punto de vista hidroinformático, postulando a las Redes
Neuronales Artificiales, concretamente a las Redes de Kohonen, como un método
adecuado para la clasificación de información ecohidrológica. Desde el punto de
vista Ecohidrológico, dentro del marco de referencia ELOHA se abordó el tema de
caudales ecológicos a nivel regional, cuya discusión hasta ahora se está
debatiendo a nivel mundial, con lo cual se busca promover el entendimiento y la
utilización de nuevas herramientas para el uso adecuado de los recursos
naturales, en especial el que se refiere al recurso hídrico, teniendo en cuenta, por
supuesto, un desarrollo sostenible para Colombia.
Otro aspecto importante de este proyecto tiene que ver precisamente con el
sentido investigativo de la Maestría en Hidrosistemas, para lo cual se tomó
información de una de las cuencas más importantes de Colombia, la cuenca de los
ríos Magdalena y Cauca, para investigar y comprobar las hipótesis planteadas
como objetivos de esta investigación. Para difundir los resultados de este
proyecto, se presentó una ponencia a unos de los eventos científicos
internacionales más importantes (sino el más importante) en el tema de
Ecohidráulica y Caudales Ecológicos. Se trata del 9no Simposio Internacional en
Ecohidráulica, que se desarrollará en septiembre de 2012 en Austria, y el nombre
de la ponencia es Stream Classification and Assessment of Hydrologic Alterations
towards an Environmental Flow Appraisal of The Magdalena-Cauca River Basin
(Colombia).
El documento se divide en varios capítulos. Aparte de este primer capítulo
introductorio, a continuación se presenta un Capítulo 2 de Aspectos Generales
donde se describe entre otros temas la justificación de esta investigación, se
plantea el problema y la pregunta de investigación y finalmente se presentan los
objetivos del proyecto.
Posteriormente en el Capítulo 3 se presenta el Marco Teórico y Estado del Arte
donde se muestra la esencia conceptual y teórica que subyace a los ejes
fundamentales de esta investigación y donde se muestra también a manera de
antecedentes cuál ha sido el avance de estos temas en el mundo y
particularmente en Colombia.
2
A continuación, en el Capítulo 4 denominado Metodología, se presenta el modelo
metodológico planteado para el desarrollo de esta investigación.
En el Capítulo 5 se presenta un ejemplo ilustrativo hecho paso a paso, que sirvió
para el completo entendimiento del método de Kohonen y con base en el cual se
pudo desarrollar un aplicativo computacional inicial del método para clasificar
información. Dicho aplicativo fue validado con la información del ejemplo
ilustrativo.
El Capítulo 6 contiene inicialmente el diseño experimental planteado para lograr
los objetivos propuestos y posteriormente, tomando como ejemplo una de las
tipologías de variables planteadas, se describen los resultados que se obtienen
con el aplicativo computacional desarrollado para la clasificación de corrientes en
la cuenca Magadalena-Cauca. El aplicativo computacional descrito en este
capítulo difiere del aplicativo presentado en el capítulo anterior, pues para este
caso se desarrolló un aplicativo que contiene el Toolbox de Matlab para redes
neuronales, específicamente el de Mapas Autorganizados de Kohonen (SOM), ya
que proporciona diferentes gráficas para el análisis de resultados.
El Capítulo 7 contiene el análisis de los resultados obtenidos en el proceso de
clasificación de corrientes de la cuenca Magdalena-Cauca mediante el método de
las Redes de Kohonen, el cual incluye el número de clústeres óptimo para cada
tipología de variables.
En el Capítulo 8 se encuentra el análisis de invariancia y familiaridad de corrientes
frente a diferentes tipologías de variables y la determinación de las variables
relevantes en el proceso de clasificación. También se incluye una comparación
entre el método de Kohonen y otro método de agrupamiento en el marco de la
clasificación de corrientes de la cuenca Magdalena-Cauca.
Por último, al final del documento se presentan los Capítulos 9, 10 y 11 que
corresponden a los comentarios finales y conclusiones, referencias bibliográficas y
Anexos respectivamente.
3
2. ASPECTOS GENERALES
Este capítulo contiene aspectos generales del proyecto tales como la motivación y
justificación, los cuales permiten introducir el planteamiento del problema y a su
vez permiten plantear la pregunta de investigación que da lugar al establecimiento
de los objetivos para responderla.
2.1. PLANTEAMIENTO DEL PROBLEMA Y JUSTIFICACIÓN
Dentro de la Gestión Integrada del Recurso Hídrico existen más de 200
metodologías para determinar caudales ecológicos, las cuales pueden clasificarse
en metodologías hidrológicas, hidráulicas, de simulación de hábitat y holísticas
(Diez, 2008). Una de las metodologías más reconocidas y empleadas a nivel
mundial se denomina Instream Flow Incremental Methodology o IFIM por sus
siglas en inglés (Bovee y Milhous, 1978) y hace parte de las metodologías de
simulación de hábitat, sin embargo, esta metodología, al igual que la mayoría de
metodologías para determinar caudales ecológicos, es aplicada a tramos de ríos
específicos, lo cual limita la posibilidad de abarcar grandes superficies. En algunos
casos lo anterior resulta ser una limitación para las autoridades ambientales, cuya
jurisdicción puede ser muy amplia y sus recursos económicos limitados.
El Marco de referencia Ecological Limits of Hydrologic Alteration (ELOHA)
pretende precisamente determinar, así sea de manera gruesa, caudales
ecológicos de manera regional. Esta metodología se considera regional porque en
vez de asignar caudales ecológicos a cada corriente de manera particular, a partir
de un proceso de clasificación y agrupación de corrientes es posible plantear
curvas de alteración hidrológica vs respuesta ecológica para cada grupo de
corrientes con las cuales se asignan los caudales ecológicos. Lo anterior simplifica
el análisis y permite abarcar grandes regiones (Poff y otros, 2010).
Dentro de ELOHA son varios los retos a afrontar para obtener resultados
satisfactorios. Específicamente en el proceso científico se destacan dos aspectos
de las múltiples actividades que se deben realizar: la clasificación de corrientes y
la obtención de las curvas de alteración hidrológica vs respuesta ecológica, claro
está que la obtención de curvas de alteración-respuesta depende en gran medida
de una óptima clasificación de corrientes, pues entre mejor sea el proceso de
clasificación desde el punto de vista ecohidrológico, más representativas serán las
curvas de alteración-respuesta.
En consecuencia, la actividad de clasificación de corrientes dentro del proceso
científico de ELOHA se considera una actividad fundamental para garantizar el
4
éxito de esta metodología, no obstante, esta actividad puede resultar en un
proceso altamente complejo y difícil de llevar a cabo.
Por ejemplo, autores como Wagener y otros (2008), perciben el problema de
clasificación de cuencas hidrológicas como un problema que aún no se ha resuelto
porque los hidrólogos en esta materia no tienen un sistema de clasificación de
cuencas generalmente aceptado, lo cual en parte se debe a que las clasificaciones
actuales no son dinámicas y en este sentido desconocen que los aspectos que
caracterizan las cuencas van cambiando en el tiempo. Adicionalmente, estos
autores resaltan la necesidad de observar cada cuenca desde una perspectiva
más holística que involucre diferentes tipos de variables, para lo cual sugieren un
marco conceptual para el proceso de clasificación de cuencas.
Existen muchas metodologías que se pueden aplicar para el proceso de
clasificación de corrientes. Tradicionalmente dentro de la hidroclimatología se han
empleado métodos de clasificación de tipo jerárquico y no jerárquico como Ward y
K-means respectivamente, sin embargo, éstos requieren de un proceso
supervisado, es decir, de asignar predeterminadamente el número de grupos para
supervisar y calibrar el proceso de clasificación (Lin y Chen, 2006).
Lo anterior resulta ser una limitación, pues un proceso ideal de clasificación no
sólo debe agrupar información homogénea en grupos lo suficientemente
heterogéneos, sino que idealmente debería identificar qué variables condicionan el
agrupamiento e identificar el número de grupos que realmente representan la
información analizada, siendo este último aspecto el más difícil de responder ya
que no existe forma de encontrar de manera objetiva y predeterminada el número
de grupos usando los métodos convencionales de clasificación. En la práctica se
escoge predeterminadamente el número de grupos mediante aproximaciones
subjetivas y ensayos de prueba y error.
En este sentido las redes de Kohonen se postulan como una metodología de
clasificación que no necesita de un proceso de aprendizaje supervisado y en
consecuencia tampoco necesita de manera predeterminada el número de familias
o clústeres. Teniendo en cuenta esta característica y enfocando la problemática a
la clasificación de corrientes en la cuenca Magdalena-Cauca dentro del marco de
referencia ELOHA, se abre la posibilidad de plantear preguntas que con los
métodos de clasificación tradicionales no es posible responder eficientemente
como las que se enuncian a continuación: ¿Existe un único número de grupos de
corrientes que represente ecohidrológicamente la cuenca Magdalena-Cauca?
¿Cuáles variables determinan la conformación de ese único número de grupos?
¿Existen grupos de corrientes específicas dentro de la cuenca Magdalena-Cauca
que permanezcan dentro de un mismo grupo independientemente de la tipología
de variables que se emplee en el proceso de clasificación?
5
A pesar de que el problema de clasificación dentro de ELOHA aplicado a la
cuenca Magdalena-Cauca se puede resolver con metodologías de clasificación
convencionales, responder las preguntas planteadas anteriormente soportaría
mejor este proceso pues se lograría una mejor representación de la cuenca
Magdalena-Cauca desde el punto de vista ecohidrológico y también se obtendrían
resultados más óptimos. Adicionalmente, mediante la aplicación del método de
Kohonen se evitaría emplear criterios subjetivos para obtener el número de
familias para representar ecohidrológicamente la cuenca y por el contrario se
obtendría el número de familias que en realidad subyace a la información de las
corrientes de la cuenca en cuestión.
Si bien las redes de Kohonen no se han aplicado al tema específico de
clasificación de corrientes dentro de ELOHA y tampoco a la clasificación
ecohidrológica de la cuenca Magdalena-Cauca, éstas han sido ampliamente
utilizadas a nivel mundial para regionalización hidrológica, especialmente a partir
de eventos extremos, obteniendo, incluso, mejores resultados que metodologías
comunes de clasificación (Lin y Chen, 2006). En síntesis, en el caso particular de
esta investigación, las características de las redes de Kohonen, concretamente la
de aprendizaje no supervisado, postulan a este método de clasificación como un
método adecuado para establecer óptima y objetivamente cuál es el número de
grupos que en realidad subyace a la información ecohidrológica de las corrientes
de la cuenca Magdalena-Cauca, aspecto principal de la investigación. Con los
otros métodos no existe una forma objetiva de responder esta pregunta ya que es
necesario establecer predeterminadamente el número de grupos en el cual se
desea clasificar cualquier tipo de información.
Teniendo en cuenta los aspectos mencionados anteriormente, especialmente la
característica de no supervisión en el proceso de aprendizaje de las redes de
Kohonen (no asignación predeterminada del número de grupos) y la evidente
complejidad en la clasificación de corrientes de la cuenca Magdalena-Cauca
enmarcada dentro de ELOHA, surge la siguiente pregunta de investigación:
Cuál es el grado de invariancia del número de grupos y corrientes familiares de
la cuenca Magdalena-Cauca para diferentes tipologías de variables de
clasificación y qué variables determinan dicha invariancia dentro del marco de
referencia ELOHA?
2.2. OBJETIVOS DE LA INVESTIGACION
Para responder la pregunta de investigación planteada anteriormente se proponen
los siguientes objetivos.
6
2.2.1. Objetivo General
Agrupar con criterio ecohidrológico las corrientes de la cuenca Magdalena-Cauca
dentro del marco de referencia ELOHA mediante mapas autorganizados de
Kohonen.
2.2.2. Objetivos específicos
• Identificar el número óptimo de familias en función de cada tipología de
variables empleada en el proceso de clasificación de corrientes en la
cuenca Magdalena-Cauca y dentro del marco de referencia ELOHA.
• Identificar cuáles son los posibles grupos de corrientes que son invariantes
a la tipología de variables empleada en la clasificación.
• Identificar las variables más relevantes de cada tipología de variables
empleada en el proceso de clasificación.
2.3. ALCANCES DE LA INVESTIGACIÓN
Se diferencian 3 tipos de alcances: el alcance conceptual y metodológico y el
alcance espacial y de información.
Desde el punto de vista conceptual, esta investigación fue concebida para
desarrollarse dentro del marco de referencia ELOHA, por consiguiente, los
criterios y las variables a tener en cuenta dentro del proceso de clasificación de
corrientes deben corresponder precisamente a los que contempla ELOHA, no
obstante, teniendo en cuenta que ELOHA a pesar de ser una metodología
compleja y holística, es sobre todo una metodología adaptativa y flexible, es
posible incluir dentro del proceso de clasificación variables de tipo social y
ecológico si se considera pertinente.
De otro lado, desde el punto de vista espacial y de información, es preciso recalcar
que el proceso de clasificación de corrientes que se plantea en esta investigación
se aplicará a la cuenca Magdalena-Cauca únicamente con información
secundaria.
Finalmente, desde el punto de vista metodológico existen muchas metodologías
para llevar a cabo el proceso de clasificación, sin embargo se van a emplear
únicamente las Redes de Kohonen, pues como ya se describió anteriormente esta
metodología se caracteriza ventajosamente frente a las otras metodologías en que
no necesita fijar de manera predeterminada el número de familias y en este
7
sentido esta herramienta serviría para responder eficaz y eficientemente la
pregunta de investigación planteada anteriormente.
También es preciso aclarar que debido a que las redes de Kohonen son modelos
guiados por datos y por tanto no se apoyan en la física propia de los problemas
para resolverlos, no es posible discernir fácilmente acerca de los procesos
hidrológicos, ecológicos, geográficos, etc. que condicionan el proceso de
clasificación.
8
3. MARCO TEÓRICO Y ESTADO DEL ARTE
Este capítulo contiene el marco teórico y estado del arte referente a los dos temas
principales que le competen a esta investigación: La Ecohidrología, más
específicamente los caudales ecológicos a nivel regional representados en el
marco de referencia ELOHA, y la clasificación de información o “Clustering”, que
en este caso se refiere concretamente al proceso de clasificación de corrientes
dentro de ELOHA. En cada caso, a manera de antecedentes se describe el estado
del arte de los dos ejes fundamentales de esta investigación.
3.1. LÍMITES ECOLÓGICOS DE ALTERACIÓN HIDROLÓGICA (ELOHA)
El marco de referencia para la determinación de caudales ecológicos ELOHA
(Ecological Limits of Hydrologial Alteration o Límites Ecológicos de Alteración
Hidrológica en español), hace parte de lo que se denominan Caudales Ecológicos
(E-flows en inglés), los cuales a su vez se ubican dentro de lo que la UNESCO ha
denominado el nuevo paradigma en el uso sustentable de los recursos hídricos: la
Ecohidrología. Esta disciplina, que combina la Ecología y la Hidrología, surgió en
1992 en Dublin durante las conclusiones de la Conferencia Internacional sobre el
Agua y el Ambiente en el marco del Programa Hidrológico Internacional
(UNESCO, 2007).
En la Figura 3.1 se muestra un esquema conceptual de la relación entre los
conceptos que se encuentran enmarcados dentro de la Gestión Integrada de
Recursos Hídricos (GIRH o IWRM por sus siglas en inglés) según la UNESCO.
Figura 3.1. Relación entre los conceptos claves de la Gestión Integrada del Recurso Hídrico (Tomado de
UNESCO, 2007).
9
Si bien existen muchas definiciones acerca del término Caudal Ecológico o Caudal
Ambiental, especialmente si se tiene en cuenta que todavía está abierta la
discusión a nivel mundial acerca de las diferencias entre estos dos términos
(Ingfocol, 2010), se considera pertinente la definición que el Ministerio de
Ambiente, Vivienda y Desarrollo Territorial (MAVDT) propuso en su proyecto de
resolución acerca de este tema: “Caudal Ambiental: Volumen de agua necesario
en términos de calidad, cantidad, duración y estacionalidad para el sostenimiento
de los ecosistemas acuáticos y para el desarrollo de las actividades
socioeconómicas de los usuarios aguas abajo de una fuente” (MAVDT, 2010).
La mayoría de metodologías para determinar caudales ecológicos se enfocan en
un tramo de río, lo cual impide a las autoridades ambientales cubrir rápidamente
su jurisdicción y reglamentar las concesiones de agua con un criterio
profundamente científico pero teniendo en cuenta el uso del recurso hídrico para el
desarrollo de las regiones. Ecological Limits of Hydrologic Alteration (ELOHA) es
una metodología que surgió conceptualmente en 2006 precisamente con el objeto
de abarcar grandes territorios en materia de caudales ambientales regionales
(Arthington y otros, 2006).
Se trata de una metodología adaptativa que se divide en tres procesos
fundamentales: el científico, el social y el de monitoreo. En el proceso científico se
obtienen los insumos e información necesarios para negociar entre los diferentes
actores el régimen de caudales ambientales que se acuerda en el proceso social.
El proceso de monitoreo es el que hace de esta metodología una metodología
adaptativa, pues en él es posible evaluar, adaptar y corregir los modelos, las
hipótesis y la información empleada en los procesos científico y social. En la
Figura 3.2 se puede observar el esquema metodológico de ELOHA.
10
Figura 3.2. Esquema metodológico de ELOHA (Tomado de Poff y otros, 2010).
En la Figura 3.2 es posible observar que dentro del proceso científico existen
cuatro pasos cuyo objetivo es obtener las curvas que relacionan la alteración
hidrológica con la respuesta ecológica para cada familia de corrientes. Estos
cuatro pasos son:
1. Fundamento hidrológico: busca obtener los hidrogramas antes y después
del desarrollo de cada alteración analizada. En ocasiones es necesario
implementar modelos hidrológicos que permitan obtener esos hidrogramas,
dada la ausencia de información en los puntos de interés.
2. Clasificación de corrientes: Este paso es el que permite que esta
metodología sea de tipo regional ya que para abarcar grandes territorios
resulta necesario agrupar las corrientes de características similares y hacer
los análisis subsiguientes para cada grupo de corrientes. Las corrientes del
área de estudio se deben clasificar según sus coincidencias
geomorfológicas e hidrológicas especialmente. Este paso es uno de los dos
ejes fundamentales de esta investigación.
3. Alteración de caudales: con el fin de establecer las implicaciones que tienen
las alteraciones o “desarrollos” en cada tipo de río o corriente, es necesario
inicialmente medir los impactos que éstas generan desde el punto de vista
11
hidrológico para poder relacionar el grado de alteración hidrológica con el
grado de alteración ecológica (siguiente paso). Existen diferentes
programas de computador como IHA (Indicators of Hydrologic Alterations)
que permiten evaluar la alteración hidrológica (TNC, 2011).
4. Relaciones caudal ecológica: con base en la clasificación de corrientes se
deben construir curvas con la respuesta ecológica que cada tipo de río
presenta ante los diferentes grados de alteración hidrológica. En este caso
resulta importante que por cada familia de corrientes se tengan por lo
menos tres puntos o corrientes con diferentes grados de alteración
hidrológica para poder construir las curvas. En caso de ausencia de
información, los expertos pueden plantear curvas teóricas o esperadas que
deberán ser validadas en el proceso de monitoreo. Estas curvas permitirán
establecer en el proceso social las condiciones ecológicas deseadas en
función de una alteración hidrológica o un aprovechamiento hídrico
específico, asociado a cada familia de corrientes.
3.1.1. Antecedentes de ELOHA en Colombia
El marco de referencia ELOHA, a pesar de ser una metodología relativamente
nueva, se ha aplicado con éxito en varios países como Estados Unidos, China,
Australia (Kennard y otros, 2010) y recientemente en Colombia donde Ingfocol
Ltda aplicó para TNC (The Nature Conservancy) y el MAVDT el marco de
referencia ELOHA en la cuenca Magdalena-Cauca hasta obtener las relaciones
entre la alteración hidrológica y la respuesta ecológica para cada una de las
familias obtenidas en el proceso de clasificación (Ingfocol, 2010). Teniendo en
consideración que este último aspecto, el de la clasificación de corrientes dentro
de ELOHA, es uno de los temas fundamentales dentro de esta investigación, a
continuación se describen con mayor profundidad los resultados que se obtuvieron
en este proyecto en lo que al tema de clasificación de corrientes dentro de la
cuenca Magdalena-Cauca se refiere.
En el estudio de Ingfocol Ltda desarrollado en 2010 se llevó a cabo un proceso de
clasificación ecohidrológica de corrientes para el cual se emplearon 174
estaciones hidrológicas pertenecientes al IDEAM y varios métodos de clasificación
como son: análisis de componentes principales, análisis de correlación lineal,
conocimiento experto, Clústeres de tipo jerárquico y no jerárquico y árboles de
decisión (Ingfocol, 2010).
La complejidad de agrupar familias de corrientes de la cuenca Magdalena-Cauca
desde el punto de vista ecohidrológico hizo que después de varios ensayos
aplicando los métodos descritos anteriormente por si solos, fuera necesario
introducir el criterio de expertos con lo cual finalmente la clasificación de corrientes
se hizo en dos etapas: una primera clasificación de regímenes hidrológicos
basada en la elevación de las estaciones analizadas, en la cual se obtuvieron 6
12
familias de corrientes y una subclasificación de esas familias en función de los
hidrogramas anuales promedio de cada familia.
A pesar de la primera etapa de clasificación y debido a la complejidad del conjunto
de hidrogramas anuales promedio de cada familia, en el proceso de
subclasificación fue necesario emplear nuevamente los métodos de clasificación
que ya se mencionaron. Adicionalmente, en los casos donde estos métodos no
arrojaron resultados satisfactorios, fue necesario emplear nuevamente el criterio
de expertos mediante la clasificación no sistematizada de los hidrogramas, lo cual
resalta la complejidad que se esconde en el proceso de clasificación
ecohidrológica de corrientes en la cuenca Magdalena-Cauca.
Inicialmente se tuvieron en cuenta 73 variables para el proceso de clasificación, la
cuales se muestran en la Tabla 3.1. De estas 73 variables, 68 corresponden a
parámetros obtenidos de IHA, 3 a las coordenadas espaciales de la estación y las
2 restantes a los dos primeros momentos estadísticos de las series de cada
estación hidrológica analizada. Es de aclarar que la variable No. 27 no se obtiene
del software IHA directamente, sino que se calcula a partir de sus resultados.
Tabla 3.1. Variables iniciales tenidas en cuenta dentro del proceso de clasificación de corrientes en la
cuenca Magdalena-Cauca (Tomado de Ingfocol, 2010).
No. CLASIFICACIÓN
NOMBRE
DESCRIPCIÓN
October
Caudal medio de Octubre
2
November
Caudal medio de Noviembre
December
Caudal medio de Diciembre
January
Caudal medio de Enero
February
Caudal medio de Febrero
March
Caudal medio de Marzo
April
Caudal medio de Abril
May
Caudal medio de Mayo
June
Caudal medio de Junio
July
Caudal medio de Julio
August
Caudal medio de Agosto
September
Caudal medio de Septiembre
1-day min
Mínimos anuales, media de 1 día
3-day min
Mínimos anuales, media de 3 días
7-day min
Mínimos anuales, media de 7 días
30-day min
Mínimos anuales, media de 30 días
90-day min
Mínimos anuales, media de 90 días
1-day max
Máximos anuales, media de 1 día
3-day max
Máximos anuales, media de 3 días
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
IHA - PARÁMETROS IHA (INDICADORES DE ALTERACIÓN
HIDROLÓGICA)
1
13
No. CLASIFICACIÓN
NOMBRE
DESCRIPCIÓN
20
7-day max
21
30-day max Máximos anuales, media de 30 días
22
90-day max Máximos anuales, media de 90 días
23
Zero days
Cantidad de días con caudal cero
24
Base flow
Índice de flujo base: caudal mínimo de 7 días/caudal medio anual
25
Date min
Fecha juliana de cada mínimo anual de 1 día
26
Date max
Fecha juliana de cada máximo anual de 1 día
27
Nm
Cuatrimestre en que ocurre el flujo más alto
28
Lo pulse #
Cantidad de pulsos bajos en cada año hidrológico
29
Lo pulse L
Media de la duración de los pulsos bajos en días
30
Hi pulse #
Cantidad de pulsos altos en cada año hidrológico
31
Hi pulse L
32
Rise rate
33
Fall rate
34
Reversals
Media de la duración de los pulsos altos en días
Tasas de ascenso: Media de todas las diferencias positivas entre
valores diarios consecutivos
Tasas de descenso: Media de todas las diferencias negativas entre
valores diarios consecutivos
Cantidad de inversiones hidrológicas
Máximos anuales, media de 7 días
Oct lowf
Valor medio de los caudales bajos de Octubre
36
Nov lowf
Valor medio de los caudales bajos de Noviembre
Dec lowf
Valor medio de los caudales bajos de Diciembre
Jan lowf
Valor medio de los caudales bajos de Enero
Feb lowf
Valor medio de los caudales bajos de Febrero
Mar lowf
Valor medio de los caudales bajos de Marzo
Apr lowf
Valor medio de los caudales bajos de Abril
May lowf
Valor medio de los caudales bajos de Mayo
June lowf
Valor medio de los caudales bajos de Junio
July lowf
Valor medio de los caudales bajos de Julio
Aug lowf
Valor medio de los caudales bajos de Agosto
Sept lowf
Valor medio de los caudales bajos de Septiembre
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
IHA - PARÁMETROS EFC (COMPONENTES DEL CAUDAL ECOLÓGICO)
35
Xlow1 peak Valor medio del caudal extremadamente bajo
Xlow1 dur
Media de la duración del caudal extremadamente bajo
Fecha juliana del caudal extremadamente bajo
Frecuencia de los caudales extremadamente bajos durante el año
Xlow1 freq
hidrológico
High1 peak Valor medio de los eventos de pulso alto
Xlow1 time
High1 dur
Media de la duración de los eventos de pulso alto
High1 time
Fecha juliana de los eventos de pulso alto
High1 freq
Frecuencia de los eventos de pulso alto
High1 rise
Tasa de ascenso de los eventos de pulso alto
High1 fall
Tasa de descenso de los eventos de pulso alto
14
No. CLASIFICACIÓN
NOMBRE
DESCRIPCIÓN
57
Sfld1 peak
Valor medio de las pequeñas inundaciones
58
Sfld1 dur
Media de la duración de las pequeñas inundaciones
59
Sfld1 time
Fecha juliana de las pequeñas inundaciones
60
Sfld1 freq
Frecuencia de las pequeñas inundaciones
61
Sfld1 rise
Tasa de ascenso de las pequeñas inundaciones
62
Sfld1 fall
Tasa de descenso de las pequeñas inundaciones
63
Lfld1 peak
Valor medio de las grandes inundaciones
64
Lfld1 dur
Media de la duración de las grandes inundaciones
65
Lfld1 time
Fecha juliana de las grandes inundaciones
66
Lfld1 freq
Frecuencia de las grandes inundaciones
67
Lfld1 rise
Tasa de ascenso de las grandes inundaciones
68
Lfld1 fall
Tasa de descenso de las grandes inundaciones
Media
Valor medio del caudal
CV
Coeficiente de variación del valor medio del caudal
Elev
Elevación de la estación hidrológica
X
Coordenada "X" de la estación hidrológica
Y
Coordenada "Y" de la estación hidrológica
69
70
MOMENTOS
ESTADÍSTICOS
71
72
73
COORD.
ESPACIALES
En el Anexo A se encuentran los valores de las 73 variables para cada una de las
174 estaciones hidrológicas analizadas. Es preciso mencionar que la Tabla de
datos que se muestra en este anexo también corresponde a la información base
de clasificación tomada para el desarrollo de esta investigación. Adicionalmente,
este Anexo A también incluye los valores estandarizados de las 73 variables en
cada una de las 174 estaciones que servirán para clasificar las corrientes con el
método de Kohonen.
Como ya se mencionó, para el proceso de clasificación de corrientes dentro de
este proyecto, fue necesario realizar un análisis de componentes principales y de
correlación lineal con el fin de determinar qué variables realmente eran relevantes
para la clasificación de corrientes y así disminuir considerablemente el número de
variables de análisis. Este análisis estuvo acompañado de una selección de
variables hidrológicas en función de su relevancia ecológica y adicionalmente todo
el proceso de clasificación estuvo acompañado y validado por conocimiento de
expertos en la cuenca Magdalena-Cauca. Después de llevar a cabo este análisis
conjunto se obtuvieron las 26 variables que se muestran a continuación en la
Tabla 3.2.
15
Tabla 3.2. Variables definitivas para el proceso de clasificación después del análisis de componentes
principales y correlación lineal entre variables (Tomado de Ingfocol, 2010).
No.
VARIABLE
No.
VARIABLE
1
Número de días con flujo cero
14
Magnitud de pequeñas inundaciones
2
Índice de flujo base
15
Duración de pequeñas inundaciones
3
Cuatrimestre en que ocurre el flujo más alto
16
Frecuencia de pequeñas inundaciones
4
Tasa de ascenso del flujo
17
Tasa de ascenso de pequeñas inundaciones
5
Número de inversiones al año
18
Tasa de descenso de pequeñas inundaciones
6
Magnitud del flujo extremo bajo
19
Magnitud de grandes inundaciones
7
Duración del flujo extremo bajo
20
Duración de grandes inundaciones
8
Frecuencia de flujos extremos bajos
21
Frecuencia de grandes inundaciones
9
Magnitud de flujos altos
22
Tasa de ascenso de grandes inundaciones
10
Duración de flujos altos
23
Tasa de descenso de grandes inundaciones
11
Frecuencia de flujos altos
24
Caudal medio diario
12
Tasa de ascenso de flujos altos
25
Coeficiente de variación del caudal medio diario
13
Tasa de descenso de flujos altos
26
Elevación de la estación
Con estas 26 variables se realizó el análisis de agrupamiento o clasificación, para
lo cual, mediante el software Waikato Environment for Knowledge Analysis
(WEKA) de la Universidad de Waikato, Nueva Zelanda (Hall et al, 2009), se
aplicaron varios métodos de Clústeres de tipo jerárquico y no jerárquico como son
el método de K-means y el clúster con distribución de probabilidad. Finalmente se
encontró que el método que arrojó los mejores resultados era el EM (Expectation
Maximization). Dada la complejidad de la información analizada, el análisis de
clúster tuvo que ser complementado en dos oportunidades por conocimiento
experto de la cuenca Magdalena-Cauca.
Un aspecto importante de este proyecto que tiene que ver directamente con el
objetivo principal de esta investigación fue el criterio empleado para establecer el
número de grupos, ya que los métodos empleados para la clasificación de
corrientes, así como la mayoría de métodos de clasificación, necesitan este
parámetro como dato de entrada. Precisamente es este aspecto el que le da la
importancia a las Redes de Kohonen, que se describirán posteriormente, como
método de clasificación de información, pues como su aprendizaje es no
supervisado, no necesita como parámetro de entrada el número de grupos.
En este proyecto, el criterio empleado para determinar el número de grupos fue el
de la máxima verosimilitud. En la Figura 3.3 se puede observar como el logaritmo
de la verosimilitud crece a medida que aumenta el número de grupos, no obstante,
existen segmentos de la curva que muestran que a pesar de que aumenta el
número de grupos, no hay ganancia en la verosimilitud, y son precisamente estos
segmentos de tasa de variación igual a cero los que se emplearon como criterio
16
para escoger el número de grupos. Este aspecto evidencia la gran dificultad que
se tiene en la determinación del número de grupos en los análisis de clasificación
de información.
Figura 3.3. Logaritmo de la verosimilitud en función del número de clústeres (Tomado de Ingfocol,
2010).
Teniendo en cuenta que el análisis de clasificación fue validado, por un lado, por
los expertos que participaron en los talleres y, por otro, contrastando los
resultados con mapas de geomorfología de la cuenca Magdalena-Cauca
elaborados anteriormente por diversas entidades, finalmente se obtuvieron 6
familias de corrientes y 23 subfamilias. Uno de los aspectos clave logrado en los
talleres de expertos consistió en que los grupos de regímenes hidrológicos debían
hacerse en función de los rangos de altitud, lo cual era consistente con las
divisiones geomorfológicas. En la Figura 3.4Figura 3.5 se puede observar un
esquema del proceso de clasificación desarrollado y en la Figura 3.5 y la Figura
3.6 se pueden observar de manera gráfica los resultados obtenidos.
17
Figura 3.4. Resumen del proceso de clasificación de corrientes en la cuenca Magdalena-Cauca (Tomado
de Ingfocol, 2010).
18
FAMILIAS
PÁRAMO (> 3000 msnm)
ALTA MONTAÑA (2000 – 3000 msnm)
MEDIA MONTAÑA (800 – 2000 msnm)
PIEDEMONTE (500 – 800 msnm)
BAJA MONTAÑA (< 500 msnm)
PLANICIE DE INUNDACIÓN (< 500 msnm)
Figura 3.5. Distribución de las familias obtenidas en la cuenca Magdalena-Cauca (Tomado de Ingfocol,
2010).
19
Figura 3.6. Subclasificación (Subfamilias) de corrientes para cada una de las 6 familias obtenidas (Tomado de Ingfocol, 2010).
20
Continuación Figura 3.6. Subclasificación (Subfamilias) de corrientes para cada una de las 6 familias obtenidas (Tomado de Ingfocol, 2010).
21
Continuación Figura 3.6. Subclasificación (Subfamilias) de corrientes para cada una de las 6 familias obtenidas (Tomado de Ingfocol, 2010).
22
3.2. AGRUPAMIENTO DE INFORMACIÓN
Teniendo en cuenta que el eje principal de esta investigación radica en la
clasificación de corrientes de la cuenca Magdalena-Cauca dentro del marco de
referencia ELOHA, a continuación se describen con mayor profundidad los
aspectos conceptuales y teóricos relevantes para esta investigación en cuanto a
clasificación o agrupamiento de información se refiere.
Los objetivos planteados en esta investigación, así como la justificación descrita
en un capítulo anterior, postulan a las Redes de Kohonen como el método más
adecuado para cumplir dichos objetivos, lo cual hace que el marco teórico y
conceptual que a continuación se desarrolla, se enfoque principalmente en esta
metodología de agrupamiento.
Cuando se habla de agrupamiento de información (“Clustering” en inglés),
finalmente lo que se busca es clasificar la información de análisis en grupos que
sean heterogéneos entre sí, pero maximizando la homogeneidad al interior de
cada grupo, con lo cual se espera que las observaciones o patrones que
conforman un grupo conserven características similares y al mismo tiempo se
diferencien lo suficiente de observaciones de otros grupos. Lo anterior permite
sintetizar el análisis de grandes conjuntos de observaciones al análisis de grupos
con características similares. Esto resulta muy útil en este caso, pues es posible
asignar caudales ecológicos a grupos de corrientes con características similares,
evitando analizar cada tramo de río en particular, lo cual permite gestionar y
administrar el recurso hídrico abarcando grandes regiones de una forma mucho
más rápida que con metodologías que analizan tramos de ríos individualmente.
Los métodos convencionales de agrupamiento se pueden dividir en métodos de
tipo jerárquico y no jerárquico o particional. También existen métodos de
agrupamiento no convencionales como las Redes Neuronales Artificiales,
concretamente las Redes de Kohonen. A continuación se describirán
conceptualmente estos tipos de métodos y se profundizará en la teoría y
matemática del método de Kohonen, ya que es el método escogido para el
desarrollo de esta investigación.
3.2.1. Métodos Jerárquicos
Los métodos de agrupamiento jerárquico unen o separan grupos de información
similar sucesivamente. Si el método jerárquico es aglomerativo, parte de un
número de grupos igual al número de observaciones y los grupos similares se van
uniendo hasta formar un solo grupo; es claro que la homogeneidad de cada grupo
en este caso se va reduciendo a medida que disminuye el número de grupos. En
cambio, si el método jerárquico es divisivo, el funcionamiento es contrario al
23
aglomerativo, es decir que se parte de un grupo que incluye todas las
observaciones, el cual se va dividiendo en grupos cada vez más homogéneos
hasta obtener un número de grupos igual al número de observaciones.
Este tipo de métodos se llama jerárquico porque a medida que se va uniendo o
separando la información dependiendo si es aglomerativo o divisivo, se van
produciendo grupos a diferentes niveles lo cual establece una jerarquía en la
estructuración del agrupamiento. Este proceso de agrupamiento puede
representarse mediante un diagrama en forma de árbol que se denomina
dendograma.
El número de grupos en los que se divide la información analizada depende del
nivel o jerarquía que se observe en el dendograma. En esta investigación, lo
anterior resulta ser un problema ya que debe escogerse subjetivamente el nivel
del dendograma para establecer el número de grupos en los cuales se clasifica la
información, a menos de que este número se establezca predeterminadamente o
se diseñe un procedimiento para estimar el número de grupos aproximadamente
óptimo.
Uno de los métodos jerárquicos más conocidos y usados para clasificar
información hidrológica, que se tipifica como aglomerativo, es el método de Ward.
3.2.2. Métodos No Jerárquicos o Particionales
Los métodos de agrupamiento no jerárquicos o particionales, asumen de entrada
un número fijo de grupos a los cuales se les asigna aleatoriamente una de las
observaciones o patrones como centroide. El proceso de agrupamiento consiste
en que los patrones se van incluyendo al grupo del centroide más cercano y con
base en el nuevo agrupamiento, el centroide se recalcula como el valor medio de
las observaciones que pertenecen a ese grupo. Este proceso se detiene cuando el
valor del centroide no cambia.
El método no jerárquico más empleado para el agrupamiento de información es el
denominado K-medias (K-means en inglés), sin embargo, su principal desventaja,
que además resulta un aspecto clave en esta investigación, radica en que hay que
establecer predeterminadamente el número de grupos y por tanto no es posible
emplear este tipo de métodos para cumplir el principal objetivo de este proyecto de
investigación que precisamente busca establecer el número de grupos que en
realidad subyace a la información analizada.
Para esta investigación es de interés el método denominado Clustering Difuso
(Chiu, 1994), ya que va a ser implementado dentro del proceso de clasificación
topológica y adicionalmente se va a usar para comparar el método de Kohonen
con otros de métodos de clasificación.
24
3.2.3. Redes de Kohonen
Las Redes de Kohonen, también conocidas como Redes Autorganizadas o Mapas
Autorganizados de Kohonen (Self-Organizing Maps, SOM) hacen parte de un
subconjunto de los Sistemas Inteligentes denominado Redes Neuronales
Artificiales o RNA (ver Figura 3.7). Las RNA son modelos de caja negra conocidos
a nivel mundial por su alta capacidad para mapear, clasificar, interpolar y
reconocer gran cantidad de información.
Figura 3.7. Categorías de los Sistemas Inteligentes (Tomado de Hopgood, 2000).
Los Mapas Autorganizados de Kohonen usualmente son empleados para clasificar
información y reducir el número de variables en un análisis específico, ya que sin
importar cuantas variables se tengan, las Redes de Kohonen permiten visualizar la
información en planos bidimensionales que conservan y reflejan la estructura de
los datos de entrada. La visualización del proceso de clasificación es, tal vez, una
de las mayores ventajas que poseen las Redes de Kohonen, pues con otros
métodos de clasificación cuando hay más de tres variables la visualización del
proceso de clasificación se complejiza enormemente.
Este tipo de redes neuronales se caracteriza porque su aprendizaje es no
supervisado, ya que no hace falta presentarle a la red patrones de salida para su
entrenamiento (supervisión), sino que la red se va modificando y autorganizando
conforme va entendiendo mejor la estructura de los datos de entrada.
25
Otra característica importante de este modelo es que su aprendizaje es
competitivo, es decir que cada vez que se le presenta un patrón a la red, las
neuronas compiten para ver cuál es la que más se le parece. La neurona
ganadora se activa mientras que las demás neuronas de la red se inhiben, no
obstante, el modelo se calibra haciendo que los pesos de la neurona ganadora,
así como los de algunas neuronas cercanas ubicadas dentro de lo que se
denomina vecindad, se modifiquen para que la distancia entre éstos y el patrón
presentado sea cada vez menor. La actualización de los pesos de las neuronas de
la vecindad se pondera de acuerdo con la distancia entre cada neurona y la
neurona ganadora. El factor de ponderación para la neurona ganadora tiene un
valor de uno y va disminuyendo a medida que aumenta el radio de vecindad.
Usualmente se utiliza la función gausiana para ponderar la actualización de los
pesos de cada neurona en función del radio de vecindad.
Realmente el proceso de la actualización de los pesos en la vecindad de la
neurona ganadora es el gran responsable de que este tipo de RNA sea
autorganizado, ya que patrones con similares características obligatoriamente
deben ubicarse dentro de la misma vecindad. Este aspecto es el que convierte a
esta herramienta de clasificación como una de las más potentes.
En cierta medida, dependiendo de cuantos patrones tengan la misma neurona
ganadora y de la precisión final del modelo, la salida de la red, es decir, los pesos
actualizados, son una representación fiel de los patrones de entrada pero de forma
organizada, con lo cual es posible diferenciar los grupos de patrones con
características similares.
3.2.3.1. Arquitectura de las redes de Kohonen
Las Redes de Kohonen están conformadas por una capa de entrada en la cual se
presentan los patrones de entrada al modelo y una capa de salida, también
conocida como la capa de Kohonen, donde los pesos de las neuronas se
actualizan en función de los patrones de entrada. La capa de Kohonen es el
espacio bidimensional que se autorganiza en función de la estructura de los
patrones de entrada.
Cada una de las neuronas de la capa de entrada se conecta con todas las
neuronas de la capa de Kohonen o capa de salida. Si bien físicamente no hay
conexiones laterales entre neuronas de la misma capa, el concepto de vecindad y
sobre todo la actualización de los pesos de la capa de kohonen en función de la
vecindad de la neurona ganadora, generan un vínculo de similaridad entre
neuronas cercanas que finalmente se ve reflejado en el agrupamiento o
autorganización de neuronas con características similares.
26
En la Figura 3.8 se puede observar un esquema de la arquitectura de este tipo de
modelo de RNA.
Figura 3.8. Arquitectura de las redes de Kohonen.
Normalmente se emplea un arreglo bidimensional de neuronas en la capa de
salida con el fin de facilitar la visualización de los resultados y la creación de los
mapas toplógicos, sin embargo, esta capa de salida puede estructurarse de
manera lineal e incluso en 3 dimensiones.
Las conexiones entre las capas van de la capa de entrada a la capa de salida,
haciendo que la red se alimente hacia adelante (feedforward).
Existen varias topologías que condicionan la forma de la vecindad de cada
neurona. En la Figura 3.9 se pueden observar las tres topologías más usadas
donde las neuronas se diferencian en color rojo.
Rectangular
Hexagonal
Aleatoria
Figura 3.9. Topologías más usadas en las redes de Kohonen (Tomado de MathWorks Inc., 2002).
La vecindad de una neurona ganadora está conformada por las neuronas más
próximas que se ubican alrededor de ella y se distinguen varios grados de
27
vecindad. Por ejemplo, en la Figura 3.10 se muestra una topología rectangular
donde se señalan 3 grados de vecindad para una neurona ganadora dada.
Figura 3.10. Grados de vecindad en una Topología rectangular (Tomado de MathWorks Inc., 2002).
3.2.3.2. Funcionamiento de las redes de Kohonen
El funcionamiento de las Redes de Kohonen se muestra en la Figura 3.11 y los
pasos correspondientes se explican posteriormente.
1. Normalización de variables
2. Creación del modelo
3. Inicialización pesos
4. Asignación de parámetros por ciclo
5. Alimentación del modelo y medida de similitud
6. Actualización de pesos
NO
C=CT
SI
FIN
Figura 3.11. Funcionamiento de las Redes de Kohonen (C: ciclo y CT: total de ciclos).
28
Paso 1: Normalización de variables. Normalizar las variables de los patrones de
entrada entre cero y uno para evitar que por los diferentes órdenes de magnitud
de las variables influyan de manera equivocada el proceso de clasificación.
Paso 2: Creación del modelo de Red. Se crea la capa de Kohonen como un
arreglo bidimensional usualmente, estableciendo el número de filas y columnas del
arreglo de neuronas y también escogiendo la topología deseada (rectangular,
hexagonal, aleatoria, etc).
Para diferenciar los grupos de patrones adecuadamente, se recomienda emplear
arreglos de neuronas en la capa de salida lo más grandes posible, no obstante,
una capa de salida con muchas neuronas aumenta considerablemente los tiempos
de entrenamiento
Paso 3: Inicialización de pesos de la neuronas. Los pesos de cada neurona se
inicializan para poder comparar cada neurona con los patrones de entrada. En
este sentido, cada neurona debe tener tantos pesos como variables tengan los
patrones de entrada.
Se recomienda que los pesos de las neuronas de la capa de salida inicialmente
sean cercanos a cero con el fin de que la red pueda empezar a organizarse y
clasificar la información rápidamente. La inicialización de los pesos puede hacerse
de forma aleatoria o bien puede hacerse de una forma predeterminada si se
conoce de antemano la estructura de agrupación de los datos.
Paso 4: Establecimiento de los parámetros de modelación por ciclo. Antes de
alimentar la red con el primer patrón, es necesario establecer cuántos ciclos se
van a realizar. Asimismo se debe establecer cuál va a ser el valor inicial de la
vecindad y de la tasa de aprendizaje de la red, además de sus respectivas
variaciones a lo largo de los ciclos.
Para garantizar una adecuada clasificación de la información, se recomienda
realizar un número de ciclos no menor a 500 veces el número de neuronas en la
capa de salida.
También se recomienda emplear valores de tasa de aprendizaje cercanos a 1 para
los primeros ciclos e ir disminuyendo su valor a medida que avanzan los ciclos
propuestos. De igual forma, se recomienda en los primeros ciclos emplear un
grado de vecindad que cubra toda la capa de salida e ir reduciéndolo a medida
que se cumplen los ciclos, incluso hasta que en el último ciclo únicamente se
actualicen los pesos de la neurona ganadora.
Paso 5: Alimentación del modelo y medida de similitud. En este paso
empiezan a contar los ciclos de entrenamiento. Inicialmente se presenta un patrón
de entrada al modelo y se calcula alguna medida de similaridad entre dicho patrón
29
y las neuronas de la capa de salida. La neurona que guarde mayor similitud con el
patrón de entrada será la neurona ganadora.
En caso de que inicialmente existan varias neuronas ganadoras, podrá escogerse
alguna de ellas con cualquier criterio, ya que a medida que la red se vaya
entrenando, la capa de salida comenzará a autorganizarse y las neuronas se irán
especializando en los diferentes patrones, haciendo que sólo exista una neurona
ganadora para cada patrón de entrada.
Por lo general se emplea la distancia euclidiana como medida de similitud
(Ecuación 1), donde dj es la distancia entre el patrón de entrada X y la neurona
Wj, siendo a su vez M el número de neuronas de la capa de salida, xi el valor de la
variable i del patrón de entrada y wij el peso correspondiente a la variable i de la
neurona j.
[1]
En un ciclo la red puede entrenarse con la alimentación de todos los patrones de
entrada o bien puede entrenarse con un solo patrón que puede escogerse
ordenadamente o de forma aleatoria.
Paso 6: Actualización de los pesos. Una vez se determina la neurona ganadora
y se tiene claro el valor de la tasa de aprendizaje y el grado de vecindad según el
ciclo correspondiente, los pesos de la neurona ganadora así como los de la
vecindad correspondiente deberán actualizarse de acuerdo con la Ecuación 2.
[2]
Donde Wj representa el conjunto de los pesos de la neurona j, t el ciclo
correspondiente, η la tasa de aprendizaje de la red para el ciclo actual, hj el factor
de ponderación de la neurona j en función de la vecindad establecida para el ciclo
actual con respecto a la neurona ganadora y X el conjunto de variables del patrón
presentado a la red.
El factor de ponderación de la neurona j en función del ciclo y de la vecindad con
respecto a la neurona ganadora normalmente se determina con una función
gausiana como la que se presenta en la Ecuación 3.
30
[3]
Donde hj es el factor de ponderación de la neurona j, uj es el grado de vecindad
de la neurona j teniendo en cuenta que el grado de vecindad de la neurona
ganadora con respecto a ella misma, uj*, es igual a 1 y σ es el tamaño de la
vecindad escogido para el ciclo actual.
Una vez se presentan todos los patrones escogidos para un ciclo de
entrenamiento, se vuelve al paso 5 hasta terminar con el número de ciclos
establecido.
3.2.3.3. Visualización de los resultados de las Redes de Kohonen
Una de las ventajas que tiene este método de clasificación frente a los métodos
normalmente empleados, es que sin importar el número de variables incluidas en
el proceso de clasificación, la visualización de los resultados se hace sobre mapas
bidimensionales. Esto resulta muy útil cuando se tiene una gran cantidad de
variables y cuando es muy complejo entender la estructura de los datos.
Con este método de clasificación es posible visualizar una variedad de mapas que
facilitan la interpretación de los resultados y del modelo como tal. Con respecto a
la construcción topológica del modelo se destacan dos mapas: el mapa de la
topología del modelo y el mapa de conexiones laterales del vecindario. Es
importante reiterar que físicamente en este tipo de RNA no hay conexiones
laterales, sin embargo, de acuerdo con la topología escogida para el modelo, se
generan diferentes conexiones laterales virtuales entre las neuronas de la capa de
salida, de ahí que sea posible visualizar el mapa de conexiones laterales del
vecindario. De otro lado, para la visualización e interpretación de los resultados se
destacan los siguientes 3 mapas: el de hits, el de variables de entrada y el de
distancias entre neuronas; a este último se le conoce también como el mapa UMatrix.
Para entender mejor estos mapas, mediante la ilustración de un ejemplo sencillo a
continuación se van a describir con más detalle. Estos mapas se elaboraron
mediante el ToolBox de Redes Neuronales de Matlab. Suponga que se quiere
clasificar la información que se muestra en la Figura 3.12. Evidentemente la
información mostrada se puede agrupar en 3 familias diferentes, una por cada
disco. Se trata de 956 patrones constituidos por parejas de coordenadas
horizontales y verticales.
31
1
Coordenada Y
0.8
0.6
0.4
0.2
0
0
0.2
0.4
0.6
Coordenada X
0.8
1
Figura 3.12. Patrones de entrada – ejemplo para visualización de los mapas de Kohonen.
Para resolver este problema de clasificación, se plantea un modelo de red de
Kohonen de 400 neuronas distribuidas en un arreglo de 20 filas por 20 columnas.
Se determina un valor de 500 para el número de iteraciones.
Como se puede observar en la Figura 3.13, en este caso se escogió una topología
de tipo hexagonal (neuronas de forma hexagonal también), con lo cual las
neuronas que no se encuentran en los bordes de la capa de Kohonen siempre
tienen 6 neuronas vecinas con las cuales se conectan virtualmente como se
muestra en la Figura 3.14. Estos dos mapas son los que se relacionan con la
construcción topológica del modelo.
32
Figura 3.13. Mapa de topología del modelo – ejemplo para visualización de los mapas de Kohonen.
Figura 3.14. Mapa de conexiones laterales del vecindario – ejemplo para visualización de los mapas de
Kohonen.
Con respecto a la visualización de los resultados, como ya se anticipó, existen 3
mapas que se destacan. El primero de ellos es el mapa de hits, donde se resaltan
33
las neuronas ganadoras y en donde el valor que está dentro de cada neurona
indica la cantidad de patrones de entrada que cada una de ellas representa, es
decir, la cantidad de victorias de cada neurona. El mapa de hits obtenido en este
ejemplo se muestra en la Figura 3.15.
Figura 3.15. Mapa de hits – ejemplo para visualización de los mapas de Kohonen.
Nótese como dentro del mapa de hits existen neuronas cuyo valor es 0, es decir
que corresponden a neuronas que no ganaron y en consecuencia no representan
a ningún patrón dentro del proceso de clasificación.
Teniendo en cuenta que las neuronas ganadoras son una representación de los
patrones de entrada y a su vez que los pesos de estas neuronas son una
representación de cada una de las variables de los patrones de entrada, es
posible visualizar la distribución de los valores de cada una de las variables en el
34
espacio topológico mediante los mapas de variables de entrada. Estos mapas
indican qué tan fuerte es la influencia de cada una de las variables en el proceso
de clasificación. En la Figura 3.16 se muestran los mapas de las variables de
entrada obtenidos para el ejemplo de visualización.
Figura 3.16. Mapas de variables de entrada – ejemplo para visualización de los mapas de Kohonen.
Por último, uno de los resultados más importantes del método de clasificación de
Kohonen es el mapa de distancias entre neuronas, más conocido como el mapa
U-Matrix, el cual permite visualizar qué tan diferente es una neurona de la otra; los
colores oscuros indican una gran diferencia mientras que los colores claros indican
similitud entre neuronas y por tanto entre patrones. Este mapa es el más indicado
para visualizar el número de grupos en los que se clasifica la información como se
muestra en la Figura 3.17, que corresponde al mapa U-Matrix del ejemplo de
visualización y donde se diferencian claramente los 3 grupos de información como
era de esperarse.
35
Figura 3.17. Mapa de distancia entre neuronas (U_Matrix) – ejemplo para visualización de los mapas de
Kohonen.
En la figura anterior es posible identificar dos caminos de color oscuro que dividen
el mapa en 3 partes, las cuales corresponden a los tres grupos en los que
evidentemente se debía clasificar la información. En este caso particular, dado que
el modelo planteado posee una gran cantidad de neuronas, los caminos de color
oscuro de la Figura 3.17 también pueden identificarse en algunos sectores como
caminos con neuronas de valor 0 en el mapa de hits (Figura 3.15), aunque allí
resulta más difícil identificar los diferentes grupos puesto que en modelos con
menos neuronas es posible que todas la neuronas sean ganadoras y no se formen
caminos con neuronas de valor 0.
Adicionalmente, existen aplicaciones en las cuales la clasificación de información
pasa a un segundo plano y toma más relevancia el reconocimiento de patrones.
Es el caso de la digitalización de información por ejemplo. Si se supone que el
objetivo de la aplicación del método de Kohonen en este ejercicio no era clasificar
la información sino reconocer fielmente los patrones de entrada, un sexto mapa
36
toma relevancia (ver Figura 3.18). En este sexto mapa, conocido como mapa de
ubicación de los pesos de las neuronas, es posible observar como las neuronas se
organizan ya no en el espacio topológico sino en el espacio real de la información
para representar fielmente los patrones.
Figura 3.18. Mapa de ubicación de los pesos de las neuronas – ejemplo para visualización de los mapas
de Kohonen.
En la Figura 3.18 se observan los patrones de color verde en el fondo y las
neuronas de color gris encima.
3.2.3.4. Aplicaciones comunes de los mapas de Kohonen
Dentro de las aplicaciones más comunes de los mapas autorganizados de
Kohonen se encuentran (Fernández, 2006):
37
•
•
•
•
•
•
•
Reconocimiento de patrones
Robótica
Búsqueda de documentos en la Web (WEBSOM)
Compresión de imágenes
Cuantificación vectorial y agrupamiento
Análisis estadístico y visualización de datos multidimensionales
Minería de datos en múltiples campos como reconocimiento de imágenes,
discurso hablado, diagnóstico médico, etc.)
En Colombia, por ejemplo, se resaltan las investigaciones realizadas con el
método de Kohonen por Gaitán (2009) y De Moya (2003), que consistieron en
vigilancia tecnológica científica de Ciclos Biogeoquímicos y en representación y
clasificación de datos geoespaciales respectivamente.
3.2.4. Antecedentes de clasificación de corrientes hidrológicas
Por lo general, el proceso de clasificación de corrientes se hace mediante análisis
conjuntos de componentes principales, correlación lineal, análisis de agrupamiento
por clústeres (clustering), bien sean de tipo jerárquico o no jerárquico, e incluso
mediante conocimiento experto, sin embargo estas metodologías pueden resultar
limitadas cuando se trata de problemas complejos como es mapear y agrupar el
clima y la hidrología de una región dada. En este sentido, las Redes Neuronales
Artificiales, especialmente los Mapas de Kohonen se postulan como una
metodología óptima para este tipo de procesos de clasificación (Lin y Chen, 2006).
En la literatura existen varios estudios documentados acerca de la clasificación
hidroclimatológica de regiones en donde las metodologías más usadas son la de
K-means (agrupamiento no jerárquico) y Ward (agrupamiento jerárquico) y
especialmente se enfocan al análisis de frecuencia regional como es el caso de
Burn, 1989; Guttman, 1993; Guttman y otros, 1993; Lecce, 2000 y Smithers y
Schulze, 2001 entre otros. De otro lado, existe literatura acerca de la aplicación de
Redes Neuronales Artificiales para clasificación hidroclimatológica de regiones
como es el caso de Lin y Chen en 2006, quienes aplicaron las redes de Kohonen
para clasificar regiones homogéneas de Taiwán para análisis de frecuencia con
base en datos de precipitación efectiva.
Por su parte, Mangiameli y otros en 1996 demostraron que el método de los
Mapas Autorganizados o mapas de Kohonen obtuvo los mejores resultados con
respecto a otros siete métodos de agrupamiento jerárquico.
En Colombia, el IDEAM como instituto rector de la hidrología y el clima del país,
efectuó una clasificación hidrológica de las cuencas de segundo orden del país
con base en las zonas y subzonas hidrográficas (IDEAM, 2009).
38
En cuanto a la clasificación hidroclimatológica de la cuenca Magdalena-Cauca, se
destaca por un lado la clasificación de corrientes efectuada por Ingfocol Ltda en
2010, la cual se describió en detalle en la Sección 3.1.1, y por otro lado la
clasificación de cuencas efectuada por TNC (The Nature Conservancy) cuyo
objetivo era establecer áreas prioritarias para la conservación de la cuenca. El
proceso de clasificación de cuencas realizado por TNC se hizo en dos etapas: una
clasificación inicial por tamaños de cuenca donde se obtuvieron 4 familias y una
segunda clasificación con base en 24 variables de tipo geomorfológico, hidrológico
y climático entre otros, con lo cual el resultado final fue un agrupamiento de 105
familias de cuencas de las 505 subcuencas analizadas dentro de la gran cuenca
Magdalena-Cauca (TNC, 2009).
39
4. METODOLOGÍA
En este capítulo se describen los aspectos metodológicos establecidos para el
cumplimiento de los objetivos planteados anteriormente. En términos generales, el
proceso metodológico consiste en implementar el método de los mapas
autorganizados de Kohonen para clasificar las corrientes de la cuenca MagdalenaCauca, para lo cual se requiere desarrollar un aplicativo computacional que
contenga el método de kohonen y lo aplique a los datos de entrada disponibles.
Este proceso debe hacerse dentro del marco de referencia ELOHA.
En la Figura 4.1 se muestra el esquema metodológico empleado dentro de esta
investigación y a continuación se profundiza en cada uno de sus aspectos.
Figura 4.1. Diagrama de Flujo del proceso metodológico.
40
Construcción de la Geodatabase. Para esto es necesario obtener toda la
información secundaria relevante para el proceso de clasificación, la cual debe
estar debidamente almacenada mediante un programa que sea compatible con el
programa en el que se realice el método de Kohonen, como por ejemplo Excel o
Acces. En el proyecto desarrollado por Ingfocol Ltda en 2010 se construyó una
Geodatabase con la cual se llevó a cabo la clasificación de corrientes de la cuenca
Magdalena-Cauca, que finalmente, como se describió en el Capítulo 3, se hizo con
una variedad de metodologías incluyendo especialmente el criterio de expertos.
Para el desarrollo de esta investigación se tomó la misma Geodatabase que
empleó Ingfocol, la cual no incluye directamente variables de tipo ecológico ni
social, pero contiene variables hidrológicas con relevancia ecológica significativa,
como por ejemplo las variables de tipo EFC obtenidas a partir del programa IHA.
Desarrollo del aplicativo computacional con el algoritmo de Kohonen. Inicialmente
se deberá realizar un ejercicio sencillo de clasificación, el cual deberá contener
paso a paso el método para asegurar su entendimiento. Posteriormente se deberá
automatizar el método mediante la programación de su algoritmo en un programa
que proporcione las ayudas y herramientas adecuadas para el desarrollo del
método de Kohonen como por ejemplo Matlab. El algoritmo programado se deberá
validar implementando los datos del ejercicio elaborado inicialmente. Finalmente,
el programa del método de Kohonen deberá modificarse para poder clasificar las
corrientes de la cuenca Magdalena-Cauca y así cumplir los objetivos plateados en
esta investigación.
Diseño Experimental. Con base en la cantidad y tipología de las variables
obtenidas en la Geodatabase, se deberá diseñar un plan experimental para
realizar los ensayos que se consideren pertinentes para cumplir los objetivos
propuestos en esta investigación. Estos ensayos deberán contemplar diferentes
combinaciones de variables, incluyendo la combinación final de 26 variables que
se obtuvo en el proyecto desarrollado por Ingfocol Ltda en 2010 (Ver sección
3.1.1).
Modelación. Esta fase de la investigación se refiere a la implementación del
aplicativo computacional desarrollado anteriormente, tomando como datos de
entrada las diferentes combinaciones de variables planteadas en el diseño
experimental. Los resultados de cada uno de los ensayos deberán almacenarse
adecuadamente con el fin de realizar los análisis posteriores que se relacionan
con el cumplimiento de los objetivos planteados.
Número de Clústeres óptimo. De acuerdo con los resultados obtenidos en la fase
anterior y su respectivo análisis, deberá establecerse cuál es el número de
clústeres óptimo para cada una de las tipologías de variables establecidas en el
diseño experimental. Este análisis dará cumplimiento al primer objetivo específico
planteado en esta investigación.
41
Invariancia de corrientes familiares. Con base en el número de clústeres o familias
obtenido para cada tipología de variables, especialmente con los miembros de
cada una de esas familias, deberá determinarse cuáles grupos de corrientes son
invariantes a pesar de que se empleen diferentes tipologías de variables en el
proceso de clasificación. Es posible que no haya grupos de corrientes que con otra
tipología de variables permanezca exactamente igual (con los mismos miembros
exactamente), sin embargo, sí es posible que haya pequeños grupos de corrientes
al interior de los clústeres que permanezcan invariantes frente a diferentes
tipologías de variables, lo cual deberá identificarse, pues esto puede indicar una
clasificación de corrientes aún más fina. La culminación de esta actividad dará
cumplimiento al segundo objetivo específico establecido en este proyecto.
Variables relevantes en el proceso de clasificación. Adicionalmente, también con
base en los ensayos para los cuales se obtuvo el número de clústeres óptimo de
cada tipología de variables, deberá establecerse cuáles son las variables
relevantes en el proceso de clasificación. En este caso podrán emplearse otros
métodos de clasificación como por ejemplo métodos de tipo jerárquico, en cuyo
proceso de clasificación es posible determinar las jerarquías de las variables
clasificadoras. Este análisis culminará el cumplimiento de los objetivos específicos
estipulados en la Sección 2.2.2.
Validación con experiencias de clasificación anteriores en la cuenca MagdalenaCauca. Teniendo en cuenta que en el proyecto desarrollado por Ingofocol Ltda en
2010 se obtuvo una clasificación de corrientes que fue validada por expertos de la
cuenca Magdalena-Cauca, deberá establecerse cuál tipología de variables
proporciona una clasificación exacta o similar a la obtenida por Ingfocol Ltda en
ese entonces. Es posible que la tipología de variables que proporcione los mejores
resultados contenga menos variables que las obtenidas por Ingfocol Ltda, lo cual
indicaría que este proceso de clasificación para la cuenca Magdalena-Cauca
puede hacerse con menos variables y por tanto con mayor facilidad, además de
que postularía al método de kohonen como un buen camino no sólo de
clasificación sino de optimización del proceso de clasificación en la cuenca
Magdalena-Cauca.
Comparación con otros métodos de clasificación. Finalmente, con base la tipología
que arroje los mejores resultados respecto a la clasificación obtenida por Ingfocol
en 2010, se compararán diferentes métodos de clasificación, como es el caso del
método de Kohonen y el Clustering Difuso.
Mediante un análisis global del desarrollo y los resultados obtenidos en los tres
objetivos específicos será posible establecer cuál es la combinación adecuada de
variables y a su vez la correspondiente clasificación de corrientes que represente
mejor a la cuenca Magdalena-Cauca desde la perspectiva de ELOHA, con lo cual
se cumplirá el objetivo general planteado dentro de esta investigación.
42
5. MÉTODO DE CLASIFICACIÓN DE KOHONEN
Para una óptima comprensión del proceso de clasificación que lleva a cabo el
método de Kohonen, se realizó un ejemplo de clasificación de información, que
posteriormente fue automatizado mediante un aplicativo computacional
desarrollado en Matlab. Este ejercicio inicialmente fue desarrollado paso a paso
mediante el programa de computador Excel.
5.1. EJEMPLO ILUSTRATIVO DEL MÉTODO DE KOHONEN
Se realizó un ejercicio de clasificación mediante el método de kohonen para
entender a fondo su funcionamiento. El ejercicio consistió en clasificar 6 patrones
constituidos por coordenadas en las 3 dimensiones, los cuales se generaron
predeterminadamente para que se agruparan en 3 familias como se muestra en la
Tabla 5.1.
Tabla 5.1. Patrones de entrada del ejemplo de clasificación.
PATRON
1
2
3
4
5
6
COORD X COORD Y COORD Z GRUPO
0.3
0.25
0.9
3
0.8
0.8
0.15
1
0.2
0.25
0.2
2
0.35
0.25
0.9
3
0.85
0.85
0.15
1
0.15
0.2
0.1
2
Estos mismos datos pueden observarse de manera gráfica en la Figura 5.1.
Como se puede observar, el grupo 3 en las coordenadas X y Y es similar al grupo
2, sin embargo en la coordenada Z se diferenciaron significativamente para ver si
el método de kohonen era capaz de separarlos.
43
Grupo 3
0.9
0.8
COORDENADA Z
0.7
0.6
0.5
0.4
0.3
Grupo 2
Grupo 1
0.2
1
0.8
0.6
0.1
1
0.4
0.9
0.8
0.7
0.6
0.2
0.5
0.4
0.3
0.2
0
COORDENADA X
COORDENADA Y
Figura 5.1. Patrones de entrada del ejemplo de clasificación.
Para resolver este problema se planteó un modelo de red auto-organizada con 20
neuronas distribuidas en 5 filas por 4 columnas como se muestra en la Figura 5.2,
donde se señala el número de cada neurona en negro y el número de cada fila y
columna respectivamente en rojo.
F/C 1 2 3 4 1 1 2 3 4 2 5 6 7 8 3 9 10
11
12
4 13
14
15
16
5 17
18
19
20
Figura 5.2. Topología del modelo de red de Kohonen.
Teniendo en cuenta que son 3 variables por patrón, se inicializaron los pesos de
cada neurona, obteniéndose la matriz que se muestra en la Tabla 5.2. En esta
matriz se observa para cada neurona igual número de pesos como variables
44
tienen los patrones. La generación de estos pesos se hizo de forma aleatoria entre
0 y 0.5 para permitirle a la red organizarse más fácilmente.
Tabla 5.2. Inicialización de pesos de las 20 neuronas.
F/C
1 2 3 4 5 1 2 3 4 0.280
0.178
0.126
0.372
0.182
0.391
0.308
0.023
0.340
0.413
0.386
0.194
0.125
0.168
0.380
0.263
0.154
0.044
0.166
0.148
0.012
0.419
0.012
0.444
0.058
0.465
0.480
0.424
0.246
0.455
0.308
0.322
0.498
0.422
0.367
0.442
0.481
0.022
0.300
0.433
0.481
0.331
0.044
0.342
0.214
0.365
0.445
0.316
0.028
0.181
0.409
0.493
0.193
0.125
0.468
0.043
0.282
0.486
0.433
0.326
Para definir los valores de la tasa de aprendizaje y la vecindad, previamente se
determinó que el número de iteraciones iba a ser 5, entendiendo por una iteración
en este caso la presentación a la red de los 6 patrones. El valor inicial de la tasa
de aprendizaje se estableció en 0.5 y se fue disminuyendo a razón de 0.1 por
iteración para culminar con un valor de 0.1. Igualmente, la vecindad para la
primera iteración se estableció del tamaño de la red, es decir 5, y fue
disminuyendo paulatinamente hasta que en la iteración 5 el valor de la vecindad
resultó en 1.
En cada iteración, el proceso de aprendizaje de la red consistió en:
1. Presentarle a la red cada uno de los patrones y calcular la distancia
euclidiana entre cada neurona y el patrón.
2. Declarar la neurona ganadora como la más cercana al patrón de acuerdo
con las distancias euclidianas obtenidas a partir de la Ecuación 4. Por
ejemplo, en la Tabla 5.3 se muestran las distancias euclidianas de la red
con respecto al patrón 1 de la primera iteración. En rojo se señala la
neurona ganadora y en escala de naranjas la magnitud de la distancia
euclidiana para cada neurona, siendo naranja oscuro la distancia con mayor
magnitud y naranja claro el caso contrario.
[4]
45
Tabla 5.3. Distancias euclidianas y neurona ganadora – Patrón 1, iteración 1.
F/C
1
2
3
4
5
1
0.7776
0.5185
0.6043
0.7278
0.5548
2
0.8622
0.9038
0.5280
0.5303
0.4620
3
0.4085
0.4882
0.6669
0.6283
0.7380
4
0.6191
0.5655
0.8007
0.6731
0.6305
3. En función de la neurona ganadora, asignarle a todas las neuronas de la
red el factor de ponderación según su grado de vecindad y de acuerdo con
la función gausina (Ecuación 5). Para el mismo ejemplo, en la Tabla 5.4 se
muestra la distribución del factor de ponderación de la red. Nótese como la
neurona ganadora tiene un factor de ponderación de 1 y a medida que el
grado de vecindad es mayor (colores oscuros) el factor de ponderación va
disminuyendo. Es importante resaltar el hecho de que la vecindad de la
neurona ganadora va disminuyendo a medida que aumentan las
iteraciones, por ejemplo, en la Tabla 5.5 se muestra la distribución del factor
de ponderación para el mismo patrón pero en la iteración 3 donde la
vecindad también tiene un valor de 3. Nótese como las neuronas fuera de la
vecindad (filas 4 y 5 y columna 1) tienen un factor de ponderación nulo, es
decir que ya no se actualizan en función de este patrón por encontrarse
alejadas de la neurona ganadora correspondiente.
[5]
Tabla 5.4. Factor de ponderación – Patrón 1, iteración 1.
F/C
1
2
3
4
5
1
0.9231
0.9231
0.9231
0.8353
0.7261
2
0.9802
0.9802
0.9231
0.8353
0.7261
3
1.0000
0.9802
0.9231
0.8353
0.7261
4
0.9802
0.9802
0.9231
0.8353
0.7261
Tabla 5.5. Factor de ponderación – Patrón 1, iteración 3.
F/C
1
2
3
4
5
1
2
0.8007
0.8007
0.8007
46
3
0.9460
0.9460
0.8007
4
1.0000
0.9460
0.8007
4. Actualización de pesos de la red en función del patrón presentado
(Ecuación 6). Los pesos actualizados son los pesos con los cuales se
calcula posteriormente la distancia euclidiana para el siguiente patrón. Por
ejemplo, en la primera iteración cuando se actualizaron los pesos de la red
con respecto al primer patrón, se obtuvieron los pesos que se muestran en
la Tabla 5.6, que a su vez fueron el insumo para calcular las distancias
euclidianas con respecto al segundo patrón.
[6]
Tabla 5.6. Pesos actualizados de la red – Patrón 1, iteración 1.
F/C
1 2 3 4 5 1
2
3
4
0.2892
0.2112
0.4832
0.3388
0.2134
0.6259
0.3043
0.1278
0.5985
0.3658
0.3292
0.4889
0.1885
0.1978
0.5688
0.2811
0.2010
0.4635
0.2317
0.1980
0.4472
0.3641
0.1219
0.6545
0.1591
0.3752
0.6554
0.3790
0.2475
0.6166
0.3040
0.2860
0.6990
0.3622
0.3097
0.6665
0.3975
0.1272
0.5769
0.3775
0.3845
0.5686
0.1369
0.3086
0.4631
0.3331
0.3494
0.6022
0.1613
0.2148
0.6496
0.4039
0.2193
0.4827
0.3978
0.1295
0.5401
0.4185
0.3666
0.5344
Estos cuatro pasos se repitieron para cada patrón en cada una de las 5 iteraciones
planeadas. Las ecuaciones mostradas en los pasos fueron descritas en la Sección
3.2.3.2 de este documento. Finalmente, para cada iteración se calculó el error
como la suma de las distancias euclidianas de las 6 neuronas ganadoras
correspondientes a cada patrón, obteniéndose la curva que se muestra en la
Figura 5.3. Los cálculos detallados de este ejercicio se incluyen en el Anexo B de
este documento.
47
VARIACIÓN DEL ERROR
3.5
3.0
ERROR
2.5
2.0
1.5
1.0
0.5
0.0
0
1
2
3
4
5
6
ITERACIÓN
Figura 5.3. Variación del error del modelo.
Finalmente, en la Figura 5.4 se muestra la ubicación de la neurona ganadora por
patrón en cada iteración. Los números señalados en las neuronas ganadoras
hacen referencia al patrón respectivo y los colores rojo, azul y verde señalan los
grupos 1, 2 y 3 respectivamente.
6
3
1 y 4
3 y 6
1 y 4
2 y 5
ITERACIÓN 1
3 y 6
1 y 4
2 y 5
ITERACIÓN 2
3 y 6
1 y 4
2 y 5
ITERACIÓN 3
3 y 6
1 y 4
2 y 5
ITERACIÓN 4
2 y 5
ITERACIÓN 5
Figura 5.4. Agrupamiento de datos para cada iteración.
De la figura anterior es importante destacar que:
• Desde la primera iteración clasificó correctamente los grupos 1 (rojo) y 3
(verde), obteniendo los patrones respectivos una sola neurona ganadora.
• En la primera iteración, el grupo 2 (azul) quedó asignado en dos neuronas
consecutivas por el efecto de la vecindad. Esto resulta consistente ya que
los patrones del grupo 2 son los más distanciados entre sí y es normal que
de entrada no tengan la misma neurona ganadora, sin embargo, éstas sí
deben ser consecutivas como en efecto ocurrió
• En la primera iteración, el grupo 2 quedó justo al lado del grupo 3, lo cual
también es consistente pues de entrada el modelo los trata de agrupar
porque sus coordenadas, con excepción de la coordenada Z, son muy
similares.
• No obstante, sabiendo que los grupos 2 y 3 se diferencian
significativamente en sus coordenadas Z, el modelo los separó desde la
iteración 2, ubicándolos en extremos diferentes a pesar de poseer
coordenadas X y Y similares.
48
• A partir de la segunda iteración el método clasificó correctamente el 100%
de los patrones. De ahí en adelante fue ajustando más los pesos de las
neuronas para que representaran mejor a los patrones.
5.2. PROGRAMACIÓN DEL MÉTODO DE KOHONEN
Con base en el entendimiento del método y el ejercicio descrito anteriormente, se
procedió a programar el método de Kohonen en Matlab. En el Anexo B también se
incluye el código desarrollado para emplear el método de Kohonen.
Este código fue validado con exactamente los mismos datos del ejercicio de la
sección anterior. La comparación de ambos resultados está incluida en el archivo
de Excel del ejercicio. Se encontraron diferencias entre los modelos a partir del
patrón 2 de la iteración 4, sin embargo, estas diferencias se pueden atribuir a
diferencias en los decimales de cálculo entre los dos métodos.
En la Tabla 5.7 se muestran los pesos actualizados del patrón 6 en la iteración 5.
Como se puede observar, a pesar de encontrar diferencias atribuibles al cálculo
con diferentes decimales, el error en la resta de los pesos se ubica en el tercer
decimal, lo cual indica que ello es aceptable al igual que el código desarrollado.
Tabla 5.7. Comparación de los pesos actualizados para el patrón 6 de la iteración 5 entre el ejercicio de
Excel y el código de Matlab.
F/C
1 2 3 4 5 1
2
3
4
0.0000
0.0000
0.0000
0.0022
0.0018
0.0014
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0013
0.0003
0.0056
0.0021
0.0011
0.0050
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
-0.0012
-0.0001
-0.0045
-0.0008
0.0003
-0.0047
0.0000
0.0000
0.0000
-0.0040
-0.0040
0.0013
-0.0016
-0.0015
0.0004
0.0000
0.0000
0.0000
0.0001
0.0008
-0.0030
0.0000
0.0000
0.0000
-0.0040
-0.0040
0.0013
0.0000
0.0000
0.0000
49
6. PROCESO DE CLASIFICACIÓN DE CORRIENTES DE LA
CUENCA MAGDALENA-CAUCA MEDIANTE EL MÉTODO DE
KOHONEN
En este capítulo se describe el proceso de clasificación de corrientes de la cuenca
Magdalena-Cauca tomando como ejemplo uno de los ensayos propuestos dentro
de la investigación. En el siguiente capítulo se muestran de manera resumida los
resultados obtenidos en todos los ensayos.
La descripción de estos resultados inicia con el diseño experimental que incluye la
presentación del aplicativo computacional empleado para la clasificación de
corrientes y finaliza con los resultados obtenidos en el ensayo que se tomó como
ejemplo para la descripción de los resultados.
6.1. DISEÑO EXPERIMENTAL
Teniendo en cuenta que el ejercicio de clasificación de corrientes de la cuenca
Magdalena-Cauca realizado por Ingfocol Ltda en 2010 resultó satisfactorio dentro
del marco de referencia ELOHA y además contó con la orientación y aprobación
de varios expertos de la cuenca, se decidió tomar exactamente la misma
Geodatabase para el desarrollo de esta investigación con el fin de poder validar
los diferentes ensayos de clasificación que posteriormente se describirán. El tipo,
cantidad y calidad de la información contenida en esa Geodatabase permitió
plantear distintos ensayos que pusieron a prueba el método de Kohonen.
Un aspecto importante en la etapa inicial del proceso de modelación tuvo que ver
con la definición de los ensayos a realizar, para lo cual fue necesario elaborar un
diseño experimental.
Teniendo en cuenta que los objetivos planteados dentro de esta investigación
giran en torno a diferentes tipologías de variables, lo primero que hubo que hacer
en este sentido fue precisamente definir las variables que iban a incluirse en cada
ensayo. Con base en el amplio espectro de variables contenidas en la
Geodatabase, se plantearon 6 ensayos con tipologías diferentes, los cuales se
mencionan a continuación.
•
•
•
•
•
Tipología 1 - todas la variables. Todas las variables de la Tabla 3.1.
Tipología 2 – variables IHA. Variables 1 a 34 de la Tabla 3.1.
Tipología 3 – variables CCE. Variables 35 a 68 de la Tabla 3.1.
Tipología 4 – variables Ingfocol 2010. Variables de la Tabla 3.2.
Tipología 5 – 12 Q mensuales y elevación. Variables 1 a 12 y 71 de la
Tabla 3.1.
50
• Tipología 6 – cuatrimestre donde se presenta el flujo más alto, Q
medio extremadamente bajo, Q medio grandes inundaciones, Q medio
y elevación. Variables 27, 47, 63, 69 y 71 de la Tabla 3.1.
Si bien una de las recomendaciones en cuanto a la aplicación del método de
Kohonen es hacer la capa de kohonen lo más grande posible para visualizar mejor
la estructura de agrupación de los patrones, se decidió probar modelos con
diferente cantidad de neuronas en la capa de salida para establecer cuál era el
efecto de esta variación en los resultados. Se probaron modelos con 25, 100, 225,
400 y 900 neuronas en la capa de salida.
Con el desarrollo del aplicativo computacional del método de Kohonen fue posible
identificar la posibilidad de llevar a cabo una clasificación adicional del espacio
topológico de la red para automatizar la definición del número de grupos. En este
sentido se implementó dentro del aplicativo computacional un segundo método de
clasificación al espacio topológico denominado Clustering Difuso. Teniendo en
cuenta que este método requiere como parámetro de entrada el radio de vecindad
de agrupamiento, se probaron modelos con radios de vecindad igual a 0.1, 0.2,
0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9 y 1.
Finalmente, si bien es posible determinar el error del modelo de Kohonen para
representar los patrones de entrada a la red, en el desarrollo del aplicativo
computacional también se incluyó una sección cuyo objetivo es medir la precisión
del proceso de clasificación escogiendo la neurona centroide de cada grupo (haya
sido cada uno de éstos escogido automáticamente o no) y calculando métricas de
homogeneidad al interior de cada clúster o familia de corrientes.
6.1.1. Aplicativo computacional del método de Kohonen
Con base en los experimentos planteados en el diseño experimental y con ayuda
del Toolbox en Redes Neuronales Artificiales de Matlab, se desarrolló un aplicativo
computacional para clasificar las corrientes de la cuenca Magdalena-Cauca con
diferentes tipologías de variables.
Este aplicativo se apoyó en el Toolbox de Matlab porque éste a diferencia del que
se describió en el capítulo anterior, ofrece un paquete para la visualización de los
resultados.
En el Anexo C se incluye el código desarrollado para la clasificación de corrientes
de la cuenca Magdalena-Cauca y la función para aplicar el segundo método de
clasificación al espacio topológico de Kohonen, la cual fue desarrollada por el
Ingeniero Felipe Ardila. Cada una de las líneas de este código está comentada
para facilitar su comprensión.
51
6.2. DESCRIPCIÓN DE RESULTADOS DEL APLICATIVO
COMPUTACIONAL
Con ayuda del aplicativo computacional que se mencionó en la sección anterior de
este capítulo, se realizaron los ensayos respectivos para cada una de las
tipologías de variables.
Tomando como ejemplo la tipología de variables No. 6, es decir la que contiene
las variables: cuatrimestre donde se presenta el flujo más alto, Q medio
extremadamente bajo, Q medio grandes inundaciones, Q medio y elevación, a
continuación se describen los resultados que proporciona el aplicativo
computacional desarrollado para la clasificación de corrientes de la cuenca
Magdalena Cauca.
6.2.1. Resultados del aplicativo computacional
En resumen, los resultados que proporciona el aplicativo desarrollado para la
clasificación de corrientes se pueden dividir en las siguientes secciones:
1. Resultados del método de Kohonen
1.1. Pesos actualizados de la red correspondientes a la última iteración
1.2. Matriz de hits de la red
1.3. Gráfica de hits
1.4. Gráfica de distancias entre neuronas (U-Matrix)
1.5. Cálculo de las métricas de ajuste entre las neuronas ganadoras y los
patrones de entrenamiento
2. Resultados del clúster topológico
2.1. Matriz de coordenadas de las neuronas para el clúster topológico
2.2. Análisis de clúster topológico mediante K-means Difuso
2.3. Número de clústeres
2.4. Clúster correspondiente a cada neurona ganadora
2.5. Error del agrupamiento
2.6. Coordenadas del centroide de cada grupo
3. Cálculo de las métricas de homogeneidad por grupo
3.1. Transformación de clústeres de neuronas a clústeres de patrones
3.2. Cálculo de las métricas de desempeño en el agrupamiento de la
información
El aplicativo computacional se programó para que proporcionara estos resultados
para diferentes modelos, es decir, para modelos de red con diferentes neuronas
en la capa de salida y su vez para clústeres topológicos con diferentes radios de
vecindad. A continuación se describen con más detalle cada una de las secciones.
52
6.2.2. Resultados por Método de Kohonen
En la tabla de pesos actualizados que proporciona el aplicativo, las filas
corresponden a las neuronas de modelo y las columnas a los pesos de cada
neurona. La cantidad de pesos de cada neurona es igual a la cantidad de
variables que posee cada patrón. Los pesos que aparecen en esta tabla
corresponden a los pesos actualizados después de la última iteración.
A pesar de que las neuronas se organizan en el mapa de forma bidimensional, en
esta tabla, así como en la de hits que se describe a continuación, las neuronas se
enumeran linealmente empezando por la neurona de la última fila y primera
columna y terminando en la neurona de la primera fila y la última columna. En la
Figura 6.1, que corresponde al modelo de 25 neuronas de la tipología No. 6, se
muestra el sentido en el que se organizan las neuronas en las matrices de
resultados.
Figura 6.1. Sentido de numeración de las neuronas en las matrices de resultados.
En la matriz de hits, las filas corresponden a las neuronas, que también se
enumeran como se muestra en la Figura 6.1, y las columnas corresponden a los
patrones de entrenamiento. En esta matriz los unos indican la neurona ganadora
de cada patrón. A cada patrón le corresponde una sola neurona, mientras que una
neurona puede ser la neurona ganadora de varios patrones.
El método de Kohonen programado en el aplicativo computacional proporciona
dos gráficas, la de hits y la de distancias entre neuronas (U-Matrix). En la Figura
6.2 y la Figura 6.3 se muestran estas gráficas para los ensayos correspondientes
a la tipología No. 6. En las gráficas de hits, entre más grande sea la neurona de
color azul más patrones representa. Las neuronas de color blanco no representan
a ningún patrón. De otro lado, en las gráficas U-Matrix los colores oscuros indican
una gran diferencia entre neuronas, mientras que el color amarillo gran similitud, lo
cual evidencia la conformación de grupos o familias de neuronas que en
consecuencia conforman grupos de patrones.
53
25 NEURONAS
100 NEURONAS
225 NEURONAS
400 NEURONAS
900 NEURONAS
Figura 6.2. Gráficas de hits para la tipología No. 6.
54
25 NEURONAS
100 NEURONAS
225 NEURONAS
400 NEURONAS
900 NEURONAS
Figura 6.3. Gráficas de distancias entre neuronas (U-Matrix) para la tipología No. 6.
55
De las gráficas anteriores se resaltan los siguientes aspectos:
• A pesar de que en la gráfica de distancias entre neuronas correspondiente
al modelo de 900 neuronas la ubicación de los grupos varía con respecto a
los demás modelos, nótese como la estructura topológica, y por
consiguiente el agrupamiento entre los datos, se conserva.
• Si la estructura topológica se conserva, la escogencia del número de
neuronas del modelo depende de la resolución a la cual se deseen
observar los resultados. Entre mayor sea el número de neuronas más clara
es la conformación de grupos y subgrupos, pues el espacio topológico
permite no sólo diferenciar los grupos sino resaltar aún más las pequeñas
diferencias entre los patrones así sean del mismo grupo.
• No obstante, si el número de neuronas es muy grande, el modelo puede
sobre-entrenarse y resaltar las diferencias entre cada uno de los patrones,
evidenciando igual número de grupos como de patrones, con lo cual
identificar cuáles patrones pertenecen al mismo grupo resulta una labor
más compleja. Es de esperarse que a medida que el número de neuronas
aumente, también lo haga el número de grupos identificables en el mapa.
• La identificación de los grupos en las gráficas U-Matrix puede
complementarse con la interpretación de las gráficas de hits. Un grupo se
diferenciará más de otro si entre las neuronas que conforman cada grupo
hay más neuronas con valor 0. En este sentido, los caminos “ceros” que se
forman en la matriz de hits pueden indicar, dependiendo de la distancia
entre neuronas, una división de grupos de información.
Finalmente en cuanto al método de Kohonen, el aplicativo proporciona unas
métricas que indican qué tan preciso es el modelo en relación a qué tanto se
ajustaron las neuronas ganadoras a sus respectivos patrones. Entre mayor sea el
número de neuronas menores van a ser las magnitudes de estas métricas, pues
cada patrón va a tener la posibilidad de que una y sólo una neurona lo represente.
En total se calcularon 5 métricas diferentes a saber:
1. Número de neuronas del modelo
2. M1: Distancia promedio entre cada patrón y su neurona correspondiente
3. M2: RMS (Root Mean Square) de las distancias entre patrones y neuronas
ganadoras, calculado como la raíz del promedio de las distancias al
cuadrado
4. M3: Distancia máxima entre algún patrón y su neurona correspondiente
5. M4: Número de los patrones a los cuales les corresponde la distancia
máxima
En el caso de la tipología de variables No. 6, los valores obtenidos de estas
métricas para cada uno de los ensayos, es decir para 25, 100, 225, 400 y 900
neuronas, se muestra a continuación en la Tabla 6.1.
56
Tabla 6.1. Métrica de ajuste de cada uno de los modelos realizados para la tipología No. 6.
#
Neuronas
M1
M2
M3
M4
25
0.056
0.070
0.218
158
100
0.013
0.023
0.130
112
225
0.004
0.013
0.087
123 y 172
400
0.001
0.004
0.030
78 y 79
900
0.000
0.001
0.004
74 y 82
Nótese como las tres primeras métricas van disminuyendo a medida que aumenta
el número de neuronas del modelo y como en la columna correspondiente a la
métrica cuatro (M4) no se repite ningún número, lo que indica la inexistencia de un
patrón “problema”.
6.2.3. Resultados por Clúster topológico
Como ya se anticipó, dentro del aplicativo computacional se incluyó una sección
destinada a una segunda clasificación o clasificación topológica. El método
programado para este fin corresponde al método de Clustering Difuso.
En resumen, esta sección toma las coordenadas de las neuronas ganadoras de la
gráfica de hits, las escala entre 0 y 1 y aplica el método de Clustering Difuso para
determinar el número de clústeres en los que se divide el mapa de hits. También
proporciona un vector columna donde indica el número del clúster que le
corresponde a cada neurona según la convención de numeración indicada en la
Figura 6.1. Adicionalmente, esta parte del programa proporciona el error de
agrupamiento y las coordenadas del centroide de cada grupo.
En la Tabla 6.2 se muestra, para el modelo de 400 neuronas de la tipología de
variables No. 6, el número de grupos obtenido para cada radio de vecindad. Estos
mismos resultados se pueden observar de manera gráfica en la Figura 6.4 a la
Figura 6.8.
Tabla 6.2. Número de clústeres para cada radio de vecindad – Modelo de 400 neuronas tipología No. 6.
Radio de
Vecindad
Número de
neuronas
ganadoras
Número de
clústeres
Radio de
Vecindad
Número de
neuronas
ganadoras
Número de
clústeres
0.1
151
73
0.6
151
4
0.2
151
22
0.7
151
4
0.3
151
12
0.8
151
3
0.4
151
8
0.9
151
2
0.5
151
4
1
151
1
57
Figura 6.4. Clústeres topológicos para Radios de 0.1 y 0.2 – modelo 400 neuronas tipología No. 6.
58
Figura 6.5. Clústeres topológicos para Radios de 0.3 y 0.4 – modelo 400 neuronas tipología No. 6.
59
Figura 6.6. Clústeres topológicos para Radios de 0.5 y 0.6 – modelo 400 neuronas tipología No. 6.
60
Figura 6.7. Clústeres topológicos para Radios de 0.7 y 0.8 – modelo 400 neuronas tipología No. 6.
61
Figura 6.8. Clústeres topológicos para Radios de 0.9 y 1 – modelo 400 neuronas tipología No. 6.
62
En los resultados anteriores, el centro de cada grupo se señala con una equis roja
los individuos de un mismo grupo conservan el mismo color. En las gráficas como
en la tabla resumen es evidente como el número de grupos va disminuyendo
conforme aumenta el radio de vecindad.
Con esta metodología, a pesar de que abarca todo el rango de vecindades
posible, no es claro cuál de las 10 posibilidades debe escogerse como la mejor.
Tal vez los únicos criterios para escoger el radio de vecindad sean en primer lugar
el número de clústeres que más se repite (en este caso por ejemplo 4) y en
segundo lugar el error asociado al proceso de agrupación en cada modelo, no
obstante, si se contrasta cualquiera de los agrupamientos topológicos obtenidos
anteriormente con el mapa U-Matrix correspondiente al modelo de 400 neuronas,
es claro que ninguna de las agrupaciones obtenidas con el clúster topológico se
ajusta a la estructura topológica que se forma en el mapa de distancias entre
neuronas.
Lo anterior se da porque el método de Clustering Difuso asume que la forma de
los grupos siempre es circular, lo cual rara vez ocurre en las estructuras
topológicas de Kohonen. De hecho, hay que resaltar como ni siquiera en el
ejemplo que se tomó para describir la visualización de los resultados en la sección
3.2.3.3, el mapa de distancias entre neuronas muestra formas circulares a pesar
de que en el espacio real de la información los patrones si las tienen.
Adicionalmente, puede darse el caso de que dos neuronas ganadoras sean
clasificadas por el clúster topológico como pertenecientes a un mismo grupo por
ser consecutivas, pero la distancia entre ellas mostrada en el mapa U-Matrix
indique que son de grupos diferentes. Esto podría subsanarse escogiendo un
modelo con gran cantidad de neuronas para lograr que entre los grupos se formen
franjas de neuronas no ganadoras, sin embargo, muy probablemente la forma de
todos los grupos no sería circular y por tanto el clúster topológico no arrojaría
resultados confiables.
Los dos inconvenientes que se acaban de mencionar hacen que la automatización
de la obtención del número de clústeres mediante el método de Clustering Difuso
aplicado al espacio topológico de la red sea ineficaz y por tanto no deba
emplearse.
6.2.4. Métricas de desempeño en la clasificación de la información
En un principio y tal como quedó programado en el aplicativo computacional, las
métricas de desempeño en el proceso de clasificación o métricas de
homogeneidad por grupo estuvieron amarradas a los resultados del clúster
topológico. Sin embargo, como se pudo observar en la sección anterior, el método
empleado para llevar a cabo la clasificación del espacio topológico de kohonen es
ineficaz y por tanto no debe tomarse en cuenta, razón por la cual la obtención del
63
número de grupos en cada modelo debe hacerse manualmente y con ayuda de los
mapas de hits y U-Matrix.
En consecuencia, fue necesario adaptar esta sección del aplicativo para que el
número de grupos, el grupo al que corresponde cada patrón y los centroides
correspondientes a cada grupo se introdujeran como dato de entrada después de
obtenerlos manualmente.
Las métricas calculadas por el aplicativo computacional son:
1. Número de patrones perteneciente a cada clúster (n)
2. M1: Distancia promedio entre cada patrón y la neurona centroide del grupo
3. M2: RMS (Root Mean Square) de las distancias entre los patrones de cada
grupo y la neurona centroide correspondiente, calculado como la raíz del
promedio de las distancias al cuadrado
4. M3: Distancia máxima de cada clúster determinada como la mayor distancia
entre los patrones del grupo y la neurona centroide correspondiente
5. M4: Número de los patrones a los cuales les corresponde la distancia
máxima de cada grupo
A manera de ejemplo, en la Tabla 6.3 se muestran las métricas obtenidas en los
25 grupos del modelo de 400 neuronas de la tipología de variables No. 6.
Tabla 6.3. Métricas de homogeneidad en la clasificación del modelo de 400 neuronas y tipología No. 6.
# clúster
1
2
3
4
5
6
7
8
9
10
11
12
13
n
59
13
11
18
5
5
3
1
6
7
2
6
3
M1
0.19 0.04 0.06
0.07 0.03 0.02
0
0.14 0.03 0.03 0.11 0.08
M2
0.22 0.08 0.07 0.12
0.1
0.06 0.03
0
0.15 0.04 0.04 0.12 0.13
M3
0.31 0.21 0.12
0.2
0.2
0.12 0.05
0
0.24 0.06 0.05 0.16 0.22
M4
116
78
5
131
108
42
129
105
120
37
125
115
# clúster
14
15
16
17
18
19
20
21
22
23
24
25
n
5
1
2
7
3
1
3
2
6
3
1
1
M1
0.06
0
0.04 0.03 0.02
0
0.04
0
0.01 0.09
0
0
M2
0.08
0
0.06 0.03 0.03
0
0.05
0
0.01
0.1
0
0
M3
0.15
0
0.09 0.07 0.04
0
0.07
0
0.03 0.14
0
0
M4
71
171
172
27
32
141
57
123
46
0.1
133
142
122
12
Por último, con base en estos resultados es posible calcular las mismas métricas
para todo el modelo, las cuales se muestran a continuación en la Tabla 6.4.
64
Tabla 6.4. Métricas de homogeneidad del modelo de 400 neuronas y tipología No. 6.
n
174
M1
0.1
M2
0.15
M3
0.31
M4
116
En este caso, el clúster donde se presenta la distancia más grande (0.31) es en el
grupo No. 1, lo cual es de esperarse porque este grupo contiene el mayor número
de patrones (59).
65
7. ANÁLISIS DE CLASIFICACIÓN DE CORRIENTES PARA
DIFERENTES TIPOLOGÍAS DE VARIABLES EN LA CUENCA
MAGDALENA-CAUCA
En este capítulo se presentan los resultados obtenidos en el proceso de
clasificación de corrientes de la cuenca Magdalena-Cauca para las 6 tipologías de
variables planteadas dentro de esta investigación.
Debido a que la clasificación de corrientes de la cuenca Magdalena-Cauca
realizada en esta investigación debe estar enmarcada dentro de ELOHA y la mejor
clasificación que se tiene hasta el momento en este sentido es la realizada por
Ingfocol en 2010, un criterio para seleccionar el modelo representativo de
clasificación para cada tipología de variables necesariamente debe obedecer a
que el número de clústeres de dicho modelo sea del mismo orden de magnitud del
número de clústeres obtenido por Ingfocol, es decir 23 clústeres
aproximadamente.
En consecuencia, las tipologías de variables que en ningún modelo sugirieron un
número de clústeres similar a 23 grupos, no se tuvieron en cuenta para este
análisis ni para los análisis subsiguientes.
7.1. TIPOLOGÍA DE VARIABLES NO. 1
En la Figura 7.1 a la Figura 7.3 se muestran las gráficas de hits y U-Matrix para los
modelos con 225, 400 y 900 neuronas correspondientes a la tipología de variables
No. 1, es decir, la que contiene todas las variables de la Geodatabase.
Las gráficas U-Matrix o gráficas de distancias entre neuronas de los modelos de
225 y 400 neuronas, especialmente la primera de ellas, no permiten diferenciar
claramente la clasificación de la información. En cambio, en el modelo de 900
neuronas claramente se diferencian clústeres de color amarillo separados entre sí
por líneas de color rojo a negro.
Teniendo en cuenta que en esta tipología se incluyeron 73 variables, es de
esperarse que sólo con un modelo de 900 neuronas el método logre diferenciar
claramente los grupos de información. No obstante, haciendo un conteo rápido del
número de clústeres que se forman en dicho modelo (ver Figura 7.3), es claro que
éste sobrepasa ampliamente el valor de referencia de 23 grupos, incluso el orden
de magnitud del número de grupos en este modelo es cercano al doble del valor
de referencia. Por esta razón se considera innecesario continuar con el análisis de
esta tipología de variables pues contiene mucha información que para ELOHA
puede resultar ruidosa.
66
Figura 7.1. Gráficas de hits y U-Matrix para el modelo de 225 neuronas en la tipología No. 1.
67
Figura 7.2. Gráficas de hits y U-Matrix para el modelo de 400 neuronas en la tipología No. 1.
68
Figura 7.3. Gráficas de hits y U-Matrix para el modelo de 900 neuronas en la tipología No. 1.
69
7.2. TIPOLOGÍA DE VARIABLES NO. 2
Esta tipología contiene 34 de las 73 variables de la Geodatabase, que
específicamente corresponden a las variables tipo IHA (Indicadores de Alteración
Hidrológica en español) generadas por el software que lleva el mismo nombre. Las
variables que contiene esta tipología específicamente se refieren a las primeras 34
variables de la Tabla 3.1.
Al igual que en el caso anterior, debido a que esta tipología incluye una gran
cantidad de variables, en los mapas de 225 y 400 neuronas se nota como a gran
parte del mapa todavía le hace falta espacio para lograr diferenciar grupos
claramente. En otras palabras, en los dos primeros mapas todavía no es evidente
la generación de valles de color amarillo diferenciados por fronteras de color
oscuro, lo cual si se evidencia con más claridad en el mapa de 900 neuronas, sin
embargo, en este último mapa se evidencia una cantidad de grupos muy superior
a la cantidad de referencia, es decir a 23 grupos, razón por la cual también se
descarta esta tipología para los análisis subsiguientes.
En la Figura 7.4 a la Figura 7.6 se observan los mapas correspondientes a los
modelos de 225, 400 y 900 neuronas de la tipología de variables No. 2.
Figura 7.4. Gráficas de hits y U-Matrix para el modelo de 225 neuronas en la tipología No. 2.
70
Figura 7.5. Gráficas de hits y U-Matrix para el modelo de 400 neuronas en la tipología No. 2.
71
Figura 7.6. Gráficas de hits y U-Matrix para el modelo de 900 neuronas en la tipología No. 2.
72
7.3. TIPOLOGÍA DE VARIABLES NO. 3
Esta tipología también contiene 34 de las 73 variables de la Geodatabase y
específicamente corresponden a las variables tipo EFC (Componentes del caudal
ecológico en español) generadas por el software IHA, que en la Tabla 3.1 se
ubican en las posiciones 35 a 68.
Este caso es exactamente igual al caso de la tipología No. 2, pues en los mapas
de 225 y 400 neuronas es claro que a más de 50% del mapa le hace falta
clasificarse bien, lo cual se logra con más neuronas, pues en el mapa de 900
neuronas ya se evidencian claramente la conformación de los grupos en todo el
mapa. No obstante, en el mapa de 900 neuronas el número de grupos también es
muy superior a 23, que es número de grupos de referencia. Lo anterior también
implica que se descarte esta tipología para los análisis subsiguientes.
En la Figura 7.7 a la Figura 7.9 se observan los mapas correspondientes a los
modelos de 225, 400 y 900 neuronas de la tipología de variables No. 3.
Figura 7.7. Gráficas de hits y U-Matrix para el modelo de 225 neuronas en la tipología No. 3.
73
Figura 7.8. Gráficas de hits y U-Matrix para el modelo de 400 neuronas en la tipología No. 3.
74
Figura 7.9. Gráficas de hits y U-Matrix para el modelo de 900 neuronas en la tipología No. 3.
75
7.4. TIPOLOGÍA DE VARIABLES NO. 4
Esta tipología incluye las 26 variables obtenidas por Ingfocol Ltda en 2010 como
las variables más relevantes en el proceso de clasificación. Estas variables fueron
descritas con anterioridad en la Tabla 3.2.
Al igual que en las tres tipologías anteriores y muy seguramente porque estas
tipologías contienen un gran número de variables, sólo con el mapa más grande,
es decir con el mapa de 900 neuronas es que se logra visualizar claramente la
conformación de los grupos que subyacen a la tipología de variables presentada.
Sin embargo, la cantidad de grupos que en este mapa se generan también es
superior al número de grupos de referencia (23 grupos), por tanto, esta tipología
tampoco se va a tener en cuenta para los análisis subsiguientes.
En la Figura 7.10 a la Figura 7.12 se observan los mapas correspondientes a los
modelos de 225, 400 y 900 neuronas de la tipología de variables No. 4.
Figura 7.10. Gráficas de hits y U-Matrix para el modelo de 225 neuronas en la tipología No. 4.
76
Figura 7.11. Gráficas de hits y U-Matrix para el modelo de 400 neuronas en la tipología No. 4.
77
Figura 7.12. Gráficas de hits y U-Matrix para el modelo de 900 neuronas en la tipología No. 4.
78
7.5. TIPOLOGÍA DE VARIABLES NO. 5
Esta tipología corresponde a 13 variables de la Geodatabase que concretamente
se refieren al promedio de los caudales de los 12 meses de año mas la elevación
de la estación, es decir a las variables 1 a 12 y 71 de la Tabla 3.1.
En los tres mapas que se presentan a continuación en la Figura 7.13 a la Figura
7.15, es claro cómo se conserva la estructura topológica de la información a pesar
de variar el número de neuronas del mapa. Esto se debe a que la cantidad de
variables incluidas dentro de esta tipología así como la información que cada una
de ellas contiene, puede clasificarse rápidamente incluso con mapas de 225
neuronas.
En este caso ocurre todo lo contrario a las cuatro tipologías anteriores, es decir
que en este caso desde el mapa más pequeño de 225 neuronas ya es clara la
conformación de valles de color amarillo. Nótese como más del 50% de cada
mapa parece ser del mismo grupo, a pesar de que contiene en su interior líneas
oscuras que ligeramente marcan una diferencia.
Figura 7.13. Gráficas de hits y U-Matrix para el modelo de 225 neuronas en la tipología No. 5.
79
Figura 7.14. Gráficas de hits y U-Matrix para el modelo de 400 neuronas en la tipología No. 5.
80
Figura 7.15. Gráficas de hits y U-Matrix para el modelo de 900 neuronas en la tipología No. 5.
81
De acuerdo con la Figura 7.16, esta tipología posee 20 grupos; un número similar
al número de grupos de referencia (23 grupos). Para mayor claridad en la
delimitación de los grupos, al lado del mapa U-Matrix clasificado se incluye un
croquis de las fronteras de los grupos. En este caso la dificultad se centró en
diferenciar los grupos que se encuentran en el gran valle de color amarillo. Esta
clasificación se hizo con base en un análisis conjunto de las gráficas de hits y
U_Matrix.
Figura 7.16. Clasificación de corrientes del modelo de 225 neuronas para la tipología No. 5.
7.6. TIPOLOGÍA DE VARIABLES NO. 6
Esta tipología corresponde a la combinación de las variables: cuatrimestre donde
se presenta el flujo más alto, Q medio extremadamente bajo, Q medio grandes
inundaciones, Q medio y elevación, es decir las variables No. 27, 47, 63, 69 y 71
(ver Tabla 3.1). Esta tipología se tomó como ejemplo para describir los resultados
que se obtienen mediante el aplicativo computacional (ver Capítulo 6) y por eso el
análisis incluyó los modelos con 25, 100, 225, 400 y 900 neuronas. Las gráficas de
hits y U-Matrix de los modelos pertenecientes a esta tipología se mostraron en el
capítulo anterior, concretamente en la Figura 6.2 y la Figura 6.3.
A continuación, en la Figura 7.17 se muestra la clasificación hecha a los modelos
de 25 a 400 neuronas. Como se puede observar, el número de grupos obtenido en
cada caso es de 12, 10, 19 y 25 para los modelos de 25, 100, 225 y 400 neuronas
respectivamente.
Para el análisis posterior de familiaridad se tomó el modelo de 400 neuronas
debido a que el número de grupos obtenido en este caso es del mismo orden de
magnitud del valor de referencia, es decir de 23 grupos, lo cual facilita la
comparación entre las tipologías.
82
25 Neuronas
100 Neuronas
225 Neuronas
400 Neuronas
Figura 7.17. Clasificación de corrientes de los modelos de 25, 100, 225 y 400 neuronas para la tipología
No. 6.
83
7.7. RESUMEN DEL NÚMERO DE GRUPOS POR TIPOLOGÍA DE
VARIABLES
Lo primero que hay que resaltar en este sentido es que dentro del marco de
referencia ELOHA aplicado a la cuenca Magdalena-Cauca, la inclusión de gran
cantidad de variables en el proceso de clasificación mediante el método de
Kohonen, como es el caso de las primeras cuatro tipologías de variables, hace
que se logren visualizar los grupos únicamente con modelos de red con gran
cantidad de neuronas. Esto sugiere que hay una proporcionalidad entre el número
de neuronas del modelo y el número de variables de los patrones.
Adicionalmente, si se tiene en cuenta que el objetivo de la clasificación de
corrientes dentro de ELOHA busca por un lado agrupar las corrientes similares y
por otro lado, aún más importante, obtener un hidrograma característico de cada
familia de corrientes, incluir gran cantidad de variables desvía el objetivo de
clasificación dentro de ELOHA, tal y como sucedió en las primeras cuatro
tipologías de variables donde el número de grupos obtenido resultó ser mucho
mayor que el de referencia (23 grupos).
En cambio, si se emplean variables de clasificación relacionadas precisamente
con el hidrograma característico de cada corriente es posible identificar un número
de grupos del mismo orden de magnitud que el de la clasificación de referencia
efectuada por Ingfocol Ltda en 2010. Esto pudo evidenciarse en las dos últimas
tipologías, donde las variables escogidas se relacionan directamente con los
hidrogramas de cada corriente de la cuenca Magdalena-Cauca.
Así las cosas, en la Tabla 7.1 se presenta un resumen de los resultados obtenidos
en el proceso de clasificación de corrientes de la cuenca Magdalena Cauca por el
método de Kohonen y orientado a los objetivos de ELOHA. El reporte de
clasificación efectuado para cada una de las tipologías de variables puede
observarse en el Anexo D.
Tabla 7.1. Resumen del proceso de clasificación de corrientes de la cuenca Magdalena-Cauca para
diferentes tipologías de variables.
Tipología de
variables
Cantidad de
variables
Cantidad de neuronas
del modelo
representativo
Cantidad de grupos
obtenido
1
73
900
>> 23
2
34
900
>> 23
3
34
900
>> 23
4
26
900
>> 23
5
13
225
20
6
5
400
25
84
En el Anexo E se incluye una tabla con el número del clúster al que pertenece
cada patrón para el caso específico de las tipologías de variables No. 5 y 6, que
finalmente son las que se van a tener en cuenta para los análisis posteriores. En
esta tabla también se incluye el resumen del proceso de clasificación efectuado
por Ingfocol Ltda en 2010.
Finalmente, para facilitar el entendimiento de la clasificación efectuada por
Kohonen en el caso de las tipologías de variables No. 5 y 6, en el Anexo F se
incluyen los mapas de clasificación. Para las dos tipologías de variables
mencionadas, se elaboraron tantos mapas como grupos de corrientes arrojó el
método de Kohonen, señalando en cada caso la ubicación de las corrientes
pertenecientes a cada grupo sobre el mapa familias obtenido por Ingfocol en 2010.
85
8. ANÁLISIS DE INVARIANCIA Y VARIABLES IMPORTANTES
En este capítulo se presenta el análisis de invariancia de grupos de corrientes y
también se presenta el análisis de las variables más importantes en el proceso de
clasificación.
Adicionalmente se compara el método de Kohonen con otro método de
clasificación para la tipología de variables más acertada con respecto a la
clasificación realizada por Ingfocol en 2010, que contó con la orientación y
validación de expertos de la cuenca enmarcadas dentro de ELOHA.
8.1. ANÁLISIS DE INVARIANCIA DE CORRIENTES SIMILARES
Con base en las tipologías de variables No. 5 y 6 que resultaron del análisis de
clasificación enfocado a ELOHA y cuya descripción se encuentra en el capítulo
anterior, se realizó un análisis de invariancia de corrientes similares. Este análisis
permitió establecer cuáles corrientes permanecen dentro de un mismo grupo a
pesar de que se empleen tipologías de variables diferentes.
Adicionalmente, con el objetivo de establecer cuál de las dos tipologías de
variables logró parecerse más a la clasificación efectuada por Ingfocol en 2010,
dentro de este análisis también se incluyó la información de agrupamiento
correspondiente a este proyecto.
Para ello, se llevó a cabo un proceso de comparación grupo por grupo y entre
tipologías, con el fin de identificar cuáles patrones permanecían juntos. En el
Anexo G se presenta el código en Matlab del aplicativo computacional
desarrollado para realizar este análisis, el cual se encuentra comentado para
facilitar su entendimiento, y también se incluyen los resultados correspondientes.
En la Tabla 8.1 se muestra el análisis de invariancia entre las tipologías de
variables No. 5 y 6. Esta tabla indica cuántos patrones (en este caso corrientes)
permanecen dentro de un mismo grupo a pesar de que el análisis de clasificación
se haya hecho con tipologías de variables diferentes. La tabla también muestra a
qué grupos específicamente pertenecen las corrientes familiares o invariantes.
Finalmente, al final de cada fila y columna respectivamente se incluye el número
de patrones que compone cada grupo según la clasificación efectuada para cada
tipología de variables.
86
Tabla 8.1. Matriz de invariancia de corrientes - tipologías de variables No. 5 y 6.
Clusters T6
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
1
1
2
2
1
1
3
2
2
1
4
12 11
6
3
2
4
1
2
2
2
1
5
1
11
1
2
6
1
1
12
1
3
1
2
3
13
14
6
5
16
1
1
17
1
2
18
27
19
22
7
20
1
3
14
1
3
1
3
3
1
59 13 11 18
3
3
2
15
# patr.
7
28
8
9
1
2
7
10
1
6
5
Clusters T5
# patr.
1
2
30
7
7
1
2
6
52
2
5
5
3
1
6
7
2
6
3
5
1
2
7
3
6
1
3
2
6
3
1
1
Es claro que en el caso donde se indica que sólo un patrón es coincidente, no
existe un grupo de corrientes invariante como tal, ya que por lo menos deben ser
dos los patrones o corrientes coincidentes para conformar un grupo. El total de
patrones que permanecen invariantes y que conforman grupos de por lo menos
dos corrientes en la tabla anterior es igual a 154. Teniendo en cuenta que el total
de patrones o corrientes analizadas es 174, es posible concluir que
aproximadamente el 89% de los patrones conforman grupos de corrientes
invariantes en las dos tipologías de variables comparadas.
En la Tabla 8.2 se muestran los patrones que conforman los grupos de corrientes
invariantes de por lo menos dos individuos mostrados en la Tabla 8.1.
87
174
Tabla 8.2. Grupos de corrientes invariantes entre las tipologías de variables No. 5 y 6.
#Cluster T5
#Cluster T6
3
23
5
12
58 107 112 115 117 118
6
2
69
75
78
79
88
92
6
3
4
5
23
70
87
96 126 127 128 130 134
6
6
76
89
90
6
7
91 129
7
9
109 110
8
9
56
68 113 120
8
16
46
47
9
6
25
42
12
5
67 108
13
20
27
28
35
14
1
72
73
74
81 124 131 132
PATRONES INVARIANTES
119 122
83
93
95 101 102 103 104
84 135
14
4
3
14
14
22 136 145
15
5
17
4
7
77
18
1
31
36
18
13
34 153
19
1
17
30
19
4
2
15
16
43
66 148 149
19
10
9
13
14
19
37
19
17
10
18
21
29
39 133 150
19
21
32
33
19
22
40
45 138 139 140 141
20
4
1
6
20
18
8
11
111 114
41
44
51
52
53
54
55
62
64 116 152 155 159 160 161 162 163 164 165 166 167 168 169 173 174
48
49
59
60
61
63
65
86
94
38
50
26
88
98 106 137 143 146 147 151 156 157 158 170
8.1.1. Tipología de variables óptima frente a clasificación Ingfocol 2010
Como ya se anticipó, se realizó el mismo análisis de invariancia pero en esta
ocasión se hizo entre las tipologías de variables No. 5 y 6 con respecto a la
clasificación de corrientes efectuada por Ingfocol en 2010. Esto con el objetivo de
identificar cuál de las tipologías analizadas es la más parecida a la clasificación
efectuada por Ingfocol en 2010, que en este caso se considera la clasificación de
referencia de la cuenca Magdalena-Cauca dentro de ELOHA, pues tuvo la
orientación y aprobación de expertos de la cuenca.
En la Tabla 8.3 se muestra la matriz de invariancia de corrientes entre la
clasificación realizada por Ingfocol en 2010 y la tipología de variables No. 5.
Tabla 8.3. Matriz de invariancia de corrientes - clasificación Ingfocol 2010 y tipología No 5.
Clusters T5
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20
1
7
7
2
5
5
3
16
4
2
2
2
18
5
5
6
3
2
2
5
4
8
1
9
1
2
1
2
10
1
11
1
1
1
15
5
3
7
3
4
1
5
2
4
5
1
12
1
2
7
1
8
2
5
13
6
6
14
4
4
15
3
3
9
26
16
17
17
3
18
6
2
8
19
1
5
6
20
2
21
1
22
2
1
1
1
3
2
6
23
2
1
2
1
4
# patr.
Clusters Ingfocol 2010
# patr.
2
1
2
1
7
2
28
3
1
3
2
1
2
7
1
1
9
1
5
3
1
89
2
3
14
3
15
3
3
30 52
6
174
Los patrones o corrientes invariantes que corresponden a los grupos de más de 2
individuos mostrados en la matriz de la Tabla 8.3, se muestran a continuación en
la Tabla 8.4.
Tabla 8.4. Grupos de corrientes invariantes entre la clasificación Ingfocol 2010 y la tipología No. 5.
#Cluster Ingfocol
#Cluster T5
1
2
3
4
4
5
5
5
5
6
6
7
7
8
9
10
10
11
12
13
14
15
16
16
17
18
18
19
20
21
21
22
22
23
23
23
23
6
6
9
6
9
14
16
17
19
14
19
19
20
19
14
14
19
19
20
19
19
19
18
19
18
18
19
19
18
8
13
5
12
1
3
5
8
PATRONES INVARIANTES
4
126
24
69
42
73
80
77
94
124
49
10
8
48
22
72
43
40
1
17
15
9
31
14
163
159
157
13
152
46
27
58
67
123
119
107
68
5
127
25
70
97
81
100
144
137
131
147
86
11
65
74
145
45
138
6
18
29
21
36
16
165
160
158
32
153
47
28
117
108
172
122
112
113
23 78 79 96 128
129 130 134
75 76 87 88 89 90 91 92 93 95 101 102 103 104
83 84 135
143 146 148
132
141 149
26
170
139 140 142
19
38
39
41
30
168
161
59 60 61
150
44 51 52 53 54 55 62 64 105 155 167 169 173 174
63 66 98 106 151 156
162 164 166
33 37 50
35
115 118
120
90
Así mismo, en la Tabla 8.5 y la Tabla 8.6 se muestran los resultados
correspondientes al análisis de invariancia entre la clasificación efectuada por
Ingfocol en 2010 y la tipología de variables No. 6, que concretamente hacen
referencia a la matriz de invariancia y al grupo de corrientes invariantes.
Tabla 8.5. Matriz de invariancia de corrientes - clasificación Ingfocol 2010 y tipología No 6.
Clusters T6
1
1
2
3
2
5
4
5
3
11
4
7
8
9
10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
2
5
11
4
6
2
3
7
1
2
8
4
9
1
10
1
1
5
1
1
2
4
1
18
15
5
1
13
2
1
7
4
1
2
1
1
5
1
1
11
2
1
1
4
4
8
5
12
5
4
1
14
15
16 22
# patr.
7
4
2
2
1
1
1
6
1
2
4
1
2
3
1
26
17
3
3
18
8
8
3
19
20
1
1
22
2
2
1
1
23
59 13 11 18
6
1
21
# patr.
Clusters Ingfocol 2010
6
4
2
2
1
4
4
5
5
3
1
6
7
2
6
91
2
3
1
7
9
1
3
5
1
1
2
7
3
1
3
3
2
6
3
1
1
15
1
174
Tabla 8.6. Grupos de corrientes invariantes entre la clasificación Ingfocol 2010 y la tipología No. 6.
#Cluster Ingfocol
#Cluster T6
1
1
2
4
4
4
5
5
6
6
7
7
8
9
11
11
12
13
14
15
16
16
17
18
19
19
21
21
22
22
22
23
23
23
2
3
3
2
3
6
1
4
1
4
4
18
1
14
14
22
4
1
17
17
1
4
1
1
10
21
16
20
5
9
12
9
12
23
PATRONES INVARIANTES
78
4
126
69
70
42
73
77
49
124
26
8
48
22
99
40
1
17
29
21
30
16
163
157
13
32
46
27
67
56
58
68
107
119
79
5
127
75
87
76
80
81
147
131
149
11
65
71
136
138
2
59
150
39
31
66
165
158
37
33
47
28
108
110
117
109
112
121
23 96 128
130 134
88 92 93 95 97 101 102 103 104
89 90
83 84 85 94 135 137 143 144 146
100 148
132
82 170
139 140
3 6 7
60 61
36 41 44 51 52 53 54 55 62 63 64 98 106 151 155 156 167 169 173 174
168
159 160 161 162 164 166
50
35
111 154
113 120
115 118
122
El número de corrientes que permanecen invariantes con respecto a la
clasificación efectuada por Ingfocol en 2010 correspondientes a la tipología de
variables No. 5 es 151, mientras que el número de patrones o corrientes
invariantes correspondientes a la tipología de variables No. 6 es 141. Lo anterior
indica que el 87 y el 81% de los patrones respectivamente hacen parte de los
grupos de corrientes invariantes en cada caso. En consecuencia, la tipología que
más se asemeja a la clasificación realizada por Ingfocol en 2010 es la tipología de
variables No. 5.
Los porcentajes de corrientes invariantes obtenidos en las dos tipologías son altos,
sin embargo, esto no quiere decir que el método de Kohonen haya acertado en las
mismas magnitudes con respecto a la clasificación realizada por Ingfocol en 2010.
92
Lo que quiere decir es que independientemente de si son la totalidad del grupo o
no, hay conjuntos de corrientes de por lo menos dos individuos que coinciden con
alguna fracción de los grupos obtenidos por Ingfocol. De hecho, en ningún caso un
grupo obtenido en la clasificación de las tipologías No. 5 y 6 coincidió exactamente
con algún grupo obtenido por Ingfocol.
Nótese como existen varios casos en los cuales todos los patrones de un grupo de
corrientes de alguna tipología hacen parte del porcentaje de corrientes invariantes
pero éstos corresponden a varios grupos obtenidos por Ingfocol. Por ejemplo,
todos los patrones del grupo No. 2 de la tipología de variables No. 6 hacen parte
del 81% de corrientes que son invariantes, sin embargo, estos patrones hacen
parte de los grupos No. 1 y 4 obtenidos por Ingfocol. Esto indica que a pesar de
que el método de Kohonen es una herramienta poderosa para la clasificación de
corrientes, es necesario en algunos casos subdividir los grupos obtenidos y hacer
combinaciones entre ellos para obtener una clasificación de corrientes óptima para
el análisis de la cuenca Magdalena-Cauca en el marco de ELOHA. Asimismo esto
probablemente puede indicar que en el proceso de identificación de los grupos en
el mapa U-Matrix, deben tenerse en cuenta líneas de división más tenues para
asignar los grupos de neuronas.
Gran cantidad de números en las columnas de las matrices de invariancia
mostradas en la Tabla 8.3 y la Tabla 8.5, indican la posibilidad de subdividir ese
grupo en varios subgrupos para asemejarse con mayor efectividad a los grupos
obtenidos por Ingfocol en 2010. En cambio, gran cantidad de números en las filas
de esas matrices indican la dificultad que tiene el método de Kohonen para
clasificar las corrientes de la cuenca Magdalena-Cauce dentro del marco de
ELOHA.
Si se enumeran los grupos de corrientes de las tipologías No. 5 y 6 donde
predominan los valores iguales a uno en la Tabla 8.3 y en la Tabla 8.5
respectivamente, es decir los grupos de corrientes que reflejan
predominantemente invariancia nula, se obtienen los grupos que se muestran en
la Tabla 8.7.
Tabla 8.7. Grupos de corrientes de invariancia nula para las tipologías de variables No. 5 y 6 con
respecto a la clasificación realizada por Ingfocol en 2010.
Grupos de corrientes con invariancia nula
Tipología No. 5 2, 4, 7, 10, 11 y 15
Tipología No. 6 7, 8, 10, 11, 13, 15, 17, 19, 24, 25
Contrastando estos grupos de corrientes de estas dos tipologías con los 6 grandes
grupos de corrientes que obtuvo Ingfocol en 2010 (Figura 3.5), es posible observar
que en la Tipología No. 5 los grupos de corrientes con invariancia nula
corresponden a corrientes de las familias Planicie de Inundación, Baja Montaña o
93
Parte Baja y Media Montaña. En cambio, los grupos de corrientes de la Tipología
No. 6 con invariancia nula pertenecen a todas las grandes familias menos el grupo
Páramo (es decir las familias Alta Montaña, Media Montaña, Piedemonte, Baja
Montaña y Planicie de Inundación).
Lo anterior ratifica que la clasificación realizada mediante el método de Kohonen a
la Tipología No. 5 es la más parecida a la clasificación de referencia desarrollada
por Ingfocol en 2010, pues únicamente involucra tres grandes familias con
presencia de grupos de invariancia nula, mientras que la Tipología No. 6 involucra
5 de las 6 grandes familias. Esto a su vez indica que dentro del marco de
referencia ELOHA, la clasificación de corrientes en la cuenca Magdalena-Cauca
se hace más difícil a medida que se analizan corrientes que se ubican en las
zonas bajas de la cuenca, especialmente las que pertenecen a las familias de
Planicie de Inundación y Baja Montaña o Parte Baja.
De otro lado, si se separan los grupos de corrientes que en la Tabla 8.3 y en la
Tabla 8.5 presentan valores iguales a uno, pero que corresponden esta vez a la
clasificación de cuencas realizada por Ingfocol en 2010, y adicionalmente se
toman los que son comunes a las dos tipologías de variables analizadas, se
encuentran los grupos 9, 11, 19, 21, 22 y 23 de la clasificación realizada por
Ingfocol. Estos grupos de corrientes hacen parte de las familias Planicie de
Inundación, Baja Montaña y Media Montaña. Esto resalta aún más el hecho de
que la clasificación de corrientes en la cuenca Magdalena-Cauca enfocada a
ELOHA se hace más difícil para las familias de corrientes ubicadas en la parte
baja y media de la cuenca.
8.2. COMPARACIÓN DE KOHONEN CON OTRO MÉTODO DE
CLASIFICACIÓN
Teniendo en cuenta que la tipología de variables No. 5 fue la que más se asemejó
a la clasificación obtenida por Ingfocol en 2010, a continuación se comparan los
resultados obtenidos mediante Kohonen con los resultados obtenidos mediante
otro método de clasificación para la misma tipología de variables.
El método de Clustering Difuso basado a su vez en el método de K-means, se
escogió como método de comparación frente al método de Kohonen. Para este
método es necesario asignar como parámetro de entrada el radio de vecindad de
los grupos. En este sentido se realizaron 10 ensayos con diferentes radios de
vecindad que variaron entre 0.1 y 1 (este rango contempla la estandarización
previa de los patrones entre 0 y 1 igualmente para llevar a cabo el método de
Clustering Difuso).
94
En la Tabla 8.8 se muestra el número de grupos obtenido en los 10 ensayos de
clasificación mediante el método de Clustering Difuso, el número de grupos
obtenido mediante el método de Kohonen para la tipología de variables No. 5 y el
número de grupos de referencia obtenido por Ingfocol en 2010.
Clustering Difuso
Tabla 8.8. Número de grupos para comparación de métodos de clasificación.
RADIO
Número de grupos
0.1
8
0.2
4
0.3
3
0.4
2
0.5
2
0.6
2
0.7
2
0.8
2
0.9
1
1
1
Tipología no. 5
20
Ingfocol
23
En los ensayos de clasificación realizados mediante el método de Clustering
Difuso se obtuvieron números de grupos muy inferiores al número de grupos de
referencia obtenido por Ingfocol en 2010 (23 grupos), lo cual quiere decir que el
método de kohonen empleado para la tipología de variables No. 5 resulta ser más
acertado que todos los ensayos realizados mediante Clustering Difuso, pues en
ese caso se obtuvo un valor muy cercano al número de grupos de referencia (20
grupos) y adicionalmente, como se describió en la sección anterior, el 87% de los
patrones conformaron grupos invariantes de corrientes frente a la clasificación
realizada por Ingfocol en 2010.
En el Anexo H se presentan las clasificaciones obtenidas para cada uno de los
ensayos realizados con el método del Clustering Difuso y adicionalmente, a
manera de referencia, también se presenta la clasificación obtenida mediante el
método de Kohonen para la tipología de variables No. 5 y la clasificación obtenida
por Ingfocol en 2010. En este anexo también se incluye el código en Matlab
desarrollado para realizar la clasificación de información mediante el método de
Clustering Difuso. Vale mencionar que este aplicativo lee los patrones de un
archivo de Excel y además incluye la función de Clustering Difuso desarrollada por
el Ing. Felipe Ardila.
95
8.3. VARIABLES IMPORTANTES DENTRO DEL PROCESO DE
CLASIFICACIÓN
Para determinar las variables más influyentes en el proceso de clasificación de
corrientes de la cuenca Magdalena-Cauca, se implementó la técnica de árboles de
decisión para las dos tipologías de variables que resultaron del análisis del
capítulo anterior. Este proceso se llevó a cabo con ayuda del software para
minería de datos WEKA, que incluye un paquete completo con diferentes
algoritmos para la implementación de la técnica de árboles de decisión.
En la Figura 8.1 y la Figura 8.2 se muestran los árboles obtenidos para las
tipologías de variables No. 5 y 6 respectivamente.
96
Figura 8.1. Árbol de decisión para la determinación de variables importantes en el proceso de clasificación correspondiente a la tipología No. 5.
97
Figura 8.2. Árbol de decisión para la determinación de variables importantes en el proceso de clasificación correspondiente a la tipología No. 6.
98
En la Figura 8.1 se puede observar que la variable más relevante en el proceso de
clasificación efectuado con el método de Kohonen para la tipología de variables
No. 5, es la Elevación de la estación. Esto resulta consistente con el proceso de
clasificación que llevó a cabo Ingfocol en 2010. En el siguiente nivel se encuentran
las variables del caudal medio de los meses de Octubre y Enero. En el tercer nivel
de importancia se encuentran las variables de caudal medio de Febrero y otra vez
la de caudal medio de Octubre y la Elevación de la estación. En los niveles de
importancia inferiores se vuelven a repetir las variables de Elevación de la
estación y el caudal medio de Octubre, no obstante, en el nivel de importancia 4
se incluyen las variables del caudal medio de los meses de Diciembre y Junio.
Nótese como las variables del caudal de los meses de Marzo, Abril, Mayo, Julio,
Agosto, Septiembre y Noviembre al parecer no son relevantes en el proceso de
clasificación.
La variable más importante dentro del proceso de clasificación de la tipología No.
5 es la Elevación de la estación, lo cual, teniendo en cuenta que esta tipología es
la más acertada en relación a la clasificación de referencia, es consistente con la
variable más importante obtenida por Ingfocol en su momento.
En la Figura 8.2 se observa que la variable más importante en el proceso de
clasificación de la tipología de variables No. 6 es el Cuatrimestre en el cual se
presenta el pico más alto del hidrograma, seguida de la Elevación de la estación y
posteriormente en el nivel de relevancia 4 la magnitud del flujo más alto. En los
últimos niveles de importancia (niveles 5 y 6) se ubica la magnitud del caudal más
bajo del hidrograma. Nótese como el caudal medio no tiene importancia dentro del
proceso de clasificación.
Es claro que las variables extremas que representan los hidrogramas de cada
corriente junto con la elevación de la estación, son las variables que determinan la
clasificación de corrientes para esta tipología de variables. Nótese como la
variable Elevación de la estación también en esta tipología es determinante para el
proceso de clasificación a pesar de que la clasificación de corrientes más parecida
a la de referencia sea la tipología de variables No. 5.
Adicionalmente, este análisis de variables importantes pudo complementarse con
el análisis de los mapas de variables de entrada que proporcionó el Método de
Kohonen en el caso de las tipologías No. 5 y 6, los cuales se muestran en la
Figura 8.3 y la Figura 8.4 respectivamente.
99
Figura 8.3. Mapa de variables de entrada del Método de Kohonen para la Tipología No. 5.
100
Figura 8.4. Mapa de variables de entrada del Método de Kohonen para la Tipología No. 6.
101
En la Figura 8.3, las variables (Inputs) corresponden en su orden a los 12
caudales medios mensuales desde Octubre a Septiembre y a la Elevación de la
estación respectivamente, mientras que en la Figura 8.4 las variables en su orden
corresponden al Cuatrimestre donde se presenta el flujo más alto, el Caudal medio
extremadamente bajo, el Caudal medio para grandes inundaciones, el Caudal
medio de la serie y la Elevación de la estación respectivamente.
Los mapas mostrados en estas dos figuras representan la variabilidad de
magnitud que poseen los pesos de las neuronas, los cuales a su vez
corresponden con la variabilidad de magnitud de las variables de entrada
introducidas al modelo de Kohonen.
Si se comparan las formas obtenidas en estos mapas con las formas obtenidas en
los mapas de distancias entre neuronas respectivos, es posible diferenciar las
variables que más influyen en la conformación de los grupos definitivos, ya que los
mapas de distancias entre neuronas resultan de superponer todos los mapas de
variables de entrada.
En el caso de la Tipología No. 5, es claro que el mapa de variables de entrada
(Figura 8.3) con mayor influencia en el mapa de distancias que se muestra en la
Figura 7.16, es el mapa de la variable No. 13, es decir el mapa correspondiente a
la Elevación de la estación, lo cual es concordante con los resultados obtenidos
mediante la técnica de árboles de decisión (Figura 8.1).
Del mismo modo, en el caso de la Tipología No. 6, los mapas que más influencia
tienen en el mapa de distancias que se muestra en la Figura 7.17 (400 neuronas)
son los mapas de las variables No. 1 y 5 que corresponden a los mapas del
Cuatrimestre donde se presenta el flujo más alto y de la Elevación de la estación,
lo cual ratifica el análisis de variables importantes mostrado en la Figura 8.2.
102
9. COMENTARIOS FINALES, CONCLUSIONES Y
RECOMENDACIONES
Si bien el método de los mapas autorganizados de Kohonen es una herramienta
potente para clasificar información de cualquier tipo y sobre todo para visualizar
los resultados correspondientes, en el caso específico de la clasificación de
corrientes en la cuenca Magdalena-Cauca enmarcada dentro de ELOHA, el
proceso de agrupamiento con este método también debe ser guiado y validado por
conocimiento experto al igual que con otros métodos de clasificación. De acuerdo
con las tipologías de variables ensayadas, este método por sí solo no reproduce
100% la clasificación de referencia desarrollada por Ingfocol en 2010, aunque sí
obtuvo un nivel invariancia de corrientes alto para las dos tipologías relacionadas
con el hidrograma promedio de cada corriente (tipologías de variables No. 5 y 6).
Vale mencionar que en la clasificación de corrientes de referencia desarrollada por
Ingfocol, se emplearon varios métodos de clasificación en repetidas ocasiones
incluyendo métodos manuales de clasificación, en cambio, el alto grado de
invariancia de corrientes familiares obtenido mediante el método de Kohonen para
las tipologías No. 5 y 6 se obtuvo con un solo ensayo en cada caso.
A pesar del cambio en el número de neuronas del modelo de red para una misma
tipología de variables, la estructura topológica de la información se conserva.
Entre mayor sea el número de neuronas del modelo, los grupos que inicialmente
se diferenciaban con modelos de menos neuronas se van dividiendo en subgrupos
de información que van siendo cada vez más evidentes. No obstante, un número
muy grande de neuronas en un modelo determinado puede hacer que éste se
sobre-entrene, diferenciando claramente los subgrupos pero no los grandes
grupos. La escogencia del número de neuronas del modelo depende, entonces, de
la resolución a la cual se desee analizar la información. Bajo esta premisa es claro
que, a diferencia de los métodos de clasificación normalmente empleados, con el
método de Kohonen es posible obtener el número de grupos que en realidad
subyace a la información analizada en función de la precisión con la que se desee
analizar la información.
De acuerdo a los resultados obtenidos, el proceso de clasificación de corrientes de
la cuenca Magdalena-Cauca enfocada a ELOHA se dificulta a medida que se
analizan corrientes que se ubican en la parte media y baja de la cuenca,
especialmente las que corresponden a las familias de Planicie de Inundación y
Parte Baja o Baja Montaña. La totalidad de las corrientes pertenecientes a la
familia de Páramo en las dos tipologías analizadas siempre conformaron grupos
de corrientes invariantes. Esto indica que el patrón de las corrientes de Páramo al
parecer es más fácil de reconocer que el de las otras familias de la cuenca
Magdalena-Cauca.
103
Dentro del marco de referencia ELOHA, se recomienda previamente realizar un
análisis exhaustivo para determinar cuáles variables se incluyen en el proceso de
clasificación, ya que esto determina el objetivo de agrupamiento de los patrones.
En este sentido el método de Kohonen no difiere sustancialmente de los demás
métodos, sin embargo, este método es el único que permite visualizar siempre en
dos dimensiones la estructura de similitud entre los patrones y además
proporciona el número de grupos que en realidad subyace a la información
presentada.
Teniendo en cuenta que dentro de ELOHA el objetivo fundamental del proceso de
clasificación es obtener familias de corrientes que puedan representarse mediante
un hidrograma característico, se recomienda utilizar variables para el proceso de
clasificación que precisamente representen los hidrogramas de cada corriente.
Esto puedo evidenciarse con el número de grupos obtenido en cada una de las
tipologías de variables analizadas, pues las tipologías con las cuales se trató de
resumir el hidrograma de cada corriente arrojaron un número de grupos similar al
número de grupos de referencia, en cambio, las tipologías con gran cantidad de
variables que no se relacionan directamente con el hidrograma característico de
cada corriente, arrojaron siempre un número de grupos muy superior a 23 que era
el número de grupos de referencia. Incluir gran cantidad de variables agrega ruido
al proceso de clasificación orientado a ELOHA y a pesar de que con el método de
Kohonen se logran identificar grupos claramente, este agrupamiento se sale del
objetivo de clasificación de ELOHA.
Los mapas pertenecientes a tipologías con gran cantidad de variables donde se
pudieron visualizar claramente los grupos (mapas con gran cantidad de neuronas)
sugieren que existe una proporcionalidad entre el número de variables y el número
de neuronas del modelo. Entre más variables tengan los patrones más neuronas
deben involucrarse en el modelo para poder diferenciar claramente los grupos.
Dentro de las tipologías de variables analizadas con respecto a la clasificación de
referencia, la tipología No. 5 (que incluye los caudales medios mensuales de cada
uno de los 12 meses y la elevación de la estación) obtuvo un porcentaje de
invariancia de grupos de corrientes familiares de 87%, lo cual indica que
inicialmente esta tipología proporciona una buena idea de la clasificación óptima
de corrientes de la cuenca Magdalena-Cauca dentro de ELOHA. La otra tipología
relacionada con el hidrograma de cada corriente (tipología de variables No. 6)
obtuvo un porcentaje de invariancia de 81%, lo cual sugiere que también puede
emplearse como una primera aproximación de la clasificación de corrientes dentro
de ELOHA para la cuenca Magdalena-Cauca, sobre todo teniendo en cuenta que
posee únicamente 5 variables. El porcentaje de corrientes invariantes entre las
dos tipologías analizadas fue de 89%, lo cual sugiere que existe una gran similitud
en la clasificación efectuada para las dos tipologías de variables.
104
De acuerdo con las clasificaciones obtenidas en las tipologías de variables No. 5 y
6, la elevación de la estación y el cuatrimestre en el que se presenta el pico más
alto fueron las variables más importantes de clasificación en los dos procesos
respectivamente. Esto es consistente con el análisis de variables importantes
realizado por Ingfocol en 2010 donde se incluyeron estas dos variables entre otras
24 más y donde claramente quedó estipulado que la variable más importante para
la clasificación de corrientes en la cuenca Magdalena-Cauca dentro de ELOHA es
la elevación de la estación. Lo anterior sugiere que la altura sobre el nivel del mar
a la que se analice una corriente en Colombia es un aspecto esencial para poder
clasificarla y a su vez asignarle un régimen de caudales ambientales dentro del
marco de referencia ELOHA.
Teniendo en cuenta que como criterio de efectividad para la clasificación de
corrientes en la cuenca Magdalena-Cauca dentro de ELOHA se empleó el número
de grupos obtenido en cada caso, pues este es el primer indicativo de que la
clasificación es aproximadamente similar a la clasificación de corrientes de
referencia obtenida por Ingfocol en 2010 (23 grupos), se encontró que el método
de Kohonen obtuvo mejores resultados que el método de Clustering Difuso, pues
mientras en el primero se obtuvieron 20 grupos, en todos los ensayos realizados
con el segundo método se obtuvieron a lo sumo 8 grupos.
El concepto del clúster topológico no dio buenos resultados dentro de esta
investigación porque por un lado las coordenadas de las neuronas ganadoras del
mapa hits no son suficientes para hacer la clasificación, ya que puede darse el
caso de que dos neuronas a pesar de ser consecutivas pertenezcan a diferentes
grupos, y por otro lado, el método empleado para este fin únicamente abarca
vecindades con forma circular y los grupos que se observaron en los mapas de
Kohonen que finalmente se compararon con la clasificación de referencia
desarrollada por Ingfocol rara vez tuvieron esta forma.
En este sentido se recomienda ensayar con métodos de clasificación diferentes
(incluyendo otra vez al método de Kohonen) e involucrar más variables como por
ejemplo la distancia euclidiana entre neuronas consecutivas. Los mapas con
muchas neuronas tienden a agrupar la información de forma circular como se
pudo evidenciar en las primeras cuatro tipologías de variables, por lo tanto, se
recomienda emplear el clúster topológico propuesto en esta investigación a esos
mapas si es que se quiere analizar la información a esa resolución (en esos casos
se obtuvieron muchos más grupos que los 23 grupos de referencia).
El análisis de importancia de variables realizado en esta investigación sugiere que
comparando los mapas de variables de entrada con los mapas de distancias entre
neuronas es posible determinar las variables relevantes dentro del proceso de
clasificación únicamente empleando el método de Kohonen.
105
La Geodatabase empleada en esta investigación es exactamente igual a la que
empleó Ingfocol en 2010. Esta Geodatabase no incluye variables de tipo social ni
ecológico directamente, sin embargo, gran cantidad de las variables incluidas en
ella tienen una relevancia ecológica significativa como por ejemplo las 34 variables
obtenidas por el programa IHA que se enfocan específicamente a los
componentes del caudal ecológico (variables tipo EFC).
Si bien el marco de referencia ELOHA recomienda realizar inicialmente un proceso
de clasificación con variables hidrológicas seguido de una subclasificación con
variables geomorfológicas, se recomienda incluir dentro del análisis de
agrupamiento variables de tipo social y particularmente de tipo ecológico con el fin
de establecer si con estas variables adicionales el proceso de clasificación es más
eficaz dentro del marco de referencia ELOHA. Adicionalmente, incluir este tipo de
variables permitiría establecer el grado de relevancia ecológica que tienen
asociadas las diferentes clasificaciones de corrientes que se efectuaron en esta
investigación.
106
10.
REFERENCIAS BIBLIOGRÁFICAS
Arthington A. H., Bunn S. E., Poff N. L. y Naiman R. J, 2006. The challenge of
providing environmental flow rules to sustain river ecosystems. Ecological
Applications, 16, 1311–1318.
Bovee K.D. y Milhous R., 1978. Hydraulic simulation in instream flow studies:
theory and techniques. Instream Flow Information Paper 5. FWS/OBS-78/33.
Cooperative Instream Flow Service Group. Fort Collins, Colorado.
Burn D. H., 1989. Cluster analysis as applied to regional flood frequency. Journal
of Water Resources Planning and Management 115: 567–582.
Chiu, Stephen L., 1994. Fuzzy Model Identification Based on Cluster Estimation.
Journal of Intelligent and Fuzzy Systems, Vol. 2, 267-278.
De Moya, M. E., 2003. Representación y clasificación de datos geoespaciales:
comparación entre mapas autoorganizativos de Kohonen y el método Gas
Neuronal. Revista Ingeniería e Investigación No. 53.
Diez J. M., 2008. Memorias del Curso-Taller “Modelamiento Ecohidráulico de
Caudales Ecológicos”. Dictado dentro de la materia Ecohidrología y Ecohidráulica
de la Maestría en Hidrosistemas de la Pontificia Universidad Javeriana.
Fernández, M., 2006. Mapas auto-organizables (SOM). Presentación para curso
de doctoramiento, Modelos básicos de redes neuronales artificiales. Programa de
Doctoramiento Interuniversitario en Neurociencia. Universidad de Santiago de
Compostela, España.
http://www.gsi.dec.usc.es/~delgado/cfc/som/6_som.pdf
Gaitán, C. F., 2009. Vigilancia Tecnológica Científica de Ciclos Biogeoquímicos.
Journal of Technology Management & Innovation, Volume 4, Issue 2. Universidad
Alberto Hurtado, Facultad de Economía y Negocios.
Guttman N. B., 1993. The use of L-moments in the determination of regional
precipitation climates. Journal of Climate 6: 2309–2325.
Guttman N. B., Hosking J. R. M. y Wallis J. R., 1993. Regional precipitation
quantile values for the continental US computed from L-moments. Journal of
Climate 6: 2326–2340.
Hall, Mark; Frank, Eibe; Holmes, Geoffrey; Pfahringer, Bernhard; Reutemann,
Peter and Witten, Ian H, 2009. The WEKA Data Mining Software: An Update.
107
Department of Computer Science, University of Waikato. SIGKDD Explorations 11,
no. 1: 10-18.
http://www.kdd.org/explorations/issues/11-1-2009-07/p2V11n1.pdf
Hopgood, A., 2000. Intelligent Systems for Engineers and Scientists. CRC Press.
London.
IDEAM, 2009. Instituto de Hidrología, Meteorología y Estudios Ambientales.
Catálogo Nacional de Estaciones, versión 2009-12-28.
Ingfocol, 2010. Informe Final de Consultoría: Implementación de la metodología
ELOHA (Límites ecológicos de la alteración hidrológica) para la determinación de
caudales ambientales regionales en la cuenca Magdalena-Cauca. Convenio entre
The Nature Conservacy (TNC) y el Ministerio de Ambiente, Vivienda y Desarrollo
Territorial (MAVDT).
Kennard M. J., Pusey B. J., Olden J. D., Mackay S. J. Stein J. L. y Marsh N.,
2010. Classification of natural flow regimes in Australia to support environmental
flow management. Freshwater Biology No. 55: 171-193.
Lecce S. A., 2000. Spatial variations in the timing of annual floods in the
southeastern United States. Journal of Hydrology 235: 151–169.
Lin G-F. y Chen L-H., 2006. Identification of homogeneous regions for regional
frequency analysis using the self-organizing map. Journal of Hydrology 324: 1-9.
Mangiameli P., Chen S. K. y West D., 1996. A comparison of SOM neural
network and hierarchical clustering methods. European Journal of Operational
Research 93: 402–417.
MathWorks Inc., 2002. Neural Netoworks Toolbox, User’s Guide Version 4 for use
with Matlab.
MAVDT, 2010. Ministerio de Ambiente, Vivienda y Desarrollo Territorial. Proyecto
de Resolución por la cual se establecen los lineamientos y criterios técnicos para
la estimación del caudal ambiental y se toman otras determinaciones.
Poff N. L., Richter B. D., Arthington A. H., Bunn S. E., Naiman R. J., Kendy E.,
Acreman M., Apse C., Bledsoe B.P., Freeman M. C., Henriksen J., Jacobson
R. B., Kennen J. G., Merritt D. M., O’Keeffe J. H., Olden J. D., Rogers K.,
Tharme R. E. y Warner A., 2010. The ecological limits of hydrologic alteration
(ELOHA): a new framework for developing regional environmental flow standards.
Freshwater Biology No. 55: 147-170.
108
Smithers J. C. y Schulze R. E., 2001. A methodology for the estimation of short
duration design storms in South Africa using a regional approach based on Lmoments. Journal of Hydrology 241: 42–52.
TNC, 2009. The Nature Conservancy. Hacia la Conservación y Desarrollo
Sostenible del Río Magdalena, Resultados del Trabajo del Acuerdo entre
Cormagdalena y The Nature Conservancy entre 2008 y 2009. Portafolio de áreas
prioritarias para la conservación en ecosistemas de agua dulce.
TNC, 2011. The Nature Conservancy. Manual de usuario de Indicadores de
Alteración Hidrológica – IHA, versión 7.1.
UNESCO, 2007. Organización de las Naciones Unidas para la Educación, la
Ciencia y Cultura. Ecohydrology: An Interdisciplinary Approach for the Sustainable
Management of Water Resources. Impreso en Francia.
http://unesdoc.unesco.org/images/0015/001529/152987e.pdf
Wagener, Thorsten; Sivapalan, Murugesu y McGlynn, Brian, 2008. Catchment
Classification and Services – Toward a New Paradigm for Catchment Hydrology
Driven by Societal Needs. Encyclopedia of Hydrological Sciences. Edited by M. G.
Anderson.
109
11.
ANEXOS
Nota: los anexos se incluyen como archivos magnéticos en el disco compacto
adjunto
110