Download estado del arte en la utilización de tecnicas avanzadas para la
Document related concepts
no text concepts found
Transcript
ESTADO DEL ARTE EN LA UTILIZACIÓN DE TECNICAS AVANZADAS PARA LA BUSQUEDA DE INFORMACIÓN NO TRIVIAL A PARTIR DE DATOS EN LOS SISTEMAS DE ABASTECIMIENTO DE AGUA POTABLE José Luis Díaz Arévalo1; Rafael Pérez García1 Resumen – La aplicabilidad de técnicas heurísticas combinadas con lo que genéricamente se ha denominado minería de datos, es un tema de investigación que puede proporcionar una gran utilidad en la búsqueda de patrones no triviales a partir de los datos disponibles en el planeamiento, operación y gestión de las redes de abastecimiento de agua. Es importante tener en cuenta que en gran porcentaje el éxito en la aplicabilidad de estas técnicas radica en la información base de la que se disponga, es decir los datos (inputs) de entrada. El tema, pese al gran potencial del que dispone, no ha sido aún muy desarrollado para aplicaciones de abastecimiento de agua potable, aunque en campos de finanzas, comunicaciones, negocios y páginas web se está aplicando desde hace algunos años. Abstract – The applicability of combined heuristic techniques with which generically data mining has been denominated, is an investigation subject that can provide a great utility in the search of patterns non-trivial from the data available in the planning, operation and management of the networks of water supply. It is important to consider that in great percentage the success in the applicability of these techniques is in the information bases which it is had, is to say the data (inputs) of entrance. The subject, in spite of the great potential which it has, has not been still very developed for applications of potable water supply, although in fields of finances, communications, businesses, pages Web it has been applied for some years. Palabras – clave: Minería de datos, extracción de patrones, aplicaciones, sistemas de abastecimiento de agua. 1 Universidad Politécnica de Valencia – Departamento de Ingeniería Hidráulica y Medio Ambiente – Grupo Mecánica de Fluidos – Camino de Vera S/N – CP 46022 – Valencia (España) – Tel: 34 96 3877611 – Fax: 34 96 3877619 E-mail: jodiaar@doctor.upv.es ; rperez@gmf.upv.es INTRODUCCIÓN La velocidad con la que se almacenan los datos es muy superior a la velocidad con la que estos son analizados. En las últimas décadas se ha presentado una gran explosión de cantidad de datos digitales, mientras que el número de científicos, ingenieros y analistas disponibles para analizar estos datos ha permanecido estático. Para obviar este problema se necesitan soluciones de investigación tendientes a minar grandes y masivas bases de datos, desarrollar algoritmos y sistemas para minar nuevos tipos de datos y mejorar la utilización de los sistemas de minería de datos. El estudio y aplicación de técnicas avanzadas para el análisis de información almacenada en bases de datos es un tema de investigación en el que ya se han involucrado mucha especialidades, pero que sus aplicaciones en ingeniería civil y más específicamente en los sistemas de abastecimiento de agua potable aún no han sido lo suficientemente explotados, y es una herramienta que nos puede servir o ser de gran ayuda para resolver problemas de planificación, gestión y operación de sistemas de abastecimiento de agua potable. Existen muchas formas de almacenar datos, pero no se archivan convenientemente o su entendimiento es nulo. Con este texto, se pretende mostrar la importancia de realizar investigaciones tendientes a desarrollar algoritmos y aplicaciones para la extracción automática de información de los datos almacenados durante las etapas de construcción y operación de un sistema de conducción de agua potable. Se debe tener en cuenta que es un tema que ha sido muy poco desarrollado para aplicaciones específicas de abastecimientos de agua potable, pero en el cual se nota un gran potencial y una herramienta para la extracción o búsqueda de patrones no triviales a través de los datos disponibles. Es muy importante tener claro que la base de estas investigaciones son los datos, lo cual es un tema que está bastante descuidado en la gestión de los sistemas, aunque últimamente con la aparición de los sistemas de información geográfica, se ha mejorado bastante en mantener una buena calidad y cantidad de datos almacenados, o por lo menos se han iniciado tareas que conducen a la recopilación y almacenamiento de información para ser utilizada por los SIG. Este artículo presenta el concepto de minería de datos e intenta dar una comprensión del proceso y las herramientas utilizadas en general: como resulta el proceso, que se puede realizar con el, cuáles son las principales técnicas detrás de el, cuáles son los aspectos operacionales. Se hace una introducción al estado del arte de la minería de datos en la ingeniería civil y más específicamente a su aplicación en gestión y operación de sistemas de abastecimiento de agua. Además se presenta en la bibliografía algunos artículos que ayudan en la profundización del tema. MINERIA DE DATOS (DATA MINING) DEFINICIONES La minería de datos es un componente de la actividad llamada Descubrimiento de Conocimiento en Bases de Datos (KDD, de sus siglas en inglés), es decir en la minería de datos se aplica un algoritmo para extraer patrones de los datos y el KDD es el proceso completo (Pre-procesamiento, minería, post-procesamiento) Minería de datos es el descubrimiento semi-automático de patrones, asociaciones, cambios, anomalías y estructuras estadísticamente significantes y eventos en los datos, (Grossman, 1998). La minería de datos difiere de la estadística tradicional en cuanto a que en la estadística una hipótesis está formulada y validad en los datos, mientras que en el proceso de minería de datos los patrones se extraen automáticamente de los datos, dicho de otra forma la minería de datos es un manejo de datos mientras que la estadística es un manejo más del hombre. KDD es comúnmente definido como “el proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y entendibles en los datos”.(Ohrn, 1999) KDD involucra investigación de áreas cómo: aprendizaje computacional, reconocimiento de patrones, bases de datos, estadística, inteligencia artificial, adquisición de conocimiento y visualización de datos. Por otro lado está relacionado con métodos de descubrimiento automático (por ejemplo de leyes físicas) y con sistemas de manejo de información (Management Information Systems). Las técnicas de Minería de Datos (Data Mining) pueden proveer una solución para adquirir conocimiento abstracto de bases de datos de infraestructura civil. Las técnicas de minería de datos son solo una parte de un gran esquema. “Descubrimiento de conocimiento en bases de datos (Knowledge Discovery in Databases KDD) es el proceso no trivial de identificar patrones válidos en datos, novedosos, potencialmente útiles y finalmente comprensibles” (Buchheit, 2000). El descubrimiento de conocimiento (Knowledge discovery) ha sido definido como “la extracción no trivial de información implícita, previamente desconocida y potencialmente útil de datos”. (Carbone, 1997). Minería de datos es una denominación folklórica de una actividad compleja que apunta a extraer información sintetizada y previamente desconocida de grandes bases de datos. (Olaru, 1999), dependiendo del puntos de vista la minería de datos es considerada como un paso del proceso llamado Descubrir conocimiento en las bases de datos (KDD), o en otras ocasiones cómo un sinónimo de este. Es un análisis exploratorio de datos, probado para descubrir patrones útiles en los datos que no son obvios para el usuario. Un minero de datos, es la persona, generalmente con conocimiento en computadores y estadística y en la especialidad de interés, o una pareja de especialistas, uno con conocimiento en la minería de datos y otro en la especialidad de interés capaces de ejecutar los pasos del proceso de minería. ANTECEDENTES Y GENERALIDADES El concepto de minería de datos apareció hace más de 10 años. El interés en este campo y su explotación en diferentes especialidades (negocios, finanzas, ingeniería, banca, salud, sistemas de energía, meteorología....), se ha incrementado recientemente debido a la combinación de diferentes factores, los cuales incluyen: El surgimiento de gran cantidad de datos (terabytes – 1012 bytes – de datos) debido a la medición y/o recopilación de datos automática, registros digitales, archivos centralizados de datos y simulaciones de software y hardware. El abaratamiento de los costos de los medios de almacenamiento. El surgimiento y rápido crecimiento del manejo de sistemas de bases de datos. Los avances en la tecnología computacional tal como los computadores rápidos y las arquitecturas paralelas. Los desarrollos continuos en técnicas de aprendizaje automático. La posible presencia de incertidumbre en los datos (ruido, outliers, información perdida). El propósito general de la minería de datos es procesar la información de la gran cantidad de datos almacenados o que se puedan generar, y desarrollar procedimientos para manejar los datos y tomar futuras decisiones. Generalmente, una de las primeras tareas en el proceso de la minería de datos consiste en resumir la información almacenada en la base de datos, con el fin de comprender bien su contenido. Esto se realiza por medio de análisis estadísticos o técnicas de búsqueda y reporte. Las operaciones más complejas consisten en la identificación de modelos para predecir información acerca de objetos futuros. El término aprendizaje supervisado “supervised learning” (conocido como “aprendizaje con profesor”) está implicado en el minado de datos, en el cual para cada entrada (input) de los objetos de aprendizaje, el objetivo de la salida (output) deseada es conocida e implicada en el aprendizaje. En los métodos de aprendizaje sin supervisión “unsupervised learning” (“aprendiendo por observación”) el resultado no es suministrado o considerado del todo, y el método aprende por si solo de los valores de los atributos de entrada. Pasos o procesos de la minería de datos El proceso de minería involucra ajustar modelos o determinar patrones a partir de datos. Este ajuste normalmente es de tipo estadístico, en el sentido que se permite un cierto ruido o error dentro del modelo. En general el proceso de la minería de datos itera a través de cinco pasos básicos, tal como se muestra en la Figura 1: Selección de datos: consiste en buscar el objetivo y las herramientas del proceso de minería, identificando los datos a ser extraídos, buscando los atributos apropiados de entrada y la información de salida para representar la tarea. Las comprobaciones básicas deben incluir el tipo de consistencia, la validez de rangos, etc. Un sistema de minería de datos puede ser utilizado para este propósito, se pueden buscar patrones generales y reglas en las bases de datos que identifiquen valores irregulares que no cumplen las reglas establecidas. Trasformación de datos: las operaciones de transformación incluyen organizar los datos en la forma deseada, convirtiendo un tipo de datos en otro (por ejemplo de simbólico a numérico) definiendo nuevos atributos, reduciendo la dimensionalidad de los datos, removiendo ruidos, “outliers”, normalizando, decidir estrategias para manejar datos perdidos. Minería de datos: los datos trasformados son minados, utilizando una o más técnicas para extraer patrones de interés. Interpretación de resultados y validación: para comprender el significado del conocimiento extraído y su rango de validez, la aplicación de minería de datos prueba su robustez, utilizando métodos de validación establecidos y probándolo con datos diferentes a los utilizados para crear el modelo. Lo que se hace generalmente es dividir los datos en una serie para trabajo y otra para validación. Solo la serie de trabajo es utilizada para evaluar la habilidad del modelo desarrollado. La información extraída es también valorada (más subjetivamente) comparándola con experiencias anteriores. Incorporación del conocimiento descubierto: presentación de los resultados del modelo para poder comprobar o resolver conflictos con creencia o resultados anteriores y aplicar el nuevo modelo. Datos Selección Datos Seleccionados Pre - procesamiento Datos Preprocesados Trasformación Datos Trasformados Minería de datos Modelos Interpretación / Evaluación Conocimiento Figura 1 – Pasos de la minería de datos. Las herramientas de minería de datos buscan dirigirse a dos requerimientos básicos: Descripción: descubriendo patrones, asociaciones y grupos de información. Puede incluir detección de desviaciones, segmentación de bases de datos, agrupamientos, asociaciones, reglas, resúmenes, visualización y minado de textos. Predicción: utilizando aquellos patrones para predecir tendencias y comportamientos futuros. La predicción incorpora tareas de clasificación, regresión y análisis de series temporales. Clases de minería de datos Dependiendo principalmente de la aplicación especifica y en el interés del minero, se pueden identificar algunos tipos de tareas de minería de datos para las cuales se producen posibles respuestas. Algunas de las clases o categorías de minería de datos utilizados para la descripción y/o predicción son las siguientes: Presentación concisa de datos: apunta a producir descripciones compactas y características para un conjunto dado de datos. Pueden tomar múltiples formas: numérica (medidas simples de descripción estadística cómo medias, desviaciones estándar....), formas gráficas (histogramas, dispersiones), o en la forma de reglas “si-entonces”. Se pueden realizar descripciones de la totalidad de los datos o seleccionando subconjuntos. Clasificación: desarrollando perfiles de grupos u objetos en términos de sus atributos. Un problema de clasificación es un aprendizaje supervisado, donde la información de salida es una clasificación discreta, es decir teniendo un objeto y sus atributos de entrada, el resultado de la clasificación es una de los posibles recíprocas clases exclusivas del problema. La tarea de clasificación tiende a descubrir alguna clase de relación entre los atributos de entrada y las clases de salida, tal que el conocimiento descubierto puede ser utilizado para predecir la clase de un nuevo objeto desconocido. Regresión: estableciendo relaciones entre series de objetos con el propósito de predecir. Un problema de regresión es un aprendizaje supervisado de construcción de un modelo más o menos trasparente, donde la información de salida es un valor numérico continuo o un vector de tales valores en vez de una clasificación discreta. Entonces, dando un objeto es posible predecir uno de sus atributos por medio de otros atributos, utilizando el modelo construido. La predicción de valores numéricos se puede realizar por métodos estadísticos clásicos o más avanzados, y por métodos simbólicos a menudo utilizados en las tareas de clasificación. Problemas temporales: es una regresión utilizando adicionalmente la información del tiempo. En ciertas aplicaciones es útil producir reglas que tengan en cuenta explícitamente el papel del tiempo. Las bases de datos que contienen información temporal pueden ser explotadas buscando patrones similares o aprendiendo a anticipar alguna situación anormal en los datos. Agrupamiento: fraccionando clases o ítems que presentan comportamientos o características similares en subconjuntos o grupos. El problema de agrupamiento, es un problema de aprendizaje sin supervisión, en el cual se busca encontrar en los datos grupos de objetos similares compartiendo un número de propiedades importantes. Se puede utilizar en la minería de datos para evaluar similitudes entre datos, construir un conjunto de prototipos representativos, analizar correlaciones entre atributos, o representar automáticamente un conjunto de datos por pequeños números de regiones, preservando las propiedades topológicas del espacio original de entrada. Modelos de causalidad: es un problema de descubrir relaciones de causa y efecto entre atributos. Una regla causal del tipo “si-entonces”, indica no solo que existe una correlación entre la regla antecedente y la consecuente, sino que también la antecedente es causa de la consecuente. Análisis de asociación: reconociendo que la presencia de un grupo de ítems implica la presencia de otro grupo. Descubrimiento de secuencias: reconociendo que un grupo de ítems es seguido por otro grupo. Modelos de dependencia: consiste en descubrir un modelo que describe dependencias significantes entre atributos. Estas dependencias son generalmente expresadas como reglas “si-entonces” en la forma “si el antecedente es verdadero entonces la consecuencia es verdadera”, donde tanto el antecedente como la consecuencia de la regla pueden ser una combinación de atributos. Detección de desviaciones: esta tarea esta enfocada a descubrir cambios significantes o desviaciones en los datos entre el contenido actual y el contenido esperado que puede ser previamente medido o de valores normalizados. Esto incluye la búsqueda de desviaciones en el tiempo y la búsqueda de diferencias inesperadas entre dos subconjuntos de datos. La clasificación, regresión, y series temporales son utilizadas para predicción, mientras que el agrupamiento, la asociación y el descubrimiento de secuencias entre otras son más apropiados para describir relaciones existentes en los datos. Técnicas de minería de datos En general las técnicas de minería de datos se pueden dividir en aquellas que hacen uso de ecuaciones tales cómo la estadística o las redes neuronales o las que se basan en la lógica cómo los árboles de decisión y las reglas, aunque algunas pueden hacer uso tanto de ecuaciones o de la lógica, o pueden ser una combinación de técnicas . Técnicas de minería de datos Basadas en ecuaciones Estadísticas Redes Neuronales Artíficiales Basadas en lógica Árboles de decisión Reglas Figura 2. Técnicas de minería de datos. Las técnicas de minería de datos están basadas en un conjunto de herramientas importantes originadas en inteligencia artificial, la estadística, la teoría de información, el aprendizaje de máquinas, el razonamiento con incertidumbre (conjuntos borrosos), el reconocimiento de patrones o visualización. Así, un paquete de programa de minería de datos esta basado en diferentes niveles por un conjunto de tecnologías, algunas de las técnicas de minería de datos más utilizadas son las siguientes: Árboles de decisión: un árbol de decisión es una estructura en forma de árbol que visualmente describe una serie de reglas (condiciones) que causan que una decisión sea tomada. Algoritmos genéticos: los algoritmos genéticos son técnicas de optimización que pueden ser utilizadas para mejorar otros algoritmos de minería de datos obteniendo como resultado el mejor modelo para una serie de datos. El modelo resultante es aplicado a los datos para descubrir patrones escondidos o para realizar predicciones. Redes Neuronales Artificiales: Estos son modelos de predicción no lineales que aprenden como detectar un patrón para emparejar un perfil particular a través de un proceso de entrenamiento que envuelve aprendizaje iterativo, utilizando un conjunto de datos que describe lo que se quiere encontrar. Las redes neuronales son conocidas en la estructura del aprendizaje automático cómo “aproximaciones universales” con un gran carácter paralelo de calculo y buenas capacidades de generalización, pero también como cajas negras debido a la dificultad para penetrar dentro de las relaciones aprendidas. Son utilizadas en el la minería de datos: para generar modelos de regresión que puedan predecir comportamientos futuros, sobre la base de pares de datos de entrada – salida de información numérica histórica continua (la red neuronal asocia salidas numéricas (outputs) con cualquier nuevo objeto de valores de atributos conocidos), y automáticamente representa un conjunto de datos por un pequeño número de prototipos representativos, preservando las propiedades topológicas del espacio original del atributo (aprendizaje sin supervisión). Técnicas estadísticas: una variedad de técnicas pueden ser utilizadas para identificar patrones, los cuales pueden ser entonces utilizados para predecir el futuro. Estas incluyen las regresiones lineales, los modelos aditivos generalizados (GAM) y las regresiones adaptativas multivariadas por splines. Árboles e Inducción de reglas: la inducción de reglas es el proceso de extraer reglas (si-entonces) de datos, basadas en significados estadísticos. El aprendizaje de máquinas (ML, de sus siglas en inglés), es el centro del concepto de la minería de datos, debido a su capacidad de ganar penetración física dentro del problema, y participar directamente en la selección de datos y en los pasos de búsqueda del modelo. Para dirigir problemas de clasificación (árboles de decisión claros y borrosos), regresión (árboles de regresión), predicción temporal (árboles temporales), el campo del aprendizaje de máquinas, básicamente se centra en el diseño automático de reglas “si-entonces”, similares a aquellas utilizadas por los expertos humanos. La inducción de árboles de decisión es capaz de manejar problemas de gran escala debido a su eficiencia computacional, dar resultados interpretables y en particular identificar los atributos más representativos para una tarea dada. Reglas de asociación: la generación de reglas de asociación es una técnica potente de minería de datos utilizada para buscar en un conjunto de datos, por reglas que revelan la naturaleza y frecuencia de las relaciones o asociaciones entre las entidades de los datos. Las asociaciones resultantes pueden ser utilizadas para filtrar la información por análisis humano y posiblemente definir un modelo de predicción basado en el comportamiento observado. Lógica Borrosa (Fuzzy Logic): la lógica borrosa maneja conceptos imprecisos (como pequeño, grande, joven, viejo, alto, bajo) y es más flexible que otras técnicas. Proporciona la noción de un conjunto borroso más que una clara demarcación de límites, por ejemplo en vez de 0 o 1 hay también 0.9, 0.85, 0.93, 0.21, 0.05 etc. Métodos de agrupamiento: es utilizado en el paso de pre-procesamiento de los datos, debido a la característica de aprender semejanzas sin supervisión entre objetos y reducir el espacio de búsqueda a un conjunto de los atributos más importantes parta la aplicación o a un conjunto finito de objetos. El método más frecuentemente utilizado para agrupar es el k-means el cual identifica un cierto número de grupos u objetos similares el cuál puede ser utilizado conjuntamente con el método de la Vecindad más próxima (K-Nearest Neighbor k-NN), esta técnica coloca un objeto de interés dentro de clases o grupos examinando sus atributos y agrupándolo con otros cuyos atributos son cerrados a el. k-NN es una técnica clásica para descubrir asociaciones y secuencias cuando los atributos de los datos son numéricos. Con atributos no numéricos o variables es difícil aplicar esta técnica por la dificultad de definir una medida que pueda ser utilizada para cuantificar la distancia entre un par de valores no numéricos. Técnicas de visualización: histogramas (estimando la distribución de probabilidad para ciertos atributos numéricos dados en un conjunto de objetos), gráficas de dispersión (proporcionan información sobre la relación entre dos atributos numéricos y unos discreto), gráficas tridimensionales, dendrogramas (análisis de correlación entre atributos u objetos)..... Conjuntos Aproximados (Rough Sets): La teoría de conjuntos aproximados es adecuada para problemas que pueden ser formulados cómo tareas de clasificación y ha ganado un significante interés científico como estructura de minería de datos y KDD (Ohrn, 1999). La base de la teoría de los conjuntos aproximados está en la suposición de que cada objeto del universo de discurso tiene rasgos característicos, los cuales son presentados por información (conocimiento, datos) acerca del objeto. (Pawlak, 2002). Los objetos que tienen las mismas características son indiscernibles. La teoría ofrece herramientas matemáticas para descubrir patrones escondidos en los datos, identifica dependencias parciales o totales, es decir relaciones causa – efecto, en bases de datos, elimina redundancia en los datos, da aproximaciones a valores nulos o inválidos, datos perdidos, datos dinámicos etc. Los pasos seguidos en la estructura de conjuntos aproximados son los siguientes: Selección: el vehículo básico para la representación de datos en la estructura de la teoría de conjuntos aproximados es plano, tablas de datos en dos dimensiones. Esto no implica que la tabla sea una simple tabla física, una tabla puede ser una vista lógica entre algunas tablas adyacentes. Una tabla adecuada es seleccionada para análisis subsecuentes. Las columnas de las tablas son llamadas atributos, las filas objetos, y las entradas en la tabla son los valores de los atributos. Pre-procesamiento: si la tabla seleccionada contiene “huecos” en forma de valores perdidos o entradas de celdas vacías, la tabla puede ser preprocesada de varías formas para llenar o completar la tabla. Transformación: los atributos numéricos pueden ser discretizados, es decir el uso de intervalos o rangos en vez de los valores de los datos exactos. Minería de datos: en la metodología de los conjuntos aproximados, se producen conjunciones de proposiciones elementales o reglas si-entonces. Esto se realiza en un proceso de dos etapas, en el cual subconjuntos de mínimos atributos son primero computados antes de que los patrones o reglas sean generados. Interpretación y evaluación: Los patrones individuales o reglas pueden ser ordenados por alguna medida de “bondad” y manualmente inspeccionados. Conjuntos de reglas pueden ser empleados para clasificar nuevos casos y registrar el desempeño de clasificación. La teoría de los conjuntos borrosos tiene enlaces con métodos de razonamiento buliano, estadística, redes neuronales, morfología matemática, y puede ser utilizada en combinación con otras técnicas cómo conjuntos borrosos, algoritmos genéticos, métodos estadísticos, redes neuronales, etc. Además, algunos paquetes de minería de datos incluyen: descubrimiento de secuencias de patrones (objetos con igual sucesión de valores de atributos sobre un periodo de tiempo), similitud en series temporales (detecta series temporales similares en un periodo de tiempo), redes bayesianas (modelos gráficos que codifican relaciones probabilísticas entre variables de interés, sistemas capaces de adquirir relaciones de causa), neurofuzzy systems (sistemas de inferencia borrosa que incorporan el aprendizaje y las habilidades de generalización de las redes neuronales). Las técnicas de minería de datos son diferentes unas a otras en términos de la representación del problema, parámetros a optimizar, exactitud, complejidad, tiempo de ejecución, transparencia e interpretación. El éxito del minado de datos está determinado por algunos factores, entre los cuales se tienen: Las herramientas apropiadas: una característica que distingue un software de minería de datos es la calidad de sus algoritmos, la efectividad de las técnicas y algunas veces su velocidad. Además, la eficiencia del hardware utilizado, el sistema operativo, los recursos de la base da datos y el cálculo paralelo influencian el proceso. Por otra parte, el conjunto particular de herramientas útiles para una aplicación depende altamente del problema práctico. Así, en un paso prototipo, es útil tener disponible un conjunto de técnicas amplio para identificar aplicaciones de interés. Sin embargo, en el producto final para la implementación es posible solo utilizar un pequeño subconjunto de las herramientas. Personalizar las técnicas de minería de datos a la aplicación específica y utilizar métodos confiables realzan el proceso de extraer información útil. Los datos apropiados: los datos a ser minados deben contener información que valga la pena minar: consistente, limpia, representativa para la aplicación. Es inútil aplicar minería de datos a bases de datos inválidas con altos errores de medición o errores en la estimación de datos, o intentar realizar estimaciones a partir de datos con un alto contenido de ruido. Una parte importante de los errores resultantes en la minería de datos son debidos a la incertidumbres en la modelación y generación de objetos en ciertas bases de datos en discordancia con las probabilidades reales de la apariencia del fenómeno en el sistema. Es por esto que los errores en la minería de datos a menudo no tienen un significado por ellos mismos, ellos justamente dan un significado práctico para comparar eficiencias de diferentes criterios aplicados a la misma base de datos. El minero apropiado: las operaciones de minería de datos no son aún una operación automática con muy poca o sin intervención del hombre. El análisis del hombre juega un papel importante, principalmente en las áreas de la selección e interpretación de datos / conocimiento. El minero debe tener una compresión de los datos bajo análisis y la especialidad o industria a la cual pertenece. La aplicación adecuada: es importante definir claramente los objetivos o metas que se pretenden para tomar las decisiones convenientes a los procesos subyacentes. Las preguntas adecuadas: para que la herramienta proporcione las respuestas que se persiguen. El adecuado sentido de la incertidumbre: el minero de datos generalmente está más interesado en la comprensibilidad que en la exactitud o capacidad de predicción del modelo. A menudo, aún con los mejores métodos de búsqueda pueden quedar incertidumbres acerca del modelo o la predicción correctas. Aplicaciones Comunes de minería de datos Muchas actividades o especialidades se pueden beneficiar del uso de la minería de datos, ya sea para realizar extracción de patrones o predecir comportamientos futuros, algunas de las aplicaciones más frecuentes están en análisis de mercados para identificar afinidades entre productos y servicios adquiridos por el consumidor, segmentación de clientes para identificar características y comportamientos de clientes o consumidores en general que puedan ser explotados por el mercado, detección de fraudes en tarjetas de crédito, telecomunicaciones, sistemas de computo, detección de patrones en textos, imágenes o en la web, diagnósticos médicos etc. APLICACIONES DE MINERÍA DATOS EN INGENIERÍA CIVIL En cuanto a las aplicaciones de la minería de datos en ingeniería civil y más específicamente a los sistemas de abastecimientos de agua urbana, es muy escasa la información disponible al respecto, a pesar de la cantidad de datos que se pueden almacenar durante las etapas de construcción, operación y gestión de una red de abastecimiento con las consecuentes posibles aplicaciones como por ejemplo ampliación de redes, análisis del reemplazo de tuberías, detección de fugas, cambio de diámetros (capacidades), fraudes, detección de contadores dañados, reposición del parque de contadores, tipos de materiales en tuberías, análisis de calidad del agua etc. En un sistema de abastecimiento que requiera de bombeos ya sea para alimentar embalses o directamente la red de distribución, es muy importante optimizar el costo energético de la utilización de las bombas. Muchos operadores de las estaciones de bombeo, pueden utilizar heurística o reglas para minimizare el costo de la energía utilizada por las bombas, o realizar predicciones de demandas o ayudar a mantener el nivel de los embalses en rangos aceptables. Una regla de tipo heurístico podría ser: si el clima en los últimos 7 días fue caluroso y seco, y en los próximos 7 días se espera que sea caluroso y seco, y el periodo de tiempo antes de una demanda alta es menor o igual a 8 horas, entonces utilice una bomba de gran capacidad durante un periodo corto de tiempo. Este tipo de reglas es necesario documentarlas en sistemas expertos para reducir los costos de operación y distribución de los sistemas de abastecimiento de agua, ya que el conocimiento adquirido manualmente es inadecuado para manejar todas las situaciones que pueden presentarse en un problema complejo de ingeniería. Un método alternativo de adquisición de conocimiento es el aprendizaje automatizado de los datos observados, que es diseñar un algoritmo que pueda adquirir y afinar reglas de decisión de un conjunto de muestras o datos observados. Este método es conocido como aprendizaje inductivo o adquirir conocimiento por ejemplos. Una aplicación de aprendizaje inductivo, es el descubrir reglas de datos para realizar predicciones de demandas (An et al.), cuya metodología está basada en la teoría de los conjuntos aproximados, cuya característica es hacer uso de la información estadística inherente a los datos para manejar la información incompleta y ambigua. El objetivo es el descubrimiento automatizado de reglas a partir de una muestra de datos para realizar predicciones de la demanda diaria de agua. La base de datos contiene 306 muestras recogidas durante 10 meses que cubren la información de 14 factores ambientales y sociológicos y su correspondiente distribución de volumen de flujo. Los factores utilizados como posibles afectaciones del consumo diario de agua son: el día de la semana, y factores climáticos agrupados en temperatura, humedad, precipitación, viento, y horas de brillo del sol. Los consumos diarios se tomaron sumando las distribuciones diarias en cada estación de bombeo. Utilizando una extensión de la teoría de los conjuntos borrosos (Pawlak, Z), se obtuvieron reglas a partir de los datos seleccionados, del tipo “si-entonces” que describen importantes relaciones entre los factores condicionantes y el consumo de agua, las cuales son fácilmente comprensibles. Tanto la información básica como los resultados fueron agrupadas en rangos discretos tanto para su procesamiento como para su interpretación. En total se generaron 149 reglas para los diferentes conceptos o rangos de predicción de demanda de agua. Algunos ejemplos del tipo de reglas generadas son los siguientes: Para el rango D = [53 – 60], (a0 = (D or L or MA) ∧ (a5 > 64) ∧ (a10<=10.84) ∧ (a3 <= -3.36) →1 (53 < D <=60), Esta regla cubre el 66.7% de los objetos de entrada que incluyen el rango y establece que si el día de la semana es domingo, lunes o martes y la humedad mínima es mayor que 64 y el promedio de velocidad del viento es menor o igual a 10.84 y la temperatura media es menor o igual que –3.36, entonces la demanda de agua está entre 53 y 60 con una probabilidad 1, es decir que la totalidad de los objetos seleccionados para el rango cumplen la regla. Para el rango D = (89 – 90], (a1 <= 23.18) ∧ (a12 <= 36.88) ∧ (a3 > 10.78) ∧ (50 <= a5 <= 64) →1 (80 < D <=90), Esta regla cubre el 10.5% de los objetos de entrada que incluyen el rango. Establece que si la máxima temperatura es menor o igual que 23.18 y la máxima velocidad del viento es menor o igual que 36.88 y la temperatura mínima es mayor de 10.78 y la humedad mínima está entre 50 y 64 inclusive, entonces la demanda de agua está entre 60 y 90 con una probabilidad de 1. Para el rango D = (100 – 110], (a2 > 10.78) ∧ (a12 > 27.03) ∧ (a5 <=31) ∧ (a13 >9.60) → 1 (100 < D <= 110), Esta regla cubre el 33.3% de las muestras que incluyen el rango, y establece que si la temperatura mínima es mayor de 10.78 y la máxima velocidad del viento es mayor de 27.03 y la mínima humedad es menor o igual a 31 y el número de horas de brillo del sol es mayor de 9.60, entonces la demanda de agua está entre 100 y 110 con una probabilidad de 1. Otra aplicación desarrollada es la aproximación por minería de datos a la modelación de activos en sistemas de suministro de agua (Babovic et al), la red de tubería de una ciudad y todos los componentes asociados con esta red (válvulas, bombas, reservorios, etc) constituyen los activos de un suministro de agua, y como cualquier otro activo, es importante invertir en su mantenimiento para que cumplan con su tarea. La motivación de este trabajo se produjo debido a la política implementada en la ciudad de Copenhague (Dinamarca), en los años 80 de reemplazar un 1% de longitud de la tubería de la red de abastecimiento de agua por año debido a razones económicas, pérdidas de agua, capacidad, calidad del agua, reclamaciones y compensaciones, cooperación en trabajos de construcción y visión a largo plazo. El trabajo presenta dos técnicas de minería de datos para el análisis del riesgo de rotura de tubos en una red de suministro. Las técnicas utilizadas son los modelos de punteo y las redes bayesianas. El modelo de punteo une casos que presentan un comportamiento similar. Esto se lleva a cabo asignando un puntaje (un valor entre 0 y 100) a cada caso y agrupando casos en clases de puntajes similares, los operadores utilizados son binarios no lineales y la búsqueda del mejor modelo se realiza utilizando algoritmos genéticos. Las redes bayesianas amplían el concepto de los modelos determinísticos tomando en cuenta las incertidumbres. Las salidas y las entradas no son declaradas como variables fijas sino como distribuciones de probabilidad. Una red bayesiana es una red con arcos directos y no ciclos. Los nodos (puntos de arco) representan variables random y decisiones. Los puntos de arco en variables random indican dependencia probabilística, mientras que los puntos de arco en decisiones especifican la información disponible en el periodo de decisión. La red bayesiana es alimentada con parámetros acerca del tubo, del suelo y de la presión dentro del tubo como “inputs”. Como “output”, el modelo produce un estimativo de la historia del tubo y el valor de las funciones de los tres estados limite; esfuerzo circunferencial, esfuerzo de corte y el estado límite de fatiga. La técnica empleada para finalizar el modelo del proceso de rotura son los árboles de clasificación. La estrategia utilizada en el modelo de puntaje es primero construir un modelo que separe casos que tengan baja probabilidad de rotura de aquellos que presentan incertidumbre de rotura y luego construir un modelo con el resultado del modelo de incertidumbre. Los resultados obtenidos con el modelo de puntaje presentan que aun cuando la edad esta entre las variables utilizadas por le modelo, su poder de predicción es relativamente bajo. El mejor estimador de predicción para la primera partición (casos con baja probabilidad de rotura), es la longitud del tubo, a mayor longitud mayor número de roturas. Otro elemento de predicción utilizado fue el inicio o comienzo, es decir el número de la casa donde el tubo inicia, la cual no parece ser una relación obvia pero el modelo es más sensible a esta variable que a la edad del tubo. El análisis de sensibilidad del modelo refinado (modelo de incertidumbres), toma como elemento de predicción principal el número de roturas en el modelo anterior, parece más probable que un tubo que se ha roto anteriormente se vuelva a romper. El segundo elemento de predicción es el momento en que se toma la “instantánea”, el cual tiene que ver con el instante en el tiempo (año, mes, día, hora), este elemento de predicción es un indicador de que en algunos periodos existe más probabilidad de rotura que en otros. Los modelos de puntaje proveen un método para ordenar los tubos de acuerdo a su riesgo de rotura, lo cual es necesario para presentar un esquema de rehabilitación de la red. La calidad del modelo depende de la calidad de los datos utilizados. La fuerza de los modelos de puntaje radica en encontrar relaciones entre variables que no son obvias para la mente humana. CONCLUSIONES Se ha presentado una visión general acerca del estado del arte de la minería de datos y su aplicación a problemas concernientes a los sistemas de abastecimiento de agua potable. Se pretende resaltar en este documento la importancia y el gran potencial que tienen estas técnicas de descubrimiento de patrones no triviales o no obvios a simple vista, para la aplicación en la planificación, operación y gestión de las redes de distribución de agua. El centro del proceso es la minería de datos, el análisis automático de grandes o complejas bases de datos para descubrir patrones o enlaces significantes que de otra forma no se conocerían. El éxito en la aplicación de una técnica de minería de datos radica principalmente en contar con una información básica o datos de entrada (inputs) suficiente y de buena calidad. Dentro de este documento se presentan las bases y técnicas de la minería de datos así como un par de ejemplos acerca de su aplicabilidad en los sistemas de abastecimiento de agua potable. El estudio e investigación de estas técnicas aún no ha sido lo suficientemente desarrollado para su aplicabilidad en la planificación, operación y gestión de redes de abastecimiento de agua potable, sin embargo es una tarea que aunque difícil por la escasez o pobre calidad de la información con la que cuentan nuestros sistemas de abastecimiento, parece tener bastante futuro para la resolución de problemas de nuestras redes. Se han mostrados un par de ejemplos que muestran la efectividad que puede tener el proceso de la minería de datos aplicado a problemas de abastecimientos de agua, pero se debe tener en cuenta que aún falta investigar lo suficiente para desarrollar y aplicar técnicas adecuadas para cada tipo de problema que se nos puede presentar, o quizá buscar información que no nos ha sido obvia o no está presente de antemano cuando nos planteamos que solución le podríamos dar a problemas cotidianos dentro de la operación de un sistema de distribución de agua, como por ejemplo: la detección de fugas, el funcionamiento de los contadores, el material utilizado para las tuberías, problemas de ampliación de redes, o cualquier interrogante que nos pueda surgir y pueda ser resuelto con una gran cantidad de información de la que se dispone pero no está siendo utilizada. REFERENCIAS BIBLIOGRÁFICAS AN, A.; SHAN, N.; CHAN, C.; CERCONE, N.; ZIARKO, W. 1997, “Applying knowledge discovery to predict water-supply consumption”, IEEE Intelligent Systems & Their Applications, Volume 12, Number 4, pages 72-78. BABOVIC, V.; DRÉCOURT, J.; KEIJZER, M.; HANSEN, P. 2001, “Modelling of Water Supply Assets: A Data Mining Approach”, D2K Technical Report 1000-1, 2000, February 6, 2001. BUCHHEIT, R.B.; GARRETT, J.H. JR; LEE, S.R.; BRAHME, R. 2000, “A Knowledge Discovery Framework for City Civil Infrastructure: A Case Study of the Intelligent Workplace”, Engineering with Computers, Number 16, Pages 264-274, 2000. CARBONE, P.; 1997, “Data Mining or "Knowledge Discovery in Databases" An Overview”, Mitre Corporation, 1997. FERGUSON, M.; “Evaluating and selecting data mining tools”, InfoDB, Volume 11, Number 2. GROSSMAN, R.; KASIF, S.; MOORE, R.; ROCKE, D.; ULLMAN, J.; 1998, “Data mining research: opportunities and challenges”, A report of three NSF workshops on mining large, massive, and distributed data, September 18, 1998. OLARU, C.; WEHENKEL, L. 1999. “Data Mining”. IEEE Computer Applications in Power, Volume 12, Number 3, July 1999, pages 19-25. OHRN, A. 1999. “Discernibility and Rough Sets in Medicine: Tools and Applications”, Department of Computer and Information Science, Norwegian University of Science and Technology, N7941 Trondheim, Norway. PAWLAK, Z. 2001, “Rough sets and their applications”, Institute of theoretical and applied sciences, February 28, 2002. REICH, Y.; BARAI, S.V. 1999 “Evaluating Machine Learning Models for Engineering Problems”, Artificial Intelligence in Engineering, Volume 13, Number 3, Pages 257 – 272, 1999. REICH, Y. 1997, “Machine Learning Techniques for Civil Engineering Problems”, Microcomputers in Civil Eng., Volume 12, Number 4, Pages 295 – 310, 1997. SAVIC, D.A.; DAVIDSON, J.W.; DAVIS, R.B. 1999, “Data Mining and Knowledge discovery for the water industry”, Water Industry Systems, modelling and optimisation applications”, Volume 2, Edited by Dragan A. Savic and Godfrey A. Walters, Research Studies Press Ltd, August, 1999. SKIPWORTH, P.J.; SAUL, A.J.; MACHELL, J.; 1999, “Predicting water quality in distribution systems using artificial neural networks”. Proceedings of the Institution of Civil EngineersWater Maritime & Energy, Volume 136, Number 1, Pages 1-8, July 1, 1999.