Download Una Arquitectura para el analisis
Document related concepts
Transcript
Comunicaciones en Socioeconomía, Estadística e Informática. 2003. Vol. 7 Núm. 2. pp. 89-106 UNA ARQUITECTURA PARA EL ANÁLISIS AUTOMATIZADO DE BASES DE DATOS1 Salvador Vázquez Martínez1, Antonio F. Martínez Alcántara 2 RESUMEN En los últimos años se ha estimado que, a nivel mundial, la cantidad de datos almacenados se duplica cada 20 meses, debido al abaratamiento de la tecnología para la colección y almacenamiento; este crecimiento ha sobrepasado la capacidad humana de analizar, resumir y extraer conocimientos a tales cantidades de datos. Actualmente existen avances significativos en cuanto a algoritmos para el análisis automatizado de bases de datos, pero no hay consenso en cuanto a la clasificación de éstos. A pesar de que existen varios sistemas para aplicaciones muy específicas, sólo existen algunos sistemas que integran todos esos algoritmo s de manera operacional y eficaz. El presente trabajo consiste en una revisión bibliográfica sobre técnicas y algoritmos, y posteriormente se propone la arquitectura de un software que permite analizar de manera automatizada bases de datos. La arquitectura propuesta incluye el uso tanto de algoritmos de técnicas estadísticas como de inteligencia artificial los cuales se seleccionan de manera automatizada. Se propone también aprovechar las ventajas que ofrecen los algoritmos de ambos grupos de técnicas para obtener mejores modelos, en el caso del uso de técnicas estadísticas se incorporan módulos expertos que explican los modelos generados. Se propone que el sistema contenga dos módulos expertos: uno para interpretar los resultados del análisis, y el otro, para seleccionar automáticamente las diferentes técnicas y para guiar la búsqueda en la base de datos, este sistema experto permite a la arquitectura de propósito general llegar a dominios específicos. 1 El presente trabajo es derivado de su tesis de Maestría en Ciencias en el Colegio de Postgraduados y forma parte del proyecto CONACYT 135939-B. 2 Profesor Investigador Adjunto del ISEI del Colegio de Postgraduados. 89 Salvador Vázquez Martínez y Antonio F. Martínez Alcántara. Palabras clave: Minería de datos, descubrimiento de conocimiento en bases de datos, aprendizaje automático, análisis automatizado de datos. INTRODUCCIÓN Actualmente se estima que el suministro de datos del mundo se duplica cada 20 meses (Berndt y Clifford, 1996). Esto es un resultado del desarrollo y abaratamiento de la tecnología para su colección y almacenamiento. Lo anterior implica un crecimiento excesivo en el volumen de datos que se maneja tanto en la comunidad científica como en los sectores productivos de la economía, que ha sobrepasado la capacidad humana de analizar, resumir y extraer conocimientos a tales cantidades de datos. Lo anterior, hace necesaria una nueva generación de herramientas capaces de automatizar el análisis de los datos almacenados. El conjunto de estas herramientas lo estudia un nuevo campo de investigación llamado minería de datos (Fayyad et al., 1996), que surge recientemente y que está aún en proceso de desarrollo. Existen una gran cantidad de algoritmos computacionales y técnicas estadísticas que son utilizados en la minería de datos, sin embargo no existe un estudio integral de todos estos algoritmos y no hay consenso en cuanto a la clasificación de ellos. A pesar de que existen varios sistemas "hechos a la medida" para aplicaciones muy específicas, no existen sistemas genéricos, que integren todos esos algoritmos de manera operacional y eficaz. Como contribución a este campo de investigación, en el presente trabajo se realizó una revisión bibliográfica sobre herramientas de minería de datos y se propone la arquitectura de un software para analizar de manera automatizada bases de datos. Tales sistemas tienen relevancia en la toma de decisiones en las empresas o gobierno y como auxiliares en investigaciones científicas. 90 Comunicaciones en Socioeconomía, Estadística e Informática. 2003. Vol. 7 Núm. 2. pp. 89-106 RESULTADOS Y DISCUSIÓN Se presentan a continuación los resultados en dos partes, una que corresponde a la investigación bibliográfica, y la otra, sobre la arquitectura del software propuesto. Clasificación de técnicas y algoritmos De acuerdo con la revisión bibliográfica realizada, se propone una clasificación de las técnicas útiles en minería de datos encontradas en las diferentes fuentes consultadas (que se mencionan en los Cuadros), la clasificación se basa en la tarea para la cual son útiles cada una de las técnicas y algoritmos encontrados. En el Cuadro 1 se muestran las cuatro tareas más importantes de minería de datos encontradas en las diferentes fuentes consultadas (Bigus, 1996; Cabena, 1998; Fayyad et. al., 1996; Fayyad, 1997; Michalski, 1998; Pyle, 1999; Thuraisinghan, 1999; Weiss y Kulikowski, 1991), así como las técnicas estadísticas y algoritmos útiles para cada una de las tareas. Arquitectura propuesta Para definir la arquitectura, en el presente trabajo se aplicaron técnicas de Ingeniería de Software. El paradigma de ingeniería del software seleccionado es el llamado modelo en espiral, el cual combina la naturaleza interactiva de construcción de prototipos con los aspectos controlados y sistemáticos del modelo lineal secuencial (Pressman, 1998). Éste es el paradigma que mejor se adaptó a los objetivos de este trabajo, que es proponer un sistema genérico a nivel de arquitectura, como un medio para la construcción de un sistema funcional. 91 Salvador Vázquez Martínez y Antonio F. Martínez Alcántara. Cuadro 1. Técnicas y algoritmos estadísticos de minería de datos. Algoritmos Fuente - Discriminante lineal Función de clasificación Regla de verosimilitud Regla discriminante cuadrática Vecino más cercano† Regla de Bayes Regresión logística Dallas, 2000; Weiss y Kulikowski, 1991. Análisis por agrupamiento - Vecino más cercano† Vecino más lejano Método del centroide Método del promedio Varianza mínima de Ward Selección de simientes Dallas, 2000; Weiss y Kulikowski, 1991. Análisis de varianza – Coeficiente de correlación lineal Dallas, 2000; Infante, 1990 Análisis de regresión – Regresión lineal simple† – Regresión lineal múltiple Infante, 1990; Dallas, 2000; Draper y Smith, 1966 Suavización de curvas – Promedios móviles simples – Suavización exponencial simple – Suavización exponencial simple de respuesta adaptativa – Promedio móvil lineal – Suavización exponencial de un parámetro (método de Brown) – Suavización exponencial de dos parámetros (método de Holt) – Suavización exponencial cuadrática – Método de Winters Box y Jenkins 1976; Burés, 1989. Ajuste de curvas – Emparejamiento de expresiones Guzmán, 1999. Series de tiempo Dependencia Clasificación Técnica Análisis discriminante Agrupamiento Tarea † Algoritmos utilizados en software de minería de datos. En los Cuadros 2, 3, 4 y 5 se muestran las técnicas de inteligencia artificial (IA) útiles para cada una de las tareas de minería de datos. 92 Comunicaciones en Socioeconomía, Estadística e Informática. 2003. Vol. 7 Núm. 2. pp. 89-106 Cuadro 2. Técnicas y algoritmos de IA para la tarea de clasificación. Técnica Redes neuronales - Árboles de decisión - Algoritmos ARTMAP Backpropagation Red de función de base radial Red neuronal probabilístico Cuantificación del vector aprendizaje Fuente Bigus, 1996. ID3 C4.5 CART CHAID CN2 Quinlan, 1986. Quinlan, 1993. Berson et al., 2000. Berson et al., 2000. Clark y Boswell, 1991. Inducción de reglas - AQ15 Michalski, 1998. Programación lógica inductiva - Muggleton y Buntine, 1998. Sammut y Banerji, 1986. Muggleton, 1995. Muggleton y Feng, 1990. Shapiro, 1983. CIGOL MARVIN PROGOL GOLEM MIS - MFOIL - FOCL - FOIL Dzeroski y Bratko, 1992. Pazzani y Kibler, 1992. Quinlan, 1996. - LINUS - MOBAL - CLAUDIEN Lavrac et al., 1991. Morik et al., 1993. Dehaspe et al., 1994. 93 Salvador Vázquez Martínez y Antonio F. Martínez Alcántara. Cuadro 3. Técnicas y algoritmos de IA para la tarea de agrupamiento. Técnica Redes neuronales Algoritmos - Mapeo de características Kohonen - Teoría resonancia adaptativa Fuente Bigus, 1996. Inducción de reglas - Stepp y Michalski, 1986. Agrawal, 1998. Ramkumar y Swami, 1998. Cheeseman y Stutz, 1996. Modelos gráficos probabilísticos Hipergráfico CLUSTER/S CLIQUE PARAMETRIZED AutoClass - HMETIS - Min-A priori Han E. et.al., 1998 Cuadro 4. Técnicas y algoritmos de IA para la tarea de dependencia. Técnica Modelos gráficos probabilísticos Programación lógica inductiva Inducción de ecuación Algoritmos – Red bayesiana Fuente Buntine, 1996. – CLAUDIEN Dehaspe et al., 1994 – BACON Rich y Knight, 1994. Inducción de reglas – – – – – – – – – – – – Srikant y Agrawal, 1995. Basic Cumulate EstMerge MultipleJoins Reorder Direct Agrawal93 Mannila94 AprioriTid AprioriHybrid Bayardo99 AprioriUDF 94 Srikant et al., 1997. Agrawal et al., 1993. Mannila et al., 1994. Agrawal y Srikant, 1994. Bayardo et al., 1999. Sarawagi et al., 1998. Comunicaciones en Socioeconomía, Estadística e Informática. 2003. Vol. 7 Núm. 2. pp. 89-106 Cuadro 5. Técnicas y algoritmos de IA para la tarea de series de tiempo. Subtarea Pronóstico Técnica Redes neuronales Algoritmos – Red de función de base radial – Propagación hacia atrás recurrente – Aprendizaje de diferencia temporal Fuente Bigus, 1996. Búsqueda de patrones Redes neuronales Inducción de reglas – Propagación hacia atrás Martínez, 1991. – Alabeo de tiempo dinámico – Evento estructura Berndt y Clifford, 1996 Bettini C. et al., 1998. – AprioriSome – AprioriAll – GSP Agrawal y Srikant, 1995. Descubrimient Inducción de o de patrones reglas secuenciales Srikant y Agrawal, 1996. Análisis Se consideró el software como un sistema completo, es decir no es un componente o módulo de un sistema más grande, al contrario, se sirve de varios módulos subordinados para llevar a cabo sus funciones. Lo anterior se muestra en la Figura 1. Teclado Base de datos relacional Ordenes del usuario Datos Monitor Sistema de análisis automatizado de bases de datos Modelos y patrones generados por el sistema Impresora Disco Figura 1. Modelo funcional o de contexto del sistema (nivel 0) A la fecha la mayoría de los datos que están almacenados en sistemas cómputo corresponden al modelo relacional, que es el modelo que se consideró para este trabajo. 95 Salvador Vázquez Martínez y Antonio F. Martínez Alcántara. Modelo funcional o de contexto En esta fase es importante destacar las entradas y salidas del sistema global. La entrada fundamental al sistema son los datos desde la base de datos. Las salidas dependen de la tarea de minería de datos de la técnica que se haya seleccionado. En los Cuadros 6, 7, 8 y 9 se mencionan las salidas generadas por el sistema de acuerdo con las técnicas y tareas. Cuadro 6. Salidas del sistema, tarea de clasificación. Técnicas Estadísticas Técnica Salida Análisis Ecuación de discriminante clasificación Técnicas de Inteligencia Artificial Técnica Salida Redes neuronales Un modelo de red entrenado artificiales Árboles de Arbol de clasificación (Lógica decisión de atributos) Programación Lógica de predicados de primer lógica inductiva orden Inducción de Reglas de clasificación. reglas (Lógica de atributos) Lista de decisión Reglas de clasificación. (Lógica de atributos) Cuadro 7. Salidas del sistema, tarea de agrupamiento Técnicas Estadísticas Técnica Salida Análisis por Registros agrupamiento agrupados Técnicas de Inteligencia Artificial Técnica Salida Redes neuronales Un modelo de red artificiales entrenado Inducción de reglas 96 Reglas de agrupamiento (Lógica de atributos) Comunicaciones en Socioeconomía, Estadística e Informática. 2003. Vol. 7 Núm. 2. pp. 89-106 Cuadro 8. Salidas del sistema, para la tarea de dependencia Técnicas Estadísticas Técnicas de Inteligencia Artificial Técnica Salida Técnica Salida Análisis de Coeficiente de Programación Lógica de predicados de varianza correlación lineal lógica inductiva primer orden Análisis de regresión Ecuación de regresión Inducción de reglas Redes gráficas Reglas de asociación (Lógica de atributos) Red con distribución de probabilidad Cuadro 9. Salidas del sistema, para la tarea de series de tiempo Técnicas Estadísticas Técnica Salida Suavización Pronóstico de curvas Técnicas de Inteligencia Artificial Técnica Salida Redes neuronales Un modelo de red artificiales entrenado Ajuste de curvas Inducción de reglas Localización de la curva buscada Reglas que describen los patrones Diagrama de flujo de datos Klosgen (1996) menciona que normalmente un proceso de descubrimiento de conocimiento no puede ser especificado de antemano o ser completamente automa tizado, puesto que depende de las metas del analista, las cuales surgen iterativamente. Los sistemas de KDD (Knowledge Discovery in Databases, Descubrimiento de Conocimientos en Bases de Datos) se comparan evaluando su autonomía y versatilidad; la autonomía mide hasta qué punto un sistema evalúa sus decisiones y produce conocimiento automáticamente; la versatilidad mide la variedad de dominios que soporta. Hay un trueque entre la autonomía y la versatilidad. Para algunos dominios pueden desarrollarse sistemas altamente autónomos, sin embargo, 97 Salvador Vázquez Martínez y Antonio F. Martínez Alcántara. para lograr un rango amplio de aplicabilidad, los sistemas deben ser asistidos por el analista humano. La arquitectura aquí desarrollada propone la incorporación de un módulo experto el cual sugiere la selección de alguna(s) de las cuatro tareas que el sistema soporta, de acuerdo con el dominio de la base de datos que se analiza y a los tipos de análisis que es posible realizar sobre ellos. Aunque los pasos generales que se siguen para llevar a cabo las diferentes tareas de minería de datos son los mismos (Berson Alex et al., 2000; Bigus P., J. 1996; Cabena P., H. 1998; Fayyad M., U., et al., 1996; Guzmán A., A. 1999a; Pyle, D. 1999; Thuraisinghan B., M. 1999), cada paso tiene un proceso diferente para cada tarea y para cada algoritmo, por lo que las tareas se consideran de manera separada como módulos en la Figura 2. En las técnicas de IA, la tarea de clasificación consiste en dos actividades fundamentales que son el entrenamiento y la clasificación como tal (Weiss, 1991). En el caso del entrenamiento (aprendizaje) se trata de crear un modelo entrenado de acuerdo con los datos seleccionados de la base de datos; el tipo y la estructura de este modelo depende del algoritmo particular que se haya empleado. La clasificación consiste en aplicar un modelo entrenado para asignarle el nombre de una clase a la que pertenece un determinado registro.(Rich y Knight, 1994). En el caso de las técnicas estadísticas de clasificación es necesario un pre-procesamiento de datos de acuerdo con la técnica a utilizar. En el módulo de clasificación de la Figura 2 se llevan a cabo las dos actividades anteriores. La tarea de agrupamiento es considerada como el proceso de colocar entidades (registros de una base de datos) en clases inicialmente indefinidas, de modo que las 98 Comunicaciones en Socioeconomía, Estadística e Informática. 2003. Vol. 7 Núm. 2. pp. 89-106 entidades de una clase resultante sean, en algún sentido, similares (Ruiz, 1998). El módulo de agrupamiento es el encargado de llevar a cabo lo anterior. La tarea de dependencia consiste en encontrar relaciones entre campos y buscar alguna estructura causal dentro de los datos (dependencias). Los modelos de causalidad pueden ser estadísticos o determinísticos. (Fayyad, 1997). Estas actividades se realizan en el módulo dependencia de la Figura 2. Ordenes del Teclado usuario Interfase del usuario Tarea y base de datos seleccionadas Clasificación Agrupamiento Módulo experto Salida generada por los módulos Base de datos relacional Dependencia Datos extraídos Series de tiempo Figura 2. Nivel 1 del Diagrama de Flujo de Datos (DFD) 99 Módulo experto de explicación Monitor, disco o impresora Salvador Vázquez Martínez y Antonio F. Martínez Alcántara. La tarea de series de tiempo consiste en la búsqueda de patrones de comportamiento (Guzmán, 1999), búsqueda de similitudes (Martínez, 1991) y búsqueda de patrones secuenciales (Agrawal y Srikant, 1994); es importante aquí la ordenación de las observaciones y que se considera sólo una variable a través del tiempo o una numeración progresiva. Estas son las actividades que se llevan a cabo en el módulo series de tiempo de la Figura 2. Al momento de seleccionar una técnica o algoritmo particular en alguno de los módulos, el sistema deberá hacer un pre-procesamiento de los datos, de acuerdo con la forma en que son requeridos por la técnica específica. Diseño arquitectónico En la Figura 3 se muestra la arquitectura propues ta para un sistema de análisis automatizado de bases de datos. El modelo de la arquitectura es el estructural el cual representa el sistema como una colección organizada de componentes del programa. CONCLUSIONES Esta investigación se propuso recopilar y clasificar las técnicas y algoritmos de minería de datos encontrados en las diferentes fuentes consultadas. La propuesta es una arquitectura que incorpore y aproveche las ventajas que ofrecen los algoritmos de ambos grupos de técnicas. La arquitectura pro pone la utilización de dos módulos expertos. El primero, a partir de las necesidades expresadas por el usuario en una interfase, consultaría a una base de datos relacional dada para después auxiliar en la selección de las metodologías de análisis más adecuadas. 100 Comunicaciones en Socioeconomía, Estadística e Informática. 2003. Vol. 7 Núm. 2. pp. 89-106 101 Salvador Vázquez Martínez y Antonio F. Martínez Alcántara. Después del análisis, el segundo módulo experto auxiliaría en la interpretación de los resultados. Esto es especialmente importante en el caso de análisis estadísticos complejos. Las técnicas consultadas en la bibliografía se clasificaron en cuatro grupos sin importar si la técnica proviene de la estadística o de la inteligencia artificial. Los grupos son: técnicas de clasificación, de agrupamiento, de análisis de dependencia y de análisis de series de tiempo. Una aportación de este trabajo es la revisión de una amplia bibliografía en minería de datos en búsqueda de las técnicas y algoritmos utilizados, así como su área de aplicación. De esta forma el lector interesado en alguna técnica particular de las aquí citadas, puede encontrar en la bibliografía consultada una referencia rápida. El trabajo presentado no es exhaustivo y es un paso hacia una propuesta que solucione los problemas planteados en la introducción. LITERATURA CITADA Agrawal, R. 1998. Automatic subspace clustering of high dimensional data for data mining applications. 1998. IBM Almaden Research Center. San Jose California USA. 12p. Agrawal, R. and R. Srikant 1995. Mining sequential patterns. IBM Almaden Research Center. San Jose California USA. 12p. Agrawal, R. and R. Srikant. 1994. Fast algorithms for mining association rules. In Proceeding of the 20th VLDB Conference Santiago, Chile. Agrawal, R., T. Imielinski, and A. Swami. 1993. Mining Association rules between sets of items in large databases. In Proceedings of the 1993 ACM SIGMOD Conference Washington DC, USA, May 1993. Bayardo, J. R., R. Agrawal, and D. Gunopulos. 1999. Constraint - based rule mining in large, dense databases. IBM Almaden research center. In Proceeding of the 15th international conference on data engineering, 1999. 12p. 102 Comunicaciones en Socioeconomía, Estadística e Informática. 2003. Vol. 7 Núm. 2. pp. 89-106 Berndt, J. D. and J. Clifford. 1996. Finding patterns in time series: A dynamic programming approach. In Advances in knowledge discovery and data mining. Usama M. Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth, and Ramasamy Uthurusamy (eds.). Menlo Park, California U.S.A. 1996. AAAI Press / The MIT Press. pp: 229-248. Berson, A., S. Smith, and K. Thearling. 2000. Building Data Mining Applications for CRM. McGraw-Hill. USA. 510p. Bettini, C., S. Wang, and S. Jajodia. 1998. Mining temporal relationships with multiple granularities in time sequences. George Mason University. Bulletin of the IEEE computer society technical committee on data engineering. Bigus, P. J. 1996. Data mining with neural networks, solving business problems from applications development to decision support. McGraw-Hill. USA. 220 p. Box, P. E. and M. G. Jenkins. 1976. Time series analysis forecasting and control. Holden - Day, page 18. San Francisco California, USA. Buntine, W. 1996. Graphical models for discovering Knowledge. In Advances in knowledge discovery and data mining. Usama M. Fayyad, Gregory PiatetskyShapiro, Padhraic Smyth, and Ramasamy Uthurusamy (eds.). Menlo Park, California U.S.A. 1996. AAAI Press / The MIT Press. pp: 59-82. Burés, E. M. 1989. Métodos de pronósticos aplicados a la administración. Instituto Tecnológico y de Estudios Superiores de Monterrey. México. Cabena, P. H. 1998. Discovering data mining, from concept to implementation. International technical support organization. IBM. U.S.A. 340p. Clark, P. and R. Boswell. 1991. Rule Induction with CN2: some recent improvements. In proceedings of the fifth European working session on learning. Berlin Alemania. Pp: 151-163. Cheeseman, P. and J. Stutz. 1996. Bayesian classification (AutoClass): Theory and results. In Advances in knowledge discovery and data mining. Usama M. Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth, and Ramasamy Uthurusamy (eds.). Menlo Park, California U.S.A. 1996. AAAI Press / The MIT Press. pp: 153-180. Dallas E., J. 2000. Métodos multivariados aplicados al análisis de datos. International Thomson Editors. México. 566p. Dehaspe, L., V. M. Laer and D. Raedt. 1994. Applications of a logical discovery engine. Department of computer science, Katholieke Universiteit Leuven, Heverlee, Belgium. Draper, R. N. and H. Smith. 1966. Applied Regression Analysis. John Wiley & Sons, Inc., U.S.A. Dzeroski, S. and I. Bratko. 1992. Handling noise in inductive logic programming. In proceedings of the second international workshop on inductive logic programming. Tokio Japón. 103 Salvador Vázquez Martínez y Antonio F. Martínez Alcántara. Fayyad, U. M. 1997. Mining databases: Towards algorithms for knowledge discovery. In Bulletin of the technical committee on Data Engineering (ed). IEEE computer society U.S.A. March 1998 vol. 21 No. 1. pp. 39-45. Fayyad, U. M., G. Piatetski-Shapiro, and S. Padhraic. 1996. From data mining to knowledge discovery: An overview. In Advances in knowledge discovery and data mining. Usama M. Fayyad, Gregory Piatetsky -Shapiro, Padhraic Smyth, and Ramasamy Uthurusamy (eds.). Menlo Park, California U.S.A. 1996. AAAI Press / The MIT Press. pp: 1-36. Guzmán A., A. 1999. Minería de datos con Búsqueda de Patrones de Comportamiento. Centro de Investigaciones en Cómputo del Instituto Politécnico Nacional. Guzmán A., A. 1999a. Estado del arte y dela práctica en minería de datos, análisis y crítica. Centro de Investigaciones en Cómputo del Instituto Politécnico Nacional. Han, E., G. Karypis, V. Kumar, and B. Mobastar. 1998. Hypergraph based clustering in high-dimensional data sets: A summary of results. Department of computer science and engineering/army HPC research center, University of Minnesota, USA. Infante G., S. 1990. Métodos estadísticos. 2ª. ed. Trillas, México. 643p. Klosgen, W. 1996. Explora: A multipattern and multistrategy discovery assistant. In Advances in knowledge discovery and data mining. Usama M. Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth, and Ramasamy Uthurusamy (eds.). Menlo Park, California U.S.A. 1996. AAAI Press / The MIT Press. pp: 249-272. Lavrac, N. S. Dzeroski, and M. Grobelnik. 1991. Learning non-recursive definitions of relations with LINUS. In proceedings of the fifth European working session on learning. Berlin Alemania. Pp: 265-281. Mannila, H., H. Toivonen, and A. I. Verkamo. 1994. Improved methods for finding association rules. University of Helsinki, Department of Computer Science. Series of Publications C, No. C-1993-65. Helsinki, Finland. 20p. Martínez O., E. 1991. Simulación de una red neuronal utilizando un modelo no lineal en ambiente de aprendizaje supervisado para reconocer patrones en bases de datos. ESIME - IPN. México. 163 p. Michalski, S. R. 1998. Machine learning and data mining, methods and applications. John Wiley & Sons Ltd. USA. 456 p. Morik, K., S. Wrobel, J. Kietz and W. Emde. 1993. Knowle dge acquisition and machine learning: Theory, Methods and Applications. London: Academic Press. Muggleton, S. 1995. Inverse entailment and Progol. New generation computing (special issue on inductive logic programing). pp: 245 -286. Muggleton, S. and C. Feng. 1990. Efficient induction of logic programs. In proceeding of the first conference on algorithmic learning theory. Tokyo Japan. Pp: 368381. 104 Comunicaciones en Socioeconomía, Estadística e Informática. 2003. Vol. 7 Núm. 2. pp. 89-106 Muggleton, S. and W. Buntine. 1998. Machine Invention of first-order predicates by inverting resolution. In proceedings of the fifth international conference on Machine Learning. USA. Pp: 339-352. Pazzani, M. and D. Kibler. 1992. The Utility of knowledge in inductive learning. Machine learning, pp: 57-94. Pressman S., R. 1998. Ingeniería de software, un enfoque práctico. 4ª. ed. McGrawHill, España. 581 p. Pyle, D. 1999. Data preparation for data mining. Morgan Kaufmann Publishers, Inc. USA. 540 p. Quinlan, J. R. 1986. Induction of decision trees. Machine learning No. 1. Quinlan, J. R. 1993. C4.5 Programs for machine learning. Morgan Kaufman. Quinlan, S. R. 1996. Learning first-order definitions of functions. Journal of artificial intelligence research No. 5. pp: 139-161. Ramkumar, D., G. and A. Swami. 1998. Clustering data without distance functions. Information technology Lab, Hitachi America y Neta Corporation. Bulletin of the IEEE computer society technical committee on data engineering. 6p. Rich, E. y K. Knight. 1994. Inteligencia artificial. 2ª. ed. McGraw-Hill, España. 703 p. Ruiz G., N. 1998. Criterios de validación de estructuras y grupos en el análisis de conglomerados. Tesis de maestría Colegio de Postgraduados. Montecillo, Edo. México. 160 p. Sammut, C. and R. Banerji. 1986. Learning concepts by asking questions. In Machine learning, an artificial intelligence approach, volume II. Morgan Kaufmann Publishers, Inc. USA. 738 p. Sarawagi, S., T. Shiby, and R. Agrawal. 1998. Integrating association rule mining with relational database systems. IBM Almaden research center 650 Harry Road, San Jose, CA 95120. 12p. Shapiro, E. 1983. Algorithmic program debugging. Cambridge, Mass. The MIT press. Srikant R., V. Quoc and R. Agrawal. 1997. Mining association rules with item constraints. IBM Almaden research center 650 Harry Road, San Jose, CA 95120. 7p. Srikant, R. and R. Agrawal. 1995. Mining quantitative Association rules in large relational tables. IBM Almaden research center. San Jose, CA 95120. Srikant, R., and R. Agrawal. 1996. Mining sequential patterns: generalizations and performance improvements. IBM Almaden Research Center. San Jose California USA. 15p. Stepp, E. R. and R. S. Michalski. 1986. Conceptual clustering: Inventing goal-oriented classifications of structured objects. In Machine learning, an artificial intelligence approach, volume II. Michalski S., R., J. Carbonell G. Y T. Mitchell M. (eds.). Morgan Kaufmann Publishers, Inc. USA. 738 pp: 471-498. Thuraisinghan, B. M. 1999. Data mining: technologies, techniques, tools, trends. CRC Press. USA. 270 p. 105 Salvador Vázquez Martínez y Antonio F. Martínez Alcántara. Weiss, M. S. And C. A. Kulikowski. 1991. Computer Systems that learn. Classification and prediction methods from statistics, neural nets, machine learning, and expert systems. Morgan kaufmann publishers Inc. USA. 220p 106