Download Minería de Datos - Presentación de la asignatura
Document related concepts
no text concepts found
Transcript
Minerı́a de Datos Presentación de la asignatura Cristina Tı̂rnăucă Dept. Matesco, Universidad de Cantabria Fac. Ciencias – Ing. Informática – Otoño de 2012 Cuestiones Factuales De ı́ndole práctica Personal e infraestructura I I Clases a cargo de: Cristina Tı̂rnăucă (cristina.tirnauca@unican.es) y Domingo Gómez (domingo.gomez@unican.es) Horario: I I I I martes, 11:45 a 13:45, Laboratorio LSC I (ejercicios dirigidos, principalmente sobre KNIME o Weka); jueves, 9:30 a 10:30 y 10:45 a 11:45, Laboratorio LSC I (Grupo “doble”: dedicado principalmente a los trabajos prácticos); viernes, 11:45 a 12:45, Aula A11 (Teorı́a) Información actualizada sobre el desarollo de la asignatura en: moodle.unican.es personales.unican.es/tirnaucac Bibliografı́a, I 1. Jiawei Han, Micheline Kamber: I Data Mining: Concepts and Techniques Pretende una orientación práctica. 2. David Hand, Heikki Mannila, Padrhraic Smyth: I Principles of data mining Un “clásico”. 3. Michael Berthold, Christian Borgelt, Frank Höppner, Frank Klawonn: I Guide to Intelligent Data Analysis “Recién salido del horno” y basado en KNIME. Bibliografı́a, II 4. Ian H. Witten, Eibe Frank: I Data mining: Practical machine learning tools and techniques with Java implementations Es el libro que acompaña a Weka. 5. Ricardo Baeza-Yates, Berthier Ribeiro-Neto: I Modern information retrieval Para el poquitı́n que tocaremos de ese tema. 6. Trevor Hastie, Robert Tibshirani, Jerome Friedman: I The elements of statistical learning: data mining, inference, and prediction La base más estadı́stica de la minerı́a de datos. Evaluación Calificación: suma de dos partes, truncada a diez puntos. I Trabajos prácticos individuales: de cero a diez puntos. (El último trabajo tendrá más peso) I Examen de problemas: de cero a cuatro puntos. Los trabajos: I El enunciado de los primeros trabajos prácticos es el mismo para todos. I El enunciado del último trabajo práctico es “negociable”: ha de estar relacionado con la asignatura, pero puede estarlo en mayor o menor grado, según el interés de cada alumno. Trabajos Prácticos Concepto de los trabajos Los primeros: Implementación guiada de varios algoritmos de Minerı́a de Datos. El último: A partir de un “dataset” que acordemos (a iniciativa tuya o mı́a), harás entrar en juego todo lo que hayas aprendido e intentarás completar un miniproyecto de Minerı́a de Datos. Ingrediente básico: iniciativa personal. Según lo ambicioso que pueda ser, una extensión de este trabajo puede dar lugar a un Proyecto de Fin de Carrera. Análisis de Datos Construcción de modelos descriptivos o predictivos Objetivo: Una ventaja económica o (menos frecuentemente) humana. I I La intención es lograrla mediante predicciones acertadas, al menos parcialmente. Predecir al azar difı́cilmente proporciona ventajas: queremos hacerlo mejor que al azar. I I I Para ello, habremos de basarnos en algo. Por ejemplo, en datos disponibles. Pero si tenemos todos los datos, no hay nada a predecir. I Ingrediente imprescindible: la incertidumbre. I De las muchas maneras de gestionar el conocimiento incierto, la más relevante en data mining (que no la única) es el enfoque estadı́stico, basado en la teorı́a de la probabilidad. Minerı́a de Datos Interés en realidades existentes El proceso de minerı́a de datos incluirá fases de modelado a partir de observaciones (datos) sobre una realidad compleja y existente. Taxonomı́a: Modelos descriptivos: I I I Segmentación, Asociación. I Modelos supervisados, Modelos predictivos: I Modelos no supervisados, Regresión, Clasificación, Priorización. I Sistemas de recomendación... I I I I (Nociones mutuamente no excluyentes.) Ejemplos Regresión, I Figure: Precio según superficie (en metros cuadrados) Ejemplos Regresión, II Figure: Precio según superficie (en metros cuadrados) Ejemplos Regresión, III Figure: Precio según superficie (en metros cuadrados) Otras variables: número de habitaciones, número de baños, si tiene ascensor, calefacción, trastero, parking, si la comunidad tiene piscina, si el piso está situado en el centro, ... Ejemplos Clasificación, I Cáncer de mama (maligno / benigno) 1 (P) ¿Maligno? 0 (N) Tamaño del tumor Observaciones clínicas Ejemplos Clasificación, II Cáncer de mama (maligno / benigno) 1 (P) ¿Maligno? 0 (N) Tamaño del tumor Observaciones clínicas Ejemplos Clasificación, III Cáncer de mama (maligno / benigno) 1 (P) ¿Maligno? 0 (N) Tamaño del tumor Observaciones clínicas Ejemplos Clasificación, IV Cáncer de mama (maligno / benigno) - 1 (P) ¿Maligno? 0 (N) Tamaño del tumor Observaciones clínicas La edad del paciente El espesor del tumor La homogeneidad del tamaño celular La homogeneidad de la forma celular Ejemplos Priorización, I Figure: PageRank para una red sencilla de páginas web Fuente: Wikipedia Ejemplos Agrupación, I Ejemplos Segmentación, II Ejemplos Segmentación, III Ejemplos Asociación, I ID 1 2 3 4 5 leche 1 0 0 1 0 pan 1 0 0 1 1 mantequilla 0 1 0 1 0 cerveza 0 0 1 0 0 Table: Análisis de canasta de mercado Reglas de confianza 1: {leche } ⇒ { pan } {leche } ⇒ { pan, mantequilla } {pan, mantequilla } ⇒ { leche } Una regla de confianza 0,5: {leche } ⇒ { mantequilla }