Download Acercamiento a la Ciencia de Datos
Document related concepts
Transcript
#DATAJAM2017 DE DESARROLLO RURAL Bogotá, 27 y 28 de abril de 2017. 1 ACERCAMIENTO A LA CIENCIA DE LOS DATOS Julio Lozano – Informático y Matemático Especialista en Innovación y Gestión de Ciudades Alexander Riascos Ingeniero Informático Especialista en Inteligencia de Negocios 2 ¿QUÉ ES CIENCIA DE DATOS? No existe una definición de consenso, sino que difiere según las fuentes. • Podemos decir que trata del estudio de la extracción generalizada de conocimiento a partir de información, de datos. • ¿Esto es algo nuevo? ¿No se parece a alguna ciencia con la que ya estamos familiarizados? Fuente: https://www.cs.us.es/cursos/bd-2014/IntroDataScience.pdf 3 ¿Ciencia de datos y Estadística ? Tras consultar varias opiniones y diversas fuentes, podemos llegar a la conclusión de que existen diferencias: • El enfoque de Data Science es más holístico, más global, para partiendo de grandes volúmenes de datos poder extraer conocimiento que aporte valor a una determinada organización del tipo que sea. • El foco principal se sitúa en la extracción de conocimiento, empleando para ello las herramientas que estén al alcance. Veamos en qué se traduce lo anterior, mediante una definición más completa. Fuente: https://www.cs.us.es/cursos/bd-2014/IntroDataScience.pdf4 ¿QUÉ ES CIENCIA DE DATOS? • Ya hemos podido intuir que se trata de algo más que la Estadística. Veamos qué más… Wikipedia recopila muchos de los principales campos implicados en Data Science, indicando que emplea: • Técnicas y teorías de muchos campos dentro de amplias áreas como la Matemática, la Estadística y las Tecnologías de la Información, incluyendo: procesamiento de señales, modelos probabilísticos, machine learning, aprendizaje estadístico, programación, ingeniería de datos, reconocimiento de patrones, visualización, modelización de la incertidumbre, data warehousing, and computación de altas prestaciones Fuente: https://www.cs.us.es/cursos/bd-2014/IntroDataScience.pdf5 ¿PORQUÉ LA CIENCIA DE DATOS? Es necesario contar con la capacidad de gestionar, analizar, sintetizar, visualizar, y descubrir el conocimiento de los datos recopilados de manera oportuna teniendo en cuenta aspectos como: • Explosión de Información • Madurez tecnológica y computacional • Bajos costos • Muchos datos, poco conocimiento 6 ¿QUE ES UN CIENTIFICO DE DATOS? Un científico de datos es un profesional que debe dominar las ciencias matemáticas y la estadística, conocimientos de programación (y sus múltiples lenguajes), ciencias de la computación y analítica. 7 Disciplinas que componen la ciencia de datos Inteligencia de negocios Minería de datos Estadística Algorítmica Matemáticas Big Data 8 ¿Paraqué se utiliza el conocimiento obtenido? • Hacer predicciones sobre nuevos datos • Explicar los datos existentes • Interpretar bases de datos masivas • Facilitar la toma de decisiones empresariales • Facilitar la construcción de política pública • Proyectos de investigación • Periodismo de datos • Creación de nuevos negocios 9 Consideraciones y Técnicas en análisis de datos 10 Consideraciones y Técnicas en análisis de datos Fuente de Datos Consideraciones y Técnicas en análisis de datos Modelos Es el proceso completo de extracción de conocimiento a partir de bases de datos aplicando técnicas como: [*] Descriptivo, [**] Predictivo • Casificación [**] • Agrupación (Clustering) [**] • Reglas de asociacion y descubrimiento [*] • Descubrimiento de Patrones secuenciales [*] • Regresión [**] • Desviasión y Detección de anomalias [**] • Series de Tiempo [**] 12 NOMENCLATURA DATASET 1. Estándar nombres de archivos – datos.gov.co Para facilitar ubicación y diferenciación de los data set seleccionados para el data jam se asigno una descripción estándar en el nombre de los archivos la cual se especifica a continuación: Nombre evento Año Tipo Reto Nombre dataset Tipo de reto: identifica el número del reto al cual se considera aporta la información contenida en el conjunto de datos: 5/4/2017 Sigla Descripción Sigla Descripción R3 Reto 3 R1 Reto 1 AC R2 Reto Análisis Complementario OP Dataset opcional FOOTER GOES HERE 13 Metadatos – Data set Encuentre información complementaria de los datasets en 3 pasos : 1. Ingrese al data set dando clic en el enlace del mismo 2. Diríjase a la opción acerca de, ubicada en la parte superior derecha en la barra de opciones del dataset. 3. Desplace la barra horizontal hasta ubicar la opción Archivos adjuntos o Url documentación del menú de opciones 5/4/2017 FOOTER GOES HERE 14 PLATAFORMA DE DATOS ABIERTOS COLOMBIA 5/4/2017 FOOTER GOES HERE 15 ACERCAMIENTO A LA CIENCIA DE LOS DATOS Julio Lozano – Informático y Matemático Especialista en Innovación y Gestión de Ciudades Alexander Riascos Ingeniero Informático Especialista en Inteligencia de Negocios GRACIAS!!! 16