Download Presentación de PowerPoint
Document related concepts
Transcript
DATA WAREHOUSE Que SI es un Data Warehouse Un Data Warehouse es un repositorio de datos corporativo que se caracteriza por integrar y depurar información de una o más fuentes distintas, para luego procesarla permitiendo su análisis desde infinidad de perspectivas y con grandes velocidades de respuesta. Un Data Warehouse proporciona información a Sistemas de Soporte a Decisiones (DSS), Sistemas de información ejecutiva (EIS) o herramientas para hacer consultas o informes. Los usuarios finales pueden hacer fácilmente consultas sin tocar o afectar la operación del sistema. Que NO es un Data Warehouse • Un Producto: Un Data warehouse no es un sistema desarrollado en masa. • Un Lenguaje: Un Data warehouse no se codifica mediante un lenguaje de programación, porque se basa en diferentes tecnologías que pueden tener diferentes entornos. • Una copia del sistema de transacciones: Un error común es creer que duplicar la base de datos transaccional es crear un Data warehouse. Características Integrado: los datos almacenados deben integrarse en una estructura consistente, por lo que las inconsistencias existentes entre los diversos sistemas operacionales deben ser eliminadas. Temático: Los datos se organizan por temas para facilitar su acceso y entendimiento por parte de los usuarios finales. Histórico: el tiempo es parte implícita de la información contenida en un repositorio. la cual sirve, entre otras cosas, para realizar análisis de tendencias. No volátil: la información existe para ser leída y no para ser modificada. la actualización se refleja con la incorporación de los últimos valores de las distintas variables y sin ningún tipo de acción sobre lo que ya existía. Diferencias con un DB Transaccional DB Relacional Data WareHouse Almacena datos actuales Almacena datos históricos (datos tienen clave de tiempo) Los datos son dinámicos (actualizables) Los datos son principalmente estáticos Las actualizaciones no suelen estar programadas Las actualizaciones son escasas y programadas, incremental a intervalos regulares Los procesos (transacciones) son repetitivos. Los procesos no son previsibles Dedicado al procesamiento de transacciones Dedicado al análisis de datos Orientado a los procesos operativos Orientado a la obtención de información Soporta decisiones diarias (corto plazo) Soporta decisiones estratégicas (medio y largo plazo) Sirve a muchos usuarios Sirve a técnicos de dirección (pocos usuarios) Requerimientos de respuesta inmediata Requerimientos de respuesta no críticos Modelo de datos relacional (normalmente) Modelo de datos multidimensional Estructura ETL Extract – Tranform - Load Extracción: obtención de información de las distintas fuentes tanto internas como externas. Transformación: filtrado, limpieza, depuración, homogeneización y agrupación de la información. Carga: organización y actualización de los datos y los metadatos en la base de datos. Data Marts Un Datamart es una base de datos departamental, especializada en un área de negocio específica. Se caracteriza por disponer la estructura óptima de datos para analizar la información al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento. Data Marts Dpto RH Data Marts Dpto Contable Data Marts Dpto Ventas CUBOS es una base de datos especial, en la cual el almacenamiento físico de los datos se realiza en un vector multidimensional. HERRAMIENTAS Open Source Comerciales Talend Open Source Data Integrator Talend Studio GeoKettle Microsoft Integration Services Apatar Oracle Warehouse Builder CloverETL SAP Data Services Jaspersoft ETL IBM InfoSphere Information Server KETL QlikView Expressor Pentaho’s Data Integration Pentaho’s Data Integration SQ-ALL Syncsort DMX VIDEO Talend Open Source Data Integrator http://1drv.ms/1GybhKT VENTAJAS • Proporciona información clave para la toma de decisiones empresariales. • Especialmente útil para el medio y largo plazo. • Son sistemas relativamente sencillos de instalar si las fuentes de datos y los objetivos están claros. • Transforma los datos en información y la información en conocimiento. • Las empresas obtienen un aumento de la productividad. • Proporciona una comunicación fiable entre todos los departamentos de la empresa. • Permite conocer qué está pasando en el negocio, es decir, estar siempre enterado de los buenos y malos resultados. FACTORES CRÍTICOS DE ÉXITO • Requiere una gran inversión, debido a que su correcta construcción no es tarea sencilla y consume muchos recursos, además, su misma implementación implica desde la adquisición de herramientas de consulta y análisis, hasta la capacitación de los usuarios. • Los beneficios del almacén de datos son apreciados en el mediano y largo plazo. Este punto básicamente se refiere a que no todos los usuarios confiarán en el DW en una primera instancia. • Requiere de continua limpieza, transformación e integración de datos. • Si se incluyen datos propios y confidenciales, el depósito de datos atentará contra la privacidad de los mismos, ya que cualquier usuario podrá tener acceso a ellos. CONCLUSIONES El concepto de Data Warehouse abarca mucho más que simplemente copiar datos operacionales a una base de datos informacional distinta. El sistema deberá ofrecer una solución completa para gestionar y controlar el flujo de información desde bases de datos corporativas y fuentes externas a sistemas de soporte de decisiones de usuarios finales. Además, debe permitir a los usuarios conocer qué información existe en el almacén de datos, y cómo poder acceder a ella y manipularla