Download Presentación de PowerPoint

Document related concepts

Data mart wikipedia , lookup

Sistemas de información ejecutiva wikipedia , lookup

Almacén operacional de los datos wikipedia , lookup

AQL wikipedia , lookup

Big data wikipedia , lookup

Transcript
DATA WAREHOUSE
Que SI es un Data Warehouse
Un Data Warehouse es un repositorio de datos
corporativo que se caracteriza por integrar y depurar
información de una o más fuentes distintas, para
luego procesarla permitiendo su análisis desde
infinidad de perspectivas y con grandes velocidades
de respuesta.
Un Data Warehouse proporciona información a
Sistemas de Soporte a Decisiones (DSS), Sistemas de
información ejecutiva (EIS) o herramientas para hacer
consultas o informes. Los usuarios finales pueden
hacer fácilmente consultas sin tocar o afectar la
operación del sistema.
Que NO es un Data Warehouse
• Un Producto: Un Data warehouse no es un sistema
desarrollado en masa.
• Un Lenguaje: Un Data warehouse no se codifica
mediante un lenguaje de programación, porque se
basa en diferentes tecnologías que pueden tener
diferentes entornos.
• Una copia del sistema de transacciones: Un error
común es creer que duplicar la base de datos
transaccional es crear un Data warehouse.
Características
Integrado: los datos almacenados deben integrarse en una
estructura consistente, por lo que las inconsistencias
existentes entre los diversos sistemas operacionales deben
ser eliminadas.
Temático: Los datos se organizan por temas para facilitar su
acceso y entendimiento por parte de los usuarios finales.
Histórico: el tiempo es parte implícita de la información
contenida en un repositorio. la cual sirve, entre otras cosas,
para realizar análisis de tendencias.
No volátil: la información existe para ser leída y no para ser
modificada. la actualización se refleja con la incorporación
de los últimos valores de las distintas variables y sin ningún
tipo de acción sobre lo que ya existía.
Diferencias con un DB
Transaccional
DB Relacional
Data WareHouse
Almacena datos actuales
Almacena datos históricos
(datos tienen clave de tiempo)
Los datos son dinámicos (actualizables)
Los datos son principalmente estáticos
Las actualizaciones no suelen estar programadas
Las actualizaciones son escasas y programadas,
incremental a intervalos regulares
Los procesos (transacciones) son repetitivos.
Los procesos no son previsibles
Dedicado al procesamiento de transacciones
Dedicado al análisis de datos
Orientado a los procesos operativos
Orientado a la obtención de información
Soporta decisiones diarias (corto plazo)
Soporta decisiones estratégicas
(medio y largo plazo)
Sirve a muchos usuarios
Sirve a técnicos de dirección (pocos usuarios)
Requerimientos de respuesta inmediata
Requerimientos de respuesta no críticos
Modelo de datos relacional (normalmente)
Modelo de datos multidimensional
Estructura
ETL
Extract – Tranform - Load
Extracción: obtención de información de las distintas
fuentes tanto internas como externas.
Transformación:
filtrado,
limpieza,
depuración,
homogeneización y agrupación de la información.
Carga: organización y actualización de los datos y los
metadatos en la base de datos.
Data Marts
Un Datamart es una base de datos departamental,
especializada en un área de negocio específica. Se
caracteriza por disponer la estructura óptima de
datos para analizar la información al detalle desde
todas las perspectivas que afecten a los procesos de
dicho departamento.
Data Marts
Dpto RH
Data Marts
Dpto
Contable
Data Marts
Dpto Ventas
CUBOS
es una base de datos especial, en la cual el
almacenamiento físico de los datos se realiza en un
vector multidimensional.
HERRAMIENTAS
Open Source
Comerciales
Talend Open Source Data Integrator
Talend Studio
GeoKettle
Microsoft Integration Services
Apatar
Oracle Warehouse Builder
CloverETL
SAP Data Services
Jaspersoft ETL
IBM InfoSphere Information Server
KETL
QlikView Expressor
Pentaho’s Data Integration
Pentaho’s Data Integration
SQ-ALL
Syncsort DMX
VIDEO
Talend Open Source Data Integrator
http://1drv.ms/1GybhKT
VENTAJAS
• Proporciona información clave para la toma de decisiones
empresariales.
• Especialmente útil para el medio y largo plazo.
• Son sistemas relativamente sencillos de instalar si las
fuentes de datos y los objetivos están claros.
• Transforma los datos en información y la información en
conocimiento.
• Las empresas obtienen un aumento de la productividad.
• Proporciona una comunicación fiable entre todos los
departamentos de la empresa.
• Permite conocer qué está pasando en el negocio, es decir,
estar siempre enterado de los buenos y malos resultados.
FACTORES CRÍTICOS DE ÉXITO
• Requiere una gran inversión, debido a que su correcta
construcción no es tarea sencilla y consume muchos
recursos, además, su misma implementación implica
desde la adquisición de herramientas de consulta y
análisis, hasta la capacitación de los usuarios.
• Los beneficios del almacén de datos son apreciados en el
mediano y largo plazo. Este punto básicamente se refiere a
que no todos los usuarios confiarán en el DW en una
primera instancia.
• Requiere de continua limpieza, transformación e
integración de datos.
• Si se incluyen datos propios y confidenciales, el depósito
de datos atentará contra la privacidad de los mismos, ya
que cualquier usuario podrá tener acceso a ellos.
CONCLUSIONES
El concepto de Data Warehouse abarca mucho más que
simplemente copiar datos operacionales a una base de
datos informacional distinta. El sistema deberá ofrecer una
solución completa para gestionar y controlar el flujo de
información desde bases de datos corporativas y fuentes
externas a sistemas de soporte de decisiones de usuarios
finales.
Además, debe permitir a los usuarios conocer qué
información existe en el almacén de datos, y cómo poder
acceder a ella y manipularla