Download Presentacion de las session

Document related concepts

DQS wikipedia , lookup

SQL Server Integration Services wikipedia , lookup

ADO.NET wikipedia , lookup

Data Transformation Services wikipedia , lookup

Lenguaje de definición de datos wikipedia , lookup

Transcript
MDS Y DQS ¿QUÉ ES ESO?
Lo nuevo del BI en SQL Server 2012
Miguel Angel Granados Troncoso
• Chapter Leader SQL PASS México
MIGUEL ANGEL GRANADOS TRONCOSO
• Miguel es un profesional con más de 15 de experiencia,
él es graduado de la Universidad Autónoma
Metropolitana.
• A lo largo de su carrera ha trabajado en diferentes tipos
de industrias que van desde finanzas hasta
automatización pasando por las áreas de Salud,
Biodiversidad y la enseñanza.
• Ha desempeñado puestos de: Desarrollador, Líder de
Proyectos, Arquitecto, DBA, Profesor y consultor de IT.
• Actualmente labora como mentor de SolidQ.
• En la parte de comunidades lidera el capítulo SQL PASS
Ciudad de México.
• Su especialidad es el área de Inteligencia de Negocios.
AGENDA
 Escenarios
 Definiciones, Procesos y Estándares
 Master Data Services
 Data Quality Services
1
9s Requeridos
& Protección
2
Exploración
Rápida de Datos
6
Auto Servicio BI
Administrado
9
Crece Bajo
Demanda
Cumplimiento
Organizacional
Desempeño
Super Veloz
5
3
10
Soluciones
Rápidas
7
Datos Consistentes
y Creíbles
11
Productividad
Optimizada
4
Tranquilidad y
Confianza
8
Analísis & DW
Escalable
12
Datos Hacia
Cualquier Parte
DATOS CONSISTENTES Y CREÍBLES
Las empresas con datos precisos se desempeñan mejor¹
Hrs que pasan los empleados cada
semana buscando información
% de datos maestros
completos & precisos
Mejor 20%
Desempeño
91%
50% Desempeño
Medio
Bajo 30%
Desempeño
68%
Debajo 50%
¹Fuente: “Turning Pain into Productivity with Master Data Management,” Aberdeen Group, Feb 2011
1.2hrs
2.8hrs
6hrs
POR QUÉ DEBO TENER MDM? SI
PUEDO…
- Incompleta y costosa
- No considera la interacción
humana
- Cómo se obtuvieron los
datos?
- Tenemos los datos que
necesitamos?
- Es escalable?
LA IMPORTANCIA DE LA CALIDAD DE
DATOS
Los problemas de Calidad de Datos le cuestan a las
empresas en E.U. más de $600 billones al año.
Data Warehousing Institute (TDWI)
Los costos asociados con datos de mala calidad
incluyen:
• Exceso de inventario
• Costos altos en la cadena de abastecimiento
• Mayores costos de marketing directo
• Facturación
• Y otros más…
PROBLEMAS DE MALA CALIDAD
Calidad de
datos
Problema
Ejemplo
Formato
¿Los valores tienen un formato estándar
consistente?
Formatos de números telefónicos:
xxxxxxxxxx,
(xxx) xxx-xxxx
1.xxx.xxx.xxxx, etc.
Etandarización
¿Se entienden y están definidos de
manera consistente los valores de los
datos?
‘Genero’ = M, F, U
Consistencia
¿Los valores tienen el mismo significado?
Cómo se presentan las ganancias?
Dólares, Euros, ambos?
Integridad
¿Se encuentrán presentes los datos
necesarios?
20% de los apellidos esta vacío, el
50% de los códigos postales son 99999
Precisión
¿Los datos representan con exactitud la
realidad o provienen de una fuente
verificable?
Un proveedor aparece como ‘Activo’ pero
salio del negociohace seis años
Validación
¿Los valores de los datos se encuentran en
rangos aceptables?
Los valores de salarios deben de estar
entre 60,000-120,000
Duplicados
Los datos aparecen varias veces
John Ryan y Jack Ryan aparecen en el
sistema – ¿son la misma persona?
‘Genero’ = 0, 1, 2
AGENDA
 Escenarios
 Definiciones, Procesos y Estándares
 Master Data Services
 Data Quality Services
QUÉ ES UN DATO MAESTRO?
• Son los datos clave que forman parte de los activos
más importantes de la empresa.
FUENTES DE DATOS MAESTROS
•
•
•
•
•
Metadatos
Datos Transaccionales
Datos Jerárquicos
Datos semiestructurados
Datos No estructurados
IDENTIFICANDO DATOS MAESTROS
La Cardinalidad
La Complejidad
La Volatilidad
Mantenimiento
histórico de los datos
• Reutilización
•
•
•
•
GOBERNABILIDAD DE DATOS
Estratégico
Gobernabilidad TI
Gobernabilidad de datos.
Administración de
datos.
Calidad de
datos.
Táctico
Corrección
de datos
ADMINISTRACIÓN DE LOS DATOS
Contenido
Relacionamiento
Acceso
• Detalles acerca del
tema
• Identificación de
atributos
• Nombres de los
temas
• Definiciones
• Representación de
los valores
• Formatos Estándar
• Parte de identidad
(atributos
similares)
• Agrupación
(Reglas/Lógica)
• Jerarquía
(Padre/Hijo)
• Reglas de
Relacionamiento/E
scenarios
• Políticas de acceso
y compartición
(internas/externas)
• Provisión de datos
• Metadatos (uso,
linaje, etcétera)
• Normativas/Seguri
dad
• Fuentes de datos
externas
Cambios
Administrativos
• Calidad de los
datos y Aceptación
• Medición y
monitoreo
• Detección y
corrección de
errores
• Control de cambios
centralizados
• Jurisdicción sobre
los datos
Estandarización de datos
Administración de datos
Administración de los datos maestros
Procesamiento
•Coincidencia e
identificación
•Procesamiento CRUD
(Created,Read,Update
d,Deleted)
•Corrección de datos
•Depurar los cambios
de datos
•Reglas de persistencia
•Integración al flujo de
trabajo
CALIDAD DE LOS DATOS
• La calidad de los datos consiste en verificar si los
mismos son aptos para su uso previsto en las
operaciones, la toma de decisiones y la planeación.
Analizar
Monitorear
Información
Planeación
INICIATIVAS DE CONTROL DE CALIDAD
•
•
•
•
Conocer el contexto de los datos.
Perfilar los datos que se requieren.
Crear y mantener los estándares de calidad.
Dar seguimiento a la calidad de los datos.
CÓMO ADMINISTRAR LA CALIDAD DE
LOS DATOS?
La gestión de la calidad de datos implica el
establecimiento e implementación de:
• Roles
• Responsabilidades
• Políticas
• Procedimientos
• Tecnología
Personas
Tecnología
Procesos
ESTÁNDARES DE CALIDAD
ISO 8000
ISO 22745
• Los principios de la
calidad de datos
• Las características de
los datos que
determinan su calidad
• Los procesos que
aseguran la calidad de
los datos
• Define los diccionarios
técnicos abiertos
• Aplicación de los
diccionarios a los
datos maestros
International Association for Information and Data Quality
http://www.iaidq.org/
AGENDA
 Escenarios
 Definiciones, Procesos y Estándares
 Master Data Services
 Data Quality Services
SERVICIOS DE DATOS MAESTROS
• Centralizar la gestión de los activos de información.
• Crear una sola versión autorizada de los datos.
• Mejorar la calidad, consistencia e integridad de los
datos.
• Crear reportes y análisis más precisos.
• Promover el cumplimiento de la normatividad.
CAPACIDADES DE MDS
Validación
Modelado
Creación de reglas de negocio
para garantizar la exactitud
Entidades, Atributos, Jerarquias
MDS
Excel Add-In
Seguridad basada en roles y
Anotación de Transacciones
Coincidencia de
datos
Web UI
Master Data
Stewardship
Versionamiento
Habilita la Integración & el Intercambio
Carga datos por lotes
usando tablas de
paso
Excel
Registra cambios a
través de APIs
DWH
Consume datos a
través de vistas
Workflow /
Notificaciones
Externa
(CRM, ..)
COMPONENTES DEL MDS
• Base de datos Master Data Services
• Contiene los objetos que usa Master Data Services
• Aplicación Web de Master Data Services
• Permite a los administradores crear y administrar los
objetos de Master Data Services, como las entidades y
los atributos.
• Permite a los responsables (data stewards) administrar
los datos maestros.
• Master Data Services Configuration Manager
• Permite a los administradores crear la base de datos para
Master Data Services y la aplicación Web.
COMPONENTES DE UNA SOLUCIÓN MDS
•
•
•
•
•
•
•
•
•
Modelo (Model)
Entidades (Entities)
Atributos (Attributes)
Miembros (Members)
Jerarquías (Hierarchies)
Colecciones (Collections)
Reglas de negocio (Business rules)
Vistas de Suscripción (Subscription views)
Versiones (Versions)
CÓMO UTILIZAR MDS?
•
•
•
•
•
•
•
•
Decida qué datos desea administrar
Construya un modelo
Cargue los datos
Cree reglas
Establesca flujos de trabajo y Notificaciones
Defina la seguridad
Cree procesos de refresco de datos
Comparta los datos
ARQUITECTURA MDS
INTEGRACIÓN DE MDS CON DQS
•
•
•
Realiza la coincidencia de datos
Integrado dentro del MDS Excel Add-In
Poderoso en escenarios de:
•
•
•
•
Prevención de duplicación de datos (dedupe)
La agrupación de información se solicita para las
optimizaciones
Utiliza el conocimiento existente creado por los
expertos de calidad de los datos en el DQS
Permite añadir conocimiento/ adaptar el
conocimiento existente en el MDS Excel Add-In
AGENDA
 Escenarios
 Definiciones, Procesos y Estándares
 Master Data Services
 Data Quality Services
Data Quality Services (DQS) es una
solución de calidad de los datos basada en el
conocimiento, que permite a los profesionales
de TI y a los data stewards mejorar fácilmente la
calidad de sus datos.
CONCEPTOS DE UNA SOLUCIÓN DQS
Dirigidas por el Conocimiento
Basado en una Base de Conocimientos de Calidad de Datos (Data
Quality Knowledge Base - DQKB) que es reutilizable para mejorar la
Calidad de Datos
Semántica
Los datos son mapeados en Dominios, que capturan su Semántica
Descubrimiento de Conocimiento
Adquiere conocimiento adicional a través de datos muestra y
realimentación del usuario.
Abierto y Extensible
Soporta el uso de Conocimiento generado por el usuario y Proveedores
de datos de referencia de terceros.
Fácil de usar
Experiencia de usuario diseñada para incrementar la productividad
QUÉ ES UNA BASE DE CONOCIMIENTO?
• Repositorio de conocimiento acerca de los datos:
• Los Dominios definen valores y reglas para cada campo
• Las políticas de Coincidencia definen reglas para identificar registros
duplicados.
QUÉ ES UN DOMINIO?
• Los Dominios son
específicos para un campo
de datos.
Dominio
• Los Dominios contienen las
reglas para los datos
Valores
• Los Dominios pueden ser
individuales o compuestos
Datos de
referencia
Reglas y
Relaciones
QUÉ ES UN SERVICIO DE REFERENCIA
DE DATOS?
• En Azure Marketplace
residen proveedores
especialistas en limpieza de
datos

Da de alta una cuenta

Suscríbete al servicio de
referencia

KB
Dirección
Nombre
Dirige tu dominio hacia el
servicio de referencia
Nombre
Apellidos
REQUISITOS PARA UNA SOLUCIÓN DQ
Dar seguimiento y
monitorear el
estado de las
actividades de
calidad de datos y la
calidad de los datos
Analizar las fuentes
de datos; obtener
información acerca
de la calidad de los
datos, para
identificar los
problemas de
calidad.
Monitoreo
Limpieza
Profiling
Matching
Modificar, eliminar o
enriquecer los datos
incompletos e
incorrectos. Esto
incluye corrección
estandarización y
enriquecimiento.
Identificar, enlazar y
quitar duplicados
dentro o a través de
conjuntos de datos.
PROCESOS PARA DQS
Administrar Conocimiento
Datos de
Referencia
Construir
Datos
Empresariales
Base de
Conocimientos
Profiling
Integrado
Estátus
Progreso
Notificaciones
Usar
Proyectos DQ
LIMPIEZA DE DATOS - USANDO SSIS
Data Flow SSIS
ServidorDQS
Base de Conocimiento
Paquete SSIS
Valores/Reglas
Definición de Referencias
Políticas de Coincidencia
Fuente
Componente de
DQS Cleansing
Destino
ARQUITECTURA DQS
Clientes DQS
Cliente DQS
Descubre y
Administra
Conocimiento
Proyectos
Interactivos DQ
Servicios DQS en la Nube
DataMarket – Datos de Referncia
Categorizados
Servidor DQS
API Referencia de Datos
(Navega, Ordena, Valida…)
DQS Engine
Administración
DQS Store - KB, Dominios
Descubrimiento
de
Conocimiento
API Referencia de Datos
(Navega, Obten, Actualiza…)
Limpieza
Data Profiling
Exploración
Coincidencia
Datos de
Referencia
Otros Clientes DQS
Almacén de proyectos DQ
Almacén de Conocimientos
Componente DQS
Cleansing para SSIS
Futuros Clientes:
Excel, SharePoint,
MDS…
Proyectos
DQS
KBs
Publicados
© 2010 Microsoft Corporation. Microsoft Materials - Confidential. All rights reserved.
Datos de
Referencia
de 3er
Servicios
de
Referencia
de Datos
PREGUNTAS
Mi Blog
http://www.granadostroncoso.com.mx
SolidQ Mentors blogs
http://blogs.solidq.com/Pages/Home.aspx
SolidQ Journal
http://www.solidq.com/sqj/Pages/Home.aspx
Microsoft
http://www.microsoft.com/sqlserver/en/us/solutionstechnologies/SQL-Server-2012-businessintelligence.aspx