Download Presentacion de las session
Document related concepts
Transcript
MDS Y DQS ¿QUÉ ES ESO? Lo nuevo del BI en SQL Server 2012 Miguel Angel Granados Troncoso • Chapter Leader SQL PASS México MIGUEL ANGEL GRANADOS TRONCOSO • Miguel es un profesional con más de 15 de experiencia, él es graduado de la Universidad Autónoma Metropolitana. • A lo largo de su carrera ha trabajado en diferentes tipos de industrias que van desde finanzas hasta automatización pasando por las áreas de Salud, Biodiversidad y la enseñanza. • Ha desempeñado puestos de: Desarrollador, Líder de Proyectos, Arquitecto, DBA, Profesor y consultor de IT. • Actualmente labora como mentor de SolidQ. • En la parte de comunidades lidera el capítulo SQL PASS Ciudad de México. • Su especialidad es el área de Inteligencia de Negocios. AGENDA Escenarios Definiciones, Procesos y Estándares Master Data Services Data Quality Services 1 9s Requeridos & Protección 2 Exploración Rápida de Datos 6 Auto Servicio BI Administrado 9 Crece Bajo Demanda Cumplimiento Organizacional Desempeño Super Veloz 5 3 10 Soluciones Rápidas 7 Datos Consistentes y Creíbles 11 Productividad Optimizada 4 Tranquilidad y Confianza 8 Analísis & DW Escalable 12 Datos Hacia Cualquier Parte DATOS CONSISTENTES Y CREÍBLES Las empresas con datos precisos se desempeñan mejor¹ Hrs que pasan los empleados cada semana buscando información % de datos maestros completos & precisos Mejor 20% Desempeño 91% 50% Desempeño Medio Bajo 30% Desempeño 68% Debajo 50% ¹Fuente: “Turning Pain into Productivity with Master Data Management,” Aberdeen Group, Feb 2011 1.2hrs 2.8hrs 6hrs POR QUÉ DEBO TENER MDM? SI PUEDO… - Incompleta y costosa - No considera la interacción humana - Cómo se obtuvieron los datos? - Tenemos los datos que necesitamos? - Es escalable? LA IMPORTANCIA DE LA CALIDAD DE DATOS Los problemas de Calidad de Datos le cuestan a las empresas en E.U. más de $600 billones al año. Data Warehousing Institute (TDWI) Los costos asociados con datos de mala calidad incluyen: • Exceso de inventario • Costos altos en la cadena de abastecimiento • Mayores costos de marketing directo • Facturación • Y otros más… PROBLEMAS DE MALA CALIDAD Calidad de datos Problema Ejemplo Formato ¿Los valores tienen un formato estándar consistente? Formatos de números telefónicos: xxxxxxxxxx, (xxx) xxx-xxxx 1.xxx.xxx.xxxx, etc. Etandarización ¿Se entienden y están definidos de manera consistente los valores de los datos? ‘Genero’ = M, F, U Consistencia ¿Los valores tienen el mismo significado? Cómo se presentan las ganancias? Dólares, Euros, ambos? Integridad ¿Se encuentrán presentes los datos necesarios? 20% de los apellidos esta vacío, el 50% de los códigos postales son 99999 Precisión ¿Los datos representan con exactitud la realidad o provienen de una fuente verificable? Un proveedor aparece como ‘Activo’ pero salio del negociohace seis años Validación ¿Los valores de los datos se encuentran en rangos aceptables? Los valores de salarios deben de estar entre 60,000-120,000 Duplicados Los datos aparecen varias veces John Ryan y Jack Ryan aparecen en el sistema – ¿son la misma persona? ‘Genero’ = 0, 1, 2 AGENDA Escenarios Definiciones, Procesos y Estándares Master Data Services Data Quality Services QUÉ ES UN DATO MAESTRO? • Son los datos clave que forman parte de los activos más importantes de la empresa. FUENTES DE DATOS MAESTROS • • • • • Metadatos Datos Transaccionales Datos Jerárquicos Datos semiestructurados Datos No estructurados IDENTIFICANDO DATOS MAESTROS La Cardinalidad La Complejidad La Volatilidad Mantenimiento histórico de los datos • Reutilización • • • • GOBERNABILIDAD DE DATOS Estratégico Gobernabilidad TI Gobernabilidad de datos. Administración de datos. Calidad de datos. Táctico Corrección de datos ADMINISTRACIÓN DE LOS DATOS Contenido Relacionamiento Acceso • Detalles acerca del tema • Identificación de atributos • Nombres de los temas • Definiciones • Representación de los valores • Formatos Estándar • Parte de identidad (atributos similares) • Agrupación (Reglas/Lógica) • Jerarquía (Padre/Hijo) • Reglas de Relacionamiento/E scenarios • Políticas de acceso y compartición (internas/externas) • Provisión de datos • Metadatos (uso, linaje, etcétera) • Normativas/Seguri dad • Fuentes de datos externas Cambios Administrativos • Calidad de los datos y Aceptación • Medición y monitoreo • Detección y corrección de errores • Control de cambios centralizados • Jurisdicción sobre los datos Estandarización de datos Administración de datos Administración de los datos maestros Procesamiento •Coincidencia e identificación •Procesamiento CRUD (Created,Read,Update d,Deleted) •Corrección de datos •Depurar los cambios de datos •Reglas de persistencia •Integración al flujo de trabajo CALIDAD DE LOS DATOS • La calidad de los datos consiste en verificar si los mismos son aptos para su uso previsto en las operaciones, la toma de decisiones y la planeación. Analizar Monitorear Información Planeación INICIATIVAS DE CONTROL DE CALIDAD • • • • Conocer el contexto de los datos. Perfilar los datos que se requieren. Crear y mantener los estándares de calidad. Dar seguimiento a la calidad de los datos. CÓMO ADMINISTRAR LA CALIDAD DE LOS DATOS? La gestión de la calidad de datos implica el establecimiento e implementación de: • Roles • Responsabilidades • Políticas • Procedimientos • Tecnología Personas Tecnología Procesos ESTÁNDARES DE CALIDAD ISO 8000 ISO 22745 • Los principios de la calidad de datos • Las características de los datos que determinan su calidad • Los procesos que aseguran la calidad de los datos • Define los diccionarios técnicos abiertos • Aplicación de los diccionarios a los datos maestros International Association for Information and Data Quality http://www.iaidq.org/ AGENDA Escenarios Definiciones, Procesos y Estándares Master Data Services Data Quality Services SERVICIOS DE DATOS MAESTROS • Centralizar la gestión de los activos de información. • Crear una sola versión autorizada de los datos. • Mejorar la calidad, consistencia e integridad de los datos. • Crear reportes y análisis más precisos. • Promover el cumplimiento de la normatividad. CAPACIDADES DE MDS Validación Modelado Creación de reglas de negocio para garantizar la exactitud Entidades, Atributos, Jerarquias MDS Excel Add-In Seguridad basada en roles y Anotación de Transacciones Coincidencia de datos Web UI Master Data Stewardship Versionamiento Habilita la Integración & el Intercambio Carga datos por lotes usando tablas de paso Excel Registra cambios a través de APIs DWH Consume datos a través de vistas Workflow / Notificaciones Externa (CRM, ..) COMPONENTES DEL MDS • Base de datos Master Data Services • Contiene los objetos que usa Master Data Services • Aplicación Web de Master Data Services • Permite a los administradores crear y administrar los objetos de Master Data Services, como las entidades y los atributos. • Permite a los responsables (data stewards) administrar los datos maestros. • Master Data Services Configuration Manager • Permite a los administradores crear la base de datos para Master Data Services y la aplicación Web. COMPONENTES DE UNA SOLUCIÓN MDS • • • • • • • • • Modelo (Model) Entidades (Entities) Atributos (Attributes) Miembros (Members) Jerarquías (Hierarchies) Colecciones (Collections) Reglas de negocio (Business rules) Vistas de Suscripción (Subscription views) Versiones (Versions) CÓMO UTILIZAR MDS? • • • • • • • • Decida qué datos desea administrar Construya un modelo Cargue los datos Cree reglas Establesca flujos de trabajo y Notificaciones Defina la seguridad Cree procesos de refresco de datos Comparta los datos ARQUITECTURA MDS INTEGRACIÓN DE MDS CON DQS • • • Realiza la coincidencia de datos Integrado dentro del MDS Excel Add-In Poderoso en escenarios de: • • • • Prevención de duplicación de datos (dedupe) La agrupación de información se solicita para las optimizaciones Utiliza el conocimiento existente creado por los expertos de calidad de los datos en el DQS Permite añadir conocimiento/ adaptar el conocimiento existente en el MDS Excel Add-In AGENDA Escenarios Definiciones, Procesos y Estándares Master Data Services Data Quality Services Data Quality Services (DQS) es una solución de calidad de los datos basada en el conocimiento, que permite a los profesionales de TI y a los data stewards mejorar fácilmente la calidad de sus datos. CONCEPTOS DE UNA SOLUCIÓN DQS Dirigidas por el Conocimiento Basado en una Base de Conocimientos de Calidad de Datos (Data Quality Knowledge Base - DQKB) que es reutilizable para mejorar la Calidad de Datos Semántica Los datos son mapeados en Dominios, que capturan su Semántica Descubrimiento de Conocimiento Adquiere conocimiento adicional a través de datos muestra y realimentación del usuario. Abierto y Extensible Soporta el uso de Conocimiento generado por el usuario y Proveedores de datos de referencia de terceros. Fácil de usar Experiencia de usuario diseñada para incrementar la productividad QUÉ ES UNA BASE DE CONOCIMIENTO? • Repositorio de conocimiento acerca de los datos: • Los Dominios definen valores y reglas para cada campo • Las políticas de Coincidencia definen reglas para identificar registros duplicados. QUÉ ES UN DOMINIO? • Los Dominios son específicos para un campo de datos. Dominio • Los Dominios contienen las reglas para los datos Valores • Los Dominios pueden ser individuales o compuestos Datos de referencia Reglas y Relaciones QUÉ ES UN SERVICIO DE REFERENCIA DE DATOS? • En Azure Marketplace residen proveedores especialistas en limpieza de datos Da de alta una cuenta Suscríbete al servicio de referencia KB Dirección Nombre Dirige tu dominio hacia el servicio de referencia Nombre Apellidos REQUISITOS PARA UNA SOLUCIÓN DQ Dar seguimiento y monitorear el estado de las actividades de calidad de datos y la calidad de los datos Analizar las fuentes de datos; obtener información acerca de la calidad de los datos, para identificar los problemas de calidad. Monitoreo Limpieza Profiling Matching Modificar, eliminar o enriquecer los datos incompletos e incorrectos. Esto incluye corrección estandarización y enriquecimiento. Identificar, enlazar y quitar duplicados dentro o a través de conjuntos de datos. PROCESOS PARA DQS Administrar Conocimiento Datos de Referencia Construir Datos Empresariales Base de Conocimientos Profiling Integrado Estátus Progreso Notificaciones Usar Proyectos DQ LIMPIEZA DE DATOS - USANDO SSIS Data Flow SSIS ServidorDQS Base de Conocimiento Paquete SSIS Valores/Reglas Definición de Referencias Políticas de Coincidencia Fuente Componente de DQS Cleansing Destino ARQUITECTURA DQS Clientes DQS Cliente DQS Descubre y Administra Conocimiento Proyectos Interactivos DQ Servicios DQS en la Nube DataMarket – Datos de Referncia Categorizados Servidor DQS API Referencia de Datos (Navega, Ordena, Valida…) DQS Engine Administración DQS Store - KB, Dominios Descubrimiento de Conocimiento API Referencia de Datos (Navega, Obten, Actualiza…) Limpieza Data Profiling Exploración Coincidencia Datos de Referencia Otros Clientes DQS Almacén de proyectos DQ Almacén de Conocimientos Componente DQS Cleansing para SSIS Futuros Clientes: Excel, SharePoint, MDS… Proyectos DQS KBs Publicados © 2010 Microsoft Corporation. Microsoft Materials - Confidential. All rights reserved. Datos de Referencia de 3er Servicios de Referencia de Datos PREGUNTAS Mi Blog http://www.granadostroncoso.com.mx SolidQ Mentors blogs http://blogs.solidq.com/Pages/Home.aspx SolidQ Journal http://www.solidq.com/sqj/Pages/Home.aspx Microsoft http://www.microsoft.com/sqlserver/en/us/solutionstechnologies/SQL-Server-2012-businessintelligence.aspx