Download Fundamentos de la teoría relacional para extracción de datos
Document related concepts
Transcript
Fundamentos de la teoría relacional para extracción de datos MultiValores del RDBMS jBase Galván-Salinas A.M.1, Jiménez-Alfaro, A.J.2. 1,2 MISC-TESE, Av. Tecnológico s/n, Col. Valle de Anáhuac, CP 55210 1 am.galvan@ymail.com ajja_mx@yahoo.com 2 Resumen El presente artículo pretende fundamentar el cálculo relacional del manejador de base de datos multivalor relacional jBase, el cual tiene como objetivo cargar los datos en la mayoría de los gestores de datos relacionales, aumentando la velocidad en los procesos actuales de extracción de datos para jBase y dar a conocer las herramientas de conexión que se utilizar para gestionar los datos y fundamentándonos en de las bases de datos relacionales. Palabras Clave: ETL, jBase, RDBMS Introducción La Extracción Transformación y Carga de siglas E.T.L, son procesos por lotes programados, los procesos de integración de datos se generan en tres pasos; la extracción recoger o tomar datos desde su fuente. La transformación, es la de convertir, reformatear, limpiar los datos en formato que se pueden utilizar ser la base de datos de destino. La carga, es importar los datos transformados en una base de datos destino, almacén de datos o un Data Mart. La integración de datos permite crear información consistente y precisa. Crear reglas de negocio en los metadatos, lo cual permite la rápida generación de flujos de datos, esto nos lleva a la importancia de la extracción de un sistema gestor de bases de datos, particularmente si se desea hacerlo en bases de datos multivalor jBase, cuando los ETL actuales del mercado, en su mayoría son únicamente son para bases de datos relacionales de un valor y la consultoría para lograr la extracción en las bases de datos multivalores son costosas y de un largo tiempo. Metodología Se utilizó como base el método científico realizando métodos cuantitativos tratando de establecer relaciones casuales que supongan la explicación del trabajo, tales como descripciones de los resultados de experimentos, a enunciados universales, hipótesis o teorías, para controlar el desarrollo total con métodos observacionales recogiendo datos relevantes a medida que se desarrolla el proyecto terminando con el caso de estudio, que nos lleve a utilizar la herramienta como parte de un nuevo desarrollo, recogiendo los datos para determinar la efectividad de la herramienta. Bases de datos Relacionales El papel de las bases de datos en los sistemas y aplicaciones de cómputo es de gran importancia ya que la mayoría de estos sistemas tienen alguna necesidad de almacenar datos de manera persistente. Los sistemas encargados de la administración de esos conjuntos de datos son llamados sistemas manejadores de base de datos (SGDB). En 1970 Edgar F. Codd publicó un trabajo proponiendo un nuevo modelo de datos que perseguía como objetivo general la flexibilidad y sencillez; el modelo ofrece estructuras de datos simples y lenguajes sencillos para los usuarios, facilitando la comprensión y utilización por estos. Sin la importancia de este objetivo de sencillez. (Stefan, Bob, & Richard, 2001) La aparición del modelo relacional representa un verdadero hito en el desarrollo de las bases de datos, ya que ha marcado tres etapas diferentes, conocidas como generaciones de los SGBD: Pre-relacionales. Los sistemas pre relacionales (SGBD) se basan en modelos Codasyl (en red), Jerárquico y ficheros planos (flat files). Relacionales. Los sistemas relacionales (RDBMS) ganan madurez en el mercado y los productos basados en este modelo van desplazando poco a poco a los sistemas basados en punteros de la etapa pre-relacional. Post-relacionales. Aparecen manifiestos de otros modelos de datos, en especial los orientados a objetos. Se distinguen manifiestos puristas OO que dan lugar a RDBMS-OO puros como O2, Gemstone y, en paralelo, corrientes evolutivas del modelo relacional que relajan hipótesis básicas del modelo original de Codd (relajación de la primera forma normal) para ofrecer estructuras de datos más complejas. Se propone una evolución desde el modelo relacional a RDBMS-OO relacionales. (Harrington, 2009) Principios de las bases de datos Relacionales En contraste con todos los modelos de datos y la gestión de bases de datos (ya sea jerárquica, red u orientada a objetos), el modelo relacional goza de una base teórica sólida, de hecho, proporcionar los fundamentos fue uno de los principales objetivos de la labor de investigación llevada a cabo por E.F.Codd que resultó en el modelo relacional elaborado en los años 70’s. (Stefan, Bob, & Richard, 2001) La estructura de una RDBMS es la siguiente: “Relación: Es la estructura básica del modelo relacional. Con una relación es posible representar tanto instancias de una entidad del universo real como interrelaciones entre entidades de distinto tipo. Es capaz de recoger interrelaciones de cardinalidad múltiple. Su representación informal es una tabla. Atributo: Representa las propiedades de la relación. Un atributo, necesariamente ha de definirse sobre un dominio. Su representación informal es una columna y es la unidad más pequeña de los datos en el modelo relacional. Dominio: Es el conjunto válido de valores de referencia para definir propiedades o atributos. Un dominio es un conjunto nominado y homogéneo de valores. Tupla: Es una ocurrencia o instancia dentro de una relación. Una tupla permite referenciar una instancia de una entidad en el universo o la interrelación específica o concreta entre instancias de entidades. Su representación informal es una fila. Una relación tiene un “conjunto” de tuplas. Grado: Se define como el número de dominios Cardinalidad: Se define como el número de tuplas de la relación.” (Sevilla) Una relación es un subconjunto de un producto expandido cartesiano de , no ( ), tales que para cada necesariamente de dominios distintos …., elemento =< , ,…., >∈ ( ) una proposición predefinida (< , )( ) ,… , > es verdadera; ∈ ( ) para cada i = , , . . . , , donde es el número de -filas en la relación (cardinalidad de ) y es el número de atributos en la relación (grado de ). (Stefan, Bob, & Richard, 2001) Las Bases de Datos MultiValores Don Nelson (1960) diseñó el modelo de datos multivalor en la primera mitad de 1960. Don Nelson trabajó en la primera implementación de este modelo para el Ejército de los EE.UU. en 1965. En la década de los 60´s son solo tres las implementaciones principales bases de datos multivalores que fueron muy similares, Dick Pick VersiónR77, MicrodataReality 3.x, y Prime Information 1.0. A pesar de los intentos de normalizar las bases de datos multivalor, en particular por Spectrum International y la Asociación de Fabricantes de Spectrum, no hay normas para las bases de datos multivalor. Grupos de comercialización y de la industria de las RDBMS han clasificado en los últimos años a las bases de datos Multivalor como pre-relacional o post-relacional, con críticas o malos acuerdos para la clasificación de este tipo de SGBD. En la actualidad podría ser clasificada como No SQL. Con un modelo de datos que se alinea bien con XML y que permite el acceso con o sin el uso de SQL. (Encyclopedias) JBase Base de Datos MultiValor Fue lanzado en 1991 por una pequeña compañía en el Reino Unido por James Anthony Consultores, (JAC), más tarde se convertiría jBASE Software Limited. Formado 06 de marzo 1989, por James Martin y Clive Anthony Ketteridge, la compañía creció a nivel mundial a lo largo de la década de 1990. El 1 de diciembre de 1999, jBASE Software Limited y sus filiales fueron adquiridas al 100% por TemenosGroup AG, un banco con sede en Suiza. La historia de la jBASE se caracteriza por ser los pioneros en tener una idea de las bases de datos MultiValor y relacional, desde el principio jBASE fue una base de datos diseñada para la independencia de plataforma. La base de datos multidimensional jBASE, lleva a los puntos del modelo de base de datos relacional y le suma varios beneficios importantes, como la facilidad de uso, excelente rendimiento, pequeño tamaño y todas las ricas características de los Atributos Multivalores. (TEMENOS, 2011) El cálculo Relacional en las Bases de Datos MultiValores Es una restricción entre dos conjuntos de atributos de una relación, que requiere que ciertas tuplas estén presentes en la misma. Dicha restricción se concreta en la cuarta forma normal. Sea un esquema de relación. La dependencia multivaluada → vale en si los pares de tuplas en , tal que [ ] = [ ] existen las tuplas y en tales que: [ ]= [ ]= [ ]= [ ] (5) [ ]= [ ] (6) [ − − ]= [ − − ] (7) [ ]= [ ] (8) [ − − ]= [ − − ] (9) En otras palabras se puede decir que: → si dado un valor de , hay un conjunto de valores de asociados y este conjunto de valores de NO está relacionado (ni funcional ni multifuncionalmente) con los valores de − − (donde es el esquema), es decir es independiente de los atributos de − − . Una dependencia multivaluada de la forma → , es trivial cuando el conjunto de atributos { , } conforma el total de los atributos del esquema”. (Harrington, 2009) La conectividad de a bases de datos Se realiza por medios de una Interfaz de Objetos de Acceso a Datos, se encuentra como punto medio entre las aplicaciones y las API's que llegan a ser necesarias para el acceso a las bases de datos. ODBC.- Conectividad Abierta a Bases de Datos accede a datos en sistemas manejadores de bases de datos relacionales, creado por Microsoft para utilizar datos en ETL’s en varios ambientes operativos, como Windows y Linux, utilizando para ello SQL. (Signore, John, & Michael O, 1995) OLE DB.- Bases de Datos con Vinculación e Incrustación de Objetos está conceptualmente dividido en consumidores y proveedores; el consumidor es la aplicación que requiere acceso a los datos y el proveedor es el componente de software que expone una interfaz OLE DB a través del uso del Component Object Model (COM). (Brill, 2000) JDBC.- Conectividad Java a Bases de Datos conocida por sus siglas JDBC es un conjunto de interfaces de comunicación entre aplicaciones Java y fuentes de datos. Conecta un programa de usuario con la base de datos de forma transparente, sin importar el software de administración de base de datos que se utilice para controlarlo. (Haecke, 1997) Conclusiones La Fundamentación de las bases de datos relacionales es necesaria para el desarrollo del E.T.L que se pretende crear, se deja en claro, un bosquejo de historia sobre los Sistemas Gestores de Bases de Datos Pre-Relacionales, Relacionales y Post-Relacionales, así como estructura de las bases de datos relacionales y sus elementos principales, algunos de los principales autores de las bases de datos multivalores, los nombres de las 3 principales bases de datos multivalor y su carencia de normalización. Y por último el nacimiento de la base de datos jBase con los atributos multivalor y relacional. Como trabajo futuro se generará un modelo de Software E.T.L para la base de datos multivalor jBase con extracción de archivos planos, reglas de carga de archivos, procesos de carga, verificaciones de archivos planos (expresiones regulares, integridad referencial y normalización). Metas Se pretende crear E.T.L para extracción de datos para las corporaciones que utilicen jBase como base de datos principal y que tengan la necesidad de extraer datos para manejarlos de manera integral en un DataWarehouse, DataMart o migración de datos. Con objeto del desarrollo de un nuevo software con reglas de negocio ya establecidas. Generar un modelo de Software E.T.L para la base de datos multivalor jBase con las siguientes características; extracción de archivos planos, reglas de carga de archivos, proceso de carga, verificaciones de los archivos planos expresiones regulares, integridad referencial, normalización. Bibliografía Academic Dictionaries and Encyclopedias. (n.d.). Retrieved 05 25, 2012, from http://en.academic.ru/dic.nsf/enwiki/5743873 Brill, G. (2000). Applying COM+. United States of America: New Riders Publishing. Encyclopedias, A. D. (n.d.). Academic Dictionaries and Encyclopedias. Retrieved 05 25, 2012, from http://en.academic.ru/dic.nsf/enwiki/5743873 Haecke, V. (1997). Bernard. IDG Books Worldwide. Harrington, J. L. (2009). Relational database design and implementation. Burlington, MA 01803, USA: Morgan Kaufmann. Sevilla, U. d. (n.d.). Bases de Datos Modelo relacional de Codd Estructuras y restricciones. Retrieved 04 06, 2012, from Lenguajes y Sistemas Informaticos: http://www.lsi.us.es/docencia/get.php?id=5366 Signore, R., John, C., & Michael O, S. (1995). The ODBC Solution. Mcgraw-Hill. Stefan, S., Bob, C., & Richard, L. (2001). Theory and Practice of Relational Databases. Oxford, UK: Taylor & Francis. TEMENOS. (2011). TEMENOS HOLDINGS NV. Retrieved 04 06, 2012, from TEMENOS HOLDINGS NV: http://www.jbase.com/new/support/41docs/jBASE%205%20Overview.pdf