bases de datos avanzadas - universidad veracruzana · 2017. 5. 25. · primero tira de todos los...
TRANSCRIPT
Facultad de Estadística e Informática
BASES DE DATOS AVANZADAS
Clase 26
Agenda
➢Integración de datosoSistemas de mediación
oData Warehousing
Integración de datosCÓMPUTO EN LA NUBE
Facultad de Estadística e Informática
¿Qué es?
“La integración de datos la podemos definir como el proceso de combinar datos que residen en diferentes fuentes y permitirle al usuario final tener una vista unificada de todos sus datos”
Facultad de Estadística e Informática
¿Qué es?
“La integración de datos la podemos definir como el proceso de combinar datos que residen en diferentes fuentes y permitirle al usuario final tener una vista unificada de todos sus datos”
Facultad de Estadística e Informática
¿Qué es?
➢ Brindan al usuario la percepción de consultar una única fuente de datos.
➢ El usuario no necesita preocuparse por:▪ Conocer las fuentes disponibles.▪ Localizar y acceder a las fuentes de datos.▪ Consultar cada fuente.▪ Integrar las respuestas de cada fuente.
Facultad de Estadística e Informática
¿Qué es?
Sistemas de
Integración
Heterogéneas
Autónomas
Poco estructuradas
Distribuidas
Facultad de Estadística e Informática
Heterogeneidad en cuanto a:
➢ Nivel de estructuración.➢ Modelo de datos.➢ Plataforma de software.➢ Convenciones de sintaxis.➢ Convenciones semánticas.➢ Diferencias de granularidad.
Facultad de Estadística e Informática
Clasificación
I. Virtuales: Los datos se mantienen en las fuentes y el sistema es un intermediario.
II. Materializados: Los datos se copian a un gran almacén central. Extract, Transform, Load (ETL)
Facultad de Estadística e Informática
Clasificación. Materializados
Extract, Transform, Load (ETL)Es un proceso en el que se extrae la información de las fuentes de datos, se transforman para que sean homogéneos y luego se cargan en una fuente destino. La idea es ofrecer una fuente de datos única que contiene toda la información contenida en las distintas fuentes de datos .
Facultad de Estadística e Informática
Clasificación. Materializados
Ventajas:•La información está físicamente en un repositorio único•Las consultas se resuelven de forma más rápidaDesventajas:•La información no suele estar actualizada: hay que ejecutar el proceso ETL para sincronizar los datos en caso de que las fuentes se actualicen
Facultad de Estadística e Informática
Clasificación. Virtuales
Definición: Ofrece una vista virtual que responde las consultas de los usuarios . La integración de los datos se hace en tiempo real, consultando cada una de las fuentes de datos cada vez que un usuario hace una consulta, es decir, ofrecer una vista en tiempo real de los datos.
Fuente de datos 1
Fuente de datos 2
Fuente de datos 3
Consulta 1
Consulta 1.1 Consulta 1.2 Consulta 1.3
Facultad de Estadística e Informática
Clasificación. Virtuales
Ventajas:•Ofrece una vista actualizada de los datos en tiempo real•Las fuentes trabajan de forma independiente (No hay que estar actualizando de forma continua)Desventajas:• Es más difícil resolver las consultas para dividirlas en las distintas fuentes y hacer el mapeo entre las fuentes y la vista de datos (Supone más tiempo para resolver las consultas)
Facultad de Estadística e Informática
Ejemplos
➢ Sistemas de mediación.➢ Sistemas de Data Warehousing.➢ Portales Web.➢ Etcétera.
Facultad de Estadística e Informática
Sistemas de Mediación
Mediador
VeracruzCiudad de
MéxicoYucatán Zacatecas
1
2 2 2 23 3 3 3
4
Alumnos con mejor promedio en el
sistema educativo nacional
…..
Integra la información virtualmente
Facultad de Estadística e Informática
Data Warehousing
“Un conjunto de datos orientado a temas, integrado, no volátil, variante en el tiempo, como soporte en la toma de decisiones de dirección” W.H. Inmon.
Facultad de Estadística e Informática
Data Warehousing
“Un conjunto de tecnologías de soporte a la toma de decisión, cuyo objeto es que quien trabaja con los conocimientos (ejecutivo, director, analista) pueda tomar decisiones de manera más rápida y eficaz.”
Facultad de Estadística e Informática
Data Warehousing. Características.
Están diseñados para realizar eficientemente la extracción, procesamiento y presentación para el análisis y la toma de decisiones.
No están diseñadas para soportar transacciones.
Facultad de Estadística e Informática
Data Warehousing. Características.
✓ Almacén de datos integrados provenientes de diversas fuentes, procesados para su almacenamiento en un modelo multidimensional.
✓ Suelen mantener series de tiempo y análisis de tendencia, necesitando datos históricos.
Facultad de Estadística e Informática
Data Warehousing. Características.
✓ Su contenido cambia con menos frecuencia que las bases de datos tradicionales. Su actualización es periódica.
✓ En las bases de datos la transacción es el agente de cambio, un almacén de datos se actualiza de acuerdo a una política de actualización analizada cuidadosamente.
Facultad de Estadística e Informática
Data Warehousing. Conceptos relacionados.
OLAP On-line analytical processing/Procesamiento analítico on-line.Describe el análisis de datos complejos del almacén de datos.Es lo más rápido para ejecutar sentencias SELECT.
Facultad de Estadística e Informática
Data Warehousing
DSS Decision support systems/Sistemas de soporte a la toma de decisiones o EIS Executive informationsystems/Sistemas de información ejecutiva.
Facultad de Estadística e Informática
Data Warehousing
OLTP On-line transaction processing/Procesamiento de transacciones on-line, son soportadas por las bases de datos tradicionales. Incluyen inserciones, actualizaciones, supresiones y consultas.
Facultad de Estadística e Informática
Data WarehousingProceso completo de almacenamiento utilizando almacenes de datos
DATOS
METADATOS
Otras entradas de datos
Bases de datosALMACÉN DE DATOS
Limpieza Reformateo
OLAP
DESSIEIS
MINERÍA DEDATOSActualizaciones / Nuevos datos
E T L
Facultad de Estadística e Informática
Usando este método, todos los datos de las diferentes bases de datos que tiene la intención de integrar son extraídos, transformados y cargados. Eso significa que el data warehouseprimero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos los datos a un formato común para que un conjunto de datos sea compatible con otro. A continuación, carga estos nuevos datos en su propia base de datos. Cuando se envía la consulta, el data warehouse localiza los datos, los recupera y los presenta en una visión integrada.
Data WarehousingProceso completo de almacenamiento utilizando almacenes de datos
Facultad de Estadística e Informática
Data Warehousing. Ejemplos.
Ejemplos de Data Warehouse: MS SQL SERVER Business Inteligence es la solución para construir data warehouse del manejador de base de datos SQL SERVER. EXCEL Business Inteligence La hoja de cálculo EXCEL de Microsoft permite la construcción de cubos y almacenes de datos para realizar análisis de información por medio de escenarios. Oracle Data Warehousing es la solución de Oracle para la creación de data warehouse.
Facultad de Estadística e Informática
Data Warehousing. Modelado de datos
Modelos multidimensionales Cubos de datos (Hipercubos si tienen más de tres dimensiones).Considerando que una base de datos relacional puede ser pensada como de dos dimensiones, una base de datos multidimensional considera cada atributo de datos (tal como producto, región geográfica de ventas, y período de tiempo) como una “dimensión" separada.
Facultad de Estadística e Informática
Data Warehousing
Matriz de dos dimensiones
Facultad de Estadística e Informática
Data Warehousing
Matriz de tres dimensiones
El cubo puede ser rotado (cambiar su orientación dimensional) para mostrar una orientación diferente de los ejes, con la técnica llamada pivotaje.
Facultad de Estadística e Informática
Data Warehousing
Los modelos multidimensionales pueden crear vistas jerárquicas,
conocidas como visualización roll-up y
drill-down.
Facultad de Estadística e Informática
Data Warehousing
Visualización roll-up.Mueve hacia arriba la jerarquía, agrupando en unidades más grandes.
P. ej. La vista de productos individuales hasta una amplia lista de categorías de productos.
Facultad de Estadística e Informática
Data Warehousing
Visualización drill-down. Operación contraria a roll-up.
Proporcionando una vista más fina.
P. ej. La descomposición de ventas regionales en subregiones y los tipos de productos en detalle de productos.
Detalle
Detalle
Detalle
Facultad de Estadística e Informática
Data Warehousing
El modelo de almacenamiento multidimensional implica dos tipos de tablas:
La tabla de dimensión. Tuplas de atributos de la
dimensión.
La tabla de hechos. Agrupación de tuplas. Una tabla
por cada hecho registrado. Cada hecho contiene una(s) variable(s) que asocia con punteros a la tabla de dimensión.
Facultad de Estadística e Informática
Data Warehousing
Tabla de dimensiónTabla de hechos
Facultad de Estadística e Informática
Data Warehousing
Esquemas multidimensionales.
De estrella. Una tabla de hechos con una única tabla por cada dimensión.De copo de nieve. Variación de la anterior. Las tablas dimensionales están organizadas en una jerarquía para normalizarlas.
Facultad de Estadística e Informática
Data Warehousing
De estrella
Facultad de Estadística e Informática
Data Warehousing
De copo de nieve
Facultad de Estadística e Informática
Data Warehousing
Constelación de hechos. Conjunto de tablas de hechos que comparten algunas tablas de dimensión
Facultad de Estadística e Informática
Data Warehousing
Técnicas de indexación.Se emplean técnicas de indexación para obtener mayor rendimiento en el acceso.
Indexación bitmap. Construye un vector de bits por cada valor del dominio (columna) a indexar.
Facultad de Estadística e Informática
Data Warehousing
Técnicas de indexación. Indexación bitmapPor ejemplo:Inventario de 100,000 coches.Indexación bitmap para el tipo de coche.Existen cuatro tipos: económico, compacto, gama media, de lujo Cuatro vectores de bits.
Facultad de Estadística e Informática
Data Warehousing
Técnicas de indexación. Indexación de concatenación.Empleado en el esquema de estrella.Relaciona los valores de una dimensión con las filas de la tabla de hechos.
Es empleada frecuentemente para mantener las relaciones establecidas entre los valores de una clave principal y una clave externa.
Gracias por su atención
Facultad de Estadística e Informática
ReferenciasFundamentos de Sistemas de Bases de Datos - 5ta Ed. - Elmasri & Navathe
Oracle Data Integrato, s.f., Extraído de: http://www.oracle.com/ocom/groups/public/@otn/documents/webcontent/317498_esa.pdf
Universidad de Sevilla. (2013). Integración de datos. Extraído de: https://www.lsi.us.es/docencia/get.php?id=6707