inteligencia de negocio- modelos dimensionales y esquemas estrellas
TRANSCRIPT
Sistemas de Información
UNIVERSIDAD CENTRAL DE VENEZUELAFACULTAD DE CIENCIAS
ESCUELA DE COMPUTACION
´
Tema 6: Inteligencia de Negocio. Modelado Multidimensional
1Prof. Wilfredo Rangel
IntroducciónOrigen y DefiniciónSoluciones Analíticas¿Qué es OLAP?Características de las Soluciones analíticas
Agenda
© 2010, Universidad Central de Venezuela. Sistemas de Información.
2
Características de las Soluciones analíticasModelaje MultidimensionalETLMetodología de desarrollo de soluciones analíticas
Objetivos de Aprendizaje
Al finalizar este capitulo, usted estará en capacidad de:
• Los conceptos básicos de OLAP
• Entender los aspectos relacionados al desarrollo de
soluciones analíticas basadas en OLAP (Online
© 2010, Universidad Central de Venezuela. Sistemas de Información.
soluciones analíticas basadas en OLAP (Online
Analitycal Processing)
• La arquitectura y módulos de las soluciones analíticas
• emplear metodologías de desarrollo de estándares de
la industria de BI
3
IntroducciónOrigen y definición¿Qué es OLAP?Características de las Soluciones
Analíticas
© 2010, Universidad Central de Venezuela. Sistemas de Información.
AnalíticasModelaje Multidimensional –
Esquema Estrella
4
Mejores practicas para el diseño de base de datos paraOLAP
Kimball, Ralph; et al. (1998). The Data Warehouse Lifecycle Toolkit.
Técnica de modelaje NO implementación de base de datos
Modelaje Dimensional
© 2010, Universidad Central de Venezuela. Sistemas de Información.
Técnica de modelaje NO implementación de base de datosTablas de base de datos estándares
Optimizada para agregaciones masivas y dinámicas
Importante en MOLAP; Realmente Importante en ROLAP
5
En la mayoría de los cursos de BDD:Base de datos relacionales3NF = IDEALClaves, Uniones, Roles, Flexibilidad
OLTP (OnLine TransactionProcessing)
BDdatos para soporte de aplicaciónes
Tercera Forma Normal
© 2010, Universidad Central de Venezuela. Sistemas de Información.
BDdatos para soporte de aplicaciónesMODELO IDEAL PARA:
Muchos usuarios, pequeñospedazos de dataEj: Debito # 1002 $40.00 retiradaen el cajero (ATM) # 33354
MODELO MALO PARA:Pocos Usuarios y grandespedazos de dataSumas, agregación y cálculos
Esquema Estrella – (MODELO)
FACT
Tabla Fact (Hechos)
Una tabla fact contiene elementos que
se quieren medir. Las Transacciones:
Ingreso (Bs. $)
Cantidad Vendida (unidades)
Precio Promedio
Las Medidas son los valores que se
tratan de reportar: El “Qué”
© 2010, Universidad Central de Venezuela. Sistemas de Información.
7
Tabla Dimensión
Las Dimensiones son las formas como
se quieren ver las medidas. Por ejemplo:
Por cliente
Por fecha
Por producto
Las dimensiones dan contexto, significado
a la información en los reportes
(agrupaciones, etiquetas, filtros, etc.). El
“Por”
Esquema estrella – QUÉ y POR (REPORTE)
© 2010, Universidad Central de Venezuela. Sistemas de Información.
8
Usa un “lenguaje” durante el análisis para encontrar medidas y dimensiones
QUE = HECHO (medidas)
QUIEN = DIMENSIONES
Ejemplos:
Quisiera saber cuales son las proporciones de Ventas por mis tipos de
Esquema Estrella – QUÉ y POR (LENGUAJE)
© 2010, Universidad Central de Venezuela. Sistemas de Información.
Quisiera saber cuales son las proporciones de Ventas por mis tipos de
producto y tipos de cliente.
Cual es la proporción de ganancia que proviene de clientes actuales vs
clientes nuevos .
Cual es el perfil de los clientes (perfil = Localidad, Ingreso, y Genero) que
hace el 80% de mi ganancia actual opuesto al 80% de mis ingresos .
9
¿ Como es el query para obtener las ventas por año, mes y departamento?¿ Cuantos Joins son necesarios para obtener la data que quiero?¿ Estos querys sobrecargan el sistema transaccional? ¿Qué tal OLAP?
3NF vs Esquema Estrella
© 2010, Universidad Central de Venezuela. Sistemas de Información.
10
Consideremos un ejemplo de una operación de ventas, enla cual el tiempo, producto, región, tienda y cliente son lasdimensiones de la base de datos, y se busca medir latransacción de venta en la tabla fact.
Hechos y Dimensiones
© 2010, Universidad Central de Venezuela. Sistemas de Información.
11
Jerarquías y nivelesLas jerarquías pueden existir en una dimensión en la cual sirven comonavegaciones predefinidasUna jerarquía esta compuesta de uno o más nivelesUna dimensión puede tener una o más jerarquías
Propiedades
Tabla Dimensión
© 2010, Universidad Central de Venezuela. Sistemas de Información.
PropiedadesCada nivel de dimensión tiene un atributo primario que provee un“identificador único de usuario” para ese nivelAtributos y propiedades adicionales pueden existir para cada nivel queprovee un valor descriptivo
12
Dimensión Tiempo
Jerarquía del calendarioAño
Trimestre
Jerarquías y niveles – Notación lógica
TABLA “tiempo_dim”( CAL_AÑO / integerCAL_TRIM / integerCAL_MES / integerFIS_AÑO / integerFIS_TRIM / integer
© 2010, Universidad Central de Venezuela. Sistemas de Información.
Mes
Jerarquía FiscalAño Fiscal
Trimestre FiscalMes Fiscal
13
FIS_TRIM / integerFIS_MES / integer )
Es una Tabla planaLas Columnas son estandaresEl significado y metodos deagregación (drill up/down, etc) seimplementan en el servidor OLAP
Dimensiones Conformadas (Compartidas)
• Son aquellas que son compartidas entre esquemas estrella
• Permite el diseño escalable de bases de datos analíticas
• Permite el análisis y agregación por área entre distintos sujetos
Geografía dim
© 2010, Universidad Central de Venezuela. Sistemas de Información.
14
Empleado dim
Producto dim
Geografía dim
Ventas Fact
Cliente dim
Fecha dim
Inventarios FactAlmacén dim
Una dimensión degenerada es representada con un soloatributo.Al menos que el tipo de dato sea grande, estasdimensiones son almacenadas como una columna en latabla hecho
Estrategia :
Dimensiones Degeneradas y Combinadas
© 2010, Universidad Central de Venezuela. Sistemas de Información.
Estrategia :Si hay más de una dimensión degenerada
tienen algún grado de relaciónsus cardinalidades son relativamente pequeñas, de forma tal que un productocartesiano no produce muchas filas
Entonces, se puede crear una dimensión combinadaUna columna por atributo/dimensiónUna fila por cada combinación
15
También llamadas dimensiones basuraAntes de tener muchas columnas de 0 y 1 en la tabla de hechos
Crea una dimensión que sea el producto cartesiano de dos dimensionesdegeneradasLas búsquedas deben hacerse por los atributos
Dimensiones Combinadas
Dimensiones Degeneradas Dimensión Combinada
© 2010, Universidad Central de Venezuela. Sistemas de Información.
16
Dimensiones Degeneradas
Sexo
M / F / I
Tipo de Orden
Nuevo / Retornado
Dimensión Combinada
Dimensión ID / Sexo / Tipo de Orden
1 / M / Nuevo
2 / M / Retornado
3 / F / Nuevo
4 / F / Retornado
5 / I / Nuevo
6 / I / Retornado
Todas las combinaciones
Dimensión “Tipo 1”:Nueva información sobrescribe la información vieja.La información vieja es perdida, no se guarda.Solo se puede usar en aplicaciones en las cuales mantener un histórico de la data noes esencial; solo se usa para actualizaciones.
Dimensión “Tipo 2”:La información nueva es adjuntada a la información vieja.
Dimensiones que cambian lentamente (SCD)
© 2010, Universidad Central de Venezuela. Sistemas de Información.
La información nueva es adjuntada a la información vieja.La información vieja se guarda y es versionada.Se puede usar en aplicaciones en las cuales mantener un histórico de los datos esrequerido de forma tal que cambios en el data warehouse pueden ser rastreados.
Dimensión “Tipo 3”:La nueva información se guarda junto con la información vieja.La información vieja es guardada parcialmente.Se crean columnas adicionales para mostrar el momento a partir del cual la nuevainformación ha tomado efecto.Habilita una vista de hechos tanto en el estado actual como una vista tentativa delescenario utilizando valores dimensionales viejos.
17
Los hechos aditivos se agregan a través de todas las dimensionesE.j. Ingreso por ventas
Los hechos semi-aditivos agregan a través de dimensionalidad parcial,
generalmente no agregan en la dimensión tiempoE.j. Artículos a mano
Hechos aditivos vs. semi-aditivos
Pregunta válida: ¿Cuántos ítems habían en el inventario el primero de julio?
© 2010, Universidad Central de Venezuela. Sistemas de Información.
18
Pregunta válida: ¿Cuántos ítems habían en el inventario el primero de julio?Pregunta Inválida: ¿Cuántos ítems habían en el inventario en Julio?
La segunda pregunta no tiene sentido. ¿El usuario quiere la cantidad promedio
por día para julio? ¿La cantidad al comienzo del mes? ¿Al final?
Los hechos semi-aditivos generalmente se miden en un punto del tiempo (como
una foto del estado en un momento determinado).
Los hechos aditivos generalmente se usan para marcar un evento transaccional.
Modelo SnowFlake
• Modelo estrella es el más puroacercamiento al modeladodimensional– Mejores practicas– Es el más utilizado
• El copo de nieve es un modelomás normalizado
Norm
alization
© 2010, Universidad Central de Venezuela. Sistemas de Información.
más normalizado– Más espacio físico/ Problemas
de performance
19
Norm
alization
Esquema Estrella vs. Copa de Nieve
Star
Snowflake
© 2010, Universidad Central de Venezuela. Sistemas de Información.
• Todos los niveles dimensionales estáncontenidos en una sola tabla
• Introduce redundancia en los datos• Indexación y consultas simplificadas• Generalmente el método preferido
20
Niveles dimensionales son
normalizados a tablas separadas
Elimina redundancia en los datos
Reutilización simplificada de
dimensiones de alto nivel en agregados
Ejemplo de Esquema Copa de Nieve
Mfrid Marca Prodid
Producto
Mfr Nombre Mfrid
Mfr
Día Prodid Unid. Bs Pago Clientid
VentasMfr es un diseño en copade nieve
© 2010, Universidad Central de Venezuela. Sistemas de Información.
21
Estado Ciudad ClientidAño Trim Mes Día
TiempoCliente
de nieve
Conclusiones
• Hemos realizado un estudio de …..
• Hemos hecho una discusión sobre….
• Se han desarrollado demostraciones de
Conclusiones
© 2010, Universidad Central de Venezuela. Sistemas de Información.
22