resumen datawarehouse
TRANSCRIPT
-
8/18/2019 Resumen DataWarehouse
1/12
ANALISIS DE LA INFORMACION Y DECISION – PARCIAL 1
LA INTELIGENCIA COMERCIAL:Es un conjunto de productos y servicios que permiten acceder a datos, analizarlos y convertirlos eninformación. Representa una iniciativa corporativa amplia que incluye DataWarehouse y DataMining.naliza la información para tomar decisiones, apoya a la gerencia de la empresa. !ermite entender lasnecesidades de los clientes."E#E$%DD DE #&"'R #&" %"(&RM#%)" %"'E*RD!ro+lemas
%ne-istencia de datos corporativos%slas información de un mismo cliente separada en sistemas de distintas /reas0(alta de datos históricos.
LOS SSD (SISTEMAS PARA EL SOPORTE DE DECISIONES): HISTORIA:#iclos manuales
1 Recepción demorada del informe1 !2rdida de performance de los sistemas operacionales
E-tracción y vuelco de datos operacionales en las !#3s1 Mara4a de !rogramas de e-tracción1 (alta de #redi+ilidad Distintos momentos, con distintos algoritmos....1 (alta de productividad1 (alta de 5e-i+ilidad
NUEVO ENFOQUE DE LOS DSS:
1 #onsolidar los datos en un nuevo entorno, integrado, con perspectiva histórica y con facilidad demanipulación e6data 7 datos reunidos y sincronizados electrónicamente0
1 8a solución se analiza desde dos enfoques• Desde la 'ecnolog9a y su evolución.• Desde los tipos de sistemas e-istentes.
"ecesidad de nuevas herramientas con :or;station heterog2neas y usuarios autónomos•
-
8/18/2019 Resumen DataWarehouse
2/12
ANALISIS DE LA INFORMACION Y DECISION – PARCIAL 11 8istar pr2stamos hechos al cliente ? y fechas de pago en que se demoró1 Mostrar todos los clientes que compraron el producto ? el a4o pasado
Análisis multidimensional:1 Mostrar ingresos trimestrales por ventas a grandes clientes por zona drill0 en los a4os @AAB y
@AAC $lice0
Modelado:
1 Desgaste del cliente
Segmentación:1 #lientes que responden a descuentos1 #lientes que no responden a promociones
DC (Descubrimiento de Conocimiento):1 n/lisis de a=nidad
DATAWAREHOUSE
Repositorio de datos históricos referidos a un tema en particular. #olección de data marts m/speque4os. !lataforma de hard:are, soft:are y datos separada que permita a un hom+re de negocios
tomar decisiones.
#olección de datos derivados (Según !"" In#$n)1 &rientados a un tema FG una transacción01 %ntegrados1 Haria+les en el tiempo1 "o vol/tiles
%ntegra datos de diferentes fuentes u or9genes $istemas &8'!, archivos planos, información e-terna,etc.0$us datos se usan para la toma de decisiones. 8os data:arehouses des normalizan información con el=n de
1 liviar la carga de los servidores1 ca+ar con datos sucios1 $eguridad en el acceso a los datos corporativos.1 Ina Jnica verdad
ESCALAILIDAD HARD
1 $M!s Multiprocesador $im2trico. #omparten memoria f9sica y +us.1 #lJster1 M!!s
HERRAMIENTAS
1 De modelado y dise4o de datos #$E0 o modelos de datos prefa+ricados por industria1 De E'81 De administración
• !lani=cación de capacidad• Kac; up• De seguridad• De registro de uso• De control de rendimiento
1 De usuario =nal• !ara
-
8/18/2019 Resumen DataWarehouse
3/12
ANALISIS DE LA INFORMACION Y DECISION – PARCIAL 1
SISTEMAS OLTP (ON%LINE TRANSACTIONAL PROCESSING):
1 8as actividades incluyen comprar, vender, producir, transportar.1 $on puramente operacionales.1 Isa normalización.
SISTEMAS OLAP (ON%LINE ANALYTICAL PROCESSING):
$istemas especialmente dise4ados para el an/lisis de la información en apoyo a la toma de decisiones.1 8as actividades incluyen presupuestar, evaluar, plani=car. $on orientados a la toma de
decisiones.1 Re5eja lo que no hay en la normalización.1 "o necesita consistencia1 8a unidad es la consulta1 $e apoya en información histórica y proyectada1 Itiliza hechos, medidas y dimensiones con las cuales crea el modelo estrella.1 $e ve en t2rminos de echos o Medidas, !ar/metros o Dimensiones.
Requerimientos de un $istema &8!1 R/pido, 5e-i+le y con acceso a grandes volJmenes de datosN1 R/pido acceso a datos y r/pidos c/lculos1 (uertes capacidades anal9ticas formulaciones estad9sticas complejas01 %nterfaces amiga+les1 Histas 5e-i+les para realizar c/lculos impensados y ofrecer modalidades de e-posición
gr/=cos, ta+las, etc.01 $oporte a mJltiples usuarios la cantidad de usuarios crece d9a a d9a.
OLAP VERSUS DW$urgieron en forma independiente.
1 &8! hace 2nfasis en proceso de satisfacción al usuario =nal y de e-plotación de la información
1 DW hace hincapi2 en la o+tención y almacenamiento de los datosN proceso para o+tener datosseguros, consistentes, integrados y disponi+les.Ina solución ro+usta es la utilización de am+os. !orque no $
-
8/18/2019 Resumen DataWarehouse
4/12
ANALISIS DE LA INFORMACION Y DECISION – PARCIAL 1 'iempo Repuesta G @,B De seg. a minutos!antallas (ijas Haria+lesInidad 'ransacción #onsulta#aracter9sticas Read LWrite Read(oco %ngreso de Datos %nformacióncceso a Datos Decenas MillonesHalores #orrientes istóricos y proyectados"aturaleza Din/mico Est/tico hasta
Refresh&rganización !or aplicación seguros de vida, salud,
auto....!or tema siniestros, pólizas,clientes
Estructura "ormalizada Des normalizada*ranularidad Detallada #on cierto nivel de sumarización
DATAMININGDescu+rimiento de patrones y tendencias ocultas.
EVOLUCIONES DIVERGENTES
• Data Mart
• DW &peracional o &D$DATA MART
• $u+set de una gran DW.• Mejor performance.• M/s simple para entender y mantener.• utonom9a de los usuarios.• Replica datos y descentraliza accesos.
We+housing %ntegración de DW con tecnolog9as We+ %ntranet y E-tranet0.• Hentajas
$encillo y económico.
Disponi+ilidad. plicaciones din/micas.
• Desventajas Helocidad de respuesta. 8imitaciones para visualizar reportes complejos. Di=cultan para transmitir im/genes pesadas.
C
-
8/18/2019 Resumen DataWarehouse
5/12
ANALISIS DE LA INFORMACION Y DECISION – PARCIAL 1
MODELO MULTIDIMENSIONAL:
1 (acilitar la de=nición y el manejo de datos sumarizados y an/lisis a mJltiples niveles.1 $e puede de=nir un conjunto de datos en t2rminos de mJltiples dimensiones un
hipercu+o01 8as dimensiones pueden ser jer/rquicas y permiten distintos niveles de agregación1 Hisualizar los datos, desde mJltiples perspectivas.
parece para responder a nuevos o+jetivos
1 Requerimientos del an/lisis del negocio.1 (/cil y o+via.1 'iene que ser 5e-i+le a los cam+ios del negocio.1 De+e descri+ir e-actamente el pasado.1 "o se de+e +uscar solamente una herramienta de sumarización,1 !ara dise4ar no vale el DER.1 Es fundamental comprender el negocio para la selección correcta de las dimensiones.
1 Es muy importante disponer de herramientas soft:are adecuadas para e-plotar elmodelo.
#omo crear un modelo Multidimensional
>. %denti=car las medidas.@. %denti=car las dimensiones y jerarqu9as.B. Determinar la granularidad.C. #onstruir el modelo estrella.O. Heri=car el modelo con los usuarios y re=narlo.P. Determinar la po+lación del modelo, mediante un mapeo de los datos.
Hisualización• 'a+ular
O
-
8/18/2019 Resumen DataWarehouse
6/12
ANALISIS DE LA INFORMACION Y DECISION – PARCIAL 1 8o Jnico que importa es el contenido. Es la mejor parar leer los valores e-actos y actuales. Es detallada al m/-imo. !ermite ver los valores y cantidades de ventas.
• *ra=ca $on gr/=cos contenidos so+re los nJmeros. Descri+en tendencias. Muestran relaciones entre los valores. pro-iman m/s a la realidad.
#recimiento $e de+e considerar la granularidad, dado que determinar/ el crecimiento de la(ac 'a+le. Isar solo las dimensiones necesarias.
ipercu+o
• M/s de B dimensiones.• #ompuesto por una serie de ejes.
• $in l9mite de dimensiones.Densidad del cu+o
In cu+o es denso cuando las dimensiones tienen todos sus miem+ros, $olo se da en muypocos casos. $i no se forman agujeritos de información. Esto sucede en las com+inaciones dedimensiones donde no hay medidas asociadas.
H9nculo entre DW, MM y &8!
8o ideal es dise4ar especialmente un Data:arehouse para e-plotar un
Modelo Multidimensional a trav2s de una herramienta &8!.
DW & MM & He''#!en* OLAP + SOLUCION OLAP
P
-
8/18/2019 Resumen DataWarehouse
7/12
ANALISIS DE LA INFORMACION Y DECISION – PARCIAL 1
MEDIDAS:
1 %nformación cuantitativa1 Representan el cu/nto de una consulta1 !rimitivas o calculadas1 $e almacenan en la (#' 'K8E1 $on lo que quiero mostrar1 !ueden ser !rimitivas o #alculadas1 'ipos de Medidas
o ditivas $on suma+les.o $emi6ditivas $olo pueden ser sumadas a veces. Ej. $toc;.
o "o aditivas "o tienen sentido sumarlas. Ej. !orcentaje.DIMENSIONES:
1 #ali=cadores que dan sentido a las medidas1 $e almacenan en las 'K8 DE D%ME"$%&"E$, junto con sus atri+utos1 $e guardan cómo códigos num2ricos o pocos caracteres1 !ueden tener jerarqu9as, que son distintos niveles de sumarización1 !ueden tener mJltiples jerarqu9as. !ermiten mJltiples niveles de agregación.
o D9a $emana 4o o D9a Mes 4o o (acilitan los reportes con distinto nivel de detalle.
o !uede ser vista como un /r+ol donde los miem+ros de menor nivel son las hojas.o De+en ser 5e-i+les
1 tri+utos
Q
-
8/18/2019 Resumen DataWarehouse
8/12
ANALISIS DE LA INFORMACION Y DECISION – PARCIAL 1o #ampos que ampl9an la información de cada elemento de la dimensión.o (acilitan las consultas a los usuarios =nales.o tri+utos varia+les son aquellos que pueden cam+iar en el tiempo. Ej. de %H.
1 Dan sentido a las medidas de la (act 'a+le.1 'a+las
o $on m/s cortas y anchas que las (act 'a+le. 'ienden a ser m/s anchas que largas.o 'ienen claves que no provienen de la fuente de datos.o Isan claves num2ricas simples.o Est/n des normalizadas.
1 gregacióno !roceso por el cual la información de +ajo nivel se resume anticipadamente y se
coloca en ta+las especiales que almacenan la información resumida. 8a t2cnica deagregación es parte integral de la solución al pro+lema de performance.
1 Dimensión Degeneradao Es tener una dimensión sin ta+la. Ej. *uardo el nro. de factura.
1 Mini Dimensióno +rir una dimensión en @ o m/s peque4as.
1 *ranularidad
o Es el nivel elemental Serarqu9a M9nima0o Ina vez de=nida, no se puede minimizar.o Es el grado m9nimo que se representa en la (act 'a+le.
FACT TALE (T," -e .e/.$*):
1 #entro del modelo dimensional1 'iene punteros a las claves de menor nivel de cada dimensión1 #ontiene las medidas.1 $i necesito distintas granularidades, entonces necesito distintas (act 'a+le.1 "o tiene referencias "I8$ a ninguna dimensión.1 8os atri+utos pertenecen a las dimensiones y no a los a las (act 'a+les.
1 $on m/s largas que anchas.1 Ina (act 'a+le sin medidas puede ser posi+le, pero es un caso at9pico. $e utiliza pararegistrar un EHE"'&, que el hecho se produjo. Evento de vinculación entre dimensionesEnfermedades 6 #entro Medico0.
1 $e usa m/s de una (act 'a+le cuando las dimensiones no son comunes o cuandoencuentro medidas que son cali=cadas por dimensiones distintas.
MODELO ESTRELLA
Dise4o especial para los procesos anal9ticos. #ada ta+la de dimensiones se vincula con la (act
'a+le, siempre por el mismo campo. Es simple e intuitivo, como as9 tam+i2n demantenimiento 5e-i+le.
CONSIDERACIONES
#uando se construye un modelo multidimensional de de+e tener en cuenta
• 8as dimensiones y sus atri+utos.• 8as jerarqu9as de las dimensiones• 8a granularidad de las dimensiones.
$i +ien los datos son generalmente num2ricos, podr9an ser te-tuales, gr/=cos, sonidos, etc.
8os atri+utos son generalmente alfa+2ticos.(ormulas rangos0
T
-
8/18/2019 Resumen DataWarehouse
9/12
ANALISIS DE LA INFORMACION Y DECISION – PARCIAL 1• 8as elementales son las sumas.• $e de=nen so+re los ejes no so+re las celdas0
(ormulas condicionadas
• Depende lo que pidan, puedo sumar o sacar promedio $i piden media de ventao total de venta0.
ARQUITECTURA
#ualquier arquitectura de+e
• $er soporte de la toma de decisiones.• !ermitir una vista multidimensional de datos.• Drill acer un agujero, so+re las dimensiones.• $lice Re+anar.• Dice acer un cu+o m/s peque4o
Es poco e=ciente usar un formato que re5eje =elmente la vista del usuario.
#arga del DW
•
-
8/18/2019 Resumen DataWarehouse
10/12
ANALISIS DE LA INFORMACION Y DECISION – PARCIAL 1
• M&8!a. Multidimensional &8!. Isa un esquema multidimensional.+. 8os datos se almacenan de forma similar a como se usaran.c. Itilizan matrices multidimensionales.d. 8os cu+os incluyen datos recalculados.e. 8imitación en el tama4o de los cu+os.f. 8a carga y pre calculación requiere un tiempo signi=cativo.
• D&8!a. Des;top &8!. erramientas y cu+o residen en la !#.+. 'ra+aja con los datos de forma oUine.c. erramientas son f/ciles de usar, pero su capacidad anal9tica es limitada.
>A
-
8/18/2019 Resumen DataWarehouse
11/12
ANALISIS DE LA INFORMACION Y DECISION – PARCIAL 1
• %&8! L &8!a. $olución integrada L i+rida+. !uede com+inar +ases relacionales y multidimensionales.
Elección de la arquitectura. #ualquier decisión depender/ de
• 'ama4o de la +ase.• #antidad de dimensiones• Escala+ilidad demandada•
'iempo de respuesta• *rado de dispersión• (recuencia de actualización• %nfraestructura.
ODS (OPERATIONAL DATA STORE)
#aracter9sticas
• Datos %ntegrados. &rientados a un tema ctualizados casi en tiempo real. Hol/tiles. #orrientes. Detallados.
• Kene=cios Reportes operacionales m/s r/pidos. ccesi+ilidad a datos cr9ticos. Hisión completa de un tema. #on posi+ilidad de replicar datos en los sistemas operacionales.
yuda a alimentar el DW.• %ntegración
Mediante procesos +ach.
>>
-
8/18/2019 Resumen DataWarehouse
12/12
ANALISIS DE LA INFORMACION Y DECISION – PARCIAL 1 Mediante triggers.
'ratamiento de los datos
• %ncompletos Decisión #&M!8E'R fectando el resultado
• #onstante glo+al.• Halor promedios.• M/s pro+a+le
$in afectar el resultado• 8lenar el valor manualmente.• %gnorar.
• Datos con ruido Decisión !8"R Encajado $uavizar, segJn valor medio de la caja. #lJster Detectar outliers. Regresión justando valores segJn la función.
• Datos inconsistentes Decisión DE'E#'R X E8%M%"R• Datos E-cesivos fectan la celeridad de la e-plotación0. Decisión Reducir sin
afectar la calidad.
>@