data warehouse - computação unioesteolguin/4463-semin/g4-apresentacao.pdf · dados dos sistemas...

38
DATA WAREHOUSE Rafael Ervin Hass Raphael Laércio Zago

Upload: lamminh

Post on 09-Nov-2018

213 views

Category:

Documents


0 download

TRANSCRIPT

DATA WAREHOUSE

Rafael Ervin HassRaphael Laércio Zago

Roteiro

IntroduçãoAplicaçõesArquiteturaCaracteríst icasDesenvolvimentoEstudo de CasoConclusão

Introdução

O conceito de "data warehousing" data da metade da década de 1980. Ele consiste em um modelo arquitetural para o f luxo de dados dos sistemas de informação operacionais para os ambientes de suporte à decisão. Ele abrange os mecanismos de obtenção, armazenamento e disponibilização dos dados para os ambientes de suporte à decisão.

Aplicações

On- Line Analyt ic Processing (OLAP) para suporte a tomada de decisões;Data mining, que usa o data warehouse como fonte de informações para sistemas de descoberta de dados;Database marketing, que utiliza o data warehouse para prover serviços personalizados para compradores específicos.

OLAP – On- Line Analytic Processing

Consultas ad- hoc;Slice- and- Dice;Drill Down/ Up;Geração de Queries.

Arquitetura

Bancos de Dados Operacionais / Camada de Banco de Dados Externo

Armazenamento dos dados de sistemas de informação operacionais;Fontes de informação externas, como bancos de dados públicos;Possivelmente Heterogêneos.

Camada de Acesso à Informação

A camada com a qual o usuário f inal lida diretamente;Representa as ferramentas que o usuário f inal normalmente usa no dia a dia;Inclui o hardware e software envolvido na visualização e impressão de relatórios, planilhas, grafos e gráficos para análise e apresentação.

Camada de Acesso de Dados

Envolvida com a permissão da camada de acesso à informação para "conversar" com a camada operacional.Uso de uma linguagem de dados comum: SQL;Responsável pelo interfaceamento entre ferramentas de acesso à informação e bancos de dados operacionais.

Diretório de Dados

Repositório de informações de metadados;Metadados são os dados sobre os dados internos à organização;Usuários f inais devem ser capazes de acessar dados do data warehouse, sem ter de conhecer onde os dados residem ou a forma na qual ele é armazenado.

Camada de Gerenciamento de Processos

Escalonamento das várias tarefas que devem ser realizadas para gerar e manter as informações do data warehouse e do diretório de dados;Controlador de alto nível das tarefas para os muitos processos (procedimentos) que devem ocorrer para manter o data warehouse atualizado.

Camada de Mensagens de Aplicação

Transporte de informação pela rede de computação organizacional;As mensagens de aplicação são também chamadas de "middleware";Podem ser usadas para isolar aplicações, operacionais ou informacionais, do formato exato dos dados no outro lado.

Camada de Data Warehouse

O núcleo do data warehouse;Onde os dados são primariamente guardados para uso informacional;No data warehouse físico, cópias de dados operacionais ou externos são armazenados em um formato de fácil acesso e altamente flexível.

Camada de Plataforma de Dados

Também chamada de gerenciamento de cópia ou gerenciamento de replicação;Inclui todos os processos necessários para selecionar, editar, sumarizar, combinar e carregar data warehouses e dados de informações de acesso de bancos de dados operacionais ou externos.

Características

Orientado à Assunto;Integrados;Não- Volát il;Variável no Tempo;Accessível;Orientado à Processo.

Desenvolvimento de Data Warehouse

Desenvolvimento de Data Warehouse

É um deposito de dados de fontes múlt iplas;Processado para armazenamento em modelos dimensionais;Não é volát il, a informação muda com menos freqüência;Granularidade dos dados mais espessa;Polít ica de atualização.

Desenvolviemento de Data Warehouse

Componente para aquisição e pré-processamento dos dados;Geralmente são uma ou duas ordens de magnitudes maiores que os banco de dados fontes (terabytes);

Modelagem do Data Warehouse

Utiliza modelos dimensionais;Gera matrizes mult idimensionais a part ir relações inerentes aos dados. Chamados cubos de dados;Podem ter mais de 3 dimensões, os chamados hipercubos;

Modelo de cubo de dados

Modelo de cubo de dados

Dados podem ser consultados em qualquer combinação das dimensões;Através do pivoteamento (ou rotação) pode mudar a orientação dimensional de um cubo de dados;

Modelo de cubo de dados

Rotação em um cubo de dados

Modelagem do Data Warehouse

Modelos mult idimensionais podem ser ut ilizados em visões hierárquicas;Apresentações rol l - up e dr i l l - down;– Rol l - up : segue a direção de baixo para cima

na hierarquia, agrupa unidades maiores;– Dr i l l - dow n : tem a capacidade oposta,

fornece uma visão com uma granularidade mais f ina;

Modelagem do Data Warehouse

Armazenamento mult idimensional ut iliza tabelas de fatos e dimensões;– Tabelas de Dimensões: possui atributos de

dimensão;– Tabelas de fatos: possui uma tupla por fato

registrado, são relacionadas às tabelas de dimensão;

Modelo de dados multidimensional

Esquemas multidimensionais

Estrela– Uma tabela de fato possui uma única tabela

para cada dimensão;

Snowf lake– Variação do esquema estrela;– As tabelas do esquema estrela são

organizadas hierarquicamente através de sua normalização

Esquema Snowflake

Indexação

Indexação de junção para indexar os dados dimensionais as tuplas na tabela de fatos;Índices de junção são índices tradicionais para a manutenção de relacionamentos entre os valores da chave primária e da chave estrangeira.

Construção de um DW

Obter uma ampla visão do uso do warehouse;Suporte a consultas ad hoc;Definições sobre como os dados serão obtidos

Aquisição dos dados

Os dados precisam ser extraídos de fontes múlt iplas e heterogêneas;Os dados precisam ser formatados visando à consistência dentro do warehouse;Os dados precisam ser limpos para assegurar a validade;Os dados precisam ser carregados no DW.

Processos de armazenamento

Armazenamento dos dados de acordo com modelo de dados do warehouse;Criação e manutenção das estruturas de dados necessárias;Criação e manutenção de caminhos de acesso adequados;Fornecimento de dados que variam no tempo conforme novos dados são acrescentados;Suporte a atualização dos dados do warehouse;Atualização dos dados;Eliminação dos dados.

Atualização do data warehouse

O seu grande volume de dados torna impossível a total recarga;Atualização selet iva;Versões separadas do data warehouse;Mecanismo incremental de atualização de dados.

Estudo de Caso:Fingerhut Corp.

Empresa de venda por catálogos;

O funcionamento da empresa é baseado no uso do seu data warehouse;

Possui um corpo de 200 analistas de mercado, 300 designers e 40 cientistas estatíst icos que utilizam o DW para a separar o mercado em nichos e tomar decisões;

Estudo de Caso:Fingerhut Corp.

Transformando o departamento de market ing em um grupo de usuários com alto grau de especialização em tecnologia, conseguiu elevar constantemente suas vendas desde o f inal da década de 1980, chegando a 23% em 1995;

Divisão de TI possui 550 membros; 16 dedicados ao data warehouse.

Estudo de Caso:Fingerhut Corp.

Sintonia entre as equipes de market ing e TI fazem com que os marketei ros possam identif icar rápidamente nichos demográficos e nuances de comportamento;

Agrupa informações de seus clientes com informações compradas de outras organizações.

Conclusão

DW serve como um foco para a análise e apoio à decisão através de consultas e relatórios;

Estruturas de dados altamente sumarizadas;

São desenvolvidos iterat ivamente, isto é, cada área de atuação é desenvolvida como um projeto separado.

Conclusão

Oferece inúmeras vantagens para a organização:– Vantagens competit ivas;– Conhecimento aprimorado de relacionamentos

entre produtos e serviços;– Suporte à Análise;– Apoio à decisão;

FIM