Download - João Carvalho
JOÃO CARVALHO
Data Warehouses
DEFINIÇÃO
Um Data Warehouse é um sistema de computação utilizado para armazenar informações relativas às actividades de uma organização em bases de dados, de forma consolidada. O desenho da base de dados favorece os relatórios, a análise de grandes volumes de dados e a obtenção de informações estratégicas que podem facilitar a tomada de decisão.
FUNCIONAMENTO
O Data Warehouse possibilita a análise de grandes volumes de dados, recolhidos dos sistemas transaccionais.
São as chamadas séries históricas que possibilitam uma melhor análise de eventos passados.
Por definição, os dados num Data Warehouse não são voláteis, ou seja, eles não mudam, salvo quando é necessário fazer correcções de dados previamente carregados.
Os dados estão disponíveis somente para leitura e não podem ser alterados.
ARQUITECTURA Um data warehouse é constituído por 3
partes:
Armazenamento
Modelagem
Metadado
ARMAZENAMENTO
É feito num depósito único mas que seja de rápido acesso para as análises.
Tal armazenamento tem que possuir um histórico com todos os dados possíveis para que possa se ter uma análise mais apurada.
MODELAGEM Os sistemas de base de dados tradicionais
utilizam a normalização no formato de dados para garantir consistência dos dados e uma minimização do espaço de armazenamento necessário.
Algumas transacções e consultas em bases de dados normalizadas podem se tornar lentas devido às operações de junção entre tabelas.
Um Data Warehouse utiliza dados num formato sem padrão definido.
Essa maneira de reordenar os dados chama-se Modelagem Dimensional, e o resultado da modelagem é o Modelo Dimensional, ou MD.
METADADO O conceito Metadado é considerado como
sendo os "dados sobre dados", isto é, os dados sobre os sistemas que operam com estes dados.
Um repositório de metadados é uma ferramenta essencial para a gestão de um Data Warehouse no momento de converter dados em informações para o negócio.
Entre outras coisas, um repositório de metadados bem construído deve conter informações sobre a origem dos dados, regras de transformação, nomes e alias, formatos de dados, etc.
ACESSO O Data Warehouse é normalmente acedido
através de Data Marts, que são pontos específicos de acesso a subconjuntos do Data Warehouse.
Os Data Marts são construídos para responder prováveis perguntas de um tipo específico de utilizador.
um Data Mart financeiro poderia armazenar informações consolidadas dia-a-dia para um gestor e em periodicidades maiores (semana, mês, ano) para um utilizador no nível da directoria.
EXTRACÇÃO DE DADOS
Os dados introduzidos num Data Warehouse geralmente passam por uma área conhecida como área de estágio.
O estágio de dados ocorre quando existem processos periódicos de leitura de dados.
Os dados podem passar então por um processo de qualidade, de normalização e gravação dos dados no Data Warehouse.
FERRAMENTAS
OLAP
Data mining
OLAP
As ferramentas OLAP (do inglês, Online Analytical Processing) são geralmente desenvolvidas para trabalhar com bases de dados desnormalizados (sem padrões pré-definidos), embora existam ferramentas que trabalham com esquemas especiais de armazenamento, com dados (informações) normalizados.
OLAP Essas ferramentas são capazes de navegar
pelos dados de um Data Warehouse, possuindo uma estrutura adequada tanto para a realização de pesquisas como para a apresentação de informações
OLAP
Nas ferramentas de navegação OLAP, é possível navegar entre diferentes níveis de granularidades (detalhe) de um cubo de dados.
Através de um processo chamado Drill o utilizador pode aumentar (Drill down) ou diminuir (Drill up) o nível de detalhe dos dados.
OLAP
Outra possibilidade apresentada pela maioria das ferramentas de navegação OLAP é o recurso chamado Slice and dice.
Esse recurso é usado para criar visões dos dados por meio da sua reorganização, de forma que eles possam ser examinados sob diferentes perspectivas.
DATA MINING
Data Mining ou mineração de dados, é o processo de descoberta de padrões existentes em grandes massas de dados.
Apesar de existir ferramentas que ajudam na execução do processo, o Data mining não tem automatização simples (muitos discutem se é sequer factível) e precisa ser conduzido por uma pessoa, preferencialmente com formação em Estatística ou áreas afins.
CARACTERÍSTICAS DE UM DATA WAREHOUSE
Orientado a assunto
Integrado
Não volátil
É variável consoante o tempo
ORIENTADO A ASSUNTO
Os warehouse são feitos para responder abordagens sobre certos assuntos como, saber mais sobre as vendas da empresa, ou sobre os resultados das actuações das equipas de marketing em determinadas regiões.
O warehouse é feito para responder perguntas sobre certos assuntos como: “Quais foram os melhores clientes em um determinado período?”, “Qual foi o lucro obtido sobre uma campanha de em uma determinada região?”.
INTEGRADO
Um Data Warehouse, armazena dados de várias fontes de dados, mas é comum que as informações sejam cadastradas em formatos e padrões diferentes nas diversas fontes de dados, para ser possível relacionar informações entre os sistemas, estas informações devem ser previamente tratadas antes de serem armazenadas no warehouse, neste processo diversas actividades são feitas, tais como:
INTEGRADO
Conversão de datas para um formato único
Resolução de conflitos entre nomes
Conversão de medidas
NÃO VOLÁTIL
Num warehouse somente existem duas operações a serem feitas:
Carregamento de dados
Consulta.
NÃO VOLÁTIL
Dizer que um Data Warehouse não é volátil significa que as informações registadas não são actualizadas, o que é feito é que um novo registo é gravado e este passa a ser utilizado de um certo tempo em diante.
Isto possibilita que consultas realizadas para um certo período retornam sempre o mesmo resultado, pois os registos não foram actualizados.
VARIÁVEL COM O TEMPO
Ser variável com o tempo significa somente que os Data Warehouses mantêm um histórico por muito mais tempo que um sistema de dados operacional ou transaccional, enquanto os sistemas OLTP (online transaction processing) guardam históricos por um curto período, para não reduzir a performance do sistema, os warehouses guardam um histórico por muito tempo, assim possibilitando que análises de tendências ao longo do tempo sejam feitas com suas informações.
?