o processo de preparação de dados prof. francisco de a. t. de carvalho cin / ufpe

30
O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE

Upload: internet

Post on 17-Apr-2015

112 views

Category:

Documents


6 download

TRANSCRIPT

Page 1: O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE

O Processo de Preparação de Dados

Prof. Francisco de A. T. de Carvalho

CIN / UFPE

Page 2: O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE

processo de vários estágios onde se usa uma metodologia estruturadapara:

O Processo de Exploração de Dados

•descobrir e avaliar problemas;

•definir soluções e estratégias de implementação

•produzir resultados quantificáveis

Page 3: O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE

•Mineração de Dados•Preparação dos Dados•Inspeção dos Dados•Modelagem dos Dados

Estágios do Processo de Exploração dos Dados

• Exploração do Espaço de Problemas

•Exploração de Espaço de soluções

•Especificação do Método de Implementação

Page 4: O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE

• Exploração do Espaço de Problemas 10•Exploração de Espaço de soluções 9 20•Especificação do Método de Implementação 1•Mineração de Dados

•Preparação dos Dados 60•Inspeção dos Dados 15 80•Modelagem dos Dados 5

Duração de cada estágio (em % do total)

Page 5: O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE

• Exploração do Espaço de Problemas 15•Exploração de Espaço de soluções 14 80•Especificação do Método de Implementação 51•Mineração de Dados

•Preparação dos Dados 15•Inspeção dos Dados 3 20•Modelagem dos Dados 2

Importância de cada estágio (em % do total)

Page 6: O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE

Estágio 1: Exploração do Espaço de Problemas

Identificação dos Problemas

Identificação dos problemas certos à resolver

Definição precisa do problema

Iniciar definindo problemas de uma maneira precisa:•decompor enunciados gerais em componentes menores

Page 7: O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE

Mapa Cognitivo (Cognitive Maps)

Figura com:

•os objetos que constituem o espaço de problemas•as conexões e interações das variáveis

Sol

NuvensTemperaturado oceano

O sol aumenta a temperatura do oceano

O aquecimento do oceano aumentaa quantidade de nuvens

O crescimento da quantidadede nuvens diminui o aquecimento

do oceano

Page 8: O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE

Ordenação Dois a Dois e Construção da matriz doproblema

0.5 0.25 0.25

Problema Importância Dificuldade Retorno

a

b

c

d

e

f

5

2

1

6

3

4

3

1

2

6

4

5

2

4

6

3

1

5

3.75

2.25

2.25

5.25

2.75

4.5

Page 9: O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE

Estágio 2: Exploração do Espaço de Soluções

Especificar que produto é desejado:

•relatórios, mapas, gráficos, programas, planilhas, fórmulas,etc.

O produto deve ser específico o bastante para que a soluçãopossa ser implementada

Page 10: O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE

Estágio 3: Especificação do Método deImplementação

A exploração de dados não é realizada apenas para descobrir

novas visões: trata-se de aplicar os resultados para•aumentar os lucros•melhorar o desempenho•melhorar a qualidade•aumentar a satisfação do cliente•reduzir o desperdício•diminuir as fraudes•etc

Page 11: O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE

Estágio 3: Especificação do Método deImplementação

A especificação da implementação é onde é detalhado como as váriassoluções dos problemas selecionados são realmente aplicadas na pratica

A especificação precisa ser uma definição completa e pratica da solução:•a que problema ela se destina•que forma ela toma•o que fornece•a quem se destina•como ela é realizada•limitações e expectativas•etc

Page 12: O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE

Estágio 4: Minerar os Dados

Minerar os dados é um processo com múltiplos estágios:•preparação dos dados para a modelização•inspeção dos dados•modelização dos dados

Page 13: O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE

Preparação dos Dados para a Modelização

Preparar os dados também prepara o “garimpeiro”: ele fornece modelosmais adequados mais rapidamente

“Bons” dados são essenciais para que os modelos sejam efetivos

As ferramentas de preparação de dados formam uma coleção detécnicas desenvolvidas à partir da experiência na tentativa de “arrumar”os dados e construir modelos “decentes”

Page 14: O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE

Inspeção dos Dados

É durante a inspeção que se determina se os dados são adequadosA inspeção tenta responder três questões: a) O que contém o conjuntode dados? b) A partir dele, obterei respostas as minhas questões?c) Quais são as áreas de perigo?

A inspeção procura a estrutura geral dos dados e relata se ou não háuma quantidade de informações úteis envolvida no conjunto de dados

A inspeção tenta descobrir se a resposta ao problema a ser modeladoestá nos dados antes de investir na construção do modelo

A inspeção tenta identificar as áreas de perigo: viés, escassez,mudanças rápidas

Page 15: O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE

Modelização dos Dados

Trata-se de um processo de transformação das informações presentesnos dados para uma forma compreensível para os usuários

Page 16: O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE

Escolhas Básicas

Objetos do mundo real: carros, arvores, beleza, justiça, etc

Ponto de vista da mineração: um objeto é uma coleção decaracterísticas sobre as quais podem ser realizadas medidas

Objetos

Medidas

O que é possível medir sobre as características: meu carro é azulescuro, 2 portas, 6 cilindros, 5 passageiros

Page 17: O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE

Tipos de Medidas

Uma variável representa uma medida que toma um numero particularde valores, com a possibilidade de valores diferentes para cadaobservação.

Variáveis escalares: são expressas por um valor em determinadaescala.

Variáveis vetoriais: são expressas por mais de um valor

Page 18: O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE

Tipos de Medidas

Uma variável representa uma medida que toma um numero particularde valores, com a possibilidade de valores diferentes para cadaobservação.

Variáveis escalares: são expressas por um valor em determinadaescala.

Variáveis vetoriais: são expressas por mais de um valor

Page 19: O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE

Escalas

Escala Intervalar

Nessa escala, existe não apenas uma ordem entre os valores,mas também existe diferença entre esses valores. O zero érelativo.Ex: Temperatura em Graus Celsius

Nessa escala, além da diferença, tem sentido calcular a proporçãoentre valores (o zero é absoluto).Ex: Peso, Altura, etc.

Escala Proporcional

Page 20: O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE

Cardinalidade dos atributos das variáveis

Qualitativo / quantitativo

Variáveis qualitativas: escalas nominais ou ordinais

Variáveis quantitativas: escalas intervalares e proporcionais

Page 21: O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE

Cardinalidade dos atributos das variáveis

Qualitativo / quantitativo

Variáveis qualitativas: escalas nominais ou ordinais

Variáveis quantitativas: escalas intervalares e proporcionais

Page 22: O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE

Cardinalidade: Discreto versus Continuo

Variáveis dicotômicas Ex: Sexo (M, F)

Valores ausentes e valores inaplicáveis

Um valor ausente é aquele ausente no conjunto de dados masexistente no contexto em que a medida foi realizada

Um valor inaplicável é um valor ausente e inexistente nocontexto em que a medida foi realizada.Ex: Sexo = Masculino e Número de Partos = null

Page 23: O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE

Cardinalidade: Discreto versus Continuo

Variáveis binárias

Em geral são codificadas como “0”, “1”

Variáveis Discretas

Qualquer variável que possui mais de 3 valores distintos.Ex: Departamentos do CIN

“0” em geral indica ausência de propriedade

Ex: Possui antenas? (Sim , não)

Page 24: O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE

Cardinalidade: Discreto versus Continuo

Variáveis contínuas

Podem, em principio, assumir qualquer valor dentro de uma faixa.

Page 25: O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE

Mudança de Escala

Interesse

Muitos modelos só se aplicam à variáveis de mesma escala

Estandardização

Justificativa: unidades diferentes ou dispersões muito heterogêneas

smx

y )a

minmaxminx

y )b

mx

y )c

Page 26: O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE

Mudança de Escala

Intervalar

Ex: Idade O = [0, 150]0-20: jovem; 20-60: adulto; >60: idosoO’={jovem, adulto, idoso}

Trata-se de subdividir O em subintervalos contíguos e associar acada um deles uma modalidade

Ordinal

Page 27: O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE

Mudança de Escala

Intervalar

Perda de informação

Formas de obtenção das modalidades

Ordinal

•Distinção entre objetos de uma mesma categoria

•Amplitude da diferença entre objetos de categorias diferentes

•Partição em intervalos iguais •Partição por efetivos iguais

•Partição em intervalos arbitrários •Partição por minimizaçãoda variância

Page 28: O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE

Mudança de Escala

Ordinal Nominal

Basta desconsiderar a ordem entre as modalidades

Cada modalidade é transformada em uma variável binária

•Codificação disjuntiva

•Codificação aditiva

Ordinal ou Nominal Binária

Page 29: O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE

Mudança de Escala

Cor: 1(verde), 2(azul), 3(marrom)Idade: 1(0-20), 2(20-60), 3(> 60)

Cor Idadew 1 2w’ 2 1

Verde Azul Marrom 0-20 0-60 >60w 1 0 0 1 1 0w’ 0 1 0 1 0 0

Ordinal ou Nominal Binária

Page 30: O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE

Representação de Dados para a Mineração

Representação dos Dados

Tabelas de Dados (flat file): as colunas representam as variáveise as linhas representam as observações