artefatos inteligência artefatos para a inteligência descoberta de conhecimento em banco de dados:...

Post on 21-Apr-2015

129 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Artefatos Artefatos para a InteligênciaInteligência

Descoberta de Conhecimento Descoberta de Conhecimento em Banco de Dados:em Banco de Dados:Fundamentos, Ferramentas e Fundamentos, Ferramentas e AplicaçõesAplicações

Prof. Edilson Ferneda(eferneda@pos.ucb.br)

ERIN’2010

DCBDDCBD 2

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

AgendaCONTEXTUALIZAÇÃO

Inteligência Organizacional

METODOLOGIAS CRISP-DM Modelagem do conhecimento

FERRAMENTAS WEKA

APLICAÇÕES xxx

DCBDDCBD 3

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Inteligência OrganizacionalInteligência OrganizacionalAprendizagem Organizacional

Habilidade de uma empresa aprender e rapidamente traduzir em ações o conhecimento como um meio eficaz de atingir vantagem competitiva

O que uma empresa conhece, como usa o que conhece e com que rapidez pode assimilar algo novo

Um dos objetivos da Inteligência Organizacional: Melhorar a qualidade da tomada de decisão em todos os níveis da

organização, através do aumento do acesso às informações e da redução do problema de sobrecarga de informações.

DCBDDCBD 4

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Inteligência OrganizacionalInteligência OrganizacionalCiclo do conhecimento

Potencial de apoio a decisões estratégicas

Dado

Informação

Decisão

Realidade

Conhecimento

COLETAPapel, arquivos,

bases de dados operacionais, ...

ORGANIZAÇÃO/TRANSFORMAÇÃO/ANÁLISE Data Warehouse, Data Mart,

OLAP, consultas, relatórios, ...

DESCOBERTA DE CONHECIMENTOProjeto de busca de padões,

Data Mining, Estatística, ...

COMPREENSÃO, ANÁLISE, SÍNTESE Técnicas de visualização, ...

AÇÃO

DCBDDCBD 5

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Inteligência OrganizacionalInteligência OrganizacionalContexto de organizações no mundo competitivo (O modelo das 5 forças de Porter)

DCBDDCBD 6

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Inteligência OrganizacionalInteligência OrganizacionalDefinição

“Conjunto de conceitos e metodologias que, fazendo uso de acontecimentos (fatos) e sistemas baseados nesses acontecimentos, apóia a tomada de decisões em negócios”

Elementos técnico-organizacionais Database Marketing CRM Balanced Scorecard Data warehousing “BI” DCBD

Tecnologia daInformação

GestãoNegócio

InteligênciaOrganizacional

DCBDDCBD 7

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Inteligência OrganizacionalInteligência OrganizacionalPara que sistemas de IO?

Database Marketing (“Marketing de precisão”) Ajuda a melhorar os contatos futuros e assegura um planejamento mais

realista do marketing Usa canais e meios de comunicação de marketing para:

Ampliar a ajuda na busca do público-alvo da empresa Estimular a demanda de seu público Estar perto do público, registrando e mantendo uma memória

eletrônica sobre clientes, clientes potenciais, todos os contatos comerciais e de comunicação

DCBDDCBD 8

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Inteligência OrganizacionalInteligência OrganizacionalPara que sistemas de IO?

CRM (Customer Relationship Management) Estratégia de negócio voltada ao atendimento e à antecipação das

necessidades dos clientes atuais e potenciais Envolve ...

... a captura dos dados dos clientes ao longo de toda a empresa ... a consolidação em um banco de dados central ... a análise e distribuição dos resultados da análise para todos os

pontos de contato, utilizando as informações ao interagir com os clientes por meio de qualquer ponto de contato com a empresa

Engloba ... ... conceitos, métricas, processos, soluções, gestão de canais e

estratégias ... ferramentas das áreas de marketing, vendas e serviços

DCBDDCBD 9

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Inteligência OrganizacionalInteligência OrganizacionalPara que sistemas de IO?

Balanced Scorecard Sistema de gestão da estratégia a longo prazo Busca traduzir a missão e a estratégia das organizações

num conjunto abrangente de desempenho como base para um sistema de medição e gestão estratégica

Empresas podem adotar esta metodologia para ... Esclarecer e obter consenso em relação à estratégia Comunicar a estratégia a toda a organização Alinhar as metas departamentais e pessoais à estratégia corporativa Associar objetivos estratégicos metas de longo prazo orçamentos

anuais Identificar e alinhar as iniciativas estratégicas Realizar revisões estratégicas periódicas e sistemáticas Obter feedback p/aprofundar o conhecimento da estratégia e

aperfeiçoá-la

DCBDDCBD 10

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Inteligência OrganizacionalInteligência OrganizacionalSistemas de Suporte à Decisão

Problema: Explosão de dados Ferramentas automáticas de coleta de dados e tecnologia madura de

armazenamento acarretam o surgimento de grandes bancos de dados e outros repositórios de informação

“Estamos nos afogando em dados, mas carentes de conhecimento!”

Excesso de dados nas Organizações DisseminaçãoDisseminação de sistemas de informação

(aplicações) EficiênciaEficiência para coletar e armazenar grandes

volumes de dados

Excesso de dados nas Organizações DisseminaçãoDisseminação de sistemas de informação

(aplicações) EficiênciaEficiência para coletar e armazenar grandes

volumes de dadosDificuldade de se extrair informações táticas e estratégicas e se obter conhecimento dos negócios

Dificuldade de se extrair informações táticas e estratégicas e se obter conhecimento dos negócios

Sistemas de

Suporte à Decisão

DCBDDCBD 11

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Inteligência OrganizacionalInteligência OrganizacionalSistemas de Suporte à Decisão

... necessitam de informação / conhecimento (Análises, Diagnósticos, Recomendações, Ações realizadas / em curso, ...)

Devem extrair e integrar dados de múltiplas fontes Servem-se da experiência para analisar dados contextualizados Trabalham com hipóteses

(criação de cenários) Procuram relações de

causa/efeito Transformam os registros

obtidos em informação útil para o conhecimento empresarial

DCBDDCBD 12

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Inteligência OrganizacionalInteligência OrganizacionalOnde está o conhecimento das Organizações?

Conhecimento refere-se à habilidade de criar um modelo mental que descreva objetos e indique ações a realizar

Conhecimento tácito, segundo a gestão do conhecimento, Está nas pessoas (Experiências, casos, rotinas, observações,

requisitos, códigos, especificações, mensagens, ...) Não permite representação Difícil de explicar e se elicitar Se torna dados e informação quando assume forma explícita

Conhecimento explícito (“informação”) Bases de Dados, documentos, correspondências, arquivos, livros, filmes,

textos, planilhas, ..

DCBDDCBD 13

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Inteligência OrganizacionalInteligência OrganizacionalOnde está o conhecimento das Organizações?

Conhecimento na IA IA busca viabilizar a transferência desses processos para sistemas

capazes de simular o processo de decisão do ser humano Representação do conhecimento

Simbólica (Frames, Redes Semânticas, Ontologias, Regras de Produção, Árvores de Decisão, ...)

Conexionista (Redes Neurais Artificiais) Métodos de aprendizagem

Agrupamento - Clustering (Não supervisionados) Classificação (Supervisionados) Associação ...

if ... then ...

DCBDDCBD 14

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Inteligência OrganizacionalInteligência OrganizacionalExplicitação do conhecimento

“Processo de articulação do conhecimento tácito em conceitos explícitos.

O tácito se torna explícito expresso na forma de metáforas, analogias, conceitos, hipóteses ou modelos.” (Nonaka & Takeuchi)

Engenharia do conhecimento CommonKADS

Descoberta de conhecimento(Reconhecimento de padrões)

Fayyad CRISP-DM

Modeloorganizacional

ModeloTarefas

ModeloAgentes

ModeloConhecimento

ModeloComunicação

ModeloProjeto

Elicitação de“conhecimento”

DCBDDCBD 15

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

CRISP-DMCRISP-DMIntrodução

CRISP-DM = Cross Industry Standard Process for Data Mining Projeto que padroniza conceitos e técnicas na busca de informações em

banco de dados Surgiu a partir da experiência de três empresas pioneiras no setor

(1996): DaimlerChrysler - Aplica análises de data mining em seus negócios NCR - Provê soluções de datawarehouse SPSS - Disponibiliza soluções baseadas no processo de mineração de

dados Padroniza os passos do processo de descoberta de conhecimento e sua

aplicação em diferentes mercados, independente do segmento Agiliza grandes projetos de DCBD, com mais eficiência e com menor

custo Pode ser usada por qualquer analista de informações, tendo como base

qualquer software de DM Manual disponível em www.crisp-dm.org

DCBDDCBD 16

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

CRISP-DMCRISP-DMFases

Compreensão do problema Compreensão dos dados Preparação dos dados Modelagem Avaliação Aplicação (Deployment)

DCBDDCBD 17

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

CRISP-DMCRISP-DMCompreensão do problema

1.1 - Objetivos do negócio Plano de fundo Objetivos do negócio Critério de sucesso do negócio

1.2 - Avaliação da situação Inventário de recursos Exigências, suposições e limitações Riscos e contingências Terminologia Custos e benefícios

1.3 - Objetivos do data mining (DCBD) Objetivos do data mining Critério do sucesso do data mining

1.4 - Plano de projeto Plano de projeto Avaliação inicial de ferramentas e técnicas

DCBDDCBD 18

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

CRISP-DMCRISP-DMEntendimento dos dados

2.1 - Coleta inicial dos dados Relatório da coleta inicial dos dados

2.2 - Descrição dos dados Relatório da descrição dos dados

2.3 - Exploração de dados Relatos da exploração de dados

2.4 - Verificação da qualidade dos dados Relatório de qualidade dos dados

DCBDDCBD 19

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

CRISP-DMCRISP-DMPreparação dos dados

3.1 - Seleção dos dados Racionalização para inclusão/exclusão

3.2 - Limpeza dos dados Relatório da limpeza de dados

3.3 -Construção dos dados Atributos derivados Registros gerados

3.4 - Integração dos dados Dados combinados

3.5 - Formatação dos dados Dados reformatados

DCBDDCBD 20

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

CRISP-DMCRISP-DMModelagem

4.1 - Seleção da técnica de modelagem Técnica de modelagem

4.2 - Geração do design de teste Design de teste

4.3 - Construção do modelo Ajustes de parâmetros Modelos Descrição dos modelos

4.4 - Avaliação do modelo (Acurácia e generalidade do modelo) Avaliação do modelo (Validação cruzada, taxas de erro, etc) Avaliação do modelo revisado

DCBDDCBD 21

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

CRISP-DMCRISP-DMAvaliação do modelo

5.1 - Avaliar resultados Avaliação dos resultados do data mining a respeito

dos critérios do sucesso do negócio Modelos aprovados

5.2 - Processo de revisão Revisão do processo

5.3 - Determinação dos próximos passos Lista das ações possíveis Decisão

DCBDDCBD 22

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

CRISP-DMCRISP-DMAplicação (Deployment)

6.1 - Planejamento da implantação Plano de implantação

6.2 - Planejamento do monitoramento e manutenção Plano de monitoramento e manutenção

6.3 - Produção do relatório final Relatório final Apresentação final

6.4 - Revisão o projeto Documentação de

experiências Exemplos:♦Estruturação de Call Center com televendas♦Marketing de precisão baseado em segmentação de mercado♦Refinamento de perfis de clientes♦Combate a fraudes (cartões de crédito, TRE, TCU, CGU, etc).♦Gestão epidemiológica♦Gestão de Ciência & Tecnologia♦Avaliação do cumprimento de objetivos

Exemplos:♦Estruturação de Call Center com televendas♦Marketing de precisão baseado em segmentação de mercado♦Refinamento de perfis de clientes♦Combate a fraudes (cartões de crédito, TRE, TCU, CGU, etc).♦Gestão epidemiológica♦Gestão de Ciência & Tecnologia♦Avaliação do cumprimento de objetivos

DCBDDCBD 23

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Modelagem do conhecimentoModelagem do conhecimentoObjetivo: construção de uma “base de conhecimento” ...

Modeloorganizacional

ModeloTarefas

ModeloAgentes

ModeloConhecimento

ModeloComunicação

ModeloProjeto

IF ... THEN ...

IF ... THEN ...IF ... THEN ...

IF ... THEN ...

Base de Conhecimento

DCBDDCBD 24

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Método empírico

Reconhecimento

de Padrões

Engenharia do Conhecimento

Método analítico

Sistemas de

Suporte

à Decisão

Modelagem do conhecimentoModelagem do conhecimento... no contexto organizacional

Experiências

Regras de negócio

Bases de dados

Código de sistemas

DW

Documentos

Textos

Especificações

Requisitos

Gravações

e-mail

IO

GC

INTERNEINTERNETT

Data Mart

OLAP

InteligênInteligênciacia

CompetitiCompetitivava

Coleta/Busca, Captura, ...

Base de Conhecimento

Planilhas

Filmes

Livros

Casos

Rotinas

Observações

Benchmarking, Monitoramento, Head-hunting, ...

DCBDDCBD 25

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Modelagem do conhecimentoModelagem do conhecimentoData Mining

Utiliza técnicas sofisticadas de análise estatística e modelagem (aprendizagem de máquina) para descobrir padrões e relações escondidas nas bases de dados das organizações

Padrões que métodos tradicionais não encontrariam! Padrões encontrados pela construção de modelos (representações

abstratas da realidade) Um bom modelo ajuda a compreender um negócio e sugere ações que

podem ajudar uma organização a ter sucesso É um processo iterativo!

DCBDDCBD 26

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Modelagem do conhecimentoModelagem do conhecimentoData Mining

Treino (estimativa) do modelo com um conjunto dos dados Teste com os dados restantes Às vezes, é preciso uma validação com um terceiro grupo de dados (grupo de

validação) Dados de teste podem ser um fatores de influência no modelo Grupo de validação atua como uma medida independente da precisão do modelo

A precisão resultante é uma boa estimativa para como o modelo se irá comportar com futuras bases de dados

Isto não garante que o modelo está correto! Se mesma técnica fosse utilizada numa sucessão de bases com dados

semelhantes aos de treino e teste, a precisão média estaria próxima à obtida desta forma

Por melhor que seja a precisão, não há garantia de que o modelo reflita de fato o mundo real

Existem sempre circunstâncias que podem levar a modelos incorretos

BD

Treino

Teste

Mineração Modelo

Teste

Acurácia

BD3

Treinamento Teste

BD1 BD2

BD2 BD3 BD1

Ac

Ac1

BD1 BD3 BD2 Ac2

Ac3

DCBDDCBD 27

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Modelagem do conhecimentoModelagem do conhecimentoData Mining

Tecnologias de suporte

if ... then ...

Dado

Informação

Conhecimento

DW

OLAP

DM DM

DCBDDCBD 28

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Modelagem do conhecimentoModelagem do conhecimentoData Mining

O que Data Mining pode fazer Data Mining permite

Confirmar relações empíricas Descobrir padrões novos e úteis

Pode trazer melhoria de desempenho, se comparado com os que não utilizam eficientemente estas técnicas

Às vezes, descobre-se fatos que podem conduzir a melhorias radicais no negócio!

O que Data Mining NÃO pode fazer Não se pode prescindir de conhecer o negócio, compreender os dados

disponíveis ou de compreender os métodos analíticos Ajuda a encontrar padrões nos dados, mas nada diz sobre seu valor para a

organização! Os padrões encontrados devem ser verificados no mundo real! É conveniente que se compreenda o funcionamento das ferramentas escolhidas

e os algoritmos em que se baseiam! Não encontra respostas a perguntas que não se fez – deve-se saber a priori o

tipo de padrão que se procura Não substitui analistas e gestores de negócio, mas lhes oferece uma poderosa

ferramenta para melhorarem o seu trabalho!

DCBDDCBD 29

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Modelagem do conhecimentoModelagem do conhecimentoData Mining

Modelos preditivos Utilizam dados com resultados conhecidos para desenvolver um modelo

que possa ser utilizado para prever valores para diferentes dados Fazem uma previsão explícita

Modelos descritivos Descrevem padrões em dados existentes, que podem ser utilizados para

guiar decisões Podem ser utilizados para ajudar a construir um modelo preditivo ou para

fazer uma previsão implícita quando formam a base para uma ação ou decisão Data Mining

Atividades preditivas

Atividades descritivas

Classificação Regressão ClusteringRegras de associação

SumarizaçãoSériestemporais

DCBDDCBD 30

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Modelagem do conhecimentoModelagem do conhecimentoAtividades preditivas

Classificação É preciso identificar as características ou casos que indicam a que grupo cada caso

pertence Utilizado para compreender os dados existentes e para prever a classe de novas

instâncias (variável discreta) Os modelos de classificação são criados examinando dados previamente classificados

(casos) e ajustando-se o modelo em construção para mapear o padrão preditivo Os casos existentes podem derivar de uma base de dados histórica ou de uma

experiência em que uma amostra de uma base de dados é testada no mundo real Regressão

Funciona como a classificação, tendo como saída um valor numérico (variável contínua)

No caso mais simples, utilizam-se técnicas estatísticas padrão, como regressão linear No entanto, a maioria dos problemas reais não são projeções lineares,

demandando métodos mais sofisticados (geração de modelos não lineares) Séries temporais

Baseia-se na evolução temporal para, dados valores referentes a um determinado momento, prever valores em momentos futuros

Consideram-se propriedades temporais diferenciadoras, como sazonalidade, efeitos do calendário (feriados), ...

DCBDDCBD 31

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Modelagem do conhecimentoModelagem do conhecimentoAtividades descritivas

Agrupamento (Clustering) Divide a base de dados em grupos diferentes Encontrar grupos diferentes cujos membros são aparentemente semelhantes Ao contrário da classificação, não há uma variável que identifique os grupos, ou por

quais atributos os dados serão agrupados Os grupos devem ser analisados por alguém que conheça muito bem o negócio

Associações Identifica co-ocorrência de valores que caracterizam os casos

Por exemplo, itens que, com frequência, aparecem juntos em compras de supermercado

Descobrem regras do tipo:Se o item A é parte de um evento,

então em x% das vezes (fator de confiança) o item B também é parte do evento

Sequenciamento Funciona como a associação, mas os itens relacionados ocorrem em tempos

diferentes Para se encontrar seqüências, além da captura dos detalhes de cada transação, é

preciso garantir a a origem única de cada sequência Por exemplo, em análise de logs, é preciso associar cada clickstream a um único

ator

DCBDDCBD 32

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Modelagem do conhecimentoModelagem do conhecimentoTécnicas

Análise Estatística Árvores de Decisão (ID3 e suas derivações, ...) Redes Neurais (MLP, ...) Agrupamento (K-médias, ...) Associação (Apriori, ...) ...

DCBDDCBD 33

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Modelagem do conhecimentoModelagem do conhecimentoTécnicas

Estatística Estuda a coleta, organização e interpretação de dados numéricos Assim como Data Mining, tenta encontrar padrões e regularidades nos

dados Data Mining se serve da Estatística para descoberta de padrões, cálculo

de aproximações, médias, taxas de erro e desvios Técnicas estatísticas mais utilizadas

Técnicas baseadas em modelos lineares e não-lineares Amostragem Avaliação de hipóteses e do conhecimento obtido Modelo bayesiano Análise multivariada

DCBDDCBD 34

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Modelagem do conhecimentoModelagem do conhecimentoTécnicas

Classificação

CONHECIMENTODO DOMÍNIO

CONHECIMENTODO DOMÍNIO

Especificação do problema

Aprendizado de máquina

X1 X2 ... Xm Y

T1 x11 x12 ... x1m Y1

T2 x21 x22 ... x2m Y2...

.

.

....

.

.

....

.

.

.Tn x1n x2n xnm Yn

Variáveis independentes(atributos)

Variável dependente

(classe)

Especialista

Dados brutos

Classificador

Avaliação

DCBDDCBD 35

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Modelagem do conhecimentoModelagem do conhecimentoTécnicas

Árvores de Decisão

R1: Se R 1000 Então Não rentávelR2: Se 1000 < R < 10.000 E D 100 Então Não rentávelR3: Se 1000 < R < 10.000 E 100 < D < 10.000 Então RentávelR4: Se 1000 < R < 10.000 E D 10.000 Então Não rentável

R6: Se R 10.000 E D 20.000 Então Não rentável

R5: Se R 10.000 E D < 20.000 Então Rentável

Neste caso, o diagrama de retângulos é a representação mais adequada para se visualizar a partição do espaço de características gerada pela árvore de decisão

Todos os pontos dentro de um retângulo são classificados da mesma forma, pois todos satisfazem a regra que define o retângulo

o

o

xxo

o

oo

x

o o

x

o

o

o

o

o

ox

o

xxx

Renda

Dívida

R1

R2

R3

R4

R5

R6

1000 10000

100

10000

20000

DCBDDCBD 36

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Modelagem do conhecimentoModelagem do conhecimentoTécnicas

Árvores de Decisão

a1 X1a4

X2

a3

a2

X2X2

X1

<a1 >a1

<a3 >a3

<a4 >a4

>a2<a2

X1

Raiz

Regra

DCBDDCBD 37

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Modelagem do conhecimentoModelagem do conhecimentoTécnicas

Árvores de Decisão

Árvore “pensada”

DCBDDCBD 38

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Modelagem do conhecimentoModelagem do conhecimentoTécnicas

Árvores de Decisão Ganho de informação

carro outroscarona

+: {E10}–: {E5, E6}

+: {E1, E7, E11}–: {E3, E9}

+: {E2, E4, E12}–: {E8}

NãoSimNãoSimNãoOutrosPoucoE6

NãoNãoSimSimSimOutrosSimE5

SimNãoSimSimSimOutrosNãoE10

NãoSimNãoNãoNãoCaronaPoucoE8

SimSimSimSimNãoCaronaNãoE12

SimNãoSimNãoNãoCaronaPoucoE4

SimSimSimNãoNãoCaronaPoucoE2

NãoNãoSimSimNãoCarroSimE9

NãoSimSimSimNãoCarroSimE3

SimSimSimSimNãoCarroNãoE11

SimSimSimNãoSimCarroPoucoE7

SimSimNãoSimSimCarroPoucoE1

Vai pra balada?

FomeSairÁlcoolUCBTranspo

rteSono

Transporte?

DCBDDCBD 39

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Modelagem do conhecimentoModelagem do conhecimentoTécnicas

Árvores de Decisão Ganho de informação

SimSimSimSimNãoCaronaNãoE12

SimSimSimSimNãoCarroNãoE11

SimNãoSimSimSimOutrosNãoE10

NãoNãoSimSimNãoCarroSimE9

NãoNãoSimSimSimOutrosSimE5

NãoSimSimSimNãoCarroSimE3

NãoSimNãoNãoNãoCaronaPoucoE8

NãoSimNãoSimNãoOutrosPoucoE6

SimSimSimNãoSimCarroPoucoE7

SimNãoSimNãoNãoCaronaPoucoE4

SimSimSimNãoNãoCaronaPoucoE2

SimSimNãoSimSimCarroPoucoE1

Vai pra balada?

FomeSairÁlcoolUCBTranspo

rteSono

sim nãopouco

+: {E10, E11, E12}–: {}

+: {}–: {E3, E5, E9}

+: {E1, E2, E4, E7}–: {E6, E8}

Sono?

DCBDDCBD 40

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Modelagem do conhecimentoModelagem do conhecimentoTécnicas

Árvores de Decisão

Árvore calculada

DCBDDCBD 41

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Modelagem do conhecimentoModelagem do conhecimentoTécnicas

Redes Neurais Artificiais Técnica computacional que utiliza modelos matemáticos inspirados na

estrutura neural de organismos inteligentes e que adquirem conhecimento através da experiência

DCBDDCBD 42

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Modelagem do conhecimentoModelagem do conhecimentoTécnicas

Redes Neurais Artificiais

DCBDDCBD 43

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Modelagem do conhecimentoModelagem do conhecimentoTécnicas

Redes Neurais Artificiais

Iniciar todas as conexões com wi = 0 (ou aleatórios)Repita

Para cada padrão de treinamento (X, d)faça

Calcular a saída ySe (d y)então atualizar pesos

até o erro ser aceitável

Iniciar todas as conexões com wi = 0 (ou aleatórios)Repita

Para cada padrão de treinamento (X, d)faça

Calcular a saída ySe (d y)então atualizar pesos

até o erro ser aceitável

Classe B

Classe A

Classe B

Classe A

Modelos lineares Modelos não lineares

DCBDDCBD 44

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Modelagem do conhecimentoModelagem do conhecimentoTécnicas

Agrupamento Dado um conjunto de objetos, colocar os objetos em grupos baseados na

similaridade entre eles Utilizado para encontrar padrões inesperados nos dados

Mamífero

Ovíparo

Aquático

DCBDDCBD 45

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Modelagem do conhecimentoModelagem do conhecimentoTécnicas

Agrupamento Clustering - Técnica de aprendizado não-supervisionado, ou seja, quando

não há uma classe associada a cada exemplo Os exemplos são colocados em clusters (grupos), cujos membros são

similares entre si Por outro lado, os clusters devem ser diferentes entre si Representações de agrupamentos:

DCBDDCBD 46

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Modelagem do conhecimentoModelagem do conhecimentoTécnicas

Agrupamento Métricas de similaridade

A distância é o método mais natural para dados numéricos Valores pequenos indicam maior similaridade Não generaliza muito bem para dados não numéricos (Qual a distância

entre “masculino” e “feminino”?) Métricas de Distância mais comuns

Hamming - Usada para dados categóricos

Euclidiana - Usada para dados numéricos

Normalização As distâncias são freqüentemente normalizadas dividindo a distância

de cada atributo pelo intervalo de variação (i.e. diferença entre valores máximo e mínimo) daquele atributo

Assim, a distância para cada atributo é normalizada para o intervalo [0,1]

21

21211 ,1

,0),(

vvse

vvsevvdist

DCBDDCBD 47

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Modelagem do conhecimentoModelagem do conhecimentoTécnicas

Agrupamento Passos para se fazer um agrupamento

Passo 1: Escolha aleatória de clusters e cálculo dos centróides (círculos maiores)

Passo 2: Atribua cada ponto ao centróide mais próximo

Passo 3: Recalcule centróides (neste exemplo, a solução é agora estável)

DCBDDCBD 48

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Modelagem do conhecimentoModelagem do conhecimentoTécnicas

Agrupamento Exemplo

DCBDDCBD 49

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Modelagem do conhecimentoModelagem do conhecimentoTécnicas

Agrupamento Exemplo (K = 2)

DCBDDCBD 50

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Modelagem do conhecimentoModelagem do conhecimentoTécnicas

Agrupamento Exemplo (K = 3)

DCBDDCBD 51

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Modelagem do conhecimentoModelagem do conhecimentoTécnicas

Agrupamento Exemplo (K = 4)

DCBDDCBD 52

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Modelagem do conhecimentoModelagem do conhecimentoTécnicas

Agrupamento Exemplo (K = 5)

DCBDDCBD 53

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Modelagem do conhecimentoModelagem do conhecimentoTécnicas

Agrupamento Exemplo (K = 6)

DCBDDCBD 54

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Modelagem do conhecimentoModelagem do conhecimentoTécnicas

Agrupamento Exemplo (K = 7)

DCBDDCBD 55

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Modelagem do conhecimentoModelagem do conhecimentoTécnicas

Agrupamento Exemplo (K = 8)

DCBDDCBD 56

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Modelagem do conhecimentoModelagem do conhecimentoTécnicas

Agrupamento Exemplo (K = 9)

DCBDDCBD 57

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Modelagem do conhecimentoModelagem do conhecimentoTécnicas

Agrupamento Exemplo (K = 10)

DCBDDCBD 58

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Modelagem do conhecimentoModelagem do conhecimentoTécnicas

Associação Notoriedade em DCBD pela descoberta da relação compra de fraldas

cerveja Mas o que fazer? Colocar as fraldas junto com as cervejas para facilitar

a venda? Colocá-las distantes para obrigar o cliente a ‘passear’ por outras gôndolas?

Decisões cabem ao especialista em marketing, baseado na sua experiência

Regras de associação ou regras associativas:{X1, X2, ..., Xn} Y

Se todos os itens X1, X2, ..., Xn estão numa transação, então há uma boa chance de se encontrar também Y

DCBDDCBD 59

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Modelagem do conhecimentoModelagem do conhecimentoTécnicas

Associação O algoritmo Apriori

DCBDDCBD 60

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Modelagem do conhecimentoModelagem do conhecimentoTécnicas

Associação O algoritmo Apriori

Exemplo: Suporte mínimo: 0,3

{leite} {café}{cerveja} {pão}{manteiga}{arroz} {feijão}

{café,pão}{pão,manteiga}{café,manteiga}

{café,pão,manteiga}

3 5 5

3 3 4

3

DCBDDCBD 61

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Modelagem do conhecimentoModelagem do conhecimentoTécnicas

Associação O algoritmo Apriori

Exemplo: Suporte mínimo: 0,3

Conjunto de regras

- Conjunto de itens: {café, manteiga, pão}

Se café, manteiga Então pão [conf = 1,0]

Se café, pão Então manteiga [conf = 1,0]

Se manteiga, pão Então café [conf = 0,75]

Se café Então manteiga, pão [conf = 1,0]

Se manteiga Então café, pão [conf = 0,6]

Se pão Então café, manteiga [conf = 0,6]

- Conjunto de itens: {café, pão}

Se café Então pão [conf = 1,0]

Se pão Então café [conf = 0,6]- Conjunto de itens: {café, manteiga}

Se café Então manteiga [conf = 1,0]

Se manteiga Então café [conf = 0,6]- Conjunto de itens: {pão, manteiga}

Se pão Então manteiga [conf = 0,8]

Se manteiga Então pão [conf = 0,8]

DCBDDCBD 62

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Modelagem do conhecimentoModelagem do conhecimentoTécnicas

Associação O algoritmo Apriori

Exemplo: Suporte mínimo: 0,3

Conjunto de regras- Padrões descobertos, minsup = 0,3 e minconf = 0,8:

Se café Então pão [conf = 1,0]Se café Então manteiga [conf = 1,0]Se pão Então manteiga [conf = 0,8]Se manteiga Então pão [conf = 0,8]Se café, manteiga Então pão [conf = 1,0]Se café, pão Então manteiga [conf = 1,0]Se café Então manteiga, pão [conf = 1,0]

DCBDDCBD 63

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

FerramentasFerramentas

Nome Técnicas disponíveis Fabricante Site Tipo de aplicativo

PolyAnalyst Classificação, regressão, regras de associação, clustering, sumarização e modelagem de dependência

Megaputer Intelligence www.megaputer.com

Pacote

Magnum Opus Regras de associação Rule Quest www.rulequest.com

Específico

XpertRule Miner Classificação, regras de associação e clustering

Attar Software Ltd. www.attar.com

Pacote

DataMite Regras de associação Dr. Philip Vasey através do LPA Prolog Específico

Microsoft Data Analyzer 2002 Classificação e clustering

Microsoft Corp. www.microsoft.com

Pacote

Oracle 9i Data Mining Classificação e regras de associação

Oracle Corp. www.oracle.com

Pacote

Darwin Classificação, regressão e clustering Oracle Corp. www.oracle.com

Pacote

Data-Miner Software Kit Classificação e regressão

Data-Miner Pty LTd www-data-miner.com

Específico

DCBDDCBD 64

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

FerramentasFerramentas

Nome Técnicas disponíveis Fabricante Site Tipo de aplicativo

MineSet Classificação, regressão, regras de associação e clustering

Silicon Graphics Inc. www.sgi.com

Pacote

WEKA Classificação, regressão e regras de associação

University of Waikato www.cs.waikato.ac.nz

Pacote

Intelligent Miner Regras de associação, padrões seqüenciais, classificação, clustering, sumarização e modelagem de dependência

IBM Corp. www.ibm.com

Pacote

MLC++ Classificação, regressão e clustering Silicon Graphics Inc. www.sgi.com/ tech/ mlc

Biblioteca

See5 Classificação Rule Quest www.rulequest.com

Específico

Cubist Regressão Rule Quest www.rulequest.com

Específico

Clementine Classificação, regras de associação, clustering e padrões seqüenciais

SPSS Inc. www.spss.com

Pacote

DCBDDCBD 65

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

WEKAWEKASoftware de Aprendizagem de Máquina/Data Mining escrito em Java (GNU Public License)Usado para pesquisa, educação e aplicaçõesComplementa o livro “Data Mining - Practical Machine Learning Tools and Techniques” de Ian W. Witten & Eibe FrankPrincipais características:

Conjunto abrangente de ferramentas para pré-processamento de dados, algoritmos de aprendizagem e métodos de avaliação

Interface Gráfica (visualização de dados) Ambiente para comparação de algoritmos de aprendizagem

Versões: WEKA 3.3: É a que vamos utilizar para a a apresentação WEKA 3.4: Versão compatível com o livro (2ª Edição) WEKA 3.6: Versão estável atual WEKA 3.7: “Developpment Version”

DCBDDCBD 66

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

WEKAWEKAEntrada de dados

WEKA só manipula arquivos “planos”

@relation heart-disease-simplified

@attribute age numeric@attribute sex { female, male}@attribute chest_pain_type { typ_angina, asympt, non_anginal, atyp_angina}@attribute cholesterol numeric@attribute exercise_induced_angina { no, yes}@attribute class { present, not_present}

@data63,male,typ_angina,233,no,not_present67,male,asympt,286,yes,present67,male,asympt,229,yes,present38,female,non_anginal,?,no,not_present...

Arquivo no formato .arf

Atributo numéricoAtributo nominal

DCBDDCBD 67

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

WEKAWEKAAbertura

DCBDDCBD 68

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

WEKAWEKAAbertura

Simple CLI Antiga interface em linha de comando

Explorer Principal interface gráfica do WEKA Dá acesso a todas as funcionalidades por meio de

seleção de menus e fornecimento de parâmetros Experimenter

Permite a realização de experimentos em larga escala com diversas configurações de parâmetros

Pode rodar em ambientes de grid KnowledgeFlow

Permite executar um conjuto de ações em uma sequência controlada

DCBDDCBD 69

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

WEKAWEKAPré-processamento

Dados podem ser importados de um arquivo em diversos formatos: ARFF CSV com os nomes das variáveis na primeira linha (pode ser gerado pelo

EXCEL) C4.5 (sistema de Quinlan) – 2 arquivos, um com nomes e outro com dados binary – formato gerado pelo Java para compactar grandes arquivos de

dados Dados podem também ser lidos de uma URL ou de um banco de dados

SQL (usando JDBC) Ferramentas de pré-processamento no WEKA são chamadas “filters” WEKA contém filtros para:

Discretização Normalização Amostragem Seleção de atributos Transformação Combinação de atributos …

DCBDDCBD 70

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 71

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 72

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 73

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 74

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 75

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 76

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 77

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 78

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 79

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 80

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 81

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 82

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

WEKAWEKAConstrução de “classificadores”

Classificadoes no WEKA são modelos para predição nominal ou de quantidades numéricas (sic)

Incluem: Árvores e listas de decisão Classificadores baseados em instâncias “Support Vector Machines” (Método baseado em aprendizagem

estatística) Redes neurais (Multi-Layer Perceptrons, …) Regressão logística (Método estatístico de predição de valores de variáveis

categóricas) Redes bayesianas (Método probabilístico) … Ferramentas para melhoria do desenpenho dos classificadores (Meta-

classificadores)

DCBDDCBD 83

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 84

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 85

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 86

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 87

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 88

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 89

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 90

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 91

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 92

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 93

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 94

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 95

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 96

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 97

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 98

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 99

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 100

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 101

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 102

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

QuickTime™ and a TIFF (LZW) decompressor are needed to see this picture.

DCBDDCBD 103

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

QuickTime™ and a TIFF (LZW) decompressor are needed to see this picture.

DCBDDCBD 104

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 105

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 106

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 107

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 108

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 109

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicaçõesQuickTime™ and a TIFF (LZW) decompressor are needed to see this picture.

DCBDDCBD 110

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 111

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 112

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 113

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 114

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

QuickTime™ and a TIFF (LZW) decompressor are needed to see this picture.

DCBDDCBD 115

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 116

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

QuickTime™ and a TIFF (LZW) decompressor are needed to see this picture.

DCBDDCBD 117

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 118

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 119

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 120

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 121

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 122

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 123

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

WEKAWEKAAgrupamento de dados

WEKA contém “agrupadores” para encontrar grupos de instâncias similares em um conjunto de dados

Métodos implementados: k-Means EM Cobweb X-means FarthestFirst

Agrupamentos podem ser visualizados e comparados a agrupamentos “verdadeiros” (se existir)

DCBDDCBD 124

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 125

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 126

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 127

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 128

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 129

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 130

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 131

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 132

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 133

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 134

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

WEKAWEKAAssociação

WEKA contém uma implementação do algoritmo Apriori para aprendizagem de regras de associação

Só trabalha com dados discretos Pode identificar dependências estatísticas entre grupos de atributos:

leite, manteiga pão (com confiança 0.9 e suporte 4) Apriori pode computar todas as regras com um suporte mínimo e uma

certa confiança

DCBDDCBD 135

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 136

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 137

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 138

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 139

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

WEKAWEKASeleção de atributos

Painel que pode ser usado para investigar quais (subconjunto de) atributos são os mais preditivos

Seus métodos contêm um método de busca e um método de avaliação WEKA disponibiliza combinações (semi-)arbitrárias desses métodos

DCBDDCBD 140

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 141

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 142

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 143

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 144

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 145

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 146

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

WEKAWEKAVisualozação de dados

Bastante útil na prática: Por exemplo, ajuda a determinar a dificuldade do problema de

aprendizagem WEKA pode visualizar atributos simples (1-d) e pares de atributos (2-d) Valores de classe codificados por cores Opção de “Jitter” para lidar com atributos nominais (e detectar pontos de

dados “escondidos”) Função “Zoom-in”

DCBDDCBD 147

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 148

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 149

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 150

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 151

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 152

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

DCBDDCBD 153

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

AplicaçõesAplicaçõesMercado

Pode ser utilizada para controlar custos ou para aumentar lucros Exemplos:

Gestão da relação com os clientes: determinando os que podem ir para a concorrência, pode-se agir para retê-los (é geralmente bem mais barato reter um cliente do que adquirir um novo)

Marketing: identificando bons candidatos para ofertas e catálogos, pode-se reduzir despesas e aumentar as vendas

Data Mining de sucesso Mais importante que a escolha de qualquer algoritmo são

Capacidade do construtor do modelo e a forma como um programa suporta o processo de construção do modelo!

O grau em que a ferramenta de data mining suporta a exploração interativa dos dados

Essa interação é mais eficiente quando os componentes seguintes são bem integrados:

Boas ferramentas de visualização para compreender os dados e interpretar os resultados

Algoritmos para a construção dos modelos Duas chaves para o sucesso:

Formular corretamente o problema que se quer resolver Utilizar os dados corretos

DCBDDCBD 154

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

AplicaçõesAplicaçõesAnálise e gerenciamento de mercado

Marketing de precisão Gerenciamento de relações com consumidores Análise de cestas de mercado Vendas cruzadas Segmentação de mercado

Análise e gerenciamento de risco Previsões retenção de clientes controle de qualidade análise de competitividade

Análise e gerenciamento de fraudes

DCBDDCBD 155

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

AplicaçõesAplicaçõesAnálise e gerenciamento de mercado

Marketing de precisão Transações com cartões de crédito, cartões de fidelidade, cupons de

desconto, requisições de clientes e estudos sobre o estilo de vida dos clientes

Marketing dirigido Encontra grupos de clientes “modelo” que compartilham as mesma

características: interesses, salário, hábitos de consumo, ... Determinação de padrões de compra ao longo do tempo

Conversão de conta simples para conjunta, casamento, ... Análise de vendas cruzadas

Associações e correlações entre vendas de produtos Predição baseada na informação de associações

Perfil do consumidor Tipos de consumidores que compram quais produtos (agrupamento ou

classificação) Identificação dos requisitos dos clientes

Identifcação dos melhores produtos para os diferentes clientes Uso de predição para encontrar quais fatores atrairão os consumidores

DCBDDCBD 156

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

AplicaçõesAplicaçõesAnálise corporativa e gerenciamento de risco

Planejamento financeiro e avaliação de crédito Análise e previsão de fluxo de caixa Análise contingente para avaliação de crédito Análise seccional e temporal (razão financeira, análise de tendência, etc.)

Planejamento de recursos Sumarização e comparação de recursos e gastos

Competição Monitoramento de competidores e mercado Agrupamento de clientes em classes e procedimentos de preços baseados

em classes Estratégias para fixação de preços em mercado competitivo

DCBDDCBD 157

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

AplicaçõesAplicaçõesDetecção e gerenciamento de fraudes

Amplamente utilizado em serviços de cartões de crédito, telefonia celular, convênios de saúde, etc

Uso de dados históricos para construir modelos do comportamento fraudulento e uso de data mining para identificar instâncias similares

Exemplos Seguros de automóveis – Detecção de grupos de pessoas que forjam acidentes Lavagem de dinheiro – Detecção de transações suspeitas de dinheiro (US

Treasury's Financial Crimes Enforcement Network) Seguros médicos – Detecção de pacientes ”profissionais” e grupos de doutores

coniventes Detecção de tratamento médico inapropriado

(A Australian Health Insurance Commission identificou que em muitos casos exames desnecessários eram solicitados - economia de AD$ 1 milhão /ano)

Detecção de fraudes telefônicas – Modelo de chamadas telefônicas: destino da chamada, duração, horário e dia da semana; análise de padrões para detectar desvios

A British Telecom identificou grupos de clientes com chamadas freqüentes dentro do grupo, especialmente em telefones celulares, e detectou uma fraude milionária

Venda a varejo – Analistas estimam que 38% das perdas são devidas a empregados desonestos

DCBDDCBD 158

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

AplicaçõesAplicaçõesOutras aplicações

Esportes IBM Advanced Scout analisou as estatísticas dos jogos da NBA (cestas,

bloqueios, assistências, faltas, etc) para auxiliar os times do New York Knicks e do Miami Heat;

Astronomia JPL e o Observatório do Monte Palomar descobriram 22 quasars com o

auxílio de data mining Internet

IBM Surf-Aid aplica algoritmos de data mining a logs de acessos Web à páginas de vendas, para descobrir preferências e comportamentos dos clientes e efetuar análise da efetividade do Web marketing, melhorar a organização do site Web, etc.

DCBDDCBD 159

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

AplicaçõesAplicaçõesTendênciasTendências

Tecnologias de suporte ao Data Mining

Data Mining em bases de dados relacionais

Bases de dados heterogêneas,distribuídas ou legadas

TextoMultimídia

WebMetadados

Informação geo-referenciada

...

DCBDDCBD 160

Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações

Artefatos Artefatos para apara a InteligênciaInteligência

ContatosEmail: eferneda@pos.ucb,brTelefone UCB: (61) 3448-7159Celular: (61) 9618-6192

top related