classificação/categorização christian diego – cdad icamaan viegas – ibvs

34
Classificação/ Categorização Christian Diego – cdad Icamaan Viegas – ibvs

Upload: esther-rita

Post on 07-Apr-2016

225 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs

Classificação/Categorização

Christian Diego – cdadIcamaan Viegas – ibvs

Page 2: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs

Roteiro

Introdução Construção de classificadores Aplicações Algoritmos

Relevance Feedback (Rocchio) K-Nearest Neighbors Template Matching

Avaliação de Classificadores K-Fold Cross Validation Curva ROC

Referências

Page 3: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs

Classificação

Definição Classificar um documento de acordo com

classes previamente definidas

Objetivos Organizar documentos Facilitar sua busca automática Facilitar sua visualização

Page 4: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs

Classificação

Documentos

Classe 1

Classe 2

Classe 3

Page 5: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs

Clustering X Classificação

Clustering Criar grupos de documentos Classes geradas automaticamente

Classificação Definir a que grupo pertence um documento Classes pré-definidas

Page 6: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs

Construção de Classificadores

Classificação Manual Realizada por um especialista

Construção Manual do Classificador Regras escritas manualmente

Construção Automática do Classificador Algoritmos de aprendizagem automática

Page 7: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs

Construção Automática

Conjunto de Treinamento Treinamento do algoritmo

Conjunto de Validação Ajuste do sistema

Conjunto de Teste Avaliação do desempenho do sistema

Page 8: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs

Construção Automática

DocumentosRepresentação Inicial

Redução da Dimensãoou

Seleção de Termos

Representação FinalIndução

ConhecimentoAdicional

Categorização

Page 9: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs

Aplicações

Sites Recomendação

Emails Filtro de Spam

Base de documentosRSS Feed’sReconhecimento de AssinaturaReconhecimento de voz

Page 10: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs

Atributos

Categóricos Nomes ou rótulos

Verde, casado, muito, baixo, pequeno Operações

Igualdade, diferençaNuméricos

Número Inteiros, Reais

Operações Igualdade, diferença, adição, subtração...

Page 11: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs

Distâncias

Diversas maneiras de calcular Euclidiana, Manhattan, Quadrática, Co-seno...

Problemas Atributos Categóricos Um atributo numérico pode ter um peso

excessivo em relação aos demais

Page 12: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs

Algoritmos

Relevance Feedback (Rocchio)

K-Nearrest Neighbor (k-NN)

Template Matching

Page 13: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs

Relevance Feedback (Rocchio)

Adaptação para Categorização de Texto Modelo Vetorial Utilizando vetores ponderados do TF/IDF Para cada categoria cria um vetor de

“protótipo”, somando todos os vetores dos documentos desta categoria

Similaridade por Cosseno

Page 14: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs

Relevance Feedback (Rocchio)

Classe 1

Classe 2

Page 15: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs

Relevance Feedback (Rocchio)

Protótipo:Classe 1

Protótipo:Classe 2

Page 16: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs

k-NN

Processo de aprendizagem baseado em instâncias

Classificação baseado nos k vizinhos mais próximos

Simplesmente armazena os exemplos de treinamento

Se utiliza de todos os atributos disponíveis

Page 17: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs

k-NN

Para 1-NN classifica como +Para 5-NN classifica como -

Page 18: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs

k-NN

Page 19: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs

k-NN

Ponderar o peso de cada vizinho de acordo com a distância Robusto a ruído Maior efetividade quando há uma grande

quantidade de dados de treinamento

Page 20: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs

k-NN

Desvantagens O custo de classificação de novos padrões

pode ser alto Considera todos os atributos, quando apenas

alguns deles podem ser importantes

Page 21: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs

Template Matching

Utiliza um conjunto de templates para definir qual mais se aproxima de uma nova entrada

Aplicações Reconhecimento de assinatura, voz, faces, etc. Bioinformática Estimação de Movimento

Page 22: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs

Template Matching

Page 23: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs

Template Matching

Page 24: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs

Avaliação de Classificadores

É necessário ter métricas para avaliar a eficácia de um classificador

Como dividir o conjunto de exemplos em treinamento, validação e testes

Page 25: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs

K-Fold Cross Validation

O conjunto de exemplos é dividido em K partes 1 é utilizada para testes K – 1 é utilizada para treinamento e validação

Iterativo A parte selecionada para testes é trocada até

que todas tenham sido escolhidas

Page 26: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs

K-Fold Cross Validation

Example Set

Page 27: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs

K-Fold Cross Validation

Análise Estatística Hipótese Nula Hipótese Alternativa Nível de confiabilidade - Significância

Utiliza-se após a aplicação do K-Fold Cross Validation

Page 28: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs

Curva ROC

Reciever Operating Characteristics

Curva ROC é um método para visualização e comparação da performance de classificadores

Não é afetado pelo desbalanceamento das classes nos exemplos

Page 29: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs

Curva ROC

Page 30: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs

Curva ROC

Page 31: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs

Curva ROC

Área sob a curva Comparação de dois

algoritmos

Page 32: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs

Curva ROC

Desvantagens Problemas com mais de duas classes

Separar em várias Curvas ROC Problema de desbalanceamento

Cálculo das Áreas Associar pesos a cada classe

Não é possível visualizar as áreas calculadas

Page 33: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs

Referências

Tom Fawcett. An introduction to ROC analysis. Pattern. Recognition Letters, Vol. 27, No. 8., pp. 861-874, 2006.

Slides de George Darmiton e Tsang Ren: Aprendizagem de Máquina

Slide de Flávia Barros: Mineração da Web

Page 34: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs

Classificação/Categorização

Christian Diego – cdadIcamaan Viegas – ibvs