eduardo matos (ejvm) leonardo vilaça (lhvs) igor ebrahim (ies) thiago gomes (tgr)mw-2008 1

Eduardo Matos (ejvm)Leonardo Vilaça (lhvs)Igor Ebrahim (ies)Thiago Gomes (tgr) MW-2008

1

2

Aplicações Categorização de Documentos Construção Manual do Classificador Construção Automática do Classificador Algoritmos Referências

Criação de Base de documentos especializadas

Manutenção de hierarquias Yahoo

Filtragem e Recomendação Emails

Filtro de Spam Etc...

3

Definição: Atribuição de uma ou mais classes pré-

definidas aos documentos

Objetivos: Organizar os documentos Facilitar a sua busca automática Facilitar sua visualização

4

Documentos

Classe 1

Classe 2

Classe 3

5

Clustering Criar grupos de documentos Classes geradas automaticamente

Classificação Determinar a que grupo pertence um

documento Classes pré-definidas

6

Classificação Manual: Classificação dos documentos por um

especialista

Construção Manual do Classificador: Sistemas baseados em conhecimento

▪ Por exemplo: Base de Regras escrita manualmente

Construção Automática do Classificador: Algoritmos de aprendizagem automática

7

Conjunto de treinamento/construção manual: Aquisição do conhecimento ou Treinamento do

algoritmo Ajuste do sistema

Conjunto de teste: Diferente do conjunto de treinamento Avaliação do desempenho do sistema

8

Sistema baseado em Conhecimento: Base de conhecimento Máquina de Inferência (ex.: JEOPS)

Testese

Validação

Nível deConhecimento

Aquisiçãodo

Conhecimento

Nível Lógico

Formulaçãoda Base de

Conhecimento

Nível deImplementação

Construçãoda Base de

Conhecimento

9

Base de Conhecimento: Regras de Produção

Exemplo: Regras para o reconhecimento de um bloco de

citação em uma página de publicação (CitationFinder)

SE houver uma cadeia de Autores E houver uma cadeia de Intervalo de Páginas E houver uma cadeia de Trabalho Impresso E houver uma cadeia de Data ENTÃO o texto é uma citação (chance 1.0)

10

Criados automaticamente através da apresentação dos exemplos ao algoritmo de treinamento.

Ajuste dos resultados pelo desenvolvedor

Dados classificadosDados de

treinamentoClassificador Comparador

11

Documentos

Representação Inicial

Redução da Dimensãoou

Seleção de Termos

Representação FinalIndução

ConhecimentoAdicional

Categorização

12

Pré-processamento Selecionar termos que vão representar o

documento▪ Stoplist, stemming, thesaurus, termos

compostos, ... Associar pesos aos termos

▪ Pesos booleanos, pesos com freqüência de ocorrência (TF), TF-IDF, TF-IDF normalizado, considerar formatação do texto, ...

13

Montar uma tabela (matriz) onde: Colunas indicam os termos que ocorrem no

conjunto de documentos (vocabulário) Linhas indicam os documentos do conjunto O elemento tij indica o peso do termo j para

o documento i A representação do documento i

corresponde à linha i.

14

Objetivo: Reduzir o tamanho do vocabulário inicial da

base▪ Reduzindo assim a representação dos documentos ▪ para diminuir o risco de super-especialização do

classificador gerado (overfitting)

Abordagens: Seleção de atributos Extração de atributos

15

• Seleção de atributos usa algum critério para filtrar termos irrelevantes ou redundantes– Cada termo recebe uma “relevância”, que é

usada para ordenar a lista de termos– Exemplos de critérios de relevância

– freqüência, ganho de informação,...

• Extração de atributos combina termos existentes para criar novas dimensões– Exemplo: Semântica latente– Pode ser mais eficaz

– mas as dimensões resultantes (conceitos) são de difícil interpretação

16

A relevância do termo Wi para a classe Cj é medida pela diferença de entropia dessa classe antes e depois do uso desse termo na sua predição

c

jjj CPCPH

12 )(log)(

c

jijij WCPWCPH

12 )|(log)|('

(incerteza inicial)

(incerteza final)

HHE ' (qtd. de incerteza removida)

17

Coeficiente de Correlação entre o termo t e a classe Cj :

)()()()()(

nrnrnnrr

nrnr

NNNNNNNNNNNNNC

Nr+ = documentos relevantes para Cj que contêm o termo tNr- = documentos relevantes para Cj que não contêm t

Nn- = documentos não relevantes para Cj que não contêm tNn+ = documentos não relevantes para Cj que contêm t

χ2:mede a dependência entre um termo t e a classe Cj

22 C18

A partir da base de exemplos reduzidos e etiquetados induzir classificador

Técnicas utilizadas: Árvores de decisão, indução de regras,

aprendizagem baseada em instâncias (e.g., kNN), aprendizagem bayesiana (e.g., Naive Bayes), Redes Neurais (e.g., SVM),...

SVMs têm obtido bom desempenho

19

Tempo de Trein.

Tempo de Class.

Sistema Extens.

Interp. do Resul

Repr. do Conhec.

Regras Manuais Lento Rápido Sim Sim Simb.

(regras) Árvores de Decisão Rápido Rápido Não Razoável Simb.

(árvore) Indução de Regras Rápido Rápido Não Sim Simb.

(regras)

20

Tempo de Trein.

Tempo de Class.

Sistema Extens.

Interp. do Resul

Repr. do Conhec.

Apr. Bas. Instâncias - Lento Não Não Num.

(distân.) Aprendiz. Bayesiana Rápido Rápido Não Não Num.

(probab.) Redes Neurais Lento Rápido Não Não Num.

(pesos)

21

Tom Fawcett. An introduction to ROC analysis. Pattern. Recognition Letters, Vol. 27, No. 8., pp. 861-874, 2006.

Slides de George Darmiton e Tsang Ren: Aprendizagem de Máquina

Slide de Flávia Barros: Mineração da Web

22

23

Categorização de Documentos: Sebastiani, F. A Tutorial on Automated Text Categorization.

Analia Amandi and Alejandro Zunino (eds.), Proceedings of ASAI-99, 1st Argentinian Symposium on Artificial Intelligence, Buenos Aires, AR, pp. 7-35. 1999.

Moulinier, I. A Framework for Comparing Text Categorization Approaches. AAAI Spring Symposium on Machine Learning and Information Access, Stanford University, March 1996.

Sistemas Baseados em Conhecimento: Hayes, P. J. & Weinstein, S. P. Construe-TIS: A System for

Content-Based Indexing of a Database of News Stories. Second Annual Conference on Innovative Applications of Artificial Intelligence, pp. 48-64. 1990.

Neves, M. L. CitationFinder: Um Sistema de Meta-busca e Classificação de Páginas de Publicações na Web. Tese de Mestrado, Centro de Informática, UFPE, Fevereiro de 2001.

eduardo matos (ejvm) leonardo vilaça (lhvs) igor ebrahim (ies) thiago gomes (tgr)mw-2008 1

Documents