cin-ufpe1 recuperação inteligente de informação agrupamento de texto

CIn-UFPE 1

Recuperação Inteligente de Informação

Agrupamento de Texto

CIn-UFPE

2

Roteiro da Aula

Definição Geral

Clustering de texto

Redução da dimensionalidade

Cluster não-hierárquico

Cluster hierárquico

Avaliação do agrupamento

Ensemble de agrupamentos

CIn-UFPE

3

Agrupamento de ObjetosClustering

Objetivos Particionar exemplos não classificados em

subconjuntos disjuntos (clusters), de modo que Exemplos em um mesmo cluster são muito

similares Exemplos em clusters diferentes são muito

diferentes Descobrir novas categorias de maneira não-

supervisionada i.e., sem conhecer as de categorias

previamente

CIn-UFPE

4

.

Exemplo de Clustering

.

...

. .. ..

..

....

.

...

. .. ..

..

....

.

CIn-UFPE

5

Clustering de Texto

Técnicas convencionais de Clustering têm sido diretamente aplicadas a texto, tipicamente

representando os textos como vetores de pesos com TF/IDF

usando a medida de similaridade do co-seno.

Algumas aplicações: Durante a recuperação, adicionar outros documentos no

mesmo cluster para melhorar a cobertura

Organizar os resultados da busca em clusters, para melhorar a organização da apresentação dos resultados ao usuário

E.g., folders do Vivisimo

Criação automática de taxonomias hierarquizadas de documentos para browsing

e.g., Yahoo & DMOZ

CIn-UFPE

6

CIn-UFPE

7

CIn-UFPE

8

CIn-UFPE

9

Representação

Representação dos documentos(e.g. lista de termos)


Seleção ou extração de características

Clustering

Textos

Corpus

Textos

Cluster ATextos

Cluster B

Textos

Cluster C

Etiquetagem

Agrupamento de textos

CIn-UFPE

10


CIn-UFPE

11

O objetivo é manter as características relevantes e eliminar características irrelevantes e redundantes.

Seleção de características

CIn-UFPE

12

Document Frequency: seleciona termos mais frequentes da base

Term Frequency Variance: seleciona termos onde valor de TF apresenta maior variação


CIn-UFPE

13

Term Strength: probabilidade de um termo ocorrer em um documento dado que ocorre em um documento similar

Seleção supervisionada: (1) Aplica algoritmo de clustering e considera

clusters como labels de classes; (2) Usa Information Gain, Chi-Square, etc...

para selecionar atributos


CIn-UFPE

14


CIn-UFPE

15Seleção de características com wrappers

CIn-UFPE

16

Clustering Não-Hierárquico

O número de clusters desejados deve ser informado

Parâmetro = K

Algoritmo Geral: Escolhe aleatoriamente k instancias (documentos)

como sementes, uma para cada cluster Constrói os clusters iniciais com base nessas sementes

Medindo a similaridade entre vetores Iterações

realoca instancias em clusters diferentes, a fim de melhorar o clustering geral

Para quando nenhum cluster é mais modificado, ou quando atinge um número fixo de iterações

CIn-UFPE

17

Algoritmo K-Means

Assume que instâncias são vetores de valores reais (não-binários)

Cria clusters baseado em centróides (centros de gravidade), ou média dos pontos em um cluster, c:

A Realocação de instâncias a outros clusters é baseada na distância entre o vetor que representante a instância e o centróide atual do cluster

cx

xc

||

1(c)μ

CIn-UFPE

18Algoritmo K-Means Medidas de Distância

Distância Euclidiana (L2 norma):

L1 norma:

Similaridade com co-seno (transformada em uma distancia subtraindo-a de 1):

2

12 )(),( i

m

ii yxyxL

m

iii yxyxL

11 ),(

yx

yx

1

CIn-UFPE

19

Algoritmo K-Means

Seja d a distância medida entre instâncias

Selecione aleatoriamente k instâncias {s1, s2,… sk} como sementes

Até o processo convergir (ou outro critério de parada for satisfeito), faça: Para cada instância xi

Aloque xi no cluster cj tal que d (xi, sj) é mínima.

Atualize as sementes como sendo os centróides de cada cluster

Para cada cluster cj sj = (cj)

CIn-UFPE

20

Exemplo do K Means (K=2)

Pegue as semenstes

Realoque clusters

Compute centróides

xx

Realoque clusters

xx xx Compute centróides

Realoque clusters

Convergiu!

CIn-UFPE

21Algoritmo K-Means Escolha das Sementes

Resultados podem variar com a escolha aleatória das sementes Algumas sementes podem resultar em

taxas baixas de convergência Ou convergência para clusters sub-optimais

Devemos selecionar sementes com base em uma heurística ou usando resultados de outro método

CIn-UFPE 22

Clustering Hierárquico

CIn-UFPE

23

Clustering Hierárquico

Constrói uma árvore (taxonomia hierárquica - dendograma) a partir de um conjunto de exemplos não etiquetados

Aplicações recursivas de um algoritmo de clustering padrão podem produzir um clustering hierárquico

animal

vertebrado

peixe reptil anfíbio mamífero helmito inseto crustáceo

invertebrado

CIn-UFPE

24Clustering Hierárquico Aglomerativo vs. Divisivo

Métodos Aglomerativos (bottom-up) Iniciam com cada exemplo sendo um cluster

e Iterativamente combinam os clusters para

formar cluster maiores

Métodos Divisivos (particionais, top-down) Inicialmente, separam todos os exemplos

em clusters.

CIn-UFPE

25Clustering Hierárquico Aglomerativo

Algoritmo: Inicia com cada instância em um clusters

separado Até restar apenas um cluster

Repetidamente, une os dois clusters ci and cj que são mais semelhantes, criando um cluster ci cj

Utiliza uma função para determinar a similaridade entre duas instâncias/clusters

E.g., Co-seno entre vetores de documentos

O histórico das junções forma uma árvore binária (ou hierarquia).

CIn-UFPE

26

Clustering Hierárquico Aglomerativo Similaridade entre Clusters

Como computar a similaridade entre dois clusters (sim(x,y)) que podem conter mais de uma instância?

Três possibilidades: Single Link: Similaridade entre os dois

membros mais similares Complete Link: Similaridade entre os dois

membros menos similares Group Average: Similaridade média entre

todos os membros do cluster

CIn-UFPE

27

Clustering Hierárquico Aglomerativo Single Link

Similaridade entre os dois membros mais similares:

Pode resultar em clusters longos e finos, devido ao efeito “cadeia” Isso é apropriado em alguns casos, como

por exemplo clustering islands.

),(max),(,

yxsimccsimji cycx

ji

CIn-UFPE

28

Clustering Hierárquico Aglomerativo Exemplo de Single Link

CIn-UFPE

29

Clustering Hierárquico Aglomerativo Complete Link

Similaridade entre os dois membros menos similares:

Cria clusters mais densos e esféricos, que são, em geral, preferíveis

),(min),(,

yxsimccsimji cycx

ji

CIn-UFPE

30

Clustering Hierárquico Aglomerativo Exemplo de Complete Link

CIn-UFPE

31

Clustering Hierárquico Aglomerativo Similaridade entre Clusters

Depois de unir ci e cj, a similaridade entre o cluster resultante e outro cluster qualquer ck pode ser dada por: Single Link:

Complete Link:

)),(),,(max()),(( kjkikji ccsimccsimcccsim

)),(),,(min()),(( kjkikji ccsimccsimcccsim

CIn-UFPE

32Clustering Hierárquico Aglomerativo Similaridade Group Average entre

Clusters

Mede a similaridade entre dois clusters com base na similaridade média entre todos os pares com o cluster que foi unido

“Compromisso” entre single e complete link.

)( :)(

),()1(

1),(

ji jiccx xyccyjiji

ji yxsimcccc

ccsim

CIn-UFPE

33

Clustering Hierárquico Aglomerativo Similaridade Group Average entre

Clusters

Assume co-seno como função de similaridade e vetores normalizados

Sempre mantém a soma dos vetores em cada cluster

Compute similaridade entre clusters em tempo constante:

jcx

j xcs

)(

)1||||)(|||(|

|)||(|))()(())()((),(

iiii

iijijiji cccc

cccscscscsccsim

CIn-UFPE

34

Clustering Hierárquico Divisivo

Aplicação de k-Means de forma interativa Inicialmente, divida todos os objetos em

dois clusters usando k-Means Aplique k-Means nos clusters formados para

gerar subclusters Repita até atingir critério de parada

CIn-UFPE

35

Algoritmos Incrementais

A cada novo objeto, atualiza a estrutura de grupos sem precisar reiniciar o processo de clustering

Ideal em contextos onde os documentos são recebidos de forma constante e a uma taxa alta

Exemplos de algoritmos: Single-Pass, COBWEB, Redes ART,...

CIn-UFPE

36

Critérios de avaliação

CIn-UFPE

37

Critério de similaridade geral

CIn-UFPE

38

Matrizes de dispersão

CIn-UFPE

39

Matrizes de dispersão

CIn-UFPE

40Traços das matrizes de dispersão

CIn-UFPE

41

Critérios externos

CIn-UFPE

42

Critérios externos

CIn-UFPE

43

Critérios externos

CIn-UFPE

44


CIn-UFPE

45


CIn-UFPE

46


CIn-UFPE

47

Tendências

Características linguísticas para representação de textos.

Seleção de agrupamentos para realização de ensemble.

Algoritmos incrementais. Melhora da precisão e custo computacional

dos algoritmos. Construção de critérios para seleção de

parâmetros no algoritmo. Etiquetagem de agrupamentos.

cin-ufpe1 recuperação inteligente de informação agrupamento de texto

Documents