cin-ufpe1 recuperação inteligente de informação agrupamento de texto
TRANSCRIPT
CIn-UFPE 1
Recuperação Inteligente de Informação
Agrupamento de Texto
CIn-UFPE
2
Roteiro da Aula
Definição Geral
Clustering de texto
Redução da dimensionalidade
Cluster não-hierárquico
Cluster hierárquico
Avaliação do agrupamento
Ensemble de agrupamentos
CIn-UFPE
3
Agrupamento de ObjetosClustering
Objetivos Particionar exemplos não classificados em
subconjuntos disjuntos (clusters), de modo que Exemplos em um mesmo cluster são muito
similares Exemplos em clusters diferentes são muito
diferentes Descobrir novas categorias de maneira não-
supervisionada i.e., sem conhecer as de categorias
previamente
CIn-UFPE
4
.
Exemplo de Clustering
.
...
. .. ..
..
....
.
...
. .. ..
..
....
.
CIn-UFPE
5
Clustering de Texto
Técnicas convencionais de Clustering têm sido diretamente aplicadas a texto, tipicamente
representando os textos como vetores de pesos com TF/IDF
usando a medida de similaridade do co-seno.
Algumas aplicações: Durante a recuperação, adicionar outros documentos no
mesmo cluster para melhorar a cobertura
Organizar os resultados da busca em clusters, para melhorar a organização da apresentação dos resultados ao usuário
E.g., folders do Vivisimo
Criação automática de taxonomias hierarquizadas de documentos para browsing
e.g., Yahoo & DMOZ
CIn-UFPE
6
CIn-UFPE
7
CIn-UFPE
8
CIn-UFPE
9
Representação
Representação dos documentos(e.g. lista de termos)
Redução da dimensionalidade
Seleção ou extração de características
Clustering
Textos
Corpus
Textos
Cluster ATextos
Cluster B
Textos
Cluster C
Etiquetagem
Agrupamento de textos
CIn-UFPE
10
Redução da dimensionalidade
CIn-UFPE
11
O objetivo é manter as características relevantes e eliminar características irrelevantes e redundantes.
Seleção de características
CIn-UFPE
12
Document Frequency: seleciona termos mais frequentes da base
Term Frequency Variance: seleciona termos onde valor de TF apresenta maior variação
Seleção de características
CIn-UFPE
13
Term Strength: probabilidade de um termo ocorrer em um documento dado que ocorre em um documento similar
Seleção supervisionada: (1) Aplica algoritmo de clustering e considera
clusters como labels de classes; (2) Usa Information Gain, Chi-Square, etc...
para selecionar atributos
Seleção de características
CIn-UFPE
14
Seleção de características
CIn-UFPE
15Seleção de características com wrappers
CIn-UFPE
16
Clustering Não-Hierárquico
O número de clusters desejados deve ser informado
Parâmetro = K
Algoritmo Geral: Escolhe aleatoriamente k instancias (documentos)
como sementes, uma para cada cluster Constrói os clusters iniciais com base nessas sementes
Medindo a similaridade entre vetores Iterações
realoca instancias em clusters diferentes, a fim de melhorar o clustering geral
Para quando nenhum cluster é mais modificado, ou quando atinge um número fixo de iterações
CIn-UFPE
17
Algoritmo K-Means
Assume que instâncias são vetores de valores reais (não-binários)
Cria clusters baseado em centróides (centros de gravidade), ou média dos pontos em um cluster, c:
A Realocação de instâncias a outros clusters é baseada na distância entre o vetor que representante a instância e o centróide atual do cluster
cx
xc
||
1(c)μ
CIn-UFPE
18Algoritmo K-Means Medidas de Distância
Distância Euclidiana (L2 norma):
L1 norma:
Similaridade com co-seno (transformada em uma distancia subtraindo-a de 1):
2
12 )(),( i
m
ii yxyxL
m
iii yxyxL
11 ),(
yx
yx
1
CIn-UFPE
19
Algoritmo K-Means
Seja d a distância medida entre instâncias
Selecione aleatoriamente k instâncias {s1, s2,… sk} como sementes
Até o processo convergir (ou outro critério de parada for satisfeito), faça: Para cada instância xi
Aloque xi no cluster cj tal que d (xi, sj) é mínima.
Atualize as sementes como sendo os centróides de cada cluster
Para cada cluster cj sj = (cj)
CIn-UFPE
20
Exemplo do K Means (K=2)
Pegue as semenstes
Realoque clusters
Compute centróides
xx
Realoque clusters
xx xx Compute centróides
Realoque clusters
Convergiu!
CIn-UFPE
21Algoritmo K-Means Escolha das Sementes
Resultados podem variar com a escolha aleatória das sementes Algumas sementes podem resultar em
taxas baixas de convergência Ou convergência para clusters sub-optimais
Devemos selecionar sementes com base em uma heurística ou usando resultados de outro método
CIn-UFPE 22
Clustering Hierárquico
CIn-UFPE
23
Clustering Hierárquico
Constrói uma árvore (taxonomia hierárquica - dendograma) a partir de um conjunto de exemplos não etiquetados
Aplicações recursivas de um algoritmo de clustering padrão podem produzir um clustering hierárquico
animal
vertebrado
peixe reptil anfíbio mamífero helmito inseto crustáceo
invertebrado
CIn-UFPE
24Clustering Hierárquico Aglomerativo vs. Divisivo
Métodos Aglomerativos (bottom-up) Iniciam com cada exemplo sendo um cluster
e Iterativamente combinam os clusters para
formar cluster maiores
Métodos Divisivos (particionais, top-down) Inicialmente, separam todos os exemplos
em clusters.
CIn-UFPE
25Clustering Hierárquico Aglomerativo
Algoritmo: Inicia com cada instância em um clusters
separado Até restar apenas um cluster
Repetidamente, une os dois clusters ci and cj que são mais semelhantes, criando um cluster ci cj
Utiliza uma função para determinar a similaridade entre duas instâncias/clusters
E.g., Co-seno entre vetores de documentos
O histórico das junções forma uma árvore binária (ou hierarquia).
CIn-UFPE
26
Clustering Hierárquico Aglomerativo Similaridade entre Clusters
Como computar a similaridade entre dois clusters (sim(x,y)) que podem conter mais de uma instância?
Três possibilidades: Single Link: Similaridade entre os dois
membros mais similares Complete Link: Similaridade entre os dois
membros menos similares Group Average: Similaridade média entre
todos os membros do cluster
CIn-UFPE
27
Clustering Hierárquico Aglomerativo Single Link
Similaridade entre os dois membros mais similares:
Pode resultar em clusters longos e finos, devido ao efeito “cadeia” Isso é apropriado em alguns casos, como
por exemplo clustering islands.
),(max),(,
yxsimccsimji cycx
ji
CIn-UFPE
28
Clustering Hierárquico Aglomerativo Exemplo de Single Link
CIn-UFPE
29
Clustering Hierárquico Aglomerativo Complete Link
Similaridade entre os dois membros menos similares:
Cria clusters mais densos e esféricos, que são, em geral, preferíveis
),(min),(,
yxsimccsimji cycx
ji
CIn-UFPE
30
Clustering Hierárquico Aglomerativo Exemplo de Complete Link
CIn-UFPE
31
Clustering Hierárquico Aglomerativo Similaridade entre Clusters
Depois de unir ci e cj, a similaridade entre o cluster resultante e outro cluster qualquer ck pode ser dada por: Single Link:
Complete Link:
)),(),,(max()),(( kjkikji ccsimccsimcccsim
)),(),,(min()),(( kjkikji ccsimccsimcccsim
CIn-UFPE
32Clustering Hierárquico Aglomerativo Similaridade Group Average entre
Clusters
Mede a similaridade entre dois clusters com base na similaridade média entre todos os pares com o cluster que foi unido
“Compromisso” entre single e complete link.
)( :)(
),()1(
1),(
ji jiccx xyccyjiji
ji yxsimcccc
ccsim
CIn-UFPE
33
Clustering Hierárquico Aglomerativo Similaridade Group Average entre
Clusters
Assume co-seno como função de similaridade e vetores normalizados
Sempre mantém a soma dos vetores em cada cluster
Compute similaridade entre clusters em tempo constante:
jcx
j xcs
)(
)1||||)(|||(|
|)||(|))()(())()((),(
iiii
iijijiji cccc
cccscscscsccsim
CIn-UFPE
34
Clustering Hierárquico Divisivo
Aplicação de k-Means de forma interativa Inicialmente, divida todos os objetos em
dois clusters usando k-Means Aplique k-Means nos clusters formados para
gerar subclusters Repita até atingir critério de parada
CIn-UFPE
35
Algoritmos Incrementais
A cada novo objeto, atualiza a estrutura de grupos sem precisar reiniciar o processo de clustering
Ideal em contextos onde os documentos são recebidos de forma constante e a uma taxa alta
Exemplos de algoritmos: Single-Pass, COBWEB, Redes ART,...
CIn-UFPE
36
Critérios de avaliação
CIn-UFPE
37
Critério de similaridade geral
CIn-UFPE
38
Matrizes de dispersão
CIn-UFPE
39
Matrizes de dispersão
CIn-UFPE
40Traços das matrizes de dispersão
CIn-UFPE
41
Critérios externos
CIn-UFPE
42
Critérios externos
CIn-UFPE
43
Critérios externos
CIn-UFPE
44
Ensemble de agrupamentos
CIn-UFPE
45
Ensemble de agrupamentos
CIn-UFPE
46
Ensemble de agrupamentos
CIn-UFPE
47
Tendências
Características linguísticas para representação de textos.
Seleção de agrupamentos para realização de ensemble.
Algoritmos incrementais. Melhora da precisão e custo computacional
dos algoritmos. Construção de critérios para seleção de
parâmetros no algoritmo. Etiquetagem de agrupamentos.