desenvolvimento e implantação de um sistema para recomendação de tags utilizando clustering e...
TRANSCRIPT
Desenvolvimento e Implantação de um Sistema para Recomendação de
Tags utilizando Clustering e Classificação Textual para o Konnen
Flávio Henrique Moura Stakoviak
Roteiro
• Conceitos
• Clustering + Classificação Textual
• Resultados
• Considerações Finais
Roteiro
• Conceitos
• Clustering + Classificação Textual
• Resultados
• Considerações Finais
Conceitos
• Sistemas de Marcação Social
• Folksonomia
• Recuperação da Informação
• Clustering
• Sistemas de Recomendação
Conceitos
• Sistemas de Marcação Social
• Folksonomia
• Recuperação da Informação
• Clustering
• Sistemas de Recomendação
Sistemas de Marcação Social
• Tags
• Motivação
– Recuperar Informação futuramente
– Compartilhar
– Expressar opiniões
Sistemas de Marcação Social (cont.)
Conceitos
• Sistemas de Marcação Social
• Folksonomia
• Recuperação da Informação
• Clustering
• Sistemas de Recomendação
Folksonomia
• Liberdade ao Usuário
• Marcações Populares nas Tags
• Organização da Web
Folksonomia (cont.)
• Problemas
– Sobrecarga de Informações
– Diferentes Tags para um mesmo conteúdo
– Sistemas não tem interligações
Conceitos
• Sistemas de Marcação Social
• Folksonomia
• Recuperação da Informação
• Clustering
• Sistemas de Recomendação
Recuperação da Informação
• Auxiliar o usuário a busca por informações
• Etapas
– Aquisição
– Preparação
– Indexação
– Busca
– Ordenação
Recuperação da Informação (cont.)
• Técnicas auxiliares
– WebCrawler
– Stop Words
– Lematização
Conceitos
• Sistemas de Marcação Social
• Folksonomia
• Recuperação da Informação
• Clustering
• Sistemas de Recomendação
Clustering
• Clustering
– é um método de descoberta de conhecimento que
identifica agregações ou relações entre objetos,
sendo um método útil para o agrupamento de
documentos similares (WIVES, 1999)
Clustering (cont.)
• Etapas de Clustering
– Representação de Padrões
– Mediação da Proximidade
– Identificação do Clustering (Técnicas)
– Abstração dos Dados
– Validação dos Clusters
Clustering (cont.)
• Técnicas de Clustering
– Clustering Hierárquico
– Algoritmo Particional
– Density based
– Model based
Clustering (cont.)
• Técnicas de Clustering
– Clustering Hierárquico
– Algoritmo Particional
– Density based
– Model based
Conceitos
• Sistemas de Marcação Social
• Folksonomia
• Recuperação da Informação
• Clustering
• Sistemas de Recomendação
Sistemas de Recomendação
Sistema de Recomendação
Sistemas de Recomendação (cont.)
• Tags
– Uniformizar as marcações
– Melhora a eficiência dos resultados das buscas
– Folksonomia
Roteiro
• Conceitos
• Clustering + Classificação Textual
• Resultados
• Considerações Finais
Clustering + Classificação Textual
Base de dados
K agrupamentos
Documento a ser analisado
Lista de termos
Peso de cada termo em cada cluster
Clustering + Classficação Textual (cont.)
Lista de classificação de Termos
Lista de classificação
de Tags
Histórico de Tags do Usuário
∩ ∩
Clustering + Classficação Textual (cont.)
Lista de Tags Recomendadas
Roteiro
• Conceitos
• Clustering + Classificação Textual
• Resultados
• Considerações Finais
Resultados
• Konnen
Resultados (cont.)
Módulo de Conteúdo
Konnen
Módulo de Recomendação
Módulo Core
Módulo de Segurança
Outros módulos
Resultados (cont.)
• Konnen em desenvolvimento
• Estrutura em constante evolução
• Falta de conteúdo real para simulação
Resultados (cont.)
Bibsonomy Servidor Local
Utility.StopWords
Web
Cra
wle
r Utility.Util:GenerateData()
Utility.User
Utility.Tag
Utility.ContentTag
Utility.Content / Page
Lem
atiz
ação Utility.Util:PrepareData()
Utility.StopWords
LemmaSharp.Ilemmatizer
Utility.Content / Page
Resultados (cont.)
• Duração das Etapas (996 registros)
Tempo
WebCrawler 3 minutos
Lematização 22 minutos
Resultados (cont.)
Mínimo Máximo Média
Número de tags por post 1 23 1,35
Número de posts por usuário 1 899 39,84
Número de tags por usuário 1 1000 341,56
Resultados (cont.)
Número de tags atribuídas por usuários às postagens
Resultados (cont.)
Módulo de Conteúdo
Konnen
Módulo de Recomendação Clustering
Resultados (cont.)
• Documento: « Visual analytics tools for
analysis of movement data »
• Etapas:
– 5 execuções para cada valor de cluster = { 5, 10,
20, 25, 30 }
– 5 melhores resultados
Resultados (cont.)
• Para 5 clusters Tempo Iterações Recomendações
1ª execução 4,63 3 data, analysis, reasoning, automatic, method
2ª execução 4,89 2 analysis, data, human, time, automatic
3ª execução 4,85 3 human, data, case, method, support
4ª execução 4,66 3 data, analysis, large, method, automatic
5ª execução 4,72 3 data, method, large, study, understanding
Resultados (cont.)
• Para 10 clusters Tempo Iterações Recomendações
1ª execução 8,50 3 data, analysis, scale, support, automatic
2ª execução 14,47 2 analysis, data, large, reasoning e servisse
3ª execução 8,02 3 analysis, data, mobility, framework, human
4ª execução 14,69 4 data, analysis, tool, tools, method
5ª execução 8,34 3 data, analysis, framework, knowledge, visual
Resultados (cont.)
• Para 20 clusters Tempo Iterações Recomendações
1ª execução 28,60 4 data, analysis, support, case, large
2ª execução 37,99 4 knowledge, data, analysis, case e human
3ª execução 36,21 4 data, tools, analysis, case, semantic
4ª execução 19,65 4 data, tools, analysis, support, techinique
5ª execução 10,20 3 data, analysis, large, study, human
Resultados (cont.)
• Para 25 clusters Tempo Iterações Recomendações
1ª execução 12,11 3 data, analysis, human, semantic, visual
2ª execução 22,65 4 data, analysis, human, tools, visual
3ª execução 22,62 4 data, analysis, large, database, studies
4ª execução 11,93 3 data, analysis, support, collection, human
5ª execução 22,59 5 data, analysis, gps, human, visual
Resultados (cont.)
• Para 30 clusters Tempo Iterações Recomendações
1ª execução 27,06 4 human, data, analysis, mobility, pattern
2ª execução 26,57 4 data, analysis, interactive, human, making
3ª execução 14,45 4 data, analysis, human, method, mobility
4ª execução 14,75 3 data, analysis, human, knowledge, mobility
5ª execução 27,38 3 data, analysis, human, semantic, visual
Resultados (cont.)
• Freqüência dos colocados:– 1o : data(18), analysis(3), human(2), knowledge(1)
– 2o : analysis(16), data(6), tools(2), method(1)
– 3o : human (5), large (5), analysis(4), case, reasoning, scale, mobility, tool, gps
– 4o : method (3), case (3), study(2), support(2), knowledge (2), semantic(2),
human(2), tools(2), automatic(1), time(1), reasoning(1), framework(1),
collection(1), mobility(1)
– 5o : visual(5), human(4), automatic(3), method(2), support(1), understanding(1),
servisse(1), large(1), semantic(1), techinique(1), pattern(1), making(1)
Resultados (cont.)
• Melhores recomendações:
– data, analysis, human/large, method/case, visual
• Tempo de execução muito alto
• Usuário web quer tempo de resposta baixo
Resultados (cont.)
• Para 50 documentos e 3 clusters:
– Tempo de execução: 1,38 segundos
– Recomendação: automatic, knowledge, gps,
method, pattern
• Qualidade da recomendação fraca
Roteiro
• Conceitos
• Clustering + Classificação Textual
• Resultados
• Considerações Finais
Considerações Finais
• Boa performance
• Excelente qualidade das recomendações
• Funciona em qualquer ambiente
Considerações Finais
• Depende de uma base com um bom
vocabulário
• Usuários online: pré-classificação dos
documentos
Desenvolvimento e Implantação de um Sistema para Recomendação de
Tags utilizando Clustering e Classificação Textual para o Konnen
Flávio Henrique Moura Stakoviak