análise semântica descoberta de conhecimento em textosalvares/ine5644/kdt-apresentacao.pdf ·...
TRANSCRIPT
![Page 1: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite](https://reader033.vdocuments.net/reader033/viewer/2022052804/604a01a20c044b0dda37d984/html5/thumbnails/1.jpg)
Descoberta de conhecimento em textos - Análise semântica
● Diogo Cardoso● Eduardo Camilo Inácio● Eduardo Monteiro Dellandréa● Guilherme Gomes
![Page 2: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite](https://reader033.vdocuments.net/reader033/viewer/2022052804/604a01a20c044b0dda37d984/html5/thumbnails/2.jpg)
Introdução
● Diversidade de textos não padronizados;
● Emails, artigos, documentos digitalizados poderiam ser
perdidos na ausência de uma análise criteriosa;
● Expor as técnicas de KDT.
![Page 3: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite](https://reader033.vdocuments.net/reader033/viewer/2022052804/604a01a20c044b0dda37d984/html5/thumbnails/3.jpg)
Visão Geral KDT
● Descoberta de Conhecimento em Textos;
● KDT (Knowledge Discovered in Texts);
● Feldman e Dagan em 1995;
● Evolução da técnica de recuperação de informações;
● Mecanismo de busca X Mineração de texto;
● Extrair dados, encontrar padrões.
![Page 4: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite](https://reader033.vdocuments.net/reader033/viewer/2022052804/604a01a20c044b0dda37d984/html5/thumbnails/4.jpg)
Etapas do Processo de Descoberta.
1 - Definição de objetivos.
2 - Seleção dos dados.
3 - Limpeza dos dados.
4 - Redução ou projeção dos dados.
5 - Escolha da técnica, método ou tarefa de mineração.
6 - Mineração.
![Page 5: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite](https://reader033.vdocuments.net/reader033/viewer/2022052804/604a01a20c044b0dda37d984/html5/thumbnails/5.jpg)
Etapas do Processo de Descoberta. (cont.)
7 - Interpretação dos resultados.
8 - Consolidação do conhecimento descoberto.
![Page 6: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite](https://reader033.vdocuments.net/reader033/viewer/2022052804/604a01a20c044b0dda37d984/html5/thumbnails/6.jpg)
Técnicas de KDT
● Desafio
○ Processamento de Linguagens Naturais
● Abordagens de Aprendizado
○ Supervisionado
○ Não Supervisionado
![Page 7: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite](https://reader033.vdocuments.net/reader033/viewer/2022052804/604a01a20c044b0dda37d984/html5/thumbnails/7.jpg)
Técnicas de KDT (cont.)● Extração de Informação
● Rastreamento de Tópicos (Topic Tracking)
● Sumarização
● Categorização ou Classificação
● Agrupamento (Clustering)
● Acoplamento de Conceitos (Concept Linkage)
● Visualização de Informação
● Respondendo a Perguntas (Question Answering)
● Associação
![Page 8: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite](https://reader033.vdocuments.net/reader033/viewer/2022052804/604a01a20c044b0dda37d984/html5/thumbnails/8.jpg)
Extração de Informação
● Produzir uma saída estruturada a partir de documentos de texto não estruturados
● Baseado na identificação de frases-chave a partir de
sequências pré-definidas
● Normalmente associado a uma etapa de pré-processamento de dados
![Page 9: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite](https://reader033.vdocuments.net/reader033/viewer/2022052804/604a01a20c044b0dda37d984/html5/thumbnails/9.jpg)
Topic Tracking● Encontrar documentos relacionados com
determinados tópicos● Aplicações que buscam documentos baseados no
perfil dos usuários (Yahoo! Alerts)
● Baseado em identificação de palavras-chave nos
textos e comparação com tópicos desejados
● Maior parte dos métodos de identificação de palavras-
chave utilizam a quantidade de aparições dos termos
no texto como métrica
![Page 10: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite](https://reader033.vdocuments.net/reader033/viewer/2022052804/604a01a20c044b0dda37d984/html5/thumbnails/10.jpg)
Sumarização
● Criar um resumo ou sumário de um documento automaticamente
● Busca por palavras ou frases com grande
importância no texto
● Redução do conteúdo sem perda de significado geral● Especialmente interessante para documentos muito
extensos
![Page 11: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite](https://reader033.vdocuments.net/reader033/viewer/2022052804/604a01a20c044b0dda37d984/html5/thumbnails/11.jpg)
Categorização
● Determinar a classe ou categoria a qual pertence um documento
● Bastante similar a técnica utilizada em Data Mining● Capacidade de reconhecimento associada ao conjunto
de testes● Utilizada para indexação de documentos
![Page 12: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite](https://reader033.vdocuments.net/reader033/viewer/2022052804/604a01a20c044b0dda37d984/html5/thumbnails/12.jpg)
Clustering
● Documentos agrupados de acordo com suas semelhanças e co-relacionamentos
● Bastante similar a técnica utilizada em Data Mining● Necessita de avaliação de um especialista do domínio
● Performance melhorada quando considera a
semântica do texto
![Page 13: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite](https://reader033.vdocuments.net/reader033/viewer/2022052804/604a01a20c044b0dda37d984/html5/thumbnails/13.jpg)
Concept Linkage● Identificação de conexões entre documentos● Baseado na identificação de conceitos
compartilhados entre os documentos
● Exemplo:
Documento 1 relaciona os tópicos X com Y
Documento 2 relaciona os tópicos Y com Z
Concept Linkage identifica relacionamento entre X e Z
![Page 14: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite](https://reader033.vdocuments.net/reader033/viewer/2022052804/604a01a20c044b0dda37d984/html5/thumbnails/14.jpg)
Visualização de Informação● Apresentação de fontes textuais em uma hierarquia
ou mapa● Implementações oferecem recursos de navegação e
busca● Preparação dos dados, análise e extração dos dados,
construção da apresentação● Utiliza outras técnicas nas etapas de preparação,
análise e extração dos dados
![Page 15: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite](https://reader033.vdocuments.net/reader033/viewer/2022052804/604a01a20c044b0dda37d984/html5/thumbnails/15.jpg)
Question Answering
● Capacidade de responder perguntas feitas em linguagem natural
● Utiliza outras técnicas para determinar o assunto da questão
● Solução para interfaces de entrada de sistemas especialistas
![Page 16: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite](https://reader033.vdocuments.net/reader033/viewer/2022052804/604a01a20c044b0dda37d984/html5/thumbnails/16.jpg)
Associação● Encontrar regras de associação entre tópicos ou
conceitos em um conjunto de documentos● Determinações do tipo:
Se um conceito X existe no documento, então um
conceito Y também existe.
● Bastante similar a técnica utilizada em Data Mining
![Page 17: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite](https://reader033.vdocuments.net/reader033/viewer/2022052804/604a01a20c044b0dda37d984/html5/thumbnails/17.jpg)
Ferramentas de mineração de conhecimento em textos
SAS Text Miner
● Empresa líder de mercado em soluções de inteligência analítica.
● Permite análises avançadas, tornando possível compreender as tendências futuras e atuar em novas oportunidades, mais precisamente e com menos risco.
● Inclui recursos avançados de linguística da solução de mineração de dados núcleo da SAS ® Enterprise Miner.
![Page 18: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite](https://reader033.vdocuments.net/reader033/viewer/2022052804/604a01a20c044b0dda37d984/html5/thumbnails/18.jpg)
Ferramentas de mineração de conhecimento em textos
SAS Text Miner
![Page 19: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite](https://reader033.vdocuments.net/reader033/viewer/2022052804/604a01a20c044b0dda37d984/html5/thumbnails/19.jpg)
Ferramentas de mineração de conhecimento em textos
Intext Mining - Text Mining Suite
● Classificação: para identificação de assuntos, temas;● Clustering de textos: separação automática de textos
em grupos sem a necessidade prévia de determinação do número de grupos;
● Recuperação de textos por similaridade: a partir de um texto de entrada a ferramenta retorna uma lista de textos similares ordenado por nível de similaridade;
● Possui um módulo Wizard. Basta responder a algumas perguntas do assistente para receber o resultado da análise.
![Page 20: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite](https://reader033.vdocuments.net/reader033/viewer/2022052804/604a01a20c044b0dda37d984/html5/thumbnails/20.jpg)
Ferramentas de mineração de conhecimento em textos
Intext Mining - Text Mining Suite
![Page 21: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite](https://reader033.vdocuments.net/reader033/viewer/2022052804/604a01a20c044b0dda37d984/html5/thumbnails/21.jpg)
Ferramentas de mineração de conhecimento em textos
IBM TAKMI – Text Mining System
● Uma das várias ferramentas de Data Mining e BI, que trabalham com Text Mining da IBM;
● Destaca-se pela especialização em mineração de texto para a análise de logs de call centers, mas pode ser aplicável a qualquer tipo de dados de texto grandes em geral;
● Há também uma versão especializada para a análise de publicações médicas chamada de MedTAKMI.
![Page 22: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite](https://reader033.vdocuments.net/reader033/viewer/2022052804/604a01a20c044b0dda37d984/html5/thumbnails/22.jpg)
Ferramentas de mineração de conhecimento em textos
NetOwl TextMiner
Permite encontrar, organizar, analisar e extrair um grande volume de informações não estruturadas.
● Pesquisa semântica avançada;● Integrado Análise Geoespacial;● Link de Análise Integrada;● Análise biográfica;● Reduz o tempo de análise e decisão;● Revela riscos e oportunidades;● Melhora o serviço ao cliente;● Aumenta a introspecção de negócio e tendências.
![Page 23: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite](https://reader033.vdocuments.net/reader033/viewer/2022052804/604a01a20c044b0dda37d984/html5/thumbnails/23.jpg)
Ferramentas de mineração de conhecimento em textos
NetOwl TextMiner
![Page 24: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite](https://reader033.vdocuments.net/reader033/viewer/2022052804/604a01a20c044b0dda37d984/html5/thumbnails/24.jpg)
Ferramentas de mineração de conhecimento em textosSobek
● Desenvolvido por alunos de pós-graduação em educação da Universidade Federal do Rio Grande do Sul (UFRGS).
● Procura e registra ocorrências de palavras repetidas ou sinônimas no documento, fazendo relações e criando grafos de interação entre elas, expondo os principais termos/conceitos do texto em mineração.
● Cria um banco de conceitos e possíveis relações associativas para ajudar na procura de palavras-chave, encontrando um maior número de ligações entre os conceitos.
![Page 25: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite](https://reader033.vdocuments.net/reader033/viewer/2022052804/604a01a20c044b0dda37d984/html5/thumbnails/25.jpg)
Ferramentas de mineração de conhecimento em textosReferral Web
● Capaz de descobrir quais são as pessoas mais experientes em determinado assunto ou área, além de analisar co-relacionamentos entre pessoas.
● Princípio de que as pessoas mais experientes são aquelas mais citadas ou requisitadas na rede informal.
● Utiliza qualquer rede informal on-line (e-mail, foruns, página WEB, sites de busca) como fonte de informação.
Site de teste para análise de opinião
● School of Computer Science, The University of Manchester, UK ● Somente em Inglês● http://www.nactem.ac.uk/opminpackage/opinion_analysis
![Page 26: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite](https://reader033.vdocuments.net/reader033/viewer/2022052804/604a01a20c044b0dda37d984/html5/thumbnails/26.jpg)
Conclusão
Com a grande disponibilidade de textos na internet, uma pesquisa comum não nos fornece todas as informações de uma forma padronizada e estruturada.
De acordo com o que foi exposto neste trabalho, o KDT possui técnicas como topic tracking, sumarização, categorização que nos permite selecionar, de forma inteligente, a informação mais útil e relevante.
![Page 27: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite](https://reader033.vdocuments.net/reader033/viewer/2022052804/604a01a20c044b0dda37d984/html5/thumbnails/27.jpg)
ReferênciasGupta, V., & Lehal, G. S. (2009). A Survey of Text Mining Techniques and Applications. Journal of Emerging
Technologies in Web Intelligence, 1(1), 60–76.
Ferramenta SAS Text Miner, disponível em http://www.sas.com/text-analytics/text-miner/index.htmlFerramenta Text Mining Suite, disponível em http://www.intext.com.br/Ferramenta SOBEK, disponível em http://sobek.ufrgs.brFerramenta IBM TAKMI, disponível em http://www.research.ibm.com/trl/projects/textmining/takmi/takmi_e.htmFerramenta NetOwl TextMiner, disponível em http://www.netowl.com/textminer/Ferramenta Referral Web, disponível em http://dl.acm.org/citation.cfm?id=245123