r - text mining
TRANSCRIPT
![Page 1: R - Text Mining](https://reader034.vdocuments.net/reader034/viewer/2022042520/587221621a28ab3f188b84c3/html5/thumbnails/1.jpg)
Text Mining Descoberta de conhecimento
em um Service Desk
João G. Gutheil
Dezembro/2016
![Page 2: R - Text Mining](https://reader034.vdocuments.net/reader034/viewer/2022042520/587221621a28ab3f188b84c3/html5/thumbnails/2.jpg)
![Page 3: R - Text Mining](https://reader034.vdocuments.net/reader034/viewer/2022042520/587221621a28ab3f188b84c3/html5/thumbnails/3.jpg)
Text Mining
Resumidamente, ‘Processo de descoberta de conhecimento em textos’
“A análise de texto envolve a recuperação de informações e análise léxica a fim de estudar a frequência de distribuição de palavras, reconhecimento de padrões, ..., extração de informações, ... , visualização e análise preditiva. O objetivo maior é transformar o texto em dados para análise, por meio da aplicação do processamento de linguagem natural (PLN) e de métodos analíticos.” https://pt.wikipedia.org/wiki/Minera%C3%A7%C3%A3o_de_texto
![Page 4: R - Text Mining](https://reader034.vdocuments.net/reader034/viewer/2022042520/587221621a28ab3f188b84c3/html5/thumbnails/4.jpg)
Text Mining
Aplicabilidade
- Sistemas de recomendação
- Descoberta de padrões em teses jurídicas
- Reconhecimento de SPAM
- Análise de sentimentos
- Descoberta de padrões de comportamento
(Ex: Anamnese nutricional e a co-relação entre doenças e hábitos alimentar)
....
![Page 5: R - Text Mining](https://reader034.vdocuments.net/reader034/viewer/2022042520/587221621a28ab3f188b84c3/html5/thumbnails/5.jpg)
A oportunidade
~3200 chamados/mês ~2000 usuários
![Page 6: R - Text Mining](https://reader034.vdocuments.net/reader034/viewer/2022042520/587221621a28ab3f188b84c3/html5/thumbnails/6.jpg)
A oportunidade
• Quais as causas dos nossos chamados ?
• Qual o tipo de problema reportado pelas áreas de negócio ?
• Qual aplicação temos mais chamados ? E por quê?
• Existe alguma relação entre recorrência de defeitos ?
• Sem categorização, como obter conhecimento e identificar causa raiz dos problemas?
A partir de um sistema fracamente categorizado, como responder questões como:
![Page 7: R - Text Mining](https://reader034.vdocuments.net/reader034/viewer/2022042520/587221621a28ab3f188b84c3/html5/thumbnails/7.jpg)
A aplicação
Objetivo Aplicação que permita identificar - a partir dos textos nos chamados - padrões ou relações que levem a origem destes no Service Desk
Pacotes utilizados - TM: Funções para mineração de textos - Wordcloud: Criação de nuvem de termos - vizNetwork: Interface R para library vis.js - Sqldf: Manipulação de dataframes usando SQL - Shiny: Criação de aplicações WEB - Shinydashboard: Criação de dashboards interativos
Detalhes ₋ Amostra com ~3600 observações (corpus) ₋ Cada observação é um documento ₋ Desenvolvimento com Rstudio ₋ Shiny: Framework para aplicações WEB com R
![Page 8: R - Text Mining](https://reader034.vdocuments.net/reader034/viewer/2022042520/587221621a28ab3f188b84c3/html5/thumbnails/8.jpg)
A tecnologia (ou uma delas...)
Linguagem de programação e ambiente de desenvolvimento voltado para computação estatística e visualização de dados - Facilidade de manipulação de dados - Sem custo - Vasta biblioteca para mineração de dados/mineração de textos: séries temporais, agrupamento e classificação, redes Bayesianas... - In memory é a limitação - Integração com Hadoop e Spark
- ~ 8.000 pacotes - Comunidade ativa - Investimento de grandes players (Microsoft, Oracle, IBM)
![Page 9: R - Text Mining](https://reader034.vdocuments.net/reader034/viewer/2022042520/587221621a28ab3f188b84c3/html5/thumbnails/9.jpg)
Demo
![Page 10: R - Text Mining](https://reader034.vdocuments.net/reader034/viewer/2022042520/587221621a28ab3f188b84c3/html5/thumbnails/10.jpg)
Próximos passos
• Algoritmo Apriori Ex: {Termo X} {Termo Y, Termo N}
• Identificação de expressões ou sequencias de termos
• Filtro por área de negócio
• Acesso direto ao database do Service Desk
• Servidor Rstudio
![Page 11: R - Text Mining](https://reader034.vdocuments.net/reader034/viewer/2022042520/587221621a28ab3f188b84c3/html5/thumbnails/11.jpg)
Referências
https://cran.r-project.org/ https://www.rstudio.com/ https://shiny.rstudio.com/
![Page 12: R - Text Mining](https://reader034.vdocuments.net/reader034/viewer/2022042520/587221621a28ab3f188b84c3/html5/thumbnails/12.jpg)
Perguntas
![Page 13: R - Text Mining](https://reader034.vdocuments.net/reader034/viewer/2022042520/587221621a28ab3f188b84c3/html5/thumbnails/13.jpg)
João G. Gutheil [email protected] Ciência da Computação - Feevale
Especialização em Gestão do Conhecimento e Int. Estratégica - UCS
Analista de TI – AGCO
Analista de TI – Grupo RBS
Vice-Coordenador do GUBI (Grupo de Usuários de BI) – Sucesu RS
Áreas de interesse
Ferramentas de Mineração de Dados
Ferramentas e aplicações de BI
Tecnologias NoSQL e Analytics
Yosemite
Apresentação