aplicação de técnicas de mineração de textos para classificação automática de denúncias: um...
TRANSCRIPT
![Page 1: Aplicação de técnicas de mineração de textos para classificação automática de denúncias: um estudo de caso da automatização da triagem de denúncias na CGU](https://reader031.vdocuments.net/reader031/viewer/2022030305/58719e731a28ab044e8b64e9/html5/thumbnails/1.jpg)
Uso de Técnicas de Mineração de Textos
Aplicado à triagem automática de denúncias
![Page 2: Aplicação de técnicas de mineração de textos para classificação automática de denúncias: um estudo de caso da automatização da triagem de denúncias na CGU](https://reader031.vdocuments.net/reader031/viewer/2022030305/58719e731a28ab044e8b64e9/html5/thumbnails/2.jpg)
TEXT MINING
![Page 3: Aplicação de técnicas de mineração de textos para classificação automática de denúncias: um estudo de caso da automatização da triagem de denúncias na CGU](https://reader031.vdocuments.net/reader031/viewer/2022030305/58719e731a28ab044e8b64e9/html5/thumbnails/3.jpg)
TRIAGEM DE DENÚNCIAS DA
CGU
Denúncia: comunicação de prática de
ato ilícito cuja solução dependa da
atuação de órgão de controle interno
ou externo.
![Page 4: Aplicação de técnicas de mineração de textos para classificação automática de denúncias: um estudo de caso da automatização da triagem de denúncias na CGU](https://reader031.vdocuments.net/reader031/viewer/2022030305/58719e731a28ab044e8b64e9/html5/thumbnails/4.jpg)
Habilitadas
Inabilitadas
Denúncias
PROTOCOLO
Ouvidoria (35 mil)
Lixo Eletrônico (17 mil )
Fluxo da Triagem de Denúncias
DSSAU
DSEDU
DRDAG
91
diferentes
áreas da
CGU
. . .
Dados
insuficientes
Não é
competência CGU
Já foi
Ficalizada
Arquivadas . . .
![Page 5: Aplicação de técnicas de mineração de textos para classificação automática de denúncias: um estudo de caso da automatização da triagem de denúncias na CGU](https://reader031.vdocuments.net/reader031/viewer/2022030305/58719e731a28ab044e8b64e9/html5/thumbnails/5.jpg)
Exemplo de Texto de Denúncia com
Erros de Ortografia
![Page 6: Aplicação de técnicas de mineração de textos para classificação automática de denúncias: um estudo de caso da automatização da triagem de denúncias na CGU](https://reader031.vdocuments.net/reader031/viewer/2022030305/58719e731a28ab044e8b64e9/html5/thumbnails/6.jpg)
Exemplo de Lixo Eletrônico
![Page 7: Aplicação de técnicas de mineração de textos para classificação automática de denúncias: um estudo de caso da automatização da triagem de denúncias na CGU](https://reader031.vdocuments.net/reader031/viewer/2022030305/58719e731a28ab044e8b64e9/html5/thumbnails/7.jpg)
Porque a triagem manual é um problema?
O estoque de denúncias aumenta a cada dia
Poucos servidores
Processo de triagem baseado em palavras chaves
Denúncia é feita com campo texto em formato livre
91 áreas da CGU para as quais as denúncias devem
ser encaminhadas
![Page 8: Aplicação de técnicas de mineração de textos para classificação automática de denúncias: um estudo de caso da automatização da triagem de denúncias na CGU](https://reader031.vdocuments.net/reader031/viewer/2022030305/58719e731a28ab044e8b64e9/html5/thumbnails/8.jpg)
Objetivo
Propor um modelo de triagem
eletrônica baseada em mineração de
textos e aprendizagem de máquina.
![Page 9: Aplicação de técnicas de mineração de textos para classificação automática de denúncias: um estudo de caso da automatização da triagem de denúncias na CGU](https://reader031.vdocuments.net/reader031/viewer/2022030305/58719e731a28ab044e8b64e9/html5/thumbnails/9.jpg)
Proposta de triagem eletrônica
Denúncias
PROTOCOLOo
Triagem eletrônica
Lixo Eletrônico
DSSAU
DSEDU
DRDAG
91 diferentes
áreas da
CGU . . .
Arquivadas
Elimina similares
Dados
insuficientes
Não é competência
CGU
Já foi
Ficalizada
. . .
![Page 10: Aplicação de técnicas de mineração de textos para classificação automática de denúncias: um estudo de caso da automatização da triagem de denúncias na CGU](https://reader031.vdocuments.net/reader031/viewer/2022030305/58719e731a28ab044e8b64e9/html5/thumbnails/10.jpg)
Denúncias Repetidas – como tratar?
Similaridades de cossenos: encontra semelhanças através dos
cossenos do ângulo formado entre 2 vetores.
Valida antes da triagem.
1 = denúncias idênticas!
![Page 11: Aplicação de técnicas de mineração de textos para classificação automática de denúncias: um estudo de caso da automatização da triagem de denúncias na CGU](https://reader031.vdocuments.net/reader031/viewer/2022030305/58719e731a28ab044e8b64e9/html5/thumbnails/11.jpg)
Proposta de triagem eletrônica
Denúncias
PROTOCOLOo
Triagem eletrônica
Lixo Eletrônico
DSSAU
DSEDU
DRDAG
91 diferentes
áreas da
CGU . . .
Arquivadas
Elimina similares
Dados
insuficientes
Não é competência
CGU
Já foi
Ficalizada
. . .
![Page 12: Aplicação de técnicas de mineração de textos para classificação automática de denúncias: um estudo de caso da automatização da triagem de denúncias na CGU](https://reader031.vdocuments.net/reader031/viewer/2022030305/58719e731a28ab044e8b64e9/html5/thumbnails/12.jpg)
Matriz termo documento
Remoção de StopWords
Remoção de Pontuação,
números e espaços
Conversão de letras
Maiúsculas para minúsculas
Uso de stemming
Base de dados
Denúncia
denunc escolc fraud ...
1 1 0 0
1 0 1 0
Classificador
![Page 13: Aplicação de técnicas de mineração de textos para classificação automática de denúncias: um estudo de caso da automatização da triagem de denúncias na CGU](https://reader031.vdocuments.net/reader031/viewer/2022030305/58719e731a28ab044e8b64e9/html5/thumbnails/13.jpg)
![Page 14: Aplicação de técnicas de mineração de textos para classificação automática de denúncias: um estudo de caso da automatização da triagem de denúncias na CGU](https://reader031.vdocuments.net/reader031/viewer/2022030305/58719e731a28ab044e8b64e9/html5/thumbnails/14.jpg)
Resultados
• POC com 4 categorias
• Precisão de 0.82
• 58 categorias – precisão de 0.554
![Page 15: Aplicação de técnicas de mineração de textos para classificação automática de denúncias: um estudo de caso da automatização da triagem de denúncias na CGU](https://reader031.vdocuments.net/reader031/viewer/2022030305/58719e731a28ab044e8b64e9/html5/thumbnails/15.jpg)
Classificação multi-label
Resultados
![Page 16: Aplicação de técnicas de mineração de textos para classificação automática de denúncias: um estudo de caso da automatização da triagem de denúncias na CGU](https://reader031.vdocuments.net/reader031/viewer/2022030305/58719e731a28ab044e8b64e9/html5/thumbnails/16.jpg)
Conclusões
- POC com 58 categorias (unidades da CGU) e cerca
de 40 mil denúncias
- Identificação automática de denúncias similares
- A triagem pode ser feita de forma automática, em
menor tempo e sem perda de qualidade!
- Triagem pode indicar mais de uma unidade da CGU
- O processo é escalável e pode triar maior volume de
denúncias e menor tempo
![Page 17: Aplicação de técnicas de mineração de textos para classificação automática de denúncias: um estudo de caso da automatização da triagem de denúncias na CGU](https://reader031.vdocuments.net/reader031/viewer/2022030305/58719e731a28ab044e8b64e9/html5/thumbnails/17.jpg)
Artigo ENIAC 2014: Application of text mining techniques
for classification of documents: a study of automation of
complaints screening in a Brazilian Federal Agency http://www.lbd.dcc.ufmg.br/colecoes/eniac/2014/0081.pdf
Obrigada!