painel 02 01 patrícia maia - uso de técnicas de mineração de textos aplicado à triagem...
TRANSCRIPT
![Page 1: Painel 02 01 patrícia maia - Uso de Técnicas de Mineração de Textos Aplicado à triagem automática de denúncias](https://reader036.vdocuments.net/reader036/viewer/2022070602/587424e51a28ab72188b4c1d/html5/thumbnails/1.jpg)
Uso de Técnicas de Mineração de Textos Aplicado à triagem automática de
denúncias
![Page 2: Painel 02 01 patrícia maia - Uso de Técnicas de Mineração de Textos Aplicado à triagem automática de denúncias](https://reader036.vdocuments.net/reader036/viewer/2022070602/587424e51a28ab72188b4c1d/html5/thumbnails/2.jpg)
TEXT MINING
![Page 3: Painel 02 01 patrícia maia - Uso de Técnicas de Mineração de Textos Aplicado à triagem automática de denúncias](https://reader036.vdocuments.net/reader036/viewer/2022070602/587424e51a28ab72188b4c1d/html5/thumbnails/3.jpg)
TRIAGEM DE DENÚNCIAS DA CGU
Denúncia: comunicação de prática de ato ilícito cuja solução dependa da atuação de órgão de controle interno ou externo.
![Page 4: Painel 02 01 patrícia maia - Uso de Técnicas de Mineração de Textos Aplicado à triagem automática de denúncias](https://reader036.vdocuments.net/reader036/viewer/2022070602/587424e51a28ab72188b4c1d/html5/thumbnails/4.jpg)
Habilitadas
Inabilitadas
Denúncias
PROTOCOLO
Ouvidoria(35 mil)
Lixo Eletrônico(17 mil )
Fluxo da Triagem de DenúnciasDSSA
UDSEDU
DRDAG
91 diferentes áreas da
CGU...
Dados insuficient
esNão é
competência CGU
Já foi Ficalizada
Arquivadas...
![Page 5: Painel 02 01 patrícia maia - Uso de Técnicas de Mineração de Textos Aplicado à triagem automática de denúncias](https://reader036.vdocuments.net/reader036/viewer/2022070602/587424e51a28ab72188b4c1d/html5/thumbnails/5.jpg)
Exemplo de Texto de Denúncia com Erros de Ortografia
![Page 6: Painel 02 01 patrícia maia - Uso de Técnicas de Mineração de Textos Aplicado à triagem automática de denúncias](https://reader036.vdocuments.net/reader036/viewer/2022070602/587424e51a28ab72188b4c1d/html5/thumbnails/6.jpg)
Exemplo de Lixo Eletrônico
![Page 7: Painel 02 01 patrícia maia - Uso de Técnicas de Mineração de Textos Aplicado à triagem automática de denúncias](https://reader036.vdocuments.net/reader036/viewer/2022070602/587424e51a28ab72188b4c1d/html5/thumbnails/7.jpg)
Porque a triagem manual é um problema?
O estoque de denúncias aumenta a cada diaPoucos servidoresProcesso de triagem baseado em palavras chaves
Denúncia é feita com campo texto em formato livre
91 áreas da CGU para as quais as denúncias devem ser encaminhadas
![Page 8: Painel 02 01 patrícia maia - Uso de Técnicas de Mineração de Textos Aplicado à triagem automática de denúncias](https://reader036.vdocuments.net/reader036/viewer/2022070602/587424e51a28ab72188b4c1d/html5/thumbnails/8.jpg)
Objetivo
Propor um modelo de triagem eletrônica baseada em mineração de textos e aprendizagem de máquina.
![Page 9: Painel 02 01 patrícia maia - Uso de Técnicas de Mineração de Textos Aplicado à triagem automática de denúncias](https://reader036.vdocuments.net/reader036/viewer/2022070602/587424e51a28ab72188b4c1d/html5/thumbnails/9.jpg)
Proposta de triagem eletrônica
Denúncias
PROTOCOLOo
Triagem eletrônica
Lixo Eletrônico
DSSAUDSEDU
DRDAG
91 diferentes áreas da
CGU...
Arquivadas
Elimina similares
Dados insuficient
esNão é
competência CGU
Já foi Ficalizada
...
![Page 10: Painel 02 01 patrícia maia - Uso de Técnicas de Mineração de Textos Aplicado à triagem automática de denúncias](https://reader036.vdocuments.net/reader036/viewer/2022070602/587424e51a28ab72188b4c1d/html5/thumbnails/10.jpg)
Denúncias Repetidas – como tratar?
Similaridades de cossenos: encontra semelhanças através dos cossenos do ângulo formado entre 2 vetores.
Valida antes da triagem. 1 = denúncias idênticas!
![Page 11: Painel 02 01 patrícia maia - Uso de Técnicas de Mineração de Textos Aplicado à triagem automática de denúncias](https://reader036.vdocuments.net/reader036/viewer/2022070602/587424e51a28ab72188b4c1d/html5/thumbnails/11.jpg)
Proposta de triagem eletrônica
Denúncias
PROTOCOLOo
Triagem eletrônica
Lixo Eletrônico
DSSAUDSEDU
DRDAG
91 diferentes áreas da
CGU...
Arquivadas
Elimina similares
Dados insuficient
esNão é
competência CGU
Já foi Ficalizada
...
![Page 12: Painel 02 01 patrícia maia - Uso de Técnicas de Mineração de Textos Aplicado à triagem automática de denúncias](https://reader036.vdocuments.net/reader036/viewer/2022070602/587424e51a28ab72188b4c1d/html5/thumbnails/12.jpg)
Matriz termo documento
Remoção de StopWords
Remoção de Pontuação, números e espaços
Conversão de letras Maiúsculas para minúsculas
Uso de stemming
Base de dadosDenúncia
denunc escolc fraud ...
1 1 0 0
1 0 1 0
Classificador
![Page 13: Painel 02 01 patrícia maia - Uso de Técnicas de Mineração de Textos Aplicado à triagem automática de denúncias](https://reader036.vdocuments.net/reader036/viewer/2022070602/587424e51a28ab72188b4c1d/html5/thumbnails/13.jpg)
![Page 14: Painel 02 01 patrícia maia - Uso de Técnicas de Mineração de Textos Aplicado à triagem automática de denúncias](https://reader036.vdocuments.net/reader036/viewer/2022070602/587424e51a28ab72188b4c1d/html5/thumbnails/14.jpg)
Resultados
• POC com 4 categorias• Precisão de 0.82• 58 categorias – precisão de 0.554
![Page 15: Painel 02 01 patrícia maia - Uso de Técnicas de Mineração de Textos Aplicado à triagem automática de denúncias](https://reader036.vdocuments.net/reader036/viewer/2022070602/587424e51a28ab72188b4c1d/html5/thumbnails/15.jpg)
Classificação multi-label
Resultados
![Page 16: Painel 02 01 patrícia maia - Uso de Técnicas de Mineração de Textos Aplicado à triagem automática de denúncias](https://reader036.vdocuments.net/reader036/viewer/2022070602/587424e51a28ab72188b4c1d/html5/thumbnails/16.jpg)
Conclusões- POC com 58 categorias (unidades da CGU) e cerca
de 40 mil denúncias- Identificação automática de denúncias similares- A triagem pode ser feita de forma automática, em
menor tempo e sem perda de qualidade!- Triagem pode indicar mais de uma unidade da CGU- O processo é escalável e pode triar maior volume de
denúncias e menor tempo
![Page 17: Painel 02 01 patrícia maia - Uso de Técnicas de Mineração de Textos Aplicado à triagem automática de denúncias](https://reader036.vdocuments.net/reader036/viewer/2022070602/587424e51a28ab72188b4c1d/html5/thumbnails/17.jpg)
Artigo ENIAC 2014: Application of text mining techniques for classification of documents: a study of automation of complaints screening in a Brazilian Federal Agencyhttp://www.lbd.dcc.ufmg.br/colecoes/eniac/2014/0081.pdf
Obrigada!
![Page 18: Painel 02 01 patrícia maia - Uso de Técnicas de Mineração de Textos Aplicado à triagem automática de denúncias](https://reader036.vdocuments.net/reader036/viewer/2022070602/587424e51a28ab72188b4c1d/html5/thumbnails/18.jpg)
Text mining
Mineração de textos é o processo de descoberta de conhecimento que utiliza técnicas de análise e extração de dados a partir de textos, frases ou palavras. É o processo de extrair padrões interessantes e não triviais ou conhecimento a partir de documentos em textos não estruturados.
![Page 19: Painel 02 01 patrícia maia - Uso de Técnicas de Mineração de Textos Aplicado à triagem automática de denúncias](https://reader036.vdocuments.net/reader036/viewer/2022070602/587424e51a28ab72188b4c1d/html5/thumbnails/19.jpg)
Etapas da Mineração de Textos
![Page 20: Painel 02 01 patrícia maia - Uso de Técnicas de Mineração de Textos Aplicado à triagem automática de denúncias](https://reader036.vdocuments.net/reader036/viewer/2022070602/587424e51a28ab72188b4c1d/html5/thumbnails/20.jpg)
Similaridade de CossenosA técnica de Similaridade de Cossenos pode ser utilizada para encontrar classes baseada na semelhança entre as mesmas. Calcula, através dos cossenos do ângulo formado entre dois vetores, a similaridades entre dois documentos. Assim, ao comparar dois documentos, o resultado será um número entre 0 e 1. Caso a taxa de similaridades seja próxima de 1, a mesma indicará que os documentos serão muito similares, pertencendo, provavelmente a mesma classe ou categoria. O resultado for próximo de 0, indicará que os documentos são pouco similares, não pertencendo a mesma classe. Resultados médios, nem próximos de 0 e nem próximos de 1, podem não ser conclusivos, não sendo capaz de identificar a classe a que o documento pertence.
![Page 21: Painel 02 01 patrícia maia - Uso de Técnicas de Mineração de Textos Aplicado à triagem automática de denúncias](https://reader036.vdocuments.net/reader036/viewer/2022070602/587424e51a28ab72188b4c1d/html5/thumbnails/21.jpg)
Precisão
Precisão é a quantidade de itens selecionados que estão corretamente classificados. Mede, dentre todos os documentos julgados, a quantidade de documentos classificados corretamente como positivos, sendo portanto, a proporção entre o número de itens selecionados que foram recuperados corretamente. Em um contexto com um total de 1000 denúncias por exemplo, caso a precision seja igual a 0.87, quer dizer que 870 das 1000 denúncias foram classificadas corretamente e 130 foram classificadas incorretamente.