monografia gal

CENTRO UNIVERSITÁRIO DA BAHIA

FACULDADE DE CIÊNCIA DA COMPUTAÇÃO E TECNOLOGIA

BACHARELADO EM SISTEMAS DE INFORMAÇÃO

GLACYENE LAGO VIANNA

APLICAÇÃO DA TÉCNICA DE ÁRVORE DE DECISÃO UTILIZANDO ALGORITMO J48 PARA ANALISAR

OCORRÊNCIA DE SINISTRALIDADE EM UMA OPERADORA DE SEGURO SAÚDE

Salvador 2006




Monografia apresentada ao Curso de Bacharelado em Sistemas de Informação da Faculdade de Ciência da Computação e Tecnologia, Centro Universitário da Bahia, como requisito parcial para obtenção do grau de Bacharel em Sistemas de Informação. Orientador: Prof. Carlos A. Chagas Palma.

Co-Orientador: Prof. Grimaldo O. Lopes.

Salvador 2006

TERMO DE APROVAÇÃO




Monografia aprovada como requisito parcial para obtenção do grau de Bacharel em Sistemas de Informação, Centro Universitário da Bahia, pela seguinte banca examinadora:

Orientador: Carlos A. Chagas Palma

Carlos A. Chagas Palma MBA em Gestão Empresarial Centro Universitário da Bahia

Examinador 1: Grimaldo Lopes Oliveira

Examinador 1: Grimaldo Lopes Oliveira Especialista em Análise de Sistemas

Faculdades Jorge Amado

Examinador 2: Eduardo M. de Freitas Jorge

Eduardo M. de Freitas Jorge Mestre em Banco de Dados

Centro Universitário da Bahia

Examinador 3: Othon Marcelo Nunes Batista

Othon Marcelo Nunes Batista Mestre em Informática

Centro Universitário da Bahia

Salvador, 03 de julho de 2006.

AGRADECIMENTOS

Agradeço a minha família pelo constante incentivo.

Ao professor Grimaldo Lopes que me ajudou muito na realização deste trabalho.

A Mauricio Andrade por permitir meu acesso aos dados.

Ao professor Eduardo Jorge pelo auxílio dado no desenvolvimento deste trabalho.

Ao meu orientador Carlos Palma pela paciência e confiança em mim.

Aos meus colegas e amigos Adriano Lavigne, Alexandre Uzeda, Carlos Santos

sempre presentes.

A minha amiga Luciana Santos por quem tenho muito admiração e carinho.

E a todos aqueles que compartilharam comigo a jornada desses cinco anos.

RESUMO A tecnologia da mineração de dados tem se destacado mundialmente, pois a mesma

proporciona a descoberta do conhecimento útil em grandes bases de dados. A

extração de conhecimento em base de dados consiste na seleção e processamento

de dados com a finalidade de identificar novos padrões, dar maior precisão em

padrões conhecidos e modelar o mundo real. A mineração de dados é uma das

etapas da extração do conhecimento e que se refere ao exame de grandes

quantidades de dados, estabelecendo relações entre esses dados. Este trabalho

tem como finalidade aplicar a técnica de árvore de decisão, que é uma técnica de

mineração de dados, num banco de dados de uma seguradora de saúde para

descoberta do conhecimento sobre sinistralidade, no qual serão abordadas as

características, processos, algoritmos, técnicas, áreas de utilização da mineração de

dados, que no caso desta pesquisa foi realizada na área de seguro saúde.

Palavras-chave: descoberta do conhecimento, mineração de dados, seguro saúde.

LISTA DE FIGURAS FIGURA 1. PROCESSO KDD 16 FIGURA 2. ÁRVORE DE DECISÃO DA LOJA X 24 FIGURA 3. ANÁLISE ESTATÍSTICA DA ÁRVORE DE DECISÃO DA LOJA X 25 FIGURA 4. ARQUIVO NO FORMATO ARFFF 28 FIGURA 5. TELA INICIAL DO PACOTE WEKA 29 FIGURA 6. CARREGANDO O ARQUIVO ARFF 30 FIGURA 7. ABA CLASIFER DO WEKA 31 FIGURA 8. ÁRVORE DE DECISÃO COM ALGORITMO J48 32 FIGURA 9. POCESSO DE MINERAÇÃO DE DADOS 33 FIGURA 10. PARTE DA PRIMEIRA ÁRVORE DE DECISÃO 36 FIGURA 11. PARTE DA SEGUNDA ÁRVORE DE DECISÃO 37 FIGURA 12. PARTE DA TERCEIRA ÁRVORE DE DECISÃO 38

LISTA DE TABELAS

TABELA 1. REAJUSTE FINANCEIRO 12 TABELA 2. REAJUSTE POR SINISTRALIDADE DO UNIBANCO 13 TABELA 3. REAJUSTE POR SINISTRALIDADE DA SUL AMÉRICA 13 TABELA 4. PROBABILIDADE DE KAPPA 23 TABELA 5. BANCO DE DADOS DA LOJA X 23

LISTA DE SIGLAS

KDD - EXTRAÇÃO DO CONHECIMENTO DE BASE DE DADOS ANS - AGÊNCIA NACIONAL DE SAÚDE WEKA - DADOS WAIKATO ENVIRONMENT FOR KNOWLEDGE ANALYSIS

SUMÁRIO

INTRODUÇÃO 09 1. CONHECENDO SEGURO SAÚDE 11 2. EXTRAÇÃO DO CONHECIMENTO DE BASE DE DADOS 15 2.1. Etapa da extração do conhecimento de base de dados 16 2.2. Mineração de dados 18 2.2.1. Tarefas e técnicas da mineração de dados 19 2.2.1.1 Árvore de decisão usando algoritmo J48 22 2.2.2. Escolhendo a técnica de mineração de dados mais adequada 25 2.2.3 Áreas de aplicação da mineração de dados 25 3. MINERADOR DE DADOS WAIKATO ENVIRONMENT FOR KNOWLEDGE ANALYSIS 27 4. EXPERIMENTO REALIZADO 33 4.1. Conclusão dos experimentos 38 CONSIDERAÇÕES 39 REFERRÊNCIAS 40 Anexo A -TABELA DO BANCO DE DADOS DA SEGURADORA DE SAÚDE 42 Anexo B - PARTE DOS DADOS UTILIZADOS PARA MINERAÇÃO DE DADOS, ARQUIVO TREINAMENTO 43 Anexo C -PRIMEIRA ÁRVORE 44

Anexo D – SEGUNDA ÁRVORE 46

Anexo E -TERCEIRA ÁRVORE 49

9

INTRODUÇÃO Segundo Madelena (2002), durante várias décadas, desde a invenção do primeiro

computador, o principal objetivo da utilização do computador é solucionar problemas

operacionais da organização. A grande maioria das organizações ainda não possui

meios de utilização dos recursos computacionais na tomada de decisão, apesar da

existência de grandes bancos de dados com muitas informações sobre o negócio da

empresa, ainda são encontradas dificuldades na descoberta de conhecimento

baseada nessas informações.

Essas dificuldades podem estar relacionadas aos fatores de: falta de conhecimento

da existência de técnicas de mineração de dados; alto custo das ferramentas

disponíveis no mercado; falta de parâmetro de referência na escolha de técnica e da

ferramenta mais adequadas a cada problema a ser solucionado (Madalena, 2002).

Carvalho (1999) diz que a quantidade de dados disponíveis vem crescendo

assustadoramente nos últimos anos e vários fatores contribuíram para este incrível

aumento. O baixo custo na armazenagem pode ser vista como a principal causa do

surgimento destas enormes bases de dados. Um outro fator é a disponibilidade de

computadores de alto desempenho a um custo razoável, como conseqüência, estes

bancos de dados passam a conter verdadeiros tesouros de informação e, devido ao

seu volume, ultrapassam a habilidade técnica e a capacidade humana na sua

interpretação.

Esta ampla disponibilidade de imensas bases de dados, aliados à necessidade de

transformar tais dados em informação e conhecimento úteis para o suporte à

decisão, tem demandado investimentos consideráveis da comunidade científica e da

indústria de software. A informação e o conhecimento obtidos podem ser utilizados

para diversas aplicações, que vão do gerenciamento de negócios, controle de

produção e análise de mercado ao projeto de engenharia e exploração científica

(Han & Kamber, 2001).

As ferramentas e técnicas empregadas para análise automática e inteligente destes

imensos repositórios são os objetos tratados pelo campo emergente da descoberta

10

de conhecimento em bancos de dados, da expressão em inglês Knowledge

Discovery in Databases (KDD). Mineração de dados é a etapa em KDD responsável

pela seleção dos métodos a serem utilizados para localizar padrões nos dados,

seguida da efetiva busca por padrões de interesse numa forma particular de

representação, juntamente com a busca pelo melhor ajuste dos parâmetros do

algoritmo para a tarefa em questão (SILVA, 2005).

O objetivo deste trabalho consiste na aplicação da técnica mineração de dados:

árvore de decisão com o algoritmo J48 numa base de dados de uma seguradora de

saúde, de forma a encontrar padrões nos dados interessantes que analisam a

sinistralidade.

Para o experimento deste trabalho, o objetivo é minerar a base de dados de uma

seguradora de saúde em planos coletivos para proporcionar um maior conhecimento

em relação à ocorrência de sinistralidade acima de 75%.

Este trabalho está organizado da seguinte forma: nas próximas seções apresentam

uma visão geral sobre seguro saúde, extração de conhecimento e sobre o software

Weka. Essas seções têm como objetivo fornecer ao leitor subsídios para o

entendimento da seção seguinte, que é o experimento.

Os aspectos metodológicos definidos para o trabalho em questão foram à pesquisa

do tipo bibliográfica, documental e coleta de dados, tendo seguido a ordem: foi feito

um levantamento bibliográfico a respeito de seguro saúde, descoberta do

conhecimento e do software Weka e suas aplicabilidades no mercado atual; no

segundo momento, após elaboração do referencial teórico, foi realizada análise em

base de dados de uma seguradora de saúde para coleta de dados; após todas as

análises, foi realizado experimento, baseando-se no problema definido e no objetivo

desta pesquisa, partindo para análise das respostas encontradas.

11

1. CONHECENDO SEGURO SAÚDE

Neste capítulo será abordado o histórico do seguro saúde, as regras que regem o

seu funcionamento e toda a rotina de reajuste estabelecida por decreto lei, sendo

dado maior atenção ao reajuste por sinistralidade porque será a abordagem deste

trabalho. Terá também uma explanação de quais critérios são adotados na análise

prévia de ocorrência de prejuízo em um contrato firmado entre a seguradora de

saúde e uma empresa.

O marco inicial da atividade seguradora no Brasil está ligada à vinda da corte

portuguesa para o País, em 1808 devido à ofensiva de Napoleão Bonaparte na

Europa. Tendo a necessidade de proteger as embarcações marítimas levando à

formação das primeiras companhias, voltadas exatamente para o seguro marítimo.

Desde então, o setor se desenvolveu e expandiu seus segmentos para: seguro de

vida, de auto, de casa, de mercadorias entre outros (seguros em dia, 2006).

O seguro saúde é regido por regras que orientam o funcionamento do setor (que

surgiu em meados dos anos sessenta e se expandiu significativamente nos anos

oitenta) está definido na Lei 9.656/98 e na MP 2.177-44 atualmente em vigor com o

texto legal que estabeleceu critérios para entrada, funcionamento e saída de

operação de empresas no setor, discriminou os padrões de cobertura e de qualidade

da assistência e transferiu para o poder Executivo Federal a responsabilidade pela

regulação da atividade econômica das operadoras e da assistência à saúde por elas

prestada e o dever de fiscalização do cumprimento das normas vigentes (seguros

em dia, 2006).

É feito um contrato entre as partes, empresa (seus empregados) e uma operadora

de seguro saúde mediante regras em cláusulas que ditam direitos e deveres,

inclusive valor pago mensalmente para prestação de serviços médicos, hospitalares.

Para reajuste destes serviços é respeitada a data de aniversário do contrato e

levando em considerações dois tipos de reajustes: reajuste financeiro e o reajuste

por sinistralidade.

12

O reajuste financeiro leva em consideração a inflação nos custos hospitalares,

médicos e farmacêuticos ocorrendo anualmente. Esse reajuste é fiscalizado pela

Agência Nacional de Saúde Suplementar (ANS) que autoriza os limites conforme a

tabela 1.

TABELA 1

Reajuste financeiro

Reajustes autorizados pela ANS

Seguradora Reajuste 1999

Reajuste 2000

Reajuste 2001

Reajuste 2002

Bradesco Saúde 9,36% 5,42% 8,71% 7,69% Sul América Aetna 9,44% 5,42% 8,71% 7,69%

Fonte: Agência Nacional de Saúde (ANS)

O reajuste por sinistralidade considera a utilização do seguro pelos segurados

levando em consideração o uso global de toda a carteira, se for constatado a

utilização acima da média que hoje é entre 70% a 80% a seguradora solicita junto a

Agência Nacional de Saúde Suplementar um aumento na mensalidade do contrato

só podendo ocorrer uma vez por ano. A seguir o reajuste por sinistralidade com

maiores detalhes, pois esse é o foco deste trabalho.

Sinistralidade é a relação entre a utilização e os custos que a empresa paga à

seguradora de saúde. Ela é regida por cláusula contratual aplicada geralmente em

contratos coletivos com mais de 30 usuários. A média tida como aceitável pela maior

parte das empresas do ramo é de 70% até 80%, ou seja, de cada 100 reais que o

cliente (pessoa jurídica) paga no mês, pode utilizar 70 a 80 reais. A partir daí

considera-se que determinada apólice ou contrato é deficitário (Seguro em dia,

2006).

Quando comprovado alto índice de sinistralidade no seguro saúde é permitido

reajuste na mensalidade, sendo esse aumento negociado livremente entre as partes

com a fiscalização e autorização da Agência Nacional de Saúde. Podendo ainda a

seguradora usar o fator moderador de copaticipação, isso quer dizer que pode ser

cobrado do associado uma parte do valor das suas consultas medicas, por exemplo,

induzindo com isso a baixa no índice de ocorrência de sinistralidade. Cada

13

seguradora possui uma metodologia de reajuste diferente da outra conforme tabelas

2 e 3.

Tabela 2

Reajuste por sinistralidade do Unibanco.

Cláusula de reajuste por sinistralidade: AIG Unibanco – Cláusula

Fórmula de reajuste por sinistralidade: CN = SS x CA / 70 onde: CN = Custo Novo SS = Sinistralidade no semestre CA = Custo Atual

70 = Limite máximo de sinistralidade (70%)

Periodicidade da apuração:

Todos os semestres em Junho e Dezembro. Com reavaliação trimestral considerando também o número de segurados na apólice. E ainda no aniversário do contrato.

Base de cálculo para sinistralidade: Último semestre Fonte: Agência Nacional de Saúde (ANS)

Tabela 3

Reajuste por sinistralidade da Sul América.

Sul América - Cláusula

Fórmula de reajuste por sinistralidade: PN = PA x (I S P) / 0,75 onde: PN = Preço Novo PA = Preço Atual ISP = Índice ( Sinistro / Prêmio Pago )

0,75 = Limite máximo de sinistralidade (75%)

Periodicidade da apuração:

A partir do sexto mês de vigência, a cada trimestre.

Base de cálculo para sinistralidade:

No primeiro ano de vigência, a primeira avaliação considera os últimos 9 meses. A partir daí, sempre se consideram os últimos 12 meses.

Fonte: Agência Nacional de Saúde (ANS)

As seguradoras de seguro saúde têm investido em pesquisas anteriores a

contratação, é preciso saber se há doenças pré-existentes e quantas vidas o

contrato terá para avaliar previamente um índice alto de sinistralidade. É analisado

14

também a faixa etária, o sexo e quantidade de dependentes, que por exemplo pode

gerar as seguintes informações: no contrato de 600 vidas, 100 são mulheres no

período fértil, neste caso é esperado um uso de serviços ginecológicos maiores,

como maternidade; no caso de ter 50 pessoas com idades acima de 55 sem

problemas pré-existentes é esperado checape anual.

15

2. A EXTRAÇÃO DO CONHECIMENTO DE BASE DE DADOS Neste capítulo apresenta-se o contexto necessário ao entendimento do que é

extração do conhecimento de base de dados, começando pelo conceito até as

etapas que o compõem. Dando mais ênfase a etapa de mineração de dados com

uma análise mais completa, já que é o objetivo desta pesquisa.

A sociedade está inserida em uma época, onde a informação e o conhecimento

exercem papéis competitivos fundamentais. Com o advento da informática, as

pessoas em geral e as organizações passaram a fazer grande uso da informação e,

a partir disso, novas formas de armazenamentos surgiram. Por isso, busca-se

aproveitar de maneira otimizada a grande quantidade de informações que existem

nos bancos de dados informatizados das organizações.

No entanto, devido ao grande volume de dados armazenados, que ultrapassam a

habilidade técnica e a capacidade humana de interpretação, a maioria das

organizações torna-se incapazes de aproveitarem as informações contidas nas

bases de dados. Para suprir essa incapacidade humana em filtrar uma informação

de um banco de dados, surge o KDD – extração do conhecimento de base de dados

como ferramenta para viabilizar a análise de grandes bancos de dados.

A extração do conhecimento de base de dados é uma seqüência de vários passos

para identificar em dados padrões válidos, os novos conhecimentos. Pode-se definir

ainda como um ramo da computação que utiliza técnicas e ferramentas para extrair

informações úteis de grandes bases de dados, visando melhorar o entendimento de

um problema ou um procedimento de tomada de decisão (FAYYAD e PIATETSKI-

SHAPIRO, 1996).

É preciso definir o objetivo e metas a serem alcançadas, para depois seguir as

etapas da extração do conhecimento de base de dados. As etapas mais importantes

são: o pré-processamento onde acontece o tratamento dos dados; e a mineração de

dados com algoritmo estatístico, trazendo informação estatística que permitem ao

usuário identificar o quanto o novo conhecimento é confiável.

16

As etapas da extração do conhecimento de base de dados, conforme a figura 1, são:

seleção, pré-processamento, transformação, mineração de dados e interpretação do

resultado (FAYYAD e PIATETSKI-SHAPIRO, 1996), que serão abordadas no tópico

seguinte, bem como a análise de cada uma delas.

Figura 1. Processo KDD. Fonte: Fayyad, 1996.

2.1 ETAPAS DA EXTRAÇÃO DO CONHECIMENTO DE BASE DE DADOS. O processo da extração do conhecimento de base de dados (KDD) começa

obviamente com o entendimento do domínio da aplicação e dos objetivos finais a

serem atingidos e em seguida, é feito um agrupamento organizado de uma massa

de dados, com atributos selecionados. A etapa da limpeza dos dados vem a seguir,

através de um pré-processamento dos dados, visando adequá-los aos algoritmos.

Isso se faz através da integração de dados heterogêneos, eliminação de dados

desnecessários, repetições de dados, problemas de tipagem entre outros.

Os dados pré-processados devem ainda passar por uma transformação que os

armazena adequadamente, visando facilitar o uso da ferramenta e técnicas de

mineração de dados. Chegando assim à interpretação das informações obtidas, no

qual encontra-se o conhecimento que trará o resultado esperado.

Na fase de seleção dos dados é estabelecido o objetivo da mineração e feita a

análise da base de dados definindo quais os atributos serão usados para descoberta

do conhecimento. É também definido a ferramenta, técnica e algoritmo a ser

17

aplicado (OTUSUKA e ROCHA, 2002). Para isso, é preciso uma análise cuidadosa

dos dados, pois na etapa do conhecimento é possível constatar que é necessário

voltar à análise da base de dados para selecionar outros atributos que apresentem

uma resposta mais precisa a cerca do problema estabelecido. Para evitar que isso

aconteça é aconselhável fazer uma base de testes para ter certeza que os atributos

escolhidos trarão novos conhecimentos.

No pré-processamento é necessária que dos dados selecionados estejam corretos

para a mineração de dados, por isso é feita uma revisão, certificando de que todos

os atributos escolhidos estão corretos e desta forma eliminar eventuais dados

incompletos, problemas com repetição de registro etc. Por este motivo o pré-

processamento também conhecido como etapa da limpeza dos dados, segundo

Manilla (1994) é a etapa que consome até 80% do tempo necessário para todo o

processo da descoberta de conhecimento sendo ela uma das etapas mais

importante para o sucesso no processo da descoberta do conhecimento em base de

dados.

Na etapa de transformação, os dados precisam ser transformados para um formato

adequado para a tarefa de mineração de dados, podendo ser usados em forma

numérica, texto ou mesmo em nova base de dados transacional, que já traz os

dados pré-processados visando integridade, consistência e limpeza dos mesmos

(VIANA, 2004), combinando os atributos em questão. Essa transformação deve levar

em conta a significância dos dados e o volume para ser alterada, essa avaliação são

estabelecidos com o objetivo do estudo (MARTINS, 1998).

O resultado da transformação são informações consolidadas num formato mais

estatístico e menos transacional, sendo em geral um arquivo distinto das bases de

dados originais. Portanto quando a base de dados é muito grande, é recomendável

trabalhar com uma amostra aplicando as técnicas de mineração para ter certeza que

os atributos escolhidos darão bons resultados (CRUZ, 2000).

A mineração de dados é uma das etapas mais importante do processo da extração

do conhecimento de base de dados (KDD), nesta etapa são aplicados técnicas e

algoritmos estatísticos para a extração do conhecimento. A técnica e algoritmos

18

devem ser definidos de acordo com o problema, Segundo Diniz e Louzada (2000)

pode ocorrer à necessidade de se aplicar várias técnicas e vários algoritmos

estatísticos no mesmo problema, para achar o conhecimento mais preciso.

A interpretação dos resultados da mineração dos dados é a fase de entendimento,

que pode ser vista através de ferramentas de visualização de dados como:

intelligent Miner da IBM, MineSet da Silicon Graphics Inc (AMO, 2004) e o Weka

desenvolvida pela Universidade de Waikato (Nova Zelândia). Essas ferramentas

permitem a visualização do resultado da mineração de forma clara e precisa o

resultado da extração. É possível ter a necessidade de retornar a alguma das fases

do KDD de forma a obter um resultado mais completo acerca do problema definido.

Na fase de interpretação é medido também o esforço dedicado na busca do

conhecimento e avaliado o impacto ocasionado pelo mesmo. Podendo ser redefinido

a técnica e algoritmo a ser aplicado na mineração de dados para alcançar o

resultado esperado. No próximo capitulo será detalhado mineração de dados.

2.2. MINERAÇÃO DE DADOS

Neste tópico serão apresentados os conceitos de mineração de dados, assim como

suas tarefas, com seus respectivos tipos e técnicas de mineração de dados, citando

algumas delas. Abordando sempre de maneira conceitual e exemplar para melhor

compreensão.

A mineração de dados é um processo de exploração e análise de grandes massas

de dados. O objetivo é de descobrir padrões ou informações que permitam uma

melhor compreensão dos mesmos e o resultado obtido pode ser usado no

gerenciamento da informação, processamento de pedido de informação, tomada de

decisão, controle de processo e outras aplicações. Segundo Amo (2004 p.196) nos

anos 80 a mineração de dados consistia essencialmente em extrair informações de

gigantescas bases de dados da maneira mais automatizada possível.

19

Descobrir informações sem um prévio conhecimento é algo complicado já que as

bases de dados são armazenadores de dados históricos e fazer um levantamento de

forma aleatório sem definir qual o problema e qual o resultado esperado pode levar a

um esforço inútil. É por isso que a mineração de dados envolve tarefas e técnicas,

aliadas a bons sistemas de informações como é o caso dos mineradores de dados.

Esse é um dos motivos porque as organizações investem em ferramentas que o

auxiliem na gestão dos seus negócios, obtendo como retorno redução nos custos

com armazenamento de dados consistentes.

2.2.1 Tarefas e técnicas da mineração de dados

Este tópico apresenta os conceitos das tarefas e técnicas básicas da mineração de

dados, fazendo associações entre as mesmas e exemplificando-as de forma a

facilitar o entendimento. Dando ênfase à tarefa de classificação e a técnica de

árvore de decisão porque são as aplicadas no experimento deste trabalho.

A tarefa consiste na definição do que se está buscando, quais padrões têm interesse

em encontrar ou qual padrão o surpreenderia. Pode-se citar como exemplo um gasto

exagerado de um cliente de cartão de crédito, fora dos padrões usuais de seus

gastos. Enquanto as técnicas de mineração de dados são compostas por grupos de

algoritmos estatísticos aplicados para solucionar o problema proposto na tarefa,

podendo ser aplicada várias técnicas em um mesmo problema, ao mesmo tempo,

podendo ainda aplicar vários algoritmos da mesma técnica que permite obter um

resultado mais preciso.

As classes de tarefas são: classificação, associação, cluster (agrupamento) sendo

que cada tarefa apresenta várias técnicas, e algumas técnicas podem ser utilizadas

para solucionar tarefas diferentes (VIANA, 2004). As técnicas de mineração de

dados são: regra de associação e árvore de decisão, detecção de cluster, análise de

regressão e etc.

A tarefa de classificação serve para examinar as características de um projeto ou

situação e atribuir a ele uma classe pré-definida, permitindo assim o agrupamento

de dados em classes. Segundo Dias (2001), o objetivo é descobrir um

20

relacionamento entre um atributo meta (cujo valor será previsto) e um conjunto de

atributos de previsão. Uma técnica a ser aplicada a esta tarefa é a árvore de decisão

que será abordada em tópico adiante, pois é a técnica empregada na fase do

experimento deste trabalho.

Por exemplo: Numa população de um estado pode ser analisada pela sua renda

para medir o grau de pobreza do país, assim tem as classes A, B e C, de forma que

o governo lance programas assistencialistas. E quando for incluir uma nova pessoa

ele já será automaticamente classificado conforme sua renda (VIANA, 2004).

Em outro exemplo pode-se citar que um gerente do supermercado está interessado

em descobrir que tipo de características de seus clientes os classificam em “bom

comprador” ou “mau comprador”. Neste caso um modelo de classificação pode

incluir a seguinte regra: Bom cliente é aquele que faz compras grandes

mensalmente e utiliza o cartão próprio do supermercado, já o mau comprador é

aquele que compra esporadicamente com cartão do supermercado. Com esta

classificação podem-se identificar as características dos compradores como: faixa

etária, preferência de produto, faixa econômica entre outros.

A tarefa de associação estuda um padrão de relacionamento entre X → Y, onde X e

Y são conjuntos de valores (itens de produtos, diagnósticos de uma doenças e etc.).

Para essa tarefa aplica-se a técnica de regras de associação que estabelecem

relacionamento estatístico entre X e Y de forma a descobrir qual a melhor

associação entre os objetos, mostrando ligações entre os elementos proporcionando

desta forma novos conhecimentos no relacionamento entre os mesmos.

Por exemplo: Uma análise das transações de compra de um supermercado pode

encontrar itens que tendem a ocorrer junto em uma mesma compra como café e

leite. O resultado da compra do café junto com o leite são importantes para

promoções e controle de estoque (VIANA, 2004).

Outro exemplo de associação é o resultado obtido numa análise realizada em uma

loja de conveniência, constatou-se que os homens que são pais, quando vão a loja

comprar frauda descartável também compra cerveja. Esse é uma regra de

21

associação que permite a empresa uma visão de comportamento dos clientes,

permitindo uma compra associada entre os produtos (VIANA, 2004).

A tarefa de associação é também conhecida como descritiva porque ela é usada

para identificar padrões em dados históricos, como no exemplo acima que descobriu

que o cliente que compra café também compra leite, permitindo desta forma uma

arrumação das prateleiras que contenha os dois produtos.

Os outliers são análise de fatos que não ocorrem com freqüência, muitos métodos

de mineração de dados descartam estes outliers como sendo indesejado. Entretanto

pode ser muito importante na análise de fraude como, por exemplo, detectar o uso

fraudulento de cartões de crédito, ao descobrir que certos clientes efetuaram

compras de valores extremamente altas, fora do seu padrão habitual de gastos.

(AMO, 2004). Para essa tarefa pode aplicar as técnicas de classificação ou de

associação.

A tarefa de cluster (agrupamento) trabalha particionando em classe de elementos

similares. O algoritmo descobre essas classes a partir das alternativas encontradas

na base de dados, agrupando assim um conjunto de objetos semelhantes.

Diferentemente da classificação que trabalha com classes pré-definidas conforme

um estudo prévio (AMO, 2004). Para essa tarefa pode aplicar a técnica de detecção

de cluster.

Por exemplo: Uma população inteira de dados sobre tratamento de uma doença

pode ser dividida em grupos A, B e C baseados na semelhança de efeitos colaterais

produzidos (VIANA, 2004).

Um outro exemplo é uma operadora de cartões de créditos que deseja saber o

comportamento de compras de seus clientes por região do país. Aplicando

algoritmos estatísticos de associação será possível saber quais regiões compra

parcelado e qual período ele consomem mais.

22

2.2.1.1 Árvore de decisão usando o algoritmo J48

Neste tópico serão abordados a técnica de árvore de decisão e o algoritmo J48

mostrando de que forma é medida a exatidão do experimento com essa técnica,

através de exemplo para melhor compreensão.

Uma árvore de decisão é uma estrutura de árvore, usada para dedução da classe de

um atributo, tendo um nó principal (nó-pai) que representa uma única classe, um nó

interno (nó-decisão) que representa um teste sobre o valor de um atributo e a partir

do nó decisão tem os nós filhos que representam um dos possíveis resultados do

teste sobre o valor do atributo.

A quantidade de nós geradas na árvore depende da escolha do atributo que será o

nó pai e do fator de confiança escolhido, para então gerar o nó decisão e determinar

a quantidade de nós filhos que teoricamente só estão contidos elementos de uma

mesma classe. O fator de confiança é percentual estatístico escolhido pelo usuário

para medir a confiança dos dados que estão sendo minerados gerando uma

probabilidade de acertos para as classes.

O algoritmo J48 é uma implementação do algoritmo C4.5 release 8 que gera árvore

de decisão (última publicação da família de algoritmos que geram árvores de

decisão antes do C5.0, versão mais recente e disponível apenas comercialmente) e,

também é considerado o mais popular algoritmo da Weka. O J48 constrói um

modelo de árvore de decisão baseado num conjunto de dados de treinamento, e usa

esse modelo para classificar exatidão do classificador num conjunto de teste. A

exatidão do classificador é analisada através da estatística de Kappa, que são

apresentados no resultado na mineração e seguem uma faixa para classifica-los em

fraco, regular, moderado, bom e excelente (tabela 4), se o resultado for de fraco a

moderado significa que os dados precisam de ajustes.

23

Tabela 4

Probabilidade de Kappa.

PROBABILIDADE DE KAPPA NÍVEL DE EXATIDÃO DO CLASSIFICADOR

< 0,20 Fraco

0,21 - 0,40 Regular

0,41 – 0,60 Moderado

0,61 – 0,80 Bom

> 0,81 Excelente

Fonte: OLIVEIRA, 2003.

Durante o processo de utilização do algoritmo J48 é interessante conhecer alguns

parâmetros que podem ser modificados para proporcionar melhores resultados

como, por exemplo, o uso de podas na árvore, o número mínimo de instâncias por

folha e a construção de árvore binária.

Exemplo de construção da árvore com J48: Um banco de dados da loja X que

analisa dados do cliente, visando à aprovação ou não (atributo objetivo) de crédito

para empréstimo pessoal. Esta amostra é pequena, com 4 atributos e 16 registros

que já passou pela seleção e transformação dos dados, e a linha da coluna

resultado não representa os clientes inadimplentes e o sim adimplentes. A coluna

tempo representa tempo de trabalho conforme mostra a tabela 4. A figura 2 mostra a

árvore de decisão da loja X após ser minerado.

24

Tabela 5

Banco de dados da loja X.

Nome Cargo Tempo Resultado

Daniel Programador 2 Não

João Consultor 9 Sim

Carlos Professor 5 Não

Maria Professor 7 Sim

Fonte: VIANA, 2004.

Figura 2. Árvore de decisão da loja X. Fonte: VIANA, 2004.

A figura 2 é a árvore de decisão da loja X que tem como nó principal o atributo

cargo, e nos mostra que o consultor tem seu cadastro aprovado quando em outros

cargos leva em consideração além do cargo o nó tempo de trabalho. Desta forma

tem-se a seguinte informação: se o tempo de trabalho for acima de 6 anos o

cadastro está aprovado, se for menor ou igual a 6 anos o cadastro está reprovado.

Portanto os cadastros aprovados conforme banco de dados analisado, e exibidos na

tabela 5 os clientes com cadastro aprovado para empréstimo foram: Alcides que é

consultor e tem 9 anos de trabalho e Almir que é professor e tem 7 anos de trabalho

(VIANA, 2004). Analisando a árvore de decisão quanto à estatística de Kappa, tem-

Cargo

Aprovado Reprovado Aprovado

Tempo

<=6 >6

Outros

Consultor

25

se que a exatidão do classificador é zero, estando no nível fraco (figura 3) indicando

que é necessário ajustes nos dados.

cheme: weka.classifiers.trees.J48 -C 0.25 -M 2 Relation: x Instances: 4 Attributes: 4 nome cargo tempo resultado === Evaluation on training set === === Summary === Correctly Classified Instances 2 Incorrectly Classified Instances 2 Kappa statistic 0

Figura 3. Análise estatística da árvore de decisão da loja X.

2.2.2 Escolhendo a técnica de mineração de dados mais adequada

A escolha de uma técnica para mineração de dados não é uma tarefa fácil,

dependerá do problema (tarefa) proposto e dos dados disponíveis para análise.

Segundo Berry (1997), selecionar a técnica de mineração de dados depende de dois

fatores: traduzir o problema do negócio a ser resolvido e compreender a natureza

dos dados disponíveis em termos de conteúdo, tipos de campos de dados e

estrutura da relação entre os registros.

Em primeiro lugar é necessário estabelecer a meta da mineração de dados, ou seja,

o que pretende saber com a aplicação da mesma. Em segundo lugar, determinar as

características dos dados para análise e selecioná-los, depois escolher a melhor

técnica de mineração de dados para meta estabelecida (Madalena, 2002).

2.2.3 Áreas de aplicação da mineração de dados

A mineração de dados tem se mostrado muito útil na tomada de decisão, por isso

vem se expandindo rapidamente em várias áreas como: marketing, comércio,

medicina entre outras.

26

Em marketing são aplicadas técnicas de mineração para traçar perfil de

consumidores, padrões de compra, tendência eleitoral, perfil de preferência popular

entre outros, tendo como objetivo realizar marketing direcionado de produtos,

prestação de serviços, vender imagens de marcas ou pessoas ou mesmo realizar

programas de fidelização dos clientes.

No comércio, as empresas de cartões de crédito utilizam a mineração de dados

para traçar perfil de grupos e desta forma trabalhar com promoções direcionadas a

cada grupo (MINERAÇÃO, 2002). Podendo também nesta mineração saber o perfil

de compra de cada cliente e desta forma se prevenir contra fraude nos cartões de

crédito.

Em comércio varejista a mineração de dados pode auxiliar de forma surpreendente

através da técnica de associação que indica quais produtos tem a tendência de

serem comprados juntos. Permitindo assim uma arrumação da prateleira de forma a

induzir a venda casada de produtos.

Na medicina a mineração de dados é utilizada para identificar e classificar terapias

de sucesso para diferentes doenças e mesmo em novos diagnósticos, gerando

grupos com mesmas características nos sintomas para desta forma agilizar a

identificação da doença no paciente (MINERAÇÃO, 2002).

27

3. MINERADOR DE DADOS WAIKATO ENVIRONMENT FOR

KNOWLEDGE ANALYSIS

A ferramenta de mineração de dados weka foi desenvolvida pela Universidade de

Waikato em Nova Zelândia que a colocou como domínio público disponível em

(http://www.cs.waikato.ac.nz/~ml/weka/). A ferramenta weka é composta por um

conjunto de implementações de algoritmos de diversas técnicas de mineração de

dados (WAIKATO, 2000).

Métodos de classificação:

• árvore de decisão induzida; • regras de aprendizagem; • naive Bayes; • tabelas de decisão; • regressão local de pesos; • aprendizado baseado em instância; • regressão lógica; • perceptron; • perceptron multicamada; • comitê de perceptrons; • SVM.

Métodos para predição numérica:

• regressão linear; • geradores de árvores modelo; • regressão local de pesos; • aprendizado baseado em instância; • tabelas de decisão; • perceptron multicamadas.

O Weka requer um arquivo de leitura com a extensão arff, no qual temos que

descrever todos os atributos definindo os valores entre “{}” separados por vírgulas

depois é listado as instâncias, ou seja, os registros a serem minerados com os

valores dos atributos para cada instância também separados por vírgulas, em caso

de ausência de um registro deve ser atribuída pelo símbolo “?”. A figura 3 mostra um

arquivo no formato ARFF pronto para ser minerado no Weka.

28

Figura 4. Arquivo no formato ARFF.

Fonte: Waikato, 2000.

O arquivo na extensão ARFF pode ser feito em qualquer editor de texto, sendo

necessário como usar a palavra @relation e o nome_do_conjuto_de_dados após

coloca a palavra @attribute e o nome_atributo e abaixo @data para em seguida

vim os dados propriamente dito para a serem minerados, conforme citado na figura

4.

A tela inicial do minerador Weka com três botões conforme figura 5. O primeiro botão

Simple CLI executa os algoritmos do Weka através de linha de comando. O segundo

botão Explorer executa o módulo gráfico para execução dos algoritmos. O terceiro

botão Experimenter executa o módulo para manipular base de dados.

29

Figura 5. Tela inicial do pacote Weka. Fonte: Waikato, 2000.

Para executar um dos algoritmos do pacote Weka pressiona o botão Explorer, a

janela Weka Knowledge Explorer será aberta, deve-se então carregar os dados para

serem analisados os quais podem ser originados de um arquivo (Open file...) de uma

URL (Open URL...) ou ainda de um banco de dados (Open DB...)

No caso de utilizar dados originados de um arquivo, para tanto pressiona o botão

Open file... localiza o arquivo arquivo.arff criado anteriormente como mostra a Figura

6. Em base relation tem o nome da relação, quantidade de instâncias e quantidade

de atributos, abaixo no lado esquerdo encontra-se a lista de atributos do arquivo que

carregou. No lado esquerdo tem a seleção do atributo para mostragem em cubo da

quantidade de linhas que cada um tem.

30

Figura 6. Carregando o arquivo ARFF.

Fonte: Waikato, 2000.

Na parte superior se encontra as seguintes abas preprocess onde se pode abrir,

editar e salvar a base, classify conjunto de algoritmos que implementam os

esquemas de aprendizagem que funcionam como classificadores cluster contém os

algoritmos para geração de grupos, associate conjunto de algoritmos para gerar

regras de associação, select attributes determina a relevância dos atributos,

visualise explora os dados.

Este trabalho usará a tarefa de classificação, então será explicado a aba classify

conforme figura 7, no campo classifier seleciona qual algoritmo será utilizado para

classificação, por padrão o ZeroR é instanciado, clica sobre o nome do algoritmo e

uma nova janela é aberta, seleciona então o algoritmo no caso deste trabalho será

adotado o J48, ainda na figura 06 encontra-se a tela de parâmetros que vale

ressaltar que cada classificador possui parâmetros próprios.

Em test options defini algumas opções de teste como conjunto de treinamento (use

training set), fornecer um conjunto de teste (supplied test set), validação cruzada

31

(cross-validation) com o número de partições e porcentagem dos dados usados para

treinamento (percentage split) em More options dar algumas opções de saída. Após

essas definições clicar em start e obterá o resultado.

No caso deste exemplo, como tem poucos registros serão usados os dados como

um conjunto de treinamento ativando a opção Use training set (figura 7), em seguida

pressiona Start para iniciar a execução do algoritmo.

Figura 7. Aba classifer do Weka. Fonte: Waikato, 2000.

Para gerar a árvore de decisão utilizando, por exemplo, o algoritmo J48 que se

encontra no pacote Weka, clica com o botão direito no resultado da mineração em

result list conforme mostra a figura 7 e escolhe a opção visualize tree, terá um

resultado como mostra a figura 8.

32

Figura 8. Árvore de decisão com algoritmo J48. Fonte: Waikato, 2000.

33

4. EXPERIMENTO REALIZADO O objetivo deste experimento é minerar a base de dados de uma seguradora de

saúde em planos coletivos para proporcionar um maior conhecimento em relação à

ocorrência de sinistralidade acima de 75%. Para alcançar esse objetivo são definidas

as etapas a serem seguidas (figura 10) e mais adiante descrito cada passo adotado

para alcançar o objetivo.

Para o experimento foi utilizadas a tarefa de classificação com a técnica de árvore

de decisão aplicando-se o algoritmo J48 de forma a ser analisado os resultados

focando no objetivo descrito no parágrafo anterior. A amostra utilizada contém dados

de 700 segurados, somando um total de 6300 registros a serem analisados na

mineração de dados.

Figura 9. Processo para mineração de dados. Fonte: OLIVEIRA, 2003.

DEFINIÇÃO DA

PESQUISA

ANÁLISE E ESCOLHA

DOS ATRIBUTOS NO BANCO DE DADOS

EXECUÇÃO ETAPAS

KDD

SELEÇÃO DOS

DADOS

PRÉ PROCESSAMENTO/

LIMPEZA

TRANSFORMAÇÃO DOS

DADOS

ANÁLISE COMPUTACIONAL

SELEÇÃO ARQUIVOS

TREINAMENTO E TESTE

ARQUIVO TREINAMENTO

ARQUIVO TESTE

MINERAÇÃO DOS

DADOS

AVALIAÇÃO DE KAPPA

E DE CONFIANÇA

sim

não

MODELO INADEQUADO

Árvore de decisão

34

4.1 DESCRIÇÕES DAS ETAPAS DO EXPERIMENTO Definição da pesquisa - foi realizado um estudo de mercado no período de Janeiro

a Março de 2005 para definir qual segmento seria aplicado a mineração de dados,

de forma a auxiliar na tomada de decisão. A principio ficou definido a pesquisa e

experimento no segmento de matérias recicláveis em uma ONG localizada no bairro

do Rio Vermelho na cidade do Salvador. Após ser firmada a parceria, foi realizado

todo o processo de armazenamentos dos dados em banco de dados que a ONG já

possuía em papel, sendo definido os atributos a serem usados na mineração de

dados, de forma a descobrir qual o roteiro de coleta de materiais recicláveis os

carros de mão traria mais matérias recicláveis dos bairros do Rio Vermelho e

Amaralina. Em Dezembro de 2005 a ONG informa através de sua nova diretoria que

não tem mais interesse em participar da pesquisa.

Em Janeiro começa uma nova pesquisa para definir qual segmento aplicar o

experimento e constatou-se que o segmento de seguro saúde seria uma boa fonte

de pesquisa por está em destaque com discussões sobre reajustes nas

mensalidades. Partiu-se então para o contato com as seguradoras de saúde em

Salvador para apresentar a proposta sem obter êxito. Preparou-se então uma base

de dados baseada em conhecimento teórico obtido através de pesquisa no ramo e

ao minerar os dados constatou-se que a base de dados era inconsistente.

Em abril de 2006 em contato com um profissional de gestão de uma seguradora

saúde obtive um banco de dados consistente que permitiu a realização dos

experimentos citados detalhadamente mais adiante. Tendo como definição da

pesquisa a descoberta de ocorrência de sinistralidade acima de 75% em seguro

saúde através de aplicação de uma técnica de mineração de dados.

Análise e escolha dos atributos no banco de dados – foi realizado a análise do

banco de dados em conjunto com um profissional da área de seguro saúde,

avaliando quais atributos podem proporcionar uma visão melhor na ocorrência de

sinistralidade. E chegou-se ao consenso dos seguintes atributos (anexo A): mês de

forma a descobrir quais os meses que ocorre mais uso do seguro saúde; usuário

para saber quem mais usa o plano o titular ou outros; plano para dizer que tipo de

35

plano onera mais o seguro; sexo para aponta se possível quem mais utiliza o

plano;faixa para saber qual a faixa etária estar usando mais o plano, essa faixa é

determinada pela Agência Nacional de Saúde e é fixa para todos os seguros saúde;

localidade que mostrará qual localidade usa mais o plano;situação; limitação; receita

e despesa, no qual os dois últimos irão compor o atributo sinistralidade.

Execução etapas do KDD – após a escolha dos atributos, os dados foram

armazenados no Excel Microsoft Office XP para seguir as etapas de seleção dos

dados, pré-processamento e transformação dos dados conforme figura 10. Nesta

etapa foi criado o atributo sinistralidade resultante da operação feita entre os

atributos receita e despesa. Após essa etapa o arquivo foi exportado para o editor de

texto Word Microsoft Office XP como um arquivo “.txt” tendo um ponto e vírgula

como separador entre os valores de um atributo e outro, para mais tarde ser salvo o

com a extensão .arff que é o arquivo lido pelo minerador Weka-3-4 utilizado no

experimento.

Análise computacional: seleção do arquivo treinamento e teste - Após a

formatação, foi criado dois arquivos, “sinistralidade.arff” que é de treinamento com 9

atributos e 6300 registros (anexo B) que gerou as árvores de decisões (anexos C, D,

E) e o “testesinistralidade.arff” que é o arquivo de teste com 711 registros e 9

atributos para medir a exatidão do classificador e a confiança através da estatística

de Kappa (Tabela 4 capítulo 2 seção 2.2.1.1) que apresentou bons resultados

conforme abordado no tópico resultados obtidos, mais adiante e a confiança através

das margem de erros que apresentaram bons resultados.

Mineração dos dados - com o arquivo treinamento pronto, foi realizado a mineração

de dados no software Weka-3-4, escolhido pela confiabilidade dos algoritmos e por

implementar o algoritmo J48 escolhido para este trabalho. Após a mineração é

observado o índice estatístico de Kappa que mede a exatidão do classificador e a

confiança, valores dados quando é gerada a árvore de decisão, que apresentou

satisfatórios nas três árvores geradas (anexos C, D, E), em seguida foi minerado o

arquivo teste que confirmou a exatidão do classificador através da estatística de

Kappa.

36

Árvore de decisão – será abordado detalhadamente individualmente como foi

gerada as árvores de decisões e quais resultados obtidos com elas.

No primeiro experimento foi escolhido o atributo situação (solteiro, casado) como nó

principal, gerando uma árvore de decisão (anexo C) com índice estatístico de Kappa

de 0,87 (excelente) e nível de confiança de 0,25%, tendo como objetivo a análise de

ocorrência de sinistralidade acima de 75% . Têm-se as seguintes observações:

• existe ocorrência de sinistralidade no seguro saúde do plano produto-1,

usuário titular e faixa etária de 049 a 053 sendo observados que a situação é

solteiro. Portanto nesta faixa etária os solteiros usam mais o seguro saúde

que o casado podendo ser visto na figura 10;

• teve ocorrência de sinistralidade também na faixa etária de 059 a 999 com

usuário titular nos planos e situações: produto-1 casado; produto-2 solteiro;

produto-3 solteiro; produto-5 solteiro (figura 10).

Figura 10. Parte da primeira árvore de decisão.

Neste primeiro experimento contata-se que a ocorrência de sinistralidade acima de

75% é freqüente para solteiros e usuários titulares nas faixas etárias de 049 a 053 e

059 a 999.

Na análise do segundo experimento se escolheu o atributo sexo como nó principal

(anexo D), que teve 0,97 de índice de Kappa (excelente) e nível de confiança de

0,25%, observando-se a ocorrência de sinistralidade acima de 75% nos seguintes

casos (figura 11).

| | faixa = 049a053 | | | plano = PRODUTO-1 | | | | usuario = TITULAR | | | | | sinistralidade = >75: SOLTEIRO | | faixa = 059a999 | | | usuario = TITULAR | | | | sinistralidade = >75 | | | | | plano = PRODUTO-1: CASADO | | | | | plano = PRODUTO-2: SOLTEIRO | | | | | plano = PRODUTO-3: SOLTEIRO | | | | | plano = PRODUTO-5: SOLTEIRO

37

• A árvore de decisão nos revela que ocorre sinistralidade acima de 75% na

faixa etária de 024 a 028 com limitação sem carência sendo do sexo

feminino. Neste caso só foram utilizados os atributos faixa etária, limitação e

sexo;

• na faixa etária de 039 a 043 aparece o plano produto-1 e o sexo feminino.

Utilizando também 03 atributos apenas;

• já na faixa etária de 054 a 058 pode-se notar que trás maiores informações

como usuário titular, plano produto-1, sexo feminino e sinistralidade acima de

75%;

• na faixa etária de 059 a 999, o plano continua sendo o produto-1, o usuário

titular, o sexo feminino e sinistralidade acima de 75%.

Figura 11. Parte da segunda árvore de decisão.

No terceiro experimento o atributo escolhido como nó principal foi usuário (anexo F)

e apresentou um índice de Kappa de 0,93 (excelente) e nível de confiança de

0,25%, tendo a seguinte observação (figura 12).

• houve ocorrência de sinistralidade acima 75% na fixa etária mais uma vez de

059 a 999 sendo o usuário titular com plano produto-1 e sexo feminino.

| faixa = 024a028 | | limitação = SEMCARENCIA | | | sisnistralidade = >75: F | faixa = 039a043 | | plano = PRODUTO-1 | | | sisnistralidade = >75: F | faixa = 054a058 | | usuario = TITULAR | | | plano = PRODUTO-1 | | | | sisnistralidade = >75: F | faixa = 059a999 | | plano = PRODUTO-1 | | | usuario = TITULAR | | | | sisnistralidade = >75: F

38

Figura 12. Parte da terceira árvore de decisão.

4.2 RESULTADOS

Os resultados obtidos nos experimentos indicam que há constante ocorrência de

sinistralidade acima de 75% no produto-1 e faixa etária de 059 a 999 (figura 14),

devendo ser dado maior atenção há esse item. Observa-se também que o nó

principal sexo (figura 12) nos trás maiores informações, apontando desta forma

quatro faixas-etárias como responsáveis pela ocorrência de sinistralidade acima de

75% .

A seguir apresentar-se a tabela 14 com todos os resultados obtidos com a

mineração de dados, confirmando a observação feita no parágrafo anterior, e

alertando para a ocorrência de sinistralidade em outras três faixas etárias

correlacionando com outros atributos conforme demonstrado na figura 14.

| faixa = 059a999 | | plano = PRODUTO-1 | | | situação = CASADO | | | | sexo = F | | | | | sisnistralidade = >75: TITULAR

40

É importante testar vários atributos para saber qual deles vai trazer maiores

informações a respeito do problema estabelecido. Com esses resultados pode-se

estudar melhor a proposta de seguro saúde a ser feita numa organização, levando

em consideração as respostas obtidas neste experimento para desta forma, evitar

prejuízo no contrato firmado entre as partes.

41

CONSIDERAÇÕES

Nesta monografia foi apresentado o problema de mineração de dados de

classificação, com a aplicação da técnica de árvore de decisão com o algoritmo

estatístico J48 em uma base de dados de uma seguradora saúde para avaliar as

regras de classificação, de forma a obter conhecimento de quais apólices de seguros

saúde podem ser deficitárias para a empresa.

Para alcançar o objetivo proposto nesta pesquisa foi realizado experimento com o

software Weka que é uma ferramenta de mineração de dados, que proporcionou

colocar em prática o processo do KDD descrito anteriormente. Porém a grande

dificuldade encontrada foi obter uma base de dados consistente para aplicar o

algoritmo estatístico J48 o que implicou numa pesquisa mais minuciosa a respeito de

base de dados.

É importante salientar que o sucesso de um projeto de mineração de dados pode

transformar o modo de atuação de uma empresa, passando a atuar pro ativamente,

e não relativamente à situação de mercado.

Para trabalhos futuros tem a possibilidade de trabalhar com a base de dados do

experimento desta pesquisa, aplicando outros algoritmos estáticos, ou mesmo outras

técnicas de mineração de dados para fazer comparações na regras encontradas, de

forma a avaliar qual o resultado que mais satisfaz ao problema proposto.

42

REFERÊNCIAS

AGÊNCIA NACIONAL DE SAÚDE. Disponível em: www.ans.gov.br. Acesso em 20/04/2006. AMO, Sandra. Técnicas de mineração de dados. XXIV CONGRESSO DA SOCIEDADE BRASILEIRA DE COMPUTAÇÃO, 31/06 a 06/08, 2004, Salvador. Anais do SBC, Bahia: Sociedade Brasileira de Computação, 2004. p. 195-233. BERRY, M.J.A.; LINOFF, G. Data Mining Techniques. New York: John Wiley & Sons, Inc. 1997. CARVALHO, Deborah Ribeiro. Data Mining Através de Indução de Regras e Algoritmos Genéticos. Dissertação para obtenção do grau de Mestre, Pontifícia Universidade Católica do Paraná – 1999. CRUZ, Priscila Gomes Bastos. Data Mining Através de Regra de Associação e Arvore de Decisão. Monografia para obtenção do grau de tecnologo em Processamento de Dados, Universidade Tuiuti do Paraná – 2000. DINIZ, Carlos: LOUZADA NETO. Francisco. Data Mining uma Introdução. IN: 14º SINAP 24 jun. 2000. Caxambu. (Organizado pela ABE – Associação Brasileira de Estatística). DIAS. M. M. Um modelo de formalização do processo de desenvolvimento de sistemas de descoberta de conhecimento em banco de dados. Tese (Doutorado) – Curso de Pós-Graduação em Engenharia de Produção, Universidade Federal de Santa Catarina, Florianópolis, 2001. FAYYAD, Usama; PIATETSKI-SHAPIRO, Gregory; SMITY, Padhraic. The KDD Process for Extracting Useful Knowledge from Volumes of Data. In: Communications of the ACM, pp. 27-34, Nov. 1996. HAN, J.; KAMBER, M. Data Mining: Concepts and Techniques. Simon Fraser University: Morgan Kaufmann Publishers, 2001. 550 p. MARTINS, Celly de Siqueira. Utilização da Extração de Conhecimento de Bases de Dados para identificar Padrões de Evasão de Alunos de Graduação da UNICAMP. Dissertação (Mestrado em Informática) – Universidade de Campinas, São Paulo. 1998. 144p. MADELENA, Maria Dias. Parâmetros na escolha de técnicas e ferramentas de mineração de dados. Artigo divulgado pela Universidade Estadual de Maringá no Paraná – 2002. MANILLA, H. Finding Interesting Rules From Large Sets of Discovered Association Rules, 3rd International Conference on Information and Knowledge Management –1994.

43

MINERAÇÃO. Técnicas, Aplicações e Tendências. Disponível em <http://www.rpi.edu/~arunmk/dm1.html>. Acesso em: 18/11/2005. 2002.

OLIVEIRA, Grimaldo: LOPES. Utilização da mineração de dados pela técnica de árvore de decisão para identificar regras de risco para a obesidade. Monografia apresentada para obtenção de título de especialista em análise de sistemas, Centro de pós-graduação e pesquisa Visconde de Cairu Bahia – 2003. SEGUROS EM DIA. disponível em < www.seguros.com.br\reajuste.asp>, acesso em: 10/04/2006. SILVA, Marcelino Pereira Dos Santos. Mineração de Dados - Conceitos, Aplicações e Experimentos com Weka. Artigo divulgado pela Universidade do Estado do Rio Grande do Norte (UERN) Mossoró, RN – 2005. WAIKATO, U.d. Weka Knowledge Explorer (Waikato Environment for Knowledge Knowledge Analysis). Nova Zelândia, 2000. VIANA, Reinaldo. Mineração de dados: Introdução e aplicação. Revista SQL Magazine, ano 1 edição 10 p. 16-25, 2004.

ANEXO A TABELA DO BANCO DE DADOS DA SEGURADORA DE SAÚDE

44

ATRIBUTO DESCRIÇÃO FORMATO

MÊS Mês 1-january 2-february 3-march 4-april 5-may 6-june 7-july 8-august 9-september 10-october 11-november 12-december

USUÁRIO Usuário 1-titular 2-dependente 3-extra

PLANO Plano 1-produto 1 2-produto 2 3-produto 3 4-produto 5

SEXO Sexo 1-masculino 2-feminino

FAIXA Faixa 1-000a018 2-019a023 3-024a028 4-029a033 5-034a038 6-039a043 7-044a048 8-049a053 9-054a058 10-059a999

LOCALIDADE Localidade 1-capital 2-interior

SITUAÇÃO Situação 1-solteiro 2-casado

LIMITAÇÃO Limitação 1-sem carência 2-carência

SINISTRALIDADE Sinistralidade 1-<75 2->75

ANEXO B PARTE DOS DADOS UTILIZADOS PARA MINERAÇÃO DE DADOS, ARQUIVO TREINAMENTO april,TITULAR,PRODUTO-3,F,039a043,CAPITAL,SOLTEIRO,SEMCARENCIA,>75

45

january,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,<75

february,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,<75

march,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,<75

april,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,<75

may,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,>75

november,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,>75

december,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,>75

january,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,>75

february,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,<75

march,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,>75

april,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,<75

may,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,<75

june,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,>75

july,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,>75

august,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,<75

september,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,<75

october,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,<75

november,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,<75

december,TITULAR,PRODUTO-2,M,059a999,CAPITAL,CASADO,SEMCARENCIA,>75

january,DEPENDENTE,PRODUTO-2,F,019a023,CAPITAL,SOLTEIRO,SEMCARENCIA,<75

february,DEPENDENTE,PRODUTO-2,F,019a023,CAPITAL,SOLTEIRO,SEMCARENCIA,<75

march,DEPENDENTE,PRODUTO-2,F,019a023,CAPITAL,SOLTEIRO,SEMCARENCIA,<75

april,DEPENDENTE,PRODUTO-2,F,019a023,CAPITAL,SOLTEIRO,SEMCARENCIA,<75

may,DEPENDENTE,PRODUTO-2,F,019a023,CAPITAL,SOLTEIRO,SEMCARENCIA,<75

june,DEPENDENTE,PRODUTO-2,F,019a023,CAPITAL,SOLTEIRO,SEMCARENCIA,<75

july,DEPENDENTE,PRODUTO-2,F,019a023,CAPITAL,SOLTEIRO,SEMCARENCIA,<75

august,DEPENDENTE,PRODUTO-2,F,019a023,CAPITAL,SOLTEIRO,SEMCARENCIA,<75

ANEXO C PRIMEIRA ÁRVORE

limitação = SEMCARENCIA | sexo = F

50

ANEXO E TERÇEIRA ÁRVORE

limitação = SEMCARENCIA

monografia gal

Documents