ufjf - universidade federal de juiz de fora - guilherme … · 2014. 10. 16. · parte do grupo de...

GUILHERME GUILHERMINO NETO

ESTATÍSTICA MULTIVARIADA SOBRE DADOS CATEGÓRICOS:

CONTRIBUIÇÕES DA REGRESSÃO LOGÍSTICA À ANÁLISE DE

CORRESPONDÊNCIA MÚLTIPLA

JUIZ DE FORA

2013





Trabalho apresentado ao Curso de Especialização em Métodos Estatísticos Computacionais, Universidade Federal de Juiz de Fora, como requisito parcial para a obtenção do título de pós-graduado em Métodos Estatísticos Computacionais. Orientador: Prof. Ronaldo Rocha Bastos,

PhD

JUIZ DE FORA

2013





Trabalho aprovado em ___ / ___ / ___ para obtenção do título de pós-graduado em Métodos Estatísticos Computacionais Banca examinadora:

_______________________________________ Prof. PhD Ronaldo Rocha Bastos

SUMÁRIO

RESUMO .................................................................................................................... V

ABSTRACT ............................................................................................................... VI

1 INTRODUÇÃO .................................................................................................... 07

2 MOTIVAÇÃO À APLICAÇÃO AO BANCO DE DADOS DOS SEGUROS ......... 08

3 ANÁLISE DE CORRESPONDÊNCIA MÚLTIPLA .............................................. 09

4 RESULTADOS DA ANÁLISE DE CORRESPONDÊNCIA MÚLTIPLA .............. 10

5 MODELO DE REGRESSÃO LOGÍSTICA .......................................................... 13

6 RESULTADOS DA REGRESSÃO LOGÍSTICA E SEGUNDA ACM .................. 14

7 CONCLUSÕES ................................................................................................... 16

REFERÊNCIAS.............. ........................................................................................... 18

ANEXO - MODELOS DE REGRESSÃO LOGÍSTICA .............................................. 19

RESUMO




Em diversas áreas do conhecimento, verifica-se a existência de bancos de dados

compostos por variáveis que não são numéricas, mas categóricas. Suas escalas podem

se referir a opiniões, comportamentos, sucesso / insucesso, entre outros.

Dentre as técnicas de análise estatística aplicáveis a dados categóricos, tem sido cada

vez mais difundidas a análise de correspondência múltipla (ACM), que, análoga à

análise de componentes principais, objetiva descrever geometricamente tabelas de

contingência multivariadas, e a regressão logística, estratégia de modelagem destinada a

criar classificadores baseados na relação entre covariáveis (categóricas ou não) e uma

variável independente que denota um atributo qualquer descrito por variável categórica.

Este trabalho se vale de dados de clientes de uma seguradora de automóveis belga

(GREENACRE et al., 2007) para abordar o uso destas duas técnicas em conjunto, a fim

de discutir os benefícios desta complementariedade.

É realizada uma primeira ACM e ajustado um modelo de regressão logística. Em

seguida, nova ACM é feita, desta vez incluindo na solução somente as variáveis mais

significativas segundo o modelo logístico, cujas associações foram interpretadas na

solução de ACM. Observa-se um aumento na variância explicada pela ACM,

destacando o poder das análises exploratória e confirmatória quando estas caminham

lado a lado.

Palavras-chave: Análise de Correspondência, Regressão Logística, Data Mining.

ABSTRACT

MULTIVARIATE STATISTICS OVER CATEGORICAL DATA: CONTRIBUTIONS

OF THE LOGISTIC REGRESSION TO THE MULTIPLE CORRESPONDENCE

ANALYSIS

In studies of multiple applied areas, we often face databases that consist of non-

numerical, but categorical variables. The scales for these variables are categories, and

may refer to opinion, behavior, success / failure, and so on.

Among various useful techniques to analyze categorical data, the multiple

correspondence analysis (MCA), a group of methods analogue to the principal

component analysis that aims to geometrically describe multivariate contingency tables,

and the logistic regression, modeling strategy used to build classifiers based on the

relationship between (categorical or not) covariates and a dependent variable that

denotes a class membership, are becoming popular.

This study uses a sample from a Belgian automobile insurance company

(GREENACRE et al., 2007) to make the use of these two techniques together, in order

to discuss the benefits of this complementarity.

At first, MCA is realized and we fit a logistic regression model. We lastly perform a

new MCA, this time including in the solution only significant (according to the logistic

model) variables that were observed in ACM. The explanation of the MCA is enlarged,

highlighting the power of both exploratory and confirmatory analysis when they walk

hand on hand.

Keywords: Correspondence Analysis, Logistic Regression, Data mining.

7

1. INTRODUÇÃO

A estatística multivariada é um conjunto de métodos que se aplicam quando variáveis são

medidas simultaneamente em cada elemento amostral (MINGOTI, 2004). Sua utilização é

motivada pelo fato de que, quanto maior o número de variáveis, mais ineficazes são os

métodos univariados, devido ao aumento da dimensionalidade dos dados e dos problemas

advindos de múltiplas comparações.

Dois grandes grupos compõem a estatística multivariada. O primeiro deles é o da análise

exploratória, com métodos descritivos que permitem a visualização de dados através de

abordagens geométricas de suas soluções. Isto ajuda, por exemplo, na identificação de

clusters e na detecção de outliers (o que evidencia a aplicabilidade ao pré-processamento de

dados). Dentre as técnicas, figuram a análise de componentes principais, a análise fatorial e a

análise de correspondência.

Já no segundo grupo, se incluem métodos confirmatórios, cujo objetivo é fazer inferência

sobre parâmetros, com controle das variáveis analisadas e dos erros estatísticos. Pertencem a

este grupo os testes de hipótese, análise de variância e métodos de regressão multivariada.

Parte do grupo de técnicas exploratórias, a análise de correspondência múltipla (ACM) é uma

generalização de outras duas técnicas _a Análise de Componentes Principais e a Análise de

Correspondência Simples_ e permite, ao exibir as covariâncias e correlações de forma gráfica,

analisar tabelas de contingência multivariadas. Os resultados são simples, de rápido

entendimento e apresentam uma visão geométrica da variabilidade em uma amostra.

O número de adeptos da ACM tem aumentado, devido a sua vasta aplicabilidade e também à

difusão de métodos estatísticos computacionais que tornam sua realização bastante direta.

A literatura sobre temas relacionados também tem crescido, principalmente após a formulação

de Bénzecri em seus dois volumes Lés Analysis dus Donées (1960). A ACM foi bem discutida

por Greenacre et al. (1987, 2007), Murtagh et al. (1997) e outros acadêmicos.

Do lado do conjunto de técnicas confirmatórias, parte do subgrupo de métodos multivariados

de regressão, a análise de regressão logística é uma transformação da regressão linear para

modelos em que as saídas são categóricas binárias (HOSMER et al., 2000). Na regressão

logística, a esperança matemática dos valores de saída é a probabilidade de classificar um

indivíduo como pertencente a uma das categorias, dada uma combinação de valores das

variáveis explicativas.

Como ambas as técnicas mencionadas manipulam dados categóricos, se adequam ao banco

que estudamos neste trabalho. Pretendemos mostrar os benefícios de sua utilização de forma

complementar.

O banco de dados estudado contém uma amostra, coletada em 1992, de clientes de uma

seguradora de automóveis belga (visto na literatura de GREENACRE et al., 2007). São nove

variáveis categóricas que se referem tanto a características do motorista quanto do próprio

veículo. Existe ainda uma décima variável categórica, que separa os clientes em dois grupos:

o dos “bons” (que nunca acionaram o seguro) e o dos “ruins” (que já o acionaram uma ou

mais vezes).

Com a ACM, mapeamos similaridades entre os indivíduos para todas as variáveis, bem como

as relações entre as próprias variáveis, além de detectar quais variáveis, de alguma forma,

separam os indivíduos entre os dois grupos. Depois, utilizando a regressão logística,

buscamos modelos que expliquem as diferenças na classificação utilizando as demais

variáveis como previsoras.

8

Depois da análise de regressão logística, nova ACM é feita. Desta vez, incluindo na solução

somente os previsores que indicados pela regressão logística como mais significativas.

2. MOTIVAÇÃO DA APLICAÇÃO AO BANCO DE DADOS DOS SEGUROS

O crescimento da frota a trafegar pelas vias urbanas e rodovias, aliado à insegurança imposta

cotidianamente aos indivíduos, torna compreensível o aumento da procura pelas companhias

de seguros automobilísticos.

A Escola Nacional de Seguros, Funenseg, em estudo de 2012, confirma que o faturamento do

seguro de automóveis responde por 49,7% do total arrecadado no ramo de seguros não vida

(exceto saúde), o que quer dizer que, após os seguros de vida e saúde, exerce liderança no

mercado segurador.

Ainda de acordo com a Funenseg (2012), o faturamento do seguro de automóveis aumentou

12,4% nos seis primeiros meses de 2012 em comparação ao mesmo período de 2011 (sendo

um total de R$ 11,37 bilhões versus R$ 10,11 bilhões).

Um dos possíveis fatores responsáveis por este crescimento é o crescimento da frota no

Brasil. Conforme estudo do DENATRAN (2010), o número de automóveis atingiu 64,8

milhões em dezembro de 2010, o que representa, em dez anos, um aumento acumulado de

119%, o que quer dizer que, neste período de tempo, cerca de 35 milhões de veículos foram

cadastrados.

Apesar do supracitado, as despesas de comercialização das seguradoras subiram 13,5%,

alcançando R$ 2,34 bilhões, contra R$ 2,06 bilhões em períodos de comparação idênticos, e o

índice de despesas de comercialização subiu de 20,5% para 21,6%, no confronto de intervalos

em tempos iguais (FUNENSEG, 2012).

Em virtude dos fatos mencionados, é interessante que as companhias seguradoras que tenham

uma noção dos perfis dos segurados, tanto para otimizar os gastos quanto para propor

políticas de incentivo aos usuários que se proponham a melhor observar sua conduta, de modo

a conduzir a um menor nível de acionamento do seguro (o que poderia, também, caber ao

governo).

Utilizamos, neste trabalho, uma amostra de usuários dos serviços de uma seguradora de

automóveis belga (GREENACRE et al., 2007), cujos dados ilustram a discussão acima.

Formam o banco 1106 casos, mapeados no ano de 1992.

O banco é composto por nove variáveis categóricas que dizem respeito às características dos

clientes, de seus veículos e do próprio seguro, conforme a tabela 1.

Uma décima variável, também categórica, corresponde a uma classificação do cliente.

Àqueles que nunca acionaram o seguro, a empresa atribuiu o rótulo de “bons clientes”. Os

que já acionaram uma ou duas vezes são tidos como “maus clientes”.

9

Tabela 1 – Variáveis estudadas

Variável Categorias Codificação dummy para regressão logística

Uso do seguro Trabalho*

Privado

0

1

Tipo de segurado Homem*

Mulher

Empresa

0 0

1 0

0 1

Língua nativa Francês*

Flamengo

0

1

Coorte de nascimento 1890-1949*

1950-1973

Coorte desconhecido

0 0

1 0

0 1

Região

Bruxelas*

Outra região

0

1

Nível de bonus-malus Bm-*

Bm+

0

1

Ano de subscrição Antes de 1986*

Depois de 1986

0

1

Potência do veículo 10-39 hp*

40-349 hp

0

1

Ano de fabricação do veículo 1933-1989*

1990-1991

0

1

Classificação Bom*

Mau

0

1

* Categoria de referência

Este trabalho busca relações entre a classificação dos clientes e as demais variáveis.

3. ANÁLISE DE CORRESPONDÊNCIA MÚLTIPLA

Convencionalmente, a estatística 2 é utilizada para resumir a informação sobre associações

entre variáveis provenientes de tabelas de contingência. Entretanto, a estratégia falha quando

lidamos com um volume considerável de dados e também nos interessa explorar relações

entre certas categorias de duas ou mais variáveis (GATRELL et al., 2003).

A análise de correspondência (AC) é uma técnica que permite que se visualize as associações

existentes nos dados através de um mapa, resumindo a informação em um espaço com o

menor número de dimensões possíveis. A AC se faz especialmente útil em situações nas quais

a descrição e a interpretação dos dados tem, por si mesma, importância capital, por exemplo,

quando os dados representam a totalidade da população de interesse (GREENACRE, 2008).

10

Muitas tabelas de contingência não são bivariadas, mas multidimensionais. Para estes casos, a

análise de correspondência múltipla (ACM), desdobramento da AC, é capaz de projetar um

conjunto de pontos que representam todas as categorias das variáveis em um subespaço de

menor dimensão possível, sendo as dimensões novos “fatores” mutualmente ortogonais. Este

processo, análogo à análise de componentes principais (ACP), é realizado por meio da técnica

matricial de decomposição em valores singulares (DVS), capaz de captar as correlações e

covariâncias entre os dados e, assim, resumir as associações entre um conjunto de variáveis

categóricas e exibir estas associações graficamente.

Assim como a ACP, aplicável a dados contínuos, a DVS encontra as coordenadas principais

para dados categóricos. Pode-se fazer, então, um gráfico de dispersão das coordenadas

principais que representam os perfis das linhas e das colunas. Neste gráfico, pontos que se

localizam mais próximos devem apresentar um grau de associação maior do que aqueles mais

distantes.

Utilizamos a ACM, inicialmente, para construir mapas que nos forneçam uma ideia da

variabilidade no conjunto de dados e como as variáveis influenciam esta variabilidade.

4. RESULTADOS DA ANÁLISE DE CORRESPONDÊNCIA MÚLTIPLA

Utilizamos a função de redução de dimensionalidade do software SPSS 17.0 de modo a obter

os resultados da ACM.

O problema tem dimensionalidade 3 9 ,onde 3 é o número total de categorias e 9 o número

total de variáveis categóricas.

Incluímos todas as variáveis na solução, sendo “classificação” tratada como suplementar (i.e.

não exerce impacto sobre a variância explicada).

Solicitamos o percentual de explicação da variância explicada para cada variável em cada

dimensão, além de mapas de correspondência (mapas estes que limitamos à representação das

quatro primeiras dimensões, já que estas, em conjunto, explicam mais de 55.00% da variância

total entre os dados, o que consideramos satisfatório).

Tabela 3 – Contribuições à variância por dimensão por variável

Variável 1 2 3 4 5 6 7 8 9 10 11

Uso do seguro ,111 ,543 ,002 ,004 ,012 ,036 ,011 ,022 ,190 ,025 ,044

Tipo de segurado ,101 ,637 ,276 ,084 ,264 ,044 ,285 ,025 ,229 ,044 ,011

Língua nativa ,123 ,049 ,191 ,289 ,001 ,011 ,112 ,219 ,006 ,000 ,000

Coorte de nascimento ,353 ,311 ,204 ,312 ,264 ,264 ,024 ,002 ,001 ,059 ,207

Região ,212 ,000 ,226 ,196 ,045 ,001 ,033 ,251 ,000 ,031 ,005

Nível de bonus-malus ,656 ,005 ,001 ,010 ,031 ,002 ,000 ,002 ,037 ,116 ,138

Ano de subscrição ,485 ,031 ,105 ,045 ,001 ,064 ,000 ,014 ,051 ,184 ,021

Potência do veículo ,012 ,120 ,217 ,137 ,074 ,156 ,227 ,055 ,001 ,001 ,000

Ano de fabricação do veículo ,141 ,008 ,089 ,004 ,289 ,322 ,078 ,069 ,000 ,000 ,000

11

Figura 1 – Mapa de correspondências das categorias para dimensões 1 e 2

O plano principal (dimensão 1 versus dimensão 2) é responsável por 43,31% da variância

explicada pela ACM. Como, frente a casos de aplicação da ACM da literatura

(GREENACRE, 2007; GREENACRE et al., 2008), verificamos que este é um percentual

considerável, decidimos iniciar a análise por este plano.

Ao analisar a figura 1, podemos enxegar uma divisão em duas zonas. A porção negativa da

dimensão 1 abriga categorias mais próximas da classificação de bom usuário. Em

contrapartida, a parte positiva do eixo engloba características mais afins da classificação de

mau usuário.

A tabela 3 sugere que as variáveis “nível de bonus-malus”, “ano de subscrição”, “coorte de

nascimento” e “região” são mais responsáveis pelas discriminações na dimensão 1 que as

demais. Este poder discriminatório fica claro na figura 1: os pontos “bm+”, “outra região” e

“antes de 1986” se encontram bastante próximos ao ponto “bom” da variável de classificação.

Em contrapartida, “bm-“, “Bruxelas” e “depois de 1986” se aproximam do ponto que define

os maus usuários do seguro.

A variável “coorte de nascimento” pode ser analisada em suas três categorias. Os usuários

nascidos entre 1950 e 1973 parecem ter a garantia de serem classificados como maus. Vale

destacar que estes teriam entre 18 e 35 anos em 1992, ano em que a coleta dos dados foi feita,

sugerindo que o grupo de usuários mais jovens tenha acionado o seguro mais vezes. “Coorte

de nascimento” ainda possui uma outra categoria, a dos usuários mais idosos, e esta se

encontra aproximadamente no meio dos dois pontos, o que torna necessária uma análise mais

profunda para melhores conclusões. Por fim, os missing cases da variável (que formam a

categoria “coorte desconhecido”) estão mais próximos de um perfil de bom usuário, o que nos

permite indagar se a maioria deles não se enquadraria no grupo dos usuários mais idosos ou

ainda carros de empresa, quando não se sabe quem dirigia o veículo na hora do acidente.

Como as variáveis “uso do seguro” e “tipo de segurado” possuem maior poder explicativo na

dimensão 2, solicitamos ao SPSS um novo mapa, desta vez confrontando as dimensões 2 e 3.

12

Figura 2 – Mapa de correspondências das categorias para dimensões 2 e 3

Na figura 2, a divisão em duas zonas é feita pela dimensão 3, o que sugere ainda não ser

possível dizer algo sobre as associações entre as variáveis “uso do seguro” e “tipo de usuário”

e a classificação do usuário. Isto ocorre porque o poder discriminatório do mapa ainda não se

encontra na dimensão 2, que é a mais significativa para as duas variáveis. Precisamos recorrer

a outros métodos para melhor analisar as associações.

Uma alternativa, ainda exploratória, é plotar as coordenadas dos casos em um mapa das

dimensões mais significativas, a fim de buscar agrupamentos entre as categorias.

Figura 3 – Biplot dos indivíduos para a variável “tipo de segurado” nas dimensões 2 e 3

Na figura 6, os pontos “M”, “H” e “O” fazem referência às categorias “mulher”, “homem” e

“outros (empresa)”, respectivamente.

13

Percebe-se que a variável ainda não apresenta um bom poder de discriminação. Há uma

distinção entre o uso pessoal e o privado, mas as categorias de sexo se misturam,

impossibilitando distinção de classificação por sexo, mas indicando uma associação com

Trabalho, coorte desconhecida (valores positivos na Dimensão 2).

Figura 4 – Biplot dos indivíduos para a variável “uso do seguro” nas dimensões 2 e 3

Já para a variável “tipo de segurado” (em cujo mapa, “p” e “W” representam as categorias

“uso privado” e “uso para trabalho”), embora seja difícil dizer como se dá a distinção, é

correto dizer que há uma separação evidente entre os indivíduos enquadrados em cada uma

das categorias.

A fim de modelar o impacto sobre a classificação, exercido pelas demais variáveis, bem como

confirmar os resultados obtidos nesta seção, ajustamos um modelo de regressão logística.

5. MODELO DE REGRESSÃO LOGÍSTICA

Modelar os efeitos de uma ou mais variáveis explicativas sobre outra dependente ajuda a

melhor descrever e entender estes efeitos, o que torna a modelagem um poderoso

complemento à análise exploratória.

A família de modelos lineares generalizados contém importantes modelos para variáveis de

resposta categóricas, bem como a regressão linear e a análise de variância para variáveis de

resposta contínuas (AGRESTI, 2002).

O modelo logístico de regressão se inclui nesta família e corrige problemas estruturais

apresentados pelo modelo linear quando a variável de saída é categórica binária. A adequação

é feita ao se introduzir um mapa que gera relações não lineares entre as variáveis explicativas

e a de resposta, relações estas diretamente ligadas à probabilidade de se designar um

indivíduo a uma classe ou outra.

Para transformar a saída de uma regressão linear e adequá-la a probabilidades, a regressão

logística utiliza a função de ligação logit:

0 1 1 2 2logit( ) log ...1

k kx x x

(Eq. 1)

Nesta equação, 1

é a chance de uma classe (normalmente da classe 1Y ) , ou a

razão entre a probabilidade de um indivíduo pertencer e a de não pertencer a esta classe .

14

A chance pode variar entre (0, ) . Logo, o logaritmo aplicado pela função logit _cujo

resultado corresponde à combinação linear das variáveis explicativas_, pode variar no

intervalo ( , ) .

O inverso da função logit é a função (de natureza exponencial) logística:

0 1 1 2 2

0 1 1 2 2

...

...1

k k

k k

x x x

x x x

e

e

(Eq. 2)

A função logística, graficamente uma curva em “s”, se configura como uma transformação

que mapeia o resultado de 0 1 1 2 2

...k k

x x x até valores de proporção, que variam entre 0 e 1,

adequando o modelo linear ao trabalho com variáveis de saída categóricas binárias.

Como gostaríamos de analisar o efeito na variável categórica binária “classificação” causado

pelas demais variáveis de nosso banco de dados, utilizaremos a regressão logística binária.

6. RESULTADOS DA REGRESSÃO LOGÍSTICA E SEGUNDA ACM

Para buscar pelas variáveis que mais impactam a discriminação, é interessante procurar por

modelos logísticos que, além de classificar os dados disponíveis, sejam capazes de generalizar

para novos casos. Utilizar todos os dados disponíveis para ajustar um único modelo logístico

e medir a acurácia sobre os mesmos dados comprometeria esta generalização, por criar um

viés otimista.

Sendo assim, seguimos roteiro adaptado daquele proposto por Mitchell (1997) para conceber

um compêndio de classificadores com maior poder de generalização e verificar a acurácia:

Início

Didivir a amostra em cinco conjuntos disjuntos 1 2 5, ,...,T T T de mesmo tamanho (em nosso

caso, 1 4...T T de tamanho 221 e 5T de tamanho 222, por conta da indivisibilidade por 5).

Para 1k até 5

Utilizar 'kT (i.e. a união entre os conjuntos que formam o complemento de kT ) para

ajustar os parâmetros de um modelo logístico;

Aplicar o modelo encontrado aos dados de kT e medir a acurácia;

Fim para

Fim

Aplicamos este algoritmo a três divisões aleatórias diferentes dos dados, resultando em quinze

modelos logísticos.

Ao fim, seguimos outra sugestão de Mitchell (1997) e calculamos a acurácia média, somando

as acurácias de todos os modelos e dividindo por 15.

O ajuste dos modelos foi feito com a função de regressão logística do SPSS. Já para o teste,

foram utilizadas a função gmlval do software Matlab para modelos lineares generalizados.

A medida de acurácia escolhida foi a área sob a curva ROC (receiver operating

15

characteristics) _sugerida por Fawcett (2005) para comparar classificadores (como os de

regressão logística)_, curva traçada em um espaço bidimensional que confronta a taxa de

falsos positivos e verdadeiros positivos encontrados no teste. Quanto maior a área sob a curva,

melhor o classificador. Calculamos esta área com a função perfcurve, do Matlab.

A área média sobre a curva ROC calculada foi de 89.00%, o que, comparado com resultados

encontrados na literatura, permite dizer que estamos diante de bons classificadores.

De posse de 15 modelos considerados eficientes a partir de amostras distintas por meio do

algoritmo de Mitchell, podemos dizer quais as variáveis mais impactantes à classificação,

bastando medir a frequência com que as variáveis foram encontradas nos modelos.

Figura 5 – Frequência das variáveis nos modelos de regressão logística

Percebe-se pouca importância de “língua” e “tipo de segurado” para a classificação.

Desse modo, realizamos nova ACM, porém mantendo somente as demais variáveis.

Tabela 4 – Contribuições à variância por dimensão por variável: segunda ACM

Variável 1 2 3 4 5 6 7 8

Uso do seguro ,111 ,543 ,002 ,004 ,012 ,036 ,011 ,022

Coorte de nascimento ,353 ,311 ,204 ,312 ,264 ,264 ,024 ,002

Região ,212 ,000 ,226 ,196 ,045 ,001 ,033 ,251

Nível de bonus-malus ,656 ,005 ,001 ,010 ,031 ,002 ,000 ,002

Ano de subscrição ,485 ,031 ,105 ,045 ,001 ,064 ,000 ,014

Potência do veículo ,012 ,120 ,217 ,137 ,074 ,156 ,227 ,055

Ano de fabricação do veículo ,141 ,008 ,089 ,004 ,289 ,322 ,078 ,069

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Ano de fabricação do veículo

Região

Uso do seguro

Coorte de nascimento

Nível de bonus-malus

Potência do veículo

Ano de subscrição

Tipo de segurado

Língua nativa

16

Figura 6 – Mapa de correspondências das categorias nas dimensões 1 e 2: segunda ACM

Com a retirada das duas variáveis menos significativas, são necessárias três dimensões menos

para explicar toda a variância dos dados.

A representação no mapa torna-se mais concisa e os pontos ficam mais próximos das duas

categorias de classificação tem suas distâncias encurtadas (em virtude de não haver mais

variáveis cujas categorias “confundem” a classificação, deturpando as distâncias).

A primeira dimensão, responsável por maior parte da variância dos dados, tem seu poder de

explicação aumentado em 19,03%, o que é considerável, haja visto que, na ACM, os

percentuais de variância explicados pelas dimensões normalmente são baixos (JOSSE et al.,

2008).

7. CONCLUSÕES

De acordo com Agresti (2002), a escolha das técnicas adequadas ao tipo de variável com que

se está trabalhando assegura a qualidade da análise estatística.

Neste trabalho, discutimos sobre duas técnicas direcionadas a dados categóricos, a análise de

correspondência múltipla e a análise de regressão logística, aplicando-as a um banco de dados

puramente qualitativos.

Com a análise de correspondência múltipla, pôde-se explorar as relações entre categorias das

variáveis, bem como compreender fatos inerentes à heterogeneidade dos dados. As soluções

da ACM são de simples rápido entendimento, fornecendo mapas que permitem a busca por

grupos de indivíduos entre os casos de forma direta.

Discutida a solução da ACM, introduzimos um modelo de regressão logística, de modo a

confirmar estatisticamente e agregar informações aos resultados obtidos.

Tendo o modelo logístico fornecido subsídios suficientes para dizer que duas variáveis são

muito pouco significativas, realizamos nova ACM, desta vez excluindo estas variáveis.

O impacto na análise exploratória e consequente explicação pelaos fatores (dimensões) foi

considerável: passaram a ser necessárias três dimensões menos para explicar a variância dos

17

dados, além de o poder explicativo das regiões mais discriminatórias ter aumentado (19,03%

para a primeira dimensão, por exemplo).

Embora tenhamos nos restringido a uma aplicação no ramo atuarial, a análise de

correspondência e a regressão logística, bem outros métodos de estatística multivariada, são

de vasta aplicabilidade, haja visto a ampla gama de bancos de dados compostos por variáveis

categóricas. Os resultados aqui encontrados somam-se aos resultados obtidos por Gatrell et al.

(2003) de modo a reforçar que técnicas exploratórias e confirmatórias não são poderosas

aliadas somente quando usadas em um caminho de mão única: os resultados inferenciais

podem contribuir significativamente com as análises descritivas.

Trabalhos futuros poderiam verter esforços em direção ao estudo de codificações de variáveis

categóricas para utilização como dados entrada de algoritmos de ACM e de criação de

modelos de regressão logística. O assunto, discutido brevemente por Murtagh et al. (1997,

2005) ainda fornece vastas possibilidades de aprofundamento. Pode-se-ia estimar, por

exemplo, como o uso de diferentes codificações influencia na variância explicada pela ACM e

/ ou na área sob a curva ROC de modelos logísticos.

18

REFERÊNCIAS

AGRESTI, A. Categorical Data Analysis. New York: John Wiley, 2002.

BENZÉCRI, J.P. Correspondence Analysis Handbook. New York: Marcel Dekker, 1992.

BISHOP, C.M. Neural Networks for Pattern Recognition. Oxford: Claredon Press, 1995.

DENATRAN. Frota 2000 <http://www.denatran.gov.br/download/frota/Frota2000.zip.htm>, visitado em

27/01/2013.

DENATRAN. Frota 2010 <http://www.denatran.gov.br/download/frota/FROTA_2010.zip.htm>, visitado em

27/01/2013.

FAWCETT, T. An Introduction to ROC Analysis. Palo Alto: Pattern Recognition Letters 27, Elsevier, 2005.

FUNENSEG. Entenda o seguro de automóveis

<http://www.tudosobreseguros.org.br/sws/portal/pagina.php?!=541>, visitado em 27/01/2013.

GATRELL, A.C. et al. Mapping the determinants of health inequalities: can Bourdieu help us?. Lancaster: Health & Place 10, Elsevier, 2003.

GREENACRE, M. La Práctica del Análisis de Correspondencias. Bilbao: Fundación BBVA, 2008.

GREENACRE, M. et al. Multiple Correspondence Analysis and Related Methods. Boca Raton: Chapman

and Hall / CRC, 2007.

GREENACRE, M. et al. The Geometric Representation of The Correspondence Analysis. The Journal of

The American Statistical Association, Volume 82, Number 398, American Statistical Association, 1987.

HOSMER, D.W. et al. Applied Logistic Regression. New York: John Wiley, 2000.

JOSSE, J, et al. Tutorial on Exploratory Data Analysis. Dortmund: Applied Mathematics Department

Agrocampus Ouest, 2008.

MENARD, S. Logistic Regression: From Introductory to Advanced Concepts and Applications. Thousand

Oaks: SAGE, 2010.

MITCHELL, T. Machine Learning. McGraw Hill, 1997.

MURTAGH, F. et al. Correspondence Analysis and Data Coding with Java and R. London: Chapman &

Hall / CRC, 2005.

MURTAGH, F. et al. Input Data Coding in Multivariate Data Analysis: Techniques and Practice in

Correspondence Analysis. Ulster: Faculty of Informatics, Magee College, University of Ulster, 1997.

STONE, M. Cross-validatory choice and assessment of statistical predictions. Journal of the Royal Statistical

Society, 1974.

STONE, M. Cross-validation: A Review. Math. Operationsforsch. Statist. Ser. Statistics 9, 1978.

VIEIRA, T.M. et al. On The Exploratory and Confirmatory Longitudinal Data Analysis Techniques.

Allahabad: Advances and Applications in Statistics, Volume 22, number 2, Pushpa Publishing House, 2011.

YANAI, H. et al. Projection Matrices, Generalized Inverse Matrices, and Singular Value Decomposition.

New York: Springer, 2011.

19

ANEXO – MODELOS DE REGRESSÃO LOGÍSTICA

Modelo 1

Variável / intercepto Coeficiente Erro padrão Estatística de Wald

Uso do seguro -,769 ,280 7,571

Coorte de nascimento (dummy 1)


1,328

1,667

,254

,278

27,381

35,954

Região -,912 ,214 18,145

Nível de bonus-malus 2,484 ,214 135,056

Ano de subscrição ,606 ,220 7,568

Potência do veículo ,762 ,279 7,439


Constante (intercepto)

1,184

-3,158

,232

,501

26,052

39,806

Modelo 2


Uso do seguro -,751 ,280 7,208



1,1449

1.802

,281

,276

26,575

42,698

Região -,919 ,227 16,374





1,569

-3,154

,239

,503

42,948

39,281

Modelo 3


Uso do seguro ,-901 ,279 10,044



1,094

1,437

,259

,269

17,769

28,511

Região -,884 ,210 17,753



Potência do veículo ,574 ,278 4.254



1,394

-2,562

,228

,488

37.317

27.578

20

Modelo 4


Uso do seguro -,802 ,267 9,018



1,480

1,758

,281

,280

27,740

39,328

Região -,862 ,219 15,441






1,260

-3,415

,231

,520

29,679

43,075

Modelo 5


Uso do seguro -,987 ,281 12,347



1,061

1,505

,275

,273

14,923

30,380

Região -,975 ,206 22,504






1,332

-2,445

,237

,490

31,526

24,883

Modelo 6


Uso do seguro -,890 ,268 11,014



1,445

1,836

,269

,261

28,897

49,505

Região -,794 ,209 14,486


Potência do veículo 1,093 ,277 15,528



1,212

-3,365

,229

,500

27,953

45,316

21

Modelo 7


Uso do seguro -,917 ,278 10,877



1,267

1,650

,266

,277

22,609

35,589

Região -,929 ,217 18,290





1,435

-2,386

,233

,406

37,883

34,496

Modelo 8


Uso do seguro -,911 ,270 11,341



1,131

1,731

,267

,260

17,973

44,350

Região -,688 ,212 10,533





1,498

-2,863

,236

,482

40,421

35,348

Modelo 9


Uso do seguro -,821 ,293 7,845



1,007

1,398

,270

,283

13,950

24,439

Região -,909 ,219 17,138






1,479

-2,722

,237

,520

38,877

27,458

22

Modelo 10


Uso do seguro -,794 ,276 8,252



1,463

1,566

,270

,282

29,306

30,960

Região -1,131 ,215 27,671






1,246

-2.865

,233

,498

28,752

33,160

Modelo 11


Uso do seguro -,854 ,281 9,255



1,139

1,592

,272

,284

17,522

31,488

Região -,922 ,217 18,000






1,313

-2,807

,237

,494

30,709

32,290

Modelo 12


Uso do seguro -,780 ,281 7,696



1,460

1,730

,282

,285

22,845

36,829

Região -,894 ,219 16,604






1,541

-3,281

,245

,512

39,425

41,096

23

Modelo 13


Uso do seguro -,844 ,279 9,146



1,222

1,756

,265

,282

21,258

38,808

Região -,809 ,218 13,830






1,292

-3,135

,235

,508

30,237

38,029

Modelo 14


Uso do seguro -,751 ,267 7,938



1,292

1,449

,260

,266

24,592

29,659

Região -,958 ,207 21,388






1,234

-2,925

,222

,495

30,788

34,937

24

Modelo 15


Uso do seguro -,980 ,279 12,326



1,160

1,383

,268

,278

18,707

24,822

Região -,909 ,214 18,102






1,344

-2,527

,230

,486

34,166

27,030

ufjf - universidade federal de juiz de fora - guilherme … · 2014. 10. 16. · parte do grupo de...

Documents