ufjf - universidade federal de juiz de fora - guilherme … · 2014. 10. 16. · parte do grupo de...
TRANSCRIPT
GUILHERME GUILHERMINO NETO
ESTATÍSTICA MULTIVARIADA SOBRE DADOS CATEGÓRICOS:
CONTRIBUIÇÕES DA REGRESSÃO LOGÍSTICA À ANÁLISE DE
CORRESPONDÊNCIA MÚLTIPLA
JUIZ DE FORA
2013
GUILHERME GUILHERMINO NETO
ESTATÍSTICA MULTIVARIADA SOBRE DADOS CATEGÓRICOS:
CONTRIBUIÇÕES DA REGRESSÃO LOGÍSTICA À ANÁLISE DE
CORRESPONDÊNCIA MÚLTIPLA
Trabalho apresentado ao Curso de Especialização em Métodos Estatísticos Computacionais, Universidade Federal de Juiz de Fora, como requisito parcial para a obtenção do título de pós-graduado em Métodos Estatísticos Computacionais. Orientador: Prof. Ronaldo Rocha Bastos,
PhD
JUIZ DE FORA
2013
GUILHERME GUILHERMINO NETO
ESTATÍSTICA MULTIVARIADA SOBRE DADOS CATEGÓRICOS:
CONTRIBUIÇÕES DA REGRESSÃO LOGÍSTICA À ANÁLISE DE
CORRESPONDÊNCIA MÚLTIPLA
Trabalho aprovado em ___ / ___ / ___ para obtenção do título de pós-graduado em Métodos Estatísticos Computacionais Banca examinadora:
_______________________________________ Prof. PhD Ronaldo Rocha Bastos
SUMÁRIO
RESUMO .................................................................................................................... V
ABSTRACT ............................................................................................................... VI
1 INTRODUÇÃO .................................................................................................... 07
2 MOTIVAÇÃO À APLICAÇÃO AO BANCO DE DADOS DOS SEGUROS ......... 08
3 ANÁLISE DE CORRESPONDÊNCIA MÚLTIPLA .............................................. 09
4 RESULTADOS DA ANÁLISE DE CORRESPONDÊNCIA MÚLTIPLA .............. 10
5 MODELO DE REGRESSÃO LOGÍSTICA .......................................................... 13
6 RESULTADOS DA REGRESSÃO LOGÍSTICA E SEGUNDA ACM .................. 14
7 CONCLUSÕES ................................................................................................... 16
REFERÊNCIAS.............. ........................................................................................... 18
ANEXO - MODELOS DE REGRESSÃO LOGÍSTICA .............................................. 19
RESUMO
ESTATÍSTICA MULTIVARIADA SOBRE DADOS CATEGÓRICOS:
CONTRIBUIÇÕES DA REGRESSÃO LOGÍSTICA À ANÁLISE DE
CORRESPONDÊNCIA MÚLTIPLA
Em diversas áreas do conhecimento, verifica-se a existência de bancos de dados
compostos por variáveis que não são numéricas, mas categóricas. Suas escalas podem
se referir a opiniões, comportamentos, sucesso / insucesso, entre outros.
Dentre as técnicas de análise estatística aplicáveis a dados categóricos, tem sido cada
vez mais difundidas a análise de correspondência múltipla (ACM), que, análoga à
análise de componentes principais, objetiva descrever geometricamente tabelas de
contingência multivariadas, e a regressão logística, estratégia de modelagem destinada a
criar classificadores baseados na relação entre covariáveis (categóricas ou não) e uma
variável independente que denota um atributo qualquer descrito por variável categórica.
Este trabalho se vale de dados de clientes de uma seguradora de automóveis belga
(GREENACRE et al., 2007) para abordar o uso destas duas técnicas em conjunto, a fim
de discutir os benefícios desta complementariedade.
É realizada uma primeira ACM e ajustado um modelo de regressão logística. Em
seguida, nova ACM é feita, desta vez incluindo na solução somente as variáveis mais
significativas segundo o modelo logístico, cujas associações foram interpretadas na
solução de ACM. Observa-se um aumento na variância explicada pela ACM,
destacando o poder das análises exploratória e confirmatória quando estas caminham
lado a lado.
Palavras-chave: Análise de Correspondência, Regressão Logística, Data Mining.
ABSTRACT
MULTIVARIATE STATISTICS OVER CATEGORICAL DATA: CONTRIBUTIONS
OF THE LOGISTIC REGRESSION TO THE MULTIPLE CORRESPONDENCE
ANALYSIS
In studies of multiple applied areas, we often face databases that consist of non-
numerical, but categorical variables. The scales for these variables are categories, and
may refer to opinion, behavior, success / failure, and so on.
Among various useful techniques to analyze categorical data, the multiple
correspondence analysis (MCA), a group of methods analogue to the principal
component analysis that aims to geometrically describe multivariate contingency tables,
and the logistic regression, modeling strategy used to build classifiers based on the
relationship between (categorical or not) covariates and a dependent variable that
denotes a class membership, are becoming popular.
This study uses a sample from a Belgian automobile insurance company
(GREENACRE et al., 2007) to make the use of these two techniques together, in order
to discuss the benefits of this complementarity.
At first, MCA is realized and we fit a logistic regression model. We lastly perform a
new MCA, this time including in the solution only significant (according to the logistic
model) variables that were observed in ACM. The explanation of the MCA is enlarged,
highlighting the power of both exploratory and confirmatory analysis when they walk
hand on hand.
Keywords: Correspondence Analysis, Logistic Regression, Data mining.
7
1. INTRODUÇÃO
A estatística multivariada é um conjunto de métodos que se aplicam quando variáveis são
medidas simultaneamente em cada elemento amostral (MINGOTI, 2004). Sua utilização é
motivada pelo fato de que, quanto maior o número de variáveis, mais ineficazes são os
métodos univariados, devido ao aumento da dimensionalidade dos dados e dos problemas
advindos de múltiplas comparações.
Dois grandes grupos compõem a estatística multivariada. O primeiro deles é o da análise
exploratória, com métodos descritivos que permitem a visualização de dados através de
abordagens geométricas de suas soluções. Isto ajuda, por exemplo, na identificação de
clusters e na detecção de outliers (o que evidencia a aplicabilidade ao pré-processamento de
dados). Dentre as técnicas, figuram a análise de componentes principais, a análise fatorial e a
análise de correspondência.
Já no segundo grupo, se incluem métodos confirmatórios, cujo objetivo é fazer inferência
sobre parâmetros, com controle das variáveis analisadas e dos erros estatísticos. Pertencem a
este grupo os testes de hipótese, análise de variância e métodos de regressão multivariada.
Parte do grupo de técnicas exploratórias, a análise de correspondência múltipla (ACM) é uma
generalização de outras duas técnicas _a Análise de Componentes Principais e a Análise de
Correspondência Simples_ e permite, ao exibir as covariâncias e correlações de forma gráfica,
analisar tabelas de contingência multivariadas. Os resultados são simples, de rápido
entendimento e apresentam uma visão geométrica da variabilidade em uma amostra.
O número de adeptos da ACM tem aumentado, devido a sua vasta aplicabilidade e também à
difusão de métodos estatísticos computacionais que tornam sua realização bastante direta.
A literatura sobre temas relacionados também tem crescido, principalmente após a formulação
de Bénzecri em seus dois volumes Lés Analysis dus Donées (1960). A ACM foi bem discutida
por Greenacre et al. (1987, 2007), Murtagh et al. (1997) e outros acadêmicos.
Do lado do conjunto de técnicas confirmatórias, parte do subgrupo de métodos multivariados
de regressão, a análise de regressão logística é uma transformação da regressão linear para
modelos em que as saídas são categóricas binárias (HOSMER et al., 2000). Na regressão
logística, a esperança matemática dos valores de saída é a probabilidade de classificar um
indivíduo como pertencente a uma das categorias, dada uma combinação de valores das
variáveis explicativas.
Como ambas as técnicas mencionadas manipulam dados categóricos, se adequam ao banco
que estudamos neste trabalho. Pretendemos mostrar os benefícios de sua utilização de forma
complementar.
O banco de dados estudado contém uma amostra, coletada em 1992, de clientes de uma
seguradora de automóveis belga (visto na literatura de GREENACRE et al., 2007). São nove
variáveis categóricas que se referem tanto a características do motorista quanto do próprio
veículo. Existe ainda uma décima variável categórica, que separa os clientes em dois grupos:
o dos “bons” (que nunca acionaram o seguro) e o dos “ruins” (que já o acionaram uma ou
mais vezes).
Com a ACM, mapeamos similaridades entre os indivíduos para todas as variáveis, bem como
as relações entre as próprias variáveis, além de detectar quais variáveis, de alguma forma,
separam os indivíduos entre os dois grupos. Depois, utilizando a regressão logística,
buscamos modelos que expliquem as diferenças na classificação utilizando as demais
variáveis como previsoras.
8
Depois da análise de regressão logística, nova ACM é feita. Desta vez, incluindo na solução
somente os previsores que indicados pela regressão logística como mais significativas.
2. MOTIVAÇÃO DA APLICAÇÃO AO BANCO DE DADOS DOS SEGUROS
O crescimento da frota a trafegar pelas vias urbanas e rodovias, aliado à insegurança imposta
cotidianamente aos indivíduos, torna compreensível o aumento da procura pelas companhias
de seguros automobilísticos.
A Escola Nacional de Seguros, Funenseg, em estudo de 2012, confirma que o faturamento do
seguro de automóveis responde por 49,7% do total arrecadado no ramo de seguros não vida
(exceto saúde), o que quer dizer que, após os seguros de vida e saúde, exerce liderança no
mercado segurador.
Ainda de acordo com a Funenseg (2012), o faturamento do seguro de automóveis aumentou
12,4% nos seis primeiros meses de 2012 em comparação ao mesmo período de 2011 (sendo
um total de R$ 11,37 bilhões versus R$ 10,11 bilhões).
Um dos possíveis fatores responsáveis por este crescimento é o crescimento da frota no
Brasil. Conforme estudo do DENATRAN (2010), o número de automóveis atingiu 64,8
milhões em dezembro de 2010, o que representa, em dez anos, um aumento acumulado de
119%, o que quer dizer que, neste período de tempo, cerca de 35 milhões de veículos foram
cadastrados.
Apesar do supracitado, as despesas de comercialização das seguradoras subiram 13,5%,
alcançando R$ 2,34 bilhões, contra R$ 2,06 bilhões em períodos de comparação idênticos, e o
índice de despesas de comercialização subiu de 20,5% para 21,6%, no confronto de intervalos
em tempos iguais (FUNENSEG, 2012).
Em virtude dos fatos mencionados, é interessante que as companhias seguradoras que tenham
uma noção dos perfis dos segurados, tanto para otimizar os gastos quanto para propor
políticas de incentivo aos usuários que se proponham a melhor observar sua conduta, de modo
a conduzir a um menor nível de acionamento do seguro (o que poderia, também, caber ao
governo).
Utilizamos, neste trabalho, uma amostra de usuários dos serviços de uma seguradora de
automóveis belga (GREENACRE et al., 2007), cujos dados ilustram a discussão acima.
Formam o banco 1106 casos, mapeados no ano de 1992.
O banco é composto por nove variáveis categóricas que dizem respeito às características dos
clientes, de seus veículos e do próprio seguro, conforme a tabela 1.
Uma décima variável, também categórica, corresponde a uma classificação do cliente.
Àqueles que nunca acionaram o seguro, a empresa atribuiu o rótulo de “bons clientes”. Os
que já acionaram uma ou duas vezes são tidos como “maus clientes”.
9
Tabela 1 – Variáveis estudadas
Variável Categorias Codificação dummy para regressão logística
Uso do seguro Trabalho*
Privado
0
1
Tipo de segurado Homem*
Mulher
Empresa
0 0
1 0
0 1
Língua nativa Francês*
Flamengo
0
1
Coorte de nascimento 1890-1949*
1950-1973
Coorte desconhecido
0 0
1 0
0 1
Região
Bruxelas*
Outra região
0
1
Nível de bonus-malus Bm-*
Bm+
0
1
Ano de subscrição Antes de 1986*
Depois de 1986
0
1
Potência do veículo 10-39 hp*
40-349 hp
0
1
Ano de fabricação do veículo 1933-1989*
1990-1991
0
1
Classificação Bom*
Mau
0
1
* Categoria de referência
Este trabalho busca relações entre a classificação dos clientes e as demais variáveis.
3. ANÁLISE DE CORRESPONDÊNCIA MÚLTIPLA
Convencionalmente, a estatística 2 é utilizada para resumir a informação sobre associações
entre variáveis provenientes de tabelas de contingência. Entretanto, a estratégia falha quando
lidamos com um volume considerável de dados e também nos interessa explorar relações
entre certas categorias de duas ou mais variáveis (GATRELL et al., 2003).
A análise de correspondência (AC) é uma técnica que permite que se visualize as associações
existentes nos dados através de um mapa, resumindo a informação em um espaço com o
menor número de dimensões possíveis. A AC se faz especialmente útil em situações nas quais
a descrição e a interpretação dos dados tem, por si mesma, importância capital, por exemplo,
quando os dados representam a totalidade da população de interesse (GREENACRE, 2008).
10
Muitas tabelas de contingência não são bivariadas, mas multidimensionais. Para estes casos, a
análise de correspondência múltipla (ACM), desdobramento da AC, é capaz de projetar um
conjunto de pontos que representam todas as categorias das variáveis em um subespaço de
menor dimensão possível, sendo as dimensões novos “fatores” mutualmente ortogonais. Este
processo, análogo à análise de componentes principais (ACP), é realizado por meio da técnica
matricial de decomposição em valores singulares (DVS), capaz de captar as correlações e
covariâncias entre os dados e, assim, resumir as associações entre um conjunto de variáveis
categóricas e exibir estas associações graficamente.
Assim como a ACP, aplicável a dados contínuos, a DVS encontra as coordenadas principais
para dados categóricos. Pode-se fazer, então, um gráfico de dispersão das coordenadas
principais que representam os perfis das linhas e das colunas. Neste gráfico, pontos que se
localizam mais próximos devem apresentar um grau de associação maior do que aqueles mais
distantes.
Utilizamos a ACM, inicialmente, para construir mapas que nos forneçam uma ideia da
variabilidade no conjunto de dados e como as variáveis influenciam esta variabilidade.
4. RESULTADOS DA ANÁLISE DE CORRESPONDÊNCIA MÚLTIPLA
Utilizamos a função de redução de dimensionalidade do software SPSS 17.0 de modo a obter
os resultados da ACM.
O problema tem dimensionalidade 3 9 ,onde 3 é o número total de categorias e 9 o número
total de variáveis categóricas.
Incluímos todas as variáveis na solução, sendo “classificação” tratada como suplementar (i.e.
não exerce impacto sobre a variância explicada).
Solicitamos o percentual de explicação da variância explicada para cada variável em cada
dimensão, além de mapas de correspondência (mapas estes que limitamos à representação das
quatro primeiras dimensões, já que estas, em conjunto, explicam mais de 55.00% da variância
total entre os dados, o que consideramos satisfatório).
Tabela 3 – Contribuições à variância por dimensão por variável
Variável 1 2 3 4 5 6 7 8 9 10 11
Uso do seguro ,111 ,543 ,002 ,004 ,012 ,036 ,011 ,022 ,190 ,025 ,044
Tipo de segurado ,101 ,637 ,276 ,084 ,264 ,044 ,285 ,025 ,229 ,044 ,011
Língua nativa ,123 ,049 ,191 ,289 ,001 ,011 ,112 ,219 ,006 ,000 ,000
Coorte de nascimento ,353 ,311 ,204 ,312 ,264 ,264 ,024 ,002 ,001 ,059 ,207
Região ,212 ,000 ,226 ,196 ,045 ,001 ,033 ,251 ,000 ,031 ,005
Nível de bonus-malus ,656 ,005 ,001 ,010 ,031 ,002 ,000 ,002 ,037 ,116 ,138
Ano de subscrição ,485 ,031 ,105 ,045 ,001 ,064 ,000 ,014 ,051 ,184 ,021
Potência do veículo ,012 ,120 ,217 ,137 ,074 ,156 ,227 ,055 ,001 ,001 ,000
Ano de fabricação do veículo ,141 ,008 ,089 ,004 ,289 ,322 ,078 ,069 ,000 ,000 ,000
11
Figura 1 – Mapa de correspondências das categorias para dimensões 1 e 2
O plano principal (dimensão 1 versus dimensão 2) é responsável por 43,31% da variância
explicada pela ACM. Como, frente a casos de aplicação da ACM da literatura
(GREENACRE, 2007; GREENACRE et al., 2008), verificamos que este é um percentual
considerável, decidimos iniciar a análise por este plano.
Ao analisar a figura 1, podemos enxegar uma divisão em duas zonas. A porção negativa da
dimensão 1 abriga categorias mais próximas da classificação de bom usuário. Em
contrapartida, a parte positiva do eixo engloba características mais afins da classificação de
mau usuário.
A tabela 3 sugere que as variáveis “nível de bonus-malus”, “ano de subscrição”, “coorte de
nascimento” e “região” são mais responsáveis pelas discriminações na dimensão 1 que as
demais. Este poder discriminatório fica claro na figura 1: os pontos “bm+”, “outra região” e
“antes de 1986” se encontram bastante próximos ao ponto “bom” da variável de classificação.
Em contrapartida, “bm-“, “Bruxelas” e “depois de 1986” se aproximam do ponto que define
os maus usuários do seguro.
A variável “coorte de nascimento” pode ser analisada em suas três categorias. Os usuários
nascidos entre 1950 e 1973 parecem ter a garantia de serem classificados como maus. Vale
destacar que estes teriam entre 18 e 35 anos em 1992, ano em que a coleta dos dados foi feita,
sugerindo que o grupo de usuários mais jovens tenha acionado o seguro mais vezes. “Coorte
de nascimento” ainda possui uma outra categoria, a dos usuários mais idosos, e esta se
encontra aproximadamente no meio dos dois pontos, o que torna necessária uma análise mais
profunda para melhores conclusões. Por fim, os missing cases da variável (que formam a
categoria “coorte desconhecido”) estão mais próximos de um perfil de bom usuário, o que nos
permite indagar se a maioria deles não se enquadraria no grupo dos usuários mais idosos ou
ainda carros de empresa, quando não se sabe quem dirigia o veículo na hora do acidente.
Como as variáveis “uso do seguro” e “tipo de segurado” possuem maior poder explicativo na
dimensão 2, solicitamos ao SPSS um novo mapa, desta vez confrontando as dimensões 2 e 3.
12
Figura 2 – Mapa de correspondências das categorias para dimensões 2 e 3
Na figura 2, a divisão em duas zonas é feita pela dimensão 3, o que sugere ainda não ser
possível dizer algo sobre as associações entre as variáveis “uso do seguro” e “tipo de usuário”
e a classificação do usuário. Isto ocorre porque o poder discriminatório do mapa ainda não se
encontra na dimensão 2, que é a mais significativa para as duas variáveis. Precisamos recorrer
a outros métodos para melhor analisar as associações.
Uma alternativa, ainda exploratória, é plotar as coordenadas dos casos em um mapa das
dimensões mais significativas, a fim de buscar agrupamentos entre as categorias.
Figura 3 – Biplot dos indivíduos para a variável “tipo de segurado” nas dimensões 2 e 3
Na figura 6, os pontos “M”, “H” e “O” fazem referência às categorias “mulher”, “homem” e
“outros (empresa)”, respectivamente.
13
Percebe-se que a variável ainda não apresenta um bom poder de discriminação. Há uma
distinção entre o uso pessoal e o privado, mas as categorias de sexo se misturam,
impossibilitando distinção de classificação por sexo, mas indicando uma associação com
Trabalho, coorte desconhecida (valores positivos na Dimensão 2).
Figura 4 – Biplot dos indivíduos para a variável “uso do seguro” nas dimensões 2 e 3
Já para a variável “tipo de segurado” (em cujo mapa, “p” e “W” representam as categorias
“uso privado” e “uso para trabalho”), embora seja difícil dizer como se dá a distinção, é
correto dizer que há uma separação evidente entre os indivíduos enquadrados em cada uma
das categorias.
A fim de modelar o impacto sobre a classificação, exercido pelas demais variáveis, bem como
confirmar os resultados obtidos nesta seção, ajustamos um modelo de regressão logística.
5. MODELO DE REGRESSÃO LOGÍSTICA
Modelar os efeitos de uma ou mais variáveis explicativas sobre outra dependente ajuda a
melhor descrever e entender estes efeitos, o que torna a modelagem um poderoso
complemento à análise exploratória.
A família de modelos lineares generalizados contém importantes modelos para variáveis de
resposta categóricas, bem como a regressão linear e a análise de variância para variáveis de
resposta contínuas (AGRESTI, 2002).
O modelo logístico de regressão se inclui nesta família e corrige problemas estruturais
apresentados pelo modelo linear quando a variável de saída é categórica binária. A adequação
é feita ao se introduzir um mapa que gera relações não lineares entre as variáveis explicativas
e a de resposta, relações estas diretamente ligadas à probabilidade de se designar um
indivíduo a uma classe ou outra.
Para transformar a saída de uma regressão linear e adequá-la a probabilidades, a regressão
logística utiliza a função de ligação logit:
0 1 1 2 2logit( ) log ...1
k kx x x
(Eq. 1)
Nesta equação, 1
é a chance de uma classe (normalmente da classe 1Y ) , ou a
razão entre a probabilidade de um indivíduo pertencer e a de não pertencer a esta classe .
14
A chance pode variar entre (0, ) . Logo, o logaritmo aplicado pela função logit _cujo
resultado corresponde à combinação linear das variáveis explicativas_, pode variar no
intervalo ( , ) .
O inverso da função logit é a função (de natureza exponencial) logística:
0 1 1 2 2
0 1 1 2 2
...
...1
k k
k k
x x x
x x x
e
e
(Eq. 2)
A função logística, graficamente uma curva em “s”, se configura como uma transformação
que mapeia o resultado de 0 1 1 2 2
...k k
x x x até valores de proporção, que variam entre 0 e 1,
adequando o modelo linear ao trabalho com variáveis de saída categóricas binárias.
Como gostaríamos de analisar o efeito na variável categórica binária “classificação” causado
pelas demais variáveis de nosso banco de dados, utilizaremos a regressão logística binária.
6. RESULTADOS DA REGRESSÃO LOGÍSTICA E SEGUNDA ACM
Para buscar pelas variáveis que mais impactam a discriminação, é interessante procurar por
modelos logísticos que, além de classificar os dados disponíveis, sejam capazes de generalizar
para novos casos. Utilizar todos os dados disponíveis para ajustar um único modelo logístico
e medir a acurácia sobre os mesmos dados comprometeria esta generalização, por criar um
viés otimista.
Sendo assim, seguimos roteiro adaptado daquele proposto por Mitchell (1997) para conceber
um compêndio de classificadores com maior poder de generalização e verificar a acurácia:
Início
Didivir a amostra em cinco conjuntos disjuntos 1 2 5, ,...,T T T de mesmo tamanho (em nosso
caso, 1 4...T T de tamanho 221 e 5T de tamanho 222, por conta da indivisibilidade por 5).
Para 1k até 5
Utilizar 'kT (i.e. a união entre os conjuntos que formam o complemento de kT ) para
ajustar os parâmetros de um modelo logístico;
Aplicar o modelo encontrado aos dados de kT e medir a acurácia;
Fim para
Fim
Aplicamos este algoritmo a três divisões aleatórias diferentes dos dados, resultando em quinze
modelos logísticos.
Ao fim, seguimos outra sugestão de Mitchell (1997) e calculamos a acurácia média, somando
as acurácias de todos os modelos e dividindo por 15.
O ajuste dos modelos foi feito com a função de regressão logística do SPSS. Já para o teste,
foram utilizadas a função gmlval do software Matlab para modelos lineares generalizados.
A medida de acurácia escolhida foi a área sob a curva ROC (receiver operating
15
characteristics) _sugerida por Fawcett (2005) para comparar classificadores (como os de
regressão logística)_, curva traçada em um espaço bidimensional que confronta a taxa de
falsos positivos e verdadeiros positivos encontrados no teste. Quanto maior a área sob a curva,
melhor o classificador. Calculamos esta área com a função perfcurve, do Matlab.
A área média sobre a curva ROC calculada foi de 89.00%, o que, comparado com resultados
encontrados na literatura, permite dizer que estamos diante de bons classificadores.
De posse de 15 modelos considerados eficientes a partir de amostras distintas por meio do
algoritmo de Mitchell, podemos dizer quais as variáveis mais impactantes à classificação,
bastando medir a frequência com que as variáveis foram encontradas nos modelos.
Figura 5 – Frequência das variáveis nos modelos de regressão logística
Percebe-se pouca importância de “língua” e “tipo de segurado” para a classificação.
Desse modo, realizamos nova ACM, porém mantendo somente as demais variáveis.
Tabela 4 – Contribuições à variância por dimensão por variável: segunda ACM
Variável 1 2 3 4 5 6 7 8
Uso do seguro ,111 ,543 ,002 ,004 ,012 ,036 ,011 ,022
Coorte de nascimento ,353 ,311 ,204 ,312 ,264 ,264 ,024 ,002
Região ,212 ,000 ,226 ,196 ,045 ,001 ,033 ,251
Nível de bonus-malus ,656 ,005 ,001 ,010 ,031 ,002 ,000 ,002
Ano de subscrição ,485 ,031 ,105 ,045 ,001 ,064 ,000 ,014
Potência do veículo ,012 ,120 ,217 ,137 ,074 ,156 ,227 ,055
Ano de fabricação do veículo ,141 ,008 ,089 ,004 ,289 ,322 ,078 ,069
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Ano de fabricação do veículo
Região
Uso do seguro
Coorte de nascimento
Nível de bonus-malus
Potência do veículo
Ano de subscrição
Tipo de segurado
Língua nativa
16
Figura 6 – Mapa de correspondências das categorias nas dimensões 1 e 2: segunda ACM
Com a retirada das duas variáveis menos significativas, são necessárias três dimensões menos
para explicar toda a variância dos dados.
A representação no mapa torna-se mais concisa e os pontos ficam mais próximos das duas
categorias de classificação tem suas distâncias encurtadas (em virtude de não haver mais
variáveis cujas categorias “confundem” a classificação, deturpando as distâncias).
A primeira dimensão, responsável por maior parte da variância dos dados, tem seu poder de
explicação aumentado em 19,03%, o que é considerável, haja visto que, na ACM, os
percentuais de variância explicados pelas dimensões normalmente são baixos (JOSSE et al.,
2008).
7. CONCLUSÕES
De acordo com Agresti (2002), a escolha das técnicas adequadas ao tipo de variável com que
se está trabalhando assegura a qualidade da análise estatística.
Neste trabalho, discutimos sobre duas técnicas direcionadas a dados categóricos, a análise de
correspondência múltipla e a análise de regressão logística, aplicando-as a um banco de dados
puramente qualitativos.
Com a análise de correspondência múltipla, pôde-se explorar as relações entre categorias das
variáveis, bem como compreender fatos inerentes à heterogeneidade dos dados. As soluções
da ACM são de simples rápido entendimento, fornecendo mapas que permitem a busca por
grupos de indivíduos entre os casos de forma direta.
Discutida a solução da ACM, introduzimos um modelo de regressão logística, de modo a
confirmar estatisticamente e agregar informações aos resultados obtidos.
Tendo o modelo logístico fornecido subsídios suficientes para dizer que duas variáveis são
muito pouco significativas, realizamos nova ACM, desta vez excluindo estas variáveis.
O impacto na análise exploratória e consequente explicação pelaos fatores (dimensões) foi
considerável: passaram a ser necessárias três dimensões menos para explicar a variância dos
17
dados, além de o poder explicativo das regiões mais discriminatórias ter aumentado (19,03%
para a primeira dimensão, por exemplo).
Embora tenhamos nos restringido a uma aplicação no ramo atuarial, a análise de
correspondência e a regressão logística, bem outros métodos de estatística multivariada, são
de vasta aplicabilidade, haja visto a ampla gama de bancos de dados compostos por variáveis
categóricas. Os resultados aqui encontrados somam-se aos resultados obtidos por Gatrell et al.
(2003) de modo a reforçar que técnicas exploratórias e confirmatórias não são poderosas
aliadas somente quando usadas em um caminho de mão única: os resultados inferenciais
podem contribuir significativamente com as análises descritivas.
Trabalhos futuros poderiam verter esforços em direção ao estudo de codificações de variáveis
categóricas para utilização como dados entrada de algoritmos de ACM e de criação de
modelos de regressão logística. O assunto, discutido brevemente por Murtagh et al. (1997,
2005) ainda fornece vastas possibilidades de aprofundamento. Pode-se-ia estimar, por
exemplo, como o uso de diferentes codificações influencia na variância explicada pela ACM e
/ ou na área sob a curva ROC de modelos logísticos.
18
REFERÊNCIAS
AGRESTI, A. Categorical Data Analysis. New York: John Wiley, 2002.
BENZÉCRI, J.P. Correspondence Analysis Handbook. New York: Marcel Dekker, 1992.
BISHOP, C.M. Neural Networks for Pattern Recognition. Oxford: Claredon Press, 1995.
DENATRAN. Frota 2000 <http://www.denatran.gov.br/download/frota/Frota2000.zip.htm>, visitado em
27/01/2013.
DENATRAN. Frota 2010 <http://www.denatran.gov.br/download/frota/FROTA_2010.zip.htm>, visitado em
27/01/2013.
FAWCETT, T. An Introduction to ROC Analysis. Palo Alto: Pattern Recognition Letters 27, Elsevier, 2005.
FUNENSEG. Entenda o seguro de automóveis
<http://www.tudosobreseguros.org.br/sws/portal/pagina.php?!=541>, visitado em 27/01/2013.
GATRELL, A.C. et al. Mapping the determinants of health inequalities: can Bourdieu help us?. Lancaster: Health & Place 10, Elsevier, 2003.
GREENACRE, M. La Práctica del Análisis de Correspondencias. Bilbao: Fundación BBVA, 2008.
GREENACRE, M. et al. Multiple Correspondence Analysis and Related Methods. Boca Raton: Chapman
and Hall / CRC, 2007.
GREENACRE, M. et al. The Geometric Representation of The Correspondence Analysis. The Journal of
The American Statistical Association, Volume 82, Number 398, American Statistical Association, 1987.
HOSMER, D.W. et al. Applied Logistic Regression. New York: John Wiley, 2000.
JOSSE, J, et al. Tutorial on Exploratory Data Analysis. Dortmund: Applied Mathematics Department
Agrocampus Ouest, 2008.
MENARD, S. Logistic Regression: From Introductory to Advanced Concepts and Applications. Thousand
Oaks: SAGE, 2010.
MITCHELL, T. Machine Learning. McGraw Hill, 1997.
MURTAGH, F. et al. Correspondence Analysis and Data Coding with Java and R. London: Chapman &
Hall / CRC, 2005.
MURTAGH, F. et al. Input Data Coding in Multivariate Data Analysis: Techniques and Practice in
Correspondence Analysis. Ulster: Faculty of Informatics, Magee College, University of Ulster, 1997.
STONE, M. Cross-validatory choice and assessment of statistical predictions. Journal of the Royal Statistical
Society, 1974.
STONE, M. Cross-validation: A Review. Math. Operationsforsch. Statist. Ser. Statistics 9, 1978.
VIEIRA, T.M. et al. On The Exploratory and Confirmatory Longitudinal Data Analysis Techniques.
Allahabad: Advances and Applications in Statistics, Volume 22, number 2, Pushpa Publishing House, 2011.
YANAI, H. et al. Projection Matrices, Generalized Inverse Matrices, and Singular Value Decomposition.
New York: Springer, 2011.
19
ANEXO – MODELOS DE REGRESSÃO LOGÍSTICA
Modelo 1
Variável / intercepto Coeficiente Erro padrão Estatística de Wald
Uso do seguro -,769 ,280 7,571
Coorte de nascimento (dummy 1)
Coorte de nascimento (dummy 2)
1,328
1,667
,254
,278
27,381
35,954
Região -,912 ,214 18,145
Nível de bonus-malus 2,484 ,214 135,056
Ano de subscrição ,606 ,220 7,568
Potência do veículo ,762 ,279 7,439
Ano de fabricação do veículo
Constante (intercepto)
1,184
-3,158
,232
,501
26,052
39,806
Modelo 2
Variável / intercepto Coeficiente Erro padrão Estatística de Wald
Uso do seguro -,751 ,280 7,208
Coorte de nascimento (dummy 1)
Coorte de nascimento (dummy 2)
1,1449
1.802
,281
,276
26,575
42,698
Região -,919 ,227 16,374
Nível de bonus-malus 2,826 ,218 168,386
Potência do veículo ,665 ,286 5,424
Ano de fabricação do veículo
Constante (intercepto)
1,569
-3,154
,239
,503
42,948
39,281
Modelo 3
Variável / intercepto Coeficiente Erro padrão Estatística de Wald
Uso do seguro ,-901 ,279 10,044
Coorte de nascimento (dummy 1)
Coorte de nascimento (dummy 2)
1,094
1,437
,259
,269
17,769
28,511
Região -,884 ,210 17,753
Nível de bonus-malus 2,473 ,208 141,648
Ano de subscrição ,552 ,216 6,544
Potência do veículo ,574 ,278 4.254
Ano de fabricação do veículo
Constante (intercepto)
1,394
-2,562
,228
,488
37.317
27.578
20
Modelo 4
Variável / intercepto Coeficiente Erro padrão Estatística de Wald
Uso do seguro -,802 ,267 9,018
Coorte de nascimento (dummy 1)
Coorte de nascimento (dummy 2)
1,480
1,758
,281
,280
27,740
39,328
Região -,862 ,219 15,441
Nível de bonus-malus 2,459 ,214 132,532
Ano de subscrição ,578 ,229 6,381
Potência do veículo ,922 ,289 10,167
Ano de fabricação do veículo
Constante (intercepto)
1,260
-3,415
,231
,520
29,679
43,075
Modelo 5
Variável / intercepto Coeficiente Erro padrão Estatística de Wald
Uso do seguro -,987 ,281 12,347
Coorte de nascimento (dummy 1)
Coorte de nascimento (dummy 2)
1,061
1,505
,275
,273
14,923
30,380
Região -,975 ,206 22,504
Nível de bonus-malus 2,161 ,215 100,905
Ano de subscrição ,502 ,236 4,538
Potência do veículo ,771 ,264 8,495
Ano de fabricação do veículo
Constante (intercepto)
1,332
-2,445
,237
,490
31,526
24,883
Modelo 6
Variável / intercepto Coeficiente Erro padrão Estatística de Wald
Uso do seguro -,890 ,268 11,014
Coorte de nascimento (dummy 1)
Coorte de nascimento (dummy 2)
1,445
1,836
,269
,261
28,897
49,505
Região -,794 ,209 14,486
Nível de bonus-malus 2,551 ,207 151,422
Potência do veículo 1,093 ,277 15,528
Ano de fabricação do veículo
Constante (intercepto)
1,212
-3,365
,229
,500
27,953
45,316
21
Modelo 7
Variável / intercepto Coeficiente Erro padrão Estatística de Wald
Uso do seguro -,917 ,278 10,877
Coorte de nascimento (dummy 1)
Coorte de nascimento (dummy 2)
1,267
1,650
,266
,277
22,609
35,589
Região -,929 ,217 18,290
Nível de bonus-malus 2,555 ,213 144,219
Ano de subscrição ,549 ,223 6,075
Ano de fabricação do veículo
Constante (intercepto)
1,435
-2,386
,233
,406
37,883
34,496
Modelo 8
Variável / intercepto Coeficiente Erro padrão Estatística de Wald
Uso do seguro -,911 ,270 11,341
Coorte de nascimento (dummy 1)
Coorte de nascimento (dummy 2)
1,131
1,731
,267
,260
17,973
44,350
Região -,688 ,212 10,533
Nível de bonus-malus 2,611 ,210 155,304
Potência do veículo ,737 ,266 7,706
Ano de fabricação do veículo
Constante (intercepto)
1,498
-2,863
,236
,482
40,421
35,348
Modelo 9
Variável / intercepto Coeficiente Erro padrão Estatística de Wald
Uso do seguro -,821 ,293 7,845
Coorte de nascimento (dummy 1)
Coorte de nascimento (dummy 2)
1,007
1,398
,270
,283
13,950
24,439
Região -,909 ,219 17,138
Nível de bonus-malus 2,494 ,217 131,786
Ano de subscrição ,640 ,227 7,942
Potência do veículo ,678 ,279 5,880
Ano de fabricação do veículo
Constante (intercepto)
1,479
-2,722
,237
,520
38,877
27,458
22
Modelo 10
Variável / intercepto Coeficiente Erro padrão Estatística de Wald
Uso do seguro -,794 ,276 8,252
Coorte de nascimento (dummy 1)
Coorte de nascimento (dummy 2)
1,463
1,566
,270
,282
29,306
30,960
Região -1,131 ,215 27,671
Nível de bonus-malus 2,365 ,212 124,191
Ano de subscrição ,595 ,228 6,785
Potência do veículo ,707 ,285 6,149
Ano de fabricação do veículo
Constante (intercepto)
1,246
-2.865
,233
,498
28,752
33,160
Modelo 11
Variável / intercepto Coeficiente Erro padrão Estatística de Wald
Uso do seguro -,854 ,281 9,255
Coorte de nascimento (dummy 1)
Coorte de nascimento (dummy 2)
1,139
1,592
,272
,284
17,522
31,488
Região -,922 ,217 18,000
Nível de bonus-malus 2,527 ,216 137,413
Ano de subscrição ,557 ,225 6,102
Potência do veículo ,626 ,278 5,065
Ano de fabricação do veículo
Constante (intercepto)
1,313
-2,807
,237
,494
30,709
32,290
Modelo 12
Variável / intercepto Coeficiente Erro padrão Estatística de Wald
Uso do seguro -,780 ,281 7,696
Coorte de nascimento (dummy 1)
Coorte de nascimento (dummy 2)
1,460
1,730
,282
,285
22,845
36,829
Região -,894 ,219 16,604
Nível de bonus-malus 2,595 ,222 136,717
Ano de subscrição ,477 ,234 4,164
Potência do veículo ,739 ,291 6,469
Ano de fabricação do veículo
Constante (intercepto)
1,541
-3,281
,245
,512
39,425
41,096
23
Modelo 13
Variável / intercepto Coeficiente Erro padrão Estatística de Wald
Uso do seguro -,844 ,279 9,146
Coorte de nascimento (dummy 1)
Coorte de nascimento (dummy 2)
1,222
1,756
,265
,282
21,258
38,808
Região -,809 ,218 13,830
Nível de bonus-malus 2,497 ,215 134,926
Ano de subscrição ,472 ,224 4,441
Potência do veículo ,693 ,286 5,853
Ano de fabricação do veículo
Constante (intercepto)
1,292
-3,135
,235
,508
30,237
38,029
Modelo 14
Variável / intercepto Coeficiente Erro padrão Estatística de Wald
Uso do seguro -,751 ,267 7,938
Coorte de nascimento (dummy 1)
Coorte de nascimento (dummy 2)
1,292
1,449
,260
,266
24,592
29,659
Região -,958 ,207 21,388
Nível de bonus-malus 2,299 ,208 122,525
Ano de subscrição ,586 ,219 7,141
Potência do veículo ,838 ,271 9,532
Ano de fabricação do veículo
Constante (intercepto)
1,234
-2,925
,222
,495
30,788
34,937
24
Modelo 15
Variável / intercepto Coeficiente Erro padrão Estatística de Wald
Uso do seguro -,980 ,279 12,326
Coorte de nascimento (dummy 1)
Coorte de nascimento (dummy 2)
1,160
1,383
,268
,278
18,707
24,822
Região -,909 ,214 18,102
Nível de bonus-malus 2,436 ,215 128,561
Ano de subscrição ,420 ,227 3,411
Potência do veículo ,787 ,270 8,495
Ano de fabricação do veículo
Constante (intercepto)
1,344
-2,527
,230
,486
34,166
27,030