regressão logística e aplicações em software estatísticos
Post on 10-Jan-2016
45 Views
Preview:
DESCRIPTION
TRANSCRIPT
Regressão Logística e Aplicações em Software
EstatísticosOrientando : Alexandro Vieira Lopes
Orientadora : Profª. Drª.Vilma Mayumi Tachibana
Co-Orientador : Prof. Dr. Fernando Antônio Moala
1/ 29
INTRODUÇÃO
2/ 29
ModelagemRegressão Logística SimplesRegressão Logística MúltiplaSeleção de Variáveis STEPWISEAvaliação do ajuste do modeloNoções sobre Regressão Logística
Multinomial
MODELAGEM
3/ 29
OBJETIVO: Refletir sobre uma porção da realidade, na tentativa de explicá-la, de entendê-la.
O processo é selecionar no sistema, argumentos ou parâmetros considerados essenciais e formalizá-los : o modelo. (representação do sistema).
Quanto mais complexo for o modelo, mais difícil será mostrar sua validade, isto é, que ele descreve a realidade.
MODELAGEM
4/ 29
Etapas da Modelagem
1 Experimentação : obtenção os dados. 2 Abstração : procedimento formulação dos modelos matemáticos, procura-se estabelecer:
-Seleção de variáveis: variáveis de estado que descrevem a evolução do sistema variáveis de controle que agem sobre o sistema.
-Formulação de hipóteses: observação dos fatos, comparação com outros estudos, dedução lógica,etc.
MODELAGEM
5/ 29
3 Resolução: A Formulação as vezes só pode ser viabilizada através de métodos computacionais, dando uma solução numérica aproximada.
4 Validação: é o processo de aceitação ou não do modelo proposto.
Teste dos dados empíricos, comparando suas soluções e previsões com os valores obtidos no sistema real.
MODELAGEM
5 Modificação: alguns fatores ligados ao problema original podem provocar a rejeição ou aceitação dos modelos.
Alguma hipótese : falsa ou não suficientemente próxima da verdade, ou seja, os pressupostos de partida são incorretos;
Alguns dados ou informações podem ter sido obtidos de maneira incorreta;
Existem outras variáveis envolvidas na situação real que não foram utilizadas.
6/ 29
MODELAGEM
Escolha de temasBuscar informações relacionadas com o assunto.
Uma das formas é a coleta de dados qualitativos ou numéricos que pode ser executada de várias formas:
Entrevistas & pesquisas executadas com métodos de amostragem aleatória.
Pesquisa bibliográfica, utilizando dados já obtidos e catalogados em livros e revistas especializadas.
7/ 29
MODELAGEM
A natureza dos dados orienta a formulação matemática dos modelos.
A relação funcional entre duas variáveis é expressa por uma fórmula matemática:
y = f (x)
x variável independentey variável dependente
8/ 29
REGRESSÃO LOGÍSTICA SIMPLES
9/ 29
P(Y = 1) relacionada com X1, X2, ..., Xp.
p assume valores no intervalo ]0,1[, não é possível admitir uma relação linear da forma p(x) = 0 + 1x1 + ... + pxp,
Contornar este problema transformação g, g(p(x)) pertença ao intervalo ]- , +[ modelada pela função linear 0 + 1x1 + ... + pxp.
Contexto de modelos lineares generalizados, a função g é denominada função de ligação.
REGRESSÃO LOGÍSTICA SIMPLES
10/29
)
11(1
))(1(1)(1
)(
1)(
)(
)()(
)(
)(
)(
)(
)(
i
i
i
i
i
i
i
i
xg
xgxg
xg
ixg
xg
i
ixg
xg
i
e
ee
e
xe
e
x
x
e
ex
, g(xi) = 0 + 1xii
i
x
x
i e
exYPx
10
10
1)|1()(
Função de
Ligação
REGRESSÃO LOGÍSTICA SIMPLES
11/29
)(
)(1
)(ixg
i
i ex
x
)()(1
)(ln i
i
i xgx
x
)(
)()()(
)(
1
11
i
ii
i
i
xg
xgxgxg
xg
e
eee
e
Transformação Logito
g(xi) = 0 + 1xiLogito
x varia de - a +, g(xi) apresenta a mesma variação.
REGRESSÃO LOGÍSTICA SIMPLES
12/ 29
Estimar 0 e 1 por Método da Máxima Verossimilhança
f (xf (xii)) é a função que expressa a probabilidade dos dados observados como uma função de parâmetros desconhecidos, seus estimadores maximizam esta função e se aproximam mais dos dados observados.
n
i 1
L() =
n
i
yi
yi
ii xx1
1))(1()( Função de Verossimilhança
ln L() =
[ yi ln (xi)+ (1-yi)ln(1-(xi)) ]
REGRESSÃO LOGÍSTICA SIMPLES
13/ 29
Não é possível igualar as expressões das derivadas parciais a zero para obter os estimadores, pois estas expressões em Regressão Logística não são lineares em 0 e 1 e assim requerem métodos especiais para suas soluções.
Estes métodos são de natureza iterativa e têm sido programados em software disponíveis de Regressão Logística.
n
iii xy
L
10
)()(ln
n
iiii xyx
L
11
)()(ln
Equações de Verossimilhança
&
REGRESSÃO LOGÍSTICA MÚLTIPLA
14/ 29
Logito Regressão Logística Múltipla :g(x) = 0 + 1x1 + 2x2 + ...+ p xp
Modelo da Regressão Logística :
Regressão Logística Simples uma variável independenteRegressão Logística Múltipla diferentes escalas e várias variáveis independentes.
)(
)(
1)(
x
x
xg
g
e
e
Probabilidade Sucesso : P ( Y = 1| x) = (x)
em que x’ = (x1, x2, ..., xp)
SELEÇÃO DE VARIÁVEIS STEPWISE
15/ 29
Etapa (0): Supondo p variáveis independentes:
ajuste do modelo apenas com o intercepto e seja L0 o log da verossimilhança.
ajuste de cada um dos p possíveis modelos univariados de regressão logística e os log de verossimilhança são comparados.
As variáveis mais importantes são aquelas com menor p-valor. Usa-se p-valor de entrada = 0,25.
)(2 0)0()0( LLG jj )0()0(2 ))(( jj pGvP
SELEÇÃO DE VARIÁVEIS STEPWISE
16/ 29
Etapa (0): Exemplo Hipotético
y x1 x2 x3 x4
Modelo com Intercepto: y = 0
y = 0 + 1x1 y = 0 + 1x2 y = 0 + 1x3 y = 0 + 1x4
menor p valor
SELEÇÃO DE VARIÁVEIS STEPWISE
17/ 29
Etapa (1): Ajuste do modelo de Regressão Logística contendo X3. log da verossimilhança deste modelo.
y = 0 + 1x3 + 2x1y = 0 + 1x3 + 2x2y = 0 + 1x3 + 2x4
Comparação do log verossimilhança Razão de Verossimilhanças (G)p-valor < pENTRADA
menor p valor
SELEÇÃO DE VARIÁVEIS STEPWISE
18/ 29
Etapa (2): devido a entrada de X2, a variável X3, não seja mais importante. Seleção Backward.Para decidir se X3 deve ser removido comparação com um segundo nível “alfa” pREMOÇÃO escolhido anteriormente.
Comparação de log de verossimilhançasp-valor > pREMOÇÃO.
pR > pE para que o algoritmo não introduza e remova a mesma variável nas etapas sucessivas.
Na fase de Seleção Forward, cada um dos p – 2 modelos de Regressão Logística são ajustados.
SELEÇÃO DE VARIÁVEIS STEPWISE
19/ 29
Etapa (3): O algoritmo representa uma verificação na eliminação backward seguida por uma seleção forward continuando desta maneira até última etapa (S).
Etapa (S): A etapa (S) ocorre se:todas as p variáveis que entraram no modelo OU
todas as variáveis no modelo que têm p-valores para sair menores que pR, e as variáveis não incluídas no modelo têm p-valores para entrar maiores que pE.
y = 0 + 2x2 + 3x3
VERIFICAÇÃO DO AJUSTE: TABELA DE CLASSIFICAÇÃO
20/ 29
Resume os resultados do ajuste do modelo de Regressão Logística.
Classificação cruzada da variável resposta y com os valores dicotômicos derivados da probabilidade estimada logística.
Ponto de corte c comparado com a probabilidade estimada de c. Se a probabilidade exceder c, então a variável derivada é igual a 1, senão é igual a 0.
O valor comum para c = 0,5.
VERIFICAÇÃO DO AJUSTE: TABELA DE CLASSIFICAÇÃO
21/ 29
A razão geral da Classificação correta é estimada como: 100 [(16 + 417) /575]% = 75,3 % de acerto do modelo.
Observado
Classificado Y = 1 Y = 0 Total
Y = 1 16 11 27
Y = 0 131 417 548
Total 147 428 575
SENSITIVIDADESENSITIVIDADE
ESPECIFICIDADE
VERIFICAÇÃO DO AJUSTE DO MODELO:
22/ 29
Teste de Homer-Lemeshow
Área abaixo da Curva ROC (curva Característica do Recebimento de Operação ou Receiver Operating Characteristic).
Estatística R2
Estatística Pearson Qui-Quadrado e Deviance
REGRESSÃO LOGÍSTICA MULTINOMIAL
23/ 29
Variável resposta qualquer número de níveis.
Exemplo: Estudo da escolha de um plano de saúde. A variável resposta indica o tipo de plano: A, B ou C com as covariáveis: idade, tamanho da família, renda, etc.
A Regressão Logística Multinomial também pode ser chamada Regressão Logística Politômica.
REGRESSÃO LOGÍSTICA MULTINOMIAL
24/ 29
Exemplo: 3 categorias da variável resposta
Modelo necessita de 2 funções logito.
Comparação de Categorias:
Y = 0 como referência e comparar com Y =1 e Y = 2.
....)|0(
)|1(ln)( 121211101 1 1βx'x
xx
pp xxxYP
YPg
....)|0(
)|2(ln)( 2222221202 1
βx'x
xx
ppxxxYP
YPg
RELATÓRIO FINAL
25/ 29
Comparação entre Software Comparação entre Software EstatísticosEstatísticos
Diagnóstico em Regressão LogísticaDiagnóstico em Regressão Logística
Regressão Logística OrdinalRegressão Logística Ordinal
REFERÊNCIAS
26/ 29
BASSANEZI, R. C. Ensino-aprendizagem com modelagem matemática. São Paulo: Contexto, 2004. 389 p. BUSSAB, W. de O.; MORETIN, P. A. Estatística básica. 5. ed. São Paulo: Saraiva, 2002. 526 p. COLLETT, D. Modelling binary data. London: Chapman & Hall, 1991. 369 p. FARHAT, C. A. V. Análise de diagnóstico em regressão logística. 2003. 113 f. Dissertação (Mestrado em Estatística) – Instituto de Matemática e Estatística, Universidade de São Paulo, São Paulo.
REFERÊNCIAS
27/ 29
HOSMER, D. W.; LEMESHOW, S. Applied logistic regression. 2nd ed. New York: Wiley, 2000. 375 p. ISHIKAWA, N. I. Uso de transformações em modelos de regressão logística. 2007. 92 f. Dissertação (Mestrado em Ciências) – Instituto de Matemática e Estatística, Universidade de São Paulo, São Paulo. KUBRUSLY, R. S. O tamanho do infinito. Projeto novas tecnologias de ensino. Rio de Janeiro, 2004. Disponível em: <http://www.dmm.im.ufrj.br/projeto/diversos/tamanho.html>. Acesso em: 1 jan. 2008. SOUZA, E. C. Análise de influência local no modelo de regressão logística. 2006. 101 f. Dissertação (Mestrado em Agronomia) – Escola Superior de Agricultura “Luiz de Queiroz”, Universidade de São Paulo, Piracicaba. Disponível em: <http://www.teses.usp.br/teses/disponiveis/11/11134/tde-12042006-143935/>. Acesso em: 19 mar. 2008.
BIBLIOGRAFIA
28/ 29
BUSSAB, W. de O. Análise de variância e de regressão. São Paulo: Atual, 1986. 147 p. HAIR Jr, J. F. et al. Análise multivariada de dados. Tradução de Adonai Schlup Sant’ana , Anselmo Chaves Neto. Bookman, 2005. 593 p. MOOD, A. M.; GRAYBILL, A. F.; BOES, C. D. Introduction to the theory of statistics. 3rd ed. New York: McGraw-Hill, 1974. 564 p. SOUZA, A. D. P. Métodos aproximados em modelos hierárquicos dinâmicos bayesianos. 1999. 142 f. Tese (Doutorado em Ciências em Engenharia de Produção) – COPPE, Universidade Federal do Rio de Janeiro, Rio de Janeiro. TACHIBANA, V. M. Métodos aproximados em modelos bayesianos de resposta aleatorizada e regressão logística. 1995. 133 f. Tese (Doutorado em Ciências em Engenharia de Produção) – COPPE, Universidade Federal do Rio de Janeiro, Rio de Janeiro.
Alexandro Vieira Lopes
PRESIDENTE PRUDENTE2008
4º ANO ESTATÍSTICA
Contato: alexandro2x@hotmail.com
Regressão Logística e Aplicações em Software
Estatísticos
29/ 29
top related