classificarseumaespéciedecogumeloécomestívelou venenosataconeli/ce22519/grupo2.pdf · vale...

10
Classificar se uma espécie de cogumelo é comestível ou venenosa Guilherme Fernando Hathy da Costa | GRR20160237 Everton Luiz de Souza | GRR20124692 1 Curitiba 2019

Upload: others

Post on 28-Oct-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Classificarseumaespéciedecogumeloécomestívelou venenosataconeli/CE22519/Grupo2.pdf · Vale ressaltar que em seu livro G.H.Lincoff a rma que não existe uma regra de nida para

Classificar se uma espécie de cogumelo é comestível ouvenenosa

Guilherme Fernando Hathy da Costa | GRR20160237Everton Luiz de Souza | GRR20124692

1

Curitiba2019

Page 2: Classificarseumaespéciedecogumeloécomestívelou venenosataconeli/CE22519/Grupo2.pdf · Vale ressaltar que em seu livro G.H.Lincoff a rma que não existe uma regra de nida para

Contents

1 Resumo 3

2 Introdução 4

3 Materiais e Métodos 4

3.1 Material . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

3.2 Métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

3.3 Modelagem Estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

3.4 Análise de Diagnóstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

4 Conclusão 9

5 Apêndice 9

2

Page 3: Classificarseumaespéciedecogumeloécomestívelou venenosataconeli/CE22519/Grupo2.pdf · Vale ressaltar que em seu livro G.H.Lincoff a rma que não existe uma regra de nida para

1 Resumo

Os dados analisados foram retirados do livro The Audubon Society Field Guide to North American Mushrooms(1981). G. H. Lincoff (Pres.), New York: Alfred A. Knopf e consiste de 8124 observações de cogumelos de23 espécies diferentes. Para a modelagem usou-se o modelo Binomial com a função de ligação Logito. Devidoa natureza categórica das covariáveis, o modelo mostrou algumas limitações, mostrando que talvez outrasabordagens como arvore de decisão se adapte melhor aos dados. Vale ressaltar que em seu livro G. H. Lincoffafirma que não existe uma regra definida para determinar se um cogumelo é comestível ou venenoso.

3

Page 4: Classificarseumaespéciedecogumeloécomestívelou venenosataconeli/CE22519/Grupo2.pdf · Vale ressaltar que em seu livro G.H.Lincoff a rma que não existe uma regra de nida para

2 Introdução

O presente trabalho tem como objetivo apresentar uma análise estatística, por meio de modelos linearesgeneralizados para dados binarios.

O trabalho ajusta um modelo buscando classificar cogumelos nas categorias edible ou poisonous em funçãode 23 covariáveis categóricas disponíveis na base de dados, alem de um estudo dos pressupostos para saberse o modelo se ajustou bem aos dados.

3 Materiais e Métodos

3.1 Material

O conjunto de dados possui 8124 observações, com 23 variaveis observadas. Após um estudo prévio dascovariaveis e a modelagem de covariavel por covariável optou-se por reduzir a base para 11 variáveis, pegandosomente as que tiveram significância estatística, sendo elas:

• type, 2 níveis

• cap_shape, 6 níveis

• cap_surface, 4 níveis

• cap_color, 10 níveis

• bruises, 2 níveis

• gill_attachment, 2 níveis

• gill_spacing, 2 níveis

• gill_color, 12 níveis

• stalk_root, 5 níveis

• stalk_surface_below_ring, 4 níveis

• population, 6 níveis

A tabela 1 possui as 6 primeiras observações da base de dados. Podendo notar que ambas as variáveis sãocategóricas.

Table 1: Resumo das covariáveis

type cap_shape cap_surface cap_color bruises gill_attachmentpoisonous convex smooth brown yes freeedible convex smooth yellow yes freeedible bell smooth white yes freepoisonous convex scaly white yes freeedible convex smooth gray no freeedible convex scaly yellow yes free

4

Page 5: Classificarseumaespéciedecogumeloécomestívelou venenosataconeli/CE22519/Grupo2.pdf · Vale ressaltar que em seu livro G.H.Lincoff a rma que não existe uma regra de nida para

gill_spacing gill_color stalk_root stalk_surface_below_ring populationclose black equal smooth scatteredclose black club smooth numerousclose brown club smooth numerousclose brown equal smooth scatteredcrowded black equal smooth abundantclose brown club smooth numerous

3.2 Métodos

Modelos de regressão binomial são frequentemente utilizados para modelar associação entre um conjunto devariaveis explicativas e uma variavel resposta dicotômica (poisonous ou edible). Como função de ligação, foiutilizada a função logit. Que foi a função de ligação que obteve o menor AIC e a maior verossimilhança. Adefinição do modelo com as características citadas é descrito abaixo:

Yi|xi ∼ Binomial(mi, πi)

Onde Yi é a variável resposta e Xi são as covariáveis associados a cada observação.Assim o GLM baseado na função de ligação logito fica definida por:Na escala do preditor:

ln( πi1− πi

) = β0 + β1Xi1 + ...+ βpXip

Na escala da resposta ou probabilidade:

πi = expβ0+β1Xi1+...+βpXip

1 + expβ0+β1Xi1+...+βpXip

A seleção de covariáveis tem como objetivo a identificação de um modelo que seja simples e capaz de seajustar bem aos dados. Para isso, foi usado o algoritmo stepwise considerando como critério de seleção oAIC (Akaike Information Criterion), que é dados pela formula:

AIC = −2l + 2pOnde l é a verossimilhança maximizada e p o número de parâmetros estimados. O algoritmo inicia-se comtodos os termos e seleciona-se para a exclusão o termo de menor contribuição para o ajuste. A cada interaçãoo algoritmo verifica a possibilidade da inclusão de um termo já incluido. O processo encerra quando nenhumtermo excluido tiver força o suficiente para entrar no modelo e nenhum termo incluido for fraco para sair domodelo.

3.3 Modelagem Estatística

Após o uso do algoritmo stepwise na direção forward (iniciando o algoritmo com o modelo nulo e inserindovariáveis uma a uma até que se encontre o menor AIC, sendo o modelo limite o modelo saturado) a unicavariável que foi excluida do modelo foi gillattachment. O modelo nulo resultou em um AIC = 11253.76enquanto o modelo com todas as variáveis menos a gillattachment resultou em um AIC = 1386.68. Comisso, foi considerado o modelo proposto pelo algorítimo, que é dado por:

Tipei|xi ∼ Binomial(1, πi)

5

Page 6: Classificarseumaespéciedecogumeloécomestívelou venenosataconeli/CE22519/Grupo2.pdf · Vale ressaltar que em seu livro G.H.Lincoff a rma que não existe uma regra de nida para

Table 3: Resumo das Estimativas para o Modelo Ajustado

Coeficiente Estimativa E..Erro.Padrão Estatística.Z Pr. . . Z.(Intercept) -22.7040 3440.0662 -0.007 0.994734gill_colorbrown -0.2238 0.3160 -0.708 0.478812gill_colorbuff 100.0768 2549.6053 0.039 0.968690gill_colorchocolate 0.2799 0.3713 0.754 0.450937gill_colorgray 1.6601 0.4835 3.433 0.000596gill_colorgreen 21.6436 14060.0703 0.002 0.998772

A tabela 3 possui as 6 primeiras estimativas para os nossos βi, por se tratar de variáveis categóricas a tabelacom todas as estimativas esta no capítulo 5 tabela 4, pois foram criadas variáveis dummy para a inclusãodas covariáveis no modelo.

O modelo apresentou Deviance nula igual a 11251.8 para 8123 graus de liberdade e Deviance residual iguala 1300.7 para 8081 graus de liberdade.

6

Page 7: Classificarseumaespéciedecogumeloécomestívelou venenosataconeli/CE22519/Grupo2.pdf · Vale ressaltar que em seu livro G.H.Lincoff a rma que não existe uma regra de nida para

0 2000 6000

−4

−2

02

4

Index

res

−4 −2 0 2 4

−4

−2

02

4

Normal Q−Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

Figure 1: Resíduos Quantílicos Aleatorizados

3.4 Análise de Diagnóstico

Uma alternativa é avaliar a qualidade do ajuste com base nos resíduos quantílicos aleatorizados.

No figura 1 o gráfico da esquerda esperava-se que os resíduos estivessem dispersos em torno de 0 e entre -3 e3, pode-se notar a fulga de alguns pontos o que pode sinalizar uma pequena falta de ajuste do modelo. Nográfico a direita observa-se uma boa aderência à distribuição normal, mostrando que talvez a falta de ajustedo modelo não seja tão grande.

Na Figura 2, é apresentado o gráfico dos resíduos e envelope simulados para uma banda de confiança de 95%de confiança. Com ele é possível identificar uma falta de ajuste do modelo para alguns dados. Muito dessafalta de ajuste se deve ao fato de todas as covariáveis serem categóricas.

A distância de Cook mede a influência da observação i sobre todos n valores ajustados Yi. A figura 3 nãoapresenta nenhuma observação com Di > 1, logo não temos medidas influentes.

7

Page 8: Classificarseumaespéciedecogumeloécomestívelou venenosataconeli/CE22519/Grupo2.pdf · Vale ressaltar que em seu livro G.H.Lincoff a rma que não existe uma regra de nida para

−4 −2 0 2 4

−4

−2

02

Percentil da N(0,1)

Res

íduo

s

Gráfico Normal de Probabilidades

Figure 2: Envelope Simulado

0.00

00.

004

0.00

80.

012

Coo

k's

dist

ance

0 2000 4000 6000 8000

75717780

Distância de Cook

Index

Figure 3: Distância de Cook

8

Page 9: Classificarseumaespéciedecogumeloécomestívelou venenosataconeli/CE22519/Grupo2.pdf · Vale ressaltar que em seu livro G.H.Lincoff a rma que não existe uma regra de nida para

4 Conclusão

Conclui-se que o modelo cumpriu o seu papel como um primeiro passo para a criação de um modelo declassificação de cogumelos. Mas o uso de um GLM Binomial mostrou algumas limitações. Para trabalhosfuturos recomenda-se algumas outras abordagens, como uma arvore de decisão devido a natureza categóricadas covariáveis. O mesmo já foi testado em sites como o Kaggle e tem demonstrado um bons resultados.

5 Apêndice

Table 4: Resumo das Estimativas para o Modelo Ajustado

Coeficiente Estimativa E..Erro.Padrão Estatística.Z Pr. . . Z.(Intercept) -22.7040 3440.0662 -0.007 0.994734gill_colorbrown -0.2238 0.3160 -0.708 0.478812gill_colorbuff 100.0768 2549.6053 0.039 0.968690gill_colorchocolate 0.2799 0.3713 0.754 0.450937gill_colorgray 1.6601 0.4835 3.433 0.000596gill_colorgreen 21.6436 14060.0703 0.002 0.998772gill_colororange 10.6762 8875.7693 0.001 0.999040gill_colorpink 0.0746 0.3084 0.242 0.808854gill_colorpurple -0.3731 0.3905 -0.955 0.339329gill_colorred -4.4428 5300.5993 -0.001 0.999331gill_colorwhite -0.2527 0.3330 -0.759 0.447930gill_coloryellow 1.5622 83451.5213 0.000 0.999985stalk_surface_below_ringscaly 59.3216 1241.5581 0.048 0.961892stalk_surface_below_ringsilky 60.1124 1241.5579 0.048 0.961384stalk_surface_below_ringsmooth 0.7124 0.2667 2.671 0.007553stalk_rootclub -28.1687 3732.8217 -0.008 0.993979stalk_rootequal 0.3603 0.2411 1.494 0.135059stalk_rootmissing -58.6656 1241.5577 -0.047 0.962313stalk_rootrooted -83.8787 4766.9091 -0.018 0.985961cap_colorbuff 18.8426 641.4397 0.029 0.976565cap_colorcinnamon -29.0297 31950.2644 -0.001 0.999275cap_colorgray 0.3599 0.1966 1.831 0.067091cap_colorgreen 36.2923 17090.0394 0.002 0.998306cap_colorpink 7.2607 0.6778 10.712 0.000000cap_colorpurple 36.2923 17090.0394 0.002 0.998306cap_colorred -19.6551 1745.7653 -0.011 0.991017cap_colorwhite 2.5398 0.2407 10.549 0.000000cap_coloryellow 3.7484 0.5993 6.254 0.000000populationclustered 43.4369 3541.8874 0.012 0.990215populationnumerous 1.0673 4281.0777 0.000 0.999801populationscattered 21.5902 3440.0661 0.006 0.994992populationseveral 20.2551 3440.0662 0.006 0.995302populationsolitary -36.7902 3657.2560 -0.010 0.991974gill_spacingcrowded -6.7898 0.3995 -16.997 0.000000cap_surfacegrooves 8.0293 32239.2286 0.000 0.999801cap_surfacescaly 0.7416 0.2058 3.603 0.000314cap_surfacesmooth 2.9043 0.2412 12.041 0.000000cap_shapeconical 5.8945 29305.6119 0.000 0.999840cap_shapeconvex 1.8160 0.5454 3.330 0.000869

9

Page 10: Classificarseumaespéciedecogumeloécomestívelou venenosataconeli/CE22519/Grupo2.pdf · Vale ressaltar que em seu livro G.H.Lincoff a rma que não existe uma regra de nida para

Coeficiente Estimativa E..Erro.Padrão Estatística.Z Pr. . . Z.cap_shapeflat 1.1811 0.5503 2.146 0.031862cap_shapeknobbed -0.7032 0.7442 -0.945 0.344698cap_shapesunken -22.0623 11848.3418 -0.002 0.998514bruisesyes -2.0076 0.3537 -5.675 0.000000

10