parte 2 – explorando os dados - ufprtaconeli/ce071/aula2.pdf · merc 280 19.2 6 167.6 123 3.92...
TRANSCRIPT
1
Parte 2 – Explorando os dados
2
• O uso adequado de gráficos é fundamental em qualquer análise estatística, possibilitando o conhecimento
inicial de dados e direcionando as análises posteriores;
• Em análise de regressão, o uso de gráficos pode auxiliar na especificação de uma função de regressão
apropriada, no diagnóstico do modelo e na identificação de medidas corretivas para modelos mal ajustados.
• Na sequência são relacionados alguns gráficos importantes. Para fins de ilustração, será usado o banco de
dados mtcars do R.
3
• Dados de 32 modelos de automóveis norte-americanos. Dentre as variáveis consideradas, destacamos:
o mpg: Consumo de combustível (em milhas por galão);
o hp: Potência do motor (em cavalos);
o wt: Peso do carro (em libras);
o carb: Número de carburadores.
mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160.0 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160.0 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108.0 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258.0 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360.0 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225.0 105 2.76 3.460 20.22 1 0 3 1
Duster 360 14.3 8 360.0 245 3.21 3.570 15.84 0 0 3 4
Merc 240D 24.4 4 146.7 62 3.69 3.190 20.00 1 0 4 2
Merc 230 22.8 4 140.8 95 3.92 3.150 22.90 1 0 4 2
Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4
• Para mais detalhes sobre os dados, bater help(“mtcars”) no R.
4
Gráficos para uma variável
1- Histograma – Gráfico de barras justapostas utilizado para avaliar a distribuição de variáveis numéricas.
Exemplo 1 – Consumo de combustível (em milhas por galão) de 32 modelos de automóveis norte-americanos.
Nota – Repare, na Figura 1, que o histograma (e, consequentemente sua interpretação) é afetado pelo número
de categorias consideradas. A escolha dos valores iniciais e finais do gráfico também o altera. Deve-se tomar
cuidado com tais especificações.
No R: Função hist.
5
a
Consumo (mpg)
Fre
quência
10 20 30 40
0
5
10
15
20
b
Consumo (mpg)
Fre
quência
10 15 20 25 30 35
0
2
4
6
8
10
12
c
Consumo (mpg)
Fre
quência
10 15 20 25 30
0
1
2
3
4
5
6
7
Figura 1 - Histogramas para os consumos de combustível de 36 modelos de carros norte-americanos com os
dados agrupados em três (a), cinco (b) e dez (c) categorias.
6
2- Gráfico do estimador não paramétrico da função densidade – Consiste numa curva que estima a
distribuição da variável com base nos dados.
� Estimadores não paramétricos podem ser empregados, como alternativa (ou complemento) ao
histograma, na obtenção de uma representação ‘suavizada’ da distribuição dos dados.
� Um dos métodos disponíveis para a estimação da função densidade é o método kernel. A estimativa
da densidade para algum valor real x de uma variável de interesse, com base em n observações
nxxx ,...,, 21 , é dado por:
( ) ∑=
−=
n
i
i
h
xxK
nhxf
1
1ˆ ,
onde:
a. )(K é a função kernel, geralmente uma função simétrica, unimodal e que integra 1 (pode ser a
densidade normal, por exemplo);
7
b. h (chamado comprimento de banda) é o parâmetro que define o grau de suavização da densidade
estimada (quanto maior o valor de h , mais suave – e mais viciada – é a estimativa obtida).
� Alguns exemplos de kernel:
1) Uniforme: ( ) { }12
1≤= uIuK ;
2) Triangular: ( ) ( ) { }11 ≤−= uIuuK ;
3) Epanechnikov: ( ) ( ) { }121
4
3≤−= uIuuK ;
4) Biweight: ( ) ( ) { }1
22116
15≤−= uIuuK ;
5) Triweight: ( ) ( ) { }1
32132
35≤−= uIuuK ;
6) Gaussianno: ( ) 2
2
2
1u
euK−
=π
;
7) Cosseno: ( ) { }12cos
4 ≤
= uIuuK
ππ.
8
Figura 2 – Gráficos de sete funções kernel (fonte: Wikipédia).
9
� Repare, pela definição do método, que a densidade estimada num valor real x será a soma dos valores
produzidos pela função kernel para x considerando cada uma das observações na amostra.
� Assim, quanto mais observações próximas a x , maiores os “pesos” a serem somados e,
consequentemente, maior a densidade estimada.
� A escolha do kernel determina a forma como serão distribuídos os pesos em torno das observações
amostrais.
10
Figura 3 – Ilustração do método kernel (fonte: internet).
No R: Função density.
Exemplo 2 – Consumo de combustível de 36 modelos de automóveis norte-americanos.
11
10 20 30 40
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
Gaussiano
N = 32 Bandwidth = 2.477
Density
10 20 30 40
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
Triangular
N = 32 Bandwidth = 2.477
Density
10 20 30 40
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
Cosseno
N = 32 Bandwidth = 2.477
Density
10 20 30 40
0.00
0.02
0.04
0.06
Uniforme
N = 32 Bandwidth = 2.477
Density
Figura 4 – Densidades estimadas pelo método kernel para os consumos de combustível para quatro funções
kernel distintas (fixando o tamanho da banda).
12
10 15 20 25 30 35
0.00
0.02
0.04
0.06
0.08
0.10
0.12
N = 32 Bandwidth = 0.5
Density
10 15 20 25 30 35
0.00
0.02
0.04
0.06
0.08
N = 32 Bandwidth = 1
Density
5 10 15 20 25 30 35 40
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
N = 32 Bandwidth = 2
Density
0 10 20 30 40 50
0.00
0.01
0.02
0.03
0.04
0.05
N = 32 Bandwidth = 5D
ensity
Figura 5 – Densidades estimadas pelo método kernel para os consumos de combustível para quatro tamanhos de
banda distintos (usando kernel gaussiano).
13
Consumo (mpg)
Densid
ade
10 15 20 25 30 35
0.00
0.02
0.04
0.06
0.08
Figura 6 – Histograma e função densidade estimada com kernel gaussiano (as marcações sobre o eixo horizontal
indicam os consumos observados na amostra).
14
3- Boxplot – Representação gráfica do resumo dos cinco números (mínimo, máximo, 1º quartil, 3º quartil e
mediana).
Nota 1 – O ésimop − quantil de uma amostra corresponde ao ésimok − maior valor amostral, tal que
( )1+= npk (se k não for inteiro, deve-se usar interpolação).
Exemplo – Para os dados apresentados na sequência:
11 16 23 31 36 39 41 43 44 48
Obtenha os quartis (quantis 0,25; 0,50 e 0,75), além dos quantis 0,1 e 0,85.
Nota 2 – Quantis populacionais, por sua vez, são determinados a partir da distribuição da variável de interesse.
Assim, para uma variável aleatória Y , o ésimop − quantil é definido por py que satisfaz ( ) pyYP p =≤ e
( ) pyYP p −=> 1 .
15
x
f(x)
p0.01 p0.05 p0.25 p0.5 p0.75 p0.95 p0.99
x
f(x)
p0.0
1p
0.0
5
p0.2
5
p0.5
p0.7
5
p0.9
5
Figura – Ilustração de quantis populacionais para uma distribuição simétrica (Normal) e outra assimétrica
(lognormal).
16
Exemplo – Para a variável aleatória Y , com distribuição definida pela função densidade de probabilidade:
( ) ( )
≤<−=
contráriocaso
xxxf
,0
10,12
3 2
Obtenha os quartis (quantis 0,25; 0,50 e 0,75), além dos quantis 0,1 e 0,85.
� Boxplots são úteis para avaliar diferentes características da distribuição, como locação, centralidade,
dispersão e presença de outliers.
17
Mínimo
p0.25
p0.5
p0.75
Máximo
Figura 7 – Representação genérica de um box-plot.
18
Nota – A linha que se estende a partir do 3º quartil ( 75,0p ) alcança a maior observação que não esteja a uma
distância superior a 1,5( 25,075,0 pp − ). A partir daí, as observações são representadas por pontos, indicando
outliers (o mesmo vale abaixo do 1º quartil ( 25,0p ).
No R – Função boxplot.
Exemplo 3 – Consumos de combustível de 32 modelos de automóveis norte-americanos.
19
10
15
20
25
30
Consum
o (m
pg)
Figura 8 – Boxplot para os consumos de combustível de 32 modelos de automóveis norte-americanos.
20
4- Gráficos quantil-quantil (ou gráficos probabilísticos)– Utilizados para se avaliar a aderência da
distribuição amostral a alguma distribuição teórica, plotando-se, num gráfico de dispersão, os quantis da
primeira versus os quantis da segunda.
� Num gráfico quantil-quantil, quanto mais os pontos se aproximarem da reta identidade, maior a
aderência da distribuição amostral à distribuição teórica.
� Gráficos quantil-quantil são frequentemente utilizados para avaliar a aderência à distribuição Normal.
21
Procedimento:
1- Ordenar os dados amostrais ( nxxx ,...,, 21 ) do menor ao maior, resultando num conjunto de estatísticas de
ordem, denotadas por ( ) ( ) ( )nxxx ,...,, 21 ;
2- Calcular a proporção acumulada de dados “abaixo” de ( )ix por:
.,...,2,1,2
1
nin
i
Pi =
−
=
3- Usar a inversa da distribuição teórica proposta para obter o quantil iz correspondente a cada valor de iP
obtido no passo 2, ni ,...,2,1= ;
22
4- Plotar, num diagrama de dispersão, ( )ix vs iz . Se a amostra de fato foi gerada pela distribuição teórica
proposta, então ( ) ii zx ≈ , e os pontos oscilarão aleatoriamente em torno da reta identidade.
Notas:
I. Se as distribuições forem idênticas, exceto pela locação, então o gráfico será aproximadamente linear de
forma que ( ) ii zx +≈ µ . Se as distribuições diferem em locação e escala, mas tem a mesma forma, então
( ) ii zx σµ +≈ .
II. A representação da reta identidade (ou da reta apropriada, se as duas distribuições tiverem locações
distintas), ajuda a visualizar a aderência da distribuição amostral à distribuição teórica.
23
5- Uma forma de acomodar a aleatoriedade dos dados é acrescentar ao gráfico quantil-quantil bandas
(envelopes) de confiança. As bandas de (aproximadamente) 95% de confiança podem ser obtidas
calculando, para cada i :
( ) ( )( )
n
PP
zpx ii
i
i
−×±
1ˆ2ˆ
σ,
sendo ( )izp a função densidade de probabilidade correspondente a ( )izP e unindo os valores obtidos.
No R: Funções qqPlot (pacote car) e qnorm.
Exemplo 4 – Consumos de combustível de 32 modelos de automóveis norte-americanos.
24
-2 -1 0 1 2
10
15
20
25
30
Quantis - Normal
Quantis
am
ostrais
10 15 20 25 30 35
10
15
20
25
30
Quantis - Gamma
Quantis
am
ostrais
Figura 9 – Gráficos quantil-quantil (ou probabilísticos) Normal e Gama para os consumos de combustível
de 32 modelos de automóveis norte-americanos.
25
Exemplo 5 – Vamos simular 100 observações independentes de cada uma das três distribuições:
o Amostra 1 - ( )2,10 == σµNormal ;
o Amostra 2 - 22χ (qui-quadrado com dois graus de liberdade);
o Amostra 3 - 2t (t-Student com dois graus de liberdade).
o Avalie cada um dos gráficos quantil-quantil apresentados na sequência, em particular os gráficos
baseados na distribuição Normal para as amostras 2 e 3. Identifique, respectivamente, a disposição
dos pontos nas formas de ‘U’ e ‘S’ e tente explicá-las.
26
-2 -1 0 1 2
0
5
10
15
20
Quantis - Normal
Quantis
- A
mostra 1
-2 -1 0 1 2
0
2
4
6
8
10
Quantis - Normal
Quantis
- A
mostra 2
-2 -1 0 1 2
-10
-5
0
5
10
Quantis - Normal
Quantis
- A
mostra 3
Figura 10 – Gráficos probabilísticos normal para as três amostras simuladas.
27
-2 -1 0 1 2
0
5
10
15
20
Quantis - Normal
Quantis
- A
mostra 1
0 2 4 6 8 10
0
2
4
6
8
10
Quantis - chi (df=2))
Quantis
- A
mostra 2
-10 -5 0 5 10
-10
-5
0
5
10
Quantis - t (df=2))
Quantis
- A
mostra 3
Figura 11 – Gráficos probabilísticos para as três amostras simuladas considerando as distribuições teóricas
usadas na simulação.
28
Gráficos para duas variáveis
• Gráfico de dispersão – É a representação geométrica dos valores de duas variáveis numéricas.
No R: Função plot.
o Um recurso bastante útil para melhor visualizar a relação entre duas variáveis num gráfico de dispersão é
acrescentar ao gráfico o ajuste de uma regressão não paramétrica entre as variáveis, por meio do ajuste
de polinômios locais (trataremos disso com mais detalhes adiante).
No R: Funções lowess ou loess. A função scatterplot, do pacote car, produz o gráfico de dispersão
já com a regressão não paramétrica ajustada (além de outros recursos).
Exemplo 6 – Gráficos de dispersão de consumo versus peso e potência versus peso para os dados de 32
modelos de automóveis norte-americanos.
29
1 2 3 4 5 6
10
15
20
25
30
Peso (x1000 lb)
Consum
o(m
pg)
Cadillac FleetwoodLincoln Continental
Chrysler Imperial
Fiat 128
Toyota Corolla
1 2 3 4 5 6
50
100
150
200
250
300
Peso (x1000 lb)
Potê
ncia
Cadillac Fleetwood
Lincoln Continental
Chrysler Imperial
Honda Civic
Lotus Europa
Maserati Bora
Figura 12 - Gráficos de dispersão de consumo versus peso e potência versus peso para os dados de 32 modelos
de automóveis norte-americanos.
30
2 3 4 5
10
15
20
25
30
Peso (lb)
Consum
o
Figura 13 - Gráfico de dispersão de consumo versus peso para os dados de 32 modelos de automóveis norte-
americanos usando a função scatterplot, do pacote car.
31
• Boxplot –boxplots permitem comparar a distribuição de alguma variável quantitativa de interesse para
diferentes níveis de alguma variável qualitativa, ou categorizada (ex: Índice de massa corporal por sexo;
Engorda de bovinos por tipo de dieta; Tempo até o efeito por tipo de medicação...).
• Gráficos de média ± desvio padrão – Alternativa ao boxplot. Representação gráfica da média, para cada
resultado da variável qualitativa, com linhas estendidas verticalmente, com comprimento de 1 desvio
padrão.
Nota – Essa representação é apropriada quando a variável sob estudo tem distribuição Normal. Além disso,
uma extensão desse gráfico é o gráfico de média ± 2 erros padrões da média, o que permite representar
intervalos de (aproximadamente) 95% de confiança.
Exemplo 7 – Comparação dos pesos de 71 frangos segundo o tipo de dieta fornecida (para mais detalhes,
bater ?chickwts no R.
32
casein horsebean linseed meatmeal soybean sunflower
100
150
200
250
300
350
400
Tipo de dieta
Peso n
a s
exta
sem
ana (gra
mas)
Figura 14 – Boxplots para os pesos de 71 frangos segundo o tipo de dieta.
33
100
150
200
250
300
350
400
Tipo de dieta
Peso d
os fra
ngos (g)
horsebean linseed soybean sunflower meatmeal casein
Figura 15 – Gráficos de média ± desvio padrão para os pesos de 71 frangos segundo o tipo de dieta.
34
Exemplo 8 – Consumo de combustível versus número de carburadores para 32 modelos de automóveis norte-
americanos.
1 2 3 4 ou mais
10
15
20
25
30
Número de carburadores
Consum
o(m
pg)
Figura 16 – Consumo de combustível versus número de carburadores para 32 modelos de automóveis norte-americanos.
35
Gráficos para múltiplas variáveis
Nota – Diversos gráficos para múltiplas variáveis, semelhantes ou diferentes daqueles apresentados na
sequência, estão disponíveis em pacotes do R como o lattice e o gplot, por exemplo.
1- Matriz de gráficos de dispersão – Representação, numa única figura, dos gráficos de dispersão bivariados
para cada par de variáveis.
No R: Função plot ou scatterplotMatrix (pacote car).
Exemplo 9 – Matriz de gráficos de dispersão para as variáveis consumo, tempo, potência e peso para os 32
modelos de automóveis norte-americanos.
36
Consumo
16 18 20 22 2 3 4 5
10
15
20
25
30
16
18
20
22 Tempo
Potência
50
100
150
200
250
300
10 15 20 25 30
2
3
4
5
50 100 150 200 250 300
Peso
Figura 17 – Matriz de gráficos de dispersão para o consumo de combustível, tempo até percorrer 0,25 milha,
potência e peso de 32 modelos de automóveis norte-americanos.
37
2- Gráficos de dispersão condicionais (coplot) – Permitem avaliar a relação entre a variável resposta e uma
particular variável explicativa em grupos, formados por uma segunda variável explicativa.
No R: Função xyplot (pacote lattice).
Exemplo 10 – Dados de um experimento com 125 moscas divididas aleatoriamente em 5 grupos de 25 cada,
sendo que os grupos foram submetidos às seguintes condições:
Grupo 1 (isolated) – Moscas solitárias;
Grupo 2 (low)– Mantidos individualmente com uma fêmea não grávida por dia;
Grupo 3 (high)– Mantidos individualmente com oito fêmeas não grávidas por dia;
Grupo 4 (one)– Mantidos individualmente com uma fêmea grávida por dia;
Grupo 5 (many)– Mantidos individualmente com oito fêmeas grávidas por dia;
� A variável resposta é o tempo de vida Adicionalmente, mediu-se o tamanho do tórax de cada macho,
pois se sabe que tal medida está relacionada à longevidade das moscas.
38
Tamanho do tórax
Longevid
ade
20
40
60
80
100
0.65 0.70 0.75 0.80 0.85 0.90 0.95
isolated one
0.65 0.70 0.75 0.80 0.85 0.90 0.95
low
many
0.65 0.70 0.75 0.80 0.85 0.90 0.95
20
40
60
80
100
high
Figura 18 – Gráficos de dispersão para longevidade versus tamanho do tórax segundo o tratamento em um
experimento envolvendo 125 moscas.
39
Gráficos de dispersão tridimensionais
• Visualizar a dispersão dos dados com relação a três variáveis, conjuntamente;
• O uso de funções com recursos interativos permite melhor visualização.
No R: Função scatterplot3d (pacote scatterplot3d), função scatter3d (pacote car). Ver também
pacotes lattice e rggobi.
Exemplo 11 – Gráfico de dispersão tridimensional
40
50 100 150 200 250 300 350
10
15
20
25
30
35
1
2
3
4
5
6
Potência
Peso
Consum
o
Figura 19 – Gráfico de dispersão tridimensional para o consumo, peso e potência de
32 modelos de carros norte-americanos.
41
Trabalho 2
Os alunos, divididos em duplas, deverão pesquisar uma base de dados (disponível no R, em algum outro
software, em algum repositório online...) que contenha múltiplas variáveis (sendo ao menos duas delas
quantitativas). Utilizando a base escolhida, deverão produzir um relatório (com seis a oito páginas, além da capa,
conforme sugerido no trabalho 1), o qual deverá conter:
• A descrição da base e das variáveis contidas. Havendo informações sobre o estudo e seus objetivos,
apresentá-las;
• A análise descritiva dos dados, utilizando gráficos para uma, duas ou múltiplas variáveis. Medidas resumo
pertinentes também podem ser apresentadas.
Exemplo – Construa (passo a passo, sem utilizar funções específicas do R ou de outro software) um gráfico
quantil-quantil para avaliar a aderência da amostra à distribuição )5,100( == σµNormal .
42
99 105 97 103 93