mae0317 - planejamento e pesquisa i
TRANSCRIPT
MAE0317 - Planejamento e Pesquisa I
ANALISE DE DIAGNOSTICO - ANOVA
24 de abril de 2014
Denise A. Botter MAE0317 24 de abril de 2014 1 / 33
INTRODUCAO
Sequencia de passos no ajuste um modelo estatıstico:
Definicao e ajuste do modelo escolhido
Diagnostico do modelo ajustado, visando validar suposicoes
Se o modelo nao e apropriado, adote medidas como transformacoesou modifique o modelo para que as suposicoes se tornem validas
Realize inferencias no modelo bem ajustado
Nosso objetivo e verificar se as suposicoes levantadas na especificacao domodelo de ANOVA sao validas apos o ajuste do modelo.
Denise A. Botter MAE0317 24 de abril de 2014 2 / 33
ANALISE DE RESIDUOS
Consideremos o modelo de Anova
yij = µi + eij
para o qual levantamos a
eij ∼ N(0, σ2), independentes,
i = 1, . . . , r e j = 1, . . . , ni.
Denise A. Botter MAE0317 24 de abril de 2014 3 / 33
Definimos os seguintes resıduos:
Resıduo observado: eij = yij − yij = yij − yi.
Resıduo studentizado: rij =eij√
var(eij),
sendo var(eij) =QMR(ni − 1)
ni
Denise A. Botter MAE0317 24 de abril de 2014 4 / 33
Graficos de resıduos
Os seguintes graficos de resıduos podem ser construıdos:
Resıduos versus Valores ajustados: verificacao da homocedasticidadedos erros aleatorios; os resıduos devem distribuir-se aleatoriamente aoredor do valor zero seguindo o mesmo padrao aproximadamente paracada nıvel do fator (mesma amplitude). Este grafico tambem podeser utilizado para verificar a omissao de variaveis independentesimportantes
Resıduos versus Sequencia em que as observacoes foram obtidas:verificacao da independencia entre os erros aleatorios; os resıduosdevem distribuir-se aleatoriamente ao redor do valor zero
Grafico de probabilidade normal dos resıduos: verificacao danormalidade dos erros aleatorios; aspecto do grafico deve seraproximadamente linear
Grafico das distancias de Cook versus Sequencia em que asobservacoes foram obtidas: deteccao de pontos influentes
Denise A. Botter MAE0317 24 de abril de 2014 5 / 33
EXEMPLO - Tecnicas de Limpeza
22 23 24 25 26
-2-1
01
23
Valores ajustados
Re
síd
uo
s S
tud
en
tiza
do
sResíduos studentizados vs Valores ajustados
Grafico 1. Dispersao de Y por tratamento
A variabilidade de Y por tratamento parece constante.
Denise A. Botter MAE0317 24 de abril de 2014 6 / 33
EXEMPLO - Tecnicas de Limpeza
-2 -1 0 1 2
-2-1
01
23
Quantis teóricos
Re
síd
uo
s S
tud
en
tiza
do
sGráfico de probabilidade normal
Grafico 2. Dispersao de Y por tratamento
Denise A. Botter MAE0317 24 de abril de 2014 7 / 33
Testes de hipoteses para verificacao da suposicao denormalidade
Os seguintes testes podem ser aplicados:
Teste qui-quadrado
Teste de Kolmogorov-Smirnov
Teste de Lilliefors
Teste de Shapiro-Wilk
Teste de Anderson-Darling
Denise A. Botter MAE0317 24 de abril de 2014 8 / 33
Testes de hipoteses para verificacao da suposicao dehomocedasticidade
Os seguintes testes podem ser aplicados:
Teste de Bartlett: supoe normalidade para os erros aleatorios, requerni ≥ 5, i = 1, . . . , r, ni’s podem ser diferentes
Teste de Brown-Forsythe: nao requer normalidade para os errosaleatorios, n =
∑ni deve ser relativamente grande, i = 1, . . . , r, ni’s
podem ser diferentes
Denise A. Botter MAE0317 24 de abril de 2014 9 / 33
Teste de Bartlett
Consideremos r populacoes normais. De cada populacao obtemos umaamostra aleatoria de tamanho ni, i = 1, . . . , r.
Para testar H0 : σ21 = . . . = σ2
r versus H1 : os σ2i nao sao todos iguais,
calculamos a estatıstica
B =(n− r)ln(QMR)−
∑ri=1(ni − 1)ln(s2
i )
1 + 13(r−1)
[∑ri=1
(1
ni−1
)−(
1n−r
)] ,
sendo s2i , a variancia amostral das observacoes sob o tratamento i.
Sob H0,B ∼ χ2
r−1.
Valores grandes de B indicam a rejeicao de H0.
Denise A. Botter MAE0317 24 de abril de 2014 10 / 33
Teste de Brown-Forsythe
Calcular dij = |yij − yi.|, sendo yi. a mediana das observacoes sob oi-esimo tratamento, i = 1, . . . , r.
Se as r variancias σ2i sao iguais, temos que E(dij) sao iguais; se as
variancias σ2i sao diferentes, entao E(dij) nao sao iguais; a estatıstica de
teste e a estatıstica F ∗ para testar a igualdade das r medias populacionais,mas baseada nos desvios dij .
Assim, para testar H0 : σ21 = . . . = σ2
r versus H1 : os σ2i nao sao todos
iguais, calculamos a estatıstica
F ∗BF =QMTrat
QMR,
sendo
QMTrat =
∑ri=1 ni(di. − d..)2
r − 1,
Denise A. Botter MAE0317 24 de abril de 2014 11 / 33
Teste de Brown-Forsythe
QMR =
∑ri=1
∑nij=1(dij − di.)2
n− r
di. =
ni∑j=1
dij/ni
e
d.. =
r∑i=1
ni∑j=1
dij/n.
Sob H0,F ∗ ∼ F[r−1,n−r],
aproximadamente. Valores grandes de F ∗ indicam a rejeicao de H0.
Denise A. Botter MAE0317 24 de abril de 2014 12 / 33
Exemplo
Um experimento foi realizado com o objetivo de comparar 5 tipos de soldautilizadas na soldagem de juntas de circuitos eletricos. 40 circuitoseletricos foram selecionados aleatoriamente. Cada tipo de solda foidesignada ao acaso para ser utilizada em 8 dos 40 circuitos eletricos. Apos4 semanas de aplicacao da solda, os 40 circuitos foram testados e foiavaliada a forca (Y ), em pounds, para romper certa junta do circuito. Osdados seguem na Tabela 1.
Denise A. Botter MAE0317 24 de abril de 2014 13 / 33
Tabela 1. Forca (em pounds).
Solda I Solda II Solda III Solda IV Solda V14,87 18,43 16,95 8,59 11,5516,81 18,76 12,28 10,90 13,3615,83 20,12 12,00 8,60 13,6415,47 19,11 13,18 10,13 12,1613,60 19,81 14,99 10,28 11,6214,76 18,43 15,76 9,98 12,3917,40 17,16 19,35 9,41 12,0514,62 16,40 15,52 10,04 11,95
y1. = 15, 420 y2. = 18, 528 y3. = 15, 004 y4. = 9, 741 y5. = 12, 340y1. = 15, 170 y2. = 18, 595 y3. = 15, 255 y4. = 10, 010 y5. = 12, 105s21 = 1, 531 s22 = 1, 570 s23 = 6, 183 s24 = 0, 667 s25 = 0, 592n1 = 8 n2 = 8 n3 = 8 n4 = 8 n5 = 8
Denise A. Botter MAE0317 24 de abril de 2014 14 / 33
EXEMPLO
I II III IV V
1014
18
For
ca
Grafico 3. Dispersao de Y por tratamento
A variabilidade de Y por Tipo de Solda nao parece constante.
Denise A. Botter MAE0317 24 de abril de 2014 15 / 33
EXEMPLO
Tabela 2. Tabela de ANOVA.
FV gl SQ QM F valor P
Solda 4 353,61 88,403 41,926 < 0, 001Resıduo 35 73,80 2,109
Total 39 427,41
Denise A. Botter MAE0317 24 de abril de 2014 16 / 33
EXEMPLO
10 12 14 16 18
-2-1
01
23
Valores ajustados
Re
síd
uo
s S
tud
en
tiza
do
sResíduos studentizados vs Valores ajustados
Grafico 4. Graficos de resıduosA suposicao de homocedasticidade
nao parece satisfeita. Ha um ponto influente.
Denise A. Botter MAE0317 24 de abril de 2014 17 / 33
EXEMPLO - Teste de Brown-Forsythe
Tabela 3. Tabela de ANOVA para os Desvios absolutos ao redor damediana.
FV gl SQ QM F valor P
Solda 4 9,3477 2,33693 2,9358 0, 03414Resıduo 35 27,8606 0,79602
Total 39 37,2083
Ao nıvel de 5% de significancia, rejeitamos a hipotese dehomocedasticidade.
Denise A. Botter MAE0317 24 de abril de 2014 18 / 33
EXEMPLO - Grafico de Probabilidade Normal
Na presenca de heterocedasticidade, definimos o seguinte Resıduo
Studentizado: rij =eij√
s2i (ni − 1)
ni
,
420-2
99
95
90
80
70
60
50
40
30
20
10
5
1
3,01,50,0-1,5-3,0
99
95
90
80
70
60
50
40
30
20
10
5
1
resstud
%
resstudmMean -1,95677E-16
StDev 1,013
N 40
AD 0,333
P-Value 0,502
resstud
Mean -4,24660E-16
StDev 1,013
N 40
AD 0,259
P-Value 0,698
resstudm
Grafico 5. Graficos de probabilidade normal:Resıduos Studentizados e Studentizados Modificados
Denise A. Botter MAE0317 24 de abril de 2014 19 / 33
Medidas para remediar a violacao das suposicoes
1. Normalidade e Heterocedasticidade: Mınimos quadradosponderados
2. Nao normalidade e Heterocedasticidade: Transformacao da variavelresposta ou Procurar outro modelo
3. Nao normalidade e Homocedasticidade: Testes nao parametricos
4. Erros aleatorios nao independentes: Procurar outro modelo
5. Para o modelo de Anova com um fator fixo, a falta de normalidade so eimportante se for excessiva.
6. O efeito da desigualdade entre as variancias sobre o teste F deigualdade de medias pode ser minimizado utilizando-se amostras detamanhos iguais ou proximos.
Denise A. Botter MAE0317 24 de abril de 2014 20 / 33
Mınimos Quadrados Ponderados
Modelo: yij = µi + eij ,sendo eij ∼ N(0, σ2
i ), independentes, i = 1, . . . , r e j = 1, . . . , ni.
Como σ2i e desconhecido, consideramos sua estimativa amostral s2
i ,i = 1, . . . , r.
Consideramos tambem o seguinte peso para a j-esima observacao doi-esimo nıvel do fator, wij = 1/s2
i .
Queremos testar H0 : µ1 = . . . = µr = µ.
Construımos dois modelos, um Completo ou Irrestrito (r parametros,µ1, . . . , µr) e outro Reduzido sob H0 (1 parametro, µ)
Ajustamos os dois modelos, obtendo β = (X>WX)−1X>WY, sendo
Denise A. Botter MAE0317 24 de abril de 2014 21 / 33
Mınimos Quadrados Ponderados
Yn×1
=
y11y12
...y1n1y21y22
...y2n2
...yr1yr2
...yrnr
o vetor de observacoes,
Denise A. Botter MAE0317 24 de abril de 2014 22 / 33
Mınimos Quadrados Ponderados
Xn×r
=
1 0 . . . 01 0 . . . 0...
.... . .
...1 0 . . . 00 1 . . . 00 1 . . . 0...
.... . .
...0 1 . . . 0...
.... . .
...0 0 . . . 10 0 . . . 1...
.... . .
...0 0 . . . 1
no modelo Completo,
Denise A. Botter MAE0317 24 de abril de 2014 23 / 33
Mınimos Quadrados Ponderados
Xn×1
=
11...11
no modelo Reduzido,
βr×1
=
µ1
µ2...µr
no modelo Completo, β
1×1= µ, no modelo Reduzido e
Denise A. Botter MAE0317 24 de abril de 2014 24 / 33
Mınimos Quadrados Ponderados
Wn×n
=
1/s2
1 0 . . . 0 00 1/s2
1 . . . 0 0...
.... . .
......
0 0 . . . 1/s2r 0
0 0 . . . 0 1/s2r
a matriz diagonal de pesos (para os dois modelos).
Denise A. Botter MAE0317 24 de abril de 2014 25 / 33
Mınimos Quadrados Ponderados
Das tabelas de ANOVA dos dois modelos de regressao, extraımos as somasde quadrados dos resıduos, SQRP (C) e SQRP (R), correspondentes aosmodelos Completo e Reduzido, respectivamente.
Finalmente, calculamos a estatıstica
F ∗P =SQRP (R)− SQRP (C)
r − 1/SQRP (C)
n− r,
que, sob H0, tem distribuicao F[r − 1, n− r], aproximadamente. Quandoos ni’s sao grandes a aproximacao e boa.
Exemplo. Componentes eletronicos
Temos: w1j = 1/1, 531 = 0, 653, w2j = 1/1, 570 = 0, 637,w3j = 1/6, 183 = 0, 162, w4j = 1/0, 667 = 1, 499,w5j = 1/0, 592 = 1, 689 e
Denise A. Botter MAE0317 24 de abril de 2014 26 / 33
Mınimos Quadrados Ponderados
F ∗P =359, 2− 35, 0
4/
35, 0
35= 81, 05,
o que nos leva a rejeitar a hipotese nula H0 : µ1 = . . . = µ5, ao nıvel de1% de significancia.
O diagnostico do modelo Completo e intervalos de confianca para µipodem ser construıdos com base em resultados apresentados no Capıtulo11 de Kutner et al, (2004).
Observacoes.1) No modelo de mınimos quadrados ponderados, µi = yi.2) Quando wij = 1/s2
i , SQRP (C) = n− r.3) O metodo de mınimos quadrados ponderados esta implementado emalguns pacotes computacionais.
Denise A. Botter MAE0317 24 de abril de 2014 27 / 33
Transformacoes para a Variavel Resposta
Dependendo da relacao funcional existente entre a media e a variancia davariavel resposta sob os diferentes tratamentos, podemos realizar umatransformacao na variavel resposta de forma a estabilizar a variancia (e,em muitos casos, obter distribuicao normal para a variavel transformada).As transformacoes que seguem foram obtidas por meio de consideracoesteoricas (ver, por exemplo, Siqueira, A. L., 1983, Dissertacao de Mestrado,IME/USP).
Algumas Transformacoes
Variancia (σ2i ) e proporcional a media (µi). A variancia amostral (s2
i )tende a ser proporcional a media amostral (yi.). Ocorre em geral quando avariavel resposta Y e uma contagem. Transformacao: Z =
√Y ou
Z =√Y +
√Y + 1.
Denise A. Botter MAE0317 24 de abril de 2014 28 / 33
Transformacoes para a Variavel Resposta
Desvio padrao (σi) e proporcional a media (µi). O desvio padraoamostral (si) tende a ser proporcional a media amostral (yi.).Transformacao: Z = log10Y ou Z = lnY .
Desvio padrao (σi) e proporcional ao quadrado da media (µ2i ). O
desvio padrao amostral (si) tende a ser proporcional ao quadrado damedia amostral (y2
i.). Transformacao: Z = 1/Y .
A variavel resposta e uma proporcao. Transformacao:Z = 2arcsen
√Y .
Como ilustracao, vamos considerar o seguinte exemplo.
Exemplo. Os dados abaixo representam medidas da resistencia de telhas,quando sujeitas a pressao de baixo para cima. Foram considerados noexperimento vaos de fixacao de 5 tamanhos diferentes no sentido docomprimento da telha.
Denise A. Botter MAE0317 24 de abril de 2014 29 / 33
Transformacoes para a Variavel Resposta
Vao (metros)1,080 1,690 2,300 2,910 3,520
yi. 268,40 199,87 131,00 98,27 82,13s2i 859,40 416,84 133,86 88,37 14,41si 29,32 20,42 11,57 9,40 3,80
Na Tabela 1, calculamos algumas estatısticas que relacionam a mediaamostral com a variancia ou o desvio padrao amostral.
Tabela 1. Estatısticas
is2iyi.
siyi.
siy2i.
1 3,20 0,11 0,0004072 2,09 0,10 0,0005113 1,02 0,09 0,0006744 0,90 0,10 0,0009735 0,18 0,05 0,000563
Denise A. Botter MAE0317 24 de abril de 2014 30 / 33
Transformacoes para a Variavel Resposta
Os resultados da Tabela 1 indicam que o desvio padrao parece serproporcional a media. Assim, adotamos a transformacao Z = lnY .Transformando os dados, obtemos as estatısticas da Tabela 2.
Tabela 2. Estatısticas para os dados transformados
i zi. s2zi
1 2,426 0,00252 2,299 0,00193 2,116 0,00154 1,991 0,00175 1,914 0,0004
Denise A. Botter MAE0317 24 de abril de 2014 31 / 33
Transformacoes para a Variavel Resposta
Observando as novas variancias amostrais, temos indicacao de que avariavel transformada parece ter variancias iguais nos 4 primeiros grupos evariancia menor no ultimo.
O quociente entre a maior e a menor variancias nos dados originais era59,64 enquanto que para os dados transformados este quociente e igual a6,25. Isto indica que a transformacao nos dados reduziu bastante asdiferencas entre as variancias.
Segundo Scheffe (1959) podemos analisar os dados transformados pormeio de um modelo de ANOVA para dados homocedasticos uma vez que oteste F e robusto para diferencas entre variancias da magnitude dasobservadas nos dados transformados.
Denise A. Botter MAE0317 24 de abril de 2014 32 / 33
Transformacoes para a Variavel Resposta
Observacoes.1) Conclusoes sao em geral obtidas somente para os dados transformados.Somente conclusoes dos testes de hipoteses valem para os dados naotransformados. Procedimentos de estimacao nao sao em geral validos paraos dados originais.2) Uma analise de diagnostico deve ser realizada para o modelo deANOVA com os dados transformados.3) Procedimento de Box e Cox pode ser utilizado na busca de umatransformacao estabilizadora da variancia do tipo Y λ.
Denise A. Botter MAE0317 24 de abril de 2014 33 / 33