aula 1 –planejamento e análise de experimentos · aula 5 –planejamento e análise de...

73
Aula 5 –Planejamento e Análise de Experimentos Professores Miguel Antonio Sovierzoski, Dr. [email protected]; Vicente Machado Neto, Dr. [email protected];

Upload: votuyen

Post on 21-Aug-2018

220 views

Category:

Documents


0 download

TRANSCRIPT

Aula 5 –Planejamento e Análise de Experimentos

Professores Miguel Antonio Sovierzoski, Dr. [email protected]; Vicente Machado Neto, Dr. [email protected];

Revisão da aula anterior Fatores – níveis – tratamentos;

Discussão sobre os trabalhos a serem desenvolvidos na disciplina, fatores, níveis, tratamentos;

Teste de hipóteses;

Teste de hipóteses, comparação de uma média de uma amostra com um valor fixo de referência, com variância conhecida e desconhecida;

Teste de hipóteses, comparação entre duas médias de duas amostras, com variância conhecida e desconhecida;

Teste de hipóteses, comparação entre variâncias ou entre uma variância e um valor fixo de referência;

Tipos de erros α e β;

Valor P;

Teste de hipóteses, comparação pareada.

Experimentos de um único fator – Análise de Variância

Suponhamos que desejamos determinar a resistência à tração de cinco diferentes formulações de tecidos, nas quais se variou o percentual de algodão. Estamos interessados em testar se as cinco formulações apresentam diferenças de resistência. Este problema poderia ser resolvido fazendo-se 10 testes t aos pares, para as diferentes combinações possíveis das cinco formulações. Como existem 10 possíveis pares de combinações, sendo a probabilidade de aceitar corretamente a hipótese nula 1-α = 0,95 para cada teste individual, a probabilidade de aceitar corretamente a hipótese nula para todos os 10 testes será de apenas 0,95 10 = 0,60, aumentando grandemente a ocorrência do erro tipo I. O procedimento apropriado para testar a igualdade de várias médias é a análise de variância. Provavelmente, a técnica mais utilizada em inferência estatística.

Experimentos de um único fator – Análise de Variância

Uma boa ideia é examinar os dados graficamente, através de gráficos box plots ou gráfico de pontos.

Experimentos de um único fator – Análise de Variância

Uma boa ideia é examinar os dados graficamente, através de gráficos box plots ou intervalos de confiança.

Análise de Variância - Parâmetros Descrevendo as observações de um experimento por um modelo

temos: 𝑦𝑦𝑖𝑖𝑖𝑖 = 𝜇𝜇𝑖𝑖 + 𝜖𝜖𝑖𝑖𝑖𝑖 𝑖𝑖 = 1,2, … ,𝑎𝑎𝑗𝑗 = 1,2, … ,𝑛𝑛

Onde 𝑦𝑦𝑖𝑖𝑖𝑖 é a ij ésima observação, 𝜇𝜇𝑖𝑖 é a média do i ésimo nível do fator ou tratamento e 𝜖𝜖𝑖𝑖𝑖𝑖 é a componente de erro aleatório, que incorpora todas as fontes de variabilidade do experimento incluindo medições, fatores incontrolados, diferenças entre unidades experimentais, ruídos do processo (variação ao longo do tempo, efeitos ambientais e outros). É conveniente pensar nos erros como tendo média zero, de forma que 𝐸𝐸 𝑦𝑦𝑖𝑖𝑖𝑖 = 𝜇𝜇𝑖𝑖.

Análise de Variância - Parâmetros Uma outra forma de descrever o modelo dos dados é: 𝜇𝜇𝑖𝑖 = 𝜇𝜇 + 𝜏𝜏𝑖𝑖 𝑖𝑖 = 1,2, … ,𝑎𝑎 assim a equação transforma-se em:

𝑦𝑦𝑖𝑖𝑖𝑖 = 𝜇𝜇 + 𝜏𝜏𝑖𝑖 + 𝜖𝜖𝑖𝑖𝑖𝑖 𝑖𝑖 = 1,2, … ,𝑎𝑎𝑗𝑗 = 1,2, … ,𝑛𝑛

Neste modelo, 𝜇𝜇 é um parâmetro comum a todos os tratamentos chamado de média geral, e 𝜏𝜏𝑖𝑖 é um parâmetro único do i ésimo tratamento chamado i ésimo tratamento efeito. Este modelo é chamado modelo de efeitos. O modelo é um modelo estatístico linear, isto é a variável de resposta 𝑦𝑦𝑖𝑖𝑖𝑖 é uma função linear dos parâmetros do modelo. A equação acima é chamada de análise de variância de um único fator.

Análise de Variância - Parâmetros Uma outra forma de descrever o modelo dos dados é: 𝜇𝜇𝑖𝑖 = 𝜇𝜇 + 𝜏𝜏𝑖𝑖 𝑖𝑖 = 1,2, … ,𝑎𝑎 assim a equação transforma-se em:

𝑦𝑦𝑖𝑖𝑖𝑖 = 𝜇𝜇 + 𝜏𝜏𝑖𝑖 + 𝜖𝜖𝑖𝑖𝑖𝑖 𝑖𝑖 = 1,2, … ,𝑎𝑎𝑗𝑗 = 1,2, … ,𝑛𝑛

Nossos objetivos serão testar as hipóteses apropriadas a respeito das médias dos tratamentos e estima-las. No teste de hipóteses, o modelo dos erros é assumido como sendo normal com variáveis aleatórias e independentemente distribuídas com média zero e variância 𝜎𝜎2. A variância 𝜎𝜎2 é assumida como constante para todos os níveis. Isto implica que as observações sejam:

𝑦𝑦𝑖𝑖𝑖𝑖~𝑁𝑁 𝜇𝜇 + 𝜏𝜏𝑖𝑖,𝜎𝜎2 E as observações são mutuamente independentes.

Análise de Variância - Parâmetros No teste de hipóteses onde a hipótese de igualdade das médias dos tratamentos (𝐻𝐻0:𝜇𝜇1 = 𝜇𝜇2 = ⋯ = 𝜇𝜇𝑎𝑎 𝑜𝑜𝑜𝑜 𝐻𝐻0: 𝜏𝜏1 = 𝜏𝜏2 = ⋯ = 𝜏𝜏𝑎𝑎 = 0) é assumida, pressupomos que os erros 𝜖𝜖𝑖𝑖𝑖𝑖 são normalmente e independentemente distribuídos com média 𝜇𝜇 + 𝜏𝜏𝑖𝑖 e variância 𝜎𝜎2. Então 𝑆𝑆𝑆𝑆𝑇𝑇 é uma somatória quadrática de variáveis aleatórias normalmente distribuídas, desta forma 𝑆𝑆𝑆𝑆𝑇𝑇 𝜎𝜎2⁄ é distribuída quiquadraticamente com 𝑁𝑁 − 1 (𝑁𝑁 = 𝑎𝑎.𝑛𝑛) graus de liberdade. Igualmente 𝑆𝑆𝑆𝑆𝐸𝐸 𝜎𝜎2⁄ é distribuída quiquadraticamente com 𝑁𝑁 − 𝑎𝑎 graus de liberdade e 𝑆𝑆𝑆𝑆𝑇𝑇𝑟𝑟𝑎𝑎𝑟𝑟𝑎𝑎𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟 𝜎𝜎2⁄ é distribuída quiquadraticamente com 𝑎𝑎 − 1 graus de liberdade.

Análise de Variância

Referência: Felipe Campelo - Dept. Engenharia Elétrica/ Electrical Engineering - UFMG Disponível em http://cpdee.ufmg.br/~fcampelo/files/disciplinas/EEE933/2013-1/

Análise de Variância

Referência: Felipe Campelo - Dept. Engenharia Elétrica/ Electrical Engineering - UFMG Disponível em http://cpdee.ufmg.br/~fcampelo/files/disciplinas/EEE933/2013-1/

Análise de Variância

Referência: Felipe Campelo - Dept. Engenharia Elétrica/ Electrical Engineering - UFMG Disponível em http://cpdee.ufmg.br/~fcampelo/files/disciplinas/EEE933/2013-1/

Análise de Variância

Referência: Felipe Campelo - Dept. Engenharia Elétrica/ Electrical Engineering - UFMG Disponível em http://cpdee.ufmg.br/~fcampelo/files/disciplinas/EEE933/2013-1/

Análise de Variância Modelo de Efeitos Fixos

Referência: Felipe Campelo - Dept. Engenharia Elétrica/ Electrical Engineering - UFMG Disponível em http://cpdee.ufmg.br/~fcampelo/files/disciplinas/EEE933/2013-1/

Análise de Variância Modelo de Efeitos Fixos

Análise de Variância

Variabilidade total dos dados em relação à grande média

Soma quadrática da diferença entre as médias dos tratamentos e a grande média

Soma quadrática da diferença entre as observações em um tratamento e a média do tratamento

SS nos tratamentos SS devido ao erro

a=número de tratamentos n=número de replicações

Referência: Felipe Campelo - Dept. Engenharia Elétrica/ Electrical Engineering - UFMG Disponível em http://cpdee.ufmg.br/~fcampelo/files/disciplinas/EEE933/2013-1/

Análise de Variância

Variância comum dentro de cada tratamento

Variância entre os tratamentos

Variância total

Referência: Felipe Campelo - Dept. Engenharia Elétrica/ Electrical Engineering - UFMG Disponível em http://cpdee.ufmg.br/~fcampelo/files/disciplinas/EEE933/2013-1/

Análise de Variância

Referência: Felipe Campelo - Dept. Engenharia Elétrica/ Electrical Engineering - UFMG Disponível em http://cpdee.ufmg.br/~fcampelo/files/disciplinas/EEE933/2013-1/

Análise de Variância

a=número de tratamentos; g.l.=a-1 n=número de replicações; Graus de liberdade do erro = na-a Referência: Felipe Campelo - Dept. Engenharia Elétrica/ Electrical Engineering - UFMG

Disponível em http://cpdee.ufmg.br/~fcampelo/files/disciplinas/EEE933/2013-1/

Análise de Variância

Referência: Felipe Campelo - Dept. Engenharia Elétrica/ Electrical Engineering - UFMG Disponível em http://cpdee.ufmg.br/~fcampelo/files/disciplinas/EEE933/2013-1/

Análise de Variância

a=número de tratamentos; n=número de replicações; N=número total de experimentos, a.n=N

Referência: Felipe Campelo - Dept. Engenharia Elétrica/ Electrical Engineering - UFMG Disponível em http://cpdee.ufmg.br/~fcampelo/files/disciplinas/EEE933/2013-1/

Análise de Variância

Análise de Variância - Exercício Para ilustrar a análise de variância, voltamos ao exemplo de testarmos se a percentagem de algodão afeta a resistência da fibra.

Usamos a análise de variância para testar 𝐻𝐻0:𝜇𝜇1 = 𝜇𝜇2 = 𝜇𝜇3 =𝜇𝜇4 = 𝜇𝜇5 contra a alternativa 𝐻𝐻1 : algumas médias são diferentes.

Na análise de variância mede-se a variância de cada tratamento e faz-se a razão com a variância do erro. Quer-se determinar se a variância entre os tratamentos não é maior do que a do erro.

Análise de Variância - Exercício Para ilustrar a análise de variância, voltamos ao exemplo de testarmos se a percentagem de algodão afeta a resistência da fibra.

Análise de Variância - Exercício Para ilustrar a análise de variância, voltamos ao exemplo de testarmos se a percentagem de algodão afeta a resistência da fibra.

Graus de liberdade

Soma de quadrados

Quadrados médios

Análise de Variância - Exercício

S, R-Sq e R-Sq (adj) são medidas de quanto o modelo se ajusta aos dados. Estes valores podem ajudar a selecionar o modelo com o melhor ajuste. - S representa a distância padrão dos dados em relação aos valores ajustados. Para um

determinado estudo o modelo prediz a resposta com melhor exatidão quanto menor for S.

- R (R-Sq) descreve a quantidade de variação na resposta que pode ser explicada pelos preditores do modelo. R sempre aumenta com preditores adicionais. Por exemplo, os cinco melhores preditores de um modelo, darão um R maior que os quatro melhores preditores do modelo. Portanto R é mais útil na comparação de modelos com o mesmo tamanho.

- R-Sq ajustado é um R modificado ajustado para o número de termos do modelo. Caso um termo desnecessário seja incluído no modelo, R pode ser artificialmente alto. No caso de R ajustado este se torna menor quando adiciona-se termos ao modelo. Usa-se o R ajustado para comparar modelos com diferentes números de preditores.

Análise de Variância - Exercício

Desvio Padrão Combinado (Pooled standard deviation – Pooled StDev) é uma estimativa do desvio padrão da população. No procedimento de Análise de Variância assume-se que todos os níveis tem o mesmo desvio padrão da população. Este desvio padrão combinando é estimado pela combinação de todos os desvios padrões dos níveis

Desvio padrão combinado é obtido pela raiz quadrada de MSe. = 𝑀𝑀𝑆𝑆𝑟𝑟= 8,06 = 2,839 O desvio padrão agrupado é usado para calcular os ICs dos tratamentos.

Análise de Variância - Exercício Os Intervalos de Confiança dos tratamentos construídos a partir do desvio padrão combinado são calculados pela seguinte fórmula: Exemplificando o cálculo do IC para o primeiro tratamento teríamos:

9,80 − 𝑡𝑡0,025, 25−58,06

5 ≤ 𝜇𝜇1 ≤ 9,80 + 𝑡𝑡0,025,(25−5)8,06

5

9,80 − 2,08596 𝑥𝑥 1,2696 ≤ 𝜇𝜇1 ≤ 9,80 + 2,08596 𝑥𝑥 1,2696 7,1517 ≤ 𝜇𝜇1 ≤ 12,4483

Desvio padrão combinado é obtido pela raiz quadrada de MSe. = 𝑀𝑀𝑆𝑆𝑟𝑟= 8,06 =2,839

Análise de Variância - Exercício Os Intervalos de Confiança dos tratamentos construídos a partir do desvio padrão combinado são calculados pela seguinte fórmula: Exemplificando o cálculo do IC para o quarto tratamento teríamos:

21,60 − 𝑡𝑡0,025, 25−58,06

5 ≤ 𝜇𝜇4 ≤ 21,60 + 𝑡𝑡0,025,(25−5)8,06

5

21,60 − 2,08596 𝑥𝑥 1,2696 ≤ 𝜇𝜇4 ≤ 21,60 + 2,08596 𝑥𝑥 1,2696 18,95 ≤ 𝜇𝜇4 ≤ 24,25

Desvio padrão combinado é obtido pela raiz quadrada de MSe. = 𝑀𝑀𝑆𝑆𝑟𝑟= 8,06 =2,839. Ver exercício 3.8 (Montgomery) que explica a diferença dos ICs calculados de forma habitual e ICs calculados para o ANOVA com o desvio padrão combinado. Arquivo Exercicios ANOVA 2_respostas.doc

Análise de Variância - Exercício Para ilustrar a análise de variância, voltamos ao exemplo de testarmos se a percentagem de algodão afeta a resistência da fibra.

A Análise de variância é validada pela análise dos resíduos, os resíduos não podem apresentar tendências, assim como deve existir um ajuste à distribuição normal dos resíduos.

Análise de Variância - Exercício Histograma dos resíduos: Uma ferramenta exploratória que mostra as características dos dados incluindo: Valores típicos, dispersão e forma; Valores atípicos dos dados. Caudas longas podem indicar assimetrias dos dados; Barras maiores podem indicar outliers; Como a aparência de um histograma pode variar dependendo do número de intervalos, testes de normalidade são mais indicados para verificar a normalidade dos resíduos. Normalidade dos resíduos: Os resíduos devem cair em uma linha reta se os resíduos são normalmente distribuídos. Caso os resíduos não caiam em uma linha reta a suposição de normalidade pode ser inválida. Caso tenha-se menos de 50 observações o gráfico pode apresentar curvaturas nas caldas, mesmo no caso dos resíduos serem normalmente distribuídos. Com o decréscimo do número de observações o gráfico pode apresentar não linearidades mesmo para dados normalmente distribuídos.

Análise de Variância - Exercício Use the probability plot and goodness-of-fit tests, such as the Anderson-Darling statistic , to assess whether the residuals are normally distributed. You can display the Anderson-Darling statistic (AD) on the plot, which can indicate whether the data are normal. If the p-value is lower than the chosen a-level , the data do not follow a normal distribution. Residuals versus fits . This plot should show a random pattern of residuals on both sides of 0. If a point lies far from the majority of points, it may be an outlier . Also, there should not be any recognizable patterns in the residual plot. The following may indicate error that is not random: - a series of increasing or decreasing points - a predominance of positive residuals, or a predominance of negative residuals - patterns, such as increasing residuals with increasing fits. · Residuals versus order. This is a plot of all residuals in the order that the data was collected and can be used to find non-random error, especially of time-related effects. A positive correlation is indicated by a clustering of residuals with the same sign. A negative correlation is indicated by rapid changes in the signs of consecutive residuals.

Análise de Variância - Exercício Para ilustrar a análise de variância, voltamos ao exemplo de testarmos se a percentagem de algodão afeta a resistência da fibra. Na análise de variância os intervalos de confiança são obtidos pelo desvio padrão agrupado, portanto diferente do desvio padrão individual de cada tratamento. Abaixo pode-se ver as diferenças.

35%30%25%20%15%

25

20

15

10

5

Dat

a

Interval Plot of 15%; 20%; 25%; 30%; 35%95% CI for the Mean

Para 15% o IC de 95% com o desvio padrão real é (5,645 – 13,955)

Comparação

Os intervalos de confiança plotados na ANOVA são diferentes dos IC de cada um dos tratamentos, pois os mesmos foram obtidos pelo desvio padrão agrupado.

Análise de Variância - Exercício No exercício do percentual de algodão uma visualização interessante são os histogramas dos diversos tratamentos num mesmo gráfico.

Análise de Variância - Exercício

Análise de Variância - Exercício A análise de variância pode ser sumarizada pela tabela abaixo.

Notamos que a média quadrática entre tratamentos (118,94) é muitas vezes maior do que a variância dentro dos tratamentos ou média quadrática do erro (8,06). Isto indica que é improvável que as médias dos tratamentos sejam iguais. Analisando formalmente computando a razão F, 𝐹𝐹0 = 118,94 8,06⁄ = 14,76 . Comparando 𝐹𝐹0,05;4;20 = 2,87 . Como 𝐹𝐹0 = 14,76 > 2,87 , rejeitamos 𝐻𝐻0 e concluímos que as médias dos tratamentos diferem, ou seja que a percentagem de algodão afeta a resistência. Pelo Excel podemos obter F crítico com a função =INV.F.CD(0,05;4;20) que retorna o valor 2,866081. As letras CD indicam cauda direita da distribuição.

Análise de Variância - Exercício Podemos achar o P valor para este teste estatístico. A figura abaixo mostra a distribuição 𝐹𝐹4;20 do teste estatístico 𝐹𝐹0 , observa-se que o P valor é muito pequeno. Isto também podemos observar pela tabela de F onde 𝐹𝐹0,01;4;20 = 4,43 ainda bem menor que 𝐹𝐹0 = 14,76 , concluindo que a probabilidade da cauda superior para 𝐹𝐹0 = 14,76 é menor do que 0,01, 𝑃𝑃 < 0,01 exatamente 𝑃𝑃 =9,11𝑥𝑥10−6.

Análise de Variância - Exercício Pelo Excel podemos obter o 𝐹𝐹0,01;4;20 usamos a função =INV.F.CD(0,01;4;20) que retorna o valor 4,43069. Podemos achar o P valor para este teste estatístico, usando a função =DIST.F(14,76;4;20;VERDADEIRO) que retorna o valor 0,999990886 que deve ser subtraído de 1 para então acharmos o P Valor de 9,11371E-06.

𝑥𝑥

Análise de Variância

Referência: Felipe Campelo - Dept. Engenharia Elétrica/ Electrical Engineering - UFMG Disponível em http://cpdee.ufmg.br/~fcampelo/files/disciplinas/EEE933/2013-1/

Análise de Variância – Dados desbalanceados

Em alguns experimentos o número de observações feito em cada tratamento pode diferir um do outro. Dizemos que o experimento é desbalanceado. Neste caso a análise de variância pode ser feita com pequenas modificações nas fórmulas. Tendo 𝑛𝑛𝑖𝑖 observações em um tratamento 𝑖𝑖 𝑖𝑖 = 1,2, … ,𝑎𝑎 e 𝑁𝑁 = ∑ 𝑛𝑛𝑖𝑖𝑎𝑎

𝑖𝑖=1 . As formulas para 𝑆𝑆𝑆𝑆𝑇𝑇 𝑒𝑒 𝑆𝑆𝑆𝑆𝑟𝑟𝑟𝑟𝑎𝑎𝑟𝑟𝑎𝑎𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟 tornam-se:

𝑆𝑆𝑆𝑆𝑇𝑇 = �𝑎𝑎

𝑖𝑖=1

�𝑦𝑦2𝑖𝑖𝑖𝑖 −𝑦𝑦2 ..𝑁𝑁

𝑟𝑟𝑖𝑖

𝑖𝑖=1

𝑆𝑆𝑆𝑆𝑇𝑇𝑟𝑟𝑎𝑎𝑟𝑟𝑎𝑎𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟 = �𝑦𝑦2𝑖𝑖.𝑛𝑛𝑖𝑖

−𝑦𝑦2 ..𝑁𝑁

𝑎𝑎

𝑖𝑖=1

No entanto sempre que possível o experimento balanceado é preferível ao desbalanceado.

Análise de Variância – Estimativa de parâmetros

Estimativas dos parâmetros no modelo de efeitos fixos:

𝑦𝑦𝑖𝑖𝑖𝑖 = 𝜇𝜇 + 𝜏𝜏𝑖𝑖 + 𝜖𝜖𝑖𝑖𝑖𝑖 𝑖𝑖 = 1,2, … ,𝑎𝑎𝑗𝑗 = 1,2, … ,𝑛𝑛

Estimadores aceitos para a média geral e efeito dos tratamentos são dados por:

𝜇𝜇� = 𝑦𝑦�.. �̂�𝜏𝑖𝑖 = 𝑦𝑦�𝑖𝑖. − 𝑦𝑦�.. , 𝑖𝑖 = 1,2, … ,𝑎𝑎

Estes estimadores tem um apelo intuitivo, note que a média geral é estimada pela grande média das observações e que os efeitos dos tratamentos são a diferença das médias dos tratamentos e a grande média.

Análise de Variância – Estimativa de parâmetros

O intervalo de confiança da média do i ésimo tratamento pode ser determinado, sendo 𝜇𝜇𝑖𝑖 = 𝜇𝜇 + 𝜏𝜏𝑖𝑖, uma estimativa da média 𝜇𝜇�𝑖𝑖 = 𝜇𝜇� +�̂�𝜏𝑖𝑖 = 𝑦𝑦�𝑖𝑖.. Se 𝜎𝜎2 é conhecido, podemos utilizar a distribuição normal (t student) para definir o intervalo de confiança. Usando 𝑀𝑀𝑆𝑆𝐸𝐸 como uma estimativa de 𝜎𝜎2 e a distribuição t, para um intervalo de confiança de 100 1 −∝ para a média 𝜇𝜇𝑖𝑖 do i ésimo tratamento teremos:

𝑦𝑦�𝑖𝑖. − 𝑡𝑡∝ 2⁄ ;𝑁𝑁−𝑎𝑎𝑀𝑀𝑀𝑀𝐸𝐸𝑟𝑟

≤ 𝜇𝜇𝑖𝑖 ≤ 𝑦𝑦�𝑖𝑖. + 𝑡𝑡∝ 2⁄ ;𝑁𝑁−𝑎𝑎𝑀𝑀𝑀𝑀𝐸𝐸𝑟𝑟

O intervalo de confiança 100 1 −∝ entre as médias de dois tratamentos 𝜇𝜇𝑖𝑖 − 𝜇𝜇𝑖𝑖 pode ser determinado por :

𝑦𝑦�𝑖𝑖. − 𝑦𝑦�𝑖𝑖. − 𝑡𝑡∝ 2⁄ ;𝑁𝑁−𝑎𝑎2𝑀𝑀𝑀𝑀𝐸𝐸𝑟𝑟

≤ 𝜇𝜇𝑖𝑖 − 𝜇𝜇𝑖𝑖 ≤ 𝑦𝑦�𝑖𝑖. − 𝑦𝑦�𝑖𝑖. + 𝑡𝑡∝ 2⁄ ;𝑁𝑁−𝑎𝑎𝑀𝑀𝑀𝑀𝐸𝐸𝑟𝑟

Análise de Variância – Exemplo

Usando os dados do exemplo das percentagens de algodão podemos estimar a média geral e a média dos efeitos dos tratamentos, como 𝜇𝜇� = 376 25⁄ = 15,04 é: O intervalo de confiança da média do 4º tratamento (30% de algodão) é o seguinte: Assim o intervalo de confiança de 95% é 18,95 ≤ 𝜇𝜇4 ≤ 24,25.

Análise de Variância – Análise dos resíduos

Para testarmos se os resíduos obedecem à uma distribuição normal, condição necessária para a análise de variância, temos que primeiramente ranquear os resíduos do menor para o maior. As observações ordenadas são então plotadas contra as suas frequências acumuladas 𝑖𝑖−0,5

𝑟𝑟onde j representa a posição de ordinal

do número j=1 para o primeiro número e j=2 para o segundo e assim sucessivamente. Caso os dados se distribuam normalmente os pontos plotados graficamente irão descrever uma linha reta.

Análise de Variância – Análise dos resíduos

Voltando para o exemplo do ensaio de resistência dos tecidos, de acordo com o percentual de algodão, teremos conforme tabela abaixo os resíduos nas caixas e entre parênteses a ordem em que os dados foram coletados.

Análise de

Variância – Análise

dos resíduos Na figura observa-se que os

dados se distribuem aproximadamente como uma distribuição normal, já que caem próximos da reta ajustada.

Análise de Variância – Análise dos resíduos

Uma análise que pode ser feita é também plotar os resíduos na ordem em que os mesmos foram obtidos. Isto pode ser útil para detectar correlação entre os resíduos. Na figura ao lado não há nenhuma suspeita de correlação. Uma variância dos dados que não seja constante é um problema que pode ser sério e deve ser melhor analisado.

Análise de Variância – Análise dos resíduos

Embora a plotagem dos resíduos seja frequentemente usada para diagnosticar diferenças entre variâncias, muitos testes estatísticos podem ser utilizados para este fim. Ensaios desbalanceados (com diferenças de amostras) ou em casos onde uma variância e muito maior que as outras, indicam um problema que pode ser sério e análises mais aprofundadas devem ser feitas. Em casos de variâncias diferentes devemos transformar os dados antes da análise de variância.

Análise de Variância – Comparação entre tratamentos

Supondo que pela análise de variância detectamos que a hipótese nula de igualdade entre tratamentos foi rejeitada. Então existe diferença entre os tratamentos, mas quais médias diferem não é especificado pela análise de variância. Desta forma outras comparações e análises devem ser feitas para detectar os detalhes das diferenças das médias. Comparação Gráfica das Médias Podemos verificar se todas as médias dos tratamentos encontram-se distribuídas de forma que a variância consiga incluir todas as médias, oque indicaria que os tratamentos são iguais. Assim pegando-se a

média geral 𝑦𝑦�.. e o desvio padrão 𝑀𝑀𝑀𝑀𝐸𝐸𝑟𝑟

podemos verificar graficamente

se os tratamentos são iguais.

Análise de Variância – Comparação entre tratamentos

Comparação Gráfica das Médias Pegando-se a média geral dos tratamentos 𝑦𝑦�.. e o desvio padrão dos erros 𝑀𝑀𝑆𝑆𝐸𝐸 𝑛𝑛⁄ podemos montar o gráfico abaixo. Para o nosso exemplo da resistência dos tecidos, teremos uma média geral 𝑦𝑦�.. = 15,04 e 8,05 5⁄ = 1,27

Análise de Variância – Comparação entre tratamentos

Comparação Gráfica das Médias Olhando para a figura abaixo vemos que as 5 médias não podem ser englobadas pela mesma distribuição. Isto implica que as médias não são iguais já as diferenças entre elas não podem ser atribuídas a erros de amostragem, portanto os tratamentos não são iguais.

Análise de Variância – Contrastes Contrastes podem ser montados a partir de hipóteses de diferenças de médias que queremos testar. Em geral um contraste é uma combinação linear de parâmetros da seguinte forma: Γ = ∑ 𝑐𝑐𝑖𝑖𝜇𝜇𝑖𝑖𝑎𝑎

𝑖𝑖=1 onde as constantes do contraste 𝑐𝑐1, 𝑐𝑐2, … , 𝑐𝑐𝑎𝑎 somadas são iguais a zero, ∑ 𝑐𝑐𝑖𝑖 = 0𝑎𝑎

𝑖𝑖=1 . Para testarmos os níveis 4 e 5 do nosso exemplo da resistência dos tecidos, poderíamos estabelecer as seguintes hipóteses e contrastes:

𝐻𝐻0:𝜇𝜇4 = 𝜇𝜇5𝐻𝐻1:𝜇𝜇4 ≠ 𝜇𝜇5

𝑐𝑐𝑜𝑜𝑛𝑛𝑡𝑡𝑐𝑐𝑎𝑎𝑐𝑐𝑡𝑡𝑒𝑒𝑐𝑐 𝐻𝐻0: 𝑐𝑐4𝜇𝜇4 − 𝑐𝑐5𝜇𝜇5 = 0𝐻𝐻1: 𝑐𝑐4𝜇𝜇4 − 𝑐𝑐5𝜇𝜇5 ≠ 0

Usando um teste F para testar o contraste , iremos rejeitar a hipótese nula se: 𝐹𝐹0 > 𝐹𝐹∝;1;𝑁𝑁−𝑎𝑎 𝑐𝑐𝑒𝑒𝑛𝑛𝑠𝑠𝑜𝑜 𝐹𝐹0 = 𝑀𝑀𝑀𝑀𝐶𝐶

𝑀𝑀𝑀𝑀𝐸𝐸= 𝑀𝑀𝑀𝑀𝐶𝐶 1⁄

𝑀𝑀𝑀𝑀𝐸𝐸

Onde 𝑆𝑆𝑆𝑆𝐶𝐶 = ∑ 𝑐𝑐𝑖𝑖𝑦𝑦𝑖𝑖.𝑎𝑎𝑖𝑖=1

2

𝑟𝑟 ∑ 𝑐𝑐2𝑖𝑖𝑎𝑎𝑖𝑖=1

Análise de Variância – Contrastes Para ensaios onde há diferenças nos tamanhos das amostras dos tratamentos temos que utilizar as seguintes fórmulas:

∑ 𝑛𝑛𝑖𝑖𝑐𝑐𝑖𝑖 = 0𝑎𝑎𝑖𝑖=1 e 𝑆𝑆𝑆𝑆𝐶𝐶 = ∑ 𝑐𝑐𝑖𝑖𝑦𝑦𝑖𝑖.𝑎𝑎

𝑖𝑖=12

∑ 𝑟𝑟𝑖𝑖𝑐𝑐2𝑖𝑖𝑎𝑎𝑖𝑖=1

Um caso especial são os contrastes ortogonais, dois contrastes com coeficientes 𝑐𝑐𝑖𝑖 𝑒𝑒 𝑠𝑠𝑖𝑖 são ortogonais se: ∑ 𝑐𝑐𝑖𝑖𝑠𝑠𝑖𝑖 = 0𝑎𝑎𝑖𝑖=1 ou para o ensaio desbalanceado ∑ 𝑛𝑛𝑖𝑖𝑐𝑐𝑖𝑖𝑠𝑠𝑖𝑖 = 0𝑎𝑎

𝑖𝑖=1

Análise de Variância – Contrastes Suponhamos que desejamos testar, no nosso exemplo de resistência de tecidos em função do percentual de algodão, as seguintes hipóteses comparando médias de diversos tratamentos.

Análise de Variância – Contrastes Encontramos então os valores numéricos dos contrastes e a soma quadrática como segue:

Análise de Variância – Contrastes

Os contrastes particionam a soma quadrática. Estes testes são usualmente incorporados na análise de variância. Concluímos a partir dos valores de P e do F crítico = 𝐹𝐹0,05;1;20 = 4,35 que há diferenças significativas entre os níveis (4 e 5) e (1 e 3), mas as médias do níveis 1 e 3 não diferem das médias dos níveis 4 e 5 para α=0,05, e também que o nível 2 não difere das médias dos outros 4 níveis.

Análise de Variância – Teste LSD O teste de Fisher para comparação entre duas médias, também chamado de LSD (least significant difference). Este procedimento usa a estatística F para testar 𝐻𝐻0:𝜇𝜇𝑖𝑖 = 𝜇𝜇𝑖𝑖. Assumindo uma alternativa bilateral, o par de médias 𝜇𝜇𝑖𝑖 e 𝜇𝜇𝑖𝑖 podem ser declarados significativamente diferentes se:

𝑦𝑦�𝑖𝑖. − 𝑦𝑦�𝑖𝑖. > 𝑡𝑡∝ 2⁄ ,𝑁𝑁−𝑎𝑎 𝑀𝑀𝑆𝑆𝐸𝐸1𝑟𝑟𝑖𝑖

+ 1𝑟𝑟𝑗𝑗

Sendo 𝐿𝐿𝑆𝑆𝐿𝐿 = 𝑡𝑡∝ 2⁄ ,𝑁𝑁−𝑎𝑎 𝑀𝑀𝑆𝑆𝐸𝐸1𝑟𝑟𝑖𝑖

+ 1𝑟𝑟𝑗𝑗

Caso o projeto seja balanceado, 𝑛𝑛1 = 𝑛𝑛1 = ⋯ = 𝑛𝑛𝑎𝑎 = 𝑛𝑛

𝐿𝐿𝑆𝑆𝐿𝐿 = 𝑡𝑡∝ 2⁄ ,𝑁𝑁−𝑎𝑎2𝑀𝑀𝑆𝑆𝐸𝐸𝑛𝑛

No procedimento de Fisher, simplesmente, comparamos as diferenças entre os pares de médias com o correspondente LSD. Caso 𝑦𝑦�𝑖𝑖. − 𝑦𝑦�𝑖𝑖. >𝐿𝐿𝑆𝑆𝐿𝐿, concluímos que as médias 𝜇𝜇𝑖𝑖 e 𝜇𝜇𝑖𝑖 diferem.

Análise de Variância – Teste LSD Para ilustrar o teste LSD para o exemplo da resistência dos tecidos para α=0,05 temos que:

𝐿𝐿𝑆𝑆𝐿𝐿 = 𝑡𝑡0,025,202𝑀𝑀𝑆𝑆𝐸𝐸𝑛𝑛

= 2,0862(8,06)

5= 3,75

Assim qualquer par de médias de tratamentos que difiram em valor absoluto, por mais do que 3,75 são considerados significativamente diferentes.

Os pares de médias que são significativamente diferentes estão indicados com *. Os únicos pares que não diferem significativamente são 1-5 e 2-3 e o tratamento 4 tem resistência a tração significativamente maior do que os outros.

Análise de Variância – Teste Dunnett`s Em muitos experimentos, um tratamento é o controle, e a análise está interessada em comparar os outros a-1 tratamentos com o controle. Supondo que o tratamento a é o controle e desejamos testar as hipóteses: 𝐻𝐻0:𝜇𝜇𝑖𝑖 = 𝜇𝜇𝑎𝑎 𝐻𝐻1:𝜇𝜇𝑖𝑖 ≠ 𝜇𝜇𝑎𝑎. O procedimento de Dunnett`s é uma modificação do teste t. A hipótese nula é rejeitada usando-se o erro tipo I α se:

𝑦𝑦�𝑖𝑖. − 𝑦𝑦�𝑖𝑖. > 𝑠𝑠∝(𝑎𝑎 − 1, 𝑓𝑓) 𝑀𝑀𝑆𝑆𝐸𝐸1𝑛𝑛𝑖𝑖

+1𝑛𝑛𝑎𝑎

A constante 𝑠𝑠∝ 𝑎𝑎 − 1, 𝑓𝑓 é tabelado Apêndice IX (livro Montgomery). Teste uni e bilaterais são possíveis. Sendo α o nível de significância dos a-1 testes. Sendo 𝑓𝑓 o número de graus de liberdade associado com 𝑀𝑀𝑆𝑆𝐸𝐸.

Análise de Variância – Teste Dunnett`s Ilustrando o teste Dunnett`s para o exemplo da resistência do tecido onde consideramos o tratamento 5 como controle. Neste exemplo, 𝑎𝑎 = 5;𝑎𝑎 − 1 = 4;𝑓𝑓 = 20,𝑛𝑛𝑖𝑖 = 𝑛𝑛 = 5 . Para o nível de 5%, Tabela IX temos que 𝑠𝑠0,05 4; 20 = 2,65. Assim a diferença crítica torna-se:

𝑠𝑠0,05 4; 202𝑀𝑀𝑆𝑆𝐸𝐸𝑛𝑛

= 2,652(8,06)

5= 4,76

Observe que foi utilizada uma simplificação da equação anterior para projetos balanceados.

Análise de Variância – Teste Dunnett`s As diferenças das médias (3-5) e (4-5) indicam diferenças significativas , assim concluímos que 𝜇𝜇3 ≠ 𝜇𝜇5 𝑒𝑒 𝜇𝜇4 ≠ 𝜇𝜇5. Quando comparando tratamentos com um controle, é uma boa ideia usar mais observações para o tratamento de controle. A razão 𝑛𝑛𝑎𝑎 𝑛𝑛⁄ deve ser escolhida de forma que 𝑛𝑛𝑎𝑎 𝑛𝑛⁄ = 𝑎𝑎 , sendo 𝑛𝑛𝑎𝑎 o número de amostras do controle.

𝑠𝑠0,05 4; 202𝑀𝑀𝑆𝑆𝐸𝐸𝑛𝑛

= 2,652(8,06)

5= 4,76

Análise de Variância – Dispersão Até então usamos a análise de variância e métodos para determinar que níveis de fatores, resultam em diferentes médias entre os tratamentos. Caso tenhamos variâncias diferentes para diferentes tratamentos, usamos transformações para estabilizar a variância. Em alguns problemas, no entanto, estamos interessados em saber se os diferentes níveis dos fatores afetam a variabilidade, isto é estamos interessados em pesquisar se diferentes níveis dos fatores afetam a dispersão dos níveis. Isto ocorre quando o desvio padrão, variância e outras medições de variabilidade são usadas como resposta de saída.

Análise de Variância – Dispersão Para ilustrar esta ideia, consideremos os valores da tabela abaixo resultante de um experimento em uma fundição de alumínio. O alumínio é produzido pela combinação de alumina com outros ingredientes em uma célula de reação, com a aplicação de calor através de uma corrente elétrica que passa através da célula. Alumina é adicionado continuamente à célula para manter a proporção em relação aos outros ingredientes. Quatro algoritmos de controle da mistura são investigados neste experimento.

Análise de Variância – Dispersão A variável de resposta em estudo é relacionada a tensão elétrica da célula. Especificamente, um sensor mede a tensão da célula várias vezes a cada segundo, produzindo milhares de medições de tensão a cada experimento. O engenheiro de processo decide usar a média da tensão e o desvio padrão da tensão da célula (entre parênteses) como variáveis de resposta. A tensão média é importante pois afeta a temperatura da célula e o desvio padrão da tensão afeta a eficiência da célula.

Análise de Variância – Dispersão Uma análise de variância foi feita para determinar se os diferentes algoritmos de controle afetam a tensão da célula. O experimento revelou que os diferentes algoritmos de controle não alteram a tensão média da célula.

Análise de Variância – Dispersão Análise de variância foi feita para determinar se os diferentes algoritmos de controle afetam a tensão da célula.

Análise de Variância – Dispersão Para investigar os efeitos da dispersão é melhor usar log 𝑐𝑐 𝑜𝑜𝑜𝑜 log 𝑐𝑐2 como variável de resposta, uma vez que as transformações logarítmicas são eficazes em estabilizar a variabilidade em distribuições de amostras de desvio padrão. Como todas as amostras de desvio padrão são menores do que a unidade, usaremos 𝑦𝑦 =− ln 𝑐𝑐 como variável de resposta.

Análise de Variância – Dispersão

− ln 0,05 = 2,995732

Análise de Variância – Dispersão

Análise de Variância – Dispersão A análise da variância do Log Natural dos desvios padrões produz os seguintes resultados:

Como foi feita uma transformação das variâncias – ln, devemos interpretar que a menor variância corresponde à maior, assim o Alg 3 produz a maior variância.

Análise de Variância – Dispersão Pela análise dos resultados verificamos que o algoritmo de controle afeta a dispersão, hipótese 𝐻𝐻0 descartada. Testes padrões de adequação do modelo, indicam que não há problemas com a validade do experimento.

0,500,250,00-0,25-0,50

99

90

50

10

1

Residual

Per

cent

3,53,02,5

0,50

0,25

0,00

-0,25

-0,50

Fitted ValueR

esid

ual

0,60,40,20,0-0,2-0,4

4,8

3,6

2,4

1,2

0,0

Residual

Freq

uenc

y

Normal Probability Plot Versus Fits

Histogram

Residual Plots for Alg 1; Alg 2; Alg 3; Alg 4

Análise de Variância – Dispersão Pela análise dos box plots e as médias dos valores, notamos que o algoritmo 3 produz maior dispersão que os algoritmos 1, 2 e 4, que entre si não apresentam diferenças significativas.

Alg 4Alg 3Alg 2Alg 1

4,0

3,5

3,0

2,5

2,0

Dat

a

Boxplot of Alg 1; Alg 2; Alg 3; Alg 4

Análise de Variância – Dispersão Pela análise dos box plots e as médias dos valores, notamos que o algoritmo 3 produz maior dispersão que os algoritmos 1, 2 e 4, que entre si não apresentam diferenças significativas.

Média das variâncias=MSE= (0,058652+0,134496+0,054603+0,126577)/4=0,093582