inferência e testes de hipóteses
TRANSCRIPT
Universidade Federal da Paraíba - Centro de Ciências Sociais Aplicadas - Programa de Pós-Graduação em Ciências Contábeis
Campus I - Cidade Universitária - CEP 58.051-900 - João Pessoa/PBTelefone: +55 (83) 3216 7285 - http://ccsa.ufpb.br/ppgcc - e-mail: [email protected]
TESTES DE HIPÓTESESLuiz Felipe de Araújo Pontes Girão
Definições iniciais. Tipos de erros. Testes t. ANOVA. Testes não paramétricos.
Introdução1. Quando eu estiver fazendo qualquer procedimento no
Stata ou na apresentação dos slides, fechem seus computadores e olhem apenas para mim. Algumas pessoas estão se perdendo na aula muito provavelmente porque estão tentando fazer os procedimentos ao mesmo tempo que eu.
2. Revisão do exercício da aula passada.
3. Enviarei pelo SIGAA um material da aula de revisão de matrizes. São exercícios que vocês resolverão em casa e alguns alunos serão selecionados (aleatoriamente) para apresentar as respostas no quadro.
www.ccsa.ufpb.br/ppgcc
Inferência• O que é?• É o processo de generalizar os resultados da população a
partir de uma amostra.
• Como fazemos isso?• Testando algumas hipóteses.
www.ccsa.ufpb.br/ppgcc
Hipótese de pesquisa x hipótese estatística
• A hipótese estatística é aquela que utilizamos nos testes estatísticos (SIC!), enquanto que a de pesquisa é formulada a partir da teoria que utilizamos como base para o nosso artigo.• Exemplos:• H0: p = 0 (hipótese nula)• H1: p ≠ 0 (hipótese alternativa)
• H0: não houve uma melhoria na qualidade das informações contábeis após a convergência contábil internacional• H1: houve uma melhoria na qualidade das informações
contábeis após a convergência contábil internacional
www.ccsa.ufpb.br/ppgcc
Nós REJEITAMOS ou NÃO REJEITAMOS as hipóteses
Uma pode ser usada para testar a outra
Felipe Pontes 5
Hipótese de pesquisa x hipótese estatística
• Não confundam isso em seus artigos!
• No dia 25/03/2017, antes de atualizar os slides da aula, eu tomei uma decisão em um artigo da RECFin em que os autores confundiram o conceito das duas hipóteses.
• Isso conta pontos negativos, apesar ser facilmente ajustada.
www.contabilidademq.blogspot.com
Teste de hipóteses e tipos de erros
www.ccsa.ufpb.br/ppgcc Fonte: allpsych.com
Teste de hipóteses e tipos de erros
www.ccsa.ufpb.br/ppgcc
Fonte: Scientific Illustration for the Research Scientist | somersault18:24
Testes de hipóteses• E assim começa esse artigo...
www.ccsa.ufpb.br/ppgcc
Baseado em Wasserstein e Lazar (2016)
Testes de hipótesesDefinição do p-value: (…) is the probability under a specified statistical model (hipótese nula) that a statistical summary of the data (for example, the sample mean difference between two compared groups) would be equal to or more extreme than its observed value.• Além do p, é importante verificar o size effect (R², diferença entre as
médias e as categorias, tamanho dos coeficientes) e o intervalo de confiança.
Statistical significance is the least interesting thing about the results. You should describe the results in terms of measures of magnitude –not just, does a treatment affect people, but how much does it affect them.-Gene V. Glass1
The primary product of a research inquiry is one or more measures of effect size, not P values.-Jacob Cohen2
• Adicionalmente, veja o critério M.A.G.I.C. (MUITO IMPORTANTE AVALIAR ISSO NOS ARTIGOS!)
www.ccsa.ufpb.br/ppgcc
Baseado em Wasserstein e Lazar (2016)
Testes de hipóteses
www.ccsa.ufpb.br/ppgcc
Fonte: www.psychstat.missouristate.edu
Testes de hipóteses
www.ccsa.ufpb.br/ppgcc
Fonte: www.portalaction.com.br
Testes de hipóteses
www.ccsa.ufpb.br/ppgcc
Fonte: www.portalaction.com.br
Testes de hipóteses6 princípios básicos da ASA sobre o p-value:
1. O p-value pode indicar o quão incompatíveis são os dados, com relação a uma hipótese nula(H0) (quanto menor for o p-value, maior é a incompatibilidade dos dados com a H0) (H0: a transparência das empresas do novo mercado é igual a das empresas no mercado tradicional)
2. O p-value não mensura a probabilidade da hipótese ser verdadeira, ou de os resultados terem sidos produzidos pela sorte (nós REJEITAMOS ou NÃO REJEITAMOS a H0)
3. Não tire conclusões apenas analisando se o p-value passou ou não pelo famoso bright-line de 5% (analise outros fatores no contexto, como a metodologia escolhida, a qualidade das proxies, outras evidências sobre o fenômeno estudado etc.)
4. Dê full disclosure à sua inferência (não reporte de forma seletiva/”p-hacking” e divulgue todas as escolhas feitas)
5. O p-value não mensura o tamanho do efeito (pode-se ter um p pequeno se o tamanho da amostra ou a precisão da proxy for alta, ou o contrário com uma amostra pequena e proxy imprecisa)
6. Sozinho, o p-value não é uma boa evidência com relação a H0 (sem contextualização, ele é limitado e a análise dos dados não deve se limitar a ele – façam uma boa descritiva!)www.ccsa.ufpb.br/ppgcc
Baseado em Wasserstein e Lazar (2016)
Testes de hipóteses• Wasserstein e Lazar (2016) concluem o artigo da seguinte forma (adaptado
por mim):Uma boa prática estatística, como um componente essencial da boa prática científica, deve enfatizar:
1. Princípios de uma boa metodologia2. Uma variedade de descrições gráficas e numéricas dos dados
(costumamos fazer testes de robustez/sensibilidade)3. Entendimento do fenômeno em estudo (quem tem teoria tem tudo!)4. Interpretação dos resultados com o contexto da pesquisa (teoria,
ambiente informacional, regulação etc)5. Full disclosure6. Entendimento lógico e quantitativo para interpretar o que a análise
dos dados quer dizer (a rejeição da hipótese pode ser devida ao size effect ou sampling error, mas o p-value não nos diz nada sobre isso, apenas rejeita a H0)
7. Nenhum single index (a exemplo do p-value) deve substituir a razão científica.
www.ccsa.ufpb.br/ppgcc
p-hacking
• Na prática, os softwares já nos dão o p-value.
• O que podemos inferir a partir dos resultados apresentados?
lnvm 394 0.4364 0.1047 3.25 0.1971 Variable Obs Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 joint Skewness/Kurtosis tests for Normality
. sktest lnvm
valor_de_m~o 394 0.0000 0.0000 . 0.0000 Variable Obs Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 joint Skewness/Kurtosis tests for Normality
. sktest valor_de_mercado
Testes de hipóteses
www.ccsa.ufpb.br/ppgcc
Pr(Skewness) H0: Assimetria é igual à de uma distribuição normal
Pr(Kurtosis) H0: Curtose é igual à de uma distribuição normal
Joint H0: em conjunto, a assimetria e curtose são iguais à de uma normal
Sktest é baseado em D’Agostino, Belanger, and D’Agostino (1990)
Testes de hipótesesPARAMÉTRICOS
• Utilizamos esses testes quando atendemos aos pressupostos da normalidade e da homocedasticidade, basicamente.
• Existem autores que dizem que em amostras grandes (maiores que 30, 50, 100, depende do autor – já vi 10!) podemos pressupor a normalidade (PESTANA; GAGEIRO, 2009).
• No caso da ocorrência da heterocedasticidade, podemos estimar o teste robusto em alguns casos (e.g. ANOVA de Welch).
www.ccsa.ufpb.br/ppgcc
É preciso atribuir códigos numéricos aos grupos – ver o arquivo “Exemplo (QIC)”
Testes de hipóteses• Para testar médias, precisamos converter a diferença entre as
médias de duas amostras em termos de desvio padrão (como o z-escore da aula passada).
• Para saber se essa diferença amostral é estatisticamente significativa (se é uma diferença real e não é apenas um erro amostral), é preciso estabelecer um nível de significância (geralmente 5% na nossa área) e testar contra o z tabelado.
www.ccsa.ufpb.br/ppgcc
z=( 𝑋 1−𝑋 2 )𝜎 ( 𝑋1− 𝑋 2)
Testes de hipótesesPassos para o teste de médias (H0: m1 = m2):• 1º Calcular a média de cada amostra• 2º Calcular a variância dos escores brutos:
• 3º Calcular o erro padrão da diferença entre as médias:
• 4º Calcular a razão t (gl = N1 + N2 - 2):
www.ccsa.ufpb.br/ppgcc
𝑡= ( 𝑋 1−𝑋 2 )𝑠 (𝑋 1−𝑋 2 )
Nota Turma 1 Nota Turma 2
8 8
10 7
7 7
6 5
10 3
Avaliem se as médias dessas turmas são estatisticamente diferentes, ao nível de 5% e 20%.P.s.: teste bilateral, divida o alfa por 2.
Isso é importante para vocês saberem que não basta os números serem diferentes!
Felipe Pontes 19
Testes de hipóteses• Para rodar o teste no Stata, preciso organizar a planilha:
www.contabilidademq.blogspot.com
Notas Grupo (turmas)
8 1
10 1
7 1
6 1
10 1
8 2
7 2
7 2
5 2
3 2
Pr(T < t) = 0.9479 Pr(|T| > |t|) = 0.1041 Pr(T > t) = 0.0521 Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
Ho: diff = 0 degrees of freedom = 8 diff = mean(1) - mean(2) t = 1.8333 diff 2.2 1.2 -.567205 4.967205 combined 10 7.1 .6741249 2.13177 5.575023 8.624977 2 5 6 .8944272 2 3.516672 8.483328 1 5 8.2 .8 1.788854 5.978844 10.42116 Group Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] Two-sample t test with equal variances
. ttest mediaturmas, by(turmas)Testes de hipóteses
www.ccsa.ufpb.br/ppgcc
𝑆𝐸=𝜎√𝑛
O que acontece quando aumentamos o tamanho
de n?
Insira os dados do slide anterior no Stata e rode o teste
Felipe Pontes 21
Testes de hipóteses• Se a planilha estiver organizada assim:
• O comando seria: ttest var1==var2, unpaired
www.contabilidademq.blogspot.com
Nota Turma 1(var1)
Nota Turma 2(var2)
8 8
10 7
7 7
6 5
10 3
Testes de hipóteses
• Exercício adaptado de Levin, Fox e Forde (2012) quanto a um índice de apoio à reforma do Sistema de saúde:
• Média da amostra 1 (n1=25) = 60• Média da amostra 2 (n2=35) = 49• Erro padrão da diferença das médias = 3,52
a) Quantos graus de liberdade você terá para realizar esse teste de médias?
b) Teste se existe diferença entre as médias ao nível de 1%, 5% e 10%.
www.ccsa.ufpb.br/ppgcc
Ajuste para variâncias desiguais
• No teste anterior nós combinamos as variâncias de duas amostras, presumindo que , como não sabemos a variância da população, utilizamos a das amostras para aproximar.• Teste de homogeneidade das variâncias: Levene (há também
uma “regra de bolso” que diz que se uma amostra tem variância 2 vezes, ou mais, maior do que a da outra, há evidências de heterogeneidade).• Em caso de heterogeneidade, o erro padrão é calculado dessa
forma, sem combinar as variâncias:
• Refaça o exercício das notas das turmas considerando que as variâncias são heterogêneas. Considere os mesmos gl neste exercício.
www.ccsa.ufpb.br/ppgcc
𝑠𝑋 1−𝑋 2=√ 𝑠12
𝑁 1−1+
𝑠22
𝑁2−1
Testes de hipóteses
Pr(T < t) = 0.9515 Pr(|T| > |t|) = 0.0971 Pr(T > t) = 0.0485 Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
Ho: diff = 0 Welch's degrees of freedom = 9.85366 diff = mean(1) - mean(2) t = 1.8333 diff 2.2 1.2 -.479159 4.879159 combined 10 7.1 .6741249 2.13177 5.575023 8.624977 2 5 6 .8944272 2 3.516672 8.483328 1 5 8.2 .8 1.788854 5.978844 10.42116 Group Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] Two-sample t test with unequal variances
. ttest mediaturmas, by(turmas) unequal welch
www.ccsa.ufpb.br/ppgcc
Insira os dados do slide anterior no Stata e rode o teste
Testes de hipóteses
W10 = 0.09090909 df(1, 8) Pr > F = 0.77071328
W50 = 0.00000000 df(1, 8) Pr > F = 01
W0 = 0.09090909 df(1, 8) Pr > F = 0.77071328
Total 7.1 2.1317703 10 2 6 2 5 1 8.2 1.7888544 5 turmas Mean Std. Dev. Freq. Summary of mediaturmas
. robvar mediaturmas, by(turmas)
www.ccsa.ufpb.br/ppgcc
W0 é Levene e W50 é o teste de Brown.
Com base nisso, devemos rejeitar ou não rejeitar a homogeneidade das variâncias?
Insira os dados do slide anterior no Stata e rode o teste
Amostras dependentes (emparelhadas)
• O teste t anterior era utilizado para amostras independentes (turma 1 x turma 2, liberais x conservadores, BRA x EUA etc). Agora o teste é para a mesma amostra, mas em momentos distintos (exemplos?).• Passos para testar amostras dependentes:
1. Calcule a média para cada ponto no tempo2. Calcule o desvio padrão para a diferença entre o “tempo” 1
e o “tempo” 2 (D): ²3. Calcule o erro padrão da diferença entre as médias:4. Calcule o t: 5. Faça o teste com base nos gl e a 1%, 5% e 10%.
www.ccsa.ufpb.br/ppgcc
Antes Depois
2 1
1 2
3 1
3 1
1 2
4 1
Amostras dependentes (emparelhadas)
Pr(T < t) = 0.8984 Pr(|T| > |t|) = 0.2031 Pr(T > t) = 0.1016 Ha: mean(diff) < 0 Ha: mean(diff) != 0 Ha: mean(diff) > 0
Ho: mean(diff) = 0 degrees of freedom = 5 mean(diff) = mean(var1 - var2) t = 1.4639 diff 6 1 .6831301 1.67332 -.7560417 2.756042 var2 6 1.333333 .2108185 .5163978 .7914071 1.87526 var1 6 2.333333 .4944132 1.21106 1.062404 3.604263 Variable Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] Paired t test
. ttest var1==var2
www.ccsa.ufpb.br/ppgcc
Para esse teste não é possível usar a opção by()
Insira os dados do slide anterior no Stata e rode o teste
Amostras dependentes (emparelhadas)
• Teste com os dados da planilha “AULA 3 - INFERÊNCIA - APLICAÇÕES PRÁTICAS1”, aba “teste t emparelhado”. Com esses mesmos dados, use o teste t para amostras independentes e compare os resultados.
• Não escreva a análise agora. Isso será feito no final da aula.
www.ccsa.ufpb.br/ppgcc
Testes unilaterais• A diferença básica está na forma como as hipóteses são
apresentadas e no tipo de tabela t que é usada, porém a matemática é igual.
• O teste bilateral diz que existem diferenças (e.g. existem diferenças no AD após a adoção das IFRS).
• O teste unilateral nos diz em que sentido essa diferença está, (e.g. os AD são menores após a adoção das IFRS).
www.ccsa.ufpb.br/ppgccFonte: LFF (2012)
Felipe Pontes 30
Testes unilaterais
www.contabilidademq.blogspot.com
Testes unilaterais• Passos para testar amostras dependentes de forma
unilateral:1. Calcule a média para cada ponto no tempo2. Calcule o desvio padrão para a diferença entre o “tempo” 1
e o “tempo” 2 (D): ²3. Calcule o erro padrão da diferença entre as médias:4. Calcule o t: 5. Faça o teste com base nos gl e a 1%, 5% e 10%.
www.ccsa.ufpb.br/ppgcc
Estudante Antes Depois
1 58 66
2 63 68
3 66 72
4 70 76
5 63 78
6 51 56
7 44 69
8 58 55
9 50 55
Teste se depois do reforço houve melhora nas notas:
Teste:H0: O reforço não melhora a média dos alunos (mA = mD)H1: O reforço melhora a média dos alunos (mA < mD)
Pr(T < t) = 0.0079 Pr(|T| > |t|) = 0.0157 Pr(T > t) = 0.9921 Ha: mean(diff) < 0 Ha: mean(diff) != 0 Ha: mean(diff) > 0
Ho: mean(diff) = 0 degrees of freedom = 8 mean(diff) = mean(var1 - var2) t = -3.0542 diff 9 -8 2.619372 7.858117 -14.04028 -1.959717 var2 9 66.11111 2.969495 8.908485 59.26344 72.95878 var1 9 58.11111 2.805968 8.417904 51.64054 64.58169 Variable Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] Paired t test
. ttest var1==var2
Testes unilaterais
www.ccsa.ufpb.br/ppgcc
Insira os dados do slide anterior no Stata e rode o teste
Testes unilaterais• Passos para testar amostras independentes de forma
unilateral:1. Calcule a média para cada amostra.2. Calcule o desvio padrão amostral de cada amostra: 3. Calcule o erro padrão da diferença entre as médias: 4. Calcule o t: 5. Faça o teste com base nos gl e a 1%, 5% e 10%.6. H0: m1 = m2 // H1: m2 > m1
www.ccsa.ufpb.br/ppgcc
Nota Turma 1 Nota Turma 2
8 8
10 7
7 7
6 5
10 3
Avaliem se a média da T1 é maior do que a T2, a 1%, 5% e 10%.
Testes unilaterais
Pr(T < t) = 0.9479 Pr(|T| > |t|) = 0.1041 Pr(T > t) = 0.0521 Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
Ho: diff = 0 degrees of freedom = 8 diff = mean(1) - mean(2) t = 1.8333 diff 2.2 1.2 -.567205 4.967205 combined 10 7.1 .6741249 2.13177 5.575023 8.624977 2 5 6 .8944272 2 3.516672 8.483328 1 5 8.2 .8 1.788854 5.978844 10.42116 Group Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] Two-sample t test with equal variances
. ttest mediaturmas, by(turmas)
www.ccsa.ufpb.br/ppgcc
Insira os dados do slide anterior no Stata e rode o teste
Testes unilaterais• Teste no Stata se a média da turma 1 é maior do que a da turma
2.
www.ccsa.ufpb.br/ppgcc
Nota Turma 1 Nota Turma 28 3
10 27 06 5
10 3
Pressupostos do t1. O z e o t são utilizados para comparar médias entre duas
amostras independentes ou de uma mesma amostra medida em dois “tempos” diferentes.
2. Esse teste é indicado para dados intervalares, não para nominais ou ordinais (para este existem evidências mostrando o contrário – ver próximo slide).
3. É recomendado que se use uma amostragem aleatória (na prática isso não é um problema recorrente).
4. Para amostras pequenas (o que é isso?) os dados têm que ser normalmente distribuídos.
5. As variâncias precisam ser homogêneas (existem correções para isso no teste t ou usando uma versão não paramétrica – há controvérsias).
www.ccsa.ufpb.br/ppgcc
Relaxando alguns pressupostos…1. Em amostras grandes podemos relaxar a normalidade e a homocedasticidade
tem alguns ajustes fáceis de se fazer nos softwares.2. Sobre o teste t com dados ordinais, temos versões não paramétricas (MW e
Wilcoxon - MWW), porém há como se argumentar o uso do teste t (mas com cuidado) (Winter, Dodou, 2010):
a) Para distribuições muito não normais (e.g. exponencial) ou com outliers, MWW tem mais poder (Blair & Higgins, 1980; Bridge & Sawilowsky, 1999; MacDonald, 1999; Neave & Granger, 1968);
b) Testes não paramétricos são melhores para amostras pequenas e o t melhora à medida que a amostra aumenta, pelo Teorema do Limite Central (Lumley, Diehr, Emerson, & Chen, 2002), porém há evidências de que MWW também melhoram o poder em amostras grandes (Nanna, Sawilowky, 1998); e
c) MWW tem a mesma interpretação do t, após fazer o rankeamento das amostras (pois existe a versão na mediana desse teste);
d) Especificamente para escalas Likert de 5 pontos: não devemos perder nosso sono com esse tipo de “problema” (Winter, Dodou, 2010).
www.ccsa.ufpb.br/ppgcc
ANOVA• Quantos grupos nós estávamos comparando com o teste t?
• Na ANOVA nós podemos comparar mais de 2 grupos! Isso é um diferencial muito importante em nossas pesquisas. Não podemos simplesmente fazer vários testes t:• Perdemos “poder” no teste, pois perderemos graus de
liberdade em cada teste;• Aumentamos a chance de cometer um erro do tipo I, por
erro na composição da amostra. A ANOVA mantém a probabilidade do erro do tipo I constante.
• Na ANOVA nós usamos o teste F, no lugar do t.
www.ccsa.ufpb.br/ppgcc
ANOVA Procedimentos para a ANOVA:• Cálculo das somas dos quadrados
• Média quadrática (variância)• , em que k é o número de grupos
• Razão F (F calculado)
www.ccsa.ufpb.br/ppgcc
Compara as variações entre e dentro dos grupos
Fonte de variação SQ gl MQ F
Entre 1.685 3 561,67 20,24
Dentro 444 16 27,75
Total 2.129 19
A satisfação com a vida difere de acordo com o estado civil? Faça o teste e decida, a 1% e 5%.
Percebam que a tabela da ANOVA é composta por valores positivos – variância.
ANOVA• Existem dois modelos de ANOVA:
• Modelo de efeitos fixos: definimos a priori os grupos (é o padrão).
• Modelo de efeitos aleatórios: os grupos são definidos aleatoriamente.
www.ccsa.ufpb.br/ppgcc
ANOVA• Verifique se há discriminação no emprego de pessoas do
sexo masculino e feminino. Você aplicou um questionário com alguns empresários em que foram usados 3 tipos de nomes: masculino, feminino e um nome neutro (grupo de controle), porém os currículos eram iguais exceto pelo nome do candidato. Teste a normalidade e a homogeneidade das variâncias antes.
www.ccsa.ufpb.br/ppgcc
Nota do currículo Masculino
Nota do currículo Neutro
Nota do currículo Feminino
6 2 3
7 5 2
8 4 4
6 3 4
4 5 3
Média = 6,2 3,8 3,2
Rode direto no Stata
Felipe Pontes 42
ANOVA
var1 15 0.3240 0.9213 1.08 0.5817 Variable Obs Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 joint Skewness/Kurtosis tests for Normality
. sktest var1
www.contabilidademq.blogspot.com
ANOVA
Bartlett's test for equal variances: chi2(2) = 1.1517 Prob>chi2 = 0.562
Total 43.6 14 3.11428571 Within groups 18.4 12 1.53333333Between groups 25.2 2 12.6 8.22 0.0056 Source SS df MS F Prob > F Analysis of Variance
. oneway var1 var2, bonferroni scheffe sidak
www.ccsa.ufpb.br/ppgcc
ANOVA
• Rode agora o seguinte comando: oneway var1 var2, tabulate
www.ccsa.ufpb.br/ppgcc
ANOVA• O teste F é um teste múltiplo. Se for rejeitada a hipótese de
igualdade (H0: = , H1: ), sabemos que pelo menos um grupo tem média diferente. Mas qual ou quais? O que você faria para descobrir quais são os pares diferentes?
• Para resolver esse problema usamos os testes post hoc, que se baseiam nas medidas utilizadas para o cálculo do teste F (não devemos usar vários testes t, por aumentar a chance do erro tipo I).
• São inúmeros. Recomendação: quando for usar, observe bem seus dados e escolha o mais adequado.
www.ccsa.ufpb.br/ppgcc
ANOVA – Post hocs• Bonferroni: é apropriado quando o número de comparações () é maior
do que os graus de Liberdade entre os grupos (k-1). É muito conservador e seu poder diminui à medida que o número de comparações aumenta. Não requer que a ANOVA tenha sido significante. Tem um bom controle do erro tipo I.
• LSD de Fisher: é o mais liberal de todos. É mais apropriado para quando temos 3 grupos. É como se usássemos múltiplos testes t (ou seja, não tenta controlar o erro tipo I). Requer que a ANOVA tenha sido significante.
• Newman-Keuls (SNK): é apropriado quando o número de comparações excede os graus de liberdade. Se você não quer ser tão conservador quanto o Bonferroni, ele é uma boa escolha. Ou seja… é muito liberal.
www.ccsa.ufpb.br/ppgcc
ANOVA – Post hocs• HSD de Tukey: controla bem o erro do tipo I. É apropriado para
um grande número de grupos. É o post hoc mais popular.
• WSD de Tukey: é indicado quando temos mais de k-1 e menos do que comparações. É menos conservador do que o HSD e mais conservador do que o Newman-Kuels.
• Scheffe: é o mais conservador de todos! Ele tem baixo poder com poucas comparações (menos do que k-1).
www.ccsa.ufpb.br/ppgcc
ANOVA – Post hocs• Gabriel: quando os valores dos N’s dos grupos for pouco
diferente.
• GT2 de Hochberg: indicado quando os N’s forem muito diferentes. Porém é preciso ter variâncias homogêneas.
• Games-Howel: para N’s diferentes e variâncias heterogêneas.
Existem muitas opções e muitos detalhes. Não se limitem a só essas informações que estão muito resumidas!
www.ccsa.ufpb.br/ppgcc
ANOVA – Post hocs• Com os mesmos dados do exercício anterior, aplique os diversos
post hocs e compare seus resultados.
www.ccsa.ufpb.br/ppgcc
ANOVA – Post hocs• oneway var1 var2, bonferroni scheffe sidak
www.ccsa.ufpb.br/ppgcc
0.007 0.841 3 -3 -.6 0.029 2 -2.4 Col Mean 1 2Row Mean- (Sidak) Comparison of var1 by var2
0.008 0.751 3 -3 -.6 0.031 2 -2.4 Col Mean 1 2Row Mean- (Scheffe) Comparison of var1 by var2
0.007 1.000 3 -3 -.6 0.029 2 -2.4 Col Mean 1 2Row Mean- (Bonferroni) Comparison of var1 by var2
0.007 0.841 3 -3 -.6 0.029 2 -2.4 Col Mean 1 2Row Mean- (Sidak) Comparison of var1 by var2
0.008 0.751 3 -3 -.6 0.031 2 -2.4 Col Mean 1 2Row Mean- (Scheffe) Comparison of var1 by var2
0.007 1.000 3 -3 -.6 0.029 2 -2.4 Col Mean 1 2Row Mean- (Bonferroni) Comparison of var1 by var2
0.007 0.841 3 -3 -.6 0.029 2 -2.4 Col Mean 1 2Row Mean- (Sidak) Comparison of var1 by var2
0.008 0.751 3 -3 -.6 0.031 2 -2.4 Col Mean 1 2Row Mean- (Scheffe) Comparison of var1 by var2
0.007 1.000 3 -3 -.6 0.029 2 -2.4 Col Mean 1 2Row Mean- (Bonferroni) Comparison of var1 by var2
Pressupostos da ANOVA• Sobre a heterocedasticidade na ANOVA:• Pode-se usar alguma transformação dos dados;• Brown-Forsythe (os “n” dos grupos são semelhantes);• Welch (os “n” não são semelhantes); e• Kruskal-Wallis (não paramétrico).
www.ccsa.ufpb.br/ppgcc
Ver: “Adjusting the One-way ANOVA for Heterogeneity of Variance” http://www.psych.nyu.edu/cohen/eps12dr1.pdf
ANOVA robusta para heterogeneidade
findit simanova1) simanova var1 var2• Esse comando fará várias simulações para tentar ajustar o problema da
heterogeneidade2) fstar var1 var2• Esse comando ajusta o teste F padrão, fazendo com que ele fique menos
sensível a heterogeneidadefindit wtest3) wtest var1 var2• ANOVA de Welch.4) É possível também rodar regressões robustas, com a variável de interesse sendo a dependente e as dummies dos grupos como sendo independentes.
www.ccsa.ufpb.br/ppgcc
Felipe Pontes 53
Teste t robusto• No teste t também podemos usar a forma robusta para
heterogeneidade das variâncias.
• Comando: ttest VARIÁVEL, by(GRUPO) welch
www.contabilidademq.blogspot.com
Pressupostos da ANOVA• É preciso ter mais de dois grupos para se comparar.
• Os dados devem ser intervalares, porém os grupos são categorizados.
• Amostragem aleatória.
• Distribuição normal.
• Homogeneidade das variâncias.
www.ccsa.ufpb.br/ppgcc
ANOVA - Aplicação• Use os dados da planilha “AULA 3 - INFERÊNCIA -
APLICAÇÕES PRÁTICAS1” para analisar não mais par a par, mas os 3 grupos de uma só vez. Rode também os modelos robustos para heterocedasticidade.
• Não precisa escrever a análise agora. Apenas rodar os testes.
www.ccsa.ufpb.br/ppgcc
Testes não paramétricos• Seguem o mesmo raciocínio dos paramétricos, porém sem os
pressupostos.
• Para cada paramétrico nós temos um não paramétrico correspondente.
www.ccsa.ufpb.br/ppgcc
Mensuração Amostra independente Amostra emparelhada
Intervalar (antende aos pressupostos)
Teste t para amostras independentes (mais de 2
grupos ANOVA)
Teste t para amostras emparelhadas
Ordinal e intervalar (não atende aos pressupostos)
Mann-Whitney (mais de 2 grupos Kruskal-Wallis) Wilcoxon
Nominal (duas categorias - C) Chi² tabela 2x2 McNemar
Nominal (C > 2) Chi² tabela 2xC
Ex.:Ordinal é qualitativo e impõe uma ordem: satisfação, escolaridade, nível de governança etc.Nominal é categórico, não dá para dizer que uma categoria é melhor que a outra: nome, gênero etc.Intervalar é quantitativo, é possível calcular média, moda, mediana etc: lucro, preço etc.
Testes não paramétricosRefaça todos os testes que fizemos no Stata, porém agora com suas versões não paramétricas. Compare os resultados.• Kruskall-Wallis: kwallis VARIÁVEL, by(GRUPO)
(H0: igualdade entre os grupos)• Wilcoxon-Mann-Whitney: ranksum VARIÁVEL, by(GRUPO)• Outro teste de mediana: median VARIÁVEL, by(GRUPO) exact
(H0: igualdade entre os grupos)• Teste dos postos de Wilcoxon (emparelhado): signrank
var1=var2• Teste dos sinais de Snedecor e Cochran (emparelhado):
signtest var1=var2
www.ccsa.ufpb.br/ppgcc
Exercício• Vamos às análises! Faça os testes dos pressupostos de
normalidade de homocedasticidade antes dos testes de média.
1. A variável VarCaixa, na planilha “AULA 3 - INFERÊNCIA - APLICAÇÕES PRÁTICAS1” (aba “ANOVA e teste independente), representa a variação no caixa-meta de 3 grupos de empresas brasileiras, enquanto que VarAbsCaixa é a variação absoluta. A. Analise, com base em um teste t para amostras
independentes, se há diferença na média das duas variáveis do grupo 1 e do grupo 3.
Comandos: acesse o post do blog.
www.ccsa.ufpb.br/ppgcc
Exercício• Vamos às análises! Faça os testes dos pressupostos de
normalidade de homocedasticidade antes dos testes de média.
1. A variável VarCaixa, na planilha “AULA 3 - INFERÊNCIA - APLICAÇÕES PRÁTICAS1” (aba “ANOVA e teste independente), representa a variação no caixa-meta de 3 grupos de empresas brasileiras, enquanto que VarAbsCaixa é a variação absoluta.
A. Analise, com base em um teste t para am ostras independentes, se há di ferença na m édia das duas variáveis do grupo 1 e do grupo 3.
B. Analise, com base em uma ANOVA, se há diferença entre os 3 grupos. Verifique com os post-hocs quais grupos são diferentes, se houver diferença.
Comandos: acesse o post do blog.C. Refaça a anál ise da letra A e da letra B usando um teste não param étrico equivalente.
www.ccsa.ufpb.br/ppgcc
Exercício• Vamos às análises! Faça os testes dos pressupostos de
normalidade de homocedasticidade antes dos testes de média.
1. A variável VarCaixa, na planilha “AULA 3 - INFERÊNCIA - APLICAÇÕES PRÁTICAS1” (aba “ANOVA e teste independente), representa a variação no caixa-meta de 3 grupos de empresas brasileiras, enquanto que VarAbsCaixa é a variação absoluta. A. Analise, com base em um teste t para amostras independentes, se há diferença na média das duas variáveis do grupo 1 e do grupo 3.
B. Analise, com base em uma ANOVA, se há diferença entre os 3 grupos. Verifique com os post-hocs quais grupos são diferentes, se houver diferença.
C. Refaça a análise da letra A e da letra B usando um teste não paramétrico equivalente.
Comandos: acesse o post do blog.
www.ccsa.ufpb.br/ppgcc
Exercício• Vamos às análises! Faça os testes dos pressupostos de
normalidade de homocedasticidade antes dos testes de média.
1. A
2. A aba “Teste t emparelhado” apresenta o PL das empresas brasileiras em um determinado ano, antes e após a adoção das IFRS. Verifique se a adoção das IFRS impactou o PL das companhias brasileiras. Nada, positivamente ou negativamente?
3. Refaça o exercício 2 usando um teste t para amostras não emparelhadas (independentes) e verifique se houve mudança na sua decisão.
www.ccsa.ufpb.br/ppgcc
Exercício• Vamos às análises! Faça os testes dos pressupostos de
normalidade de homocedasticidade antes dos testes de média.
1. A
2. A planilha “Teste t emparelhado” apresenta o PL das empresas brasileiras em um determinado ano, antes e após a adoção das IFRS. Verifique se a adoção das IFRS impactou o PL das companhias brasileiras. Nada, positivamente ou negativamente?
3. Refaça o exercício 2 usando um teste t para amostras não emparelhadas (independentes) e verifique se houve mudança na sua decisão.
www.ccsa.ufpb.br/ppgcc
Questões1. Defina erro tipo I e II.2. Como evitar os dois tipos de erros?3. Como estimar a probabilidade dos dois tipos de erros? Se não houver
como estimar, explique o porquê.4. Qual é a diferença entre um teste de médias e um teste de proporções?5. Explique o objetivo, de forma sucinta, dos testes unilaterais e bilaterais.6. Qual é o argumento normalmente utilizado para invalidar o uso do teste
t em dados ordinais?7. Por que a tabela do teste F é composta por números positivos?8. Foram vistos três post-hocs da ANOVA no Stata. Para qual situação cada
um deles é mais adequado?
www.ccsa.ufpb.br/ppgcc
Recomendação de leitura• GIGERENZER, G. Mindless statistics. The Journal of Socio-Economics, v.33,
2004.
• IOANNIDIS, J.P.A. Fit-for-purpose inferential methods: abandoning/changing P-values versus abandoning/changing research. The American Statistician, 2016.
• POOLE, C. Low p-values or narrow confidence intervals: which are more durable? Epidemiology, v.12, n.3, 2001.
• SCHERVISH, M.J. P-values: what they are and what they are not. The American Statistician, v.50, n.3, 1996.
• WASSERSTEIN, R.L.; LAZAR, N.A. The ASA’s statement on p-values: context, process, and purpose. The American Statistician, 2016.
www.ccsa.ufpb.br/ppgcc
Recomendação de leitura• O fim do p-value 1: http://
contabilidademq.blogspot.com.br/2015/11/o-fim-da-inferencia-e-do-p-value.html • O fim do p-value 2: http://
contabilidademq.blogspot.com.br/2016/03/o-fim-da-inferencia-e-do-p-value-o.html • Intervalo de confiança e a mídia:
http://fivethirtyeight.com/features/ignore-the-headlines-we-dont-know-if-e-cigs-lead-kids-to-real-cigs/ • P-hacking:
http://fivethirtyeight.com/features/science-isnt-broken/#part1 www.ccsa.ufpb.br/ppgcc
66
Para ter acesso a mais conteúdos, acesse:
• Blogswww.ContabilidadeMQ.blogspot.comwww.FinancasAplicadasBrasil.blogspot.com
• Facebook:www.facebook.com/ContabilidadeMQ
• Twitter:www.twitter.com/ContabilidadeMQ
• YouTube:www.youtube.com/FelipePontes16