inferência e testes de hipóteses

Universidade Federal da Paraíba - Centro de Ciências Sociais Aplicadas - Programa de Pós-Graduação em Ciências Contábeis

Campus I - Cidade Universitária - CEP 58.051-900 - João Pessoa/PBTelefone: +55 (83) 3216 7285 - http://ccsa.ufpb.br/ppgcc - e-mail: [email protected]

TESTES DE HIPÓTESESLuiz Felipe de Araújo Pontes Girão

[email protected]

Definições iniciais. Tipos de erros. Testes t. ANOVA. Testes não paramétricos.

mailto:[email protected]

[email protected] 2

Introdução1. Quando eu estiver fazendo qualquer procedimento no

Stata ou na apresentação dos slides, fechem seus computadores e olhem apenas para mim. Algumas pessoas estão se perdendo na aula muito provavelmente porque estão tentando fazer os procedimentos ao mesmo tempo que eu.

2. Revisão do exercício da aula passada.

3. Enviarei pelo SIGAA um material da aula de revisão de matrizes. São exercícios que vocês resolverão em casa e alguns alunos serão selecionados (aleatoriamente) para apresentar as respostas no quadro.

www.ccsa.ufpb.br/ppgcc

[email protected] 3

Inferência• O que é?• É o processo de generalizar os resultados da população a

partir de uma amostra.

• Como fazemos isso?• Testando algumas hipóteses.


[email protected] 4

Hipótese de pesquisa x hipótese estatística

• A hipótese estatística é aquela que utilizamos nos testes estatísticos (SIC!), enquanto que a de pesquisa é formulada a partir da teoria que utilizamos como base para o nosso artigo.• Exemplos:• H0: p = 0 (hipótese nula)• H1: p ≠ 0 (hipótese alternativa)

• H0: não houve uma melhoria na qualidade das informações contábeis após a convergência contábil internacional• H1: houve uma melhoria na qualidade das informações

contábeis após a convergência contábil internacional


Nós REJEITAMOS ou NÃO REJEITAMOS as hipóteses

Uma pode ser usada para testar a outra

Felipe Pontes 5

Hipótese de pesquisa x hipótese estatística

• Não confundam isso em seus artigos!

• No dia 25/03/2017, antes de atualizar os slides da aula, eu tomei uma decisão em um artigo da RECFin em que os autores confundiram o conceito das duas hipóteses.

• Isso conta pontos negativos, apesar ser facilmente ajustada.

www.contabilidademq.blogspot.com

[email protected] 6

Teste de hipóteses e tipos de erros

www.ccsa.ufpb.br/ppgcc Fonte: allpsych.com

http://allpsych.com/researchmethods/errors.html

[email protected] 7

Teste de hipóteses e tipos de erros


Fonte: Scientific Illustration for the Research Scientist | somersault18:24

https://www.facebook.com/somersault1824?fref=photo

https://www.facebook.com/somersault1824?fref=photo

[email protected] 8

Testes de hipóteses• E assim começa esse artigo...


Baseado em Wasserstein e Lazar (2016)

[email protected] 9

Testes de hipótesesDefinição do p-value: (…) is the probability under a specified statistical model (hipótese nula) that a statistical summary of the data (for example, the sample mean difference between two compared groups) would be equal to or more extreme than its observed value.• Além do p, é importante verificar o size effect (R², diferença entre as

médias e as categorias, tamanho dos coeficientes) e o intervalo de confiança.

Statistical significance is the least interesting thing about the results. You should describe the results in terms of measures of magnitude –not just, does a treatment affect people, but how much does it affect them.-Gene V. Glass1

The primary product of a research inquiry is one or more measures of effect size, not P values.-Jacob Cohen2

• Adicionalmente, veja o critério M.A.G.I.C. (MUITO IMPORTANTE AVALIAR ISSO NOS ARTIGOS!)



http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3444174/

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3444174/#i1949-8357-4-3-279-Kline1

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3444174/#i1949-8357-4-3-279-Cohen1

http://drafts.jsvine.com/the-magic-criteria/

[email protected] 10

Testes de hipóteses


Fonte: www.psychstat.missouristate.edu

http://www.google.com.br/url?sa=i&rct=j&q=&esrc=s&source=images&cd=&cad=rja&docid=Lvpp_LB1JivQWM&tbnid=1alxq4ObcyNVuM:&ved=0CAQQjB0&url=http://www.psychstat.missouristate.edu/introbook/sbk26.htm&ei=NWinUu-5Bo-0kAesxoHAAQ&bvm=bv.57799294,d.eW0&psig=AFQjCNF8NkakAdosjvi8Y8TBLrUC655dUQ&ust=1386789143566808




Fonte: www.portalaction.com.br

http://www.portalaction.com.br/538-511-erros-cometidos-nos-testes-de-hip%C3%B3teses


Testes de hipóteses6 princípios básicos da ASA sobre o p-value:

1. O p-value pode indicar o quão incompatíveis são os dados, com relação a uma hipótese nula(H0) (quanto menor for o p-value, maior é a incompatibilidade dos dados com a H0) (H0: a transparência das empresas do novo mercado é igual a das empresas no mercado tradicional)

2. O p-value não mensura a probabilidade da hipótese ser verdadeira, ou de os resultados terem sidos produzidos pela sorte (nós REJEITAMOS ou NÃO REJEITAMOS a H0)

3. Não tire conclusões apenas analisando se o p-value passou ou não pelo famoso bright-line de 5% (analise outros fatores no contexto, como a metodologia escolhida, a qualidade das proxies, outras evidências sobre o fenômeno estudado etc.)

4. Dê full disclosure à sua inferência (não reporte de forma seletiva/”p-hacking” e divulgue todas as escolhas feitas)

5. O p-value não mensura o tamanho do efeito (pode-se ter um p pequeno se o tamanho da amostra ou a precisão da proxy for alta, ou o contrário com uma amostra pequena e proxy imprecisa)

6. Sozinho, o p-value não é uma boa evidência com relação a H0 (sem contextualização, ele é limitado e a análise dos dados não deve se limitar a ele – façam uma boa descritiva!)www.ccsa.ufpb.br/ppgcc



Testes de hipóteses• Wasserstein e Lazar (2016) concluem o artigo da seguinte forma (adaptado

por mim):Uma boa prática estatística, como um componente essencial da boa prática científica, deve enfatizar:

1. Princípios de uma boa metodologia2. Uma variedade de descrições gráficas e numéricas dos dados

(costumamos fazer testes de robustez/sensibilidade)3. Entendimento do fenômeno em estudo (quem tem teoria tem tudo!)4. Interpretação dos resultados com o contexto da pesquisa (teoria,

ambiente informacional, regulação etc)5. Full disclosure6. Entendimento lógico e quantitativo para interpretar o que a análise

dos dados quer dizer (a rejeição da hipótese pode ser devida ao size effect ou sampling error, mas o p-value não nos diz nada sobre isso, apenas rejeita a H0)

7. Nenhum single index (a exemplo do p-value) deve substituir a razão científica.


p-hacking

http://fivethirtyeight.com/features/science-isnt-broken/#part2



• Na prática, os softwares já nos dão o p-value.

• O que podemos inferir a partir dos resultados apresentados?

lnvm 394 0.4364 0.1047 3.25 0.1971 Variable Obs Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 joint Skewness/Kurtosis tests for Normality

. sktest lnvm

valor_de_m~o 394 0.0000 0.0000 . 0.0000 Variable Obs Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 joint Skewness/Kurtosis tests for Normality

. sktest valor_de_mercado



Pr(Skewness) H0: Assimetria é igual à de uma distribuição normal

Pr(Kurtosis) H0: Curtose é igual à de uma distribuição normal

Joint H0: em conjunto, a assimetria e curtose são iguais à de uma normal

Sktest é baseado em D’Agostino, Belanger, and D’Agostino (1990)


Testes de hipótesesPARAMÉTRICOS

• Utilizamos esses testes quando atendemos aos pressupostos da normalidade e da homocedasticidade, basicamente.

• Existem autores que dizem que em amostras grandes (maiores que 30, 50, 100, depende do autor – já vi 10!) podemos pressupor a normalidade (PESTANA; GAGEIRO, 2009).

• No caso da ocorrência da heterocedasticidade, podemos estimar o teste robusto em alguns casos (e.g. ANOVA de Welch).


É preciso atribuir códigos numéricos aos grupos – ver o arquivo “Exemplo (QIC)”


Testes de hipóteses• Para testar médias, precisamos converter a diferença entre as

médias de duas amostras em termos de desvio padrão (como o z-escore da aula passada).

• Para saber se essa diferença amostral é estatisticamente significativa (se é uma diferença real e não é apenas um erro amostral), é preciso estabelecer um nível de significância (geralmente 5% na nossa área) e testar contra o z tabelado.


z=( 𝑋 1−𝑋 2 )𝜎 ( 𝑋1− 𝑋 2)


Testes de hipótesesPassos para o teste de médias (H0: m1 = m2):• 1º Calcular a média de cada amostra• 2º Calcular a variância dos escores brutos:

• 3º Calcular o erro padrão da diferença entre as médias:

• 4º Calcular a razão t (gl = N1 + N2 - 2):


𝑡= ( 𝑋 1−𝑋 2 )𝑠 (𝑋 1−𝑋 2 )

Nota Turma 1 Nota Turma 2

8 8

10 7

7 7

6 5

10 3

Avaliem se as médias dessas turmas são estatisticamente diferentes, ao nível de 5% e 20%.P.s.: teste bilateral, divida o alfa por 2.

Isso é importante para vocês saberem que não basta os números serem diferentes!

Felipe Pontes 19

Testes de hipóteses• Para rodar o teste no Stata, preciso organizar a planilha:


Notas Grupo (turmas)

8 1

10 1

7 1

6 1

10 1

8 2

7 2

7 2

5 2

3 2


Pr(T < t) = 0.9479 Pr(|T| > |t|) = 0.1041 Pr(T > t) = 0.0521 Ha: diff < 0 Ha: diff != 0 Ha: diff > 0

Ho: diff = 0 degrees of freedom = 8 diff = mean(1) - mean(2) t = 1.8333 diff 2.2 1.2 -.567205 4.967205 combined 10 7.1 .6741249 2.13177 5.575023 8.624977 2 5 6 .8944272 2 3.516672 8.483328 1 5 8.2 .8 1.788854 5.978844 10.42116 Group Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] Two-sample t test with equal variances

. ttest mediaturmas, by(turmas)Testes de hipóteses


𝑆𝐸=𝜎√𝑛

O que acontece quando aumentamos o tamanho

de n?

Insira os dados do slide anterior no Stata e rode o teste

Felipe Pontes 21

Testes de hipóteses• Se a planilha estiver organizada assim:

• O comando seria: ttest var1==var2, unpaired


Nota Turma 1(var1)

Nota Turma 2(var2)

8 8

10 7

7 7

6 5

10 3



• Exercício adaptado de Levin, Fox e Forde (2012) quanto a um índice de apoio à reforma do Sistema de saúde:

• Média da amostra 1 (n1=25) = 60• Média da amostra 2 (n2=35) = 49• Erro padrão da diferença das médias = 3,52

a) Quantos graus de liberdade você terá para realizar esse teste de médias?

b) Teste se existe diferença entre as médias ao nível de 1%, 5% e 10%.



Ajuste para variâncias desiguais

• No teste anterior nós combinamos as variâncias de duas amostras, presumindo que , como não sabemos a variância da população, utilizamos a das amostras para aproximar.• Teste de homogeneidade das variâncias: Levene (há também

uma “regra de bolso” que diz que se uma amostra tem variância 2 vezes, ou mais, maior do que a da outra, há evidências de heterogeneidade).• Em caso de heterogeneidade, o erro padrão é calculado dessa

forma, sem combinar as variâncias:

• Refaça o exercício das notas das turmas considerando que as variâncias são heterogêneas. Considere os mesmos gl neste exercício.


𝑠𝑋 1−𝑋 2=√ 𝑠12

𝑁 1−1+

𝑠22

𝑁2−1




Ho: diff = 0 Welch's degrees of freedom = 9.85366 diff = mean(1) - mean(2) t = 1.8333 diff 2.2 1.2 -.479159 4.879159 combined 10 7.1 .6741249 2.13177 5.575023 8.624977 2 5 6 .8944272 2 3.516672 8.483328 1 5 8.2 .8 1.788854 5.978844 10.42116 Group Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] Two-sample t test with unequal variances

. ttest mediaturmas, by(turmas) unequal welch





W10 = 0.09090909 df(1, 8) Pr > F = 0.77071328

W50 = 0.00000000 df(1, 8) Pr > F = 01

W0 = 0.09090909 df(1, 8) Pr > F = 0.77071328

Total 7.1 2.1317703 10 2 6 2 5 1 8.2 1.7888544 5 turmas Mean Std. Dev. Freq. Summary of mediaturmas

. robvar mediaturmas, by(turmas)


W0 é Levene e W50 é o teste de Brown.

Com base nisso, devemos rejeitar ou não rejeitar a homogeneidade das variâncias?



Amostras dependentes (emparelhadas)

• O teste t anterior era utilizado para amostras independentes (turma 1 x turma 2, liberais x conservadores, BRA x EUA etc). Agora o teste é para a mesma amostra, mas em momentos distintos (exemplos?).• Passos para testar amostras dependentes:

1. Calcule a média para cada ponto no tempo2. Calcule o desvio padrão para a diferença entre o “tempo” 1

e o “tempo” 2 (D): ²3. Calcule o erro padrão da diferença entre as médias:4. Calcule o t: 5. Faça o teste com base nos gl e a 1%, 5% e 10%.


Antes Depois

2 1

1 2

3 1

3 1

1 2

4 1



Pr(T < t) = 0.8984 Pr(|T| > |t|) = 0.2031 Pr(T > t) = 0.1016 Ha: mean(diff) < 0 Ha: mean(diff) != 0 Ha: mean(diff) > 0

Ho: mean(diff) = 0 degrees of freedom = 5 mean(diff) = mean(var1 - var2) t = 1.4639 diff 6 1 .6831301 1.67332 -.7560417 2.756042 var2 6 1.333333 .2108185 .5163978 .7914071 1.87526 var1 6 2.333333 .4944132 1.21106 1.062404 3.604263 Variable Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] Paired t test

. ttest var1==var2


Para esse teste não é possível usar a opção by()




• Teste com os dados da planilha “AULA 3 - INFERÊNCIA - APLICAÇÕES PRÁTICAS1”, aba “teste t emparelhado”. Com esses mesmos dados, use o teste t para amostras independentes e compare os resultados.

• Não escreva a análise agora. Isso será feito no final da aula.



Testes unilaterais• A diferença básica está na forma como as hipóteses são

apresentadas e no tipo de tabela t que é usada, porém a matemática é igual.

• O teste bilateral diz que existem diferenças (e.g. existem diferenças no AD após a adoção das IFRS).

• O teste unilateral nos diz em que sentido essa diferença está, (e.g. os AD são menores após a adoção das IFRS).

www.ccsa.ufpb.br/ppgccFonte: LFF (2012)

Felipe Pontes 30

Testes unilaterais



Testes unilaterais• Passos para testar amostras dependentes de forma

unilateral:1. Calcule a média para cada ponto no tempo2. Calcule o desvio padrão para a diferença entre o “tempo” 1

e o “tempo” 2 (D): ²3. Calcule o erro padrão da diferença entre as médias:4. Calcule o t: 5. Faça o teste com base nos gl e a 1%, 5% e 10%.


Estudante Antes Depois

1 58 66

2 63 68

3 66 72

4 70 76

5 63 78

6 51 56

7 44 69

8 58 55

9 50 55

Teste se depois do reforço houve melhora nas notas:

Teste:H0: O reforço não melhora a média dos alunos (mA = mD)H1: O reforço melhora a média dos alunos (mA < mD)


Pr(T < t) = 0.0079 Pr(|T| > |t|) = 0.0157 Pr(T > t) = 0.9921 Ha: mean(diff) < 0 Ha: mean(diff) != 0 Ha: mean(diff) > 0

Ho: mean(diff) = 0 degrees of freedom = 8 mean(diff) = mean(var1 - var2) t = -3.0542 diff 9 -8 2.619372 7.858117 -14.04028 -1.959717 var2 9 66.11111 2.969495 8.908485 59.26344 72.95878 var1 9 58.11111 2.805968 8.417904 51.64054 64.58169 Variable Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] Paired t test

. ttest var1==var2

Testes unilaterais




Testes unilaterais• Passos para testar amostras independentes de forma

unilateral:1. Calcule a média para cada amostra.2. Calcule o desvio padrão amostral de cada amostra: 3. Calcule o erro padrão da diferença entre as médias: 4. Calcule o t: 5. Faça o teste com base nos gl e a 1%, 5% e 10%.6. H0: m1 = m2 // H1: m2 > m1


Nota Turma 1 Nota Turma 2

8 8

10 7

7 7

6 5

10 3

Avaliem se a média da T1 é maior do que a T2, a 1%, 5% e 10%.


Testes unilaterais


Ho: diff = 0 degrees of freedom = 8 diff = mean(1) - mean(2) t = 1.8333 diff 2.2 1.2 -.567205 4.967205 combined 10 7.1 .6741249 2.13177 5.575023 8.624977 2 5 6 .8944272 2 3.516672 8.483328 1 5 8.2 .8 1.788854 5.978844 10.42116 Group Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] Two-sample t test with equal variances

. ttest mediaturmas, by(turmas)




Testes unilaterais• Teste no Stata se a média da turma 1 é maior do que a da turma

2.


Nota Turma 1 Nota Turma 28 3

10 27 06 5

10 3


Pressupostos do t1. O z e o t são utilizados para comparar médias entre duas

amostras independentes ou de uma mesma amostra medida em dois “tempos” diferentes.

2. Esse teste é indicado para dados intervalares, não para nominais ou ordinais (para este existem evidências mostrando o contrário – ver próximo slide).

3. É recomendado que se use uma amostragem aleatória (na prática isso não é um problema recorrente).

4. Para amostras pequenas (o que é isso?) os dados têm que ser normalmente distribuídos.

5. As variâncias precisam ser homogêneas (existem correções para isso no teste t ou usando uma versão não paramétrica – há controvérsias).



Relaxando alguns pressupostos…1. Em amostras grandes podemos relaxar a normalidade e a homocedasticidade

tem alguns ajustes fáceis de se fazer nos softwares.2. Sobre o teste t com dados ordinais, temos versões não paramétricas (MW e

Wilcoxon - MWW), porém há como se argumentar o uso do teste t (mas com cuidado) (Winter, Dodou, 2010):

a) Para distribuições muito não normais (e.g. exponencial) ou com outliers, MWW tem mais poder (Blair & Higgins, 1980; Bridge & Sawilowsky, 1999; MacDonald, 1999; Neave & Granger, 1968);

b) Testes não paramétricos são melhores para amostras pequenas e o t melhora à medida que a amostra aumenta, pelo Teorema do Limite Central (Lumley, Diehr, Emerson, & Chen, 2002), porém há evidências de que MWW também melhoram o poder em amostras grandes (Nanna, Sawilowky, 1998); e

c) MWW tem a mesma interpretação do t, após fazer o rankeamento das amostras (pois existe a versão na mediana desse teste);

d) Especificamente para escalas Likert de 5 pontos: não devemos perder nosso sono com esse tipo de “problema” (Winter, Dodou, 2010).



ANOVA• Quantos grupos nós estávamos comparando com o teste t?

• Na ANOVA nós podemos comparar mais de 2 grupos! Isso é um diferencial muito importante em nossas pesquisas. Não podemos simplesmente fazer vários testes t:• Perdemos “poder” no teste, pois perderemos graus de

liberdade em cada teste;• Aumentamos a chance de cometer um erro do tipo I, por

erro na composição da amostra. A ANOVA mantém a probabilidade do erro do tipo I constante.

• Na ANOVA nós usamos o teste F, no lugar do t.



ANOVA Procedimentos para a ANOVA:• Cálculo das somas dos quadrados

• Média quadrática (variância)• , em que k é o número de grupos

• Razão F (F calculado)


Compara as variações entre e dentro dos grupos

Fonte de variação SQ gl MQ F

Entre 1.685 3 561,67 20,24

Dentro 444 16 27,75

Total 2.129 19

A satisfação com a vida difere de acordo com o estado civil? Faça o teste e decida, a 1% e 5%.

Percebam que a tabela da ANOVA é composta por valores positivos – variância.


ANOVA• Existem dois modelos de ANOVA:

• Modelo de efeitos fixos: definimos a priori os grupos (é o padrão).

• Modelo de efeitos aleatórios: os grupos são definidos aleatoriamente.



ANOVA• Verifique se há discriminação no emprego de pessoas do

sexo masculino e feminino. Você aplicou um questionário com alguns empresários em que foram usados 3 tipos de nomes: masculino, feminino e um nome neutro (grupo de controle), porém os currículos eram iguais exceto pelo nome do candidato. Teste a normalidade e a homogeneidade das variâncias antes.


Nota do currículo Masculino

Nota do currículo Neutro

Nota do currículo Feminino

6 2 3

7 5 2

8 4 4

6 3 4

4 5 3

Média = 6,2 3,8 3,2

Rode direto no Stata

Felipe Pontes 42

ANOVA

var1 15 0.3240 0.9213 1.08 0.5817 Variable Obs Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 joint Skewness/Kurtosis tests for Normality

. sktest var1



ANOVA

Bartlett's test for equal variances: chi2(2) = 1.1517 Prob>chi2 = 0.562

Total 43.6 14 3.11428571 Within groups 18.4 12 1.53333333Between groups 25.2 2 12.6 8.22 0.0056 Source SS df MS F Prob > F Analysis of Variance

. oneway var1 var2, bonferroni scheffe sidak



ANOVA

• Rode agora o seguinte comando: oneway var1 var2, tabulate



ANOVA• O teste F é um teste múltiplo. Se for rejeitada a hipótese de

igualdade (H0: = , H1: ), sabemos que pelo menos um grupo tem média diferente. Mas qual ou quais? O que você faria para descobrir quais são os pares diferentes?

• Para resolver esse problema usamos os testes post hoc, que se baseiam nas medidas utilizadas para o cálculo do teste F (não devemos usar vários testes t, por aumentar a chance do erro tipo I).

• São inúmeros. Recomendação: quando for usar, observe bem seus dados e escolha o mais adequado.



ANOVA – Post hocs• Bonferroni: é apropriado quando o número de comparações () é maior

do que os graus de Liberdade entre os grupos (k-1). É muito conservador e seu poder diminui à medida que o número de comparações aumenta. Não requer que a ANOVA tenha sido significante. Tem um bom controle do erro tipo I.

• LSD de Fisher: é o mais liberal de todos. É mais apropriado para quando temos 3 grupos. É como se usássemos múltiplos testes t (ou seja, não tenta controlar o erro tipo I). Requer que a ANOVA tenha sido significante.

• Newman-Keuls (SNK): é apropriado quando o número de comparações excede os graus de liberdade. Se você não quer ser tão conservador quanto o Bonferroni, ele é uma boa escolha. Ou seja… é muito liberal.



ANOVA – Post hocs• HSD de Tukey: controla bem o erro do tipo I. É apropriado para

um grande número de grupos. É o post hoc mais popular.

• WSD de Tukey: é indicado quando temos mais de k-1 e menos do que comparações. É menos conservador do que o HSD e mais conservador do que o Newman-Kuels.

• Scheffe: é o mais conservador de todos! Ele tem baixo poder com poucas comparações (menos do que k-1).



ANOVA – Post hocs• Gabriel: quando os valores dos N’s dos grupos for pouco

diferente.

• GT2 de Hochberg: indicado quando os N’s forem muito diferentes. Porém é preciso ter variâncias homogêneas.

• Games-Howel: para N’s diferentes e variâncias heterogêneas.

Existem muitas opções e muitos detalhes. Não se limitem a só essas informações que estão muito resumidas!



ANOVA – Post hocs• Com os mesmos dados do exercício anterior, aplique os diversos

post hocs e compare seus resultados.



ANOVA – Post hocs• oneway var1 var2, bonferroni scheffe sidak


0.007 0.841 3 -3 -.6 0.029 2 -2.4 Col Mean 1 2Row Mean- (Sidak) Comparison of var1 by var2

0.008 0.751 3 -3 -.6 0.031 2 -2.4 Col Mean 1 2Row Mean- (Scheffe) Comparison of var1 by var2

0.007 1.000 3 -3 -.6 0.029 2 -2.4 Col Mean 1 2Row Mean- (Bonferroni) Comparison of var1 by var2








Pressupostos da ANOVA• Sobre a heterocedasticidade na ANOVA:• Pode-se usar alguma transformação dos dados;• Brown-Forsythe (os “n” dos grupos são semelhantes);• Welch (os “n” não são semelhantes); e• Kruskal-Wallis (não paramétrico).


Ver: “Adjusting the One-way ANOVA for Heterogeneity of Variance” http://www.psych.nyu.edu/cohen/eps12dr1.pdf

http://www.psych.nyu.edu/cohen/eps12dr1.pdf

http://www.psych.nyu.edu/cohen/eps12dr1.pdf


ANOVA robusta para heterogeneidade

findit simanova1) simanova var1 var2• Esse comando fará várias simulações para tentar ajustar o problema da

heterogeneidade2) fstar var1 var2• Esse comando ajusta o teste F padrão, fazendo com que ele fique menos

sensível a heterogeneidadefindit wtest3) wtest var1 var2• ANOVA de Welch.4) É possível também rodar regressões robustas, com a variável de interesse sendo a dependente e as dummies dos grupos como sendo independentes.


Felipe Pontes 53

Teste t robusto• No teste t também podemos usar a forma robusta para

heterogeneidade das variâncias.

• Comando: ttest VARIÁVEL, by(GRUPO) welch



Pressupostos da ANOVA• É preciso ter mais de dois grupos para se comparar.

• Os dados devem ser intervalares, porém os grupos são categorizados.

• Amostragem aleatória.

• Distribuição normal.

• Homogeneidade das variâncias.



ANOVA - Aplicação• Use os dados da planilha “AULA 3 - INFERÊNCIA -

APLICAÇÕES PRÁTICAS1” para analisar não mais par a par, mas os 3 grupos de uma só vez. Rode também os modelos robustos para heterocedasticidade.

• Não precisa escrever a análise agora. Apenas rodar os testes.



Testes não paramétricos• Seguem o mesmo raciocínio dos paramétricos, porém sem os

pressupostos.

• Para cada paramétrico nós temos um não paramétrico correspondente.


Mensuração Amostra independente Amostra emparelhada

Intervalar (antende aos pressupostos)

Teste t para amostras independentes (mais de 2

grupos ANOVA)

Teste t para amostras emparelhadas

Ordinal e intervalar (não atende aos pressupostos)

Mann-Whitney (mais de 2 grupos Kruskal-Wallis) Wilcoxon

Nominal (duas categorias - C) Chi² tabela 2x2 McNemar

Nominal (C > 2) Chi² tabela 2xC

Ex.:Ordinal é qualitativo e impõe uma ordem: satisfação, escolaridade, nível de governança etc.Nominal é categórico, não dá para dizer que uma categoria é melhor que a outra: nome, gênero etc.Intervalar é quantitativo, é possível calcular média, moda, mediana etc: lucro, preço etc.


Testes não paramétricosRefaça todos os testes que fizemos no Stata, porém agora com suas versões não paramétricas. Compare os resultados.• Kruskall-Wallis: kwallis VARIÁVEL, by(GRUPO)

(H0: igualdade entre os grupos)• Wilcoxon-Mann-Whitney: ranksum VARIÁVEL, by(GRUPO)• Outro teste de mediana: median VARIÁVEL, by(GRUPO) exact

(H0: igualdade entre os grupos)• Teste dos postos de Wilcoxon (emparelhado): signrank

var1=var2• Teste dos sinais de Snedecor e Cochran (emparelhado):

signtest var1=var2



Exercício• Vamos às análises! Faça os testes dos pressupostos de

normalidade de homocedasticidade antes dos testes de média.

1. A variável VarCaixa, na planilha “AULA 3 - INFERÊNCIA - APLICAÇÕES PRÁTICAS1” (aba “ANOVA e teste independente), representa a variação no caixa-meta de 3 grupos de empresas brasileiras, enquanto que VarAbsCaixa é a variação absoluta. A. Analise, com base em um teste t para amostras

independentes, se há diferença na média das duas variáveis do grupo 1 e do grupo 3.

Comandos: acesse o post do blog.


http://contabilidademq.blogspot.com/2017/03/inferencia-estatistica-stata-materiais-da-aula.html




1. A variável VarCaixa, na planilha “AULA 3 - INFERÊNCIA - APLICAÇÕES PRÁTICAS1” (aba “ANOVA e teste independente), representa a variação no caixa-meta de 3 grupos de empresas brasileiras, enquanto que VarAbsCaixa é a variação absoluta.

A. Analise, com base em um teste t para am ostras independentes, se há di ferença na m édia das duas variáveis do grupo 1 e do grupo 3.

B. Analise, com base em uma ANOVA, se há diferença entre os 3 grupos. Verifique com os post-hocs quais grupos são diferentes, se houver diferença.

Comandos: acesse o post do blog.C. Refaça a anál ise da letra A e da letra B usando um teste não param étrico equivalente.






1. A variável VarCaixa, na planilha “AULA 3 - INFERÊNCIA - APLICAÇÕES PRÁTICAS1” (aba “ANOVA e teste independente), representa a variação no caixa-meta de 3 grupos de empresas brasileiras, enquanto que VarAbsCaixa é a variação absoluta. A. Analise, com base em um teste t para amostras independentes, se há diferença na média das duas variáveis do grupo 1 e do grupo 3.

B. Analise, com base em uma ANOVA, se há diferença entre os 3 grupos. Verifique com os post-hocs quais grupos são diferentes, se houver diferença.

C. Refaça a análise da letra A e da letra B usando um teste não paramétrico equivalente.

Comandos: acesse o post do blog.






1. A

2. A aba “Teste t emparelhado” apresenta o PL das empresas brasileiras em um determinado ano, antes e após a adoção das IFRS. Verifique se a adoção das IFRS impactou o PL das companhias brasileiras. Nada, positivamente ou negativamente?

3. Refaça o exercício 2 usando um teste t para amostras não emparelhadas (independentes) e verifique se houve mudança na sua decisão.





1. A

2. A planilha “Teste t emparelhado” apresenta o PL das empresas brasileiras em um determinado ano, antes e após a adoção das IFRS. Verifique se a adoção das IFRS impactou o PL das companhias brasileiras. Nada, positivamente ou negativamente?

3. Refaça o exercício 2 usando um teste t para amostras não emparelhadas (independentes) e verifique se houve mudança na sua decisão.



Questões1. Defina erro tipo I e II.2. Como evitar os dois tipos de erros?3. Como estimar a probabilidade dos dois tipos de erros? Se não houver

como estimar, explique o porquê.4. Qual é a diferença entre um teste de médias e um teste de proporções?5. Explique o objetivo, de forma sucinta, dos testes unilaterais e bilaterais.6. Qual é o argumento normalmente utilizado para invalidar o uso do teste

t em dados ordinais?7. Por que a tabela do teste F é composta por números positivos?8. Foram vistos três post-hocs da ANOVA no Stata. Para qual situação cada

um deles é mais adequado?



Recomendação de leitura• GIGERENZER, G. Mindless statistics. The Journal of Socio-Economics, v.33,

2004.

• IOANNIDIS, J.P.A. Fit-for-purpose inferential methods: abandoning/changing P-values versus abandoning/changing research. The American Statistician, 2016.

• POOLE, C. Low p-values or narrow confidence intervals: which are more durable? Epidemiology, v.12, n.3, 2001.

• SCHERVISH, M.J. P-values: what they are and what they are not. The American Statistician, v.50, n.3, 1996.

• WASSERSTEIN, R.L.; LAZAR, N.A. The ASA’s statement on p-values: context, process, and purpose. The American Statistician, 2016.



Recomendação de leitura• O fim do p-value 1: http://

contabilidademq.blogspot.com.br/2015/11/o-fim-da-inferencia-e-do-p-value.html • O fim do p-value 2: http://

contabilidademq.blogspot.com.br/2016/03/o-fim-da-inferencia-e-do-p-value-o.html • Intervalo de confiança e a mídia:

http://fivethirtyeight.com/features/ignore-the-headlines-we-dont-know-if-e-cigs-lead-kids-to-real-cigs/ • P-hacking:

http://fivethirtyeight.com/features/science-isnt-broken/#part1 www.ccsa.ufpb.br/ppgcc

http://contabilidademq.blogspot.com.br/2015/11/o-fim-da-inferencia-e-do-p-value.html



http://contabilidademq.blogspot.com.br/2016/03/o-fim-da-inferencia-e-do-p-value-o.html




http://fivethirtyeight.com/features/ignore-the-headlines-we-dont-know-if-e-cigs-lead-kids-to-real-cigs/





66

Para ter acesso a mais conteúdos, acesse:

• Blogswww.ContabilidadeMQ.blogspot.comwww.FinancasAplicadasBrasil.blogspot.com

• Facebook:www.facebook.com/ContabilidadeMQ

• Twitter:www.twitter.com/ContabilidadeMQ

• YouTube:www.youtube.com/FelipePontes16

http://www.contabilidademq.blogspot.com/

http://www.financasaplicadasbrasil.blogspot.com/

http://www.facebook.com/ContabilidadeMQ

http://www.twitter.com/ContabilidadeMQ

http://www.youtube.com/FelipePontes16

inferência e testes de hipóteses

Economy & Finance