valores p e o enganoso conceito de significãncia...

P values and the misleading concept of statistical significance

Valores p e o enganoso conceito de significância estatística

Edson Zangiacomi MartinezFaculdade de Medicina de Ribeirão PretoUniversidade de São Paulo

“The p-value is probably the mostubiquitous and at the same time,misunderstood,misinterpreted, and occasionallymiscalculated index in all of biomedicalresearch.”(Steven Goodman)

http://www.universoracionalista.org/10-ideias-cientificas-que-cientistas-gostariam-que-voce-parasse-de-usar-de-forma-errada/Henrique Kroetz, 2014 (Engenheiro Civil, doutorando em Engenharia na USP).

http://www.universoracionalista.org/10-ideias-cientificas-que-cientistas-gostariam-que-voce-

1. Prova2. Teoria3. Incerteza e Estranheza Quânticas4. Aprendido vs. Inato5. Natural6. Gene

8. Sobrevivência do Mais Apto9. Escalas de Tempo Geológicas10. Orgânico

10 ideias científicas que cientistas gostariam que você parasse de usar deforma errada

Kroetz, 2014

Ronald A. FisherThe father of modern statisticsMatemático, estatístico, biólogo, geneticistaNascimento/morte: Inglaterra, 17/fev/1890 – 29/julho/1962Contribuições: Teste exato de Fisher, princípios do delineamento deexperimentos, ANOVA, método da máxima verossimilhança, informação deFisher, termo “hipótese nula”, método fiducial, distribuição F

Testes de significânciaP values - 1900 - Karl Pearson, chi square test.

Fisher’s theory may be presented as follows. Let us consider some hypothesis, namely the nullhypothesis, of no association between a characteristic and an outcome. For any magnitude of theassociation observed after an experiment is conducted, we can compute a test statistic thatmeasures the difference between what is observed and the null hypothesis. This test statistic maybe converted to a probability, namely the p value, using the probability distribution of the teststatistic under the null hypothesis. Biau et al. (2010)

The p value is the probability to obtain an effect equal to or more extreme than the one observedpresuming the null hypothesis of no effect is true; it gives researchers a measure of the strength ofevidence against the null hypothesis.

Fisher (1925), “Statistical Methods for Research Workers”

Fisher, “Statistical Methods for Research Workers”

Jerzy NeymanMatemático, estatísticoNascimento/morte: Polônia, 16/abril/1894 – 25/ago/1981

Egon Sharpe PearsonMatemático, estatístico

Nascimento/morte: Inglaterra, 11/ago/1895 – 12/junho/1980

Testes de hipóteses

Hipótese nula e hipótese alternativaLema de Neyman-PearsonErros tipo I e tipo IITestes uniformemente mais poderososResultado: rejeitar ou não rejeitar a hipótese nula

OBSERVAÇÃO

HIPÓTESE

TEORIA

PERGUNTA

Teste estatístico de hipóteses

É necessariamente um procedimento de inferência estatística

Amostra detamanho

conclusões

População detamanho

Objetivo da inferência estatística: obter conclusões sobre algumacaracterística de um conjunto de interesse, denominado população, combase na informação oriunda de um conjunto de dados disponíveis,denominado amostra.



Amostra detamanho

conclusões



Esta característica,necessariamente

numérica, échamada

parâmetro.



Amostra detamanho

conclusões





parâmetro.

Uma hipótese éuma suposiçãosobre o valor

deste parâmetro.



Amostra detamanho

conclusões





parâmetro.

Uma hipótese éuma suposiçãosobre o valor

deste parâmetro.

O teste estatísticode hipóteses é umaregra de decisão.

Com base em umaamostra, decidimosrejeitar ou não uma

hipótese.

Erros

Erro tipo I: rejeitamos H0, mas H0 é verdadeira

Erro tipo II: não rejeitamos H0, mas H0 é falsa

Nível de significância

Probabilidade de cometer um erro tipo I

Denotado por

É fixado pelo pesquisador. Por tradição, a escolha comum é 5%.

Exemplo: teste qui-quadrado de associação

Casos Controles

Expostos

Não expostos

Total + + = −+ + + +

Hipóteses: OR = 1 (não associação): OR ≠ 1Estatística de teste

DecisãoPara = 0,05, rejeito se > 3,841

0

0,5

1

1,5

2

0 1 2 3 4 5

3,841



Casos Controles

Expostos 40 26Não expostos 60 74Total 100 100 = 200 40 × 74 − 26 × 6066 × 134 × 100 × 100 = 4,432



0

0,5

1

1,5

2

0 1 2 3 4 5

3,841


0

0,5

1

1,5

2

0 1 2 3 4 5

3,841

Nível de significância= 0,05

0

0,5

1

1,5

2

0 1 2 3 4 5

4,432

= 200 40 × 74 − 26 × 6066 × 134 × 100 × 100 = 4,432Valor pp = 0,035

0

0,5

1

1,5

2

0 1 2 3 4 5

3,841


0

0,5

1

1,5

2

0 1 2 3 4 5

4,432

Valor pp = 0,035

P value is the probability that the chosen teststatistic would have been at least as large asits observed value if every model assumptionwere correct, including the test hypothesis.


Casos Controles

Expostos 40 35Não expostos 60 65Total 100 100 = 200 40 × 65 − 35 × 6075 × 125 × 100 × 100 = 0,533



0

0,5

1

1,5

2

0 1 2 3 4 5

3,841


0

0,5

1

1,5

2

0 1 2 3 4 5

0,533

0

0,5

1

1,5

2

0 1 2 3 4 5

3,841


Valor pp = 0,465

= 200 40 × 65 − 35 × 6075 × 125 × 100 × 100 = 0,533

0

0,5

1

1,5

2

0 1 2 3 4 5

0,533

0

0,5

1

1,5

2

0 1 2 3 4 5

3,841


Valor pp = 0,465

P value is the probability that the chosen teststatistic would have been at least as large asits observed value if every model assumptionwere correct, including the test hypothesis.

Casos Controles

Expostos 40 30Não expostos 60 70Total 100 100

= 2,198= 0,138= 1,56: (0,87 ; 2,79)Casos Controles


= 3,297= 0,069= 1,56: (0,96 ; 2,51)Casos Controles


= 4,396= 0,036= 1,56: (1,03 ; 2,35)

0

Intervalos de confiança 95% para 1 – 2

1 > 21 < 2 1 = 2 p < 0,05

0

p < 0,05

0

p < 0,05

0

p > 0,05

0

p > 0,05

0

1 > 21 < 2 1 = 2 p < 0,05

0

p < 0,05

0

p < 0,05

0

p > 0,05

0

p > 0,05

Uma diferençamédia menor que10 mmHg não é

clinicamenteimportante!!!

10 mmHg

Vamos supor que a variável emquestão seja a pressão arterial

sistólica

Misconception 1: P-Hacking is OK

Ano

Número de óbitos emacidentes de trânsito

no Brasil

Consumo per capita desorvetes no Brasil

(litros/ano)2004 35 105 3,892005 35 994 3,952006 36 367 4,092007 37 407 4,782008 38 273 5,032009 37 594 5,202010 42 844 5,832011 43 256 6,032012 44 812 6,242013 42 266 6,172014 43 780 6,41

Fontes: DATASUS e Associação Brasileira das Indústrias de Sorvetes - ABIS

Coeficiente de correlação de Pearson= 0.9579

IC95% (0.8418 , 0.9893)p value = 0.0000035

Comentários Finais

1. Devemos fazer ciência, não esoterismo

2. Devemos falar da Estatística comocomponente do método científico, e nãocomo “ramo da Matemática” (coisa queela não é)

3. Devemos substituir a frase“estatisticamente significante”, que nãosignifica nada, por uma busca porevidências.

Casos Controles


Valor pp = 0,035

Há uma associaçãoestatisticamente significanteentre a exposição e a doença

Há evidências de associaçãoentre a exposição e a doença

4. Medidas de associação, com seusrespectivos intervalos de confiança, sãomais úteis que valores p

Casos ControlesExpostos 40 26Não expostos 60 74Total 100 100

Valor pp = 0,035

= 1,9IC95%: (1,04 ; 3,46)

5. Métodos Bayesianos sãofundamentais para o progresso científico

valores p e o enganoso conceito de significãncia...

Documents