valores p e o enganoso conceito de significãncia...
TRANSCRIPT
P values and the misleading concept of statistical significance
Valores p e o enganoso conceito de significância estatística
Edson Zangiacomi MartinezFaculdade de Medicina de Ribeirão PretoUniversidade de São Paulo
“The p-value is probably the mostubiquitous and at the same time,misunderstood,misinterpreted, and occasionallymiscalculated index in all of biomedicalresearch.”(Steven Goodman)
http://www.universoracionalista.org/10-ideias-cientificas-que-cientistas-gostariam-que-voce-parasse-de-usar-de-forma-errada/Henrique Kroetz, 2014 (Engenheiro Civil, doutorando em Engenharia na USP).
1. Prova2. Teoria3. Incerteza e Estranheza Quânticas4. Aprendido vs. Inato5. Natural6. Gene
8. Sobrevivência do Mais Apto9. Escalas de Tempo Geológicas10. Orgânico
10 ideias científicas que cientistas gostariam que você parasse de usar deforma errada
Kroetz, 2014
Ronald A. FisherThe father of modern statisticsMatemático, estatístico, biólogo, geneticistaNascimento/morte: Inglaterra, 17/fev/1890 – 29/julho/1962Contribuições: Teste exato de Fisher, princípios do delineamento deexperimentos, ANOVA, método da máxima verossimilhança, informação deFisher, termo “hipótese nula”, método fiducial, distribuição F
Testes de significânciaP values - 1900 - Karl Pearson, chi square test.
Fisher’s theory may be presented as follows. Let us consider some hypothesis, namely the nullhypothesis, of no association between a characteristic and an outcome. For any magnitude of theassociation observed after an experiment is conducted, we can compute a test statistic thatmeasures the difference between what is observed and the null hypothesis. This test statistic maybe converted to a probability, namely the p value, using the probability distribution of the teststatistic under the null hypothesis. Biau et al. (2010)
The p value is the probability to obtain an effect equal to or more extreme than the one observedpresuming the null hypothesis of no effect is true; it gives researchers a measure of the strength ofevidence against the null hypothesis.
Fisher (1925), “Statistical Methods for Research Workers”
Fisher, “Statistical Methods for Research Workers”
Jerzy NeymanMatemático, estatísticoNascimento/morte: Polônia, 16/abril/1894 – 25/ago/1981
Egon Sharpe PearsonMatemático, estatístico
Nascimento/morte: Inglaterra, 11/ago/1895 – 12/junho/1980
Testes de hipóteses
Hipótese nula e hipótese alternativaLema de Neyman-PearsonErros tipo I e tipo IITestes uniformemente mais poderososResultado: rejeitar ou não rejeitar a hipótese nula
OBSERVAÇÃO
HIPÓTESE
TEORIA
PERGUNTA
Teste estatístico de hipóteses
É necessariamente um procedimento de inferência estatística
Amostra detamanho
conclusões
População detamanho
Objetivo da inferência estatística: obter conclusões sobre algumacaracterística de um conjunto de interesse, denominado população, combase na informação oriunda de um conjunto de dados disponíveis,denominado amostra.
Teste estatístico de hipóteses
É necessariamente um procedimento de inferência estatística
Amostra detamanho
conclusões
População detamanho
Objetivo da inferência estatística: obter conclusões sobre algumacaracterística de um conjunto de interesse, denominado população, combase na informação oriunda de um conjunto de dados disponíveis,denominado amostra.
Esta característica,necessariamente
numérica, échamada
parâmetro.
Teste estatístico de hipóteses
É necessariamente um procedimento de inferência estatística
Amostra detamanho
conclusões
População detamanho
Objetivo da inferência estatística: obter conclusões sobre algumacaracterística de um conjunto de interesse, denominado população, combase na informação oriunda de um conjunto de dados disponíveis,denominado amostra.
Esta característica,necessariamente
numérica, échamada
parâmetro.
Uma hipótese éuma suposiçãosobre o valor
deste parâmetro.
Teste estatístico de hipóteses
É necessariamente um procedimento de inferência estatística
Amostra detamanho
conclusões
População detamanho
Objetivo da inferência estatística: obter conclusões sobre algumacaracterística de um conjunto de interesse, denominado população, combase na informação oriunda de um conjunto de dados disponíveis,denominado amostra.
Esta característica,necessariamente
numérica, échamada
parâmetro.
Uma hipótese éuma suposiçãosobre o valor
deste parâmetro.
O teste estatísticode hipóteses é umaregra de decisão.
Com base em umaamostra, decidimosrejeitar ou não uma
hipótese.
Erros
Erro tipo I: rejeitamos H0, mas H0 é verdadeira
Erro tipo II: não rejeitamos H0, mas H0 é falsa
Nível de significância
Probabilidade de cometer um erro tipo I
Denotado por
É fixado pelo pesquisador. Por tradição, a escolha comum é 5%.
Exemplo: teste qui-quadrado de associação
Casos Controles
Expostos
Não expostos
Total + + = −+ + + +
Hipóteses: OR = 1 (não associação): OR ≠ 1Estatística de teste
DecisãoPara = 0,05, rejeito se > 3,841
0
0,5
1
1,5
2
0 1 2 3 4 5
3,841
Nível de significância
Exemplo: teste qui-quadrado de associação
Casos Controles
Expostos 40 26Não expostos 60 74Total 100 100 = 200 40 × 74 − 26 × 6066 × 134 × 100 × 100 = 4,432
Hipóteses: OR = 1 (não associação): OR ≠ 1Estatística de teste
DecisãoPara = 0,05, rejeito se > 3,841
0
0,5
1
1,5
2
0 1 2 3 4 5
3,841
Nível de significância
0
0,5
1
1,5
2
0 1 2 3 4 5
3,841
Nível de significância= 0,05
0
0,5
1
1,5
2
0 1 2 3 4 5
4,432
= 200 40 × 74 − 26 × 6066 × 134 × 100 × 100 = 4,432Valor pp = 0,035
0
0,5
1
1,5
2
0 1 2 3 4 5
3,841
Nível de significância= 0,05
0
0,5
1
1,5
2
0 1 2 3 4 5
4,432
Valor pp = 0,035
P value is the probability that the chosen teststatistic would have been at least as large asits observed value if every model assumptionwere correct, including the test hypothesis.
Exemplo: teste qui-quadrado de associação
Casos Controles
Expostos 40 35Não expostos 60 65Total 100 100 = 200 40 × 65 − 35 × 6075 × 125 × 100 × 100 = 0,533
Hipóteses: OR = 1 (não associação): OR ≠ 1Estatística de teste
DecisãoPara = 0,05, rejeito se > 3,841
0
0,5
1
1,5
2
0 1 2 3 4 5
3,841
Nível de significância
0
0,5
1
1,5
2
0 1 2 3 4 5
0,533
0
0,5
1
1,5
2
0 1 2 3 4 5
3,841
Nível de significância= 0,05
Valor pp = 0,465
= 200 40 × 65 − 35 × 6075 × 125 × 100 × 100 = 0,533
0
0,5
1
1,5
2
0 1 2 3 4 5
0,533
0
0,5
1
1,5
2
0 1 2 3 4 5
3,841
Nível de significância= 0,05
Valor pp = 0,465
P value is the probability that the chosen teststatistic would have been at least as large asits observed value if every model assumptionwere correct, including the test hypothesis.
Casos Controles
Expostos 40 30Não expostos 60 70Total 100 100
= 2,198= 0,138= 1,56: (0,87 ; 2,79)Casos Controles
Expostos 60 45Não expostos 90 105Total 150 150
= 3,297= 0,069= 1,56: (0,96 ; 2,51)Casos Controles
Expostos 80 60Não expostos 120 140Total 200 200
= 4,396= 0,036= 1,56: (1,03 ; 2,35)
0
Intervalos de confiança 95% para 1 – 2
1 > 21 < 2 1 = 2 p < 0,05
0
p < 0,05
0
p < 0,05
0
p > 0,05
0
p > 0,05
0
1 > 21 < 2 1 = 2 p < 0,05
0
p < 0,05
0
p < 0,05
0
p > 0,05
0
p > 0,05
Uma diferençamédia menor que10 mmHg não é
clinicamenteimportante!!!
10 mmHg
Vamos supor que a variável emquestão seja a pressão arterial
sistólica
Misconception 1: P-Hacking is OK
Ano
Número de óbitos emacidentes de trânsito
no Brasil
Consumo per capita desorvetes no Brasil
(litros/ano)2004 35 105 3,892005 35 994 3,952006 36 367 4,092007 37 407 4,782008 38 273 5,032009 37 594 5,202010 42 844 5,832011 43 256 6,032012 44 812 6,242013 42 266 6,172014 43 780 6,41
Fontes: DATASUS e Associação Brasileira das Indústrias de Sorvetes - ABIS
Coeficiente de correlação de Pearson= 0.9579
IC95% (0.8418 , 0.9893)p value = 0.0000035
Comentários Finais
1. Devemos fazer ciência, não esoterismo
2. Devemos falar da Estatística comocomponente do método científico, e nãocomo “ramo da Matemática” (coisa queela não é)
3. Devemos substituir a frase“estatisticamente significante”, que nãosignifica nada, por uma busca porevidências.
Casos Controles
Expostos 40 26Não expostos 60 74Total 100 100
Valor pp = 0,035
Há uma associaçãoestatisticamente significanteentre a exposição e a doença
Há evidências de associaçãoentre a exposição e a doença
4. Medidas de associação, com seusrespectivos intervalos de confiança, sãomais úteis que valores p
Casos ControlesExpostos 40 26Não expostos 60 74Total 100 100
Valor pp = 0,035
= 1,9IC95%: (1,04 ; 3,46)
5. Métodos Bayesianos sãofundamentais para o progresso científico