statistisk test - aalborg universitetpeople.math.aau.dk/~sorenh/misc/2019-mariagerfjord/...store...
TRANSCRIPT
Hypotesetests, fejltyper og p-værdierHypotesetests, fejltyper og p-værdierog er den nu også det?og er den nu også det?
Søren HøjsgaardSøren Højsgaard
Institut for Matematiske Fag, Aalborg UniversitetInstitut for Matematiske Fag, Aalborg Universitet
(updated: 2019-03-17)(updated: 2019-03-17)
1 / 401 / 40
Statistisk testEt statistisk test er en konfrontation af virkelighenden (data) med en teori(model).
Laves med det formål at forsøge at falsificere modellen.
Alternativt: Man bruger data til at "bevise" at man ikke har ret.
NB: I statistik hedder det ET test; ikke EN test!
2 / 40
Karl Popper (1902-1994)Passer ind Karl Poppers (1902-1994) videnskabsteori:
Man kan ikke empirisk verificere videnskabelige teorier; kun falsificeredem.
Videnskabelige fremskridt sker ved at "man har en teori indtil den bliverfalsificeret"
Se "Conjectures and Refutations" og "The Logic of Scientific Discovery"
3 / 40
Statistikkens tolkningsregelI statistikken anlægger man følgende tolkningsregel:
Det usandsynlige sker ikke
Altså, hvis man observerer data der, hvis modellen er rigtig, er megetusandsynlige, så forkaster man modellen.
Nødvendigt med sådan en tolkningsregel, for ellers kan man aldrig adstatistisk vej erkende noget som helst! Man vil jo altid kunne hævde, atdet foreliggende datasæt blot er et uheldigt udfalg, som ganske vist erusandsynligt men dog muligt.
Eksempel: At slå gange "krone" i kast med en fair mønt sker med ssh; dvs. ca.\ ud af gange. gange krone er et muligt
udfald, men det er ikke videre sandsynligt. Så derfor har vi mere fidus tilat mønten ikke er fair -- altså at modellen er forkert.
20 20≈ 10−6 1 1.000.000 20
4 / 40
Fødes der lige mange drenge og piger?Over en årrække blev disse data indsamlet (på et hospital i London) - detSTORE datasæt:
drenge piger total
antal 6.389 6.135 12.524
andel 0,51 0,49 1,00
Vi skal senere bruge et mindre datasæt, af det store datasæt - det LILLEdatasæt:
drenge piger total
antal 639 614 1.253
andel 0,51 0,49 1,00
10%
5 / 40
drenge piger total
antal 6.389 6.135 12.524
andel 0,51 0,49 1,00
Er der 50--50 chance for en dreng og en pige?
Tydeligvis ikke -- i dette datasæt.
Men hvad med populationen? 51\% er ikke langt fra 50\% og afvigelsenkunne jo skyldes en tilfældighed.
Spørgsmålet er: Er afvigelsen så stor, at den ikke -- med rimelighed -- kantilskrives en tilfældighed?
6 / 40
Model for data:For at komme videre skal vi have en model -- en mekanisme, der kunne havegenereret data:
Uden antagelser, ingen konklusioner. Vi antager
Alle kvinder har samme sandsynlighed for at føde en dreng.
Udkommet af alle graviditeter er uafhængige -- også forskelligegraviditeter for samme kvinde og også for forskellige graviditeter forsamme mand.
Er disse antagelser rimelige? Tjoh -- måske -- i hvert fald: uden antagelser,ingen konklusioner.
Fører til at antal drengefødsler er binomialfordelt
Dvs ssh for at observere drenge i fødsler hvor der hver gang er ssh foren dreng er
θ
X
X ∼ bin(N, θ), N = 12524
x N θ
Pr(X = x; θ) = ( )θx(1 − θ)N−xN
x 7 / 40
Tætheder for binomialfordelingen
8 / 40
Man kan antage at ssh er 50\% og så se på hvordan data kunne have set ud
drenge piger total drenge piger total
6263 6261 12524 6252 6272 12524
6223 6301 12524 6271 6253 12524
6243 6281 12524 6298 6226 12524
6263 6261 12524 6324 6200 12524
6403 6121 12524 6215 6309 12524
Sammenlign med de observerede data
drenge piger total
6389 6135 12524
NB: Der er eet simuleret datasæt, der ligeså mange eller flere drenge som vihar observeret.
9 / 40
Det LILLE datasæt
drenge piger total drenge piger total
627 626 1253 625 628 1253
615 638 1253 631 622 1253
623 630 1253 639 614 1253
627 626 1253 613 640 1253
670 583 1253 600 653 1253
Sammenlign med de observerede data
drenge piger total
639 614 1253
NB: Der er to simulerede datasæt, der ligeså mange eller flere drenge som vihar observeret.
10 / 40
HypotesetestEt "fagligt" spørgsmål: Fødes der lige mange drenge og piger?
Oversættes til statistisk spørgsmål: "Er (ssh for en dreng) lig med "?
Plejer at formulere det som hypotese:
Tester null-hypotesen: , hvor mod denAlternative hypotese: .
Taler om at forkaste eller acceptere hypotesen.
Måske burde man erstatte "acceptere" med "ikke forkaste" -- men det ladersig næppe ændre.
Poppers tankegang: At forkaste hypotesen er den stærke konklusion
θ 1/2
H0 : θ = θ0 θ0 = 1/2HA : θ ≠ θ0
11 / 40
Klassisk fremgangsmåde:
Lad betegne data.
Vælg en funktion , der har den egenskab, at er (numerisk) stor,hvis data ikke passer på modellen og lille ellers.
Kalder en teststørrelse (eng: test statistic).
Kunne f.eks. tage
Vi får den observerede teststørrelse 0.0101
Er et stort eller lille tal?
Svaret ligger i at spørge: Hvad er sandsynligheden for i fremtiden at seværdier af der er større end hvis ?
x
t(x) t(x)
t(x)
t(x) = |x/N − θ0| = |x/N − 1/2|
tobs = t(x) = t(6389) =
tobs
t(x) tobs θ = θ0
12 / 40
Tankegangen er nu:
Lad os nu antage, at der findes en afkrog et sted på jorden, hvor vi (af eneller anden grund) ved, at i denne afkrog er hypotesen sand, dvs.
.
I denne afkrog gentager vi studiet gange, hvor studiet består i:
1. venter på, at børn er født og2. noterer os antal drenge for .
Beregn for hvert og tegn et histogram af 'erne.
Vi behøver ikke lede efter denne afkrog på jorden; computeren eropfundet og vi kan lave studiet ved simulation (et "in silico trial"):
θ = θ0 = 1/2
M
N = 12524xj j = 1, … ,M
t(xj) xj t(xj)
13 / 40
Tænk på, at vi skal tage en beslutning: Acceptere eller forkaste .
Laver en beslutningsregel: Forkast hvis er "stor";
mere konkret:
forkast hvis
Tallet kaldes den kritiske værdi.
Indtil videre har vi ingen idé om hvordan denne kritiske værdi vælges;kommer senere.
H0 H0
H0 t(x)
H0 t(x) ≥ c
c
c
14 / 40
Der er to typer fejl vi kan begå:
Forkaste selvom er sand; kaldes type-I fejl
Acceptere selvom er falsk; kaldes type-II fejl
Man fastlægger ofte at ssh for at begå en type-I fejl skal være mindre endet lille tal ; f.eks. .
hvor indikerer, at ssh er beregnet for .
Hvis beslutningsreglen er "Forkast hvis så kan vi finde fra:
Beslutningsreglen bliver så: Forkast hvis .
Hvis siger man, at testet er signifikant på niveau .
H0 H0
H0 H0
α α = 0.05
Prθ0(Forkaste H0) ≤ α
Prθ0() θ = θ0
H0 t(x) ≥ c c
Prθ0(t(X) ≥ c) ≤ α
H0 t(x) ≥ c
t(x) ≥ c α
15 / 40
For hvert kan finde den kritiske værdi :
## 0.1 0.05 0.01 0.001 ## 0.007346 0.008783 0.011418 0.014692
Sammenholder med = 0.0101
α cα
tobs
16 / 40
Vi siger at testet er signifikant på niveau (men ikke signifikant på niveau ).
Ofte bruger man signifikansniveauerne , , og -- men derer altså intet "guddommeligt" over disse tal; de har alene historiske grunde.
5%1%
0.10 0.05 0.01 0.001
17 / 40
-værdienEn lidt anden tilgang er: Beregn -værdien (også kaldet testsandsynligheden)der er defineret som
-- altså ssh for at observere en værdi at teststørrelsen der er større end denvi aktuelt står med. Vi får -værdien er 0.0235
p
p
p = Prθ0(t(X) ≥ tobs)
t()p
18 / 40
Dermed kan man sige, at -værdien er et mål for "graden af evidens moden hypotese".
Giver i nogle sammenhænge langt mere mening end at gøre problemet tilet beslutningsproblem.
p
19 / 40
Fejltyper: type-1 fejl og type-2 fejlVerdens sande tilstand - og de beslutninger vi træffer.
hypotese accepteres hypotese forkastes
hypotese er sand type-I fejl
hypotese er falsk type-II fejl
At forkaste selvom er sand kaldes en type-1 fejl
At acceptere selvom er falsk kaldes en type-2 fejl
H0 H0
H0
H0
H0 H0
H0 H0
20 / 40
Som ved retssag:
uskyld accepteres uskyld forkastes
anklagede uskyldig "justitsmord"
anklagede skyldig en "fejl" vi lever med
Man lader tvivlen komme den anklagede til gode: "Man er uskyldig til nogetandet er bevist".
Med mindre der er stærk evidens (data) mod så accepterer man .
H0 H0
H0
H0
H0 H0
21 / 40
Fortolkning af -værdierTilbage til det oprindelige spørgsmål: Er der 50-50 chance for en dreng ogen pige?
En -værdi kan opfattes som et mål for evidencen MOD en hypotese: Enlille -værdi indikerer stor evidens mod hypotesen.
Her er -værdien lille så det får os til at tvivle på hypotesen.
Kan vi deraf konkludere, at null-hypotesen er falsk?Har vi "bevist", at .
Nej. Hvis , så er sandsynligheden for at observere drenge i graviditeter er eller knapt ud af gange. Det er en
lille sandsynlighed, bevares, men det er afgjort muligt selv hvis hypotesener sand.
Der er dog mange studier, der peger på, at der fødes flere drenge endpiger.
p
pp
p
H0 : θ = θ0 = 1/2θ ≠ 1/2
θ = 1/2 638912524 0.00054 1 2000
22 / 40
Some tider fortolkes en --værdi fejlagtigt som noget i retningen af
--værdien er sandsynligheden for at hypotesen er sand.
Dette er forkert: Sandsynligheder er noget vi knytter til fænomener, hvorder er usikkerhed om udkommet (kast med en mønt eller en terning).
Der er ingen usikker om hypotesen: Hypotsen er enten sand eller falsk (vived bare ikke hvad den er, for vi har ingen guddommelig indsigt).
p
p
23 / 40
E�ekten af stikprøvestørrelsenDet LILLE datasæt:
drenge piger total
antal 639 614 1.253
andel 0,51 0,49 1,00
Dvs vi har kun 10\% of data, men andelen af drenge er stadig .0.51
24 / 40
25 / 40
Hvad kan vi så konkludere? er som før (på nær nogle decimaler): 0.01 men
Med børn og drenge er der stærk evidens mod hypotesen: Vi får at --værdien er .
Med børn og drenge er der meget lidt evidens mod hypotesen:Vi får at -værdien er 0.4975
I begge tilfælde er andelen af drenge . Hvad skal vi mene om dette?
tobs
12524 6389θ = 1
2p 2%
1253 639p
0.51
26 / 40
Vi formulerer en hypotese om "verdens sande tilstand", og dernæst"spørger vi data" om der er evidens mod denne hypotese.
Hvis der ikke er evidens mod hypotesen, kan det være fordihypotesen er sand, eller
fordi der ikke er tilstrækkeligt data (information) til at komme meddenne evidens (altså til at "påvise" at hypotesen er forkert)
Igen: tænk på -værdien som mål for evidens mod hypotesen
-værdien afspejler "afstand" mellem data og model (mellem og )
-værdien afspejler OGSÅ mængden af data.
Mere poetisk:
"Absence of evidence (of an effect) is NOT the same as evidence of absence (ofan effect)."
p
p θ̂ = 0.51θ0 = 0.5
p
27 / 40
Test og kon�densinterval -- to sider af samme sagVi testede ovenfor hypotesen hvor .
Vi kunne teste samme hypotese for mange andre værdier af .
For hver værdi af beregner vi -værdien og plotter mod
Husk: Små -værdier er evidens mod hyptesen.
θ = θ0 θ0 = 1/2
θ0
θ0 p θ0
p
28 / 40
Indlæg intervaller hvor -værdien er større end , og .
Disse intervaller er præcist , og konfidensintervaller:
konfidensinterval: [ 0.499; 0.521 ]
konfidensinterval: [ 0.502; 0.519 ]
konfidensinterval: [ 0.504; 0.517 ]
p 0.01 0.05 0.10
99% 95% 90%
99%
95%
90%
29 / 40
Disse intervaller er præcist , og konfidensintervaller:
konfidensinterval: [ 0.475; 0.547 ]
konfidensinterval: [ 0.483; 0.538 ]
konfidensinterval: [ 0.487; 0.532 ]
99% 95% 90%
99%
95%
90%
30 / 40
Tekstbogsudgaven af test i binomialfordelingenTekstbogsudgaven af test i binomialfordelingen er ofte baseret på at man - påbaggrundt af CLT - laver en test-størrelse, der har en kendt fordeling: Ennormal-fordeling eller en fordeling. Dette var vigtigt i "gamle dage" hvorman ikke havde computere til at gøre som ovenfor. Her een udgave af sådanet test.
Lad .
Så er , og .
Ydermere, er - pga. CLT - approximativt normal (sum af uafhængige -variable).
Derfor er og og
.
χ2
X ∼ bin(N, θ)
E(X) = Nθ var(X) = Nθ(1 − θ) sd(X) = √Nθ(1 − θ)
X N0/1
E(X/N) = θ var(X/N) = θ(1 − θ)/N
sd(X/N) = √θ(1 − θ)/N
31 / 40
Definer
`
Så er og .
Ydermere, så er approximativt -fordelt.
NB "måler", hvor mange standardafvigelser er fra sinmiddelværdi.
Vi vil teste hypotesen . Hvis hypotesen er sand så kan vi indsætte i udtrykket ovenfor og vil stadig have en fordeling.
Vi kan så vurdere om er ekstremt langt væk fra i en normalfordeling.
Stort datasæt: , lille datasæt:
t(X) = =X/N − E(X/N)
√var(X/N)
X/N − θ
√θ(1 − θ)/N
E(t(X)) = 0 var(t(X)) = 1
t(X) N(0, 1)
t(X) X/N
H0 : θ = θ0θ0 t(X) N(0, 1)
t(X) 0
t(x) = 2.2697 t(x) = 0.7063
32 / 40
Både store og små værdier er kritiske nu.
Vi tester på niveau . Beslutningsregel: Undlad at forkaste hvis . Vi kan finde udfra
Vi finder så at . Derfor forkastes hypotesen i det store datasæt ogaccepteres i det lille datasæt - helt som før.
α = 5% H0−c < t(X) < c c
Prθ0(−c < t(X) < c) ≤ α
c = 1.96 ≈ 2
33 / 40
Statistisk signi�kans, praktisk signi�kans, klinisksigni�kans...Oprindelsen er det latinske significantia, der betyder betydning
Når man finder en statistisk signifikant "effekt" så betyder det, at den effektman ser er for stor til -- med rimelighed -- at kunne tilskrives tilfældigheder.
Mange studier, der viser, at der fødes ca. drenge og piger.
Men når man venter et barn så tænker man, at der er 50--50 chance for hvertkøn.
Den statistiske signifikans betyder altså ikke nødvendigvis så meget i praksis...
Man finder det samme fænomen i sundhedsverdenen: En statistisk signifikanteffekt kan sagtes være så svag, at den ikke er klinisk relevant for patienten.
50.5% 49.5%
34 / 40
Estimation (by request)Estimation (by request)
35 / 4035 / 40
Estimation af i binomialfordelingen
Det er ikke helt oplagt at bruge mindste kvadraters metode.
Alternativ: Maximum Likelihood Metoden:
Model:
Binomial tæthed
Når data er observeret med så bliver ovenståendeen funktion af alene. Man kalder så funktionen for likelihoodfunktionen
θ
X ∼ bin(N, θ)
Pr(X = x; θ) = ( )θx(1 − θ)N−xN
x
x = 6389 N = 12524θ
L(θ) = Pr(X = x; θ)
36 / 40
Plot mod forskellige værdier af
Den værdi af der maximerer kaldes maximum likelihood estimatet(MLE).
Det er oftest lettere at maximere og MLE bliver
MLE er på mange måder det bedst tænkelige estimat man kan opnå.
L(θ) θ
θ L
l(θ) = logL(θ) θ̂ = x/N
37 / 40
For det lille datasæt får vi
Samme maximum, men likelihood funktionen er mindre peaked --svarende til at der er større usikkerhed på estimatet fordi datasættet ermindre.
38 / 40
Mindste kvadrater og MLEHvad så med regressionsmodellen og mindste kvadrater?
Model:
Samme som at sige
Normalfordelingstæthed bliver
Hvis er uafhængige så er
yi = β0 + β1xi + ei
yi ∼ N(β0 + β1xi, σ2)
f(yi) = exp(− (yi − (β0 + β1xi))2)
1
σ√2π
1
2σ2
y1, … , yN
f(y1, … , yN ) =N
∏i=1
f(yi)
39 / 40
Bliver helt konkret
Antag nu at er kendt. Så er likelihood funktionen
Pga af minus i eksponenten så maximeres ved at minimere
Dvs i regressionsmodellen er mindste kvadrater og MLE det samme.
f(y1, … , yN ) = ( )N exp(−N
∑i=1
(yi − (β0 + β1xi))2)
1
σ√2π
1
2σ2
σ
L(β1, β2) ∝ exp(−N
∑i=1
(yi − (β0 + β1xi))2)
1
2σ2
L
N
∑i=1
(yi − (β0 + β1xi))2
40 / 40