statistisk test - aalborg universitetpeople.math.aau.dk/~sorenh/misc/2019-mariagerfjord/...store...

Hypotesetests, fejltyper og p-værdierHypotesetests, fejltyper og p-værdierog er den nu også det?og er den nu også det?

Søren HøjsgaardSøren Højsgaard

Institut for Matematiske Fag, Aalborg UniversitetInstitut for Matematiske Fag, Aalborg Universitet

(updated: 2019-03-17)(updated: 2019-03-17)

1 / 401 / 40

Statistisk testEt statistisk test er en konfrontation af virkelighenden (data) med en teori(model).

Laves med det formål at forsøge at falsificere modellen.

Alternativt: Man bruger data til at "bevise" at man ikke har ret.

NB: I statistik hedder det ET test; ikke EN test!

2 / 40

Karl Popper (1902-1994)Passer ind Karl Poppers (1902-1994) videnskabsteori:

Man kan ikke empirisk verificere videnskabelige teorier; kun falsificeredem.

Videnskabelige fremskridt sker ved at "man har en teori indtil den bliverfalsificeret"

Se "Conjectures and Refutations" og "The Logic of Scientific Discovery"

3 / 40

Statistikkens tolkningsregelI statistikken anlægger man følgende tolkningsregel:

Det usandsynlige sker ikke

Altså, hvis man observerer data der, hvis modellen er rigtig, er megetusandsynlige, så forkaster man modellen.

Nødvendigt med sådan en tolkningsregel, for ellers kan man aldrig adstatistisk vej erkende noget som helst! Man vil jo altid kunne hævde, atdet foreliggende datasæt blot er et uheldigt udfalg, som ganske vist erusandsynligt men dog muligt.

Eksempel: At slå gange "krone" i kast med en fair mønt sker med ssh; dvs. ca.\ ud af gange. gange krone er et muligt

udfald, men det er ikke videre sandsynligt. Så derfor har vi mere fidus tilat mønten ikke er fair -- altså at modellen er forkert.

20 20≈ 10−6 1 1.000.000 20

4 / 40

Fødes der lige mange drenge og piger?Over en årrække blev disse data indsamlet (på et hospital i London) - detSTORE datasæt:

drenge piger total

antal 6.389 6.135 12.524

andel 0,51 0,49 1,00

Vi skal senere bruge et mindre datasæt, af det store datasæt - det LILLEdatasæt:

drenge piger total

antal 639 614 1.253

andel 0,51 0,49 1,00

10%

5 / 40

drenge piger total

antal 6.389 6.135 12.524

andel 0,51 0,49 1,00

Er der 50--50 chance for en dreng og en pige?

Tydeligvis ikke -- i dette datasæt.

Men hvad med populationen? 51\% er ikke langt fra 50\% og afvigelsenkunne jo skyldes en tilfældighed.

Spørgsmålet er: Er afvigelsen så stor, at den ikke -- med rimelighed -- kantilskrives en tilfældighed?

6 / 40

Model for data:For at komme videre skal vi have en model -- en mekanisme, der kunne havegenereret data:

Uden antagelser, ingen konklusioner. Vi antager

Alle kvinder har samme sandsynlighed for at føde en dreng.

Udkommet af alle graviditeter er uafhængige -- også forskelligegraviditeter for samme kvinde og også for forskellige graviditeter forsamme mand.

Er disse antagelser rimelige? Tjoh -- måske -- i hvert fald: uden antagelser,ingen konklusioner.

Fører til at antal drengefødsler er binomialfordelt

Dvs ssh for at observere drenge i fødsler hvor der hver gang er ssh foren dreng er

θ

X

X ∼ bin(N, θ), N = 12524

x N θ

Pr(X = x; θ) = ( )θx(1 − θ)N−xN

x 7 / 40

Tætheder for binomialfordelingen

8 / 40

Man kan antage at ssh er 50\% og så se på hvordan data kunne have set ud

drenge piger total drenge piger total

6263 6261 12524 6252 6272 12524

6223 6301 12524 6271 6253 12524

6243 6281 12524 6298 6226 12524

6263 6261 12524 6324 6200 12524

6403 6121 12524 6215 6309 12524

Sammenlign med de observerede data

drenge piger total

6389 6135 12524

NB: Der er eet simuleret datasæt, der ligeså mange eller flere drenge som vihar observeret.

9 / 40

Det LILLE datasæt

drenge piger total drenge piger total

627 626 1253 625 628 1253

615 638 1253 631 622 1253

623 630 1253 639 614 1253

627 626 1253 613 640 1253

670 583 1253 600 653 1253

Sammenlign med de observerede data

drenge piger total

639 614 1253

NB: Der er to simulerede datasæt, der ligeså mange eller flere drenge som vihar observeret.

10 / 40

HypotesetestEt "fagligt" spørgsmål: Fødes der lige mange drenge og piger?

Oversættes til statistisk spørgsmål: "Er (ssh for en dreng) lig med "?

Plejer at formulere det som hypotese:

Tester null-hypotesen: , hvor mod denAlternative hypotese: .

Taler om at forkaste eller acceptere hypotesen.

Måske burde man erstatte "acceptere" med "ikke forkaste" -- men det ladersig næppe ændre.

Poppers tankegang: At forkaste hypotesen er den stærke konklusion

θ 1/2

H0 : θ = θ0 θ0 = 1/2HA : θ ≠ θ0

11 / 40

Klassisk fremgangsmåde:

Lad betegne data.

Vælg en funktion , der har den egenskab, at er (numerisk) stor,hvis data ikke passer på modellen og lille ellers.

Kalder en teststørrelse (eng: test statistic).

Kunne f.eks. tage

Vi får den observerede teststørrelse 0.0101

Er et stort eller lille tal?

Svaret ligger i at spørge: Hvad er sandsynligheden for i fremtiden at seværdier af der er større end hvis ?

x

t(x) t(x)

t(x)

t(x) = |x/N − θ0| = |x/N − 1/2|

tobs = t(x) = t(6389) =

tobs

t(x) tobs θ = θ0

12 / 40

Tankegangen er nu:

Lad os nu antage, at der findes en afkrog et sted på jorden, hvor vi (af eneller anden grund) ved, at i denne afkrog er hypotesen sand, dvs.

.

I denne afkrog gentager vi studiet gange, hvor studiet består i:

1. venter på, at børn er født og2. noterer os antal drenge for .

Beregn for hvert og tegn et histogram af 'erne.

Vi behøver ikke lede efter denne afkrog på jorden; computeren eropfundet og vi kan lave studiet ved simulation (et "in silico trial"):

θ = θ0 = 1/2

M

N = 12524xj j = 1, … ,M

t(xj) xj t(xj)

13 / 40

Tænk på, at vi skal tage en beslutning: Acceptere eller forkaste .

Laver en beslutningsregel: Forkast hvis er "stor";

mere konkret:

forkast hvis

Tallet kaldes den kritiske værdi.

Indtil videre har vi ingen idé om hvordan denne kritiske værdi vælges;kommer senere.

H0 H0

H0 t(x)

H0 t(x) ≥ c

c

c

14 / 40

Der er to typer fejl vi kan begå:

Forkaste selvom er sand; kaldes type-I fejl

Acceptere selvom er falsk; kaldes type-II fejl

Man fastlægger ofte at ssh for at begå en type-I fejl skal være mindre endet lille tal ; f.eks. .

hvor indikerer, at ssh er beregnet for .

Hvis beslutningsreglen er "Forkast hvis så kan vi finde fra:

Beslutningsreglen bliver så: Forkast hvis .

Hvis siger man, at testet er signifikant på niveau .

H0 H0

H0 H0

α α = 0.05

Prθ0(Forkaste H0) ≤ α

Prθ0() θ = θ0

H0 t(x) ≥ c c

Prθ0(t(X) ≥ c) ≤ α

H0 t(x) ≥ c

t(x) ≥ c α

15 / 40

For hvert kan finde den kritiske værdi :

## 0.1 0.05 0.01 0.001 ## 0.007346 0.008783 0.011418 0.014692

Sammenholder med = 0.0101

α cα

tobs

16 / 40

Vi siger at testet er signifikant på niveau (men ikke signifikant på niveau ).

Ofte bruger man signifikansniveauerne , , og -- men derer altså intet "guddommeligt" over disse tal; de har alene historiske grunde.

5%1%

0.10 0.05 0.01 0.001

17 / 40

-værdienEn lidt anden tilgang er: Beregn -værdien (også kaldet testsandsynligheden)der er defineret som

-- altså ssh for at observere en værdi at teststørrelsen der er større end denvi aktuelt står med. Vi får -værdien er 0.0235

p

p

p = Prθ0(t(X) ≥ tobs)

t()p

18 / 40

Dermed kan man sige, at -værdien er et mål for "graden af evidens moden hypotese".

Giver i nogle sammenhænge langt mere mening end at gøre problemet tilet beslutningsproblem.

p

19 / 40

Fejltyper: type-1 fejl og type-2 fejlVerdens sande tilstand - og de beslutninger vi træffer.

hypotese accepteres hypotese forkastes

hypotese er sand type-I fejl

hypotese er falsk type-II fejl

At forkaste selvom er sand kaldes en type-1 fejl

At acceptere selvom er falsk kaldes en type-2 fejl

H0 H0

H0

H0

H0 H0

H0 H0

20 / 40

Som ved retssag:

uskyld accepteres uskyld forkastes

anklagede uskyldig "justitsmord"

anklagede skyldig en "fejl" vi lever med

Man lader tvivlen komme den anklagede til gode: "Man er uskyldig til nogetandet er bevist".

Med mindre der er stærk evidens (data) mod så accepterer man .

H0 H0

H0

H0

H0 H0

21 / 40

Fortolkning af -værdierTilbage til det oprindelige spørgsmål: Er der 50-50 chance for en dreng ogen pige?

En -værdi kan opfattes som et mål for evidencen MOD en hypotese: Enlille -værdi indikerer stor evidens mod hypotesen.

Her er -værdien lille så det får os til at tvivle på hypotesen.

Kan vi deraf konkludere, at null-hypotesen er falsk?Har vi "bevist", at .

Nej. Hvis , så er sandsynligheden for at observere drenge i graviditeter er eller knapt ud af gange. Det er en

lille sandsynlighed, bevares, men det er afgjort muligt selv hvis hypotesener sand.

Der er dog mange studier, der peger på, at der fødes flere drenge endpiger.

p

pp

p

H0 : θ = θ0 = 1/2θ ≠ 1/2

θ = 1/2 638912524 0.00054 1 2000

22 / 40

Some tider fortolkes en --værdi fejlagtigt som noget i retningen af

--værdien er sandsynligheden for at hypotesen er sand.

Dette er forkert: Sandsynligheder er noget vi knytter til fænomener, hvorder er usikkerhed om udkommet (kast med en mønt eller en terning).

Der er ingen usikker om hypotesen: Hypotsen er enten sand eller falsk (vived bare ikke hvad den er, for vi har ingen guddommelig indsigt).

p

p

23 / 40

E�ekten af stikprøvestørrelsenDet LILLE datasæt:

drenge piger total

antal 639 614 1.253

andel 0,51 0,49 1,00

Dvs vi har kun 10\% of data, men andelen af drenge er stadig .0.51

24 / 40

25 / 40

Hvad kan vi så konkludere? er som før (på nær nogle decimaler): 0.01 men

Med børn og drenge er der stærk evidens mod hypotesen: Vi får at --værdien er .

Med børn og drenge er der meget lidt evidens mod hypotesen:Vi får at -værdien er 0.4975

I begge tilfælde er andelen af drenge . Hvad skal vi mene om dette?

tobs

12524 6389θ = 1

2p 2%

1253 639p

0.51

26 / 40

Vi formulerer en hypotese om "verdens sande tilstand", og dernæst"spørger vi data" om der er evidens mod denne hypotese.

Hvis der ikke er evidens mod hypotesen, kan det være fordihypotesen er sand, eller

fordi der ikke er tilstrækkeligt data (information) til at komme meddenne evidens (altså til at "påvise" at hypotesen er forkert)

Igen: tænk på -værdien som mål for evidens mod hypotesen

-værdien afspejler "afstand" mellem data og model (mellem og )

-værdien afspejler OGSÅ mængden af data.

Mere poetisk:

"Absence of evidence (of an effect) is NOT the same as evidence of absence (ofan effect)."

p

p θ̂ = 0.51θ0 = 0.5

p

27 / 40

Test og kon�densinterval -- to sider af samme sagVi testede ovenfor hypotesen hvor .

Vi kunne teste samme hypotese for mange andre værdier af .

For hver værdi af beregner vi -værdien og plotter mod

Husk: Små -værdier er evidens mod hyptesen.

θ = θ0 θ0 = 1/2

θ0

θ0 p θ0

p

28 / 40

Indlæg intervaller hvor -værdien er større end , og .

Disse intervaller er præcist , og konfidensintervaller:

konfidensinterval: [ 0.499; 0.521 ]



p 0.01 0.05 0.10

99% 95% 90%

99%

95%

90%

29 / 40

Disse intervaller er præcist , og konfidensintervaller:




99% 95% 90%

99%

95%

90%

30 / 40

Tekstbogsudgaven af test i binomialfordelingenTekstbogsudgaven af test i binomialfordelingen er ofte baseret på at man - påbaggrundt af CLT - laver en test-størrelse, der har en kendt fordeling: Ennormal-fordeling eller en fordeling. Dette var vigtigt i "gamle dage" hvorman ikke havde computere til at gøre som ovenfor. Her een udgave af sådanet test.

Lad .

Så er , og .

Ydermere, er - pga. CLT - approximativt normal (sum af uafhængige -variable).

Derfor er og og

.

χ2

X ∼ bin(N, θ)

E(X) = Nθ var(X) = Nθ(1 − θ) sd(X) = √Nθ(1 − θ)

X N0/1

E(X/N) = θ var(X/N) = θ(1 − θ)/N

sd(X/N) = √θ(1 − θ)/N

31 / 40

Definer

`

Så er og .

Ydermere, så er approximativt -fordelt.

NB "måler", hvor mange standardafvigelser er fra sinmiddelværdi.

Vi vil teste hypotesen . Hvis hypotesen er sand så kan vi indsætte i udtrykket ovenfor og vil stadig have en fordeling.

Vi kan så vurdere om er ekstremt langt væk fra i en normalfordeling.

Stort datasæt: , lille datasæt:

t(X) = =X/N − E(X/N)

√var(X/N)

X/N − θ

√θ(1 − θ)/N

E(t(X)) = 0 var(t(X)) = 1

t(X) N(0, 1)

t(X) X/N

H0 : θ = θ0θ0 t(X) N(0, 1)

t(X) 0

t(x) = 2.2697 t(x) = 0.7063

32 / 40

Både store og små værdier er kritiske nu.

Vi tester på niveau . Beslutningsregel: Undlad at forkaste hvis . Vi kan finde udfra

Vi finder så at . Derfor forkastes hypotesen i det store datasæt ogaccepteres i det lille datasæt - helt som før.

α = 5% H0−c < t(X) < c c

Prθ0(−c < t(X) < c) ≤ α

c = 1.96 ≈ 2

33 / 40

Statistisk signi�kans, praktisk signi�kans, klinisksigni�kans...Oprindelsen er det latinske significantia, der betyder betydning

Når man finder en statistisk signifikant "effekt" så betyder det, at den effektman ser er for stor til -- med rimelighed -- at kunne tilskrives tilfældigheder.

Mange studier, der viser, at der fødes ca. drenge og piger.

Men når man venter et barn så tænker man, at der er 50--50 chance for hvertkøn.

Den statistiske signifikans betyder altså ikke nødvendigvis så meget i praksis...

Man finder det samme fænomen i sundhedsverdenen: En statistisk signifikanteffekt kan sagtes være så svag, at den ikke er klinisk relevant for patienten.

50.5% 49.5%

34 / 40

Estimation (by request)Estimation (by request)

35 / 4035 / 40

Estimation af i binomialfordelingen

Det er ikke helt oplagt at bruge mindste kvadraters metode.

Alternativ: Maximum Likelihood Metoden:

Model:

Binomial tæthed

Når data er observeret med så bliver ovenståendeen funktion af alene. Man kalder så funktionen for likelihoodfunktionen

θ

X ∼ bin(N, θ)

Pr(X = x; θ) = ( )θx(1 − θ)N−xN

x

x = 6389 N = 12524θ

L(θ) = Pr(X = x; θ)

36 / 40

Plot mod forskellige værdier af

Den værdi af der maximerer kaldes maximum likelihood estimatet(MLE).

Det er oftest lettere at maximere og MLE bliver

MLE er på mange måder det bedst tænkelige estimat man kan opnå.

L(θ) θ

θ L

l(θ) = logL(θ) θ̂ = x/N

37 / 40

For det lille datasæt får vi

Samme maximum, men likelihood funktionen er mindre peaked --svarende til at der er større usikkerhed på estimatet fordi datasættet ermindre.

38 / 40

Mindste kvadrater og MLEHvad så med regressionsmodellen og mindste kvadrater?

Model:

Samme som at sige

Normalfordelingstæthed bliver

Hvis er uafhængige så er

yi = β0 + β1xi + ei

yi ∼ N(β0 + β1xi, σ2)

f(yi) = exp(− (yi − (β0 + β1xi))2)

1

σ√2π

1

2σ2

y1, … , yN

f(y1, … , yN ) =N

∏i=1

f(yi)

39 / 40

Bliver helt konkret

Antag nu at er kendt. Så er likelihood funktionen

Pga af minus i eksponenten så maximeres ved at minimere

Dvs i regressionsmodellen er mindste kvadrater og MLE det samme.

f(y1, … , yN ) = ( )N exp(−N

∑i=1

(yi − (β0 + β1xi))2)

1

σ√2π

1

2σ2

σ

L(β1, β2) ∝ exp(−N

∑i=1

(yi − (β0 + β1xi))2)

1

2σ2

L

N

∑i=1

(yi − (β0 + β1xi))2

40 / 40

statistisk test - aalborg universitetpeople.math.aau.dk/~sorenh/misc/2019-mariagerfjord/...store...

Documents