vÝpoČetnÉ aspekty metÓdy bootstrap matúš maciak, …antoch/robust06/postery/maciak.pdf · c...
TRANSCRIPT
ROBUST 2006 Poster Section 2006 c© JČMF
VÝPOČETNÉ ASPEKTY METÓDY BOOTSTRAPMatúš Maciak, Jaroslav Ševčík
[email protected], [email protected]
Matematicko-fyzikální fakulta, UNIVERZITA KARLOVA V PRAZEKatedra Pravděpodobnosti a matematické statistiky
Abstrakt: Účelom tejto práce bolo poskytnúť stručný prehľad modernej a v praxi stále čoraz častejšie používanej štatistickej metódy bootstrap, a tiež konkrétne ilustrovať jej použitie v štatistickomsoftware. K tomuto účelu sme zvolili v akademickej oblasti často používaný, voľne dostupný program R a jeho komerčnú verziu S-PLUS. Okrem niekoľkých vzorových príkladov, ktoré slúžia k lepšejnázornosti tejto metódy, sme pomocou simulácií aj zisťovali, ako je potrebné vhodne voliť počet boostrapových výberov. Keďže táto populárna metóda je na aplikáciu pomerne jednoduchá, snažili sme saupozorniť aj na to, že v pozadí tohoto prístupu stojí náročná teória a mala by byť preto používaná s rozvahou.
Čo je to BOOTSTRAP?Medzi klasické výpočetné úlohy v matematickej štatistikepatrí nepochybne zisťovanie bodového odhadu pre nejakýparameter, prípadne štatistiku. Často nás však zaujímajúaj variácia alebo konfidenčné intervaly tohoto odhadu.Skúmame preto jeho rozdelenie. Tradične sa v štatistike ktomuto účelu používa CLV, teda za určitých predpokladovhľadané rozdelenie pri dostatočne veľkom rozsahu dát aprox-imujeme normálnym rozdelením. Uplatnením modernýchvýpočtových prostriedkov sa však ponúka aj ďalšia možnosť,a to použiť k odhadu rozdelenia skúmaného parametru, čištatistiky tzv. resample metódy, označované aj ako com-puter intensive methods. Jednou z takýchto metód je ajmetóda bootstrap, uvedená Efronom v roku 1979. Preúplnosť spomeňme zvyšné základné resamplové techniky. Súto subsampling, ktorého špeciálnym prípadom je jackknife,ďalej permutačné testy a krížové overovanie.
1. Parametrický bootstrap:
Majme náhodný výber X1, X2, . . . , XN z rozdelenia F (X, ξ). Skú-mame štatistiku θ = θ(F ), ktorú odhadneme z dát. Parametrickýbootstrap vychádza z predpokladu apriornej informácie o rozdeleníF (X, ξ). Predpokladáme teda konkrétny tvar tohoto rozdelenia, ktoréje určené vektorom parametrov ξ = (ξ1, . . . , ξK), ktorý odhadneme znáhodného výberu X1, X2, . . . , XN . Z takto získaného odhadnutéhorozdelenia FN(X, ξ) simulujeme B náhodných výberov (bootstrapovévýbery, dodávame náhodu), kde N < B << NN a pre každý náhodnývýber spočítame θ∗N,i, i = 1, . . . , B. Z týchto odhadov z každého boot-strapového výberu získavame aproximáciu rozdelenia odhadu θN .
Príklad 1: (výberový priemer)Skúmajme dáta, ktoré udávajú počet hodín medzi poruchami klima-tizácie v Boeingu 720 jet aircraft (3, 5, 7, 18, 43, 85, 91, 98, 100, 130,
230, 487). Zaujíma nás rozdelenie odhadu strednej hodnoty -výberového priemeru. Zdá sa, že EDF sa dá dobre nafitovať expo-nenciálnym, alebo gamma rozdelením. Simulujme teda náh. výbery zodhadnutého gamma rozdelenia a pomocou nich aproximujeme rozde-lenie výberového priemeru. Z obrázku (obr. 1) je vidieť, že výberovýpriemer má výrazne zošikmené rozdelenie, čo potvrdzuje aj normalQ-Q plot, podľa ktorého nejde o normálne rozdelenie. Naproti tomuGamma Q-Q plot naznačuje tomu, že ide o gamma rozdelenie.
Bootstrapove rozdelenie vyberoveho priemeru
mean
Density
50 100 150 200 250 300
0.0
0.002
0.004
0.006
0.008
0.010
0.012
ObservedMean
Normal Q-Q plot
Kvantily normalneho rozdelenia
vyb. priemery bootstrapovych vyberov
-2 0 2
50
100
150
200
250
300
Gamma Q-Q plot
Kvantily gama rozdelenia
vyb. priemery bootstrapovych vyberov
50 100 150 200 250
50
100
150
200
250
300
Obr.1 Aroximácia výberového priemeru dát o klimatizácii parametrickým bootstrapom, normal
a gamma Q-Q plot štatistík z bootstrapových výberov.
2. Neparametrický bootstrap:
Podobne ako v prechádzajúcom prípade majme náhodný výberX1, X2, . . . , XN z rozdelenia F (X) a skúmame štatistiku θ = θ(F ),ktorú odhadneme z dát. V prípade neparametrického bootstrapu všaknepredpokladáme apriórnu informáciu o tvare rozdelenia F . NeznámuF aproximujeme pomocou EDF, ako FN a z tejto simulujeme N
pozorovaní, čo znamená, že z náhodného výberu X1, X2, . . . , XN
vyberáme N krát s opakovaním. Dostávame prvý bootstrapovývýber X∗
1,1, . . . , X∗1,N . Postup opakujeme B-krát. Pre každý takto
získaný bootstrapový výber spočítame odhad skúmanej štatistikyθ∗N,i, i = 1, . . . , B. Z týchto odhadov napokon aproxinujeme rozdele-nie odhadu θN .
Príklad 2: (korelačný koeficient)Skújmame korelačný koeficient medzi dvoma výbermi (data city zknižnice boot v R o raste populácie v rôznych amerických mestách).Použijeme neparametrický bootstrap na aproxiáciu rozdelenia kore-lačného koeficientu. (Obr. 2)
Histogram of bootcity1$t
bootcity1$t
Dens
ity
−0.5 0.0 0.5 1.0
01
23
45
67
●
●●
●
●
●
●
●
●
●
●●
●
●
●●
●
●●
●●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●●●
●
●
●
●
●
●
●
●
●●
●●●
●
●
●●
●
●
●●
●●●
●
●
●
●
●●
●
●
●
●
●
●
●
●●●
●●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●●
●
●
●●●● ●
●
●
●
●
●
●●●
●
●
●●
●
●
●
●
●
●●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●●
●●
●
●
●●
●
●
●
●●
●●
●●●
●
●
●
●
●●
●●●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●●
●●
●
●
●
●●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●●
●
●●
●
●
●●
●
●
●
●●
●
●
●
●●
●
●
●
●●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●● ●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●●●
●
●
●
●●
●
●●
●●
●
●
●
●
●●
●
●
●●
●
●●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●●●●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●●●
●
●●
●
●
●●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●●
●●
●
●
●
●●
●
●
●
●
●
●
●●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●●●
●
●
●●
●
●
●●
●●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●●
●●
●●
●
●
●●
●●
●●
●● ●
●
●●
●
●
●
●●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●●
●
●●
●
●
●●
●
●
●●
●●
●
●
●●
●
●
●
●
●
●
●
● ●●●
●
●
●
●
●
●
●
●●
●●
●●
●
●
●
●
●
●
●
●
●
●●
●
●● ●
●
●
●●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●●
●●
●●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
−3 −2 −1 0 1 2 3
01
23
45
Normal Q−Q Plot
Theoretical Quantiles
Samp
le Qu
antile
s
Obr.2 Odhad rozdelenia pre korelačný koeficient a normal Q-Q plot pre Fisherové transfor-
mácie korelačných koeficientov z boostrapových výberov.
Kedy možno bootstrap použiť?Bootstrap možno aplikovať len na štatistiky,o ktorých vieme, že boot-strapová aproximácia spĺňa určité teoretické vlastnosti, a síce konzis-tenciu a asymptotickú presnosť (rýchlosť konvergencie ku skutočnému
rozdeleniu, Edgeworthov rozvoj). Tieto požiadavky sú splnené uväčšiny bežných štatistík, ako sú napr. hladké funkcie výberovýchmomentov (priemer, rozptyl, atď), odhady v lineárnych a zobec-nených lineárnych modeloch, väčšina max. vierohodnýchodhadov a veľa štatistík odvodených z časových rád. V lineárnychmodeloch existujú dva prístupy pri aplikácii bootstrapu na odhadregresných koeficientov a to resampling residuals a resamplingcases. V poslednej dobe sa často využíva nový spôsob generovanianáhodných výberov, označovaný ako wild bootstrap. Tento vykazujelepšie vlastnosti a je vhodný v prípade heteroskedastických dát. Učasových rád sa pre konštrukciu bootstrapových výberov používa re-samplovanie blokov. Základné prístupy sú based resampling, blockresampling a metóda blocks of blocks.
Bootstrap verzus konvenčný prístup(CLV)Výhody Bootstrapu: Je jednoduchý na použitie. Oslobodzuje násod dvoch obmedzení klasického prístupu, a síce predpokladu zvonovéhorozdelenia dát a nutnosti zamerať sa na štatistiky, ktorých teoretickévlastnosti môžu byť analyzované matematicky. Často pozorujemerýchlejšiu konvergenciu ku skutočnému rozdeleniu ak v prípade CLV,je teda vhodný aj pre menšie výbery.
Nevýhody Bootstrapu: Niekedy môže poskytnúť klamlivý obrazskutočnosti (napr. u dát s odľahlými pozorovaniami)
Aplikácia bootstrapu v R 2.2.0Existujú knižnice boot, bootstrap a simpleboot, ktoré umožňujúaplikáciu bootstrapových štatistických metód v R (podľa odporúčaní savyžaduje verzia R 2.2.0 a viac).
K dispozícii sú oba prístupy, parametrický aj neparametrický boot-strap. Funkcie pre jednoduchý bootstrap (boot(), bootstrap() apairs.boot()) s možnými metódami ordinary, balanced, anthiteticbootstrap a permutation. Na bootstrap v lineárnom modele slúžifunkcia lm.boot() s voliteľnými metódami model-based resamplinga resampling cases. K použitiu bootstrapu v časových radách súnutné ešte dodatočné knižnice (tseries, zoo, quadprog).Funkcie ts-boot() a tsbootstrap() umožňujú využiť metódy Model-based re-sampling, Block resampling a tiež metódu Blocks-of-blocks. Vprípade niektorej z metód blokov je k dispozícia voľba pevnej dĺžkybloku, alebo dĺžky bloku s geometrickým rozdelením s voliteľnou stred-nou hodnotou l.
Konfidenčné intervalyKlasické konfidenčné intervaly sú založené na asymptotickejaproximácii, ktorá je v praxi často nepresná (interval θ ± z(α)σ, kdez(α) sú percentily normálneho rozdelenia). Pri bootstrape sa okremempirických percentilov využívajú aj vylepšené konfidenčné intervaly,a to ABC, BCα a t-bootstrap.
1. BCα Intervaly pre parameter θ:→ bootstrapové výbery X∗
i,N , X∗i,N , . . . , X∗
i,N pre i = 1, . . . , B →odhady θ∗N,1, . . . , θ
∗N,B → odhad distribučnej funkcie θ , G(θ) ako
G(c) =∑B
i=1 I{θ∗N,i≤c}
⇒ BCα interval je[θ∗BCα
[α], θ∗BCα[1− α]
], kde
θ∗BCα[α] = G−1φ
(z0 + z0+zα
1−a(z0+zα)
),
kde zα = φ−1(α), z0 je biasová korekcia a a je akcelerácia.
2. ABC Intervaly pre parameter θ:→ analytická verzia BCα konfidenčných intervalov.⇒ ABC konfidenčný interval je
[θ∗ABC [α], θ∗ABC [1− α]
], kde
θ∗ABC [α] = θ + ω(1−aω)2
√θ, kde ω = z0 + zα.
3. t-bootstrap intervaly pre parameter θ:→ náhodný výber X∗
1 , X∗2 , . . . , X
∗N → odhadneme θ(X) a smero-
datnú odchýlku σθ → statistika T = θ−θσθ
→ z bootstrapovýchvýberov odhadneme kvantily T (α).
⇒ t-bootstrap interval je[θ − σT (α), θ − σT (1−α)
]
Príklad 3: (výberový korelačný koeficient)Porovnanie konfidenčných intervalov, počítaných rôznymi metódamipre odhad korelačného koeficientu ρ, kde ρ = 0.723:
Parametrický prístupα ABC BCα t-bootstrap Standard
0.05 0.47 0.47 0.45 0.550.95 0.86 0.86 0.87 0.90
Neparametrický prístupα ABC BCα t-bootstrap Standard
0.05 0.56 0.55 0.51 0.590.95 0.83 0.85 0.86 0.85
K výpočtu BCα, ABC a t-bootstrap konfidenčných limít sú určenéfunkcie abc.ci(), boot.ci(), abc.par(), abc.non(), bcanon() a boott().Príklad 4: (testová štatistika - časová rada)Máme časovú radu {Xt, t = {1, 2, . . . , 309}}, kde Xt je logarit-mus podielu ceny ovčej vlny na austrálskom trhu a minimálnej cenystanovenej na daný týždeň. Testujeme hypotézu H0 že ide o náhodnúprechádzku proti alternatíve H1, že ide o autoregresnú postupnosťprvého radu. Volíme testovú štatistiku T = 1−α
sαkde α je odhad au-
toregresného koeficientu a sα je smerodatná odchýlka pre α. MetódouBlock resampling s geometrickým rozdelením dĺžky blokov so stred-nou hodnotou l = 20 a počtom opakováni R = 5000 odhadnemerozdelenie pre testovú štatistiku T .
●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
0 1 2 3 4
0.0
0.2
0.4
0.6
0.8
1.0
density.default(x = boot1$t[, 1])
odhad hustoty testovej statistiky
Den
sity
●
●●
●
●
● ●● ●
●
●
●● ●
● ● ● ●
●●
●
●
● ●● ● ●
●
●●
●
●
● ● ● ●
●
●
●
●● ●
● ● ●
0 1000 2000 3000 4000 5000
1.2
1.3
1.4
1.5
1.6
1.7
1.8
pocet bootstrapovych vyberov
sta
tistik
a T
Obr.3 Odhad hustoty rozdelenia testovej štatistiky T , spočítaný na základe 1000 bootstrapovýchvýberov a odhad štatistiky spočítaný z pôvodných dát. Na druhom obrázku je bootstrapovýodhad testovej štatistiky T , počítaný pre rôzne hodnoty počtu opakovaní bootstrapových výberovv piatich prípadoch.
Hodnoty štatistiky T blízko nule by svedčili v prospech nulovej hy-potézy. Na základe zkonštruovaných konfidenčných intervalov preštatistiku T so spoľahlivosťou 95% však zamietneme nulovú hypotézuH0.
Aplikácia v S-plusPre účely bootstrapu je nutné stiahnúť knižnicu S+Resample. Kdispozícii je na stránke http://www.insightful.com/downloads/libraries. Knižnica podporuje parametrický aj neparametr-ciký bootstrap, premutačné testy, metódu jackknife, odhady vlineárnych modeloch, atď. Implementácia funkcií a významparametrov je podobný ako v R-ku. K dispozícii sú funkcie sam-ple(), bootstrap(), pbootstrap(), sbootstrap(), pre permutačné testyje určená funkcia permutationTest() a pre empirické percentily a inékonfidenčné intervaly funkcie limits.emp(), limits.bca().
Voľba počtu opakovaníV prípade jednoduchých štatistík, ako je napr. výberový priemer,dobré výsledky dostávame už pri B = 500 opakovaniach (Obr. 4).K tomuto účelu sme simulovali hodnotu vychýlenia a rozptylu boot-strapového odhadu tejto štatistiky (data o klimatizácii) pri 10, 20,50, 100, 200 a 500 opakovaniach. V tomto prípade ľahko teoret-icky zistíme, k čomu by malo konvergovať toto vychýlenie a rozptyl,E∗(X∗
N) = XN , Var∗(X∗N) =
S2N
N , kde S2N = 1
N
∑Ni=1(Xi −XN)2.
1
1
1
1
1
1 1
2
2
2
2
2
2
2
3
3
3
33
3
3
4
4
4
4
4
4
4
5
5
5
5
5
5 5
pocet opakovani B
Bias
0 100 200 300 400 500
-50
510 1
1
1 11
11
2
22
2
2 2
2
3
3
3
33
3
3
4
4
4
4
4
44
5 5
5
55
5
5
pocet opakovani B
Variancia
0 100 200 300 400 500
1000
1500
2000
Obr.4 Empirický bias a rozptyl bootstrapového odhadu strednej hodnoty v piatich prípadochpre rôzny počet opakovaní B (data o klimatizácii).
V prípade komplikovanejších štatistík občas potrebujeme väčší početbootstrapových opakovaní, aby sme dosiahli menšie vychýlenie arozptyl bootstrapového odhadu. Pre konfidenčné intervaly sa do-poručuje hodnota B aspoň 1000, v prípade niektorých iných štatistíkto môže byť aj 10000 a viac (Nezabudnime, že počet bootstrapovýchvýberov B musí byť väčší ako je rozsah dát N). Treba preto pri ap-likácii bootstrapu myslieť aj na túto skutočnosť (v S-PLUS je defaultnenastavené B = 1000, v R nie je defaultne nastavenie). Počet opakovaníbootstrapového odhadu skúmali aj v prípade testovej štatistiky z prík-ladu 4, (Obr. 3). Na záver ešte pridávame simuláciu počtu opakovaníbootstrapového odhadu pre korelačný koeficient (Obr. 5).
1
1
1
1
11
1 11 1
2
2
2
2
2
2
22 2
2
3
3
3
3
33
3
33 3
4
4
4
4
4 4
4 4 4 4
5555
55
5
5 5 5
počet opakovaní B
Bias
0 1000 2000 3000 4000 5000
-0.06
-0.04
-0.02
0.0
0.02
0.04
1
11
11
1
1 11 1
2
2
2
22
2 22 2 2
3
3
33
3
3
3 3 33
4
4
4
4
4
4
44 4 4
5
5
555 5
5
5 5 5
počet opakovaní B
Variancia
0 1000 2000 3000 4000 5000
0.005
0.010
0.015
0.020
0.025
0.030
Obr.5 Empirický bias a rozptyl bootstrapového odhadu korelačného koeficientu v piatich prí-padoch pre rôzny počet opakovaní B (data o štandardizovaných testoch z helpu ku knižniciS+Resample).
Vplyv odľahlých pozorovaníNapokon sa ešte pozrime, ako odhaliť, či bootstrapový odhad môže byťpoškodený odľahlým pozorovaním, teda či existuje v datovom súboreodľahlé pozorovanie. Na tento účel sa používa metóda jackknife,ktorá spočíta bootsrapový odhad štatistiky N-krát pre každý datovýsúbor, ktorý vznikne z pôvodného vynechaním jedného pozorovania.Ak sa po vynechaní nejakého pozorovania bootstrapový odhad výrazneodlišuje od ostatných klasifikuje sa ako odľahlé. V R k dispozícii funk-cia jackknife() a v S-PLUS funkcia jack.after.bootstrap()Literatúra[1] A.C. Davison a D.V. Hinkley. (1997). Bootstrap Methods and their application,Cambridge University PressPoďakovanie:Na záver by sme sa radi poďakovali ČSOB banke za grant, vďaka ktorémusme sa mohli zúčastniť na konferencii ROBUST 2006.