tilastomatematiikka - math.tut.fimath.tut.fi/~ruohonen/tm.pdf · luku 1 perusotosjakaumat ja datan...

91
TILASTOMATEMATIIKKA Keijo Ruohonen 2011

Upload: truongthuan

Post on 18-Apr-2019

233 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

TILASTOMATEMATIIKKA

Keijo Ruohonen

2011

Page 2: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

Sisältö

1 I PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET1 1.1Satunnaisotanta1 1.2Tärkeitä otossuureita2 1.3Datan esitykset ja graafiset metodit6 1.4Otosjakaumat6 1.4.1 Otoskeskiarvon jakauma9 1.4.2 Otosvarianssin jakauma10 1.4.3 t-jakauma12 1.4.4 F-jakauma

14 II YHDEN JA KAHDEN OTOKSEN ESTIMOINTI14 2.1Piste-estimointi ja väliestimointi16 2.2Yksi otos: Odotusarvon väliestimointi19 2.3Ennustevälit20 2.4Toleranssivälit21 2.5Kaksi otosta: Odotusarvojen erotuksen estimointi24 2.6Parittaiset havainnot24 2.7Suhdeluvun estimointi26 2.8Yksi otos: Varianssin estimointi27 2.9Kaksi otosta: Varianssien suhteen estimointi

29 III HYPOTEESIEN TESTAUS29 3.1Tilastolliset hypoteesit29 3.2Hypoteesien testaus31 3.3Kaksipuoliset ja toispuoliset testit32 3.4Testisuureet34 3.5P-arvot35 3.6Odotusarvojen testaus37 3.7Varianssien testaus39 3.8Odotusarvojen vertailu graafisesti

40 IV χ2-TESTIT

40 4.1Jakauman sopivuustesti41 4.2Riippumattomuustesti. Kontingenssitaulut43 4.3Homogeenisuustesti

46 V SUURIMMAN USKOTTAVUUDEN ESTIMOINTI46 5.1Suurimman uskottavuuden estimointi47 5.2Esimerkkejä

i

Page 3: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

ii

50 VI MONEN MUUTTUJAN LINEAARINEN REGRESSIO50 6.1Regressiomalli51 6.2Parametrien estimointi. Matriisiesitys54 6.3Parametriestimaattorien ominaisuuksia57 6.4Regression tilastollinen käsittely59 6.5Sovitetun mallin tutkiminen61 6.6Kategoriset regressorit63 6.7Residuaalin tutkiminen64 6.8Logistinen regressio

68 VII PARAMETRITTOMAT MENETELMÄT68 7.1Merkkitesti70 7.2Merkityn järjestyksen testi72 7.3Mann–Whitney-testi74 7.4Kruskal–Wallis-testi76 7.5Järjestyskorrelaatiokerroin

79 VIII STOKASTINEN SIMULOINTI79 8.1Satunnaislukujen generointi80 8.1.2 Diskreettien jakaumien generointi81 8.1.3 Jatkuvien jakaumien generointi käänteiskertymämenetelmällä82 8.1.4 Jatkuvien jakaumien generointi hyväksy–hylkää-menetelmällä83 8.2Uudelleenotanta84 8.3Monte Carlo -integrointi

86 Liite: TOLERANSSIVÄLITAULUKKO

Esipuhe

Tämä moniste on alunperin tarkoitettu TTY:n peruskurssin ”MAT-33310 Tilastomatematiikka”luentotiivistelmäksi. Sopivin osin se on nyt käytössä peruskurssin ”MAT-33311 Tilastomate-matiikka 1” luentotiivistelmänä. Moniste on kirjoitettu jotakuinkin vastaamaan kirjan WALPO-LE, R.E. & MYERS, R.H. & MYERS, S.L. & YE, K.: Probability & Statistics for Engineers& Scientists. Pearson Prentice Hall (2007) Lukujen 8, 9, 10, 12 ja 16 sisältöä. Kirja (jatkossalyhyesti WMMY) on maailmanlaajuisesti yksi suosituimpia tilastomatematiikan alkeiskirjoja.Lisäksi on käsitelty stokastista simulointia. WMMYn vastinpykälät on merkitty oikeaan margi-naaliin. Tämä moniste on kuitenkin huomattavasti tiiviimpi kuin WMMY, eikä näin varsinaises-ti korvaa sitä tai esimerkiksi sovellu yhtä hyvin itseopiskeluun. Monin paikoin asian käsittelymyöskin poikkeaa kirjan WMMY vastaavasta, esitystä on osintäydennetty ja korjattu ja eräätnykykäsityksen mukaan liian epätarkat menetelmät on korvattu toisilla.

Monisteessa esitettävät esimerkit ovat pääosin kirjasta WMMY. Näiden esimerkkien nume-rot WMMYssä on merkitty oikeaan marginaaliin. Ne on kuitenkin kaikki ajettu uudelleen käyt-täen MATLAB-ohjelmaa tai tilasto-ohjelmaa JMP tai nettilaskimia. Esimerkkejä ei myöskäänole käsitelty yhtä perusteellisesti kuin kirjassa ja monetniistä on lisäksi käsitelty eri tavoin.

Kurssin ”MAT-33311 Tilastomatematiikka 1” ehdoton esitieto on kurssi ”MAT-20501 To-dennäköisyyslaskenta”, tai vastaavasti kirjan WMMY Luvut1–8. Nämä kurssit käsittävät vain

Page 4: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

iii

tilastomatematiikan alkeet. Tarjolla onkin myös moneen suuntaan huomattavasti pidemmällemeneviä syventäviä kursseja. Mainittakoon esimerkiksi alan matemaattista puolta perusteelli-semmin käsittelevä ”MAT-51800 Matemaattinen tilastotiede”, Bayes-tyyppistä tilastomatema-tiikkaa käsittelevä ”MAT-51706 Bayesian methods”, monimuuttujamenetelmiä (joihin kuuluumm. regressio) käsittelevä kurssi ”MAT-41280 Tilastolliset monimuuttujamenetelmät” sekä ni-menomaan teknisillä aloilla käytettäviä menetelmiä käsittelevä kurssi ”MAT-34000 Tilastoma-tematiikka 2”.

Keijo Ruohonen

Page 5: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

Luku 1

PERUSOTOSJAKAUMATJA DATAN KUVAUKSET

Tama luku on paljolti kertausta kurssilta Todennakoisyyslaskenta. Uu-tena asiana tulevat otoksen graafiset eli deskriptiiviset esitykset.

1.1 Satunnaisotanta [8.1]

Populaatio on kaikkien mahdollisesti otokseen tulevien arvojen kokoel-ma. Arvo, numeerinen tai luokitteluarvo, voi esiintya populaatiossa mon-ta kertaa. Otos on tiettyjen populaatiosta valittujen arvojen kokoelma. ”sample”

Naiden lukumaara on otoskoko, jota merkitaan usein n:lla. Jos ko. arvotvalitaan satunnaisesti, kyseessa on satunnaisotos. ”random sample”

Otos voidaan ajatella ensinnakin jonona satunnaismuuttujia: X1, X2,. . . , Xn (”ensimmainen otosalkio”, ”toinen otosalkio”, . . . ). Nailla satun-naismuuttujilla on sama jakauma (”satunnaisuus”) ja ne ovat riippumat- IID: ”independent,

identically distributed”.tomat. Konkreettinen otannan tuloksena saatu realisoitunut otos puo-lestaan on jono arvoja (numeerisia tai luokitteluarvoja): x1, x2, . . . , xn.Huomaa merkinta: satunnaismuuttujia merkitaan isoin kirjaimin, arvojapienin.

Tassa tarkoitettu otanta on tarkemmin ottaen ns. otanta palauttaen, Otantaa palauttamatta eitassa sen kummemmin

kasitella, ks. esimerkiksimoniste RUOHONEN, K.:

Tilastollinen kokeidensuunnittelu ja otanta.

ts. jos populaatio on aarellinen (tai numeroituvasti aareton), ajatellaanotettu alkio palautetuksi ennen seuraavan otokseen tulevan alkion otta-mista.

1.2 Tarkeita otossuureita [8.2]

Otossuure eli statistika on jokin otoksesta laskettu yksittainen arvo: ”statistic”

f(X1, . . . , Xn) (satunnaismuuttuja) tai f(x1, . . . , xn) (realisoitunut ar-vo). Tuttu otossuure on otoskeskiarvo ”sample mean”

X =1

n

n∑i=1

Xi tai x =1

n

n∑i=1

xi,

edellinen on satunnaismuuttuja, jalkimmainen realisoitunut otoskeskiar-vo.

1

Page 6: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 1. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 2

Toinen tuttu otossuure on otosvarianssi ”sample variance”

S2 =1

n− 1

n∑i=1

(Xi −X)2 tai s2 =1

n− 1

n∑i=1

(xi − x)2,

jalleen edellinen on satunnaismuuttuja ja jalkimmainen realisoitunut nu-meerinen arvo. Otosvarianssi voidaan myos kirjoittaa muotoon

Avataan vain nelio(Xi −X)2.S2 =

1

n− 1

n∑i=1

X2i −

n

n− 1X

2

(vastaavasti s2). Ottamalla neliojuuret saadaan otoshajonnat S ja s. Mui- ”sample standarddeviation”, ”sample

maximum”, ”sampleminimum”

ta tarkeita otossuureita ovat otosmaksimi ja -minimi.

Xmax = max(X1, . . . , Xn) tai xmax = max(x1, . . . , xn),

Xmin = min(X1, . . . , Xn) tai xmin = min(x1, . . . , xn)

seka naiden erotus, otosvaihteluvali. ”sample range”

R = Xmax −Xmin tai r = xmax − xmin.

1.3 Datan esitykset ja graafiset metodit [8.3]

Tutun pylvasdiagrammin eli histogrammin lisaksi on useita muitakin hy-vin tavallisia tapoja havainnollistaa dataa.

Esimerkki. Tassa esimerkissa otos muodostuu n = 40 satunnaisesti va- [8.3]

litun savukkeen mitatusta nikotiinipitoisuudesta:Desimaalierottimena kay-

tetaan pistetta, ettei sesekaannu jonoerottimena

kaytettavaan pilkkuun.

1.09 1.92 2.31 1.79 2.28 1.74 1.47 1.97 0.85 1.241.58 2.03 1.70 2.17 2.55 2.11 1.86 1.90 1.68 1.511.64 0.72 1.69 1.85 1.82 1.79 2.46 1.88 2.08 1.671.37 1.93 1.40 1.64 2.09 1.75 1.63 2.37 1.75 1.69

JMP-ohjelma tulostaa seuraavan (vahan siistityn) graafisen esityksen:

Nicotinedata: Distribution Page 1 of 1

.5 1 1.5 2 2.5

100.0%

99.5%

97.5%

90.0%

75.0%

50.0%

25.0%

10.0%

2.5%

0.5%

0.0%

maximum

quartile

median

quartile

minimum

2.5500

2.5500

2.5478

2.3070

2.0150

1.7700

1.6325

1.2530

0.7232

0.7200

0.7200

Quantiles

Mean

Std Dev

Std Err Mean

upper 95% Mean

lower 95% Mean

N

1.77425

0.3904559

0.0617365

1.8991239

1.6493761

40

Moments

Content

Distributions

Vasemmalla ylhaalla oleva ns. laatikko–viikset-kuvio antaa tiivistetyn ”box and whiskers”

Page 7: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 1. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 3

kuvan datan jakaumasta. Laatikko-osa on alakvartiilin q(0.25) ja yla-kvartiilin q(0.75) valinen osa otosarvoista (ks. alla). Laatikon sisalla onmyos pystyviivalla merkitty otosmediaani (ks. alla). Viikset taas osoitta-vat otosmaksimin ja -minimin. Viiksiin voidaan merkita muitakin kvan-tiileja (ks. alla). (Laatikon sisalla on myos luottamusvalin antava ns.keskiarvoruutu, johon palataan myohemmin Pykalassa 3.8.)

Usein otoksesta poistetaan yksi tai useampia ns. vieraita eli ulkolaisia, ”outlier”

otosarvoja, jotka poikkeavat niin paljon tavallisesta, etta niiden katsotaansyntyneen virheen seurauksena. Vieraiksi havaintoja voidaan luokitellaerilaisin kriteerein. Vieraat on kuvaan merkitty pisteilla (tassa on kaksivierasta).

Pylvasdiagrammin sijasta jotkut haluavat kayttavaa ns. runko–lehti- ”stem and leaf diagram”

diagrammia. Jos kaytetaan d desimaalin esitysta, valitaan d − 1 ensim-maista desimaalia ns. rungoksi ja viimeiset desimaalit ovat ns. lehtia.Data esitetaan tyypillisesti muodossa

1.2∣∣∣0227779,

joka tassa tapauksessa tarkoittaa sita, etta runko-osa on 1.2, otoksessa onyksi arvo 1.20, kaksi arvoa 1.22, kolme arvoa 1.27 ja yksi arvo 1.29 (eikasiis esimerkiksi yhtaan arvoa 1.21). Lehtiosaa voidaan tilasyista jakaamonellekin riville.

Esimerkki. (Jatkoa) JMP tulostaa seuraavan runko–lehti-diagrammin [8.3]

(jalleen vahan siistittyna oletustulostukseen verrattuna):

Nicotinedata: Distribution Page 1 of 1

.5 1 1.5 2 2.5

100.0%

99.5%

97.5%

90.0%

75.0%

50.0%

25.0%

10.0%

2.5%

0.5%

0.0%

maximum

quartile

median

quartile

minimum

2.5500

2.5500

2.5478

2.3070

2.0150

1.7700

1.6325

1.2530

0.7232

0.7200

0.7200

Quantiles

Stem Leaf

2 6

2 45

2 233

2 00111

1 88888999999

1 6666777777

1 4455

1 2

1 1

0 9

0 7

Count

1

2

3

5

11

10

4

1

1

1

1

0|7 represents 0.7

Stem and Leaf

Content

Distributions

Tassa arvot on ensin pyoristetty kaksidesimaalisiksi.

Otoskvantiili q(f) on kirjan WMMY maarittelyn mukaan sellainen ”sample quantile”

lukuarvo, etta otosarvoista 100f % on ≤ q(f). Erityisesti sovitaan, ettaq(0) = xmin ja q(1) = xmax. Minimin ja maksimin lisaksi muita taval-lisia otoskvantiileja ovat otosmediaani q(0.5) seka alakvartiili q(0.25) jaylakvartiili q(0.75). Edelleen usein esiintyvat kvintiilit

q(0.2) , q(0.4) , q(0.6) , q(0.8)

Page 8: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 1. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 4

seka desiilit

q(0.1) , q(0.2) , q(0.3) , q(0.4) , q(0.5) , q(0.6) , q(0.7) , q(0.8) , q(0.9)

ja sentiilitq(0.01) , q(0.02) , q(0.03) , . . . , q(0.99).

Erotus q(0.75)− q(0.25) on ns. kvartiilivali. ”interquartile range”

Ehkapa parempi maarittely otoskvantiilille q(f) on seuraava: q(f) onsellainen luku, etta enintaan 100f % otosarvoista on < q(f) ja enintaan(1−f)100 % otosarvoista on > q(f). Nainkin maariteltyna otoskvantiiliteivat aina ole yksikasitteisia. On useita tapoja maaritella otoskvantiilitniin, etta niista tulee yksikasitteisia (ks. harjoitukset). Ohjelmistot tu-lostavat yleensa jonkin kokoelman otoskvantiileja jonkin tallaisen maa-rittelytavan mukaisesti. Ks. edellinen esimerkki.

Yo. otoskvantiilit ovat realisoituneita arvoja. Tietysti voidaan maari-tella myos vastaavat satunnaismuuttujat Q(f), esimerkiksi otosmediaaniQ(0.5). Naiden jakaumat ovat hyvin mutkikkaita.

Ns. kvantiilikuva saadaan jarjestamalla ensin otosarvot x1, x2, . . . , xn ”quantile plot”

kasvavaan jarjestykseen:

x(1), x(2), . . . , x(n)

(missa siis x(i) on i:nneksi pienin otosarvo). Sen jalkeen pyritaan saa-maan otosarvoa x(i) mahdollisimman hyvin vastaava luku f . Tallaiseksivalitaan usein

fi =i− 3/8

n+ 1/4.

Lopuksi piirretaan pisteet (fi, x(i)) (i = 1, . . . , n) pistekuviona tai por-rasviivana. Tulos on kvantiilikuva. Jos piirretaankin pisteet (x(i), fi) por-rasviivana saadaan ns. otoskertyma eli empiirinen kertyma. ”empirical cumulative dis-

tribution function”

Esimerkki. (Jatkoa) JMP piirtaa nimenomaan otoskertyman (kuva oi- [8.3]

kealla):Nicotinedata: Distribution Page 1 of 1

.01

.05

.10

.25

.50

.75

.90

.95

.99

-3

-2

-1

0

1

2

3

Norm

al Q

uanti

le P

lot

.5 1 1.5 2 2.5

100.0%

99.5%

97.5%

90.0%

75.0%

50.0%

25.0%

10.0%

2.5%

0.5%

0.0%

maximum

quartile

median

quartile

minimum

2.5500

2.5500

2.5478

2.3070

2.0150

1.7700

1.6325

1.2530

0.7232

0.7200

0.7200

Quantiles

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

Cum

Pro

b

.5 1 1.5 2 2.5

Content

CDF Plot

Content

Distributions

Page 9: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 1. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 5

Populaatioarvoilla on oma jakaumansa, joka voi olla tarkasti hyvinvaikea selville saatava. Usein on kuitenkin hyvia syita olettaa, etta ko.jakauma olisi jotakuinkin normaalijakauma, ts. etta jakauman kertyma-funktio olisi melko tarkasti jonkin normaalijakauman N(µ, σ2) kertyma-funktio. Jos asiasta on kuitenkin epailyksia, voi ensimmaisena temppuna Usein myos viimeisena!

yrittaa katsoa tilannetta graafisesti. Tama voidaan tehda vertailemallaotoskvantiileja normaalijakauman vastaaviin.

Jos jakauman kertymafunktio on F , niin sen kvantiili q(f) on sellai- Huomaa, etta jakaumankvantiili ja otoskvantiiliovat eri asioita, vaikka

niita tassa merkitaankinsamalla tavalla.

nen luku, etta F(q(f)

)= f . Jos merkitaan normaalijakauman N(µ, σ2)

kvantiileja qµ,σ(f):lla, niin

qµ,σ(f) = µ+ σΦ−1(f),

missa Φ on standardinormaalijakauman N(0, 1) kertymafunktio.

Varsin hyvan approksi-maation antaa muuten

Φ−1(f) ∼= 4.91f0.14

− 4.91(1− f)0.14.Piirtamalla pisteet(x(i), q0,1(fi)

)(i = 1, . . . , n) pistekuviona tai por-

rasviivana saadaan ns. normaalikvantiilikuva. Mikali populaatiojakauma ”normal quantile plot”

todella on N(µ, σ2), niin kuvion pitaisi olla jotakuinkin suora, silla ide-aalisesti silloin

q0,1(fi) = Φ−1(fi) =qµ,σ(fi)− µ

σ∼=x(i) − µ

σ.

Kuvaajan paissa saa olla joidenkin havaintojen osalta vahan isompiakinheittoja, mutta ainakin keskivaiheilla sen pitaisi olla melko suora. Elleinain ole, voidaan ainakin alustavasti paatella, ettei populaatiojakaumaole normaali. Edellisessa esimerkissa vasemmalla oleva kuva on normaa-likvantiilikuva. Populaatiojakaumaa voitaneen taman kuvan perusteellapitaa normaalina, vaikkakin tiettya poikkeamaa on havaittavissa.

Esimerkki. Tassa esimerkissa on mitattu n = 28 kertaa tiettyjen or- [8.5]

ganismien lukumaaria. JMP tulostaa alla olevan normaalikvantiilikuvan, Akselit ovat toisinpain!

josta nahdaan, ettei populaatiojakaumaa voida mitenkaan pitaa normaa-lina. Tama nakyy tietysti selvasti myos pylvasdiagrammissa.

Organisms: Distribution Page 1 of 1

0

5000

10000

15000

20000

25000

30000 .01 .05.10 .25 .50 .75 .90.95 .99

-3 -2 -1 0 1 2 3

Normal Quantile Plot

Number_of_organismsDistributions

Page 10: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 1. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 6

Muitakin tapoja tutkia normaalisuutta graafisesti on, esimerkiksi ns.normaalitodennakoisyyskuva. ”normal probability plot”

1.4 Otosjakaumat [8.4]

Otossuureen (satunnaismuuttujan) jakauma on ns. otosjakauma. Joiden- ”sample distribution”

kin otossuureiden jakaumat ovat hyvin hankalia, vaikka populaatioja-kauma olisikin ”mukava” (esimerkiksi normaali). Tallaisia ovat erityisestiotoskvantiilit satunnaismuuttujiksi ajateltuina.

1.4.1 Otoskeskiarvon otosjakauma [8.5]

Jos populaatiojakauman odotusarvo on µ ja varianssi σ2, niin otoskes-kiarvon odotusarvo on

E(X) = µ

ja varianssi

var(X) =σ2

n

(n on otoskoko). Otoskeskiarvon hajonta eli sen ns. keskivirhe on σ/√n ”standard error”

ja se pienenee otoskoon kasvaessa.Jos populaatiojakauma on normaalijakauma N(µ, σ2), niin otoskes-

kiarvon jakauma on myos normaalijakauma, nimittain N(µ, σ2/n). X:njakauma on kuitenkin ainakin likimain normaali myos muuten, jos vainn on kyllin iso (ja populaatiojakaumalla on olemassa odotusarvo ja aa- Kaikilla jakaumilla ei ole

odotusarvoa. Joillakin taason vain odotusarvo, mutta

ei aarellista varianssia.

rellinen varianssi). Taman takaa klassinen approksimaatiotulos:

Keskeinen raja-arvolause (otoskeskiarvoille). Jos populaatiojakau-”Central Limit Theorem”

man odotusarvo on µ ja (aarellinen) varianssi σ2, niin standardoidunsatunnaismuuttujan

Lauseesta on myos versioi-ta, joissa otosalkioille ei

oleteta samaa jakaumaa,vain riippumattomuus.

Talloin, jos otosalkioidenX1, . . . , Xn odotusarvot

ovat µ1, . . . , µn ja hajon-nat σ1, . . . , σn, niin vali-

taan

µ = 1n (µ1 + · · ·+ µn) ,

σ2 = 1n (σ2

1 + · · ·+ σ2n).

Silloin lause pitaa paik-kansa, kunhan asetetaan

viela jokin (heikohko) lisa-oletus. Kuuluisa tallainenon ns. Lindebergin ehto.

Jarl Lindeberg (1876–1932) muuten oli suoma-

lainen matemaatikko!

Z =X − µσ/√n

kertymafunktio on likimain standardinormaalijakauman kertymafunktioΦ, sita tarkemmin mita suurempi n on.

Yleensa katsotaan, etta otoskoko n = 30 jo riittaa tekemaan X:n jakau-man hyvin tarkasti normaaliksi. Jos populaatiojakauma on jo lahtiessa”hyvaa muotoa” (yksihuippuinen, likimain symmetrinen jne.), niin pie-nempikin arvo riittaa (esimerkiksi n = 5).

Esimerkki. Lahtien vahvasti epasymmetrisesta jakaumasta saadaan eriotoskoille alla olevan kuvan mukaisia summan X1 + · · ·+Xn tiheysfunk-tioita (laskettu Maple-ohjelmistolla). Jos taas lahdetaan symmetrisesta,mutta vahvasti kaksihuippuisesta jakaumasta, saadaan vastaavasti toi-sen kuvasarjan mukaiset summan X1 + · · ·+Xn tiheysfunktiot. Otoskokon = 7 riittaa siis jo tekemaan ensimmaisen kuvasarjan X:n jakaumastamelko tarkasti normaalin, mutta vasta otoskoko n = 20 riittaa toisellekuvasarjalle.

Page 11: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 1. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 7

1. kuvasarja:

n = 3

n = 10n = 7

n = 2

n = 5

xx

xx

xx

.5

.4

.3

.2

.1

0. 10.8.6.4.2.0.

.6

.5

.4

.3

.2.10. 7.6.5.4.3.2.1.0.

.7

.6

.5

.4

.3

.2.10. 5.4.3.2.1.0.

.8

.6

.4

.2

0. 3.02.52.01.51.0.50.

1.0.8.6.4.20. 2.01.51.0.50.

1.81.61.41.21.0

.8

.6

.4

.20. 1.0.8.6.4.20.

n = 1

2. kuvasarja:

n = 5n = 3

n = 20

.20

.15

.10

.5e–1

0. 20.15.10.5.0.

.35

.30

.25

.20

.15

.10.5e–1

0. 10.8.6.4.2.0.

.5

.4

.3

.2.10. 5.4.3.2.1.0.

.8

.6

.4

.2

0. 3.02.52.01.51.0.50.

1.61.41.21.0

.8

.6

.4

.20. 2.01.51.0.50.

3.02.52.01.51.0

.5

1.0.8.6.4.20.

xx

xx

xx

n = 10

n = 1 n = 2

Page 12: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 1. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 8

Esimerkki. Koneenosan halkaisijan pitaisi olla µ = 5.0 mm (odotusar- [8.7]

vo). Aikaisemman tiedon perusteella halkaisijan populaatiohajonta onσ = 0.1 mm. Asiaa tutkitaan n = 100 osan otoksella, jonka otoskes-kiarvo on x = 5.027 mm. Lasketaan todennakoisyys

P(|X − µ| ≥ 0.027 mm) = 2P( X − 5.0

0.1/√

100≥ 2.7

)= 0.0069

(saadaan standardinormaalijakaumasta Keskeisen raja-arvolauseen no-jalla). Tama on aika pieni, mika herattaa epailyksia: Sangen luultavastitodellinen µ on isompi. MATLAB-ohjelmistolla laskut menevat seuraa-vasti:

>> mu=5.0;

sigma=0.1;

n=100;

x_viiva=5.027;

>> 2*(1-normcdf(x_viiva,mu,sigma/sqrt(n)))

ans =

0.0069

Kahden riippumattoman otoksen otoskeskiarvojen X1 ja X2 erotuk-selle saadaan vastaavasti odotusarvo ja varianssi Jos satunnaismuuttujat X

ja Y ovat riippumattomat,niin

var(X ± Y )= var(X) + var(Y ).

E(X1 −X2) = µ1 − µ2 ja var(X1 −X2) =σ21

n1

+σ22

n2

,

missa µ1, µ2 seka σ21, σ

22 ovat vastaavat populaatiojakaumien odotusar-

vot ja varianssit ja n1, n2 ovat otoskoot. Jos otoskoot ovat kyllin isot,standardoidulla satunnaismuuttujalla

Z =X1 −X2 − (µ1 − µ2)√

σ21/n1 + σ2

2/n2

on Keskeisen raja-arvolauseen mukaisesti (kertymamielessa) likimain nor- Kahden riippumattomannormaalijakautuneen sa-

tunnaismuuttujan summaja erotus ovat myos nor-

maalijakautuneita.

maalijakauma N(µ1−µ2, σ21/n1 +σ2

2/n2). (Ja tarkastikin, jos populaatio-jakaumat ovat normaaleja.)

Esimerkki. Kahden maalin A ja B kuivumisaikoja verrattiin n = 18 [8.8]

naytteen avulla. Molempien maalien kuivumisaikojen populaatiohajon-nan tiedetaan olevan σA = σB = 1.0 h. Otoskeskiarvojen erotukseksisaatiin xA − xB = 1.0 h. Voisiko tallainen tulos tulla, vaikka populaatio-odotusarvot ovat samat (eli µA = µB)? Lasketaan

P(XA −XB ≥ 1.0 h) = P( XA −XB − 0√

1.02/18 + 1.02/18≥ 3.0

)= 0.0013.

Todennakoisyys on niin pieni, etta tulos ei varmaankaan ole tullut sat-tumalta, vaan todella µA > µB. Jos olisikin saatu xA − xB = 15 min,saataisiin vastaavasti

P(XA −XB ≥ 0.25 h) = 0.2266.

Tama tulos taas on hyvinkin voinut tulla sattumalta. MATLAB-ohjelmistollatallaiset laskut menevat seuraavasti:

Page 13: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 1. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 9

>> mu=0; % Maaleilla samat odotusarvot

sigma_A=1.0;

sigma_B=1.0;

n_A=18;

n_B=18;

erotus=1.0; % Maalin A otoskeskiarvo - maalin B otoskeskiarvo

> 1-normcdf(erotus,mu,sqrt(sigma_A/n_A+sigma_B/n_B))

ans =

0.0013

>> erotus=0.25;

>> 1-normcdf(erotus,mu,sqrt(sigma_A/n_A+sigma_B/n_B))

ans =

0.2266

1.4.2 Otosvarianssin jakauma [8.6]

Otosvarianssin jakauma on hankala, ellei voida olettaa, etta populaatioja- Asiaan liittyvat todistuk-set ovat jo varsin hankalia

ja ne sivuutetaan tassa. Neloytyvat mm. monisteestaRUOHONEN, K. & POHJA-

VIRTA, A.: Laaja tilastoma-tematiikka.

kauma on normaali. Tehdaankin tama oletus, jolloin ko. jakauma saadaanns. χ2-jakauman avulla.

Jos satunnaismuuttujat U1, . . . , Uv ovat standardinormaalisti jakau-tuneet ja riippumattomat, niin satunnaismuuttujalla

V = U21 + · · ·+ U2

v

on χ2-jakauma. Tassa v on jakauman parametri, ns. vapausasteiden lu- ”(k)hii-toiseen-jakauma”

kumaara. Jakauman tiheysfunktio on

g(x) =

1

2v2 Γ(v

2)x

v−22 e−

x2 , kun x > 0

0, kun x ≤ 0,

missa Γ on gammafunktio Γ(y) =∫∞0ty−1e−t dt. Hankalahkosta muodos- Gammafunktio on kerto-

man n! jatkuva yleistys.Helposti nakee nimittain,

etta Γ(1) = 1 ja (osit-taisintegroinnilla) etta

Γ(y + 1) = yΓ(y).

Siispa Γ(n) = (n− 1)!,kun n on positiivinenkokonaisluku. Hanka-lampi on todeta, etta

Γ( 12 ) =

√π.

taan huolimatta χ2-jakauman todennakoisyydet ovat numeerisesti hyvinlaskettavissa. Alla muutamia χ2-jakaumien tiheysfunktioita (vapausastei-den lukumaaraa on merkitty tassa n:lla, laskettu MATLAB-ohjelmistolla):

0 1 2 3 4 5 6 7 8 9 100

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0.5

n = 1

n = 5

n = 10

n = 15

n = 20

χ2(n)-jakaumien tiheysfunktioita

x

Helposti nakee, etta E(V ) = v ja voidaan nayttaa, etta var(V ) = 2v.

Page 14: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 1. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 10

Keskeisen raja-arvolauseen seurauksena suurille v:n arvoille (noin v ≥ 30) Tasta johtuu, etta χ2-ja-kauma yleensa taulukoi-

daan vain enintaan va-pausasteille 30–40.

χ2-jakauma on nain likimain normaalijakauma N(v, 2v).Ilmeisesti, jos X1, . . . , Xn on otos N(µ, σ2)-jakautuneesta populaatios-

ta, niin satunnaismuuttujat (Xi−µ)/σ ovat standardinormaaleja ja riip-pumattomia ja summalla

n∑i=1

(Xi − µ)2

σ2

on χ2-jakauma n vapausasteella. Mutta ko. summahan ei ole otosvarians-si! Toisaalta samantapaisella otosvarianssista saatavalla satunnaismuut-tujalla Tama on hankala nayttaa!

(n− 1)S2

σ2=

n∑i=1

(Xi −X)2

σ2

on myos χ2-jakauma, mutta n− 1 vapausasteella. Tarkeaa on huomata,etta mitaan Keskeisen raja-arvolauseen tapaista approksimaatiota ei oletassa kaytettavissa, vaan populaatiojakauman on oltava normaali.

Esimerkki. Kestoiat on merkitty ylos n = 5 akulle. Arvellaan, etta ko. [8.10]

akkumallille kestoian (populaatio)hajonta olisi σ = 1.0 v. Otokseen saa-tiin kestoiat 1.9 v, 2.4 v, 3.0 v, 3.5 v ja 4.2 v. Laskien saadaan otosva-rianssiksi s2 = 0.815 v 2. Edelleen saadaan

P(S2 ≥ 0.815 v 2) = P((n− 1)S2

σ2≥ 3.260

)= 0.5153

(kayttaen χ2-jakaumaa n − 1 = 4 vapausasteella). Saatu arvo s2 on siishyvin ”tavallinen” (likella mediaania). Mitaan syyta epailla oletettua po-pulaatiohajontaa 1.0 v ei tassa ole. Laskut MATLABilla:

>> mu=3;

sigma=1;

n=5;

otos=[1.9 2.4 3.0 3.5 4.2];

>> s=std(otos)

s =

0.9028

>> 1-chi2cdf((n-1)*s^2/sigma^2,n-1)

ans =

0.5153

1.4.3 t-jakauma [8.7]

Edella kasiteltaessa otoskeskiarvoa piti tietaa populaatiohajonta σ. Jos Jalleen asiaan liittyvattodistukset ovat hankalat

ja loytyvat mm. monis-teesta RUOHONEN, K. &

POHJAVIRTA, A.: Laajatilastomatematiikka.

sita ei tiedeta, voidaan edelleen edeta, mutta normaalijakauman tilal-le tulee ns. t-jakauma (eli Studentin jakauma). Lisaksi Keskeinen raja-arvolause ei ole tassakaan kaytossa, vaan populaatiojakauman pitaa sil-loin olla normaali.

Jos satunnaismuuttujat U ja V ovat riippumattomat, U :lla on stan-dardinormaalijakauma ja V :lla on χ2-jakauma v vapausasteella, niin sa-tunnaismuuttujalla

T =U√V/v

Page 15: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 1. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 11

on t-jakauma v vapausasteella. Jakauman tiheysfunktio on Jakauman otti kayttoonkemisti William Gosset

(1876–1937), nimimerkki”Student”.g(x) =

Γ(v+12

)√πv Γ(v

2)

(1 +

1

vx2)− v+1

2

.

Alla on muutamia esimerkkeja t-jakaumien tiheysfunktioista (vapausas-tein n, laskut MATLABilla):

-4 -3 -2 -1 0 1 2 3 40

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

n = 1

n = 5

n = 10

n = 30

t(n)-jakaumien tiheysfunktioita

t

t-jakauma on yksihuippuinen ja symmetrinen arvon 0 suhteen, jamuistuttaa nain vahan standardinormaalijakaumaa. Suurille v:n arvoillese onkin varsin tarkasti standardinormaalijakauma, mutta tama ei seuraaKeskeisesta raja-arvolauseesta. Vaan mista?

Jos populaatiojakauma on normaali, niin otoskeskiarvo X ja otosva-rianssi S2 ovat riippumattomat satunnaismuuttujat. Tasta seuraa, etta Tama riippumattomuus

on vaikeasti osoitettavaja jonkin verran yllattava

juttu!

myos naista laskien saatavat satunnaismuuttujat

U =X − µσ/√n

ja V =(n− 1)S2

σ2

ovat riippumattomat. Edellisella on standardinormaalijakauma ja jalkim-maisella χ2-jakauma n− 1 vapausasteella. Siispa satunnaismuuttujalla

T =U√

V/(n− 1)=X − µS/√n

on t-jakauma n− 1 vapausasteella.

Esimerkki. Eraan kemiallisen prosessin tuottoa mitataan grammoissa [8.14]

raaka-ainemillilitraa kohti. Mainitun tuoton pitaisi olla µ = 500 g/ml(oletettu populaatio-odotusarvo). Asiaa tutkittiin n = 25 alkion otoksella,jolloin saatiin otoskeskiarvo x = 518 g/ml ja otoshajonta s = 40 g/ml.Lasketaan

P(X − µS/√n≥ 518− 500

40/√

25

)= P(T ≥ 2.25) = 0.0169

(kayttaen t-jakaumaa n − 1 = 24 vapausasteella). Tama todennakoisyyson pieni, joten tulos ei luultavastikaan syntynyt sattumalta ja tuotto tai-taakin olla parempi kuin luultiin. Laskut MATLABilla:

Page 16: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 1. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 12

>> mu=500;

n=25;

x_viiva=518;

s=40;

>> 1-tcdf((x_viiva-mu)/(s/sqrt(n)),n-1)

ans =

0.0169

Vaikka t-jakauma onkin johdettu silla oletuksella, etta populaatioja-kauma on normaali, se on siina mielessa robusti, etta satunnaismuuttu-ja T ylla on likimain t-jakautunut kunhan vain populaatiojakauma onnormaalinkaltainen (yksihuippuinen, likimain symmetrinen). Tama joh-tuu siita, etta tallaisille populaatiojakaumille otoshajonta S on isohkoil-le otoskoille n jo niin tarkasti = σ, etta Keskeinen raja-arvolause tuleejossain mielessa kayttoon. Nain t-jakauma on hyvin kayttokelpoinen mo-nissa tilanteissa.

1.4.4 F-jakauma [8.8]

Kahden eri otoksen hajontojen vertailu onnistuu niiden otosvarianssienavulla kayttaen ns. F-jakaumaa eli Fisherin jakaumaa eli Snedecorin ja-

Ronald Fisher (1880–1962), tilastomatematii-

kan uranuurtajia

George Snedecor (1881–1974)

kaumaa.Jos satunnaismuuttujat V1 ja V2 ovat riippumattomat ja niilla on

χ2-jakaumat v1 ja v2 vapausasteella, vastaavasti, niin satunnaismuuttu-jalla

F =V1/v1V2/v2

on F-jakauma vapausastein v1 ja v2. Talloin satunnaismuuttujalla 1/Fon myos F-jakauma, nimittain vapausastein v2 ja v1. F-jakauman tiheys-funktio on varsin mutkikas:

g(x) =

(v1v2

)v12 Γ(v1+v2

2)

Γ(v12

)Γ(v22

)x

v1−22

(1 +

v1v2x)− v1+v2

2, kun x > 0

0, kun x ≤ 0.

Muutamia esimerkkeja F-jakaumien tiheysfunktioista (vapausastein n1 jan2, laskut MATLABilla):

0 0.5 1 1.5 2 2.5 3 3.5 4 4.50

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

n1 = 5, n

2 = 5

n1 = 5, n

2 = 20

n1 = 20, n

2 = 5

n1 = 20, n

2 = 20

F(n1,n

2)-jakaumien tiheysfunktioita

v

Page 17: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 1. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 13

Jos S21 ja S2

2 ovat kahden riippumattoman otoksen otosvarianssit, vas-taavat populaatiot ovat normaalijakautuneet hajonnoin σ1 ja σ2 ja otos-koot ovat n1 seka n2, niin satunnaismuuttujat

V1 =(n1 − 1)S2

1

σ21

ja V2 =(n2 − 1)S2

2

σ22

ovat riippumattomat ja χ2-jakautuneet vapausastein n1 − 1 seka n2 − 1.Niinpa satunnaismuuttujalla

F =V1/(n1 − 1)

V2/(n2 − 1)=S21/σ

21

S22/σ

22

on silloin F-jakauma vapausastein n1 − 1 ja n2 − 1.F-jakaumaa voidaan kayttaa populaatiovarianssien vertailuun otosten

avulla, ks. Pykalat 2.9 ja 3.7. Se tosin ei ole siihen tarkoitukseen kovin-kaan vahva tyokalu. Parempiakin on ja ohjelmistot kayttavatkin yleensa Mm. Bartlettin testi tai

Levenen testi.niita.

Esimerkki. Otetaan tapaus, jossa on saatu realisoituneet otosvarianssits21 = 0.20 seka s22 = 0.14 ja otoskoot ovat n1 = 25 ja n2 = 30. Lisak-si arvellaan, etta vastaavat populaatiohajonnat ovat samat eli σ1 = σ2.Lasketaan

P(S2

1/σ21

S22/σ

22

≥ s21/σ21

s22/σ22

)= P(F ≥ 1.429) = 0.1787

(kayttaen F-jakaumaa vapausastein n1−1 = 24 ja n2−1 = 29). Hantato-dennakoisyys on siis melko iso, liikutaan jakauman ”tavallisella” alueel-la eika mitaan kummempaa syyta epailla populaatiohajontojen samuuttaole. Laskut MATLABilla:

>> n_1=25;

n_2=30;

s_1_toiseen=0.20;

s_2_toiseen=0.14;

>> 1-fcdf(s_1_toiseen/s_2_toiseen,n_1-1,n_2-1)

ans =

0.1787

Varsinaisesti F-jakauma tulee kayttoon ns. varianssianalyysissa, josta ANOVA, ”analysis ofvariance”lisaa myohemmin.

Page 18: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

Luku 2

YHDEN JA KAHDENOTOKSEN ESTIMOINTI

Estimointi eli populaatiojakaumaan liittyvan numeerisen arvon eli para- ”classical statistical inferen-ce”metrin arviointi on hypoteesin testauksen ohella ns. klassisen tilastollisen

Toinen tilastomenetelmienperuslaji on ns. Bayesin

menetelmat, joita ei tassakasitella.

paattelyn perusmenetelma.

2.1 Piste-estimointi ja valiestimointi [9.3]

Piste-estimoinnin tarkoituksena on saada arvioiduksi jokin populaatioon ”point estimation”

liittyva numeerinen arvo, ns. parametri, θ kayttaen otosta. Tallainen pa-rametri on esimerkiksi populaatio-odotusarvo µ, jota voidaan estimoidaotoskeskiarvolla x. Otoksesta laskettu realisoitunut θ:a arvioiva numee-rinen arvo on nimeltaan estimaatti, merkitaan θ. Estimaatti lasketaanotokseen tulleista arvoista jollain kaavalla tai numeerisella algoritmilla.

Toisaalta, jos otosta ajatellaankin satunnaismuuttujajonona X1, . . . ,Xn, on siita estimointikaavalla tai -algoritmilla laskettu arvokin satun-naismuuttuja. Sita merkitaan Θ:lla. Tata satunnaismuuttujaa kutsutaan Muista merkinta: satun-

naismuuttujia merkitaanisoilla kirjaimilla, reali-

soituneita arvoja pienilla.

estimaattoriksi.Yhdelle ja samalle parametrille voi olla erilaisia estimaattoreita. Esi-

merkiksi populaatio-odotusarvoa voitaisiin myos estimoida otosmediaa-nilla. Tuloksen eli saatujen estimaattien hyvyys riippuu sitten siita mitensymmetrinen populaatiojakauma on odotusarvonsa suhteen. Vastaavastiotoskeskiarvo on myos populaatiomediaanin eras estimaattori—parempisellainen on tietysti otosmediaani.

Populaatiokeskiarvon µ, -varianssin σ2 ja -mediaanin m estimoinnissayo. kasitteet ovat seuraavat:

Parametri θ Estimaatti θ Estimaattori Θ

µ µ = x X

σ2 σ2 = s2 S2

m m = q(0.5) Q(0.5)

Piste-estimaattori on satunnaismuuttuja. Jos siina ei ole systemaat-tista virhetta, ts. sen odotusarvo E(Θ) on oikea parametrin arvo θ, sa-notaan estimaattoria harhattomaksi. Jos taas E(Θ) 6= θ, sanotaan esti- ”unbiased”

14

Page 19: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 15

maattoria E(Θ) harhaiseksi. (Tama kaikki olettaen tietysti, etta E(Θ) on ”biased”

olemassa!)Jos populaatio-odotusarvo on µ, niin estimaattori X (otoskeskiarvo

satunnaismuuttujana) on harhaton estimaattori, silla E(X) = µ. Myosotosvarianssi S2 on populaatiovarianssin σ2 harhaton estimaattori. En-sinnakin S2 voidaan kirjoittaa muotoon

Lavennetaan mukaan µ

Xi −X = (Xi − µ)

− (X − µ)ja avataan nelio.

S2 =1

n− 1

n∑i=1

(Xi −X)2 =1

n− 1

n∑i=1

(Xi − µ)2 − n

n− 1(X − µ)2.

Siispa

E(S2) =1

n− 1

n∑i=1

E((Xi − µ)2

)− n

n− 1E((X − µ)2

)=

n

n− 1σ2 − n

n− 1

σ2

n= σ2.

Mita pienempi harhattoman piste-estimaattorin Θ varianssi

var(Θ) = E((Θ− θ)2

)on, sita todennakoisempaa on, etta se osuu lahelle odotusarvoaan. Sa-notaankin, etta estimaattori on sita tehokkaampi mita pienempi sen va- ”efficient”

rianssi on. Harhainenkin estimaattori voi olla hyva siina mielessa, ettasen keskineliovirhe E

((Θ− θ)2

)on pieni. ”mean square(d) error”

Valiestimoinnin tarkoituksena on otoksesta laskien tuottaa vali, jolla ”interval estimation”

oikea parametrin θ arvo on, ainakin tietylla suurella todennakoisyydella.Kyseessa voi olla kaksipuolinen tai toispuolinen vali. Kaksipuolisessa va-lissa estimoidaan molemmat valin paatepisteet θL (vasen eli alempi) ja θU(oikea eli ylempi), yksipuolisessa vain toinen (se toinen on silloin muutenselva, esimerkiksi ±∞ tai 0). Katsotaan ensin kaksipuolisia valeja.

Tassakin estimaatit θL ja θU ovat realisoituneesta otoksesta laskiensaatavia lukuja. Estimaattorit ΘL ja ΘU puolestaan ovat satunnaismuut- Siis valin paatepisteet ΘL

ja ΘU ovat satunnais-muuttujia, ei parametri θ!tujia. Perusidea on saattaa tavalla tai toisella tilanne sellaiseksi, etta

P(ΘL < θ < ΘU) = 1− α,

missa α on annettu luku (usein 0.10, 0.05 tai 0.01). Realisoitunutta valia(θL, θU) sanotaan silloin 100(1 − α) % luottamusvaliksi. Luku 1 − α on ”confidence interval”

valin luottamusaste ja paatepisteet ovat alempi ja ylempi luottamusraja. ”degree of confidence”,”lower confidence limit”,”upper confidence limit”Mita suurempaa luottamusastetta vaaditaan, sita leveammaksi luot-

tamusvali tulee ja hyvin lahella 100 % oleva luottamusaste johtaa yleensavaleihin, jotka ovat liian leveita ollakseen kovin mielenkiintoisia. Lisaksiesitetty ehto P(ΘL < θ < ΘU) = 1−α ei kerro miten vali oikein valitaan.Usein vaaditaankin, etta vali on symmetrinen, ts.

P(θ ≤ ΘL) = P(θ ≥ ΘU) =α

2.

(Toinen aika luonnollinen vaatimus voisi olla, etta vali on lyhin mahdol-linen, mutta se johtaa monesti hankaliin laskuihin.)

Page 20: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 16

2.2 Yksi otos: Odotusarvon valiestimointi [9.4]

Populaatio-odotusarvon µ piste-estimoinnissa luonnollinen harhaton es-timaattori on otoskeskiarvo X, jonka varianssi on σ2/n. Tassa σ2 on po-pulaatiovarianssi, joka oletetaan ensin tunnetuksi. Suurilla otoskoilla ntallainen estimointi on varsin tarkkaa.

Odotusarvon valiestimointi lahtee siita, etta satunnaismuuttujalla

Z =X − µσ/√n

on vahankaan suuremmille otoskoille Keskeisen raja-arvolauseen nojal-la melko tarkasti standardinormaalijakauma N(0, 1). Valitaan nyt jakau-man kvantiili zα/2 siten, etta P(Z ≥ zα/2) = 1 − Φ(zα/2) = α/2, jolloin Φ on standardinormaali-

jakauman kertymafunktio.(symmetria) myos P(Z ≤ −zα/2) = Φ(−zα/2) = α/2. Silloin

P(−zα/2 < Z < zα/2) = 1− α.

Toisaalta kaksoisepayhtalo

−zα/2 <X − µσ/√n< zα/2

on ekvivalentti kaksoisepayhtalon

X − zα/2σ√n< µ < X + zα/2

σ√n

kanssa. Nain ollen, jos realisoitunut otoskeskiarvo on x, valitaan100(1− α) % luottamusrajoiksi

µL = x− zα/2σ√n

ja µU = x+ zα/2σ√n.

Alla on esitetty simuloimalla (MATLAB) saadut 100 kpl 90 %, Generoidaan 100 kertaa nstandardinormaalia satun-naislukua ja kaytetaan nii-

ta otoksina. Piirretaan valitpaallekkaisina janoina.

95 % seka 99 % odotusarvon luottamusvaleja standardinormaalijakau-malle. Lahdetaan 90 % luottamusvaleista:

−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 10

10

20

30

40

50

60

70

80

90

100100 kpl N(0,1)−jakauman odotusarvon luottamusvälejä (90%)

Page 21: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 17

Huomaa miten noin kymmenesosa valeista ei sisalla oikeaa odotusarvoaµ = 0. Iso osa valeista on jopa erillisia. Siirryttaessa korkeampaan luot-tamusasteeseen valit pitenevat, mutta peittavat samalla todennakoisem-min oikean odotusarvon:

−1 −0.5 0 0.5 1 1.50

10

20

30

40

50

60

70

80

90

100100 kpl N(0,1)−jakauman odotusarvon luottamusvälejä (95%)

−1.5 −1 −0.5 0 0.5 1 1.50

10

20

30

40

50

60

70

80

90

100100 kpl N(0,1)−jakauman odotusarvon luottamusvälejä (99%)

Esimerkki. Tassa kyse on naytteiden sinkkipitoisuudesta n = 36 mit- [9.2]

tauspisteessa. Saatujen mittausten otoskeskiarvo on x = 2.6 g/ml. Popu-laatiohajonnaksi tiedetaan σ = 0.3 g/ml. Jos α = 0.05, jolloin z0.025 =1.960, laskien saadaan µL = 2.50 g/ml seka µU = 2.70 g/ml. Jos taasα = 0.01, jolloin z0.005 = 2.575, saadaan µL = 2.47 g/ml seka µU = 2.73g/ml eli vali on pidempi.

Jos luottamusvali maaraytyy symmetrisesta jakaumasta, kuten onasian laita odotusarvolle, rajat ovat muotoa θ ± b, missa θ on piste-estimaatti. Lukua b kutsutaan talloin estimointivirheeksi. Odotusarvolleilmeisesti b = zα/2σ/

√n. Jos siis halutaan estimointivirheen olevan enin-

Page 22: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 18

taan annettu luku b0, pitaa valita otoskoko n siten, etta

zα/2σ√n≤ b0 eli n ≥

(zα/2σb0

)2.

Nain ollen, jos yo. esimerkissa haluttaisiin estimointivirheen olevan enin-taan b0 = 0.05 g/ml, pitaisi otoskoon olla ainakin n = 139.

Edella luottamusvalit ovat olleet kaksipuolisia. Jos halutaan odotusar-volle µ pelkka alapuolinen luottamusraja, valitaan standardinormaalija-kauman kvantiili zα, jolle P(Z ≥ zα) = 1 − Φ(zα) = α, jolloin myosP(Z ≤ −zα) = Φ(−zα) = α. Nyt epayhtalo

X − µσ/√n< zα

on ekvivalentti epayhtalon

µ > X − zασ√n

kanssa ja saadaan haluttu 100(1− α) % luottamusalaraja

µL = x− zασ√n.

Vastaavasti saadaan 100(1− α) % luottamusylaraja µU = x+ zασ/√n.

Esimerkki. n = 25 koehenkilolta mitataan tietty reagointiaika. Aiem- [9.4]

mat testit osoittavat, etta reaktioaikojen hajonta on σ = 2.0 s ja sitavoidaan pitaa tunnettuna. Saatu naytteiden otoskeskiarvo on x = 6.2 s.Nyt z0.05 = 1.645 ja 95 % luottamusylaraja reaktioaikojen odotusarvolleon µU = 6.86 s.

Edella piti tietaa populaatiovarianssi σ2. Jos sita ei tiedeta, voidaanedelleen edeta, mutta standardinormaalijakauman tilalle tulee silloint-jakauma. (Eika Keskeinen raja-arvolause ole kaytossa, vaan populaa-tiojakauman pitaa olla normaali.) Nyt lahdetaan satunnaismuuttujasta

T =X − µS/√n,

jolla on t-jakauma n−1 vapausasteella. Etsitaan jakauman kvantiili tα/2,jolle on P(T ≥ tα/2) = α/2. Silloin t-jakauman symmetrisyyden vuoksi onmyos P(T ≤ −tα/2) = α/2 ja P(−tα/2 < T < tα/2) = 1− α, aivan kutenstandardinormaalijakaumallekin. Edeten aivan kuten edellakin saadaanpopulaatio-odotusarvon µ 100(1− α) % luottamusrajoiksi

µL = x− tα/2s√n

ja µU = x+ tα/2s√n.

Estimaatin x estimointivirhe on tassa ilmeisesti b = tα/2s/√n. Mutta se ei ole etukateen

tunnettu.Vastaavat toispuoliset luottamusrajat ovat

µL = x− tαs√n

ja µU = x+ tαs√n,

missa kvantiili tα on valittu siten, etta P(T ≥ tα) = α.

Esimerkki. Seitseman rikkihappoa sisaltavan samanlaisen astian rikki- [9.5]

happomaarat mitattiin. Maarien keskiarvo on x = 10.0 l ja hajonta s =0.283 l. Nyt t0.025 = 2.447 ja saadaan 95 % luottamusvali (9.74 l, 10.26 l).

Page 23: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 19

2.3 Ennustevalit [9.6]

Usein valiestimoinnin jalkeen halutaan vastaava vali, ns. ennustevali, seu- ”prediction interval”

raavalle mittaukselle x0. Luonnollisesti ajatellaan vastaavan satunnais-muuttujan X0 olevan riippumattoman kaytetyista otoksessa olleista sa-tunnaismuuttujista X1, . . . , Xn ja niiden kanssa samoin jakautunut.

Olettaen populaatiojakauman olevan normaalijakauman N(µ, σ2) tie-detaan erotuksella X0 −X olevan myos normaalijakauman ja Kahden riippumattoman

normaalijakautuneen sa-tunnaismuuttujan summaja erotus ovat myos nor-

maalijakautuneita.E(X0 −X) = E(X0)− E(X) = µ− µ = 0

seka Jos satunnaismuuttujat Xja Y ovat riippumattomat,

niinvar(X ± Y )

= var(X) + var(Y ).var(X0 −X) = var(X0) + var(X) = σ2 +

σ2

n=(

1 +1

n

)σ2.

Siispa satunnaismuuttujalla

Z =X0 −X

σ√

1 + 1/n

on standardinormaalijakauma. Tassa siis taas oletetaan populaatiova-rianssi σ2 tunnetuksi.

Menetellen aivan kuten edella, korvaten vain σ/√n lausekkeella

σ√

1 + 1/n, saadaan x0:lle 100(1− α) % ennustevali

x− zα/2σ√

1 +1

n< x0 < x+ zα/2σ

√1 +

1

n,

jolla se todennakoisyydella 1 − α on. Vm. todennakoisyys on tulkittavasiten, etta se on tapahtuman

X − zα/2σ√

1 +1

n< X0 < X + zα/2σ

√1 +

1

n,

todennakoisyys. Ennustevali ottaa nain mukaan seka odotusarvon esti-moinnissa olevan etta satunnaismuuttujassa X0 olevan ”epavarmuuden”.

Jalleen, jos populaatiohajontaa σ ei tunneta, pitaa vain kayttaa otos-hajontaa s sen sijasta ja standardinormaalijakauman sijasta t-jakaumaavapausastein n− 1. Satunnaismuuttuja X0 −X on nimittain myos riip- Jalleen hankalasti todis-

tettava fakta.pumaton otosvarianssista S2, joten

T =Z√

(n− 1)S2

σ2(n− 1)

=X0 −X

S√

1 + 1/n

on t-jakautunut vapausastein n − 1. Arvolle x0 saatu 100(1 − α) % en-nustevali on silloin

x− tα/2s√

1 +1

n< x0 < x+ tα/2s

√1 +

1

n.

Page 24: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 20

Esimerkki. n = 30 vaharasvaista lihaa sisaltavan pakkauksen lihapi- [9.7]

toisuus (muu kuin rasva) tarkastettiin. Jakauma oletettiin normaalik-si. Otoskeskiarvo on x = 96.2 % ja -hajonta s = 0.8 %. t-kvantiiliat0.005 = 2.756 (vapausastein 29) kayttaen saadaan seuraavan paketin li- Ala sekoita pitoisuus- ja

todennakoisyysprosentteja!hapitoisuudelle 99 % ennustevali (93.96 %, 98.44 %).

Eras ennustevalien kayttotapa on vieraiden otosarvojen etsiminen. Ks. Pykalan 1.3 esimerkki.

Havainto katsotaan vieraaksi, jos se ei osu siihen ennustevaliin, joka otok-sesta saadaan, kun ko. havainto on siita ensin poistettu.

Vastaavalla tavalla voitaisiin myos laatia toispuolisia ennustevaleja.

2.4 Toleranssivalit [9.7]

Eras estimoitava valityyppi on ns. toleranssivali, joka esiintyy mm. pro-sessien tilastollisen kayttaytymisen maarittelyssa.

Jos populaatiojakauma on tunnettu normaalijakauma N(µ, σ2), sen100(1 − α) % toleranssivali on sellainen vali (µ − kσ, µ + kσ), jolla ja-kaumasta on 100(1 − α) %. Vali annetaan antamalla vastaava k:n arvoja esitetaan yleensa muodossa µ± kσ. Nain ollen esimerkiksi 95 % tole-ranssivali on µ± 1.96σ. Tama siis edellyttaa, etta µ ja σ tiedetaan.

Mutta yleensa populaation µ ja σ ovat tuntemattomat. Toleranssivaliannetaan silloin ottamalla kayttoon otoksesta saadut vastaavat otossuu-reet x ja s ja se on

Joskus x± k s√n

.x± ks.Nama ovat kuitenkin satunnaismuuttujien X ± kS realisoituneet arvotja nain saatu toleranssivali onkin oikea vain tietylla todennakoisyydella1− γ, joka riippuu valitusta k:n arvosta (ja otoskoosta n). k valitaankinsiten, etta vali X ± kS sisaltaa todennakoisyydella 1− γ (merkitsevyys)jakaumasta ainakin 100(1− α) %.

Toleranssivalien paatepisteiden jakauma on jonkin verran hankala.1

1Ihan vain niille, joita asia ehka syvallisemmin kiinnostaa! Vahan miettien voitodeta, etta ylapuolisen toleranssivalin konstruoinnissa pitaa etsia sellainen luku k,etta

P(X + kS − µ

σ≥ zα

)= 1− γ.

Jos merkitaan, kuten edella,

Z =X − µσ/√n

ja V =(n− 1)S2

σ2,

niin Z on standardinormaalijakautunut ja V on χ2-jakautunut vapausasteinn − 1 ja ne ovat riippumattomat. Tehtava voidaan nain pukea muotoon, jossa eiesiinny populaatioparametreja: Kun on annettu α, γ ja n, etsittava sellainen luku k,etta

P( Z√

n+

k√V√

n− 1≥ zα

)= 1− γ.

Riippumattomuudesta johtuen Z:n ja V :n yhteisjakauman tiheysfunktio on φ(z)g(v),missa g on χ2-jakauman (n − 1 vapausasteella) ja φ on standardinormaalijakaumantiheysfunktio. Sita kayttaen vasemman puolen todennakoisyys saadaan integraali-lausekkeena ja k:lle saadaan yhtalo. Ei liene ihme, etta tama on vaikeaa ja johtaanumeeriseen ratkaisuun! Kaksipuolisen toleranssivalin tapauksessa tilanne on vielakinhankalampi.

Page 25: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 21

Siihen liittyvia kvantiileja (k:n valinta) loytyy taulukoituina kirjoissa Nama saattavat kuitenkinolla approksimatiivisia ei-

vatka kovin tarkkoja.(mm. WMMYssa). Nettilaskimiakin naille valeille loytyy. Tarkkoja k:narvoja on taulukoituna Liitteessa.

Esimerkki. n = 9 tyostettya metalliosaa mitataan ja saadaan otos- [9.8]

suureet x = 1.0056 cm ja s = 0.0246 cm. Silloin todennakoisyydella0.99 mitatun suureen populaatioarvoista vahintaan 95 % on toleranssi-valilla 1.0056 ± k0.0246 cm, missa k = 4.5810 (ks. Liite), eli siis va-lilla (0.8929 cm, 1.1183 cm). Vastaava 99 % luottamusvali olisi muuten(0.9781 cm, 1.0331 cm) ja se on lyhyempi.

Myos toispuoliset toleranssivalit ovat mahdollisia.

2.5 Kaksi otosta: Odotusarvojen erotuksenestimointi [9.8]

Kahden populaation odotusarvot ja varianssit ovat µ1 ja µ2 seka σ21 ja σ2

2,vastaavasti. Kummastakin otetaan otos, otoskokoina n1 ja n2. Keskeisen Otokset ovat luonnollisesti

tassakin riippumattomat.raja-arvolauseen mukaisesti saadut otoskeskiarvot X1 ja X2 (satunnais-muuttujina) ovat likimain normaalijakautuneet. Nain ollen myos niidenerotus X1−X2 on (likimain) normaalijakautunut, odotusarvona µ1−µ2

ja varianssina σ21/n1 + σ2

2/n2. Edelleen satunnaismuuttujalla

Z =(X1 −X2)− (µ1 − µ2)√

σ21/n1 + σ2

2/n2

on silloin (likimain) standardinormaalijakauma.Kayttaen standardinormaalijakauman kvantiilia zα/2 kuten edella ja

huomaten, etta kaksoisepayhtalot

−zα/2 <(X1 −X2)− (µ1 − µ2)√

σ21/n1 + σ2

2/n2

< zα/2

ja

(X1 −X2)− zα/2

√σ21

n1

+σ22

n2

< µ1 − µ2 < (X1 −X2) + zα/2

√σ21

n1

+σ22

n2

ovat ekvivalentit, saadaan erotukselle µ1 − µ2 nain 100(1− α) % luotta-musrajat

(x1 − x2)± zα/2

√σ21

n1

+σ22

n2

,

missa x1 ja x2 ovat realisoituneet otoskeskiarvot. Tassa jalleen oletettiin,etta populaatiovarianssit σ2

1 ja σ22 tunnetaan.

Esimerkki. Kahden moottorityypin A ja B polttoaineen kulutusta verrat- [9.9]

tiin ajamalla niilla varustetuilla autoilla, nA = 50 kertaa moottorilla Aja nB = 75 kertaa moottorilla B. Saadut otoskeskiarvot ovat xA = 15.30km/l ja xB = 17.85 km/l. Populaatiohajonnat tiedetaan: σA = 2.55 Kirjan WMMY esimerkin

mittayksikko mile/gal ontassa muutettu.km/l ja σB = 3.40 km/l. Kayttaen standardinormaalijakauman kvantiilia

z0.02 = 2.054 saadaan erotukselle µB − µA laskien 96 % luottamusrajat1.455 km/l ja 3.645 km/l.

Page 26: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 22

Mikali populaatiovariansseja σ21 ja σ2

2 ei tunneta, tilanne muuttuumutkikkaammaksi. Luonnollisesti talloin pyritaan kayttamaan otoksistasaatuja otosvariansseja s21 ja s22.

Eras χ2-jakauman mukavia ominaisuuksia on se, etta jos V1 ja V2 Tama on hankalahko todis-tettava. Asia on kuitenkinmelko ilmeinen, jos V1 jaV2 voidaan esittaa riippu-mattomien standardinor-

maalien satunnaismuuttu-jien nelioiden summana.

ovat riippumattomat χ2-jakautuneet satunnaismuuttujat vapausastein v1ja v2, niin niiden summa V1 + V2 on myos χ2-jakautunut, vapausasteinv1+v2. Ajatellen otosvariansseja satunnaismuuttujina S2

1 ja S22 tiedetaan,

etta satunnaismuuttujilla

V1 =(n1 − 1)S2

1

σ21

ja V2 =(n2 − 1)S2

2

σ22

on χ2-jakaumat vapausastein n1 − 1 ja n2 − 1, ja ne ovat myos riippu-mattomat. Siispa satunnaismuuttujalla

V = V1 + V2 =(n1 − 1)S2

1

σ21

+(n2 − 1)S2

2

σ22

on χ2-jakauma vapausastein n1 + n2 − 2.Katsotaan ensin tapausta, missa tiedetaan, etta σ2

1 ja σ22 ovat samat

(= σ2), vaikkakaan ei tiedeta mika σ2 on. Silloin

V =1

σ2

((n1 − 1)S2

1 + (n2 − 1)S22

)ja se siis on χ2-jakautunut vapausastein n1 +n2− 2. Merkitaan lyhyydenvuoksi

S2p =

(n1 − 1)S21 + (n2 − 1)S2

2

n1 + n2 − 2,

ns. yhteisotosvarianssi. Vastaavasti saadaan s2p realisoituneista otosva- ”pooled sample variance”

riansseista s21 ja s22.Koska satunnaismuuttujat Z (ks. edella) ja V ovat riippumattomat, Tamakin on vaikeasti to-

distettava asia.on satunnaismuuttujalla

Huomaa miten populaa-tiohajontoja σ1 ja σ2 ei

saada haviamaan T :nlausekkeesta, elleivat ne

ole samat tai ainakinsuhdetta σ1/σ2 tiedeta.

T =Z√

V/(n1 + n2 − 2)=

(X1 −X2)− (µ1 − µ2)

Sp

√1/n1 + 1/n2

t-jakauma vapausastein n1 + n2 − 2.Kayttaen t-jakauman kvantiilia tα/2 (vapausastein n1 + n2 − 2) ja

todeten kaksoisepayhtalot

−tα/2 <(X1 −X2)− (µ1 − µ2)

Sp

√1/n1 + 1/n2

< tα/2

seka

(X1−X2)− tα/2Sp

√1

n1

+1

n2

< µ1−µ2 < (X1−X2)+ tα/2Sp

√1

n1

+1

n2

ekvivalenteiksi saadaan erotukselle µ1 − µ2 nyt 100(1− α) % luottamus-rajat

(x1 − x2)± tα/2sp√

1

n1

+1

n2

,

missa x1 ja x2 ovat realisoituneet otoskeskiarvot.

Page 27: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 23

Esimerkki. Kahdesta paikasta mitattiin eraiden elioiden ns. moninai- [9.10]

suusindeksi kuukausittain, paikasta 1 vuoden ajan (n1 = 12) ja paikasta2 kymmenen kuukauden ajan (n2 = 10). Saadut otossuureet olivat

x1 = 3.11 , s1 = 0.771 , x2 = 2.04 ja s2 = 0.448.

Naista laskien saadaan yhteisvarianssiksi s2p = 0.417, joten sp = 0.646.Tarvittava t-kvantiili (vapausastein 20) on t0.05 = 1.725, jota kayttaensaadaan erotukselle µ1− µ2 lasketuksi 90 % luottamusvali (0.593, 1.547).

Jos populaatiovariansseja ei tunneta eika sitakaan, etta ne ovat samat, Tama vaikeus tunnetaanns. Behrens–Fisher-prob-leemana. Sita ei ole varsi-

naisesti ratkaistu.

tilanne muuttuu vaikeaksi. Usein kuitenkin todetaan, etta jos populaa-tiovarianssit eivat kovin paljon poikkea toisistaan, ylla olevaa menette-lya voidaan kayttaa. (Varianssien samuus on myos testattavissa vaikkapaF-jakaumaa kayttaen, ks. Pykala 3.7.) Samoin usein todetaan, etta vaikka Tama on jo kuitenkin aika

epavarmalla pohjalla.populaatiovarianssit ovat erilaisetkin, menettelya voi kayttaa, jos otos-koot ovat samat (tai melkein samat).

Paljon kaytetty menettely tassa tapauksessa, missa ei voida olettaapopulaatiovariansseja edes likimain samoiksi, on seuraava ns. Welch– Bernard Welch (1911–

1989), Franklin Satter-thwaiteSatterthwaite-approksimaatio: Satunnaismuuttujalla

W =(X1 −X2)− (µ1 − µ2)√

S21/n1 + S2

2/n2

on likimain t-jakauma vapausastein

v =(a1 + a2)

2

a21/(n1 − 1) + a22/(n2 − 1),

missa a1 = s21/n1 ja a2 = s22/n2. Tama v ei yleensa ole kokonaisluku, mut- Taulukoita kaytettaessa pi-taa kyllakin pyoristaa v la-

himpaan kokonaislukuuntai interpoloida.

ta se ei haittaa, t-jakauma kun on maaritelty silloinkin, kun sen vapausas-teluku ei ole kokonaisluku. Tata tietoa kayttaen saadaan erotukselleµ1 − µ2 approksimatiiviset 100(1− α) % luottamusrajat

(x1 − x2)± tα/2

√s21n1

+s22n2

,

missa jalleen x1 ja x2 ovat realisoituneet otoskeskiarvot.Taman approksimaation tarkkuudesta ollaan eri mielta. Jotkut suo-

sittelevat sen kayttoa aina, kun on vahankaan epavarmuutta populaa-tiovarianssien samuudesta, toiset taas varoittavat approksimaation epa-tarkkuudesta, jos populaatiovarianssit ovat kovin erilaiset.

Esimerkki. Joesta mitattiin kahdella mittausasemalla veden ortofosfo- [9.11]

rimaaria, asemalla 1 tama tehtiin n1 = 15 kertaa ja asemalla 2 n2 = 12kertaa. Populaatiovariansseista ei ole tietoa. Saadut otossuureet olivat(yksikkona mg/l)

x1 = 3.84 , s1 = 3.07 , x2 = 1.49 ja s2 = 0.80.

Kayttaen (approksimatiivista) t-kvantiilia t0.025 = 2.117 vapausastein v = Vapausasteluvun pyorista-minen arvoon 16 antaa tas-

sa itse asiassa kaytetyllatarkkuudella saman valin.

16.3 saadaan erotukselle µ1−µ2 (approksimatiivinen) 95 % luottamusvali(0.60 mg/l, 4.10 mg/l).

Page 28: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 24

2.6 Parittaiset havainnot [9.9]

Usein tutkittavat kaksi populaatiota liittyvat alkio alkiolta toisiinsa. Ky-seessa voisi olla vaikkapa yksi ja sama koehenkilo kahdessa eri tilantees-sa, jokin tuote ennen ja jalkeen tietyn kasittelyn, jokin tuote nyt ja sit-ten vuoden paasta jne. Merkitaan 1. populaation odotusarvoa µ1:lla ja2. populaation odotusarvoa µ2:lla. Otetaan satunnaisotos kummastakinpopulaatiosta, mutta ottaen mukaan mainitut vastinalkiot:

X1,1, . . . , X1,n ja X2,1, . . . , X2,n.

Lasketaan vastinalkioiden erotukset

D1 = X1,1 −X2,1 , . . . , Dn = X1,n −X2,n.

Vastaavalla tavalla saadaan realisoituneet erotukset

d1 = x1,1 − x2,1 , . . . , dn = x1,n − x2,n.

Varsinaiseksi otokseksi ajatellaankin nyt nama erotukset, joko satunnais-muuttujina tai realisoituneina. Nain saadaan otoskeskiarvot D ja d sekaotosvarianssit S2 ja s2.

Ilmeisesti E(D) = µ1 − µ2. Vastinalkiot X1,i ja X2,i eivat toisaaltailmeisestikaan nyt ole yleisesti riippumattomat (tai korreloimattomat),joten D:n varianssista ei oikeastaan voi olla paljoakaan tietoa. Tilastol- Tama ei sano mitaan varsi-

naisista populaatiojakau-mista, niiden ei tarvitse ol-

la lahellakaan normaalia.

lisen analyysin tekemiseksi oletetaan, etta populaatioarvojen erotuksienjakauma on (kyllin tarkasti) normaali.

Aivan kuten edella Pykalassa 2.2, todetaan, etta satunnaismuuttujal-la

T =D − (µ1 − µ2)

S/√n

on t-jakauma vapausastein n−1. Nain saadaan realisoituneista otoksistapopulaatioiden odotusarvojen erotukselle µ1 − µ2 100(1 − α) % luotta-musrajat

d± tα/2s√n.

Esimerkki. n = 20 Vietnam-veteraanilta, jotka olivat sodassa altistu- [9.12]

neet Agent Orange -kasvimyrkylle, mitattiin TCDD-tasot (dioksiini) ve-riplasmasta (populaatio 1) seka rasvakudoksesta (populaatio 2). Arvojenerotuksien otoskeskiarvoksi saatiin d = −0.87 ja otoshajonnaksi s = 2.98.Vapausastein 19 kaytettava t-kvantiili on t0.025 = 2.093 ja nain saadaanerotukselle µ1 − µ2 95 % luottamusvali (−2.265, 0.525).

2.7 Suhdeluvun estimointi [9.10]

Suhdeluvun estimoinnissa otokseen tulleista alkioista saadaan selville ai-noastaan se ovatko ne tiettya tyyppia (”suotuisa”) vai ei (”epasuotuisa”).Suotuisien alkioiden lukumaaraa merkitaan X:lla (satunnaismuuttuja-na) tai x:lla (realisoitunut lukumaara). Jos otoskoko on n ja suotuisan

Page 29: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 25

tapauksen todennakoisyys populaatiossa on p (suhdeluku), on X:n ja-kauma binomijakauma Bin(n, p) ja

P(X = x) =

(n

x

)px(1− p)n−x.

Jakaumasta tiedetaan, etta

E(X) = np ja var(X) = np(1− p).

Koska p(1 − p) ≤ 1/4, on tassa siis aina var(X) ≤ n/4. Suhdeluvun p Funktion x(1− x) maksi-miarvo on 1/4.luonnollinen piste-estimaattori ja -estimaatti ovat

P =X

nja p =

x

n.

P on harhaton, ts. E(P ) = p, ja

var(P ) =1

n2var(X) =

p(1− p)n

≤ 1

4n.

Jalleen estimaattorin varianssi pienee n:n kasvaessa. Myos huomataan,etta jos halutaan, etta P :n hajonta on enintaan b, niin ainakin riittaa

valita sellainen n, etta n ≥ 1

4b2.

Jos realisoitunut suotuisien alkioiden lukumaara on x, niin p:n valies-timoinnissa kaksipuolisen 100(1−α) % luottamusvalin alaraja pL saadaanasettamalla ehto Miettimalla miten vasem-

man puolen todennakoi-syys muuttuu p:n vahetes-

sa naet, etta kyseessa onnimenomaan alaraja.

P(X ≥ x) =α

2.

pL:lle saadaan nain yhtalo

n∑i=x

(n

i

)piL(1− pL)n−i =

α

2.

Vastaavasti luottamusylaraja pU kaksipuoliselle valille saadaan asetta-malla ehto

P(X ≤ x) =α

2eli se saadaan ratkaisemalla yhtalosta Tata tarkkaa valiestimaat-

tia kutsutaan Clopper–Pearson-estimaatiksi.x∑

i=0

(n

i

)piU(1− pU)n−i =

α

2.

Nama kaksi yhtaloa ovat hankalia ratkaista numeerisesti, varsinkin jos Apuna kaytetaan useinerasta erikoisfunktiota,

ns. betafunktiota.n on iso. MATLABissa ratkaisu on implementoituna, samoin nettilaski-miakin loytyy.

Toispuoliset luottamusvalit saadaan samaan tapaan, korvataan vainα:lla oikealla puolella oleva α/2.

Jos ei haluta tarkkaa valiestimaattia, voidaan soveltaa erinaisia app-roksimatiivisia menettelyja. Keskeisen raja-arvolauseen seurauksena sa-tunnaismuuttujalla X on likimain normaalijakauma N

(np, np(1 − p)

).

Nain ollen satunnaismuuttujalla

Z =P − p√p(1− p)/n

Page 30: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 26

on likimain standardinormaalijakauma. Kun on saatu realisoitunut p:nestimaatti p = x/n, approksimatiiviset 100(1−α) % luottamusrajat saa- Tata valiestimaattia taas

kutsutaan Wilsonin esti-maatiksi.daan silloin ratkaisemalla toisen asteen yhtalo:

p− p√p(1− p)/n

= ±zα/2 eli (p− p)2 =z2α/2np(1− p).

Myos voidaan kayttaa estimaattia p nimittajassakin, silla myos sa-tunnaismuuttuja

Z ′ =P − p√

P (1− P )/n

on likimain normaalijakautunut. Taman tiedon avulla voidaan laskea ap-proksimatiiviset luottamusvalit hyvin samaan tapaan kuin edella tehtiinnormaalijakautuneelle populaatiolle. (Kirja WMMY tekee nain.) Tulos Ns. Waldin estimaatti.

ei kuitenkaan aina ole kovinkaan tarkka ja nykyaan pyritaankin kaytta-maan tarkkoja menetelmia.

Binomijakauman approksimatiivisia valiestimaatteja on paljon mui-takin, eri tavoin kayttaytyvia. Eo. tarkka estimaatti on niista konserva-tiivisin, mutta samalla varmin.

Esimerkki. Valittiin satunnaisesti n = 500 taloutta, joilta kysyttiin [9.13]

ovatko ne tilanneet tietyn TV-kanavan. x = 340 taloutta oli nain teh- Tassa n on suuri ja oikeap on ”keskella”, joten nor-

maalijakauma-approksi-maatio toimii myos hyvin.

nyt. Silloin p = 340/500 = 0.680 ja 95 % luottamusvaliksi suhdeluvulle psaadaan vali (0.637, 0.721).

2.8 Yksi otos: Varianssin estimointi [9.12]

Populaatiovarianssin σ2 luonnollinen piste-estimaattori on otosvarians-si S2, vastaava piste-estimaatti on realisoitunut otosvarianssi s2. Kutentodettiin, S2 on harhaton eli E(S2) = σ2, populaatiojakaumasta riippu-matta (kunhan silla on varianssi!).

Valiestimointia varten pitaa taas olettaa, etta populaatiojakauma onnormaali (riittavan tarkasti). Kaytettava χ2-jakauma on nimittain varsinherkka epanormaalisuudelle. Satunnaismuuttujalla

V =(n− 1)S2

σ2

on silloin χ2-jakauma n−1 vapausasteella. Valitaan nyt ko. χ2-jakauman Koska χ2-jakauma ei olesymmetrinen, nama kvan-

tiilit eivat liity toisiinsa.kvantiilit h1,α/2 ja h2,α/2 siten, etta

P(V ≤ h1,α/2) = P(V ≥ h2,α/2) =α

2.

SilloinP(h1,α/2 < V < h2,α/2) = 1− α.

Kaksoisepayhtalot

h1,α/2 <(n− 1)S2

σ2< h2,α/2

Page 31: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 27

ja(n− 1)S2

h2,α/2< σ2 <

(n− 1)S2

h1,α/2

ovat ekvivalentit. Siispa realisoituneesta otosvarianssista s2 saadaan σ2:lleluottamusrajat

(n− 1)s2

h2,α/2ja

(n− 1)s2

h1,α/2.

Toispuoliset luottamusrajat saadaan vastaavasti kayttaen vain toistaχ2-jakauman kvantiileista, luottamusylarajalle kvantiilia h1,α ja luotta-musalarajalle kvantiilia h2,α.

Esimerkki. n = 10 nurmikonsiemenpaketin painot mitattiin. Painojen [9.17]

oletetaan olevan normaalijakautuneita. Saatu painojen otosvarianssi ons2 = 28.62 g 2. Kayttaen χ2-jakauman kvantiileja h1,0.025 = 2.700 se-ka h2,0.025 = 19.023 (9 vapausasteella) saadaan populaatiovarianssille σ2

lasketuksi 95 % luottamusvali (13.54 g 2, 95.40 g 2).

Populaatiohajonnalle σ saadaan luottamusrajat ottamalla neliojuuret Nama rajat ovat tarkat,toisin kuin kirja WMMY

vaittaa.varianssin σ2 luottamusrajoista.

2.9 Kaksi otosta: Varianssien suhteen esti-mointi [9.13]

Jos kahdesta eri populaatiosta, joiden varianssit ovat σ21 ja σ2

2, otetaan Tietysti riippumattomatotokset!otokset (otoskoot n1 ja n2, otosvarianssit S2

1 ja S22), niin varianssien suh-

teen σ21/σ

22 ilmeinen piste-estimaattori on otosvarianssien suhde S2

1/S22 . Tama ei yleensa ole harha-

ton. Esimerkiksi normaali-jakautuneiden populaatioi-den tapauksessa vastaavaharhaton estimaattori on

n2 − 3

n2 − 1

S21

S22

(olettaen, etta n2 > 3).

Vastaava piste-estimaatti on realisoituneiden otosvarianssien s21 ja s22 suh-de s21/s

22.

Valiestimointia varten pitaa taas olettaa, etta populaatiot ovat nor-maalijakautuneita. F-jakaumakaan kun ei ole tassa suhteessa kovin ro-busti ja populaatioiden epanormaalisuus johtaa herkasti epatarkkoihintuloksiin. Satunnaismuuttuja

F =S21/σ

21

S22/σ

22

=σ22

σ21

S21

S22

on silloin F-jakautunut vapausastein n1 − 1 ja n2 − 1. Valitaan valiesti-mointia varten sellaiset ko. F-jakauman kvantiilit f1,α/2 ja f2,α/2, etta

P(F ≤ f1,α/2) = P(F ≥ f2,α/2) =α

2.

SilloinP(f1,α/2 < F < f2,α/2) = 1− α.

Kuten χ2-jakauma, F-jakaumakin on epasymmetrinen, joten kvan-tiilit f1,α/2 ja f2,α/2 eivat suoranaisesti liity toisiinsa. Tiettya tekemis-ta keskenaan niilla kuitenkin on. Muistetaan, etta satunnaismuuttujaF ′ = 1/F on F-jakautunut vapausastein n2 − 1 ja n1 − 1. Jos viime- Tata kaytetaan hyvaksi

taulukoissa: Taulukot ovatusein joko pelkastaan lop-puhantakvantiileille f2,α/2

tai sitten vapausasteistaensimmainen on pienempi.

mainitulle F-jakaumalle saadaan kvantiilit f ′1,α/2 seka f ′2,α/2, niin silloin

Page 32: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 28

f ′1,α/2 = 1/f2,α/2 ja f ′2,α/2 = 1/f1,α/2. Erikoisesti, jos otoskoot ovat samat,

ts. n1 = n2, niin F :n ja F ′:n jakaumat ovat samat ja f1,α/2 = 1/f2,α/2.Koska kaksoisepayhtalot

f1,α/2 <σ22

σ21

S21

S22

< f2,α/2

jaS21

S22

1

f2,α/2<σ21

σ22

<S21

S22

1

f1,α/2

ovat ekvivalentit, saadaan realisoituneista otosvariansseista s21 ja s22 nainpopulaatiovarianssien suhteelle σ2

1/σ22 lasketuksi 100(1−α) % luottamus-

rajats21s22

1

f2,α/2ja

s21s22

1

f1,α/2.

Toispuoliset luottamusrajat saadaan vastaavasti kayttaen vain tois-ta F-jakauman kvantiileista, luottamusylarajalle kvantiilia f1,α ja luot-tamusalarajalle kvantiilia f2,α. Edelleen populaatiohajontojen suhteelle Nama rajat ovat tarkat,

vaikka kirja WMMY toisinvaittaa.σ1/σ2 saadaan luottamusrajat ottamalla neliojuuret varianssien suhteen

σ21/σ

22 luottamusrajoista.

Esimerkki. Palataan Pykalan 2.5 esimerkin veden ortofosforimaarien [9.18]

mittauksiin. Otoskoot olivat n1 = 15 seka n2 = 12, ja saadut otoshajon-nat s1 = 3.07 mg/l seka s2 = 0.80 mg/l. Kayttaen F-jakauman kvantii-leja f1,0.01 = 0.2588 ja f2,0.01 = 4.2932 (vapausastein 14 ja 11) saadaannain suhteelle σ2

1/σ22 laskien 98 % luottamusvali (3.430, 56.903). Koskapa

luku 1 ei ole talla valilla, tuntuu hyvinkin oikealta olettaa—kuten mai-nitussa esimerkissa tehtiinkin—etteivat populaatiovarianssit ole samat.Ottamalla neliojuuret saadaan vastaavasti σ1/σ2:lle 98 % luottamusvali(1.852, 7.543).

Page 33: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

Luku 3

HYPOTEESIEN TESTAUS

3.1 Tilastolliset hypoteesit [10.1]

Tilastollisella hypoteesilla tarkoitetaan jotain populaatiojakauman (tai-jakaumien) ominaisuutta, joka silla (niilla) joko on tai sitten ei ole. Tal-lainen ominaisuus koskee usein populaatiojakaumien parametreja, jakau-miin liittyvia todennakoisyyksia tms. Hypoteesin testauksella pyritaanselvittamaan otosta (tai otoksia) kayttaen onko populaatiojakaumalla(tai -jakaumilla) kyseista ominaisuutta vai ei. Koska testaus perustuu sa-tunnaisotoksiin, tulos (”kylla” tai ”ei”) ei ole varma, vaan on tulkittavis-sa satunnaismuuttujaksi. Virheellisen tuloksen todennakoisyyden pitaisitietysti olla pieni ja kvantisoitavissa.

Perinteisesti asetetaan ns. nollahypoteesi, jota merkitaan H0:lla, ja ”null hypothesis””alternative hypothesis”vaihtoehtoinen hypoteesi, jota merkitaan H1:lla. Testi tehdaan silla ole-

tuksella, etta nollahypoteesi pitaa paikkansa. Testin tulos voi sitten kyllaosoittaa, etta tama oletus on todennakoisesti vaara, ts. realisoitunut tuloson H0:n voimassaollessa hyvin epatodennakoinen. Hypoteesin testauksentulos on jompikumpi seuraavista:

• On loytynyt riittavan vahva syy hylata nollahypoteesi H0. Jatke-taan olettaen vaihtoehtoinen hypoteesi H1 oikeaksi. Tama voi joh-taa tilanteen jatkotutkimukseen.

• Otos ja kaytetty testausmenetelma ei antanut riittavan vahvaa syy-ta hylata H0:a. Tama voi johtua siita, etta H0 on oikea, mutta myossiita, etta kaytetty testausmenetelma ei ole kovin vahva. Jatketaanpitaen H0:a oikeana.

Satunnaisotannasta johtuen kumpikin tulos voi olla vaara, ideaalisestikuitenkin vain pienella todennakoisyydella.

3.2 Hypoteesien testaus [10.2]

Hypoteesia testataan laskemalla tata varten otoksesta jokin sopiva otos-suure. Jos tama osuu arvoon, joka olettaen nollahypoteesi H0 oikeaksiei ole todennakoinen, on loytynyt syy hylata H0. Hypoteesin testauksentulos voi olla virheellinen kahdella eri tavalla:

29

Page 34: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 3. HYPOTEESIEN TESTAUS 30

Tyypin I virhe: Hylataan H0, vaikka se on oikea (”vaara halytys”).

Tyypin II virhe: Ei hylata H0:a, vaikka se on vaara.

Populaatiojakauman (tai -jakaumien) todellisten ominaisuuksien seka nai-den virhetyyppien osalta testauksen tulokset jakautuvat neljaan tapauk-seen:

H0 on oikea H0 on vaara

H0:a ei hylata Oikea paatos Tyypin II virheH0 hylataan Tyypin I virhe Oikea paatos

Tyypin I virheen todennakoisyytta kutsutaan testin riski(taso)ksi (eli ”risk”, ”level of signifi-cance”, ”size of the test”merkitsevyydeksi). Sita merkitaan usein symbolilla α. Annettu suurin sal-

littu riskitaso α on usein hypoteesin testauksen eras lahtokohta.Tyypin II virheen todennakoisyytta ei useinkaan voida laskea, silla H0

voi olla vaara hyvin monella tavalla. Usein kuitenkin lasketaan jonkinlai-nen (yla)arvio sille olettaen jokin tyypillinen vaikutuksiltaan suhteellisen”pieni” tapa, jolla H0 rikkoutuu. Tata todennakoisyytta merkitaan taval-lisesti symbolilla β. Lukua 1− β kutsutaan testin voimakkuudeksi. Mita ”power”

voimakkaampi testi on, sita herkempi se on, ts. sita pienemmat poikkea-mat H0:sta se havaitsee.

Esimerkki. Ajatellaan vaikkapa normaalijakautunutta populaatiota, jon-ka odotusarvon oletetaan olevan µ0 (hypoteesi H0). Populaatiovarianssinσ2 ajatellaan olevan varmasti tunnettu. Jos otoskeskiarvoksi x realisoi-tuu arvo, joka on N(µ0, σ

2/n)-jakauman hantaalueella kyllin levean va-lin (µ0 − z, µ0 + z) ulkopuolella, loytyy syy hylata H0. Silloin α saadaanlaskemalla N(µ0, σ

2/n)-jakaumalle ko. hantien yhteinen todennakoisyys.Otoskokoa n kasvattamalla saadaan todennakoisyys α pienenemaan mi- X:n jakauma kapenee ja

hannat ohenevat.ten tahansa pieneksi.Todennakoisyyden β arvoa ei voida laskea, silla jos populaatio-odo-

tusarvo ei ole µ0, se voi olla periaatteessa mita vaan. Mita isompi poik-keama todellisesta arvosta talloin on, sita pienempi todellinen β on. Joskuitenkin ajatellaan d:n suuruisen poikkeaman oikeasta odotusarvosta ole-van jo hyvinkin riittava syy hylata H0, jolloin tietysti pitaa olla |d| > z,voitaisiin β:a arvioida laskemalla N(µ0 + d, σ2/n)-jakaumalle arvojenµ0 ± z valisen jakauman osan todennakoisyys. Tamakin todennakoisyyspienenee otoskoon n kasvaessa, silla X:n jakauma kapenee sellaisen odo-tusarvon ymparille, joka ei ole valilla (µ0− z, µ0 + z), ja ko. valin toden-nakoisyys pienenee.

Otoskokoa kasvattamalla saadaan yleensakin seka α etta (arvioitu)β pienenemaan miten tahansa pieniksi. Testin herkkyytta ei kuitenkaanole aina syyta kasvattaa talla tavoin. Jos esimerkiksi populaatiosuureidentyypillinen esitystarkkuus on vaatimaton, niin herkkyytta (otoskokoa) eiole syyta kasvattaa niin isoksi, etta se havaitsee ko. tarkkuutta huomat-tavasti pienemmatkin erot. Silloinhan testi hylkaa nollahypoteesin hyvinusein ja muuttuu kayttokelvottomaksi!

Page 35: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 3. HYPOTEESIEN TESTAUS 31

3.3 Kaksipuoliset ja toispuoliset testit [10.3]

Usein hypoteesi koskee jotain populaation parametria θ. Koska paramet-ri on lukuarvoinen, sita koskevia perushypoteeseja on kolmea tyyppia:kaksi toispuolista ja kaksipuolinen testaus. Samoin, jos hypoteesi kos-kee kahden populaation vastinparametrien vertailua. Tamantyyppistenhypoteesien testaus riskitasolla α palautuu θ:n 100(1− α) % luottamus-valien konstruointiin. Ideana on yrittaa saada sellainen luottamusvali,joka on kokonaan alueella, milla H0 pitaisi hylata. Jollei tama onnistu, eiH0:n hylkaamiseksi loydy syyta ainakaan kaytetylla riskitasolla, ts. riskivaaran paatoksen teolle on liian suuri.

Toispuoliset hypoteesiparit ovat

H0 : θ = θ0 vs. H1 : θ > θ0

sekaH0 : θ = θ0 vs. H1 : θ < θ0,

missa vertailuarvo θ0 on annettu.Pari H0 : θ = θ0 vs. H1 : θ > θ0 testataan merkitsevyystasolla (ris-

kitasolla) α laskemalla aikaisemmin esitetyilla tavoilla realisoituneestaotoksesta alapuolinen 100(1−α) % luottamusraja θL parametrille θ. Nol-lahypoteesi H0 hylataan, mikali vertailuarvo θ0 ei ole saadulla luottamus-valilla, ts. mikali θ0 ≤ θL.

Vastaavasti pari H0 : θ = θ0 vs. H1 : θ < θ0 testataan merkitsevyys-tasolla (riskitasolla) α laskemalla realisoituneesta otoksesta ylapuolinen100(1 − α) % luottamusraja θU parametrille θ. Nollahypoteesi H0 hyla-taan, mikali vertailuarvo θ0 ei ole saadulla luottamusvalilla, ts. mikaliθ0 ≥ θU.

Toispuolisissa testeissa eivat kaikki parametriarvot ole mukana. Edel-la esimerkiksi hypoteesiparia H0 : θ = θ0 vs. H1 : θ > θ0 testattaessaajateltiin, etta oikea parametrin θ arvo ei voi olla pienempi kuin θ0. En-tas jos se kuitenkin on? Silloin tietyssa mielessa tyypin II virhetta ei voitapahtua: H0 tosin on vaara, mutta eipa H1:kaan ole oikea. Toisaalta Testaamisen kannalta

katsoen siis tilanne vainparanee!luottamusalaraja θL pienenee ja tyypin I virheen todennakoisyys α pie-

nenee. Vastaavasti kay, jos hypoteesiparia H0 : θ = θ0 vs. H1 : θ < θ0testattaessa todellinen parametrin θ arvo onkin suurempi kuin θ0.

Esimerkki. n = 100 kuolleen henkilon elinikien keskiarvo oli x = 71.8 [10.3]

v. Populaatiohajonnaksi oletetaan aikaisempien tutkimusten perusteellaσ = 8.9 v. Voisiko taman perusteella paatella, etta vaeston keskimaarai-nen elinika µ on suurempi kuin 70 v? Elinian oletetaan olevan normaa-lijakautunut. Testattava hypoteesipari on

H0 : µ = 70 v vs. H1 : µ > 70 v.

Riskitasoksi otetaan α = 0.05, jolloin zα = 1.645. Lasketaan µ:lle ala-puolinen 95 % luottamusraja

µL = x− zασ√n

= 70.34 v.

Todellinen keskimaarainen elinika on nain ollen ainakin 95 % todenna-koisyydella suurempi kuin 70.34 v ja H0 pitaa hylata.

Page 36: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 3. HYPOTEESIEN TESTAUS 32

Kaksipuolisen testin hypoteesipari on

H0 : θ = θ0 vs. H1 : θ 6= θ0.

Taman testaamiseksi merkitsevyystasolla α lasketaan ensin parametrilleθ kaksipuolinen 100(1−α) luottamusvali (θL, θU). Nyt H0 hylataan, mikalivertailuarvo θ0 ei ole talla valilla.

Esimerkki. Kalastustarvikkeiden valmistaja on kehitellyt uuden synteet- [10.4]

tisen siiman, jonka lujuuden se vaittaa olevan 8.0 kg hajonnan ollessaσ = 0.5 kg. Hajonnan oletetaan olevan tarkka. Asian testaamiseksi otet-tiin n = 50 siiman satunnaisotos, jolloin keskilujuuden todettiin olevanx = 7.8 kg. Riskitasoksi otettiin α = 0.01. Kyseessa on kaksipuolinenhypoteesiparin H0 : µ = 8.0 vs. H1 : µ 6= 8.0 testaus. Nyt 100(1 − α)= 99 % luottamusvali populaatio-odotusarvolle µ on (7.62 kg, 7.98 kg) ei-ka arvo 8.0 kg ole talla valilla. Siispa H0 hylataan riskitasolla 0.01.

3.4 Testisuureet [10.4]

Mikali hypoteesi koskee populaatiojakauman parametria θ, hypoteesintestaus on siis suoritettavissa θ:n luottamusvalin avulla. Toisaalta tes-taus ei varsinaisesti tarvitse luottamusvalia sellaisenaan, tehtavahan onvain tarkistaa onko nollahypoteesin antama arvo θ = θ0 luottamusva-lilla vai ei ja tama voidaan yleensa tehda konstruoimatta eksplisiittistaluottamusvalia ns. testisuureen avulla. Hypoteeseille, jotka eivat koskeparametreja, tama onkin ainoa tapa testata niita.

Edella luottamusvalit konstruoitiin kayttamalla satunnaismuuttujaa,jonka (approksimatiivinen) jakauma ei riipu tutkittavasta parametris-ta: Z (standardinormaalijakauma), T (t-jakauma), V (χ2-jakauma), X(binomijakauma) ja F (F-jakauma). Luottamusvali saatiin etsimalla so-piva(t) jakauman kvantiili(t) ja muuntamalla sita (niita) koskeva (kak-sois)epayhtalo parametria koskevaksi. Nain ollen, jos luottamusvalia kay-tetaan hypoteesin testaamiseen, se voidaan tehda myos suoraan kayt-taen ”alkuperaista” satunnaismuuttujaa koskevaa epayhtaloa. Testisuureon silloin juuri se lauseke, joka liittaa satunnaismuuttujan otossatun-naismuuttujiin, esitettyna realisoituneille arvoille. Se alue, johon osuvatestisuureen arvo johtaa nollahypoteesin hylkaamiseen, on ns. kriittinenalue. ”critical region”

Esimerkki. Palataan edella olleeseen keski-ikia koskevaan esimerkkiin. [10.3]

Luottamusvali konstruoitiin kayttamalla standardinormaalijakautunuttasatunnaismuuttujaa

Z =X − µσ/√n.

Nollahypoteesin mukainen arvo µ = µ0 on kaytetylla luottamusvalillatarkalleen silloin, kun

µ0 > x− zασ√n,

Page 37: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 3. HYPOTEESIEN TESTAUS 33

eli silloin kun Z:n H0:n mukainen realisoitunut arvo

z =x− µ0

σ/√n

on pienempi kuin kvantiili zα. Nain ollen H0 hylataan, mikali z ≥ zα.Tassa z on testisuure ja kriittinen alue on vali [zα,∞). Esimerkissa rea-lisoitunut Z:n arvo on z = 2.022 ja se on suurempi kuin z0.05 = 1.645.

Esimerkki. Synteettisia siimoja koskevassa esimerkissa edella puoles- [10.4]

taan realisoitunut Z:n arvo on z = −2.83 ja se on pienempi kuin −z0.005 =−2.575. Kriittinen alue muodostuu tassa valeista (−∞,−2.575] ja[2.575,∞).

Kaikki edellisen luvun luottamusvaleihin perustuvat hypoteesin tes-taukset voidaan talla tavoin palauttaa sopivan testisuureen kayttoon,kriittinen alue muodostuu yhdesta tai kahdesta sopivien kvantiilien ra-joittamasta hantavalista. ”tail area”

Tietyissa tapauksissa testisuureiden kaytto on ainakin jossain maarinhelpompaa kuin varsinaisten luottamusvalien. Nain on vaikkapa suhde-lukuja koskevien hypoteesien testaamisessa binomijakauman avulla. Josesimerkiksi haluttaisiin testata hypoteesipari H0 : p = p0 vs. H1 : p > p0riskitasolla α, tama voitaisiin tehda etsimalla p:lle alapuolinen luotta-musvali ratkaisemalla luottamusalaraja pL yhtalosta

n∑i=x

(n

i

)piL(1− pL)n−i = α.

Kuten aikaisemmin todettiin, tama voi olla numeerisesti vaativaa. Testi-suureeksi voidaan kuitenkin tassa valita itse x ja tarkistaa onko hanta-todennakoisyys

P(X ≥ x) =n∑i=x

(n

i

)pi0(1− p0)n−i ≤ α

(jolloin H0 hylataan) vai ei. Testaaminen voi olla jonkin verran hanka- Jos n on suuri, binomiker-roin voi olla hyvin suuri jap0:n potenssit taas puoles-

taan hyvin pienia.

laa, mutta kumminkin helpompaa kuin luottamusalarajan pL laskeminen.Kriittinen alue muodostuu arvoista x1, . . . , n, missa

n∑i=x1

(n

i

)pi0(1− p0)n−i ≤ α ja

n∑i=x1−1

(n

i

)pi0(1− p0)n−i > α.

Esimerkki. Otetaan esimerkkina tapaus, jossa tietyn rokotteen tiedetaantehoavan vain 25 % tapauksista kahden vuoden jalkeen. Toisen, kalliim-man rokotteen arvellaan olevan ko. tilanteessa tehokkaamman. Asian tes-taamiseksi valittiin n = 100 koehenkiloa, rokotettiin heidat kalliimmalla Todellisuudessa laaketie-

teellisissa kokeissa vaadi-taan paljon suuremmat

otoskoot.

rokotteella ja seurattiin heita kahden vuoden ajan. Testattava hypoteesi-pari on H0 : p = p0 = 0.25 vs. H1 : p > 0.25. Riskitason halutaan olevanenintaan α = 0.01. Kokeillen (vaikka nettilaskimilla) tai laskien MAT-LABilla havaitaan, etta nyt x1 = 36. Jos siis kalliimpi rokote tehoaakahden vuoden jalkeen viela vahintaan 36 tapauksessa, H0 voidaan hylataja todeta kalliimpi rokote paremmaksi kuin halvempi. MATLABilla laskutovat seuraavat:

Page 38: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 3. HYPOTEESIEN TESTAUS 34

>> p_0=0.25;

n=100;

alfa=0.01;

>> binoinv(1-alfa,n,p_0)+1

ans =

36

Vastaavalla tavalla voidaan testata hypoteesipari H0 : p = p0 vs.H1 : p < p0. Kriittinen alue muodostuu arvoista 0, . . . , x1, missa

x1∑i=0

(n

i

)pi0(1− p0)n−i ≤ α ja

x1+1∑i=0

(n

i

)pi0(1− p0)n−i > α.

Kaksipuolisessa testissa puolestaan hypoteesipari on H0 : p = p0 vs.H1 : p 6= p0 ja kriittinen alue muodostuu arvoista 0, . . . , x1 seka x2, . . . , n,missa

x1∑i=0

(n

i

)pi0(1− p0)n−i ≤

α

2ja

x1+1∑i=0

(n

i

)pi0(1− p0)n−i >

α

2

ja

n∑i=x2

(n

i

)pi0(1− p0)n−i ≤

α

2ja

n∑i=x2−1

(n

i

)pi0(1− p0)n−i >

α

2.

3.5 P-arvot [10.4]

Monet tilastoanalyysin tekijat ilmoittavat mielellaan testauksen tulok-sen ns. P-arvoa kayttaen. Hypoteesin testin P-arvo on pienin riski, jolla P: ”probability”

H0 voidaan kaytettyyn otokseen perustuen hylata. Kaytannossa toispuo-lisessa testauksessa P-arvo saadaan, kun lasketaan realisoitunutta testi-suuretta vastaava hantatodennakoisyys (olettaen H0 oikeaksi).

Esimerkki. Jos yo. rokote-esimerkissa realisoituu tartunnan saaneidenhenkiloiden lukumaaraksi 62, saadaan P-arvoksi hantatodennakoisyys

P =100∑i=38

(100

i

)0.25i(1− 0.25)100−i = 0.0027.

MATLABilla laskien tama saadaan seuraavasti:

>> p_0=0.25;

n=100;

x=38;

>> 1-binocdf(x-1,n,p_0)

ans =

0.0027

Kaksipuolisessa testauksessa P-arvo saadaan, kun realisoitunutta tes-tisuuretta vastaavista hantatodennakoisyyksista (kaksi kappaletta) vali-taan pienempi ja kerrotaan tulos kahdella. Esimerkiksi suhdelukuja kos- Yleensa on aivan selvaa

kumpi on se pienempi luku.kevassa kaksipuolisessa testissa P-arvo on pienempi luvuista

Page 39: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 3. HYPOTEESIEN TESTAUS 35

x∑i=0

(n

i

)pi0(1− p0)n−i ja

n∑i=x

(n

i

)pi0(1− p0)n−i

kahdella kerrottuna.

Esimerkki. Synteettisia siimoja koskevassa esimerkissa edella realisoitui [10.4]

testisuureen arvo z = −2.83. Tata vastaava (selvasti) pienempi hantato-dennakoisyys on 0.0023 (vasen hanta). P-arvo on siis P = 0.0046.

P-arvo on satunnaismuuttuja (jos ajatellaan otosta satunnaismuut-tujina) ja vaihtelee testia eri otoksilla toistettaessa. Ideaalisesti P-arvoakaytettaessakin etukateen valitaan haluttu pienin riskitaso α ja H0 hy-lataan, mikali (realisoitunut) P-arvo on ≤ α. Monesti ei kuitenkaan etu-kateen kiinniteta mitaan riskitasoa α, vaan lasketaan vain realisoitunutP-arvo ja jatetaan johtopaatokset sen varaan. Koska ainakin silloin tal-loin realisoitunut P-arvo on varsin pieni, voi naissa tapauksissa syntyavallan vaara kasitys testin riskitasosta. Tasta (ja muista) syista eivatkaikki tilastomatemaatikot suosi P-arvojen kayttoa.

3.6 Odotusarvojen testaus [10.5–8]

Edella olikin jo esilla populaatio-odotusarvon µ testaaminen, kun tiede-taan sen varianssi σ2. Keskeisen raja-arvolauseen nojalla testisuure voi-daan muodostaa (approksimatiiviseen) standardinormaalijakaumaan pe-rustuen ja se on

z =x− µ0

σ/√n.

Eri testaustilanteet ovat nyt seuraavat, kun nollahypoteesi on H0 : µ = µ0

ja haluttu riskitaso on α:

H1 Kriittinen alue P-arvo

µ > µ0 z ≥ zα 1− Φ(z)µ < µ0 z ≤ −zα Φ(z)µ 6= µ0 |z| ≥ zα/2 2 min

(Φ(z), 1− Φ(z)

)Tassa Φ on standardinormaalijakauman kertymafunktio.

Siirrytaan tilanteeseen, jossa populaatiojakauma on normaali (ainakinapproksimatiivisesti) ja populaatiovarianssia σ2 ei tunneta. Odotusarvonµ testaaminen sujuu silloin t-jakaumaa kayttaen, vapausasteita on n− 1ja realisoituneista otossuureista saadaan testisuure

t =x− µ0

s/√n.

Kuten edella, eri testaustilanteet ovat seuraavat nollahypoteesille H0 :µ = µ0 ja riskitasolle α:

H1 Kriittinen alue P-arvo

µ > µ0 t ≥ tα 1− F (t)µ < µ0 t ≤ −tα F (t)µ 6= µ0 |t| ≥ tα/2 2 min

(F (t), 1− F (t)

)

Page 40: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 3. HYPOTEESIEN TESTAUS 36

Tassa F on t-jakauman kertymafunktio n− 1 vapausasteella.Naita testeja kaytetaan usein silloinkin, kun populaatiojakauman nor- t-jakauma on nimittain

tassa suhteessa aika ro-busti.maalisuudesta ei ole tarkkaa tietoa, kunhan se vain on yksihuippuinen ja

likimain symmetrinen. Tulos ei tietystikaan silloin ole aina kovin tarkka.

Esimerkki. n = 12 taloudessa on mitattu polynimurin vuotuinen sah- [10.5]

konkulutus. Keskikulutukseksi saatiin x = 42.0 kWh ja otoshajonnak-si s = 11.9 kWh. Jakauman oletetaan olevan kyllin normaali. Voisikotaman perusteella vaittaa, etta odotettu vuosikulutus on pienempi kuinµ0 = 46 kWh? Testattava hypoteesipari on H0 : µ = µ0 = 46 kWh vs.H1 : µ < 46 kWh ja riski saa olla enintaan α = 0.05. Realisoitunuttestisuureen arvo on nyt t = −1.16 ja toisaalta −t0.05 = −1.796 (11 va-pausasteella). Nain ollen H0:a ei hylata, keskimaaraista vuosikulutusta eiotoksen perusteella voida pitaa pienempana kuin 46 kWh. P-arvokin onP = 0.135.

Vertailtaessa kahden eri populaation odotusarvoja µ1 ja µ2, kun nii-den varianssit σ2

1 ja σ22 tunnetaan, paadytaan jalleen Keskeisen raja-

arvolauseen nojalla (approksimatiiviseen) standardinormaalijakaumaanja testisuureeseen

z =x1 − x2 − d0√σ21/n1 + σ2

2/n2

,

missa x1 ja x2 ovat realisoituneet otoskeskiarvot, n1 ja n2 ovat otoskootja d0 on nollahypoteesin mukainen populaatio-odotusarvojen erotus.

Nollahypoteesille H0 : µ1 − µ2 = d0 ja riskitasolle α testit ovat seu-raavat:

H1 Kriittinen alue P-arvo

µ1 − µ2 > d0 z ≥ zα 1− Φ(z)µ1 − µ2 < d0 z ≤ −zα Φ(z)µ1 − µ2 6= d0 |z| ≥ zα/2 2 min

(Φ(z), 1− Φ(z)

)Mikali populaatio-odotusarvoja µ1 ja µ2 vertailtaessa ei tiedeta po-

pulaatiovariansseja, mutta tiedetaan niiden olevan samat, voidaan ede-ta olettaen populaatioiden olevan normaalijakautuneita (ainakin melkotarkasti) ja testisuureeksi saadaan kayttaen t-jakaumaa (vapausasteinn1 + n2 − 2)

t =x1 − x2 − d0

sp√

1/n1 + 1/n2

,

missa

s2p =(n1 − 1)s21 + (n2 − 1)s22

n1 + n2 − 2

(yhteisotosvarianssi) ja s21, s22 ovat realisoituneet otosvarianssit. Silloin

nollahypoteesille H0 : µ1 − µ2 = d0 ja riskitasolle α testit ovat seuraavat:

H1 Kriittinen alue P-arvo

µ1 − µ2 > d0 t ≥ tα 1− F (t)µ1 − µ2 < d0 t ≤ −tα F (t)µ1 − µ2 6= d0 |t| ≥ tα/2 2 min

(F (t), 1− F (t)

)

Page 41: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 3. HYPOTEESIEN TESTAUS 37

Tassa jalleen F on t-jakauman kertymafunktio, nyt vapausastein n1 +n2 − 2.

Esimerkki. Kahden eri pintamateriaalin kulumista testattiin. Materiaa- [10.6]

lin 1 keskikulumaksi n1 = 12 testissa saatiin x1 = 85 (sopivissa yksikois-sa) otoshajonnan ollessa s1 = 4. Materiaalin 2 keskikulumaksi n2 = 10testissa saatiin x2 = 81 ja otoshajonnaksi s2 = 5. Jakaumat oletetaan kyl-lin normaaleiksi samoin varianssein. Voitaisiinko riskitasolla α = 0.05paatella, etta materiaalin 1 kuluma on enemman kuin d0 = 2 yksikkoasuurempi kuin materiaalin 2?

Testattava hypoteesipari on siis H0 : µ1 − µ2 = d0 = 2 vs. H1 : µ1 −µ2 > 2. Realisoituneista otossuureista laskien saadaan yhteishajonnaksisp = 4.48 ja otossuureeksi t = 1.04. P-arvoksi saadaan naista laskienP = 0.155 (t-jakauma vapausastein 20). Tama on selvasti suurempi kuinsuurin sallittu riski α = 0.05, joten naiden otosten perusteella H0:a ei voihylata, eika materiaalin 1 keskimaaraisen kuluman voida vaittaa olevanenemman kuin 2 yksikkoa suuremman kuin materiaalin 2.

Mikali populaatiovarianssien ei voida olettaa olevan samoja, meneetestaus samaan tapaan, mutta kayttaen Welch–Satterthwaite-approksi-maatiota. Testisuure on silloin

t =x1 − x2 − d0√s21/n1 + s22/n2

,

ja kaytetaan (approksimatiivista) t-jakaumaa vapausastein

v =(a1 + a2)

2

a21/(n1 − 1) + a22/(n2 − 1),

missa a1 = s21/n1 ja a2 = s22/n2. Kuten vastaavalle luottamusvalillekin, Behrens–Fisher-probleemajalleen!taman testin kayttokelpoisuudesta ja -arvosta ollaan monta mielta.

Parittain rinnastettavien havaintojen tapauksessa testisuure on Ks. Pykala 2.6.

t =d− d0s/√n.

Testaus on taysin sama kuin edella yhden otoksen tapauksessa t-jakaumaakayttaen (vapausastein n− 1).

3.7 Varianssien testaus [10.13]

Normaalijakautuneelle populaatiolle voidaan testata sen varianssia σ2.Nollahypoteesi on silloin H0 : σ2 = σ2

0, testisuure on

v =(n− 1)s2

σ20

ja χ2-jakaumaa (n − 1 vapausasteella) kayttaen riskitasolle α saadaantestit

Page 42: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 3. HYPOTEESIEN TESTAUS 38

H1 Kriittinen alue P-arvo

σ2 > σ20 v ≥ h2,α 1− F (v)

σ2 < σ20 v ≤ h1,α F (v)

σ2 6= σ20 v ≤ h1,α/2 tai v ≥ h2,α/2 2 min

(F (v), 1− F (v)

)missa F on χ2-jakauman kertymafunktio n−1 vapausasteella. Tama tes- Toisin kuin t-jakauma,

χ2-jakauma ei ole robustipoikkeamille normaalisuu-

desta.

ti on varsin herkka poikkeamille populaatiojakauman normaalisuudesta.Jos populaatiojakauma ei ole kovin tarkasti normaali, usein H0 tulee tur-haan hylatyksi.

Esimerkki. Akkujen valmistaja ilmoittaa tietyn akkutyypin kestoian ha- [10.13]

jonnan olevan σ0 = 0.9 v. Kestoian jakaumaksi oletetaan normaalijakau-ma. n = 10 akkua seurattiin ja todettiin otoshajonnan olevan s = 1.2 v.Voitaisiinko tasta paatella, etta hajonta on suurempi kuin tuo ilmoitet-tu 0.9 v? Riskitasoksi otetaan α = 0.05. Testattava hypoteesipari on siisH0 : σ2 = σ2

0 = 0.92 = 0.81 vs. H1 : σ2 > 0.81. Testisuureelle realisoituuarvo v = 16.0. Tata vastaava P-arvo saadaan χ2-jakauman oikeanpuo-leisen hannan todennakoisyytena (9 vapausasteella) ja se on P = 0.067. P-arvo on kuitenkin lahella

α:a, joten tiettyja epailyk-sia asiasta jaa.H0:a ei siis hylata.

Kahden normaalijakautuneen populaation varianssien σ21 ja σ2

2 suh-detta σ2

1/σ22 voidaan samaan tapaan testata kayttaen F-jakaumaa. Nol-

lahypoteesi on muotoa H0 : σ21 = kσ2

2, missa k on annettu (suhde)luku. Usein k = 1, jolloin testa-taan populaatiovarianssien

samuutta.Testisuure on

f =1

k

s21s22.

Kayttaen F-jakaumaa vapausastein n1 − 1 ja n2 − 1 saadaan riskitasollaα testit

H1 Kriittinen alue P-arvo

σ21 > kσ2

2 f ≥ f2,α 1−G(f)σ21 < kσ2

2 f ≤ f1,α G(f)σ21 6= kσ2

2 f ≤ f1,α/2 tai f ≥ f2,α/2 2 min(G(f), 1−G(f)

)missa G on F-jakauman kertymafunktio vapausastein n1 − 1 ja n2 − 1.χ2-jakauman tavoin F-jakauma ei ole lainkaan robusti poikkeamille nor-maalisuudesta, joten populaatiojakaumien normaalisuudesta on oltavaselvyys. On myoskin olemassa robustimpeja varianssien vertailutesteja,tilasto-ohjelmistot kayttavatkin enimmakseen naita.

Esimerkki. Palataan edella olleen esimerkin pintamateriaalien kulumi- [10.6, 10.14]

seen. Otoshajonnoiksi saatiin tuolloin s1 = 4 ja s2 = 5. Otoskoot olivatn1 = n2 = 10. Voitaisiinko varianssit olettaa samoiksi, kuten tehtiin?Testattava hypoteesipari on nain ollen H0 : σ2

1 = σ22 vs. H1 : σ2

1 6= σ22 (ja

siis k = 1). Riskitasoksi otetaan vaatimattomat α = 0.10. Nyt f1,0.05 =0.3146 ja f2,0.05 = 3.1789 (vapausastein 9 ja 9) ja kriittinen alue muodos-tuu arvoista, jotka eivat ole naiden valissa. Realisoitunut testisuure saaarvon f = 0.64 ja se ei ole kriittisella alueella. Nayttoa varianssien eri-laisuudesta ei tullut ja H0 jaa voimaan. (P-arvoksi saadaan P = 0.517.)

Page 43: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 3. HYPOTEESIEN TESTAUS 39

3.8 Odotusarvojen vertailu graafisesti [10.10]

Silmays populaatioista saadun otosdatan graafiseen esitykseen kertoousein tilanteen melko tarkasti, ainakin odotusarvojen osalta. Graafises-sa esityksessa tavallinen elementti on ns. keskiarvoruutu ♦. Sen keskella ”means diamond”

on otoskeskiarvo ja ruudun karjet antavat 95 % luottamusvalin (olettaenpopulaatiojakauma ainakin likimain normaaliksi).

Eraanlaisena nyrkkisaantona mainitaan usein, etta jos jommankum-man otoksen kvartiilivalilaatikko ei sisalla toisen otoksen mediaania, niin Ks. Pykala 1.3.

populaatio-odotusarvot eivat ole samat.

Esimerkki. Tarkastellaan 50 USA:n osavaltion rikostilastoja tietylta ajal- Kyseessa ei varsinaisestiole otos muutoin kuin

ajallisesti.ta ryostojen (”robbery”) ja pahoinpitelyjen (”assault”) osalta, yksikkonatapaukset 100000 asukasta kohti. JMP-ohjelmisto antaa seuraavan graa-fisen tulostuksen:

Esiintyvat kaksi vierastahavaintoa ovat New York

ja Nevada (Las Vegas).

Hakamaiset (punaiset) va-lit ovat otoksen ns. lyhim-mat puolikkaat eli tiheim-

mat puolikkaat.

Crime.jmp: Distribution Page 1 of 1

0

100

200

300

400

500

100.0%

99.5%

97.5%

90.0%

75.0%

50.0%

25.0%

10.0%

2.5%

0.5%

0.0%

maximum

quartile

median

quartile

minimum

472.60

472.60

431.49

256.84

160.03

106.05

63.85

38.75

14.57

13.30

13.30

Quantiles

Mean

Std Dev

Std Err Mean

upper 95% Mean

lower 95% Mean

N

124.092

88.348567

12.494374

149.20038

98.983615

50

Moments

robbery

0

100

200

300

400

500

100.0%

99.5%

97.5%

90.0%

75.0%

50.0%

25.0%

10.0%

2.5%

0.5%

0.0%

maximum

quartile

median

quartile

minimum

485.30

485.30

475.35

353.84

284.73

197.60

143.43

86.20

49.27

43.80

43.80

Quantiles

Mean

Std Dev

Std Err Mean

upper 95% Mean

lower 95% Mean

N

211.3

100.25305

14.177922

239.7916

182.8084

50

Moments

assault

Distributions

Ym. kriteerilla mitattuna naiden kahden rikostyypin esiintyminen ei oleodotusarvojen osalta samankaltaista. Lisaksi ryostojen jakauma ei naytaaivan normaalilta.

Page 44: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

Luku 4

χ2-TESTIT

Puhuttaessa ”χ2-testeista” ei yleensa tarkoiteta edella ollutta varianssintestia, vaan joukkoa ns. Pearsonin approksimaatioon ja kontingenssitau-luihin perustuvia testeja.

Karl (Carl) Pearson (1857–1936), tilastomatematiikan

”isa”

4.1 Jakauman sopivuustesti [10.14]

Populaatiojakauma oletetaan usein tunnetuksi, esimerkiksi normaalija-kaumaksi, jonka parametrit tunnetaan. Mutta onko se sita mita olete-taan? Tamakin on eras hypoteesi ja sita voidaan testata tilastollisesti.

Aloitetaan aarellisesta diskreetista jakaumasta. Mahdollisia populaa-tiotapauksia on aarellinen maara, sanotaan tapaukset T1, . . . , Tk. Naidenesiintymisen (piste)todennakoisyydet

P(T1) = p1 , . . . , P(Tk) = pk

siis oletetaan tunnetuiksi ja tama on testin nollahypoteesi H0. Vastahy-poteesi H1 on se, etta ainakin yhdelle i:lle P(Ti) 6= pi. Itse asiassa ainakin kahdel-

le, silla p1 + · · ·+ pk = 1.Testia varten otetaan n alkion otos, josta katsotaan realisoituneet ta-pauksien T1, . . . , Tk (absoluuttiset) esiintymisfrekvenssit f1, . . . , fk. Na-ma voidaan myos tulkita satunnaismuuttujiksi F1, . . . , Fk ja E(Fi) = npi. Vrt. binomijakauman odo-

tusarvo, niputetaan vainyhteen muut tapaukset

kuin Ti.

Testi perustuu siihen, etta satunnaismuuttujalla

H =k∑i=1

(Fi − npi)2

npi

on likimain χ2-jakauma k− 1:lla vapausasteella. Kyseessa on ns. Pearso- Vaikeasti todistettavatulos!nin approksimaatio. Lisaoletuksena mainitaan kuitenkin usein, etta mi-

kaan luvuista np1, . . . , npk ei saisi olla alle 5. Jotkut tosin sanovat, etta1.5:kin riittaa.Testisuure on nain ollen

h =k∑i=1

(fi − npi)2

npi

ja silla testattaessa kaytetaan vain χ2-jakauman loppuhantaa. Realisoitu-neiden frekvenssien f1, . . . , fk poikkeaminen oletetuista ilmenee nimittainh:n kasvamisena. Testisuureen laskemiseen loytyy nettilaskimiakin.

40

Page 45: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 4. χ2-TESTIT 41

Esimerkki. Otetaan tapaus, jossa tutkitaan noppaa heittamalla sita n =120 kertaa. Kunkin silmaluvun oletettu todennakoisyys on tietysti 1/6,mutta onko nain? Nollahypoteesi on H0 : p1 = · · · = p6 = 1/6 ja np1 =· · · = np6 = 20. Havaitut silmalukujen frekvenssit ovat seuraavat:

Silmaluku i 1 2 3 4 5 6Frekvenssi fi 20 22 17 18 19 24

Naista saadaan laskien h = 1.70. Toisaalta esimerkiksi h0.05 = 11.070(vapausastein 5) on paljon suurempi eika mitaan syyta hylata H0 siisloydy.

Jatkuvan populaatiojakauman testaus sujuu samaan tapaan. Silloin Toinen jatkuville jakaumillepaljon kaytetty testi on ns.Kolmogorov–Smirnov-testi,jota tassa ei kasitella. (Ks.

moniste RUOHONEN, K.:Luotettavuus, kaytetta-

vyys, huollettavuus.)

arvoalue jaetaan aarelliseen maaraan osa-alueita (tapaukset T1, . . . , Tk).Naiden oletetun populaatiojakauman mukaiset todennakoisyydet p1, . . . ,pk tunnetaan (H0:n voimassaollessa) ja testaus menee Pearsonin approk-simaatiota kayttaen kuten edella.

Esimerkki. Otetaan tapaus, jossa populaatiojakaumaksi arvellaan nor-maalijakauma, odotusarvona µ = 3.5 ja hajontana σ = 0.7. Testaustavarten arvoalue jaettiin neljaan osavaliin, joiden todennakoisyydet saa-daan N(3.5, 0.72)-jakaumasta. Otoskoko on n = 40. Saatiin seuraavattulokset:

i 1 2 3 4Vali Ti (−∞, 2.95] (2.95, 3.45] (3.45, 3.95] (3.95,∞)pi 0.2160 0.2555 0.2683 0.2602npi 8.6 10.2 10.7 10.4fi 7 15 10 8

Naista laskien saadaan testisuureelle arvo h = 3.156. Koska h0.05 = 7.815(vapausastein 3), nollahypoteesia ei siis hylata riskitasolla α = 0.05.

Edella oletettu populaatiojakauma pitaa tuntea, jotta saadaan sii-hen liittyvia todennakoisyyksia lasketuksi. On myos testeja, jotka testaa-vat onko jakauma normaali ilman, etta tarvitsee tuntea sen odotusarvoatai varianssia. Tallainen on mm. Lillieforsin testi (seka kirjassa WMMY Tunnetaan myos Kolmogo-

rov–Smirnov–Lilliefors-tes-tina tai KSL-testina.mainittu Gearyn testi). Myos voidaan suorittaa eo. esimerkin kaltainen

χ2-testi kayttaen otoksesta estimoitua odotusarvoa x ja hajontaa s. Va- Hubert Lillieforspausasteiden maara on talloin kuitenkin k − 3, ja tarkkuuskin karsii.

4.2 Riippumattomuustesti. Kontingenssi-taulut [10.15]

Pearsonin approksimaatio sopii moniin muihinkin tilanteisiin. Eras sellai-nen on kahden eri populaation tilastollisen riippumattomuuden testaus.Jotta tulos olisi mielenkiintoinen, populaatioiden pitaa tietenkin olla kui-tenkin jotenkin tekemisissa keskenaan. Otanta kohdistuukin molempiinpopulaatioihin yhtaikaa.

Page 46: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 4. χ2-TESTIT 42

Katsotaan tassakin ensin populaatioita, joiden jakaumat ovat aarel-lisia diskreetteja jakaumia. Populaation 1 tapaukset ovat T1, . . . , Tk janiiden (piste)todennakoisyydet

Nama esitetaan usein vek-torimuodossa:

p =

p1...pk

ja q =

q1...ql

.

P(T1) = p1, . . . ,P(Tk) = pk.

Populaation 2 tapaukset ovat S1, . . . , Sl ja niiden (piste)todennakoisyydet

P(S1) = q1, . . . ,P(Sl) = ql.

Lisaksi tarvitaan yhteis(piste)todennakoisyydet

Tama taas esitetaan useinmatriisimuodossa:

P =

p1,1 · · · p1,l......

pk,1 · · · pk,l

.

P(Ti ∩ Sj) = pi,j (i = 1, . . . , k ja j = 1, . . . , l).

Mitaan naista todennakoisyyksista ei kuitenkaan oleteta tunnetuiksi,testaus tehdaan puhtaasti otoksista saatujen lukumaarien kautta. Ote-taan kayttoon seuraavanlaiset merkinnat. Tapauksien T1, . . . , Tk esiinty-misfrekvenssit satunnaismuuttujina ovat F1, . . . , Fk ja otoksessa realisoi-tuneina lukuina f1, . . . , fk. Tapauksien S1, . . . , Sl frekvenssit satunnais-muuttujina ovat G1, . . . , Gl ja otoksesta realisoituneina lukuina g1, . . . , gl.Yhteistapauksen Ti∩Sj esiintymisfrekvenssi on satunnaismuuttujana Fi,jja otoksessa realisoituneena lukuna fi,j.

Nama esitetaan ns. kontingenssitauluna seuraavassa muodossa, missa ”contingency table”

n on otoskoko:

S1 S2 · · · Sl ΣT1 f1,1 f1,2 · · · f1,l f1T2 f2,1 f2,2 · · · f2,l f2...

......

. . ....

...Tk fk,1 fk,2 · · · fk,l fkΣ g1 g2 · · · gl n

Vastaavanlainen taulu voitaisiin tehda myos satunnaismuuttujiksi ajatel-luille frekvensseille.

Populaatiojakaumat ovat riippumattomat tarkalleen silloin, kun Tama on riippumattomuu-den maaritelma, matriisi-

muodossa P = pqT.P(Ti ∩ Sj) = P(Ti)P(Sj) eli pi,j = piqj (i = 1, . . . , k ja j = 1, . . . , l).

Tama riippumattomuus on nyt nollahypoteesi H0. Vaihtoehtoinen hypo-teesi sanoo, etta ainakin yhdelle indeksiparille i, j on pi,j 6= piqj. Nainollen H0:n voimassaollessa pitaisi frekvenssien toteuttaa odotusarvoisestivastaavat yhtalot (vrt. binomijakauma):

E(Fi,j) = npi,j = npiqj =1

nE(Fi)E(Gj).

Muodostetaankin nyt testisuure kuten edella sopivuustestauksessa pitaenfrekvenssia fi,j toteutuneena ja oikean puolen antamaa arvoa figj/n ole-tettuna eli H0:n mukaisena:

Tallekin saataisiin matriisi-muotoinen lauseke.

h =k∑i=1

l∑j=1

(fi,j − figj/n)2

figj/n.

Page 47: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 4. χ2-TESTIT 43

Myos taman testisuureen laskemiseen lahtien annetusta kontingenssitau-lusta on nettilaskimia.

Pearsonin approksimaation mukaan vastaavalla satunnaismuuttujalla

H =k∑i=1

l∑j=1

(Fi,j − FiGj/n)2

FiGj/n.

on likimain χ2-jakauma, mutta nyt (k − 1)(l − 1) vapausasteella. Mitahuonommin yhtalot fi,j ∼= figj/n pitavat paikkansa sita isomman arvon hsaa. Kriittinen alue on siis jalleen ko. χ2-jakauman oikeanpuolinen hanta.

Esimerkki. Katsotaan esimerkkina tilannetta, jossa n = 309 alkion otosmuodostuu viallisista tuotteista. Tuotetta valmistuu kolmelta eri linjaltaL1, L2 ja L3 ja vikoja on neljaa eri lajia V1, V2, V3 ja V4. Nollahypoteesion tassa se, etta linja ja vikalaji ovat riippumattomat, ts. etta vikojenjakautuminen eri lajeihin ja eri linjoille ovat toisistaan riippumattomat.Saatu kontingenssitaulu on

V1 V2 V3 V4 ΣL1 15(22.51) 21(20.99) 45(38.94) 13(11.56) 94L2 26(22.90) 31(21.44) 34(39.77) 5(11.81) 96L3 33(28.50) 17(26.57) 49(49.29) 20(14.63) 119Σ 74 69 128 38 309

Suluissa olevat luvut ovat luvut figj/n. Testisuureen laskettu realisoitunutarvo on h = 19.18. Tama vastaa χ2-jakaumasta (6 vapausasteella) saatuaP-arvoa P = 0.0039. Riskitasolla α = 0.01 voidaan siis H0 hylata japaatella, etta linjalla on vaikutusta vian lajiin.

Myos tassa mainitaan usein, etta kaikkien lukujen figj/n pitaisi ollaarvoltaan vahintaan 5. Edellisessa esimerkissa nain selvastikin on.

Myos jatkuvien populaatiojakaumien riippumattomuutta voidaan tes-tata talla tavoin. Silloin jaetaan arvoalueet aarelliseen maaraan valeja,kuten sopivuustestissakin tehtiin, jolloin testaaminen palautuu edelliseen.

4.3 Homogeenisuustesti [10.16]

Riippumattomuustestissa otos muodostuu satunnaisesti kummankin po-pulaation suhteen. Vastaava testi saadaan myos silloin, kun otokseen tu-levien alkioiden lukumaarat kiinnitetaan etukateen toisen populaationosalta.

Jos kiinnitetaan edella lukumaarat populaation 2 suhteen, niin sovi-taan etukateen frekvenssit g1, . . . , gl, jolloin otoskoko on n = g1 + · · ·+gl.Nollahypoteesi on kuitenkin aivan samanlainen kuin edella. Sen tulkin-ta vain muuttuu: Tassa H0 sanoo, etta populaation 1 alkioiden jakau-ma on samanlainen eri alkiotyypeille S1, . . . , Sl, ts. etta populaatioja-kauma on homogeeninen alkiotyyppien S1, . . . , Sl osalta. Huomaa, ettatassa S1, . . . , Sl eivat ole tapauksia eika niilla ole todennakoisyyksia. Neovat yksinkertaisesti tyyppeja, joihin populaation 1 alkiot voidaan ja-kaa, ja etukateen siis paatetaan kuinka paljon mitakin tyyppia otetaanotokseen.

Page 48: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 4. χ2-TESTIT 44

Nyt fi,j ja Fi,j merkitsevat tyyppia Sj olevien populaatioalkioidenfrekvenssia otoksessa. Jos H0 pitaa paikkansa, niin todennakoisyys, ettaTi tapahtuu tyyppia Sj oleville alkioille on sama kuin koko populaatiolleeli pi. Odotusarvoisesti siis Vrt. jalleen binomi-

jakauma.

E(Fi,j) = gjpi =1

nE(Fi)gj (i = 1, . . . , k ja j = 1, . . . , l).

Testisuureet H ja h seka niihin liittyva approksimatiivinen χ2-jakaumavapausasteineen ovat nain ollen aivan samat kuin edella riippumatto-muustestissa.

Esimerkki. Esimerkkina katsotaan tilannetta, jossa USA:ssa tutkittiineraan lakiehdotuksen suosiota. Asiaa kysyttiin n = 500 ihmiselta, joistag1 = 200 valittiin demokraateista, g2 = 150 republikaaneista ja loputg3 = 150 olivat riippumattomia. Otokseen osuneilta kysyttiin ovatko helakiehdotuksen puolesta, sita vastaan vai eiko heilla ole asiaan kantaa.Haluttiin selvittaa ovatko eri tavoin lakiehdotukseen suhtautuvat samoinjakautuneet puoluekannan suhteen (tama on H0).

Saatiin kontingenssitaulu

Demokraatti Republikaani Riippumaton ΣPuolesta 82(85.6) 70(64.2) 62(64.2) 214Vastaan 93(88.8) 62(66.6) 67(66.6) 222Ei kantaa 25(25.6) 18(19.2) 21(19.2) 64

Σ 200 150 150 500

Tasta saadaan laskien testisuure h = 1.53. Kayttaen χ2-jakaumaa(4 vapausasteella) saadaan edelleen P-arvo P = 0.8213. Nollahypotee-sia H0 ei missaan nimessa voi taman datan perusteella hylata.

Jos homogeenisuustestissa k = 2, saadaan erikoistapaus, missa on ky-seessa l binomijakauman Bin(n1, p1), . . . , Bin(nl, pl) parametrien p1, . . . ,pl samuustestaus. Silloin g1 = n1, . . . , gl = nl ja nollahypoteesi on

Yhteista parametriarvoa pei tassa kuitenkaan oleteta

tunnetuksi.

H0 : p1 = · · · = pl (= p).

Vaihtoehtoinen hypoteesi H1 sanoo, etta ainakin kaksi parametreista onerisuuria.

Asian tutkimiseksi tehdaan testit ja havaitaan realisoituneet suotui-sien tapausten esiintymien lukumaarat x1, . . . , xl. Kontingenssitaulu ontassa tapauksessa muotoa

Bin(n1, p1) Bin(n2, p2) · · · Bin(nl, pl) ΣSuotuisia x1 x2 · · · xl x

Ei-suotuisia n1 − x1 n2 − x2 · · · nl − xl n− xΣ n1 n2 · · · nl n

missa x = x1 + · · ·+ xl ja n = n1 + · · ·+ nl. Testaus sujuu aivan samal-la tavalla kuin edella kayttaen approksimatiivista χ2-jakaumaa (nyt siis

Page 49: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 4. χ2-TESTIT 45

(2 − 1)(l − 1) = l − 1 vapausasteella). Testisuure on kirjoitettavissa erimuodoissa:

h =l∑

i=1

(xi − xni/n)2

xni/n+

l∑i=1

(ni − xi − (n− x)ni/n

)2(n− x)ni/n

=l∑

i=1

(xi − xni/n)2( 1

xni/n+

1

(n− x)ni/n

)=

l∑i=1

(xi − xni/n)2

x(n− x)ni/n2=

l∑i=1

(xi − nix/n)2

ni(x/n)(1− x/n).

Vm. muoto on kasin laskien ehkapa mukavin, ja siita muuten nakee syynmiksi tassa paadytaan nimenomaan χ2-jakaumaan: Jos nollahypoteesi H0 Vrt. normaalijakautuneen

populaation otosvarianssinjakauma.on tosi, realisoitunut x/n on likimain p ja satunnaismuuttuja

Xi − nip√nip(1− p)

on binomijakauman normaaliapproksimaation kautta likimain standardi-normaali.

Esimerkki. Otetaan esimerkkina vaaleja edeltava tilanne, jossa kolmeeri tutkimusta antoi eraalle puolueelle kannattajien luvut x1 = 442, x2 =313 ja x3 = 341 otoskokojen ollessa vastaavasti n1 = 2002, n2 = 1532 jan3 = 1616. Voisivatko nama antaa puolueelle saman kannatusprosentin(H0)? Laskien saadaan realisoituneeksi testisuureeksi h = 1.451 ja vas-taavaksi P-arvoksi P = 0.4841 (χ2-jakauma 2 vapausasteella). Tamanperusteella ei siis ole syyta epailla eri tutkimusten antavan eri kannatus-lukemia ko. puolueelle.

Page 50: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

Luku 5

SUURIMMANUSKOTTAVUUDENESTIMOINTI

5.1 Suurimman uskottavuuden estimointi [9.14]

Monet edella olleet estimaattorit ovat saatavissa eraalla yleisella menetel-malla. Jos estimoitavana ovat populaatiojakauman parametrit θ1, . . . , θmja jakauman tiheysfunktio on f(x; θ1, . . . , θm), niin pyritaan saamaan pa- Parametrit on lisatty ti-

heysfunktioon vain jottariippuvuus niista olisi esilla.rametrien estimaattoreille Θ1, . . . , Θm lausekkeet satunnaismuuttujiksi

tulkittujen otosalkioidenX1, . . . , Xn avulla esitettyina, tai ainakin menet-tely, jolla estimaatit θ1, . . . , θm saadaan lasketuksi realisoituneista otos-alkioista x1, . . . , xn.

Koska otosalkiot X1, . . . , Xn otetaan satunnaisotannassa riippumat-tomasti, niilla on kaikilla sama tiheysfunktio ja niiden yhteisjakaumantiheysfunktio on tulo

g(x1, . . . , xn; θ1, . . . , θm) = f(x1; θ1, . . . , θm) · · · f(xn; θ1, . . . , θm).

Suurimman uskottavuuden estimoinnissa eli ML-estimoinnissa estimaat- ”maximum likelihoodestimation”, MLEtorit Θ1, . . . , Θm maaraytyvat siten, etta

g(X1, . . . , Xn; θ1, . . . , θm) = f(X1; θ1, . . . , θm) · · · f(Xn; θ1, . . . , θm)

saa suurimman arvonsa, kun

θ1 = Θ1 , . . . , θm = Θm.

Vastaavasti estimaatit θ1, . . . , θm saadaan, kun maksimoidaan

g(x1, . . . , xn; θ1, . . . , θm) = f(x1; θ1, . . . , θm) · · · f(xn; θ1, . . . , θm).

Ideana on siis estimoida parametrit siten, etta havaittujen arvojen ti-heys/todennakoisyys on suurin.

Suurimman uskottavuuden estimoinnin yhteydessa merkitaan usein

L(θ1, . . . , θm;X1, . . . , Xn) = f(X1; θ1, . . . , θm) · · · f(Xn; θ1, . . . , θm)

46

Page 51: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 5. SUURIMMAN USKOTTAVUUDEN ESTIMOINTI 47

ja vastaavasti

L(θ1, . . . , θm;x1, . . . , xn) = f(x1; θ1, . . . , θm) · · · f(xn; θ1, . . . , θm)

ja puhutaan uskottavuusfunktiosta tai uskottavuudesta. Tulomuodosta joh- ”likelihood (function)”

tuen usein on helpompi maksimoida uskottavuuden logaritmi

l(θ1, . . . , θm;X1, . . . , Xn) = lnL(θ1, . . . , θm;X1, . . . , Xn)

= ln(f(X1; θ1, . . . , θm) · · · f(Xn; θ1, . . . , θm)

)= ln f(X1; θ1, . . . , θm) + · · ·+ ln f(Xn; θ1, . . . , θm),

ns. loguskottavuus(funktio), ja vastaavasti ”loglikelihood (function)”

l(θ1, . . . , θm;x1, . . . , xn) = ln f(x1; θ1, . . . , θm) + · · ·+ ln f(xn; θ1, . . . , θm).

Nailla merkinnoilla estimoinnin tulos on siis lyhyesti merkittavissamuodossa

(θ1, . . . , θm) = argmaxθ1,...,θm

L(θ1, . . . , θm;x1, . . . , xn)

tai(θ1, . . . , θm) = argmax

θ1,...,θm

l(θ1, . . . , θm;x1, . . . , xn).

5.2 Esimerkkeja [9.14]

Esimerkki. Estimoitavana on Poissonin jakauman parametri λ. Jakau- [9.19]

man tiheysfunktio on

f(x;λ) =λx

x!e−λ.

Uskottavuus (satunnaismuuttujaotokselle) on siis

L(λ;X1, . . . , Xn) =λX1

X1!e−λ · · · λ

Xn

Xn!e−λ =

λX1+···+Xn

X1! · · ·Xn!e−nλ

ja vastaava loguskottavuus on

l(λ;X1, . . . , Xn) = − ln(X1! · · ·Xn!) + (X1 + · · ·+Xn) lnλ− nλ.

Maksimin etsimiseksi asetetaan derivaatta λ:n suhteen nollaksi Tapaus X1 = · · · = Xn= 0 on kasiteltava erik-

seen. Silloin Λ = 0.∂l

∂λ=

1

λ(X1 + · · ·+Xn)− n = 0

ja ratkaistaan suurimman uskottavuuden estimaattori:

Λ =1

n(X1 + · · ·+Xn) = X.

Toista derivaattaa kayttaen voi viela tarkistaa, etta kyseessa on maksimi.Vastaavasti luonnollisesti saadaan suurimman uskottavuuden estimaatik-si otoskeskiarvo Tama on tietysti luonte-

vaa, silla jakauman odotus-arvohan on λ.λ = x.

Page 52: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 5. SUURIMMAN USKOTTAVUUDEN ESTIMOINTI 48

Esimerkki. Populaatiojakauma on normaalijakauma N(µ, σ2), jonka pa- [9.20]

rametreiksi otetaan θ1 = µ ja θ2 = σ2. Tiheysfunktio on siis

f(x;µ, σ2) =1√2π σ

e−1

2σ2(x−µ)2 .

Uskottavuus (talla kertaa realisoituneelle otokselle) on

L(µ, σ2;x1, . . . , xn) =1√2π σ

e−1

2σ2(x1−µ)2 · · · 1√

2π σe−

12σ2

(xn−µ)2

=1

(2π)n/2(σ2)n/2e−

12σ2

((x1−µ)2+···+(xn−µ)2)

ja vastaava loguskottavuus on

l(µ, σ2;x1, . . . , xn) = −n2

ln 2π− n2

lnσ2− 1

2σ2

((x1−µ)2+· · ·+(xn−µ)2

).

Maksimoimiseksi asetetaan osittaisderivaatat µ:n ja σ2:n suhteen nollik- Muuttuja tassa on siis σ2,ei σ.si:

∂l

∂µ=

1

σ2

((x1 − µ) + · · ·+ (xn − µ)

)=

1

σ2(x1 + · · ·+ xn − nµ) = 0

∂l

∂σ2= − n

2σ2+

1

2(σ2)2((x1 − µ)2 + · · ·+ (xn − µ)2

)= 0.

Ylemmasta yhtalosta saadaan ratkaisemalla µ:n suurimman uskottavuu-den tuttu estimaatti

µ =1

n(x1 + · · ·+ xn) = x.

Sijoittamalla tama alempaan yhtaloon saadaan ratkaisemalla σ2:n suu-rimman uskottavuuden estimaatiksi

σ2 =1

n

n∑i=1

(xi − x)2.

Tutkimalla toisen kertaluvun osittaisderivaatat voidaan lisaksi varmistaa,etta kyseessa on maksimipiste.

Yllattaen tulos σ2:n osalta ei siis nyt olekaan aikaisemmin kaytettyotosvarianssi s2. Koska

S2 =1

n− 1

n∑i=1

(Xi −X)2

on harhaton σ2:n estimaattori, σ2:n suurimman uskottavuuden estimaat-tori normaalijakaumalle N(µ, σ2)

1

n

n∑i=1

(Xi −X)2

on nain ollen hieman harhainen. Tama osoittaa, etta har-hattomuus ei suinkaan olejoka tavalla edullinen esti-

maattorin ominaisuus.

Page 53: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 5. SUURIMMAN USKOTTAVUUDEN ESTIMOINTI 49

Esimerkki. Otetaan viela esimerkiksi tapaus, jossa populaatiojakaumaon tasajakauma valille [a, b], jonka paatepisteita ei tiedeta. Jos realisoi-tuneet otosarvot ovat x1, . . . , xn, niin luontevilta estimaateilta tuntuisi-vat min(x1, . . . , xn) paatepisteelle a seka max(x1, . . . , xn) paatepisteelleb. Mutta ovatko nama suurimman uskottavuuden estimaatit?

Jakauman tiheysfunktio on nyt

f(x; a, b) =

1

b− a, kun a ≤ x ≤ b

0 muuten.

Ilmeisestikin uskottavuuden

L(a, b;x1, . . . , xn) = f(x1; a, b) · · · f(xn; a, b)

maksimoimiseksi pitaa valita sellaiset paatepiste-estimaatit a ja b, ettakaikki otosalkiot ovat valilla [a, b], muutenhan uskottavuus olisi = 0 eikase ole suurin mahdollinen. Talla ehdolla uskottavuusfunktio on

L(a, b;x1, . . . , xn) =1

(b− a)n

ja se saa suurimman arvonsa, kun b − a on pienin mahdollinen. Esti- Valilla on valia! Jos kysees-sa olisi tasajakauma avoi-melle valille (a, b), suurim-

man uskottavuuden esti-maatteja ei olisi olemassa

lainkaan.

maatit {a = min(x1, . . . , xn)

b = max(x1, . . . , xn)

ovat siis todella myos suurimman uskottavuuden estimaatit.

Page 54: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

Luku 6

MONEN MUUTTUJANLINEAARINENREGRESSIO

6.1 Regressiomalli [12.1]

Lineaarisessa (monen muuttujan) regressiossa ajatellaan ilmion olevanmallinnettavissa matemaattisesti muodossa

y = β0 + β1x1 + · · ·+ βkxk + ε.

Mallin eri osat ovat seuraavat:

1. x1, . . . , xk ovat mallin syotteet. Niita kutsutaan eri tilanteissa jaeri sovellusaloilla eri nimin, tavallisia ovat mm. nimet riippumatto-mat muuttujat tai selittavat muuttujat tai regressorit tai faktorit tai Jatkossa regressori.

eksogeeniset muuttujat.

2. y on mallin tuloste. Sitakin kutsutaan eri nimin, esimerkiksi riip-puva muuttuja tai selitettava muuttuja tai vaste tai endogeeninen Jatkossa vaste.

muuttuja.

3. β0, β1, . . . , βk ovat mallin ns. parametrit eli kertoimet. Ne ovat kiin-teita lukuja, jotka mallia rakennettaessa estimoidaan saadusta oto-saineistosta. Parametri β0 on ns. vakiotermi. ”intercept”

4. ε on satunnaismuuttuja, jonka odotusarvo on = 0 ja jolla on va-rianssi σ2, ns. hairiotermi tai virhetermi. Vaste y on nain ollen myossatunnaismuuttuja ja sen odotusarvo on β0 + β1x1 + · · · + βkxk javarianssi σ2.

Malli toimii niin, etta siihen syotetaan regressorien arvot ja ulos tuleevasteen arvo, johon vaikuttaa myos kulloinkin realisoitunut virheterminarvo.

Mallin lineaarisuus tarkoittaa sita, etta se on lineaarinen nimenomaanparametrien suhteen. Regressorit voivat hyvinkin riippua toisistaan. Ta- Vastaavasti voitaisiin myos

ajatella ja kayttaa epaline-aarisia regressiomalleja.vallinen malli on esimerkiksi ns. polynomiaalinen malli

y = β0 + β1x+ β2x2 + · · ·+ βkx

k + ε,

50

Page 55: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 6. MONEN MUUTTUJAN LINEAARINEN REGRESSIO 51

missa regressorit ovat yhden ja saman muuttujan x potensseja. Huomaa,etta tamakin on lineaarinen malli, silla se on lineaarinen parametriensuhteen.

6.2 Parametrien estimointi. Matriisiesitys [12.2–3]

Mallin sovittamiseksi sen parametrit estimoidaan otosdataa kayttaen.Talloin annetaan regressoreille arvoyhdelmat (n kpl)

Indeksointi on tassa jo va-littu ajatellen datan matrii-

siesitysta.

x1 x2 · · · xkx1,1 x1,2 · · · x1,kx2,1 x2,2 · · · x2,k

......

...xn,1 xn,2 · · · xn,k

suoritetaan koe kayttaen kutakin niista vuorotellen syotteena ja talle-tetaan saadut vasteen arvot y1, y2, . . . , yn. Viime mainitut voidaan tul-kita joko realisoituneiksi arvoiksi tai satunnaismuuttujiksi. Kaytettyjenregressorien arvoyhdelmien ei tarvitse olla erilaiset, samaa arvoyhdelmaa Tama on jopa eduksi, silla

se parantaa varianssin σ2

estimaattia.voidaan kayttaa monta kertaa.Kuten yo. taulukosta voi aavistaa matriisiesitys on tassa yhteydessa

hyvin kateva. Merkitaankin nyt

Huomaa erityisesti matrii-sissa X oleva ykkossarake!X =

1 x1,1 x1,2 · · · x1,k1 x2,1 x2,2 · · · x2,k...

......

. . ....

1 xn,1 xn,2 · · · xn,k

, y =

y1y2...yn

ja ε =

ε1ε2...εn

ja parametreille viela

β =

β0β1...βk

.

Nailla merkinnoilla koko koesarjan tulokset voidaan mallia ajatellen kir-joittaa yksinkertaisesti muodossa

Ns. datamalli.

y = Xβ + ε

Tassa ε1, . . . , εn ovat joko realisoituneita satunnaismuuttujan ε arvoja tai Naille eri tulkinnoille ei nytsekaannuksien valttamisek-

si kayteta eri merkintaa,toisin kuin edellisissa lu-

vuissa. Satunnaismuuttuja-tulkinnassakin kaytetaan

siis pienia kirjaimia. Tilan-ne selviaa asiayhteydesta.

sitten riippumattomia satunnaismuuttujia, joilla on kaikilla sama jakau-ma kuin ε:lla. Huomaa, etta jos ε1, . . . , εn ajatellaan satunnaismuuttu-jiksi, niin samoin on ajateltava y1, . . . , yn ja etta silloin yi riippuu vainεi:sta.

Huomaa edelleen, etta jos y1, . . . , yn ajatellaan satunnaismuuttujiksieli y ajatellaan satunnaisvektoriksi, niin y:n odotusarvo(vektori) on Xβ. On kokonainen tilastoma-

tematiikan alue, joka liit-tyy nimenomaan X:n mah-

dollisimman hyvaan valin-taan, ns. kokeiden suun-

nittelu. Ks. moniste RUO-HONEN, K.: Tilastollinenkokeiden suunnittelu ja

otanta.

Matriisi X sen sijaan on annettu lukumatriisi, sita kutsutaan usein data-matriisiksi. Useinkaan matriisin X valintaan ei voi juuri vaikuttaa, vaikkasilla on merkittava vaikutus parametrien estimoinnin onnistumiseen.

Page 56: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 6. MONEN MUUTTUJAN LINEAARINEN REGRESSIO 52

Parametrien β0, β1, . . . , βk (eli siis vektorin β) estimoinnin idea onsovittaa realisoitunut vastevektori y mahdollisimman hyvin odotusar-voonsa eli Xβ:an. Tama voidaan tehda monellakin tavalla, joista taval-lisin on pienimman neliosumman menetelma. Silloin valitaan parametrit ”least sum of squares”

β0, β1, . . . , βk eli vektori β siten, etta

N(β0, β1, . . . , βk) = ‖y −Xβ‖2 =n∑i=1

(yi − β0 − β1xi,1 − · · · − βkxi,k)2

saa pienimman arvonsa. Nain saadaan parametriestimaatit

β0 = b0 , β1 = b1 , . . . , βk = bk,

vektorimuodossa β = b, missa

b =

b0b1...bk

.

Estimaatit b0, b1, . . . , bk saadaan asettamalla N(β0, β1, . . . , βk):n osit-taisderivaatat parametrien β0, β1, . . . , βk suhteen yhtasuureksi kuin 0 jaratkaisten ne saaduista yhtaloista. Nama yhtalot ovat ns. normaaliyhta-lot. Mainitut osittaisderivaatat ovat

∂N

∂β0= −2

n∑i=1

1 · (yi − β0 − β1xi,1 − · · · − βkxi,k),

∂N

∂β1= −2

n∑i=1

xi,1(yi − β0 − β1xi,1 − · · · − βkxi,k),...

∂N

∂βk= −2

n∑i=1

xi,k(yi − β0 − β1xi,1 − · · · − βkxi,k).

Asetettaessa nama yhtasuuriksi kuin 0 voidaan −2 jakaa pois, jolloinb:lle saadaan matriisimuodossa yhtalo

XT(y −Xb) = 0 eli (XTX)b = XTy.

Jos XTX on ei-singulaarinen (kaantyva) matriisi, kuten jatkossa olete- Mikali XTX on singulaari-nen tai melkein singulaari-

nen (ns. multikollineaari-suus), ohjelmistot varoitta-

vat tasta.

taan, saadaan b ratkaistuksi:

b = (XTX)−1XTy.

Estimointi vaatii siis runsaasti numeerisia laskuja. Nettilaskimiakinon tata varten olemassa tavallisimmille tehtavatyypeille, mutta isot teh-tavat on laskettava tilasto-ohjelmistoilla.

Esimerkki. Sovitetaan dataan regressiomalli [12.4]

Huomaa regressorien riip-puminen toisistaan, ja vas-taava indeksointi paramet-

reille!

y = β0 + β1x1 + β2x2 + β1,1x21 + β2,2x

22 + β1,2x1x2 + ε.

Tulomuotoisia termeja, kuten tassa x1x2, kutsutaan yhdysvaikutuster-meiksi. Tassa x1 on sterilointiaika (min) ja x2 -lampotila (◦C). Vaste yon steriloinnin jalkeinen (orgaanisten) epapuhtauksien maara. Koetulok-set ovat seuraavat:

Page 57: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 6. MONEN MUUTTUJAN LINEAARINEN REGRESSIO 53

x2x1 75 ◦C 100 ◦C 125 ◦C

15 min 14.05 10.55 7.5515 min 14.93 9.48 6.5920 min 16.56 13.63 9.2320 min 15.85 11.75 8.7825 min 22.41 18.55 15.9325 min 21.66 17.98 16.44

Naista saadaan laskien datamatriisi X (muista, etta siihen pitaa laskeakaikkia viitta regressoria vastaavat sarakkeet). Tulos on 18 × 6-matriisi,josta malliksi muutama rivi ja vastaavat vasteet:

X =

1 15 75 152 752 15 · 751 15 100 152 1002 15 · 1001 15 125 152 1252 15 · 125...

......

......

...1 20 75 202 752 20 · 75...

......

......

...

, y =

14.0510.557.55...

16.56...

.

JMP-ohjelmistossa data syotetaan dataeditorilla tai luetaan tiedostosta.Lisatyt sarakkeet ovat helposti laskettavissa editorissa (tai muodostetta-vissa estimoinnin yhteydessa):

Data

Rows

Aika Lämpötila Vaste

Aika*Aika

Lämpötila*Lämpötila

Aika*Lämpötila

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

15

15

15

15

15

15

20

20

20

20

20

20

25

25

25

25

25

25

75

100

125

75

100

125

75

100

125

75

100

125

75

100

125

75

100

125

14.05

10.55

7.55

14.93

9.48

6.59

16.56

13.63

9.23

15.85

11.75

8.78

22.41

18.55

15.93

21.66

17.98

16.44

225

225

225

225

225

225

400

400

400

400

400

400

625

625

625

625

625

625

5625

10000

15625

5625

10000

15625

5625

10000

15625

5625

10000

15625

5625

10000

15625

5625

10000

15625

1125

1500

1875

1125

1500

1875

1500

2000

2500

1500

2000

2500

1875

2500

3125

1875

2500

3125

1

XTX on nain ollen 6× 6-matriisi. Numeeriset laskut jaavat luonnol-lisesti tassakin tietokoneille ja tilasto-ohjelmistoille. Saadut parametries-timaatit ovat

b0 = 56.4411 , b1 = −2.7530 , b2 = −0.3619 , b1,1 = 0.0817 ,

b2,2 = 0.0008 , b1,2 = 0.0031.

JMP-ohjelmiston (vahan karsittu) tulostus on seuraava:

Page 58: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 6. MONEN MUUTTUJAN LINEAARINEN REGRESSIO 54

Tassa on mukana paljonmuutakin, johon palataan

myohemmin.

Data: Fit Least Squares Page 1 of 1

RSquareRSquare AdjRoot Mean Square ErrorMean of ResponseObservations (or Sum Wgts)

0.9864080.9807450.64780913.99556

18

Summary of Fit

ModelErrorC. Total

Source 5

12 17

DF 365.47657

5.03587 370.51244

Sum of Squares 73.0953 0.4197

Mean Square174.1791

F Ratio

<.0001Prob > F

Analysis of Variance

Lack Of FitPure ErrorTotal Error

Source 3 9

12

DF 0.9211722 4.1147000 5.0358722

Sum of Squares0.3070570.457189

Mean Square 0.6716F Ratio

0.5906Prob > F

0.9889Max RSq

Lack Of Fit

InterceptAikaLämpötilaAika*AikaLämpötila*LämpötilaAika*Lämpötila

Term56.441111

-2.753-0.3619330.08173330.0008133

0.00314

Estimate7.9940160.5509550.1101910.0129560.0005180.001832

Std Error 7.06 -5.00 -3.28 6.31 1.57 1.71

t Ratio<.00010.00030.0065<.00010.14250.1123

Prob>|t|Parameter Estimates

AikaLämpötilaAika*AikaLämpötila*LämpötilaAika*Lämpötila

Source 1 1 1 1 1

Nparm 1 1 1 1 1

DF 10.477893 4.527502

16.700844 1.033611 1.232450

Sum of Squares 24.9678 10.7886 39.7965 2.4630 2.9368

F Ratio 0.0003 0.0065 <.0001 0.1425 0.1123

Prob > FEffect Tests

Response Vaste

Tuloksesta voisi paatella, ettei mallissa oleva regressori x22 liene tar-peellinen eika yhdysvaikutustakaan regressorien x1 ja x2 valilla juuri ole,mutta tallaiset paatelmat pitaa tehda tilastollisin perustein!

6.3 Parametriestimaattorien ominaisuuksia [12.4]

Satunnaismuuttujatulkinnassa saadut parametrit bi tulkitaan satunnais-muuttujiksi (estimaattoreiksi), jotka riippuvat satunnaismuuttujista εivektoraaliyhtalon

b = (XTX)−1XTy = (XTX)−1XT(Xβ + ε) = β + (XTX)−1XTε

kautta.Koska E(ε1) = · · · = E(εn) = 0, ylla olevasta yhtalosta nakee mel-

ko suoraan, etta E(bi) = βi, ts. etta parametriestimaattorit ovat har-hattomia. Edelleen jonkinmoisella matriisilaskulla voidaan todeta, etta(k + 1)× (k + 1)-matriisi C = (cij), missa

C = (XTX)−1

ja indeksit i ja j kulkevat arvot 0, 1, . . . , k, sisaltaa tiedot parametriesti-maattorien variansseista ja niiden valisista kovariansseista muodossa Asian todistus on mm. mo-

nisteessa RUOHONEN, K. &POHJAVIRTA, A.: Laaja ti-

lastomatematiikka.var(bi) = ciiσ2 ja cov(bi, bj) = cijσ

2.

Tarkea estimaattori/estimaatti on estimoitu vaste

yi = b0 + b1xi,1 + · · ·+ bkxi,k

Page 59: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 6. MONEN MUUTTUJAN LINEAARINEN REGRESSIO 55

ja siita saatu residuaaliei = yi − yi.

Residuaali esittaa sita osaa vasteesta, jota ei voitu selittaa estimoidullamallilla. Vektorimuodossa saadaan vastaavasti estimoitu vastevektori

y = Xb = X(XTX)−1XTy

ja siita residuaalivektori

Tassa In on n× n-identi-teettimatriisi.

e = y − y = y −X(XTX)−1XTy =(In −X(XTX)−1XT

)y.

Edella esiintyvilla matriiseilla on muuten omia melko vakiintuneitanimiaan ja merkintojaan:

H:lla kertominen projisoivastevektorin datamatriisin

sarakeavaruuteen, P:llakertominen taas sen orto-gonaaliseen komplement-

tiin.

H = X(XTX)−1XT (ns. hattumatriisi) ja

P = In −X(XTX)−1XT = In −H (ns. projektiomatriisi).

Pienella laskulla voi todeta, etta HT = H seka PT = P ja etta H2 = Hseka P2 = P. H ja P ovat ts. symmetrisia idempotentteja matriiseja.Lisaksi PH on nollamatriisi. Nailla merkinnoilla siis

y = Hy ja e = Py.

Suure

‖e‖2 =n∑i=1

e2i =n∑i=1

(yi − yi)2

on ns. residuaalineliosumma eli virheneliosumma, merkitaan usein SSE. ”sum of squares of errors”

Sen avulla saadaan virhevarianssille σ2 harhaton estimaattori. Lasketaantata varten SSE ensin ”auki”. Ensinnakin

e = Py =(In −X(XTX)−1XT

)(Xβ + ε) = Pε.

Edelleen

SSE = eTe = (Pε)TPε = εTPTPε = εTPε = εTε− εTHε.

Jos merkitaan H = (hij), saadaan edelleen

SSE =n∑i=1

ε2i −n∑i=1

n∑j=1

εihijεj.

SSE:n odotusarvoa varten (harhattomuus) muistetaan, etta E(εi) = 0ja var(εi) = E(ε2i ) = σ2. Edelleen, koska εi ja εj ovat riippumattomat kuni 6= j, niin silloin ne ovat myos korreloimattomat, ts.

cov(εiεj) = E(εiεj) = 0.

Siispa

E(SSE) =n∑i=1

E(ε2i )−n∑i=1

n∑j=1

hijE(εiεj) = nσ2 − σ2

n∑i=1

hii.

Page 60: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 6. MONEN MUUTTUJAN LINEAARINEN REGRESSIO 56

Oikealla puolella esiintyva summa on hattumatriisin lavistajaalkioidensumma eli sen jalki trace(H). Jaljen mukaviin ominaisuuksiin kuului, ettase on vaihdannainen, ts. etta trace(AB) = trace(BA). Tata kayttaenvoidaan laskea ko. summa

Valitaan A = X jaB = (XTX)−1XT.

n∑i=1

hii = trace(H) = trace(X(XTX)−1XT

)= trace

((XTX)−1XTX

)= trace(Ik+1) = k + 1

ja sita kauttaE(SSE) = (n− k − 1)σ2.

Nain ollen

E( SSE

n− k − 1

)= σ2

ja saadaan lopulta haluttu harhaton estimaatti/estimaattori

σ2 =SSE

n− k − 1.

Usein merkitaan

MSE =SSE

n− k − 1

ja puhutaan keskineliovirheesta. MSE on jotakuinkin aina ohjelmatulos- ”mean square of error”

tuksessa saatavilla, samoin estimoitu hajonta√

MSE = RMSE. Eo. esi- ”root mean square of error”

merkissa saadaan MSE = 0.4197 ja RMSE = 0.6478.Ohjelmien tulostukseen kuuluu yleensa myos kaksi muuta neliosum-

maa

SST =n∑i=1

(yi − y)2 , missa y =1

n

n∑i=1

yi,

ns. kokonaisneliosumma, ja ”total sum of squares”

SSR =n∑i=1

(yi − y)2,

ns. regression neliosumma. Nailla neliosummilla on muuten yhteys, joka ”sum of squares of re-gression”selviaa matriisilaskulla (sivuutetaan tassa):

SST = SSE + SSR.

Vastaavat keskineliot ovat

MST =SST

n− 1(ns. kokonaiskeskinelio) ja

MSR =SSR

k(ns. regression keskinelio).

Naista ainakin MSR on yleensa myos ohjelmatulostuksessa.

”total mean square”, vas-teen otosvarianssi

”mean square of regression”

Itse asiassa ohjelmatulostuksessa on kokonainen ns. varianssianalyy-sitaulu eli ANOVA-taulu: ”ANalysis Of VAriance

table”

Page 61: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 6. MONEN MUUTTUJAN LINEAARINEN REGRESSIO 57

Variaation lahde Vapausasteet Neliosummat Keskineliot F

Regressio

Residuaali

Kokonaisvariaatio

k

n− k − 1

n− 1

SSR

SSE

SST

MSR

σ2 = MSE

(MST)

F =MSR

MSE

Huomaa summa:

n− 1 =k + (n− k − 1).

Esiintyva suure F on testisuure, jolla tietyin normaalisuusoletuksin voi-daan testata regression merkitsevyytta kayttaen F-jakaumaa (vapausas-tein k ja n− k− 1), kuten tullaan nakemaan. Taulussa on lisaksi yleensamyos ko. testin realisoitunut P-arvo. Edella olevan esimerkin ANOVA-taulu on

Data: Fit Least Squares Page 1 of 1

RSquare

RSquare Adj

Root Mean Square Error

Mean of Response

Observations (or Sum Wgts)

0.986408

0.980745

0.647809

13.99556

18

Summary of Fit

Model

Error

C. Total

Source

5

12

17

DF

365.47657

5.03587

370.51244

Sum of Squares

73.0953

0.4197

Mean Square

174.1791

F Ratio

<.0001

Prob > F

Analysis of Variance

Lack Of Fit

Pure Error

Total Error

Source

3

9

12

DF

0.9211722

4.1147000

5.0358722

Sum of Squares

0.307057

0.457189

Mean Square

0.6716

F Ratio

0.5906

Prob > F

0.9889

Max RSq

Lack Of Fit

Intercept

Aika

Lämpötila

Aika*Aika

Lämpötila*Lämpötila

Aika*Lämpötila

Term

56.441111

-2.753

-0.361933

0.0817333

0.0008133

0.00314

Estimate

7.994016

0.550955

0.110191

0.012956

0.000518

0.001832

Std Error

7.06

-5.00

-3.28

6.31

1.57

1.71

t Ratio

<.0001

0.0003

0.0065

<.0001

0.1425

0.1123

Prob>|t|

Parameter Estimates

Aika

Lämpötila

Aika*Aika

Lämpötila*Lämpötila

Aika*Lämpötila

Source

1

1

1

1

1

Nparm

1

1

1

1

1

DF

10.477893

4.527502

16.700844

1.033611

1.232450

Sum of Squares

24.9678

10.7886

39.7965

2.4630

2.9368

F Ratio

0.0003

0.0065

<.0001

0.1425

0.1123

Prob > F

Effect Tests

Response Vaste

ja siita loytyy mm. mainittu estimaatti σ2 = MSE = 0.4197.

6.4 Regression tilastollinen kasittely [12.5]

Regressiomalli katsotaan merkityksettomaksi, jos parametrit β1, . . . , βk Huomaa, etta β0 ei olemukana.ovat kaikki nollia. Silloinhan valituilla regressoreilla ei ole mitaan vaiku-

tusta vasteeseen. Vastaavasti yksittainen regressori xi on merkitykseton,jos parametri βi on nolla. Merkitsevyytta testattaessa luonnollisesti pitaaolla esilla jokin jakauma(tyyppi), jotta todennakoisyyksia voidaan laskea.Sita varten tassa oletetaankin, etta satunnaismuuttujilla εi on kaikillaN(0, σ2)-jakauma. Useimmissa tilanteissa tama on luonteva oletus.

Koko mallin merkitsevyytta testattaessa nollahypoteesi on

H0 : β1 = · · · = βk = 0.

Vaihtoehtoinen hypoteesi puolestaan sanoo, etta ainakin yksi paramet-reista β1, . . . , βk on 6= 0. Voidaan nayttaa, etta jos H0 on tosi, niin eo. Tassa esiintyvat jakauma-

tulokset ovat hankalia to-distaa. Todistukset loyty-

vat jalleen mm. monistees-ta RUOHONEN, K. & POH-JAVIRTA, A.: Laaja tilasto-

matematiikka.

ANOVA-taulussa oleva suure (satunnaismuuttuja)

F =MSR

MSE

on F-jakautunut vapausastein k ja n− k − 1. Kriittinen alue on oikean-puoleinen hanta, silla mallin merkityksettomyys pienentaa SSR:aa ja kas-vattaa SSE:ta.

Jos H0:a ei hylata, malli ei ole kovinkaan kayttokelpoinen, vaikka pa-rametrit olisikin saatu estimoiduiksi. Edella olevassa esimerkissa saadaanF :lle arvo 174.1791 (vapausastein 5 ja 12) ja vastaava P-arvo on jotakuin-kin nolla. Malli on siis erittain merkitseva.

Yksittaisten parametrien testaamiseen on kaytossa t-jakaumaa kayt-tava testi, joka on hyvin samankaltainen kuin aikaisemmin olleet t-testit.

Page 62: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 6. MONEN MUUTTUJAN LINEAARINEN REGRESSIO 58

Voidaan nimittain nayttaa, etta mikali βi = β0,i, missa β0,i on tunnettu,niin satunnaismuuttujalla

Muista edelta RMSE=√

MSE seka matriisiC = (cij) = (XTX)−1.

Ti =bi − β0,i

RMSE√cii

on t-jakauma vapausastein n−k−1. Asetetaan nollahypoteesi H0 : βi = 0(eli valitaan β0,i = 0) ja sille vaihtoehtoinen hypoteesi H1 : βi 6= 0. Tes- Mika tahansa nollahypo-

teesi H0 : βi = β0,i voitai-siin tietysti testata nain.

Myos voidaan laskea βi:lle100(1− α) % luottamusra-rajat bi ± tα/2RMSE

√cii.

taus sujuu tavalliseen tapaan t-jakaumaa kayttaen realisoituneen testi-suureen ti avulla, yleensa kaksipuolisena. Tilasto-ohjelmistot tulostavattavallisesti automaattisesti kaikki nama testit P-arvoineen. Edella olevas-sa esimerkissa testitulokset ovat parametriestimointiosiossa:

Tassa ovat myos paramet-riestimaattorien estimoidut

hajonnat RMSE√cii (sa-

rakkeessa ”Std Error”).

Data: Fit Least Squares Page 1 of 1

RSquare

RSquare Adj

Root Mean Square Error

Mean of Response

Observations (or Sum Wgts)

0.986408

0.980745

0.647809

13.99556

18

Summary of Fit

Model

Error

C. Total

Source

5

12

17

DF

365.47657

5.03587

370.51244

Sum of Squares

73.0953

0.4197

Mean Square

174.1791

F Ratio

<.0001

Prob > F

Analysis of Variance

Lack Of Fit

Pure Error

Total Error

Source

3

9

12

DF

0.9211722

4.1147000

5.0358722

Sum of Squares

0.307057

0.457189

Mean Square

0.6716

F Ratio

0.5906

Prob > F

0.9889

Max RSq

Lack Of Fit

Intercept

Aika

Lämpötila

Aika*Aika

Lämpötila*Lämpötila

Aika*Lämpötila

Term

56.441111

-2.753

-0.361933

0.0817333

0.0008133

0.00314

Estimate

7.994016

0.550955

0.110191

0.012956

0.000518

0.001832

Std Error

7.06

-5.00

-3.28

6.31

1.57

1.71

t Ratio

<.0001

0.0003

0.0065

<.0001

0.1425

0.1123

Prob>|t|

Parameter Estimates

Aika

Lämpötila

Aika*Aika

Lämpötila*Lämpötila

Aika*Lämpötila

Source

1

1

1

1

1

Nparm

1

1

1

1

1

DF

10.477893

4.527502

16.700844

1.033611

1.232450

Sum of Squares

24.9678

10.7886

39.7965

2.4630

2.9368

F Ratio

0.0003

0.0065

<.0001

0.1425

0.1123

Prob > F

Effect Tests

Response Vaste

Esimerkiksi voidaan testata hypoteesi H0 : β2 = 0, jolloin testisuureeksirealisoituu t2 = −3.28. Vastaava P-arvo saadaan t-jakaumasta (vapausas-tein 12) ja se on P = 0.0065. Nain ollen H0 hylataan ja paatellaan, ettaregressori x2 (lampotila) on mallissa tarpeen. Regressorit x22 ja x1x2 eivatvastaavasti testattaessa osoittaudu tarpeellisiksi. Muut sen sijaan kylla(mukaanlukien vakiotermi).

On huomattava, etta nama testit eri parametreille eivat ole riippu-mattomia, silla parametriestimaatit eivat (yleensa) ole riippumattomia.Nain ollen monien regressorien poisjattaminen testien tuloksena voi jos-kus johtaa odottamattomaan tulokseen.

Saatua mallia estimoituine parametreineen ja virhevariansseineen voi-daan kayttaa vasteen laskemiseen uusilla regressoriarvoyhdelmilla, joillaei ole kokeita suoritettu. Talloin voidaan joko ottaa mukaan simuloidenvirhetermi tai sitten jattaa se pois. Jalkimmainen vaihtoehto on paikal-laan mm. silloin, kun virhe muodostuu vain mittausvirheesta, jota ei it-se mallinnetussa ilmiossa ole. Otetaan tarkasteltavaksi kiinnostava uusiregressorien arvoyhdelma

Huomaa vakiotermia var-ten lisatty 1.

x1 = x0,1 , . . . , xk = x0,k eli x0 =

1x0,1

...x0,k

,

Katsotaan ensin tapaus, missa virhetermi jatetaan pois. Silloin oikeavaste on

y0 = β0 +k∑i=1

βix0,i = xT0β

(luku), kun taas estimoitu vaste on

y0 = b0 +k∑i=1

bix0,i = xT0b.

Page 63: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 6. MONEN MUUTTUJAN LINEAARINEN REGRESSIO 59

Koska ilmeisestikin (satunnaismuuttujatulkinnassa)

E(y0) = E(b0) +k∑i=1

E(bi)x0,i = β0 +k∑i=1

βix0,i = y0,

saatu vaste-estimaattori on harhaton. Matriisilaskennalla voidaan vielatodeta, etta

var(y0) = σ2xT0 (XTX)−1x0.

Lisaksi voidaan nayttaa, etta satunnaismuuttujalla

T0 =y0 − y0

RMSE√xT0 (XTX)−1x0

on t-jakauma vapausastein n−k−1. Nain saadaan aikaisemmasta tuttuuntapaan y0:lle 100(1− α) % luottamusrajat

y0 ± tα/2RMSE√xT0 (XTX)−1x0.

Vastaavasti, jos virhetermi otetaan mukaan, niin oikea vaste on sa- Vrt. ennustevali Pykalassa2.3.tunnaismuuttuja

Kaytetaan tassa isoa kir-jainta selvyyden vuoksi.

Y0 = β0 +k∑i=1

βix0,i + ε0 = xT0β + ε0,

missa ε0 on N(0, σ2)-jakautunut b:sta riippumaton satunnaismuuttuja.Ilmeisesti E(Y0) = xT

0β ja var(Y0) = σ2, ja edelleen

Kuten edella, y0 = xT0b.E(y0 − Y0) = E(y0)− E(Y0) = 0

seka (riippumattomuudesta johtuen)

var(y0 − Y0) = var(y0) + var(Y0) = σ2xT0 (XTX)−1x0 + σ2.

Satunnaismuuttujalla

T0 =y0 − Y0

RMSE√

1 + xT0 (XTX)−1x0

on nyt t-jakauma vapausastein n − k − 1 ja Y0:n realisoituneelle arvolley0 saadaan sita kayttaen 100(1− α) % ennustevali

y0−tα/2RMSE√

1 + xT0 (XTX)−1x0 < y0 < y0+tα/2RMSE

√1 + xT

0 (XTX)−1x0.

6.5 Sovitetun mallin tutkiminen [12.6]

Jos edella esitetty F-testi toteaa mallin merkityksettomaksi, ts. asetettuanollahypoteesia H0 : β1 = · · · = βk = 0 ei voida hylata, ei mallilla liene Sehan on silloin muotoa

”vaste = vakio + kohina”.paljonkaan kayttoa. Toisaalta, vaikka F-testi toteaisikin mallin merkitse-vaksi, se ei siltikaan aina ole kovin hyva, eri syista:

Page 64: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 6. MONEN MUUTTUJAN LINEAARINEN REGRESSIO 60

• Malliin ei ehka saatukaan kyllin hyvaa kokoelmaa regressoreita.Tata testataan ns. epasopivuustestilla. Nollahypoteesi H0 on, etta ”lack-of-fit test”

malli on sopiva, ts. etta siina on riittavasti regressoreita eika ti-lannetta voi silta osin juuri parantaa. Mikali tama nollahypoteesihylataan, on syyta tutkia voisiko malliin loytya lisaa regressorei-ta. Epasopivuustestaus on tehdaan yleensa vain, jos on tehty usei- Se voidaan kylla tehda

muutoinkin.ta kokeita samoilla regressoriyhdelmilla. Monet ohjelmistot teke-vat talloin testin automaattisesti. Epasopivuustesti perustuu sekin Ks. moniste RUOHONEN,

K.: Tilastollinen kokeidensuunnittelu ja otanta.F-jakaumaan ja ohjelmistot tulostavat testisuureen ja testin reali-

soituneen P-arvon.

Edella olevassa esimerkissa toistokokeita on tehty ja JMP tekeeepasopivuustestin:

Data: Fit Least Squares Page 1 of 1

RSquareRSquare AdjRoot Mean Square ErrorMean of ResponseObservations (or Sum Wgts)

0.9864080.9807450.64780913.99556

18

Summary of Fit

ModelErrorC. Total

Source 5

12 17

DF 365.47657

5.03587 370.51244

Sum of Squares 73.0953 0.4197

Mean Square174.1791

F Ratio

<.0001Prob > F

Analysis of Variance

Lack Of FitPure ErrorTotal Error

Source 3 9

12

DF 0.9211722 4.1147000 5.0358722

Sum of Squares0.3070570.457189

Mean Square 0.6716F Ratio

0.5906Prob > F

0.9889Max RSq

Lack Of Fit

InterceptAikaLämpötilaAika*AikaLämpötila*LämpötilaAika*Lämpötila

Term56.441111

-2.753-0.3619330.08173330.0008133

0.00314

Estimate7.9940160.5509550.1101910.0129560.0005180.001832

Std Error 7.06 -5.00 -3.28 6.31 1.57 1.71

t Ratio<.00010.00030.0065<.00010.14250.1123

Prob>|t|Parameter Estimates

AikaLämpötilaAika*AikaLämpötila*LämpötilaAika*Lämpötila

Source 1 1 1 1 1

Nparm 1 1 1 1 1

DF 10.477893 4.527502

16.700844 1.033611 1.232450

Sum of Squares 24.9678 10.7886 39.7965 2.4630 2.9368

F Ratio 0.0003 0.0065 <.0001 0.1425 0.1123

Prob > FEffect Tests

Response Vaste

Testissa saatiin P-arvo 0.5906, joka on niin suuri, ettei H0:a hylata,ja nain voidaan katsoa mallin sisaltavan riittavan monta regresso-ria.

• Malliin ei toisaalta ole syyta ottaa liian monta regressoria. Ylisovi-tettu malli nimittain selittaa jo osan virheestakin, mika ei tieten- Aaritapauksessa jopa ko-

konaan!kaan voi olla tarkoitus.

• Paljon kaytetty tapa mitata paljonko malli selittaa tutkittavastailmiosta on laskea ns. selitysaste eli (moni)determinaatiokerroin ”coefficient of (multiple)

determination”

R2 =SSR

SST= 1− SSE

SST.

Selitysasteen nelojuurta R kutsutaan usein monikorrelaatiokertoi- ”multiple correlation coef-ficient”meksi.

Nimitys johtuu siita, ettaR on havaittujen vasteideny1, . . . , yn ja ennustettujenvasteiden y1, . . . , yn (Pear-

sonin) otoskorrelaatioker-roin. Ks. Pykala 7.5.

Lahella ykkosta oleva R2:n arvo kertoo, etta malli pystyy selitta-maan merkittavan osan vasteen vaihtelusta. Tama on erityisen tar-keaa, jos vaste on tavalla tai toisella energiaan tai tehoon liittyva.

Toisaalta, mikali malli on merkityksellinen, pienikin selitysaste(vaikkapa noin luokkaa 0.1 – 0.2) saattaa olla kayttokelpoinen, josesimerkiksi on kyseessa halpa tapa poistaa kalliiksi tulevaa haittate-kijaa osittain. Tallainen tilanne voi tulla vastaan erityisesti, mikalikokeita tehdaan hyvin paljon. Jos vain malli silloin vahankaan selit-taa vastetta, F-testi toteaa mallin merkitsevaksi, vaikka selitysastejaisi pieneksikin.

Toisaalta, jos kokeita on vahan, selitysaste voi olla suhteellisen iso-kin, vaikka F-testi toteaa mallin merkityksettomaksi. F-testi ei ni-mittain ole kovin vahva, jos kokeita on vain vahan ja/tai ne eivatole hyvin suunniteltuja.

Page 65: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 6. MONEN MUUTTUJAN LINEAARINEN REGRESSIO 61

• Monet kayttavat R2:n sijasta mieluummin ns. muunnettua selitys- ”adjusted coefficient of de-termination”astetta

Valinta naiden kahden seli-tysasteen valilla on jossain

maarin makuasia, ohjelmis-tot tulostavatkin yleensa

ne molemmat.

R2adj = 1− MSE

MST= 1− n− 1

n− k − 1

SSE

SST,

jolla pyritaan ottamaan mukaan paremmin vapausasteiden vaiku-tus.

• Edella olevassa esimerkissa saatiin selitysaste R2 = 0.9864, joka onerittain hyva:

Data: Fit Least Squares Page 1 of 1

RSquareRSquare AdjRoot Mean Square ErrorMean of ResponseObservations (or Sum Wgts)

0.9864080.9807450.64780913.99556

18

Summary of Fit

ModelErrorC. Total

Source 5

12 17

DF 365.47657

5.03587 370.51244

Sum of Squares 73.0953 0.4197

Mean Square174.1791

F Ratio

<.0001Prob > F

Analysis of Variance

Lack Of FitPure ErrorTotal Error

Source 3 9

12

DF 0.9211722 4.1147000 5.0358722

Sum of Squares0.3070570.457189

Mean Square 0.6716F Ratio

0.5906Prob > F

0.9889Max RSq

Lack Of Fit

InterceptAikaLämpötilaAika*AikaLämpötila*LämpötilaAika*Lämpötila

Term56.441111

-2.753-0.3619330.08173330.0008133

0.00314

Estimate7.9940160.5509550.1101910.0129560.0005180.001832

Std Error 7.06 -5.00 -3.28 6.31 1.57 1.71

t Ratio<.00010.00030.0065<.00010.14250.1123

Prob>|t|Parameter Estimates

AikaLämpötilaAika*AikaLämpötila*LämpötilaAika*Lämpötila

Source 1 1 1 1 1

Nparm 1 1 1 1 1

DF 10.477893 4.527502

16.700844 1.033611 1.232450

Sum of Squares 24.9678 10.7886 39.7965 2.4630 2.9368

F Ratio 0.0003 0.0065 <.0001 0.1425 0.1123

Prob > FEffect Tests

Response Vaste

Nain hyvalla selitysasteella ylisovituksen vaara saattaisi jo olla la-hella ja ehka olisi syyta poistaa joitain regressoreita tai lisata ko-keiden maaraa.

6.6 Kategoriset regressorit [12.8]

Edella on ajateltu regressorien olevan jatkuvia tai ainakin niiden arvojentulevan numeeriselta asteikolta. Kategoriset eli nominaaliset regressorit Eli indikaattorit.

ovat luokittelumuuttujia. Niiden ”arvot” eli tasot ovat luokkia (esimer-kiksi nimia, vareja tms.), joilla ei ole mitaan numeerista sisaltoa.

Kategorisia regressoreja z1, . . . , zl voidaan ottaa mukaan regressiomal-liin ”tavallisten” jatkuvien regressorien x1, . . . , xk lisaksi tai sijasta seu- Itse asiassa jatkuvia regres-

soreita ei tarvitse olla mu-kana lainkaan.raavalla tavalla. Jos regressorin zi tasot ovat Ai,1, . . . ,Ai,mi (siis mi kpl),

niin otetaan kayttoon mi − 1 ”tavallista” regressoria zi,1, . . . , zi,mi−1. Da-tamatriisissa zi:n tasot ja uusien regressorien saamat arvot liittyvat toi-siinsa seuraavalla tavalla:

zi zi,1 zi,2 · · · zi,mi−1Ai,1 1 0 · · · 0Ai,2 0 1 · · · 0...

......

...Ai,mi−1 0 0 · · · 1Ai,mi 0 0 · · · 0

Uusien regressorien zi,1, . . . , zi,mi−1 arvot ovat siis aina joko = 0 tai = 1. Ne ovat ns. dikotomia-muuttujia.Koko regressiomalli on nain

Huomaa uusien paramet-rien indeksointi!

y = β0 + β1x1 + · · ·+ βkxk +l∑

i=1

(βi,1zi,1 + · · ·+ βi,mi−1zi,mi−1) + ε

ja se sovitetaan tavalliseen tapaan. Kokeita suoritettaessa kirjataan tie-tysti kulloinkin kaytetyt kategoristen regressorien tasot ja koodataan neesitetylla tavalla datamatriisiin.

Edella esitetty koodaustapa on vain yksi monista mahdollisista. Esi-merkiksi JMP-ohjelmisto kayttaa eri koodausta:

Page 66: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 6. MONEN MUUTTUJAN LINEAARINEN REGRESSIO 62

zi zi,1 zi,2 · · · zi,mi−1Ai,1 1 0 · · · 0Ai,2 0 1 · · · 0...

......

...Ai,mi−1 0 0 · · · 1Ai,mi −1 −1 · · · −1

Tama nakyy mm. estimoiduista parametreista.

Esimerkki. Tassa vaste y on puhdistuksen jalkeinen kiinteiden hiuk- [12.9]

kasten maara. Mallissa on mukana yksi jatkuva regressori x1, liuoksenhappamuus (pH-arvo), seka yksi kolmitasoinen kategorinen regressori z1,kaytetty polymeeri (P1, P2 tai P3). Malli on Tassa kaytetty koodaus on

z1 z1,1 z1,2P1 1 0P2 0 1P3 0 0

y = β0 + β1x1 + β1,1z1,1 + β1,2z1,2 + ε.

Kokeita tehtiin n = 18, kuusi kullekin z1:n tasolle. Estimointi antaasilloin parametreille arvot

b0 = −161.8973 , b1 = 54.2940 , b1,1 = 89.9981 , b1,2 = 27.1657,

joista voidaan muuten paatella, etta polymeerilla P1 on suurin vaikutus Koodauksesta johtuen po-lymeerin P3 taso on vertai-

lutaso.ja polymeerilla P2 toiseksi suurin. Saatu virhevarianssin estimaatti onMSE = 362.7652. F-testi (vapausastein 3 ja 14) antaa P-arvon, joka onmelkein nolla, malli on siis erittain merkityksellinen. Selitysaste on R2 =0.9404, siis oikein hyva. Parametriestimaattien t-testien (vapausastein14) P-arvot ovat pienet ja kaikki regressorit ovat mallissa tarpeen:

0.0007 , ∼= 0 , ∼= 0 , 0.0271.

JMP-ohjelmistoon data syotetaan muodossaData

Rows pH Polymeeri Vaste123456789101112131415161718

6.56.97.88.48.89.26.76.97.57.98.79.26.57

7.27.68.79.2

P1P1P1P1P1P1P2P2P2P2P2P2P3P3P3P3P3P3

292329352378392410198227277297364375167225247268288342

1

JMP:n koodaus on erilainen, kuten todettiin. Toisaalta sita ei tarvitse

JMP:n kayttama koodauson tassa

z1 z1,1 z1,2P1 1 0P2 0 1P3 −1 −1

Page 67: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 6. MONEN MUUTTUJAN LINEAARINEN REGRESSIO 63

tehda, ohjelmisto tekee koodauksen itse automaattisesti saatuaan tiedonmuuttujatyypeista. Saatu (vahan karsittu) tulostus on

Data: Fit Least Squares Page 1 of 1

RSquare

RSquare Adj

Root Mean Square Error

Mean of Response

Observations (or Sum Wgts)

0.940433

0.927669

19.0464

301.5556

18

Summary of Fit

Model

Error

C. Total

Source

3

14

17

DF

80181.731

5078.713

85260.444

Sum of Squares

26727.2

362.8

Mean Square

73.6764

F Ratio

<.0001

Prob > F

Analysis of Variance

Intercept

pH

Polymeeri[P1]

Polymeeri[P2]

Term

-122.8427

54.294026

50.943475

-11.88889

Estimate

37.44157

4.755411

6.372994

6.348799

Std Error

-3.28

11.42

7.99

-1.87

t Ratio

0.0055

<.0001

<.0001

0.0822

Prob>|t|

Parameter Estimates

Whole Model

Nominal factors expanded to all levels

Intercept

pH

Polymeeri[P1]

Polymeeri[P2]

Polymeeri[P3]

Term

-122.8427

54.294026

50.943475

-11.88889

-39.05459

Estimate

37.44157

4.755411

6.372994

6.348799

6.372994

Std Error

-3.28

11.42

7.99

-1.87

-6.13

t Ratio

0.0055

<.0001

<.0001

0.0822

<.0001

Prob>|t|

Expanded Estimates

Response Vaste

Toistoja ei ole, joten epa-sopivuustestausta ei tu-

lostu.

Parametriestimaatit ovat nyt

b0 = −122.8427 , b1 = 54.2940 , b1,1 = 50.9435 , b1,2 = −11.8889.

Vertailu eri polymeerien valilla onnistuu talloinkin. F-testiin tai selitys-asteeseen tai MSE-arvoon tama ei vaikuta. Sen sijaan t-testit muuttuvat,niiden P-arvot ovat nyt

0.0055 , ∼= 0 , ∼= 0 , 0.0822.

Kategorisista regressoreista saatujen uusien regressorien valilla voimallissa olla tulomuotoisia yhdysvaikutustermeja, myos ”vanhojen”regres-sorien kanssa, tai muitakin laskettuja uusia regressoreita.

6.7 Residuaalin tutkiminen [12.10]

Residuaalien avulla voidaan monin tavoin tutkia jalkikateen mallin hy-vyytta tai sita olivatko mallin muodostamisen oletukset voimassa. Sel-vasti poikkeavat tai epaonnistuneet koetilanteet nakyvat usein itseisar-voiltaan suurina residuaaleina, vieraina havaintoina. Vrt. Pykalan 1.3 esimerkki.

Yksinkertaisin tapa on piirtaa realisoituneet residuaalit esimerkiksiennustetun vasteen funktiona, ts. pisteet (yi, ei) (i = 1, . . . , n). Jos saa-tu pistekuvio on jotenkin ”vino” tai ”kayra’, niin vasteessa on selvastiselittamatonta osaa ja regressoreita tarvitaan lisaa:

Jos taas kuvio on jotenkin ”kuroutunut” tai ”pullistunut” tai ”nuolimai-

Page 68: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 6. MONEN MUUTTUJAN LINEAARINEN REGRESSIO 64

nen”, niin oletus virhetermin jakauman samuudesta varianssin osalta ei Ns. heteroskedastisuus.

pida paikkansa ja mallinnuksessa tarvitaan isompi muutos:

Myos voidaan piirtaa realisoituneet residuaalit koejarjestyksen funktiona,ts. pisteet (i, ei) (i = 1, . . . , n), ja tutkia kuviota samaan tapaan kuin ylla.

Pykalan 6.2 esimerkissa residuaali vs. ennustettu vaste on varsin ta-vanomainen (ylempi kuva), samoin residuaali vs. koejarjestys (alempikuva):

Tassa yksi residuaaleistaon poikkeuksellisen iso,

ehkapa kyseessa on vieras?

Data: Fit Least Squares Page 1 of 1

-1.0

-0.5

0.0

0.5

1.0

1.5

Vaste

Resid

ual

5 10 15 20

Vaste Predicted

Residual by Predicted Plot

-1.0

-0.5

0.0

0.5

1.0

1.5

Resid

ual

0 5 10 15 20

Row Number

Residual by Row Plot

Response Vaste

Tassa kylla on oudonna-koista saannonmukai-

suutta.

6.8 Logistinen regressio [12.12]

Edella vaste y on aina ollut jatkuva. Logistinen regressio sallii monitasoi-sen kategorisen vasteen. Malli ei silloin ennusta vastetta annetuille regres-

Page 69: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 6. MONEN MUUTTUJAN LINEAARINEN REGRESSIO 65

soriarvoille, vaan antaa ko. eri vaihtoehtojen todennakoisyydet. Aloite-taan tapauksella, jossa vasteella on kaksi tasoa eli kyseessa on binaarinenvaste. Merkitaan mainittua kahta eri vasteen tasoa A:lla ja B:lla ja p:llaA:n todennakoisyytta (joka siis riippuu regressorien arvoista).

Nimensa mukaisesti logistinen regressio kayttaa ns. logistista jakau-maa, jonka kertymafunktio on

F (z) =1

1 + e−z.

Idea on se, etta estimoidaan lausekkeen

Ns. logitti.β0 + β1x1 + · · ·+ βkxk

parametrit β0, β1, . . . , βk siten, etta logistisesta jakaumasta saatu toden-nakoisyys

F (β0 + β1x1 + · · ·+ βkxk) =1

1 + e−β0−β1x1−···−βkxk

on vasteen y tason A todennakoisyys p kaytetylle regressoriyhdelmalle.Eri regressoriyhdelmille (datamatriisi X) suoritetaan kokeet (n kpl)

ja tallennetaan saadut vasteet y1, . . . , yn (tasot A ja B). Realisoituneidentasojen yhteistodennakoisyys on silloin kokeiden riippumattomuudestajohtuen tulo

L(β0, . . . , βk) = L1(β0, . . . , βk) · · ·Ln(β0, . . . , βk),

missa

Li(β0, . . . , βk) =

pi =

1

1 + e−β0−β1xi,1−···−βkxi,k, jos yi = A

1− pi =e−β0−β1xi,1−···−βkxi,k

1 + e−β0−β1xi,1−···−βkxi,k, jos yi = B

(i = 1, . . . , n).

Kuten merkinnastakin jo huomaa, tarkoitus on kayttaa suurimman Ks. Luku 5.

uskottavuuden estimointia ja L(β0, . . . , βk) tulkitaan uskottavuusfunk-tioksi. Parametrien arvojen estimaatit b0, b1, . . . , bk valitaan siis siten, et- Muitakin estimointimene-

telmia kuin suurimman us-kottavuuden estimointi on

kaytossa ja tulokset ovatsilloin joskus hieman erilai-

set.

ta L(β0, . . . , βk) tai vastaava loguskottavuusfunktio

l(β0, . . . , βk) = lnL(β0, . . . , βk)

saa suurimman arvonsa, kun β0 = b0, β1 = b1, . . . , βk = bk. Merkitsemallaosittaisderivaatat yhtasuureksi kuin nolla tasta saadaan yhtaloryhma,jonka ratkaisu vaatii yleensa paljon numeerista laskua. Koemaaratkinovat yleensa suuria. Ohjelmistot ovat siis tarpeen, yksinkertaisimmilletapauksille loytyy nettilaskimiakin.

Estimoinnin tuloksena saadaan todennakoisyys p0, etta A tapahtuu,kun regressoreilla on arvot x1 = x0,1, . . . , xk = x0,k:

p0 =1

1 + e−b0−b1x0,1−···−bkx0,k.

Kokeista saatu data annetaan usein seuraavassa muodossa. Jos eri-laisia testattuja regressoriarvoyhdelmia (eli erilaisia X:n riveja) on l kpl,niin annetaan yhdelmille tehtyjen kokeiden lukumaarat n1, . . . , nl sekaniissa realisoituneiden vastearvojen A lukumaarat v1, . . . , vl (tai sittenmolempien vastearvojen realisoituneet lukumaarat).

Page 70: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 6. MONEN MUUTTUJAN LINEAARINEN REGRESSIO 66

Esimerkki. Tassa tutkitaan eraan myrkyn pitoisuuden x1 vaikutusta [12.15]

hyonteisiin. Kokeessa kirjataan siina olleiden hyonteisten kokonaisluku-maara ja kuolleiden hyonteisten lukumaara kullekin testatulle pitoisuu-delle. Tulokset ovat seuraavat:

Myrkyn Hyonteisten KuolleidenKoe pitoisuus kokonais- hyonteisten

x1 lukumaara lukumaara1 0.10 47 82 0.15 53 143 0.20 55 244 0.30 52 325 0.50 46 386 0.70 54 507 0.95 52 50

Ohjelmistot (mm. JMP) ottavat yleensa datan sisaansa tassakin muo- Oikeastaan tasta tulisi da-tamatriisi, jossa on perati

n = 359 rivia.dossa, tietyt muuttujat vain on merkittava frekvenssimuuttujiksi. JMP-tulostus on

Tasta nakyy yhtaloryhmannumeerisen ratkaisun kulku

Newtonin menetelmalla.

Data: Fit Nominal Logistic Page 1 of 1

1 2 3 4 5 6

Iter-248.8398378-180.2962958-172.2325127-171.3239135-171.3046844-171.3046733

LogLikelihoodInitialNewtonNewtonNewtonNewtonNewton

Step 37005558600.454345220.14444273 0.02156960.00052041

3.082e-7

Delta-Criterion .

0.380150570.046816450.005303090.00011224

6.493e-8

Obj-CriterionIteration History

Freq: Lkm

DifferenceFullReduced

Model 70.06115

171.30467 241.36582

-LogLikelihood 1

DF140.1223

ChiSquare <.0001

Prob>ChiSq

RSquare (U)Observations (or Sum Wgts)

0.2903 359

Converged by Gradient

Whole Model Test

Lack Of FitSaturatedFitted

Source 5 6 1

DF 2.94976

168.35491 171.30467

-LogLikelihood5.899523

ChiSquare

0.3161Prob>ChiSq

Lack Of Fit

InterceptMyrkky

Term1.73610651-6.2953873

Estimate0.24204240.7422285

Std Error 51.45 71.94

ChiSquare<.0001<.0001

Prob>ChiSq

For log odds of E/K

Parameter Estimates

MyrkkySource

1Nparm

1DF

71.9398698Wald ChiSquare

0.0000Prob>ChiSq

Effect Wald Tests

Nominal Logistic Fit for Kuollut

Estimoidut parametrit ovat

JMP:n mallissa onkin p =1

1 + eβ0+β1x1+···+βkxk.

b0 = −1.7361 ja b1 = 6.2954

(JMP antaa nama vastakkaismerkkisina). Hyonteisen kuolemistodenna-koisyys p0 annetulle pitoisuudelle x1 = x0,1 saadaan siis (estimoituna)

Page 71: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 6. MONEN MUUTTUJAN LINEAARINEN REGRESSIO 67

kaavasta

p0 =1

1 + e1.7361−6.2954x0,1.

Estimoidun mallin merkitsevyytta voidaan testata eraalla approksi-matiivisella χ2-testilla, ns. uskottavuussuhdetestilla. Estimoitujen para- ”likelihood-ratio test”

metrien merkitsevyytta taas testataan usein ns. Waldin χ2-testilla. Eo. Abraham Wald(1902–1950)esimerkissa estimoidun mallin merkitsevyystesti antaa χ2-testisuureen

arvoksi perati 140.1223 (1 vapausasteella), jota vastaava P-arvo on erit-tain tarkasti = 0. Malli on siis erittain merkitseva. Parametrien testaus P ∼= 10−32

Waldin χ2-testilla osoittaa viela lisaksi, etta molemmat ovat erittain mer-kitsevia.

Usein kiinnostava on vastetason A ns. vetosuhde eli ”odds (ratio)”, vrt. vedon-lyonti

Vetosuhteen logaritmi onem. logitti.

p

1− p,

ennustettuna eb0+b1x0,1+···+bkx0,k .Useampitasoinen vaste kasitellaan vastaavasti. Jos vasteen tasot ovat Ns. multinomilogistinen

regressio.A1, . . . ,Am, niin todennakoisyydet saadaan parametreista seuraavasti:

P(y = A1) =1

1 +∑m

j=2 e−β(j)

0 −β(j)1 x1−···−β(j)

k xkja

P(y = Ah) =e−β

(h)0 −β

(h)1 x1−···−β(h)

k xk

1 +∑m

j=2 e−β(j)

0 −β(j)1 x1−···−β(j)

k xk(h = 2, . . . ,m).

Estimoitavia parametreja β(j)i on yhteensa (m− 1)(k+ 1) kpl. Estimoin-

ti tehdaan tavallisesti tassakin suurimman uskottavuuden menetelmallamuodostaen uskottavuusfunktio naiden todennakoisyyksien tulona.

Talla idealla on monia variantteja. Logistisen jakauman tilalla voi-daan kayttaa muitakin jakaumia, esimerkiksi standardinormaalijakau- Ns. probit-malli.

maa. Edelleen logistisessa mallissa voi olla mukana kategorisia regres-soreita sopivasti koodattuina, yhdysvaikutustermeja jne.

Page 72: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

Luku 7

PARAMETRITTOMATMENETELMAT

Parametrittomia ovat testit, jotka eivat oleta populaatiojakaumilta tiet-tya muotoa ja kohdistuvat lahinna jakaumaa koskeviin todennakoisyyk-siin. Koska t-testien vaatima (approksimatiivinen) normaalisuus ei aina Tallaisia menetelmia olivat

jo Luvussa 4 kasitellytχ2-testit.ole voimassa tai todennettavissa, suositellaan niiden tilalle usein vastaa-

via parametrittomia testeja. On kuitenkin huomattava, etta nama testitmittaavat hieman eri asiaa.

7.1 Merkkitesti [16.1]

Merkkitestilla testataan jatkuvan populaatiojakauman kvantiileja q(f). ”sign test”

Ks. Pykala 1.3.Muista, etta jos X on vastaava satunnaismuuttuja, niin q(f) on sellainenluku, etta P

(X ≤ q(f)

)= f , ts. populaatiokertyma kvantiilipisteessa

q(f) on f . Nollahypoteesi on talloin muotoa

H0 : q(f0) = q0,

missa f0 ja q0 ovat annettuja lukuja. Vaihtoehtoinen hypoteesi on silloinjokin seuraavista kolmesta:

H1 : q(f0) < q0 , H1 : q(f0) > q0 tai H1 : q(f0) 6= q0.

Merkitaan f :lla sellaista lukua, etta todella q(f) = q0. Nollahypoteesi voi-daan silloin esittaa muodossa H0 : f = f0 ja yo. vaihtoehtoiset hypoteesitvastaavasti muodossa

H1 : f0 < f , H1 : f0 > f tai H1 : f0 6= f.

Hypoteesin testaamiseksi otetaan satunnaisotos x1, . . . , xn. Muodos-tetaan vastaava merkkijono s1, . . . , sn, missa

si = sign(xi) =

+, jos xi > q0

0 , jos xi = q0

−, jos xi < q0.

Koska otosdata on usein tavalla tai toisella pyoristettya, jatetaan otok-sesta pois ne alkiot xi, joille si = 0, ja jatketaan lopuilla. Sen jalkeen si

68

Page 73: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 7. PARAMETRITTOMAT MENETELMAT 69

on aina joko + tai −. Merkitaan otoskokoa taman jalkeenkin n:lla. Sa- Teoreettisestikin todenna-koisyys sille, etta tarkasti

Xi = q0, on nolla.tunnaismuuttujiksi ajateltuna otos on X1, . . . , Xn ja merkit S1, . . . , Sn.Miinusmerkkien lukumaara Y noudattaa silloin H0:n voimassaollessa bi-nomijakaumaa Bin(n, f0) ja hypoteesin testaus voidaan suorittaa aivan Nettilaskimiakin loytyy,

mutta lahinna vain me-diaanin testamiseen.samalla tavalla kuin Pykalassa 3.4.

Esimerkki. Eraan akkukayttoisen pensasleikkurin akun lataamisaikaa [16.1]

tutkittiin. Otokseen saatiin 11 aikaa (tunneissa):

1.5 , 2.2 , 0.9 , 1.3 , 2.0 , 1.6 , 1.8 , 1.5 , 2.0 , 1.2 , 1.7.

Latautumisajan jakaumasta ei ole tietoa, paitsi etta se on jatkuva. Halu-taan testata voitaisiinko latautumisajan mediaaniksi esittaa q0 = 1.8 h.Testattava hypoteesipari on siis H0 : q(0.5) = 1.8 h vs. H1 : q(0.5) 6= 1.8h, toisin sanoen H0 : f = 0.5 vs. H1 : f 6= 0.5, missa q(f) = 1.8 h (jaf0 = 0.5).

Koska yksi realisoituneista otosalkioista on juuri tuo 1.8 h, jatetaanse pois ja jatketaan lopuilla n = 10 alkiolla. Merkkijono s1, . . . , s10 onnyt

− , + , − , − , + , − , − , + , − , −.

Realisoitunut miinusmerkkien lukumaara on siis y = 7. Binomijakauma-testin P -arvo on pienempi luvuista

7∑i=0

(10

i

)0.5i(1− 0.5)10−i ja

10∑i=7

(10

i

)0.5i(1− 0.5)10−i

(se on jalkimmainen) kahdella kerrottuna eli P = 0.3438. Nollahypoteesiaei siis tassa hylata. MATLABilla laskut ovat seuraavat:

>> X=[1.5,2.2,0.9,1.3,2.0,1.6,1.8,1.5,2.0,1.2,1.7];

>> P=signtest(X,1.8)

P =

0.3438

Esimerkki. 16 autoa ja ajajaa testasivat kahta eri rengastyyppia R ja [16.2]

B. Testeissa mitattiin autojen polttoaineen kulutus yksikoissa km/l ja tu-lokset olivat seuraavat:

i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16R 4.2 4.7 6.6 7.0 6.7 4.5 5.7 6.0 7.4 4.9 6.1 5.2 5.7 6.9 6.8 4.9B 4.1 4.9 6.2 6.9 6.8 4.4 5.7 5.8 6.9 4.9 6.0 4.9 5.3 6.5 7.1 4.8si + − + + − + 0 + + 0 + + + + − +

Mukana on kulutuksien erotuksista laskettu merkkijono. Kahdessa ko-keessa kulutukset olivat samat ja nama jatettiin pois, jolloin jaljelle jain = 14 koetta ja realisoituneiden miinusmerkkien lukumaara on y = 3.Populaatio muodostuu siis tassa kulutuksien erotuksista. Nollahypoteesion H0 : q(0.5) = 0, ts. etta mediaanikulutusero on = 0, ja vaihtoehtoinen

Page 74: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 7. PARAMETRITTOMAT MENETELMAT 70

hypoteesi H1 : q(0.5) > 0. Toisin sanoen testataan binomitestilla hypo-teesiparia H0 : f = 0.5 vs. H1 : f < 0.5, missa q(f) = 0 (ja f0 = 0.5).Testin P-arvoksi saadaan nyt binomijakauman hantatodennakoisyys

3∑i=0

(14

i

)0.5i(1− 0.5)14−i = 0.0287.

Riskitasolla α = 0.05 nollahypoteesi pitaa siis hylata ja paatella, ettakulutuksien eron mediaanin mielessa rengastyyppi R on parempi. MAT-LABilla laskut ovat seuraavat:

>> D=[4.2 4.7 6.6 7.0 6.7 4.5 5.7 6.0 7.4 4.9 6.1 5.2 5.7 6.9 6.8 4.9;

4.1 4.9 6.2 6.9 6.8 4.4 5.7 5.8 6.9 4.9 6.0 4.9 5.3 6.5 7.1 4.8];

>> P=signtest(D(1,:),D(2,:))

P =

0.0574

>> P/2

ans =

0.0287

7.2 Merkityn jarjestyksen testi [16.2]

Jos voidaan rajoittua tietyn tyyppisiin jakaumiin ja tiettyihin kvantiilei-hin, saadaan vahvempia testeja. Eras tallainen on (Wilcoxonin) merkityn ”signed-rank test”

Frank Wilcoxon (1892–1965), parametrittoman

tilastomatematiikan uran-uurtaja

jarjestyksen testi. Siina oletetaan populaatiojakaumasta, jatkuvuuden li-saksi, etta se on symmetrinen. Lisaksi voidaan testata vain mediaania.

Merkitaan jatkossa lyhyyden vuoksi populaatiojakauman mediaaniaµ:lla. Ym. symmetrisyys tarkoittaa silloin sita, etta populaatiotiheysfunk-tio f toteuttaa ehdon f(µ+x) = f(µ−x). Nollahypoteesi on H0 : µ = µ0,missa µ0 on annettu luku. Jos saatu otos on x1, . . . , xn, menetellaan seu-raavasti:

1. Vahennetaan otosalkioista µ0, jolloin saadaan luvut

di = xi − µ0 (i = 1, . . . , n).

Mikali jokin di = 0, jatetaan otosalkio xi pois otoksesta.

2. Jarjestetaan luvut d1, . . . , dn itseisarvojarjestykseen ja annetaankullekin luvulle di vastaava jarjestysnumero ri. Jos listassa d1, . . . ,dn on itseisarvoltaan samoja lukuja, jolloin niiden jarjestysnumerotovat perakkaiset, annetaan niille kaikille jarjestysnumeroksi alkupe-raisten perakkaisten jarjestysnumerojen keskiarvo. Jos esimerkiksitarkalleen neljalla luvuista d0, . . . , dn on tietty sama itseisarvo janiiden alkuperaiset jarjestysnumerot ovat 6, 7, 8 ja 9, annetaan niil-le kaikille jarjestysnumeroksi (6 + 7 + 8 + 9)/4 = 7.5.

3. Lasketaan yhteen kaikkien sellaisten lukujen di jarjestysnumerot,jotka ovat positiivisia. Nain saadaan luku w+. Vastaavasti lasketaanyhteen kaikkien sellaisten lukujen di jarjestysnumerot, jotka ovatnegatiivisia, ja saadaan luku w−.

Page 75: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 7. PARAMETRITTOMAT MENETELMAT 71

4. Merkitaan w = min(w+, w−).

Satunnaismuuttuja-ajattelussa saataisiin vastaavasti W+, W− ja W .Testauksessa eri vaihtoehdot ovat seuraavat:

• Jos tosiasiassa µ < µ0, pyrkii w+ olemaan pieni ja w− iso. Tamatilanne johtaa silloin H0:n hylkaamiseen vaihtoehtoisen hypoteesinH1 : µ < µ0 hyvaksi.

• Vastaavasti, jos tosiasiassa µ > µ0, pyrkii w+ olemaan suuri ja w−pieni ja H0 hylataan vaihtoehtoisen hypoteesin H1 : µ > µ0 hyvaksi.

• Edelleen, jos jompikumpi luvuista w+ ja w− on pieni, jolloin w onpieni, se on merkki siita, etta µ 6= µ0 ja H0 pitaisi hylata vaihtoeh-toisen hypoteesin H1 : µ 6= µ0 hyvaksi.

Tarkat kriittiset arvot eri riskitodennakoisyyksille (H0:n voimassaollessa) Nettilaskimia loytyy talle-kin testille. Huomattakoon,etta eri ohjelmistot ilmoit-tavat jarjestyssumman hie-

man eri tavalla.

ovat tyolaita laskea ja ne katsotaan vielakin usein taulukoista. Suurillen:n arvoille W+:n (ja W−:n) jakauma lahestyy kyllakin talloin normaali-jakaumaa, ts.

W+ ≈ N(n(n+ 1)

4,n(n+ 1)(2n+ 1)

24

).

Symmetriasyista lienee muuten melko ilmeista, etta E(W+) = n(n+1)/4,silla kaikkien jarjestyslukujen summa on aritmeettisen sarjan summana1 + 2 + · · ·+ n = n(n+ 1)/2. Varianssi on vaikeampi paatella.

Esimerkki. Palataan eo. latautumisaikaesimerkin testiin, mutta tehdaan [16.3]

se nyt merkityn jarjestyksen testilla. Saadut luvut di ja niiden jarjestys- Nyt pitaa siis olettaa, ettajakauma on symmetrinen.numerot ri ovat

i 1 2 3 4 5 6 7 8 9 10xi 1.5 2.2 0.9 1.3 2.0 1.6 1.5 2.0 1.2 1.7di −0.3 0.4 −0.9 −0.5 0.2 −0.2 −0.3 0.2 −0.6 −0.1ri 5.5 7 10 8 3 3 5.5 3 9 1

Naista saadaan laskien yhteen realisoituneet luvut w+ = 13 seka w− = 42ja w = 13. Vastaava P-arvo on P = 0.1562 (MATLAB) eika nollahypo- MATLAB-kasky

P=signrank(X,1.8)teesia nain hylata tassakaan testissa. JMP:n tulostus on seuraava:Data_16_1: Distribution Page 1 of 1

Hypothesized Value

Actual Estimate

df

Std Dev

1.8

1.60909

10

0.38589

Test Statistic

Prob > |t|

Prob > t

Prob < t

-1.6408

0.1319

0.9341

0.0659

t Test

-14.500

0.156

0.922

0.078

Signed-Rank

Test Mean=value

Aika

Distributions

t-testitulos on tassa sa-mantapainen kuin merkityn

jarjestyksen testilla.

Page 76: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 7. PARAMETRITTOMAT MENETELMAT 72

Esimerkki. Tiettyja testituloksia verrataan. Halutaan saada tietaa, onko [16.4]

testitulos parempi, jos koehenkilo voi etukateen harjoitella samantapaisil-la tehtavilla. Asian tutkimiseksi valittiin n = 10 koehenkiloparia, joistayhdelle annettiin ennen testia muutama samanlainen tehtava ja toiselleei. Saatiin seuraavat tulokset (testipisteet):

i 1 2 3 4 5 6 7 8 9 10Harjoittelua 531 621 663 579 451 660 591 719 543 575

Ei harjoittelua 509 540 688 502 424 683 568 748 530 524

Asetetun nollahypoteesin H0 mukaisesti testitulosten erotuksien mediaani Huomaa, etta tassa ei tes-tata testipisteiden mediaa-

neja! Yleisesti erotuksenmediaani ei ole sama kuin

mediaanien erotus.

on µ0 = 50. Vaihtoehtoinen hypoteesi H1 taas vaittaa, etta ko. mediaanion < 50. Kyseessa on siis toispuolinen testi. Testia varten lasketaantaulukko

i 1 2 3 4 5 6 7 8 9 10di 22 81 −25 77 27 −23 23 −29 13 51

di − µ0 −28 31 −75 27 −23 −73 −27 −79 −37 1ri 5 6 9 3.5 2 8 3.5 10 7 1

josta nahdaan, etta w+ = 10.5. Vastaava P-arvo on P = 0.0449 (MAT- MATLAB-kaskyP=signrank(D(1,:)-50,

D(2,:))/2LAB). Nain ollen H0 voidaan hylata riskitasolla α = 0.05 ja paatella,etta harjoittelu etukateen ei paranna testitulosta (vahintaan) 50 pisteellaerotuksen mediaanimielessa. JMP:n tulostus on seuraava:

Data: Matched Pairs Page 1 of 1

Harjoittelua-50

Ei_harjoittelua

Mean Difference

Std Error

Upper95%

Lower95%

N

Correlation

543.3

571.6

-28.3

12.5999

0.20288

-56.803

10

0.93713

t-Ratio

DF

Prob > |t|

Prob > t

Prob < t

-2.24606

9

0.0513

0.9743

0.0257

Difference: Harjoittelua-50-Ei_harjoittelua

Test Statistic

Prob > |z|

Prob > z

Prob < z

-17.000

0.090

0.955

0.045

Harjoittelua-50-Ei_harjoittelua

Wilcoxon Sign-Rank

Matched Pairs

t-testitulos poikkeaa tassajonkin verran merkityn jar-

jestyksen testista.

7.3 Mann–Whitney-testi [16.3]

Mann–Whitney-testi vertaa kahden jatkuvan populaatiojakauman medi- Henry Mann (1905–2000)Ransom Whitney (1915–

2001)aaneja. Testia kutsutaan myos U-testiksi tai (Wilcoxonin) jarjestyssum-matestiksi tai vain Wilcoxonin testiksi. Merkitaan kyseisia populaatio-

”rank-sum test”mediaaneja µ1:lla ja µ2:lla. Nollahypoteesi on silloin H0 : µ1 = µ2. Oi-Nain ollen testi ei miten-kaan lopullisesti ratkaiseBehrens–Fisher-problee-maa, vaikka nain usein

mainitaankin.

keastaan nollahypoteesi on, etta populaatiojakaumat ovat samat—jolloinniilla on tietysti sama mediaanikin—silla talla oletuksella lasketaan kriit-tiset rajat jne.

Page 77: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 7. PARAMETRITTOMAT MENETELMAT 73

Mann–Whitney-testi reagoi herkasti nimenomaan populaatiomediaa-nien eroon, mutta paljon heikommin moniin muihin populaatiojakaumieneroihin. Tasta syysta se ei myoskaan oikein kay populaatiojakaumien sa-muustestiksi, vaikka nain usein todetaankin. Monet katsovatkin, etta testion tulkittava puhtaasti lokaatiotestiksi, jolloin hypoteesien H0 ja H1 mu-kaiset jakaumat ovat samanmuotoiset, vain eri paikassa.

Testin suorittamiseksi otetaan populaatioista otokset

x1,1, . . . , x1,n1 ja x2,1, . . . , x2,n2 .

Sovitaan, etta otoskoista n1 on pienempi. Menetellaan nyt seuraavasti: Jos ne ovat erisuuret—ta-ma vain laskujen helpotta-

miseksi.1. Yhdistetaan otokset yhteisotokseksi

x1,1, . . . , x1,n1 , x2,1, . . . , x2,n2 .

2. Jarjestetaan yhteisotosalkiot suuruusjarjestykseen ja annetaan niil-le vastaavat jarjestysluvut

r1,1, . . . , r1,n1 , r2,1, . . . , r2,n2 .

Jos yhteisotoksessa on samoja lukuja, jolloin niiden jarjestysnu-merot ovat perakkaiset, annetaan niille kaikille jarjestysnumeroksialkuperaisten perakkaisten jarjestysnumerojen keskiarvo. Jos esi-merkiksi tarkalleen kolmella yhteisotoksen alkioista on tietty samaarvo ja niiden alkuperaiset jarjestysnumerot ovat 6, 7 ja 8, annetaanniille kaikille silloin jarjestysnumeroksi (6 + 7 + 8)/3 = 7.

3. Lasketaan yhteen ensimmaisen otoksen n1 jarjestyslukua. Nain saa-daan luku w1 = r1,1 + · · ·+ r1,n1 .

4. Vastaavasti laskien yhteen toisen otoksen n2 jarjestyslukua saadaanluku w2 = r2,1 + · · · + r2,n2 . Huomaa, etta aritmeettisen sarjansummana

w1 + w2 =(n1 + n2)(n1 + n2 + 1)

2,

mista w2 saadaan helposti lasketuksi, kun w1 on saatu.

5. Merkitaan viela w = min(w1, w2).

Satunnaismuuttujamielessa saataisiin vastaavasti satunnaismuuttujatW1,W2 seka W . Usein naiden tilalla kaytetaan lukuja

u1 = w1 −n1(n1 + 1)

2, u2 = w2 −

n2(n2 + 1)

2ja u = min(u1, u2),

seka vastaavia satunnaismuuttujia U1, U2 ja U . Tasta tulee nimi ”U-testi”.

Testattaessa voivat esiintya seuraavat tilanteet:

• Jos tosiasiassa µ1 < µ2, pyrkii w1 olemaan pieni ja w2 iso. Tamatilanne johtaa silloin H0:n hylkaamiseen vaihtoehtoisen hypoteesinH1 : µ1 < µ2 hyvaksi.

Page 78: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 7. PARAMETRITTOMAT MENETELMAT 74

• Vastaavasti, jos tosiasiassa µ1 > µ2, pyrkii w1 olemaan suuri jaw2 pieni ja H0 hylataan vaihtoehtoisen hypoteesin H1 : µ1 > µ2

hyvaksi.

• Edelleen, jos jompikumpi luvuista w1 ja w2 on pieni, jolloin w onpieni, se on merkki siita, etta µ1 6= µ2 ja H0 pitaisi hylata vaihtoeh-toisen hypoteesin H1 : µ1 6= µ2 hyvaksi.

Vastaavalla tavalla testissa voitaisiin kayttaa lukuja u1, u2 ja u.Tarkat kriittiset arvot eri riskitodennakoisyyksille (H0:n voimassaol-

lessa) ovat tyolaita laskea ja ne katsotaan vielakin usein taulukoista. Suu-rille n1:n ja n2:n arvoille W1:n (ja W2:n) jakauma lahestyy kyllakin talloinnormaalijakaumaa, ts.

W1 ≈ N(n1(n1 + n2 + 1)

2,n1n2(n1 + n2 + 1)

12

).

Nettilaskimia loytyy tallekin testille.

Esimerkki. Kahden eri savukemerkin A ja B nikotiinipitoisuuksia mi- [16.5]

tattiin (yksikkona mg). Testattava hypoteesipari on H0 : µA = µB vs.H1 : µA 6= µB. Saatiin seuraavat tulokset, mukana myos yhteisotoksenjarjestysluvut:

i 1 2 3 4 5 6 7 8 9 10xA,i 2.1 4.0 6.3 5.4 4.8 3.7 6.1 3.3 – –rA,i 4 10.5 18 14.5 13 9 16 8 – –xB,i 4.1 0.6 3.1 2.5 4.0 6.2 1.6 2.2 1.9 5.4rB,i 12 1 7 6 10.5 17 2 5 3 14.5

Otoskoot olivat siis nA = 8 ja nB = 10. Laskien saadaan wA = 93 jawB = 78 seka w = 78. (Vastaavasti saataisiin uA = 57 ja uB = 23 sekau = 23.) Tasta saadaan P-arvoksi P = 0.1392 (MATLAB) eika H0:a ole MATLAB-kasky

P=ranksum(X_A,X_B)syyta hylata. JMP:n tulostus on seuraava:Data: Oneway Page 1 of 1

A

B

Level

8

10

Count

93

78

Score Sum

11.6250

7.8000

Score Mean

1.468

-1.468

(Mean-Mean0)/Std0

93

S

1.46758

Z

0.1422

Prob>|Z|

2-Sample Test, Normal Approximation

2.2863

ChiSquare

1

DF

0.1305

Prob>ChiSq

1-way Test, ChiSquare Approximation

Wilcoxon / Kruskal-Wallis Tests (Rank Sums)

Oneway Analysis of Nikotiini By Merkki

Nama ovat siis approksi-maatioita.

7.4 Kruskal–Wallis-testi [16.4]

Kruskal–Wallis-testi on Mann–Whitney-testin yleistys tilanteeseen, jos- William Kruskal (1919–2005), Allen Wallis

(1912–1998)sa vertailtavia populaatioita voi olla enemmankin kuin kaksi. Merkitaan

Page 79: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 7. PARAMETRITTOMAT MENETELMAT 75

populaatioiden (k kpl) jakaumien mediaaneja samaan tapaan kuin edel-la: µ1, . . . , µk. Kuten Mann–Whitney-testi, Kruskal–Wallis-testi vertaileepopulaatiojakaumia niiden mediaanien kautta, vaikkakin oletus kriitti-sia arvoja laskiessa on, etta populaatiojakaumat ovat samat. Oleellisestinollahypoteesi on

H0 : µ1 = · · · = µk.

Testin suorittamiseksi otetaan kustakin populaatiosta otos, namaotokset yhdistetaan yhteisotokseksi ja sen alkiot jarjestetaan suuruusjar-jestykseen aivan kuten Mann–Whitney-testissakin. Erityisesti toistuvatarvot kasitellaan samalla tavalla. Kustakin populaatiosta otetun otoksenalkioiden jarjestysluvut lasketaan yhteen, jolloin saadaan jarjestyssum-mat w1, . . . , wk ja vastaavat satunnaismuuttujat W1, . . . ,Wk. Merkitaanviela j:nnen populaation otoskokoa nj:lla ja n = n1 + · · ·+ nk.

Testin tarkan kriittisen rajan laskeminen on hyvin tyolasta, ainakinvahankaan suuremmille k:n arvoille. Testi tehdaankin yleensa silla tie-dolla, etta (H0:n voimassaollessa) satunnaismuuttujalla

H =12

n(n+ 1)

k∑j=1

W 2j

nj− 3(n+ 1)

on approksimatiivisesti χ2-jakauma k − 1 vapausasteella. Tata approk-simaatiota voidaan kayttaa myos Mann–Whitney-testille (jossa k = 2). Nain teki JMP edellisessa

esimerkissa.Testin (approksimatiivinen) P-arvo saadaankin realisoitunutta H:n arvoa

h =12

n(n+ 1)

k∑j=1

w2j

nj− 3(n+ 1)

vastaavana χ2-jakauman loppuhantatodennakoisyytena (siis k − 1 va-pausasteella). Jalleen nettilaskimiakin talle testille on, ainakin pienem-mille k:n arvoille.

Esimerkki. Kolmen eri ohjustyypin A, B ja C polttoaineen palamisno- [16.6]

peutta tutkittiin. Tulokset (sopivasti koodattuina) ovat alla, mukana ovatmyos jarjestysluvut.

i 1 2 3 4 5 6 7 8 wxA,i 24.0 16.7 22.8 19.8 18.9 – – –rA,i 19 1 17 14.5 9.5 – – – 61xB,i 23.2 19.8 18.1 17.6 20.2 17.8 – –rB,i 18 14.5 6 4 16 5 – – 63.5xC,i 18.4 19.1 17.3 17.3 19.7 18.9 18.8 19.3rC,i 7 11 2.5 2.5 13 9.5 8 12 65.5

Tasta laskettu testisuure on h = 1.6586 ja vastaava χ2-jakaumasta(2 vapausasteella) saatu P-arvo on P = 0.4364 eika H0:a hylata. Oh-justyypit ovat siis polttoaineen palonopeuden puolesta samanlaiset medi-aaneilla mitaten. JMP:n tulostus on seuraava:

Page 80: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 7. PARAMETRITTOMAT MENETELMAT 76Data: Oneway Page 1 of 1

A

B

C

Level

5

6

8

Count

61

63.5

65.5

Score Sum

12.2000

10.5833

8.1875

Score Mean

0.973

0.263

-1.158

(Mean-Mean0)/Std0

1.6630

ChiSquare

2

DF

0.4354

Prob>ChiSq

1-way Test, ChiSquare Approximation

Wilcoxon / Kruskal-Wallis Tests (Rank Sums)

Oneway Analysis of Palonopeus By Tyyppi

MATLABilla laskut ovat seuraavat:

Huomaa pieni ero edelli-seen verrattuna! JMP las-

keekin ns. korjatun testi-suureen. Siita on etua, mi-

kali toistuvia arvoja on pal-jon.

Samoin tekee MATLAB!

>> X=[24.0 16.7 22.8 19.8 18.9];

>> Y=[ 23.2 19.8 18.1 17.6 20.2 17.8];

>> Z=[18.4 19.1 17.3 17.3 19.7 18.9 18.8 19.3];

>> ryhma=[ones(1,length(X)) 2*ones(1,length(Y)) 3*ones(1,length(Z))];

>> P=kruskalwallis([X Y Z],ryhma)

P =

0.4354

7.5 Jarjestyskorrelaatiokerroin [16.5]

Jos kaksi populaatiota liittyy alkio alkiolta toisiinsa, kuvataan naidensuhdetta usein otoksista saatavalla suureella, ns. (Pearsonin) otoskorre-laatiokertoimella r. Taman laskemista varten otetaan n alkion satunnais-otos kummastakin populaatiosta vastinalkioittain:

x1,1, . . . , x1,n ja x2,1, . . . , x2,n.

r:n laskemiseksi lasketaan ensin otoskovarianssi

q =1

n− 1

n∑i=1

(x1,i − x1)(x2,i − x2),

joka on populaatiojakaumien kovarianssin (harhaton) estimaatti. Tassax1 on ensimmaisen otoksen otoskeskiarvo ja x2 toisen. Tasta saadaanedelleen mainittu otoskorrelaatiokerroin

r =q

s1s2,

missa s21 on ensimmaisen otoksen otosvarianssi ja s22 toisen. Tata kay- Lisaoletuksena on tietysti,etta s1, s2 6= 0.tetaan populaatiojakaumien (lineaarisen) riippuvuuden tutkimiseen sa-

maan tapaan kuin varsinaista korrelaatiokerrointa corr(X, Y ). Myos r:n Ks. kurssi Todennakoisyys-laskenta.arvot ovat valilla [−1, 1].

Populaatioiden jarjestyskorrelaatiokerroin on samantapainen paramet-riton suure. Jarjestetaan sita varten kummankin otoksen alkiot erikseensuuruusjarjestykseen ja annetaan niille jarjestysluvut kuten edella:

r1,1, . . . , r1,n ja r2,1, . . . , r2,n.

Erityisesti mahdolliset toistuvat arvot kasitellaan kuten edella. Kummal-lekin otokselle sen jarjestyslukujen keskiarvo on Vrt. aritmeettinen sarja.

Page 81: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 7. PARAMETRITTOMAT MENETELMAT 77

r =1

n(1 + 2 + · · ·+ n) =

n+ 1

2.

Edelleen saadaan kummankin otoksen jarjestyslukujen nelioiden summa,olettaen, ettei samoja arvoja esiinny:

n∑i=1

r21,i =n∑i=1

r22,i = 12 + 22 + · · ·+ n2 =1

6n(n+ 1)(2n+ 1).

Spearmanin jarjestyskorrelaatiokerroin on silloin yksinkertaisesti jarjes- Lisaoletuksena on, ettakummankaan otoksenjarjestysluvut eivat ole

kaikki samoja.

Charles Spearman (1863–1945)

tysluvuista saatava otoskorrelaatiokerroin, ts.

rS =

n∑i=1

(r1,i − r)(r2,i − r)√n∑i=1

(r1,i − r)2√

n∑i=1

(r2,i − r)2.

Tama on helpompi laskea, jos (kuten nyt oletetaan) samoja arvoja eiesiinny otoksissa. Samaan tapaan kuin tehtiin otosvariansseille nahdaan,etta

n∑i=1

(r1,i − r)(r2,i − r) =n∑i=1

r1,ir2,i − n r 2 =n∑i=1

r1,ir2,i −1

4n(n+ 1)2

ja

n∑i=1

(r1,i − r)2 =n∑i=1

r21,i −1

4n(n+ 1)2 = (12 + 22 + · · ·+ n2)− 1

4n(n+ 1)2

=1

6n(n+ 1)(2n+ 1)− 1

4n(n+ 1)2 =

1

12n(n2 − 1),

samoin toiselle otokselle. Naita kayttaen saadaan pienella laskulla jarjes-tyskorrelaatiokertoimelle yksinkertaisempi kaava

rS =12

n(n2 − 1)

n∑i=1

r1,ir2,i − 3n+ 1

n− 1.

Jarjestyslukujen erotuksien di = r1,i − r2,i nelioiden summa voidaan toi-saalta yhdistaa kaavassa esiintyvaan summaan

∑ni=1 r1,ir2,i:∑

i=1

d2i =n∑i=1

(r21,i − 2r1,ir2,i + r22,i) = −2n∑i=1

r1,ir2,i +1

3n(n+ 1)(2n+ 1).

Nain saadaan viela vahan laskien rS lausutuksi ko. erotuksien avulla vie-lakin yksinkertaisemmin:

rS = 1− 6

n(n2 − 1)

n∑i=1

d2i .

Tama ”helppo” kaava patee siis tarkasti ottaen vain, kun otosarvot eivat Outoa kylla, sita nakojaankuitenkin kaytetaan ylei-

sesti silloinkin, kun netoistuvat. Tulos ei silloin

valttamatta ole oikeintarkka.

toistu.

Page 82: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 7. PARAMETRITTOMAT MENETELMAT 78

Toisin kuin Pearsonin korrelaatiokerroin Spearmanin korrelaatioker-roin pystyy mittaamaan jossain maarin myos epalineaarista korrelaatiotapopulaatiojakaumien valilla. Sita voidaan myos kayttaa ordinaaliarvoi-sille populaatiojakaumille (diskreetti kategorinen jakauma, jonka tasotvoidaan asettaa jarjestykseen).

Esimerkki. Edella olevassa esimerkissa rengastyyppien R ja B jarjes-tysotoskorrelaatiokerroin rS = 0.9638 on korkea kuten pitaakin, silla au-tot ja kuljettajat olivat koepareittain samat. Myoskin (Pearsonin) otos-korrelaatiokerroin r = 0.9743 on korkea. Nama lasketaan MATLABillaseuraavasti:

>> D=[4.2 4.7 6.6 7.0 6.7 4.5 5.7 6.0 7.4 4.9 6.1 5.2 5.7 6.9 6.8 4.9;

4.1 4.9 6.2 6.9 6.8 4.4 5.7 5.8 6.9 4.9 6.0 4.9 5.3 6.5 7.1 4.8];

>> corr(D(1,:)’,D(2,:)’,’type’,’Spearman’)

ans =

0.9638

>> corr(D(1,:)’,D(2,:)’,’type’,’Pearson’)

ans =

0.9743

Toinen paljon kaytetty jarjestyskorrelaatiokerroin on ns. Kendallinkorrelaatiokerroin.

Page 83: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

Luku 8

STOKASTINENSIMULOINTI

Kirjassa WMMY ei kasitella satunnaislukujen generointia ja stokastistasimulointia. Seuraavassa on lyhyt katsaus perusmenetelmiin.

8.1 Satunnaislukujen generointi

Stokastinen simulointi kattaa sellaiset menettelyt, joissa vaiheessa tai toi-sessa kaytetaan generoituja satunnaislukuja. Nama satunnaisluvut voivattulla eri jakaumista, mutta yleensa ne ovat riippumattomia. Satunnaislu-kujen generointi—erityisesti nopea ja tarkka generointi—on hankala nu-meerisen analyysin alue. Esiteltavat menettelyt ovat yksinkertaisia, mut-ta eivat valttamatta riittavan nopeita tai tarkkoja vaativiin sovelluksiin.Jotakuinkin kaikissa tilasto-ohjelmistoissa, mm. MATLABissa, on satun-naislukugeneraattoreita tavallisimmille jakaumille. Nettigeneraattoreita-kin loytyy, mutta ne eivat aina sovellu ”oikeaan” simulointiin.

8.1.1 Tasajakaumien generointi

Valille [0, 1) tasan jakautuneita (riippumattomia) satunnaislukuja gene- Asiaa kasitellaan mm. mo-nisteissa RUOHONEN, K:Matemaattinen kryptolo-

gia tai RUOHONEN, K:Symbolinen analyysi.

roidaan lukuteoreettisin menetelmin. Jatkossa oletetaan, etta tallaisia sa-tunnaislukuja on saatavilla. On huomattava, etta nama satunnaisluku-generaattorit ovat taysin deterministisia ohjelmia, joissa ei ole mitaansatunnaista. Generoidut lukujonot kuitenkin kayttaytyvat kyllin hyvin ”pseudo-random numbers”

kuten ”oikeat” satunnaisluvut.Avoimelle valille (0, 1) tasan jakautuneita satunnaislukuja saadaan

hylkaamalla generoituneet 0-arvot. Suljetulle valille [0, 1] tasan jakau-tuneita satunnaislukuja taas saadaan vaikkapa hylkaamalla arvot, jotkaovat > 0.5 ja kertomalla tulos kahdella. Ja viela, jos U on tasan jakau-tunut valille [0, 1), niin 1 − U on tasan jakautunut valille (0, 1]. Valintyypilla ei siis ole valia.

Helposti saadaan muillekin kuin valille [0, 1) tasan jakautuneita sa-tunnaislukuja. Jos nimittain U on tasan jakautunut valille [0, 1), niin(b− a)U + a on tasan jakautunut valille [a, b). Muun tyyppiset valit ka-sitellaan vastaavasti.

79

Page 84: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 8. STOKASTINEN SIMULOINTI 80

8.1.2 Diskreettien jakaumien generointi

Aarelliset jakaumat ovat helposti generoitavissa. Jos aarellisen jakaumanmahdolliset tapaukset ovat T1, . . . , Tm ja niiden todennakoisyydet ovatvastaavasti p1, . . . , pm (missa p1, . . . , pm > 0 ja p1 + · · · + pm = 1), niinseuraava menettely generoi jakauman mukaisen tapauksen:

1. Generoidaan valille [0, 1) tasan jakautunut satunnaisluku u.

2. Etsitaan sellainen indeksi i, etta p0 + · · ·+ pi ≤ u < p0 + · · ·+ pi+1,missa sovitaan etta p0 = 0.

3. Tulostetaan Ti+1.

Tama menetelma sopii erityisesti diskreetin tasajakauman generointiin.Silloin p1 = · · · = pn = 1/n. Talla tavoin voidaan esimerkiksi ottaasatunnaisotos aarellisesta populaatiosta numeroimalla sen alkiot.

Binomijakauma Bin(p, n) on periaatteessa generoitavissa aarellisenajakaumana eo. menettelylla, mutta se on yleensa liian raskas. Helpom-malla paasee, kun generoi n kpl sellaisen aarellisen jakauman tapausta, Bernoullin jakauma

jossa mahdolliset tapaukset ovat T1 ja T2 ja P(T1) = p. Realisoitunutbinomijakautunut satunnaisluku x on silloin realisoitunut tapausten T1lukumaara.

Poissonin jakauma on vaikeampi generoida. Parametrilla λ Poisson-jakautuneen satunnaismuuttujan X mahdolliset arvot x ovat kokonaislu-vut 0, 1, 2, . . . ja

P(X = x) =λx

x!e−λ.

Eras tapa generoida X:n arvoja x on kayttaa apuna eksponenttijakaumaa(jonka generointiin palataan myohemmin). Jos satunnaismuuttujalla Yon eksponenttijakauma parametrilla λ, niin sen tiheysfunktio on λe−λy

(kun y ≥ 0 ja = 0 muualla). Helpolla laskulla todetaan, etta

P(Y ≤ 1) = 1− e−λ = 1− P(X = 0) = P(X ≥ 1).

Vaikeampi on todeta (sivuutetaan) yleisempi tulos, etta jos Y1, . . . , Ykovat riippumattomia eksponenttijakautuneita satunnaismuuttujia (kukinniista parametrilla λ) seka Wk = Y1 + · · ·+ Yk, niin

P(Wk ≤ 1) = 1−k−1∑i=0

λi

i!e−λ = 1− P(X ≤ k − 1) = P(X ≥ k).

Nain ollen

P(X = k−1) = P(X ≥ k−1)−P(X ≥ k) = P(Wk−1 ≤ 1)−P(Wk ≤ 1).

Tasta kaikesta voidaan paatella, etta seuraava menettely tuottaa para-metrilla λ Poisson-jakautuneen satunnaisluvun x:

1. Generoidaan toistuvasti riippumattomia parametrilla λ eksponent-tijakautuneita satunnaislukuja niin kauan kun niiden summa on≤ 1.

2. Kun summa ensimmaisen kerran ylittaa 1:n, katsotaan generoitujeneksponenttijakautuneiden satunnaislukujen lukumaara k.

3. Tulostetaan x = k − 1.

Page 85: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 8. STOKASTINEN SIMULOINTI 81

8.1.3 Jatkuvien jakaumien generointi kaanteisker-tymamenetelmalla

Jos jatkuvan satunnaismuuttujan X kertymafunktiolla F on kaanteis-funktio F−1 (sellaisessa joukossa, jossa sen tiheysfunktio on 6= 0), niinX:n arvoja x voidaan generoida lahtien tasajakaumasta. Pulmana voivain olla mainitun kaanteisfunktion arvojen laskeminen kyllin nopeasti.Tama ns. kaanteiskertymamenetelma on seuraava: ”inverse transform method”

1. Generoidaan valille [0, 1) tasan jakautunut satunnaisluku u (vas-taava satunnaismuuttuja on U).

2. Lasketaan x = F−1(u) (ts. u = F (x) ja satunnaismuuttujille U =F (X)).

3. Tulostetaan x.

Menettely perustuu seuraavaan havaintoon: Koska kertymafunktiona Fon ei-vaheneva ja U :n kertymafunktio valilla [0, 1) on G(u) = u, niin

P(X ≤ x) = P(F (X) ≤ F (x)

)= P

(U ≤ F (x)

)= G

(F (x)

)= F (x).

Myoskin suuresta otoksesta saatua empiirista kertymafunktiota voidaankayttaa, otosarvojen valisia arvoja lineaarisesti interpoloiden. Kayttaen ns. ogiivia.

Katsotaan esimerkkina eksponenttijakauman tapaus, joka jo edellatarvittiin Poissonin jakaumaa generoitaessa. Jos X:lla on eksponenttija-kauma parametrilla λ, niin sen kertymafunktio on F (x) = 1− e−λx (kunx ≥ 0). Kaanteisfunktio F−1 on helposti loydettavissa: Jos y = 1− e−λx,niin

x = F−1(y) = −1

λln(1− y).

Jokaista generoitua valille [0, 1) tasan jakautunutta satunnaislukua ukohti saadaan siis parametrilla λ eksponenttijakautunut satunnaisluku

x = −1

λln(1− u).

Normaalijakauman N(µ, σ2) generoimiseksi riittaa generoida standar-dinormaalijakauma. Jos nimittain satunnaismuuttujalla Z on standardi-normaalijakauma, niin satunnaismuuttujalla X = σZ+µ on N(µ, σ2)-ja-kauma. Standardinormaalijakauman kertymafunktion

Φ(x) =1√2π

x∫−∞

e−12t2dt

kaanteisfunktio Φ−1 (kvantiilifunktio) ei ole esitettavissa ”tuttujen” funk-tioiden avulla eika aivan helposti laskettavissa numeerisestikaan. Jonkin-laisen approksimaation antaa Pykalassa 1.3 mainittu tulos

Φ−1(y) = q0,1(y) ∼= 4.91(y0.14 − (1− y)0.14

).

Page 86: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 8. STOKASTINEN SIMULOINTI 82

Huomattavasti parempi approksimaatio on esimerkiksi

Φ−1(y) ∼=

{w − v, kun 0 < y ≤ 0.5

v − w, kun 0.5 ≤ y < 1,

missa

w =2.515517 + 0.802853v + 0.010328v2

1 + 1.432788v + 0.189269v2 + 0.001308v3

ja

v =√−2 ln

(min(y, 1− y)

).

Normaalijakaumasta saatavia jakaumia voidaan generoida aivan sillatavoin kuin ne normaalijakaumasta saadaan. Jos generoitavana on χ2-ja-kauma n vapausasteella, niin generoidaan n riippumatonta standardinor-maalia satunnaislukua z1, . . . , zn ja lasketaan

v = z21 + · · ·+ z2n.

Jos taas generoitavana on t-jakauma n vapausasteella, generoidaan n+ 1riippumatonta standardinormaalia satunnaislukua z1, . . . , zn+1 ja laske-taan

t =zn+1

√n√

z21 + · · ·+ z2n.

Ja jos generoitavana on F-jakauma vapausastein n1 ja n2, generoidaann1 + n2 riippumatonta standardinormaalia satunnaislukua z1, . . . , zn1+n2

ja lasketaan

f =z21 + · · ·+ z2n1

z2n1+1 + · · ·+ z2n1+n2

n2

n1

.

8.1.4 Jatkuvien jakaumien generointi hyvaksy–hyl-kaa-menetelmalla

Hyvaksy–hylkaa-menetelmaa soveltuu sellaisen satunnaisluvun x gene- ”accept–reject method”

rointiin, jota vastaavan jakauman tiheysfunktio f on 6= 0 vain tietyllaaarellisella valilla [a, b] (ei valttamatta koko valilla) ja on talla valillarajoitettu luvulla c. Menettely on seuraava:

1. Generoidaan satunnaisluku u, joka on tasan jakautunut valille [a, b],ja siita riippumatta valille (0, c] tasan jakautunut satunnaisluku v.

2. Toistetaan tarvittaessa kohtaa 1. kunnes v ≤ f(u). (Muista, etta foli siis rajoitettu luvulla c, ts. f(u) ≤ c.)

3. Tulostetaan x = u.

Metodi toimii seuraavasta syysta:

• Generoidut satunnaislukuparit (u, v) ovat tasan jakautuneet suora-kulmioon a ≤ u ≤ b, 0 < v ≤ c.

• Kohtaan 3. selviavat vain ne parit, joille v ≤ f(x), ja ne ovat sillointasan jakautuneet alueeseen A : a ≤ u ≤ b, 0 < v ≤ f(u).

Page 87: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 8. STOKASTINEN SIMULOINTI 83

• Alueen A ala on ilmeisestikin

b∫a

f(u) du = 1,

joten vm. tasajakauman tiheysfunktio alueessa A on = 1 (ja = 0sen ulkopuolella). (Muista, etta tiheysfunktio f oli = 0 valin [a, b]ulkopuolella.)

• Satunnaisluvun u jakauma on silloin marginaalijakauma, jonka ti-heysfunktio saadaan integroimalla pois muuttuja v, ts. Ks. kurssi Todennakoisyys-

laskenta.

f(u)∫0

1 dv = f(u).

• Nain ollen tulostetulla satunnaisluvulla x on oikea jakauma.

Hyvaksy–hylkaa-menetelmaa voidaan kylla kayttaa silloinkin, kun ja-kauman tiheytta ei voida rajata aarelliselle valille. Silloin pitaa valita vainvali [a, b], jonka ulkopuolelle jaa riittavan pieni osa todennakoisyysmas-saa.

Menetelmasta on myos muita variantteja. Yo. perusversion pulma esi-merkiksi on usein se, etta X:n tiheysfunktiolla f on yksi tai useampia ka-peita ja korkeita huippuja. Silloin hylkaamisia kohdassa 2. tulee paljon jamenetelma on hidas. Tata voidaan korjata seuraavalla idealla. Etsitaansellainen satunnaismuuttuja U , jonka tiheysfunktio g on = 0 valin [a, b]ulkopuolella, jonka arvoja osataan generoida nopeasti ja jolle

f(x) ≤Mg(x)

jollekin vakiolle M . Tavoite on se, etta g ”mukailee” paremmin f :n muo- Perusversiossa ylla U :lla ontasajakauma valille [a, b] ja

M = c(b− a).toa kuin vaakasuora viiva, jolloin hylkaamisia tulee vahemman. Itse me-nettely on taman jalkeen muuten sama kuin edella paitsi etta kohta 1.korvautuu kohdalla

1’. Generoidaan satunnaisluku u, joka on jakautunut valille [a, b] ti- Tassa aarellisen valin [a, b]tilalla voisi olla aaretonkinvali, esimerkiksi (−∞,∞).heyden g mukaisesti, ja siita riippumatta valille

(0,Mg(u)

]tasan

jakautunut satunnaisluku v.

Menetelman perustelukin on melkein sama, generoidut satunnaislukupa-rit (u, v) ovat tasan jakautuneet alueeseen a ≤ u ≤ b, 0 < v ≤ Mg(u) Ko. alueessa tiheysfunktio

on 1/M .jne., mutta vaatii ehdollisen jakauman kasitteen.

8.2 Uudelleenotanta

Uudelleenotanta on kokonainen menetelmajoukko, jonka tarkoituksena on ”resampling”

simulointiotannalla tutkia populaation sellaisia tilastollisia ominaisuuk-sia, joihin on vaikeaa muuten paasta kasiksi.

Page 88: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 8. STOKASTINEN SIMULOINTI 84

Perusperiaate on seuraava: Otetaan ensin kattava suuri otos tutkitta-vasta populaatiosta. Tama tehdaan huolellisesti ja riittavalla rahoituk-sella. Sen jalkeen otetaan hyvin suuri maara pienempia otoksia tasta pe-rusotoksesta ikaankuin pitaen sita populaationa. Koska koko perusotoson talletettu tietokoneelle, tama voidaan tehda hyvin nopeasti. Siita huo-limatta uudelleenotanta on usein erittain laskentaintensiivista. Nain voi-daan esimerkiksi saada hyvin suuri maara naytteita jostakin tiettya otos-kokoa vastaavasta otossuureesta (otoskvantiili, otosmediaani, estimoitu Monissa tapauksissa tallai-

sen otossuureen oikea ja-kauma olisi jotakuinkin

mahdoton johtaa analyyt-tisin menetelmin.

suhdeluku, otoskorrelaatiokerroin tms.). Naytteita kayttaen voidaan itseasiassa saada varsin hyva approksimaatio ko. otossuureen koko jakau-malle alkuperaisessa populaatiossa melko tarkkoina empiirisina tiheys-ja kertymafunktiona. Vaatimattomampana tavoitteena voisi olla esimer-kiksi vain luottamusvali otossuureelle.

8.3 Monte Carlo -integrointi

Nykyaan stokastista simulointia kutsutaan usein Monte Carlo -simuloin-niksi, vaikka varsinainen Monte Carlo -menetelma onkin numeerinen in-tegrointimenetelma. Ajatellaan tilannetta, jossa kolmen muuttujan funk-tio f(x, y, z) pitaisi integroida mahdollisesti mutkikkaan rajoitetun R3:nkappaleen K yli, ts. pitaisi laskea numeerisesti integraali∫

K

f(x, y, z) dx dy dz

kohtuullisella tarkkuudella. Kolmisuuntainen numeerinen integrointi esi-merkiksi Simpsonin menetelmalla olisi kovin hidas.

Monte Carlo -menetelma talle tehtavalle olisi seuraavanlainen. Tal-loin oletetaan, etta on olemassa nopea tapa tarkistaa onko annettu piste(x, y, z) kappaleessa K vai ei ja etta kappale K voidaan rajata sopivastijonkin suorakulmion P : a1 ≤ x ≤ a2, b1 ≤ y ≤ b2, c1 ≤ z ≤ c2 sisaan.Merkitaan K:n tilavuutta V :lla.

1. Menetelmassa kerataan otosta, jota merkitaan O:lla. Aluksi se ontyhja.

2. Generoidaan satunnaispiste r = (x, y, z) suorakulmiosta P . Tamatehdaan yksinkertaisesti generoimalla kolme riippumatonta tasa-jakautunutta satunnaislukua x, y ja z valeilta [a1, a2], [b1, b2] ja[c1, c2], vastaavasti.

3. Testataan onko piste r kappaleessa K vai ei (tamanhan piti ollatehtavissa nopeasti). Ellei nain ole, palataan kohtaan 2.

4. Jos piste r on kappaleessa K, lasketaan f(r) ja lisataan se otokseenO.

5. Lasketaan kasilla olevan otoksen O otoskeskiarvo x. Jos se ei olehalutulla tarkkuudella muuttunut muutamaan kierrokseen, lopete-taan ja tulostetaan V x. Muuten palataan kohtaan 2. ja jatketaan.

Page 89: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

LUKU 8. STOKASTINEN SIMULOINTI 85

Menettely toimii, silla usean kierroksen jalkeen otoskeskiarvo x app-roksimoi kohtalaisen hyvin satunnaismuuttujan f(X, Y, Z) odotusarvoa,kun kolmikko (X, Y, Z) on tasan jakautunut kappaleeseen K. Vastaavatiheysfunktio on silloin = 1/V kappaleessa K (ja = 0 sen ulkopuolella).Mainittu odotusarvo on toisaalta

E(f(X, Y, Z)

)=

∫K

f(x, y, z)1

Vdx dy dz,

jotenka kertomalla V :lla siita saadaan haluttu integraali.

Esimerkki. Lasketaan esimerkkina funktion f(x, y, z) = ex3+y3+2z3 in-

tegraali yli R3:n yksikkopallon x2 + y2 + z2 ≤ 1. Oikea arvo on 4.8418(Maple), MATLAB antaa miljoonalla toistolla Monte Carlo -approksi-maation 4.8429.

Itse asiassa edella mainittu tilavuus V :kin saadaan Monte Carlo-menetelmalla. Tama menettely on seuraava:

1. Menetelmassa yllapidetaan kahta laskuria n ja l. Aluksi n = l = 0.

2. Generoidaan satunnaispiste r suorakulmiosta P ja lisataan laskurinn arvoa yhdella.

3. Testataan onko piste r kappaleessa K vai ei.

4. Jos piste r on kappaleessa K, lisataan laskurin l arvoa yhdella.

5. Lasketaan esimerkkina p = l/n. Jos se ei ole halutulla tarkkuudel-la muuttunut muutamaan kierrokseen, lopetetaan ja tulostetaan Huomaa, etta esiintyva

(a2 − a1)(b2 − b1)(c2 − c1)

on suorakulmion P tila-vuus.

p · (a2− a1)(b2− b1)(c2− c1). Muuten palataan kohtaan 2. ja jatke-taan.

Tasta perusmenetelmasta on monenlaisia variaatioita, se sopii kor-keampiinkin dimensioihin jne. Yleisesti Monte Carlo -integrointi vaatiimelko paljon toistoja kohtuulliseen tarkkuuteen paasemiseksi, sita enem-man mita korkeampi dimensio.

Page 90: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

Liite

TOLERANSSIVALITAULUKKO

Taulukot on laskettu Maple-ohjelmistolla. Taulukko antaa kertoimen k arvon. Ensin kak-

sipuoliselle toleranssivalille:

k: γ = 0.1 γ = 0.05 γ = 0.01

n α = 0.1 α = 0.05 α = 0.01 α = 0.1 α = 0.05 α = 0.01 α = 0.1 α = 0.05 α = 0.01

5 3.4993 4.1424 5.3868 4.2906 5.0767 6.5977 6.6563 7.8711 10.222

6 3.1407 3.7225 4.8498 3.7325 4.4223 5.7581 5.3833 6.3656 8.2910

7 2.9129 3.4558 4.5087 3.3895 4.0196 5.2409 4.6570 5.5198 7.1907

8 2.7542 3.2699 4.2707 3.1560 3.7454 4.8892 4.1883 4.9694 6.4812

9 2.6367 3.1322 4.0945 2.9864 3.5459 4.6328 3.8596 4.5810 5.9803

10 2.5459 3.0257 3.9579 2.8563 3.3935 4.4370 3.6162 4.2952 5.6106

11 2.4734 2.9407 3.8488 2.7536 3.2727 4.2818 3.4286 4.0725 5.3243

12 2.4139 2.8706 3.7591 2.6701 3.1748 4.1555 3.2793 3.8954 5.0956

13 2.3643 2.8122 3.6841 2.6011 3.0932 4.0505 3.1557 3.7509 4.9091

14 2.3219 2.7624 3.6200 2.5424 3.0241 3.9616 3.0537 3.6310 4.7532

15 2.2855 2.7196 3.5648 2.4923 2.9648 3.8852 2.9669 3.5285 4.6212

16 2.2536 2.6822 3.5166 2.4485 2.9135 3.8189 2.8926 3.4406 4.5078

17 2.2257 2.6491 3.4740 2.4102 2.8685 3.7605 2.8277 3.3637 4.4084

18 2.2007 2.6197 3.4361 2.3762 2.8283 3.7088 2.7711 3.2966 4.3213

19 2.1784 2.5934 3.4022 2.3460 2.7925 3.6627 2.7202 3.2361 4.2433

20 2.1583 2.5697 3.3715 2.3188 2.7603 3.6210 2.6758 3.1838 4.1747

21 2.1401 2.5482 3.3437 2.2941 2.7312 3.5832 2.6346 3.1360 4.1125

22 2.1234 2.5285 3.3183 2.2718 2.7047 3.5490 2.5979 3.0924 4.0562

23 2.1083 2.5105 3.2951 2.2513 2.6805 3.5176 2.5641 3.0528 4.0044

24 2.0943 2.4940 3.2735 2.2325 2.6582 3.4888 2.5342 3.0169 3.9580

25 2.0813 2.4786 3.2538 2.2151 2.6378 3.4622 2.5060 2.9836 3.9147

26 2.0693 2.4644 3.2354 2.1990 2.6187 3.4375 2.4797 2.9533 3.8751

27 2.0581 2.4512 3.2182 2.1842 2.6012 3.4145 2.4560 2.9247 3.8385

28 2.0477 2.4389 3.2023 2.1703 2.5846 3.3933 2.4340 2.8983 3.8048

29 2.0380 2.4274 3.1873 2.1573 2.5693 3.3733 2.4133 2.8737 3.7721

30 2.0289 2.4166 3.1732 2.1450 2.5548 3.3546 2.3940 2.8509 3.7426

31 2.0203 2.4065 3.1601 2.1337 2.5414 3.3369 2.3758 2.8299 3.7148

32 2.0122 2.3969 3.1477 2.1230 2.5285 3.3205 2.3590 2.8095 3.6885

33 2.0045 2.3878 3.1360 2.1128 2.5167 3.3048 2.3430 2.7900 3.6638

34 1.9973 2.3793 3.1248 2.1033 2.5053 3.2901 2.3279 2.7727 3.6405

35 1.9905 2.3712 3.1143 2.0942 2.4945 3.2761 2.3139 2.7557 3.6185

36 1.9840 2.3635 3.1043 2.0857 2.4844 3.2628 2.3003 2.7396 3.5976

37 1.9779 2.3561 3.0948 2.0775 2.4748 3.2503 2.2875 2.7246 3.5782

38 1.9720 2.3492 3.0857 2.0697 2.4655 3.2382 2.2753 2.7105 3.5593

39 1.9664 2.3425 3.0771 2.0623 2.4568 3.2268 2.2638 2.6966 3.5414

40 1.9611 2.3362 3.0688 2.0552 2.4484 3.2158 2.2527 2.6839 3.5244

41 1.9560 2.3301 3.0609 2.0485 2.4404 3.2055 2.2424 2.6711 3.5085

42 1.9511 2.3244 3.0533 2.0421 2.4327 3.1955 2.2324 2.6593 3.4927

43 1.9464 2.3188 3.0461 2.0359 2.4254 3.1860 2.2228 2.6481 3.4780

44 1.9419 2.3134 3.0391 2.0300 2.4183 3.1768 2.2137 2.6371 3.4638

45 1.9376 2.3083 3.0324 2.0243 2.4117 3.1679 2.2049 2.6268 3.4502

46 1.9334 2.3034 3.0260 2.0188 2.4051 3.1595 2.1964 2.6167 3.4370

47 1.9294 2.2987 3.0199 2.0136 2.3989 3.1515 2.1884 2.6071 3.4245

48 1.9256 2.2941 3.0139 2.0086 2.3929 3.1435 2.1806 2.5979 3.4125

49 1.9218 2.2897 3.0081 2.0037 2.3871 3.1360 2.1734 2.5890 3.4008

50 1.9183 2.2855 3.0026 1.9990 2.3816 3.1287 2.1660 2.5805 3.3899

55 1.9022 2.2663 2.9776 1.9779 2.3564 3.0960 2.1338 2.5421 3.3395

60 1.8885 2.2500 2.9563 1.9599 2.3351 3.0680 2.1063 2.5094 3.2968

65 1.8766 2.2359 2.9378 1.9444 2.3166 3.0439 2.0827 2.4813 3.2604

70 1.8662 2.2235 2.9217 1.9308 2.3005 3.0228 2.0623 2.4571 3.2282

75 1.8570 2.2126 2.9074 1.9188 2.2862 3.0041 2.0442 2.4355 3.2002

80 1.8488 2.2029 2.8947 1.9082 2.2735 2.9875 2.0282 2.4165 3.1753

85 1.8415 2.1941 2.8832 1.8986 2.2621 2.9726 2.0139 2.3994 3.1529

90 1.8348 2.1862 2.8728 1.8899 2.2519 2.9591 2.0008 2.3839 3.1327

95 1.8287 2.1790 2.8634 1.8820 2.2425 2.9468 1.9891 2.3700 3.1143

100 1.8232 2.1723 2.8548 1.8748 2.2338 2.9356 1.9784 2.3571 3.0977

86

Page 91: TILASTOMATEMATIIKKA - math.tut.fimath.tut.fi/~ruohonen/TM.pdf · Luku 1 PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET T am a luku on paljolti kertausta kurssilta Todenn ak oisyyslaskenta

Liite: TOLERANSSIVALITAULUKKO 87

Ja sitten toispuoliselle toleranssivalille:

k: γ = 0.1 γ = 0.05 γ = 0.01

n α = 0.1 α = 0.05 α = 0.01 α = 0.1 α = 0.05 α = 0.01 α = 0.1 α = 0.05 α = 0.01

5 2.7423 3.3998 4.6660 3.4066 4.2027 5.7411 5.3617 6.5783 8.9390

6 2.4937 3.0919 4.2425 3.0063 3.7077 5.0620 4.4111 5.4055 7.3346

7 2.3327 2.8938 3.9720 2.7554 3.3994 4.6417 3.8591 4.7279 6.4120

8 2.2186 2.7543 3.7826 2.5819 3.1873 4.3539 3.4972 4.2852 5.8118

9 2.1329 2.6499 3.6414 2.4538 3.0312 4.1430 3.2404 3.9723 5.3889

10 2.0656 2.5684 3.5316 2.3546 2.9110 3.9811 3.0479 3.7383 5.0737

11 2.0113 2.5026 3.4434 2.2753 2.8150 3.8523 2.8977 3.5562 4.8290

12 1.9662 2.4483 3.3707 2.2101 2.7364 3.7471 2.7767 3.4099 4.6330

13 1.9281 2.4024 3.3095 2.1554 2.6705 3.6592 2.6770 3.2896 4.4720

14 1.8954 2.3631 3.2572 2.1088 2.6144 3.5845 2.5931 3.1886 4.3372

15 1.8669 2.3289 3.2118 2.0684 2.5660 3.5201 2.5215 3.1024 4.2224

16 1.8418 2.2990 3.1720 2.0330 2.5237 3.4640 2.4594 3.0279 4.1233

17 1.8195 2.2724 3.1369 2.0017 2.4862 3.4144 2.4051 2.9627 4.0367

18 1.7995 2.2486 3.1054 1.9738 2.4530 3.3703 2.3570 2.9051 3.9604

19 1.7815 2.2272 3.0771 1.9487 2.4231 3.3308 2.3142 2.8539 3.8924

20 1.7652 2.2078 3.0515 1.9260 2.3960 3.2951 2.2757 2.8079 3.8316

21 1.7503 2.1901 3.0282 1.9053 2.3714 3.2628 2.2408 2.7663 3.7766

22 1.7366 2.1739 3.0069 1.8864 2.3490 3.2332 2.2091 2.7285 3.7268

23 1.7240 2.1589 2.9873 1.8690 2.3283 3.2061 2.1801 2.6940 3.6812

24 1.7124 2.1451 2.9691 1.8530 2.3093 3.1811 2.1535 2.6623 3.6395

25 1.7015 2.1323 2.9524 1.8381 2.2917 3.1579 2.1290 2.6331 3.6011

26 1.6914 2.1204 2.9367 1.8242 2.2753 3.1365 2.1063 2.6062 3.5656

27 1.6820 2.1092 2.9221 1.8114 2.2600 3.1165 2.0852 2.5811 3.5326

28 1.6732 2.0988 2.9085 1.7993 2.2458 3.0978 2.0655 2.5577 3.5019

29 1.6649 2.0890 2.8958 1.7880 2.2324 3.0804 2.0471 2.5359 3.4733

30 1.6571 2.0798 2.8837 1.7773 2.2198 3.0639 2.0298 2.5155 3.4465

31 1.6497 2.0711 2.8724 1.7673 2.2080 3.0484 2.0136 2.4963 3.4214

32 1.6427 2.0629 2.8617 1.7578 2.1968 3.0338 1.9984 2.4782 3.3977

33 1.6361 2.0551 2.8515 1.7489 2.1862 3.0200 1.9840 2.4612 3.3754

34 1.6299 2.0478 2.8419 1.7403 2.1762 3.0070 1.9703 2.4451 3.3543

35 1.6239 2.0407 2.8328 1.7323 2.1667 2.9946 1.9574 2.4298 3.3343

36 1.6182 2.0341 2.8241 1.7246 2.1577 2.9828 1.9452 2.4154 3.3155

37 1.6128 2.0277 2.8158 1.7173 2.1491 2.9716 1.9335 2.4016 3.2975

38 1.6076 2.0216 2.8080 1.7102 2.1408 2.9609 1.9224 2.3885 3.2804

39 1.6026 2.0158 2.8004 1.7036 2.1330 2.9507 1.9118 2.3760 3.2641

40 1.5979 2.0103 2.7932 1.6972 2.1255 2.9409 1.9017 2.3641 3.2486

41 1.5934 2.0050 2.7863 1.6911 2.1183 2.9316 1.8921 2.3528 3.2337

42 1.5890 1.9998 2.7796 1.6852 2.1114 2.9226 1.8828 2.3418 3.2195

43 1.5848 1.9949 2.7733 1.6795 2.1048 2.9141 1.8739 2.3314 3.2059

44 1.5808 1.9902 2.7672 1.6742 2.0985 2.9059 1.8654 2.3214 3.1929

45 1.5769 1.9857 2.7613 1.6689 2.0924 2.8979 1.8573 2.3118 3.1804

46 1.5732 1.9813 2.7556 1.6639 2.0865 2.8903 1.8495 2.3025 3.1684

47 1.5695 1.9771 2.7502 1.6591 2.0808 2.8830 1.8419 2.2937 3.1568

48 1.5661 1.9730 2.7449 1.6544 2.0753 2.8759 1.8346 2.2851 3.1457

49 1.5627 1.9691 2.7398 1.6499 2.0701 2.8690 1.8275 2.2768 3.1349

50 1.5595 1.9653 2.7349 1.6455 2.0650 2.8625 1.8208 2.2689 3.1246

55 1.5447 1.9481 2.7126 1.6258 2.0419 2.8326 1.7902 2.2330 3.0780

60 1.5320 1.9333 2.6935 1.6089 2.0222 2.8070 1.7641 2.2024 3.0382

65 1.5210 1.9204 2.6769 1.5942 2.0050 2.7849 1.7414 2.1759 3.0039

70 1.5112 1.9090 2.6623 1.5812 1.9898 2.7654 1.7216 2.1526 2.9739

75 1.5025 1.8990 2.6493 1.5697 1.9765 2.7481 1.7040 2.1321 2.9474

80 1.4947 1.8899 2.6377 1.5594 1.9644 2.7326 1.6883 2.1137 2.9237

85 1.4877 1.8817 2.6272 1.5501 1.9536 2.7187 1.6742 2.0973 2.9024

90 1.4813 1.8743 2.6176 1.5416 1.9438 2.7061 1.6613 2.0824 2.8832

95 1.4754 1.8675 2.6089 1.5338 1.9348 2.6945 1.6497 2.0688 2.8657

100 1.4701 1.8612 2.6009 1.5268 1.9265 2.6839 1.6390 2.0563 2.8496