ilkka€mellin tilastolliset€menetelmät osa€4: lineaarinen...
TRANSCRIPT
TKK (c) Ilkka Mellin (2006) 1
Ilkka MellinTilastolliset menetelmät
Osa 4: Lineaarinen regressioanalyysiJohdatus regressioanalyysiin
TKK (c) Ilkka Mellin (2006) 2
>> Regressioanalyysin lähtökohdat ja tavoitteetDeterministiset mallit ja regressioanalyysiRegressiofunktiot ja regressioanalyysiKaksiulotteisen normaalijakauman regressiofunktiotRegressioanalyysin tehtävätRegressiomallin lineaarisuus
Johdatus regressioanalyysiin
TKK (c) Ilkka Mellin (2006) 3
Regressioanalyysin lähtökohdat ja tavoitteetRegressioanalyysin idea 1/2
• Oletetaan, että haluamme selittää jonkin selitettäväntekijän tai muuttujan havaittujen arvojen vaihtelunjoidenkin selittävien tekijöiden tai muuttujienhavaittujen arvojen vaihtelun avulla.
• Jos tilastollisesti merkitsevä osa selitettävän muuttujanhavaittujen arvojen vaihtelusta voidaan selittää selittävienmuuttujien havaittujen arvojen vaihtelun avulla, sanomme,että selitettävä muuttuja riippuu tilastollisestiselittäjinä käytetyistä muuttujista.
TKK (c) Ilkka Mellin (2006) 4
Regressioanalyysin lähtökohdat ja tavoitteetRegressioanalyysin idea 2/2
• Regressioanalyysissa selitettävän muuttujantilastolliselle riippuvuudelle selittävistä muuttujistapyritään rakentamaan tilastollinen malli, jota kutsutaanregressiomalliksi.
• Koska riippuvuuksien analysointi on tavallisestitieteellisen tutkimuksen keskeinen tavoite, regressioanalyysi on ehkä eniten sovellettu ja tärkein tilastotieteen menetelmä.
TKK (c) Ilkka Mellin (2006) 5
Regressioanalyysin lähtökohdat ja tavoitteetRegressioanalyysin tavoitteet
• Regressioanalyysin mahdollisia tavoitteita:(i) Selitettävän muuttujan ja selittävien muuttujien
tilastollisen riippuvuuden luonteen kuvaaminen:– Millainen on riippuvuuden muoto?– Kuinka voimakasta riippuvuus on?
(ii) Selitettävän muuttujan ja selittävien muuttujientilastollisen riippuvuuden luonteen selittäminen.
(iii) Selitettävän muuttujan arvojen ennustaminen.(iv) Selitettävän muuttujan arvojen kontrolli.
TKK (c) Ilkka Mellin (2006) 6
Regressioanalyysin lähtökohdat ja tavoitteetRegressiomallien luokittelu 1/2
• Regressioanalyysissa sovellettavat tilastolliset mallitvoidaan luokitella usealla eri periaatteella.
• Luokittelu regressiomallin funktionaalisen muodonmukaan:– Lineaariset regressiomallit– Epälineaariset regressiomallit
• Luokittelu regressiomallin yhtälöiden lukumääränmukaan:– Yhden yhtälön regressiomallit– Moniyhtälömallit
TKK (c) Ilkka Mellin (2006) 7
Regressioanalyysin lähtökohdat ja tavoitteetRegressiomallien luokittelu 2/2
• Tässä johdatuksessa tilastotieteeseen käsitellään pääasiassalineaarisia yhden yhtälön regressiomalleja; ks. lukujaYhden selittäjän lineaarinen regressiomalli ja Yleinen lineaarinen malli.
• On hyödyllistä tietää, että varianssianalyysin tilastollisetmallit voidaan ymmärtää yleisen lineaarisen mallinerikoistapauksiksi.
TKK (c) Ilkka Mellin (2006) 8
Regressioanalyysin lähtökohdat ja tavoitteetRegressioanalyysin sovellukset tilastotieteessä
• Regressiomalleja käytetään apuvälineinä monillatilastotieteen osaalueilla.
• Esimerkkejä regressiomallien käyttökohteistatilastotieteessä:– Varianssianalyysi– Koesuunnittelu– Monimuuttujamenetelmät– Kalibrointi– Biometria tai statistiikka– Aikasarjojen analyysi ja ennustaminen– Ekonometria
TKK (c) Ilkka Mellin (2006) 9
Regressioanalyysin lähtökohdat ja tavoitteetRegressioanalyysin lähtökohdat
• Regressioanalyysilla on kaksi erilaista lähtökohtaa, joillaon kuitenkin monia yhtymäkohtia:(i) Ongelmat determinististen mallien sovittamisessa
havaintoihin; ks. kappaletta Deterministiset mallit ja
regressioanalyysi.(ii) Moniulotteisten todennäköisyysjakaumien
ehdollisten odotusarvojen eli regressiofunktioidenparametrien estimointi; ks. kappaletta Regressiofunktiot ja
regressioanalyysi.
TKK (c) Ilkka Mellin (2006) 10
Regressioanalyysin lähtökohdat ja tavoitteet>> Deterministiset mallit ja regressioanalyysi
Regressiofunktiot ja regressioanalyysiKaksiulotteisen normaalijakauman regressiofunktiotRegressioanalyysin tehtävätRegressiomallin lineaarisuus
Johdatus regressioanalyysiin
TKK (c) Ilkka Mellin (2006) 11
Deterministiset mallit ja regressioanalyysiDeterministiset mallit regressioanalyysinlähtökohtana 1/2
• Oletetaan, että haluamme selittää jonkin selitettäväntekijän tai muuttujan käyttäytymisen joidenkinselittävien tekijöiden tai muuttujien avulla.
• Oletetaan, että sekä selitettävä muuttuja että selittäjät ovateisatunnaisia muuttujia.
• Tällöin tavoitteeseen voidaan pyrkiä kuvaamallaselitettävän muuttujan arvojen riippuvuus selittävienmuuttujien arvoista deterministisen mallin avulla.
TKK (c) Ilkka Mellin (2006) 12
Deterministiset mallit ja regressioanalyysiDeterministiset mallit regressioanalyysinlähtökohtana 2/2
• Oletetaan, että selitettävän muuttujan riippuvuuttaselittävistä muuttujista kuvaavan deterministisen mallinmuoto riippuu tuntemattomasta parametrista (vakiosta).
• Tällöin parametrin arvo voidaan pyrkiä estimoimaan eliarvioimaan havaintojen avulla.
• Oletetaan, että parametrille ei ole mahdollista löytääsellaista arvoa, joka saisi mallin sopimaan samanaikaisesti kaikkiin havaintoihin.
• Voidaanko parametrille löytää kuitenkin sellainenarvo, joka saisi mallin sopimaan havaintoihin jossakinmielessä niin hyvin kuin se on mahdollista?
TKK (c) Ilkka Mellin (2006) 13
Deterministiset mallit ja regressioanalyysiDeterministiset mallit
• Oletetaan, että selitettävän muuttujan y eksaktia(kausaalista) riippuvuutta selittäjästä x halutaan mallintaayhtälöllä
jossa funktion f muoto riippuu parametrista eli vakiosta β.• Yhtälö määrittelee deterministisen mallin selitettävän
muuttujan y ja selittäjän x riippuvuudelle:Jos selittäjän x ja parametrin β arvot tunnetaan, niinselitettävän muuttujan y arvo on täysin määrätty.
( ; )y f x β=
TKK (c) Ilkka Mellin (2006) 14
Deterministiset mallit ja regressioanalyysiDeterministiset mallit ja regressioongelma 1/4
• Oletetaan, että selitettävän muuttujan y riippuvuuttaselittäjästä x halutaan mallintaa deterministisellä yhtälöllä
• Oletetaan, että funktion f muodon määräävän parametrin βarvo on tuntematon.
• Haluamme löytää parametrille β parhaan mahdollisenhavaintoihin perustuvan estimaatin eli arvion.
• Regressioongelma syntyy determinististen malliensoveltamisen yhteydessä tilanteissa, joissa parametrille βei voida löytää sellaista arvoa, joka saisi ym. yhtälöntoteutumaan samanaikaisesti kaikille havainnoille.
( ; )y f x β=
TKK (c) Ilkka Mellin (2006) 15
Deterministiset mallit ja regressioanalyysiDeterministiset mallit ja regressioongelma 2/4
• Oletetaan, että muuttujia x ja y koskevat havainnot xi ja yiliittyvät samaan havaintoyksikköön kaikille i = 1, 2, … , n.
• Oletetaan, että ei ole olemassa yhtä parametrin β arvoa,joka saa yhtälön
toteutumaan samanaikaisesti kaikille havainnoille xi ja yi .• Kirjoitetaan
jossa εi on havaintoyksiköstä toiseen vaihteleva jäännöseli virhetermi.
( ; ) , 1,2, ,i i iy f x i nβ ε= + = K
( ; )y f x β=
TKK (c) Ilkka Mellin (2006) 16
Deterministiset mallit ja regressioanalyysiDeterministiset mallit ja regressioongelma 3/4
• Oletetaan, että jäännös eli virhetermit εi yhtälössä
vaihtelevat satunnaisesti yhtälöstä toiseen.Huomaa, että oletuksesta seuraa, että selitettävän muuttujan yhavaittujen arvojen yi on oltava satunnaisia.
• Yhtälö
kuvaa selitettävän muuttujan y tilastollista riippuvuuttaselittävän muuttujan x saamista arvoista.
• Sanomme, että yhtälö määrittelee selitettävän muuttujan yregressiomallin selittävän muuttujan x suhteen.
( ; ) , 1,2, ,i i iy f x i nβ ε= + = K
( ; ) , 1,2, ,i i iy f x i nβ ε= + = K
TKK (c) Ilkka Mellin (2006) 17
Deterministiset mallit ja regressioanalyysiDeterministiset mallit ja regressioongelma 4/4
• Regressioanalyysissa parametrin β arvo pyritäänvalitsemaan tavalla, joka tekee kaikista jäännöstermeistä εisamanaikaisesti mahdollisimman pieniä.
• Tämä on käyränsovitusongelma:Miten parametrin β arvo pitää valita, jotta käyrä
kulkisi jossakin mielessä mahdollisimman läheltä jokaistahavaintopistettä
?• Erään ratkaisun tähän käyränsovitusongelmaan tarjoaa
pienimmän neliösumman menetelmä.
( ; )y f x β=
2( , ) , 1,2, ,i ix y i n∈ = K
TKK (c) Ilkka Mellin (2006) 18
Deterministiset mallit ja regressioanalyysiDeterministiset mallit ja regressioongelma:Esimerkki 1/4
• Hooken lain mukaan(ideaalisen) kierrejousen pituus yriippuu lineaarisesti jouseenripustetusta painosta x:
jossaα = jousen pituus ilman painoaβ = ns. jousivakio
• Jousivakion määräämiseksi jouseenripustettiin seuraavat painot: 0, 2, 4,6, 8, 10 kg ja jousen pituusmitattiin.
• Mittaustulokset on annettutaulukossa oikealla.
y xα β= +
Paino (kg) Pituus (cm)0 43.002 43.604 44.056 44.558 45.0010 45.50
TKK (c) Ilkka Mellin (2006) 19
Deterministiset mallit ja regressioanalyysiDeterministiset mallit ja regressioongelma:Esimerkki 2/4
• Pistediagrammi oikeallahavainnollistaa koetuloksia.
• Kysymys 1:Ovatko havaintotuloksetsopusoinnussa Hooken lainkanssa?
• Kysymys 2:Onko olemassa yksikäsitteinensuora, joka kulkee kaikkienhavaintopisteiden kautta?
Kierrejousen pituuden riippuvuusjouseen ripustetusta painosta
42.50
43.00
43.50
44.00
44.50
45.00
45.50
46.00
2 0 2 4 6 8 10 12Paino (kg)
Jous
en p
ituus
(cm
)
TKK (c) Ilkka Mellin (2006) 20
Kierrejousen pituuden riippuvuusjouseen ripustetusta painosta
42.50
43.00
43.50
44.00
44.50
45.00
45.50
46.00
2 0 2 4 6 8 10 12Paino (kg)
Jous
en p
ituus
(cm
)
Deterministiset mallit ja regressioanalyysiDeterministiset mallit ja regressioongelma:Esimerkki 3/4
• Kuvio oikealla todistaa, että eiole olemassa yhtä suoraa, jokakulkisi kaikkien havaintopisteiden kautta:(i) Suora A kulkee pisteiden
1 ja 2 kautta.(ii) Suora B kulkee pisteiden
4 ja 5 kautta.• Onko mahdollista määrätä
yksikäsitteisellä tavalla suora,joka kulkisi jossakin mielessämahdollisimman läheltä jokaistahavaintopistettä?
1
2
54
Suora A
Suora B
TKK (c) Ilkka Mellin (2006) 21
Deterministiset mallit ja regressioanalyysiDeterministiset mallit ja regressioongelma:Esimerkki 4/4
• Käyttämällä pienimmänneliösumman keinoa voimmemäärätä suoran
kertoimet niin, että neliösumma
minimoituu.• Kuvioon oikealla on
piirretty näin määrätty suora; ks.tarkemmin lukua Yhden selittäjänlineaarinen regressiomalli.
y xα β= +
2 2
1 1
( )n n
i i ii i
y xε α β= =
= − −∑ ∑
Kierrejousen pituuden riippuvuusjouseen ripustetusta painosta
y = 0.2457x + 43.055R2 = 0.9983
42.50
43.00
43.50
44.00
44.50
45.00
45.50
46.00
2 0 2 4 6 8 10 12Paino (kg)
Jous
en p
ituus
(cm
)
TKK (c) Ilkka Mellin (2006) 22
Deterministiset mallit ja regressioanalyysiSyyt regressioongelman syntymiseen
• Mitkä syyt johtavat regressioongelman syntymiseendeterminististen mallien yhteydessä?
• Syitä regressioongelman syntymiseen:(i) Havaintovirheet selitettävän muuttujan y havaituissa
arvoissa.(ii) Yhtälö
on idealisointi:Osaa selitettävän muuttujan y käyttäytymiseenvaikuttavista tekijöistä ei haluta tai ei pystytäottamaan huomioon.
( ; )y f x β=
TKK (c) Ilkka Mellin (2006) 23
Deterministiset mallit ja regressioanalyysiRegressiomalli ja kiinteät selittäjät 1/2
• Olkoon
selitettävän muuttujan y tilastollista riippuvuutta selittävänmuuttujan x saamista arvoista kuvaava regressiomalli.
• Oletukset:(i) Selittävän muuttujan x arvot xi voidaan valita, jolloin
ne ovat kiinteitä eli eisatunnaisia.(ii) Jäännös eli virhetermit εi ovat satunnaisia, jolloin
myös selitettävän muuttujan y havaitut arvot yi pitääolettaa satunnaisiksi.
( ; ) , 1,2, ,i i iy f x i nβ ε= + = K
TKK (c) Ilkka Mellin (2006) 24
Deterministiset mallit ja regressioanalyysiRegressiomalli ja kiinteät selittäjät 2/2
• Regressiomallissa
on seuraavat osat:yi = selitettävän muuttujan y satunnainen ja
havaittu arvo havaintoyksikössä ixi = selittävän muuttujan eli selittäjän x ei
satunnainen ja havaittu arvo havaintoyksikössä iβ = tuntematon ja kiinteä eli eisatunnainen
parametri (vakiokerroin)εi = satunnainen ja eihavaittu jäännös eli
virhetermi havaintoyksikössä i
( ; ) , 1,2, ,i i iy f x i nβ ε= + = K
TKK (c) Ilkka Mellin (2006) 25
Deterministiset mallit ja regressioanalyysiRegressiomallit ja kiinteät selittäjät:Kommentteja
• Kun regressiomalleja sovelletaan luonnontieteissätai tekniikassa, oletus selittävien muuttujien eisatunnaisuudesta on usein hyvin perusteltu.Tämä johtuu siitä, että monissa luonnontieteiden taitekniikan sovelluksissa regressiomallien selittäjien arvotvoidaan valita eli selittäjät ovat muuttujia, joiden arvojavoidaan kontrolloida.Esimerkki: Puhtaat koeasetelmat.
• Monissa tilastotieteen sovelluksissa kohdataan kuitenkinsellaisia tilanteita, joissa ainakin osa selittäjistä onsellaisia, joiden arvot määräytyvät satunnaisesti;ks. kappaletta Regressiofunktiot ja regressioanalyysi.
TKK (c) Ilkka Mellin (2006) 26
Regressioanalyysin lähtökohdat ja tavoitteetDeterministiset mallit ja regressioanalyysi
>> Regressiofunktiot ja regressioanalyysiKaksiulotteisen normaalijakauman regressiofunktiotRegressioanalyysin tehtävätRegressiomallin lineaarisuus
Johdatus regressioanalyysiin
TKK (c) Ilkka Mellin (2006) 27
Regressiofunktiot ja regressioanalyysiRegressiofunktiot regressioongelmanlähtökohtana 1/2
• Oletetaan, että haluamme selittää jonkin selitettäväntekijän tai muuttujan käyttäytymisen joidenkinselittävien tekijöiden tai muuttujien avulla.
• Oletetaan, että sekä selitettävä muuttuja että selittäjät ovatsatunnaismuuttujia.
• Tällöin tavoitteeseen voidaan pyrkiä kuvaamallaselitettävän muuttujan riippuvuutta selittävistä muuttujistaselitettävän muuttujan regressiofunktiolla selittäjiensuhteen.
TKK (c) Ilkka Mellin (2006) 28
Regressiofunktiot ja regressioanalyysiRegressiofunktiot regressioongelmanlähtökohtana 2/2
• Oletetaan, että selitettävän muuttujan riippuvuuttaselittävistä muuttujista kuvaavan regressiofunktion muotoriippuu tuntemattomasta parametrista (vakiosta).
• Tällöin parametrin arvo voidaan pyrkiä estimoimaan eliarvioimaan havaintojen avulla.
• Miten parametrille löydetään jossakin mielessämahdollisimman hyvä estimaatti eli arvio?
TKK (c) Ilkka Mellin (2006) 29
Regressiofunktiot ja regressioanalyysiEhdollinen jakauma
• Olkoon fxy(x, y) satunnaismuuttujien x ja y yhteisjakauman tiheysfunktio.
• Olkoot fx(x) ja fy(y) satunnaismuuttujien x ja y reunajakaumien tiheysfunktiot.
• Satunnaismuuttujan y ehdollisen jakauman tiheysfunktiosatunnaismuuttujan x suhteen on
|
( , )( | ) , jos ( ) 0
( )xy
y x xx
f x yf y x f x
f x= >
TKK (c) Ilkka Mellin (2006) 30
Regressiofunktiot ja regressioanalyysiEhdollinen odotusarvo
• Satunnaismuuttujan y ehdollinen odotusarvo satunnaismuuttujan x suhteen on
jossa
on satunnaismuuttujan y ehdollisen jakauman tiheysfunktio satunnaismuuttujan x suhteen
• Huomaa, että ehdollinen odotusarvo on ehtomuuttujan xfunktiona satunnaismuuttuja.
|E( | ) ( | )y xy x yf y x dy+∞
−∞
= ∫
| ( | )y xf y x
TKK (c) Ilkka Mellin (2006) 31
Regressiofunktiot ja regressioanalyysiRegressiofunktio 1/2
• Tarkastellaan satunnaismuuttujan y ehdollista odotusarvoaehtomuuttujan x arvojen funktiona.
• Ehdollista odotusarvoa
kutsutaan ehtomuuttujan x arvojen funktiona satunnaismuuttujan y regressiofunktioksi muuttujan x suhteen.
• Regressiofunktion muoto riippuu satunnaismuuttujan y ehdollisen jakauman
parametreista.
E( | )y x
E( | )y x
| ( | )y xf y x
TKK (c) Ilkka Mellin (2006) 32
Regressiofunktiot ja regressioanalyysiRegressiofunktio 2/2
• Olkoon
satunnaismuuttujan y regressiofunktio satunnaismuuttujanx suhteen.
• Koska haluamme korostaa regressiofunktion arvojenriippuvuutta ehtomuuttujan x arvoista, kirjoitamme
jossa β on satunnaismuuttujan y ehdollisen jakauman
muodon määräävä parametri.
E( | ) ( ; )y x f x β=
E( | )y x
| ( | )y xf y x
TKK (c) Ilkka Mellin (2006) 33
Regressiofunktiot ja regressioanalyysiLisätietoja
• Lisätietoja moniulotteisista satunnaismuuttujista janiiden yhteisjakaumista, reunajakaumista, ehdollisistajakaumista, ehdollisista odotusarvoista ja regressiofunktioista:Ks. monisteen Todennäköisyyslaskenta lukua Moniulotteiset
satunnaismuuttujat ja jakaumat.
TKK (c) Ilkka Mellin (2006) 34
Regressiofunktiot ja regressioanalyysiRegressiofunktio ja ennustaminen 1/3
• Olkoon fxy(x, y) satunnaismuuttujien x ja y yhteisjakaumantiheysfunktio.
• Oletetaan, että satunnaismuuttujan x arvo tunnetaan.• Kysymys:
Miten tietoa satunnaismuuttujan x saamasta arvostavoidaan käyttää hyväksi satunnaismuuttujan y arvonennustamisessa?
• Olkoon muuttujan x saamaan arvoon perustuvaennuste muuttujan y arvolle.
• Miten ennuste valitaan optimaalisella tavalla?
( | )d y x
( | )d y x
TKK (c) Ilkka Mellin (2006) 35
Regressiofunktiot ja regressioanalyysiRegressiofunktio ja ennustaminen 2/3
• Valitaan ennuste siten, että ennusteenkeskineliövirhe
minimoituu.• Voidaan osoittaa, että keskineliövirhe
minimoituu valinnalla
• Siten satunnaismuuttujan y regressiofunktiosatunnaismuuttujan x suhteen tuottaa muuttujan x saamiinarvoihin perustuvat, keskineliövirheen mielessäoptimaaliset ennusteet muuttujalle y.
2MSE[ ( | )] E[ ( | )]d y x y d y x= −
MSE( ( | ))d y x
( | ) E( | )d y x y x=E( | )y x
( | )d y x
TKK (c) Ilkka Mellin (2006) 36
Regressiofunktiot ja regressioanalyysiRegressiofunktio ja ennustaminen 3/3
• Olkoon
optimaalisen ennusteen ennustevirhe.• Tällöin voimme kirjoittaa
jossa
on satunnaismuuttujan y regressiofunktio satunnaismuuttujan x suhteen.
E( | )( ; )
y y xf x
εβ ε
= += +
E( | )y xE( | )y y x ε− =
E( | ) ( ; )y x f x β=
TKK (c) Ilkka Mellin (2006) 37
Regressiofunktiot ja regressioanalyysiRegressiofunktio regressiomallina
• Edellisen nojalla muuttujan x arvoihin perustuvaoptimaalinen ennuste satunnaismuuttujan y arvollemäärittelee regressiomallin
jossa y on mallin selitettävä muuttuja ja x on mallinselittävä muuttuja.
E( | )( ; )
y y xf x
εβ ε
= += +
TKK (c) Ilkka Mellin (2006) 38
Regressiofunktiot ja regressioanalyysiRegressiofunktiot ja regressioongelma 1/3
• Oletetaan, että selitettävän muuttujan y riippuvuuttaselittäjästä x halutaan mallintaa regressiofunktiolla
• Oletetaan, että regressiofunktion f muodon määräävänparametrin β arvo on tuntematon.
• Parametrille β halutaan löytää paras mahdollinenestimaatti eli arvio havaintojen perusteella.
• Regressioongelmalla tarkoittaa tässä regressiofunktionmuodon määräävän parametrin β valintaongelmaa.
E( | ) ( ; )y x f x β=
TKK (c) Ilkka Mellin (2006) 39
Regressiofunktiot ja regressioanalyysiRegressiofunktiot ja regressioongelma 2/3
• Oletetaan, että satunnaismuuttujia x ja y koskevathavainnot xi ja yi liittyvät samaan havaintoyksikköönkaikille i = 1, 2, … , n.
• Edellä esitetyn nojalla voimme kirjoittaa yhtälön
jossa εi on havaintoyksiköstä toiseen satunnaisestivaihteleva jäännös eli virhetermi.
• Yhtälö kuvaa muuttujan y tilastollista riippuvuuttamuuttujan x saamista arvoista.
• Sanomme, että yhtälö määrittelee selitettävän muuttujan yregressiomallin selittävän muuttujan x suhteen.
( ; ) , 1,2, ,i i iy f x i nβ ε= + = K
TKK (c) Ilkka Mellin (2006) 40
Regressiofunktiot ja regressioanalyysiRegressiofunktiot ja regressioongelma 3/3
• Regressioanalyysissa parametrin β arvo pyritäänvalitsemaan sellaisella tavalla, joka tekee kaikista jäännöstermeistä εi samanaikaisesti mahdollisimman pieniä.
• Tämä on käyränsovitusongelma:Miten parametrin β arvo on valittava niin, että käyrä
kulkisi mahdollisimman läheltä jokaista havaintopistettä?
• Erään ratkaisun tähän käyränsovitusongelmaan tarjoaapienimmän neliösumman menetelmä.
( ; )y f x β=
2( , ) , 1,2, ,i ix y i n∈ = K
TKK (c) Ilkka Mellin (2006) 41
Regressiofunktiot ja regressioanalyysiMitä regressiofunktio mallintaa?Esimerkki 1/6
• Perinnöllisyystieteenmukaan lapset perivät geneettisetominaisuutensa vanhemmiltaan.
• Periytyykö isän pituus heidänpojilleen?
• Havaintoaineisto koostuu300:n isän ja heidän poikiensapituuksien muodostamastalukuparista
(xi , yi) , i = 1, 2, … , 300jossa
xi = isän i pituusyi = isän i pojan pituus
• Ks. pistediagrammia oikealla.
Isien ja poikien pituudet
160
165
170
175
180
185
190
195
155 160 165 170 175 180 185 190Isän pituus (cm)
Poja
n pi
tuus
(cm
)
TKK (c) Ilkka Mellin (2006) 42
Regressiofunktiot ja regressioanalyysiMitä regressiofunktio mallintaa?Esimerkki 2/6
• Pojan pituuden riippuvuus isänpituudesta ei ole eksaktia.
• Mutta: Lyhyillä isillä näyttääolevan keskimäärin lyhyempiäpoikia kuin pitkillä isillä ja pitkilläisillä näyttää olevan keskimäärinpitempiä poikia kuin lyhyilläisillä.
• Miten tällaista tilastollistariippuvuutta voidaanhavainnollistaa?
Isien ja poikien pituudet
160
165
170
175
180
185
190
195
155 160 165 170 175 180 185 190Isän pituus (cm)
Poja
n pi
tuus
(cm
)
TKK (c) Ilkka Mellin (2006) 43
Regressiofunktiot ja regressioanalyysiMitä regressiofunktio mallintaa?Esimerkki 3/6
• Taulukko oikealla esittää isien jaheidän poikiensa pituuksienehdollisia keskiarvoja
Mk(x|x) ja Mk(y|x)jossa
Mk(x|x) =niiden isienpituuksien keskiarvo,joiden pituus kuuluuxväliin k
Mk(y|x) =niiden poikienpituuksien keskiarvo,joiden isien pituuskuuluu xväliin k
k = 1, 2, 3, 4, 5, 6, 7
x välin nro x väli M k (x |x ) M k (y |x )1 (155,160] 159.7 172.22 (160,165] 163.5 172.03 (165,170] 168.2 176.84 (170,175] 172.6 178.85 (175,180] 177.1 180.66 (180,185] 181.5 183.67 (185,190] 186.0 184.0
TKK (c) Ilkka Mellin (2006) 44
Regressiofunktiot ja regressioanalyysiMitä regressiofunktio mallintaa?Esimerkki 4/6
• Ehdollisten keskiarvojen(Mk(x|x), Mk(y|x))
määräämiä pisteitä on merkittykuviossa oikealla neliöillä.
• Havainnot on siis luokiteltu isienpituuden mukaan 7 luokkaan.
• Kuviossa luokkia on kuvattukatkoviivojen erottamillapystyvöillä.
• Jokaisen neliön koordinaatiton saatu laskemalla keskiarvot ko.neliötä vastaavaan pystyvyöhönkuuluvien havaintopisteidenkoordinaateista.
Isien ja poikien pituudet
160
165
170
175
180
185
190
195
155 160 165 170 175 180 185 190
Isän pituus (cm)
Poja
n pi
tuus
(cm
)
TKK (c) Ilkka Mellin (2006) 45
Regressiofunktiot ja regressioanalyysiMitä regressiofunktio mallintaa?Esimerkki 5/6
• Oikealla olevaan kuvioonneliöillä merkityt ehdollistenkeskiarvojen määräämät pisteet
(Mk(x|x), Mk(y|x))kuvaavat poikien pituuksienkeskimääräistä tai tilastollistariippuvuutta heidän isiensäpituuksista.
• Riippuvuus näyttää olevan läheslineaarista.
• Regressioanalyysin tehtävänäon juuri tällaisen tilastollisenriippuvuuden mallintaminen.
Isien ja poikien pituudet
160
165
170
175
180
185
190
195
155 160 165 170 175 180 185 190
Isän pituus (cm)
Poja
n pi
tuus
(cm
)
TKK (c) Ilkka Mellin (2006) 46
Regressiofunktiot ja regressioanalyysiMitä regressiofunktio mallintaa?Esimerkki 6/6
• Käyttämällä pienimmänneliösumman keinoa voimmemäärätä suoran
kertoimet niin, että neliösumma
minimoituu.• Kuvioon oikealla on
piirretty näin määrätty suora; ks.tarkemmin lukua Yhden selittäjänlineaarinen regressiomalli.
Isien ja poikien pituudet
y = 0.4707x + 97.391R2 = 0.1938
160
165
170
175
180
185
190
195
155 160 165 170 175 180 185 190
Isän pituus (cm)
Poja
n pi
tuus
(cm
)y xα β= +
2 2
1 1
( )n n
i i ii i
y xε α β= =
= − −∑ ∑
TKK (c) Ilkka Mellin (2006) 47
Regressioanalyysin lähtökohdat ja tavoitteetDeterministiset mallit ja regressioanalyysiRegressiofunktiot ja regressioanalyysi
>> Kaksiulotteisen normaalijakauman regressiofunktiotRegressioanalyysin tehtävätRegressiomallin lineaarisuus
Johdatus regressioanalyysiin
TKK (c) Ilkka Mellin (2006) 48
Kaksiulotteisen normaalijakauman regressiofunktiotMultinormaalijakauma
• Normaalijakauman yleistystä moniulotteiseen avaruuteenkutsutaan multinormaalijakaumaksi tai moniulotteiseksinormaalijakaumaksi.
• Multinormaalijakauman määräävät täydellisesti jakaumaanliittyvien satunnaismuuttujien odotusarvot, varianssit jakorrelaatiot.
• Multinormaalijakauma näyttelee lineaaristen regressiomallien teoriassa keskeistä osaa, koska multinormaalijakauman kaikki regressiofunktiot ovat lineaarisia.
• Seuraavassa tarkastellaan lähemmin 2ulotteista normaalijakaumaa; lisätietoja: ks. monisteen Todennäköisyyslaskenta
lukua Moniulotteisia jakaumia.
TKK (c) Ilkka Mellin (2006) 49
Kaksiulotteisen normaalijakauman regressiofunktiot2ulotteinen normaalijakauma:Tiheysfunktio 1/2
• 2ulotteisen normaalijakauman tiheysfunktio on
jossa
ja
22
1 1( , ) exp ( , )2(1 )2 1
xyxyx y xy
f x y Q x yρπσ σ ρ
= − −−
,
0, 0
1 1
x y
x y
xy
µ µ
σ σ
ρ
−∞ < < +∞ − ∞ < < +∞
> >
− ≤ ≤ +
22
( , ) 2 y yx xxy
x x y y
y yx xQ x yµ µµ µρ
σ σ σ σ − − − −
= − +
TKK (c) Ilkka Mellin (2006) 50
Kaksiulotteisen normaalijakauman regressiofunktiot2ulotteinen normaalijakauma:Tiheysfunktio 2/2
• 2ulotteisen normaalijakauman parametreina ovatsatunnaismuuttujien x ja y odotusarvot, varianssit jakorrelaatio:
2
2
E( ) muuttujanE( ) muuttujan
Var( ) muuttujanVar( ) muuttujanCor( , ) muuttujien ja
x
y
x
y
xy
x x odotusarvoy y odotusarvo
x x varianssiy y varianssix y x y korrelaatio
µµ
σσρ
= == =
= =
= =
= =
TKK (c) Ilkka Mellin (2006) 51
Kaksiulotteisen normaalijakauman regressiofunktiot2ulotteinen normaalijakauma:Jakauman parametrit
• Oletetaan, että satunnaismuuttujien x ja y muodostama pari(x, y) noudattaa 2ulotteista normaalijakaumaa.
• Koska satunnaismuuttujien x ja y odotusarvot, varianssit jakorrelaatio
määräävät täydellisesti 2ulotteisen normaalijakauman,merkitään
(x, y) ∼ N2(µx, µy, σx2, σy
2, ρxy)
2 2
E( ) E( )
Var( ) Var( )
Cor( , )
x y
x y
xy
x y
x yx y
µ µ
σ σ
ρ
= =
= =
=
TKK (c) Ilkka Mellin (2006) 52
Kaksiulotteisen normaalijakauman regressiofunktiot2ulotteinen normaalijakauma:Parametrien tulkinta 1/2
• Oletetaan, että satunnaismuuttujien x ja y muodostama pari(x, y) noudattaa 2ulotteista normaalijakaumaa.
• Satunnaismuuttujien x ja y odotusarvot
määräävät satunnaismuuttujien x ja y yhteisjakaumantodennäköisyysmassan painopisteen.
• Satunnaismuuttujien x ja y varianssit
kuvaavat satunnaismuuttujien x ja y todennäköisyysmassojen hajaantuneisuutta niiden odotusarvojen µx ja µyympärillä.
E( ) E( )x yx yµ µ= =
2 2Var( ) Var( )x yx yσ σ= =
TKK (c) Ilkka Mellin (2006) 53
Kaksiulotteisen normaalijakauman regressiofunktiot2ulotteinen normaalijakauma:Parametrien tulkinta 2/2
• Satunnaismuuttujien x ja y korrelaatio
kuvaa satunnaismuuttujien x ja y lineaarisen riippuvuudenvoimakkuutta.
• Koska pari (x, y) noudattaa 2ulotteista normaalijakaumaa,satunnaismuuttujat x ja y ovat korreloimattomia, jos javain jos ne ovat riippumattomia.
• Yleisesti pätee:
jos ja vain jos on olemassa vakiot α ja β ≠ 0 siten, että
Cor( , ) xyx y ρ=
Cor( , ) 1x y = ±
y xα β= +
TKK (c) Ilkka Mellin (2006) 54
Kaksiulotteisen normaalijakauman regressiofunktiot2ulotteinen normaalijakauma:Ehdolliset jakaumat 1/2
• 2ulotteisen normaalijakauman ehdolliset jakaumat ovatnormaalisia.
• Satunnaismuuttujan y ehdollinen jakauma satunnaismuuttujan x suhteen on
jossa( )2
| || ~ N ,y x y xy x µ σ
|
2 2 2|
E( | ) ( )
Var( | ) (1 )
yy x y xy x
x
y x xy y
y x x
y x
σµ µ ρ µ
σ
σ ρ σ
= = + −
= = −
TKK (c) Ilkka Mellin (2006) 55
Kaksiulotteisen normaalijakauman regressiofunktiot2ulotteinen normaalijakauma:Ehdolliset jakaumat 2/2
• 2ulotteisen normaalijakauman ehdolliset jakaumat ovatnormaalisia.
• Satunnaismuuttujan x ehdollinen jakauma satunnaismuuttujan y suhteen on
jossa( )2
| || ~ N ,x y x yx y µ σ
|
2 2 2|
E( | ) ( )
Var( | ) (1 )
xx y x xy y
y
x y xy x
x y y
x y
σµ µ ρ µσ
σ ρ σ
= = + −
= = −
TKK (c) Ilkka Mellin (2006) 56
Kaksiulotteisen normaalijakauman regressiofunktiot2ulotteinen normaalijakauma:Regressiofunktiot 1/2
• 2ulotteisen normaalijakauman regressiofunktiot eliehdolliset odotusarvot ovat lineaarisia.
• Satunnaismuuttujan y regressiofunktio satunnaismuuttujan x suhteen
määrittelee xykoordinaatistossa suoran
• Suora kulkee satunnaismuuttujien x ja y yhteisjakaumantodennäköisyysmassan painopisteen kautta.
| E( | ) ( )yy x y xy x
x
y x xσ
µ µ ρ µσ
= = + −
( , )x yµ µ
( )yy xy x
x
y xσ
µ ρ µσ
= + −
TKK (c) Ilkka Mellin (2006) 57
Kaksiulotteisen normaalijakauman regressiofunktiot2ulotteinen normaalijakauma:Regressiofunktiot 2/2
• 2ulotteisen normaalijakauman regressiofunktiot eliehdolliset odotusarvot ovat lineaarisia.
• Satunnaismuuttujan x regressiofunktio satunnaismuuttujan y suhteen
määrittelee xykoordinaatistossa suoran
• Suora kulkee satunnaismuuttujien x ja y yhteisjakaumantodennäköisyysmassan painopisteen kautta.
| E( | ) ( )xx y x xy y
y
x y yσµ µ ρ µσ
= = + −
( , )x yµ µ
1 ( )yy x
xy x
y xσ
µ µρ σ
= + × −
TKK (c) Ilkka Mellin (2006) 58
Kaksiulotteisen normaalijakauman regressiofunktiot2ulotteinen normaalijakauma:Regressiosuorat
• 2ulotteisen normaalijakauman regressiofunktioidenmäärittelemien regressiosuorien yhtälöistä
nähdään seuraavaa:(i) Jos , suorat ovat kohtisuorassa toisiaan
vastaan.(ii) Jos , suorat yhtyvät.
( )
1 ( )
yy xy x
x
yy x
xy x
y x
y x
σµ ρ µ
σσ
µ µρ σ
= + −
= + × −
0xyρ =
1xyρ = ±
TKK (c) Ilkka Mellin (2006) 59
Kaksiulotteisen normaalijakauman regressiofunktiot2ulotteinen normaalijakauma:Regressiosuorien ominaisuudet 1/2
• Muuttujan y regressiosuoralla muuttujan x suhteen
on seuraavat ominaisuudet:(i) Jos , suora on nouseva.(ii) Jos , suora on laskeva.(iii) Jos , suora on vaakasuorassa.(iv) Suora jyrkkenee (loivenee), jos
– korrelaation itseisarvo kasvaa (pienenee)– standardipoikkeama kasvaa (pienenee)– standardipoikkeama pienenee (kasvaa)
( )yy xy x
x
y xσ
µ ρ µσ
= + −
0xyρ >0xyρ <0xyρ =
| |xyρ
yσ
xσ
TKK (c) Ilkka Mellin (2006) 60
Kaksiulotteisen normaalijakauman regressiofunktiot2ulotteinen normaalijakauma:Regressiosuorien ominaisuudet 2/2
• Muuttujan x regressiosuoralla muuttujan y suhteen
on seuraavat ominaisuudet:(i) Jos , suora on nouseva.(ii) Jos , suora on laskeva.(iii) Jos , suora on pystysuorassa.(iv) Suora jyrkkenee (loivenee), jos
– korrelaation itseisarvo pienenee (kasvaa)– standardipoikkeama kasvaa (pienenee)– standardipoikkeama pienenee (kasvaa)
1 ( )yy x
xy x
y xσ
µ µρ σ
= + × −
0xyρ >0xyρ <0xyρ =
yσ
xσ
| |xyρ
TKK (c) Ilkka Mellin (2006) 61
Kaksiulotteisen normaalijakauman regressiofunktiot2ulotteinen normaalijakauma:Ehdolliset varianssit 1/2
• Satunnaismuuttujan y ehdollinen varianssi satunnaismuuttujan x suhteen on
ja se kuvaa satunnaismuuttujan y ehdollisen jakauman(satunnaismuuttujan x suhteen) todennäköisyysmassanhajaantuneisuutta regressiosuoran
ympärillä.
2 2 2| Var( | ) (1 )y x xy yy xσ ρ σ= = −
( )yy xy x
x
y xσ
µ ρ µσ
= + −
TKK (c) Ilkka Mellin (2006) 62
Kaksiulotteisen normaalijakauman regressiofunktiot2ulotteinen normaalijakauma:Ehdolliset varianssit 2/2
• Satunnaismuuttujan x ehdollinen varianssi satunnaismuuttujan y suhteen on
ja se kuvaa satunnaismuuttujan x ehdollisen jakauman(satunnaismuuttujan y suhteen) todennäköisyysmassanhajaantuneisuutta regressiosuoran
ympärillä.
2 2 2| Var( | ) (1 )x y xy xx yσ ρ σ= = −
1 ( )xy x
xy y
y xσµ µρ σ
= + × −
TKK (c) Ilkka Mellin (2006) 63
Kaksiulotteisen normaalijakauman regressiofunktiot2ulotteinen normaalijakauma:Ehdollisten varianssien ominaisuudet 1/2
• Satunnaismuuttujan y ehdollisella varianssilla satunnaismuuttujan x suhteen
on seuraavat ominaisuudet:(i)(ii) Jos , niin .(iii) Jos , niin ja satunnaismuuttujien x ja
y yhteisjakauman todennäköisyysmassa keskittyymuuttujien x ja y yhteiselle regressiosuoralle.
2 2 2| Var( | ) (1 )y x xy yy xσ ρ σ= = −
0xyρ = 2 2|y x yσ σ=
1xyρ = ± 2| 0y xσ =
2 2|y x yσ σ≤
TKK (c) Ilkka Mellin (2006) 64
Kaksiulotteisen normaalijakauman regressiofunktiot2ulotteinen normaalijakauma:Ehdollisten varianssien ominaisuudet 2/2
• Satunnaismuuttujan x ehdollisella varianssilla satunnaismuuttujan y suhteen
on seuraavat ominaisuudet:(i)(ii) Jos , niin .(iii) Jos , niin ja satunnaismuuttujien x ja
y yhteisjakauman todennäköisyysmassa keskittyymuuttujien x ja y yhteiselle regressiosuoralle.
2 2 2| Var( | ) (1 )x y xy xx yσ ρ σ= = −
0xyρ = 2 2|x y xσ σ=
1xyρ = ± 2| 0x yσ =
2 2|x y xσ σ≤
TKK (c) Ilkka Mellin (2006) 65
Regressioanalyysin lähtökohdat ja tavoitteetDeterministiset mallit ja regressioanalyysiRegressiofunktiot ja regressioanalyysiKaksiulotteisen normaalijakauman regressiofunktiot
>> Regressioanalyysin tehtävätRegressiomallin lineaarisuus
Johdatus regressioanalyysiin
TKK (c) Ilkka Mellin (2006) 66
Regressioanalyysin tehtävätRegressiomalli ja sen osat 1/2
• Yhden yhtälön regressiomallin yleinen muoto on
jossay = selitettävä muuttujaf (x ; β ) = mallin systemaattinen eli rakenneosaε = mallin satunnainen osa
• Mallin systemaattinen osa f (x ; β ) on selittävänmuuttujan x funktio, joka riippuu funktion f muodonmääräävästä parametrista β.
• Mallin satunnainen osa ε on jäännöstermi, jokatavallisesti ei riipu selittäjästä x.
( ; )y f x β ε= +
TKK (c) Ilkka Mellin (2006) 67
Regressioanalyysin tehtävätRegressiomalli ja sen osat 2/2
• Regressiomallin
systemaattinen osa f (x ; β ) kuvaa selitettävän muuttujan yriippuvuutta selittävästä muuttujasta x.
• Regressioanalyysissa pääasiallinen kiinnostus kohdistuuregressiomallin systemaattiseen osaan f (x ; β ) ja senmuotoon.
• Regressiomallin jäännöstermiä ε pidetään usein pelkkänävirheterminä, mutta jäännöstermistä ε tehdyt oletuksetvaikuttavat ratkaisevalla tavalla siihen tapaan, jollaregressioanalyysi tehdään.
( ; )y f x β ε= +
TKK (c) Ilkka Mellin (2006) 68
Regressioanalyysin tehtävätRegressioanalyysi
• Regressioanalyysi tarkoittaa seuraavia malliin
liittyvien tehtävien suorittamista:– Funktion f valinta– Parametrin β estimointi– Parametria β koskevien hypoteesien testaaminen– Estimoidun mallin hyvyyden arviointi– Mallista tehtyjen oletusten tarkistaminen– Selitettävän muuttujan käyttäytymisen ennustaminen
ja ennusteiden epävarmuuden arviointi
( ; )y f x β ε= +
TKK (c) Ilkka Mellin (2006) 69
Regressioanalyysin lähtökohdat ja tavoitteetDeterministiset mallit ja regressioanalyysiRegressiofunktiot ja regressioanalyysiKaksiulotteisen normaalijakauman regressiofunktiotRegressioanalyysin tehtävät
>> Regressiomallin lineaarisuus
Johdatus regressioanalyysiin
TKK (c) Ilkka Mellin (2006) 70
Regressiomallin lineaarisuusRegressiomalli
• Olkoon
yhden yhtälön regressiomalli, jossay = selitettävä muuttujaf (x ; β ) = mallin systemaattinen eli rakenneosaε = mallin satunnainen osa
• Mallin systemaattinen osa f (x ; β ) on selittävänmuuttujan x funktio, joka riippuu funktion f muodonmääräävästä parametrista β.
• Mallin satunnainen osa ε on jäännöstermi, jokatavallisesti ei riipu selittäjästä x.
( ; )y f x β ε= +
TKK (c) Ilkka Mellin (2006) 71
Regressiomallin lineaarisuusLineaarinen regressiomalli –miksi?
• Regressiomallin
soveltaminen yksinkertaistuu huomattavasti, jos mallinrakenneosa f (x ; β ) on parametrin β suhteen lineaarinenfunktio.
• Jos mallin rakenneosa f (x ; β ) on parametrin β suhteenlineaarinen funktio, mallia kutsutaan lineaariseksiregressiomalliksi.
• Huomautus:Epälineaaristen regressiomallien soveltaminen ei ole nykyisillätietokoneilla ja ohjelmistoilla kovinkaan hankalaa.
( ; )y f x β ε= +
TKK (c) Ilkka Mellin (2006) 72
Regressiomallin lineaarisuusLineaarinen regressiomalli –milloin?–1/2
• Vaikka oletus regressiomallin lineaarisuudesta saattaatuntua rajoittavalta, oletus on käytännössä osoittautunutmonissa regressioanalyysin sovellustilanteissa erittäinhyvin toimivaksi.
• Erityisesti, jos muuttujat x ja y ovat satunnaismuuttujia,joiden yhteisjakauma on multinormaalinen, lineaarisenregressiomallin soveltaminen on perusteltua, koska kaikkimultinormaalijakauman regressiofunktiot eli ehdollisetodotusarvot ovat lineaarisia; ks. kappaletta Kaksiulotteisen
normaalijakauman regressiofunktiot.
TKK (c) Ilkka Mellin (2006) 73
Regressiomallin lineaarisuusLineaarinen regressiomalli –milloin?–2/2
• Lineaarisen regressiomallin soveltaminen saattaa ollaperusteltua myös monissa sellaisissa tilanteissa, joissaselitettävän muuttujan y riippuvuus selittäjästä x onepälineaarista:(i) Muuttujien y ja x riippuvuutta voidaan usein
approksimoida ainakin lokaalisti lineaarisellamallilla.
(ii) Muuttujien y ja x epälineaarinen riippuvuus voidaanusein linearisoida sopivilla muunnoksilla.
TKK (c) Ilkka Mellin (2006) 74
Regressiomallin lineaarisuusEpälineaarisen riippuvuuden linearisointi:Esimerkki 1/2
• Betonin vetolujuus riippuu betoninkuivumisajasta.
• Havaintoaineisto koostuu 21:stälukuparista
(xj , yj) , j = 1, 2, … , 21jossa
xj = betoniharkon jkuivumisaika
yj = betoniharkon jvetolujuus
• Vetolujuus riippuu selvästiepälineaarisesti kuivumisajasta;ks. kuviota oikealla.
Betonin vetolujuuden riippuvuuskuivumisajasta
0.0
10.0
20.0
30.0
40.0
50.0
0 5 10 15 20 25 30Kuivumisaika (vrk)
Veto
luju
us (k
g/cm
2)
TKK (c) Ilkka Mellin (2006) 75
Regressiomallin lineaarisuusEpälineaarisen riippuvuuden linearisointi:Esimerkki 2/2
• Vetolujuuden epälineaarinenriippuvuus kuivumisajasta voidaanlinearisoida seuraavillamuunnoksilla:
= 1/xj
= log(yj)jossa
xj = betoniharkon jkuivumisaika
yj = betoniharkon jvetolujuus
• Vrt. kuviota oikealla edellisenkalvon kuvioon.
jx′
jy′
Betonin vetolujuuden riippuvuuskuivumisajasta
2
2.5
3
3.5
4
0 0.2 0.4 0.6 0.8 1 1.21/Kuivumisaika (1/vrk)
log(
Veto
luju
us) (
log(
kg/c
m2)
)