tÖbbvÁltozÓs korrelÁciÓ- És regressziÓszÁmÍtÁs

45
Miskolci Egyetem GAZDASÁGTUDOMÁNYI KAR Üzleti Információgazdálkodási és Módszertani Intézet Üzleti Statisztika és Előrejelzési Tanszék TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS Oktatási segédlet Készítette: Domán Csaba egyetemi tanársegéd 2005.

Upload: dangkhanh

Post on 29-Jan-2017

220 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Miskolci Egyetem GAZDASÁGTUDOMÁNYI KAR

Üzleti Információgazdálkodási és Módszertani Intézet Üzleti Statisztika és Előrejelzési Tanszék

TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Oktatási segédlet

Készítette: Domán Csaba egyetemi tanársegéd

2005.

Page 2: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS
Page 3: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 3

A REGRESSZIÓS MODELLEK NÉHÁNY KÉRDÉSE A regressziós modellek az idősoros módszerekhez képest más gondolkodásmódot követelnek az alkalmazóktól. Az idősoros modellek az idősor mozgását önmagában vizsgálták, s még a legfejlettebb, legbonyolultabb modell is „csak arra képes”, hogy az idősor adatainak változásait a lehető legjobban kövesse. Ezzel szemben a regressziós modellek esetében olyan változót, vagy változókat használunk (tényezőváltozó), amelyek az általunk modellezni kívánt változó (eredményváltozó ) mozgását jól követik, lévén, hogy arra törekszünk, hogy a környezetben olyan tényezőváltozókat keressünk, amelyek az eredményváltozó alakulására közvetlenül, vagy közvetve hatnak. Ha regressziós modellt egy adott időpontra, vagy időszakra vonatkozó megfigyelések adatbázisára épül, akkor e modellt keresztmetszeti (cross-sectional regression) modellnek nevezzük. Meghatározható tehát, hogy az eredményváltozó alakulásában mely független változó(k), illetve ezen változó(k) milyen mértékben játszanak szerepet. A regressziós modellt megszerkeszthetjük a változók idősora alapján, ekkor idősoros regressziós modellt (time-series regression) kapunk. A vállalati gyakorlatban elterjedtebb, hogy rendelkezésre áll mind az eredményváltozó, mind a vele sztochasztikus kapcsolatban levő tényezőváltozó, vagy változók idősora. Korábbi tanulmányaink során a korrelációs összefüggést két mennyiségi ismérv között értelmeztük. A társadalmi-gazdasági élet jelenségei azonban sokkal összetettebbek, bonyolultabbak annál, mint amit két tényező összefüggése kifejez. Egy-egy jelenség változása általában több tényező változásával van összefüggésben. A gyakorlatban általában nem lehetséges egyetlen magyarázóváltozó segítségével leírni a vizsgált jelenség alakulását. A kétváltozós kapcsolat vizsgálatánál az Y-ra ható tényezők közül csak egyet, X-et választottunk ki – feltételezve, hogy ennek hatása jelentős. Például egy dolgozó havi bruttó átlagbérét jelentősen befolyásolja az iskolai végzettségük foka. Azonban a gazdasági társaságok gazdálkodásának mutatóit vizsgálva arra a következtetésre jutunk, hogy az eredmény alakulását több tényező befolyásolja (pl: nettó árbevétel, hatékonyságot kifejező vagyonarány mutató stb.). Az eredményváltozóra ható tényezők körének kibővítésével többszörös vagy többváltozós sztochasztikus kapcsolathoz jutunk.

Page 4: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 4

1. Modellszerkesztés A többváltozós regresszió-analízis segítségével több ismérv eredményváltozóra gyakorolt hatását vizsgáljuk. A kapcsolat az ismérvek száma szerint három-, négy-, öt- stb. változós, a függvény típusa szerint pedig lineáris és nemlineáris kapcsolat lehet. A többváltozós függvények értelmezése nehezebb, mint a kétváltozós kapcsolatoké, ezek függvényképe már csak térben írható le. Grafikus ábrázolásuk is problémásabb, ugyanis három változónál többet három dimenziós térben csak nagyon erős megszorítások mellett vetíthetünk ki. Ezért a legmegfelelőbb függvénytípus kiválasztása a tényezők hatásának számszerűsítése többirányú megfontolást, körültekintőbb szakmai mérlegelést tesz szükségessé. A regressziós modellek szerkesztésekor legelső feladatunk, hogy megkeressük azokat a változókat, amelyek feltevésünk szerint az eredményváltozóval lényeges (szignifikáns) kapcsolatban vannak. Az így meghatározott magyarázó- és eredményváltozók kapcsolata persze csak hipotetikus, azt első lépésben ellenőrizni kell, hogy feltevésünk a konkrét megfigyelések függvényében mennyire állja meg a helyét. A többváltozós lineáris regressziós modellt az alábbi matematikai egyenlettel írhatjuk fel:

Y=β0+β1x1+β2x2+…+βpxp+ε ahol, β1,β2…βm a ható tényezők

β0 a függvény konstans tagja ε a regressziós egyenes hibatagja.

Fő feladatunk az ε hibatag minimalizálása, amit akkor érünk el, ha a becslőfüggvény értékei minimálisan térnek el az eredeti tapasztalati értékektől. Vagy az eltérések négyzetösszegén értelmezve:

( )[ ] min... 222110

1

2 →++++−= ∑∑=

pp

n

ixxxYe ββββ

Az egyenletrendszer megoldásához szükséges paraméterek a fenti egyenlet β0, β1,…βm szerinti parciális deriváltjainak meghatározásával állíthatóak elő. A többváltozós függvények illesztésének pontosságát a regressziós függvény hibájának nagysága alapján ítélhetjük meg. Az illesztés hibája (se):

2)ˆ(

2

22

−=

−= ∑∑

nYy

ne

s iie

Az illesztés relatív hibája (vagy pontossága): 100ˆ ∗=Ys

V ese

A relatív hiba azt fejezi ki, hogy a számított yi értékek, azaz a regressziós becslések átlagosan hány %-kal térnek el az eredményváltozó mért yi értékeitől. Minél kisebb a relatív reziduális szórás, annál jobban illeszkedik a regressziós függvény a pontdiagram pontjaira. A gyakorlatban, általában 10% alatti relatív hiba esetén fogadjuk el jónak a regressziós becslést, a regressziós függvény illeszkedését. A többváltozós lineáris regressziós modell paramétereit mátrixalgebrai jelölésekkel is kiszámíthatjuk. A számításhoz az alábbi mátrixokat kell felhasználni.

Page 5: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 5

(Az alábbi mátrixok háromváltozós regresszió-függvényre vonatkoznak. Természetesen mindegyik bővíthető a változók számának növelésével.) Együtthatómátrix:

=XX T

∑∑∑∑∑∑∑∑

22212

21211

21

iiii

iiii

ii

xxxxxxxx

xxn

yX T vektor:

yX T =

∑∑∑

ii

ii

i

yxyx

y

2

1

Számítástechnikai szempontból az inverz mátrix létezése lehet kétséges. A gyakorlati regresszió-számítási feladatoknál azonban általában teljesül az a feltétel, hogy a normálegyenletek független egyenletrendszert alkotnak. Ezért az együtthatómátrix nem szinguláris, és így invertálható. A regresszió-függvény paramétereit az alábbi szorzat adja meg:

bbbb

yXXX TT =

=∗

2

1

0

A regresszió-függvény paramétereinek értelmezése:

ŷ=b0+b1x1+b2x2+…+bpxp A regressziós együtthatók egy-egy tényezőváltozó részleges hatását mutatják, ezért ezeket parciális regressziós együtthatóknak nevezzük. Szokásos a mutató parciális jellegét a jelölésben is érzékeltetni. Például b1 így is írható: by1.2, ami arra utal, hogy az eredményváltozóban csak x1 hatása mutatkozik meg, x2 változatlan. A b0 a konstans, az x1=x2=0 helyen vett függvényérték, ha ott értelmezve van. Értelmezése logikailag nem indokolt a legtöbb esetben. A b1, b2, …bp parciális regressziós együtthatókat a következőképpen értelmezzük: Ha xi értéket egy egységgel növeljük –miközben a többi xi értéket változatlanul hagyjuk-, akkor az eredményváltozó (Y) becsült értéke (ŷ) éppen bi egységgel változik. (A változás növekedés vagy csökkenés lehet bi előjelétől függően.) A regressziós együttható tehát kifejezi, hogy egy adott tényezőváltozó egységnyi növekedése mekkora növekedést (vagy csökkenést) okoz az eredményváltozó becsült értékében, miközben a többi tényezőváltozó értéke változatlan.

Page 6: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 6

1.1 Mesterséges változók alkalmazása Gyakran fordul elő, hogy az eredményváltozó alakulását minőségi jellemzők is befolyásolják, így ha a vizsgálatoknál azok hatásait nem szerepeltetjük, akkor lényeges hatótényezőktől tekintünk el, s így könnyen adódhat, hogy a felépített modell hibatényezője lényeges hatótényező „hiányát” mutatja. Eddig csak olyan eseteket tárgyaltunk, amelyben a regressziós modell változói legalább sorrendi (ordinális) skálán mérhetőek. Vizsgáljuk meg, hogy a regressziós modell változói között hogyan szerepeltethetők minőségi ismérvek. Ha a minőségi ismérvnek két változata lehetséges, illetve megoldható annak alternatívvá alakítása, akkor numerikussá tehető úgy, hogy az egyik előfordulást 0 értékkel, a másik előfordulást 1 értékkel tesszük egyenlővé.

zO

=

,,

ha nem teljesül a feltétel ha teljesül a feltétel1

.

Az így definiált változót Bernoulli vagy dummy változónak nevezzük. Általánosan az fogalmazható meg, hogy ezen változók felhasználásával ismert, feltárt és kimutatott, de egzaktan mégsem számszerűsíthető hatásokat lehet szerepeltetni az adott regressziós modellben. Ha a dummy változó értékeit definiáltuk, akkor szokásos módon határozzuk meg a regressziós modellt. Ilyen dummy változó lehet:

nem (férfi - nő), földrajzi elhelyezkedés ( főváros - vidék, de lehet szerepeltetni a régiókat, vagy a

megyéket is a modellben, bár itt csak több alternatív ismérv kombinációjával ), szakképzettség (szakképzett-szakképzetlen), iskolai végzettség (több alternatív ismérv kombinációjával például: egyetem - főiskola -

középiskola - általános iskola), szezonális idősornak az éven belüli szezonok kimutatása (több alternatív ismérv

kombinációjával például a negyedévek) vagy a kiugró értékek (outlier) szerepeltetése (szokásostól eltérő állapot - szokásos

állapot). Tegyük fel, hogy a testsúly és a testmagasság összefüggését vizsgáljuk egy n elemű minta alapján. Az adatfelvétel során a nemet is rögzítették. Az n elemű minta alapján a regresszió-függvény a következőképpen adható meg (általános formában):

$ $ $ $Y X Z= + ⋅ + ⋅β β β0 1 2 ahol: Y : testsúly (kg),

X : magasság (cm), Z : a nemet jelző dummy változó ( Z = 1, ha az illető férfi, Z = 0 , ha az illető nő).

Ha egy mesterséges változó kettőnél több értéket vehet fel, azt proxy változónak hívjuk. E változó alkalmazásának körülményei hasonlóak az előbbieknél, a közvetlenül nem mérhető jelenségeket a vele összefüggésben levő, mérhető változóval közelítjük. Elterjedten alkalmazott proxy változó az időváltozó. Mivel a LNM a tényezőváltozókat nem tekinti valószínűségi változónak, így azok eloszlásának eltérése a mennyiségi ismérvek eloszlásától, illetve az eloszlás kérdése nem merül fel, mint alkalmazási probléma.

Page 7: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 7

2. Többváltozós korrelációszámítás A többváltozós lineáris regressziós modellben arra a kérdésre is választ keresünk, hogy az egyes tényezőváltozók tisztán, önmagukban milyen szoros kapcsolatban vannak az eredményváltozóval. A regresszió-számítással szemben a korreláció szorosságának vizsgálatakor minden változót valószínűségi változónak tekintünk. Vagyis kizárjuk az olyan kontrollált kísérletek eredményeként kapott magyarázóváltozókat, amelyekkel a többi befolyásoló tényező értékét rögzíteni tudjuk, és így hatásukat a vizsgálat során ellenőrzésünk alatt tartjuk. Az eredményváltozót ennek ellenére megkülönböztetjük a tényezőváltozóktól. Ezt azonban csak amiatt tesszük, hogy jelölésrendszerünk összhangban legyen a regresszió-számításnál tanultakkal. A kapcsolat szorosságának vizsgálata önmagában a megkülönböztetést nem tenné szükségessé. Kettőnél több változó esetén a korreláció szorosságáról háromféle értelemben beszélhetünk. A kapcsolat szorossága vizsgálható páronként, továbbá páronként, de a többi változó hatásának kiszűrésével. Végül pedig az eredményváltozó és az összes tényezőváltozó közötti szorosság is mérhető. 2.1. Páronkénti korrelációs együttható Korábbi tanulmányaink során már megismerkedtünk a kétváltozós lineáris korrelációs és determinációs együttható számításával, így ezekkel e témakörben részletesen nem foglalkozunk 2.2. Parciális korrelációs együttható A parciális korrelációs együttható annyiban különbözik a páronkénti együtthatótól, hogy számításánál a többi változótól nem tekintünk el, de hatásukat kiküszöböljük. Az így kapott parciális korrelációs együttható az mutatja meg, hogy milyen szoros a kapcsolat valamelyik kiválasztott tényezőváltozó és a függő változó között, ha a többi tényezőváltozó hatását mind a vizsgált tényezőváltozóból, mind az eredményváltozóból kiszűrjük. Kiindulásként írjuk fel az (m+1) változós modell korrelációs mátrixát (R):

R=

1...

...1

...1

...1

21

2212

1121

21

pppy

py

py

ypyy

rrr

rrrrrrrrr

MMMMM

Az R korrelációs mátrix a modellben számítható összes kétváltozós korrelációs együtthatót tartalmazza. A mátrix első sora és első oszlopa az eredményváltozó és az egyes tényezőváltozók közötti kapcsolat szorosságát mérő lineáris korrelációs együtthatókat tartalmazza, a mátrix többi eleme pedig a tényezőváltozók egymás közötti korrelációját méri. A korrelációs mátrix szimmetrikus mátrix, a fődiagonálisában lévő elemek értéke 1, ami a kétváltozós lineáris korrelációs együttható képzési módjából közvetlenül adódik. Az R mátrix

Page 8: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 8

számos információt tartalmaz a kapcsolat természetére vonatkozóan. Megállapítható, hogy melyek azok a magyarázó változók, amelyek a legszorosabb összefüggésben vannak a függő változóval és mely magyarázó változók között van számottevőbb korrelációs összefüggés. Ez utóbbi a multikollinearitás veszélyére hívja fel a figyelmet. Háromváltozós modellben az Y és X1 változó közötti parciális korrelációs együtthatót a következő módon számíthatjuk ki:

)1(*)1( 212

22

12212.1

rr

rrrr

y

yyy

−−

∗−=

Hasonlóan felírható az ry2.1 és az r12.y korrelációs együttható is. A parciális korrelációs együttható pozitív korrelációnál pozitív, negatív korrelációnál negatív előjelű lesz, abszolút értéke 0 és 1 között helyezkedik el. A sokváltozós modellben általánosan a korrelációs mátrix inverze alapján határozhatjuk meg a parciális korrelációs együtthatókat. A korrelációs mátrix inverze:

=

pppjppy

jpjjjjy

pjy

ypyjyyy

qqqq

qqqq

qqqqqqqq

R

LL

MMMMMM

LL

MMMMMM

LL

LL

1

1

11111

1

A parciális korrelációs együtthatókat az inverz mátrixból a következő összefüggés szerint számolhatjuk ki:

jjyy

yjpjjyj qq

qr

−=+− ),...,1(),1(...,2,1.

A parciális korrelációs együttható az Y és az Xj változók kapcsolatának szorosságát méri, miután a többi (m-1) magyarázó változó hatását mindkét változóból kiszűrtük. A parciális korrelációs együttható négyzetét parciális determinációs együtthatónak nevezzük. A parciális determinációs együttható arra ad választ, hogy az Xj magyarázó változó mekkora hányadot képes megmagyarázni az Y függő változó varianciájának azon részéből, amelyet az X1, X2,…Xj-1, Xj+1,…,Xp változók nem képesek megmagyarázni. Gyakran előfordul, hogy a korrelációs mátrix mellett a változók páronkénti kovariancia-mérőszámait tartalmazó, variancia-kovariancia mátrixra is szükségünk van. A mátrix általános formája a következő:

=

ppppy

py

ypyyy

CCC

CCCCCC

C

L

MMMM

L

L

1

1111

1

,

ahol Cyj az eredményváltozó és a j-edik magyarázóváltozó; Cij pedig az i-edik és a j-edik magyarázóváltozó kovarianciája. A mátrix diagonális elemei pedig a regressziós modellben szereplő változók szórásnégyzetei.

Page 9: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 9

2.3. Többszörös korrelációs együttható A többváltozós lineáris regressziós modellnél az eredményváltozó (Y) és a magyarázó változók (X1, X2,…,Xp) együttes összefüggését is vizsgáljuk. A tényezőváltozók és az eredményváltozó közötti korreláció szorosságát a többszörös korrelációs együttható méri. A többszörös korrelációs együttható olyan speciális kétváltozós korrelációs együttható, amely az Y és az X1, X2,…,Xp tényezőváltozók alapján becsült Y kapcsolatának szorosságát méri. A háromváltozós modellben a többszörös korrelációs együtthatót a kétváltozós korrelációs együtthatók felhasználásával is kiszámíthatjuk:

212

122122

21

2,1. 12r

rrrrrR yyyy

y −

−+=

A többváltozós modellben általánosan a korrelációs mátrix inverze alapján határozzuk meg a többszörös korrelációs együtthatót.

yypy q

R 11,...,2,1. −=

A többszörös korrelációs együttható előjelét mindig pozitívnak tekintjük. 2.4. Többszörös determinációs együttható A többszörös korrelációs együttható négyzetét többszörös determinációs együtthatónak nevezzük. A mutatószámmal azt mérjük, hogy a független változók együttesen milyen erősséggel határozzák meg az Y változó ingadozását. Másképpen fogalmazva az együttható arra ad választ, hogy a függő változó teljes szórásnégyzetéből mekkora a regressziónak tulajdonítható, tehát a tényezőváltozókkal megmagyarázható hányad. Az R2 jellemzői:

értéke 0 és 1 között lehetséges, a maximális értéket akkor veszi fel, ha az X változók determinisztikusan

meghatározzák Y-t, 0 az értéke, ha az Y szóródását teljes egészében a véletlen magyarázza, %-os formában értelmezzük.

A többszörös determinációs együttható:

yypy q

R 112,...,2,1. −=

A többszörös determinációs együttható kifejezhető a többváltozós modellben alkalmazott eltérés-négyzetösszegek hányadosaként is:

SSTSSRR =2

Page 10: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 10

2.5. Parciális rugalmassági együttható A kétváltozós regressziós modellhez hasonlóan a többváltozós regressziós modellben is gyakran használjuk a regressziós együtthatók mellett az elaszticitási mutatószámokat, amelyek ekkor szintén parciális értelmezésűek. Az eredményváltozó rugalmasságát azonban egyszerre csak az egyik magyarázóváltozó szerint vizsgálhatjuk, miközben a többi magyarázóváltozó értékét rögzítjük. Az eredményváltozónak a j-edik magyarázó változó szerinti parciális rugalmassága (elaszticitása) azt mutatja meg, hogy a megfelelő magyarázó változó valahonnan kiinduló 1%-os növekedésével (csökkenésével) hány %-os növekedés (csökkenés) mutatkozik az eredményváltozóban, feltéve, hogy az összes többi tényező nem változik (ceteris paribus). Általános képlete:

kk

jjxxxxxxxy xbxbb

xbE

kkj +++==== ...

ˆ110

),...,,ˆ( **22*11,

Ami már egy százalékosan értelmezhető mutatószámot eredményez. A parciális rugalmassági együttható nagysága attól függ, hogy azt a magyarázóváltozók milyen színvonala mellett számítjuk. 2.6. Korrelációs index Nemlineáris esetekben ajánlott kapcsolat-szorossági mérőszám a korrelációs index, amely az eredeti változók közötti kapcsolat szorosságát mutatja:

( )( )∑

∑−

−−= 2

2ˆ1

yy

yyI

i

i

Az I mutató szerkezete és tartalma világos, hiszen analóg a lineáris esetben a determinációs együtthatóból vont négyzetgyökkel. Az index értéke 0 és 1 között helyezkedik el. Látható, hogy amennyiben az illeszkedés jó, a mutató értéke 1-hez közelít, míg alacsony I esetén a maradék-négyzetösszeg viszonylag nagy, ami rossz illeszkedésre utal. Az index esetén fontos megjegyezni, hogy a mutató irányt nem jelez. Kellemetlen tulajdonsága, hogy nem mindig van valós érték, hiszen nemlineáris regresszió esetén előfordulhat, hogy a gyök alatt álló kifejezés negatív lesz. Ennek oka, hogy nemlineáris esetben a négyzetösszeg-felbontás nem úgy teljesül, mint lineáris esetben. 2.7. Korreláció idősoros adatok esetén Ha változóként idősorokat kívánunk felhasználni, akkor az eredményváltozó alakulását legjobban meghatározó változók kiválasztásakor a kapcsolat-szorossági mérőszámok akár „csődöt is mondhatnak”. Az annak tudható be, hogy az idősor tagjai nem függetlenek egymástól. A vállalati gyakorlatban döntő többségében olyan idősorokat találunk, amelyekben létezik alapirányzat (trend), azaz az idősor egyes tagjai valóban nem függetlenek egymástól. Idősorok esetében tehát a mutató akkor jelez szoros kapcsolatot valamely magyarázó változó és az eredményváltozó között, ha az adott magyarázó változó alapirányzata közel esik az eredményváltozó alapirányzatához.

Page 11: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 11

Ezért az esetek legtöbbjében az idősorból „el kell tüntetni” az alapirányzatot, azaz meg kell határozni a változók trendértékeit, majd ezeket kivonva az idősor tényleges értékeiből:

az eredményváltozónál: ky= yy ˆ− az i-edik tényezőváltozónál: iix xxk

iˆ−=

Majd az így képzett változókra határozzuk meg a lineáris korrelációs együtthatót:

xiy

xiy

kk

kk

xsn

ddr

**

*∑=

Ez a mérőszám már valóban alkalmas arra, hogy választ adjon arra a kérdésre, hogy az i-edik magyarázóváltozó és az eredményváltozó kapcsolata tekinthető-e jelentősnek önmagában, az idő hatásának kiszűrésével. 3. Statisztikai következtetések a lineáris regressziós modellben 3.1. Intervallumbecslés a többváltozós regressziós modellben Konfidencia intervallumokat nemcsak a regressziós együtthatókra, hanem a regressziós modell becsült értékeire is számíthatunk. A regressziós becslést úgy is értelmezhetjük, mint a regressziós együtthatók adott lineáris kombinációját. A konfidenciaintervallum-számítás során a fontosabb feladat azonban nem a becsült paraméterek intervallumának, hanem a függvényérték intervallumának a becslése. Erre vonatkozó eredményeink szintén hasonlók mindahhoz, amit a kétváltozós esetben származtattunk, a különbség mindössze annyi, hogy a függvényértékek kiszámításakor a mátrixalakokat használjuk, a t-eloszlású változó pedig n-p-1 szabadságfokú. Ha tehát egy x=x0 pontban keressük a becsült függvényértéket, akkor az βˆ '

00 xY = becsült függvényérték torzítatlan becslést ad egyrészt a megfelelő pontban a regressziós függvényértékek várható értékére (átlagbecslés), másrészt ugyancsak ebben a pontban a sokasági elemekre. A varianciák azonban a két esetben különbözők. Az átlag varianciáját a

( ) ( ) ( ) 01''

02

0'0

ˆvarˆvar xXXxxxY e−

== σβ formában határozhatjuk meg, ha pedig mintából becsüljük, akkor a 2σ -et se

2-tel becsülve a varianciára torzítatlan becslést kapunk:

( ) ( ) 01''

02ˆvar xXXxsy e

−= ,

Aminek négyzetgyöke a standard hiba:

( ) 01'

0'ˆ xXXxss ey

−=

A konfidencia intervallumot 1-α megbízhatósági szinten a regressziós becslés és a variancia alapján az alábbi formulával számíthatjuk ki (konkrét minta esetén):

21

'*ˆeysty α

−±

A számítási módból is következik, hogy a függő változó várható értékére számított konfidencia intervallum nagysága a magyarázó változók adott értékeitől, valamint a paraméterek varianciájának és kovarianciáinak nagyságától függ.

Page 12: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 12

Amennyiben csak egyetlen független változónk van, az eredeti adatok függvényében még aránylag egyszerűen felírható a becslőfüggvényünk: Az egyedi értékek esetén az ε+= yY ˆˆ összefüggés alapján azt kapjuk, hogy

( ) ( )[ ]01''

02 1ˆ xXXxYVar −

+=σ A becsült hiba pedig

( ) 01'

0''ˆ 1 xXXxss ey

−+==

Az intervallumbecslés ekkor ''ˆ

21

*ˆ ysty α−

±

Ez olyan intervallumot jelent, amelyik 1-α megbízhatósággal adja meg azokat a határokat, amelyek tartalmazzák az x0-hoz tartozó ismeretlen sokasági Y értéket. 3.2. Hipotézisvizsgálat Többváltozós statisztikai modell esetében, akárcsak a kétváltozós esetben, a hipotézisvizsgálat három kérdésre keresi a választ: 1. A kapott (becsült) paraméterek jók-e, azaz a nekik megfelelő változók jó magyarázó

változók-e a regressziós modellben? 2. A változók együttesen kielégítő módon magyarázzák-e az eredményváltozót? 3. A modellfeltételek a becslések tükrében helytállóak voltak-e, avagy empirikus

eredményeink arra utalnak, hogy ezek valamelyike nem teljesült? Az első esetben a paraméterek teszteléséről beszélünk, és nullhipotézisünk az, hogy a j-edik sokasági paraméter értéke 0, ellenhipotézisünk pedig az, hogy nem, azaz

0:

0:

1

0

=

j

j

H

H

β

β

Látható, hogy a nullhipotézis azt jelenti, hogy a j-edik magyarázó változó regressziós együtthatója 0, azaz a j-edik változó tetszőleges elmozdulása nem befolyásolja az eredményváltozót. Ezért ha a próba során a nullhipotézis mellett döntünk, egyben azt is állítjuk, hogy a j-edik magyarázó változó nem magyarázza az eredményváltozót, tehát szerepeltetése a regresszióban felesleges. Ellenkező esetben, ha az ellenhipotézis fogadható el, a j-edik magyarázó változó sokasági értéke szignifikáns mértékben különbözik 0-tól, tehát a j-edik magyarázó változó valóban magyaráz, jó, releváns változó a regresszióban. A hipotézis tesztelésére a t-próbát alkalmazzuk. A próbát külön-külön valamennyi paraméterre el kel végezni, és ennek eredményeképp képet kapunk arról, hogy az egyes változók lényeges mértékben hozzájárulnak-e az eredményváltozó magyarázatához.

A próba elvben a konstans együtthatójára is alkalmazható, és értelmezése ott is ugyanaz, mint bármely más paraméter esetén. Ennek ellenére a konstans esetében többnyire nem végezzük el a próbát, azaz a t-értéktől függetlenül a konstanst mint az illeszkedést segítő paramétert megtartjuk a modellben.

A második esetben a vizsgálat arra irányul, hogy a modell elégséges-e abban az értelemben, hogy a magyarázó változók összességükben kielégítően magyarázzák-e az eredményváltozót. Ennek tesztelése a varianciaanalízis segítségével történik. A nullhipotézisünk ezúttal az, hogy a magyarázó változók sokasági együtthatói mind 0-k, azaz

Page 13: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 13

0: 210 ==== kH βββ K , ellenhipotézisünk pedig az, hogy létezik legalább egy olyan együttható, amely sokasági szinten nem nulla, azaz

.0:1 ≠∃ jH β Látható, hogy a nullhipotézis azt jelenti, hogy a modellünk egészében rossz, míg az ellenhipotézis azt monda ki, hogy van legalább egy változó a modellben, amit érdemes megtartani, tehát a modellt nem lehet eleve elutasítani. Ebben az értelemben valójában a varianciaanalízis próbája logikailag megelőzi a t-próbát, hiszen ha a varianciaanalízissel megállapítjuk, hogy a modell rossz, akkor nincs mit elemezni a továbbiakban ha pedig van benne valami, akkor érdemes a t-próba alkalmazásával megkeresni azokat a relációkat, ahol érdemleges kapcsolatok találhatóak. A varianciaanalízis próbáját a próbafüggvényről F-próbának, vagy az egész modellre történő alkalmazására utalva, globális F-próbának szokták nevezni. A próba alapötlete:

a nullhipotézis fennállása esetén a regresszió által magyarázott négyzetösszeg és a maradék-négyzetösszeg alkalmasan normált hányadosa F-eloszlást követ, és

ha a nullhipotázis ne igaz, akkor ugyanez a hányados növekszik, ezért a mullhipotézis elutasítási tartománya a jobb oldalon jelenik meg.

Mindez formálisan úgy néz ki, hogy az eredményváltozó varianciáját a regressziós modell és a hibatényező hozzájárulására bontjuk fel. A többváltozós regressziós modell feltételei segítségével bizonyítható, hogy többváltozós esetben is felírható az eltérés-négyzetösszegek között a következő összefüggés:

( ) ( ) ( )∑∑∑===

−+−=−n

iii

n

ii

n

ii yyyyyy

1

22

1

2

1

ˆˆ

SST=SSR+SSE

A függő változó átlagtól vett eltérésnégyzet-összegének (SST) két komponense tehát: a regressziós becslések átlagtól vett eltérésnégyzet-összege (SSR) és a reziduális négyzetösszeg (SSE). A mintákból meghatározott négyzetösszegek segítségével vizsgálhatjuk a nullhipotézis fennállását:

1−−

=

pnSSE

pSSR

F ,

ahol a számláló szabadságfoka: szf1=m, a nevező szabadságfoka pedig: szf2=n-p-1. Az F-próba végrehajtása után az alábbi megállapításokat tehetjük: Ha a számított érték kisebb, mint a kritikus érték, akkor a nullhipotézis elfogadjuk, és megállapítjuk, hogy a vizsgált szignifikancia-szinten a modell nem jó, a magyarázó változók nem tudtak érdemben több magyarázatot adni az eredményváltozó alakulására, mint az eredményváltozó egyszerű mintaátlaga. Ha a számított érték nagyobb vagy egyenlő a táblázatból kikeresett kritikus értéknél, akkor az adott szignifikancia-szinten a modell nem utasítható el egyértelműen, legalább egy lényeges relációt megragad, ezért érdemes tovább vizsgálni. A varianciaanalízis számításait és eredményeinek bemutatását a nemzetközileg is szabványosnak tekinthető ANOVA (ANalysis Of VAriance) táblázatok segítségével szoktuk rendezni. Az ANOVA tábla általános sémája a következő:

Page 14: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 14

A variancia forrása

Eltérésnégyzetösszeg (SS)

Szabadságfok (DF)

Átlagos négyzetösszeg

(MS) F-érték

Regresszió (R) SSR p MSR=SSR/p

MSEMSRF =

Hibatényező (E) SSE n-p-1 MSE=SSE/(n-p-1)

Teljes (T) SST n-1 -

Ennél a próbánál egyre gyakoribb az, hogy a számítások során nem csupán a próbafüggvény empirikus értékét adjuk meg, de kiszámítjuk, illetőleg megadjuk az empirikus szignifikancia-szintet (a p-értéket) is. A 0-hoz közeli p-értékek a nullhipotézis elutasítását, az 1 közelében lévő p-értékek a nullhipotézis elfogadását javasolják. Kissé pontosabban azt mondhatjuk, hogy a nullhipotézist minden, p-nél nem nagyobb szignifikancia-szinten elutasítjuk, minden, p-nél nagyobb szignifikancia-szinten pedig elfogadjuk. A globális F-próbával kapcsolatban megjegyezzük még, hogy kapcsolata a többszörös determinációs együtthatóval meglehetősen egyszerű, ezért az illeszkedés tesztjének is felfogható. Ha ugyanis az F-értéket a többszörörs determinációs együttható segítségével akarjuk felírni, akkor

2

2

1*1

)/(1/*1*1

RR

ppn

SSTSSRSSTSSR

ppn

SSESSR

ppnF

−−−

=−

−−=

−−=

kapható, amiről viszont látszik, hogy a nagy R2, azaz jó illeszkedés esetén utasítja el a nullhipotézist –míg ha a determinációs együttható kicsi, a nullhipotézist- azaz azt, hogy rossz a modell – nem tudjuk elvetni. Ebben az értelemben tehát a globális F-próba az illeszkedés jóságának próbája is. 4. Optimális regresszió-függvény meghatározásának lehetséges módjai Az egyszerű, kizárólag az adott tényező- és az eredményváltozó közötti kapcsolat szorosságán alapuló mérlegelésnek van előnye és hátránya. A korrelációs együttható könnyen meghatározható, de nem biztos, hogy olyan eredményre vezet, amelyet célul tűztünk ki: azaz, hogy az eredményváltozóval szoros kapcsolatban álló tényezőváltozók szerepeltetésével a modell jó becslést ad az eredményváltozó alakulására. A magyarázat pedig a multikollinearitás lehet. Multikollinearitás alatt a magyarázó változók közti lineáris kapcsolatot értjük, ami sok esetben - a modellben - megfigyelhető, s léte a becslési eljárás eredményét befolyásolja. Célszerű lehet a modellszerkesztés során az eddig tárgyalt változók kiválasztása helyett más megoldáshoz nyúlni, amely a két változó közti kapcsolaton túl a többi magyarázó változóval való összefüggéseire is figyelemmel van. Valószínűleg olyan regresszió-függvény segítségével tehetjük ezt meg, amely csak a szignifikáns paraméterekkel rendelkező változókat tartalmazza, ezekből is csak annyit ( a lehető legkevesebbet ), amelyek

Page 15: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 15

lehetővé teszik, hogy a modell által becsült értékek a ténylegesen megfigyelt értékekhez jól illeszkedjenek. Ezzel olyan modell építhető fel, amely a magyarázó változó várható értékére jó közelítést ad, s egyben gazdaságos modell is. A változók ilyen céloknak megfelelő kiválasztásának eljárását az optimális regresszió-függvény meghatározásával érhető el. Az optimális regresszió-függvény meghatározásának több módja ismert, mi azonban csak a két legelterjedtebben használt eljárást: a Backward eliminációs módszert és a Stepwise módszert tárgyaljuk. A módszerek bemutatása előtt szükséges kiemelni, hogy első lépésként a modellt kell felépíteni, tehát a magyarázó változóval logikailag összefüggő változókat kell megkeresni, majd ellenőrizni kell, hogy a változókra vonatkozó megfigyelések (mintaadatok, illetve idősorok) rendelkezésre állnak-e, majd ezt követően lehet csak az optimalizálással foglalkozni. Külön rá kell mutatni arra, hogy a statisztikai programcsomagokban az optimális regressziós függvény meghatározására használt módszerek megtalálhatók, s így a számítások gyorsan és egyszerűen elvégezhetők (így például a Minitab, SPSS, SAS programcsomagokkal). A bemutatásra kerülő eljárások lépésről lépésre ítélik meg azt, hogy az adott változó önmagában milyen jelentős hatást gyakorol a modellre, illetve a modellben még/már szereplő többi változó magyarázó erejére. A bemutatásra kerülő módszerek logikailag egymás ellentettei, míg a Backward eliminációs módszer „lebontással”, addig a Stepwise módszer lépésről lépésre „építkezéssel” jut el az optimális modellhez. 4.1. Backward eliminációs módszer A módszer lépései:

1. A magyarázó változóval szerintünk logikailag összefüggő valamennyi változót beépítjük a modellbe. Legyen az összes magyarázó változók száma p. Ekkor egy p+1 változós modellt állítunk össze és meghatározzuk a modell paramétereit, meghatározzuk a paraméterek standard hibáját.

2. Kiszámítjuk a magyarázó változók paramétereire a parciális t -próba értékét ( vagy a parciális F -próba értékét ):

t i

i

=$

( $ )β

σ β (7) vagy

2

2

)ˆ(

ˆ

βσβ iF = (8)

a H OH O

o i

i

:: ββ

=≠1

hipotézis tesztelésére.

3. Megvizsgáljuk azt, hogy az abszolút értéken legalacsonyabb t (vagy F ) értékkel bíró változó szignifikáns változó-e:

Page 16: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 16

- ha a próbafüggvény értéke magasabb az adott szignifikancia-szinthez tartozó

függvényértéknél, ( t n p1 2

1−− −α / , vagy F p n p

1 21

−− −

α /, ): a változót megtartjuk a modellben és

optimális regresszió-függvénynek az általunk választott valamennyi változót tartalmazó modellt tekinthető, tehát már első iterációban optimális regresszió-függvényhez jutottunk: a gyakorlat igazolta a feltevést a kapcsolat valódiságáról,

- ha a próba értéke alacsonyabb az adott szignifikancia-szinthez tartozó értéknél, akkor e változót kizárjuk - elimináljuk - a regressziós modellből: e változó - a többi változóhoz képest - nem gyakorol lényeges hatást a magyarázó változóra, nincs indokunk a modellben való szerepeltetésére.

4. A maradék magyarázó változók felhasználásával egy újabb modellt szerkesztünk, majd a 2. pontnál folytatjuk a vizsgálatot.

A vizsgálatot mindaddig folytatjuk, amíg a modellben szignifikáns változók szerepelnek csak! 4.2. Stepwise módszer A Stepwise módszer megoldásában éppen ellenkezője a Backward módszernek, lévén a teljes modell lebontása helyett a modell alulról való felépítését tűzi ki célul. A módszer lépései:

1. A modellbe elsőként azt a változót építjük be, amelynek a legszorosabb a kapcsolata az eredményváltozóval ( a legnagyobb a determinációs együtthatója: ryi

2 ).

2. Megvizsgáljuk, hogy az első lépésben bevont változó szignifikáns kapcsolatban van-e az eredményváltozóval.

Fr r

rn p

y p y p

y p=

−−− −

−( ). , ,..., . , ,...,

. , ,...,

1 22

1 2 12

1 221

1

. (9)

A (9) próbafüggvény számlálójában a determinációs együtthatók különbségének meghatározásával arra kapunk választ, hogy a p-edik változó beépítése mennyivel növeli a modell magyarázó erejét. Lévén a próbafüggvény értékének meghatározása munkaigényes, a gyakorlatban elterjedtebb a próbafüggvény meghatározása a szokásos formában, a változó négyzete és a változó varianciája hányadosaként, azaz:

FVar

i

i

=$

( )ββ

2

.

Page 17: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 17

3. Az első lépésben bevonásra nem került magyarázó változókra (1 2 1 1, , ... , , ...i i p− + ) meghatározzuk a parciális korrelációs együtthatókat. Másodikként azt a változót vonjuk be a modellbe, amelynél az itt meghatározott parciális korrelációs együtthatók négyzete ( parciális determinációs együttható ) értéke a legmagasabb. Mielőtt beépítenénk a modellbe az újabb változót (legyen az a j-edik) vizsgálnunk kell azt is, hogy az újabb változó bevonása a modellbe szignifikánsan növeli-e a determinációs együttható értékét ( (9)-es pontbeli F próbával ).

4. Az új változó bevonásával meghatározott új regressziós modell paramétereit, s az így meghatározott paraméterek szignifikanciáját t próbával vizsgáljuk. Ha a parciális regressziós paraméter értéke nem különbözik nullától, akkor az új ( j -edik ) változót elhagyjuk a modellből, s visszatérünk a 3. lépésnél meghatározott feladatokra. Ha a parciális regressziós paraméterek értéke különbözik szignifikánsan nullától, akkor a munkát tovább folytatjuk.

5. Az eddig bevonásra nem került magyarázóváltozókra ( 1 2 1 1 1 1, , ... , , ... , , ...i i j j p− + − + ) meghatározzuk a parciális korrelációs együtthatókat. A legnagyobb determinációs együtthatóval bíró változóra vonatkozóan szignifikancia vizsgálatot végzünk.

6. Ha a próbafüggvény értéke szignifikáns kapcsolatra utal, akkor az 5. lépésnél folytatjuk a számításokat. Ha a próbafüggvény értéke nem utal szignifikáns kapcsolatra, akkor az előzőekben meghatározott regresszió-függvényt tekintjük optimális regresszió-függvénynek.

Az optimális regressziófüggvény meghatározásakor a számításokat célszerű különböző szignifikancia-szinten elvégezni. Ezzel lehet megbizonyosodni arról, hogy valóban helyes modell került-e meghatározásra. Ezt követően a statisztikailag optimális modellt szakmai szempontból is górcső alá kell vetni, s alaposan megvizsgálni, hogy a feltárt összefüggés a valóságban is megállja-e a helyét. 4.3. A korrigált determinációs együttható A modellkészítés során az illeszkedés leggyakrabban használt mutatója az R2 determinációs együttható. Ennek azonban van egy nagy hibája: ha a meglévő változókörhöz egy újabb változót csatlakoztatunk, R2 soha nem csökken, a gyakorlatban pedig mindig nő. Ekkor, ha csak az R2 kritériumot tekintjük, a legjobb modell az, amelyik a lehető legtöbb (a megfigyelések számával megegyező számú) változót tartalmazza. Ez viszont más szempontból nem jó döntés. Ekkor ugyanis a változók számának növelésével egyrészt megnő a multikollinearitás veszélye, aminek következtében jellemző módon nőnek a paraméterbecslések hibái, és a regresszió értéktelenné válhat. Másrészt a túl sok magyarázó változó csökkenti a szabadságfokot (a megfigyelések és a becsülni kívánt paraméterek számának különbségét), s ezáltal nem engedi meg a becslés statisztikai tulajdonságainak érvényesülését. Ezért az R2 helyett olyan mutatók alkalmazása célszerű, amelyek figyelembe veszik a becslés során a változók számát is, és ezáltal a kevés számú paramétert tartalmazó modelleket versenyképessé teszik a több változót, illetve paramétert tartalmazó modellekkel. A legegyszerűbb ilyen mutató a Theil-féle, szabadságfokkal korrigált determinációs együttható, amelynek alakja a következő:

Page 18: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 18

( )22 11

11 Rpn

nR −−−

−−=

A mutató értéke a paraméterek számának növekedésével csökkenhet és csökken is akkor, ha a rendszerbe utolsónak bevont változó csak kis befolyással bír az eredményváltozóra. A korrigált R2 mutató egyébként nagyrészt hasonlóan viselkedik, mint az eredeti, nem korrigált változata, ám rossz tulajdonságai között meg kell említeni azt, hogy bizonyos esetekben negatív értéket is felvehet! A mutató a különböző modellek összehasonlításában kiemelkedő fontosságú, így nem véletlen, hogy a különböző regressziós szoftverek kiterjedten alkalmazzák. Az 2R mutató mellett számos más, hasonló célt szolgáló, más elméleti alapokon álló mutató létezik, melyek közül csak kettőt említenénk meg. 1. Akaike a mintában meglévő információ felhasználásának maximalizálását tűzte ki célul,

és mutatója –amely az AIC1 rövidítéssel vált ismertté- olyan konstrukciójú, hogy ennek minimálása a maximális információ-felhasználású modellhez vezet. A regresszió-számításban alkalmazott leggyakoribb formája

min)/2exp( →= nkn

SSEAIC

Alakú. Ez a mutató is előnyben részesíti a jó illeszkedésű, ugyanakkor bünteti a nagy számú változót tartalmazó modelleket. Mivel a mutató az SSE-re épít, természetesen kis értékei jelzik a jó modellt.

2. Az SBC2 mutató is hasonló mutató, bár egész más elméleti megalapozottságú (bayes statisztikából származtatott). Ennek formája:

.min/ →= nknn

SSESBC

Ezek a mutató, bár árnyaltabbak mint a determinációs együttható, csupán durva indikációval szolgálhatnak, mintegy döntőbíróként szerepelhetnek a modellek összehasonlítása során, ám a lehető legjobb modell kialakításában szerepük meglehetősen passzív. 4.4. A regressziós modell feltételeinek ellenőrzése A standard lineáris regressziós modell feltételei: 1. A variancia állandó: Var Y X X Var Y X Xi j( / ) ( / )= = = = σ 2 . 2. Linearitás: E Y X X Xi p p( ) ...= + + +β β β β0 1 1 2 2 E( )ε = 0 . 3. Függetlenség: az Y Y1 2, , . . . valószínűségi változók függetlenek egymástól. 4. Normális eloszlás: az Y Y1 2, , . . . valószínűségi változók normális eloszlást követnek: N X Xp p( ... , )β β β σ0 1 1

2+ + + . A regressziós modell meghatározása után, az egyedi Y értékek és a várható érték eltérése meghatározható. Jelöljük ezt az eltérést ε -nal. Így felírhatjuk, hogy Y X Xp p= + + + +β β β ε0 1 1 ...

1 Akaike Information Criterion - AIC 2 Schwarz Bayesian Criterion -SBC

Page 19: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 19

ahol: ε ε1 2, , . . . normális eloszlású, egymástól független változó: EVar

( )( )ε

ε σ

=

=

02 .

Hogyan vizsgálhatjuk e feltételek teljesülését? Legegyszerűbben ezt úgy lehet megtenni, hogy a reziduumokat a becsült értékekkel szemben ábrázoljuk. (Tehát újra a jól bevált grafikus ábrázolás módszeréhez folyamodunk). Célszerű persze a reziduumok standardizált értékeit szerepeltetni az ábrán. A reziduumok standardizált értékeit a következő képlettel számíthatjuk ki:

ey y

se

∗ =− $

ahol: se

n pei=

− −∑ 2

1.

A modellspecifikáció helyességének eldöntésére célszerű még a standard reziduumokat az egyes tényezőváltozókkal szemben is ábrázolni. A gyakorlott szemnek az ábra sokat felfed arról, hogy a megszerkesztett modell a feltételeknek többé-kevésbé megfelel-e. A továbbiakban részletesen meg kell vizsgálni, hogy az ábra mellett milyen viszonylag egyszerű statisztikai próbák segíthetik a feltételek ellenőrzését. 4.4.1. Homoszkedaszticitás tesztelése A homoszkedaszticitási feltétel azt követeli meg, hogy a maradékváltozó különböző X-értékekhez tartozó eloszlásai azonos szóródásúak legyenek. Ez egyfajta állandóságot jelent és egyebek közt azért lesz fontos, mert ez a feltétele annak, hogy a közös varianciát (és szórást) mintából becsülni tudjuk. Más szóval azt is mondhatjuk, hogy a véletlen maradékváltozótól elvárjuk, hogy állandó mértékben ingadozzék a regressziós egyenes körül. A variancia állandóságának ellenőrzése kiemelten fontos, mert

keresztmetszeti modelleknél a tényezőváltozó(k) eltérő szintjein a hozzárendelt eredményváltozó értékek jelentősen eltérhetnek, szóródhatnak,

idősoros modelleknél a tendenciát követő eredményváltozó szórása általában növekszik vagy csökken.

A feltétel teljesüléséről grafikus ábrázolással győződhetünk meg legegyszerűbben: az empirikusan meghatározott reziduumokat egy-egy magyarázó változóval ábrázoljuk. Ha valamely ábrán a hibatényező tölcsér alakban nyílik vagy fordítva zárul, akkor a következtetésünk: heteroszkedasztikus a hibatényező. Ha a heteroszkedaszticitás közvetlenül valamelyik tényezőváltozóhoz kapcsolódik, akkor a feltétel teljesülése például Goldfeld-Quandt féle teszttel is ellenőrizhető, amelynél:

H

H 0

1

:

:

σ σ

σ σ σ σj

j ji jX vagy

2 2

2 2 2 2

=

= ⋅ ≠ .

A próba végrehajtásához célszerű a keresztmetszeti adatokat Y szerint rangsorba

rendezni, majd a megfigyeléseket három részre osztani úgy, hogy az eloszlás elején és

Page 20: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 20

végén ugyanolyan számosságú csoportokat képezzünk. Jelöljük a középső csoportba kerülő elemek számát r-rel (maradék).

Az első és a harmadik csoportba tartozó adatokra kiszámítjuk a regressziós függvényeket és meghatározzuk a reziduális szórásnégyzeteket is.

A nullhipotézis igaza esetén a varianciák χ n r−2

2 eloszlást követnek és a részminták

függetlenségéből adódóan ezek egymástól függetlenek. Így az alsó és felső részminta nagyságának azonossága miatt:

Fee

ss

= =∑∑

12

22

12

22

eloszlású próbafüggvényt használhatjuk a hipotézis vizsgálatához, amelynek

szabadságfokai: ν1 2=

−n r, ν2 2

=−n r

.

A próbafüggvény elfogadási tartománya kétoldali alternatív hipotézis esetén : Fα

ν ν/

,2

1 2 , F1 21 2−αν ν

/, .

4.4.2. A hibatényező várható értéke nulla Ez a feltétel valójában azt fogalmazza meg, hogy a különböző X értékekhez tartozó maradékváltozók valóban semleges, maradék jellegűek legyenek, ne húzzanak tendenciaszerűen semerre. Ez egyébként nyilvánvaló követelmény, hiszen ha a 0 várható érték nem teljesülne, akkor ez olyan tendenciát jelezne, ami beépíthető lenne a modell determinisztikus részébe. A feltétel teljesülésének ellenőrzése a gyakorlatban nehéz, mivel a legkisebb négyzetek módszerének alkalmazásával eleve biztosított lesz az, hogy a maradéktag átlaga nulla. 4.4.3. Függetlenség A függetlenségi feltétel szerint az egyes megfigyelésekhez tartozó reziduumok egymással korrelálatlanok. Ha a modellt keresztmetszeti adatokra építettük, akkor a megfigyelések általában az egyszerű véletlen kiválasztás követelményeinek megfelelnek, s így feleslegessé válik e hipotézis ellenőrzése. A függetlenségi feltétel tartalmilag azt jelenti, hogy a különböző X értékek mellett megjelenő maradékváltozók ne korreláljanak egymással, azaz az egyik változóérték melletti kis vagy nagy értékeik ne jelentsenek semmiféle információt egy másik X érték esetére. Ettől eltérő a helyzet, ha a modellt idősoros adatokra építettük. Mielőtt az idősoros adatokra készített modellt felhasználnánk becslésre, meg kell határoznunk hogy milyen erős kapcsolat érvényesül a tényadatok és a modell által becsült adatok eltéréseként adódó reziduumok elemei között, azaz milyen erős a reziduális autokorreláció. Az elsőrendű autokorrelációs együtthatót a regressziós reziduumokból a következőképen lehet becsülni: A Durbin-Watson-teszt nullhipotézise és ellenhipotézise a következő:

H0: 0=ρ H1: 0≠ρ

Page 21: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 21

A próbafüggvénnyel nem közvetlenül a ρ -t, hanem annak egy transzformáltját teszteljük a következő módon:

=−

=−⋅

= n

ii

n

iii

e

ee

2

21

21

ρ .

Minthogy a modell az elméleti regressziós modellnek csak egy lehetséges közelítése, így szükséges a tapasztalati reziduális autokorreláció szignifikanciájának ellenőrzése. Az ellenőrzés általánosan elterjedt módszere a Durbin-Watson próba alkalmazása. A próbafüggvény:

de e

e

t tt

n

ti

n=− −

=

=

( )12

2

2

1

ahol: e Y Yt t t= − $ , azaz a t. időszakra az idősor tényadata és a modell által becsült adat

különbsége: az empirikus reziduum. A fenti próbafüggvény értékét össze kell vetnünk a Durbin és Watson által megszerkesztett, a d eloszlását mutató táblázatban szereplő értékekkel. Ezzel azt a hipotézist ellenőrizzük, hogy a minta adatok mennyire támasztják alá azt a feltevésünket, hogy az elméleti reziduális autokorreláció értéke nulla. A d eloszlását mutató táblázatban az adott szignifikanciaszinthez két kritikus érték tartozik: d L és dU , a mintanagyság és a változók száma szerint. A döntéshozatal előtt nézzük meg, hogy milyen összefüggés mutatható ki az autokorrelációs együttható ( ρ ) és a d mutató között: d ≅ ⋅ −2 1( )ρ . A próba döntési szabálya egy kicsit bonyolultabb a korábban megszokottaknál. Ha a próbafüggvény (d) empirikus értéke a 0-dL tartományba esik, a döntés az, hogy a maradékváltozó szignifikáns mértékű pozitív autokerrelációt tartalmaz.

Ha a próbafüggvény empirikus értéke a dL-dU tartományba esik, e próba alapján nem tudunk dönteni, ezt a tartományt semleges zónának nevezzük.

Ha próbafüggvényünk empirikus értéke a dU-(4-dU) tartományba esik, a nullhipotézist, azaz a maradékváltozó elsőrendű autokorrelációtól való mentességét nem tudjuk elutasítani. Ennek a tartománynak a közepe 2.

Ha próbafüggvényünk empirikus értéke a (4-dU)-(4-dL) tartományba esik, ismét semleges zónában vagyunk, és nem tudunk dönteni.

Ha próbafüggvényünk empirikus értéke a (4-dL)-4 tartományba esik, döntésünk szignifikáns negatív autokorreláció.

A próba alkalmazásával kapcsolatban két dologra hívjuk fel a figyelmet. Az egyik az, hogy ez a teszt a pozitív, illetve negatív autokorrelációt mindig az ellenkező oldalon mutatja. A másik

Page 22: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 22

fontos dolog a semleges zónákra vonatkozik. Ha próbafüggvényünk értéke ezek valamelyikébe esik, nem tudunk dönteni. Ekkor vagy a szignifikancia-szintet változtatjuk úgy meg, hogy döntési helyzetbe kerüljünk, vagy más próbafüggvényhez kell fordulnunk. Végezetül ki kell emelni, hogy reziduális autokorrelációt okozhatnak a következő esetek:

ha a modellben nem szerepeltettünk minden lényeges magyarázóváltozót (a reziduum nagysága nemcsak a véletlentől, hanem a mulasztástól is függ),

ha helytelen a modellspecifikáció, a változók között például nem lineáris a kapcsolat, azonban mégis lineáris regressziós modellt illesztettünk ( a helytelenül illesztett modell reziduumai tendenciát követnek! ),

nem véletlen jellegű mérési hibák. 4.4.4. Normális eloszlás Ez a feltétel részben kényelmi okokból indokolható, de kétségtelen, hogy az esetek jó részében a maradékváltozók sok, egymástól független, a modellben figyelembe nem vett hatás eredőjéből tevődnek össze, ami indokolhatja a normalitás feltételezését. Az empirikus eloszlást vizsgálhatjuk a hipotézisvizsgálat során megismert illeszkedés-vizsgálati teszttel ( χ 2 próba ). A nullhipotézisben szereplő valószínűség a normális eloszlás megfelelő valószínűségi értéke:

H

H : 0

1

: Pr( )

: Pr( )

ε

εj j

j j

P

j P

=

∃ ≠.

A próbafüggvény:

χ 22

1

=− ⋅⋅=

∑ ( )f n Pn P

i

ii

k

, ahol: k a képzett osztályközök száma.

A null-hipotézis elfogadási tartománya: 0 2

1 12≤ ≤ − − −χ χ α ,k b .

A normális eloszlás a standardizált hibaváltozó értékei és a standardizált hiba normális eloszlását feltételező várható értékek ábrázolásával, s ezen értékeken alapuló próbafüggvénnyel is vizsgálhatók, s így a normalitás ellenőrzése egyszerűbbé válik. A hipotézis változatlan:

H

H : 0

1

: Pr( )

: Pr( )

ε

εj j

j j

P

j P

=

∃ ≠.

A hipotézis ellenőrzésére használt próbafüggvény:

rC

nee

e e

=⋅ ⋅

*

*σ σ.

A H0 elfogadási tartománya: r rc≤ , míg H0 visszautasítási tartománya: r rc≥ .

Page 23: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 23

4.5. A multikollinearitás A többváltozós lineáris regressziós modell széles körben használt, hatékony elemzési eszköznek bizonyul olyan esetekben, amikor valamelyik jelenségnek több más jelenségtől való egyidejű függőségét vizsgáljuk. A többváltozós regressziós elemzésnél is, mint minden statisztikai módszer alkalmazásánál, a módszer hatékonysága nagyban függ attól, hogy az alkalmazás feltételei mennyiben állnak fenn. Fontos kérdés továbbá, hogy milyen következményekkel kell számolnunk, és mit kell tennünk olyan esetekben, amikor e feltételek nem, vagy nem teljesen állnak fenn. A standard lineáris regressziós modell feltétele megköveteli, hogy az [n(p + 1)]-ed rendű X mátrix rangja p + 1 legyen, azaz ne legyen lineáris függőség a magyarázó változók között. Ennek az alapvető feltételnek az a magyarázata, hogy a legkisebb négyzetek elve alapján becsült regressziós együtthatók ( bi; i = 1, 2, …, p ) meghatározásához szükség van az X’X mátrix inverzére. Mint ismeretes az X’X mátrix csak akkor invertálható, ha az X mátrix és az X’X mátrix rangja p + 1, azaz megegyezik a változók számával. Amennyiben az X’X szinguláris, vagyis az X mátrix rangja kisebb, mint p + 1, a modell együtthatói nem becsülhetők. Ez az eset akkor áll fenn, ha a magyarázó változók egyike kifejezhető a többi magyarázó változó lineáris kombinációjaként. Szokás ezt az esetet teljes, vagy extrém multikollinearitásnak is nevezni. A teljes multikollinearitás fennállására egyértelműen fény derül, ezért nem okoz különösebb problémát az elhárítása. A lineáris függőségben lévő változók egyikét elhagyjuk, hogy létrehozzuk a magyarázó változók lineárisan „független” rendszerét. Így a modellben kevesebb, azonban kölcsönösen lineárisan független magyarázó változó szerepel. Sok esetben nem könnyű annak eldöntése, hogy a lineáris függvénykapcsolatban lévő magyarázó változók melyikét kell elhagyni, és melyiket kell a regressziós modellben figyelembe venni. Ez a döntés mindenekelőtt alapos közgazdasági megfontolást igényel. A gyakorlatban a teljes multikollinearitás viszonylag ritkán fordul elő. Jóval gyakrabban találkozunk viszont a multikollinearitás olyan esetével, amikor a magyarázó változók között lineáris összefüggés van, azonban ez nem egzakt lineáris függvénykapcsolatban, hanem sztochasztikus kapcsolatban fejeződik ki. Itt szó lehet arról is, hogy a magyarázó változók között fennálló egzakt lineáris összefüggés azért jelenik meg sztochasztikus összefüggésként, mert az adatokban mérési, megfigyelési hiba is jelen van. A multikollinearitás jelenléte zavarja a modell specifikálását, és általában csökkenti a modellből nyerhető információ minőségét. Káros hatása egyrészt abban nyilvánul meg, hogy növeli a paraméterek varianciáját. A gyakorlati elemzéseknél ez olyan következményekkel is járhat, hogy indokolatlanul kihagyunk egyébként releváns változókat. Kollineáris magyarázó változók esetén nem lehetséges az egyes tényezőváltozók hatásának elkülönítése, szeparált vizsgálata sem. A multikollinearitás megnyilvánulhat abban is, hogy a paraméterek mintánként nagy különbözőséget mutatnak, illetve a minta néhány pótlólagos megfigyeléssel történő kiegészítése lényeges változást idézhet elő a paraméterek értékeinél. 4.5.1. A multikollinearitás mutatószáma Új változó bekapcsolása a modellbe növeli (a kapcsolat teljes hiánya esetén nem változtatja meg) a determinációs együtthatót. A változó hatása két tényezőtől függ: egyrészt attól, hogy a modellben már szereplő változók a függő változó varianciájából mennyit hagynak „magyarázatlanul”, másrészt attól, hogy az újonnan bekapcsolt változónak mennyi a modellben lévő változókra számított parciális determinációs együtthatója.

Page 24: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 24

Minden modellben szereplő változóra kiszámítjuk, hogy mennyivel növeli a többszörös determinációs együtthatót, ha a változót utolsóként kapcsoljuk be a modellbe. Ha ezeket a változónkénti hatásokat összeadjuk, és megkapjuk a többszörös determinációs együtthatót, úgy a multikollinearitást nullának tekinthetjük, mivel a többszörös determinációs együtthatót fel tudtuk bontani a változónkénti hatások összegére. Az esetek többségében azonban nem ez a helyzet. Van az R2

y·1,2,…,p-nek egy olyan része, amit a változók együttesen magyaráznak meg. Kézenfekvő, hogy a multikollinearitást ezzel az együttesen magyarázott hányaddal mérjük:

ahol: j = 1,2,…,p a magyarázó változókat jelöli. Az M mérőszám értéke azt mutatja meg, hogy a tényező változók nem elkülöníthető hatása milyen nagyságrendű. Ily módon a többszörös determinációs együttható felbontható az egyes tényezőváltozók parciális és a tényezőváltozók együttesen jelentkező hatására. Minél nagyobb az M értéke, annál inkább számolni kell a multikollinearitásból adódó veszélyekkel. Példa a multikollinearitás vizsgálatára 30 véletlenszerűen kiválasztott vállalat 1999. évi adatai alapján megvizsgáltuk az alábbi változók kapcsolatát: Y: a vállalat nyeresége (m Ft), X1: piaci részesedés (%), X2: alkalmazottak átlagkeresete (Ft/fő). A számítások során a következő részeredmények adódtak: ry1=0,89, ry2=0,83, r12=0,61. A parciális korrelációs együtthatók a következők:

A többszörös determinációs együttható:

A multikollinearitás mérőszáma:

.51,02543,01287,0

)83,01)(89,01(

83,089,061,0

,79,03613,02871,0

)61,01)(89,01(

61,089,083,0

,87,044197,03837,0

)61,01)(83,01(

61,083,089,0

2212

2212

2221

−=−

=−−

⋅−=

==−−

⋅−=

==−−

⋅−=

y

y

y

r

r

r

.9234,06279,0

9012,0481,161,01

61,083,089,0283,089,02

222 =

−=

−⋅⋅⋅−+

=R

[ ].5576,03658,09234,0)2345,01313,0(9234,0

)83,09234,0()89,09234,0(9234.0 22

=−=+−==−+−−=M

∑=

+−⋅⋅ −=p

jpjjypy RRM

1

2),...,1(),1(,...,2,1

2,...,2,1 ),(

Page 25: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 25

Ennél a feladatnál a multikollinearitás nem számottevő. Ezt vélelmezhetjük a páronkénti és a parciális korrelációs együtthatók közötti viszonylag kis mértékű eltérésből is, de a multikollinearitás mérőszáma is erről tanúskodik. Megjegyezzük, hogy a gyakorlati tapasztalatok alapján a multikollinearitást akkor szokásos káros mértékűnek tekintetni, ha létezik a korrelációs mátrixnak a tényezőváltozókra vonatkozó részében a többszörös korrelációs együtthatónál nagyobb abszolút értékű elem. Természetesen léteznek ennél jóval egzaktabb módszerek is a multikollinearitás mérésére, a probléma kezelésére. A statisztikai módszertan számos eljárást ismer multikollinearitást tartalmazó regressziós modellek paramétereinek becslésére, ilyen például a faktoranalízis. 4.5.2. A multikollinearitás tesztelése A VIF mutató segítségével történhet.

211

jj R

VIF−

= Azt mutatja, hogy a j-edik változó becsült együtthatójának tényleges

varianciája hányszorosa annak, ami a multikollinearitás teljes kizárásával lenne. A mutató értékelésekor azt mondhatjuk, hogy ha valamely változó VIF mutatója 1 és 2 közöt van, akkor gyenge, ha 2 és 5 között van akkor erős, zavaró, ha pedig 5 felett van, akkor nagyon erős, káros a multikollinearitás.

Page 26: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 26

MINTAFELADAT Példa az eredmények értelmezésére. A többváltozós korreláció és regresszió számítás eredményeit az SPSS14.0 szoftver „Cars.sav” adatfájljában található adathalmaz vizsgálata alapján mutatjuk be! A vizsgált változók: A változó neve

Tartalom (angolul) Tartalom (magyarul) Jelölése a regresszió egyenletben

mpg Miles per Gallon Üzemanyag hatékonyság (mérföld/gallon)

Y

engine Engine Displacement (cu. inches)

Motor térfogat X1

horse Horsepower Lóerő X2 weight Vehicle Weight (lbs.) Súly X3 accel Time to Accelerate from

0 to 60 mph (sec) Gyorsulás X4

year Model Year (modulo 100)

Évjárat X5

origin Country of Origin Származási hely X6 cylinder Number of Cylinders Hengerek száma X7 filter_$ cylrec = 1 | cylrec = 2

(FILTER) Filter X8

A Cars.sav fájl a fenti változók adatait 406 autóra vonatkozóan tartalmazza! A változók korrelációs elemzése során kapott korrelációs mátrix, mely tartalmazza páronként a lineáris korrelációs együtthatókat: Az R korrelációs mátrix a modellben számítható összes kétváltozós korrelációs együtthatót tartalmazza. A mátrix első sora és első oszlopa az eredményváltozó és az egyes tényezőváltozók közötti kapcsolat szorosságát mérő lineáris korrelációs együtthatókat tartalmazza, a mátrix többi eleme pedig a tényezőváltozók egymás közötti korrelációját méri. A korrelációs mátrix szimmetrikus mátrix, a fődiagonálisában lévő elemek értéke 1, ami a kétváltozós lineáris korrelációs együttható képzési módjából közvetlenül adódik. Az R mátrix számos információt tartalmaz a kapcsolat természetére vonatkozóan. Megállapítható, hogy melyek azok a magyarázó változók, amelyek a legszorosabb összefüggésben vannak a függő változóval és mely magyarázó változók között van számottevőbb korrelációs összefüggés. Ez utóbbi a multikollinearitás veszélyére hívja fel a figyelmet.

Page 27: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 27

Correlations

1 -,789** -,771** -,807** ,434** ,576** ,563** -,774** ,650**,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000

398 398 392 398 398 397 397 397 390-,789** 1 ,897** ,933** -,545** -,379** -,612** ,952** -,864**,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000398 406 400 406 406 405 405 405 398

-,771** ,897** 1 ,859** -,701** -,419** -,459** ,844** -,838**,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000392 400 400 400 400 399 399 399 392

-,807** ,933** ,859** 1 -,415** -,310** -,584** ,895** -,801**,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000398 406 400 406 406 405 405 405 398

,434** -,545** -,701** -,415** 1 ,308** ,221** -,528** ,591**,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000398 406 400 406 406 405 405 405 398

,576** -,379** -,419** -,310** ,308** 1 ,186** -,357** ,350**,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000397 405 399 405 405 405 405 405 398

,563** -,612** -,459** -,584** ,221** ,186** 1 -,567** ,424**,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000397 405 399 405 405 405 405 405 398

-,774** ,952** ,844** ,895** -,528** -,357** -,567** 1 -,891**,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000397 405 399 405 405 405 405 405 398

,650** -,864** -,838** -,801** ,591** ,350** ,424** -,891** 1,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000390 398 392 398 398 398 398 398 398

Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)N

Miles per Gallon

Engine Displacement(cu. inches)

Horsepower

Vehicle Weight (lbs.)

Time to Accelerate from 0to 60 mph (sec)

Model Year (modulo 100)

Country of Origin

Number of Cylinders

cylrec = 1 | cylrec = 2(FILTER)

Miles perGallon

EngineDisplacement(cu. inches) Horsepower

VehicleWeight (lbs.)

Time toAccelerate

from 0 to 60mph (sec)

Model Year(modulo 100)

Country ofOrigin

Number ofCylinders

cylrec = 1 |cylrec = 2(FILTER)

Correlation is significant at the 0.01 level (2-tailed).**.

Page 28: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 28

A többváltozós regresszió számítás során azt vizsgáltuk, hogyan alakult a járművek üzemanyag hatékonysága a többi változó függvényében! Az optimális regresszió függvény meghatározásához a Backward eliminációs módszert alkalmaztuk A program eredményei:

A program két lépésben jutott az optimális modellhez! A kialakított többváltozós lineáris regressziós összefüggés magyarázóereje 84,9%, másképpen, az optimális modellben szereplő magyarázó változók együttesen 84,9%-ban határozzák meg az eredményváltozó (mpg) szóródását! Variancia analízis tábla:

Model Summary

,921a ,849 ,845 3,072,921b ,849 ,846 3,068

Model12

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), cylrec = 1 | cylrec = 2 (FILTER),Model Year (modulo 100), Country of Origin, Time toAccelerate from 0 to 60 mph (sec), Vehicle Weight (lbs.), Number of Cylinders, Horsepower, EngineDisplacement (cu. inches)

a.

Predictors: (Constant), cylrec = 1 | cylrec = 2 (FILTER),Model Year (modulo 100), Country of Origin, VehicleWeight (lbs.), Number of Cylinders, Horsepower,Engine Displacement (cu. inches)

b.

ANOVAc

19836,918 8 2479,615 262,815 ,000a

3538,062 375 9,43523374,980 38319836,851 7 2833,836 301,154 ,000b

3538,129 376 9,41023374,980 383

RegressionResidualTotalRegressionResidualTotal

Model1

2

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), cylrec = 1 | cylrec = 2 (FILTER), Model Year (modulo 100),Country of Origin, Time to Accelerate from 0 to 60 mph (sec), Vehicle Weight (lbs.),Number of Cylinders, Horsepower, Engine Displacement (cu. inches)

a.

Predictors: (Constant), cylrec = 1 | cylrec = 2 (FILTER), Model Year (modulo 100),Country of Origin, Vehicle Weight (lbs.), Number of Cylinders, Horsepower, EngineDisplacement (cu. inches)

b.

Dependent Variable: Miles per Gallonc.

Page 29: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 29

A táblából leolvasható az F statisztika értéke, mely az 1. lépésben kialakított modell esetében 262,815, a második lépésben kialakított (optimális) modell esetében 301,154. Mindkét esetben a szignifikancia szint értéke (utolsó oszlop adatai) 0,00. Ami azt jelenti, hogy a kialakított lineáris regressziós összefüggés megbízhatónak tekinthető. A regresszió egyenlet paraméterei:

A többváltozós lineáris egyenletet a következő általános formával közelítjük:

pp22110 xb...xbxbb=y ++++ Az egyenlet „b” paramétereit a fenti táblázat „B” oszlopa tartalmazza. A 2-es számú (optimális) modellt tekintve tehát a regresszió egyenlete a következő: Ŷ=-3,11+0,018*x1-0,035*x2-0,006*x3+0,725*x4+1,305*x6-1,722*x7-5,137*x8 Értelmezés: b1=0,018: Minden egyéb változatlansága mellett, ha a motor térfogata 1 inch3-el nő akkor az üzemanyag hatékonyság átlagosan 0,018 mérföld/gallonnal nő.

Coefficientsa

-3,271 4,725 -,692 ,489

,018 ,007 ,241 2,526 ,012

-,035 ,013 -,171 -2,581 ,010-,006 ,001 -,629 -9,321 ,000

,008 ,094 ,003 ,085 ,933

,726 ,047 ,342 15,295 ,0001,304 ,262 ,133 4,976 ,000

-1,720 ,345 -,374 -4,981 ,000

-5,138 ,840 -,291 -6,113 ,000

-3,111 4,324 -,719 ,472

,018 ,007 ,240 2,530 ,012

-,035 ,011 -,175 -3,285 ,001-,006 ,001 -,626 -10,521 ,000,725 ,047 ,342 15,350 ,000

1,305 ,262 ,133 4,988 ,000-1,722 ,344 -,375 -5,003 ,000

-5,137 ,839 -,291 -6,121 ,000

(Constant)Engine Displacement(cu. inches)HorsepowerVehicle Weight (lbs.)Time to Accelerate from 0to 60 mph (sec)Model Year (modulo 100)Country of OriginNumber of Cylinderscylrec = 1 | cylrec = 2(FILTER)(Constant)Engine Displacement(cu. inches)HorsepowerVehicle Weight (lbs.)Model Year (modulo 100)Country of OriginNumber of Cylinderscylrec = 1 | cylrec = 2(FILTER)

Model1

2

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: Miles per Gallona.

Page 30: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 30

b2=-0,035: Minden egyéb változatlansága mellett, ha az autó teljesítménye egy lóerővel nő, akkor az üzemanyag hatékonyság átlagosan 0,035 mérföld/gallonnal csökken. Stb.

Page 31: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék

Az utolsó előtti oszlop „t” a változók szignifikanciájának tesztelésére szolgáló T-statisztika eredményét közli. Az eredmények a szignifikancia szinttel együtt (utolsó oszlop) világosabban értelmezhetők. Amennyiben a szignifikancia szint közel van a nullához, akkor a változó szignifikáns hatást gyakorol az eredményváltozóra. Az általunk vizsgált változók mindegyikére igaz ez, kivéve a gyorsulás változót. Az 1-es modellnél láthatjuk, hogy a gyorsulás változó t-statisztikájának szignifikancia szintje 0,933, ami rendkívül magas. Ezért nem tekinthető szignifikáns magyarázó változónak. Ennek eredményeként a 2-es modellben már nem is jelenik meg. A többi változó szignifikancia szintje közelíti a nullát. Egyedül a motor térfogat haladja meg a társadalomtudományi kutatásokban általánosan alkalmazott 0,05-ös szignifikancia szintet, de még így id jelentős hatást gyakorol az eredményváltozóra.

Page 32: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 32

FELHASZNÁLT IRODALOM

Köves Pál - Párniczky Gábor: Általános statisztika Tankönyvkiadó, Budapest, 1989

Hajdu - Pintér - Rappay - Rédey: Statisztika Pécs, 1994

Korpás Attiláné dr.: Általános statisztika Nemzeti Tankönyvkiadó, 1996

Szarvas Beatrix - Sugár András: Példatár a Statisztika című tankönyvhöz Aula Kiadó, 1997

B. Kröpfl. W. Peschek-E. Schneider-A. Schönlieb: Alkalmazott statisztika Műszaki Könyvkiadó, Budapest, 2000 Hunyadi László-Vita László: Statisztika közgazdászoknak Budapest, 2002 Szűcs István: Alkalmazott statisztika Budapest, 2002

Page 33: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 33

GYAKORLÓ FELADATOK

1. feladat 30 véletlenszerűen kiválasztott termelőszövetkezetben 1997-ben a kukorica termésátlaga (t/ha), a felhasznált műtrágya mennyisége (hatóanyag q/ha) és az öntözéshez felhasznált víz mennyisége (m3/ha) következőképpen alakult:

Sorszám Termésátlag (Y) Műtrágya (X1) Öntözés (X2) 1. 15,4 4,8 2.014 2. 8,8 2,8 1.200 3. 7,2 2,0 1.000 . . . . . . . . . . . .

28. 10,0 3,5 1.640 29. 8,2 3,0 1.259 30. 9,0 3,1 1.200

Összesen Feladat: 1. Becsülje meg és értelmezze a lineáris regresszió paramétereit, tesztelje le, szignifikánsak-e

a magyarázó változók! 2. Számítsa ki és értelmezze a különböző korrelációs és determinációs együtthatókat! 3. Elemezze a regressziós modell megbízhatóságát! Számítási részeredmények:

=

507013411107223746311072202,2574,84374634,8430

* XX

=

9,3429691,7757,259

* yX

( ) yXXXbbb

b ** 1

2

1

0−=

= s=0,612 sy=2,1054

( )

−−−

=−

0000004,000011,0081068,0

000196,0090476,0532242,0* 1XX

Page 34: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 34

2. feladat 20 kísérleti parcellán – azonos minőségű földterületen – elemezték a búzatermelés alakulását. A következő számszerű értékek adódtak: Y: termésátlag (t/ha) X1: felhasznált növényvédőszer mennyisége (kg/ha) X2: átlagos munkaidő-ráfordítás (óra/ha)

=

056,0019,0900,1

b ( )

−−−=−

0024,00011,01537,00036,00366,0

6400,13* 1XX

se = 0,2865 Feladat: a) Értelmezze a regressziós együtthatókat! b) Vizsgálja meg a paraméterek szignifikanciáját (α = 5%)! c) Határozza meg és értelmezze a 80 órás munkaidő-ráfordításhoz tartozó parciális

rugalmassági együtthatót (X1 = 50)! 3. feladat Egy szálloda vezetése arra kíváncsi, mitől függ a vendégek szállodában töltött napjainak száma. Ezért 40 véletlenszerűen kiválasztott vendéget megkérdeznek a következőkről: Y: a szállodában töltött napok száma X1: évente átlagosan mennyit költ nyaralásra ($ /fő) X2: hányadszor van Magyarországon X3: 1 − OECD országból érkezett 0 − egyéb országból érkezett A lineáris regresszió-számítás néhány részeredménye:

( )

−−−−−

=−

105597,0007735,000003106,0020513,00131548,000000533,00403706,0

0000979,0000309,0264513,0

* 1XX

=

08,207,302,078,0

b [ ]( ) 134,0

11

4001

*114001 1 =

−XX 3566,242 =∑e

Feladat: a) Értelmezze a becsült paramétereket! b) Határozza meg a paraméterek becslésének p-értékeit! c) Becsülje meg 95%-os megbízhatósággal egy olyan turista tartózkodási idejét, aki

Ausztriából érkezett, évente kb. 400 $-t költ nyaralásra és először jött Magyarországra nyaralni!

Page 35: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 35

4. feladat 40 véletlenszerűen kiválasztott 1994-es külföldi utazás jellemzői: Y: Utazás ára (Ft) X3 X3 = 0 ; X4 = 0 - autóbusz X1: Utazás hossza (km) Utazás módja: X3 = 1 ; X4 = 0 - repülő X2: Időtartam (nap) X4 X3 = 0 ; X4 = 1 - autóbusz és

repülő Néhány számítási eredmény: s = 18.765 Y = -14.698 + 7,28 X1 + 3.164 X2 + 17.712 X3 + 25.384 X4 t-értékek: (6,58) (2,99) (2,29) (2,36) p-értékek: (0,0000) (0,005) (0,028) (0,024) Feladat: a) Értelmezze a becsült paramétereket! b) Értelmezze a paraméterek szignifikanciájának p-értékeit! c) Becsülje meg 95%-os megbízhatósággal,hogy a 2.000 km-es, 5 napos, repülővel történő

utazások mennyibe kerülnek átlagosan, ha ismert, hogy ( ) 174,0* 01

0 =− xXXx 5. feladat Egy szabadidő park 40 napon keresztül figyeli az alábbi változók értékét: Y: Látogatók száma, fő X1: Hőmérséklet Co X2: 0, ha hétköznap, 1, ha hétvége volt X3 = 0, X4 = 0 ha sütött a nap X3 = 0, X4 = 1 ha borult volt, de nem esett X3 = 1, X4 = 0 ha esett A becslések néhány eredménye:

Y = 384 + 124X1 + 401X2 – 274X3 – 361X4

( )

−−

−−−

=−

081221,004151,0001169,000678,000131,0097312,0022967,0009297,000296,0

126939,000923,000409,0132895,000139,0

000251,0

* 1XX

SSR = 13372617 SSE = 414984 d = 1,89

Page 36: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 36

Feladat: a) Értelmezze a regressziós paramétereket! b) Tesztelje külön-külön 5%-os szignifikancia-szinten a tényezőváltozó szignifikáns

különbözőségét a 0-tól! c) Számítsa ki és értelmezze a többszörös korrelációs együtthatót! d) Tesztelje le 5%-os szignifikancia-szinten, elfogadható-e az a nullhipotézis, hogy a

rezidumok autokorrelálatlanok a reziduális autokorrelációval szemben! 6. feladat Egy vállalatnál azt vizsgálták, hogy milyen tényezők befolyásolják a kereset alakulását. Ennek érdekében megvizsgálták 45 dolgozó esetén az órabér és az azt befolyásoló legfontosabb tényezők alakulását. A felmérés eredménye az alábbi táblában látható:

Órabér (Ft/ó)

Munka-helyen

eltöltött idő (év)

Kor (év)

Nem

Szakképz.(1 – van, 0 – nincs)

Órabér(Ft/ó)

Munka-helyen

eltöltött idő (év)

Kor (év)

Nem

Szakképz. (1 – van, 0 – nincs)

188 25 45 1 1 171 9 36 1 1 157 16 45 0 0 142 7 26 1 0 165 30 51 0 0 150 10 26 0 0 124 5 39 0 0 156 15 28 0 0 139 12 31 0 0 154 20 41 0 0 165 17 34 0 1 176 25 43 1 1 158 10 31 0 1 137 13 42 0 0 224 24 44 1 1 130 7 23 0 0 169 17 45 1 1 155 7 44 0 1 114 6 25 1 0 234 33 52 1 1 160 11 48 0 0 200 25 42 1 1 154 27 46 1 0 228 24 44 1 1 150 14 30 1 0 161 16 33 0 1 130 7 23 1 0 148 5 43 0 1 198 31 56 1 1 127 2 20 0 1 159 16 33 0 1 195 22 39 1 1 154 16 32 0 0 237 27 40 1 1 174 17 35 1 0 163 21 46 0 0 126 7 44 0 0 201 18 41 1 1 162 12 29 0 1 137 5 23 1 1 181 26 46 1 1 233 27 45 1 1 146 10 47 0 0 180 15 42 1 1 152 7 30 1 1

Page 37: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 37

The regression equation is ORABER = 105 + …….. MUELIDO + 0.224 KOR + …….. NEM + …….. SZAKKEPZ

Predictor Coef Stdev t-ratio p Constant 105.05 10.72 9.80 0.000 MUELIDO 2.2585 ….….. 5.48 0.000 KOR 0.2238 0.3536 ……….. 0.530 NEM …….. 5.277 1.55 0.129 SZAKKEPZ 21.977 4.952 ………. 0.000 s = ……………. R-sq = 78.3% R-sq(adj) = ……….. Analysis of Variance SOURCE DF SS MS F p Regression .…. ……… 8268.7 36.07 0.000 Error ….. ……... .…… Total …… 42245.2 MTB > Stepwise 'ORABER' 'MUELIDO'-'SZAKKEPZ'; SUBC> FEnter 4.0; SUBC> FRemove 4.0. Stepwise regression of ORABER on 4 predictors, with N = 45

STEP 1 2 CONSTANT 118.7 111.3 MUELIDO 2.96 2.58 T-RATIO 8.45 8.97 SZAKKEPZ 24.3 T-RATIO 5.15 S 19.2 15.2 R-SQ 62.39 76.93 MTB > Stepwise 'ORABER' 'MUELIDO'-'SZAKKEPZ'; SUBC> Enter 'MUELIDO'-'SZAKKEPZ'; SUBC> FEnter 4.0; SUBC> FRemove 4.0.

Page 38: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 38

Stepwise regression of ORABER on 4 predictors, with N = 45

STEP 1 2 3 CONSTANT 105.0 111.0 111.3 MUELIDO 2.26 2.44 2.58 T-RATIO 5.48 8.10 8.97 KOR 0.22 T-RATIO 0.63 NEM 8.2 7.5 T-RATIO 1.55 1.46 SZAKKEPZ 22.0 22.1 24.3 T-RATIO 4.44 4.50 5.15 S 15.1 15.0 15.2 R-SQ 78.29 78.08 76.93 Feladat:

1. Egészítse ki a hiányzó adatokat! 2. Értelmezze a regresszió-függvény paramétereit! 3. Becsülje meg annak a dolgozónak a várható keresetét, akinek a munkában

eltöltött ideje 15 év, 38 éves, férfi és szakképzetlen! ( ( ) 159,0* 01

0 =− xXXx ) 4. Milyen módszerrel történt a regresszió-függvény meghatározása? 5. Értelmezze az egyes lépéseket!

7. feladat Egy ingatlanközvetítő iroda adatai alapján 1996. októberében 20 véletlenszerűen kiválasztott budapesti öröklakás eladási ára (millió Ft), életkora (év) és területe (m2) az alábbi volt:

Sorszám Eladási ár (mFt)-y Terület (m2)-x1 Életkor (év)-x2 1. 2,45 48 2 2. 4,10 55 2 3. 2,15 71 3

…… …… ….. ….. 19. 1,55 53 40 20. 1,45 54 78

Page 39: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 39

Feladat: a) Egészítse ki az alábbi számítógépes programrészletet a hiányzó adatokkal ! eladar = ………... + 0,0373 terület - …………… életkor

Predictor Coef Stdev t-ratio p Constant …………. 1,083 0,69 0,499 Terület 0,0373 …………. 2,55 …………. Életkor …………. …………. -2,12 0,049

se = …………… R-sq = 64,0 % R-sq (adj) = ………. % Analysis of Variance

SOURCE DF SS MS F p Regression …………. 19,0732 …………. …………. 0,000 Error …………. …………. …………. Total …………. 29,8103

=

0,00015 0,00015 0,01241-0,00015 ............... 0,02448-0,01241- 0,02448 - ................

X)X( 1-*

b) Becsülje meg 95 %-os megbízhatósággal azoknak a lakásoknak a várható eladási árát,

amelyek 15 évvel ezelőtt épületek és alapterületük 70 m2 ! (x0 (X*X)-1 x0=0,023) c) Becsülje meg 95%-os megbízhatósággal egy olyan lakás várható eladási árát, amely 25

évvel ezelőtt épült és alapterülete 85 m2 ! (x0 (X*X)-1 x0=0,018) d) Határozza meg az elaszticitást a 15 éves életkorú lakásnál (x1=72) ! e) Határozza meg és értelmezze az ry1 és az ry1 2 korrelációs együtthatókat !

MTB > Correlation ’eladar’ – ’eletkor’. eladar terulet terulet 0,738 eletkor -0,709 -0,639

f) Határozza meg a multikollinearitás mérőszámát! 8. feladat Egy kereskedelmi vállalat üzletkötői 1995-ös prémiumának alakulását vizsgálták és a következő befolyásoló tényezőket találták: x1: éves bér x2: üzletkötések száma x3: nem (nő = 0, férfi = 1) A vizsgálathoz 36 fő üzletkötő adatait használták, s a következő részeredményeket kapták:

Page 40: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 40

=

1 0,51- 0,44- 0,79-1 0,71 0,87

1 0,691

R

=

4,07726 2,87634- 0,21566- 5,87228 6,57192 0,79907- 7,43852-

2,11934 0,93752-12,75750

R 1-

1911 )ˆs( x511 13 x349 x0,19 7,801 y 3321 =−++= β

Feladat:

a) Értelmezze a minőségi ismérvhez tartozó parciális regressziós együtthatót, valamint a minőségi ismérv és a prémium közti korrelációs együtthatót !

b) Számítsa ki és értelmezze az ry3 12 parciális korrelációs együtthatót ! c) Vizsgálja meg a minőségi ismérvhez tartozó paraméter szignifikanciáját

(szignifikancia szint 5%) és határozza meg a p értékét ! 9. feladat 50, gazdasági tevékenységet folytató KKV-ra vonatkozó adatok felhasználásával vizsgálták az egy főre jutó árbevétel (Y), az egy főre jutó gépek, berendezések értéke (X1) és az egy főre jutó havi átlagkeresetek (X2) közti kapcsolatot. A korrelációs mátrix:

=

128,063,0185,0

1R

Feladat:

a) Határozzuk meg és értelmezzük a többszörös determinációs együtthatót és a parciális korrelációs együtthatókat!

b) Mutassuk be a többszörös determinációs együttható szerkezetét, jellemezzük a multikollinearitást az M mutatóval!

10. feladat Egy ingatlan ügynökségben megvizsgálták 25 véletlenszerűen kiválasztott ingatlan esetén, hogy milyen tényezők befolyásolják az eladási árat.

Page 41: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 41

Az alábbi változókat vették figyelembe: eladar: eladási ár (USD) lakassza: lakások száma (db) epeletko: az építmény életkora (év) telekmag: teleknagyság (négyzetláb) parkolo: belső parkolóhelyek száma (db) brterule: az épület összes területe (négyzetláb) Feladat:

a) Mutassa be részletesen az optimális regresszió-függvény meghatározásának módját az alábbi példa alapján !

Írja fel a módszerben felhasznált hipotéziseket és próbafüggvényeket is !

STEP 1 2 3 CONSTANT 57 211 59 539 114 456 brterule 20,4 14,5 15,0 T-RATIO 18,58 7,82 10,38 lakassza 5 376 5 017 T_RATIO 3,64 4,3 epeletko -1 057 T-RATIO - 3,95 S 53 996 43 629 33 833 R-SQ 93,75 96,10 97,76

b) Töltse ki az alábbi programrészlet hiányzó adatait ! The regression equaiton is Eladar = 92 379 + ….. lakassza ….. epeletko + 1,04 teleknag + 2 692 parkolo + ….. brterule

Predictor Coef Stdev t-ratio p Constant 92 379 ………… 3,23 0,004 lakassza ………… ………… 2,76 ………… epeletko - 851,4 ………… ………… ………… teleknag ………… 2,866 0,36 0,721 parkolo 2 692 ………… 1,71 ………… brterule ………… 1,457 10,68 …………

se = 33.100 R-sq = 98,1 % R-sq (adj) = ………..%

Analysis of Variance

SOURCE DF SS MS F p Regression ………… ………… 2,10595 x 1011 ………… 0,000 Error ………… ………… ………… Total 24 1,07379*1012

Page 42: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 42

Számítási részeredmények:

=

.............. 0,000000 0,000000 0,000000 0,000002- 0,000010-0,000000 .............. 0,000001 0,000167 0,000718- 0,017324-0,000000 0,000001 .............. 0,000000 0,000002- 0,000056-0,000000 0,000167 0,000000 0,000081 0,000092- 0,005952-0,000010- 0,000718- 0,000002- 0,000092- 0,002015 0,019795 0,000010- 0,017324- 0,000056- 0,005952- 0,019795 ...............

X)X( 1-*

c) Becsülje mg egy olyan ingatlan eladási árát, amelyben 5 lakás található, a bruttó

területe 1500 négyzetméter, az ingatlan 10 éve épült és minden lakáshoz 2 parkolóhely tartozik, a hozzá tartozó telek viszont csak 250 m2 ! (x0 (X*X)-1 x0=0,018

d) Mennyi az elaszticitás az előző paraméterek mellett 10 lakásos ingatlan esetén ? 11. feladat Egy elemzés során azt vizsgálták, hogy mely tényezők befolyásolják az építőipari beruházások idejének alakulását. Az elemzés során figyelembe vett változók az alábbiak voltak: beruhert – a beruházás értéke (m USD) rosszido – a munkavégzésre nem megfelelő munkanapok száma esemeny – volt-e az építkezést gátló esemény (1-volt, 0-nem volt) panelalany – az épület anyaga (1-panel, 0-nem panel) munkassz – az építkezésen dolgozó munkások száma Mutassa be részletesen az optimális regresszió-függvény meghatározásának módját az alábbi példa alapján! Írja fel és értelmezze a módszerben felhasznált hipotéziseket és próbafüggvényeket valamint az optimális regresszió-függvényt!

STEP 1 2 3 CONSTANT 15,7 14,97 12,1 beruhert 0,362 0,362 0,360 T-RATIO 6,82 6,97 7,00 rosszido 1,79 1,79 1,76 T-RATIO 2,85 2,94 2,93 esemeny 24,1 24,0 23,8 T-RATIO 3,13 3,21 3,20 munkassza -0,32 -0,30 T-RATIO -0,71 -0,73 panelany -0,1 T-RATIO -0,02 S 13,6 13,3 13,2 R-SQ 88,14 88,10 87,89

Page 43: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 43

12. feladat Egy játékgyár kíváncsi arra, hogy hány napig játszanak a gyerekek a legújabb pingvinjátékkal, ezért 25 véletlenszerűen kiválasztott gyermek szüleit megkérik, írják meg a gyárnak, mikor dobják el a pingvint. A napok számán túl az is érdekli a vállalatot, milyen tényezők befolyásolják a játék használati idejét. A megfigyelt szempontok: y: a játék használati ideje (nap) x1: a gyermek életkora (év) x2: a gyermek neme: 1 – fiú, 0 -lány Néhány számítási eredmény:

784 946 d 619035 e 2y

2 =Σ=Σ

Feladat:

a) Írja fel a regressziós egyenes egyenletét, értelmezze a paramétereket ! b) Ellenőrizze 95%-os biztonsággal a H0:β1 = β2 = 0 nullhipotézist ! c) Ellenőrizze le a β2 paraméter szignifikanciáját, értelmezze a kapott eredményeket ! d) Becsülje meg azon játékok átlagos használati idejét, melyet 5 éves fiúknak ajánlottak !

(x0 ⋅⋅ -1*XX x0 = 0,2) 13. feladat 20 európai ország adatai alapján elemezték a várható átlagos élettartamra ható tényezőket. A vizsgált összefüggés néhány részeredménye: y várható átlagos élettartam (év) x1 halálozási arányszám (0/00) x2 egy főre jutó GDP ($) x3 egy főre jutó napi átlagos kalória-fogyasztás Feladat:

a) Határozza meg és értelmezze az ry3 12 parciális korrelációs együtthatót !

=

1,5461 0,8399 0,2400- 0,0500- 3,3149 0,9490- 2,8300-

2,2340 2,18274,7102

R 1-

=

=

19924-

478 y X X)(X

0,161212 0,003042 0,11401-0,003042 0,009687 0,09768-0,11401- 0,09768- 1,068310

X)(X *1-*1-*

Page 44: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 44

b) Tesztelje le az alábbi regressziós modell megbízhatóságát (α = 5%) ! 321 x00018,0 x0,0002 x0,67-78 y ++=

c) Értelmezze az alábbi programrészletet, írja fel a szükséges hipotéziseket és

próbafüggvényeket is, valamint az optimális regresszió-függvényt !

STEP 1 2 3 CONSTANT 78 74 71 X1 -0,67 -0,6715 -0,87 T-RATIO -18,58 -10,38 -,5,78 X2 0,0002 0,00024 T-RATIO 4,21 2,14 X3 0,00018 T-RATIO 1,64 S 5,3996 4,3629 4,1217 R-SQ 73,75 75,1 75,12

14. feladat Egy kísérleti oktatásban részesülő tankör esetén megvizsgálták a Statisztika III. zárthelyi dolgozat eredményeit és azt tapasztalták, hogy az oktatási módszer megválasztása mellett egyéb tényezők is befolyásolják a dolgozat eredményét. Az alábbi tényezőket vették figyelembe: zhpont a dolgozat pontszáma (pont) nem a hallgató neme (1 = nő; 0 = férfi) oktatas az oktatás módszere (1 = számítógépes; 0 = hagyományos) stat2 a Statisztika II. tantárgy eredménye gyak.ido az egyéni gyakorlásra fordított idő (óra) Feladat:

a) Egészítse ki az alábbi számítógépes programrészletet a hiányzó adatokkal !

zhpont = 19,7 + …….. nem + ……… oktatas + 1,70 stat2 + …….. gyak.ido

Predictor Coef Stdev t-ratio p Constant 19,471 5,385 3,67 0,001 nem 1,837 ……….. 0,54 0,592 oktatas 4,051 3,033 ……….. ……….. stat2 ……….. ……….. 0,98 0,335 gyak.ido ……….. ……….. 2,27 0,030

se = 8,228 R-sq = ……….. % R-sq (adj) = 37,2%

Page 45: TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

Többváltozós korreláció- és regressziószámítás

Üzleti Statisztika és Előrejelzési Tanszék 45

Analysis of Variance SOURCE DF SS MS F p Regression ……….. ……….. ……….. ……….. 0,000 Error ……….. ……….. ……….. Total 38 4098,92

=

0,002353 0,004612- 0,005789- 0,001027- 0,012191-0,004612- 0,044658 0,007306 0,040956- 0,080078-

0,005789- 0,007306 0,135854 0,034906- 0,0148680,001027- 0,040956- 0,034906- 0,170235 0,0846040,012191- 0,080078- 0,014868 0,084604 0,428234

X)X( 1-*

b) Becsülje meg 95%-os megbízhatósággal annak a férfi hallgatónak a várható pontszámát,

aki 15 órát készült a ZH-ra, hagyományos oktatásban részesült és Statisztika II-ből négyese volt ! (x0 (X*X)-1 x0 = 0,043)

c) Határozza meg a zárthelyi pontszáma és a gyakorlási idő közötti korrelációs együtthatót!

MTB > Covariance ’zhpont’-’gyak.ido’

zhpont nem oktatas stat2 gyak.ido zhpont 107.86639 nem 2.23279 0.25506 oktatas 2.22874 0.08907 0.24831 stat2 5.51417 0.31781 0.13563 1.13765 gyak.ido 27.38461 0.95344 0.91565 2.70243 19.15115