többváltozós regresszió számításregresszió... · 2016. 9. 11. · • gazdaságtudományi...
TRANSCRIPT
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
Többváltozós Regresszió-számítás
Dr. Szilágyi Roland
3. előadás
Döntéselőkészítés módszertana
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
• X (X1, X2, … , Xp):
magyarázó változó(k), független változó(k)
• Y: eredményváltozó, függő változó
• Ok-okozati kapcsolat: X okozza Y változását
Korreláció Regresszió
Célja a kapcsolat szorosságának
mérése.
Célja a kapcsolatban
megfigyelhető törvényszerűség
megfogalmazása, amelyet
valamilyen függvény ír le.
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
Többváltozós lineáris regressziós modell
• x1, x2, …, xp és y közötti kapcsolatot ábrázoló egyenes.
• Az y függ:
• x1, x2, …, xp – p db magyarázó változótól
• A véletlen ingadozásától (ε)
• β0, β1, …, βp regressziós együtthatóktól.
Y = β0 + β1x1 + β2x2 +…+ βpxp +ε
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
Többváltozós lineáris regresszióadatstruktúrája
ny
y
y
y...
2
1
pnnn
p
p
xxx
xxx
xxx
X
...1
...............
...1
...1
21
22212
12111
pb
b
b
b
b
...
2
1
0
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
5
Többváltozós lineáris regresszió min)...();;...;;( 2
22110210 ppp xbxbxbbybbbbf
2
22110
2
2
2211202
1122
2
1101
22110
...
...............
...
...
...
2
1
pxbxxbxxbxbyx
xxbxbxxbxbyx
xxbxxbxbxbyx
xbxbxbnby
ppppp
pp
pp
pp
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
6
Az egyenletrendszer mátrix alakban felírva
pppp
p
p
p
pb
b
b
b
xxxxxx
xxxxxx
xxxxxx
xxxn
yx
yx
yx
y
p
...
...
............
...
...
...
...
2
1
0
2
21
2
2
212
112
2
1
21
2
1
2
1
bXXyXTT
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
Az egyenletrendszer mátrix alakban felírva
bXXyXTT
yXXXbTT
1
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
ANOVA
2
iy )y(y =SSST
2
iy )yy( = SSSR
MSE
MSRF
A variancia forrása
Eltérésnégyzetösszeg (SS)Szabadságfok
(DF)
Átlagos négyzetösszeg
(MS)F-érték
Regresszió (R) p MSR=SSR/p
Hibatényező (E)
n-p-1 MSE=SSE/(n-p-1)
Teljes (T) n-1 -
2
ie )y(y = SSSE
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
Modell tesztelés
0: 210 pH
.0:1 jH
1
pn
SSE
p
SSR
F
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
β paraméterek tesztelése
Ha tszámított<tkritikus→H0
Ha tszámított>tkritikus→H1
0:
0:
1
0
i
i
H
H
iie
i
i
ii
vs
b
s(b
b=t
)
1;2
1
pnkritikus tt
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
Többváltozós lineáris regressziós modell feltételrendszere
A hibatagra vonatkozó feltételek
1. Várható értéke 0 M(ε) = 0
2. Varianciája konstans Var(ε) = 2
3. A hibatag értékei nem autokorreláltak.
4. Normális eloszlású valószínűségi változó.
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
A magyarázó változókra vonatkozó feltételek
1. Egymástól lineárisan függetlenek legyenek.(egyik magyarázó változót se lehessen a többi magyarázóváltozó lineáris kombinációjaként előállítani)
2. Értékeik rögzítettek legyenek, ne változzanakmintáról mintára.
3. Mérési hibát nem tartalmaznak.
4. Nem korrelálnak a hibatényezővel.
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
Feltétel Felt. sérülése Köv. Ellenőrzés Megjegyzés
Függő és független változókra vonatkozó feltétel
Linearitás Nem lineáris kapcsolat
Becsült értékek sérülése
Pontdiagram, r2
Független(egymástól)
Multikollinearitás Megbízhatatlan becslés, magas st. hiba a regr. koefficiensnél
F szignifikáns, t nem;Korrelációs mátrix;VIF-mutató
Kizárólag többváltozós regr. esetében
Hibatagokra vonatkozó feltétel
Normális eloszlás
Nem normális eloszlás
F-teszt, t-teszt érvénytelen
Reziduumok standardizált eloszlásának hisztogramjai
Legkisebb négyzetek módszere kiküszöböli
Nem korreláltak
Autokorreláció Nem hatásos, nagy KI
Reziduumok ábrázolása az idő / a megfigyelések sorrendjében; Durbin-Watson teszt
Idősornál merülhet fel a probléma.
Homoszke-daszticitás
Hetero-szkedaszticitás;korrelál az Xi-vel
Nem hatásos, nagy KI
Pontdiagram a standardizált reziduumok szórásáról
Logaritmizálásvagy a súlyozottan LNM segít
Forrás: Sajtos-Mitev [2006], 217.o.
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
Standard lineáris regressziós modell
Ahol az előbb említett feltételek teljesülnek.
Amennyiben a mintabeli adatok nem igazolják afeltételek teljesülését, bonyolultabb modellre ésbecslési eljárásokra van szükség.
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
A hibatagra vonatkozó feltételek ellenőrzése
1. Várható értéke 0 M(ε) = 0
2. Varianciája konstans Var(ε) = 2
3. A hibatag értékei nem autokorreláltak.
4. Normális eloszlású valószínűségi változó.
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
1. M(ε) = 0
• A hibatagok pozitív és negatív értékei kiegyenlítikegymást.
• Ha eltér a 0-tól, annak oka lehet, hogy kihagytunka modellből egy szignifikáns magyarázó változót.
• Nehéz a gyakorlatban ellenőrizni.
• Ha feltételezzük, hogy a legkisebb négyzetekmódszere érvényesül, akkor teljesül ez a feltétel.
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
A hibatagra vonatkozó feltételek ellenőrzése
1. Várható értéke 0 M(ε) = 0
2. Varianciája konstans Var(ε) = 2
3. A hibatag értékei nem autokorreláltak.
4. Normális eloszlású valószínűségi változó.
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
2. Homoszkedaszticitás (Var(ε) = 2)
• A hibatag varianciája állandó.
Ha nem: heteroszkedaszticitás
• Tesztelése:o Grafikus – a becsült reziduumokat a kiválasztott
magyarázó változó vagy az ŷ függvényében ábrázoljuk
o Statisztikai tesztek – Goldfeld-Quandt-féle teszt, (Különösenakkor, ha a heteroszkedaszticitás valamelyik magyarázó változóhozkapcsolódik.)
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
xi xi
Homoszkedaszticitás grafikus tesztelése
Homoszkedasztikus hibatag Heteroszkedasztikus hibatag
e
xi
e e
ŷ ŷŷ
e – reziduum
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
• H0: j2 = 2
H1: j2 ≠ 2
• Lépései:
1. Rangsor: a keresztmetszeti adatokat y szerint rangsorba rendezzük.
2. Független részminták , (ahol r > 0, > p )
3. Regressziós függvények, reziduális szórásnégyzet (se2) számítása az 1. és 3.
csoportra
4. F-próba:
Homoszkedaszticitás Goldfeld-Quandt-féle tesztelése
2
2
r-n
2
2
2
1
2
2
2
1
s
s
e
eF
2
r-n;;
2
r-nr
2
r-n
221
rn
(a varianciák eloszlást követnek és ezek egymástól függetlenek)
H0
F(1-α/2); ν1,ν2F(α/2)
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
A hibatagra vonatkozó feltételek ellenőrzése
1. Várható értéke 0 M(ε) = 0
2. Varianciája konstans Var(ε) = 2
3. A hibatag értékei nem autokorreláltak.
4. Normális eloszlású valószínűségi változó.
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
A hibatag értékei korrelálatlanok
• Keresztmetszeti adatokból történő egyszerű véletlenmintavétel esetében ez a feltétel automatikusan teljesül.
• Ha a modell idősoros adatokra épül, gyakran előfordul ahibatagok autokorreláltsága.
• Autokorreláció oka:– Nem megfelelő függvénytípus.
– Nem véletlen jellegű mérési hiba.
– A modellben nem szerepel valamennyi lényegesmagyarázó változó (nem ismerjük fel a szerepét / túl rövid idősor /nincs adat).
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
A kihagyott változókmiatt a reziduumoknem véletlenszerűek,hanem az egymástkövető értékek közöttjelentős korrelációvan.
Autokorreláció grafikus tesztelése
t
e e
t
e
t
Az autokorreláció afüggvénytípus helytelenmegválasztásának akövetkezménye.
+ KVANTITATÍV TESZTEK!
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
H0: ρ = 0 korrelálatlan
H1: ρ ≠ 0 autokorreláció
0 dl du 2 4-du 4-dl 4
Autokorreláció tesztelése Durbin-Watson próbával
- zavaró autokorreláció
+ zavaró autokorreláció
Határai:
Pozitív autokorreláció:
Negatív autokorreláció:
Bizonytalansági tartomány: nem tudunk dönteni
• Növelni kell amegfigyelések számát
• Új változót kell bevonni amodellbe
40 d
20 d
42 d
Elfogadási tartomány
n
t
t
n
t
tt
e
ee
d
1
2
2
2
1)(
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
A Durbin-Watson próba döntési táblázata
H1 ElfogadjukH0:p=0
ElvetjükNincs
döntés
p>0Pozitív autokorreláció
d>du d<dl dl<d<du
p<0Negatív autokorreláció
d<4-du
d>4-dl 4-dl<d<4-du
Forrás: Kerékgyártó-Mundruczó [1999]
du illetve dl értékét a Durbin-Watson táblázatból határozzuk meg
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
A hibatagra vonatkozó feltételek ellenőrzése
1. Várható értéke 0 M(ε) = 0
2. Varianciája konstans Var(ε) = 2
3. A hibatag értékei nem autokorreláltak.
4. Normális eloszlású valószínűségi változó.
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
A hibatag eloszlása normális
Tesztelése:
• Grafikusan ábrákkal
• Kvantitatív módszerekkel – illeszkedésvizsgálat
- próba
• Ferdeségi, csúcsossági mérőszámokkal
2
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
A reziduumok eloszlásának grafikus tesztelése
A reziduumokat várhatóértékük függvényébenábrázoljuk.
Ha az ábra megközelítőenlineáris, akkor a feltételteljesült.
e
z
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
Illeszkedésvizsgálat
H0: Pr(εj) = Pj (normális eloszláshoz tartozó megfelelő valószínűségi érték)
H1: Jj: Pr(εj) ≠ Pj
r
i i
i
nP
nPf
1
22 )(
)1(),1(2
br
H0
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
A magyarázó változókra vonatkozó feltételek
1. Egymástól lineárisan függetlenek legyenek.(egyik magyarázó változót se lehessen a többi magyarázóváltozó lineáris kombinációjaként előállítani)
2. Értékeik rögzítettek legyenek, ne változzanakmintáról mintára.
3. Mérési hibát nem tartalmaznak.4. Nem korrelálnak a hibatényezővel.
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
Multikollinearitás
• Mintabeli tulajdonság – mintán kívül nemalkalmazható.
• Ellenőrzése:• Xj=f(X1, X2,…,Xj-1, Xj+1, …,Xp) regressziós modell
képzése után:– Többszörös determinációs együtthatóval– F-próbával (F>Fkrit)– VIF-mutatóval
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
VIF-mutató• Variancianövelő tényező
•
• VIF=1 ha Rj2=0 (amikor a j. magyarázó változó nem
korrelál a többi magyarázó változóval)
• VIF Rj2=1 (a j. magyarázó változó pontosan kifejezhető a
többi lineáris kombinációjaként)
• - gyenge multikollinearitás
- erős zavaró multikollinearitás
- nagyon erős, káros multikollinearitás
21
1
j
jR
VIF
VIF1
VIF
VIF
VIF
5
52
21
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
Káros multikollinearitás esetén…
• megkeressük azokat a magyarázó változókat,amelyek a zavart okozzák, és elhagyjuk őket amodellből;
• az egymással nagyon szoros kapcsolatban állómagyarázó változókat egy új változóbanösszevonjuk (főkomponensek), amely másabb lesz,mint az eredeti, de hordozza azokinformációtartalmát.
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
Köszönöm a [email protected]