többváltozós regresszió számításregresszió... · 2016. 9. 11. · • gazdaságtudományi...

34
Gazdaságtudományi Kar Gazdaságelméleti és Módszertani Intézet Többváltozós Regresszió-számítás Dr. Szilágyi Roland 3. előadás Döntéselőkészítés módszertana

Upload: others

Post on 27-Feb-2021

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Többváltozós Regresszió számításregresszió... · 2016. 9. 11. · • Gazdaságtudományi Kar • Gazdaságelméleti és Módszertani Intézet • X (X 1, X 2, … , X p):

• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet

Többváltozós Regresszió-számítás

Dr. Szilágyi Roland

3. előadás

Döntéselőkészítés módszertana

Page 2: Többváltozós Regresszió számításregresszió... · 2016. 9. 11. · • Gazdaságtudományi Kar • Gazdaságelméleti és Módszertani Intézet • X (X 1, X 2, … , X p):

• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet

• X (X1, X2, … , Xp):

magyarázó változó(k), független változó(k)

• Y: eredményváltozó, függő változó

• Ok-okozati kapcsolat: X okozza Y változását

Korreláció Regresszió

Célja a kapcsolat szorosságának

mérése.

Célja a kapcsolatban

megfigyelhető törvényszerűség

megfogalmazása, amelyet

valamilyen függvény ír le.

Page 3: Többváltozós Regresszió számításregresszió... · 2016. 9. 11. · • Gazdaságtudományi Kar • Gazdaságelméleti és Módszertani Intézet • X (X 1, X 2, … , X p):

• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet

Többváltozós lineáris regressziós modell

• x1, x2, …, xp és y közötti kapcsolatot ábrázoló egyenes.

• Az y függ:

• x1, x2, …, xp – p db magyarázó változótól

• A véletlen ingadozásától (ε)

• β0, β1, …, βp regressziós együtthatóktól.

Y = β0 + β1x1 + β2x2 +…+ βpxp +ε

Page 4: Többváltozós Regresszió számításregresszió... · 2016. 9. 11. · • Gazdaságtudományi Kar • Gazdaságelméleti és Módszertani Intézet • X (X 1, X 2, … , X p):

• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet

Többváltozós lineáris regresszióadatstruktúrája

ny

y

y

y...

2

1

pnnn

p

p

xxx

xxx

xxx

X

...1

...............

...1

...1

21

22212

12111

pb

b

b

b

b

...

2

1

0

Page 5: Többváltozós Regresszió számításregresszió... · 2016. 9. 11. · • Gazdaságtudományi Kar • Gazdaságelméleti és Módszertani Intézet • X (X 1, X 2, … , X p):

• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet

5

Többváltozós lineáris regresszió min)...();;...;;( 2

22110210 ppp xbxbxbbybbbbf

2

22110

2

2

2211202

1122

2

1101

22110

...

...............

...

...

...

2

1

pxbxxbxxbxbyx

xxbxbxxbxbyx

xxbxxbxbxbyx

xbxbxbnby

ppppp

pp

pp

pp

Page 6: Többváltozós Regresszió számításregresszió... · 2016. 9. 11. · • Gazdaságtudományi Kar • Gazdaságelméleti és Módszertani Intézet • X (X 1, X 2, … , X p):

• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet

6

Az egyenletrendszer mátrix alakban felírva

pppp

p

p

p

pb

b

b

b

xxxxxx

xxxxxx

xxxxxx

xxxn

yx

yx

yx

y

p

...

...

............

...

...

...

...

2

1

0

2

21

2

2

212

112

2

1

21

2

1

2

1

bXXyXTT

Page 7: Többváltozós Regresszió számításregresszió... · 2016. 9. 11. · • Gazdaságtudományi Kar • Gazdaságelméleti és Módszertani Intézet • X (X 1, X 2, … , X p):

• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet

Az egyenletrendszer mátrix alakban felírva

bXXyXTT

yXXXbTT

1

Page 8: Többváltozós Regresszió számításregresszió... · 2016. 9. 11. · • Gazdaságtudományi Kar • Gazdaságelméleti és Módszertani Intézet • X (X 1, X 2, … , X p):

• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet

ANOVA

2

iy )y(y =SSST

2

iy )yy( = SSSR

MSE

MSRF

A variancia forrása

Eltérésnégyzetösszeg (SS)Szabadságfok

(DF)

Átlagos négyzetösszeg

(MS)F-érték

Regresszió (R) p MSR=SSR/p

Hibatényező (E)

n-p-1 MSE=SSE/(n-p-1)

Teljes (T) n-1 -

2

ie )y(y = SSSE

Page 9: Többváltozós Regresszió számításregresszió... · 2016. 9. 11. · • Gazdaságtudományi Kar • Gazdaságelméleti és Módszertani Intézet • X (X 1, X 2, … , X p):

• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet

Modell tesztelés

0: 210 pH

.0:1 jH

1

pn

SSE

p

SSR

F

Page 10: Többváltozós Regresszió számításregresszió... · 2016. 9. 11. · • Gazdaságtudományi Kar • Gazdaságelméleti és Módszertani Intézet • X (X 1, X 2, … , X p):

• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet

β paraméterek tesztelése

Ha tszámított<tkritikus→H0

Ha tszámított>tkritikus→H1

0:

0:

1

0

i

i

H

H

iie

i

i

ii

vs

b

s(b

b=t

)

1;2

1

pnkritikus tt

Page 11: Többváltozós Regresszió számításregresszió... · 2016. 9. 11. · • Gazdaságtudományi Kar • Gazdaságelméleti és Módszertani Intézet • X (X 1, X 2, … , X p):

• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet

Többváltozós lineáris regressziós modell feltételrendszere

A hibatagra vonatkozó feltételek

1. Várható értéke 0 M(ε) = 0

2. Varianciája konstans Var(ε) = 2

3. A hibatag értékei nem autokorreláltak.

4. Normális eloszlású valószínűségi változó.

Page 12: Többváltozós Regresszió számításregresszió... · 2016. 9. 11. · • Gazdaságtudományi Kar • Gazdaságelméleti és Módszertani Intézet • X (X 1, X 2, … , X p):

• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet

A magyarázó változókra vonatkozó feltételek

1. Egymástól lineárisan függetlenek legyenek.(egyik magyarázó változót se lehessen a többi magyarázóváltozó lineáris kombinációjaként előállítani)

2. Értékeik rögzítettek legyenek, ne változzanakmintáról mintára.

3. Mérési hibát nem tartalmaznak.

4. Nem korrelálnak a hibatényezővel.

Page 13: Többváltozós Regresszió számításregresszió... · 2016. 9. 11. · • Gazdaságtudományi Kar • Gazdaságelméleti és Módszertani Intézet • X (X 1, X 2, … , X p):

• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet

Feltétel Felt. sérülése Köv. Ellenőrzés Megjegyzés

Függő és független változókra vonatkozó feltétel

Linearitás Nem lineáris kapcsolat

Becsült értékek sérülése

Pontdiagram, r2

Független(egymástól)

Multikollinearitás Megbízhatatlan becslés, magas st. hiba a regr. koefficiensnél

F szignifikáns, t nem;Korrelációs mátrix;VIF-mutató

Kizárólag többváltozós regr. esetében

Hibatagokra vonatkozó feltétel

Normális eloszlás

Nem normális eloszlás

F-teszt, t-teszt érvénytelen

Reziduumok standardizált eloszlásának hisztogramjai

Legkisebb négyzetek módszere kiküszöböli

Nem korreláltak

Autokorreláció Nem hatásos, nagy KI

Reziduumok ábrázolása az idő / a megfigyelések sorrendjében; Durbin-Watson teszt

Idősornál merülhet fel a probléma.

Homoszke-daszticitás

Hetero-szkedaszticitás;korrelál az Xi-vel

Nem hatásos, nagy KI

Pontdiagram a standardizált reziduumok szórásáról

Logaritmizálásvagy a súlyozottan LNM segít

Forrás: Sajtos-Mitev [2006], 217.o.

Page 14: Többváltozós Regresszió számításregresszió... · 2016. 9. 11. · • Gazdaságtudományi Kar • Gazdaságelméleti és Módszertani Intézet • X (X 1, X 2, … , X p):

• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet

Standard lineáris regressziós modell

Ahol az előbb említett feltételek teljesülnek.

Amennyiben a mintabeli adatok nem igazolják afeltételek teljesülését, bonyolultabb modellre ésbecslési eljárásokra van szükség.

Page 15: Többváltozós Regresszió számításregresszió... · 2016. 9. 11. · • Gazdaságtudományi Kar • Gazdaságelméleti és Módszertani Intézet • X (X 1, X 2, … , X p):

• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet

A hibatagra vonatkozó feltételek ellenőrzése

1. Várható értéke 0 M(ε) = 0

2. Varianciája konstans Var(ε) = 2

3. A hibatag értékei nem autokorreláltak.

4. Normális eloszlású valószínűségi változó.

Page 16: Többváltozós Regresszió számításregresszió... · 2016. 9. 11. · • Gazdaságtudományi Kar • Gazdaságelméleti és Módszertani Intézet • X (X 1, X 2, … , X p):

• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet

1. M(ε) = 0

• A hibatagok pozitív és negatív értékei kiegyenlítikegymást.

• Ha eltér a 0-tól, annak oka lehet, hogy kihagytunka modellből egy szignifikáns magyarázó változót.

• Nehéz a gyakorlatban ellenőrizni.

• Ha feltételezzük, hogy a legkisebb négyzetekmódszere érvényesül, akkor teljesül ez a feltétel.

Page 17: Többváltozós Regresszió számításregresszió... · 2016. 9. 11. · • Gazdaságtudományi Kar • Gazdaságelméleti és Módszertani Intézet • X (X 1, X 2, … , X p):

• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet

A hibatagra vonatkozó feltételek ellenőrzése

1. Várható értéke 0 M(ε) = 0

2. Varianciája konstans Var(ε) = 2

3. A hibatag értékei nem autokorreláltak.

4. Normális eloszlású valószínűségi változó.

Page 18: Többváltozós Regresszió számításregresszió... · 2016. 9. 11. · • Gazdaságtudományi Kar • Gazdaságelméleti és Módszertani Intézet • X (X 1, X 2, … , X p):

• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet

2. Homoszkedaszticitás (Var(ε) = 2)

• A hibatag varianciája állandó.

Ha nem: heteroszkedaszticitás

• Tesztelése:o Grafikus – a becsült reziduumokat a kiválasztott

magyarázó változó vagy az ŷ függvényében ábrázoljuk

o Statisztikai tesztek – Goldfeld-Quandt-féle teszt, (Különösenakkor, ha a heteroszkedaszticitás valamelyik magyarázó változóhozkapcsolódik.)

Page 19: Többváltozós Regresszió számításregresszió... · 2016. 9. 11. · • Gazdaságtudományi Kar • Gazdaságelméleti és Módszertani Intézet • X (X 1, X 2, … , X p):

• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet

xi xi

Homoszkedaszticitás grafikus tesztelése

Homoszkedasztikus hibatag Heteroszkedasztikus hibatag

e

xi

e e

ŷ ŷŷ

e – reziduum

Page 20: Többváltozós Regresszió számításregresszió... · 2016. 9. 11. · • Gazdaságtudományi Kar • Gazdaságelméleti és Módszertani Intézet • X (X 1, X 2, … , X p):

• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet

• H0: j2 = 2

H1: j2 ≠ 2

• Lépései:

1. Rangsor: a keresztmetszeti adatokat y szerint rangsorba rendezzük.

2. Független részminták , (ahol r > 0, > p )

3. Regressziós függvények, reziduális szórásnégyzet (se2) számítása az 1. és 3.

csoportra

4. F-próba:

Homoszkedaszticitás Goldfeld-Quandt-féle tesztelése

2

2

r-n

2

2

2

1

2

2

2

1

s

s

e

eF

2

r-n;;

2

r-nr

2

r-n

221

rn

(a varianciák eloszlást követnek és ezek egymástól függetlenek)

H0

F(1-α/2); ν1,ν2F(α/2)

Page 21: Többváltozós Regresszió számításregresszió... · 2016. 9. 11. · • Gazdaságtudományi Kar • Gazdaságelméleti és Módszertani Intézet • X (X 1, X 2, … , X p):

• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet

A hibatagra vonatkozó feltételek ellenőrzése

1. Várható értéke 0 M(ε) = 0

2. Varianciája konstans Var(ε) = 2

3. A hibatag értékei nem autokorreláltak.

4. Normális eloszlású valószínűségi változó.

Page 22: Többváltozós Regresszió számításregresszió... · 2016. 9. 11. · • Gazdaságtudományi Kar • Gazdaságelméleti és Módszertani Intézet • X (X 1, X 2, … , X p):

• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet

A hibatag értékei korrelálatlanok

• Keresztmetszeti adatokból történő egyszerű véletlenmintavétel esetében ez a feltétel automatikusan teljesül.

• Ha a modell idősoros adatokra épül, gyakran előfordul ahibatagok autokorreláltsága.

• Autokorreláció oka:– Nem megfelelő függvénytípus.

– Nem véletlen jellegű mérési hiba.

– A modellben nem szerepel valamennyi lényegesmagyarázó változó (nem ismerjük fel a szerepét / túl rövid idősor /nincs adat).

Page 23: Többváltozós Regresszió számításregresszió... · 2016. 9. 11. · • Gazdaságtudományi Kar • Gazdaságelméleti és Módszertani Intézet • X (X 1, X 2, … , X p):

• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet

A kihagyott változókmiatt a reziduumoknem véletlenszerűek,hanem az egymástkövető értékek közöttjelentős korrelációvan.

Autokorreláció grafikus tesztelése

t

e e

t

e

t

Az autokorreláció afüggvénytípus helytelenmegválasztásának akövetkezménye.

+ KVANTITATÍV TESZTEK!

Page 24: Többváltozós Regresszió számításregresszió... · 2016. 9. 11. · • Gazdaságtudományi Kar • Gazdaságelméleti és Módszertani Intézet • X (X 1, X 2, … , X p):

• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet

H0: ρ = 0 korrelálatlan

H1: ρ ≠ 0 autokorreláció

0 dl du 2 4-du 4-dl 4

Autokorreláció tesztelése Durbin-Watson próbával

- zavaró autokorreláció

+ zavaró autokorreláció

Határai:

Pozitív autokorreláció:

Negatív autokorreláció:

Bizonytalansági tartomány: nem tudunk dönteni

• Növelni kell amegfigyelések számát

• Új változót kell bevonni amodellbe

40 d

20 d

42 d

Elfogadási tartomány

n

t

t

n

t

tt

e

ee

d

1

2

2

2

1)(

Page 25: Többváltozós Regresszió számításregresszió... · 2016. 9. 11. · • Gazdaságtudományi Kar • Gazdaságelméleti és Módszertani Intézet • X (X 1, X 2, … , X p):

• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet

A Durbin-Watson próba döntési táblázata

H1 ElfogadjukH0:p=0

ElvetjükNincs

döntés

p>0Pozitív autokorreláció

d>du d<dl dl<d<du

p<0Negatív autokorreláció

d<4-du

d>4-dl 4-dl<d<4-du

Forrás: Kerékgyártó-Mundruczó [1999]

du illetve dl értékét a Durbin-Watson táblázatból határozzuk meg

Page 26: Többváltozós Regresszió számításregresszió... · 2016. 9. 11. · • Gazdaságtudományi Kar • Gazdaságelméleti és Módszertani Intézet • X (X 1, X 2, … , X p):

• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet

A hibatagra vonatkozó feltételek ellenőrzése

1. Várható értéke 0 M(ε) = 0

2. Varianciája konstans Var(ε) = 2

3. A hibatag értékei nem autokorreláltak.

4. Normális eloszlású valószínűségi változó.

Page 27: Többváltozós Regresszió számításregresszió... · 2016. 9. 11. · • Gazdaságtudományi Kar • Gazdaságelméleti és Módszertani Intézet • X (X 1, X 2, … , X p):

• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet

A hibatag eloszlása normális

Tesztelése:

• Grafikusan ábrákkal

• Kvantitatív módszerekkel – illeszkedésvizsgálat

- próba

• Ferdeségi, csúcsossági mérőszámokkal

2

Page 28: Többváltozós Regresszió számításregresszió... · 2016. 9. 11. · • Gazdaságtudományi Kar • Gazdaságelméleti és Módszertani Intézet • X (X 1, X 2, … , X p):

• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet

A reziduumok eloszlásának grafikus tesztelése

A reziduumokat várhatóértékük függvényébenábrázoljuk.

Ha az ábra megközelítőenlineáris, akkor a feltételteljesült.

e

z

Page 29: Többváltozós Regresszió számításregresszió... · 2016. 9. 11. · • Gazdaságtudományi Kar • Gazdaságelméleti és Módszertani Intézet • X (X 1, X 2, … , X p):

• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet

Illeszkedésvizsgálat

H0: Pr(εj) = Pj (normális eloszláshoz tartozó megfelelő valószínűségi érték)

H1: Jj: Pr(εj) ≠ Pj

r

i i

i

nP

nPf

1

22 )(

)1(),1(2

br

H0

Page 30: Többváltozós Regresszió számításregresszió... · 2016. 9. 11. · • Gazdaságtudományi Kar • Gazdaságelméleti és Módszertani Intézet • X (X 1, X 2, … , X p):

• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet

A magyarázó változókra vonatkozó feltételek

1. Egymástól lineárisan függetlenek legyenek.(egyik magyarázó változót se lehessen a többi magyarázóváltozó lineáris kombinációjaként előállítani)

2. Értékeik rögzítettek legyenek, ne változzanakmintáról mintára.

3. Mérési hibát nem tartalmaznak.4. Nem korrelálnak a hibatényezővel.

Page 31: Többváltozós Regresszió számításregresszió... · 2016. 9. 11. · • Gazdaságtudományi Kar • Gazdaságelméleti és Módszertani Intézet • X (X 1, X 2, … , X p):

• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet

Multikollinearitás

• Mintabeli tulajdonság – mintán kívül nemalkalmazható.

• Ellenőrzése:• Xj=f(X1, X2,…,Xj-1, Xj+1, …,Xp) regressziós modell

képzése után:– Többszörös determinációs együtthatóval– F-próbával (F>Fkrit)– VIF-mutatóval

Page 32: Többváltozós Regresszió számításregresszió... · 2016. 9. 11. · • Gazdaságtudományi Kar • Gazdaságelméleti és Módszertani Intézet • X (X 1, X 2, … , X p):

• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet

VIF-mutató• Variancianövelő tényező

• VIF=1 ha Rj2=0 (amikor a j. magyarázó változó nem

korrelál a többi magyarázó változóval)

• VIF Rj2=1 (a j. magyarázó változó pontosan kifejezhető a

többi lineáris kombinációjaként)

• - gyenge multikollinearitás

- erős zavaró multikollinearitás

- nagyon erős, káros multikollinearitás

21

1

j

jR

VIF

VIF1

VIF

VIF

VIF

5

52

21

Page 33: Többváltozós Regresszió számításregresszió... · 2016. 9. 11. · • Gazdaságtudományi Kar • Gazdaságelméleti és Módszertani Intézet • X (X 1, X 2, … , X p):

• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet

Káros multikollinearitás esetén…

• megkeressük azokat a magyarázó változókat,amelyek a zavart okozzák, és elhagyjuk őket amodellből;

• az egymással nagyon szoros kapcsolatban állómagyarázó változókat egy új változóbanösszevonjuk (főkomponensek), amely másabb lesz,mint az eredeti, de hordozza azokinformációtartalmát.

Page 34: Többváltozós Regresszió számításregresszió... · 2016. 9. 11. · • Gazdaságtudományi Kar • Gazdaságelméleti és Módszertani Intézet • X (X 1, X 2, … , X p):

• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet

Köszönöm a [email protected]