přednáška statistika ii - ekonometrieneubauer/pdf/regresni_analyza.pdf · přednáška...

48
Regresní analýza Korelační analýza Nelineární regresní funkce Regresní a korelační analýza Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a, tel. 973 442029 email:[email protected] Jiří Neubauer Regresní a korelační analýza

Upload: trankiet

Post on 30-Jun-2019

213 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Regresní a korelační analýzaPřednáška STATISTIKA II - EKONOMETRIE

Jiří Neubauer

Katedra ekonometrie FEM UO Brnokancelář 69a, tel. 973 442029email:[email protected]

Jiří Neubauer Regresní a korelační analýza

Page 2: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese

Regresní analýza

Cíl regresní analýzy:

stanovení formy (trendu, tvaru, průběhu) této závislosti pomocívhodné funkce

vystihnout pomocí regresní funkce průběh (trend) závislosti meziX a Y na základě znalosti dvojic empirických hodnot [xi , yi ], kdei = 1, 2, . . . , n.

Jiří Neubauer Regresní a korelační analýza

Page 3: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese

Volba regresní funkce

Hledáme regresní funkci

Y = f (X , β0, β1, . . . , βp) = E (Y |X ),

kde βj , j = 0, 1, . . . , p jsou regresní parametry. Regresní funkcecharakterizuje závislost podmíněných středních hodnot náhodné veličinyY na hodnotách náhodné veličiny X .Na Y působí kromě X i další vlivy, proto se budou empirické hodnoty yivíce či méně lišit od teoretické hodnoty Yi , tj. platí

yi = Yi + εi , i = 1, 2, . . . , n.

Lineární regresní funkce má tvar

Y = β0f0(X ) + β1f1(X ) + · · ·+ βpfp(X ),

kde fj(X ), j = 0, 1, . . . , p se nazývají regresory(obvykle f0(X ) = 1→ konstanta), počet regresorů je obecně c = p + 1.

Jiří Neubauer Regresní a korelační analýza

Page 4: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese

Volba regresní funkce

Některé typy lineárních regresních funkcí:

přímková regrese Y = β0 + β1X ,

hyperbolická regrese Y = β0 + β1X ,

logaritmická regrese Y = β0 + β1 lnX ,

parabolická regrese Y = β0 + β1X + β2X 2

polynomická regrese Y = β0 + β1X + · · ·+ βpX p

Některé typy nelineárních regresních funkcí:

exponenciální regrese Y = β0βX1 ,

mocninná regrese Y = β0Xβ1 .

Jiří Neubauer Regresní a korelační analýza

Page 5: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese

Volba regresní funkce

Označíme-li odhady parametrů β0, β1, . . . , βp jako b0, b1, . . . , bp,dostaneme odhady lineárních regresních modelů ve tvaruy = f (x , b0, b1, . . . , bp), nazveme je výběrová regresní funkce.(např. pro přímkovou regresi má výběrová regresní funkce tvary = b0 + b1x)S využitím této výběrové regresní funkce, tzv. vyrovnané hodnoty,můžeme vztah y = Y + ε vyjádřit ve tvaru

y = y + e,

kde e = y − y je tzv. reziduum, resp. ve tvaru

yi = yi + ei , i = 1, . . . , n,

kde ei = yi − yi je reziduum pro i-té měření.

Jiří Neubauer Regresní a korelační analýza

Page 6: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese

Klasický regresní model

Nejjednodušší z lineárních regresních modelů je tzv. klasický regresnímodel

hodnoty X jsou volené - nastavované (X není náhodná veličina),

regresní funkce je lineární vzhledem k parametrům,

soustava normálních rovnic má právě 1 řešení ⇔ matice hodnotregresorů fj(x), j = 0, 1, 2, . . . , p, má hodnost p + 1 ⇔ sloupcematice hodnot regresorů jsou lineárně nezávislé

náhodné složky εi jsou nezávislé a mají normální rozdělení N(0, σ2)⇒ E (εi ) = 0,D(εi ) = σ2, i = 1, 2, . . . , n.

Poznámka: z předpokladu o rozdělení náhodných složek εi vyplývá, žev klasickém regresním modelu mají pozorované hodnoty yi vysvětlovanéproměnné Y normální rozdělení se středními hodnotami µi = E (yi |xi )s rozptylem σ2 = D(εi ) = D(yi |xi ), hodnoty yi jsou navzájem nezávislé.

Jiří Neubauer Regresní a korelační analýza

Page 7: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese

Odhady regresních parametrů

Cílem metod určení parametrů je odhad parametrů zvolené regresnífunkce tak, aby se hodnoty yi (tzv. vyrovnané hodnoty) náhodné veličinyY ležící na této regresní funkci co nejtěsněji přimykaly pozorovaným(empirickým) hodnotám yi pro dané hodnoty xi náhodné veličiny X .

Jiří Neubauer Regresní a korelační analýza

Page 8: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese

Odhady regresních parametrů

Základní metodou určení parametrů regresní funkce je metodanejmenších čtverců (MNČ). Tato metoda vychází z požadavku, abysoučet čtverců odchylek empirických hodnot yi a vyrovnaných hodnot yi(reziduí) – reziduální součet čtverců SR – byl minimální, tj.

minSr = minn∑i=1

(yi − yi )2 = minn∑i=1

e2i .

Z matematiky je známo, že nutnou podmínkou pro existenci extrémufunkce 2 a více proměnných je nulovost prvních parciálních derivací, tj.

∂SR∂β0

=∂SR∂β1

= · · · = ∂SR∂βp

= 0,

podmínku postačující pro minimum nemusíme vyšetřovat, neboť funkceSR je ryze konvexní. Dostáváme p + 1 rovnic (tzv. normálních rovnic),jejichž řešením obdržíme odhady parametrů regresní funkceb0 = β0, b1 = β1, . . . , bp = βp.

Jiří Neubauer Regresní a korelační analýza

Page 9: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese

Odhady regresních parametrů

Regresní funkce určená metodou nejmenších čtverců má tyto vlastnosti:∑ni=1(yi − yi ) = 0

prochází vždy bodem [x , y ]

odhad regresní funkce MNČ je nejlepším nestranným odhadem

Jiří Neubauer Regresní a korelační analýza

Page 10: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese

Odhady regresních parametrů

Regresní přímka: y = b0 + b1x

Sr =n∑i=1

(yi − yi )2 =n∑i=1

(yi − (b0 + b1xi ))2 =n∑i=1

(yi − b0 − b1xi )2

∂Sr∂b0

= 2n∑i=1

(yi − b0 − b1xi )(−1) = 0

∂Sr∂b1

= 2n∑i=1

(yi − b0 − b1xi )(−xi ) = 0

dostáváme soustavu normálních rovnic

b0n + b1n∑i=1

xi =n∑i=1

yi

b0n∑i=1

xi + b1n∑i=1

x2i =n∑i=1

xiyi

Jiří Neubauer Regresní a korelační analýza

Page 11: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese

Odhady regresních parametrů

Soustavu vyřešíme např. Cramerovým pravidlem a dostaneme odhadyparametrů

b0 =

∑ni=1 yi

∑ni=1 x

2i −

∑ni=1 xi

∑ni=1 xiyi

n∑ni=1 x

2i −

(∑ni=1 xi

)2b1 =

n∑ni=1 xiyi −

∑ni=1 xi

∑ni=1 yi

n∑ni=1 x

2i −

(∑ni=1 xi

)2

Jiří Neubauer Regresní a korelační analýza

Page 12: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese

Odhady regresních parametrů – maticové vyjádření

Regresní model je možné zapsat ve tvaru

Y = Xβ + ε

kde Y = (Y1,Y2 . . .Yn)′, β = (β0, β1, . . . , βp)′, ε = (ε1, ε2, . . . , εn)

′,

X =

f0(x1) f1(x1) . . . fp(x1)f0(x2) f1(x2) . . . fp(x2)...

......

...f0(xn) f1(xn) . . . fp(xn)

je matice regresorů. V případě přímkové regrese je matice regresorů rovna

X =

1 x11 x2......

1 xn

Jiří Neubauer Regresní a korelační analýza

Page 13: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese

Odhady regresních parametrů – maticové vyjádření

Odhady parametrů získané MNČ mají tvar

b = (X′X)−1X′Y

Jiří Neubauer Regresní a korelační analýza

Page 14: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese

Odhady v lineární regresi

Odhady b0, b1, . . . , bp parametrů β0, β1, . . . , βp získané MNČ jsou jejichnestranné odhady, tedy platí E (bj) = βj pro j = 0, 1, . . . , p. Představuo tom, jaké chyby můžeme při bodových odhadech očekávat, poskytujísměrodatné odchylky – směrodatné chyby těchto bodových odhadůs(bj). K jejich určení potřebujeme znát rozptyl náhodných složekD(εi ) = σ2, který je neznámý. Odhadneme jej pomocí reziduálníhorozptylu

s2R =SRn − c

=1n − c

n∑i=1

(yi − yi )2,

kde c je počet neznámých (odhadovaných) regresních parametrů, SR jereziduální součet čtverců.

Maticově SR = Y′Y − b′X′Y.

Jiří Neubauer Regresní a korelační analýza

Page 15: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese

Odhady v lineární regresi

Pro regresní přímku je

Sr =n∑i=1

(yi − b0 − b1x) = · · · =n∑i=1

y2i − b0n∑i=1

yi − b1n∑i=1

xiyi ,

potom

s2R =1n − 2

(n∑i=1

y2i − b0n∑i=1

yi − b1n∑i=1

xiyi

).

Jiří Neubauer Regresní a korelační analýza

Page 16: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese

Intervalové odhady

Jsou-li splněny předpoklady klasického regresního modelu, mají potomregresní koeficienty bj normální rozdělení, tedy platí

bj ∼ N(βj ,D(bj)),

kde rozptyly D(bj) jsou rovny

D(b0) = σ2 · h00,D(b1) = σ2 · h11, . . . ,D(bp) = σ2 · hpp,

pričemž h00, h11, . . . , hpp jsou prvky na hlavní diagonále maticeH = (X′X)−1. Rozptyly odhadů regresních parametrů musíme odhadnout

D(bj) = s2R · hjj ⇒ s(bj) =√s2R · hjj

Jiří Neubauer Regresní a korelační analýza

Page 17: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese

Intervalové odhady

Pro regresní přímku y = b0 + b1x dostaneme

s(b0) = sR

√ ∑ni=1 x

2i

n∑ni=1 x

2i −

(∑ni=1 xi

)2s(b1) = sR

√n

n∑ni=1 x

2i −

(∑ni=1 xi

)2

Jiří Neubauer Regresní a korelační analýza

Page 18: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese

Intervaly spolehlivosti pro regresní parametry βj

Východiskem pro konstrukci intervalů spolehlivosti parametrů βj připlatnosti předpokladů klasického regresního modelu jsou statistiky

tj =bj − βjs(bj)

∼ t(n − c) pro j = 0, 1, . . . p,

kde bj je bodový odhad parametru βj , s(bj) je směrodatná chyba tohotoodhadu. Oboustranný interval spolehlivosti má potom tvar

bj − t1−α/2(n − c) · s(bj) < βj < bj + t1−α/2(n − c) · s(bj).

Pokud tento interval pro určitý parametr obsahuje nulu, lze usoudit nahladině významnosti α, že tento parametr je statisticky nevýznamný.

Jiří Neubauer Regresní a korelační analýza

Page 19: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese

Testy hypotéz o významnosti regresních parametrů β

Statisticky významným parametrem βj se rozumí nenulový parametr,proto budeme testovat

H : βj = 0→ A : βj 6= 0.

Testovým kritériem je statistika

tj =bj − βjs(bj)

,

kritický obor jeWα : |tj | ≥ t1−α/2(n − c)

Jiří Neubauer Regresní a korelační analýza

Page 20: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese

Intervalové odhady pro regresní funkci

Intervaly spolehlivosti pro regresní funkci Yi (podmíněné střední hodnoty)jsou založené na tom, že při platnosti předpokladů klasického regresníhomodelu jsou statistiky

ti =yi − Yis(yi )

∼ t(n − c) pro i = 1, 2, . . . , n,

kde yi je bodový odhad podmíněné střední hodnoty Yi pro hodnotu xi ,s(yi ) je směrodatná chyba (odchylka) bodového odhadu yi . Odtud lzeklasicky odvodit vztah pro oboustranný intervalový odhad.

yi − t1−α/2(n − c) · s(yi ) < Yi < yi + t1−α/2(n − c) · s(yi ).

Jiří Neubauer Regresní a korelační analýza

Page 21: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese

Intervalové odhady pro regresní funkci

Rozptyl vyrovnaných hodnot je

D(yi ) = σ2x′iHxi .

kde xi = (1, f1(xi ), f2(xi ), . . . , fp(xi ))′ je vektor hodnot regresorů prohodnotu xi . Pro rozptyl resp. směrodatnou chybu odhadu podmíněnéstřední hodnoty Yi , tj. pro s2(yi ) platí

s2(yi ) = s2Rx′iHxi ⇒ s(yi ) = sR

√x′iHxi .

Jiří Neubauer Regresní a korelační analýza

Page 22: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese

Intervalové odhady pro regresní funkci

Pro regresní přímku y = b0 + b1x dostáváme

s(yi ) = sR√x′iHxi = sR

√√√√√√1n +

(xi −

Pni=1 xin

)2∑ni=1 x

2i −

(Pni=1 xi)

2

n

Jiří Neubauer Regresní a korelační analýza

Page 23: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese

Intervalové odhady pro individuální předpovědi

Pro rozptyl individuálních hodnot platí, že je o σ2 větší než rozptylvyrovnaných hodnot, tedy platí

D(yi0) = σ2 + σ2x′iHxi = σ2(1+ x′iHxi ).

Při určování odhadů individuálních hodnot Yi0 při určování odhadůindividuálních hodnot yi0 ve tvaru

s2(yi0) = σ2R(1+ x′iHxi ) ⇒ s(yi0) = sR√1+ x′iHxi .

Interval spolehlivosti pro individuální předpověď Yi0 je

yi0 − t1−α/2(n − c) · s(yi0) < Yi0 < yi0 + t1−α/2(n − c) · s(yi0)

Jiří Neubauer Regresní a korelační analýza

Page 24: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese

Intervalové odhady pro individuální předpovědi

Pro regresní přímku y = b0 + b1x dostáváme

s(yi0) = sR√1+ x′iHxi = sR

√√√√√√1+1n

+

(xi −

Pni=1 xin

)2∑ni=1 x

2i −

(Pni=1 xi)

2

n

Jiří Neubauer Regresní a korelační analýza

Page 25: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese

Test o významnosti regresního modelu

Zřejmě platí, že yi − y = (yi − yi ) + (yi − y). Lze ukázat, že také platín∑i=1

(yi − y)2 =n∑i=1

(yi − yi )2 +n∑i=1

(yi − y)2 → SY = SR + ST ,

kdecelkový součet čtverců SY = y′y − ny2

SY =n∑i=1

(yi − y)2 = n · s2(y), kde s2(y) =1n

n∑i=1

(yi − y)2

reziduální součet čtverců SR = y′y − b′X′y

SR =n∑i=1

(yi − yi )2 = (n−c) · s2R(y), kde s2R(y) =1n − c

n∑i=1

(yi − yi )2

teoretický součet čtverců ST = b′X′y − ny2

ST =n∑i=1

(yi − y)2 = n · s2(y), kde s2(y) =1n

n∑i=1

(yi − y)2

Jiří Neubauer Regresní a korelační analýza

Page 26: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese

Test o významnosti regresního modelu

Pro regresní přímku y = b0 + b1x dostáváme

SR =n∑i=1

(yi − yi )2 =n∑i=1

(yi − b0 − b1xi )2 = · · · =

=n∑i=1

y2i − b0n∑i=1

yi − b1n∑i=1

xiyi

ST =n∑i=1

(yi − yi )2 =n∑i=1

(b0 + b1xi −

1n

n∑i=1

y2i

)= · · · =

= b0n∑i=1

yi + b1n∑i=1

xiyi −1n

(n∑i=1

yi

)2

SY = SR + ST = · · · =n∑i=1

y2i −1n

(n∑i=1

yi

)2

Jiří Neubauer Regresní a korelační analýza

Page 27: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese

Test o významnosti regresního modelu

teoretický součet čtverců ST je ta část celkového součtu čtverců SY ,která je vysvětlená zvolenou regresní funkcí

reziduální součet čtverců SR je ta část celkového součtu čtverců SY ,která zvolenou regresní funkcí vysvětlená není

Jiří Neubauer Regresní a korelační analýza

Page 28: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese

Test o významnosti regresního modelu

Test o významnosti modelu → celkový F -testH : β0 = k, k 6= 0, β1 = β2 = · · · = βp = 0A : βj 6= 0 pro alespoň jedno j = 1, 2, . . . , pTestové kritérium je statistika

F =

ST (y)c−1SR (y)n−c

∼ F (c − 1, n − c),

kde c = p + 1 je počet odhadovaných parametrů. Kritický obor je

Wα : F > F1−α(c − 1, n − c).

Jiří Neubauer Regresní a korelační analýza

Page 29: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese

Test o významnosti regresního modelu

Jsou-li celkový F -test i všechny t-testy jsou statisticky významné,model se považuje za vhodný k vystižení variability proměnné Y (tovšak ještě neznamená, že je model správně navržen).

Jsou-li celkový F -test i všechny t-testy jsou statisticky nevýznamné,model se považuje za nevhodný, protože nevystihuje variabilituproměnné Y .

Je-li celkový F -test statisticky významný, ale některé t-testy vycházínevýznamné, model se považuje za vhodný, ale provádí se zpravidlavypuštění nevýznamných parametrů.

Je-li celkový F -test statisticky významný, ale všechny t-testy vycházínevýznamné – paradox: formálně model jako celek vyhovuje, aležádný člen modelu sám o sobě významný není – jde o důsledek tzv.multikolinearity, tj. lineární závislosti mezi jednotlivými regresory.

Jiří Neubauer Regresní a korelační analýza

Page 30: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese

Těsnost závislosti

Těsností závislosti rozumíme stupeň, s jakým se zkoumaná závislostblíží k funkční závislosti. Vztah mezi proměnnými X a Y může mítrůznou intenzitu, od úplné nezávislosti až po pevnou (funkční) závislost.Představu o síle závislosti můžeme získat

z bodového diagramu (podle rozložení bodů okolo regresní křivky)

pomoci měr těsnosti závislosti

Jiří Neubauer Regresní a korelační analýza

Page 31: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese

Těsnost závislosti

Poměr determinace p2yx (viz ANOVA)

p2yx =SM(y)SC (y)

, p2yx ∈ 〈0, 1〉

udává, jaké procento variability proměnné Y je vysvětlenéproměnnou X (jaké procento meziskupinové variability se podílí nacelkové variabilitě). Tento poměr není závislý na zvolené regresnífunkci, ale vyžaduje roztříděná data (korelační tabulka).

Jiří Neubauer Regresní a korelační analýza

Page 32: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese

Těsnost závislosti

Index determinace i2yx

i2yx =ST (y)SY (y)

, i2yx ∈ 〈0, 1〉

udává, jaké procento variability proměnné Y lze vysvětlit zvolenýmregresním modelem. Tento poměr vychází ze zvolené regresní funkce.

V případě, kdy regresní funkce je přímka, použijeme názevkoeficient determinace a značíme jej r2yx .

Jiří Neubauer Regresní a korelační analýza

Page 33: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese

Těsnost závislosti

Čím více se i2 blíží k 1, tím považujeme danou závislost za silnější, a tedydobře vystiženou použitou regresní funkcí; naopak čím více se bude blížitk 0, tím považujeme danou závislost za slabší a regresní funkci za méněvýstižnou.Nízká hodnota i2 ještě nemusí znamenat nízký stupeň závislosti meziproměnnými, ale může to signalizovat chybnou volbu regresní funkce.

Kritéria vhodnosti použité regresní funkce pro popis závislosti:

čím je i2 blíže k 1, tím vhodnější je použitý model

obecně platí i2 ≤ p2, potom čím je i2 blíže p2 tím je použitý modellepší

Jiří Neubauer Regresní a korelační analýza

Page 34: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese

Těsnost závislosti

i2yx představuje výběrový index determinace, který lze použít jako odhadteoretického indexu determinace I 2yx (I

2yx = i2yx). Tento odhad je

asymptoticky nestranný, navíc ale tento odhad

pro malé výběry nadhodnocuje skutečnou těsnost závislosti,

záleží i na počtu parametrů regresní funkce.

Provádíme proto korekci

i2kor = 1− (1− i2)n − 1n − c

,

tento odhad je již nestranný.

Jiří Neubauer Regresní a korelační analýza

Page 35: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese

Vícenásobná regrese

Regresní model obsahující více než jednu vysvětlující proměnnou senazývá model vícenásobné regrese. Omezíme se na model regrese sedvěma nezávisle proměnnými. Nechť

Yi = β0 + β1xi + β2zi + εi , i = 1, . . . , n.

Matice regresorů má tvar

X =

1 x1 z11 x2 z2.........

1 xn zn

.

Jiří Neubauer Regresní a korelační analýza

Page 36: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese

Vícenásobná regrese

Odhady určíme podle vztahu

b = (X′X)−1X′Y,

s2R =1n − c

(Y′Y − b′X′Y) ,

kde Y = (Y1,Y2, . . . ,Yn)′. Testy hypotéz o významnosti regresníchkoeficientů a celkového modelu se provádějí podobně jako u lineárníregrese s jednou vysvětlující proměnou.

Jiří Neubauer Regresní a korelační analýza

Page 37: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Korelační koeficientKoeficient mnohonásobné korelace

Korelační analýza

V regresní analýze jsme se doposud zabývali jednostrannými závislostmi apopisovali jsme formu závislosti vysvětlované proměnné Y na vysvětlující(ale nenáhodné, pevné, nastavené) proměnné X .Oboustrannými závislostmi mezi náhodnými veličinami X a Y se věnujekorelační analýza.

Jiří Neubauer Regresní a korelační analýza

Page 38: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Korelační koeficientKoeficient mnohonásobné korelace

Korelační koeficient

DefiniceKorelační koeficient náhodných veličin X a Y je definován vztahem

ρ(X ,Y ) =C (X ,Y )√D(X )

√D(Y )

=C (X ,Y )

σ(X )σ(Y ).

Pro korelační koeficient platí:

−1 ≤ ρ(X ,Y ) ≤ 1,jestliže jsou X a Y nezávislé, pak ρ(X ,Y ) = 0,

ρ(X ,Y ) = 1 právě když Y = aX + b, kde a > 0,

ρ(X ,Y ) = −1 právě když Y = aX + b, kde a < 0.

Jiří Neubauer Regresní a korelační analýza

Page 39: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Korelační koeficientKoeficient mnohonásobné korelace

Dvourozměrné normální rozdělení

Definice

Má-li náhodný vektor X = (X ,Y )′ sdruženou hustotu pravděpodobnosti

f (x , y) =1

2πσ1σ2p1− ρ2

× exp− 12(1− ρ2)

„(x − µ1)

2

σ21+

(y − µ2)2

σ22− 2ρ(x − µ1)(y − µ2)

σ1σ2

«ffpro x , y ∈ R, pak říkáme, že má dvourozměrné normální rozdělenís parametry µ1, µ2, σ1, σ2, ρ.

Věta

Nechť X = (X ,Y )′ má dvourozměrné normální rozdělení s parametryµ1, µ2, σ1, σ2, ρ, potom

X ∼ N(µ1, σ21) a Y ∼ N(µ2, σ

22),

ρ je korelační koeficient X a Y .

Jiří Neubauer Regresní a korelační analýza

Page 40: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Korelační koeficientKoeficient mnohonásobné korelace

Dvourozměrné normální rozdělení

Obrázek: Graf dvourozměrného normálního rozdělení

Jiří Neubauer Regresní a korelační analýza

Page 41: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Korelační koeficientKoeficient mnohonásobné korelace

Korelační koeficient

Empirickým protějškem korelačního koeficientu ρ výběrový korelačníkoeficient (koeficient korelace) r

r =sxysx · sy

,

kde sxy = 1n−1

∑ni=1(xi − x)(yi − y) je výběrová kovariance, sx a sy jsou

výběrové směrodatné odchylky. Korelační koeficient r lze vyjádřit ve tvaru

r =n∑ni=1 xiyi −

∑ni=1 xi

∑ni=1 yi√

n∑ni=1 x

2i −

(∑ni=1 xi

)2√n∑ni=1 y

2i −

(∑ni=1 yi

)2

Jiří Neubauer Regresní a korelační analýza

Page 42: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Korelační koeficientKoeficient mnohonásobné korelace

Korelační koeficient

Koeficient determinace je pro závislost popsanou regresní přímkouzvláštním případem indexu determinace, tedy platí r2yx = ST

SY. Tato míra

těsnosti závislosti má zcela stejné vlastnosti jako i2yx .Výběrový koeficient determinace r2yx lze použít jako odhad teoretickéhokoeficientu determinace ρ2 v základním souboru. Úpravou

r2kor = 1− (1− r2)n − 1n − 2

získáme nestranný odhad ρ2.

Jiří Neubauer Regresní a korelační analýza

Page 43: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Korelační koeficientKoeficient mnohonásobné korelace

Test významnosti korelačního koeficientu

H : ρ = 0→ A : ρ 6= 0

Testové kritérium je statistika

t =r√1− r2

√n − 2 ∼ t(n − 2).

Kritický obor je dán

Wα : |t| > t1−α/2(n − 2).

Pokud hodnota testového kritéria padne do kritického oboru, podařila seprokázat lineární závislost mezi sledovanými proměnnými.

Jiří Neubauer Regresní a korelační analýza

Page 44: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Korelační koeficientKoeficient mnohonásobné korelace

Koeficient mnohonásobné korelace

Koeficient mnohonásobné korelace vyjadřuje společné působení nezávisleproměnných X1,X2, . . .Xk na závisle proměnnou Y a určuje spolehlivostregresního odhadu.Výběrový koeficient mnohonásobné korelace pro případ regrese se dvěmanezávisle proměnnými (Yi = β0 + β1xi + β2zi + εi ) je roven

ry ,xz =

√r2yx + r2yz + 2ryx ryz rxz

1− r2xz,

kde ryx je výběrový korelační koeficient mezi hodnotami yi a xi , ryz jevýběrový korelační koeficient mezi yi a zi a ryx je výběrový korelačníkoeficient mezi xi a zi . Jeho druhou mocninou je index determinace.

Jiří Neubauer Regresní a korelační analýza

Page 45: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Nelineární regresní funkce

Regresní analýza užívá řadu dalších funkcí, které nejsou lineární vzhledemk parametrům – nelineární regresní modely:nelineární regresní funkce, které lze linearizovat, např.

regresní exponenciální funkce Y = β0βX1 ;Y = β0eβ1X

regresní mocninná funkce Y = β0Xβ1

Törnquistova křivka I Y = β0Xβ1+X

nelineární regresní funkce, které nelze linearizovat, např.regresní exponenciální funkce Y = β0β

X1 + β2;Y = β0eβ1X + β2

regresní mocninná funkce Y = β0Xβ1 + β2

Törnquistovy křivka II a III Y = β0(X−β1)β2+X

; Y = β0X (X−β1)β2+X

Odhad parametrů těchto a dalších nelineárních regresních funkcí nelzeprovádět metodou nejmenších čtverců. Postupuje se tak, že se nejprvenajde vhodný tzv. počáteční odhad, který se dále numerickými(iteračními) metodami postupně zlepšuje.

Jiří Neubauer Regresní a korelační analýza

Page 46: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Linearizující transformace

Linearizující transformace spočívá v tom, že se vhodnou transformacípřevede nelineární funkce Y na lineární funkci Y ∗. Parametry lineárnífunkce Y ∗ se odhadnou metodou nejmenších čtverců a zpětnoutransformací obdržíme odhady parametrů původní funkce Y .

Příklad 1:Y = β0β

X1 → y = b0bx1

transformace: ln y = ln b0 + x ln b1lineární model: y∗ = b∗0 + b∗1x

substituce: y∗ = ln y , x∗ = xb∗0 = ln b0 ⇒ b0 = eb

∗0

b∗1 = ln b1 ⇒ b1 = eb∗1

Jiří Neubauer Regresní a korelační analýza

Page 47: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Linearizující transformace

Příklad 2:Y =

β0Xβ1 + X

→ y =b0xb1 + x

transformace: 1y = b1+xb0x

= b1b0· 1x + 1

b0lineární model: y∗ = b∗0 + b∗1x

substituce: y∗ = 1y , x

∗ = 1x

b∗0 = 1b0⇒ b0 = 1

b∗0b∗1 = b1

b0⇒ b1 = b0 · b∗1

Jiří Neubauer Regresní a korelační analýza

Page 48: Přednáška STATISTIKA II - EKONOMETRIEneubauer/pdf/regresni_analyza.pdf · Přednáška STATISTIKA II - EKONOMETRIE Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a,

Regresní analýzaKorelační analýza

Nelineární regresní funkce

Nelineární regresní funkce

Poznánka: Je třeba si uvědomit, že vlastnosti, které platí pro odhadregresní funkce získaný klasickou metodou nejmenších čtverců, platípouze pro transformovanou funkci. Důsledkem toho je, že odhadyjednotlivých regresních koeficientů užitého modelu nesplňují podmínkunestrannosti.

V případě, že linearizující transformace není možná, je třeba použít jinýchmetod, např. metodu vybraných bodů apod.

Jiří Neubauer Regresní a korelační analýza