přednáška statistika ii - ekonometrieneubauer/pdf/regresni_analyza.pdf · přednáška...
TRANSCRIPT
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Regresní a korelační analýzaPřednáška STATISTIKA II - EKONOMETRIE
Jiří Neubauer
Katedra ekonometrie FEM UO Brnokancelář 69a, tel. 973 442029email:[email protected]
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese
Regresní analýza
Cíl regresní analýzy:
stanovení formy (trendu, tvaru, průběhu) této závislosti pomocívhodné funkce
vystihnout pomocí regresní funkce průběh (trend) závislosti meziX a Y na základě znalosti dvojic empirických hodnot [xi , yi ], kdei = 1, 2, . . . , n.
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese
Volba regresní funkce
Hledáme regresní funkci
Y = f (X , β0, β1, . . . , βp) = E (Y |X ),
kde βj , j = 0, 1, . . . , p jsou regresní parametry. Regresní funkcecharakterizuje závislost podmíněných středních hodnot náhodné veličinyY na hodnotách náhodné veličiny X .Na Y působí kromě X i další vlivy, proto se budou empirické hodnoty yivíce či méně lišit od teoretické hodnoty Yi , tj. platí
yi = Yi + εi , i = 1, 2, . . . , n.
Lineární regresní funkce má tvar
Y = β0f0(X ) + β1f1(X ) + · · ·+ βpfp(X ),
kde fj(X ), j = 0, 1, . . . , p se nazývají regresory(obvykle f0(X ) = 1→ konstanta), počet regresorů je obecně c = p + 1.
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese
Volba regresní funkce
Některé typy lineárních regresních funkcí:
přímková regrese Y = β0 + β1X ,
hyperbolická regrese Y = β0 + β1X ,
logaritmická regrese Y = β0 + β1 lnX ,
parabolická regrese Y = β0 + β1X + β2X 2
polynomická regrese Y = β0 + β1X + · · ·+ βpX p
Některé typy nelineárních regresních funkcí:
exponenciální regrese Y = β0βX1 ,
mocninná regrese Y = β0Xβ1 .
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese
Volba regresní funkce
Označíme-li odhady parametrů β0, β1, . . . , βp jako b0, b1, . . . , bp,dostaneme odhady lineárních regresních modelů ve tvaruy = f (x , b0, b1, . . . , bp), nazveme je výběrová regresní funkce.(např. pro přímkovou regresi má výběrová regresní funkce tvary = b0 + b1x)S využitím této výběrové regresní funkce, tzv. vyrovnané hodnoty,můžeme vztah y = Y + ε vyjádřit ve tvaru
y = y + e,
kde e = y − y je tzv. reziduum, resp. ve tvaru
yi = yi + ei , i = 1, . . . , n,
kde ei = yi − yi je reziduum pro i-té měření.
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese
Klasický regresní model
Nejjednodušší z lineárních regresních modelů je tzv. klasický regresnímodel
hodnoty X jsou volené - nastavované (X není náhodná veličina),
regresní funkce je lineární vzhledem k parametrům,
soustava normálních rovnic má právě 1 řešení ⇔ matice hodnotregresorů fj(x), j = 0, 1, 2, . . . , p, má hodnost p + 1 ⇔ sloupcematice hodnot regresorů jsou lineárně nezávislé
náhodné složky εi jsou nezávislé a mají normální rozdělení N(0, σ2)⇒ E (εi ) = 0,D(εi ) = σ2, i = 1, 2, . . . , n.
Poznámka: z předpokladu o rozdělení náhodných složek εi vyplývá, žev klasickém regresním modelu mají pozorované hodnoty yi vysvětlovanéproměnné Y normální rozdělení se středními hodnotami µi = E (yi |xi )s rozptylem σ2 = D(εi ) = D(yi |xi ), hodnoty yi jsou navzájem nezávislé.
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese
Odhady regresních parametrů
Cílem metod určení parametrů je odhad parametrů zvolené regresnífunkce tak, aby se hodnoty yi (tzv. vyrovnané hodnoty) náhodné veličinyY ležící na této regresní funkci co nejtěsněji přimykaly pozorovaným(empirickým) hodnotám yi pro dané hodnoty xi náhodné veličiny X .
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese
Odhady regresních parametrů
Základní metodou určení parametrů regresní funkce je metodanejmenších čtverců (MNČ). Tato metoda vychází z požadavku, abysoučet čtverců odchylek empirických hodnot yi a vyrovnaných hodnot yi(reziduí) – reziduální součet čtverců SR – byl minimální, tj.
minSr = minn∑i=1
(yi − yi )2 = minn∑i=1
e2i .
Z matematiky je známo, že nutnou podmínkou pro existenci extrémufunkce 2 a více proměnných je nulovost prvních parciálních derivací, tj.
∂SR∂β0
=∂SR∂β1
= · · · = ∂SR∂βp
= 0,
podmínku postačující pro minimum nemusíme vyšetřovat, neboť funkceSR je ryze konvexní. Dostáváme p + 1 rovnic (tzv. normálních rovnic),jejichž řešením obdržíme odhady parametrů regresní funkceb0 = β0, b1 = β1, . . . , bp = βp.
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese
Odhady regresních parametrů
Regresní funkce určená metodou nejmenších čtverců má tyto vlastnosti:∑ni=1(yi − yi ) = 0
prochází vždy bodem [x , y ]
odhad regresní funkce MNČ je nejlepším nestranným odhadem
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese
Odhady regresních parametrů
Regresní přímka: y = b0 + b1x
Sr =n∑i=1
(yi − yi )2 =n∑i=1
(yi − (b0 + b1xi ))2 =n∑i=1
(yi − b0 − b1xi )2
∂Sr∂b0
= 2n∑i=1
(yi − b0 − b1xi )(−1) = 0
∂Sr∂b1
= 2n∑i=1
(yi − b0 − b1xi )(−xi ) = 0
dostáváme soustavu normálních rovnic
b0n + b1n∑i=1
xi =n∑i=1
yi
b0n∑i=1
xi + b1n∑i=1
x2i =n∑i=1
xiyi
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese
Odhady regresních parametrů
Soustavu vyřešíme např. Cramerovým pravidlem a dostaneme odhadyparametrů
b0 =
∑ni=1 yi
∑ni=1 x
2i −
∑ni=1 xi
∑ni=1 xiyi
n∑ni=1 x
2i −
(∑ni=1 xi
)2b1 =
n∑ni=1 xiyi −
∑ni=1 xi
∑ni=1 yi
n∑ni=1 x
2i −
(∑ni=1 xi
)2
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese
Odhady regresních parametrů – maticové vyjádření
Regresní model je možné zapsat ve tvaru
Y = Xβ + ε
kde Y = (Y1,Y2 . . .Yn)′, β = (β0, β1, . . . , βp)′, ε = (ε1, ε2, . . . , εn)
′,
X =
f0(x1) f1(x1) . . . fp(x1)f0(x2) f1(x2) . . . fp(x2)...
......
...f0(xn) f1(xn) . . . fp(xn)
je matice regresorů. V případě přímkové regrese je matice regresorů rovna
X =
1 x11 x2......
1 xn
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese
Odhady regresních parametrů – maticové vyjádření
Odhady parametrů získané MNČ mají tvar
b = (X′X)−1X′Y
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese
Odhady v lineární regresi
Odhady b0, b1, . . . , bp parametrů β0, β1, . . . , βp získané MNČ jsou jejichnestranné odhady, tedy platí E (bj) = βj pro j = 0, 1, . . . , p. Představuo tom, jaké chyby můžeme při bodových odhadech očekávat, poskytujísměrodatné odchylky – směrodatné chyby těchto bodových odhadůs(bj). K jejich určení potřebujeme znát rozptyl náhodných složekD(εi ) = σ2, který je neznámý. Odhadneme jej pomocí reziduálníhorozptylu
s2R =SRn − c
=1n − c
n∑i=1
(yi − yi )2,
kde c je počet neznámých (odhadovaných) regresních parametrů, SR jereziduální součet čtverců.
Maticově SR = Y′Y − b′X′Y.
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese
Odhady v lineární regresi
Pro regresní přímku je
Sr =n∑i=1
(yi − b0 − b1x) = · · · =n∑i=1
y2i − b0n∑i=1
yi − b1n∑i=1
xiyi ,
potom
s2R =1n − 2
(n∑i=1
y2i − b0n∑i=1
yi − b1n∑i=1
xiyi
).
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese
Intervalové odhady
Jsou-li splněny předpoklady klasického regresního modelu, mají potomregresní koeficienty bj normální rozdělení, tedy platí
bj ∼ N(βj ,D(bj)),
kde rozptyly D(bj) jsou rovny
D(b0) = σ2 · h00,D(b1) = σ2 · h11, . . . ,D(bp) = σ2 · hpp,
pričemž h00, h11, . . . , hpp jsou prvky na hlavní diagonále maticeH = (X′X)−1. Rozptyly odhadů regresních parametrů musíme odhadnout
D(bj) = s2R · hjj ⇒ s(bj) =√s2R · hjj
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese
Intervalové odhady
Pro regresní přímku y = b0 + b1x dostaneme
s(b0) = sR
√ ∑ni=1 x
2i
n∑ni=1 x
2i −
(∑ni=1 xi
)2s(b1) = sR
√n
n∑ni=1 x
2i −
(∑ni=1 xi
)2
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese
Intervaly spolehlivosti pro regresní parametry βj
Východiskem pro konstrukci intervalů spolehlivosti parametrů βj připlatnosti předpokladů klasického regresního modelu jsou statistiky
tj =bj − βjs(bj)
∼ t(n − c) pro j = 0, 1, . . . p,
kde bj je bodový odhad parametru βj , s(bj) je směrodatná chyba tohotoodhadu. Oboustranný interval spolehlivosti má potom tvar
bj − t1−α/2(n − c) · s(bj) < βj < bj + t1−α/2(n − c) · s(bj).
Pokud tento interval pro určitý parametr obsahuje nulu, lze usoudit nahladině významnosti α, že tento parametr je statisticky nevýznamný.
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese
Testy hypotéz o významnosti regresních parametrů β
Statisticky významným parametrem βj se rozumí nenulový parametr,proto budeme testovat
H : βj = 0→ A : βj 6= 0.
Testovým kritériem je statistika
tj =bj − βjs(bj)
,
kritický obor jeWα : |tj | ≥ t1−α/2(n − c)
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese
Intervalové odhady pro regresní funkci
Intervaly spolehlivosti pro regresní funkci Yi (podmíněné střední hodnoty)jsou založené na tom, že při platnosti předpokladů klasického regresníhomodelu jsou statistiky
ti =yi − Yis(yi )
∼ t(n − c) pro i = 1, 2, . . . , n,
kde yi je bodový odhad podmíněné střední hodnoty Yi pro hodnotu xi ,s(yi ) je směrodatná chyba (odchylka) bodového odhadu yi . Odtud lzeklasicky odvodit vztah pro oboustranný intervalový odhad.
yi − t1−α/2(n − c) · s(yi ) < Yi < yi + t1−α/2(n − c) · s(yi ).
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese
Intervalové odhady pro regresní funkci
Rozptyl vyrovnaných hodnot je
D(yi ) = σ2x′iHxi .
kde xi = (1, f1(xi ), f2(xi ), . . . , fp(xi ))′ je vektor hodnot regresorů prohodnotu xi . Pro rozptyl resp. směrodatnou chybu odhadu podmíněnéstřední hodnoty Yi , tj. pro s2(yi ) platí
s2(yi ) = s2Rx′iHxi ⇒ s(yi ) = sR
√x′iHxi .
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese
Intervalové odhady pro regresní funkci
Pro regresní přímku y = b0 + b1x dostáváme
s(yi ) = sR√x′iHxi = sR
√√√√√√1n +
(xi −
Pni=1 xin
)2∑ni=1 x
2i −
(Pni=1 xi)
2
n
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese
Intervalové odhady pro individuální předpovědi
Pro rozptyl individuálních hodnot platí, že je o σ2 větší než rozptylvyrovnaných hodnot, tedy platí
D(yi0) = σ2 + σ2x′iHxi = σ2(1+ x′iHxi ).
Při určování odhadů individuálních hodnot Yi0 při určování odhadůindividuálních hodnot yi0 ve tvaru
s2(yi0) = σ2R(1+ x′iHxi ) ⇒ s(yi0) = sR√1+ x′iHxi .
Interval spolehlivosti pro individuální předpověď Yi0 je
yi0 − t1−α/2(n − c) · s(yi0) < Yi0 < yi0 + t1−α/2(n − c) · s(yi0)
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese
Intervalové odhady pro individuální předpovědi
Pro regresní přímku y = b0 + b1x dostáváme
s(yi0) = sR√1+ x′iHxi = sR
√√√√√√1+1n
+
(xi −
Pni=1 xin
)2∑ni=1 x
2i −
(Pni=1 xi)
2
n
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese
Test o významnosti regresního modelu
Zřejmě platí, že yi − y = (yi − yi ) + (yi − y). Lze ukázat, že také platín∑i=1
(yi − y)2 =n∑i=1
(yi − yi )2 +n∑i=1
(yi − y)2 → SY = SR + ST ,
kdecelkový součet čtverců SY = y′y − ny2
SY =n∑i=1
(yi − y)2 = n · s2(y), kde s2(y) =1n
n∑i=1
(yi − y)2
reziduální součet čtverců SR = y′y − b′X′y
SR =n∑i=1
(yi − yi )2 = (n−c) · s2R(y), kde s2R(y) =1n − c
n∑i=1
(yi − yi )2
teoretický součet čtverců ST = b′X′y − ny2
ST =n∑i=1
(yi − y)2 = n · s2(y), kde s2(y) =1n
n∑i=1
(yi − y)2
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese
Test o významnosti regresního modelu
Pro regresní přímku y = b0 + b1x dostáváme
SR =n∑i=1
(yi − yi )2 =n∑i=1
(yi − b0 − b1xi )2 = · · · =
=n∑i=1
y2i − b0n∑i=1
yi − b1n∑i=1
xiyi
ST =n∑i=1
(yi − yi )2 =n∑i=1
(b0 + b1xi −
1n
n∑i=1
y2i
)= · · · =
= b0n∑i=1
yi + b1n∑i=1
xiyi −1n
(n∑i=1
yi
)2
SY = SR + ST = · · · =n∑i=1
y2i −1n
(n∑i=1
yi
)2
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese
Test o významnosti regresního modelu
teoretický součet čtverců ST je ta část celkového součtu čtverců SY ,která je vysvětlená zvolenou regresní funkcí
reziduální součet čtverců SR je ta část celkového součtu čtverců SY ,která zvolenou regresní funkcí vysvětlená není
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese
Test o významnosti regresního modelu
Test o významnosti modelu → celkový F -testH : β0 = k, k 6= 0, β1 = β2 = · · · = βp = 0A : βj 6= 0 pro alespoň jedno j = 1, 2, . . . , pTestové kritérium je statistika
F =
ST (y)c−1SR (y)n−c
∼ F (c − 1, n − c),
kde c = p + 1 je počet odhadovaných parametrů. Kritický obor je
Wα : F > F1−α(c − 1, n − c).
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese
Test o významnosti regresního modelu
Jsou-li celkový F -test i všechny t-testy jsou statisticky významné,model se považuje za vhodný k vystižení variability proměnné Y (tovšak ještě neznamená, že je model správně navržen).
Jsou-li celkový F -test i všechny t-testy jsou statisticky nevýznamné,model se považuje za nevhodný, protože nevystihuje variabilituproměnné Y .
Je-li celkový F -test statisticky významný, ale některé t-testy vycházínevýznamné, model se považuje za vhodný, ale provádí se zpravidlavypuštění nevýznamných parametrů.
Je-li celkový F -test statisticky významný, ale všechny t-testy vycházínevýznamné – paradox: formálně model jako celek vyhovuje, aležádný člen modelu sám o sobě významný není – jde o důsledek tzv.multikolinearity, tj. lineární závislosti mezi jednotlivými regresory.
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese
Těsnost závislosti
Těsností závislosti rozumíme stupeň, s jakým se zkoumaná závislostblíží k funkční závislosti. Vztah mezi proměnnými X a Y může mítrůznou intenzitu, od úplné nezávislosti až po pevnou (funkční) závislost.Představu o síle závislosti můžeme získat
z bodového diagramu (podle rozložení bodů okolo regresní křivky)
pomoci měr těsnosti závislosti
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese
Těsnost závislosti
Poměr determinace p2yx (viz ANOVA)
p2yx =SM(y)SC (y)
, p2yx ∈ 〈0, 1〉
udává, jaké procento variability proměnné Y je vysvětlenéproměnnou X (jaké procento meziskupinové variability se podílí nacelkové variabilitě). Tento poměr není závislý na zvolené regresnífunkci, ale vyžaduje roztříděná data (korelační tabulka).
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese
Těsnost závislosti
Index determinace i2yx
i2yx =ST (y)SY (y)
, i2yx ∈ 〈0, 1〉
udává, jaké procento variability proměnné Y lze vysvětlit zvolenýmregresním modelem. Tento poměr vychází ze zvolené regresní funkce.
V případě, kdy regresní funkce je přímka, použijeme názevkoeficient determinace a značíme jej r2yx .
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese
Těsnost závislosti
Čím více se i2 blíží k 1, tím považujeme danou závislost za silnější, a tedydobře vystiženou použitou regresní funkcí; naopak čím více se bude blížitk 0, tím považujeme danou závislost za slabší a regresní funkci za méněvýstižnou.Nízká hodnota i2 ještě nemusí znamenat nízký stupeň závislosti meziproměnnými, ale může to signalizovat chybnou volbu regresní funkce.
Kritéria vhodnosti použité regresní funkce pro popis závislosti:
čím je i2 blíže k 1, tím vhodnější je použitý model
obecně platí i2 ≤ p2, potom čím je i2 blíže p2 tím je použitý modellepší
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese
Těsnost závislosti
i2yx představuje výběrový index determinace, který lze použít jako odhadteoretického indexu determinace I 2yx (I
2yx = i2yx). Tento odhad je
asymptoticky nestranný, navíc ale tento odhad
pro malé výběry nadhodnocuje skutečnou těsnost závislosti,
záleží i na počtu parametrů regresní funkce.
Provádíme proto korekci
i2kor = 1− (1− i2)n − 1n − c
,
tento odhad je již nestranný.
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese
Vícenásobná regrese
Regresní model obsahující více než jednu vysvětlující proměnnou senazývá model vícenásobné regrese. Omezíme se na model regrese sedvěma nezávisle proměnnými. Nechť
Yi = β0 + β1xi + β2zi + εi , i = 1, . . . , n.
Matice regresorů má tvar
X =
1 x1 z11 x2 z2.........
1 xn zn
.
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Volba regresní funkceOdhady v lineární regresiTěsnost závislostiVícenásobná regrese
Vícenásobná regrese
Odhady určíme podle vztahu
b = (X′X)−1X′Y,
s2R =1n − c
(Y′Y − b′X′Y) ,
kde Y = (Y1,Y2, . . . ,Yn)′. Testy hypotéz o významnosti regresníchkoeficientů a celkového modelu se provádějí podobně jako u lineárníregrese s jednou vysvětlující proměnou.
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Korelační koeficientKoeficient mnohonásobné korelace
Korelační analýza
V regresní analýze jsme se doposud zabývali jednostrannými závislostmi apopisovali jsme formu závislosti vysvětlované proměnné Y na vysvětlující(ale nenáhodné, pevné, nastavené) proměnné X .Oboustrannými závislostmi mezi náhodnými veličinami X a Y se věnujekorelační analýza.
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Korelační koeficientKoeficient mnohonásobné korelace
Korelační koeficient
DefiniceKorelační koeficient náhodných veličin X a Y je definován vztahem
ρ(X ,Y ) =C (X ,Y )√D(X )
√D(Y )
=C (X ,Y )
σ(X )σ(Y ).
Pro korelační koeficient platí:
−1 ≤ ρ(X ,Y ) ≤ 1,jestliže jsou X a Y nezávislé, pak ρ(X ,Y ) = 0,
ρ(X ,Y ) = 1 právě když Y = aX + b, kde a > 0,
ρ(X ,Y ) = −1 právě když Y = aX + b, kde a < 0.
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Korelační koeficientKoeficient mnohonásobné korelace
Dvourozměrné normální rozdělení
Definice
Má-li náhodný vektor X = (X ,Y )′ sdruženou hustotu pravděpodobnosti
f (x , y) =1
2πσ1σ2p1− ρ2
× exp− 12(1− ρ2)
„(x − µ1)
2
σ21+
(y − µ2)2
σ22− 2ρ(x − µ1)(y − µ2)
σ1σ2
«ffpro x , y ∈ R, pak říkáme, že má dvourozměrné normální rozdělenís parametry µ1, µ2, σ1, σ2, ρ.
Věta
Nechť X = (X ,Y )′ má dvourozměrné normální rozdělení s parametryµ1, µ2, σ1, σ2, ρ, potom
X ∼ N(µ1, σ21) a Y ∼ N(µ2, σ
22),
ρ je korelační koeficient X a Y .
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Korelační koeficientKoeficient mnohonásobné korelace
Dvourozměrné normální rozdělení
Obrázek: Graf dvourozměrného normálního rozdělení
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Korelační koeficientKoeficient mnohonásobné korelace
Korelační koeficient
Empirickým protějškem korelačního koeficientu ρ výběrový korelačníkoeficient (koeficient korelace) r
r =sxysx · sy
,
kde sxy = 1n−1
∑ni=1(xi − x)(yi − y) je výběrová kovariance, sx a sy jsou
výběrové směrodatné odchylky. Korelační koeficient r lze vyjádřit ve tvaru
r =n∑ni=1 xiyi −
∑ni=1 xi
∑ni=1 yi√
n∑ni=1 x
2i −
(∑ni=1 xi
)2√n∑ni=1 y
2i −
(∑ni=1 yi
)2
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Korelační koeficientKoeficient mnohonásobné korelace
Korelační koeficient
Koeficient determinace je pro závislost popsanou regresní přímkouzvláštním případem indexu determinace, tedy platí r2yx = ST
SY. Tato míra
těsnosti závislosti má zcela stejné vlastnosti jako i2yx .Výběrový koeficient determinace r2yx lze použít jako odhad teoretickéhokoeficientu determinace ρ2 v základním souboru. Úpravou
r2kor = 1− (1− r2)n − 1n − 2
získáme nestranný odhad ρ2.
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Korelační koeficientKoeficient mnohonásobné korelace
Test významnosti korelačního koeficientu
H : ρ = 0→ A : ρ 6= 0
Testové kritérium je statistika
t =r√1− r2
√n − 2 ∼ t(n − 2).
Kritický obor je dán
Wα : |t| > t1−α/2(n − 2).
Pokud hodnota testového kritéria padne do kritického oboru, podařila seprokázat lineární závislost mezi sledovanými proměnnými.
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Korelační koeficientKoeficient mnohonásobné korelace
Koeficient mnohonásobné korelace
Koeficient mnohonásobné korelace vyjadřuje společné působení nezávisleproměnných X1,X2, . . .Xk na závisle proměnnou Y a určuje spolehlivostregresního odhadu.Výběrový koeficient mnohonásobné korelace pro případ regrese se dvěmanezávisle proměnnými (Yi = β0 + β1xi + β2zi + εi ) je roven
ry ,xz =
√r2yx + r2yz + 2ryx ryz rxz
1− r2xz,
kde ryx je výběrový korelační koeficient mezi hodnotami yi a xi , ryz jevýběrový korelační koeficient mezi yi a zi a ryx je výběrový korelačníkoeficient mezi xi a zi . Jeho druhou mocninou je index determinace.
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Nelineární regresní funkce
Regresní analýza užívá řadu dalších funkcí, které nejsou lineární vzhledemk parametrům – nelineární regresní modely:nelineární regresní funkce, které lze linearizovat, např.
regresní exponenciální funkce Y = β0βX1 ;Y = β0eβ1X
regresní mocninná funkce Y = β0Xβ1
Törnquistova křivka I Y = β0Xβ1+X
nelineární regresní funkce, které nelze linearizovat, např.regresní exponenciální funkce Y = β0β
X1 + β2;Y = β0eβ1X + β2
regresní mocninná funkce Y = β0Xβ1 + β2
Törnquistovy křivka II a III Y = β0(X−β1)β2+X
; Y = β0X (X−β1)β2+X
Odhad parametrů těchto a dalších nelineárních regresních funkcí nelzeprovádět metodou nejmenších čtverců. Postupuje se tak, že se nejprvenajde vhodný tzv. počáteční odhad, který se dále numerickými(iteračními) metodami postupně zlepšuje.
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Linearizující transformace
Linearizující transformace spočívá v tom, že se vhodnou transformacípřevede nelineární funkce Y na lineární funkci Y ∗. Parametry lineárnífunkce Y ∗ se odhadnou metodou nejmenších čtverců a zpětnoutransformací obdržíme odhady parametrů původní funkce Y .
Příklad 1:Y = β0β
X1 → y = b0bx1
transformace: ln y = ln b0 + x ln b1lineární model: y∗ = b∗0 + b∗1x
∗
substituce: y∗ = ln y , x∗ = xb∗0 = ln b0 ⇒ b0 = eb
∗0
b∗1 = ln b1 ⇒ b1 = eb∗1
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Linearizující transformace
Příklad 2:Y =
β0Xβ1 + X
→ y =b0xb1 + x
transformace: 1y = b1+xb0x
= b1b0· 1x + 1
b0lineární model: y∗ = b∗0 + b∗1x
∗
substituce: y∗ = 1y , x
∗ = 1x
b∗0 = 1b0⇒ b0 = 1
b∗0b∗1 = b1
b0⇒ b1 = b0 · b∗1
Jiří Neubauer Regresní a korelační analýza
Regresní analýzaKorelační analýza
Nelineární regresní funkce
Nelineární regresní funkce
Poznánka: Je třeba si uvědomit, že vlastnosti, které platí pro odhadregresní funkce získaný klasickou metodou nejmenších čtverců, platípouze pro transformovanou funkci. Důsledkem toho je, že odhadyjednotlivých regresních koeficientů užitého modelu nesplňují podmínkunestrannosti.
V případě, že linearizující transformace není možná, je třeba použít jinýchmetod, např. metodu vybraných bodů apod.
Jiří Neubauer Regresní a korelační analýza