korelace a regrese - mendeluuser.mendelu.cz/.../zakladni/korelaceregrese.pdf · korelace a regrese...

KORELACE A REGRESE

1

Vytvořeno s podporou projektu Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem na discipliny společného základu (reg. č. CZ.1.07/2.2.00/28.0021) za přispění finančních prostředků EU a státního rozpočtu České republiky

2

VÍCEROZMĚRNÝ STATISTICKÝ SOUBOR

Vícerozměrný statistický soubor je množina C souběžných realizací určitého počtu veličin X1, X2, …, Xm. Množina C vznikne získáním hodnot znaků X1, X2, …, Xm na prvcích množiny n. C je potom množina uspořádaných m-tic hodnot [x1, x2, …, xm] znaků X1, X2, …, Xm.

=

=

m,ni,n1,n

m,ji,j1,j

m,1i,11,1

xxx

xxx

xxx

Tn

Tj

T1

x

x

x

C

n-tý OBJEKT

m-tá VELIČINA

3

STATISTICKÁ ZÁVISLOST

4


pokud měříme v příliš malém intervalu, nemusí se závislost prokázat!!

5


jedna proměnná je násobkem druhé – v tom případě je možné jednu proměnnou z analýzy vyloučit bez ztráty informace

6


korelace – popisuje vliv změny úrovně jednoho znaku na změnu úrovně jiných znaků a platí pro kvantitativní (měřené) znaky;

kontingence – popisuje závislost kvalitativních (slovních, popisných) znaků, které mají více než dvě alternativy, tzv. množných znaků (např. druh dřeviny, národnost, apod.);

asociace - popisuje závislost kvalitativních (slovních, popisných) znaků, které mají pouze dvě alternativy, tzv. alternativních znaků (např. pohlaví, odpovědi typu ano/ne, …).

7

KORELACE

typy podle počtu korelovaných znaků jednoduchá – popisuje vztah dvou znaků,

mnohonásobná – popisuje vztahy více než dvou znaků,

parciální – popisuje závislost dvou znaků ve vícerozměrném statistickém souboru při vyloučení vlivu ostatních znaků na tuto závislost·

8

KORELACE

typy podle smyslu změny hodnot kladná – se zvyšováním hodnot jednoho znaku se zvyšují

i hodnoty druhého znaku

záporná - se zvyšováním hodnot jednoho znaku se zmenšují hodnoty druhého znaku

9

KORELACE

typy podle tvaru závislosti přímková (lineární) – grafickým obrazem závislosti je

přímka (lineární trend)

křivková (nelineární) – grafickým obrazem závislosti je křivka (nelineární trend)

10

KORELAČNÍ POČET

korelační analýza zjišťuje existenci závislosti a její druhy, měří těsnost závislosti, ověřuje hypotézy o statistické významnosti závislosti;

regresní analýza

zabývá se vytvořením vhodného matematického modelu závislosti,

stanoví parametry tohoto modelu, ověřuje hypotézy o vhodnosti a důležitých vlastnostech

modelu.

11

MÍRA KORELAČNÍ ZÁVISLOSTI

2x

x2

x1

CELKOVÁ VARIABILITA Y (odchylka měřené hodnoty od

průměru)

REZIDUÁLNÍ VARIABILITA (odchylka měřených a

modelových - vypočítaných – hodnot)

VARIABILITA VYSVĚTLENÁ MODELEM (odchylka modelových hodnot

od průměru)

12

MÍRA LINEÁRNÍ KORELAČNÍ ZÁVISLOSTI

2x

x2

x1

CELKOVÁ VARIABILITA Y (odchylka měřené hodnoty od

průměru)

REZIDUÁLNÍ VARIABILITA (odchylka měřených a

modelových - vypočítaných – hodnot)

VARIABILITA VYSVĚTLENÁ MODELEM (odchylka modelových hodnot

od průměru)

( )∑n

22i

i=12x - x

n =

( )′∑n

2

i=2i

12 x-x

n +

( )′∑ 2i

n2

2ii=1

x - x

n

13

MÍRA LINEÁRNÍ KORELAČNÍ ZÁVISLOSTI

′

2

1 2

2

2

2 2x x

2x

2x x2R = =

S-

S1

SS

KOEFICIENT DETERMINACE

KOEFICIENT KORELACE

′

2 2

1 22

2x

x

x2x

2

x

2

R = = 1SS

-SS

14

KOEFICIENT DETERMINACE

vyjadřuje, jakou část celkové variability závisle proměnné (vysvětlované proměnné) objasňuje regresní model.

r2 = 0.9

r2 = 1 r2 = 0.05

15

KORELAČNÍ KOEFICIENT

PRO JEDNODUCHOU KORELACI

párový - zvláštní případ vícenásobného korelačního koeficientu, kdy vyjadřuje míru lineární stochastické závislosti mezi náhodnými veličinami Xi a Xj,

Pearsonův

Spearmanův (korelace pořadí)

16

KORELAČNÍ KOEFICIENT

PRO VÍCENÁSOBNOU KORELACI vícenásobný - definuje míru lineární stochastické závislosti mezi náhodnou veličinou X1 a nejlepší lineární kombinací složek X2, X3, ..., Xm náhodného vektoru X parciální - definuje míru lineární stochastické závislosti mezi náhodnými veličinami Xi a Xj při zkonstantnění dalších složek vektoru X

x1 x2 x3 x4 x1 x2 x3 x4

17

PEARSONŮV KORELAČNÍ KOEFICIENT (r)

21

21

1221xx

xxxxxx SS

covrr

⋅==

= normovaná kovariance

podmínkou je dodržení dvourozměného normálního rozdělení

18


míra intenzity vztahu mezi složkami vícerozměrného souboru je mírou intenzity lineární závislosti je vždy nezáporná její limitou je součin směrodatných odchylek je symetrickou funkcí svých argumentů její velikost je závislá na měřítku argumentů ⇒ nutnost normování

KOVARIANCE:

( ) ( )2i2

n

1i1i1xx xxxx

n1cov

21−⋅−= ∑

=

19


Základní vlastnosti Pearsonova korelačního koeficientu:

je to bezrozměrná míra lineární korelace; nabývá hodnoty 0 – 1 pro kladnou korelaci, 0 – (-1) pro zápornou korelaci; hodnota 0 znamená, že mezi posuzovanými veličinami není žádný lineární vztah (může být nelineární) nebo tento vztah zůstal na základě dat, které máme k dispozici, neprokázán; hodnota 1 nebo (-1) indikuje funkční závislost; hodnota korelačního koeficientu je stejná pro závislost x1 na x2 i pro opačnou závislost x2 na x1.

r =1,000 r =-1,000 r =0,000 r =0,934

r =0,967 r =0,857 r =-0,143 r =0,608

Souvislost mezi velikosti Pearsonova korelačního koeficientu a typem závislosti

21

PEARSONŮV KORELAČNÍ KOEFICIENT (r) – výpočet v Excelu

Pearsonův R

22

SPEARMANŮV KORELAČNÍ KOEFICIENT

neparametrický korelační koeficient, vycházející nikoli z hodnot, ale z jejich pořadí.

Používá se tehdy, nejsou-li závažným způsobem splněny předpoklady pro použití Pearsonova korelačního koeficientu.

nn

d61r 3

n

1i

2i

S−

⋅−=

∑=

diference mezi pořadími hodnot X a Y v jednom řádku

23

SPEARMANŮV KORELAČNÍ KOEFICIENT

vlivné body Pearsonův R = -0,412 (započítává se účinek vlivných bodů)

Spearmanův R = +0,541 (účinek vlivných bodů je značně omezen)

24

MNOHONÁSOBNÝ KORELAČNÍ KOEFICIENT

vyjadřuje sílu závislosti jedné proměnné na dvou a více jiných proměnných

1

n

1 1 1

n n n

II III m

II I

I

I I I m

x x x

x x x

x

x

25

MNOHONÁSOBNÝ KORELAČNÍ KOEFICIENT - vlastnosti

0 ≤ R ≤ 1 pokud je R = 1, znamená to, že závisle proměnná x1 je přesně lineární kombinací veličin x2, ..., xm pokud je R = 0, potom jsou také všechny párové korelační koeficienty nulové s růstem počtu vysvětlujících (nezávislých) proměnných hodnota vícenásobného korelačního koeficientu neklesá, tj. platí R1(2) ≤ R1(2,3) ≤ ... ≤ R1(2, ..., m)

Základní vlastnosti:

26

MNOHONÁSOBNÝ KORELAČNÍ KOEFICIENT - výpočet

= determinant korelační matice = determinant korelační matice s

vypuštěným sloupcem a řádkem odpovídajícím té proměnné, jejíž závislost na zbytku matice se vypočítává

)det()det(1R )m,...,3,2(1

(11)RR

−=

korelační koeficient 1. a 2. proměnné

1RRR1

R1R1

1RRRR1

mi2m1m

im1i

21

m1i112

=R Korelační matice R

27

MNOHONÁSOBNÝ KORELAČNÍ KOEFICIENT

12 1 1

21

1

1 21(2,3,..., )

12 1 1

21

1

1 2

d

11

11

11

11

11

11

et( )

detdet( )

det

1

(

)

)

(

i m

i im

m m mim

i m

i im

m m mi

R R RR

R R

R R RR

R R RR

R R

R R R

⇒ = ⇒ −

⇒

(11)

(11)

R

R

R

R

28

MNOHONÁSOBNÝ KORELAČNÍ KOEFICIENT – výpočet v Excelu

29


det( )

0.0

det( )

0.004755585107149

1

47

1

1

− = − =

= − =

(11) (11)R = DETERMINR = DETERM

ANT(INA

0

NT(R

.7

)R )

4577

30


Nástroje ⇒Analýza dat ⇒Regrese

31

PARCIÁLNÍ KORELAČNÍ KOEFICIENT

používá se k posouzení síly závislosti dvou veličin ve vícerozměrném souboru při vyloučení vlivu ostatních veličin

podle počtu „vyloučených“ proměnných se stanovují řády parciálního R – v příkladu vlevo to je parciální korelace III. řádu (3 „vyloučené“ proměnné)

32

PARCIÁLNÍ KORELAČNÍ KOEFICIENT - výpočet

„Klasický“ výpočet je velmi zdlouhavý – vychází se z korelační matice, poté se počítají parciální korelace I. řádu (s jednou vyloučenou proměnnou), z nich II. řádu (dvě vyloučené proměnné), atd. až do potřebného řádu.

Při využití Excelu je možné využít vzorce

)det()det()det()1(

R)jj()ii(

)ij(j

)m,...,2,1(ij RRR

⋅

⋅−=

33

PARCIÁLNÍ KORELAČNÍ KOEFICIENT – výpočet v Excelu

)det()det()det()1(

R)jj()ii(

)ij(j

)m,...,2,1(ij RRR

⋅

⋅−=

2(12)

(1,2,..., )(11) (22)

( 1) det( )det( ) det( )ij m

RR

R R− ⋅

=⋅

34


det(R(11)) = 0.010715

det(R(12)) = 0.006086

det(R(22)) = 0.010248

35


2(12)

12(3,4,5)(11) (22)

( 1) det( ) 1 0.00608 0.58082det( ) det( ) 0.01071 0.01025

RR

R R− ⋅ ⋅

= = =⋅ ⋅

Parciální korelační koeficient III. řádu pro závislost proměnných X1 a X2 (při vyloučení vlivu proměnných X3, X4 a X5) je 0.58.

36

REGRESNÍ ANALÝZA

Základní úlohou regresní analýzy je nalezení vhodného modelu studované závislosti.

Snažíme se nahradit každou měřenou (experimentální, empirickou, zjištěnou) hodnotu závisle proměnné (vysvětlované proměnné) Y hodnotou teoretickou (modelovou, vyrovnanou, predikovanou), tj. hodnotou ležící na spojité funkci (modelu) nezávisle proměnné (vysvětlující proměnné) X (X)

Francis Galton (1822-1911)

• položil základy regresní analýzy (vztah mezi výškou syna a výškou otce) • zázračné dítě, bratranec Charlese Darwina • zakladatel eugeniky (nauky o zlepšování genetického základu)

38

REGRESNÍ ANALÝZA

závisle proměnná Y

nezávisle proměnná X

měřené hodnoty

modelové (vypočítané) hodnoty

39

REGRESNÍ MODEL

11 12 1 1

21 22 2 2

1 2

1 2

1

2

1

2

1

2

j m

j m

i i ij im

n n nj nm

i

n

j

m

i

n

y x x x xx x x x

x x x x

x

y

x

y

x xy

β εεβ

β ε

εβ

=

⋅

+

X εβy

závisle nezávisle proměnná regresní náhodná proměnná parametry chyba

y = X β + ε

40

REGRESNÍ MODEL

1

závisle proměnná Y

absolutní člen

regresní parametr

nezávisle proměnná X

41

REGRESNÍ MODEL - typy

Regresní model předpokládá, že nezávislá proměnná (proměnné) je nenáhodná (tj. pevně určena, např. experimentátorem) a závislá proměnná je náhodná (měřená).Tento předpoklad nebývá v praxi striktně naplněn (v mnoha případech jsou obě nebo všechny veličiny náhodné, tj. měřené, potom mluvíme o tzv. korelačním modelu).

Rozeznáváme: regresní modely lineární – mají lineární postavení parametrů regresní modely nelineární –mají nelineární postavení parametrů

42


Příklady lineárních regresních modelů: y = a + bx - přímka y = a + bx + cx2 - parabola y = a + (b/x) - hyperbola

lineární modely jsou i některé, jejichž grafickým vyjádřením je křivka!!

Příklady nelineárních regresních modelů:

y = a⋅xb

y = a⋅ebx

xy = e⋅k

a

Výhody – jsou schopny modelovat složité reálné děje, např. růst, včetně reálné predikce.

Nevýhody – složitý výpočet

43

POSTUP REGRESNÍ ANALÝZY

Podstatou řešení regresní analýzy je:

stanovit nejvhodnější tvar regresního modelu (tedy určit příslušnou rovnici, která bude popisovat závislost Y na X) stanovit jeho parametry (tj. stanovit konkrétní hodnoty parametrů β) stanovit statistickou významnost modelu (tj. zda model podstatným způsobem přispěje ke zpřesnění odhadu závisle proměnné oproti použití průměru) výsledky dané modelem interpretovat z hlediska zadání

44

STANOVENÍ VHODNÉHO TVARU MODELU

1) najít množinu modelů, které svými vlastnostmi vyhovují řešenému problému (např. růstové funkce)

2) teprve mezi nimi najít podle statistických kritérií ten model, která nejlépe vyhovuje měřeným datům

Je nutné věnovat velkou pozornost tomu, aby byla modelována REÁLNÁ PŘÍČINNÁ ZÁVISLOST!!

45

STANOVENÍ PARAMETRŮ MODELU METODA NEJMENŠÍCH ČTVERCŮ

hodnoty nezávisle proměnné X

hodn

oty

závi

sle

prom

ěnné

Y

regresní čára

měřená hodnota

vypočítaná hodnota

Y

yi

reziduum

xi

yi

( )ˆ∑n

2i i

i=1y - y = min.reziduum

46

MNČ PRO PŘÍMKU

= a + bx ⇒ y ( )∑=

=⋅+−n

1i

2ii .minxbay

( )( ) ( )∑

∑

=

= =−⋅⋅−−=∂

⋅+−∂ n

1iii

n

1i

2ii

01xbay2a

xbay

( )( ) ( )∑

∑

=

= =−⋅⋅−−=∂

⋅+−∂ n

1iiii

n

1i

2ii

0xxbay2b

xbay

Parciální derivace podle parametrů:

47

MNČ PRO PŘÍMKU

∑=

∑=

+⋅=n

1ii

n

1i ixbany

Získáme soustavu normálních rovnic:

2

1 1 1

n n

i i i ii i

x y xn

a b xi= =

= + ∑=

∑ ∑

48

MNČ – obecný postup

1 1

2

1 11

n

ii

n n

i

n

iin

ii

i i

g

bi i

A

n x

x x

yab

x y

= =

== =

⋅

=

∑

∑

∑

∑ ∑

⋅g - A b = 0

49


n

1i 1n

1

i 1

1 1 i

ni in

y y

x xx yy

=

=

= ⋅ = = ⋅

∑

∑Tg X y

11

1 2

1 1

11 1

1

n

ii

n nn

i ini i

x n x

x xx xx

=

= =

= ⋅ = =

⋅∑

∑ ∑TA X X

50


− ⋅ =TT XX Xy b 0⋅g - A b = 0

( )−= ⋅ ⋅ ⋅1T Tb X X X y

( )ˆ−

= ⋅ ⋅ ⋅1T Ty X X X X y

obecný vztah pro výpočet regresních parametrů lineárního modelu

obecný vztah pro výpočet predikovaných (modelových) lineárního modelu

projekční matice H

51

PŘEDPOKLADY MNČ

1) Regresní parametry β mohou teoreticky nabývat jakýchkoli hodnot.

2) Regresní model je lineární v parametrech.

3) Jednotlivé nezávislé proměnné jsou skutečně vzájemně nezávislé, tedy mezi nimi nedochází k tzv. multikolinearitě.

4) Podmíněný rozptyl D(y/x) = σ2 je konstantní (tzv. podmínka homoskedasticity).

5) Náhodné chyby mají nulovou střední hodnotu E(εi) = 0, mají konečný rozptyl E(εi

2) = σ2 a jsou nekorelované.

52

MULTIKOLINEARITA

11 12 1 1

21 22 2 2

1 2

1 2

1

2

1

2

1

2

j m

j m

i i ij im

n n nj nm

i

n

j

m

i

n

y x x x xx x x x

x x x x

x

y

x

y

x xy

β εεβ

β ε

εβ

=

⋅

+

X εβy

Vektory matice X musí být skutečně navzájem nezávislé (jejich párové R musí být nulové nebo statisticky nevýznamné). Pokud tomu tak není, dochází k multikolinearitě, která způsobuje početní i statistické problémy.

53

MULTIKOLINEARITA – proč je „nebezpečná“

Početní problémy: způsobuje špatnou podmíněnost matice XT X, (determinant této matice je nula nebo číslo blízké nule)

potíže při invertaci matice (regresní model není jednoznačně řešitelný (singularita matice)).

Statistické problémy: nelze odděleně sledovat skutečný vliv jednotlivých vysvětlujících vstupních proměnných na vysvětlovanou (závislou) proměnnou nespolehlivé určení parametrů regresního modelu (interval spolehlivosti parametrů je tak velký, že odhad parametrů ztrácí smysl) nestabilita odhadů regresních parametrů (např. malá změna hodnot závisle proměnné znamená zásadní změnu parametrů)

54

MULTIKOLINEARITA – příčiny

Příčiny: přeurčenost regresního modelu („zbytečně“ mnoho nezávislých proměnných) skutečně existující závislost mezi „nezávislými“ proměnnými povaha modelu (např. polynom)

nevhodné rozmístění experimentálních bodů (např. malá variabilita hodnot nezávisle proměnné)

55

MULTIKOLINEARITA – vliv variability nezávisle proměnné

správný průběh

regresní čáry

chyba měření

nesprávný průběh regresní čáry

malá variabilita nezávisle proměnné

56

MULTIKOLINEARITA – vliv variability nezávisle proměnné

vhodná variabilita nezávisle proměnné

57

MULTIKOLINEARITA - testování

VIF – variance inflation factor – diagonální prvky inverzní matice ke korelační matici nezávisle proměnných (diag(R-1))

korelační matice R

inverzní matice R-1

=INVERZE(B2..F6)

Ctrl+Shift+Enter

kriticky vysoké hodnoty VIF

VIF > 10 ⇒ kritická multikolinearita

58

MULTIKOLINEARITA - řešení

K odstranění (nebo zmenšení nepříznivého vlivu) multikolinearity může vést:

snížení počtu nezávisle proměnných

použití jiného modelu

použití jiné metody výpočtu (obvykle metody regrese hlavních komponent – PCR)

59

HOMOSKEDASTICITA x HETEROSKEDASTICITA

Homoskedasticita znamená, že hodnoty závisle proměnné y mají pro všechny hodnoty nezávisle proměnné X konstantní rozptyl (variabilitu, proměnlivost).

nezávisle proměnná

závi

sle p

rom

ěnná

nezávisle proměnná

závi

sle p

rom

ěnná

malá var iabilita hodnot y pr o hodnotu x1

vysoká var iabilita hodnot y pr o hodnotu x2

x1 x2

homoskedasticita heteroskedasticita

60

HOMOSKEDASTICITA - princip

měřené hodnoty

nejpravděpodobnější hodnota veličiny Y (modelová)

61

HOMOSKEDASTICITA - testování

Test trendu reziduí ( )2

1

ˆn

ii

D R e i=

= − ∑

3

61s Dn n

ρ = − ⋅−

Testujeme významnost Spearmanova korelačního koeficientu ρs

2

21

sR

s

nt ρ

ρ

⋅ −=

−

62

HOMOSKEDASTICITA - testování

Vycházíme z předpokladu, že rozptyl naměřené hodnoty yi je určitou funkcí proměnné xi β (např. exponenciální funkcí)

Cookův - Weisbergův test

( )

( )∑

∑

=

=

′−′σ⋅

′−′= n

1i

2i

4

22i

n

1i

2i

fyy2

eyyS

Pokud v datech není heteroskedasticita, potom platí, že Sf < χ2(1)

63

HOMOSKEDASTICITA – řešení

Nejobvyklejším způsobem je použití metody vážených nejmenších čtverců, kdy se podmínka sumy reziduí násobí vhodně zvolenými váhami

2

1 1( )

n m

i ij ji j

U y x b= =

= −

∑ ∑ii iiV Vb

V běžných případech je možné jako váhy volit hodnoty 1/yi nebo 1/yi

2 .

64

INTERVALY SPOLEHLIVOSTI V KORELAČNÍ A REGRESNÍ ANALÝZE

IS korelačního koeficientu (koeficientu determinace)

IS regresních parametrů

IS modelových hodnot (modelu)

IS predikovaných hodnot (pás spolehlivosti)

65

INTERVAL SPOLEHLIVOSTI R (IS)

IS vymezuje interval možných hodnot korelačního koeficientu základního souboru ρ (s pravděpodobností 1 - α)

Protože rozdělení výběrových korelačních koeficientů není normální, musíme použít Fisherovu transformaci

R1R1ln5.0)R(arctgh)R(Z

−+

==

která má přibližně normální rozdělení se střední hodnotou E(Z) = Z(ρ) a rozptylem D(Z) = 1/(n-3).

66

INTERVAL SPOLEHLIVOSTI R

Postup výpočtu IS R:

R Fisherova transformace v Excelu funkce FISHER(R) statistické tabulky

Z(R) 21

1( )3

Z R zn

α−± ⋅−

horní a dolní hranice IS ve Fisherově transformaci

horní a dolní hranice IS ve Fisherově transformaci

retransformace Z(R) na korelační koeficient

v Excelu funkce FISHERINV(Z(R)) statistické tabulky

horní a dolní hranice IS korelačního koeficientu

polovina IS

67

INTERVAL SPOLEHLIVOSTI R

R = 0.95305 FISHER(0.95305) = 1.864

Fisherova proměnná

IS Fisherovy proměnné: ( ) 11.864 1.96 1.864 0.65333

1.2107; 2.5173

=12

73

Z ρ = ± ⋅ = ±

=−

1.21 1.864 2.517

IS korelačního koeficientu: =FISHERINV(1.2107) = 0.83689 =FISHERINV(2.5174) = 0.98707

0.837 0.953 0.987

68

INTERVAL SPOLEHLIVOSTI REGRESNÍCH PARAMETRŮ

2 , jj j bn mb t sαβ −= ± ⋅

vyjadřuje interval na číselné ose, ve kterém se s pravděpodobností 1 - α vyskytuje neznámý parametr β základního souboru

Pokud IS obsahuje nulu – tedy dolní hranice je záporná a horní kladná - je daný parametr statisticky nevýznamný.

Směrodatné odchylky pro přímku: 2

212

yxa

x

s xssn

= ⋅ +− 2

xyb

x

ss

s n=

−

69 -30-20-10

0102030405060708090

100

IS REGRESNÍCH PARAMETRŮ - příklad

Intervalový odhaddolní horní

a -8.62 -23.53 6.29b 1.56 1.21 1.91

Bodový odhad

průběh přímky pro hodní hranici IS (1,91)

průběh přímky pro dolní hranici IS (1,21)

70

-20

0

20

40

60

80

100

0 10 20 30 40 50 60 70

IS REGRESNÍCH PARAMETRŮ - příklad

Intervalový odhaddolní horní

a 0 0 0b 1.37 1.23 1.51

Bodový odhad

71

INTERVAL SPOLEHLIVOSTI MODELOVÝCH HODNOT

horní hranice IS dolní hranice IS

JEDNA HODNOTA REGRESNÍHO MODELU (tyto hodnoty platí jen pro jeden konkrétní výběr, ze kterého byly vypočítány)

plocha, ve které se s pravděpodobností 1 - α nacházejí všechny možné modely vypočítané z jakéhokoliv výběru pocházejícího z daného základního souboru

IS jedné modelové hodnoty

72

IS MODELOVÝCH HODNOT

∑=

−′

−

−+⋅

−σ

⋅±′=µ α n

1i

2i

2i

2n,iy)xx(

)xx(n12n

ty2

Pro model přímky:

polovina IS modelu přímky modelová hodnota

směr.odchylka reziduí

73

IS Y HODNOT – PÁS SPOLEHLIVOSTI

udává rozpětí, ve kterém se budou v základním souboru nacházet hodnoty závisle (vysvětlované) proměnné se zvolenou pravděpodobností 1 - α

σ⋅±′=−

α mn;2

imax)(min,i tyy

74

IS MODELU A PÁS SPOLEHLIVOSTI - příklad

10

15

20

25

30

35

40

45

20 25 30 35 40 45 50 55 60 65délka listu (mm)

šířk

a lis

tu (m

m)

měřené hodnoty intervalový odhad modelumodelové hodnoty pás spolehlivosti měřených hodnot

75

IS MODELU - příklad

0102030405060708090

100

10 20 30 40 50 60 70

76

TESTY VÝZNAMNOSTI V REGRESNÍ ANALÝZE – proč musíme testovat?

X

Y

skutečný regresní model platný pro základní soubor (neznáme ho !!!) – statisticky nevýznamný

Regresní model získaný na základě výběru („nešťastný“ výběr dat) – vede k závěru, že model je statisticky významný

Statistický test významnosti modelu určí, zda na základě dat získaných z výběru můžeme „uvěřit“, že model je významný i v základním souboru

77

TESTY VÝZNAMNOSTI V KORELAČNÍ A REGRESNÍ ANALÝZE

test významnosti korelačního koeficientu

test významnosti modelu jako celku

test významnosti jednotlivých regresních parametrů

test shody lineárních regresních modelů

a mnoho dalších …..

78

TEST VÝZNAMNOSTI R

Test významnosti odpovídá na otázku, zda je korelace mezi výběrovými proměnnými (R) natolik silná, abychom mohli tuto korelaci považovat za prokázanou i pro základní soubor (ρ).

2RR1

2nRt−

−⋅=Pro párový R: tα,n-2

Pro násobný R: ( )

( )( )1mR1mnRF 2

2

R−−

−= tα,n-m

Pro parciální R: 2

21

RR n kt

R⋅ − −

=−

tα,n-k-2

KH

m – počet proměnných

k – počet „vyloučených“ proměnných

n – počet hodnot výběru

79

TEST VÝZNAMNOSTI REGRESNÍHO MODELU – co testujeme

Y = b0 + b1x1 + b2x2 + b3x3 + … + bmxm

Testujeme MODEL JAKO CELEK (zda příslušná kombinace nezávisle proměnných statisticky významně zpřesní odhad závisle proměnné oproti použití jejího průměru)

Testujeme JEDNOTLIVÉ PARAMETRY (jestliže je daný parametr nevýznamný, příslušná proměnná xj nijak nepřispívá ke zpřesnění odhadu závisle proměnné a je v modelu zbytečná).

80

TEST VÝZNAMNOSTI REGRESNÍHO MODELU JAKO CELKU

1. Test významnosti korelačního koeficientu

2. Pomocí analýzy rozptylu Zdroj

variability Součet čtverců odchylek Počet stupňů volnosti

Průměrný čtverec odchylek (rozptyl)

Testové kritérium

regresní model ( )∑=

−′=n

1i

2iREG yyS DFREG = m –1

REG

REGREG DF

SM =

reziduum (nevysvětleno

regresním modelem)

( )∑=

′−=n

1i

2iiR yyS DFR = n – m

R

RR DF

SM =

Celkový ( )∑=

−=n

1i

2iC yyS DFC = n - 1

R

REG

MMF =

Testové kritérium F se porovná s kritickou hodnotou Fα;m-1;n-m.

81

TEST VÝZNAMNOSTI REGRESNÍCH PARAMETRŮ

H0: βj = 0, tj. j-tý regresní parametr je nevýznamný

t j j

b

bsβ−

= pro βj = 0 j

b

bt

s=

Pokud platí, že t> tα2;n-m, potom je j-tý regresní parametr statisticky významný a příslušná proměnná musí zůstat v modelu.

82

HODNOCENÍ MODELU Z HLEDISKA VÝSLEDKŮ TESTŮ VÝZNAMNOSTI

Výsledek F testu

TEST CELÉHO MODELU

Výsledek t –testu TEST

JEDNOTLIVÝCH PARAMETRŮ

Hodnocení modelu

nevýznamný všechny nevýznamné

posuzované veličiny jsou lineárně nezávislé nebo model je nevhodný (nevystihuje variabilitu závisle proměnné)

významný všechny významné vhodný (ale nemusí být optimálně navržen)

významný některé nevýznamné

vhodný (je možné vypustit nevýznamné členy modelu)

významný všechny nevýznamné

zvláštní případ způsobený multikolinearitou – je nutné upravit nebo zcela změnit model

83

TEST SHODY REGRESNÍCH MODELŮ

Porovnává se:

empirický model (modely) s teoretickým

dva nebo více empirických modelů mezi sebou

H0: Porovnávané modely jsou shodné (tj. shodují se ve směrnici i v úseku).

84


A B

C D

85


H0: Empirický model y’ = a + bx pochází ze základního souboru, jehož model y’ = α + βx je shodný s teoretickým modelem y’0 = α0 +β0x, tj. platí α = α0, β =β0.

SHODA EMPIRICKÉHO A TEORETICKÉHO MODELU:

0ta

asα−

= 0tb

bsβ−

=

86


SHODA DVOU EMPIRICKÝCH MODELŮ:

H0: βj,1 = βj,2, tj. regresní koeficienty obou modelů jsou v základním souboru shodné

Vycházíme z testování shody regresních parametrů dvou lineárních modelů y1 = X1β1 + ε1 a y2 = X2β2 + ε2

Při tomto testu využijeme tzv. složeného modelu, tj. oba porovnávané výběry sloučíme do jednoho a také pro něj stanovíme parametry stejného modelu jako pro oba dílčí výběry

87


( ) mRSCRSC)m2n)(RSCRSCRSC(F

21

21sC ⋅+

−−−=

n celkový počet prvků obou výběrů, tj. n1 + n2 RSCs reziduální součet čtverců složeného modelu RSC1 reziduální součet čtverců prvního modelu RSC2 reziduální součet čtverců druhého modelu

88

HODNOCENÍ KVALITY REGRESNÍHO MODELU

střední kvadratická chyba predikce (MEP)

( )∑= −

=n

1i2

ii

2i

H1e

n1MEP ei

2 čtverec reziduí modelu Hii i-tý diagonální prvek

projekční matice H

Akaikovo informační kritérium (AIC)

m2n

RSClnnAIC +

⋅= RSC reziduální součet čtverců

m počet parametrů

Čím je AIC (MEP) menší, tím je model vhodnější.

89

REGRESNÍ DIAGNOSTIKA – stačí vždy jen testování modelu a parametrů?

Výběr A

y = 0,5x + 3,0R = 0,8164

0

2

4

6

8

10

12

14

4 6 8 10 12 14 16

X

Y

Výběr B

y = 0,5x + 3,0R = 0,8162

0

2

4

6

8

10

12

14

4 6 8 10 12 14 16

X

Y

90

REGRESNÍ DIAGNOSTIKA – stačí vždy jen testování modelu a parametrů?

Výběr C

y = 0,5x + 3,0R = 0,8162

0

2

4

6

8

10

12

14

4 6 8 10 12 14 16

X

Y

Výběr D

y = 0,5x + 3,0R = 0,8165

0

2

4

6

8

10

12

14

4 9 14 19 24

X

Y

91

REGRESNÍ DIAGNOSTIKA

Zkoumá regresní triplet data (kvalitu dat pro navržený model) model (kvalitu modelu pro daná data) metoda odhadu (splnění předpokladů metody MNČ)

92

REGRESNÍ DIAGNOSTIKA – analýza reziduí

Používá se grafická analýza reziduí - tři typy grafů:

Typ grafu Osa X Osa Y

I pořadové číslo bodu i reziduum ei II j-tá nezávislá proměnná xj reziduum ei III vypočítaná (modelová) hodnota y’i reziduum ei

93


„mrak“ bodů – graf nesignalizuje žádný problém

94


„klín“ bodů – indikace heteroskedasticity (nekonstantního rozptylu)

95


indikace chybného modelu

96

REGRESNÍ DIAGNOSTIKA – vlivné body

Vlivné body (data, jejichž zařazení do modelu průběh modelu podstatně ovlivní): 1) hrubé chyby - jsou způsobeny chybou měření nebo pozorování, 2) body s vysokým vlivem (tzv. „zlaté body“) jsou speciálně vybrané body, které byly přesně změřeny a zpravidla zlepšují predikční schopnosti modelu; 3) zdánlivě vlivné body - jsou způsobeny nevhodným modelem;

97

REGRESNÍ DIAGNOSTIKA – vlivné body

SiSiJi emn

1mnee−−−−

⋅=

ii

iSi H1

ee−σ

=

i-tý diagonální prvek projekční matice H

odlehlé body

v pořádku

98

REGRESNÍ DIAGNOSTIKA – kvalita modelu

1) Graf reziduí

2) Parciální regresní grafy

vyjadřuje závislost mezi vysvětlovanou proměnnou (tedy vektorem y) a jednou vysvětlující proměnnou xj při statisticky neměnném vlivu ostatních vysvětlujících proměnných, které tvoří matici X(j) (vynechaná j-tá proměnná). Je to tedy určitá grafická obdoba parciálního korelačního koeficientu u korelačních modelů.

99


y x1 x2 x3 X

Zajímá nás, zda všechny proměnné x1-3 jsou v modelu oprávněně. Postup je ukázán pro proměnnou x1.

y x1 x2 x3 X(1)

x1=f(X(1)) regrese

y=f(X(1)) regrese

v1 rezidua

u1 rezidua

u1

v1

u1

v1

Proměnná x1 do modelu patří

Proměnná x1 do modelu nepatří

100


pokud body parciálního regresního grafu leží na přímce s nulovým úsekem (absolutním členem), potom existuje skutečná lineární závislost mezi y a xj směrnice přímky proložené body parciálního regresního grafu číselně odpovídá příslušnému regresnímu koeficientu bj původního (posuzovaného) regresního modelu korelační koeficient mezi uj a vj odpovídá parciálnímu korelačnímu koeficientu rezidua regresní přímky mezi uj a vj odpovídají reziduím původního modelu

101

REGRESNÍ DIAGNOSTIKA – podmínky MNČ

multikolinearita – VIF

heteroskedasticita – testy heteroskedasticity (např. Cook Weinsberg)

autokorelace reziduí – test významnosti autokorelačního koeficientu

normalita reziduí – testy normality

102


Příklady lineárních regresních modelů: y = a + bx - přímka y = a + bx + cx2 - parabola y = a + (b/x) - hyperbola

lineární modely jsou i některé, jejichž grafickým vyjádřením je křivka!!

Příklady nelineárních regresních modelů:

y = a⋅xb

y = a⋅ebx

xy = e⋅k

a

Výhody – jsou schopny modelovat složité reálné děje, např. růst, včetně reálné predikce.

Nevýhody – složitý výpočet

103

NELINEÁRNÍ REGRESNÍ MODELY

Platí podmínka, že 1. parciální derivace regresního modelu podle parametrů

je alespoň pro jeden parametr jeho funkcí.

( )j

j

fg

δδβ

=x,β

104


Regresní modely se dělí na: neseparabilní – všechny parametry jsou v nelineárním postavení separabilní – část parametrů je lineárních, část nelineárních linearizovatelné – vhodnou transformací je lze převést na lineární model

105


pro lineární model:

jednoznačné řešení

účelová (minimalizační) funkce

pro nelineární model:

106


1. odhad parametrů

1. aproximace 2. odhad parametrů (první vypočítaný)

2. aproximace

3. odhad parametrů (druhý vypočítaný)

107


sedlový bod

lokální min. (zde není optimální řešení)

globální minimum (optimální řešení)

108


Metody odhadů parametrů nederivační

metody přímého hledání (např. krokové hledání minima, Rosenbrockova metoda) simplexové metody (postupné vytváření adaptivních polyedrů – simplexů a jejich „překlápění“ směrem k minimu) metody využívající náhodných čísel

derivační (tendence k lokálním minimům, závislost na prvních odhadech, vhodné k jemnému nalezení minima jako pokračování nederivačních metod)

Gauss-Newton Levenberg-Marquart dog-leg

109

HODNOCENÍ NELINEÁRNÍHO REGRESNÍHO MODELU

1. Kvalita nalezených odhadů parametrů a) podle intervalů spolehlivosti (čím menší interval spolehlivosti, tím lépe)

21 ; ;j j mm m n mb C m s F αβ − −= ± ⋅ ⋅ ⋅

b) podle rozptylů parametrů, kde by pro kvalitní odhad mělo platit

jj bbD <⋅ )(2

110


2. Kvalita dosažené těsnosti proložení 1. a) podle reziduálního rozptylu b) podle regresního rabatu, což je v procentech

vyjádřený koeficient determinace (čím více se blíží 100 %, tím lepší proložení)

3. Vhodnost navrženého modelu Akaikovo informační kritérium(AIC) - (čím je AIC menší,

tím vhodnější je model).

111


4. Predikční schopnost modelu

střední kvadratická chyba predikce (MEP) - čím je MEP menší, tím je predikční schopnost modelu lepší

5. Kvalita experimentálních dat

a) na základě analýzy reziduí

b) na základě analýzy vlivných bodů (podle Jackknife reziduí, Cookovy vzdálenosti, diagonální prvky projekční matice a věrohodnostní vzdálenost).

korelace a regrese - mendeluuser.mendelu.cz/.../zakladni/korelaceregrese.pdf · korelace a regrese...

Documents