analÝza rozptylu
DESCRIPTION
ANALÝZA ROZPTYLU. Analýza rozptylu. V praxi často je potrebné porovnávať väčší počet nezávislých náhodných výberov z hľadiska úrovne, t. zn. zaujíma nás hypotéza: pre aspoň jeno i (i = 1, 2,…m) - PowerPoint PPT PresentationTRANSCRIPT
ANALÝZA ROZPTYLU
prof.Ing. Zlata Sojková,CSc. 1
Analýza rozptylu• V praxi často je potrebné porovnávať väčší počet
nezávislých náhodných výberov z hľadiska úrovne, t. zn. zaujíma nás hypotéza:
pre aspoň jeno i (i = 1, 2,…m)pre m > 2, kde i , i =1, 2, …m sú stredné hodnoty z
normálne rozdelených základných súborov s rovnakým rozptylom 2 , t.j. N(, 2)
• K overeniu tejto hypotézy sa používa dôležitá štatistická metóda, nazývaná Analýza rozptylu,
skrátene ANOVA (resp. AR)prof.Ing. Zlata Sojková,CSc. 2
:H
... ... :H
i 1
mi3210
prof.Ing. Zlata Sojková,CSc. 3
• V praxi sa AR používa vtedy, ak skúmame vplyv jedného resp. viacerých faktorov (ošetrení) na skúmaný štatistický znak
• Faktory budeme označovať A, B,…a v AR ich budeme zohľadňovať len ako kvalitatívne znaky s rôznymi obmenami - úrovňami faktora
• výsledný štatistický znak bude kvantitatívny a označíme ho Y
• najčastejšie sa AR používa pri vyhodnocovaní biologických experimentov
• Všimneme si najjednoduchší prípad AR s jedným faktorom, ktorú nazývame jednofaktorová AR
prof.Ing. Zlata Sojková,CSc. 4
• Úrovňou faktora budeme označovať: – určité množstvo kvantitatívneho faktora, napr. množstvo dávok čistých živín pri
hnojení, rôzne príjmové skupiny domácností, – určitý druh kvalitatívneho faktora, napr.
rôzne odrody tej istej plodiny, spôsoby umiestnenia výrobkov v predajni,
• AR je zovšeobecnením Studentovho t-testu pre nezávislé výbery
• AR zároveň skúma vplyv kvalitatívneho faktora (faktorov) na výsledný kvantitatívny znak - teda analyzuje vzťahy medzi znakmi
Schéma jednofaktorového experimentu
“vyvážený pokus”
prof.Ing. Zlata Sojková,CSc. 5
A 1 2… j… n Yi . yi .
1 y11 y12 y1j y1n Y1. y1.
2 y21 y22 y2j y2n Y2. y2.
… ……….. i yi1 yi2 yij yin Yi. yi.
… ……….. m ym1 ym2 ymj ymn Ym. ym.
Y.. y..
opakovania
Úrovnefaktora
riadkový
súčet riadkovýpriemer
celkovýpriemer
Celkový súčet
prof.Ing. Zlata Sojková,CSc. 6
n
1jiji y .Y
n
1jij
m
1i
y ..Y
.Y n
1 y
n
1 .y i
n
1jiji
m.nN ,yN
1 ..y
n
1jij
m
1i
riadkový súčet: celkový súčet:
riadkový priemer:
celkový priemer:
prof.Ing. Zlata Sojková,CSc. 7
Model pre výslednú napozorovanú hodnotu:
ijiij e α μ y Kde - očakávaná hodnota pre všetky úrovne faktora a napozorované hodnoty,
i - efekt i-tej úrovne faktora A
eij - náhodná chyba, ktorým je každé meranie zaťažené, resp. výsledok vplyv náhodných činiteľov
kde i = 1, 2,…, m j = 1,2,…, n
prof.Ing. Zlata Sojková,CSc. 8
ijiij e α μ y
Nulovú hypotézu potom môžme formulovať aj nasledovne:
Ho : 1 = 2 =… i = m = 0
t.j. že efekty všetkých úrovni faktora A sú nulové, teda nepreukazné, oproti alternatívnej hypotéze
H1: i 0 pre aspoň jedno i (i = 1,2…m)efekt i aspoň jednej i - úrovne faktora je preukazný, významne odlišný od nuly
ijiij e μy alebo
prof.Ing. Zlata Sojková,CSc. 9
Odhadmi jednotlivých parametrov sú nasledovné výberové charakteristiky:
.y - y e est ..y - .y est
.y est ..y est
iijijii
ii
ijiij e α μ y
ijiij e α μy čo môžme prepísať:
.)y(y ..)y - .y( ..)y - y( iijiij
Porovnanie dvoch experimentov s tromi úrovňami faktora
prof.Ing. Zlata Sojková,CSc. 10
..y3y
..y
1 2 3
1y 2y
31 2
1y
2y
3y
Princíp Analýzy rozptylu
prof.Ing. Zlata Sojková,CSc. 11
Podstata analýzy rozptylu spočíva v rozklade celkovej variability výsledného skúmaného znaku
2.i
m
1i
n
1jij
2..
m
1i.i
2..
m
1i
n
1jij )yy()yy(n )yy(
Celková variabilita
Variabilita medzi úrovňamifaktora,
spôsobená pôsobením faktora A,
“variabilita medzitriedami, riadkami”
Variabilita náhodná,
reziduálna,“vo vnútri
tried
Sc S1Sr
prof.Ing. Zlata Sojková,CSc. 12
prof.Ing. Zlata Sojková,CSc. 13
2..
m
1i
n
1jij )yy(
2..
m
1i.i )yy(n
2.i
m
1i
n
1jij )yy(
Variabilitamedzi triedami
Reziduálnavariabilta
Celková variabilita
ANOVAVariabilita
1Súčet štvorcov
odchýlok
2Stupne
voľnosti
m-1
m.n - m
N-1=m .n-1
3Priemerný
štvorec(1/2)
S1
Sr
Sc
s12
sr2
4F-kritérium
2r
21
s
sF
prof.Ing. Zlata Sojková,CSc. 14
mN
).y(y
1m
..)y.y(n
s
sF
2i
m
1i
n
1jij
2m
1ii
2r
21
Testovacie kritérium možno pre jednofoktorovú AR - vyvážený pokus zapísať podrobne vzťahom:
Hodnotu F testovacieho kritéria porovonáme s príslušnou tabuľkovou hodnotou F-rozdelenia:F , pre stupne voľnosti (m-1) a (m.n - m)
• Ak F vyp F. ((m-1,(N-m)) Ho zamietame,
v takom prípade je aspoň efekt jednej úrovne faktora preukazný, teda priemerna úroveň ukazovateľa sa štatisticky významne líši od ostatných. Resp. aspoň
jeden efekt i je štatisticky významne
odlišný od nuly.
prof.Ing. Zlata Sojková,CSc. 15
Rozhodnutie o výsledku testu:
kritický obor,obor zatnutia H0
FObor nezamietnutia Ho
AkF vyp F
Ho nezamietame
Ak nulovú hypotézu zamietame:
• Zistili sme len, že je preukazný vplyv faktora na skúmaný znak,
• ďalej je potrebné skúmať medzi ktorými úrovňami faktora je a medzi ktorými nie je preukazný rozdiel - k tomúto účelu sa používajú testy kontrastov
• Medzi testy kontrastov patria: Duncanov test, Scheffeho test, Tuckey test a iné…..
prof.Ing. Zlata Sojková,CSc. 16
Podmienky použitia AR:
• Výbery pochádzajú z normálnych rozdelení, narušenie tohto predpokladu nemá podstatnejší
vplyv na výsledky AR• štatistická nezávislosť náhodných chýb eij
• zhodné reziduálne rozptyly 1
2 = 22 = …. = 2 , t.j. D(eij) = 2
pre všetky i = 1,2…., m, j=1,2, …n tento predpoklad je závažnejší a možno ho overovať
Cochranovým, resp. Bartlettovým testom
prof.Ing. Zlata Sojková,CSc. 17
Schéma jednofaktorového experimentu
“nevyvážený pokus”
prof.Ing. Zlata Sojková,CSc. 18
A 1 2… j … ni Yi . yi .
1 y11 y12 y1j ... n1 Y1. y1.
2 y21 y22 y2j ... n2 Y2. y2.
… ……….. i yi1 yi2 yij ... ni Yi. yi.
… ……….. m ym1 ym2 ymj ... nm Ym. ym.
Y.. y..
Rôzny počet opakovaní
Úrovnefaktora
riadkový súčet
riadkovýpriemer
celkovýpriemer
Kde
m
1iin N
prof.Ing. Zlata Sojková,CSc. 19
2..
m
1i
in
1jij )yy(
2..
m
1i.ii )yy(n
2.i
m
1i
in
1jij )yy(
Variabilitamedzi triedami
Reziduálnavariabilta
Celková variabilita
ANOVAVariabilita
1Súčet štvorcov
odchýlok
2Stupne
voľnosti
m-1
N - m
N-1
3Priemerný
štvorec(1/2)
S1
Sr
S
s12
sr2
4F-kritérium
2r
21
s
sF
m
1iin N
prof.Ing. Zlata Sojková,CSc. 20
Dvojfaktorová analýza rozptylu Dvojfaktorová analýza rozptylu bez opakovaniabez opakovania
• Uvažujme vplyv faktora A, ktorý skúmame na m - úrovniach, i = 1,2,….,m
• ďalej uvažujme faktor B, ktorý sledujeme na n - úrovniach , j = 1,2, …, n
• na každej i-tej úrovni faktora A a j-tej úrovni faktora B máme len jedno pozorovanielen jedno pozorovanie (opakovanie) yij
• overujeme tak vplyv dvoch nulových hypotéz
prof.Ing. Zlata Sojková,CSc. 21
Schéma dvojfaktorového experimentu s jedným pozorovaním v každej podtriede DAR
prof.Ing. Zlata Sojková,CSc. 22
A 1 2 … j … n Yi . yi .
1 y11 y12 y1j y1n Y1. Y1.
2 y21 y22 y2j y2n Y2. y2.
… ……….. i yi1 yi2 yij yin Yi. yi.
… ……….. m ym1 ym2 ymj ymn Ym. ym.
Y.1
Y.2 ... Y.j ... Y.1 Y.. y.1 y.2 ... y.j ... y.1 y..
n-úrovní faktora B
m-úrovnífaktora A
riadkové súčty
Riadkovépriemery
celkovýpriemer
B
Stĺpcové súčtystĺpcové priemery
Overujeme platnosť dvoch nulových hypotéz
prof.Ing. Zlata Sojková,CSc. 23
Hypotéza pre faktor A:Ho 1: 1 = 2 =… i = m = 0
t.j. že efekty všetkých úrovni faktora A sú nulové, teda nepreukazné, oproti alternatívnej hypotéze
H11 : i 0 pre aspoň jedno i (i = 1,2…m)
efekt i aspoň jednej i - úrovne faktora je preukazný, významne odlišný od nuly
ijjiij e α μ y Model pre skúmaný znak môžme zapísať
prof.Ing. Zlata Sojková,CSc. 24
Hypotéza pre faktor B:
Ho 2: 1 = 2 =… j = n = 0
t.j. že efekty všetkých úrovni faktora B sú nulové, teda nepreukazné, oproti alternatívnej hypotéze
H12 : j 0 pre aspoň jedno j (j = 1,2…m)
efekt j aspoň jednej j - úrovne faktora B je preukazný, významne odlišný od nuly
prof.Ing. Zlata Sojková,CSc. 25
Variabilitamedzi riadkami
Reziduálnavariabilta
Celková variabilita
DARVariabilita
1Súčet štvorcov
odchýlok
2Stupne
voľnosti
m-1
n-1
(m-1)(n-1)
3Priem.štvorec
(1/2)
Sr
Sc
s12
sr2
4F-kritérium
2
21
1
rs
sF S1
S2
Variabilita medzi stĺpcami
m.n -1
2
22
2
rs
sF s2
2
Rozklad celkovej variability skúmaného znaku:Sc= S1 + S2 + S r
prof.Ing. Zlata Sojková,CSc. 26
2m
1ii 1 ..)y.y(nS
2n
1jj2 ..)y.y(m S
2ji
m
1i
n
1jij r ..)y.y.yy(S
2m
1i
in
1jijc ..)yy( S
Variabilita medzi riadkami, vplyv faktora A
Variabilita medzi stĺpcami,vplyv faktora B
Reziduálnavariabilita
Celková variabilita
Dvojfaktorová analýza rozptylu Dvojfaktorová analýza rozptylu s opakovaníms opakovaním
• Uvažujme vplyv dvoch faktorov: faktora A, ktorý skúmame na m - úrovniach, i = 1,2,….,m a faktora B, ktorý sledujeme na n - úrovniach , j = 1,2, …, n
• Skúmame nielen individuálny vplyv daných faktorov, ale aj ich vzájomné pôsobenie (interakciu)
• Pre každú kombináciu úrovní máme viacviac pozorovanpozorovaníí (opakovaní) yij
• Overujeme tak vplyv troch nulových hypotézprof.Ing. Zlata Sojková,CSc. 27
Schéma dvojfaktorového experimentu s interkaciou
Faktor B B1 B2 ... Bn
A1 yijk Priemer
A1B1 Priemer A1B2
Priemer A1Bn
Priemer A1
A2 Priemer
A2B1 Priemer A2B2
Priemer A2Bn
Priemer A2
.
.
.
Am
Faktor A
Priemer
AmB1 Priemer AmB2
Priemer AmBn
Priemer Am
Priemer B1
Priemer B2
... Priemer Bn
Celkový priemer
prof.Ing. Zlata Sojková,CSc. 28
prof.Ing. Zlata Sojková,CSc. 29
Testy kontrastovTesty kontrastov
• v prípade, že H0 zamietame, zaujíma nás, medzi ktorými strednými hodnotami existujú štatisticky významné rozdiely
• existuje široká škála testov zameraná na viacnásobné porovnanie výberových priemerov
• je možné vytvoriť m*(m-1)/2 kontrastov
prof.Ing. Zlata Sojková,CSc. 30
Testy kontrastovTesty kontrastov
1. Fischerov LSD test2. Duncanov test3. Student-Newman-Keulsov test4. Tukeyho test5. Scheffeho test
prof.Ing. Zlata Sojková,CSc. 31
Fischerov LSD testFischerov LSD test
• LSD = Least Significant Difference• je založený na t-teste• štatisticky významný rozdiel je potvrdený, ak platí
vzťah:
• kde: kritická hodnota t rozdelenia pri m(n-1) stupňoch voľnosti
n
s2tyy
2r
)1n(m,.j.i
)1n(m,t
prof.Ing. Zlata Sojková,CSc. 32
Duncanov testDuncanov test
• štatisticky významný rozdiel je potvrdený, ak platí vzťah:
• kde: tabuľovaná hodnota Duncanovho testu pre daný počet rozdielov a pri reziduálnom stupni voľnosti
n
sDyy
2r
.j.i
D
prof.Ing. Zlata Sojková,CSc. 33
Student-Newman-Keulsov testStudent-Newman-Keulsov test
• štatisticky významný rozdiel je potvrdený, ak platí vzťah:
• kde: tabuľovaná hodnota Student-Neumannovho - Keulsovho testu pre daný počet porovnávaných rozdielov a pri reziduálnom stupni voľnosti
n
sgyy
2r
.j.i
g
prof.Ing. Zlata Sojková,CSc. 34
Tukeyho testTukeyho test
• štatisticky významný rozdiel je potvrdený, ak platí vzťah:
• kde: tabuľovaná hodnota Tukeyho testu.)1n(m,m,q
n
s.qyy
2r
)1n(m,m,.j.i
prof.Ing. Zlata Sojková,CSc. 35
Scheffeho testScheffeho test
• štatisticky významný rozdiel je potvrdený, ak platí vzťah:
• kde: kritická hodnota F rozdelenia pri (m-1) a m(n-1) stupňoch voľnosti
)1n(m),1m(,F
)1n(m),1m(,2r
ji.j.i F.s).1m.(
n
1
n
1yy
prof.Ing. Zlata Sojková,CSc. 36
Ktorý test použiť?Ktorý test použiť?
Test Sila testu (1-β) Chyba I. druhu (α)
LSD najvyššia najvyššia
Duncan
Student-Newman-Keuls
Tukey
Scheffe najnižšia najnižšiaprof.Ing. Zlata Sojková,CSc. 37
viac konzervatívny,, menej pravdepodobné, že bude objavený skutočný rozdiel
viac pravdepo-dobné,, že bude určený nesprávny rozdiel
Ktorý test použiť?Ktorý test použiť?
• závisí, ktorý typ chyby je akceptovateľnejší z hľadiska analýzy daného problému, t.j. neurčenie rozdielu, ak skutočne existuje, resp. určenie rozdielu, ktorý neexistuje.
prof.Ing. Zlata Sojková,CSc. 38
prof.Ing. Zlata Sojková,CSc. 39
Testy kontrastov - StatgraphicsTesty kontrastov - Statgraphics
• Multiple Range Tests
Method: 95,0 percent LSD Count Mean Homogeneous Groups
Col_4 5 303,8 XCol_3 5 337,0 XXCol_1 5 344,2 XCol_2 5 349,8 X
Contrast Sig. Difference +/- LimitsCol_1 - Col_2 -5,6 38,7085Col_1 - Col_3 7,2 38,7085Col_1 - Col_4 * 40,4 38,7085Col_2 - Col_3 12,8 38,7085Col_2 - Col_4 * 46,0 38,7085Col_3 - Col_4 33,2 38,7085* denotes a statistically significant difference.
prof.Ing. Zlata Sojková,CSc. 40
Testy kontrastov - StatgraphicsTesty kontrastov - Statgraphics
Col_1 Col_2 Col_3 Col_4
Means and 95,0 Percent LSD Intervals
280
300
320
340
360
380
Mea
n
prof.Ing. Zlata Sojková,CSc. 41
Overenie zhody variabilityOverenie zhody variability
• predpokladáme, že skúmané výberové súbory majú približne normálne rozdelenie a rozdiely rozptylov medzi testovanými skupinami sú nepreukazné.
• H0:
• Testy:– Cochranov test– Hartleyov test– Bartlettov test
22m
22
21 ....
prof.Ing. Zlata Sojková,CSc. 42
Cochranov testCochranov test
• je ho vhodné použiť, ak u skúmaných výberových súborov sú značné rozdiely medzi rozptylmi
• testovacia charakteristika:
• ak G ≥ Gα, m, n-1 → H0 zamietame• Gα, m, n-1 - tabuľková hodnota pri m a n-1 stupňoch
voľnosti
2 2 211 12 1
2 2 211 12 1
max( , ,..., )
...m
m
s s sG
s s s
prof.Ing. Zlata Sojková,CSc. 43
Bartlettov testBartlettov test• spočíva v porovnávaní aritmetického a geometrického
priemeru rozptylov. Ak sú rozptyly rovnaké, potom aj priemery sú rovnaké.
• testovacia charakteristika:2
2 21
1 1
21
2 1
1
1
1
2,3026 .log .log
.
1 1 11
3( 1)
m m
i i ii i
m
i ii
m
ii
m
mi i
ii
M
C
M k s k s
s ks
k
Cm k k
prof.Ing. Zlata Sojková,CSc. 44
ki = ni-1
m – počet výberových súborov
ni – rozsah i-teho
výberového súboru
Ak χ2χ2(m-1), potom H0 zamietame
prof.Ing. Zlata Sojková,CSc. 45