többváltozós problémák · 2. egyiptomi koponyák . thébából származó férfi koponyák 5...
TRANSCRIPT
Többváltozós problémák Több mint egy változót jegyzünk fel a megfigyelési egységekről (objektumok). Volt: Több magyarázó változó: többszörös regresszió, több faktoros ANOVA, ANCOVA. Most: több független változó, vagy több függő és független változó (vektor változók). pl. 1889 február 1.-én Rhode Island-en egy nagyvihar után 49 haldokló verebet vittek be a Brown Egyetem biológiai laboratóriumába. Ezek után a madaraknak kb a fele elpusztult, és Hermon Bumpus ezt egy jó alkalomnak találta a természetes szelekció hatásának vizsgálatára. A madarak 5 testmérete sorrendben: teljes hossz, szárnytávolság, csőr és fej hossz, felkar hossz, mellcsont hossza. Ezek a változók most egy vektorváltozót alkotnak. Eloszlás: általában többváltozós normális. Középpontja: centroid, várható érték vektor. Várható érték:
μ=
μμ
μ
1
2
M
p
⎡
⎣
⎢⎢⎢⎢
⎤
⎦
⎥⎥⎥⎥
és ennek becslése a mintából: x =
⎡
⎣
⎢⎢⎢⎢
⎤
⎦
⎥⎥⎥⎥
xx
xp
1
2
M
23
A szórás helyett kovariancia mátrix : cov(X,Y)= μ{(X-μ(X))(Y-μ(Y))}
Ha X=Y, akkor a kovariancia a változó varianciája.
( )
( ) ( )( ) ( )
( ) ( )
cov
cov , ...
cov ,
cov ,
X =
⎛
⎝
⎜⎜⎜⎜⎜
⎞
⎠
⎟⎟⎟⎟⎟
σ
σ
σ
21 1 2
2 12
2
12
X X X
X X X
X X Xn n
M.
n-ed rendű mátrix, szimmetrikus, és nincs negatív sajátértéke. A korrelációs mátrix, ha:
R(X,Y) = μ{(X-μ(X))(Y-μ(Y))}/{σ(X)σ(Y)},
( )
( )( )
( )
R
R X X
R X X
R X Xn
X =
⎛
⎝
⎜⎜⎜⎜⎜
⎞
⎠
⎟⎟⎟⎟⎟
1
1
1
1 2
2 1
1
, ...
,
,M
A verebek esetén:
157.98 13.35241.33 25.68
31.46 .63
18.47 .32
20.83 .98
teljes hosszszarnytavolsagcsor es fejhosszfelkar hosszmellcsonthossza
Mean Variance
24
> var(vereb[,2:6]) X1 X2 X3 X4 X5 X1 13.35 13.61 1.922 1.331 2.192 X2 13.61 25.68 2.714 2.198 2.658 X3 1.92 2.71 0.632 0.342 0.415 X4 1.33 2.20 0.342 0.318 0.339 X5 2.19 2.66 0.415 0.339 0.983
> cor(vereb[,2:6]) X1 X2 X3 X4 X5 X1 1.000 0.735 0.662 0.645 0.605 X2 0.735 1.000 0.674 0.769 0.529 X3 0.662 0.674 1.000 0.763 0.526 X4 0.645 0.769 0.763 1.000 0.607 X5 0.605 0.529 0.526 0.607 1.000
Ha csoportokat alkotnak a megfigyelési egységek, akkor itt is lehet csoportok közötti (between groups) és csoportokon belüli kovariancia mátrixokról beszélni. A módszereknél általában feltétel a csoportokon belüli kovariancia mátrixok egyezősége.
25
TTööbbbbvváállttoozzóóss pprroobblléémmáákk 11.. VVeerreebbeekk aa vviihhaarrbbaann
28 28 28 28 28165.00 252.00 33.40 19.80 23.10158.43 241.57 31.48 18.45 20.84159.00 242.00 31.50 18.50 20.70152.00 230.00 30.10 17.20 18.60
3.88 5.71 .85 .66 1.15
15.07 32.55 .73 .43 1.3221 21 21 21 21
164.00 248.00 32.80 19.30 22.00157.38 241.00 31.43 18.50 20.81157.00 240.00 31.40 18.50 20.60153.00 235.00 30.30 17.70 19.60
3.32 4.18 .73 .42 .76
11.05 17.50 .53 .18 .5749 49 49 49 49
165.00 252.00 33.40 19.80 23.10157.98 241.33 31.46 18.47 20.83158.00 242.00 31.50 18.50 20.70152.00 230.00 30.10 17.20 18.60
3.65 5.07 .79 .56 .99
13.35 25.68 .63 .32 .98
CountMaximumMeanMedianMinimumStdDeviationVariance
nem elte tul avihart
CountMaximumMeanMedianMinimumStdDeviationVariance
tulelte a vihart
TULEL
CountMaximumMeanMedianMinimumStd Deviation
Variance
Group Total
teljeshossz szarnytavolsag
csor es fejhossz
felkarhossz
mellcsonthossza
Milyen kérdéseket lehet feltenni? • Milyen kapcsolatban vannak egymással a mért változók? • Túlélők, nem túlélők átlagai, szórásai különböznek-e?
(Variancia-analízis, F-próba, Levene próba) • Ha a túlélők és nem túlélők különböznek a mért változók
eloszlásai szempontjából, akkor lehetséges-e konstruálni egy olyan függvényét ezeknek a változóknak, amely szétválasztja a két csoportot. Ha ez nagy a túlélőkre és kicsi a nem túlélőkre, akkor ez lehetne a darwini fitnesszre egy index.
26
2. Egyiptomi koponyák Thébából származó férfi koponyák 5 korszakból. Mindegyikből 30-30 darab. 1. Korai predinasztikus kor (4000 ie) 2. Késő predinasztikus kor (3300 ie) 3. 12. 13. dinasztia (1850 ie) 4. Ptolemaioszi kor (200 ie) 5. Római kor (150 iu)
• Milyen kapcsolatban van a 4 mért érték egymással? • Van-e szignifikáns differencia a mintaátlagok illetve szórások
között, és ha igen, akkor ez tükrözi-e fokozatos időbeli változást?
• Lehetséges-e konstruálni egy f függvényét a 4 változónak,
amely valamilyen értelemben visszatükrözi a minták közti különbségeket?
27
30 30 30 30141.00 143.00 114.00 56.00131.37 133.60 99.17 50.53119.00 121.00 89.00 44.00
.94 .82 1.07 .50
5.13 4.47 5.88 2.76
26.31 19.97 34.63 7.6430 30 30 30
148.00 145.00 107.00 56.00132.37 132.70 99.07 50.23123.00 124.00 90.00 45.00
.88 .85 .79 .54
4.81 4.65 4.35 2.96
23.14 21.60 18.89 8.7430 30 30 30
140.00 145.00 106.00 60.00134.47 133.80 96.03 50.57126.00 123.00 87.00 45.00
.64 .91 .83 .65
3.48 4.98 4.55 3.55
12.12 24.79 20.72 12.6030 30 30 30
144.00 142.00 107.00 60.00135.50 132.30 94.53 51.97129.00 120.00 86.00 46.00
.72 .94 .84 .52
3.92 5.13 4.59 2.82
15.36 26.36 21.09 7.9630 30 30 30
147.00 138.00 103.00 58.00136.17 130.33 93.50 51.37126.00 120.00 81.00 44.00
.98 .91 .92 .68
5.35 4.97 5.06 3.72
28.63 24.71 25.57 13.83
CountMaximumMeanMinimumStd Err ofMeanStdDeviationVariance
1.00
CountMaximumMeanMinimumStd Err ofMeanStdDeviationVariance
2.00
CountMaximumMeanMinimumStd Err ofMeanStdDeviationVariance
3.00
CountMaximumMeanMinimumStd Err ofMeanStdDeviationVariance
4.00
CountMaximumMeanMinimumStd Err ofMeanStdDeviationVariance
5.00
DINASZTX1 X2 X3 X4
28
Alapvető technika: eredeti változók olyan lineáris kombinációját létrehozni, ami összegzi az eredeti adathalmaz varianciáját. Az eredeti adatok: Objektum X1 X 2 .... X p
1 x11 x12 ... x p1 2 x21 x 22 ... x p2 M n xn1 xn2 xnp Z a X a X a Xi i i ip= + + +1 1 2 2 ... p Az ilyen függvényeket szokták diszkriminancia függvényeknek, főkomponenseknek, kanonikus függvényeknek, faktoroknak nevezni. analógia: regressziós függvény Időnként még egy plusz konstans is van benne, ekkor:
pipiiii XaXaXaaZ ++++= ...22110 (Megj: ha az adatok standardizáltak, akkor a konstans 0.) A „látens” (extracted) változók általános tulajdonságai:
• az első magyarázza a variancia legnagyobb részét, a második a maradékból a legnagyobb részt, stb.;
• nem korreláltak, merőlegesek-függetlenek • számuk = p (a régi változók száma)
megj.: csak néhányat tartunk meg belőlük.
29
Sajátértékek, sajátvektorok
Eredeti össz variancia: Sp(cov(X))= . ∑=
p
ii
1λ
Ha a változók standardizáltak, akkor =p. ∑=
p
ii
1λ
Sajátvektorok: új változók együtthatói, az aij-k. > eigen(cor(vereb[,2:6])) $values [1] 3.616 0.532 0.386 0.302 0.165 $vectors [,1] [,2] [,3] [,4] [,5] [1,] -0.452 0.0507 0.690 0.4204 -0.374 [2,] -0.462 -0.2996 0.341 -0.5479 0.530 [3,] -0.451 -0.3246 -0.454 0.6063 0.343 [4,] -0.471 -0.1847 -0.411 -0.3883 -0.652 [5,] -0.398 0.8765 -0.178 -0.0689 0.192 Hogy lehet a sajátértékeket sajátvektorokat kiszámítani? 1. Asszociációs mátrix s.é.-ei, s.v.-ai: spektrál felbontás 2. Az eredeti vagy a standardizált adatmátrix szinguláris érték felbontásával. (Kontingencia táblákra is működik.) R-mode analízis: a változók cov vagy R mátrixából indulunk ki. szkór (score): új változókból számítjuk ki a megfigyelési egységekre. Q-mode analízis: a megfigyelési egységek cov vagy R mátrixából indulunk ki, az objektumok lin. komb.-jait kapjuk.
30
(mátrix algebrával összekapcsolhatók) A Q-mode analízis különbségi mértékeken alapul (dissimilarity measures) s.é., s.v. számítás: kanonikus korreláció analízis, főkomponens analízis és korrespondencia analízis Ha az objektumok csoportokat alkotnak, akkor úgy lehet kiszámítani a komponenseket, hogy azok a csoportok közötti különbségeket a leginkább kihangsúlyozzák: MANOVA, diszkriminancia elemzés.
31
Többváltozós exploratív elemzés Többváltozós grafikonok Szokásos egyváltozósak. Chernoff arcok, csillagok
32
>stars(vereb[,2:6])
Szórásdiagram mátrix. >pairs(vereb[,2:6])
33
Szórás diagram az új, látens változókkal. Kétváltozós boxlot
34
35
Töbváltozós távolságok, hasonlóságok Hasonlósági mértékek (similarity measures): mennyire hasonlóak az objektumok: korreláció Különbözőségi mértékek (dissimilarity measures): többváltozós távolság. Többváltozós problémák - egyedi megfigyelések, minták, illetve populációk közötti távolságok. Egyedi megfigyelések közti távolságok: Legegyszerűbb eset: n egyeden p változót X X X p1 2, ,..., mérünk . Az i-edik egyed mért értékei: , x x xi i i1 2, ,..., p
pa j-ediké: . x x xj j j1 2, ,...,Ha p=2, akkor a két pont távolságát a Pitagorasz tétel alapján
számíthatjuk: ( ) ( )d x x x xij i j i j= − + −1 12
2 22
. Több változó esetére is működik:
( )d x xij ik jkk
p= −
=∑ 2
1
Euklideszi távolság. Ha egy változó sokkal variabilisebb a többinél, akkor az dominálja a távolságot. ⇒ Standardizálás.
36
pl. Thaiföldi prehisztorikus kutyák kb ie 3500-ból származó kutyacsontokat találtak. Nem világos, hogy honnan származtatható a prehisztorikus kutya, az arany sakáltól (Canis aureus), vagy a farkastól. Az eredet kiderítése végett méréseket végeztek az alsó állkapocs csontokon, illetve más fajták állkapcsán. A mért változók: X1 - az állkapocs szélessége, X2 - az állkapocs magassága az első zápfog alatt, X3 - az első zápfog hossza, X4 - az első zápfog szélessége, X5 - az első és harmadik zápfog közötti távolság (beleértve a zápfogakat is), X6 - az első és negyedik zápfog közötti távolság (beleértve a zápfogakat is). A mérések átlagai: X1 X2 X3 X4 X5 X6 Modern kutya 9.7 21.0 19.4 7.7 32.0 36.5 Arany sakál 8.1 16.7 18.3 7.0 30.3 32.9 Kínai farkas 13.5 27.3 26.8 10.6 41.9 48.1 Indiai farkas 11.5 24.3 24.5 9.3 40.0 44.6 Kujon 10.7 23.5 21.4 8.5 28.8 37.6 Dingó 9.6 22.6 21.1 8.3 34.4 43.1 Prehisztorikus kutya
10.3 22.1 19.1 8.1 32.3 35.0
Forrás: Higham et al. (1980).
37
A standardizált értékek X1 X2 X3 X4 X5 X6 Modern kutya -.46 -.46 -.68 -.69 -.46 -.57 Arany sakál -1.41 -1.79 -1.04 -1.29 -.80 -1.21 Kínai farkas 1.78 1.48 1.70 1.80 1.55 1.50 Indiai farkas .60 .55 .96 .69 1.17 .88 Kujon .13 .31 -.04 .00 -1.10 -.37 Dingó -.52 .03 -.13 -.17 .03 .61 Prehisztorikus kutya
-.11 -.12 -.78 -.34 -.39 -.83
1.912 5.382 3.386 1.512 1.559 .6651.912 7.121 5.059 3.190 3.183 2.3895.382 7.121 2.139 4.575 4.214 5.1123.386 5.059 2.139 2.911 2.197 3.2281.512 3.190 4.575 2.911 1.669 1.2761.559 3.183 4.214 2.197 1.669 1.704
.665 2.389 5.112 3.228 1.276 1.704
1:Modern kutya2:Arany sakal3:Kinai kutya4:Indiai kutya5:Kujon6:Dingo7:Prehisztorikuskutya
1:Modernkutya
2:Aranysakal
3:Kinaikutya
4:Indiaikutya 5:Kujon 6:Dingo
7:Prehisztorikuskutya
Euclidean Distance
Proximity Matrix
This is a dissimilarity matrix Ez is négyzetes mátrix, szimmetrikus és 0-ák vannak az átlóban.
City-block (Manhattan) távolság:
∑=
−=p
kjkikij xxd
1
.
Hasonló eredményt ad az előzőhöz, de nem olyan érzékeny az outlierekre.
CCsseebbiisseevv ((CChheebbyycchheevv)) ttáávvoollssáágg::
38
Ha csak 1 dimenzióban nézzük a különbséget.
jkikkij xxd −= max
Hatvány (Power, Costumized) távolság:Ha a növelni vagy csökkenteni akarjuk azoknak a dimenzióknak a súlyát, amelyek
esetén különböznek az objektumok:rp
k
n
jkikij yxd1
1⎟⎠
⎞⎜⎝
⎛ −= ∑=
.
Az n és r értékét mi választhatjuk meg.
Az n az egyedi dimenziók közötti távolságokat súlyozza, az r pedig az egyes megfigyelt egyedek közöttieket.
Ha n = r, akkor Minkowsky távolságnak nevezzük.
Bray-Curtis (Kulczynski): faj abudancia adatok esetén használatos.
Gyakorisági értékek esetén: Chi-négyzet (Chi-square) . A szokásos módon számolt 2χ -érték. Phi-négyzet (Phi-square) Az előző normalizálva. Jaccard e.h.: bináris skálán mért (prezencia, abszencia) adatokra.
cbaa
++−1
a – azoknak a változóknak a száma, amelyek esetén egyik objektum értéke sem 0 b – ahol az egyik 0, c – ahol a másik 0.
39
Gower e.h.: lehetnek folytonos és kategoriális változók is. Dissim. mértékek tulajdonságai: metrikusság: háromszög készíthető a 3 pont páronkénti távolságaiból. Általában ilyenek, Bray-Curtis nem. MDA-nál lényeges tulajdonság.
40
Mikor melyiket használjuk? Ha a változók hasonló skálán mértek és nincs 0 értékük, akkor Euklideszi, City-block. Ha nem hasonló a skála, akkor először standardizálni kell! Fajok abundanciája esetén olyan kell, amely maximális akkor, ha nincs közös faj a két mintavételi egységen: Bray-Curtis, Kulczynski jó. Távolsági mátrixok összehasonlítása Mantel-teszt pl.: genetikus távolságok - földrajzi, időbeli távolságok. Távolságok populációk és minták között Mahalanobis távolság:
( ) ( )D vij ri rjrs
si sjs
p
r
p2
11= − −
==∑∑ μ μ μ μ ,
ahol a kovariancia mátrix inverzének az r-edik sorában és s-edik oszlopában álló eleme. Másképp:
v rs
( ) ( )Dij i j i2 1= −
′−−μ μ μ μC j kvadratikus alak, ahol
41
μ
μμ
μ
i
i
i
pi
=
⎡
⎣
⎢⎢⎢⎢
⎤
⎦
⎥⎥⎥⎥
1
2
M, az i-edik populáció várható érték vektora. C a
kovariancia mátrix. Használható egy egyednek a populáció középpontjától mért távolságának mérésére is:
( ) ( )D x v xij r rrs
s ss
p
r
p2
11= − −
==∑∑ μ μ ,
ahol az egyeden mért értékek: x x x p1 2, ,..., és a megfelelő populáció átlagok: μ μ μ1 2, ,..., p . Úgy tekinthető, mint az x megfigyelés többváltozós reziduuma, azaz, hogy milyen messze van x az összes változó eloszlásának középpontjától. Figyelembe veszi a változók közti korrelációt is. Ha a populáció többváltozós normális eloszlást követ, akkor
eloszlású p szabadsági fokkal. Ha értéke szignifikánsan nagy (P<0.001), akkor a megfigyelésünk vagy hibás, vagy egy extremális megfigyelés.
D2
χ 2 D2
A populáció átlagokat és a kovariancia mátrixot a mintából becsülhetjük.
42
pl. Az egyiptomi koponya minták közötti távolságok:
21.11 3.678E- 7.908E- 2.003.678E- 23.48 5.20 2.847.908E- 5.20 24.17 1.13
2.00 2.84 1.13 10.151.00 .00 .00 .13.00 1.00 .21 .18.00 .21 1.00 .07.13 .18 .07 1.00
X1 X2 X3 X4 X1 X2 X3 X4
Covarian
Correlati
X1 X2 X3 X4
Pooled Within-Groups a
The covariance matrix has 145 degrees a.
131.3667 5.1292 30 30.000133.6000 4.4691 30 30.00099.1667 5.8844 30 30.00050.5333 2.7635 30 30.000
132.3667 4.8101 30 30.000132.7000 4.6472 30 30.00099.0667 4.3465 30 30.00050.2333 2.9558 30 30.000
134.4667 3.4813 30 30.000133.8000 4.9786 30 30.00096.0333 4.5523 30 30.00050.5667 3.5495 30 30.000
135.5000 3.9194 30 30.000132.3000 5.1337 30 30.00094.5333 4.5918 30 30.00051.9667 2.8221 30 30.000
136.1667 5.3504 30 30.000130.3333 4.9712 30 30.00093.5000 5.0566 30 30.00051.3667 3.7184 30 30.000
133.9733 4.8907 150 150.000132.5467 4.9393 150 150.00096.4600 5.3778 150 150.00050.9333 3.2079 150 150.000
X1X2X3X4X1X2X3X4X1X2X3X4X1X2X3X4X1X2X3X4X1X2X3X4
DINASZT1.00
2.00
3.00
4.00
5.00
Total
MeanStd.
Deviation Unweighted WeightedValid N (listwise)
Group Statistics
A Mahalanobis távolságok:
43
Dinasztia 1 2 3 4 5 1 2 0.091 3 0.903 0.729 4 1.881 1.594 0.443 5 2.697 2.176 0.911 0.219 megj: Az ún. Mantel teszttel lehet mérni két távolság mátrix hasonlóságát . Ebben az esetben például azt, hogy a dinasztiák távolságainak mátrixa korrelál-e az időbeli távolságok mátrixával. (igen)
44
Standardizálás, transzformációk A transzformációk ugynúgy mennek, mint egyváltozós esetben. Itt
még fontosabbak a linearitás miatt. Standardizálás – átskálázás. Centrálás: kivonjuk minden változó átlagát, így az átlag 0 lesz. (Spektrál felbontás esetén tulajdonképpen a centrált adatok
kovariancia mátrixával dolgozunk.) Standardizálás: korrelációs mátrix – standardizált adatok
kovariancia mátrixa. Relatív értékek (arányok): legnagyobb értékkel osztjuk az
összeset. Megfigyelési egységeket is lehet standardizálni. Abundancia adatoknál fontos, ha a megfigyelési egységek mérete
különböző. (arányok) 0,1-é is lehet konvertálni. Sokszor hasznos lehet különböző módokon standardizálni és
összehasonlítani az eredményeket: eredeti – standardizált – 0,1 eredeti: legnagyobb abundanciájú mit befolyásol 0,1 : prezencia, abszenciától mi függ. Asszociációs mértékek implicit módon standardizáltak.
45
Az, hogy a kovariancia vagy korrelációs mátrixot használjuk attól függ, hogy a varianciák különbsége fontos-e biológiai szempontból.
46
Hiányzó adatok MCAR-missing completely at random: független mind a megfigyelt adatoktól, mind a többi hiányzótól. Random részhalmaza az adatoknak. MAR – lehet, hogy függ a csoporttól, hogy hiányzik-e. Mit tegyünk a hiányzó adatokkal? 1. Objektum törlése (deletion): legjobb megoldás, ha kevesebb, mint 5% hiányzik és MCAR Információ vesztés listwise deletion esetén. Ha az analízis páronkénti (pairwise) asszociációkon alapul (kovariancia, korreláció), akkor pairwise deletion. Csak akkor töröljük, ha éppen azokkal a változókkal dolgozunk, amelyiknél hiányzik a megfigyelés. Imputáció Helyettesítés becsléssel. Módszerek: 1. átlaggal (változó értékeiből számolt\NA)
A varianciát alulbecsüli. 2. Regressziós modellel. Más változókkal becsüljük, pl. a legjobban korrelált változót vagy változókat választjuk prediktornak.) 3. Hot-deck: Hasonló objektum értékével helyettesítjük. Problémák: függetlenség sérül; varianciát alulbecsli.
47
Maximum likelihood (ML) és EM becslés ML : paraméter becslés a megfigyelt, nem teljes adatokból, majd a modellből becsüljük a hiányzó adatokat. Felhasználja a megfigyelt adatok eloszlását és a hiányzó adatok mintázatát. Iteratív imputáció + ML : Expectation Maximization ML paraméter becslés ⇒ hiányzó adatok ⇒ ML paraméterbecslés ⇒ hiányzó adatok...., amíg nem konvergál. ML és EM feltétele a MAR.
48
Többváltozós adatelemzés SPSS-sel Előkészületek: Adatok megjelenítése:
• SPSS Graphics • SPSS Frequency
Hiányzó adatok elemzése (Missing data analysis) :
• Ellenőrizzük, hogy létezik-e mintázat (randomnak kell lennie)
Kategoriális változó esetén: • Ha Missing < 5%, ⇒ List-wise option • Ha >=5%, akkor a hiányzó értékek kerüljenek egy új
kategóriába Mért változó esetén:
• Ha Missing < 5%, ⇒ List-wise option • 5% és 15% között : Transform>Replace Missing Value.
(15%-nál kevesebb adat behelyettesítésének nincs túl komoly hatása
• Ha > 15%, akkor töröljük a változót, vagy a megfigyelési egységet (ismételt mérések esetén)
Kiugró értékek ellenőrzése (Outlier-ek) : (Általában a statisztikai eljárások érzékenyek az outlier-ekre.)
49
• Egyváltozós eset: boxplot • Többváltozós eset: Mahalanobis távolság (Khi-négyzet
statisztika), egy pont akkor outlier, ha a p-érték < .001. o Az eset azonosítója (dummy variable) : Dependent, a
többi változó: Independent o Save>Mahalanobis
Kezelés:
• Töröljük az esetet • Közöljünk két elemzést (egyet az outlier-rel, egyet pedig
nélküle) Normalitás: Egyváltozós normalitás tesztek:
• Q-Q plot • Skewness és Kurtosis • Tesztek
Többváltozós normalitás tesztelése: • A szórásdiagrammoknak elliptikusaknak kell lennie • Minden változónak normálisnak kell lennie
Linearitás: A linearitás ellenőrzése
• Reziduális plot regresszió esetén • Szórásdiagrammok
50
Homoscedasticity: a kovariancia mátrixoknak a csoportokban meg kell egyeznie:
• Tesztelése: Box’s M test Érzékeny a normalitásra
• Levene teszt: a csoport varianciák egyezőségének vizsgálata. Nem annyira érzékeny a normalitásra
51
Emlékeztető: ANOVA
Az egyfaktoros ANOVA a pop. átlagok egyezőségét teszteli • Feltételek: független megfigyelések; normalitás; varianciák
homogenitása Két faktoros ANOVA 3 hipotézis teszttel szimultán:
• Interakció a két faktor között • A két faktor hatásának tesztelése
Emlékeztető: ANCOVA
• A függő változó értéke folytonos független változótól (kovariáns) is függhet.
• Kovariánsok hatásának figyelembe vétele illetve becslése. • A reguláris ANOVA feltételein túl követelmény még:
Lineáris kapcsolat a függő változó és a kovariánsok között MANOVA Tulajdonságok:
• Hasonló az ANOVÁ-hoz • Több függő változó • A függő változók korreláltak és a lineáris kombinációnak
értelme van. • Azt teszteli, hogy k populációban a független változók egy
lineáris kombinációjának átlagai különböznek-e. Alapötlet: találjunk egy olyan lineáris kombinációt, amely optimálisan szeparálja a csoportokat, azaz olyat amely
52
maximalizálja a hiba (within group) variancia/kovariancia mátrix és a hatás (between group) variancia/kovariancia mátrix hányadosát. (Ez ugyanaz, mint amit a diszkriminancia elemzésnél használunk.) Ennek a kombinációnak a standardizált együtthatói megmondják, hogy melyik változó milyen súllyal szerepel a szeparálásban. Előnyök:
• Annak az esélye, hogy különbségeket találunk a csoportok között, nagyobb, ahhoz képest, mintha minden változóra egyenként ANOVÁ-t csinálnánk.
• Nem inflálódik az elsőfajú hiba. • Több ANOVA elvégzése nem veszi figyelembe azt, hogy a
független változók korreláltak. Hátrányok:
• Bonyolultabb, • Az ANOVA gyakran nagyobb hatóerejű. • Sokkal komplikáltabb kísérleti elrendezést igényel. • Kétségek merülhetnek fel, hogy valójában mely független
változók mely függő változók értékét befolyásolják. • Minden plusz függő változó 1 szabadsági fokkal kevesebbet
jelent.
Feltételek: Független minták, Többváltozós normális eloszlás a csoprtokban A kovariancia mátrix homogenitása
53
Lineáris kapcsolat a független változók között A MANOVA elvégzésének lépései: Feltételek ellenőrzése Ha a MANOVA nem szignifikáns, stop Ha a MANOVA szignifikáns, egyváltozós ANOVÁk Ha az egyváltozós ANOVA szignifikáns, Post Hoc tesztek. Ha igaz a homoscedasticity, Wilks Lambda, ha nem Pillai’s Trace. Általában mind a 4 statisztikának hasonlónak kell lennie.
A MANOVA algoritmusa: 1. Az ANOVA négyzetösszegei helyett sums-of-squares-and-
cross-products (SSCP) mátrixok. Egy a hatásnak (between groups) megfelelő (H), egy pedig a reziduális (within groups): E, és egy a teljesnek megfelelő (T).
2. Kiszámítjuk a HE-1 szorzatot (egyváltozós esetben ez az F érték).
3. Kiszámítjuk a HE-1 spektrál felbontását: sajátértékek, sajátvektorok. A s.é.-kek azt mutatják meg, hogy between-group varianciából a sajátvektorok vagy lineáris kombinációk mennyit magyaráznak. A s.v.-ok tartalmazzák a lineáris kombinációk együtthatóit.
4. Az a lineáris kombináció, amelyikhez a legnagyobb s.é. tartozik maximalizálja a between-group/within-group variancia hányadost.
H0: a csoport centroidok megegyeznek.
54
Ez tesztelhető valamelyik variancia mérték segítségével (nyom, determináns:általánosított variancia).
• Wilk’s lambda: |E |/|T|. A teljes variancia hányad része a reziduális. Minél kisebb, annál nagyobb a csoportok köztötti különbségek.
• Hotelling-Lawley trace: |H |/|E|. Ez ugyanaz, mint a HE-1 mátrix nyoma (sajátértékek összege). Nagyobb értékek nagyobb különbségeket indikálnak a csoport centroidok között.
• Pillai trace: A HT-1 nyoma, vagyis a between groups variancia.
• Roy’s largest root: a HE-1 legnagyobb s.é.-e, vagyis ahhoz a lineáris kombinációhoz tartozó s.é. amely a between groups variancia-kovarianca legnagyobb részét magyarázza.
Ezeknek a statisztikáknak az eloszlása nem teljesen ismert, közelítő F értékekké konvertálják ezeket. Két csoport esetén a Wilk’s lambda, a Hotteling és Pillai féle érték megegyezik és megegyezik a Hotteling féle T2 statisztikával, ami a t-próba többváltozós kiterjesztése. Általában hasonló eredményeket produkálnak több csoport esetén is. A Pillai trace a legrobosztusabb teszt.
55
MANCOVA Cél: Csoportok közötti különbség tesztelése független változók egy lineáris kombinációja alapján egy kovariáns figyelembe vételével. Példa: 3 területen élő őzek összehasonlítása a kor kovariáns figyelembe vételével. Repeated Measure Analysis Cél: csoportok közötti különbségek tesztelése, ha a megfigyelési egységeken többször mérünk. Feltétel: Független megfigyelések!! Helyette: Kevert modell
56
DDiisszzkkrriimmiinnaanncciiaa aannaallíízziiss Cél: egy olyan függvény létrehozása, amely alapján az egyedek két vagy több csoportba sorolhatók (a függvény értéke lényegesen változik csoportról csoportra). Később a függvényt új egyedek besorolására lehessen használni. pl. verebek. A testméretek alapján besorolhatók-e a verebek a túlélők ill. nem túlélők közé (Mire emlékeztet ez a kérdés?!!): Lineáris diszkriminancia függvény:
Z a X a X a Xp p= + + +1 1 2 2 ... Ha Z értéke jelentősen változik csoportról csoportra, akkor a csoportok jól szeparálhatók. Több függvény is konstruálható. A függvény úgy vetíti le a csoportokat egy alacsonyabb dimenziós térbe, hogy azok eloszlásai a legkisebb mértékben fedjék át egymást. A MANOVA inverze. A MANOVA ugyanezt a függvényt használja.
Kétféle cél: 1. Prediktív diszkriminancia analízis (generáljunk egy szabályt, amely alapján csoportokba sorolhatunk). 2. Leíró analízis: a függő változó és a független változók kapcsolatát vizsgáljuk. Hogyan működik?
1. Feltételezzük, hogy a célpopuláció egymást kizáró rész populációkból áll.
2. Feltételezzük, hogy a független változóink többváltozós normális elsozlást követnek
57
3. Megkeressük azt a lineáris kombinációt, amely a legjobban szeparálja a csoportokat.
4. Ha k csoportunk van, akkor k-1 diszkriminancia függvényt készítünk.
5. Minden függvényre kiszámítjuk a diszkriminancia szkórokat. 6. Ezeket a szkórokat használjuk a klasszifikáláshoz.
Klasszifikálási módok:
• ML – ahhoz a csoporthoz sorolja be, amelynek legnagyobb a valószínűsége.
• Fisher (lineáris) klasszifikáló függvény: abba a csoportba sorolja be, amely esetén a csoporthoz tartozó függvény szkórja a legnagyobb.
• Diszkriminálás Mahalanobis távolságokkal: Kiszámítjuk az egyedek Mahalanobis távolságát a csoport centroidoktól, és abba soroljuk be, amelyhez a legközelebb van.
Megjegyzés: az SPSS a Maximum likelihood módszert használja. Logisztikus regresszió vagy diszkriminancia analízis? Ha a magyarázó változók normális eloszlásúak, akkor a DA jobb. Ha kategoriális változóink is vannak, akkor a DA akkor rosszabb, ha a kategóriák száma nagyon kicsi (2, 3). Ezekben az esetekben a LR eredménye hasonló a DA-éhoz, legfeljebb egy kicsit rosszabb (ha a mintaelemszám aránylag kicsi). Ha a DA feltételei nem teljesülnek, mindenképpen a LR-t kell használni. Az LR nem eloszlás függő.
58
Őzes példa outputja:
Log Determinants
5 14.2835 15.4085 14.2675 15.491
területÁrpádhalomBabatPitvarosPooled within-groups
RankLog
Determinant
The ranks and natural logarithms of determinantsprinted are those of the group covariance matrices.
Általánosított variancia logaritmusa. Ha közel egyenlőek, akkor valószínűleg nincs nagy gond.
Test Results
42.0281.222
305736.090
.188
Box's MApprox.df1df2Sig.
F
Tests null hypothesis of equal population covariance matrices.
Eigenvalues
.866a 95.1 95.1 .681
.044a 4.9 100.0 .206
Function12
Eigenvalue % of Variance Cumulative %CanonicalCorrelation
First 2 canonical discriminant functions were used in theanalysis.
a.
A HE-1 mátrix s.é.-ei és a megfelelő variancia hányadok. A Canonical correlation egy asszociációs mérték a diszkriminancia szkórok és a csoportok között.
Wilks' Lambda
.513 54.053 10 .000
.957 3.526 4 .474
Test of Function(s)1 through 22
Wilks'Lambda Chi-square df Sig.
59
A Wilks Lambda a varianciából a csoportok különbözősége által nem magyarázott hányad. A szignifikancia szint a diszkriminancia fv. szignifikanciáját mutatja.
Canonical Discriminant Function Coefficients
.072 -.081
.063 .118
.016 .008-.080 .116.303 -.140
-13.919 -6.825
teljes hossz orrtólfarok végéigmarmagasságköröm végéigszív súlyajobb vese súlyaln_vesezsir(Constant)
1 2Function
Unstandardized coefficients
ln_303.0108.0016.0063.0072.01 ⋅+⋅−⋅+⋅+⋅= vesveseszivsmarmtesthZ Ezekkel a fv.ekkel tudunk szkórokat számolni minden esethez.
Functions at Group Centroids
.884 -.349-.708 .0311.443 .310
területÁrpádhalomBabatPitvaros
1 2Function
Unstandardized canonical discriminantfunctions evaluated at group means
A fv értékek a csoport centroidok esetén.
Standardized Canonical Discriminant Function Coefficients
.419 -.468
.229 .429
.544 .261-.552 .797.263 -.121
teljes hossz orrtólfarok végéigmarmagasságköröm végéigszív súlyajobb vese súlyaln_vesezsir
1 2Function
60
Az egyes változók fontosságát? mutatják az egyes diszkriminancia függvényekben. (Nagyon korrelált változók esetén nehéz interpretálni.)
Structure Matrix
.753* .503
.721* .150
.581* .048-.024 .873*
.535 .581*
szív súlyateljes hossz orrtólfarok végéigln_vesezsirjobb vese súlyamarmagasságköröm végéig
1 2Function
Pooled within-groups correlations between discriminatingvariables and standardized canonical discriminant functions Variables ordered by absolute size of correlation within function.
Largest absolute correlation between each variable andany discriminant function
*.
A diszkriminancia függvények és az eredeti változók korrelációi. Az első függvény a szívsúllyal, a teljes hosszal és a vesezsírral korrelál, míg a másik a jobb vese súlyával és a marmagassággal.
Classification Function Coefficients
2.883 2.737 2.870
4.966 4.911 5.079
-.281 -.303 -.267-.283 -.111 -.251.641 .106 .718
-322.626 -302.857 -335.541
teljes hossz orrtólfarok végéigmarmagasságköröm végéigszív súlyajobb vese súlyaln_vesezsir(Constant)
Árpádhalom Babat Pitvarosterület
Fisher's linear discriminant functions
A Fisher féle fv-ek. Amelyik csoport esetén a legnagyobb az értéke, abba sorolja be.
61
Classification Resultsa
12 3 3 187 43 3 534 0 11 15
66.7 16.7 16.7 100.013.2 81.1 5.7 100.026.7 .0 73.3 100.0
területÁrpádhalomBabatPitvarosÁrpádhalomBabatPitvaros
Count
%
OriginalÁrpádhalom Babat Pitvaros
Predicted Group MembershipTotal
76.7% of original grouped cases correctly classified.a.
-3 -2 -1 0 1 2 3 4
Function 1
-4
-2
0
2
4
Func
tion
2
ÁrpádhalomBabat
Pitvaros
területÁrpádhalomBabatPitvarosGroup Centroid
Canonical Discriminant Functions
62
63
Adatredukció (Ordináció) Főkomponens analízis (PCA)
• Felfedező adatelemzésben használatos. • Adathalmaz kényelmesebb és informatívabb ábrázolása, • dimenziószám csökkentése, • fontos változók beazonosítása.
Cél: Van p változónk: X X X p1 2, ,..., és keressük ezeknek olyan Z Z Z p1 2, ,..., kombinációit (főkomponensek), amelyek nem korreláltak. A korrelálatlanság azt jelenti, hogy az új változók az adatok különböző “dimenzióit” mérik.
( ) ( ) ( )σ σ σZ Z Zp1 2≥ ≥ ≥...
Remény: a legtöbb főkomponens szórása olyan kicsi, hogy elhanyagolhatók, így az adatokban meglévő változatosság néhány főkomponenssel jól leírható. Ha az eredeti változók egyáltalán nem korreláltak, az analízis semmit nem csinál. Legjobb eredmény: nagyon korrelált változók esetén. Adatok: Egyed X1 X 2 .... X p
1 x11 x12 ... x p1
2 x21 x 22 ... x p2
M n xn1 xn2 xnp
64
A főkomponensek: Z a X a X a Xi i i ip= + + +1 1 2 2 ... p
a a ai i ip12
22 2 1+ + + =...
és . ( ) ( ) ( )σ σ σZ Z Zp1 2≥ ≥ ≥...
A főkomponensek varianciái az adatok kovariancia mátrixának sajátértékei (λi ), az együtthatói pedig a megfelelő sajátértékhez tartozó sajátvektor együtthatói. Ha a kovarianciamátrix:
C =
⎡
⎣
⎢⎢⎢⎢
⎤
⎦
⎥⎥⎥⎥
c c cc c c
c c c
p
p
p p pp
11 12 1
21 22 2
1 2
...
...M M M
,
akkor ( ) ( ) ( )λ λ λ σ σ σ1 2 11 22
21
22
2+ + + = + + + = + + +... ... ...p ppc c c X X X p Célszerű az adatokat standardizálni az analízis előtt. Ekkor a kovariancia mátrix megegyezik korrelációs mátrixszal. Feltételek:
• Normalitás nem feltétel, de a nagyon ferde eloszlás ronthatja az eredményt. A normalitás csak tesztek esetén szükséges.
• Linearitás. • Ne legyenek outlierek. •
65
Példa: Őzek: Communalities
1.000 .806
1.000 .716
1.000 .758
1.000 .3781.000 .636
1.000 .576
1.000 .7011.000 .6041.000 .634
1.000 .389
teljes súlyteljes hossz orrtól farokvégéigmarmagasság körömvégéigtörzs hosszapocak körkörös méretehátsó láb hosszakörömtől gerincigszív súlyalép súlyajobb vese súlyarecés gyomor súlyakaja nélkül
Initial Extraction
Extraction Method: Principal Component Analysis.
Azt mutatja meg, hogy a főkomponensek mennyit magyaráznak az egyes változókból. Az „Initial” azt jelenti, hogy az összes főkomponens együtt mennyit magyaráz, az „Extraction” pedig azt, hogy az extraktolt főkomponensek mennyit. (A főkomponensek (magyarázó változók) és a megfelelő változó többszörös korrelációs együtthatójának négyzete.)
Total Variance Explained
4.647 46.466 46.466 4.647 46.466 46.466 4.4941.551 15.507 61.973 1.551 15.507 61.973 1.704
.822 8.225 70.198
.708 7.078 77.276
.651 6.514 83.790
.578 5.782 89.571
.351 3.506 93.077
.283 2.834 95.911
.218 2.179 98.090
.191 1.910 100.000
Component12345678910
Total % of Variance Cumulative % Total % of Variance Cumulative % Total % of Initial Eigenvalues Extraction Sums of Squared Loadings Rotation Sums
Extraction Method: Principal Component Analysis.
A korrelációs/kovariancia mátrix s.é.-ei, és a megfelelő variancia hányadok.
66
1 2 3 4 5 6 7 8 9 10
Component Number
0
1
2
3
4
5
Eige
nval
ue
Scree Plot
A s.é.-kek a komponens sorszám függvényében. Component Matrixa
.897 .043
.827 -.178
.862 -.123
.615 -.019
.744 -.286
.754 -.083
.836 .035
.085 .773
.392 .694
.235 .577
teljes súlyteljes hossz orrtól farokvégéigmarmagasság körömvégéigtörzs hosszapocak körkörös méretehátsó láb hosszakörömtől gerincigszív súlyalép súlyajobb vese súlyarecés gyomor súlyakaja nélkül
1 2Component
Extraction Method: Principal Component Analysis.2 components extracted.a.
67
Az eredeti változók és a főkomponensek korrelációi (component loading). Hagyományosan 0.6 fölött magas, 0.4 alatt alacsony.
-1,0 -0,5 0,0 0,5 1,0
Component 1
-1,0
-0,5
0,0
0,5
1,0
Com
pone
nt 2
osuly
testhmarmag
torzsh
ovmeret
farmag
szivs
lepsvese1s
recesn
Component Plot
Component Score Coefficient Matrix
.193 .027
.178 -.115
.185 -.080
.132 -.012
.160 -.185
.162 -.053
.180 .023
.018 .498
.084 .447
.051 .372
teljes súlyteljes hossz orrtól farokvégéigmarmagasság körömvégéigtörzs hosszapocak körkörös méretehátsó láb hosszakörömtől gerincigszív súlyalép súlyajobb vese súlyarecés gyomor súlyakaja nélkül
1 2Component
Extraction Method: Principal Component Analysis.
Component Scores.
68
Ezekkel a szkórokkal tudjuk kiszámolni a komponensek értékeit az egyes esetekre. (Ezek az aij együtthatók.)
Faktoranalízis • Nagyszámú változó korrelációinak elemzése. Változók
faktorokba csoportosítása. Az egy faktorba csoportosított változók korreláltsága nagyobb egymással, mint a csoporton kívüliekkel.
• A faktorok interpretálása (látens változók) a változók alapján. • Sok változó összesítése néhány faktorba. •
X a F a F a F ei i i im m= i+ + + +1 1 2 2 ... aij - faktorsúlyok (loadings), Xi -k a standardizált változók. F F Fm1 2, ,..., korrelálatlan közös faktorok 0 várható értékkel és 1 szórással. ei - egyedi faktor, várható értéke 0, Fi -kel nem korrelált.
( ) ( ) ( ) ( )( )iimi
imimii
eaa
eFaFaX222
1
2221
221
...
...1
σ
σσσσ
+++=
=+++==
ai1
2 + +... aim2 - kommunalitás,
( )σ 2 ei - egyediség. r a a a aij i j im jm= + +1 1 ... - az Xi és X j korrelációs együtthatója. (Csak akkor lehet két változó nagyon korrelált, ha nagy súllyal szereplenek ugyanabban a faktorban.) Számítás menete: 1. Korrelációs vagy kovarinacia mátrix kiszámítása.
69
2. Faktorsúlyok becslése (faktor extrakció). Pl. főkomponens analízisből megtartjuk az 1-nél nagyobb sajátértékű főkomponenseket (Főkomponens faktoranalízis). Főkomponensek:
pppppp
pp
pp
XbXbXbZ
XbXbXbZ
XbXbXbZ
+++=
+++=
+++=
...
...
...
2211
22221212
12121111
M
Mátrix egyenlet formában: Z=BX ⇒ B-1Z = BTZ =X Mivel a B mártix ortonormált. Így:
pppppp
pp
pp
ZbZbZbX
ZbZbZbX
ZbZbZbX
+++=
+++=
+++=
...
...
...
2211
22221122
12211111
M
Mivel Faktor analízis esetén m < p számú faktorral dolgozunk, ezért:
pmmpppp
mm
mm
eZbZbZbX
eZbZbZbXeZbZbZbX
++++=
++++=++++=
...
......
2211
222221122
112211111
M
70
Mostmár csak át kell skálázni az eredeti főkomponenseket úgy, hogy 1 legyen a varianciájuk. Ehhez a Zi –ket osztani kell a szórásukkal, ami éppen iλ . Így:
iii ZF λ/= . 3. Faktor rotációt végzünk azért, hogy a faktorok
interpretálhatóbbak legyenek. A súlyok minden faktor esetén vagy nagyok vagy nagyon kicsik legyenek.
4. Faktor értékek kiszámítása a mintaegyedekre. További analízisek.
Rotációs módszerek: Ortogonális: Varimax, Quartimax, Equamax
• Varimax: úgy forgat, hogy az együtthatók vagy 1-hez vagy 0-hoz közeliek legyenek.
• Quartimax: minimalizálja a változók magyarázásához szükséges faktorok számát
• Equamax: Az előző kettő kompromisszuma. A rotált faktorok nem korreláltak. Ferde (Oblique): Direct Oblimin, Promax
Nagyobb sajátértékeket eredményeznek. A Promax nagyon nagy táblázatok esetén használatos.
Korrelált faktorok.
71
Rotated Component Matrixa
.865 .241
.846 .010
.868 .071
.603 .118
.789 -.114
.754 .087
.807 .220-.089 .772.228 .763
.101 .615
teljes súlyteljes hossz orrtól farokvégéigmarmagasság körömvégéigtörzs hosszapocak körkörös méretehátsó láb hosszakörömtől gerincigszív súlyalép súlyajobb vese súlyarecés gyomor súlyakaja nélkül
1 2Component
Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization.
Rotation converged in 3 iterations.a.
Component Transformation Matrix
.975 .222-.222 .975
Component12
1 2
Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization.
72
-1,0 -0,5 0,0 0,5 1,0
Component 1
-1,0
-0,5
0,0
0,5
1,0
Com
pone
nt 2 osuly
testhmarmagtorzsh
ovmeret
farmagszivs
leps vese1s
recesn
Component Plot in Rotated Space
Component Score Coefficient Matrix
.182 .070
.199 -.072
.198 -.036
.132 .018
.197 -.144
.170 -.016
.170 .062-.093 .490-.017 .455
-.034 .374
teljes súlyteljes hossz orrtól farokvégéigmarmagasság körömvégéigtörzs hosszapocak körkörös méretehátsó láb hosszakörömtől gerincigszív súlyalép súlyajobb vese súlyarecés gyomor súlyakaja nélkül
1 2Component
Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. Component Scores.
Megjegyzés: R-mode FA, a változók helyett az eseteket csoportosítja
73
Klaszter analízis n egyedből álló minta, amelynek minden egyedén p számú változó értékét mérjük. Csoportosítási séma, amely a „hasonló” objektumokat egy csoportba sorolja. A csoportok száma nem ismert (általában). Algoritmusok két típusa: • Hierarhikus technikák. Dendogramot produkálnak. 1. Egyedek egymástól való távolságának kiszámítása. 2. Csoportok létrehozása vagy összevonással, vagy felosztással.
Az összevonás esetén először minden objektumot külön csoportba sorolunk és azután a legközelebbieket fokozatosan egyesítjük. A felosztó módszerek esetén, először egy csoportba soroljuk az összes objektumot, majd először ketté osztjuk, majd a ketté osztottakat is tovább osztjuk egészen addíg, amíg minden egyed külön csoportot alkot.
• Másik típusa esetén az egyedek be is kerülhetnek egy csoportba és ki is kerülhetnek onnan (k-means clustering). Előre meg kell határozni, hogy hány csoportunk legyen.
Összevonási technikák (linkage methods): Egyszerű lánc módszer (nearest neighbor): Két csoport távolságát az egymáshoz legközelebb eső, de nem egy csoportba tartozó elemeik távolságaként határozzuk meg.
Ha a csoportok közt nincs éles elválás, akkor nem működik jól, viszont ha élesen elhatárolódnak, akkor nagyon effektív.
Teljes lánc módszer (furthest neighbor): Két csoport távolságát legtávolabbi elemeik távolsága adja meg. Jól
74
működik nem elhatárolódó, de erős kohéziójú csoportok esetén.
Csoportátlag módszer (between-groups linkage): Az előző két módszer közötti átmenet. A két csoport távolsága elemeik páronkénti távolságainak átlaga osztva a két csoport elemszámával. Jól működik akkor is, ha azt várjuk, hogy a csoportok elemszáma nagyon különböző lesz.
Egyszerű átlag módszer (within-groups linkage): Ugyanaz, mint az előző, de nem veszi figyelembe az csoportok elemszámát.
Centoid módszer (centroid clustering): Két csoport távolságát a súlypontjaik távolsága adja meg.
Medián módszer (median clustering): Ugyanaz, mint az előző, de figyelembe veszi a csoportok elemszámát is. Ha várhatóan nagyok az elemszámokban a különbségek, akkor az előzőhöz képest ezt célszerű használni.
Ward módszer (Ward’s method): A csoportokon belüli varianciát minimalizálja. Nagyon effektív, de kis elemszámú csoportok létrehozására hajlamos módszer.
pl: Az emlősállatoknak négyféle foguk van: metszőfog, szemfog, kiszápfog és zápfog. Az adatfile 32 állatfaj egyik oldali állkapcsában alul illetve felül található különböző fogainak számát tartalmazza.
75
1 1 1 1 1 12 2 2 2 2 21 1 1 1 1 11 1 1 1 1 11 1 1 1 1 11 1 1 1 1 13 3 3 3 3 33 3 3 3 3 34 4 4 4 4 34 4 4 4 4 34 4 4 4 4 35 5 5 5 4 34 4 4 4 4 36 6 6 6 5 46 6 6 6 5 47 7 7 6 5 48 8 6 6 5 48 8 6 6 5 48 8 6 6 5 48 8 6 6 5 48 8 6 6 5 48 8 6 6 5 49 8 6 6 5 49 8 6 6 5 48 8 6 6 5 48 8 6 6 5 48 8 6 6 5 48 8 6 6 5 4
10 9 8 7 6 510 9 8 7 6 510 9 8 7 6 5
Case1:barna denever2:vakond3:ezustszoru denever4:torpe denever5:hazi denever6:voros denever7:pocok8:nyul9:hod10:mormota11:szurke mokus12:hazi eger13:tarajos sul14:farkas15:medve16:mosomedve17:nyest18:menyet19:rozsomak20:borz21:folyami vidra22:tengeri vidra23:jaguar24:puma25:premes foka26:oroszlan foka27:szurke foka28:elefant foka29:renszarvas30:javor antilop31:szarvas
10Clusters 9 Clusters 8 Clusters 7 Clusters 6 Clusters 5 Clusters
76
A következő ábra a dendrogram, ami az összevonásokat ábrázolja sematikusan. szarvas 31 -+-------+ javorszarvas 32 -+ +---------------------------------------+ renszarvas 29 -+-------+ I javor antilop 30 -+ I pocok 7 ---------+-----------+ I nyul 8 ---------+ I I szurke mokus 11 -+-------+ +-------------------+ I tarajos sul 13 -+ +-----------+ I I hod 9 -+-------+ I I I mormota 10 -+ I I I hazi eger 12 ---------------------+ I I torpe denever 4 ---------+ I I voros denever 6 ---------+ I I hazi denever 5 ---------+ +-------+ ezustsz denever 3 ---------+---------------------+ I barna denever 1 ---------+ I I farkas 14 -+-------------------+ I I medve 15 -+ I I I jaguar 23 -+-------------------+ I I puma 24 -+ I I I nyest 17 -+-------+ I +---------+ rozsomak 19 -+ I I I menyet 18 -+-------+-----------+ I borz 20 -+ I I I tengeri vidra 22 ---------+ +---------+ szurke foka 27 ---------+ I I folyami vidra 21 ---------+ I I premes foka 25 -+-------------------+ I oroszlan foka 26 -+ I I elefant foka 28 ---------------------+ I mosomedve 16 ---------------------+ I vakond 2 -------------------------------+
77
Kanonikus korreláció elemzés Többszörös regresszió elemzés általánosítása. Sokszor két természetes csoportot alkotnak a változók és a két csoport közötti kapcsolatot szereténk vizsgálni. Példa: 16 Euphydryas editha lepke kolónia Kaliforniából és Oregonból. Minden kolónia esetén ismert 4 környezeti változó és 6 génfrekvencia érték. Kérdés: milyen kapcsolatban vannak egymással a környezeti és genetikus tényezők? Változók: Alt – Tengerszint feletti magasság (láb)
prec- éves csapadék mennyiség max – Éves max. hőmérséklet (°F) min – Éves min. hőmérséklet (°F) F0.40-F1.30 Pgi mibility gene frequencies (%)
Colony Alt prec max min F0.40 F0.60 F0.80 F1.00 F1.16 F1.30
SS 500 43 98 17 0 3 22 57 17 1
SB 800 20 92 32 0 16 20 38 13 13
WSB 570 28 98 26 0 6 28 46 17 3
JRC 550 28 98 26 0 4 19 47 27 3
JRH 550 28 98 26 0 1 8 50 35 6
SJ 380 15 99 28 0 2 19 44 32 3
CR 930 21 99 28 0 0 15 50 27 8
UO 650 10 101 27 10 21 40 25 4 0
LO 600 10 101 27 14 26 32 28 0 0
DP 1500 19 99 23 0 1 6 80 12 1
PZ 1750 22 101 27 1 4 34 33 22 6
MC 2000 58 100 18 0 7 14 66 13 0
IF 2500 34 102 16 0 9 15 47 21 8
AF 2000 21 105 20 3 7 17 32 27 14
GH 7850 42 84 5 0 5 7 84 4 0
GL 10500 50 81 -12 0 3 1 92 4 0
78
Ötlet: Készítsünk olyan lineáris kombinációkat a két csoportban lévő változókból, hogy azok maximálisan korreláltak legyenek. A gyakorlatban több változó készíthető. Ha van p ( pXXX ,...,, 21 ) és q ( qYYY ,...,, 21 ) standardizált változónk a két csoportban, akkor min(p,q) ilyen lineáris kombináció készíthető. Azaz
pipiii XaXaXaU +++= ...2211 ri ,...,2,1=
pipiii YaYaYaV +++= ...2211 ahol r = min(p,q) Úgy választjuk meg az együtthatókat, hogy az U1 és V1 korrelációja maximális legyen, U2 és V2 korrelációja maximális legyen olyan módon, hogy nem korreláltak U1 –gyel és V1-gyel, stb... Ilyen módon minden (Ui és Vi) a kapcsolat különböző „dimenzióit” méri. Az első pár korrelációja a legnagyobb. A számítás menete Elkészítünk egy (p+q)×(p+q) dimenziós korrelációs mátrixot a változóinkból:
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
BC
CA
YYXX
YYYXXX
T
q
p
qp
M
LLL
M
1
1
2121
79
Kiszámítható egy B-1CTA-1C mátrix kiszámíthatóak ennek a sajátértékei. Bebizonyítható, hogy a 1λ > 2λ >...> rλ , a kanonikus változók korrelációinak (kanonikus korrelációk) négyzetei. A hozzájuk tartozó b1,b2,...,br sajátvektorok pedig az Yi-k együtthatói. Az Xi-k együtthatóit az ai = A-1Cbi vektor komponensei adják. A sajátértékek azt mutatják meg, hogy a független változók mennyit magyaráznak a függőkből az adott dimenzióban. Szignifikancia tesztek Ha r sajátértékünk van, akkor r kanonikus változó párunk van. Ezek közül sok olyan kicsi, hogy már nem szignifikáns. A Wilk’s féle tesztet használjuk annak eldöntésére, hogy hány szignifikáns változó párunk van. A szabadsági foka p*q.
Feltételek
Általában ugyanazok mint a MANOVA esetén:
• linearitás • homoscedasticity • intervallum vagy legalábbis közel intervallum skálán mért
változók • nem túl erős kollinearitás • többváltozós normalitás
80
SPSS megvalósítás Menüből nem lehet, csak szintaxisból: INCLUDE 'C:\Program Files\SPSS\Canonical correlation.sps'. CANCORR SET1=Alt prec max min / SET2=F0.40 F0.60 F0.80 F1.00 F1.16/ . Példa
Az utolsó frekvencia változó nem kell, mert a 6 együtt 100%-
ot ad ki. Az output: Korrelációs mátrixok (A, B és C) Kanonikus korrelációk (sajátértékek négyzetgyöke):
Canonical Correlations Sajátértékek 1 .879 0.773 2 .746 0.557 3 .412 0.169 4 .217 0.047 Teszetk: Test that remaining correlations are zero: Wilk's Chi-SQ DF Sig. 1 .080 25.316 20.000 .190 2 .351 10.482 12.000 .574 3 .791 2.340 6.000 .886 4 .953 .484 2.000 .785 Egyik kanonikus változó sem szignifikáns. Nincs bizonyítva a kapcsolat. Valószínűleg túl kicsi a minta.
81
Standardizált együtthatók. A nagysága a változó súlyát jelenti a kanonikus változóban. Standardized Canonical Coefficients for Set-1 1 2 3 4 Alt .114 -.778 3.654 1.594 prec -.619 .980 .601 .860 max .693 -.562 .565 1.599 min -.048 .928 3.623 .742
43211 048.0693.0619.0114.0 XXXXU −+−=
Együtthatók: Raw Canonical Coefficients for Set-1 1 2 3 4 Alt .000 .000 .001 .001 prec -.044 .070 .043 .061 max .109 -.088 .089 .250 min -.004 .085 .331 .068
Standardized Canonical Coefficients for Set-2 1 2 3 4 F0.40 .675 -1.087 -1.530 .284 F0.60 -.909 3.034 -2.049 -2.331 F0.80 -.376 2.216 -2.231 -.867 F1.00 -1.442 3.439 -4.916 -1.907 F1.16 -.269 2.928 -3.611 -1.133 Raw Canonical Coefficients for Set-2 1 2 3 4 F0.40 .163 -.263 -.370 .069 F0.60 -.121 .405 -.273 -.311 F0.80 -.035 .206 -.207 -.080 F1.00 -.072 .171 -.245 -.095 F1.16 -.025 .272 -.335 -.105
82
Az 1. kanonikus változókban az láthatjuk, hogy a max hőmérséklet és a prec nagy negatív együtthatója, valamint az F0.60-F1.16 meg nem léte korrelált. Canonical Loadings for Set-1 1 2 3 4 Alt -.766 -.624 .137 .065 prec -.853 .155 -.148 .476 max .861 .280 -.142 .401 min .780 .561 .185 -.207
Az 1. kanonikus változó magas max. és min. hőmérséklettel, és alacsony magassággal és csapadék mennyiséggel korrelál. A kanonikus változó és az eredeti változók közötti korreláció. (Faktor struktúra). Négyzete méri az adott változó magyarázó hatását a kanonikus változóra nézve. 3 célra használjuk:
Interpretáció. Azon változókat, amelyeknek a korrelációja 0.3 felett van, tekintjük úgy hogy hozzájárulnak lényegesen a változóhoz.
Canonical Loadings for Set-2 1 2 3 4 F0.40 .568 -.433 -.220 -.657 F0.60 .387 -.164 .120 -.899 F0.80 .703 .209 .069 -.411 F1.00 -.922 -.243 -.191 .231 F1.16 .361 .478 -.035 .728
A 2. csoport esetén az F1.00-val negatív a korreláció, a többivel pozitív. Így úgy tűnik, hogy a magas max. és min. hőmérséklet, és alacsony magasság és csapadék mennyiség az F1.00 hiányával korrelál.
83
Redundancy Analysis: Proportion of Variance of Set-1 Explained by Its Own Can. Var. Prop Var CV1-1 .666 CV1-2 .202 CV1-3 .024 CV1-4 .109
Redundancia együttható: Rd, Azt méri, hogy az egyik változó csoport varianciája mennyire jósulható a másik csoport egy kanonikus változójából. Magas redundancia jó prediktáló képességet jelent.
-7,00 -6,00 -5,00 -4,00
S2_CV001
7,00
8,00
9,00
10,00
11,00
S1_C
V001
84