többváltozós problémák · 2. egyiptomi koponyák . thébából származó férfi koponyák 5...

Többváltozós problémák Több mint egy változót jegyzünk fel a megfigyelési egységekről (objektumok). Volt: Több magyarázó változó: többszörös regresszió, több faktoros ANOVA, ANCOVA. Most: több független változó, vagy több függő és független változó (vektor változók). pl. 1889 február 1.-én Rhode Island-en egy nagyvihar után 49 haldokló verebet vittek be a Brown Egyetem biológiai laboratóriumába. Ezek után a madaraknak kb a fele elpusztult, és Hermon Bumpus ezt egy jó alkalomnak találta a természetes szelekció hatásának vizsgálatára. A madarak 5 testmérete sorrendben: teljes hossz, szárnytávolság, csőr és fej hossz, felkar hossz, mellcsont hossza. Ezek a változók most egy vektorváltozót alkotnak. Eloszlás: általában többváltozós normális. Középpontja: centroid, várható érték vektor. Várható érték:

μ=

μμ

μ

1

2

M

p

⎡

⎣

⎢⎢⎢⎢

⎤

⎦

⎥⎥⎥⎥

és ennek becslése a mintából: x =

⎡

⎣

⎢⎢⎢⎢

⎤

⎦

⎥⎥⎥⎥

xx

xp

1

2

M

23

A szórás helyett kovariancia mátrix : cov(X,Y)= μ{(X-μ(X))(Y-μ(Y))}

Ha X=Y, akkor a kovariancia a változó varianciája.

( )

( ) ( )( ) ( )

( ) ( )

cov

cov , ...

cov ,

cov ,

X =

⎛

⎝

⎜⎜⎜⎜⎜

⎞

⎠

⎟⎟⎟⎟⎟

σ

σ

σ

21 1 2

2 12

2

12

X X X

X X X

X X Xn n

M.

n-ed rendű mátrix, szimmetrikus, és nincs negatív sajátértéke. A korrelációs mátrix, ha:

R(X,Y) = μ{(X-μ(X))(Y-μ(Y))}/{σ(X)σ(Y)},

( )

( )( )

( )

R

R X X

R X X

R X Xn

X =

⎛

⎝

⎜⎜⎜⎜⎜

⎞

⎠

⎟⎟⎟⎟⎟

1

1

1

1 2

2 1

1

, ...

,

,M

A verebek esetén:

157.98 13.35241.33 25.68

31.46 .63

18.47 .32

20.83 .98

teljes hosszszarnytavolsagcsor es fejhosszfelkar hosszmellcsonthossza

Mean Variance

24

> var(vereb[,2:6]) X1 X2 X3 X4 X5 X1 13.35 13.61 1.922 1.331 2.192 X2 13.61 25.68 2.714 2.198 2.658 X3 1.92 2.71 0.632 0.342 0.415 X4 1.33 2.20 0.342 0.318 0.339 X5 2.19 2.66 0.415 0.339 0.983

> cor(vereb[,2:6]) X1 X2 X3 X4 X5 X1 1.000 0.735 0.662 0.645 0.605 X2 0.735 1.000 0.674 0.769 0.529 X3 0.662 0.674 1.000 0.763 0.526 X4 0.645 0.769 0.763 1.000 0.607 X5 0.605 0.529 0.526 0.607 1.000

Ha csoportokat alkotnak a megfigyelési egységek, akkor itt is lehet csoportok közötti (between groups) és csoportokon belüli kovariancia mátrixokról beszélni. A módszereknél általában feltétel a csoportokon belüli kovariancia mátrixok egyezősége.

25

TTööbbbbvváállttoozzóóss pprroobblléémmáákk 11.. VVeerreebbeekk aa vviihhaarrbbaann

28 28 28 28 28165.00 252.00 33.40 19.80 23.10158.43 241.57 31.48 18.45 20.84159.00 242.00 31.50 18.50 20.70152.00 230.00 30.10 17.20 18.60

3.88 5.71 .85 .66 1.15

15.07 32.55 .73 .43 1.3221 21 21 21 21

164.00 248.00 32.80 19.30 22.00157.38 241.00 31.43 18.50 20.81157.00 240.00 31.40 18.50 20.60153.00 235.00 30.30 17.70 19.60

3.32 4.18 .73 .42 .76

11.05 17.50 .53 .18 .5749 49 49 49 49

165.00 252.00 33.40 19.80 23.10157.98 241.33 31.46 18.47 20.83158.00 242.00 31.50 18.50 20.70152.00 230.00 30.10 17.20 18.60

3.65 5.07 .79 .56 .99

13.35 25.68 .63 .32 .98

CountMaximumMeanMedianMinimumStdDeviationVariance

nem elte tul avihart

CountMaximumMeanMedianMinimumStdDeviationVariance

tulelte a vihart

TULEL

CountMaximumMeanMedianMinimumStd Deviation

Variance

Group Total

teljeshossz szarnytavolsag

csor es fejhossz

felkarhossz

mellcsonthossza

Milyen kérdéseket lehet feltenni? • Milyen kapcsolatban vannak egymással a mért változók? • Túlélők, nem túlélők átlagai, szórásai különböznek-e?

(Variancia-analízis, F-próba, Levene próba) • Ha a túlélők és nem túlélők különböznek a mért változók

eloszlásai szempontjából, akkor lehetséges-e konstruálni egy olyan függvényét ezeknek a változóknak, amely szétválasztja a két csoportot. Ha ez nagy a túlélőkre és kicsi a nem túlélőkre, akkor ez lehetne a darwini fitnesszre egy index.

26

2. Egyiptomi koponyák Thébából származó férfi koponyák 5 korszakból. Mindegyikből 30-30 darab. 1. Korai predinasztikus kor (4000 ie) 2. Késő predinasztikus kor (3300 ie) 3. 12. 13. dinasztia (1850 ie) 4. Ptolemaioszi kor (200 ie) 5. Római kor (150 iu)

• Milyen kapcsolatban van a 4 mért érték egymással? • Van-e szignifikáns differencia a mintaátlagok illetve szórások

között, és ha igen, akkor ez tükrözi-e fokozatos időbeli változást?

• Lehetséges-e konstruálni egy f függvényét a 4 változónak,

amely valamilyen értelemben visszatükrözi a minták közti különbségeket?

27

30 30 30 30141.00 143.00 114.00 56.00131.37 133.60 99.17 50.53119.00 121.00 89.00 44.00

.94 .82 1.07 .50

5.13 4.47 5.88 2.76

26.31 19.97 34.63 7.6430 30 30 30

148.00 145.00 107.00 56.00132.37 132.70 99.07 50.23123.00 124.00 90.00 45.00

.88 .85 .79 .54

4.81 4.65 4.35 2.96

23.14 21.60 18.89 8.7430 30 30 30

140.00 145.00 106.00 60.00134.47 133.80 96.03 50.57126.00 123.00 87.00 45.00

.64 .91 .83 .65

3.48 4.98 4.55 3.55

12.12 24.79 20.72 12.6030 30 30 30

144.00 142.00 107.00 60.00135.50 132.30 94.53 51.97129.00 120.00 86.00 46.00

.72 .94 .84 .52

3.92 5.13 4.59 2.82

15.36 26.36 21.09 7.9630 30 30 30

147.00 138.00 103.00 58.00136.17 130.33 93.50 51.37126.00 120.00 81.00 44.00

.98 .91 .92 .68

5.35 4.97 5.06 3.72

28.63 24.71 25.57 13.83

CountMaximumMeanMinimumStd Err ofMeanStdDeviationVariance

1.00


2.00


3.00


4.00


5.00

DINASZTX1 X2 X3 X4

28

Alapvető technika: eredeti változók olyan lineáris kombinációját létrehozni, ami összegzi az eredeti adathalmaz varianciáját. Az eredeti adatok: Objektum X1 X 2 .... X p

1 x11 x12 ... x p1 2 x21 x 22 ... x p2 M n xn1 xn2 xnp Z a X a X a Xi i i ip= + + +1 1 2 2 ... p Az ilyen függvényeket szokták diszkriminancia függvényeknek, főkomponenseknek, kanonikus függvényeknek, faktoroknak nevezni. analógia: regressziós függvény Időnként még egy plusz konstans is van benne, ekkor:

pipiiii XaXaXaaZ ++++= ...22110 (Megj: ha az adatok standardizáltak, akkor a konstans 0.) A „látens” (extracted) változók általános tulajdonságai:

• az első magyarázza a variancia legnagyobb részét, a második a maradékból a legnagyobb részt, stb.;

• nem korreláltak, merőlegesek-függetlenek • számuk = p (a régi változók száma)

megj.: csak néhányat tartunk meg belőlük.

29

Sajátértékek, sajátvektorok

Eredeti össz variancia: Sp(cov(X))= . ∑=

p

ii

1λ

Ha a változók standardizáltak, akkor =p. ∑=

p

ii

1λ

Sajátvektorok: új változók együtthatói, az aij-k. > eigen(cor(vereb[,2:6])) $values [1] 3.616 0.532 0.386 0.302 0.165 $vectors [,1] [,2] [,3] [,4] [,5] [1,] -0.452 0.0507 0.690 0.4204 -0.374 [2,] -0.462 -0.2996 0.341 -0.5479 0.530 [3,] -0.451 -0.3246 -0.454 0.6063 0.343 [4,] -0.471 -0.1847 -0.411 -0.3883 -0.652 [5,] -0.398 0.8765 -0.178 -0.0689 0.192 Hogy lehet a sajátértékeket sajátvektorokat kiszámítani? 1. Asszociációs mátrix s.é.-ei, s.v.-ai: spektrál felbontás 2. Az eredeti vagy a standardizált adatmátrix szinguláris érték felbontásával. (Kontingencia táblákra is működik.) R-mode analízis: a változók cov vagy R mátrixából indulunk ki. szkór (score): új változókból számítjuk ki a megfigyelési egységekre. Q-mode analízis: a megfigyelési egységek cov vagy R mátrixából indulunk ki, az objektumok lin. komb.-jait kapjuk.

30

(mátrix algebrával összekapcsolhatók) A Q-mode analízis különbségi mértékeken alapul (dissimilarity measures) s.é., s.v. számítás: kanonikus korreláció analízis, főkomponens analízis és korrespondencia analízis Ha az objektumok csoportokat alkotnak, akkor úgy lehet kiszámítani a komponenseket, hogy azok a csoportok közötti különbségeket a leginkább kihangsúlyozzák: MANOVA, diszkriminancia elemzés.

31

Többváltozós exploratív elemzés Többváltozós grafikonok Szokásos egyváltozósak. Chernoff arcok, csillagok

32

>stars(vereb[,2:6])

Szórásdiagram mátrix. >pairs(vereb[,2:6])

33

Szórás diagram az új, látens változókkal. Kétváltozós boxlot

34

Töbváltozós távolságok, hasonlóságok Hasonlósági mértékek (similarity measures): mennyire hasonlóak az objektumok: korreláció Különbözőségi mértékek (dissimilarity measures): többváltozós távolság. Többváltozós problémák - egyedi megfigyelések, minták, illetve populációk közötti távolságok. Egyedi megfigyelések közti távolságok: Legegyszerűbb eset: n egyeden p változót X X X p1 2, ,..., mérünk . Az i-edik egyed mért értékei: , x x xi i i1 2, ,..., p

pa j-ediké: . x x xj j j1 2, ,...,Ha p=2, akkor a két pont távolságát a Pitagorasz tétel alapján

számíthatjuk: ( ) ( )d x x x xij i j i j= − + −1 12

2 22

. Több változó esetére is működik:

( )d x xij ik jkk

p= −

=∑ 2

1

Euklideszi távolság. Ha egy változó sokkal variabilisebb a többinél, akkor az dominálja a távolságot. ⇒ Standardizálás.

36

pl. Thaiföldi prehisztorikus kutyák kb ie 3500-ból származó kutyacsontokat találtak. Nem világos, hogy honnan származtatható a prehisztorikus kutya, az arany sakáltól (Canis aureus), vagy a farkastól. Az eredet kiderítése végett méréseket végeztek az alsó állkapocs csontokon, illetve más fajták állkapcsán. A mért változók: X1 - az állkapocs szélessége, X2 - az állkapocs magassága az első zápfog alatt, X3 - az első zápfog hossza, X4 - az első zápfog szélessége, X5 - az első és harmadik zápfog közötti távolság (beleértve a zápfogakat is), X6 - az első és negyedik zápfog közötti távolság (beleértve a zápfogakat is). A mérések átlagai: X1 X2 X3 X4 X5 X6 Modern kutya 9.7 21.0 19.4 7.7 32.0 36.5 Arany sakál 8.1 16.7 18.3 7.0 30.3 32.9 Kínai farkas 13.5 27.3 26.8 10.6 41.9 48.1 Indiai farkas 11.5 24.3 24.5 9.3 40.0 44.6 Kujon 10.7 23.5 21.4 8.5 28.8 37.6 Dingó 9.6 22.6 21.1 8.3 34.4 43.1 Prehisztorikus kutya

10.3 22.1 19.1 8.1 32.3 35.0

Forrás: Higham et al. (1980).

37

A standardizált értékek X1 X2 X3 X4 X5 X6 Modern kutya -.46 -.46 -.68 -.69 -.46 -.57 Arany sakál -1.41 -1.79 -1.04 -1.29 -.80 -1.21 Kínai farkas 1.78 1.48 1.70 1.80 1.55 1.50 Indiai farkas .60 .55 .96 .69 1.17 .88 Kujon .13 .31 -.04 .00 -1.10 -.37 Dingó -.52 .03 -.13 -.17 .03 .61 Prehisztorikus kutya

-.11 -.12 -.78 -.34 -.39 -.83

1.912 5.382 3.386 1.512 1.559 .6651.912 7.121 5.059 3.190 3.183 2.3895.382 7.121 2.139 4.575 4.214 5.1123.386 5.059 2.139 2.911 2.197 3.2281.512 3.190 4.575 2.911 1.669 1.2761.559 3.183 4.214 2.197 1.669 1.704

.665 2.389 5.112 3.228 1.276 1.704

1:Modern kutya2:Arany sakal3:Kinai kutya4:Indiai kutya5:Kujon6:Dingo7:Prehisztorikuskutya

1:Modernkutya

2:Aranysakal

3:Kinaikutya

4:Indiaikutya 5:Kujon 6:Dingo

7:Prehisztorikuskutya

Euclidean Distance

Proximity Matrix

This is a dissimilarity matrix Ez is négyzetes mátrix, szimmetrikus és 0-ák vannak az átlóban.

City-block (Manhattan) távolság:

∑=

−=p

kjkikij xxd

1

.

Hasonló eredményt ad az előzőhöz, de nem olyan érzékeny az outlierekre.

CCsseebbiisseevv ((CChheebbyycchheevv)) ttáávvoollssáágg::

38

Ha csak 1 dimenzióban nézzük a különbséget.

jkikkij xxd −= max

Hatvány (Power, Costumized) távolság:Ha a növelni vagy csökkenteni akarjuk azoknak a dimenzióknak a súlyát, amelyek

esetén különböznek az objektumok:rp

k

n

jkikij yxd1

1⎟⎠

⎞⎜⎝

⎛ −= ∑=

.

Az n és r értékét mi választhatjuk meg.

Az n az egyedi dimenziók közötti távolságokat súlyozza, az r pedig az egyes megfigyelt egyedek közöttieket.

Ha n = r, akkor Minkowsky távolságnak nevezzük.

Bray-Curtis (Kulczynski): faj abudancia adatok esetén használatos.

Gyakorisági értékek esetén: Chi-négyzet (Chi-square) . A szokásos módon számolt 2χ -érték. Phi-négyzet (Phi-square) Az előző normalizálva. Jaccard e.h.: bináris skálán mért (prezencia, abszencia) adatokra.

cbaa

++−1

a – azoknak a változóknak a száma, amelyek esetén egyik objektum értéke sem 0 b – ahol az egyik 0, c – ahol a másik 0.

39

Gower e.h.: lehetnek folytonos és kategoriális változók is. Dissim. mértékek tulajdonságai: metrikusság: háromszög készíthető a 3 pont páronkénti távolságaiból. Általában ilyenek, Bray-Curtis nem. MDA-nál lényeges tulajdonság.

40

Mikor melyiket használjuk? Ha a változók hasonló skálán mértek és nincs 0 értékük, akkor Euklideszi, City-block. Ha nem hasonló a skála, akkor először standardizálni kell! Fajok abundanciája esetén olyan kell, amely maximális akkor, ha nincs közös faj a két mintavételi egységen: Bray-Curtis, Kulczynski jó. Távolsági mátrixok összehasonlítása Mantel-teszt pl.: genetikus távolságok - földrajzi, időbeli távolságok. Távolságok populációk és minták között Mahalanobis távolság:

( ) ( )D vij ri rjrs

si sjs

p

r

p2

11= − −

==∑∑ μ μ μ μ ,

ahol a kovariancia mátrix inverzének az r-edik sorában és s-edik oszlopában álló eleme. Másképp:

v rs

( ) ( )Dij i j i2 1= −

′−−μ μ μ μC j kvadratikus alak, ahol

41

μ

μμ

μ

i

i

i

pi

=

⎡

⎣

⎢⎢⎢⎢

⎤

⎦

⎥⎥⎥⎥

1

2

M, az i-edik populáció várható érték vektora. C a

kovariancia mátrix. Használható egy egyednek a populáció középpontjától mért távolságának mérésére is:

( ) ( )D x v xij r rrs

s ss

p

r

p2

11= − −

==∑∑ μ μ ,

ahol az egyeden mért értékek: x x x p1 2, ,..., és a megfelelő populáció átlagok: μ μ μ1 2, ,..., p . Úgy tekinthető, mint az x megfigyelés többváltozós reziduuma, azaz, hogy milyen messze van x az összes változó eloszlásának középpontjától. Figyelembe veszi a változók közti korrelációt is. Ha a populáció többváltozós normális eloszlást követ, akkor

eloszlású p szabadsági fokkal. Ha értéke szignifikánsan nagy (P<0.001), akkor a megfigyelésünk vagy hibás, vagy egy extremális megfigyelés.

D2

χ 2 D2

A populáció átlagokat és a kovariancia mátrixot a mintából becsülhetjük.

42

pl. Az egyiptomi koponya minták közötti távolságok:

21.11 3.678E- 7.908E- 2.003.678E- 23.48 5.20 2.847.908E- 5.20 24.17 1.13

2.00 2.84 1.13 10.151.00 .00 .00 .13.00 1.00 .21 .18.00 .21 1.00 .07.13 .18 .07 1.00

X1 X2 X3 X4 X1 X2 X3 X4

Covarian

Correlati

X1 X2 X3 X4

Pooled Within-Groups a

The covariance matrix has 145 degrees a.

131.3667 5.1292 30 30.000133.6000 4.4691 30 30.00099.1667 5.8844 30 30.00050.5333 2.7635 30 30.000

132.3667 4.8101 30 30.000132.7000 4.6472 30 30.00099.0667 4.3465 30 30.00050.2333 2.9558 30 30.000

134.4667 3.4813 30 30.000133.8000 4.9786 30 30.00096.0333 4.5523 30 30.00050.5667 3.5495 30 30.000

135.5000 3.9194 30 30.000132.3000 5.1337 30 30.00094.5333 4.5918 30 30.00051.9667 2.8221 30 30.000

136.1667 5.3504 30 30.000130.3333 4.9712 30 30.00093.5000 5.0566 30 30.00051.3667 3.7184 30 30.000

133.9733 4.8907 150 150.000132.5467 4.9393 150 150.00096.4600 5.3778 150 150.00050.9333 3.2079 150 150.000

X1X2X3X4X1X2X3X4X1X2X3X4X1X2X3X4X1X2X3X4X1X2X3X4

DINASZT1.00

2.00

3.00

4.00

5.00

Total

MeanStd.

Deviation Unweighted WeightedValid N (listwise)

Group Statistics

A Mahalanobis távolságok:

43

Dinasztia 1 2 3 4 5 1 2 0.091 3 0.903 0.729 4 1.881 1.594 0.443 5 2.697 2.176 0.911 0.219 megj: Az ún. Mantel teszttel lehet mérni két távolság mátrix hasonlóságát . Ebben az esetben például azt, hogy a dinasztiák távolságainak mátrixa korrelál-e az időbeli távolságok mátrixával. (igen)

44

Standardizálás, transzformációk A transzformációk ugynúgy mennek, mint egyváltozós esetben. Itt

még fontosabbak a linearitás miatt. Standardizálás – átskálázás. Centrálás: kivonjuk minden változó átlagát, így az átlag 0 lesz. (Spektrál felbontás esetén tulajdonképpen a centrált adatok

kovariancia mátrixával dolgozunk.) Standardizálás: korrelációs mátrix – standardizált adatok

kovariancia mátrixa. Relatív értékek (arányok): legnagyobb értékkel osztjuk az

összeset. Megfigyelési egységeket is lehet standardizálni. Abundancia adatoknál fontos, ha a megfigyelési egységek mérete

különböző. (arányok) 0,1-é is lehet konvertálni. Sokszor hasznos lehet különböző módokon standardizálni és

összehasonlítani az eredményeket: eredeti – standardizált – 0,1 eredeti: legnagyobb abundanciájú mit befolyásol 0,1 : prezencia, abszenciától mi függ. Asszociációs mértékek implicit módon standardizáltak.

45

Az, hogy a kovariancia vagy korrelációs mátrixot használjuk attól függ, hogy a varianciák különbsége fontos-e biológiai szempontból.

46

Hiányzó adatok MCAR-missing completely at random: független mind a megfigyelt adatoktól, mind a többi hiányzótól. Random részhalmaza az adatoknak. MAR – lehet, hogy függ a csoporttól, hogy hiányzik-e. Mit tegyünk a hiányzó adatokkal? 1. Objektum törlése (deletion): legjobb megoldás, ha kevesebb, mint 5% hiányzik és MCAR Információ vesztés listwise deletion esetén. Ha az analízis páronkénti (pairwise) asszociációkon alapul (kovariancia, korreláció), akkor pairwise deletion. Csak akkor töröljük, ha éppen azokkal a változókkal dolgozunk, amelyiknél hiányzik a megfigyelés. Imputáció Helyettesítés becsléssel. Módszerek: 1. átlaggal (változó értékeiből számolt\NA)

A varianciát alulbecsüli. 2. Regressziós modellel. Más változókkal becsüljük, pl. a legjobban korrelált változót vagy változókat választjuk prediktornak.) 3. Hot-deck: Hasonló objektum értékével helyettesítjük. Problémák: függetlenség sérül; varianciát alulbecsli.

47

Maximum likelihood (ML) és EM becslés ML : paraméter becslés a megfigyelt, nem teljes adatokból, majd a modellből becsüljük a hiányzó adatokat. Felhasználja a megfigyelt adatok eloszlását és a hiányzó adatok mintázatát. Iteratív imputáció + ML : Expectation Maximization ML paraméter becslés ⇒ hiányzó adatok ⇒ ML paraméterbecslés ⇒ hiányzó adatok...., amíg nem konvergál. ML és EM feltétele a MAR.

48

Többváltozós adatelemzés SPSS-sel Előkészületek: Adatok megjelenítése:

• SPSS Graphics • SPSS Frequency

Hiányzó adatok elemzése (Missing data analysis) :

• Ellenőrizzük, hogy létezik-e mintázat (randomnak kell lennie)

Kategoriális változó esetén: • Ha Missing < 5%, ⇒ List-wise option • Ha >=5%, akkor a hiányzó értékek kerüljenek egy új

kategóriába Mért változó esetén:

• Ha Missing < 5%, ⇒ List-wise option • 5% és 15% között : Transform>Replace Missing Value.

(15%-nál kevesebb adat behelyettesítésének nincs túl komoly hatása

• Ha > 15%, akkor töröljük a változót, vagy a megfigyelési egységet (ismételt mérések esetén)

Kiugró értékek ellenőrzése (Outlier-ek) : (Általában a statisztikai eljárások érzékenyek az outlier-ekre.)

49

• Egyváltozós eset: boxplot • Többváltozós eset: Mahalanobis távolság (Khi-négyzet

statisztika), egy pont akkor outlier, ha a p-érték < .001. o Az eset azonosítója (dummy variable) : Dependent, a

többi változó: Independent o Save>Mahalanobis

Kezelés:

• Töröljük az esetet • Közöljünk két elemzést (egyet az outlier-rel, egyet pedig

nélküle) Normalitás: Egyváltozós normalitás tesztek:

• Q-Q plot • Skewness és Kurtosis • Tesztek

Többváltozós normalitás tesztelése: • A szórásdiagrammoknak elliptikusaknak kell lennie • Minden változónak normálisnak kell lennie

Linearitás: A linearitás ellenőrzése

• Reziduális plot regresszió esetén • Szórásdiagrammok

50

Homoscedasticity: a kovariancia mátrixoknak a csoportokban meg kell egyeznie:

• Tesztelése: Box’s M test Érzékeny a normalitásra

• Levene teszt: a csoport varianciák egyezőségének vizsgálata. Nem annyira érzékeny a normalitásra

51

Emlékeztető: ANOVA

Az egyfaktoros ANOVA a pop. átlagok egyezőségét teszteli • Feltételek: független megfigyelések; normalitás; varianciák

homogenitása Két faktoros ANOVA 3 hipotézis teszttel szimultán:

• Interakció a két faktor között • A két faktor hatásának tesztelése

Emlékeztető: ANCOVA

• A függő változó értéke folytonos független változótól (kovariáns) is függhet.

• Kovariánsok hatásának figyelembe vétele illetve becslése. • A reguláris ANOVA feltételein túl követelmény még:

Lineáris kapcsolat a függő változó és a kovariánsok között MANOVA Tulajdonságok:

• Hasonló az ANOVÁ-hoz • Több függő változó • A függő változók korreláltak és a lineáris kombinációnak

értelme van. • Azt teszteli, hogy k populációban a független változók egy

lineáris kombinációjának átlagai különböznek-e. Alapötlet: találjunk egy olyan lineáris kombinációt, amely optimálisan szeparálja a csoportokat, azaz olyat amely

52

maximalizálja a hiba (within group) variancia/kovariancia mátrix és a hatás (between group) variancia/kovariancia mátrix hányadosát. (Ez ugyanaz, mint amit a diszkriminancia elemzésnél használunk.) Ennek a kombinációnak a standardizált együtthatói megmondják, hogy melyik változó milyen súllyal szerepel a szeparálásban. Előnyök:

• Annak az esélye, hogy különbségeket találunk a csoportok között, nagyobb, ahhoz képest, mintha minden változóra egyenként ANOVÁ-t csinálnánk.

• Nem inflálódik az elsőfajú hiba. • Több ANOVA elvégzése nem veszi figyelembe azt, hogy a

független változók korreláltak. Hátrányok:

• Bonyolultabb, • Az ANOVA gyakran nagyobb hatóerejű. • Sokkal komplikáltabb kísérleti elrendezést igényel. • Kétségek merülhetnek fel, hogy valójában mely független

változók mely függő változók értékét befolyásolják. • Minden plusz függő változó 1 szabadsági fokkal kevesebbet

jelent.

Feltételek: Független minták, Többváltozós normális eloszlás a csoprtokban A kovariancia mátrix homogenitása

53

Lineáris kapcsolat a független változók között A MANOVA elvégzésének lépései: Feltételek ellenőrzése Ha a MANOVA nem szignifikáns, stop Ha a MANOVA szignifikáns, egyváltozós ANOVÁk Ha az egyváltozós ANOVA szignifikáns, Post Hoc tesztek. Ha igaz a homoscedasticity, Wilks Lambda, ha nem Pillai’s Trace. Általában mind a 4 statisztikának hasonlónak kell lennie.

A MANOVA algoritmusa: 1. Az ANOVA négyzetösszegei helyett sums-of-squares-and-

cross-products (SSCP) mátrixok. Egy a hatásnak (between groups) megfelelő (H), egy pedig a reziduális (within groups): E, és egy a teljesnek megfelelő (T).

2. Kiszámítjuk a HE-1 szorzatot (egyváltozós esetben ez az F érték).

3. Kiszámítjuk a HE-1 spektrál felbontását: sajátértékek, sajátvektorok. A s.é.-kek azt mutatják meg, hogy between-group varianciából a sajátvektorok vagy lineáris kombinációk mennyit magyaráznak. A s.v.-ok tartalmazzák a lineáris kombinációk együtthatóit.

4. Az a lineáris kombináció, amelyikhez a legnagyobb s.é. tartozik maximalizálja a between-group/within-group variancia hányadost.

H0: a csoport centroidok megegyeznek.

54

Ez tesztelhető valamelyik variancia mérték segítségével (nyom, determináns:általánosított variancia).

• Wilk’s lambda: |E |/|T|. A teljes variancia hányad része a reziduális. Minél kisebb, annál nagyobb a csoportok köztötti különbségek.

• Hotelling-Lawley trace: |H |/|E|. Ez ugyanaz, mint a HE-1 mátrix nyoma (sajátértékek összege). Nagyobb értékek nagyobb különbségeket indikálnak a csoport centroidok között.

• Pillai trace: A HT-1 nyoma, vagyis a between groups variancia.

• Roy’s largest root: a HE-1 legnagyobb s.é.-e, vagyis ahhoz a lineáris kombinációhoz tartozó s.é. amely a between groups variancia-kovarianca legnagyobb részét magyarázza.

Ezeknek a statisztikáknak az eloszlása nem teljesen ismert, közelítő F értékekké konvertálják ezeket. Két csoport esetén a Wilk’s lambda, a Hotteling és Pillai féle érték megegyezik és megegyezik a Hotteling féle T2 statisztikával, ami a t-próba többváltozós kiterjesztése. Általában hasonló eredményeket produkálnak több csoport esetén is. A Pillai trace a legrobosztusabb teszt.

55

MANCOVA Cél: Csoportok közötti különbség tesztelése független változók egy lineáris kombinációja alapján egy kovariáns figyelembe vételével. Példa: 3 területen élő őzek összehasonlítása a kor kovariáns figyelembe vételével. Repeated Measure Analysis Cél: csoportok közötti különbségek tesztelése, ha a megfigyelési egységeken többször mérünk. Feltétel: Független megfigyelések!! Helyette: Kevert modell

56

DDiisszzkkrriimmiinnaanncciiaa aannaallíízziiss Cél: egy olyan függvény létrehozása, amely alapján az egyedek két vagy több csoportba sorolhatók (a függvény értéke lényegesen változik csoportról csoportra). Később a függvényt új egyedek besorolására lehessen használni. pl. verebek. A testméretek alapján besorolhatók-e a verebek a túlélők ill. nem túlélők közé (Mire emlékeztet ez a kérdés?!!): Lineáris diszkriminancia függvény:

Z a X a X a Xp p= + + +1 1 2 2 ... Ha Z értéke jelentősen változik csoportról csoportra, akkor a csoportok jól szeparálhatók. Több függvény is konstruálható. A függvény úgy vetíti le a csoportokat egy alacsonyabb dimenziós térbe, hogy azok eloszlásai a legkisebb mértékben fedjék át egymást. A MANOVA inverze. A MANOVA ugyanezt a függvényt használja.

Kétféle cél: 1. Prediktív diszkriminancia analízis (generáljunk egy szabályt, amely alapján csoportokba sorolhatunk). 2. Leíró analízis: a függő változó és a független változók kapcsolatát vizsgáljuk. Hogyan működik?

1. Feltételezzük, hogy a célpopuláció egymást kizáró rész populációkból áll.

2. Feltételezzük, hogy a független változóink többváltozós normális elsozlást követnek

57

3. Megkeressük azt a lineáris kombinációt, amely a legjobban szeparálja a csoportokat.

4. Ha k csoportunk van, akkor k-1 diszkriminancia függvényt készítünk.

5. Minden függvényre kiszámítjuk a diszkriminancia szkórokat. 6. Ezeket a szkórokat használjuk a klasszifikáláshoz.

Klasszifikálási módok:

• ML – ahhoz a csoporthoz sorolja be, amelynek legnagyobb a valószínűsége.

• Fisher (lineáris) klasszifikáló függvény: abba a csoportba sorolja be, amely esetén a csoporthoz tartozó függvény szkórja a legnagyobb.

• Diszkriminálás Mahalanobis távolságokkal: Kiszámítjuk az egyedek Mahalanobis távolságát a csoport centroidoktól, és abba soroljuk be, amelyhez a legközelebb van.

Megjegyzés: az SPSS a Maximum likelihood módszert használja. Logisztikus regresszió vagy diszkriminancia analízis? Ha a magyarázó változók normális eloszlásúak, akkor a DA jobb. Ha kategoriális változóink is vannak, akkor a DA akkor rosszabb, ha a kategóriák száma nagyon kicsi (2, 3). Ezekben az esetekben a LR eredménye hasonló a DA-éhoz, legfeljebb egy kicsit rosszabb (ha a mintaelemszám aránylag kicsi). Ha a DA feltételei nem teljesülnek, mindenképpen a LR-t kell használni. Az LR nem eloszlás függő.

58

Őzes példa outputja:

Log Determinants

5 14.2835 15.4085 14.2675 15.491

területÁrpádhalomBabatPitvarosPooled within-groups

RankLog

Determinant

The ranks and natural logarithms of determinantsprinted are those of the group covariance matrices.

Általánosított variancia logaritmusa. Ha közel egyenlőek, akkor valószínűleg nincs nagy gond.

Test Results

42.0281.222

305736.090

.188

Box's MApprox.df1df2Sig.

F

Tests null hypothesis of equal population covariance matrices.

Eigenvalues

.866a 95.1 95.1 .681

.044a 4.9 100.0 .206

Function12

Eigenvalue % of Variance Cumulative %CanonicalCorrelation

First 2 canonical discriminant functions were used in theanalysis.

a.

A HE-1 mátrix s.é.-ei és a megfelelő variancia hányadok. A Canonical correlation egy asszociációs mérték a diszkriminancia szkórok és a csoportok között.

Wilks' Lambda

.513 54.053 10 .000

.957 3.526 4 .474

Test of Function(s)1 through 22

Wilks'Lambda Chi-square df Sig.

59

A Wilks Lambda a varianciából a csoportok különbözősége által nem magyarázott hányad. A szignifikancia szint a diszkriminancia fv. szignifikanciáját mutatja.

Canonical Discriminant Function Coefficients

.072 -.081

.063 .118

.016 .008-.080 .116.303 -.140

-13.919 -6.825

teljes hossz orrtólfarok végéigmarmagasságköröm végéigszív súlyajobb vese súlyaln_vesezsir(Constant)

1 2Function

Unstandardized coefficients

ln_303.0108.0016.0063.0072.01 ⋅+⋅−⋅+⋅+⋅= vesveseszivsmarmtesthZ Ezekkel a fv.ekkel tudunk szkórokat számolni minden esethez.

Functions at Group Centroids

.884 -.349-.708 .0311.443 .310

területÁrpádhalomBabatPitvaros

1 2Function

Unstandardized canonical discriminantfunctions evaluated at group means

A fv értékek a csoport centroidok esetén.

Standardized Canonical Discriminant Function Coefficients

.419 -.468

.229 .429

.544 .261-.552 .797.263 -.121

teljes hossz orrtólfarok végéigmarmagasságköröm végéigszív súlyajobb vese súlyaln_vesezsir

1 2Function

60

Az egyes változók fontosságát? mutatják az egyes diszkriminancia függvényekben. (Nagyon korrelált változók esetén nehéz interpretálni.)

Structure Matrix

.753* .503

.721* .150

.581* .048-.024 .873*

.535 .581*

szív súlyateljes hossz orrtólfarok végéigln_vesezsirjobb vese súlyamarmagasságköröm végéig

1 2Function

Pooled within-groups correlations between discriminatingvariables and standardized canonical discriminant functions Variables ordered by absolute size of correlation within function.

Largest absolute correlation between each variable andany discriminant function

*.

A diszkriminancia függvények és az eredeti változók korrelációi. Az első függvény a szívsúllyal, a teljes hosszal és a vesezsírral korrelál, míg a másik a jobb vese súlyával és a marmagassággal.

Classification Function Coefficients

2.883 2.737 2.870

4.966 4.911 5.079

-.281 -.303 -.267-.283 -.111 -.251.641 .106 .718

-322.626 -302.857 -335.541

teljes hossz orrtólfarok végéigmarmagasságköröm végéigszív súlyajobb vese súlyaln_vesezsir(Constant)

Árpádhalom Babat Pitvarosterület

Fisher's linear discriminant functions

A Fisher féle fv-ek. Amelyik csoport esetén a legnagyobb az értéke, abba sorolja be.

61

Classification Resultsa

12 3 3 187 43 3 534 0 11 15

66.7 16.7 16.7 100.013.2 81.1 5.7 100.026.7 .0 73.3 100.0

területÁrpádhalomBabatPitvarosÁrpádhalomBabatPitvaros

Count

%

OriginalÁrpádhalom Babat Pitvaros

Predicted Group MembershipTotal

76.7% of original grouped cases correctly classified.a.

-3 -2 -1 0 1 2 3 4

Function 1

-4

-2

0

2

4

Func

tion

2

ÁrpádhalomBabat

Pitvaros

területÁrpádhalomBabatPitvarosGroup Centroid

Canonical Discriminant Functions

62

Adatredukció (Ordináció) Főkomponens analízis (PCA)

• Felfedező adatelemzésben használatos. • Adathalmaz kényelmesebb és informatívabb ábrázolása, • dimenziószám csökkentése, • fontos változók beazonosítása.

Cél: Van p változónk: X X X p1 2, ,..., és keressük ezeknek olyan Z Z Z p1 2, ,..., kombinációit (főkomponensek), amelyek nem korreláltak. A korrelálatlanság azt jelenti, hogy az új változók az adatok különböző “dimenzióit” mérik.

( ) ( ) ( )σ σ σZ Z Zp1 2≥ ≥ ≥...

Remény: a legtöbb főkomponens szórása olyan kicsi, hogy elhanyagolhatók, így az adatokban meglévő változatosság néhány főkomponenssel jól leírható. Ha az eredeti változók egyáltalán nem korreláltak, az analízis semmit nem csinál. Legjobb eredmény: nagyon korrelált változók esetén. Adatok: Egyed X1 X 2 .... X p

1 x11 x12 ... x p1

2 x21 x 22 ... x p2

M n xn1 xn2 xnp

64

A főkomponensek: Z a X a X a Xi i i ip= + + +1 1 2 2 ... p

a a ai i ip12

22 2 1+ + + =...

és . ( ) ( ) ( )σ σ σZ Z Zp1 2≥ ≥ ≥...

A főkomponensek varianciái az adatok kovariancia mátrixának sajátértékei (λi ), az együtthatói pedig a megfelelő sajátértékhez tartozó sajátvektor együtthatói. Ha a kovarianciamátrix:

C =

⎡

⎣

⎢⎢⎢⎢

⎤

⎦

⎥⎥⎥⎥

c c cc c c

c c c

p

p

p p pp

11 12 1

21 22 2

1 2

...

...M M M

,

akkor ( ) ( ) ( )λ λ λ σ σ σ1 2 11 22

21

22

2+ + + = + + + = + + +... ... ...p ppc c c X X X p Célszerű az adatokat standardizálni az analízis előtt. Ekkor a kovariancia mátrix megegyezik korrelációs mátrixszal. Feltételek:

• Normalitás nem feltétel, de a nagyon ferde eloszlás ronthatja az eredményt. A normalitás csak tesztek esetén szükséges.

• Linearitás. • Ne legyenek outlierek. •

65

Példa: Őzek: Communalities

1.000 .806

1.000 .716

1.000 .758

1.000 .3781.000 .636

1.000 .576

1.000 .7011.000 .6041.000 .634

1.000 .389

teljes súlyteljes hossz orrtól farokvégéigmarmagasság körömvégéigtörzs hosszapocak körkörös méretehátsó láb hosszakörömtől gerincigszív súlyalép súlyajobb vese súlyarecés gyomor súlyakaja nélkül

Initial Extraction

Extraction Method: Principal Component Analysis.

Azt mutatja meg, hogy a főkomponensek mennyit magyaráznak az egyes változókból. Az „Initial” azt jelenti, hogy az összes főkomponens együtt mennyit magyaráz, az „Extraction” pedig azt, hogy az extraktolt főkomponensek mennyit. (A főkomponensek (magyarázó változók) és a megfelelő változó többszörös korrelációs együtthatójának négyzete.)

Total Variance Explained

4.647 46.466 46.466 4.647 46.466 46.466 4.4941.551 15.507 61.973 1.551 15.507 61.973 1.704

.822 8.225 70.198

.708 7.078 77.276

.651 6.514 83.790

.578 5.782 89.571

.351 3.506 93.077

.283 2.834 95.911

.218 2.179 98.090

.191 1.910 100.000

Component12345678910

Total % of Variance Cumulative % Total % of Variance Cumulative % Total % of Initial Eigenvalues Extraction Sums of Squared Loadings Rotation Sums


A korrelációs/kovariancia mátrix s.é.-ei, és a megfelelő variancia hányadok.

66

1 2 3 4 5 6 7 8 9 10

Component Number

0

1

2

3

4

5

Eige

nval

ue

Scree Plot

A s.é.-kek a komponens sorszám függvényében. Component Matrixa

.897 .043

.827 -.178

.862 -.123

.615 -.019

.744 -.286

.754 -.083

.836 .035

.085 .773

.392 .694

.235 .577


1 2Component

Extraction Method: Principal Component Analysis.2 components extracted.a.

67

Az eredeti változók és a főkomponensek korrelációi (component loading). Hagyományosan 0.6 fölött magas, 0.4 alatt alacsony.

-1,0 -0,5 0,0 0,5 1,0

Component 1

-1,0

-0,5

0,0

0,5

1,0

Com

pone

nt 2

osuly

testhmarmag

torzsh

ovmeret

farmag

szivs

lepsvese1s

recesn

Component Plot

Component Score Coefficient Matrix

.193 .027

.178 -.115

.185 -.080

.132 -.012

.160 -.185

.162 -.053

.180 .023

.018 .498

.084 .447

.051 .372


1 2Component


Component Scores.

68

Ezekkel a szkórokkal tudjuk kiszámolni a komponensek értékeit az egyes esetekre. (Ezek az aij együtthatók.)

Faktoranalízis • Nagyszámú változó korrelációinak elemzése. Változók

faktorokba csoportosítása. Az egy faktorba csoportosított változók korreláltsága nagyobb egymással, mint a csoporton kívüliekkel.

• A faktorok interpretálása (látens változók) a változók alapján. • Sok változó összesítése néhány faktorba. •

X a F a F a F ei i i im m= i+ + + +1 1 2 2 ... aij - faktorsúlyok (loadings), Xi -k a standardizált változók. F F Fm1 2, ,..., korrelálatlan közös faktorok 0 várható értékkel és 1 szórással. ei - egyedi faktor, várható értéke 0, Fi -kel nem korrelált.

( ) ( ) ( ) ( )( )iimi

imimii

eaa

eFaFaX222

1

2221

221

...

...1

σ

σσσσ

+++=

=+++==

ai1

2 + +... aim2 - kommunalitás,

( )σ 2 ei - egyediség. r a a a aij i j im jm= + +1 1 ... - az Xi és X j korrelációs együtthatója. (Csak akkor lehet két változó nagyon korrelált, ha nagy súllyal szereplenek ugyanabban a faktorban.) Számítás menete: 1. Korrelációs vagy kovarinacia mátrix kiszámítása.

69

2. Faktorsúlyok becslése (faktor extrakció). Pl. főkomponens analízisből megtartjuk az 1-nél nagyobb sajátértékű főkomponenseket (Főkomponens faktoranalízis). Főkomponensek:

pppppp

pp

pp

XbXbXbZ

XbXbXbZ

XbXbXbZ

+++=

+++=

+++=

...

...

...

2211

22221212

12121111

M

Mátrix egyenlet formában: Z=BX ⇒ B-1Z = BTZ =X Mivel a B mártix ortonormált. Így:

pppppp

pp

pp

ZbZbZbX

ZbZbZbX

ZbZbZbX

+++=

+++=

+++=

...

...

...

2211

22221122

12211111

M

Mivel Faktor analízis esetén m < p számú faktorral dolgozunk, ezért:

pmmpppp

mm

mm

eZbZbZbX

eZbZbZbXeZbZbZbX

++++=

++++=++++=

...

......

2211

222221122

112211111

M

70

Mostmár csak át kell skálázni az eredeti főkomponenseket úgy, hogy 1 legyen a varianciájuk. Ehhez a Zi –ket osztani kell a szórásukkal, ami éppen iλ . Így:

iii ZF λ/= . 3. Faktor rotációt végzünk azért, hogy a faktorok

interpretálhatóbbak legyenek. A súlyok minden faktor esetén vagy nagyok vagy nagyon kicsik legyenek.

4. Faktor értékek kiszámítása a mintaegyedekre. További analízisek.

Rotációs módszerek: Ortogonális: Varimax, Quartimax, Equamax

• Varimax: úgy forgat, hogy az együtthatók vagy 1-hez vagy 0-hoz közeliek legyenek.

• Quartimax: minimalizálja a változók magyarázásához szükséges faktorok számát

• Equamax: Az előző kettő kompromisszuma. A rotált faktorok nem korreláltak. Ferde (Oblique): Direct Oblimin, Promax

Nagyobb sajátértékeket eredményeznek. A Promax nagyon nagy táblázatok esetén használatos.

Korrelált faktorok.

71

Rotated Component Matrixa

.865 .241

.846 .010

.868 .071

.603 .118

.789 -.114

.754 .087

.807 .220-.089 .772.228 .763

.101 .615


1 2Component

Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization.

Rotation converged in 3 iterations.a.

Component Transformation Matrix

.975 .222-.222 .975

Component12

1 2

Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization.

72

-1,0 -0,5 0,0 0,5 1,0

Component 1

-1,0

-0,5

0,0

0,5

1,0

Com

pone

nt 2 osuly

testhmarmagtorzsh

ovmeret

farmagszivs

leps vese1s

recesn

Component Plot in Rotated Space

Component Score Coefficient Matrix

.182 .070

.199 -.072

.198 -.036

.132 .018

.197 -.144

.170 -.016

.170 .062-.093 .490-.017 .455

-.034 .374


1 2Component

Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. Component Scores.

Megjegyzés: R-mode FA, a változók helyett az eseteket csoportosítja

73

Klaszter analízis n egyedből álló minta, amelynek minden egyedén p számú változó értékét mérjük. Csoportosítási séma, amely a „hasonló” objektumokat egy csoportba sorolja. A csoportok száma nem ismert (általában). Algoritmusok két típusa: • Hierarhikus technikák. Dendogramot produkálnak. 1. Egyedek egymástól való távolságának kiszámítása. 2. Csoportok létrehozása vagy összevonással, vagy felosztással.

Az összevonás esetén először minden objektumot külön csoportba sorolunk és azután a legközelebbieket fokozatosan egyesítjük. A felosztó módszerek esetén, először egy csoportba soroljuk az összes objektumot, majd először ketté osztjuk, majd a ketté osztottakat is tovább osztjuk egészen addíg, amíg minden egyed külön csoportot alkot.

• Másik típusa esetén az egyedek be is kerülhetnek egy csoportba és ki is kerülhetnek onnan (k-means clustering). Előre meg kell határozni, hogy hány csoportunk legyen.

Összevonási technikák (linkage methods): Egyszerű lánc módszer (nearest neighbor): Két csoport távolságát az egymáshoz legközelebb eső, de nem egy csoportba tartozó elemeik távolságaként határozzuk meg.

Ha a csoportok közt nincs éles elválás, akkor nem működik jól, viszont ha élesen elhatárolódnak, akkor nagyon effektív.

Teljes lánc módszer (furthest neighbor): Két csoport távolságát legtávolabbi elemeik távolsága adja meg. Jól

74

működik nem elhatárolódó, de erős kohéziójú csoportok esetén.

Csoportátlag módszer (between-groups linkage): Az előző két módszer közötti átmenet. A két csoport távolsága elemeik páronkénti távolságainak átlaga osztva a két csoport elemszámával. Jól működik akkor is, ha azt várjuk, hogy a csoportok elemszáma nagyon különböző lesz.

Egyszerű átlag módszer (within-groups linkage): Ugyanaz, mint az előző, de nem veszi figyelembe az csoportok elemszámát.

Centoid módszer (centroid clustering): Két csoport távolságát a súlypontjaik távolsága adja meg.

Medián módszer (median clustering): Ugyanaz, mint az előző, de figyelembe veszi a csoportok elemszámát is. Ha várhatóan nagyok az elemszámokban a különbségek, akkor az előzőhöz képest ezt célszerű használni.

Ward módszer (Ward’s method): A csoportokon belüli varianciát minimalizálja. Nagyon effektív, de kis elemszámú csoportok létrehozására hajlamos módszer.

pl: Az emlősállatoknak négyféle foguk van: metszőfog, szemfog, kiszápfog és zápfog. Az adatfile 32 állatfaj egyik oldali állkapcsában alul illetve felül található különböző fogainak számát tartalmazza.

75

1 1 1 1 1 12 2 2 2 2 21 1 1 1 1 11 1 1 1 1 11 1 1 1 1 11 1 1 1 1 13 3 3 3 3 33 3 3 3 3 34 4 4 4 4 34 4 4 4 4 34 4 4 4 4 35 5 5 5 4 34 4 4 4 4 36 6 6 6 5 46 6 6 6 5 47 7 7 6 5 48 8 6 6 5 48 8 6 6 5 48 8 6 6 5 48 8 6 6 5 48 8 6 6 5 48 8 6 6 5 49 8 6 6 5 49 8 6 6 5 48 8 6 6 5 48 8 6 6 5 48 8 6 6 5 48 8 6 6 5 4

10 9 8 7 6 510 9 8 7 6 510 9 8 7 6 5

Case1:barna denever2:vakond3:ezustszoru denever4:torpe denever5:hazi denever6:voros denever7:pocok8:nyul9:hod10:mormota11:szurke mokus12:hazi eger13:tarajos sul14:farkas15:medve16:mosomedve17:nyest18:menyet19:rozsomak20:borz21:folyami vidra22:tengeri vidra23:jaguar24:puma25:premes foka26:oroszlan foka27:szurke foka28:elefant foka29:renszarvas30:javor antilop31:szarvas

10Clusters 9 Clusters 8 Clusters 7 Clusters 6 Clusters 5 Clusters

76

A következő ábra a dendrogram, ami az összevonásokat ábrázolja sematikusan. szarvas 31 -+-------+ javorszarvas 32 -+ +---------------------------------------+ renszarvas 29 -+-------+ I javor antilop 30 -+ I pocok 7 ---------+-----------+ I nyul 8 ---------+ I I szurke mokus 11 -+-------+ +-------------------+ I tarajos sul 13 -+ +-----------+ I I hod 9 -+-------+ I I I mormota 10 -+ I I I hazi eger 12 ---------------------+ I I torpe denever 4 ---------+ I I voros denever 6 ---------+ I I hazi denever 5 ---------+ +-------+ ezustsz denever 3 ---------+---------------------+ I barna denever 1 ---------+ I I farkas 14 -+-------------------+ I I medve 15 -+ I I I jaguar 23 -+-------------------+ I I puma 24 -+ I I I nyest 17 -+-------+ I +---------+ rozsomak 19 -+ I I I menyet 18 -+-------+-----------+ I borz 20 -+ I I I tengeri vidra 22 ---------+ +---------+ szurke foka 27 ---------+ I I folyami vidra 21 ---------+ I I premes foka 25 -+-------------------+ I oroszlan foka 26 -+ I I elefant foka 28 ---------------------+ I mosomedve 16 ---------------------+ I vakond 2 -------------------------------+

77

Kanonikus korreláció elemzés Többszörös regresszió elemzés általánosítása. Sokszor két természetes csoportot alkotnak a változók és a két csoport közötti kapcsolatot szereténk vizsgálni. Példa: 16 Euphydryas editha lepke kolónia Kaliforniából és Oregonból. Minden kolónia esetén ismert 4 környezeti változó és 6 génfrekvencia érték. Kérdés: milyen kapcsolatban vannak egymással a környezeti és genetikus tényezők? Változók: Alt – Tengerszint feletti magasság (láb)

prec- éves csapadék mennyiség max – Éves max. hőmérséklet (°F) min – Éves min. hőmérséklet (°F) F0.40-F1.30 Pgi mibility gene frequencies (%)

Colony Alt prec max min F0.40 F0.60 F0.80 F1.00 F1.16 F1.30

SS 500 43 98 17 0 3 22 57 17 1

SB 800 20 92 32 0 16 20 38 13 13

WSB 570 28 98 26 0 6 28 46 17 3

JRC 550 28 98 26 0 4 19 47 27 3

JRH 550 28 98 26 0 1 8 50 35 6

SJ 380 15 99 28 0 2 19 44 32 3

CR 930 21 99 28 0 0 15 50 27 8

UO 650 10 101 27 10 21 40 25 4 0

LO 600 10 101 27 14 26 32 28 0 0

DP 1500 19 99 23 0 1 6 80 12 1

PZ 1750 22 101 27 1 4 34 33 22 6

MC 2000 58 100 18 0 7 14 66 13 0

IF 2500 34 102 16 0 9 15 47 21 8

AF 2000 21 105 20 3 7 17 32 27 14

GH 7850 42 84 5 0 5 7 84 4 0

GL 10500 50 81 -12 0 3 1 92 4 0

78

Ötlet: Készítsünk olyan lineáris kombinációkat a két csoportban lévő változókból, hogy azok maximálisan korreláltak legyenek. A gyakorlatban több változó készíthető. Ha van p ( pXXX ,...,, 21 ) és q ( qYYY ,...,, 21 ) standardizált változónk a két csoportban, akkor min(p,q) ilyen lineáris kombináció készíthető. Azaz

pipiii XaXaXaU +++= ...2211 ri ,...,2,1=

pipiii YaYaYaV +++= ...2211 ahol r = min(p,q) Úgy választjuk meg az együtthatókat, hogy az U1 és V1 korrelációja maximális legyen, U2 és V2 korrelációja maximális legyen olyan módon, hogy nem korreláltak U1 –gyel és V1-gyel, stb... Ilyen módon minden (Ui és Vi) a kapcsolat különböző „dimenzióit” méri. Az első pár korrelációja a legnagyobb. A számítás menete Elkészítünk egy (p+q)×(p+q) dimenziós korrelációs mátrixot a változóinkból:

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

BC

CA

YYXX

YYYXXX

T

q

p

qp

M

LLL

M

1

1

2121

79

Kiszámítható egy B-1CTA-1C mátrix kiszámíthatóak ennek a sajátértékei. Bebizonyítható, hogy a 1λ > 2λ >...> rλ , a kanonikus változók korrelációinak (kanonikus korrelációk) négyzetei. A hozzájuk tartozó b1,b2,...,br sajátvektorok pedig az Yi-k együtthatói. Az Xi-k együtthatóit az ai = A-1Cbi vektor komponensei adják. A sajátértékek azt mutatják meg, hogy a független változók mennyit magyaráznak a függőkből az adott dimenzióban. Szignifikancia tesztek Ha r sajátértékünk van, akkor r kanonikus változó párunk van. Ezek közül sok olyan kicsi, hogy már nem szignifikáns. A Wilk’s féle tesztet használjuk annak eldöntésére, hogy hány szignifikáns változó párunk van. A szabadsági foka p*q.

Feltételek

Általában ugyanazok mint a MANOVA esetén:

• linearitás • homoscedasticity • intervallum vagy legalábbis közel intervallum skálán mért

változók • nem túl erős kollinearitás • többváltozós normalitás

80

SPSS megvalósítás Menüből nem lehet, csak szintaxisból: INCLUDE 'C:\Program Files\SPSS\Canonical correlation.sps'. CANCORR SET1=Alt prec max min / SET2=F0.40 F0.60 F0.80 F1.00 F1.16/ . Példa

Az utolsó frekvencia változó nem kell, mert a 6 együtt 100%-

ot ad ki. Az output: Korrelációs mátrixok (A, B és C) Kanonikus korrelációk (sajátértékek négyzetgyöke):

Canonical Correlations Sajátértékek 1 .879 0.773 2 .746 0.557 3 .412 0.169 4 .217 0.047 Teszetk: Test that remaining correlations are zero: Wilk's Chi-SQ DF Sig. 1 .080 25.316 20.000 .190 2 .351 10.482 12.000 .574 3 .791 2.340 6.000 .886 4 .953 .484 2.000 .785 Egyik kanonikus változó sem szignifikáns. Nincs bizonyítva a kapcsolat. Valószínűleg túl kicsi a minta.

81

Standardizált együtthatók. A nagysága a változó súlyát jelenti a kanonikus változóban. Standardized Canonical Coefficients for Set-1 1 2 3 4 Alt .114 -.778 3.654 1.594 prec -.619 .980 .601 .860 max .693 -.562 .565 1.599 min -.048 .928 3.623 .742

43211 048.0693.0619.0114.0 XXXXU −+−=

Együtthatók: Raw Canonical Coefficients for Set-1 1 2 3 4 Alt .000 .000 .001 .001 prec -.044 .070 .043 .061 max .109 -.088 .089 .250 min -.004 .085 .331 .068

Standardized Canonical Coefficients for Set-2 1 2 3 4 F0.40 .675 -1.087 -1.530 .284 F0.60 -.909 3.034 -2.049 -2.331 F0.80 -.376 2.216 -2.231 -.867 F1.00 -1.442 3.439 -4.916 -1.907 F1.16 -.269 2.928 -3.611 -1.133 Raw Canonical Coefficients for Set-2 1 2 3 4 F0.40 .163 -.263 -.370 .069 F0.60 -.121 .405 -.273 -.311 F0.80 -.035 .206 -.207 -.080 F1.00 -.072 .171 -.245 -.095 F1.16 -.025 .272 -.335 -.105

82

Az 1. kanonikus változókban az láthatjuk, hogy a max hőmérséklet és a prec nagy negatív együtthatója, valamint az F0.60-F1.16 meg nem léte korrelált. Canonical Loadings for Set-1 1 2 3 4 Alt -.766 -.624 .137 .065 prec -.853 .155 -.148 .476 max .861 .280 -.142 .401 min .780 .561 .185 -.207

Az 1. kanonikus változó magas max. és min. hőmérséklettel, és alacsony magassággal és csapadék mennyiséggel korrelál. A kanonikus változó és az eredeti változók közötti korreláció. (Faktor struktúra). Négyzete méri az adott változó magyarázó hatását a kanonikus változóra nézve. 3 célra használjuk:

Interpretáció. Azon változókat, amelyeknek a korrelációja 0.3 felett van, tekintjük úgy hogy hozzájárulnak lényegesen a változóhoz.

Canonical Loadings for Set-2 1 2 3 4 F0.40 .568 -.433 -.220 -.657 F0.60 .387 -.164 .120 -.899 F0.80 .703 .209 .069 -.411 F1.00 -.922 -.243 -.191 .231 F1.16 .361 .478 -.035 .728

A 2. csoport esetén az F1.00-val negatív a korreláció, a többivel pozitív. Így úgy tűnik, hogy a magas max. és min. hőmérséklet, és alacsony magasság és csapadék mennyiség az F1.00 hiányával korrelál.

83

Redundancy Analysis: Proportion of Variance of Set-1 Explained by Its Own Can. Var. Prop Var CV1-1 .666 CV1-2 .202 CV1-3 .024 CV1-4 .109

Redundancia együttható: Rd, Azt méri, hogy az egyik változó csoport varianciája mennyire jósulható a másik csoport egy kanonikus változójából. Magas redundancia jó prediktáló képességet jelent.

-7,00 -6,00 -5,00 -4,00

S2_CV001

7,00

8,00

9,00

10,00

11,00

S1_C

V001

84

többváltozós problémák · 2. egyiptomi koponyák . thébából származó férfi koponyák 5...

Documents