mitmemõõtmelised meetodid ( multivariate methods )
DESCRIPTION
Mitmemõõtmelised meetodid ( multivariate methods ) Peakomponentanalüüs ( principal component analysis ). Idee - asendame hulk omavahel korreleeruvaid muutujaid vähema arvu muutujatega, teeb elu lihtsamaks. Mispidi andmepilv välja venitatud, sinna telg. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Mitmemõõtmelised meetodid ( multivariate methods )](https://reader035.vdocuments.net/reader035/viewer/2022081421/568145d4550346895db2d8f7/html5/thumbnails/1.jpg)
Mitmemõõtmelised meetodid (multivariate methods)
Peakomponentanalüüs (principal component analysis). Idee -asendame hulk omavahel korreleeruvaid muutujaid vähema arvu muutujatega, teeb elu lihtsamaks. Mispidi andmepilv välja venitatud, sinna telg.
Component score – koordinaat sellel uuel teljel.
Z1 = a1X1 + a2X2 + a3X3+ ....
Uus muutuja vanade lineaarkombinatsioon.
Ei testi midagi, eeltöö muudeks testideks.
![Page 2: Mitmemõõtmelised meetodid ( multivariate methods )](https://reader035.vdocuments.net/reader035/viewer/2022081421/568145d4550346895db2d8f7/html5/thumbnails/2.jpg)
Olukord, kus arvutame ühe peakomponendi.
Loodusest püütud liblika vanus- ei saa otse mõõta.
Sellega korreleerub usutavasti, kuid üksi ei iseloomusta:- kulunud olemine;- katki olemine;- kuupäev.
nr kulumus katkisus kuupäev suurus mune
1 5 4 1 3 100 2 6 2 1 2 90 3 8 6 5 3 85 4 9 7 5 2 88 5 10 8 6 1 67 6 8 9 7 2 50 7 9 9 6 3 45 8 11 9 8 4 40 9 13 8 7 3 30
10 15 12 9 2 20
![Page 3: Mitmemõõtmelised meetodid ( multivariate methods )](https://reader035.vdocuments.net/reader035/viewer/2022081421/568145d4550346895db2d8f7/html5/thumbnails/3.jpg)
Kõik korreleeruvad ka omavahel.
Võtame kokku üheks peakomponendiks.
Sellel uuel teljel koordinaat, see ongi hinnatud vanus ja seda kasutame,
Correlation Matrix kulu katki kuup suur kulu 1.0000 0.8208 0.8642 0.0000 katki 0.8208 1.0000 0.9512 0.0000 kuup 0.8642 0.9512 1.0000 0.0733 suur 0.0000 0.0000 0.0733 1.0000
![Page 4: Mitmemõõtmelised meetodid ( multivariate methods )](https://reader035.vdocuments.net/reader035/viewer/2022081421/568145d4550346895db2d8f7/html5/thumbnails/4.jpg)
PCA annab sellised tulemused:
Ehk siis
vanus = 0,56*kulumus+0,58*katkisus+0,59*kuupäev+0,02*suurus.ja iga vaatluse kohta:
1 -2.482 -2.743 -0.644 -0.285 0.30 , ära muretse et miinus
Prin1 kulu 0.560571 katki 0.580470 kuup 0.590094 suur 0.024567
![Page 5: Mitmemõõtmelised meetodid ( multivariate methods )](https://reader035.vdocuments.net/reader035/viewer/2022081421/568145d4550346895db2d8f7/html5/thumbnails/5.jpg)
nr kulumus katkisus kuupäev suurus mune
“vanus”
1 5 4 1 3 100
2.48
2 6 2 1 2 90
-2.74 3 8 6 5 3 85 -0.64 4 9 7 5 2 88 -0.28 5 10 8 6 1 67 0.30 6 8 9 7 2 50 0.38 7 9 9 6 3 45 0.37 8 11 9 8 4 40 1.21 9 13 8 7 3 30 1.13
10 15 12 9 2 20 2.73
![Page 6: Mitmemõõtmelised meetodid ( multivariate methods )](https://reader035.vdocuments.net/reader035/viewer/2022081421/568145d4550346895db2d8f7/html5/thumbnails/6.jpg)
Kasutame, kui muutuja väärtus pole mõõdetav
- tehnilistel põhjustel;
- põhimõtteliselt, nt tuju.
-3 -2 -1 0 1 2 3
hinnang uline vanus
20
40
60
80
100
munetud m
une
![Page 7: Mitmemõõtmelised meetodid ( multivariate methods )](https://reader035.vdocuments.net/reader035/viewer/2022081421/568145d4550346895db2d8f7/html5/thumbnails/7.jpg)
Z1 = a1,1X1 + a1,2X2 + a1,3X3+ ....
Z2 = a2,1X1 + a2,2X2 + ..…
Peakomponent andmepilve telg,aga noid telgi võib olla mitu, üksteisega risti!
Kaks peakomponenti, koosluste klassifitseerimine näitena.
Objektid: metsalaigud;mõõdetud muutujad: eri taimeliikide ohtrused;hinnatavad muutujad: kasvukoha parameetrid.
Olgu neid peamisi kaks – niiskus ja viljakus, arvutame kaks PC ja vastavad PS scored nii:
![Page 8: Mitmemõõtmelised meetodid ( multivariate methods )](https://reader035.vdocuments.net/reader035/viewer/2022081421/568145d4550346895db2d8f7/html5/thumbnails/8.jpg)
Ordination plot::
niiskus
viljakus
![Page 9: Mitmemõõtmelised meetodid ( multivariate methods )](https://reader035.vdocuments.net/reader035/viewer/2022081421/568145d4550346895db2d8f7/html5/thumbnails/9.jpg)
niiskus
viljakus
nõges
kanarbik
Biplot:
![Page 10: Mitmemõõtmelised meetodid ( multivariate methods )](https://reader035.vdocuments.net/reader035/viewer/2022081421/568145d4550346895db2d8f7/html5/thumbnails/10.jpg)
niiskus
viljakus
Canonical correspondence analysis
CCA biplot
valgustatus
![Page 11: Mitmemõõtmelised meetodid ( multivariate methods )](https://reader035.vdocuments.net/reader035/viewer/2022081421/568145d4550346895db2d8f7/html5/thumbnails/11.jpg)
![Page 12: Mitmemõõtmelised meetodid ( multivariate methods )](https://reader035.vdocuments.net/reader035/viewer/2022081421/568145d4550346895db2d8f7/html5/thumbnails/12.jpg)
![Page 13: Mitmemõõtmelised meetodid ( multivariate methods )](https://reader035.vdocuments.net/reader035/viewer/2022081421/568145d4550346895db2d8f7/html5/thumbnails/13.jpg)
Diskriminantanalüüs
- objekti kuulumine klassidesse juba ette teada;
- milline uus muutuja - mõõdetud muutujate lineaarkombinatsioon - võimaldab kõige paremini vahet teha.
Z1 = a1,1X1 + a1,2X2 + a1,3X3+ ....
- selle uue muutuja suhtes koordinaadid igal vaatlusel - ja kriitiline väärtus, mille põhjal otsustatakse uue objekti kuulumine.
![Page 14: Mitmemõõtmelised meetodid ( multivariate methods )](https://reader035.vdocuments.net/reader035/viewer/2022081421/568145d4550346895db2d8f7/html5/thumbnails/14.jpg)
Aegrida (time series analysis)
- mõõdetud sama muutujat hulga ajavahemike tagant;- tulemuseks siksakiline joon.
- autokorrelatsioon - miski aja tagant;- negatiivne- positiivne
– korrelogramm.- trend- perioodilisus, ka korrelogrammilt.
Ennustuskeskne, aga ka muud asjad võimalikud,seose otsimisel ei tohi teha tavalist regressiooni.
Üle 50 vaatluse peab olema.
![Page 15: Mitmemõõtmelised meetodid ( multivariate methods )](https://reader035.vdocuments.net/reader035/viewer/2022081421/568145d4550346895db2d8f7/html5/thumbnails/15.jpg)
... ja ruumiline autokorrelatsioon ka
![Page 16: Mitmemõõtmelised meetodid ( multivariate methods )](https://reader035.vdocuments.net/reader035/viewer/2022081421/568145d4550346895db2d8f7/html5/thumbnails/16.jpg)
Sõltumatu muutuja sõltuv muutuja analüüsid
diskreetne pidev t-test, ANOVA
diskreetne diskreetne sagedustabelite analüüsid: hii-ruut, log-lineaarsed
pidev pidev korrelatsioonid, regressioonid
pidev diskreetne logistiline regressioon
Alustame selle vaatamisest, kas on pidev või mitte.
![Page 17: Mitmemõõtmelised meetodid ( multivariate methods )](https://reader035.vdocuments.net/reader035/viewer/2022081421/568145d4550346895db2d8f7/html5/thumbnails/17.jpg)
Bonferroni korrektsioonimillal - kui ühe alltesti posit tulemus on piisav
järeldamaks laiema hüpoteesi posit tulemust -- kliimasoojenemise mõju taimede kasvukiirusele - 100 liiki.
5%-s sign tulemus juhuslikult ju -
sequential Bonferroni correction,- pane testid tabelisse ritta p-väärtuste kasvamise järjekorras;- esimese testi puhul võrdle saadud p’d väärtusega alfa/k, kus k on testide arv tabelis - kui p on väiksem, kuuluta test oluliseks
ja mine järgmise testi juurde - kui pole, siis kuuluta nii see esimene kui ka kõik järgmised testid mitteoluliseks;
- kui eelmine punkt ‘lubas’ jätkata, siis järgmise testi korral võrdle p’d väärtusega alfa/(k-1) - kui p on väiksem, kuuluta tulemus oluliseks ja mine edasi, kui pole, lõpeta;
- jne, st p’d tuleb võrrelda väärtusega alfa/(k+1-i).
![Page 18: Mitmemõõtmelised meetodid ( multivariate methods )](https://reader035.vdocuments.net/reader035/viewer/2022081421/568145d4550346895db2d8f7/html5/thumbnails/18.jpg)
Testi võimsuseks nimetatakse tõenäosust leida statistiliseltoluline seos antud suurusega valimi põhjal olukorras, kus tegelik seos üldkogumis on nii- või naasugune ja disper-sioonid on ka teada,
- kaks kasutusala- katse planeerimine - kui suur valim võtta?- järeldamaks midagi negatiivsest tulemusest.
Mittesign tulemus iseenesest pole kuigi tugev argument.
NB seose puudumist (või olemist täpselt null vms.) ei saa tõestada!
![Page 19: Mitmemõõtmelised meetodid ( multivariate methods )](https://reader035.vdocuments.net/reader035/viewer/2022081421/568145d4550346895db2d8f7/html5/thumbnails/19.jpg)
Saab tõestada, et pole suurem kui miski (biol relevantne väärtus),
-ei saanud seost statistiliselt oluliseks, kui aga seos oleksolnud tugevam kui ...., oleks selle oluliseks saamineolnud väga tõenäone, kuna me aga ei saanud, siis ju siis üldkogumis nii tugevat seost ei olnud;
ei kuulu standardprotseduuride hulka;
Lihtsam viis - parameetrite usalduspiirid.
![Page 20: Mitmemõõtmelised meetodid ( multivariate methods )](https://reader035.vdocuments.net/reader035/viewer/2022081421/568145d4550346895db2d8f7/html5/thumbnails/20.jpg)
Hüpoteesi testimine:
nullhüpotees ja sisukas hüpotees:
HO: - erinevust pole;
H1: - erinevus on;
Esimest tüüpi viga (type I error): kuulutame H1 õigeks, kui ta tegelikult pole;
Teist tüüpi viga (type II error): jääme HO juurde, kuigi tegelt on H1 õige.
![Page 21: Mitmemõõtmelised meetodid ( multivariate methods )](https://reader035.vdocuments.net/reader035/viewer/2022081421/568145d4550346895db2d8f7/html5/thumbnails/21.jpg)
Informatsioonikriteeriumid mudeli valimisel,
AIC – Akaike Information Criterion, IT-approach;
rakendub olukordades, kus uurime, millest kõigestmõõdetust sõltuv tunnus sõltub, kase kõrgus metsas....
mitte katses.
Saab võrrelda erinevaid mudeleid nende delta-i’de alusel,
parimaks kuulutada see, mille AIC on väikseim, - mitte ainult R-ruudu põhjal – keerulisemal alati suurem R-ruut, keerulisusest saab miinuseid; - mitte üksikute efektide p-väärtuste põhjal. .... teeme järeldused kas parimast mudelist või mitmest piisavalthästi sobivast mudelist – kaalud w. .
![Page 22: Mitmemõõtmelised meetodid ( multivariate methods )](https://reader035.vdocuments.net/reader035/viewer/2022081421/568145d4550346895db2d8f7/html5/thumbnails/22.jpg)
Bayesi statistika
“.... p on tõenäosus, et valimis nähtav seos on saadud juhuslikult”
“... tõenäosusega p üldkogumis seost ei ole.”
.... täringuga viskame kuue,.... tavatäringu korral tõenäosus 16,7%, see on p.
... pole ju tõenäosus, et täring on OK.
Aga kui teame, et pooltel juhtudel kasutab sohitäringut, saamejäreldada, et
85,7% vs 14,3%
![Page 23: Mitmemõõtmelised meetodid ( multivariate methods )](https://reader035.vdocuments.net/reader035/viewer/2022081421/568145d4550346895db2d8f7/html5/thumbnails/23.jpg)
Saame täringuga „kuue“; tõenäosus, et on sohitäring (või siisOK täring) sõltub - tõenäosusest saada „6“ õige täringuga; - tõenäosusest, et kasutatakse sohitäringut;
Samamoodi, tõenäosus, et üldkogumis r>0, sõltub kahest asjast; - tõenäosusest saada valimi r olukorras, kus r>0; - selliste üldkogumite esinemise tõenäosusest (sagedusest), kus r>0;
Kui teist asja teame, saame öelda, et tõenäosusega …. on üldkogum, kus r>0, nagu saime öelda, et tõenäosusega … on sohitäring.
![Page 24: Mitmemõõtmelised meetodid ( multivariate methods )](https://reader035.vdocuments.net/reader035/viewer/2022081421/568145d4550346895db2d8f7/html5/thumbnails/24.jpg)
Bayes’i statistika,
... meil on eelnev teave sellest, milline parameetriväärtus on kui tõenäone;
.... valimi põhjal muudame oma arusaama;
... tõenäosusega 99% on positiivne seos;
.... tavalist p väärtust nii ei tõlgenda!
![Page 25: Mitmemõõtmelised meetodid ( multivariate methods )](https://reader035.vdocuments.net/reader035/viewer/2022081421/568145d4550346895db2d8f7/html5/thumbnails/25.jpg)
******************************************************
Päris ausalt peaks hüpotees olema olemas enne andmete vaatamist -
******************************************************
statistika ülesanne pole vastata küsimusele seose põhjuslikkuse kohta.
****************************************************************
![Page 26: Mitmemõõtmelised meetodid ( multivariate methods )](https://reader035.vdocuments.net/reader035/viewer/2022081421/568145d4550346895db2d8f7/html5/thumbnails/26.jpg)
- ühes rühmas on seos oluline, teises mitte;
Vormistamine:
- täpsus!
- nähtavus!
- tabel!