1 analisis multivariat
DESCRIPTION
modulTRANSCRIPT
![Page 1: 1 Analisis Multivariat](https://reader036.vdocuments.net/reader036/viewer/2022072001/563db7ac550346aa9a8ce3ee/html5/thumbnails/1.jpg)
2/23/2015
1
ANALISISMULTIVARIAT (MPM-6D8)Dadan Kusnandar, Ph.D.
Jurusan Matematika
FMIPA Universitas Tanjungpura
1
POKOK BAHASAN & BAHAN BACAAN
� Aspek analisis multivariat
� Data Screening
� Analisis Komponen utama
� Analisis Faktor
� Analisis Diskriminan
� Analisis Klaster
� Manova
� Bahan BacaanJohnson, R.A. and D.W. Wichern. 2002. Applied Multivariate Statistical Analysis. 5th Ed. Prentice-Hall, Inc. Upper Saddle River, NJ 2
![Page 2: 1 Analisis Multivariat](https://reader036.vdocuments.net/reader036/viewer/2022072001/563db7ac550346aa9a8ce3ee/html5/thumbnails/2.jpg)
2/23/2015
2
ASPEK ANALISISMULTIVARIAT3
PENDAHULUAN
� Peran analisis multivariat di dalam penyelidikan
ilmiah, diantaranya adalah� Data reduction or structural simplification:
penyederhanaan tanpa mengorbankan informasi berharga
� Sorting and grouping: pengelompokan objek serupa
dilakukan berdasarkan atas ciri-ciri yang terukur
� Investigation of dependence among variables: menganalisis
hubungan antar variabel
� Prediction: menentukan hubungan antar variabel untuk
keperluan pendugaan satu atau beberapa variabel
berdasarkan pengamatan pada variabel lainnya
� Hypothesis construction and testing: melakukan pengujian
hipotesis terhadap parameter dari populasi multivariat
4
![Page 3: 1 Analisis Multivariat](https://reader036.vdocuments.net/reader036/viewer/2022072001/563db7ac550346aa9a8ce3ee/html5/thumbnails/3.jpg)
2/23/2015
3
DATA
Variabel 1 Variabel 2 … Variabel k … Variabel p
Item 1: x11 x12 … x1k … x1p
Item 2: x21 x22 … x2k … x2p...
......
......
Item j xj1 xj2 … xjk … xjp...
......
......
Item n xn1 xn2 … xnk … xnp
=×
npnknn
jpjkjj
pk
pk
pn
xxxx
xxxx
xxxx
xxxx
⋯⋯
⋮⋮⋮⋮
⋯⋯
⋮⋮⋮⋮
⋯⋯
⋯⋯
21
21
222221
111211
X
5
STATISTIK SAMPEL
� Rata-rata sampel:
� Varians
� Kovarians:
� Koefisien korelasi
pkxxn
jjknk ,,2,1 mana di
1
1 ⋯== ∑=
( ) pkxxssn
jkjknkkk ,,2,1 mana di
1
212⋯=−== ∑
=
( )( ) pkpixxxxsn
jkjkijinik ,,2,1dan ,,2,1
1
1 ⋯⋯ ==−−= ∑=
kkii
ikik
ss
sr = 6
![Page 4: 1 Analisis Multivariat](https://reader036.vdocuments.net/reader036/viewer/2022072001/563db7ac550346aa9a8ce3ee/html5/thumbnails/4.jpg)
2/23/2015
4
STATISTIK SAMPEL DALAM NOTASI
MATRIKS
� Rata-rata sampel:
� Varians-kovarians sampel
� Korelasi sampel
=
px
x
x
⋮
2
1
x
=
pppp
p
p
n
sss
sss
sss
⋯
⋮⋱⋮⋮
⋯
⋯
21
22221
11211
S
=
1
1
1
21
221
112
⋯
⋮⋱⋮⋮
⋯
⋯
pp
p
p
rr
rr
rr
R
7
CONTOH
A selection of four receipts from a university bookstore was obtained in order to investigate the nature of book sales. Each receipt provided the number of book sold and the total amount of each sale. Suppose the data are as follows:
Variable 1 (dollar sales): 42 52 48 58
Variable 2 (number of books): 4 5 4 3
−
−=
−
−=
=
136.0
36.01
5.05.1
5.134
4
50RSx n
8
![Page 5: 1 Analisis Multivariat](https://reader036.vdocuments.net/reader036/viewer/2022072001/563db7ac550346aa9a8ce3ee/html5/thumbnails/5.jpg)
2/23/2015
5
DATA SCREENING9
PENDAHULUAN
� Data screening dilakukan segera setelah data
dikumpulkan sebelum analisis data yang utama
dijalankan
� Sangat menyita waktu dan membosankan, akan
tetapi merupakan hal yang fundamental untuk
mendapatkan hasil yang sahih
10
![Page 6: 1 Analisis Multivariat](https://reader036.vdocuments.net/reader036/viewer/2022072001/563db7ac550346aa9a8ce3ee/html5/thumbnails/6.jpg)
2/23/2015
6
IMPORTANT ISSUES
� Accuracy of data file
� Honest correlation
� Missing data
� Outlier
11
ACCURACY OF DATA FILE
�Periksa dan bandingkan data asal dengan
file data setelah diinput ke komputer
�Gunakan teknik2 dalam EDA
Questions to raise:
�are all values within range?
�are mean and standard deviation
plausible?
�are there any out-of-range numbers?12
![Page 7: 1 Analisis Multivariat](https://reader036.vdocuments.net/reader036/viewer/2022072001/563db7ac550346aa9a8ce3ee/html5/thumbnails/7.jpg)
2/23/2015
7
INFLATED CORRELATION
Variabel komposit adalah variabel yang
dibangkitkan dengan cara menggabungkan
respons dari beberapa item. Korelasi
antarvariabel komposit cenderung
‘menggelembung’ (inflated) terutama jika
item-item tsb digunakan secara berulang.
Consider using only one of the composite
variable if there is enough overlap
Examples of composite variables:
measure of economic status, health indices 13
DEFLATED CORRELATION
A falsely small correlation between two variables is obtained if the range of response to one or both of the variable is restricted in the sample
Jika kisaran nilai dari suatu variabel sangat sempit karena pembatasan dalam sampling, maka nilainya bisa dikatakan konstan dan tidak akan menghasilkan nilai korelasi yang tinggi dengan variabel lain
14
![Page 8: 1 Analisis Multivariat](https://reader036.vdocuments.net/reader036/viewer/2022072001/563db7ac550346aa9a8ce3ee/html5/thumbnails/8.jpg)
2/23/2015
8
MISSING DATA
Data hilang terjadi ketika satuan percobaan rusak, e.g. tanaman/binatang mati, peralatan tidakberfungsi dengan baik, atau responden menolakmenjawab
Serius atau tidaknya akibat dari data hilangtergantung pada:
� Pola data hilang tersebut: data hilang yang tersebartidak secara acak dalammatriks data dapat berakibatlebih serius dibandingkan dengan yang tersebarsecara acak
� Berapa banyak data yang hilang
� Kenapa data tersebut hilang15
MISSING DATA ….
MEMBUANG KASUS ATAU VARIABEL
�Drop any cases with missing data
jika hanya beberapa kasus yang memiliki
data hilang dan kelihatannya seperti sub-
sampel acak dari seluruh sampel
�Drop any variables with missing data
jika data yang hilang terkonsentrasi pada
sebagian kecil variabel dan variabel
tersebut tidak terlalu memberikan
pengaruh terhadap analisis, atau variabel
tersebut berkorelasi tinggi dengan
variabel lainnya16
![Page 9: 1 Analisis Multivariat](https://reader036.vdocuments.net/reader036/viewer/2022072001/563db7ac550346aa9a8ce3ee/html5/thumbnails/9.jpg)
2/23/2015
9
MISSING DATA ….
MENDUGA DATA HILANG
�Gunakan pengetahuan sebelumnya
�Substitusi dengan rata-ratanya
�Gunakan regresi
�Gunakan metode pendugaan lain (e.g.,
expectation maximization method,
multiple imputation, hot decking)
17
MISING DATA …
Ulangi analisis dengan dan tanpa
data hilang….
18
![Page 10: 1 Analisis Multivariat](https://reader036.vdocuments.net/reader036/viewer/2022072001/563db7ac550346aa9a8ce3ee/html5/thumbnails/10.jpg)
2/23/2015
10
PENCILAN
Sebuah pencilan (outlier) adalah suatu kasus dengan nilai yang ekstrim pada suatu variabel atau kombinasi yang’aneh’ dari dua atau lebih variabel sehingga mengganggu analisis
Beberapa sebab terjadinya pencilan:
� Kesalahan data entry
� Kekeliruan menentukan kode bagi data hilang ke dalam computer syntax
� Bukan anggota populasi yang diamati
� Anggota populasi tetapi nilainya memang ekstrim
19
UNIVARIATE DAN MULTIVARIATE
OUTLIERS
� A 15-year-old is perfectly within bound regarding
age
� Someone who earns Rp10 millions a month is in
bounds regarding income
� But, a 15-year-old who earns Rp10 millions a
month is very unusual and is likely to be a
multivariate outlier
20
![Page 11: 1 Analisis Multivariat](https://reader036.vdocuments.net/reader036/viewer/2022072001/563db7ac550346aa9a8ce3ee/html5/thumbnails/11.jpg)
2/23/2015
11
MENDETEKSI UNIVARIATE OUTLIERS
�Hitung nilai baku, z,
kasus dengan nilai baku lebih besar dari
3.29 (p < .001, two-tailed test) adalah
potential outlier
�Gunakan metode grafis, seperti,
histogram, box plot, or the stem-and-leaf
diagram
σµ−
=x
z
21
DETECTING MULTIVARIATE OUTLIERS
�Mahalanobis distance is the distance of a case from the centroid of the remaining cases. (the centroid is the point created at the intersection of the means of all the variables)
�Leverage is related to Mahalanobis distance. Cases with high leverage are far from others
�Discrepancy measures the extent to which a case is in line with the others
22
![Page 12: 1 Analisis Multivariat](https://reader036.vdocuments.net/reader036/viewer/2022072001/563db7ac550346aa9a8ce3ee/html5/thumbnails/12.jpg)
2/23/2015
12
DIAGRAM PENCAR (SCATTER PLOT)
� Grafik adalah salah satu alat bantu yang penting, tetapi seringkali diabaikan, dalam analisis data
Variabel 1 (x1): 3 4 2 6 8 2 5
Variabel 2 (x2): 5 5.5 4 7 10 5 7.5
23
DIAGRAM PENCAR (SCATTER PLOT)…..
� Data Variabel 1 dalam slide 23 ditata ulang
Variabel 1 (x1): 5 4 6 2 2 8 3
Variabel 2 (x2): 5 5.5 4 7 10 5 7.5
24
![Page 13: 1 Analisis Multivariat](https://reader036.vdocuments.net/reader036/viewer/2022072001/563db7ac550346aa9a8ce3ee/html5/thumbnails/13.jpg)
2/23/2015
13
DATA TABLE 1.2 (JOHNSON & WICHERN, 2002)
25� C1 = density (grams/cubic centimeter)
� C2 = strength (pounds) in machine direction
� C2 = strength (pounds) in cross direction
MATRIX PLOT
� Data dalam Table 1.2 (Johnson & Wichern, 2002)
26
![Page 14: 1 Analisis Multivariat](https://reader036.vdocuments.net/reader036/viewer/2022072001/563db7ac550346aa9a8ce3ee/html5/thumbnails/14.jpg)
2/23/2015
14
BOX PLOT
� Data dalam Table 1.2 (Johnson & Wichern, 2002)
27
DATA TABLE 1.3 (JOHNSON & WICHERN, 2002)
28
![Page 15: 1 Analisis Multivariat](https://reader036.vdocuments.net/reader036/viewer/2022072001/563db7ac550346aa9a8ce3ee/html5/thumbnails/15.jpg)
2/23/2015
15
PLOT 3D
� Data dalam Table 1.3 (Johnson & Wichern, 2002)
29
PLOT 3D …
� Data dalam Table 1.3 (Johnson & Wichern, 2002)
30
![Page 16: 1 Analisis Multivariat](https://reader036.vdocuments.net/reader036/viewer/2022072001/563db7ac550346aa9a8ce3ee/html5/thumbnails/16.jpg)
2/23/2015
16
EUCLIDEAN DISTANCE
� Teknik multivariat umumnya berdasarkan atas konsepsederhana dari jarak:Misalkan P = (x1, x2) adalah sebuah titik dalam bidang. Jarak Euclidean dari P ke titik asal O = (0, 0) menurut DalilPythagoras adalah
Secara umum, jika titik P mempunyai koordinat p, sehinggaP = (x1, x2, …, xp), maka jarak Euclidean dari P ke titik asalO = (0, 0, …, 0) adalah
� Jarak Euclidean antara dua titik sembarang P dan Q dengankoordinat P = (x1, x2, …, xp) dan Q = (y1, y2, …, yp) adalah
( ) 22
21, xxPOd +=
( ) 222
21, pxxxPOd +++= ⋯
( ) ( ) ( ) ( )2222
211, pp yxyxyxQPd −++−+−= ⋯
31
STATISTICAL DISTANCE
� Dalam Euclidean distance setiap koordinat
memberikan kontribusi yang sama terhadap
perhitungan jarak, tanpa mempertimbangkan
hadirnya random fluctuation atau besaran yang
berbeda
� Diperlukan suatu ukuran jarak yang
memperhitungkan perbedaan dalam keragaman
atau adanya korelasi, ukuran tersebut adalah
statistical distance
32
![Page 17: 1 Analisis Multivariat](https://reader036.vdocuments.net/reader036/viewer/2022072001/563db7ac550346aa9a8ce3ee/html5/thumbnails/17.jpg)
2/23/2015
17
STATISTICAL DISTANCE … ilustrasi….
� Pengukuran variabel x1bersifat bebas (independent) dari pengukuran variabel x2
� Keragaman dalam arahvariabel x1 lebih besar darikeragaman dalam arahvariabel x2
x1
x2
� Standarisasi setiap koordinat dengan cara membaginya
dengan simpangan bakunya masing-masing:
� Statistical distance dari titik P = (x1, x2) ke titik asal
O = (0, 0) adalah
22
2*2
11
1*1 dan
s
xx
s
xx ==
( ) ( ) ( )22
22
11
21
2*2
2*1,
s
x
s
xxxPOd +=+=
33
STATISTICAL DISTANCE …
� Secara umum, jika diasumsikan bahwa variabel
koordinat bersifat bebas satu dengan lainnya,
maka statistical distance dari suatu titik
sembarang P = (x1, x2) ke setiap titik tetap (fixed
point) Q = (y1, y2) adalah
� Statistical distance untuk sistem koordinat lebih
dari dua dimensi, yaitu P = (x1, x2 , … xp) dan Q =
(y1, y2 , … yp) adalah:
( ) ( ) ( )22
222
11
211,
s
yx
s
yxQPd
−+
−=
( ) ( ) ( ) ( )pp
pp
s
yx
s
yx
s
yxQPd
2
22
222
11
211,
−++
−+
−= ⋯
34
![Page 18: 1 Analisis Multivariat](https://reader036.vdocuments.net/reader036/viewer/2022072001/563db7ac550346aa9a8ce3ee/html5/thumbnails/18.jpg)
2/23/2015
18
PENGUKURAN YANG TIDAK SALING BEBAS
� Pasangan koordinat
(x1, x2) cenderung
untuk besar atau kecil
secara bersama-sama
dan koefisien korelasi
sampelnya positif
x1
x2
� Keragaman dalam arah x1 lebih besar daripadaarah x2
� Jika sumbu sistem koordinat tersebut diputardengan sudut θ, maka sistem koordinat yang baru dengan sumbu menyerupai sistempada slide 33
21~dan ~ xx
35
PENGUKURAN YANG TIDAK SALING BEBAS …
� Dengan cara yang sama, jarak dari titik
ke titik asal O = (0, 0) adalah
di mana adalah varians sample yang
dihitung dengan pengukuran
� Hubungan antara koordinat asal (x1, x2) dengan
koordinat hasil putaran adalah sbb
( )22
22
11
21
~
~
~
~,
s
x
s
xPOd +=
2211~~ ss dan
21~~ xx dan
( )21~~ xxP ,
( ) ( )
( ) ( )θθ
θθ
cossin~
sincos~
212
211
xxx
xxx
+−=
+=
36
![Page 19: 1 Analisis Multivariat](https://reader036.vdocuments.net/reader036/viewer/2022072001/563db7ac550346aa9a8ce3ee/html5/thumbnails/19.jpg)
2/23/2015
19
PENGUKURAN YANG TIDAK SALING BEBAS …
� Dengan manipulasi aljabar, jarak dari titik
ke titik asal O = (0, 0) dapat dituliskan dalam
bentuk koordinat asal x1 dan x2 sebagai berikut
di mana aij adalah nilai-nilai yang ditentukan
berdasarkan besaran sudut θ, s11, s12 dan s22 yang
dihitung dari data asli.
� Secara umum, ketika variabelnya saling
berkorelasi, statistical distance dari suatu titik
sembarang P = (x1, x2) ke setiap titik tetap (fixed
point) Q = (y1, y2) adalah
( ) 22222112
2111 2, xaxxaxaPOd ++=
( )21~~ xxP ,
( ) ( ) ( )( ) ( )222222211122
1111 2, yxayxyxayxaQPd −+−−+−=37
PENGUKURAN YANG TIDAK SALING BEBAS …
� Misalkan P = (x1, x2, …, xp) adalah suatu titik yang
koordinatnya merupakan variabel yang saling
berkorelasi; misalkan pula O = (0, 0, …0) adalah
titik nol dan Q = (y1, y2 , …, yp) adalah titik tetap
(fixed point) tertentu, maka jarak dari P ke O dan
dari P ke Q adalah sbb:
( )
( ) ( ) ( ) ( )( )( ) ( )( )pppppp
pppp
pppp
ppp
yxyxayxyxa
yxayxayxaQPd
xxaxxa
xxaxaxaxaPOd
−−++−−+−++−++−=
+++++++=
−−−
−−
11,1221112
222222
21111
1,13113
211222
2222111
22,
22
2,
⋯
⋯
⋯
⋯
dan
38