1 analisis multivariat

19
2/23/2015 1 ANALISIS MULTIVARIAT (MPM-6D8) Dadan Kusnandar, Ph.D. Jurusan Matematika FMIPA Universitas Tanjungpura 1 POKOK BAHASAN & BAHAN BACAAN Aspek analisis multivariat Data Screening Analisis Komponen utama Analisis Faktor Analisis Diskriminan Analisis Klaster Manova Bahan Bacaan Johnson, R.A. and D.W. Wichern. 2002. Applied Multivariate Statistical Analysis. 5 th Ed. Prentice-Hall, Inc. Upper Saddle River, NJ 2

Upload: ade-rismayanti

Post on 03-Dec-2015

214 views

Category:

Documents


2 download

DESCRIPTION

modul

TRANSCRIPT

Page 1: 1 Analisis Multivariat

2/23/2015

1

ANALISISMULTIVARIAT (MPM-6D8)Dadan Kusnandar, Ph.D.

Jurusan Matematika

FMIPA Universitas Tanjungpura

1

POKOK BAHASAN & BAHAN BACAAN

� Aspek analisis multivariat

� Data Screening

� Analisis Komponen utama

� Analisis Faktor

� Analisis Diskriminan

� Analisis Klaster

� Manova

� Bahan BacaanJohnson, R.A. and D.W. Wichern. 2002. Applied Multivariate Statistical Analysis. 5th Ed. Prentice-Hall, Inc. Upper Saddle River, NJ 2

Page 2: 1 Analisis Multivariat

2/23/2015

2

ASPEK ANALISISMULTIVARIAT3

PENDAHULUAN

� Peran analisis multivariat di dalam penyelidikan

ilmiah, diantaranya adalah� Data reduction or structural simplification:

penyederhanaan tanpa mengorbankan informasi berharga

� Sorting and grouping: pengelompokan objek serupa

dilakukan berdasarkan atas ciri-ciri yang terukur

� Investigation of dependence among variables: menganalisis

hubungan antar variabel

� Prediction: menentukan hubungan antar variabel untuk

keperluan pendugaan satu atau beberapa variabel

berdasarkan pengamatan pada variabel lainnya

� Hypothesis construction and testing: melakukan pengujian

hipotesis terhadap parameter dari populasi multivariat

4

Page 3: 1 Analisis Multivariat

2/23/2015

3

DATA

Variabel 1 Variabel 2 … Variabel k … Variabel p

Item 1: x11 x12 … x1k … x1p

Item 2: x21 x22 … x2k … x2p...

......

......

Item j xj1 xj2 … xjk … xjp...

......

......

Item n xn1 xn2 … xnk … xnp

npnknn

jpjkjj

pk

pk

pn

xxxx

xxxx

xxxx

xxxx

⋯⋯

⋮⋮⋮⋮

⋯⋯

⋮⋮⋮⋮

⋯⋯

⋯⋯

21

21

222221

111211

X

5

STATISTIK SAMPEL

� Rata-rata sampel:

� Varians

� Kovarians:

� Koefisien korelasi

pkxxn

jjknk ,,2,1 mana di

1

1 ⋯== ∑=

( ) pkxxssn

jkjknkkk ,,2,1 mana di

1

212⋯=−== ∑

=

( )( ) pkpixxxxsn

jkjkijinik ,,2,1dan ,,2,1

1

1 ⋯⋯ ==−−= ∑=

kkii

ikik

ss

sr = 6

Page 4: 1 Analisis Multivariat

2/23/2015

4

STATISTIK SAMPEL DALAM NOTASI

MATRIKS

� Rata-rata sampel:

� Varians-kovarians sampel

� Korelasi sampel

=

px

x

x

2

1

x

=

pppp

p

p

n

sss

sss

sss

⋮⋱⋮⋮

21

22221

11211

S

=

1

1

1

21

221

112

⋮⋱⋮⋮

pp

p

p

rr

rr

rr

R

7

CONTOH

A selection of four receipts from a university bookstore was obtained in order to investigate the nature of book sales. Each receipt provided the number of book sold and the total amount of each sale. Suppose the data are as follows:

Variable 1 (dollar sales): 42 52 48 58

Variable 2 (number of books): 4 5 4 3

−=

−=

=

136.0

36.01

5.05.1

5.134

4

50RSx n

8

Page 5: 1 Analisis Multivariat

2/23/2015

5

DATA SCREENING9

PENDAHULUAN

� Data screening dilakukan segera setelah data

dikumpulkan sebelum analisis data yang utama

dijalankan

� Sangat menyita waktu dan membosankan, akan

tetapi merupakan hal yang fundamental untuk

mendapatkan hasil yang sahih

10

Page 6: 1 Analisis Multivariat

2/23/2015

6

IMPORTANT ISSUES

� Accuracy of data file

� Honest correlation

� Missing data

� Outlier

11

ACCURACY OF DATA FILE

�Periksa dan bandingkan data asal dengan

file data setelah diinput ke komputer

�Gunakan teknik2 dalam EDA

Questions to raise:

�are all values within range?

�are mean and standard deviation

plausible?

�are there any out-of-range numbers?12

Page 7: 1 Analisis Multivariat

2/23/2015

7

INFLATED CORRELATION

Variabel komposit adalah variabel yang

dibangkitkan dengan cara menggabungkan

respons dari beberapa item. Korelasi

antarvariabel komposit cenderung

‘menggelembung’ (inflated) terutama jika

item-item tsb digunakan secara berulang.

Consider using only one of the composite

variable if there is enough overlap

Examples of composite variables:

measure of economic status, health indices 13

DEFLATED CORRELATION

A falsely small correlation between two variables is obtained if the range of response to one or both of the variable is restricted in the sample

Jika kisaran nilai dari suatu variabel sangat sempit karena pembatasan dalam sampling, maka nilainya bisa dikatakan konstan dan tidak akan menghasilkan nilai korelasi yang tinggi dengan variabel lain

14

Page 8: 1 Analisis Multivariat

2/23/2015

8

MISSING DATA

Data hilang terjadi ketika satuan percobaan rusak, e.g. tanaman/binatang mati, peralatan tidakberfungsi dengan baik, atau responden menolakmenjawab

Serius atau tidaknya akibat dari data hilangtergantung pada:

� Pola data hilang tersebut: data hilang yang tersebartidak secara acak dalammatriks data dapat berakibatlebih serius dibandingkan dengan yang tersebarsecara acak

� Berapa banyak data yang hilang

� Kenapa data tersebut hilang15

MISSING DATA ….

MEMBUANG KASUS ATAU VARIABEL

�Drop any cases with missing data

jika hanya beberapa kasus yang memiliki

data hilang dan kelihatannya seperti sub-

sampel acak dari seluruh sampel

�Drop any variables with missing data

jika data yang hilang terkonsentrasi pada

sebagian kecil variabel dan variabel

tersebut tidak terlalu memberikan

pengaruh terhadap analisis, atau variabel

tersebut berkorelasi tinggi dengan

variabel lainnya16

Page 9: 1 Analisis Multivariat

2/23/2015

9

MISSING DATA ….

MENDUGA DATA HILANG

�Gunakan pengetahuan sebelumnya

�Substitusi dengan rata-ratanya

�Gunakan regresi

�Gunakan metode pendugaan lain (e.g.,

expectation maximization method,

multiple imputation, hot decking)

17

MISING DATA …

Ulangi analisis dengan dan tanpa

data hilang….

18

Page 10: 1 Analisis Multivariat

2/23/2015

10

PENCILAN

Sebuah pencilan (outlier) adalah suatu kasus dengan nilai yang ekstrim pada suatu variabel atau kombinasi yang’aneh’ dari dua atau lebih variabel sehingga mengganggu analisis

Beberapa sebab terjadinya pencilan:

� Kesalahan data entry

� Kekeliruan menentukan kode bagi data hilang ke dalam computer syntax

� Bukan anggota populasi yang diamati

� Anggota populasi tetapi nilainya memang ekstrim

19

UNIVARIATE DAN MULTIVARIATE

OUTLIERS

� A 15-year-old is perfectly within bound regarding

age

� Someone who earns Rp10 millions a month is in

bounds regarding income

� But, a 15-year-old who earns Rp10 millions a

month is very unusual and is likely to be a

multivariate outlier

20

Page 11: 1 Analisis Multivariat

2/23/2015

11

MENDETEKSI UNIVARIATE OUTLIERS

�Hitung nilai baku, z,

kasus dengan nilai baku lebih besar dari

3.29 (p < .001, two-tailed test) adalah

potential outlier

�Gunakan metode grafis, seperti,

histogram, box plot, or the stem-and-leaf

diagram

σµ−

=x

z

21

DETECTING MULTIVARIATE OUTLIERS

�Mahalanobis distance is the distance of a case from the centroid of the remaining cases. (the centroid is the point created at the intersection of the means of all the variables)

�Leverage is related to Mahalanobis distance. Cases with high leverage are far from others

�Discrepancy measures the extent to which a case is in line with the others

22

Page 12: 1 Analisis Multivariat

2/23/2015

12

DIAGRAM PENCAR (SCATTER PLOT)

� Grafik adalah salah satu alat bantu yang penting, tetapi seringkali diabaikan, dalam analisis data

Variabel 1 (x1): 3 4 2 6 8 2 5

Variabel 2 (x2): 5 5.5 4 7 10 5 7.5

23

DIAGRAM PENCAR (SCATTER PLOT)…..

� Data Variabel 1 dalam slide 23 ditata ulang

Variabel 1 (x1): 5 4 6 2 2 8 3

Variabel 2 (x2): 5 5.5 4 7 10 5 7.5

24

Page 13: 1 Analisis Multivariat

2/23/2015

13

DATA TABLE 1.2 (JOHNSON & WICHERN, 2002)

25� C1 = density (grams/cubic centimeter)

� C2 = strength (pounds) in machine direction

� C2 = strength (pounds) in cross direction

MATRIX PLOT

� Data dalam Table 1.2 (Johnson & Wichern, 2002)

26

Page 14: 1 Analisis Multivariat

2/23/2015

14

BOX PLOT

� Data dalam Table 1.2 (Johnson & Wichern, 2002)

27

DATA TABLE 1.3 (JOHNSON & WICHERN, 2002)

28

Page 15: 1 Analisis Multivariat

2/23/2015

15

PLOT 3D

� Data dalam Table 1.3 (Johnson & Wichern, 2002)

29

PLOT 3D …

� Data dalam Table 1.3 (Johnson & Wichern, 2002)

30

Page 16: 1 Analisis Multivariat

2/23/2015

16

EUCLIDEAN DISTANCE

� Teknik multivariat umumnya berdasarkan atas konsepsederhana dari jarak:Misalkan P = (x1, x2) adalah sebuah titik dalam bidang. Jarak Euclidean dari P ke titik asal O = (0, 0) menurut DalilPythagoras adalah

Secara umum, jika titik P mempunyai koordinat p, sehinggaP = (x1, x2, …, xp), maka jarak Euclidean dari P ke titik asalO = (0, 0, …, 0) adalah

� Jarak Euclidean antara dua titik sembarang P dan Q dengankoordinat P = (x1, x2, …, xp) dan Q = (y1, y2, …, yp) adalah

( ) 22

21, xxPOd +=

( ) 222

21, pxxxPOd +++= ⋯

( ) ( ) ( ) ( )2222

211, pp yxyxyxQPd −++−+−= ⋯

31

STATISTICAL DISTANCE

� Dalam Euclidean distance setiap koordinat

memberikan kontribusi yang sama terhadap

perhitungan jarak, tanpa mempertimbangkan

hadirnya random fluctuation atau besaran yang

berbeda

� Diperlukan suatu ukuran jarak yang

memperhitungkan perbedaan dalam keragaman

atau adanya korelasi, ukuran tersebut adalah

statistical distance

32

Page 17: 1 Analisis Multivariat

2/23/2015

17

STATISTICAL DISTANCE … ilustrasi….

� Pengukuran variabel x1bersifat bebas (independent) dari pengukuran variabel x2

� Keragaman dalam arahvariabel x1 lebih besar darikeragaman dalam arahvariabel x2

x1

x2

� Standarisasi setiap koordinat dengan cara membaginya

dengan simpangan bakunya masing-masing:

� Statistical distance dari titik P = (x1, x2) ke titik asal

O = (0, 0) adalah

22

2*2

11

1*1 dan

s

xx

s

xx ==

( ) ( ) ( )22

22

11

21

2*2

2*1,

s

x

s

xxxPOd +=+=

33

STATISTICAL DISTANCE …

� Secara umum, jika diasumsikan bahwa variabel

koordinat bersifat bebas satu dengan lainnya,

maka statistical distance dari suatu titik

sembarang P = (x1, x2) ke setiap titik tetap (fixed

point) Q = (y1, y2) adalah

� Statistical distance untuk sistem koordinat lebih

dari dua dimensi, yaitu P = (x1, x2 , … xp) dan Q =

(y1, y2 , … yp) adalah:

( ) ( ) ( )22

222

11

211,

s

yx

s

yxQPd

−+

−=

( ) ( ) ( ) ( )pp

pp

s

yx

s

yx

s

yxQPd

2

22

222

11

211,

−++

−+

−= ⋯

34

Page 18: 1 Analisis Multivariat

2/23/2015

18

PENGUKURAN YANG TIDAK SALING BEBAS

� Pasangan koordinat

(x1, x2) cenderung

untuk besar atau kecil

secara bersama-sama

dan koefisien korelasi

sampelnya positif

x1

x2

� Keragaman dalam arah x1 lebih besar daripadaarah x2

� Jika sumbu sistem koordinat tersebut diputardengan sudut θ, maka sistem koordinat yang baru dengan sumbu menyerupai sistempada slide 33

21~dan ~ xx

35

PENGUKURAN YANG TIDAK SALING BEBAS …

� Dengan cara yang sama, jarak dari titik

ke titik asal O = (0, 0) adalah

di mana adalah varians sample yang

dihitung dengan pengukuran

� Hubungan antara koordinat asal (x1, x2) dengan

koordinat hasil putaran adalah sbb

( )22

22

11

21

~

~

~

~,

s

x

s

xPOd +=

2211~~ ss dan

21~~ xx dan

( )21~~ xxP ,

( ) ( )

( ) ( )θθ

θθ

cossin~

sincos~

212

211

xxx

xxx

+−=

+=

36

Page 19: 1 Analisis Multivariat

2/23/2015

19

PENGUKURAN YANG TIDAK SALING BEBAS …

� Dengan manipulasi aljabar, jarak dari titik

ke titik asal O = (0, 0) dapat dituliskan dalam

bentuk koordinat asal x1 dan x2 sebagai berikut

di mana aij adalah nilai-nilai yang ditentukan

berdasarkan besaran sudut θ, s11, s12 dan s22 yang

dihitung dari data asli.

� Secara umum, ketika variabelnya saling

berkorelasi, statistical distance dari suatu titik

sembarang P = (x1, x2) ke setiap titik tetap (fixed

point) Q = (y1, y2) adalah

( ) 22222112

2111 2, xaxxaxaPOd ++=

( )21~~ xxP ,

( ) ( ) ( )( ) ( )222222211122

1111 2, yxayxyxayxaQPd −+−−+−=37

PENGUKURAN YANG TIDAK SALING BEBAS …

� Misalkan P = (x1, x2, …, xp) adalah suatu titik yang

koordinatnya merupakan variabel yang saling

berkorelasi; misalkan pula O = (0, 0, …0) adalah

titik nol dan Q = (y1, y2 , …, yp) adalah titik tetap

(fixed point) tertentu, maka jarak dari P ke O dan

dari P ke Q adalah sbb:

( )

( ) ( ) ( ) ( )( )( ) ( )( )pppppp

pppp

pppp

ppp

yxyxayxyxa

yxayxayxaQPd

xxaxxa

xxaxaxaxaPOd

−−++−−+−++−++−=

+++++++=

−−−

−−

11,1221112

222222

21111

1,13113

211222

2222111

22,

22

2,

dan

38