analisis variansi - departemen statistika its: institut...

12
Analisis Variansi dan Statistik Matematika Yang Terkait http://oc.its.ac.id/jurusan.php?fid=1&jid=3 Wiwiek Setya Winahju [email protected] Analisis Variansi merupakan alat yang digunakan untuk mengevaluasi kebaikan model regresi. Model regresi yang baik, salah satunya ditandai oleh ting-ginya koefisien determinasi, dinotasikan R 2 atau , yang dapat dihasilkan oleh Tabel Analisis Va-riansi. Apabila terdapat himpunan data random yang saling independen, dan tidak ada faktor yang mempenga- ruhi, maka data tersebut akan bervariasi terhadap meannya. Pada data random yang dipengaruhi oleh suatu faktor, variasi terhadap pengaruh faktor ikut berkontribusi. Secara geometri kedudukan titik pengamatan ke i , yaitu Y i (digambarkan oleh titik bulatan hitam), du-gaan model regresi (digambarkan oleh garis biru), sumbu X dan sumbu Y dinyatakan pada Gambar 1. Gambar 1. Kedudukan Titik Pengamatan Dan Dugaan Model Regresi Berdasarkan kedudukan titik pengamatan dan duga-an model regresi dapat disusun persamaan berikut : : Jumlah Kuadrat Sekitar Rataan, Sum of Square Total, SST : Jumlah Kuadrat Karena Regresi Sum of Square Regressionl, SSR : Jumlah Kuadrat Sekitar Regresi, Y ˆ Yi i i Y Y ˆ Y Y i ˆ X b b Y 1 0 ˆ 1

Upload: hatruc

Post on 13-Mar-2018

221 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Analisis Variansi - Departemen Statistika ITS: Institut …statistics.its.ac.id/wp-content/uploads/20…  · Web view · 2013-09-04wiwiek@statistika.its.ac.id Analisis Variansi

Analisis Variansi dan Statistik Matematika Yang Terkaithttp://oc.its.ac.id/jurusan.php?fid=1&jid=3

Wiwiek Setya [email protected]

Analisis Variansi merupakan alat yang digunakan untuk mengevaluasi kebaikan model regresi. Model regresi yang baik, salah satunya ditandai oleh ting-ginya koefisien determinasi, dinotasikan R2 atau

, yang dapat dihasilkan oleh Tabel Analisis Va-riansi.

Apabila terdapat himpunan data random yang saling independen, dan tidak ada faktor yang mempenga-ruhi, maka data tersebut akan bervariasi terhadap meannya. Pada data random yang dipengaruhi oleh suatu faktor, variasi terhadap pengaruh faktor ikut berkontribusi.

Secara geometri kedudukan titik pengamatan ke i , yaitu Yi (digambarkan oleh titik bulatan hitam), du-gaan model regresi (digambarkan oleh garis biru), sumbu X dan sumbu Y dinyatakan pada Gambar 1.

Gambar 1. Kedudukan Titik Pengamatan Dan Dugaan Model Regresi

Berdasarkan kedudukan titik pengamatan dan duga-an model regresi dapat disusun persamaan berikut :

: Jumlah Kuadrat Sekitar Rataan,

Sum of Square Total, SST

: Jumlah Kuadrat Karena Regresi

Sum of Square Regressionl, SSR

: Jumlah Kuadrat Sekitar Regresi,

atau Error, Sum of Square Error, SSE

SST = SSR + SSETiga suku di atas akan menjadi komponen Tabel A-nalisis Variansi (ANOVA) sebagai berikut :

Tabel ANOVA

Sumber Variasi

(Source)

Derajat Bebas(db)(df)

Jumlah Kuadrat

(JK)(SS)

Kuadrat tengah(KT) = JK/db(MS)

Regresi 1 KTRegresi

iY

Yi

ii YY ˆ

YYi ˆ

XbbY 10ˆ

1

Page 2: Analisis Variansi - Departemen Statistika ITS: Institut …statistics.its.ac.id/wp-content/uploads/20…  · Web view · 2013-09-04wiwiek@statistika.its.ac.id Analisis Variansi

Error atau Residual

n-2

Total, terkoreksi n-1

Keterangan : Judul yang ditulis miring, yaitu : Source, df, SS, dan MS, merupakan istilah yang lazim digunakan pada program MINITAB. Koefisien Determinasi, R2

Koefisien ini dinyatakan dalam %, yang menyata-kan kontribusi regresi, secara fisik adalah akibat prediktor, terhadap variasi total variabel respon, yai-tu Y. Makin besar nilai R2, makin besar pula kontri-busi atau peranan prediktor terhadap variasi respon. Biasanya model regresi dengan nilai R2 sebesar 70% atau lebih dianggap cukup baik, meskipun tidak se-lalu. Rumus koefisien determinasi adalah sebagai berikut :

Hubungan antara prediktor X dengan respon Y, sela-in dapat dinyatakan oleh koefisien regresi, yaitu b1, dapat pula dinyatakan dengan koefisien korelasi, yang dinotasikan rX,Y. Bedanya, koefisien regresi dapat digunakan untuk memprediksi nilai respon, sedang pada koefisien korelasi tidak dapat. Persa-maan yang menyatakan hubungan ini adalah :

b1 =

Buktikanlah !

Rumus R2 ini juga menyatakan kuadrat koefisien korelasi antara dengan Y, sehingga bila dikaitkan dengan rX,Y terdapat hubungan sebagai berikut :

Bukti :

= b1

=

=

=

=

2

Page 3: Analisis Variansi - Departemen Statistika ITS: Institut …statistics.its.ac.id/wp-content/uploads/20…  · Web view · 2013-09-04wiwiek@statistika.its.ac.id Analisis Variansi

=

Lack of FitLack of fit artinya penyimpangan atau ketidak tepat-an terhadap model linier order pertama. Pengujian

lack of fit artinya pengujian untuk mendeteksi apa-kah model linier order pertama tepat. Bila lack of fit tidak bermakna maka model linier order pertama te-pat, sedang bila lack of fit bermakna maka model li-nier order pertama tidak tepat, perlu dikembangkan menjadi model linier kuadratik atau model nonlini-er. Pengujian lack of fit ini diperlukan bila terdapat pengamatan berulang, yaitu satu nilai prediktor a-tau satu kombinasi nilai prediktor (bila digunakan beberapa prediktor) yang berpasangan dengan bebe-rapa nilai respon.

Berikut ini akan ditampilkan organisasi data hasil pengamatan berulang pada eksperimen dengan satu dan dua prediktor.

Organisasi Data Untuk Perhitungan Jumlah Kuadrat Error Murni

Nilai Prediktor

Xj

Nilai-nilai ResponYju

Mean Respon Pengulangan

ni

Jumlah Kuadrat Penyimpangan Terhadap Mean Respon,

=

Derajat Bebas

db

X1 Y11 , Y12 , . . . , n1

=

n1 – 1

X2 Y21 , Y22 , . . . , n2

=

n2 – 1

Xm Y11 , Y12 , . . . , nn

=

nm – 1

Total Jumlah Kuadrat Penyimpang-an Terhadap Mean Respon, disebut: Error Murni, Galat Murni, Pure Error

Contoh 1:

Berikut ini data hasil eksperimen :

Eksperimenke Y X Eksperimen

ke Y X Eksperimenke Y X

12345678

2,31,82,81,52,23,81,83,7

1,31,32,02,02,73,33,33,7

910111213141516

1,72,82,82,25,43,21,91,8

3,7444

4,74,74,75

1718192021222324

3,52,82,13,43,233

5,9

5,35,35,35,766

6,36,3

3

Page 4: Analisis Variansi - Departemen Statistika ITS: Institut …statistics.its.ac.id/wp-content/uploads/20…  · Web view · 2013-09-04wiwiek@statistika.its.ac.id Analisis Variansi

Sumber : Applied Regression Analysis, Second Edition, Norman Draper dan Harry Smith, halaman 38.

Untuk mempermudah, data disusun ke bentuk berikut :

Nilai Pre-diktor yg diulang,

Xj

Nilai-nilai Respon,Yju

Mean Respon, Pengulangan,

nj

Jumlah Kuadrat Penyimpangan Terhadap Mean Respon

Derajat Bebas

db1,3 2,3 1,8 2,05 2 0,125 12 2,8 1,5 2,07 2 0,845 1

3,3 3,8 1,8 ... 2 2,000 13,7 3,7 1,7 ... 2 2,000 14 2,8 2,8 2,2 ... 3 0,240 2

4,7 5,4 3,2 1,9 ... 3 6,260 25,3 3,5 2,8 2,1 ... 3 0,980 26 3,2 3,0 ... 2 0,020 1

12,470 11

Pengujian kemaknaan lack of fit dilakukan dengan cara memecah Jumlah Kuadrat Error menjadi dua, yaitu Jumlah Kuadrat Error Murni dan Jumlah Kua-drat Lack of Fit. Perhitungan jumlah kuadrat error murni dilakukan seperti yang ditampilan pada tabel di atas, sedang Jumlah Kuadrat Lack of Fit merupa-kan selisih antara Jumlah Kuadrat Error dengan Jumlah Kuadrat Error Murni. Tabel ANOVA men-jadi seperti berikut :

Tabel ANOVA 1Sumber Variasi

(Source)

Derajat Bebas(db)

(df)

Jumlah Kuadrat

(JK)

(SS)

Kuadrat tengah

(KT) = JK/db

(MS)

FKT Reg / KT Error

Regresi

Error atau Residual

1

22

6,326

21,192

6,326 6,569

Total, terkoreksi 23 27,518

Pada tabel di bawah ini ditambahkan baris ke tiga yang berisikan Kuadrat Tengah Error atau MSE yang dipecah menjadi dua, yaitu Kuadrat Tengah Lack of Fit dan Kuadrat Tengah Error Murni.

Tabel ANOVA 2

Sumber Variasi

(Source)

Derajat Bebas(db)

(df)

Jumlah Kuadrat

(JK)

(SS)

Kuadrat tengah(KT) = JK/db

(MS)

F

Regresi

Error atau Residual

1

22

6,326

21,192

6,326 6,569(KTRegresi

dibagi KTerror)

Lack of Fit

Error Murni

11

11

8,722

12,470

0,793

1,134

0,699(KTL of F

dibagiKTerror murni)

Total, terkoreksi 23 27,518

Keterangan : L of F = Lack of Fit

Penggunaan Tabel Anova ada dua, pertama untuk menguji kemaknaan pengaruh variabel bebas (Tabel ANOVA 1), dan ke dua untuk menguji kemaknaan Lack of Fit (Tabel ANOVA 2). Statistik uji yang digunakan adalah F.

Pengujian secara cepat, yaitu dengan memanfaatkan hasil atau keluaran MINITAB. Tabel ANOVA yang memuat Lack of Fit ditampilkan dengan cara meng-klik Pure Error pada Window Option.

Data pada contoh 1 bila diolah menggunakan MINI-TAB tanpa memperhatikan lack of fit menghasilkan Tabel ANOVA 1 berikut :

Analysis of Variance 1

Source DF SS MS F PRegression 1 6,3247 6,3247 6,57 0,018Residual Error 22 21,1937 0,9633Total 23 27,5183

Apabila pengolahan dilakukan dengan memperhati-kan lack of fit, didapatkan hasil keluaran berikut : Analysis of Variance 2

Source DF SS MS F PRegression 1 6,3247 6,3247 6,57 0,018Residual Error 22 21,1937 0,9633 Lack of Fit 11 8,7237 0,7931 0,70 0,718 Pure Error 11 12,4700 1,1336Total 23 27,5183

Cara cepat menyimpulkan hasil pengujian, yaitu dengan memanfaatkan hasil MINITAB dapat dila-

4

Page 5: Analisis Variansi - Departemen Statistika ITS: Institut …statistics.its.ac.id/wp-content/uploads/20…  · Web view · 2013-09-04wiwiek@statistika.its.ac.id Analisis Variansi

kukan dengan melihat nilai P. Nilai P sebesar 0,018, yang kurang dari 0,05 pada Analysis Vari-ansi 1, menandakan prediktor berpengaruh pada res-pon. Pada Analysis Variansi 2, didapatkan nilai P Lack of Fit sebesar 0,718 yang lebih dari 0,05, sehingga disimpulkan Lack of Fit tidak bermakna; ini berarti model linier order pertama sudah sesuai.

Cara lain mendeteksi lack of fit dengan mengguna-kan statistik uji F = (MS Lack of Fit)/(MS Pure Error). Bila F < 1, maka Lack of Fit tidak bermakna, sementara kalau F>1 belum tentu Lack of Fit ber-makna.

Kalau diterapkan pada soal contoh 1 di atas, nilai F sebesar 0,7931/1,1336; nilai ini kurang dari satu. Jadi Lack of Fit tidak bermakna. Hasil melalui F ini tidak bertentangan dengan hasil melalui P. Kedua tolok ukur ini menghasilkan kesimpulan yang sama, yaitu Lack of fit tidak bermakna. Contoh 2, Soal K

Y X RESI1 FITS10,971 3 -0,02239 0,993390,979 4,7 -0,00945 0,9884540,982 8,3 0,003999 0,9780010,971 9,3 -0,0041 0,9750980,957 9,9 -0,01636 0,9733560,961 11 -0,00916 0,9701620,956 12,3 -0,01039 0,9663870,972 12,5 0,006193 0,9658070,889 12,6 -0,07652 0,9655160,961 15,9 0,005065 0,9559350,982 16,7 0,028388 0,9536120,975 18,8 0,027485 0,9475150,942 18,8 -0,00551 0,9475150,932 18,9 -0,01522 0,9472240,908 21,7 -0,03109 0,9390940,97 21,9 0,031486 0,9385140,985 22,8 0,0491 0,9359010,933 24,2 0,001164 0,9318360,858 25,8 -0,06919 0,927190,987 30,6 0,073747 0,9132530,958 36,2 0,061007 0,8969930,909 39,8 0,022459 0,8865410,859 44,3 -0,01448 0,8734750,863 46,8 -0,00322 0,8662160,811 46,8 -0,05522 0,8662160,877 58,1 0,043593 0,8334070,798 62,3 -0,02321 0,8212120,855 70,6 0,057887 0,7971130,788 71,1 -0,00766 0,7956610,821 71,3 0,02592 0,795080,83 83,2 0,069472 0,7605280,718 83,6 -0,04137 0,7593670,642 99,5 -0,0712 0,7132010,658 111,2 -0,02123 0,67923

Sebagai langkah awal adalah memplot Y terhadap X. Dihasilkan plot berikut :

Hasil plot Y terhadap X di atas menunjukkan bahwa model regresi cukup baik, ditandai dengan titik-titik pengamatan yang merata disekitar garis regresi. Be- berapa hasil perhitungan ditampilkan sebagai beri-kut :

MTB > let k1=sum(X)MTB > let k2=sum(Y)MTB > let k3=sum(X**2)MTB > let k4=sum(Y**2)MTB > let k5=sum(X*Y)MTB > print k1-k5 Data Display

= K1 = 1244,50 = K4 =

27,5736

= K2 = 30,4580 = K5 =

1032,49

= K3 = 73920,1

Dengan menggunakan command regresi didapatkan model regresi berikut :

MTB > Name c3 "RESI1" c4 "FITS1"MTB > Regress 'Y' 1 'X';SUBC> Residuals 'RESI1';SUBC> Fits 'FITS1';SUBC> Constant;SUBC> Brief 1. Regression Analysis: Y versus X The regression equation isY = 1,00 - 0,00290 X

Predictor Coef SE Coef T PConstant 1,00210 0,01089 92,04 0,000X -0,0029035 0,0002335 -12,43 0,000

S = 0,0393282 R-Sq = 82,9% R-Sq(adj) = 82,3%Analysis of VarianceSource DF SS MS F PRegression 1 0,23915 0,23915 154,62 0,000Residual Error 32 0,04949 0,00155Total 33 0,28864

Kesimpulannya model cukup baik, berdasarkan pada :

- Plot Y terhadap X menunjukkan model linier order pertama yang baik.

- Variabel bebas berbeda dengan nol se-cara bermakana, ditandai dengan nilai P

5

Page 6: Analisis Variansi - Departemen Statistika ITS: Institut …statistics.its.ac.id/wp-content/uploads/20…  · Web view · 2013-09-04wiwiek@statistika.its.ac.id Analisis Variansi

yang kurang dari 0,05, jadi X berpenga-ruh pada Y.

- Nilai R2 = 82%, menunjukan variasi Y karena pengaruh X tinggi.

- Empat plot residual tampak baik, seper-ti yang ditampilkan pada gambar di ba-wah ini.

Contoh 3, Soal LPada soal K di atas, tampak terdapat nilai-nilai pre-diktor yang sangat dekat, sehingga pantas dianggap ulangan, dinamai ulangan hampiran. Data ulangan hampiran berdasarkan data soal K:X = 9,3 9,9X = 12,3 12,5 12,6X = 18,8 18,8 18,9X = 21,7 21,9X = 46,8 46,8X = 70,6 71,1 71,3X = 83,2 83,6

Dengan dihimpunnya data ulangan hampiran ini maka dapat dideteksi kemaknaan lack of fit. Namun demikian, perhitungan tidak dapat dilakukan meng-gunakan program paket, harus secara manual.

Untuk mempermudah, data disusun ke bentuk berikut :

Nilai Prediktor yg diulang, atau

ulangan hampiran

(Xj )

Nilai-nilai Respon,(Yju)

Mean Respon,( )

Pengulangan,(nj)

Jumlah Kuadrat Penyimpangan Terhadap

Mean Respon

Derajat Bebas(db)

9,3 9,9 0,971 0,957 9,6 2 ... 112,3 12,5 12,6 0,956 0,972 0,889 12,5 3 ... 218,8 18,8 18,9 0,975 0,942 0,932 18,83 3 ... 221,7 21,9 0,908 0,970 21,8 2 ... 146,8 46,8 0,863 0,811 46,8 2 ... 170,6 71,1 71,3 0,855 0,788 0,821 71 3 ... 283,2 83,6 0,830 0,718 ... 2 ... 1

0,01678 10

Lengkapilah perhitungan dan isikan pada tabel di atas. Selanjutnya, lengkapilah pula tabel ANOVA berikut :

Analysis of Variance

Source DF SS MS F PRegression 1 0,23915 0,23915 154,62 0,000Residual Error 32 0,04949 0,00155

Lack of Fit ... ... ... ... ... Pure Error 10 0,01678 ...

Total 33 0,28864

Lakukanlah evaluasi, apakah lack of fit bermakna ? Lakukan analisis kebaikan model.

Bandingkan dengan hasil analisis model di soal K.

6

Page 7: Analisis Variansi - Departemen Statistika ITS: Institut …statistics.its.ac.id/wp-content/uploads/20…  · Web view · 2013-09-04wiwiek@statistika.its.ac.id Analisis Variansi

Statistik Matematika Pada ANOVA

Yang akan diuraikan pada topik Statistik Matema-tika pada ANOVA ini adalah :

- Distribusi setiap komponen Tabel Ana-lisis Variansi

- Hubungan antara komponen- Ekspektasi setiap komponen

Untuk mengingat kembali, akan ditampilkan lagi Tabel ANOVA berikut ini. Tabel ANOVA

Sumber Variasi

(Source)

Derajat Bebas(db)(df)

Jumlah Kuadrat

(JK)(SS)

Kuadrat tengah(KT) = JK/db(MS)

Regresi

Error atau Residual

1

n-2

KTRegresi

Total, terkoreksi n-1

Keterangan : Judul yang ditulis miring, yaitu : Source, df, SS, dan MS, merupakan istilah yang lazim digunakan pada program MINITAB.

Distribusi Komponen Tabel ANOVAYang akan dibahas adalah distribusi : Jumlah Kua-drat Regresi, Jumlah Kuadrat Residual, dan Jumlah Kuadrat Total.

Review ANOVA searah :

Organisasi Data :i

1 2 ... ky11

y12

.

.

.

y21

y22

.

.

.

...

...

...

...

...

yk1

yk2

.

.

.

Model ANOVA,Yij=i+ij, i=1,2,...k, j=1,2,...,ni

Variasi total respon merupakan jumlahan dari variasi respon ter-hadap mean setiap perlakuan dengan

variansi mean setiap perlakuan ter-hadap mean keseluruhan.

Bila dinyatakan dengan persamaan:

suku 1 suku 2 suku 3

Penalaran suku 1,Diasumsikan : Yij~N(,2)

Didapatkan hasil :

Penalaran suku 2,Diasumsikan : Yij~N(i,2)

Didapatkan hasil :

7

Page 8: Analisis Variansi - Departemen Statistika ITS: Institut …statistics.its.ac.id/wp-content/uploads/20…  · Web view · 2013-09-04wiwiek@statistika.its.ac.id Analisis Variansi

2

Penalaran suku 3,

Hasil Keseluruhan :

Perlu diingat :

Kembali ke Regresi

Penalaran distribusi ,

8

Page 9: Analisis Variansi - Departemen Statistika ITS: Institut …statistics.its.ac.id/wp-content/uploads/20…  · Web view · 2013-09-04wiwiek@statistika.its.ac.id Analisis Variansi

9