anreg (tugas akhir)

Regresi Dengan Respon Biner

Makalah ini dibuat untuk memenuhi

Tugas Mata Kuliah Analisis Regresi

oleh :

Ahmad Rizal D (3125081754)

Muhammad Darwis (3125081755)

PROGRAM STUDI MATEMATIKA

JURUSAN MATEMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS NEGERI JAKARTA

2011

Pada makalah ini, kami merangkum dan membahas hasil dari skripsi Mahasiswa

Unversitas Negeri Jakarta Jurusan Matematika yang bejudul :

“Overdispersi Pada Regresi Logistik Biner”

BAB I

PENDAHULUAN

Dalam berbagai penelitian misalnya pada bidang pertanian, kesehatan, biologi, social

maupun ekonomi, amatan dari peubah respon seringkali berupa nilai dengan dua

kemungkinan. Sebagai contoh, benih padi dari varietas A akan tumbuh atau mati setelah diberi

pupuk N dengan dosis tertentu, seorang siswa SMA yang mengikuti ujian masuk ke suatu

Perguruan Tinggi Negeri kemungkinan hasil yang akan diperoleh adalah lulus atau tidak lulus,

dan masih banyak contoh lainnya. Peubah respon dengan dua kemungkinan nilai disebut

dengan peubah respon biner.

Peubah respon biner dengan satu atau lebih peubah penjelas seperti di atas, tidak dapat

dimodelkan dengan model regresi biasa. Analisi regresi logistik adalah analisis regresi dimana

peubah respon (Y) bersifat kategorik berdasarkan satu atau lebih peubah penjelas (X), yang

dapat bersifat kategorik maupun numerik. Apabila peubah respon pada regresi logistik terdiri

dari dua kategorik maka regresi logistic tersebut dinamakan sebagai regresi logistik biner.

Pada analisis data biner, diasumsikan bahwa setiap amatan menyebar bernoulli.

Namun demikian perhatian seringkali ditujukan pada sekelompok amatan dimana banyaknya

kejadian sukses yang terjadi pada setiap kelompok diasumsikan menyebar binomial dan antara

amatan bersifat saling bebas serta peluang terjadinya sukses pada setiap amatan adalah sama.

Akan tetapi pada pemodelan data biner seringkali terdapat individu-individu pengamatan yang

dapat membuat proporsi pengamatan menjadi tidak bebas, sedangkan ketidakbebasan antar

amatan akan mengakibatkan ragam yang lebih besar dibandingkan ragam di bawah asumsi

binomial. Fenomena tersebut dinamakan overdispersi.

1.1 Perumusan Masalah

Berdasarkan latar belakang yang telah diuraikan, masalah yang akan dibahas adalah

bagaimana cara menangani masalah overdispersi pada data biner?

1.2 Pembatasan Masalah

Pada pembahasan skripsi kali ini akan dibahas penanganan masalah overdispersi pada

regresi logistik biner dengan menggunakan metode William.

1.3 Tujuan Penulisan

Tujuan dari skripsi yang dibahas adalah bagaimana mengidentifikasi adanya

overdispersi dan mengatasi masalah overdispersi serta mendapatkan model dugaan yang

sesuai.

BAB II

PEMBAHASAN

2.1 Analisis Regresi Logistik Biner

Analisi regresi logistik adalah analisis regresi dimana peubah respon (Y) bersifat

kategorik berdasarkan satu atau lebih peubah penjelas (X), yang dapat bersifat kategorik

maupun numerik. Apabila untuk setiap objek amatan ke-i, i=1 , 2 ,…, n kategori dari peubah

respon hanya memiliki dua kemungkinan nilai (misalnya Y i=1 untuk kejadian sukses dan

Y i=0 untuk kejadian gagal) dan Y i di-asumsikan bedristribusi binomial dengan parameter ni

dan pi maka analisis regresi logistik tersebut dinamakan juga analisis regresi logistik biner.

Jika Pr ( Y i=1 )=p i dan Pr ( Y i=0 )=1−pi maka mean untuk Y i adalah ni pi.

Pada analisis regresi linier dimana Y i bertipe kontinu, hubungan antara mean dari

peubah respon Y i dengan seubah peubah penjelas X = (X 1i , X2 i ,…, X ki) diasumsikan bersifat

linier atau dapat dituliskan sebagai berikut

E (Y i )=β0+ β1 X1 i+β2 X2 i+…+βk X ki (2.1)

Pada analisis regresi logistik biner, pemodelan mengenai bagaimana peluang kejadian

sukses pi dapat dijelaskan oleh sejumlah peubah penjelas, relatif lebih bermakna dibandingkan

pemodelan antara nilai-nilai Y i dengan peubah penjelas seperti halnya pada analisis regresi

linier. Namun demikian, karena nilai pi adalah peluang terjadinya kejadian sukses yang

nilainya terbatasa pada interval (0,1), padahal nilai dugaan mungkin berada di luar interval

tersebut. Oleh karena itu dilakukan transformasi terhadap pi ke dalam suatu fungsi yang

memiliki nilai tak terbatas (-∞,+∞). Transformasi logit terhadap pi didefinisikan sebagai

logit ( pi )=log ( pi

1−p i)

Model regresi logistik biner yang menunjukkan hubungan linier antara nilai-nilai dari

transformasi logit dengan penjelasnya diberikan oleh :

log( pi

1−p i)=β0+β1 X1i+β2 X2 i+…+βk Xki(2.2)

Berdasarkan persamaan (2.2), maka pi adalah

pi=exp ( β0+ β1 X1 i+β2 X2 i+…+βk X ki )

1+exp ( β0+β1 X 1i+β2 X2 i+…+βk Xki )(2.3)

dimana β0 , β1 , β2 , …, βkadalah parameter-parameter regresi dan (X 1i , X2 i ,…, X ki) adalah

peubah penjelas. Dari persamaan (2.3) dapat dilihat bahwa hubungan antara pi dengan peubah

bebas tidak bersifat linier.

Penduga Parameter Model Regresi Logistik Biner

Pada analisis regresi linier yang mengasumsikan galat berdistribusi normal dan ragam

konstan, penaksiran parameter kali ini dilakukan dengan metode kuadrat maksimum (MKM).

Penduga untuk ragam dan koragam dari penduga koefisien regresi diperoleh dari

matriks ragam-koragam ∑ (β), dimana matriks ragam-koragam tesebut merupakan invers

matriks informasi I (β). Matriks informasi I (β) adalah negatif dari matriks turunan parsial

kedua dari logaritma fungsi likelihood terhadap β. Matriks informasi I (β) diberikan oleh :

I ( β )=− (−X ' VX )=( X ' VX )

Dengan demikian matriks ragam-koragam ∑ (β) diberikan oleh :

∑ (β)=I−1 ( β )=(X ' VX )−1

Dugaan untuk matriks ∑ (β)=^∑ (β ) diperoleh dengan mengganti parameter-

parameter yang tidak diketahui dengan penduga maksimum likelihood β0 , …, βk. Penduga

galat baku dari parameter β adalah

SE(β )=√ σ2(β )(2.4)

Dugaan galat baku ini dugunakan untuk menguji signifikansi dari suatu peubah bebas

dalam menjelaskan peluang sukses pi.

2.2 Kesesuaian (Goddness of fit) Model Logistik Biner

Selain pembentukan model dugaan terhadap data, kesesuaian antara peubah respon

terhadap nilai amatan merupakan suatu hal yang juga menjadi perhatian. Apabila niali-nilai

dugaan peubah respon relatif sesuai dengan nilai-nilai amatan maka model dugaan dapat

dikatakan layak tetapi jika perbedaan antara nilai dugaan nilai yang diamati sangat besar maka

model dugaan perlu untuk ditinjau kembali. Pada analisis regresi logistik biner, pengujian

kesesuaian model dugaan didasarkan pada statistik yang disebut devians (deviance).

Devians (Deviance)

Devians adalah statistik yang mengukur sejauh mana penyimpangan nilai dugaan

terhadap nilai sebenarnya. Penggunaannya didasarkan pada perbandingan fungsi likelihood

model dugaan (fitted model) dan fungsi likelihood model penuh (saturated model).

Model penuh adalah model dengan jumlah parameter sama dengan jumlah observasi.

Logaritma dari fungsi likelihood berdasarkan model penuh diberikan oleh

L (~p i )=∑i=1

n

{Y i ln~p i+( ni−Y i ) ln (1−~p i )}(2.5)

dengan ~pi=Y i

n i

adalah penduga kemungkinan maksimum dari pi.

Adapun model dugaan adalah model yang memiliki m parameter (m < n). Fungsi likelihood berdasarkan model dugaan diberikan oleh L ( p i )=∑

i=1

n

{Y i ln p i+( ni−Y i ) ln (1− p i )}(2.7)

Dengan pi adalah nilai dugaan yang diberikan untuk peluang sukses pi.

Statistik devians pada pemodelan n amatan binomial dimana pi adalah peluang

respon sesungguhnya yang bersesuaian dengan amatan ke-i, Y i

ni

, i = 1, 2, … , n, diberikan

oleh, (Collet, 2002).

D=2∑i=1

n [Y i(Y i

Y i)+ (ni−Y i ) ln((ni−Y i)

(ni−Y i))](2.8)

Statistik devians secara aproksimasi menyebar khi-kuadrat dengan derajat bebas (n – p).

2.3 Rasio Odds (Odds Ratio)

Rasio odds merupakan salah satu parameter yang sering menjadi perhatian dalam

analisis data biner yang membandingkan dua kelompok pada respon biner. Menurut Hosner

dan Lemeshow (2000), rasio odds merupakan parameter pada analisis regresi logistik yang

interpretasinya lebih mudah untuk dipahami maknanya dibandingkan dengan koefisien regresi

(β). Pada analisis regresi logistik dengan peubah bebas (X j , j=1 , 2, …, k ¿ terdiri dari dua

kemungkinan nilai (X ji=1 dan X ji=0, untuk i = 1, 2, … , n) maka rasio odds didefinisikan

sebagai uuran seberapa besar kemungkinan munculnya kejadian sukses (Y = 1) pada individu

dengan nilai X ji=1 dibandingkan deengan munculnya kejadian sukses tersebut pada individu

yang mempunyai nilai X ji=0. Odds dari kejadian sukses (Y = 1) pada individu X ji=1 adalah

P [Y =1 ∣X ji=1 ]P [Y =0 ∣X ji=1 ]

=p(1)

[1−p(1)]

Sedangkan odds kejadian sukses (Y = 1) pada individu X ji=0 didefinisikan sebagai

P [Y =1 ∣X ji=0 ]P [Y =0 ∣X ji=0 ]

=p(0)

[1−p(0 )]

Rasio odds didefinisikan sebagai rasio antara odds untuk X ji=0 terhadap odds untuk X ji=1,

yaitu

ψ=

p(1)

[1−p(1 )]p(0)

[1−p(0 )]

(2.9)

Logaritma dari rasio odds disebut logit, yaitu

ln ψ=ln [p(1 )

[1−p (1) ]p (0 )

[1−p (0 )] ]¿ g (1 )−g (0 )

dimana g (1 ) adalah logit untuk kejadian sukses (Y = 1) pada individu X ji=1, yakni

g (1 )=β0+β1 X 1i+…+ β j× 1+…+βk Xki

dan g (0 ) adalah logit untuk kejadian sukses (Y = 1) pada individu X ji=0, yakni

g (0 )=β0+β1 X1 i+…+β j ×0+…+βk Xki

dengan demikian rasio odds untuk model regresi logistik dapat didefinisikan sebagai selisih

logit, yaitu

ln ψ=g (1 )−g (0 )=β j(2.10)

Dari persamaan (2.10) maka diperoleh rasio odds yaitu ψ=exp(β j). Rasio odds tersebut

diinterpretasikan sebagai peluang munculnya kejadian sukses (Y = 1) pada individu X ji=1

sebesar exp (β j) kali dibandingkan dengan munculnya kejadian sukses tersebut pada individu

yang mempunyai nilai X ji=0.

Menurut Hosmer dan Lemeshow (1989), log odds untuk model regresi logistic dengan

peubah bebas lebih dari satu didefinisikan sebagai selisih antara penduga logit untuk suatu

peubah bebas X ji bernilai a dengan penduga logit peubah bebas X ji bernilaib dimana peubah

bebas lainnya diasu,sikan konstan. Dengan demikian, penduga rasio oddsnya yaitu

ψ (a−b)=exp [ β j(a−b)]

2.4 Overdispersi

Pada saat model logistiklinier digunakan pada analisis data yang berbentuk proporsi,

transformasi logistic dari peluang respon diasumsikan bergantung secara linier terhadap

peubah bebasnya dan banyaknya peristiwa sukses yang diamati diasumsikan memiliki

distribusi binomial. Suatu model dugaan dikatakan layak jika model tersebut dapat mengepas

(fitting) peluang respon yang diamati secara baik dan keragaman acak pada data juga dapat

dimodelkan dengan baik.

Jika model dugaan tidak cukup baik dalam mengambarkan amatan proporsi, maka

nilai mean devians akan lebih besar dari satu. Begitupula jika keragaman data lebih besar

daripada keragaman berdasarkan asumsi binomial, maka nilai meanb devians akan lebih besar

dari satu.

Pada saat model logistic linier dianggap sudah cukup sesuai tetapi nilai mean devians

lebih dari satu maka asumsi keragaman berdasarkan distribusi binomial menjadi tidak valid.

Masalah tersebut dikatakan sebagai overdispersi.

Terdapat sejumlah keadaan yang menindikasikan overdispersi, yaitu komponen

sistematis dari model yang tidak tepat, adanya pencilan serta penggunaan fungsi penghubung

(link function) yang tidak tepat. Apabila nilai penduga ragam tersebut digunakan untuk

menarik kesimpulan (pengujian hipotesis) maka cendrung akan menolak H 0.

Keragaman antar Peluang Respon

Pada kelompok objek percobaan yang kondisinya homogeny, peluang respon atau

peluang terjadinya kejadian sukses ( pi ¿ dapat berbeda antara satu kelompok dengan kelompok

yang lainnya. Hal tersebut disebabkan adanya suatu pengaruh yang tidak terobservasi.

Berikut ini adalah mean dan ragam antar peluang respon

E (Y i )=ni p i

Var (Y i )=ni pi−ni Ø pi ( 1−pi )−ni pi2+ni

2 Ø pi (1−pi )

¿ni pi ( 1−pi ) {1+(n i−1 ) Ø }(2.11)

Jika tidak terdapat keragaman acak dalam peluang respon, Y i seharusnya menyebar binomial,

Binomial (ni , p i¿, artinya Var (Y i )=ni pi (1−pi ) sama dengan ragam di bawah asumsi

binomial. Dengan kata lain, nilai Ø pada persamaan (2.11) sama dengan nol. Jika terdapat

keragaman di antara peluang respon, maka Ø > 0. Akibatnya Var (Y i )>ni pi (1−pi ). Dengan

kata lain ragam dari Y i lebih besar dari ragamdi bawah asumsibinomial, yaitu sebesar

{1+( ni−1 ) Ø }. Adanya keragaman dari jumlah kejadian sukses yang diamati lebih besar

daripada yang seharusnya jika peluang respon adalah konstan.

Korelasi antar Respon Biner

Anggap bahwa jumlah kejadian sukses yang diamati berdistribusi binomial dan

amatan-amatannya saling bebas. Jika antar amatan tidak saling bebas, maka akan

mengakibatkan ragam yang lebih besar dari ragam di bawah asumsi binomial. Ragam yang

lebih besar dari ragam di bawah asumsi binomial akan mengindikasikan terjadinya

overdispersi.

Anggap bahwa koefisien korelasi adalah δ , maka ragam antar peluang respon yaitu

Var (Y i )=ni pi (1−pi ) {1+( ni−1 ) δ }(2.12)

Jika tidak ada korelasi antar amatan, maka δ=0 dan Var (Y i )=ni pi (1−pi ), sama

dengan ragam di bawah asumsi binomial.Jika terdapad korelasi positif antar amatan, (δ >0),

maka Var>n i pi (1−pi ), sehingga dapat disimpulkan bahwa adanya korelasi antar amatan

dalam kelompok yang sama dapat mengakibatkan keragaman yang lebih besar dibandingkan

dengan keragaman yang dihasilkan jika antar amatan diasumsikan saling bebas.

2.5 Metode William

Anggap bahwa adanya overdispersi diketahui setelah mngepas model pada n amatan.

Ragam Y i pada persamaan (2.11) memiliki parameter Ø yang niainya tidak diketahui. William

dalam (Collet, 2003) menunjukkan bahwa penduga untuk Ø dapat diperoleh dengan

menyamakan nilai statistik X2 Pearson untuk model dengan aproksimasi nilai harapannya.

statistik X2 Pearson untuk n amatan binomial diberikan sebagai berikut

X2=∑i=1

n wi( y i−ni pi)2

ni pi (1− pi )(2.13)

dengan w i adalah pembobot dan pi adalah nilai dugaan untuk pi. Dengan demikian

aproksimasi nilai harapan X2 yaitu

E ( X 2)=∑i=1

n

w i (1−w i v id i ) {1+Ø (ni−1 ) }(2.14)

Dimana v i=ni p i (1−p i ) dan d i adalah elemen diagonal utama pada matriks ragam-koragam

dari predikor linier, η=∑ β j X ji . Persamaan (2.14) memuat Ø yang nilainya tidak tiketahui,

oleh karena itu untuk mendapatkan penduga Ø diperlukan prosedur iterative. Pertama

menduga (fitting) model penuh pada data dengan menggunakan pembobot w i=1, i = 1, 2,

… ,n, kemudian menghitung X2 Pearson. Pada saat w i=1 persamaan (2.14) menjadi

E ( X 2)=n−p+Ø∑i=1

n

{(ni−1 ) (1−v i d i )}(2.15)

dengan p adalah banyaknya parameter pada predictor linier. Dengan menyamakan persamaan

(2.13) dan (2.15), yakni

X2=(n−p )+Ø 0∑i=1

n

{( ni−1 ) (1−v i d i )}(2.16)

dan menyamakan untuk Ø, maka diperoleh penduga untuk Ø yakni

Ø 0={ X2−(n−p ) }

∑i=1

n

{( ni−1 ) (1−v i d i) }(2.17)

Penduga awal bagi pembobotnya adalah

w i 0=[1+( ni−1 ) Ø 0 ]−1(2.18)

Setelah mendapatkan dugaan bagi pembobot, β kembali dihitung, begitu juga X2

dihitung kembalimenggunakan persamaan (2.13). Pada tahap selnjutnya merevisi penduga

untuk Ø yaitu Ø 1 dengan cara menyamakan persamaan (2.13) dan (2.14). Sehungga didapat

Ø 1={X2−∑

i=1

n

[wi (1−wi v i d i ) ]}∑i=1

n

{wi ( ni−1 ) (1−wi v i d i )}(2.19)

Jika nilai X2dianggap masih relative lebih besar dibandingkan derajat bebasnya, maka

diperlukan iterasi kembali sampai diperoleh nilai X2 yang mendekati nilai derajat bebasnya.

Dengan demikian nilai devians secara aproksimasi juga akan samadengan nilai derajat

bebasnya.

Indikasi bahwa masalah overdispersi telah dapat diatasi adalah nilai dari X2 untuk

model dugaan akan sama dengan derajat bebasnya. Oleh karena nilai devians untuk model

secara aproksimasi akan sama dengan satu dan telah dapat dijelaskan oleh model.

BAB III

PENUTUP

3.1 Kesimpulan

Berdasarkan kajian teori dan pembahasan pada bab-bab sebelumnya, maka dapat

disimpulkan bahwa Metode William dapat dengan baik mengoreksi overdispersi, dimana galat

baku yang dihasilkan oleh Metode William lebih besar dibandingkan dengan regresi logistic

biner.

DAFTAR PUSTAKA

Agresti, A. 2002. Categorical Data Analysis. 2nd ed. Wiley, New York.

Collet, D. 2003. Modelling Binary Data. 2nd ed. Chapman Hall, London.

Dobson, A.J. 2001. An Introduction to Generalized Linear Models. 2nd ed. Chapman Hall,

London.

Hosmer, D.W. and Lemeshow, S. 200. Applied Logistic Regression. 2nd ed. Wiley, New York.

Lawal, B. 2003. Categorical Data Analysis with SAS and SPSS Applications. LEA, Inc.

London.

McCulloch, C.E and Searle, S.R. 2001.Generalized, Linier, and Mixed Midels. 2nd ed. Wiley,

New York.

Nerlove, M and Press, S.J. 1976. Univariate and Multivariate Log-Linier and Logistic Models.

Rand. Santa Monica.

William, D.A. 1982. ExtraBinomial Variation in Logistical Liniear Models. J.R. Statist. Soc.

C, 31, 144-148.

anreg (tugas akhir)

Documents