anreg (tugas akhir)
TRANSCRIPT
Regresi Dengan Respon Biner
Makalah ini dibuat untuk memenuhi
Tugas Mata Kuliah Analisis Regresi
oleh :
Ahmad Rizal D (3125081754)
Muhammad Darwis (3125081755)
PROGRAM STUDI MATEMATIKA
JURUSAN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS NEGERI JAKARTA
2011
Pada makalah ini, kami merangkum dan membahas hasil dari skripsi Mahasiswa
Unversitas Negeri Jakarta Jurusan Matematika yang bejudul :
“Overdispersi Pada Regresi Logistik Biner”
BAB I
PENDAHULUAN
Dalam berbagai penelitian misalnya pada bidang pertanian, kesehatan, biologi, social
maupun ekonomi, amatan dari peubah respon seringkali berupa nilai dengan dua
kemungkinan. Sebagai contoh, benih padi dari varietas A akan tumbuh atau mati setelah diberi
pupuk N dengan dosis tertentu, seorang siswa SMA yang mengikuti ujian masuk ke suatu
Perguruan Tinggi Negeri kemungkinan hasil yang akan diperoleh adalah lulus atau tidak lulus,
dan masih banyak contoh lainnya. Peubah respon dengan dua kemungkinan nilai disebut
dengan peubah respon biner.
Peubah respon biner dengan satu atau lebih peubah penjelas seperti di atas, tidak dapat
dimodelkan dengan model regresi biasa. Analisi regresi logistik adalah analisis regresi dimana
peubah respon (Y) bersifat kategorik berdasarkan satu atau lebih peubah penjelas (X), yang
dapat bersifat kategorik maupun numerik. Apabila peubah respon pada regresi logistik terdiri
dari dua kategorik maka regresi logistic tersebut dinamakan sebagai regresi logistik biner.
Pada analisis data biner, diasumsikan bahwa setiap amatan menyebar bernoulli.
Namun demikian perhatian seringkali ditujukan pada sekelompok amatan dimana banyaknya
kejadian sukses yang terjadi pada setiap kelompok diasumsikan menyebar binomial dan antara
amatan bersifat saling bebas serta peluang terjadinya sukses pada setiap amatan adalah sama.
Akan tetapi pada pemodelan data biner seringkali terdapat individu-individu pengamatan yang
dapat membuat proporsi pengamatan menjadi tidak bebas, sedangkan ketidakbebasan antar
amatan akan mengakibatkan ragam yang lebih besar dibandingkan ragam di bawah asumsi
binomial. Fenomena tersebut dinamakan overdispersi.
1.1 Perumusan Masalah
Berdasarkan latar belakang yang telah diuraikan, masalah yang akan dibahas adalah
bagaimana cara menangani masalah overdispersi pada data biner?
1.2 Pembatasan Masalah
Pada pembahasan skripsi kali ini akan dibahas penanganan masalah overdispersi pada
regresi logistik biner dengan menggunakan metode William.
1.3 Tujuan Penulisan
Tujuan dari skripsi yang dibahas adalah bagaimana mengidentifikasi adanya
overdispersi dan mengatasi masalah overdispersi serta mendapatkan model dugaan yang
sesuai.
BAB II
PEMBAHASAN
2.1 Analisis Regresi Logistik Biner
Analisi regresi logistik adalah analisis regresi dimana peubah respon (Y) bersifat
kategorik berdasarkan satu atau lebih peubah penjelas (X), yang dapat bersifat kategorik
maupun numerik. Apabila untuk setiap objek amatan ke-i, i=1 , 2 ,…, n kategori dari peubah
respon hanya memiliki dua kemungkinan nilai (misalnya Y i=1 untuk kejadian sukses dan
Y i=0 untuk kejadian gagal) dan Y i di-asumsikan bedristribusi binomial dengan parameter ni
dan pi maka analisis regresi logistik tersebut dinamakan juga analisis regresi logistik biner.
Jika Pr ( Y i=1 )=p i dan Pr ( Y i=0 )=1−pi maka mean untuk Y i adalah ni pi.
Pada analisis regresi linier dimana Y i bertipe kontinu, hubungan antara mean dari
peubah respon Y i dengan seubah peubah penjelas X = (X 1i , X2 i ,…, X ki) diasumsikan bersifat
linier atau dapat dituliskan sebagai berikut
E (Y i )=β0+ β1 X1 i+β2 X2 i+…+βk X ki (2.1)
Pada analisis regresi logistik biner, pemodelan mengenai bagaimana peluang kejadian
sukses pi dapat dijelaskan oleh sejumlah peubah penjelas, relatif lebih bermakna dibandingkan
pemodelan antara nilai-nilai Y i dengan peubah penjelas seperti halnya pada analisis regresi
linier. Namun demikian, karena nilai pi adalah peluang terjadinya kejadian sukses yang
nilainya terbatasa pada interval (0,1), padahal nilai dugaan mungkin berada di luar interval
tersebut. Oleh karena itu dilakukan transformasi terhadap pi ke dalam suatu fungsi yang
memiliki nilai tak terbatas (-∞,+∞). Transformasi logit terhadap pi didefinisikan sebagai
logit ( pi )=log ( pi
1−p i)
Model regresi logistik biner yang menunjukkan hubungan linier antara nilai-nilai dari
transformasi logit dengan penjelasnya diberikan oleh :
log( pi
1−p i)=β0+β1 X1i+β2 X2 i+…+βk Xki(2.2)
Berdasarkan persamaan (2.2), maka pi adalah
pi=exp ( β0+ β1 X1 i+β2 X2 i+…+βk X ki )
1+exp ( β0+β1 X 1i+β2 X2 i+…+βk Xki )(2.3)
dimana β0 , β1 , β2 , …, βkadalah parameter-parameter regresi dan (X 1i , X2 i ,…, X ki) adalah
peubah penjelas. Dari persamaan (2.3) dapat dilihat bahwa hubungan antara pi dengan peubah
bebas tidak bersifat linier.
Penduga Parameter Model Regresi Logistik Biner
Pada analisis regresi linier yang mengasumsikan galat berdistribusi normal dan ragam
konstan, penaksiran parameter kali ini dilakukan dengan metode kuadrat maksimum (MKM).
Penduga untuk ragam dan koragam dari penduga koefisien regresi diperoleh dari
matriks ragam-koragam ∑ (β), dimana matriks ragam-koragam tesebut merupakan invers
matriks informasi I (β). Matriks informasi I (β) adalah negatif dari matriks turunan parsial
kedua dari logaritma fungsi likelihood terhadap β. Matriks informasi I (β) diberikan oleh :
I ( β )=− (−X ' VX )=( X ' VX )
Dengan demikian matriks ragam-koragam ∑ (β) diberikan oleh :
∑ (β)=I−1 ( β )=(X ' VX )−1
Dugaan untuk matriks ∑ (β)=^∑ (β ) diperoleh dengan mengganti parameter-
parameter yang tidak diketahui dengan penduga maksimum likelihood β0 , …, βk. Penduga
galat baku dari parameter β adalah
SE(β )=√ σ2(β )(2.4)
Dugaan galat baku ini dugunakan untuk menguji signifikansi dari suatu peubah bebas
dalam menjelaskan peluang sukses pi.
2.2 Kesesuaian (Goddness of fit) Model Logistik Biner
Selain pembentukan model dugaan terhadap data, kesesuaian antara peubah respon
terhadap nilai amatan merupakan suatu hal yang juga menjadi perhatian. Apabila niali-nilai
dugaan peubah respon relatif sesuai dengan nilai-nilai amatan maka model dugaan dapat
dikatakan layak tetapi jika perbedaan antara nilai dugaan nilai yang diamati sangat besar maka
model dugaan perlu untuk ditinjau kembali. Pada analisis regresi logistik biner, pengujian
kesesuaian model dugaan didasarkan pada statistik yang disebut devians (deviance).
Devians (Deviance)
Devians adalah statistik yang mengukur sejauh mana penyimpangan nilai dugaan
terhadap nilai sebenarnya. Penggunaannya didasarkan pada perbandingan fungsi likelihood
model dugaan (fitted model) dan fungsi likelihood model penuh (saturated model).
Model penuh adalah model dengan jumlah parameter sama dengan jumlah observasi.
Logaritma dari fungsi likelihood berdasarkan model penuh diberikan oleh
L (~p i )=∑i=1
n
{Y i ln~p i+( ni−Y i ) ln (1−~p i )}(2.5)
dengan ~pi=Y i
n i
adalah penduga kemungkinan maksimum dari pi.
Adapun model dugaan adalah model yang memiliki m parameter (m < n). Fungsi likelihood berdasarkan model dugaan diberikan oleh L ( p i )=∑
i=1
n
{Y i ln p i+( ni−Y i ) ln (1− p i )}(2.7)
Dengan pi adalah nilai dugaan yang diberikan untuk peluang sukses pi.
Statistik devians pada pemodelan n amatan binomial dimana pi adalah peluang
respon sesungguhnya yang bersesuaian dengan amatan ke-i, Y i
ni
, i = 1, 2, … , n, diberikan
oleh, (Collet, 2002).
D=2∑i=1
n [Y i(Y i
Y i)+ (ni−Y i ) ln((ni−Y i)
(ni−Y i))](2.8)
Statistik devians secara aproksimasi menyebar khi-kuadrat dengan derajat bebas (n – p).
2.3 Rasio Odds (Odds Ratio)
Rasio odds merupakan salah satu parameter yang sering menjadi perhatian dalam
analisis data biner yang membandingkan dua kelompok pada respon biner. Menurut Hosner
dan Lemeshow (2000), rasio odds merupakan parameter pada analisis regresi logistik yang
interpretasinya lebih mudah untuk dipahami maknanya dibandingkan dengan koefisien regresi
(β). Pada analisis regresi logistik dengan peubah bebas (X j , j=1 , 2, …, k ¿ terdiri dari dua
kemungkinan nilai (X ji=1 dan X ji=0, untuk i = 1, 2, … , n) maka rasio odds didefinisikan
sebagai uuran seberapa besar kemungkinan munculnya kejadian sukses (Y = 1) pada individu
dengan nilai X ji=1 dibandingkan deengan munculnya kejadian sukses tersebut pada individu
yang mempunyai nilai X ji=0. Odds dari kejadian sukses (Y = 1) pada individu X ji=1 adalah
P [Y =1 ∣X ji=1 ]P [Y =0 ∣X ji=1 ]
=p(1)
[1−p(1)]
Sedangkan odds kejadian sukses (Y = 1) pada individu X ji=0 didefinisikan sebagai
P [Y =1 ∣X ji=0 ]P [Y =0 ∣X ji=0 ]
=p(0)
[1−p(0 )]
Rasio odds didefinisikan sebagai rasio antara odds untuk X ji=0 terhadap odds untuk X ji=1,
yaitu
ψ=
p(1)
[1−p(1 )]p(0)
[1−p(0 )]
(2.9)
Logaritma dari rasio odds disebut logit, yaitu
ln ψ=ln [p(1 )
[1−p (1) ]p (0 )
[1−p (0 )] ]¿ g (1 )−g (0 )
dimana g (1 ) adalah logit untuk kejadian sukses (Y = 1) pada individu X ji=1, yakni
g (1 )=β0+β1 X 1i+…+ β j× 1+…+βk Xki
dan g (0 ) adalah logit untuk kejadian sukses (Y = 1) pada individu X ji=0, yakni
g (0 )=β0+β1 X1 i+…+β j ×0+…+βk Xki
dengan demikian rasio odds untuk model regresi logistik dapat didefinisikan sebagai selisih
logit, yaitu
ln ψ=g (1 )−g (0 )=β j(2.10)
Dari persamaan (2.10) maka diperoleh rasio odds yaitu ψ=exp(β j). Rasio odds tersebut
diinterpretasikan sebagai peluang munculnya kejadian sukses (Y = 1) pada individu X ji=1
sebesar exp (β j) kali dibandingkan dengan munculnya kejadian sukses tersebut pada individu
yang mempunyai nilai X ji=0.
Menurut Hosmer dan Lemeshow (1989), log odds untuk model regresi logistic dengan
peubah bebas lebih dari satu didefinisikan sebagai selisih antara penduga logit untuk suatu
peubah bebas X ji bernilai a dengan penduga logit peubah bebas X ji bernilaib dimana peubah
bebas lainnya diasu,sikan konstan. Dengan demikian, penduga rasio oddsnya yaitu
ψ (a−b)=exp [ β j(a−b)]
2.4 Overdispersi
Pada saat model logistiklinier digunakan pada analisis data yang berbentuk proporsi,
transformasi logistic dari peluang respon diasumsikan bergantung secara linier terhadap
peubah bebasnya dan banyaknya peristiwa sukses yang diamati diasumsikan memiliki
distribusi binomial. Suatu model dugaan dikatakan layak jika model tersebut dapat mengepas
(fitting) peluang respon yang diamati secara baik dan keragaman acak pada data juga dapat
dimodelkan dengan baik.
Jika model dugaan tidak cukup baik dalam mengambarkan amatan proporsi, maka
nilai mean devians akan lebih besar dari satu. Begitupula jika keragaman data lebih besar
daripada keragaman berdasarkan asumsi binomial, maka nilai meanb devians akan lebih besar
dari satu.
Pada saat model logistic linier dianggap sudah cukup sesuai tetapi nilai mean devians
lebih dari satu maka asumsi keragaman berdasarkan distribusi binomial menjadi tidak valid.
Masalah tersebut dikatakan sebagai overdispersi.
Terdapat sejumlah keadaan yang menindikasikan overdispersi, yaitu komponen
sistematis dari model yang tidak tepat, adanya pencilan serta penggunaan fungsi penghubung
(link function) yang tidak tepat. Apabila nilai penduga ragam tersebut digunakan untuk
menarik kesimpulan (pengujian hipotesis) maka cendrung akan menolak H 0.
Keragaman antar Peluang Respon
Pada kelompok objek percobaan yang kondisinya homogeny, peluang respon atau
peluang terjadinya kejadian sukses ( pi ¿ dapat berbeda antara satu kelompok dengan kelompok
yang lainnya. Hal tersebut disebabkan adanya suatu pengaruh yang tidak terobservasi.
Berikut ini adalah mean dan ragam antar peluang respon
E (Y i )=ni p i
Var (Y i )=ni pi−ni Ø pi ( 1−pi )−ni pi2+ni
2 Ø pi (1−pi )
¿ni pi ( 1−pi ) {1+(n i−1 ) Ø }(2.11)
Jika tidak terdapat keragaman acak dalam peluang respon, Y i seharusnya menyebar binomial,
Binomial (ni , p i¿, artinya Var (Y i )=ni pi (1−pi ) sama dengan ragam di bawah asumsi
binomial. Dengan kata lain, nilai Ø pada persamaan (2.11) sama dengan nol. Jika terdapat
keragaman di antara peluang respon, maka Ø > 0. Akibatnya Var (Y i )>ni pi (1−pi ). Dengan
kata lain ragam dari Y i lebih besar dari ragamdi bawah asumsibinomial, yaitu sebesar
{1+( ni−1 ) Ø }. Adanya keragaman dari jumlah kejadian sukses yang diamati lebih besar
daripada yang seharusnya jika peluang respon adalah konstan.
Korelasi antar Respon Biner
Anggap bahwa jumlah kejadian sukses yang diamati berdistribusi binomial dan
amatan-amatannya saling bebas. Jika antar amatan tidak saling bebas, maka akan
mengakibatkan ragam yang lebih besar dari ragam di bawah asumsi binomial. Ragam yang
lebih besar dari ragam di bawah asumsi binomial akan mengindikasikan terjadinya
overdispersi.
Anggap bahwa koefisien korelasi adalah δ , maka ragam antar peluang respon yaitu
Var (Y i )=ni pi (1−pi ) {1+( ni−1 ) δ }(2.12)
Jika tidak ada korelasi antar amatan, maka δ=0 dan Var (Y i )=ni pi (1−pi ), sama
dengan ragam di bawah asumsi binomial.Jika terdapad korelasi positif antar amatan, (δ >0),
maka Var>n i pi (1−pi ), sehingga dapat disimpulkan bahwa adanya korelasi antar amatan
dalam kelompok yang sama dapat mengakibatkan keragaman yang lebih besar dibandingkan
dengan keragaman yang dihasilkan jika antar amatan diasumsikan saling bebas.
2.5 Metode William
Anggap bahwa adanya overdispersi diketahui setelah mngepas model pada n amatan.
Ragam Y i pada persamaan (2.11) memiliki parameter Ø yang niainya tidak diketahui. William
dalam (Collet, 2003) menunjukkan bahwa penduga untuk Ø dapat diperoleh dengan
menyamakan nilai statistik X2 Pearson untuk model dengan aproksimasi nilai harapannya.
statistik X2 Pearson untuk n amatan binomial diberikan sebagai berikut
X2=∑i=1
n wi( y i−ni pi)2
ni pi (1− pi )(2.13)
dengan w i adalah pembobot dan pi adalah nilai dugaan untuk pi. Dengan demikian
aproksimasi nilai harapan X2 yaitu
E ( X 2)=∑i=1
n
w i (1−w i v id i ) {1+Ø (ni−1 ) }(2.14)
Dimana v i=ni p i (1−p i ) dan d i adalah elemen diagonal utama pada matriks ragam-koragam
dari predikor linier, η=∑ β j X ji . Persamaan (2.14) memuat Ø yang nilainya tidak tiketahui,
oleh karena itu untuk mendapatkan penduga Ø diperlukan prosedur iterative. Pertama
menduga (fitting) model penuh pada data dengan menggunakan pembobot w i=1, i = 1, 2,
… ,n, kemudian menghitung X2 Pearson. Pada saat w i=1 persamaan (2.14) menjadi
E ( X 2)=n−p+Ø∑i=1
n
{(ni−1 ) (1−v i d i )}(2.15)
dengan p adalah banyaknya parameter pada predictor linier. Dengan menyamakan persamaan
(2.13) dan (2.15), yakni
X2=(n−p )+Ø 0∑i=1
n
{( ni−1 ) (1−v i d i )}(2.16)
dan menyamakan untuk Ø, maka diperoleh penduga untuk Ø yakni
Ø 0={ X2−(n−p ) }
∑i=1
n
{( ni−1 ) (1−v i d i) }(2.17)
Penduga awal bagi pembobotnya adalah
w i 0=[1+( ni−1 ) Ø 0 ]−1(2.18)
Setelah mendapatkan dugaan bagi pembobot, β kembali dihitung, begitu juga X2
dihitung kembalimenggunakan persamaan (2.13). Pada tahap selnjutnya merevisi penduga
untuk Ø yaitu Ø 1 dengan cara menyamakan persamaan (2.13) dan (2.14). Sehungga didapat
Ø 1={X2−∑
i=1
n
[wi (1−wi v i d i ) ]}∑i=1
n
{wi ( ni−1 ) (1−wi v i d i )}(2.19)
Jika nilai X2dianggap masih relative lebih besar dibandingkan derajat bebasnya, maka
diperlukan iterasi kembali sampai diperoleh nilai X2 yang mendekati nilai derajat bebasnya.
Dengan demikian nilai devians secara aproksimasi juga akan samadengan nilai derajat
bebasnya.
Indikasi bahwa masalah overdispersi telah dapat diatasi adalah nilai dari X2 untuk
model dugaan akan sama dengan derajat bebasnya. Oleh karena nilai devians untuk model
secara aproksimasi akan sama dengan satu dan telah dapat dijelaskan oleh model.
BAB III
PENUTUP
3.1 Kesimpulan
Berdasarkan kajian teori dan pembahasan pada bab-bab sebelumnya, maka dapat
disimpulkan bahwa Metode William dapat dengan baik mengoreksi overdispersi, dimana galat
baku yang dihasilkan oleh Metode William lebih besar dibandingkan dengan regresi logistic
biner.
DAFTAR PUSTAKA
Agresti, A. 2002. Categorical Data Analysis. 2nd ed. Wiley, New York.
Collet, D. 2003. Modelling Binary Data. 2nd ed. Chapman Hall, London.
Dobson, A.J. 2001. An Introduction to Generalized Linear Models. 2nd ed. Chapman Hall,
London.
Hosmer, D.W. and Lemeshow, S. 200. Applied Logistic Regression. 2nd ed. Wiley, New York.
Lawal, B. 2003. Categorical Data Analysis with SAS and SPSS Applications. LEA, Inc.
London.
McCulloch, C.E and Searle, S.R. 2001.Generalized, Linier, and Mixed Midels. 2nd ed. Wiley,
New York.
Nerlove, M and Press, S.J. 1976. Univariate and Multivariate Log-Linier and Logistic Models.
Rand. Santa Monica.
William, D.A. 1982. ExtraBinomial Variation in Logistical Liniear Models. J.R. Statist. Soc.
C, 31, 144-148.