kriteria pemilihan model saat terjadi nonstasioneritas
TRANSCRIPT
Pemilihan Model Pada Saat Terjadi Nonstasioneritas
Jae-Young KimSchool of Economics, Seoul National University, Seoul, 151-742, South KoreaJournal of Econometrics 169 (2012) 247-257
Abstrak
Paper ini mempelajari metode pemilihan model ketika muncul nonstasioneritas. Penelitian difokuskan pada aturan pemilihan model Bayesian dan membandingkannya dengan kriteria lain yang sering digunakan dalam praktek ekonomi. Pertama, kita mencoba mendapatkan setiap kriteria yang digunakan dalam situasi dimana masalah nonstasioneritas muncul. Secara umum, kita mempelajari aturan pemilihan model Bayesian dengan lebih terperinci dan mendapatkan tiga bentuk alternatif yang berbeda pada saat muncul permasalahan yang sama. Salah satu keistimewaan Bayesian Model Selection Criterion (BSMC) yang sangat penting adalah kriteria tersebut memberikan pembobotan terhadap komponen stasioner dan nonstasioner dari model, suatu hal yang tidak dapat diberikan oleh kriteria lainnya. Keistimewaan tersebut menyebabkan BSMC menjadi alat yang sangat disukai dalam seleksi model ketika muncul nonstasioneritas. Kedua, kita membadingkan kriteria-kriteria tersebut dengan mempertimbangkan parsimony dan power. Dari hasil penelitian diketahui bahwa BSMC memiliki parsimony tertinggi, AIC di peringkat kedua, sedangkan Cp dan yang memiliki tingkat parsimony yang sama berada pada peringkat ketiga. Berdasarkan pertimbangan power, urutan peringkat yang didapatkan tidak begitu jelas. Bagaimanapun, ketika jumlah sampel yang digunakan meningkat, BSMC menjadi sangat unggul dibandingkan dengan kriteria lainnya. Tanpa adanya penyesuaian jumlah sampel, urutan peringkat dalam power berbanding terbalik dengan parsimonynya. Selain itu juga ditemukan bahwa BSMC merupakan aturan pemilihan model yang konsisten dibandingkan dengan yang lainnya. Ketiga, kita mempergunakan empat kasus dari praktek yang menarik dimana BSMC dan kriteria-kriteria lainnya dapat diterapkan . Kita akan mendiskusikan bagaimana BSMC dapat digunakan pada kasus-kasus tersebut. Hasil dari penggunaan simulasi Monte Carlo secara ekstensif untuk memilih model pada empat kasus tersebut menunjukkan bahwa BSMC mengungguli kriteria lainnya.
1. Pendahuluan
Masalah pemilihan model telah menjadi suatu subjek yang penting dalam ekonometrika dan
berbagai ilmu pengetahuan lainnya. Disamping pertimbangan teoritis adalam pembentukan model,
pertimbangan mengenai bagaimana suatu model dapat secara tepat dengan data yang tersedia
merupakan suatu tuntunan penting dalam pemilihan model. Sims (1988), Phillips dan Ploberger
(1996), telah mencatat bahwa strategi dalam pemilihan model ekonometrik perlu dipertimbangkan
kembali ketika muncul nonstasioneritas. Penelitian ini bertujuan untuk memeriksa dan membangun
kembali kriteria pemilihan model ketika muncul nonstasioneritas.
Beberapa kriteria pemilihan model telah di pelajari dalam literatur:
Theil (1961) menyarankan Adjusted
Akaike (1973) menyedakan suatu information (AIC)
Schwarz (1978) menyediakan Bayesian Indormation Criterion
Mallows (1973) menyediakan suatu kriteria prediksi (Cp)
criterion dari Hannan dan Quinn (1979)
criterion dari Geweke dan Messe (1981)
Kullback information criterion dari Cavanaugh (1999)
Deviance Information Criterion dari Spiegelhalter et al (2002)
Metode pemilihan model dalam permodelan time series dari Tsay (1984), serta Hurvich dan Tsai
(1989), dan Potscher (1989)
Moment selection dari Andrews (1999), Andrews dan Lu (2001) serta Hong et al. (2003)
Keseluruhan model tersebut terkait dengan parsimony, sebagaimana ditekankan oleh Zellner et al.
(2001), sebagaimana halnya tingkat akurasi atau power dalam pemilihan model.
Dalam paper ini kita mempertimbangkan empat pendekatan yang berbeda dalam pemilihan
model yang sering digunakan dalam praktek ekonometrik termasuk pendekatan Bayesian, AIC,
Mallows Cp dan . Kita mendapatkan setiap kriteria tersebut ketika muncul nonstasioneritas.
Secara umum, kita mempelajari aturan pemilihan model Bayesian dengan lebih terperinci dan
mendapatkan tiga bentuk alternatif yang berbeda pada saat muncul permasalahan yang sama. Satu
dari tiga bentuk dari Bayesian Model Selection Method sama dengan PIC dalam Phillips (1996).
Salah satu keistimewaan dari Bayesian Model Selection Criterion (BMSC) adalah bahwa
metode tersebut memberikan pembobotan yang berbeda terhadap komponen stasioner dan
nonstasioner dari sebuah model ketika metode lainnya tidak. Keistimewaan tersebut menyebabkan
BSMC menjadi alat yang sangat disukai dalam seleksi model ketika muncul nonstasioneritas. Hal ini
menyebabkan berbagai tingkatan parsimony yang berbeda harus diterapkan dalam komponen
stasioner dan nonstasioner suatu model. Fakta bahwa bobot yang berbeda harus diberikan terhadap
komponen nonstasioner dan komponen stasioner dikemukakan oleh Sims (1988), Phillips dan
Ploberger (1996), dan Kim (1998).
Dalam paper ini kita juga membandingkan antar kriteria dalam hal parsimony dan power.
Metode pemilihan model secara eksplisit maupun implisit memerlukan parsimony, yaitu jika dua
model fit terhadap data dengan sama baiknya, maka dipilih model yang paling sederhana (Zellner et
al. 2001). Berdasarkan beberapa analisis secara teoritis, sebelumnya telah diketahui bahwa BSMC
menunjukkan parsimony yang tertinggi, diikuti oleh AIC, dan Cp serta yang memiliki tingkat
parsimony yang sama pada peringkat terakhir. Temuan teoritis ini sejalan dengan hasil penelitian
yang kami lakukan menggunakan study Monte Carlo.
Pada pihak lain, tingkat akurasi dari kriteria pemilihan model diselidiki dengan menguji nilai
power dari kriteria tersebut, dimana power didefinisikan sebagai peluang untuk memilih suatu
model, ketika model tersebut benar. Dengan mempertimbangkan power dari kriteria yang diuji,
ternyata diperoleh bahwa pemeringkatan tidak dapat dilakukan secara jelas. Namun, saat jumlah
sampel disesuaikan dengan cara ditingkatkan, BSMC menjadi sangat dominan dibandingkan dengan
kriteria lainnya. Tanpa penyesuaian jumlah sampel, peringkat power yang didapatkan berbanding
terbalik dengan parsimony.
Dua temuan tersebut mengindikasikan bahwa nilai power yang tinggi pada AIC, Cp, serta
didapatkan dengan mengorbankan parsimony. Implikasi lainnya adalah kriteria AIC, Cp, serta
boleh jadi overfit terhadap model dengan mengizinkan adanya tingkat eror tipe I yang terlalu
berlebihan. Selain itu ditemukan juga bahwa BSMC merupakan aturan pemilihan model yang paling
konsisten dibandingkan ketiga kriteria lainnya. Studi Monte Carlo terhadap beberapa kasus menarik
memberitahukan bahwa BSMC memiliki power yang lebih baik dibandingkan ketiga kriteria lainnya.
Selanjutnya dengan mempertimbangkan empat kasus yang berbeda dimana BSMC dengan
sebagian atau seluruh kriteria yang dipelajari dalam studi ini dapat diterapkan yaitu:
(i) Pemilihan keputusan diantara I(1) dan I(0)
(ii) Penentuan jumlah patahan strukturals pada model yang mengandung patahan tren
(iii) Vektor error correction model dan penentuan rank dari hubungan kointegrasi
(iv) Penentuan orde pada autoregresi
Kita mendiskusikan bagaimana BSMC dapat diterapkan pada kasus-kasus tersebut. Selain itu, kita
juga menemukan bahwa BIC Schwarz adalah merupakan BIC yang kurang tepat dan kurang pantas
untuk digunakan ketika muncul nonstasioneritas.
2. Aturan Pemilihan Model Secara Umum
Jika merupakan ruang probabilita. merupakan keluarga dari sub ruang
dari F. Jika {yt (・ )} merupakan proses stokastik yang mendefinisikan yang beradaptasi
dengan Ft. Yn = merupakan segmen ke n dari {yt}. Jika Yn memiliki fungsi distribusi
yang kepekatannya dilambangkan dengan untuk dan merupakan ruang
probabilita dimana didefinisikan.
Suatu kumpulan terdiri atas kandidat model untuk Yn dimana terdapat ketidakpastian
terkait dengan kesesuaian dengan model yang sebenarnya. Suatu model terkait dengan
ruang parameter yang berdimensi untuk setiap dimana dengan I
merupakan bilangan positif. Diasumsikan bahwa untuk setiap mi yang merupakan anggota fungsi
distribusi dengan kepekatan yang didefinisikan pada ruang terukur .
2.1. Bayesian Information Criterion (BIC)
2.1.1. Kerangka Kerja Umum
Pendekatan umum pemilihan model dalam kerangka kerja Bayesian adalah memilih model
yang memiliki posterior probability terbesar. Maka Jika merupakan posterior
probability dimana adalah benar, maka berdasarkan aturan Bayesian
(2.1)
dimana merupakan prior probability bahwa adalah benar. Sementara itu
merupakan likelihood termarginalisasi yang didapatkan dengan marginalisasi dari likelihood
untuk model :
(2.2)
dimana merupakan kepekatan prior yang terkait dengan model . Lebih jauh jika
diasumsikan bahwa adalah sama untuk setiap j, aturan pemilihan model adalah untuk
memilih yang memiliki terbesar. Phillips (1996) memperkenalkan suatu dimensi
alternatif sebagai pembenaran dalam menggunakan pendekatan Bayesian dalam pemilihan model
berdasarkan dugaan dari pengukuran model Bayesian.
2.1.2. Pendekatan
Jika sedemikian hingga
(2.3)
Maximum likelihood estimator (MLE) dari θ berdasarkan merupakan vektor-k
dari suatu bilangan real. Sementara melambangkan norm Euclidean. Maka
merupakan suatu wilayah di sekitar yang luasnya ditentukan oleh . Jika deret menjadi
semakin mengecil ketika sehingga wilayah akan menyusut ketika n semakin besar.
Diasumsikan bahwa log-likelihood untuk setiap , dapat
diturunkan sebanyak dua kali terhadap θ pada . Hasil turunan dilambangkan dengan
. Juga diberikan notasi , suatu norm dari matriks A berukuran m x m, dimana
, dengan merupakan norm Euclidean pada .
Selanjutnya diberikan suatu kondisi (C1) dan (C2).
(C1)
a) Jika terdapat suatu deret
positif sedemikian hingga untuk setiap
b) Jika dengan yang memenuhi (C1) (a), maka nilai absolut dari setiab
elemen vektor memiliki kecenderungan peluang P menuju tak hingga ketika n
menuju tak hingga
(C2) Jika merupakan posterior yang terbentuk dari likelihood pn dan suatu prior π. Maka
untuk yang memenuhi (C1)
(2.4)
Pada peluang P ketika n menuju tak hingga.
Misalnya θ terkonsentrasi pada dalam peluang P ketika n menuju tak hingga.
Kondisi (C1) dan (C2) meliputi keragaman yang sangat luas mengenai model yang
mengandung komponen nonstasioner. Kedua kondisi tersebut disatukan dengan keadaan bahwa
suatu π adalah cukup untuk statistik posterior yang akan asimptot normal jika terdapat
kemungkinan nonstasioneritas (Kim, 1998). Daerah yang menyusut tersebut merupakan
kunci dalam menangani masalah kemungkinan munculnya nonstasioneritas dalam mempelajari
aturan pemilihan model Bayesian pada paper ini.
Keistimewaan yang utama dari penyusutan tersebut adalah bahwa kecepatan penyusutan
setiap komponen dalam dapat berbeda untuk i yang berbeda. Keadaan ini
merupakan karakteristik yang penting dalam suatumodel yang mengandung nonstasioneritas: Pada
suatu model yang mengandung variabel stasioner dan nonstasioner, informasi mengenai sampel
terkumpul dalam kecepatan yang berbeda pada variabel yang berbeda, secara umum, parameter
yang mengandung variabel stasioner dan parameter yang mengandung variabel nonstasioner.
Hal ini menyebabkan suatu estimator dari parameter yang terkandung dalam variabel
stasioner memiliki kecepatan yang berbeda untuk konvergen dibandingkan dengan estimator dari
suatu parameter mengandung variabel nonstasioner. Selain itu, kecepatan penyusutan likelihood
(atau posterior) dalam setiap parameter yang berbeda juga berbeda satu sama lain. Pendekatan
metode penyusutan wilayah ini sangat terkait dengan keistimewaan penting dari kriteria pemilihan
model Bayesian, yaitu pemberian bobot yang berbeda pada komponen stasioner dan nonstasioner
pada model.
Kondisi yang menyerupai (C1) dan (C2) digunakan dalam Chen (1985), Sweeting dan Adekola
(1987), serta Crowder (1988) untuk menunjukkan asimptotik normal pada posterior. Namun, kondisi
yang dihadapi dalam paper ini adalah sistem wilayah baik yang bersifat tetap maupun menyusut
dengan kecepatan yang seragam pada setiap i yang berbeda ketika jumlah sampel meningkat. Situasi
semacam ini tidak dapat digunakan sebagai karakteristik yang penting dalam model nonstasioner
sebagaimana telah dijelaskan sebelumnya, yaitu peluang bahwa informasi akan terkumpul dalam
kecepatan yang berbeda pada saat muncul nonstasioneritas.
Dalam kenyataannya, untuk alasan yang terkait dengan keadaan yang dibuat dalam sistem
wilayah baik yang bersifat tetap maupun menyusut dengan kecepatan yang seragam pada setiap i
tidak memenuhi untuk mendapatkan asimpototik normal posterior dari suatu model dengan
variabel stasioner dan nonstasioner. Maka kondisi semacam ini tidak dapat mnyediakan kerangka
kerja untuk mendapatkan kriteria pemilihan model yang memiliki sifat-sifat yang diinginkan, yaitu
suatu kriteria yang memberikan pembobotan yang berbeda pada komponen stasioner dan
nonstasioner pada model. Di sisi lain, pendekatan yang dilakukan oleh Sweeting (1992) dan Kim
(1988) justru menyatakan bahwa hal tersebut dapat dilakukan. Maka analisis akan dilakukan
berdasarkan pendekatan dari kedua penelitian tersebut.
Jika θ0 merupakan nilai sebenarnya dari θ. Berdasarkan kondisi (C1) dan (C2) kita
mendapatkan kondisi berikut
Lemma 2.1. Asumsikan bahwa prior kontinyu di dan terbatas θ0. Maka berdasarkan asumsi
(C1) dan (C2)
Berdasarkan lemma tersebut, maka bentuk umum dari Bayesian information criterion adalah
(GBIC (I)) pilih model j yang memaksimalkan
(2.5)
Perhatikan bahwa kriteria tersebut didapatkan berdasarkan pendekatan yang serupa
dengan PIC dalam Phillips (1996), Phillips dan Ploberger (1994) berdasarkan Pengukuran Model
Bayes. Oleh karena itu, pendekatan BIC pada (2.5) mendapatkan pembenaran dari basis teori
alternatif sebagaimana didiskusikan dalam Phillips (1996).
Kita bisa mendapatkan bentuk alternatif dari BIC dalam suatu kondisi sebagaimana Lemma
2.2. Jika untuk i=1,…,k merupakan bilangan real yang didefinisikan dalam suatu himpunan
bilangan asli , dan
Lemma 2.2. Misalkan terdapat si suatu fungsi bernilai real yang didefinisikan pada untuk setiap i=
1,…,k sedemikian hingga , maka
(2.6)
Pada kenyataannya, merupakan kecepatan konvergensi dari pada komponen ke-i dari MLE
θ. Misalnya digunakan untuk komponen stasioner, digunakan untuk
komponen unit root, dan untuk komponen trend, dsb.
Berdasarkan lemma 2.2., suatu bentuk alternatif dari BIC (2.5) didapatkan sbb
(GBIC (II)) Pilih model j yang memaksimalkan
(2.7)
Perbedaan antara kriteria GBIC(I) dan GBIC(II) adalah pada term kedua,
dibandingkan dengan . Perhatikan bahwa GBIC(II) menggunakan angka yang tersedia
tanpa perlu estimasi terhadap model, sementara GBIC(I) menggunakan angka
yang tersedia setelah estimasi terhadap model. Dengan demikian dapat diambil kesimpulan bahwa
performa relatif kedua GBIC tersebut akan sangat tergantung kepada tingkat akurasi estimasi model.
Jika eror hasil estimasi besar untuk model dan data yang diberikan, maka GBIC(II) akan menunjukkan
performa yang lebih baik dibandingkan dengan GBIC(I), dan sebaliknya.
Analisis yang dilakukan pada subseksi ini adalah untuk memperkirakan asimptotik pada
faktor Bayes berdasarkan kerangka kerja dari Kim (1998). Sementara Kim (1998) mempertimbangkan
suatu regresi dengan kemungkinan adanya akar unit. Pada bagian ini kita mempertimbangkan model
secara umum termasuk yang terdapat dalam Kim (1998).
Sekarang pertimbangkan model regresi linier berikut:
(2.8)
Dimana Xt adalah vektor variabel, dan β adalah vektor parameter. Vektor mungkin
mengandung komponen nonstasioner. Faktor gangguan εt adalah variabel random yang identik dan
independen serta berdistribusi normal .
Jika untuk (2.8), maka kriteria (2.5) dan (2.7) menjadi sebagai berikut:
(GBIC 1) pilih model j yang meminimumkan
(2.9)
(GBIC 2) pilih model j yang meminimumkan
(2.10)
Perhatikan bahwa Schwarz Bayesian information criterion memilih model yang meminimumkan
(2.11)
Merupakan kasus khusus dari GBIC2 (2.10): Jika untuk setiap i = 1,…,k, yaitu setiap
komponen Xt stasioner, maka GBIC2 akan berubah menjadi Kriteria Schwarz (2.11). Hal ini berarti
Sczwarz criterion merupakan kriteria asimptotik Bayesian yang valid ketika seluruh komponen X t
stasioner. Sebaliknya Kriteria Schwarz bukan merupakan kriteria Bayesian yang valid ketika X t
mengandung komponen nonstasioner karena nilai digunakan untuk komponen
nonstasioner.
2.2. Akaike Information Criterion
Jika terdapat dua model yang akan diperbandingkan m0 dan m1, dimana m1 memiliki batasan
nol di θ.
Dimana θ1 merupakan k1 vektor parameter, dan 0 merupakan (k-k1) vektor nol.
Akaike (1973) menyarankan untuk menggunakan fungsi pengurang sebagai berikut
(2.12)
Dimana θ1,0 dan 1 merupakan nilai sebenarnya, dan MLE dari merupakan
likelihood dimana m1 diuji pada θ1,0 . Ln (2.12) θ1 diperlakukan sebagai konsatanta dalam proses
integrasi. Karena tergantung kepada parameter yang tidak diketahui, maka Akaike menyarankan
penggunaan dalam :
(2.13)
Dimana adalah MLE dari θ. Perhatikan bahwa ketika pada m1. Akaike (1973)
mencoba untuk meningkatkan dengan menggunakan fungsi yang sederhana, yaitu
(2.14)
Ketika terjadi peningkatan pada dimana θ0 merupakan nilai sebenarnya dari θ dan
(2.15)
Maka menyediakan suatu perkiraan terhadap pada (2.12), sehingga ditunjukkan
bahwa
Akaike menjelaskan rasionalisasi penggunaan melalui tiga langkah berikut. (1) Dengan
menggunakan ekspansi Taylor untuk , dengan mempertimbangkan 1 di sekitar θ1,0 maka
didapatkan
(2.16)
Dimana bentuk pertama dari ekspansi tersebut adalah nol karena 0. (2) Dengan
menggunakan ekspansi Taylor untuk dan di sekitar dan 1, kita
mendapatkan
(2.17)
Dimana bentuk pertama dari ekspansi tersebut adalah nol karena ketika merupakan
MLE dari θ, dan
(2.18)
Karena sisi kiri pada (2.17) dan (2.18) sama untuk m1, maka
(2.19)
Dari (2.16) dan (2.19) kita mendapatkan (2.14) karena
Sebagai penunjang dari (1) dan (2), Akaike mengadopsi kondisi (3)
(2.20)
Pada kenyataannya, kondisi (2.20) akan melemah terhadap dan
untuk . Berdasarkan (2.20) kita mendapatkan AIC dari
(2.14) sebagai berikut
(2.21)
Yang perlu diminimalkan. Proses minimalisasi AIC pada (2.21) setara dengan maksimalisasi AIC*
sebagaimana
Terdapat dua prasyarat agar (2.20) dapat menajdi valid. Pertama, adanya
dan
Kedua, normalitas asimptotik dari (atau kondisi lain yang serupa) untuk (2.20) dapat
dipertahankan. Namun, ketika muncul nonstasioneritas, tidak satupun dari kedua prasyarat diatas
dapat dipertahankan untuk (2.20). Bagaimanapun, untuk model regresi yang memiliki kondisi
tertentu, (2.20) dapat tersedia dalam berbagai cara lain. Maka, jika model regresi (2.8) ditambahkan
dengan asumsi yang lebih spesifik pada Xt dan εt
(2.22)
Dimana dan memenuhi kondisi Lemma 2.3
Lemma 2.3. Dari Model (2.22), jika asumsikan bahwa
Dimana dan , maka benar bahwa
Dengan demikian, untuk model (2.22) dengan kondisi yang terdapat pada Lemma 2.3 kondisi (2.20)
dapat dipertahankan, sehingga AIC (2.21) merupakan kriteria Akaike yang valid. Jika komponen
stasioner disertakan dalam Xt, maka kita memerlukan kondisi yang saling bebas antara εt dan
variabel stasioner.
Ketika Xt dan εt dan U2t pada (2.22) tidak saling bebas, (2.20) tidak dapat dipertahankan, dan AIC
(2.21) bukan merupakan kriteria Akaike yang valid. Dalam kasus ini, bentuk kedua dari AIC harus
dibuat sedemikian rupa sehingga
(2.23)
Proses integrasi (2.23) tidak dapat dihitung secara langsung dan oleh karenanya tidak berguna secara
praktis. Cara untuk mendapatkan perkiraan yang dapat dihitung untuk integrasi pada (2.23) untuk
model dengan nonstasioneritas berdasarkan kondisi pada Lemma 2.3 tidak dapat dipertahankan
ditinggalkan sebagai pertanyaan terbuka.
Akaike (1973) secara implisit mengasumsikan bahwa jarak antara θ0 dan subspace yang
didefinisikan oleh m1 berada pada suatu urutan , yang merupakan suatu kondisi dimana
validitas dalam penerapan (2.12) dan (2.14) untuk setiap model. Asumsi bahwa jarak yang dimiliki
sebesar memvalidasi AIC yang didapatkan berdasarkan asumsi implisit bahwa m1
merupakan model yang sebenarnya. Perhatikan bahwa merupakan model yang
sebenarnya, sehingga dalam situasi ini AIC bisa didapatkan berdasarkan asumsi bahwa model m0 dan
m1 merupakan model yang benar.
Asumsi yang terakhir ini mengadopsi baik implisitas pada Akaike (1973) maupun eksplisitas
sebagaimana Amemiya (1980). Ketika jarak antara dua model m0 dan m1 secara berurutan lebih
besar dari , kita tidak dapat menjalankan prosedur diatas untuk mendapatkan AIC, yang
berakibat bahwa AIC (2.21) bukan merupakan kriteria Akaike yang valid. Dengan demikian
penerapan AIC (2.21) untuk kasus seperti ini makan mendorong kepada pendugaan yang tidak tepat.
Asumsi mengenai jarak antara dua model sebesar , bagaimanapun akan sulit untuk
dipenuhi , atau diperiksa ketika muncul nonstasioneritas. Untuk membuktikannya, pertimbangkan
suatu model regresi (2.22) dimana θ dan Xt merupakan vektor tiga dimensi, yaitu
dan . Misalkan merupakan tren linier dan Dalam kasus ini
perbedaan antara dua model m0 dan m1 adalah yang merupakan . Selain itu, jika
merupakan suatu variabel , dan jika , maka selisih antara m0 dan m1 adalah
yang merupakan . Perhatikan juga bahwa jika merupakan variabel dan jika
, maka selisih antara m0 dan m1 adalah yang merupakan .
Jarak antara m0 dan m1 yang diperkenalkan dalam Akaike (1973) terkait dengan jarak antara
dua model. Dengan demikian, di saat nonstasioneritas berpeluang muncul, jarak antara dua model
m0 dan m1 dapat berupa selisih satu orde dibandingkan jika nonstasioneritas tidak muncul. Selain itu
asumsi mengenai jarak antara dua model sebesar akan sulit untuk diperiksa jika muncul
nonstasioneritas, ketika dimensi dan lokasi dari nonstasioneritas tidak diketahui. Oleh karena itu
pada saat muncul kemungkinan nonstasioneritas, pengambilan keputusan untuk pemilihan model
berdasarkan AIC tidak dapat diandalkan. (Lihat contoh simulasi pada bagian 4.5)
2.3.1. Kriteria Theil
Karena baik maupun Cp cukup untuk model regresi, pembahasan dibatasi pada model
regresi linier
(2.24)
Dimana εt merupakan white noise dengan . Perhatikan bahwa model (2.24) merupakan
model regresi (2.8) dengan kondisi yang lebih lemah pada εt. Yaitu εt pada (2.24) white noise yang
distribusinya mungkin tidak diketahui. Jika terdapat dua model yang akan dibandingkan m0 dan m1,
dimana m1 memiliki batasan nol pada parameter β.
Dimana β1 merupakan suatu vektor parameter k1, dan 0 merupakan vektor nol (k-k1). Jika bj
merupakan estimator kuadrat terkecil dari β pada model j. Karena = dimana
dan
(2.25)
Jika diberikan , kita dapat menginterpretasikan sebagai suatu kasus khusus dari yang
didefinisikan pada (2.13) dengan
(2.26)
Dimana merupakan konstatanta diantara model yang berbeda. Hal ini menyebabkan kriteria
dapat diinterpretasikan sebagai suatu kasus khusus dari kriteria Akaike, dimana perkiraan fungsi loss
digunakan dengan pn sebagaimana dalam (2.26). Perhatikan bahwa bentuk tidak berubah
ketika muncul nonstasioneritas.
2.3.2. Kriteria Prediksi Bersyarat Mallow’s Cp
Untuk (2.24), kriteria prediksi bersyarat Cp yang diajukan oleh Mallows didefinisikan sebagai
Dimana b1 merupakan estimator OLS dari parameter β1, dan X1 merupakan matriks regressor untuk
model m1 ketika X merupakan regressor dari m0. Berdasarkan asumsi bahwa eror saling bebas
dengan regressor, Cp dijelaskan sbb
(2.27)
Dimana dan , serta merupakan
vektor regressor dari model m1. Dengan cara yang sama pada Lemma 2.3, kita dapat menunjukkan
bahwa (2.27) dapat diterima terlepas dari apakah terdapat konponen nonstasioner dalam
jika eror dan regressor saling bebas. Aturan pemilihan model Mallows memilih model sedemikian
hingga . Untuk penggunaan berikutnya, definisikan
Perhatikan bahwa meliputi kriteria Cp dan . Sebagai contoh, kita akan mendapatkan
jika dan hanya jika .
3. Perbandingan
3.1.Parsimony
Suatu metode pemilihan model secara implisit maupun eksplisit memerlukan parsimony,
sebagaimana dijelaskan oleh Zellner et al. (2001). Yaitu, jika dua model fit pada data sama baiknya,
maka dipilihlah model yang lebih sederhana. Pertama kita tunjukkan terlebih dahulu bahwa terdapat
hubungan teoritis tertentu antara setiap kriteria yang telah disebutkan sebelumnya dengan statistik
rasio likelihood (LR). Dengan demikian, sifat dan performa dari kriteria pemilihan model dapat diuji
dengan LR. Metode ini memberikan fasilitas untuk analisis perbandingan kriteria yang berbeda,
terkait dengan parsimony dan power.
Untuk lebih mudahnya, kta mempertimbangkan suatu regresi linier (2.24) dengan suatu
kondisi tertentu, yaitu: Kondisi GBIC pada (2.8), Kondisi AIC pada (2.22), atau kondisi Cp dan
pada (2.24). Kta gunakan notasi (2.24*) untuk regresi (2.24) yang memenuhi kondisi tersebut.
Kemudian kita memilih antara model dengan regressor X sebanyak k, dinotasikan dengan m0 dan
model dengan subset X1 sebanyak k1 dari model m0, yang dilambangkan dengan m1. Maka kita dapat
dengan mudah menyatakan hubungan antara LR dengan setiap kriteria yang telah dipelajari
sebelumnya. Kita menggunakan notasi untuk likelihood dari mi.
Pertama, untuk GBIC
(3.1)
Sebagaimana telah dijelaskan dari definisi (2.5) dan (2.7). Sebagaimana GBIC, untuk AIC
(3.2)
Definisi 3.1. Jika CRA dan CRB merupakan dua kriteria pemilihan model, kita mendefinisikan bahwa
CRA lebih parsimony dari CRB jika
Ketika perhatikan bahwa
sehingga
(3.3)
(3.4)
Untuk AIC
(3.5)
Perhatikan bahwa dan sehingga pada (3.3)-(3.5) dimana
setiap kriteria dibandingkan dengan LR, kita menggunakan GBIC dibandingkan dengan nAIC, bukan
AIC.
Lemma 3.1. Jika terdapat model (2.24*). Untuk setiap n dimana 2 log
, maka GBIC = GBIC(I), GBIC(II)
Lemma 3.1. Menunjukkan bahwa GBIC lebih parsimony dibandingkan dengan AIC pada kondisi yang
ditentukan. Perhatikan bahwa merupakan kondisi yang
lemah untuk diterima baik pada n yang kecil maupun besar. Maka untuk Cp dan , perhatikan
bahwa
(3.6)
(3.7)
Maka kita dapat menunjukkan bahwa Cp dan memiliki tingkatan yang sama berdasarkan
Lemma 3.2. Untuk (2.24*) adalah benar bahwa
(3.8)
Maka ketika kita akan membandingkan AIC dengan Cp atau , untuk model (2.24*), statistik LR
terkait dengan adalah sbb
(3.9)
Dimana kita dapat menunjukkan bahwa untuk jumlah n yang cukup besar AIC lebih parsimony
dibandingkan Cp atau , untuk model (2.24*) dengan eror normal.
Lemma 3.3. Untuk Model (2.24*) adalah benar bahwa
(3.10)
Untuk n sedemikian hingga
Perhatikan bahwa untuk n yang besar, ekspansi Taylor sehingga
. Dengan demikian, ketika n besar maka Lemma 3.3 dapat dipertahankan.
3.2.Power dan Konsistensi
Power suatu uji didefinisikan sebagai kuasa atau peluang untuk menerima suatu alternatif
yang benar. Kita mendefiniskan power sebagai suatu aturan pemilihan model untuk memilih m0
ketika m0 benar, dimana peluang dari keputusan tersebut dapat dituliskan sebagai
Maka untuk suatu kriteria CR yang memaksimalkan hasil dari persamaan tersebut didapatkan
Dimana merupakan peluang bahwa A berada dalam mi; CRi adalah nilai dari kriteria CR yang
diuji pada model mi. Perhatikan bahwa power yang didefinisikan diatas adalah sama dengan (Eror
tipe II)
Pada bagian ini kita mempelajari power untuk setiap jenis kriteria seleksi model. Pertama,
kita mempertimbangkan power tanpa penyesuaian jumlah sampel. Kemudian kita akan
mendiskusikan mengenai konsistensi kriteria seleksi model yang dipelajari dalam paper ini.
Selanjutnya kta akan mempelajari bagaimana power dari setiap metode seleksi model ketika
dilakukan penyesuaian jumlah sampel. Dalam membandingkan sifat power dari prosedur pengujian
yang berbeda, atau dengan kata lain, untuk prosedur pengambilan keputusan yang berbeda, akan
sangat berarti jika kita mempertimbangkan prosedur penyesuaian jumlah sampel.
Berdasarkan hubungan antara setiap kriteria dan LR pada (3.1), (3.2), dan (3.9), kita dapat
mengetahui power dengan jumlah sampel yang belum disesuaikan untuk berbagai kriteria berikut
Untuk GBIC(I)
Untuk GBIC(II)
Untuk AIC
untuk (3.11)
Dimana . Perhatikan bahwa untuk jumlah n yang besar
Dari (3.10) kita mengetahui bahwa jika LR merupakan sebuah orde yang lebih besar dari log
n sebagimana dalam (2.8), maka power dari setiap kriteria dengan jumlah sampel yang belum
disesuaikan cenderung menyatu ketika jumlah sampel menjadi besar. Dari (3.10) kita juga
mengetahui peringkat power dari kriteria pemilihan sampel jika tanpa adanya penyesuaian jumlah
sampel dari yang tertinggi sampai terendah yaitu; (1) Cp dan terikat secara bersama-sama, (2)
AIC, dan (3) GBIC.
Dengan demikian peringkat dari power pada kriteria dengan jumlah sampel yang belum
disesuaikan berbanding terbalik dengan parsimony. Temuan ini bersama dengan Lemma 3.6
mengimplikasikan bahwa power yang tinggi pada AIC, Cp, dan didapatkan dengan
mengorbankan parsimony. Hal ini memiliki implikasi lanjutan bahwa AIC, Cp, dan boleh jadi
overfit pada model dengan mengizinkan adanya tingkat eror tipe I yang berlebihan.
Selanjutnya kita akan mendiskusikan mengenai konsistensi dari suatu kriteria. Sebuah
kriteria pemilihan model disebut kriteria yang konsisten jika baik eror tipe I maupun eror tipe II
kovergen ke nol. Karena power pada m0 cenderung menyatu untuk setiap kriteria sebagaimana
dibuktikan pada (3.10), kita dapat mengkonfirmasikan bahwa eror tipe II konvergen ke nol. Maka
dalam rangka menunjukkan konsistensi suatu kriteria, kita hanya perlu menunjukkan bahwa eror
tipe I konvergen ke nol. Perhatikan bahwa peluang untuk memilih m1 dibandingkan m0 ketika m1
benar adalah sebanding dengan eror tipe I. Dengan demikian, kita perlu menemukan peluang untuk
memilih m1 dibandingkan dengan m0 ketika m1 benar cenderung untuk menyatu. Hal ini diberikan
pada Lemma 3.4.
Lemma 3.4 Pada model (2.24*) Adalah benar bahwa
sedangkan
Lemma 3.4 dan (3.10) mengimplikasikan bahwa GBIC(I) dan GBIC (II) merupakan kriteria yang
konsisten, sedangkan AIC merupakan kriteria yang tidak konsisten.
Kembali ke permasalahan penyesuaian jumlah sampel. Ketika menyesuaikan jumlah sampel,
kita perlu ikut menyesuaikan titik kritis daerah tolah H0 pada setiap kriteria. Untuk mendapatkan titik
kritis pada level signifikansi yang diberikan, kita menggunakan hubungan antara kriteria dan LR
sebagaimana (3.1), (3.2), dan (3.9). Selanjutnya, suatu titik kritis dari uji rasio likelihood 100α%
ditandai dengan xα, sementara ukuran power yang telah disesuaikan ditandai dengan
: Pr[memilih m0 dibandingkan m1 | m0 benar] pada ukuran 100α%
Untuk setiap kriteria, GBIC(I), GBIC(II), AIC, dan , ukuran power yang telah
disesuaikan diberikan oleh Lemma berikut
Lemma 3.5. Untuk model (2.24*), ukuran power yang telah disesuaikan pada kriteria GBIC(I),
GBIC(II), AIC, dan , adalah sebagai berikut
(3.12)
Dimana kita menyesuaikan skala setiap persamaan dalam kurung, sehingga banyaknya muncul
pada setiap persamaan. Karena distribusi dari statistik LR pada kriteria tersebut biasanya tidak
tersedia pada m0, analisis perbandingan power pada ukuran sampel yang telah disesuaikan tidak
dimungkinkan. Namun demikian untuk mengatasinya dapat digunakan simulasi.
Di sisi lain berdasarkan (3.12) kita dapat menunjukkan bahwa nilai power pada GBIC
konvergen pada suatu kesatuan, ketika kriteria lainnya tidak demikian pada kasus
Lemma 3.6. Pada model (2.24*) adalah benar bahwa untuk GBIC ketika n menuju tak
hingga. Sementara itu AIC, Cp, dan nilai untuk setiap n.
4. Contoh dan Studi Simulasi
Pada bagian ini kita akan mempelajari beberapa contoh model dimana sebagian atau
seluruh kriteria dapat diterapkan. Terdapat empat jenis studi yang dipertimbangkan
(i) Keputusan antara I(1) dan I(0)
(ii) Penentuan jumlah patahan struktural pada model yang mengandung trand patahans
(iii) Suatu vektor error correction model dan penentuan rank pada hubungan kointegrasi
(iv) Urutan penentuan dalam autoregresi
Hasil penentuan model berdasarkan kriteria yang dipelajari pada bagian 2 untuk kasus (i)
dan (ii), akan dipelajari menggunakan simulasi Monte Carlo.
4.1. Penentuan Keputusan antara I(1) dan I(0) dalam model AR
Kriteria Bayesian GBIC dapat diaplikasikan untuk memilih keputusan antara I(1) dan I(0) pada
time series. Kita membandingkan GBIC dengan uji Augmented Dickey-Fuller (ADF) sebagai suatu uji
yang paling banyak digunakan dalam pengambilan keputusan tersebut. Selain itu kita juga
membandingkan hasil yang didapatkan oleh GBIC dengan kriteria Schwarz.
Misalkan suatu proses stokastik yt mengikuti AR(p)
Dimana , maka dapat dibuat suatu bentuk alternatif dari proses yt
(4.1)
Dimana merupakan parameter dampak autoregresif jangka panjang dan
merupakan ikutan sementara yang dinamis. Jika persamaan karakteristik
memiliki akar unit, maka ρ=1, sehingga yt dapat diartikan sebagai proses I(1).
Maka model (4.1) dapat ditransformasikan lebih jauh menjadi
(4.1’)
Dimana . Maka keputusan antara I(1) dan I(0) adalah untuk memilih antara
H0 : Model (4.1’) dengan β1 = 0, dengan
H1 : Model (4.1’) dengan β1 < 0 (4.2)
Kriteria keputusan GBIC1 (2.9) untuk hipotesis (4.2) adalah memilih model yang
meminimumkan
(4.3)
Dimana
untuk j=0, dan
untuk j=1
4.2. Penentuan jumlah patahan tren
Kita mempertimbangkan penerapan GBIC untuk menentukan jumlah patahan tren pada
suatu time series yang memiliki tren. Kita membandingkan hasil dari GBIC dengan AIC dan kriteria
Schwarz. Misalkan bahwa terdapat beberapa kejadian bersejarah yang masing-masing memberikan
perubahan permanen pada tren dari suatu time series yang linier. Maka kita mempertimbangkan
model berikut
(4.4)
Dimana I(.) merupakan indikator fungsi dan merupakan watu terjadinya patahan yang
tidak diketahui. Pada waktu patahan , pergeseran tren pada jumlah
Untuk lebih mudahnya, kita asumsikan bahwa . Untuk , maka
kita memiliki , ketika si merupakan kecepatan
konvergensi dari θi. Dengan demikian GBIC2 (2.10) dalam kasus ini adalah
Memilih model j yang meminimumkan
(4.5)
Dimana qj merupakan jumlah dari patahan struktural pada model j, sementara GBIC1 sebagaimana
dalam (2.9) dengan
4.3. VECM dan penentuan rank kointegrasi
Pada subbagian ini kita mempelajari tentang kriteria GBIC Bayesian untuk pendugaan rank
kointegrasi suatu vektor error correction model (VECM). Penelitian terkait telah dilakukan oleh Chao
dan Phillips (1998, 1999). Misalkan suatu m-vektor I(1) dari suatu proses yt dapat digolongkan
melalui suatu vektor autoregresi dengan ordo p. Maka kita dapat menulisnya dalam suatu bentuk
error correction
(4.6)
Dimana . Pada hipotesis Hr dimana terdapat sebanyak hubungan
kointegrasi pada yt, matriks terbatas pada , dimana B merupakan suatu matriks (m x r),
dan A merupakan matriks (r x m). Dengan menggunakan matriks A dab B maka kita dapat
menuliskan kembali persamaan (4.6) menjadi
(4.7)
Jika , dimana melambangkan vektor yang
dibentuk dengan menumpuk semua parameter dalam (.). Maka berdasarkan Hr, turunan kedua dari
log-likelihood adalah sedemikian hingga matriks kovarians θ menjadi
(4.8)
Dimana Xr merupakan matriks X untuk model Hr dan merupakan MLE dari berdasarkan Hr.
Berdasarkan dugaan Full Information Maximum Likelihood (FIML) dari system (4.7) dalam Johnsen
(1991) kita mendapatkan bentuk likelihood yang dimaksimalkan dari (4.7) berdasarkan Hr:
(4.9)
Dimana dan untuk i=1,..,r merupakan eigenvalue terbesar ke-I dari matriks
(4.10)
Dimana dan , dimana dan
merupakan residual dari regresi berikut
untuk t = 1, …, n
untuk t = 1, …, n
Dimana ‘hat’ melambangkan penduga kuadrat terkecil
Perhatikan bahwa tiga bentuk pertama dari pada (4.9) tidak bergantung kepada
dimensi kointegrasi r. Maka berdasarkan (4.8) dan (4.9), GBIC(I) untuk menentukan rank kointegrasi
r adalah
Pilih model Hr yang meminimumkan
(4.11)
Sementara GBIC(II)
Pilih model Hr yang meminimumkan
(4.12)
Dimana k merupakan jumlah elemen pada θ
4.4. Suatu regresi dengan eror non-i.i.d.
Pertimbangkan bentuk regresi (2.24), namun memiliki eror yang berkorelasi antar pengamatan
(4.13)
Jika , suatu vektor (ak x 1). Maka GBIC(I) untuk model (4.13) adalah untuk
meminimumkan
(4.14)
Dimana untuk . Pada sisi lain, kriteria Schwarz yang berdasarkan
pada pendugaan kuadrat terkecil pada regresi (4.13) adalah untuk memilih model yang
meminimumkan
(4.15)
Sebagaimana ditunjukkan pada bagian (2.1), Kriteria Schwarz (4.15) pada saat muncul
nonstasioneritas bukan merupakan kriteria Bayesian yang valid, sementara GBIC (4.14) merupakan
kriteria yang valid. Bahkan jika tidak muncul adanya nonstasioneritas, dapat dilihat berdasarkan
(4.14) dan (4.15) bahwa GBIC akan menghasilkan jawaban yang berbeda untuk pemilihan model
berdasarkan Kriteria Schwarz. Kita dapat menyimpulkan bahwa GBIC (4.14) akan menghasilkan
jawaban yang lebih akurat daripada kriteria Schwarz (4.15) karena GBIC menggunakan model yang
tepat, yang memberikan perlakuan khusus terhadap struktur autoregresif dari eror, sedangkan
kriteria Schwarz tidak.
4.5. Studi Monte Carlo
Kita menguji hasil dari GBIC1 (4.3), untuk mendapatkan keputusan antara I(1) dan I(0)
dibandingkan dengan model (4.1’) yang didapatkan berdasarkan simulasi Monte Carlo. Pertama kita
menguji peluang untuk memilih model sebenarnya Hρ dibandingkan dengan H0: ρ = 1 untuk berbagai
variabel ρ dari 0 sampai dengan 1. Model yang digunakan adalah AR(2) dengan dan
bergerak dari 0,5 sampai 0,7 sehingga jangkauan dari akar ρ adalah dari 0,8 sampai dengan 1. Jumlah
sampel sebesar 100 dengan 5000 pengulangan. Hasilnya dilaporkan pada tabel 4.1.1. Berdasarkan
studi tersebut ditemukan bahwa secara seragam di ρ, GBIC memiliki frekuensi lebih tinggi untuk
memilih model yang benar dibandingkan dengan kriteria Schwarz. Perbedaan antara GBIC dan
kriteria Scwarz menjadi semakin jelas ketika nilai ρ semakin besar. Kriteria Schwarz memiliki bias
yang semakin besar dalam memilih H0 saat ρ yang lebih besar.
Pada tahap kedua kita membandingkan power dari GBIC with dua kriteria pemilihan model
lainnya yaitu kriteria Schwarz dan uji Augmented Dickey-Fuller. Sebagaimana biasa, kita
mendefinisikan power sebagai peluang untuk memilih model sebenarnya. Nilai kritis GBIC dan SBIC
didapatkan berdasarkan metode yang dipelajari pada bagian 3. Model yang digunakan untuk
simulasi adalah sama dengan simulasi pertama, dan hasilnya disajikan 4.1.2. Ternyata GBIC (4.3)
memiliki power yang jauh lebih baik dibandingkan dengan kriteria Schwarz dan uji-t augmented
Dickey-Fuller.
Selanjutnya, simulasi Monte Carlo dilakukan terhadap model (4.4) untuk menentukan
jumlah patahan tren untuk menguji hasil dari GBIC dan AIC. Kita mempertimbangkan nilai
sebenarnya untuk q yang bergerak dari 0 sampai 2. Pada simulasi model (4.4) ini digunakan
dan untuk model dengan q = 1, Sementara
dan dengan jumlah sampel sebesar 200 dan 2000 pengulangan. Hasilnya
dilaporkan pada 4.2.
Dari simulasi kedua tersebut ditemukan bahwa kriteria Schwarz memiliki bias yang lebih
besar dalam memilih model dengan lebih banyak patahan yang dilaporkan daripada model
sebenarnya. Di sisi lain, GBIC2 memilih model yang sebenarnya memiliki frekuensi relatif sebanyak
satu dari tiga kasus pemilihan q yang sebenarnya dari 0 sampai 2. Hasil yang didapatkan dengan
GBIC1 tidak seberapa baik jika dibandingkan dengan GBIC2, namun lebih baik jika dibandingkan
dengan kriteria Schwarz.
Hasil yang didapatkan dengan menggunakan AIC sangat buruk, sebaimana ditunjukkan pada
tabel 4.2. Hal ini merupakan suatu bukti bahwa AIC tidak dapat menyediakan hasil yang dapat
diandalkan untuk memilih model ketika ‘jarak’ antara model yang sebenarnya dengan model yang
diasumsikan terlalu lebar. Model (4.4) merupakan model dengan komponen nonstasioner (tren dan
patahans dari tren) dengan dimensi dari nonstasioneritas, jumlah dari patahan tidak diketahui.
Dalam kasus ini, jarak antara model sebenarnya dengan model alternatif mungkin lebih besar
daripada yang diasumsikan dalam Akaike (1973) orde