kriteria pemilihan model saat terjadi nonstasioneritas

Pemilihan Model Pada Saat Terjadi Nonstasioneritas

Jae-Young KimSchool of Economics, Seoul National University, Seoul, 151-742, South KoreaJournal of Econometrics 169 (2012) 247-257

Abstrak

Paper ini mempelajari metode pemilihan model ketika muncul nonstasioneritas. Penelitian difokuskan pada aturan pemilihan model Bayesian dan membandingkannya dengan kriteria lain yang sering digunakan dalam praktek ekonomi. Pertama, kita mencoba mendapatkan setiap kriteria yang digunakan dalam situasi dimana masalah nonstasioneritas muncul. Secara umum, kita mempelajari aturan pemilihan model Bayesian dengan lebih terperinci dan mendapatkan tiga bentuk alternatif yang berbeda pada saat muncul permasalahan yang sama. Salah satu keistimewaan Bayesian Model Selection Criterion (BSMC) yang sangat penting adalah kriteria tersebut memberikan pembobotan terhadap komponen stasioner dan nonstasioner dari model, suatu hal yang tidak dapat diberikan oleh kriteria lainnya. Keistimewaan tersebut menyebabkan BSMC menjadi alat yang sangat disukai dalam seleksi model ketika muncul nonstasioneritas. Kedua, kita membadingkan kriteria-kriteria tersebut dengan mempertimbangkan parsimony dan power. Dari hasil penelitian diketahui bahwa BSMC memiliki parsimony tertinggi, AIC di peringkat kedua, sedangkan Cp dan yang memiliki tingkat parsimony yang sama berada pada peringkat ketiga. Berdasarkan pertimbangan power, urutan peringkat yang didapatkan tidak begitu jelas. Bagaimanapun, ketika jumlah sampel yang digunakan meningkat, BSMC menjadi sangat unggul dibandingkan dengan kriteria lainnya. Tanpa adanya penyesuaian jumlah sampel, urutan peringkat dalam power berbanding terbalik dengan parsimonynya. Selain itu juga ditemukan bahwa BSMC merupakan aturan pemilihan model yang konsisten dibandingkan dengan yang lainnya. Ketiga, kita mempergunakan empat kasus dari praktek yang menarik dimana BSMC dan kriteria-kriteria lainnya dapat diterapkan . Kita akan mendiskusikan bagaimana BSMC dapat digunakan pada kasus-kasus tersebut. Hasil dari penggunaan simulasi Monte Carlo secara ekstensif untuk memilih model pada empat kasus tersebut menunjukkan bahwa BSMC mengungguli kriteria lainnya.

1. Pendahuluan

Masalah pemilihan model telah menjadi suatu subjek yang penting dalam ekonometrika dan

berbagai ilmu pengetahuan lainnya. Disamping pertimbangan teoritis adalam pembentukan model,

pertimbangan mengenai bagaimana suatu model dapat secara tepat dengan data yang tersedia

merupakan suatu tuntunan penting dalam pemilihan model. Sims (1988), Phillips dan Ploberger

(1996), telah mencatat bahwa strategi dalam pemilihan model ekonometrik perlu dipertimbangkan

kembali ketika muncul nonstasioneritas. Penelitian ini bertujuan untuk memeriksa dan membangun

kembali kriteria pemilihan model ketika muncul nonstasioneritas.

Beberapa kriteria pemilihan model telah di pelajari dalam literatur:

Theil (1961) menyarankan Adjusted

Akaike (1973) menyedakan suatu information (AIC)

Schwarz (1978) menyediakan Bayesian Indormation Criterion

Mallows (1973) menyediakan suatu kriteria prediksi (Cp)

criterion dari Hannan dan Quinn (1979)

criterion dari Geweke dan Messe (1981)

Kullback information criterion dari Cavanaugh (1999)

Deviance Information Criterion dari Spiegelhalter et al (2002)

Metode pemilihan model dalam permodelan time series dari Tsay (1984), serta Hurvich dan Tsai

(1989), dan Potscher (1989)

Moment selection dari Andrews (1999), Andrews dan Lu (2001) serta Hong et al. (2003)

Keseluruhan model tersebut terkait dengan parsimony, sebagaimana ditekankan oleh Zellner et al.

(2001), sebagaimana halnya tingkat akurasi atau power dalam pemilihan model.

Dalam paper ini kita mempertimbangkan empat pendekatan yang berbeda dalam pemilihan

model yang sering digunakan dalam praktek ekonometrik termasuk pendekatan Bayesian, AIC,

Mallows Cp dan . Kita mendapatkan setiap kriteria tersebut ketika muncul nonstasioneritas.

Secara umum, kita mempelajari aturan pemilihan model Bayesian dengan lebih terperinci dan

mendapatkan tiga bentuk alternatif yang berbeda pada saat muncul permasalahan yang sama. Satu

dari tiga bentuk dari Bayesian Model Selection Method sama dengan PIC dalam Phillips (1996).

Salah satu keistimewaan dari Bayesian Model Selection Criterion (BMSC) adalah bahwa

metode tersebut memberikan pembobotan yang berbeda terhadap komponen stasioner dan

nonstasioner dari sebuah model ketika metode lainnya tidak. Keistimewaan tersebut menyebabkan

BSMC menjadi alat yang sangat disukai dalam seleksi model ketika muncul nonstasioneritas. Hal ini

menyebabkan berbagai tingkatan parsimony yang berbeda harus diterapkan dalam komponen

stasioner dan nonstasioner suatu model. Fakta bahwa bobot yang berbeda harus diberikan terhadap

komponen nonstasioner dan komponen stasioner dikemukakan oleh Sims (1988), Phillips dan

Ploberger (1996), dan Kim (1998).

Dalam paper ini kita juga membandingkan antar kriteria dalam hal parsimony dan power.

Metode pemilihan model secara eksplisit maupun implisit memerlukan parsimony, yaitu jika dua

model fit terhadap data dengan sama baiknya, maka dipilih model yang paling sederhana (Zellner et

al. 2001). Berdasarkan beberapa analisis secara teoritis, sebelumnya telah diketahui bahwa BSMC

menunjukkan parsimony yang tertinggi, diikuti oleh AIC, dan Cp serta yang memiliki tingkat

parsimony yang sama pada peringkat terakhir. Temuan teoritis ini sejalan dengan hasil penelitian

yang kami lakukan menggunakan study Monte Carlo.

Pada pihak lain, tingkat akurasi dari kriteria pemilihan model diselidiki dengan menguji nilai

power dari kriteria tersebut, dimana power didefinisikan sebagai peluang untuk memilih suatu

model, ketika model tersebut benar. Dengan mempertimbangkan power dari kriteria yang diuji,

ternyata diperoleh bahwa pemeringkatan tidak dapat dilakukan secara jelas. Namun, saat jumlah

sampel disesuaikan dengan cara ditingkatkan, BSMC menjadi sangat dominan dibandingkan dengan

kriteria lainnya. Tanpa penyesuaian jumlah sampel, peringkat power yang didapatkan berbanding

terbalik dengan parsimony.

Dua temuan tersebut mengindikasikan bahwa nilai power yang tinggi pada AIC, Cp, serta

didapatkan dengan mengorbankan parsimony. Implikasi lainnya adalah kriteria AIC, Cp, serta

boleh jadi overfit terhadap model dengan mengizinkan adanya tingkat eror tipe I yang terlalu

berlebihan. Selain itu ditemukan juga bahwa BSMC merupakan aturan pemilihan model yang paling

konsisten dibandingkan ketiga kriteria lainnya. Studi Monte Carlo terhadap beberapa kasus menarik

memberitahukan bahwa BSMC memiliki power yang lebih baik dibandingkan ketiga kriteria lainnya.

Selanjutnya dengan mempertimbangkan empat kasus yang berbeda dimana BSMC dengan

sebagian atau seluruh kriteria yang dipelajari dalam studi ini dapat diterapkan yaitu:

(i) Pemilihan keputusan diantara I(1) dan I(0)

(ii) Penentuan jumlah patahan strukturals pada model yang mengandung patahan tren

(iii) Vektor error correction model dan penentuan rank dari hubungan kointegrasi

(iv) Penentuan orde pada autoregresi

Kita mendiskusikan bagaimana BSMC dapat diterapkan pada kasus-kasus tersebut. Selain itu, kita

juga menemukan bahwa BIC Schwarz adalah merupakan BIC yang kurang tepat dan kurang pantas

untuk digunakan ketika muncul nonstasioneritas.

2. Aturan Pemilihan Model Secara Umum

Jika merupakan ruang probabilita. merupakan keluarga dari sub ruang

dari F. Jika {yt (・ )} merupakan proses stokastik yang mendefinisikan yang beradaptasi

dengan Ft. Yn = merupakan segmen ke n dari {yt}. Jika Yn memiliki fungsi distribusi

yang kepekatannya dilambangkan dengan untuk dan merupakan ruang

probabilita dimana didefinisikan.

Suatu kumpulan terdiri atas kandidat model untuk Yn dimana terdapat ketidakpastian

terkait dengan kesesuaian dengan model yang sebenarnya. Suatu model terkait dengan

ruang parameter yang berdimensi untuk setiap dimana dengan I

merupakan bilangan positif. Diasumsikan bahwa untuk setiap mi yang merupakan anggota fungsi

distribusi dengan kepekatan yang didefinisikan pada ruang terukur .

2.1. Bayesian Information Criterion (BIC)

2.1.1. Kerangka Kerja Umum

Pendekatan umum pemilihan model dalam kerangka kerja Bayesian adalah memilih model

yang memiliki posterior probability terbesar. Maka Jika merupakan posterior

probability dimana adalah benar, maka berdasarkan aturan Bayesian

(2.1)

dimana merupakan prior probability bahwa adalah benar. Sementara itu

merupakan likelihood termarginalisasi yang didapatkan dengan marginalisasi dari likelihood

untuk model :

(2.2)

dimana merupakan kepekatan prior yang terkait dengan model . Lebih jauh jika

diasumsikan bahwa adalah sama untuk setiap j, aturan pemilihan model adalah untuk

memilih yang memiliki terbesar. Phillips (1996) memperkenalkan suatu dimensi

alternatif sebagai pembenaran dalam menggunakan pendekatan Bayesian dalam pemilihan model

berdasarkan dugaan dari pengukuran model Bayesian.

2.1.2. Pendekatan

Jika sedemikian hingga

(2.3)

Maximum likelihood estimator (MLE) dari θ berdasarkan merupakan vektor-k

dari suatu bilangan real. Sementara melambangkan norm Euclidean. Maka

merupakan suatu wilayah di sekitar yang luasnya ditentukan oleh . Jika deret menjadi

semakin mengecil ketika sehingga wilayah akan menyusut ketika n semakin besar.

Diasumsikan bahwa log-likelihood untuk setiap , dapat

diturunkan sebanyak dua kali terhadap θ pada . Hasil turunan dilambangkan dengan

. Juga diberikan notasi , suatu norm dari matriks A berukuran m x m, dimana

, dengan merupakan norm Euclidean pada .

Selanjutnya diberikan suatu kondisi (C1) dan (C2).

(C1)

a) Jika terdapat suatu deret

positif sedemikian hingga untuk setiap

b) Jika dengan yang memenuhi (C1) (a), maka nilai absolut dari setiab

elemen vektor memiliki kecenderungan peluang P menuju tak hingga ketika n

menuju tak hingga

(C2) Jika merupakan posterior yang terbentuk dari likelihood pn dan suatu prior π. Maka

untuk yang memenuhi (C1)

(2.4)

Pada peluang P ketika n menuju tak hingga.

Misalnya θ terkonsentrasi pada dalam peluang P ketika n menuju tak hingga.

Kondisi (C1) dan (C2) meliputi keragaman yang sangat luas mengenai model yang

mengandung komponen nonstasioner. Kedua kondisi tersebut disatukan dengan keadaan bahwa

suatu π adalah cukup untuk statistik posterior yang akan asimptot normal jika terdapat

kemungkinan nonstasioneritas (Kim, 1998). Daerah yang menyusut tersebut merupakan

kunci dalam menangani masalah kemungkinan munculnya nonstasioneritas dalam mempelajari

aturan pemilihan model Bayesian pada paper ini.

Keistimewaan yang utama dari penyusutan tersebut adalah bahwa kecepatan penyusutan

setiap komponen dalam dapat berbeda untuk i yang berbeda. Keadaan ini

merupakan karakteristik yang penting dalam suatumodel yang mengandung nonstasioneritas: Pada

suatu model yang mengandung variabel stasioner dan nonstasioner, informasi mengenai sampel

terkumpul dalam kecepatan yang berbeda pada variabel yang berbeda, secara umum, parameter

yang mengandung variabel stasioner dan parameter yang mengandung variabel nonstasioner.

Hal ini menyebabkan suatu estimator dari parameter yang terkandung dalam variabel

stasioner memiliki kecepatan yang berbeda untuk konvergen dibandingkan dengan estimator dari

suatu parameter mengandung variabel nonstasioner. Selain itu, kecepatan penyusutan likelihood

(atau posterior) dalam setiap parameter yang berbeda juga berbeda satu sama lain. Pendekatan

metode penyusutan wilayah ini sangat terkait dengan keistimewaan penting dari kriteria pemilihan

model Bayesian, yaitu pemberian bobot yang berbeda pada komponen stasioner dan nonstasioner

pada model.

Kondisi yang menyerupai (C1) dan (C2) digunakan dalam Chen (1985), Sweeting dan Adekola

(1987), serta Crowder (1988) untuk menunjukkan asimptotik normal pada posterior. Namun, kondisi

yang dihadapi dalam paper ini adalah sistem wilayah baik yang bersifat tetap maupun menyusut

dengan kecepatan yang seragam pada setiap i yang berbeda ketika jumlah sampel meningkat. Situasi

semacam ini tidak dapat digunakan sebagai karakteristik yang penting dalam model nonstasioner

sebagaimana telah dijelaskan sebelumnya, yaitu peluang bahwa informasi akan terkumpul dalam

kecepatan yang berbeda pada saat muncul nonstasioneritas.

Dalam kenyataannya, untuk alasan yang terkait dengan keadaan yang dibuat dalam sistem

wilayah baik yang bersifat tetap maupun menyusut dengan kecepatan yang seragam pada setiap i

tidak memenuhi untuk mendapatkan asimpototik normal posterior dari suatu model dengan

variabel stasioner dan nonstasioner. Maka kondisi semacam ini tidak dapat mnyediakan kerangka

kerja untuk mendapatkan kriteria pemilihan model yang memiliki sifat-sifat yang diinginkan, yaitu

suatu kriteria yang memberikan pembobotan yang berbeda pada komponen stasioner dan

nonstasioner pada model. Di sisi lain, pendekatan yang dilakukan oleh Sweeting (1992) dan Kim

(1988) justru menyatakan bahwa hal tersebut dapat dilakukan. Maka analisis akan dilakukan

berdasarkan pendekatan dari kedua penelitian tersebut.

Jika θ0 merupakan nilai sebenarnya dari θ. Berdasarkan kondisi (C1) dan (C2) kita

mendapatkan kondisi berikut

Lemma 2.1. Asumsikan bahwa prior kontinyu di dan terbatas θ0. Maka berdasarkan asumsi

(C1) dan (C2)

Berdasarkan lemma tersebut, maka bentuk umum dari Bayesian information criterion adalah

(GBIC (I)) pilih model j yang memaksimalkan

(2.5)

Perhatikan bahwa kriteria tersebut didapatkan berdasarkan pendekatan yang serupa

dengan PIC dalam Phillips (1996), Phillips dan Ploberger (1994) berdasarkan Pengukuran Model

Bayes. Oleh karena itu, pendekatan BIC pada (2.5) mendapatkan pembenaran dari basis teori

alternatif sebagaimana didiskusikan dalam Phillips (1996).

Kita bisa mendapatkan bentuk alternatif dari BIC dalam suatu kondisi sebagaimana Lemma

2.2. Jika untuk i=1,…,k merupakan bilangan real yang didefinisikan dalam suatu himpunan

bilangan asli , dan

Lemma 2.2. Misalkan terdapat si suatu fungsi bernilai real yang didefinisikan pada untuk setiap i=

1,…,k sedemikian hingga , maka

(2.6)

Pada kenyataannya, merupakan kecepatan konvergensi dari pada komponen ke-i dari MLE

θ. Misalnya digunakan untuk komponen stasioner, digunakan untuk

komponen unit root, dan untuk komponen trend, dsb.

Berdasarkan lemma 2.2., suatu bentuk alternatif dari BIC (2.5) didapatkan sbb

(GBIC (II)) Pilih model j yang memaksimalkan

(2.7)

Perbedaan antara kriteria GBIC(I) dan GBIC(II) adalah pada term kedua,

dibandingkan dengan . Perhatikan bahwa GBIC(II) menggunakan angka yang tersedia

tanpa perlu estimasi terhadap model, sementara GBIC(I) menggunakan angka

yang tersedia setelah estimasi terhadap model. Dengan demikian dapat diambil kesimpulan bahwa

performa relatif kedua GBIC tersebut akan sangat tergantung kepada tingkat akurasi estimasi model.

Jika eror hasil estimasi besar untuk model dan data yang diberikan, maka GBIC(II) akan menunjukkan

performa yang lebih baik dibandingkan dengan GBIC(I), dan sebaliknya.

Analisis yang dilakukan pada subseksi ini adalah untuk memperkirakan asimptotik pada

faktor Bayes berdasarkan kerangka kerja dari Kim (1998). Sementara Kim (1998) mempertimbangkan

suatu regresi dengan kemungkinan adanya akar unit. Pada bagian ini kita mempertimbangkan model

secara umum termasuk yang terdapat dalam Kim (1998).

Sekarang pertimbangkan model regresi linier berikut:

(2.8)

Dimana Xt adalah vektor variabel, dan β adalah vektor parameter. Vektor mungkin

mengandung komponen nonstasioner. Faktor gangguan εt adalah variabel random yang identik dan

independen serta berdistribusi normal .

Jika untuk (2.8), maka kriteria (2.5) dan (2.7) menjadi sebagai berikut:

(GBIC 1) pilih model j yang meminimumkan

(2.9)

(GBIC 2) pilih model j yang meminimumkan

(2.10)

Perhatikan bahwa Schwarz Bayesian information criterion memilih model yang meminimumkan

(2.11)

Merupakan kasus khusus dari GBIC2 (2.10): Jika untuk setiap i = 1,…,k, yaitu setiap

komponen Xt stasioner, maka GBIC2 akan berubah menjadi Kriteria Schwarz (2.11). Hal ini berarti

Sczwarz criterion merupakan kriteria asimptotik Bayesian yang valid ketika seluruh komponen X t

stasioner. Sebaliknya Kriteria Schwarz bukan merupakan kriteria Bayesian yang valid ketika X t

mengandung komponen nonstasioner karena nilai digunakan untuk komponen

nonstasioner.

2.2. Akaike Information Criterion

Jika terdapat dua model yang akan diperbandingkan m0 dan m1, dimana m1 memiliki batasan

nol di θ.

Dimana θ1 merupakan k1 vektor parameter, dan 0 merupakan (k-k1) vektor nol.

Akaike (1973) menyarankan untuk menggunakan fungsi pengurang sebagai berikut

(2.12)

Dimana θ1,0 dan 1 merupakan nilai sebenarnya, dan MLE dari merupakan

likelihood dimana m1 diuji pada θ1,0 . Ln (2.12) θ1 diperlakukan sebagai konsatanta dalam proses

integrasi. Karena tergantung kepada parameter yang tidak diketahui, maka Akaike menyarankan

penggunaan dalam :

(2.13)

Dimana adalah MLE dari θ. Perhatikan bahwa ketika pada m1. Akaike (1973)

mencoba untuk meningkatkan dengan menggunakan fungsi yang sederhana, yaitu

(2.14)

Ketika terjadi peningkatan pada dimana θ0 merupakan nilai sebenarnya dari θ dan

(2.15)

Maka menyediakan suatu perkiraan terhadap pada (2.12), sehingga ditunjukkan

bahwa

Akaike menjelaskan rasionalisasi penggunaan melalui tiga langkah berikut. (1) Dengan

menggunakan ekspansi Taylor untuk , dengan mempertimbangkan 1 di sekitar θ1,0 maka

didapatkan

(2.16)

Dimana bentuk pertama dari ekspansi tersebut adalah nol karena 0. (2) Dengan

menggunakan ekspansi Taylor untuk dan di sekitar dan 1, kita

mendapatkan

(2.17)

Dimana bentuk pertama dari ekspansi tersebut adalah nol karena ketika merupakan

MLE dari θ, dan

(2.18)

Karena sisi kiri pada (2.17) dan (2.18) sama untuk m1, maka

(2.19)

Dari (2.16) dan (2.19) kita mendapatkan (2.14) karena

Sebagai penunjang dari (1) dan (2), Akaike mengadopsi kondisi (3)

(2.20)

Pada kenyataannya, kondisi (2.20) akan melemah terhadap dan

untuk . Berdasarkan (2.20) kita mendapatkan AIC dari

(2.14) sebagai berikut

(2.21)

Yang perlu diminimalkan. Proses minimalisasi AIC pada (2.21) setara dengan maksimalisasi AIC*

sebagaimana

Terdapat dua prasyarat agar (2.20) dapat menajdi valid. Pertama, adanya

dan

Kedua, normalitas asimptotik dari (atau kondisi lain yang serupa) untuk (2.20) dapat

dipertahankan. Namun, ketika muncul nonstasioneritas, tidak satupun dari kedua prasyarat diatas

dapat dipertahankan untuk (2.20). Bagaimanapun, untuk model regresi yang memiliki kondisi

tertentu, (2.20) dapat tersedia dalam berbagai cara lain. Maka, jika model regresi (2.8) ditambahkan

dengan asumsi yang lebih spesifik pada Xt dan εt

(2.22)

Dimana dan memenuhi kondisi Lemma 2.3

Lemma 2.3. Dari Model (2.22), jika asumsikan bahwa

Dimana dan , maka benar bahwa

Dengan demikian, untuk model (2.22) dengan kondisi yang terdapat pada Lemma 2.3 kondisi (2.20)

dapat dipertahankan, sehingga AIC (2.21) merupakan kriteria Akaike yang valid. Jika komponen

stasioner disertakan dalam Xt, maka kita memerlukan kondisi yang saling bebas antara εt dan

variabel stasioner.

Ketika Xt dan εt dan U2t pada (2.22) tidak saling bebas, (2.20) tidak dapat dipertahankan, dan AIC

(2.21) bukan merupakan kriteria Akaike yang valid. Dalam kasus ini, bentuk kedua dari AIC harus

dibuat sedemikian rupa sehingga

(2.23)

Proses integrasi (2.23) tidak dapat dihitung secara langsung dan oleh karenanya tidak berguna secara

praktis. Cara untuk mendapatkan perkiraan yang dapat dihitung untuk integrasi pada (2.23) untuk

model dengan nonstasioneritas berdasarkan kondisi pada Lemma 2.3 tidak dapat dipertahankan

ditinggalkan sebagai pertanyaan terbuka.

Akaike (1973) secara implisit mengasumsikan bahwa jarak antara θ0 dan subspace yang

didefinisikan oleh m1 berada pada suatu urutan , yang merupakan suatu kondisi dimana

validitas dalam penerapan (2.12) dan (2.14) untuk setiap model. Asumsi bahwa jarak yang dimiliki

sebesar memvalidasi AIC yang didapatkan berdasarkan asumsi implisit bahwa m1

merupakan model yang sebenarnya. Perhatikan bahwa merupakan model yang

sebenarnya, sehingga dalam situasi ini AIC bisa didapatkan berdasarkan asumsi bahwa model m0 dan

m1 merupakan model yang benar.

Asumsi yang terakhir ini mengadopsi baik implisitas pada Akaike (1973) maupun eksplisitas

sebagaimana Amemiya (1980). Ketika jarak antara dua model m0 dan m1 secara berurutan lebih

besar dari , kita tidak dapat menjalankan prosedur diatas untuk mendapatkan AIC, yang

berakibat bahwa AIC (2.21) bukan merupakan kriteria Akaike yang valid. Dengan demikian

penerapan AIC (2.21) untuk kasus seperti ini makan mendorong kepada pendugaan yang tidak tepat.

Asumsi mengenai jarak antara dua model sebesar , bagaimanapun akan sulit untuk

dipenuhi , atau diperiksa ketika muncul nonstasioneritas. Untuk membuktikannya, pertimbangkan

suatu model regresi (2.22) dimana θ dan Xt merupakan vektor tiga dimensi, yaitu

dan . Misalkan merupakan tren linier dan Dalam kasus ini

perbedaan antara dua model m0 dan m1 adalah yang merupakan . Selain itu, jika

merupakan suatu variabel , dan jika , maka selisih antara m0 dan m1 adalah

yang merupakan . Perhatikan juga bahwa jika merupakan variabel dan jika

, maka selisih antara m0 dan m1 adalah yang merupakan .

Jarak antara m0 dan m1 yang diperkenalkan dalam Akaike (1973) terkait dengan jarak antara

dua model. Dengan demikian, di saat nonstasioneritas berpeluang muncul, jarak antara dua model

m0 dan m1 dapat berupa selisih satu orde dibandingkan jika nonstasioneritas tidak muncul. Selain itu

asumsi mengenai jarak antara dua model sebesar akan sulit untuk diperiksa jika muncul

nonstasioneritas, ketika dimensi dan lokasi dari nonstasioneritas tidak diketahui. Oleh karena itu

pada saat muncul kemungkinan nonstasioneritas, pengambilan keputusan untuk pemilihan model

berdasarkan AIC tidak dapat diandalkan. (Lihat contoh simulasi pada bagian 4.5)

2.3.1. Kriteria Theil

Karena baik maupun Cp cukup untuk model regresi, pembahasan dibatasi pada model

regresi linier

(2.24)

Dimana εt merupakan white noise dengan . Perhatikan bahwa model (2.24) merupakan

model regresi (2.8) dengan kondisi yang lebih lemah pada εt. Yaitu εt pada (2.24) white noise yang

distribusinya mungkin tidak diketahui. Jika terdapat dua model yang akan dibandingkan m0 dan m1,

dimana m1 memiliki batasan nol pada parameter β.

Dimana β1 merupakan suatu vektor parameter k1, dan 0 merupakan vektor nol (k-k1). Jika bj

merupakan estimator kuadrat terkecil dari β pada model j. Karena = dimana

dan

(2.25)

Jika diberikan , kita dapat menginterpretasikan sebagai suatu kasus khusus dari yang

didefinisikan pada (2.13) dengan

(2.26)

Dimana merupakan konstatanta diantara model yang berbeda. Hal ini menyebabkan kriteria

dapat diinterpretasikan sebagai suatu kasus khusus dari kriteria Akaike, dimana perkiraan fungsi loss

digunakan dengan pn sebagaimana dalam (2.26). Perhatikan bahwa bentuk tidak berubah

ketika muncul nonstasioneritas.

2.3.2. Kriteria Prediksi Bersyarat Mallow’s Cp

Untuk (2.24), kriteria prediksi bersyarat Cp yang diajukan oleh Mallows didefinisikan sebagai

Dimana b1 merupakan estimator OLS dari parameter β1, dan X1 merupakan matriks regressor untuk

model m1 ketika X merupakan regressor dari m0. Berdasarkan asumsi bahwa eror saling bebas

dengan regressor, Cp dijelaskan sbb

(2.27)

Dimana dan , serta merupakan

vektor regressor dari model m1. Dengan cara yang sama pada Lemma 2.3, kita dapat menunjukkan

bahwa (2.27) dapat diterima terlepas dari apakah terdapat konponen nonstasioner dalam

jika eror dan regressor saling bebas. Aturan pemilihan model Mallows memilih model sedemikian

hingga . Untuk penggunaan berikutnya, definisikan

Perhatikan bahwa meliputi kriteria Cp dan . Sebagai contoh, kita akan mendapatkan

jika dan hanya jika .

3. Perbandingan

3.1.Parsimony

Suatu metode pemilihan model secara implisit maupun eksplisit memerlukan parsimony,

sebagaimana dijelaskan oleh Zellner et al. (2001). Yaitu, jika dua model fit pada data sama baiknya,

maka dipilihlah model yang lebih sederhana. Pertama kita tunjukkan terlebih dahulu bahwa terdapat

hubungan teoritis tertentu antara setiap kriteria yang telah disebutkan sebelumnya dengan statistik

rasio likelihood (LR). Dengan demikian, sifat dan performa dari kriteria pemilihan model dapat diuji

dengan LR. Metode ini memberikan fasilitas untuk analisis perbandingan kriteria yang berbeda,

terkait dengan parsimony dan power.

Untuk lebih mudahnya, kta mempertimbangkan suatu regresi linier (2.24) dengan suatu

kondisi tertentu, yaitu: Kondisi GBIC pada (2.8), Kondisi AIC pada (2.22), atau kondisi Cp dan

pada (2.24). Kta gunakan notasi (2.24*) untuk regresi (2.24) yang memenuhi kondisi tersebut.

Kemudian kita memilih antara model dengan regressor X sebanyak k, dinotasikan dengan m0 dan

model dengan subset X1 sebanyak k1 dari model m0, yang dilambangkan dengan m1. Maka kita dapat

dengan mudah menyatakan hubungan antara LR dengan setiap kriteria yang telah dipelajari

sebelumnya. Kita menggunakan notasi untuk likelihood dari mi.

Pertama, untuk GBIC

(3.1)

Sebagaimana telah dijelaskan dari definisi (2.5) dan (2.7). Sebagaimana GBIC, untuk AIC

(3.2)

Definisi 3.1. Jika CRA dan CRB merupakan dua kriteria pemilihan model, kita mendefinisikan bahwa

CRA lebih parsimony dari CRB jika

Ketika perhatikan bahwa

sehingga

(3.3)

(3.4)

Untuk AIC

(3.5)

Perhatikan bahwa dan sehingga pada (3.3)-(3.5) dimana

setiap kriteria dibandingkan dengan LR, kita menggunakan GBIC dibandingkan dengan nAIC, bukan

AIC.

Lemma 3.1. Jika terdapat model (2.24*). Untuk setiap n dimana 2 log

, maka GBIC = GBIC(I), GBIC(II)

Lemma 3.1. Menunjukkan bahwa GBIC lebih parsimony dibandingkan dengan AIC pada kondisi yang

ditentukan. Perhatikan bahwa merupakan kondisi yang

lemah untuk diterima baik pada n yang kecil maupun besar. Maka untuk Cp dan , perhatikan

bahwa

(3.6)

(3.7)

Maka kita dapat menunjukkan bahwa Cp dan memiliki tingkatan yang sama berdasarkan

Lemma 3.2. Untuk (2.24*) adalah benar bahwa

(3.8)

Maka ketika kita akan membandingkan AIC dengan Cp atau , untuk model (2.24*), statistik LR

terkait dengan adalah sbb

(3.9)

Dimana kita dapat menunjukkan bahwa untuk jumlah n yang cukup besar AIC lebih parsimony

dibandingkan Cp atau , untuk model (2.24*) dengan eror normal.

Lemma 3.3. Untuk Model (2.24*) adalah benar bahwa

(3.10)

Untuk n sedemikian hingga

Perhatikan bahwa untuk n yang besar, ekspansi Taylor sehingga

. Dengan demikian, ketika n besar maka Lemma 3.3 dapat dipertahankan.

3.2.Power dan Konsistensi

Power suatu uji didefinisikan sebagai kuasa atau peluang untuk menerima suatu alternatif

yang benar. Kita mendefiniskan power sebagai suatu aturan pemilihan model untuk memilih m0

ketika m0 benar, dimana peluang dari keputusan tersebut dapat dituliskan sebagai

Maka untuk suatu kriteria CR yang memaksimalkan hasil dari persamaan tersebut didapatkan

Dimana merupakan peluang bahwa A berada dalam mi; CRi adalah nilai dari kriteria CR yang

diuji pada model mi. Perhatikan bahwa power yang didefinisikan diatas adalah sama dengan (Eror

tipe II)

Pada bagian ini kita mempelajari power untuk setiap jenis kriteria seleksi model. Pertama,

kita mempertimbangkan power tanpa penyesuaian jumlah sampel. Kemudian kita akan

mendiskusikan mengenai konsistensi kriteria seleksi model yang dipelajari dalam paper ini.

Selanjutnya kta akan mempelajari bagaimana power dari setiap metode seleksi model ketika

dilakukan penyesuaian jumlah sampel. Dalam membandingkan sifat power dari prosedur pengujian

yang berbeda, atau dengan kata lain, untuk prosedur pengambilan keputusan yang berbeda, akan

sangat berarti jika kita mempertimbangkan prosedur penyesuaian jumlah sampel.

Berdasarkan hubungan antara setiap kriteria dan LR pada (3.1), (3.2), dan (3.9), kita dapat

mengetahui power dengan jumlah sampel yang belum disesuaikan untuk berbagai kriteria berikut

Untuk GBIC(I)

Untuk GBIC(II)

Untuk AIC

untuk (3.11)

Dimana . Perhatikan bahwa untuk jumlah n yang besar

Dari (3.10) kita mengetahui bahwa jika LR merupakan sebuah orde yang lebih besar dari log

n sebagimana dalam (2.8), maka power dari setiap kriteria dengan jumlah sampel yang belum

disesuaikan cenderung menyatu ketika jumlah sampel menjadi besar. Dari (3.10) kita juga

mengetahui peringkat power dari kriteria pemilihan sampel jika tanpa adanya penyesuaian jumlah

sampel dari yang tertinggi sampai terendah yaitu; (1) Cp dan terikat secara bersama-sama, (2)

AIC, dan (3) GBIC.

Dengan demikian peringkat dari power pada kriteria dengan jumlah sampel yang belum

disesuaikan berbanding terbalik dengan parsimony. Temuan ini bersama dengan Lemma 3.6

mengimplikasikan bahwa power yang tinggi pada AIC, Cp, dan didapatkan dengan

mengorbankan parsimony. Hal ini memiliki implikasi lanjutan bahwa AIC, Cp, dan boleh jadi

overfit pada model dengan mengizinkan adanya tingkat eror tipe I yang berlebihan.

Selanjutnya kita akan mendiskusikan mengenai konsistensi dari suatu kriteria. Sebuah

kriteria pemilihan model disebut kriteria yang konsisten jika baik eror tipe I maupun eror tipe II

kovergen ke nol. Karena power pada m0 cenderung menyatu untuk setiap kriteria sebagaimana

dibuktikan pada (3.10), kita dapat mengkonfirmasikan bahwa eror tipe II konvergen ke nol. Maka

dalam rangka menunjukkan konsistensi suatu kriteria, kita hanya perlu menunjukkan bahwa eror

tipe I konvergen ke nol. Perhatikan bahwa peluang untuk memilih m1 dibandingkan m0 ketika m1

benar adalah sebanding dengan eror tipe I. Dengan demikian, kita perlu menemukan peluang untuk

memilih m1 dibandingkan dengan m0 ketika m1 benar cenderung untuk menyatu. Hal ini diberikan

pada Lemma 3.4.

Lemma 3.4 Pada model (2.24*) Adalah benar bahwa

sedangkan

Lemma 3.4 dan (3.10) mengimplikasikan bahwa GBIC(I) dan GBIC (II) merupakan kriteria yang

konsisten, sedangkan AIC merupakan kriteria yang tidak konsisten.

Kembali ke permasalahan penyesuaian jumlah sampel. Ketika menyesuaikan jumlah sampel,

kita perlu ikut menyesuaikan titik kritis daerah tolah H0 pada setiap kriteria. Untuk mendapatkan titik

kritis pada level signifikansi yang diberikan, kita menggunakan hubungan antara kriteria dan LR

sebagaimana (3.1), (3.2), dan (3.9). Selanjutnya, suatu titik kritis dari uji rasio likelihood 100α%

ditandai dengan xα, sementara ukuran power yang telah disesuaikan ditandai dengan

: Pr[memilih m0 dibandingkan m1 | m0 benar] pada ukuran 100α%

Untuk setiap kriteria, GBIC(I), GBIC(II), AIC, dan , ukuran power yang telah

disesuaikan diberikan oleh Lemma berikut

Lemma 3.5. Untuk model (2.24*), ukuran power yang telah disesuaikan pada kriteria GBIC(I),

GBIC(II), AIC, dan , adalah sebagai berikut

(3.12)

Dimana kita menyesuaikan skala setiap persamaan dalam kurung, sehingga banyaknya muncul

pada setiap persamaan. Karena distribusi dari statistik LR pada kriteria tersebut biasanya tidak

tersedia pada m0, analisis perbandingan power pada ukuran sampel yang telah disesuaikan tidak

dimungkinkan. Namun demikian untuk mengatasinya dapat digunakan simulasi.

Di sisi lain berdasarkan (3.12) kita dapat menunjukkan bahwa nilai power pada GBIC

konvergen pada suatu kesatuan, ketika kriteria lainnya tidak demikian pada kasus

Lemma 3.6. Pada model (2.24*) adalah benar bahwa untuk GBIC ketika n menuju tak

hingga. Sementara itu AIC, Cp, dan nilai untuk setiap n.

4. Contoh dan Studi Simulasi

Pada bagian ini kita akan mempelajari beberapa contoh model dimana sebagian atau

seluruh kriteria dapat diterapkan. Terdapat empat jenis studi yang dipertimbangkan

(i) Keputusan antara I(1) dan I(0)

(ii) Penentuan jumlah patahan struktural pada model yang mengandung trand patahans

(iii) Suatu vektor error correction model dan penentuan rank pada hubungan kointegrasi

(iv) Urutan penentuan dalam autoregresi

Hasil penentuan model berdasarkan kriteria yang dipelajari pada bagian 2 untuk kasus (i)

dan (ii), akan dipelajari menggunakan simulasi Monte Carlo.

4.1. Penentuan Keputusan antara I(1) dan I(0) dalam model AR

Kriteria Bayesian GBIC dapat diaplikasikan untuk memilih keputusan antara I(1) dan I(0) pada

time series. Kita membandingkan GBIC dengan uji Augmented Dickey-Fuller (ADF) sebagai suatu uji

yang paling banyak digunakan dalam pengambilan keputusan tersebut. Selain itu kita juga

membandingkan hasil yang didapatkan oleh GBIC dengan kriteria Schwarz.

Misalkan suatu proses stokastik yt mengikuti AR(p)

Dimana , maka dapat dibuat suatu bentuk alternatif dari proses yt

(4.1)

Dimana merupakan parameter dampak autoregresif jangka panjang dan

merupakan ikutan sementara yang dinamis. Jika persamaan karakteristik

memiliki akar unit, maka ρ=1, sehingga yt dapat diartikan sebagai proses I(1).

Maka model (4.1) dapat ditransformasikan lebih jauh menjadi

(4.1’)

Dimana . Maka keputusan antara I(1) dan I(0) adalah untuk memilih antara

H0 : Model (4.1’) dengan β1 = 0, dengan

H1 : Model (4.1’) dengan β1 < 0 (4.2)

Kriteria keputusan GBIC1 (2.9) untuk hipotesis (4.2) adalah memilih model yang

meminimumkan

(4.3)

Dimana

untuk j=0, dan

untuk j=1

4.2. Penentuan jumlah patahan tren

Kita mempertimbangkan penerapan GBIC untuk menentukan jumlah patahan tren pada

suatu time series yang memiliki tren. Kita membandingkan hasil dari GBIC dengan AIC dan kriteria

Schwarz. Misalkan bahwa terdapat beberapa kejadian bersejarah yang masing-masing memberikan

perubahan permanen pada tren dari suatu time series yang linier. Maka kita mempertimbangkan

model berikut

(4.4)

Dimana I(.) merupakan indikator fungsi dan merupakan watu terjadinya patahan yang

tidak diketahui. Pada waktu patahan , pergeseran tren pada jumlah

Untuk lebih mudahnya, kita asumsikan bahwa . Untuk , maka

kita memiliki , ketika si merupakan kecepatan

konvergensi dari θi. Dengan demikian GBIC2 (2.10) dalam kasus ini adalah

Memilih model j yang meminimumkan

(4.5)

Dimana qj merupakan jumlah dari patahan struktural pada model j, sementara GBIC1 sebagaimana

dalam (2.9) dengan

4.3. VECM dan penentuan rank kointegrasi

Pada subbagian ini kita mempelajari tentang kriteria GBIC Bayesian untuk pendugaan rank

kointegrasi suatu vektor error correction model (VECM). Penelitian terkait telah dilakukan oleh Chao

dan Phillips (1998, 1999). Misalkan suatu m-vektor I(1) dari suatu proses yt dapat digolongkan

melalui suatu vektor autoregresi dengan ordo p. Maka kita dapat menulisnya dalam suatu bentuk

error correction

(4.6)

Dimana . Pada hipotesis Hr dimana terdapat sebanyak hubungan

kointegrasi pada yt, matriks terbatas pada , dimana B merupakan suatu matriks (m x r),

dan A merupakan matriks (r x m). Dengan menggunakan matriks A dab B maka kita dapat

menuliskan kembali persamaan (4.6) menjadi

(4.7)

Jika , dimana melambangkan vektor yang

dibentuk dengan menumpuk semua parameter dalam (.). Maka berdasarkan Hr, turunan kedua dari

log-likelihood adalah sedemikian hingga matriks kovarians θ menjadi

(4.8)

Dimana Xr merupakan matriks X untuk model Hr dan merupakan MLE dari berdasarkan Hr.

Berdasarkan dugaan Full Information Maximum Likelihood (FIML) dari system (4.7) dalam Johnsen

(1991) kita mendapatkan bentuk likelihood yang dimaksimalkan dari (4.7) berdasarkan Hr:

(4.9)

Dimana dan untuk i=1,..,r merupakan eigenvalue terbesar ke-I dari matriks

(4.10)

Dimana dan , dimana dan

merupakan residual dari regresi berikut

untuk t = 1, …, n

untuk t = 1, …, n

Dimana ‘hat’ melambangkan penduga kuadrat terkecil

Perhatikan bahwa tiga bentuk pertama dari pada (4.9) tidak bergantung kepada

dimensi kointegrasi r. Maka berdasarkan (4.8) dan (4.9), GBIC(I) untuk menentukan rank kointegrasi

r adalah

Pilih model Hr yang meminimumkan

(4.11)

Sementara GBIC(II)

Pilih model Hr yang meminimumkan

(4.12)

Dimana k merupakan jumlah elemen pada θ

4.4. Suatu regresi dengan eror non-i.i.d.

Pertimbangkan bentuk regresi (2.24), namun memiliki eror yang berkorelasi antar pengamatan

(4.13)

Jika , suatu vektor (ak x 1). Maka GBIC(I) untuk model (4.13) adalah untuk

meminimumkan

(4.14)

Dimana untuk . Pada sisi lain, kriteria Schwarz yang berdasarkan

pada pendugaan kuadrat terkecil pada regresi (4.13) adalah untuk memilih model yang

meminimumkan

(4.15)

Sebagaimana ditunjukkan pada bagian (2.1), Kriteria Schwarz (4.15) pada saat muncul

nonstasioneritas bukan merupakan kriteria Bayesian yang valid, sementara GBIC (4.14) merupakan

kriteria yang valid. Bahkan jika tidak muncul adanya nonstasioneritas, dapat dilihat berdasarkan

(4.14) dan (4.15) bahwa GBIC akan menghasilkan jawaban yang berbeda untuk pemilihan model

berdasarkan Kriteria Schwarz. Kita dapat menyimpulkan bahwa GBIC (4.14) akan menghasilkan

jawaban yang lebih akurat daripada kriteria Schwarz (4.15) karena GBIC menggunakan model yang

tepat, yang memberikan perlakuan khusus terhadap struktur autoregresif dari eror, sedangkan

kriteria Schwarz tidak.

4.5. Studi Monte Carlo

Kita menguji hasil dari GBIC1 (4.3), untuk mendapatkan keputusan antara I(1) dan I(0)

dibandingkan dengan model (4.1’) yang didapatkan berdasarkan simulasi Monte Carlo. Pertama kita

menguji peluang untuk memilih model sebenarnya Hρ dibandingkan dengan H0: ρ = 1 untuk berbagai

variabel ρ dari 0 sampai dengan 1. Model yang digunakan adalah AR(2) dengan dan

bergerak dari 0,5 sampai 0,7 sehingga jangkauan dari akar ρ adalah dari 0,8 sampai dengan 1. Jumlah

sampel sebesar 100 dengan 5000 pengulangan. Hasilnya dilaporkan pada tabel 4.1.1. Berdasarkan

studi tersebut ditemukan bahwa secara seragam di ρ, GBIC memiliki frekuensi lebih tinggi untuk

memilih model yang benar dibandingkan dengan kriteria Schwarz. Perbedaan antara GBIC dan

kriteria Scwarz menjadi semakin jelas ketika nilai ρ semakin besar. Kriteria Schwarz memiliki bias

yang semakin besar dalam memilih H0 saat ρ yang lebih besar.

Pada tahap kedua kita membandingkan power dari GBIC with dua kriteria pemilihan model

lainnya yaitu kriteria Schwarz dan uji Augmented Dickey-Fuller. Sebagaimana biasa, kita

mendefinisikan power sebagai peluang untuk memilih model sebenarnya. Nilai kritis GBIC dan SBIC

didapatkan berdasarkan metode yang dipelajari pada bagian 3. Model yang digunakan untuk

simulasi adalah sama dengan simulasi pertama, dan hasilnya disajikan 4.1.2. Ternyata GBIC (4.3)

memiliki power yang jauh lebih baik dibandingkan dengan kriteria Schwarz dan uji-t augmented

Dickey-Fuller.

Selanjutnya, simulasi Monte Carlo dilakukan terhadap model (4.4) untuk menentukan

jumlah patahan tren untuk menguji hasil dari GBIC dan AIC. Kita mempertimbangkan nilai

sebenarnya untuk q yang bergerak dari 0 sampai 2. Pada simulasi model (4.4) ini digunakan

dan untuk model dengan q = 1, Sementara

dan dengan jumlah sampel sebesar 200 dan 2000 pengulangan. Hasilnya

dilaporkan pada 4.2.

Dari simulasi kedua tersebut ditemukan bahwa kriteria Schwarz memiliki bias yang lebih

besar dalam memilih model dengan lebih banyak patahan yang dilaporkan daripada model

sebenarnya. Di sisi lain, GBIC2 memilih model yang sebenarnya memiliki frekuensi relatif sebanyak

satu dari tiga kasus pemilihan q yang sebenarnya dari 0 sampai 2. Hasil yang didapatkan dengan

GBIC1 tidak seberapa baik jika dibandingkan dengan GBIC2, namun lebih baik jika dibandingkan

dengan kriteria Schwarz.

Hasil yang didapatkan dengan menggunakan AIC sangat buruk, sebaimana ditunjukkan pada

tabel 4.2. Hal ini merupakan suatu bukti bahwa AIC tidak dapat menyediakan hasil yang dapat

diandalkan untuk memilih model ketika ‘jarak’ antara model yang sebenarnya dengan model yang

diasumsikan terlalu lebar. Model (4.4) merupakan model dengan komponen nonstasioner (tren dan

patahans dari tren) dengan dimensi dari nonstasioneritas, jumlah dari patahan tidak diketahui.

Dalam kasus ini, jarak antara model sebenarnya dengan model alternatif mungkin lebih besar

daripada yang diasumsikan dalam Akaike (1973) orde

kriteria pemilihan model saat terjadi nonstasioneritas

Documents