kendala dan tantangan - the abdul latif jameel poverty .... threats and... · eksperimen menghilang...

TRANSLATING RESEARCH INTO ACTION

Kendala dan Tantangan

Shawn Powers

J-PAL Global

Ikhtisar Pelatihan

1. Apa yang dimaksud dengan evaluasi?

Mengapa Mengevaluasi?

2. Mengapa melakukan pengacakan?

3. Cara pengacakan

4. Kendala dan Tantangan

5. Evaluasi dari Awal sampai Akhir

6. Analisis Keefektifan Biaya

Ikhtisar Paparan

• Attrition

• Spillover

• Partial Compliance (Kepatuhan Parsial) dan Sample Selection Bias (Bias Seleksi Sampel)

• Pilihan Hasil

• Validitas Eksternal

• Memiliki Sampel yang terlalu Kecil

• Gagal Memantau Kualitas Data

• Komunikasi dan Implementasi

• Kesimpulan

Attrition

• Akankah ada masalah jika sebagian orang dalam

eksperimen menghilang sebelum anda

mengumpulkan data?

– Akan bermasalah jika tipe orang yang menghilang

berkorelasi dengan perlakuan (treatment).

• Mengapa ini jadi masalah?

• Mengapa kita menganggap hal ini dapat terjadi?

Bias Attrition: Contoh

• Masalah yang ingin anda tangani: – Sebagian anak tidak sekolah karena terlalu lemah (kurang gizi)

• Anda memulai program pemberian makan di sekolah dan ingin melakukan evaluasi – Anda memiliki kelompok perlakuan dan kontrol

• Anda ingin mengukur dampak pada pertumbuhan anak – Hasil yang diinginkan: Berat badan anak

• Anda pergi ke semua sekolah (perlakuan dan kontrol) dan mengukur semua orang yang ada di sekolah pada satu hari

• Akankah perbedaan perlakuan-kontrol dalam hal berat badan terlalu berlebihan (over-stated) atau justru terlalu kecil (understated)?

Sebelum Perlakuan Setelah Perlakuan

T C T C

20 20 22 20

25 25 27 25

30 30 32 30

Rata-rata.

Perbedaan Perbedaan


T C T C

20 20 22 20

25 25 27 25

30 30 32 30

Rata2. 25 25 27 25

Perbedaan 0 Perbedaan 2

Bagaimana jika hanya anak-anak > 21 Kg yang datang ke sekolah?

Bagaimana jika hanya anak-anak > 21 Kg yang datang

ke sekolah?

A. Akankah anda menganggap kecil (underestimate) dampak?

B. Akankah anda menganggap besar (overestimate) dampak?

C. Tidak keduanya

D. Ambigu

E. Tidak tahu


T C T C

20 20 22 20

25 25 27 25

30 30 32 30


T C T C

[absen] [absen] 22 [absen]

25 25 27 25

30 30 32 30

Rata2 27,5 27,5 27 27,5

Perbedaan 0 Perbedaan -0,5

Bagaimana jika hanya anak-anak > 21 Kg yang dtaang ke sekolah?

Kapankah attrition tidak menjadi

masalah?

A. Saat kurang dari 25% sampel asli (original)

B. Saat terjadi dengan proporsi yang sama di kedua kelompok

C. Saat berkorelasi dengan pengelompokan perlakuan (treatment assignment)

D. A, B dan C

E. Tak ada pilihan yang benar

Menangani Bias Attrition

• Menyediakan sumber daya untuk melacak partisipan setelah mereka meninggalkan program

• Jika masih ada attrition, periksa attrition tidak berbeda di perlakuan dan kontrol. Apakah itu cukup?

• Juga periksa bahwa ia tidak berkorelasi dengan hal-hal yang teramati (observable).

• Coba batasi besaran bias

– Andai setiap orang yang keluar dari perlakuan mendapat nilai terendah; andai setiap orang yang keluar dari kendali mendapatkan nilai tertinggi …

– Mengapa hal ini dapat menolong?

Ikhtisar Paparan

• Attrition

• Spillover


• Pilihan Hasil





• Kesimpulan

Apa lagi yang bisa bermasalah?

Populasi

Target

Tidak dalam

evaluasi

Sampel

Evaluasi

Populasi Total

Pengelompo-

kan Acak

Kelompok

Perlakuan

Kelompok

Kendali

Spillover, kontaminasi

Populasi

Target

Tidak dalam

evaluasi

Sampel

Evaluasi

Populasi Total

Pengelompo-

kan Acak

Kelompok

Perlakuan

Kelompok

Kendali

Perlakuan

Spillover, kontaminasi

Populasi

Target

Tidak di

evaluasi

Sampel

Evaluasi

Populasi Total

Pengelompo-

kan Acak

Kelompok

Perlakuan

Kelompok

Kendali

Perlakuan

Contoh: Vaksinasi Cacar Air

• Misalkan anda melakukan pengacakan vaksinasi

cacar air di dalam lingkungan sekolah

– Misalkan hal ini mencegah penularan penyakit,

masalah apa yang muncul diakibatkan hal ini dalam

evaluasi?

– Misalkan externality sifatnya lokal? Bagaimana kita

dapat mengukur dampak total?

Externalities di lingkungan sekolah

Tanpa Externalities

Sekolah A Perlakuan? Hasil

Murid 1 Ya Tdk cacar air Total Perlakuan dengan cacar air

Murid 2 Tidak Cacar air Total Kontrol dengan cacar air

Murid 3 Ya Tdk cacar air

Murid 4 Tidak Cacar air Efek perlakuan


Murid 6 Tidak Cacar air

Dengan Externalities

Misalkan, karena prevalensi lebih rendah, beberapa anak tidak terinfeksi cacar air kembali


Murid 1 Ya Tdk cacar air Total perlakuan dengan cacar air

Murid 2 Tidak Tdk cacar air Total kontrol dengan cacar air





Externalities di lingkungan sekolah

Tanpa Externalities


Murid 1 Ya Tdk cacar air Total Perlakuan dengan cacar air

Murid 2 Tidak Cacar air Total Kontrol dengan cacar air





Dengan Externalities

Misalkan, karena prevalensi lebih rendah, beberapa anak tidak terinfeksi cacar air kembali


Murid 1 Ya Tdk cacar air Total perlakuan dengan cacar air

Murid 2 Tidak Tdk cacar air Total kontrol dengan cacar air





0%

100%

-100%

0%

67%

-67%

Bagaimana mengukur dampak program

saat ada spillover?

• Rancang unit pengacakan yang mencakup

spillover

• Jika kita berharap externalitiy semuanya berada di

lingkungan sekolah:

– Pengacakan di tingkat sekolah memungkinkan

estimasi efek keseluruhan

Contoh: Informasi Harga

• Menyediakan para petani informasi spot dan futures lewat ponsel

• Haruskah kita berharap adanya spillover?

• Mengacak: tingkat individu atau desa?

• Pengacakan tingkat desa

– Kekuatan statistik yang lebih rendah

– “Kelompok-kelompok kontrol yang lebih murni”

• Pengacakan tingkat individu

– Kekuatan statistik lebih besar (jika spillovers kecil)

– Kemampuan mengukur spillovers

Contoh: Informasi Harga

• Bisakah kita melakukan keduanya?

• Secara acak mengelompokkan desa-desa ke dalam salah satu dari empat kelompok A, B, C, dan D

• Desa-desa kelompok A – Kirim SMS berisi informasi harga kepada semua individu yang memiliki ponsel

• Desa-desa kelompok B

– Kirim SMS berisi informasi harga kepada 75% dari individu yang memiliki ponsel yang dipilih acak

• Desa-desa kelompok C

– Kirim SMS berisi informasi harga kepada 25% dari individu yang memiliki ponsel yang dipilih acak

• Desa-desa kelompok D

– Tidak ada SMS yang dikirim

Ikhtisar Paparan

• Attrition

• Spillover


• Pilihan Hasil





• Kesimpulan

Non compliers (Ketidakpatuhan)

26

Populasi

Target

Tidak dalam

evaluasi

Sampel

Evaluasi

Kelompok

Perlakuan

Partisipan

No-Shows

Kelompok

Kendali

Non-

Partisipan

Cross-overs

Tidak!

Apa yang dapat anda lakukan?

Dapatkah anda menukar mereka?

Pengelompokkan

Acak


27

Populasi

Target

Tidak dalam

Evaluasi

Sampel

Evaluasi

Kelompok

Perlakuan

Partisipan

No-Shows

Kelompok

Kendali

Non-

Partisipan

Cross-overs

Tidak!

Apa yang dapat Anda lakukan?

Dapatkah Anda mengeluarkan mereka?

Pengelompokkan

Acak


28

Populasi

Target

Tidak dalam

Evaluasi

Sampel

Evaluasi

Kelompok

Perlakuan

Partisipan

No-Shows

Kelompok

Kendali

Non-

Partisipan

Cross-overs

Pengelompokkan

Acak

Anda dapat membandingkan

kelompok-kelompok asli (original)

Bias seleksi sampel

• Bias seleksi sampel dapat terjadi jika faktor-

faktor selain pengelompokan acak

mempengaruhi alokasi program

– Bahkan jika alokasi program yang dimaksudkan itu

dipilih secara acak, alokasi aktualnya mungkin tidak

Bias seleksi sampel

• Para individu yang dikelompokkan ke dalam kelompok pembanding dapat berupaya pindah ke dalam kelompok perlakuan

– Program pemberian makan di sekolah: para orang tua mungkin berupaya untuk memindahkan anak mereka dari sekolah pembanding ke dalam sekolah perlakuan

• Atau, para individu yang dialokasikan untuk kelompok perlakuan mungkin tidak menerima perlakuan

– Program pemberian makan di sekolah: sebagian siswa yang dikelompokkan ke dalam sekolah perlakuan membawa makan siang dan memakannya di sekolah, atau malah memilih untuk tidak makan.

• Estimasi Intent to treat (ITT): bandingkan

kelompok-kelompok asli (original) yang

dikelompokkan acak

• Estimasi Treatment on the treated (TOT): hitung

efek tersirat pada yang mereka yang meneruskan

– Bagi estimasi ITT dengan proporsi individu patuh

• Kesimpulan apa yang dapat ditarik? Apa yang

harus diwaspadai?

Apa yang dapat kita lakukan untuk para

non-compliers?

Ikhtisar Paparan

• Attrition

• Spillover


• Pilihan Hasil





• Kesimpulan

Ragam Hasil

• Dapatkah kita melihat berbagai hasil?

• Semakin banyak hasil Anda lihat, semakin tinggi

peluang Anda menemukan setidaknya satu yang

terdampak signifikan oleh program

– Pra-spesifikasi hasil-hasil yang minati

– Laporkan hasil semua hasil yang diukur, bahkan hasil

nol

– Perbaiki tes-tes statistik (Bonferroni)

Covariates

Aturan : Laporkan baik perbedaan “raw (mentah)” dan hasik-hasil regression-adjusted

• Mengapa memasukkan covariates?

– Dapat menjelaskan variasi, meningkatkan kekuatan statistik

• Mengapa tidak memasukkan covariates?

– Kemunculan “specification searching”

• Apa yang dikendalikan?

– Jika pengacakan terstratifikasi: tambahkan efek-efek strata fixed

– Covariates lain

Ikhtisar Paparan

• Attrition

• Spillover


• Pilihan Hasil





• Kesimpulan

Ancaman terhadap validitas eksternal

• Respon-respon behavioral (perilaku) atas evaluasi

• Hasil-hasil terlalu tergantung konteks (context-

dependent) untuk digeneralisasi

Ancaman terhadap validitas eksternal: Respon-respon behavioral atas evaluasi

• Satu keterbatasan evaluasi adalah kemungkinannya menyebabkan kelompok perlakuan atau pembanding mengubah perilakunya – Perubahan perilaku kelompok perlakuan: efek Hawthorne

– Perubahan perilaku kelompok pembanding: efek John Henry

● Apa yang dapat dilakukan?

– Minimalkan kekentaraan evaluasi (salience of evaluation) sedapat mungkin

– Pertimbangkan untuk memasukkan kontrol yang diukur hanya pada endline

Generalizability of result

• Tergantung beberapa faktor:

– Implementasi Program: dapatkah direplikasi pada

skala luas (nasional)?

– Sampel kajian: apakah representatif ?

– Sensitivitas hasil: akankah program yang sama,

namun berbeda sedikit, memiliki dampak yang sama?

• Attrition

• Spillover

• Partial Compliance (Kepatuhan Parsial) dan Sample Selection Bias

(Bias Seleksi Sampel)

• Pilihan Hasil





• Kesimpulan

Ikhtisar Paparan

Manakah dari kedua gambar yang lebih

akurat?

A. I.

B. II.

C. Tidak tahu

I. II.

Akurasi dan Presisi

• Kualitas estimasi dampak tergantung pada akurasi dan presisi

• Pengacakan, jika dilakukan dengan benar, memberikan akurasi – Dengan kata lain, tidak ada bias. Jika Anda berulang kali

mengulangi evaluasi, umumnya Anda akan mendapatkan kebenaran.

• Namun, Anda juga menginginkan estimasi berpresisi—yaitu yang mendekati kenyataan – Ini menyangkut ukuran sampel (sample size)

Akurasi vs Presisi

Pre

sisi

(U

ku

ran

Sam

pel)

Akurasi (Pengacakan)

kebenaran

estimasi

Ukuran Sampel dan Presisi: Intuisi

• Mari buat pertanyaan “riset” yang agak membosankan: berapa (rata-rata) nilai yang diharapkan dari pengocokan dadu satu kali?

• Contoh berguna karena kita tahu kebenaran dalam kasus ini

• Misalkan dalam “eksperimen” pertama anda, anda memulai dengan ukuran sampel 1.

Hasil yang mungkin & probabilitas: 1

dadu

0

1/6

1 2 3 4 5 6

Eksperimen lain

• Sekarang misalkan “eksperimen” Anda adalah

mengocok dua dadu. Seperti apakah distribusi

hasil yang mungkin?

Mengocok 2 dadu:

Total yang mungkin & kecenderungan

2 3 4 5 6 7 8 9 10 11 12

Frequency 1/36 1/18 1/12 1/9 5/36 1/6 5/36 1/9 1/12 1/18 1/36

0

0

1/6

1/4

Mengocok 3 dadu:

16 hasil 318, 216 permutasi

1 1 1/3 1 2/3 2 2 1/3 2 2/3 3 3 1/3 3 2/3 4 4 1/3 4 2/3 5 5 1/3 5 2/3 6

Frequency 0% 1% 3% 5% 7% 10% 12% 13% 13% 12% 10% 7% 5% 3% 1% 0%

0

0

1/6

Mengocok 4 dadu:

21 hasil, 1296 permutasi

0%

2%

4%

6%

8%

10%

12%

14%

1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6

Mengocok 5 dadu:

26 hasil, 7776 permutasi

0%

2%

4%

6%

8%

10%

12%

1 2 3 4 5 6

Mengocok 30 dadu:

150 hasil, 2 x 10 23 permutasi*

0,0%

0,5%

1,0%

1,5%

2,0%

2,5%

3,0%

3,5%

1 1,5 2 2,5 3 3,5 4 4,5 5 5,5

>95% dari semua pengocokan akan menghasilkan rata-rata 3 dan 4

Mengocok 100 dadu

500 hasil, 6 x 10 77 permutasi

0,0%

0,5%

1,0%

1,5%

2,0%

1 1,5 2 2,5 3 3,5 4 4,5 5 5,5

>99% dari semua pengocokan akan menghasilkan rata-rata antara 3 dan 4

Apa yang kita pelajari?

Semakin banyak dadu dikocok, semakin dekat kebanyakan rata-rata dengan rata-rata sebenarnya (distribusi “mengetat”).

Memiliki sampel yang terlalu sedikit ibarat mengocok terlalu sedikit dadu: Anda akan cenderung mendapatkan jawaban yang jauh dari kebenaran. Lebih formalnya, Anda akan memiliki standard error yang besar.

Kembali kepada Akurasi vs Presisi

Pre

sisi

(U

ku

ran

Sam

pe)

Akurasi (Pengacakan)

kebenaran

kebenaran

estimasi

estimasi

kebenaran

kebenaran

estimasi

estimasi

Estimasi yang tidak presisi

Estimasi yang [lebih] Presisi

• Interval kepercayaan (standard error) tergantung ukuran sampel

– Serta juga variance pada Y (variabel hasil) dan variance pada X

• Karena mungkin sulit untuk “memanipulasi” Y dan X, kita hanya dapat mengendalikan N (ukuran sampel)

• Ukuran sampel yang “terlalu kecil” dapat berarti bahwa kita mungkin tidak mendeteksi efek yang secara statistik signifikan (bahkan jika ada)

Konsekuensi Ukuran Sampel

• Memerlukan power calculation—kita tidak

membahasnya minggu ini. Pertimbangan umum:

– Hitung ukuran sampel beberapa kali dengan

memodifikasi parameter kunci (s.d. Y, power, korelasi

intra-cluster) untuk melihat variasi ukuran sampel

– Pilih ukuran sampel untuk menyeimbangkan power dan

biaya

Bagaimanakah Ukuran Sampel yang

“Benar”?

• Attrition

• Spillover



• Pilihan Hasil





• Kesimpulan

Ikhtisar Paparan

Gagal Memantau Kualitas Data

• Kesalahan pengukuran (measurement error)

klasik dan non-klasik

• Perbedaan pengumpulan data antara

kelompok perlakuan dan kontrol

Kesalahan Pengukuran (Measurement

error)

Dapatkah kita selalu mempercayai apa yang dikatakan

responden?

• Jika Anda berumur 16 tahun dan berhubungan seks

secara tidak aman, apakah Anda akan mengatakannya

kepada seorang laki-laki dewasa yang asing bagi anda?

• Dapatkah Anda mengingat apa yang anda makan

selama 24 jam terakhir?

• Tahukan Anda seberapa luas tempat tinggal anda?


error)

• Kesalahan pengukuran klasik: Kesalahan pengukuran

bersifat acak

– Satu petani terlalu besar memperkirakan hasil ladangnya

sementara petani lainnya terlalu kecil memperkirakan hasil

ladangnya, akan tetapi hal ini tidak berkorelasi dengan

karakteristik petani (sistematis)

– Secara rata-rata, kesalahannya (error) nol


error)

• Kesalahan pengukuran non-klasik: kesalahan

pengukuran bersifat non-acak

– Petani kaya melaporkan hasil pertanian yang rendah (untuk

menghindari pajak), sehingga hasil yang dilaporkan rendah

sementara petani menjadi lebih kaya

– Petani di desa kontrol melaporkan hasil yang rendah agar

dapat berpartisipasi dalam program tahun depan


error)

• Jika kita menemui kesalahan pengukuran klasik pada

variabel dependent (hasil), efek perlakuan tidak bias akan

tetapi kurang presisinya

o Dapat menyulitkan dalam mendeteksi efek signifikan dalam

hal statistik

• Jika kita menemui kesalahan pengukuran klasik pada

variabel independen lain (bukan efek perlakuan), efek

perlakuan dapat bias

• Jika kita menemui kesalahan pengukuran non-klasik

pada keduanya, masalah dapat menjadi lebih besar

Bagaimana menghindari hal ini?

• Masukkan pertanyaan yang lebih sederhana

• Periode-periode recall terbatas (jika mungkin)

o 24 jam untuk konsumsi

o Dua minggu untuk kesehatan/ nutrisi

o Musim pertanian untuk penanaman, panen

• Seleksi teliti dan pelatihan enumerator dan supervisor

• Dengan jelas menjelaskan tujuan survei

• Verifikasi independen (jika mungkin, ukur hasil panen di tempat)

• Pertimbangkan waktu survei (responden lelah)

• Dua skenario: o Staf program mengumpulkan data di daerah perlakuan

dan enumerator profesional mengumpulkan data di daerah kontrol.

o Hasil pada kelompok perlakuan diestimasi menggunakan catatan penjualan koperasi di kelompok perlakuan dan lewat survei rumah tangga di kelompok kontrol

• Bagaimana hal di atas memberi efek pada hasil? • Tidak dapat dibilang apakah perbedaan karena

program atau karena perbedaan pada proses pengumpulan data (bias pewawancara atau responden)

Pengumpulan Data di Kelompok Perlakuan dan

Kontrol

• Kita tidak dapat mengabaikan perbedaan pengumpulan data pada kelompok-kelompok perlakuan dan kontrol

• Data harus (sebaiknya) dikumpulkan oleh para enumerator yang sama, pada waktu periode yang sama dan dengan cara yang sama (menggunakan metode dan alat yang sama) baik untuk kelompok perlakuan maupun kontrol

Pengumpulan Data di Kelompok Perlakuan

dan Kontrol

• Attrition

• Spillover



• Pilihan Hasil





• Kesimpulan

Ikhtisar Paparan

• Tidak seperti beberapa teknik evaluasi lain, pengacakan

dapat merubah cara suatu program dirancang dan

diimplementasikan (tidak hanya dievaluasi)

• Ini dapat berimplikasi di luar evaluasi murni (baseline dan

endline):

oDesain proyek – siapa, apa, di mana

o Pelaksanaan program

o Strategi evaluasi

Komunikasi dan Implementasi

• Ini menyiratkan komunikasi lebih luas antara program dan (para) evaluator

o Dapatkah melakukan pengacakan? Jika ya, bagaimana? Bagaimanakah hal ini mengubah implementasi?

o Apakah pengacakan dapat dilakukan?

o Adakah perubahan pada implementasi saat program berjalan?

o Adakah drop-out, imperfect compliance?

• Evaluator harus memberikan umpan balik (feedback) dan data secara tepat waktu

Komunikasi dan Implementasi

Ikhtisar Paparan

• Attrition

• Spillover


• Pilihan Hasil





• Kesimpulan

Kesimpulan

• Ada banyak ancaman untuk validitas internal dan

eksternal evaluasi acak…

• …sama seperti setiap tipe kajian lain.

• Percobaan-percobaan acak:

– Memfasilitasi analisas sederhana dan transparan

• Memberikan beberapa “derajat kebebasan (degree of freedom)” dalam

analisa data (hal ini baik dilakukan).

– Memungkinkan tes-tes validitas eksperimen yang jelas.

Sumber-Sumber Lanjut

• Running Randomized Evaluations (Glennerster &

Takavarasha)

• Using Randomization in Development Economics

Research: A Toolkit (Duflo, Glennerster, Kremer)

• Mostly Harmless Econometrics (Angrist & Pischke)

kendala dan tantangan - the abdul latif jameel poverty .... threats and... · eksperimen menghilang...

Documents