indeks kebolehpercayaan ujian
TRANSCRIPT
P S S 3 1 1 0 - P E N T A K S I R A N D A L A M P E M B E L A J A R A N P E N G A J I A N S O S I A L
TUJUAN INDEKS DISKRIMINASI ITEM
Terdapat lima tujuan utama indeks diskriminasi item. Pertama ialah untuk
mengenalpasti konsep yang perlu diajar semula iaitu apabila guru mendapati soalan-
soalan berkenaan tidak dapat dijawab oleh sebahagian besar murid yang pandai.
Kedua ialah untuk mengenalpasti dan melaporkan kekuatan dan kelemahan
bahagian-bahagian kurikulum iaitu yang tidak boleh dikuasai oleh murid pandai.
Seterusnya ialah untuk memberi maklumbalas kepada murid tentang kelemahan
mereka bagi setiap tajuk pengajaran yang diuji.
Tujuan indeks diskriminasi item yang keempat ialah untuk mengenalpasti
soalan yang bias kepada sesuatu kandungan yang tidak ditekankan semasa
pengajaran atau langsung tidak diajar. Akhir sekali ialah untuk mengenalpasti murid
yang berpencapaian tinggi untuk melanjutkan pengajaran dalam bidang-bidang
tertentu.
Kebolehpercaaan sesuatu ujian merujuk kepada ketekalan, ketepatan, dan
kebolehbergantungan ujian berkenaan. Ini bermaksud, sesuatu ujian yang boleh
dipercayai akan menghasilkan maklumat yang tekal dan tepat seperti yang
sepatutnya serta boleh diterima pakai tanpa keraguan. Menurut Hanna & Dettmer
(2004), kebolehpercayaan (reliability) sesuatu alat ukuran bermaksud ketekalan
ukuran-ukuran (consistency of measures) yang dihasilkan oleh alat tersebut.
Manakala menurut Mokhtar (1995), kebolehpercayaan ujian boleh disebut sebagai
darjah ketekalan antara dua pengukuran terhadap sesuatu benda, ciri atau sifat
seseorang. Skor yang sama didapati walaupun orang lain yang menilainya ataupun
dinilai pada masa yang berbeza. Oleh itu, kebolehpercayaan ujian bermaksud
ketekalan markah-markah yang dihasilkan oleh ujian tersebut.
Darjah ketekalan ukuran boleh ditentukan dalam pelbagai keadaan.
Antaranya ialah apabila ujian yang sama diambil oleh murid yang sama untuk kali
kedua atau ujian yang sama ditadbirkan oleh guru yang berlainan atau juga ujian
INDEKS KEBOLEHPERCAYAAN UJIAN
P S S 3 1 1 0 - P E N T A K S I R A N D A L A M P E M B E L A J A R A N P E N G A J I A N S O S I A L
yang sama diambil oleh murid pada waktu yang berbeza sama ada pagi atau
petang. Darjah ketekalan ukuran juga boleh ditentukan sekiranya jawapan kepada
ujian yang sama diperiksa oleh pemeriksa yang berbeza. Ujian yang baik adalah
ujian yang mempunyai darjah ketekalan yang tinggi iaitu markah atau skor yang
dihasilkan adalah hampir sama dalam apa jua keadaan.
Indeks kebolehpercayaan ujian boleh dikira atau dianggar (compute/estimate)
dengan menggunakan pekali korelasi antara dua ukuran yang boleh dikira dengan
menggunakan pelbagai kaedah. Julat pekali korelasi dan juga julat indeks
kebolehpercayaan ujian adalah antara -1.00 hingga +1.00. Indeks kebolehpercayaan
ujian negatif menunjukkan ketekalan yang songsang dimana murid yang mendapat
skor tinggi dalam ujian kali pertama akan mendapat skor yang rendah dalam ujian
kali kedua, dan sebaliknya. Pada kebiasaannya, indeks kebolehpercayaan ujian
bernilai positif dan bagi kebanyakkan ujian, indeks kebolehpercayaan ujian antara
0.65 dan 0. 85 adalah memadai.
Nilai (r) Pengkelasan Ujian< 0.20 Tidak baik
0.21 – 0.40 Kurang baik
0.41 – 0.60 Sederhana baik
0.61 – 0.80 Baik
0.81 – 1.00 Sangat baik
Jadual: Indeks Kebolehpercayaan Ujian dan Pengkelasan Ujian
P S S 3 1 1 0 - P E N T A K S I R A N D A L A M P E M B E L A J A R A N P E N G A J I A N S O S I A L
JENIS KEBOLEHPERCAYAAN UJIAN- MEHRENS DAN LEHMANN (1991)
Rajah: Jenis Kebolehpercayaan Ujian - Mehrans dan Lehmann (1991)
1. Ukuran Kestabilan
Ukuran Kestabilan juga dipanggil ‘anggaran kebolehpercayaan uji-uji semula’
(test-retest estimate of reliability) yang boleh dikira dengan memberikan ujian
yang sama sekali lagi kepada kumpulan murid yang sama selepas ujian
ditadbirkan dan seterusnya mengira pekali korelasi Pearson antara dua atau
pasangan skor yang diperoleh oleh setiap murid.
2. Ukuran Kesetaraan
Ukuran Kesetaraan atau Ukuran Keselarian (parallel) dikira dengan
memberikan dua ujian yang berbeza tetapi setara kesamaan dari segi
kandungan, Jadual Spesifikasi Ujian (JSU), format soalan dan juga arahan
JENIS-JENIS KEBOLEH-
PERCAYAAN UJIAN
UKURAN KESTABILAN
UKURAN KESETARAAN
UKURAN KESETERAAN
DAN KESTABILANUJIAN KETEKALAN
DALAMAN
KEBOLEH-PERCAYAAN PEMERIKSA
P S S 3 1 1 0 - P E N T A K S I R A N D A L A M P E M B E L A J A R A N P E N G A J I A N S O S I A L
menjawab serta min, varians dan interkorelasi skor kepada kumpulan murid dan
hari yang sama seterusnya mengira pekali korelasi Pearson anatara dua atau
pasangan skor yang diperoleh oleh setiap murid.
3. Ukuran Kesetaraan dan Kestabilan
Ukuran Kesetaraan dan Kestabilan ini akan memberikan tahap keyakinan
kepada guru untuk membuat generalisasi skor yang akan diperoleh murid
sekiranya mereka diberi ujian yang setara pada masa yang berlainan. Ujian jenis
ini akan menghapuskan kesan hafalan jawapan atau kesan latih-tubi soalan ujian
pertama terhadap jawapan ujian kedua di samping menilai pencapaian murid
selepas jangka masa yang panjang.
4. Ujian Ketekalan Dalaman
Ukuran Ketekalan Dalaman adalah hampir sama dengan Ukuran Ketekalan
Kesetaraan yang menggambarkan kesetaraan antara dua ujian yang berbeza.
Kaedah-kaedah lain yang digunakan untuk mengukur ketekalan dalam ujian ialah
kaedah Kuder-Richardson dan Kaedah Crombach. Kedua-dua kaedah ini juga
menggunakan sekali ujian sahaja dan ukuran ketekalan dalamannya
menggambarkan darjah keseragaman antara item dalam sesuatu ujian iaitu
menunjukkan hubungan atau korelasi antara setiap item dengan jumlah skor
ujian.
5. Kebolehpercayaan Pemeriksa
Kebolehpercayaan pemeriksa membawa maksud ketekalan ukuran atau skor
yang diberikan oleh dua atau lebih pemeriksa apabila memeriksa kertas jawapan
yang sama. Kebolehpercayaan ini tidak diperlukan untuk ujian berbentuk objektif
kerana jawapan kepada setiap soalan dalam ujian bentuk ini adalah sama iaitu
perbezaan skor antara pemeriksa tidak wujud. Antara faktor yang boleh
mempengaruhi kebolehpercayaan ujian ialah tempoh ujian, bilangan soalan,
binaan item, kehomogenan kumpulan, kesukaran item serta objektiviti jawapan.
P S S 3 1 1 0 - P E N T A K S I R A N D A L A M P E M B E L A J A R A N P E N G A J I A N S O S I A L
Kesahan ujian merujuk kepada sejauh mana ujian berkenaan dapat
mengumpul maklumat berkaitan dengan bidang yang ditetapkan. Menurut
Youngman & Eggleston (1982), Sax & Newton (1997), kesahan bermaksud
kebolehan ujian mengukur apa yang sepatutnya diukur. Kesahan merujuk kepada
kesesuaian dan kekuatan interpretasi markah ujian dan lain-lain keputusan penilaian
dengan merujuk kepada kegunaan tertentu alat ukur tersebut. Menurut Fraenkel &
Wallen (1996), kesahan boleh dibuktikan melalui beberapa kaedah seperti kesahan
kandungan (content validity), kesahan ramalan (predictive validity), kesahan
serentak (concurrent validity) dan kesahan konstruk (construct validity).
JENIS KESAHAN UJIAN
Rajah: Jenis-jenis Kesahan Ujian
INDEKS KESAHAN UJIAN
KESAHAN
Adakah soalan menguji apa yang ingin diuji?
Adakah soalan dapat menghasilkan petanda untuk meramalkan kejayaan sampel pada masa akan datang?
Adakah soalan dapat megaitkan kejayaan sesuatu kemahiran dengan kemahiran lain?
Adakah soalan merangkumi semua ciri konsep yang ingin diuji?
Kesahan Kandungan
Kesahan Ramalan
Kesahan Serentak
Kesahan Konstruk
Bina JPU dan rujuk item-item kepada pakar.
Pilih kriteria dan korelasikan markah ujian dengan skor kriteria pada masa akan datang.
Pilih kriteris dan korelasikan markah ujian dengan skor kriteria pada masa yang sama.
Kenal pasti konsep, konstruk dan definisi operasi. Jana hipotesis berkaitan konstruk. Uji hipotesis secara logik.
P S S 3 1 1 0 - P E N T A K S I R A N D A L A M P E M B E L A J A R A N P E N G A J I A N S O S I A L
1. Kesahan Kandungan (content validity)
Kesahan kandungan ialah kesahan yang terpenting bagi seseorang guru
yang hendak menyediakan ujian, isi ujian ditentukan dengan menilai apakah
tujuan ujian itu diadakan, kandungan sukatan pelajaran, penekanan yang diberi
kepada tajuk-tajuk dalam sukatan pelajaran peringkat atau kategori objektif
pelajaran bagi tiap-tiap tajuk. Kesahan kandungan merujuk kepada sejauh mana
sesuatu alat ukuran itu mencakupi kandungan pelajaran yang telah ditetapkan.
Kesahan kandungan adalah penting terutamanya bagi ujian pencapaian kerana
markah yang diperoleh murid akan menunjukkan tahap pencapaian murid
tersebut untuk kandungan pelajaran tertentu. Sekiranya soalan ujian tidak
meliputi secukupnya kandungan pelajaran tersebut, penilaian terhadap
pencapauan pelajaran murid menjadi tidak sah.
2. Kesahan Ramalan (predictive validity)
Kesahan ramalan merujuk kepada sejauh mana sesuatu alat ukuran itu dapat
menghasilkan skor yang mempunyai hubungan dengan ukuran daripada alat lain
yang diambil kemudian. Kesahan ramalan berkait rapat dengan ujian meramal
kebolehan atau kelayakan seseorang calon untuk menjalankan sesuatu tugas
pada masa hadapan. Misalnya, guru biasa mengadakan peperiksaan percubaan
diperingkat sekolah sebelum murid mengambil peperiksaan UPSR, PMR,SPM
dan sebagainya. Berdasarkan pencapaian murid ini, makan guru dapat meramal
kejayaan murid dalam peperiksaan sebenar tersebut.
3. Kesahan Serentak (concurret validity)
Kesahan serentak merujuk kepada sejauh mana sesuatu alat ukuran itu dapat
menghasilkan skor yang mempunyai hubungan dengan ukuran daripada alat lain
yang diambil serentak. Kesahan serentak pentikng bagi guru merujuk seseorang
dalam sesuatu ujian itu selaras dengan pencapaian kemudian dalam sesuatu
ujian yang serupanya. Sekiranya ujian kedua yang sama taraf dengan ujian
pertama ditadbirkan tidak lama kemudian, pencapaian murid biasanya lebih baik
daripada ujian pertama kerana muris berkenaan telah memperoleh sedikit
sebanyak pengalaman daripada ujian yang pertama.
P S S 3 1 1 0 - P E N T A K S I R A N D A L A M P E M B E L A J A R A N P E N G A J I A N S O S I A L
4. Kesahan Konstruk (construct validity)
Kesahan konstruk merujuk kepada sejauh mana sesuatu alat ukuran itu dapat
mengukur sesuatu konstruk berasaskan teori psikologi tertentu. Kesahan
konstruk amat penting diadakan untuk mengukur sejauh mana seseorang itu
menunjukkan trait personaliti, tingkah laku, atau trait mental seperti sifat
peramah, bertanggungjawab, adil, introvert, bermotivasi, kreatif, cerdas dan
sebagainya. Semua ini merupakan idea atau konstruk psikologi yang perlu
dianalisa untuk mengenal pasti proses-proses atau ciri-ciri yang dikaitakn dengan
sesuatu trait agar item-item ujian yang khusus dan tepat dapat disediakan.
Berdasarkan teori atau kajian ini, kita boleh membuat pelbagai ramalan yang ada
hubungannya dengan konstruk tersebut. Misalnya kita boleh menelah bahawa
seseorang murid yang kreatif juga merupakan seorang yang imaginatif.
Selain daripada empat jenis kesahan ujian di atas, terdapat juga kesahan muka
dan kesahan hubungan kriteria. Kesahan muka lebih kepada sesuatu alat ukuran
‘nampak pada permukaannya’ yang mempunyai kesahan yang tinggi. Ini bermaksud,
sekali pandang nampak alat ukuran itu sah atau orang biasa atau tidak terlatih juga
nampak alat itu sebagai sah. Kesahan hubungan kriteria pula merujuk kepada
sejauh mana sesuatu alat ukuran itu dapat menghasilkan skor yang mempunyai
hubungan dengan beberapa ukuran luaran atau kriteria.
KAEDAH MENGIRA INDEKS KESAHAN UJIAN
Daripada kesahan ujian yang telah diterangkan, kesahan kandungan tidak
dapat diukur atau dijelaskan dengan menggunakan indeks kesahan. Begitu juga
dengan kesahan muka. Kedua-dua kesahan ini dapat dijelaskan secara kualitatif
sahaja. Walau bagaimanapun, kesahan konstruk, kesahan serentak dan kesahan
ramalan boleh diukur dengan menggunakan pekali korelasi Pearson iaitu pekali
korelasi antara skor alat yang dibina dengan skor kriteria yang diambil menggunakan
alat lain.
P S S 3 1 1 0 - P E N T A K S I R A N D A L A M P E M B E L A J A R A N P E N G A J I A N S O S I A L
Kesahan ramalan selain menggunakan pekali korelasi untuk mengukur darjah
kesahan, persamaan regresi boleh digunakan untuk meramal skor kriteria.
Contohnya, skor ujian pertama (x) mempunyai hubungan dengan skor ujian kedua
(y) yang menghasilkan persamaan regreasi y = ax + b, di mana a dan b ialah angka
tetap (constant). Skor ujian kedua (y) boleh diramal oleh skor ujian pertama (x)
dengan menggantikan nilai x dalam persamaan regreasi ini.
Taburan kekerapan diperoleh daripada analisis yang dijalankan terhadap
peperiksaan yang telah dijalankan. Taburan kekerapan memaparkan skor yang
diperoleh oleh murid daripada 40 item soalan yang diuji dalam peperiksaan tersebut.
Daripada jadual kekerapan, guru boleh mendapatkan skor yang tertinggi dan skor
serta julat markah yang diperoleh olehh murid. Oleh itu, guru boleh melihat secara
keseluruhan sama ada murid dapat menjawab soalan yang dikemukakan atau tidak.
Kekerapan merujuk kepada bilangan murid yang mendapat sesuatu skor.
Kekerapan kumulatif merujuk kepada kekerapan terkumpul bagi setiap skor. Nilai
setiap skor ditambah daripada kekerapan skor sebelumnya dengan kekerapan skor
selepasnya. Sebagai contoh, untuk skor 8 kekerapannya ialah 1 dan untuk skor 10
kekerapannya ialah 2. Maka kekerapan kumulatif pada skor 8 ialah 1 dan kekerapan
kumulatif pada skor 10 ialah 3 (1+2).
Berdasarkan pengiraan kekerapan kumulatif, perkara yang boleh dilihat ialah
nilangan murid yang mendapat skor di bawah suatu takat skor. Sebagai contoh, bagi
skor 15 kekerapan kumulatifnya ialah 26. Ini bermaknam terdapat 26 orang murid
yang mendapat skor 15 dan kebawah. Peratus kekerapan kumulatif pula diperoleh
dengan membahagikan kekerapan iaitu skor dengan bilangan murid dan didarab
dengan 100. Ia akan menunjukkan kekerapan bagi sesuatu dalam bentuk peratusan.
TABURAN KEKERAPAN
P S S 3 1 1 0 - P E N T A K S I R A N D A L A M P E M B E L A J A R A N P E N G A J I A N S O S I A L
Model Rasch diperkenalkan oleh Georg Rasch iaitu seorang ahli matematik
Denmark dan statistik yang maju dengan kes epistemologis untuk model
berdasarkan kongruensi mereka dengan teras keperluan pengukuran dalam fizik
iaitu keperluan perbandingan invarian. Model Rasch digunakan untuk menganalisis
data daripada penilaian untuk mengukur pembolehubah seperti ciri keperibadian,
kemampuan membaca murid dari jawapan yang diberikan oleh murid.
Model ini biasanya digunakan terutamanya dalam psikometri iaitu bidang
yang bersangkutan dengan teori dan teknik pengukuran psikologi dan pendidikan.
Teori matematik juga menggunakan model ini dalam beberapa perkara seperti
dalam teori respon butir. Model Rasch mempunyai beberapa sifat khusus yang
menyediakan kriteria untuk pengukuran kejayaan murid. Penerapan model ini
memberikan maklumat diagnostik mengenai seberapa baik sesuatu kriteria itu
dipenuhi. Penerapan model juga dapat mengukur kemampuan, sifat item atau
soalan sama ada baik atau tidak.
Berdasarkan Model Rasch, kebarangkalian respon tertentu misalnya jawapan
yang betul atau salah dimodelkan sebagai parameter item. Di samping itu,
kemungkinan respon yang tepat dimodelkan sebagai fungsi logistik daripada
perbezaan antara orang dan parameter item. Sebagai contoh, dalam ujian
pendidikan, parameter item adalah berkaitan dengan kesukaran soalan sementara
parameter individu berkaitan dengan kemampuan atau tahap pencapaian individu
yang dinilai. Semakin tinggi kemampuan seseorang relatif terhadap kesulitan item,
semakin tinggi kemungkinan jawapan yang betul pada item tersebut.
Tujuan pelaksanaan model ini adalah untuk mendapatkan pengukuran dari
data respon binari. Anggaran kaedah digunakan untuk mendapatkan anggaran dari
matriks data respon berdasarkan pada model. Model Rasch merupakan struktur
data yang patut digunakan untuk mendapatkan pengukuran dari data seperti
menyediakan sebuah kriteria untuk pengukuran berjaya. Dalam erti kata lain, model
ini merupakan sebuah model yang ideal. Perspektif atau paradigma yang mendasari
MODEL RASCH
P S S 3 1 1 0 - P E N T A K S I R A N D A L A M P E M B E L A J A R A N P E N G A J I A N S O S I A L
model ini ialah jelas berbeza daripada perspektif yang mendasari pemodelan
statistik. Model ini sering digunakan untuk menggambarkan satu set data. Parameter
yang diubahsuai akan diterima atau ditolak berdasarkan kesesuaiannya dengan data
yang ada. Sebaliknya, penggunaan Model Rasch adalah untuk mendapatkan data
yang sesuai dengan model. Alasan yang jelas menunjukkan bahawa Model Rasch
merangkumi syarat-syarat yang harus dipenuhi untuk mendapatkan pengukuran
yang sepatutnya.
Model ini tidak diubah mengikut kesesuaian data tetapi kaedah penilaian
harus diubah sehingga keperluan ini dipenuhi dengan cara yang sama bahawa
pertimbangan harus diperbaiki jika memberikan perbandingan yang berbeza antara
objek pada ukuran yang berasingan daripada objek. Data yang dianalisis
menggunakan model ini biasanya merupakan respon kepada item konvensional
yang digunakan dalam ujian contohnya ujian yang memerlukan jawapan salah atau
betul.
Perspektif yang digunakan dalam ilmu-ilmu sosial di mana data seperti nilai
ujian secara terus diperlukan sebagai alat pengukuran tanpa memerlukan landasan
teori untuk pengukuran. Walupun wujud perbezaan, perspektif Rasch sebenarnya
melengkapi analisa statistik atau pemodelan yang memerlukan pengukuran interval-
peringkat kerana tujuan pelaksanaan Model Rasch ini adalah untuk mendapatkan
pengukuran tersebut.
P S S 3 1 1 0 - P E N T A K S I R A N D A L A M P E M B E L A J A R A N P E N G A J I A N S O S I A L