indeks kebolehpercayaan ujian

P S S 3 1 1 0 - P E N T A K S I R A N D A L A M P E M B E L A J A R A N P E N G A J I A N S O S I A L

TUJUAN INDEKS DISKRIMINASI ITEM

Terdapat lima tujuan utama indeks diskriminasi item. Pertama ialah untuk

mengenalpasti konsep yang perlu diajar semula iaitu apabila guru mendapati soalan-

soalan berkenaan tidak dapat dijawab oleh sebahagian besar murid yang pandai.

Kedua ialah untuk mengenalpasti dan melaporkan kekuatan dan kelemahan

bahagian-bahagian kurikulum iaitu yang tidak boleh dikuasai oleh murid pandai.

Seterusnya ialah untuk memberi maklumbalas kepada murid tentang kelemahan

mereka bagi setiap tajuk pengajaran yang diuji.

Tujuan indeks diskriminasi item yang keempat ialah untuk mengenalpasti

soalan yang bias kepada sesuatu kandungan yang tidak ditekankan semasa

pengajaran atau langsung tidak diajar. Akhir sekali ialah untuk mengenalpasti murid

yang berpencapaian tinggi untuk melanjutkan pengajaran dalam bidang-bidang

tertentu.

Kebolehpercaaan sesuatu ujian merujuk kepada ketekalan, ketepatan, dan

kebolehbergantungan ujian berkenaan. Ini bermaksud, sesuatu ujian yang boleh

dipercayai akan menghasilkan maklumat yang tekal dan tepat seperti yang

sepatutnya serta boleh diterima pakai tanpa keraguan. Menurut Hanna & Dettmer

(2004), kebolehpercayaan (reliability) sesuatu alat ukuran bermaksud ketekalan

ukuran-ukuran (consistency of measures) yang dihasilkan oleh alat tersebut.

Manakala menurut Mokhtar (1995), kebolehpercayaan ujian boleh disebut sebagai

darjah ketekalan antara dua pengukuran terhadap sesuatu benda, ciri atau sifat

seseorang. Skor yang sama didapati walaupun orang lain yang menilainya ataupun

dinilai pada masa yang berbeza. Oleh itu, kebolehpercayaan ujian bermaksud

ketekalan markah-markah yang dihasilkan oleh ujian tersebut.

Darjah ketekalan ukuran boleh ditentukan dalam pelbagai keadaan.

Antaranya ialah apabila ujian yang sama diambil oleh murid yang sama untuk kali

kedua atau ujian yang sama ditadbirkan oleh guru yang berlainan atau juga ujian

INDEKS KEBOLEHPERCAYAAN UJIAN


yang sama diambil oleh murid pada waktu yang berbeza sama ada pagi atau

petang. Darjah ketekalan ukuran juga boleh ditentukan sekiranya jawapan kepada

ujian yang sama diperiksa oleh pemeriksa yang berbeza. Ujian yang baik adalah

ujian yang mempunyai darjah ketekalan yang tinggi iaitu markah atau skor yang

dihasilkan adalah hampir sama dalam apa jua keadaan.

Indeks kebolehpercayaan ujian boleh dikira atau dianggar (compute/estimate)

dengan menggunakan pekali korelasi antara dua ukuran yang boleh dikira dengan

menggunakan pelbagai kaedah. Julat pekali korelasi dan juga julat indeks

kebolehpercayaan ujian adalah antara -1.00 hingga +1.00. Indeks kebolehpercayaan

ujian negatif menunjukkan ketekalan yang songsang dimana murid yang mendapat

skor tinggi dalam ujian kali pertama akan mendapat skor yang rendah dalam ujian

kali kedua, dan sebaliknya. Pada kebiasaannya, indeks kebolehpercayaan ujian

bernilai positif dan bagi kebanyakkan ujian, indeks kebolehpercayaan ujian antara

0.65 dan 0. 85 adalah memadai.

Nilai (r) Pengkelasan Ujian< 0.20 Tidak baik

0.21 – 0.40 Kurang baik

0.41 – 0.60 Sederhana baik

0.61 – 0.80 Baik

0.81 – 1.00 Sangat baik

Jadual: Indeks Kebolehpercayaan Ujian dan Pengkelasan Ujian


JENIS KEBOLEHPERCAYAAN UJIAN- MEHRENS DAN LEHMANN (1991)

Rajah: Jenis Kebolehpercayaan Ujian - Mehrans dan Lehmann (1991)

1. Ukuran Kestabilan

Ukuran Kestabilan juga dipanggil ‘anggaran kebolehpercayaan uji-uji semula’

(test-retest estimate of reliability) yang boleh dikira dengan memberikan ujian

yang sama sekali lagi kepada kumpulan murid yang sama selepas ujian

ditadbirkan dan seterusnya mengira pekali korelasi Pearson antara dua atau

pasangan skor yang diperoleh oleh setiap murid.

2. Ukuran Kesetaraan

Ukuran Kesetaraan atau Ukuran Keselarian (parallel) dikira dengan

memberikan dua ujian yang berbeza tetapi setara kesamaan dari segi

kandungan, Jadual Spesifikasi Ujian (JSU), format soalan dan juga arahan

JENIS-JENIS KEBOLEH-

PERCAYAAN UJIAN

UKURAN KESTABILAN

UKURAN KESETARAAN

UKURAN KESETERAAN

DAN KESTABILANUJIAN KETEKALAN

DALAMAN

KEBOLEH-PERCAYAAN PEMERIKSA


menjawab serta min, varians dan interkorelasi skor kepada kumpulan murid dan

hari yang sama seterusnya mengira pekali korelasi Pearson anatara dua atau

pasangan skor yang diperoleh oleh setiap murid.

3. Ukuran Kesetaraan dan Kestabilan

Ukuran Kesetaraan dan Kestabilan ini akan memberikan tahap keyakinan

kepada guru untuk membuat generalisasi skor yang akan diperoleh murid

sekiranya mereka diberi ujian yang setara pada masa yang berlainan. Ujian jenis

ini akan menghapuskan kesan hafalan jawapan atau kesan latih-tubi soalan ujian

pertama terhadap jawapan ujian kedua di samping menilai pencapaian murid

selepas jangka masa yang panjang.

4. Ujian Ketekalan Dalaman

Ukuran Ketekalan Dalaman adalah hampir sama dengan Ukuran Ketekalan

Kesetaraan yang menggambarkan kesetaraan antara dua ujian yang berbeza.

Kaedah-kaedah lain yang digunakan untuk mengukur ketekalan dalam ujian ialah

kaedah Kuder-Richardson dan Kaedah Crombach. Kedua-dua kaedah ini juga

menggunakan sekali ujian sahaja dan ukuran ketekalan dalamannya

menggambarkan darjah keseragaman antara item dalam sesuatu ujian iaitu

menunjukkan hubungan atau korelasi antara setiap item dengan jumlah skor

ujian.

5. Kebolehpercayaan Pemeriksa

Kebolehpercayaan pemeriksa membawa maksud ketekalan ukuran atau skor

yang diberikan oleh dua atau lebih pemeriksa apabila memeriksa kertas jawapan

yang sama. Kebolehpercayaan ini tidak diperlukan untuk ujian berbentuk objektif

kerana jawapan kepada setiap soalan dalam ujian bentuk ini adalah sama iaitu

perbezaan skor antara pemeriksa tidak wujud. Antara faktor yang boleh

mempengaruhi kebolehpercayaan ujian ialah tempoh ujian, bilangan soalan,

binaan item, kehomogenan kumpulan, kesukaran item serta objektiviti jawapan.


Kesahan ujian merujuk kepada sejauh mana ujian berkenaan dapat

mengumpul maklumat berkaitan dengan bidang yang ditetapkan. Menurut

Youngman & Eggleston (1982), Sax & Newton (1997), kesahan bermaksud

kebolehan ujian mengukur apa yang sepatutnya diukur. Kesahan merujuk kepada

kesesuaian dan kekuatan interpretasi markah ujian dan lain-lain keputusan penilaian

dengan merujuk kepada kegunaan tertentu alat ukur tersebut. Menurut Fraenkel &

Wallen (1996), kesahan boleh dibuktikan melalui beberapa kaedah seperti kesahan

kandungan (content validity), kesahan ramalan (predictive validity), kesahan

serentak (concurrent validity) dan kesahan konstruk (construct validity).

JENIS KESAHAN UJIAN

Rajah: Jenis-jenis Kesahan Ujian

INDEKS KESAHAN UJIAN

KESAHAN

Adakah soalan menguji apa yang ingin diuji?

Adakah soalan dapat menghasilkan petanda untuk meramalkan kejayaan sampel pada masa akan datang?

Adakah soalan dapat megaitkan kejayaan sesuatu kemahiran dengan kemahiran lain?

Adakah soalan merangkumi semua ciri konsep yang ingin diuji?

Kesahan Kandungan

Kesahan Ramalan

Kesahan Serentak

Kesahan Konstruk

Bina JPU dan rujuk item-item kepada pakar.

Pilih kriteria dan korelasikan markah ujian dengan skor kriteria pada masa akan datang.

Pilih kriteris dan korelasikan markah ujian dengan skor kriteria pada masa yang sama.

Kenal pasti konsep, konstruk dan definisi operasi. Jana hipotesis berkaitan konstruk. Uji hipotesis secara logik.


1. Kesahan Kandungan (content validity)

Kesahan kandungan ialah kesahan yang terpenting bagi seseorang guru

yang hendak menyediakan ujian, isi ujian ditentukan dengan menilai apakah

tujuan ujian itu diadakan, kandungan sukatan pelajaran, penekanan yang diberi

kepada tajuk-tajuk dalam sukatan pelajaran peringkat atau kategori objektif

pelajaran bagi tiap-tiap tajuk. Kesahan kandungan merujuk kepada sejauh mana

sesuatu alat ukuran itu mencakupi kandungan pelajaran yang telah ditetapkan.

Kesahan kandungan adalah penting terutamanya bagi ujian pencapaian kerana

markah yang diperoleh murid akan menunjukkan tahap pencapaian murid

tersebut untuk kandungan pelajaran tertentu. Sekiranya soalan ujian tidak

meliputi secukupnya kandungan pelajaran tersebut, penilaian terhadap

pencapauan pelajaran murid menjadi tidak sah.

2. Kesahan Ramalan (predictive validity)

Kesahan ramalan merujuk kepada sejauh mana sesuatu alat ukuran itu dapat

menghasilkan skor yang mempunyai hubungan dengan ukuran daripada alat lain

yang diambil kemudian. Kesahan ramalan berkait rapat dengan ujian meramal

kebolehan atau kelayakan seseorang calon untuk menjalankan sesuatu tugas

pada masa hadapan. Misalnya, guru biasa mengadakan peperiksaan percubaan

diperingkat sekolah sebelum murid mengambil peperiksaan UPSR, PMR,SPM

dan sebagainya. Berdasarkan pencapaian murid ini, makan guru dapat meramal

kejayaan murid dalam peperiksaan sebenar tersebut.

3. Kesahan Serentak (concurret validity)

Kesahan serentak merujuk kepada sejauh mana sesuatu alat ukuran itu dapat

menghasilkan skor yang mempunyai hubungan dengan ukuran daripada alat lain

yang diambil serentak. Kesahan serentak pentikng bagi guru merujuk seseorang

dalam sesuatu ujian itu selaras dengan pencapaian kemudian dalam sesuatu

ujian yang serupanya. Sekiranya ujian kedua yang sama taraf dengan ujian

pertama ditadbirkan tidak lama kemudian, pencapaian murid biasanya lebih baik

daripada ujian pertama kerana muris berkenaan telah memperoleh sedikit

sebanyak pengalaman daripada ujian yang pertama.


4. Kesahan Konstruk (construct validity)

Kesahan konstruk merujuk kepada sejauh mana sesuatu alat ukuran itu dapat

mengukur sesuatu konstruk berasaskan teori psikologi tertentu. Kesahan

konstruk amat penting diadakan untuk mengukur sejauh mana seseorang itu

menunjukkan trait personaliti, tingkah laku, atau trait mental seperti sifat

peramah, bertanggungjawab, adil, introvert, bermotivasi, kreatif, cerdas dan

sebagainya. Semua ini merupakan idea atau konstruk psikologi yang perlu

dianalisa untuk mengenal pasti proses-proses atau ciri-ciri yang dikaitakn dengan

sesuatu trait agar item-item ujian yang khusus dan tepat dapat disediakan.

Berdasarkan teori atau kajian ini, kita boleh membuat pelbagai ramalan yang ada

hubungannya dengan konstruk tersebut. Misalnya kita boleh menelah bahawa

seseorang murid yang kreatif juga merupakan seorang yang imaginatif.

Selain daripada empat jenis kesahan ujian di atas, terdapat juga kesahan muka

dan kesahan hubungan kriteria. Kesahan muka lebih kepada sesuatu alat ukuran

‘nampak pada permukaannya’ yang mempunyai kesahan yang tinggi. Ini bermaksud,

sekali pandang nampak alat ukuran itu sah atau orang biasa atau tidak terlatih juga

nampak alat itu sebagai sah. Kesahan hubungan kriteria pula merujuk kepada

sejauh mana sesuatu alat ukuran itu dapat menghasilkan skor yang mempunyai

hubungan dengan beberapa ukuran luaran atau kriteria.

KAEDAH MENGIRA INDEKS KESAHAN UJIAN

Daripada kesahan ujian yang telah diterangkan, kesahan kandungan tidak

dapat diukur atau dijelaskan dengan menggunakan indeks kesahan. Begitu juga

dengan kesahan muka. Kedua-dua kesahan ini dapat dijelaskan secara kualitatif

sahaja. Walau bagaimanapun, kesahan konstruk, kesahan serentak dan kesahan

ramalan boleh diukur dengan menggunakan pekali korelasi Pearson iaitu pekali

korelasi antara skor alat yang dibina dengan skor kriteria yang diambil menggunakan

alat lain.


Kesahan ramalan selain menggunakan pekali korelasi untuk mengukur darjah

kesahan, persamaan regresi boleh digunakan untuk meramal skor kriteria.

Contohnya, skor ujian pertama (x) mempunyai hubungan dengan skor ujian kedua

(y) yang menghasilkan persamaan regreasi y = ax + b, di mana a dan b ialah angka

tetap (constant). Skor ujian kedua (y) boleh diramal oleh skor ujian pertama (x)

dengan menggantikan nilai x dalam persamaan regreasi ini.

Taburan kekerapan diperoleh daripada analisis yang dijalankan terhadap

peperiksaan yang telah dijalankan. Taburan kekerapan memaparkan skor yang

diperoleh oleh murid daripada 40 item soalan yang diuji dalam peperiksaan tersebut.

Daripada jadual kekerapan, guru boleh mendapatkan skor yang tertinggi dan skor

serta julat markah yang diperoleh olehh murid. Oleh itu, guru boleh melihat secara

keseluruhan sama ada murid dapat menjawab soalan yang dikemukakan atau tidak.

Kekerapan merujuk kepada bilangan murid yang mendapat sesuatu skor.

Kekerapan kumulatif merujuk kepada kekerapan terkumpul bagi setiap skor. Nilai

setiap skor ditambah daripada kekerapan skor sebelumnya dengan kekerapan skor

selepasnya. Sebagai contoh, untuk skor 8 kekerapannya ialah 1 dan untuk skor 10

kekerapannya ialah 2. Maka kekerapan kumulatif pada skor 8 ialah 1 dan kekerapan

kumulatif pada skor 10 ialah 3 (1+2).

Berdasarkan pengiraan kekerapan kumulatif, perkara yang boleh dilihat ialah

nilangan murid yang mendapat skor di bawah suatu takat skor. Sebagai contoh, bagi

skor 15 kekerapan kumulatifnya ialah 26. Ini bermaknam terdapat 26 orang murid

yang mendapat skor 15 dan kebawah. Peratus kekerapan kumulatif pula diperoleh

dengan membahagikan kekerapan iaitu skor dengan bilangan murid dan didarab

dengan 100. Ia akan menunjukkan kekerapan bagi sesuatu dalam bentuk peratusan.

TABURAN KEKERAPAN


Model Rasch diperkenalkan oleh Georg Rasch iaitu seorang ahli matematik

Denmark dan statistik yang maju dengan kes epistemologis untuk model

berdasarkan kongruensi mereka dengan teras keperluan pengukuran dalam fizik

iaitu keperluan perbandingan invarian. Model Rasch digunakan untuk menganalisis

data daripada penilaian untuk mengukur pembolehubah seperti ciri keperibadian,

kemampuan membaca murid dari jawapan yang diberikan oleh murid.

Model ini biasanya digunakan terutamanya dalam psikometri iaitu bidang

yang bersangkutan dengan teori dan teknik pengukuran psikologi dan pendidikan.

Teori matematik juga menggunakan model ini dalam beberapa perkara seperti

dalam teori respon butir. Model Rasch mempunyai beberapa sifat khusus yang

menyediakan kriteria untuk pengukuran kejayaan murid. Penerapan model ini

memberikan maklumat diagnostik mengenai seberapa baik sesuatu kriteria itu

dipenuhi. Penerapan model juga dapat mengukur kemampuan, sifat item atau

soalan sama ada baik atau tidak.

Berdasarkan Model Rasch, kebarangkalian respon tertentu misalnya jawapan

yang betul atau salah dimodelkan sebagai parameter item. Di samping itu,

kemungkinan respon yang tepat dimodelkan sebagai fungsi logistik daripada

perbezaan antara orang dan parameter item. Sebagai contoh, dalam ujian

pendidikan, parameter item adalah berkaitan dengan kesukaran soalan sementara

parameter individu berkaitan dengan kemampuan atau tahap pencapaian individu

yang dinilai. Semakin tinggi kemampuan seseorang relatif terhadap kesulitan item,

semakin tinggi kemungkinan jawapan yang betul pada item tersebut.

Tujuan pelaksanaan model ini adalah untuk mendapatkan pengukuran dari

data respon binari. Anggaran kaedah digunakan untuk mendapatkan anggaran dari

matriks data respon berdasarkan pada model. Model Rasch merupakan struktur

data yang patut digunakan untuk mendapatkan pengukuran dari data seperti

menyediakan sebuah kriteria untuk pengukuran berjaya. Dalam erti kata lain, model

ini merupakan sebuah model yang ideal. Perspektif atau paradigma yang mendasari

MODEL RASCH


model ini ialah jelas berbeza daripada perspektif yang mendasari pemodelan

statistik. Model ini sering digunakan untuk menggambarkan satu set data. Parameter

yang diubahsuai akan diterima atau ditolak berdasarkan kesesuaiannya dengan data

yang ada. Sebaliknya, penggunaan Model Rasch adalah untuk mendapatkan data

yang sesuai dengan model. Alasan yang jelas menunjukkan bahawa Model Rasch

merangkumi syarat-syarat yang harus dipenuhi untuk mendapatkan pengukuran

yang sepatutnya.

Model ini tidak diubah mengikut kesesuaian data tetapi kaedah penilaian

harus diubah sehingga keperluan ini dipenuhi dengan cara yang sama bahawa

pertimbangan harus diperbaiki jika memberikan perbandingan yang berbeza antara

objek pada ukuran yang berasingan daripada objek. Data yang dianalisis

menggunakan model ini biasanya merupakan respon kepada item konvensional

yang digunakan dalam ujian contohnya ujian yang memerlukan jawapan salah atau

betul.

Perspektif yang digunakan dalam ilmu-ilmu sosial di mana data seperti nilai

ujian secara terus diperlukan sebagai alat pengukuran tanpa memerlukan landasan

teori untuk pengukuran. Walupun wujud perbezaan, perspektif Rasch sebenarnya

melengkapi analisa statistik atau pemodelan yang memerlukan pengukuran interval-

peringkat kerana tujuan pelaksanaan Model Rasch ini adalah untuk mendapatkan

pengukuran tersebut.

indeks kebolehpercayaan ujian

Documents