pembinaan item objektif dan subjektif
TRANSCRIPT
4.0PEMBINAAN ITEM OBJEKTIF DAN SUBJEKTIF
Pengenalan
Membuat pilihan mengenai jenis ujian yang akan diberikan kepada pelajar
anda bagi tujuan mengukur pencapaian mereka boleh menjadi sukar dan
rumit seperti menulis atau membina item itu sendiri. Ada dua jenis kategori
ujian a) item objektif yang memerlukan pelajar membuat pilihan jawapan yang
betul dari beraneka pilihan atau memberi jawapan dalam bentuk perkataan
atau jawapan pendek atau melengkapkan ayat b) item subjektif atau esei
yang membenarkan pelajar membentuk dan menyediakan jawapan yang
asal dan tepat. Item objektif termasuklah aneka pilihan, betul-salah, padanan
dan melengkapkan sementara item subjektif memerlukan esei jawapan
pendek, jawapan terbuka , penyelesaian masalah atau item ujian pencapaian.
Kebiasaannya, apabila diberikan tugasan untuk membina instrumen ujian
mereka akan menghadapi kesan emosi iaitu gembira atau risau atau kedua-
duanya sekali. Kerisauan timbul kerana mungkin mereka belum pernah
melakukannya dan gembira mungkin kerana diberi peluang untuk mencuba
dan berkongsi pengetahuan dan kemahiran mengenai apa yang patut
diukurkan. Bagi yang sudah bersedia, mereka mungkin telah pun bersedia
dengan penulisan dan pembinaan yang dihajati. Namun persediaan dan
pengetahuan tentang pembinaan item merujuk kepada ketetapan yang telah
disandarkan merupakan satu ujian yang agak getir. Dengan berpandukan
panduan dan peraturan yang telah ditetapkan seseorang pembina item atau
soalan boleh merancang dan menentukan kehendak yang diperlukan atau
jenis soalan atau item yang perlu disediakan.
Objektif
Diakhir bab ini, anda seharusnya dapat :
Merancang pelbagai instrumen pengukuran untuk menilai pencapaian
pelajar didalam sesuatu matapelajaran
Membuat padanan item ujian mengikut objektif
Membina ujian objektif dan ujian esei
Memberi maklumbalas berasaskan ujian pencapaian pelajar
4.1 Jadual Penentuan Ujian
Pembinaan ujian yang akan dijalankan hendaklah mengikut perancangan
dan keperluan spesifikasi ujian yang telah ditetapkan. Sampel
perancangan ujian yang hendak dijalankan mestilah mewakili item ujian
yang seimbang merangkumi dan meliputi aspek kemahiran dan
pengetahuan yang boleh dilaksanakan pengguna. Kaedah ini boleh
mmemastikan pengguna diuji dengan ujian yang relevan dan sah
mengikut kebolehan yang sebenar dengan memberi keyakinan bahawa
pengguna mempunyai asas pengetahuan mengenai perkara yang
dipelajari.
Setiap ujian yang dibina menjalani pelbagai peringkat proses termasuklah
pembinaan item, mengkaji semula, proses ujian awal (pilot-test) dan pra-
ujian bagi memastikan item ujian adalah boleh digunakan dan diperbaiki
(jika ada keperluan). Akhir sekali, sebelum ujian tersebut boleh dijalankan,
item ujian biasanya dikaji dan dinilai oleh pakar pembina item.
Keseluruhan proses kaji-semula ini boleh membantu dalam memastikan
mutu dan kualiti item ujian mempunyai sifat kesahan, kebolehpercayaan
dan pengukuran yang adil. (Hale, 1980)
“A Table of Specifications consists of a two-way chart or grid (Kubiszyn &
Borich, 2003; Linn & Gronlund, 2000; Mehrens & Lehman, 1973; Ooster,
2003) relating instructional objectives to the instructional content. The
column of the chart lists the objectives or "levels of skills" (Gredler, 1999,
p.268) to be addressed; the rows list the key concepts or content the test
is to measure. According to Bloom, et al. (1971), "We have found it useful
to represent the relation of content and behaviors in the form of a two
dimensional table with the objectives on one axis, the content on the
other. The cells in the table then represent the specific content in relation
to a particular objective or behavior" .
Jadual penentuan ujian bukan sahaja membantu mengenalpasti
kandungan pelajaran yang diajar dikelas tetapi juga turut mengenalpasti
objektif pelajaran bagi setiap tahap domain objektif yang berdasarkan
Taksonomi Bloom. Guru akan tentunya yakin bahawa mereka mengukur
pembelajaran pelajar dari awal hingga akhir dan sudah pasti guru tidak
akan lupa mengenai kandungan apa yang patut di ajar.
Enam elemen yang perlu diketahui sebelum membina jadual penentuan ujian bagi
ujian adalah : (1) keseimbangan sasaram ujian; (2) keseimbangan tahap
pembelajaran; (3) format ujian; (4) jumlah item; (5) bilangan item ujian bagi
setiap sasaran tahap pembelajaran; dan (6) kebolehan kemahiran yang dipilih
bagi setiap rangkakerja. Spesifikasi yang terbentuk berdasarkan enam elemen ini
akan membolehkan keseimbangan tahap pengujian yang mewakili setiap unit
yang seimbang sasaran dan tahap pembelajaran.
Aktiviti
Ambil satu contoh kertas ujian yang pernah anda lihat. Berdasarkan item
ujian tersebut senaraikan beberapa objektif pengajaran yang anda dapat
perolehi.
Jadual penentuan ujian dibina sebelum ujian di tulis. Seharusnya ianya
hendaklah dibina sebelum pengajaran dimulakan. (Kubiszyn & Borich.
2003; Mehrans & Lehman, 1973; Ooster. 2003). Memang banyak masa
dan tenaga diperlukan bagi membina spesifikasi ujian. (Kubiszyn &
Borich, 2003). Linn and Gronlund (2000) menyatakan "Walaupun
prosesnya mengambill dan memakan masa yang lama, tugasab yang
dijalankan dalam pembentukan jadual penentuan ujian akan
membolehkan kerja persediaan lebih mudah dimasa depan.
4.1.1. Objektif Pengajaran dan Pembelajaran
Merujuk pengetahuan dan kemahiran yang perlu dicapai / dikuasai murid
selepas sesi Pengajaran dan & Pembelajaran. Objektif pengajaran
merupakan asas pemilihan bahan dan peralatan pengajaran,
pengetahuan asas yang berkaitan yang (pengetahuan sedia ada), isi
pelajaran; di samping mencadangkan aktiviti guru-murid dalam proses
pengajaran-pembelajaran.
Pernyataan objektif pengajaran adalah berasaskan:
i. Hasil yang akan diperolehi murid;
ii. Prestasi atau tingkahlaku murid yang boleh dilihat atau
diukur, selepas sesi pengajaran;
iii. Keadaan atau syarat yang diperlukan bagi sesuatu
tingkahlaku;
iv. Darjah atau peringkat perubahan tingkah-laku yang
dijangkakan.
v.
Di samping itu, objektif pengajaran hendaklah melibatkan:
i) Perkara yang masih belum dikuasai murid;
ii) Masa bilakah objektif tersebut hendak dicapai (misalnya, di
akhir pengajaran);
iii) Kesinambungan dengan pengalaman pelajaran terdahulu;
iv) Maklumat yang dapat menunjukkan sesuatu yang
dikehendaki (misalnya, kemahiran intelektual yang harus
dilaksanakan).
Jadual penentuan ujian dibentuk untuk memberi suatu gambaran
mengenai kandungan dan format item ujian bagi mengukur objektif
pembelajaran. Setiap item penentuan ujian mengandungi perkara-
perkara berikut : nombor pengenalan objektif, tahap gred,
rangkuman matapelajaran, pengenalan tujuan, penerangan
kemahiran, rangsangan dan sample item. Penentuan ujian boleh
memberi arah kepada guru dalam memaklumkan pencapaian
pelajar dalam pengajaran yang telah diberi. Guru juga boleh
membimbing pelajar tentang persediaan menghadapi ujian.
Bagi tujuan ujian berpusat, diantara proses yang dijalankan
pembentukan jadual penentuan ujian termasuklah : (1) menentukan
dan membentuk piawaian (2) membina spesifikasi ujian (3)
membina item (4) mendaftar dan mentadbir ujian dan (5)
penskoran, analisa dan pelaporan. Bagi tujuan menentukan
piawaian, maklumbalas dari ahli-ahli dari pelbagai bidang
hendakah diperolehi. Untuk tujuan itu, tujuan ujian, jenis hasil ujian,
bilangan item ujian dan masa yang diperlukan untuk mentadbir
ujian, jenis item, definisi kandungan dan kemahiran, ciri-ciri ujian
seperti format, kesusahan dan ujian diskriminasi ; kesahan dan
kebolehpercayaan ujian. Pembinaan ujian merangkumi pembinaan
item dan pengujian awal. Pendaftaran dan pentadbiran ujian
melibatkan calon, tempat ujian dan pentadbiran ujian. Langkah
terakhir melibatkan penskoran, analisa dan pelaporan keputusan.
(Hecht, 1974)
4.1.2 Pengertian Jadual Penentuan Ujian
Sebelum sesuatu ujaian dapat dibina dengan sempurnanya, satu
jadual penentuan ujian atau disebut sebagai JPU mestilah dibentuk
terlebih dahulu. JPU merupakan satu blue-print ujian yang perlu
dibina. JPU dibina hanya setelah pembina dapat menetapkan jenis
dan kandungan ujian yang hendak dibina. Pembinaan JPU
membantu pembina ujian mendapatkan skor yang boleh dipercayai
dan sah dari segi keputusan yang akan dibuat ke atas kandungan
ujian berkenaan.
Dalam proses membina ujian, ujian yang sah dan boleh dipercayai
prosedur berikut hendaklah diikuti.
1. merancang ujian
1. menggubal soalan
2. memilih dan menyelaras soalan
3. memprauji soalan
4. memasang kertas soalan
4.1.2.1 Perancangan Ujian dan Pembinaan Jadual Penentuan
Ujian
Perkara yang penting dalam perancangan ujian ialah pembinaan
Jadual Penentuan Ujian (JPU) (Test Table of Specification).
Dalam pembinaan Jadual Penentuan Ujian langkah-langkah berikut
hendaklah diikuti.
4.1.2.2. Mengkaji Sukatan Pelajaran
Sukatan pelajaran dikaji untuk memperolehi maklumat yang
menyeluruh tentang kurikulum yang telah dibina. Isi kandungan
sukatan pelajaran dianalisis untuk menentukan kepentingan tiap-
tiap satu isi kandungannya. Antara aspek-aspek yang dianalisis
ialah
(i) skop dan kedalaman kajian pada sesuatu tajuk
(i) pendekatan yang telah diambil dalam pengajaran sesuatu tajuk
(ii) kepentingan bandingan di antara satu tajuk dengan tajuk-tajuk
yang lain
(iii) kekomplekskan sesuatu tajuk
(iv)masa pengajaran yang diberi bagi sesuatu tajuk
4.1.2.3 Menganalisis Objektif Pendidikan
Di samping itu objektif pendidikan dianalisis untuk menentukan
jenis-jenis kemahiran yang perlu di uji dan pada tahap kesukaran
mana ia perlu diuji. Lazimnya aras kemahiran diasaskan kepada
pembahagian yang dibuat oleh Bloom dan rakan-rakannya.
Maklumat-maklumat yang tersebut di atas ini adalah amat penting
kepada penggubal soalan dan penggubal ujian kerana dengan ini
sifat ujian itu ditentukan, bilangan soalan bagi setiap ujian
ditentukan, dan pada aras kemahiran dan kesukaran apakah yang
ia perlu diuji.
Berdasarkan penganalisaan inilah Jadual Penentuan Ujian dibina.
Lazimnya Jadual Penentuan Ujian mengandungi tiga paksi utama.
1. Paksi Kandungan
- Tajuk
- Subtajuk
1. Paksi Kemahiran
- Aras kemahiran
2. Paksi Wajaran
- Peratusan pemberatan setiap tajuk
- Bilangan soalan
4.1.2.4 Kepentingan Jadual Penentuan Ujian
Jadual Penentuan Ujian yang lengkap dibina akan sangat-sangat
membantu penggubal soalan dan pembina ujian. Antara
kepentingan adanya Jadual Penentuan Ujian ialah:
1. Ujian akan dibina secara sistematik.
1. Keesahan dari segi penyampelan sukatan pelajaran adalah
terjamin.
2. Taburan tajuk adalah seimbang, dan pelajar diuji pada
keseluruhan
kurikulum.
3. Taraf, mutu dan aras kesukaran ujian dapat dikekalkan dari
setahun ke
setahun, walaupun dibina oleh pembina yang berlainan.
4. Ia menjadi panduan kepada penggubal soalan dan pembina
ujian.
Aktiviti
Ambil item ujian yang pernah anda gunakan atau bina dan cuba bina
satu jadual penentuan ujian.
4.1 Pembinaan Item Ujian Objektif
Ujian pencapaian adalah perlu bagi pendidik untuk mengetahui objektif
maklumbalas pelajar tentang banyak manakah mereka faham dan belajar.
Jika diguna dengan betul, ianya boleh menilai tahap pengetahuan setiap
pelajar dan juga membandingkan pencapaian antara sekolah. Ujian
pencapaian yang sering digunakan disekolah adalah hasil dari pembinaan
guru matapelajaran itu sendiri.
Ujian yang menepati pencapaian dan kehendak adalah ujian yang dibina oleh
guru berkenaan bagi kegunaan kelas tertentu. Guru boleh menyesuaikan
informasi yang mereka fikir penting bagi membolehkan kesesuaian dengan
tahap pelajar mereka. Jika dibina dengan betul, ujian yang dibina dan
dijalankan itu akan berupaya memberi maklumat berguna dan tepat
mengenai pengetahuan yang dapat diperolehi dari pelajar atau murid
mereka.
Langkah 1. Merekabentuk Ujian
Langkah pertama dalam merekabentuk sesuatu ujian yang berkesan adalah
mengenalpasti apa yang anda mahu murid pelajari dari sesuatu unit
pengajaran. Pertimbangkan keutamaan objektif dan masukkan soalan-soalan
pertimbangan mengenai apa yang penting dalam objektif pengajaran dan
pembelajaran. Namun begitu, jika ujian tidak menumpukan kepada objektif-
objektif kehendak, murid tidak akan berpeluang menunjukkan tahap dan daya
kefahaman aspek-aspek yang lain dan anda tidak akan dapat membuat
penilaian tepat keatas setiap kebolehan dan pengetahuan murid anda.
Objektif pembelajaran yang ingin anda sampaikan bukan sahaja dapat
memberikan maklumat yang akan diberi dalam ujian tetapi bentuk spesifik
ujian yang akan dijalankan. Sebagai contohnya, adalah penting dan murid
seharusnya mampu menyelesaikan masalah matematik yang memerlukan
jawapan bertulis yang panjang dalam jangkamasa yang telah ditetapkan.
Jenis soalan yang akan digunakan juga bergantung kepada objektif
pembelajaran. Jika murid diperlukan untuk memahami bagaimana kesan
sejarah yang berlaku adalah berkaitan dan mengakibatkan perubahan
kepada keadaan, mungkin soalan jawapan pendek atau soalan esei adalah
lebih sesuai. Jika murid diperlukan untuk mengingati tarikh penting dalam
sejarah, mungkin soalan pelbagai pilihan ( objektif ) atau soalan mengisi
tempat kosong adalah lebih bermakna.
Langkah 2. Menulis Soalan ujian
Sebaik sahaja anda telah menyatakan kepentingan objektif pembelajaran
dan dalam masa yang sama telah menentukan jenis-jenis soalan dan
rekabentuk soalan yang akan digunakan, anda mungkin telah bersedia untuk
memulakan langkah berikutnya iaitu membina satu ujian yang efektif dan
langkah tersebut adalah menulis soalan ujian.
Prinsip Am
Meski pun terdapat pelbagai jenis dan bentuk soalan-soalan ujian seperti
soalan pelbagai pilihan (multiple choice) , soalan mengisi tempat kosong (fill-
in-the-blank) atau soalan jawapan pendek (short answer), soalan betul-salah
(true-false), soalan padanan (matching) dan soalan esei (essay) dibina
berlainan cara , prinsip pembinaan yang sama digunakan untuk tujuan
pembinaan.
1. Arahan bagi setiap jenis soalan hendaklah mudah dan ringkas.
2. Gunakan bahasa yang mudah dan jelas. Jika bahasa yang digunakan tidak
di fahami, murid yang memahami bahan ujian tetapi tidak mempunyai
kemahiran bahasa yang baik akan menghadapi masaalah dalam menjelaskan
pengetahuan mereka. Jika bahasa yang digunakan tidak jelas , murid yang
mempunyai kemahiran bahasa yang tinggi sekali pun akan menjawab dengan
tidak betul atau tepat oleh kerana tafsiran mereka mengenai soalan ujian tidak
sama dengan kehendak instruktor berkenaan.
3. Bina dan tulis item atau soalan yang memerlukan pengetahuan spesifik atau
kebolehan yang dapat dibentuk dari unit tersebut dan bukannya kepintaran
am atau kebijaksaan ujian.
4. Jangan memberi cadangan jawapan bagi sesuatu soalan kepada soalan
yang lain. Ini akan menjadikan ujian tersebut kurang berkesan, kerana murid
yang bijak akan mempunyai kelebihan berbanding rakan mereka yang
mempelajari dan mengetahui perkara yang sama tetapi kurang bijak dalam
kemahiran mengambil ujian.
5. Jangan menulis soalan ujian dalam bentuk yang negatif. Jika anda
memerlukan soalan berbentuk negatif, “tandakan” atau bezakan maksudnya
kerana soalan ini akan membawa murid untuk menjawab soalan dengan tidak
betul.
6. Tentukan unit dan ketepatan jawapan. Contohnya, adakah anda bersedia
menerima jawapan kepada soalan matematik dalam integer bundal.
Langkah 3 . Semakan Akhir
Akhir sekali, buat penilaian semula keatas ujian tersebut. Adakah arahan yang
diberikan tepat ? Adakah objektif pembelajaran yang dipilih sesuai dan
mencukupi dan seimbang ? Adakah soalan yang diberi dinyatakan dalam
bahasa yang tepat dan mudah serta jelas ? Perhatian hendaklah diberikan
agar soalan yang diberi tidak membawa pelajar kepada jawapan yang dapat
dikesan. Soalan ujian yang lemah tahap pembinaannya bukan sahaja tidak
mengukur tahap pengetahuan murid tetapi sekadar mengukur kebolehan murid
mengambil ujian.
Mentafsir Keputusan Ujian
Jika anda sudah pun berpuas hati dengan pengunaan prinsip am pembinaan
ujian yang telah anda lakukan, anda tentu yakin terhadap ujian yang telah anda
bina dan seterusnya memastikan bahawa ujian tersebut akan memberi
pengetahuan keatas pelajar anda. Dengan mengambilkira kepelbagaian dalam
soalan yang telah dibina berlandaskan objektif pembelajaran sebagai ujian
sampingan, anda boleh membina profil pengetahuan dan kemahiran objektif
bagi setiap murid anda. Skoran yang dihasilkan dari ujian sampingan ini boleh
menjadi satu kaedah mengetahui keseluruhan skoran ujian dimana anda akan
dapat mengenal pasti bahagian manakah yang perlu dititikberatkan. Sesuatu
ujian yang dikendalikan dengan baik akan dapat membantu memaklumkan
sejauh manakah pembelajaran yang diperolehi oleh murid dan seterusnya
membantu murid menyelami sepenuhnya objektif pembelajaran tersebut.
4.1.1 Item Aneka Pilihan
Soalan yang sering digunakan didalam ujian adalah soalan/item aneka
pilihan. Item aneka pilihan dikatakan lebih mudah dan skorannya juga
lebih senang dikendalikan daripada soalan esei tetapi adalah agak susah
dari segi menjawab dengan betul tanpa mengetahui keperluan
pengetahuan sebenar dari soalan/item betul-salah. Namun, soalan item
aneka pilihan merupakan jenis soalan yang sukar untuk dibina. Berikut
adalah beberapa langkah pembinaan badi menyediakan soalan/item
aneka pilihan.
1. Nyatakan dengan jelas arahan-arahan samada anda memerlukan
jawapan yang tepat atau jawapan terbaik bagi setiap soalan/item.
2. Jangan ulang perkataan-perkataan pada setiap alternatif tetapi
hendaklah memasukkan perkataan didalam badan utama soalan. Ini akan
memudahkan soalan dibaca dan opsyen mudah dibandingkan. Struktur
nahu atau tatabahasa soalan utama hendaklah tidak mempunyai atau
mengandungi pembayang bagi respon yang betul.
3. Jadikan alternatif menarik dengan tujuan merangsang pemikiran agar
menarik bagi murid yang belum mencapai objektif pembelajaran yang
ditetapkan.
4. Pastikan pilihan jawapan diletakkan secara rawak.
5. Pastikan semua pilihan anda selaras. Pembina baru selalunya
membina jawapan yang panjang dan berhati-hati dan dengan demikian
akan mengakibatkan pembayang jawapan diberikan.
6. Jangan biasakan memberi jawapan “ Kesemua diatas “ atau “Tiada
satu diatas” sebagai alternatif.
7. Kawal aras kesukaran soalan dengan menyediakan alternatif.
Item aneka pilihan mempunyai tiga komponen asas iaitu :
i) Stimulus
Adalah maklumat khusus dimana item itu didasarkan dan berbentuk
teks, grafik, jadual, perbualan dan lain-lain lagi.
ii) Stem
Adalah bahagian yang mengandungi tugasan dan biasanya
berbentuk ayat lengkap, ayat tidak lengkap, soalan dan lain-lain lagi.
iii) Pilihan/Opsyen
Adalah perkara-perkara yang diberikan sebagai pilihan jawapan dan
biasanya berbentuk angka, simbol, frasa, gambarajah, jadual dan
lain-lain lagi. Komponen ini mengandungi dua fungsi :
a) Kunci bagi pilihan betul atau terbaik
b) Pengganggu/Distraktor yang bertujuan untuk menganggu pelajar
dari jawapan sebenar
4.1.2 Item Benar-Salah
Item ini mempunyai pernyataan lengkap samada benar atau salah. Ianya
amat sesuai untuk menguji fakta. Item ini menghendaki pelajar
menentukan jawapannya benar atau salah atau palsu mengenai
pernyataan yang diberi.
4.1.3 Item Mengisi Ruang Kosong
Item jenis ini memerlukan anda memberi rsepon pendek dan kekadang
memberi peluang anda menyampaikan idea bebas anda berpandukan
kandungan pelajaran atau pun mengikut format yang telah diberikan.
Kebiasaannya format item ini amat berguna untuk menguji pengetahuan,
komprehensi dan aplikasi mudah. Format agak lebih objektif dari format
item esei, namun penskorannya agak subjektif. Tahap membuat tekaan
adalah kurang berbanding ujian aneka pilihan kerana peluang meneka
dengan tepat adalah lemah. Oleh kerana jawapan bagi soalan ini adalah
pelbagaian, maka pemeriksa haruslah memiliki kunci jawapan dan
pengetahuan dan kefahaman keatas perkara subjek. Dalam setiap hal,
pembina item sahaja yang mengetahui idea dengan jelas dan juga
jawapan yang dituntut, maka, adalah perlu untuk mengadakan model
jawapan alternatif dan juga kriteria pengredan berkaitan item ujian.
Item ini menghendaki jawapan dalam mengemukakan masaalah dan
beberapa penyelesaian masalah atau stimulus dan tindak balas. Setiap
penyelesaian masalaah atau tindak balas boleh digunakan sekali, lebih
dari sekali atau tidak digunakan langsung. Item ini menghendaki
murid/pelajar memadankan masalah dengan penyelesaiannya atau
stimulus dan tindak balas yang betul.
Contoh 4. Apakah tiga warna utama yang telah anda pelajari dalam kelas
sains ?
Tiga warna utama yang telah dipelajari dalam kelas sains ialah
_______________ ,
______________ dan ______________ . ( 3 markah)
4.2 Pembinaan Item Ujian Subjektif
Item subjektif ialah item yang membenarkan subjektiviti dalam respons yang
diberikan. Item ini digunakan supaya pelajar boleh mempamerkan kedalaman
pengetahuan dan kemahiran yang dimiliki. Pelajar boleh memberi respons dengan
mengemukakan pelbagai jawapan yang bersikaft polikotomus. Oleh itu item ini
mampu disesuaikan untuk menguji tahap kognitif yang lebih tinggi seperti
mentaksir kemahiran menganalisis, mensintesis atau membuat pertimbangan
tentang sesuatu perkara yang mana memerlukan pelajar mengaplikasikan
kemahiran berfikir. Item subjektif juga memberi kebebasan yang agak luas
kepada pelajar bukan sahaja dari segi mempersembahkan respons, tetapi juga
panjang atau pendek respons itu.
Pada pendapat anda item ujian yang manakah lebih sesuai ,
ujian objektif kah atau ujian subjektif ?
Cuba anda bina beberapa item ujian objektif atau pun item ujian
subjektif.
4.2.1 Kata Tugas Item Ujian
Kata tugas adalah suatu kata kerja yang terdapat pada sesuatu item yang
berfungsi untuk menyatakan tugasan yang hendak disampaikan oleh
penuli item tersebut. Kata tugas ini akan mengarahkan pelajar untuk
memberikan respons yang sejajar dengan tugasan item atau soalan. Oleh
itu pemilihan dan penggunaan kata tugas yang sesuai pada suatu item
adalah sangat penting. Kegagalan menggunakan kata tugas yang tepat
dengan hasrat penulis item akan menyebabkan pelajar gagal memberikan
respons seperti dihasratkan dalam peraturan pemarkahan.
Kata tugas mempunyai kaitan yang sangat rapat dengan objektif penilaian
yang menggunakan item berkenaan, dimana kata tugas boleh
membayangkan kerencaman tugasan sesuatu item. Walau bagaimana
pun suatu kata tugas itu tidaklah unik bagi sesuatu objektif penilaian
sahaja, kerana terdapat kata tugas yang sama apabila dikaitkan dengan
tugasan item yang berlainan akan menagih corak dan jenis respons yang
berlainan.
Terdapat kata tugas yang dapat berdiri dengan sendiri untuk menyatakan
tugasan item. Walau bagaimanapun terdapat kata tugas yang
memerlukan sokongan item daripada beberap perkataan lain untuk
menjadikan penyampaian tugasan sesuatu item itu lebih jelas.
4.2.2 Item Esei Jawapan Terbatas
Item jawapan terbatas berkecenderungan menghadkan bentuk dan
respons pelajar. Bentuk respons biasanya dihadkan melalui skop yang
disoal dan markah yang diperuntukkan. Manakala panjangnya respons
adalah dari segi ruangan jawapan yang disediakan. Biasanya item ini
memerlukan pelajar memberikan respons dalam satu prasa atau
beberapa ayat atau satu perenggan.
Item jenis ini tidak terhad kepada menguji pengetahuan sahaja. Dengan
menghadkan bentuk dan panjangnya respons pelajar, pemarkahan lebih
terselaras dan dapat meninggikan kebolehpercayaan skor ujian. Respons
yang diharapkan lazimnya dibina atau dipandu berdasarkan stimulus dan
tugasan item. Dalam menyediakan item respons terhad, butiran yang
disoal boleh melampaui tahap pengetahuan seperti mentaksir kemahiran
aplikasi atau menyelesaikan masalah.
Item jawapan terbuka berupaya memfokuskan tugasan item kepada
sesuatu tujuan yang khusus namun item jawapan terbuka tidak sesuai
digunakan untuk menguji kemahiran intelek yang lebih tinggi. Item
jawapan terbuka tidak mampu mengumpulkan evidens yang mencukupi
tentang kemahiran berfikir plelajar dan berkemungkinan banyak memberi
respons secara terbuka.
4.2.3 Item Esei Jawapan Terbuka
Item jawapan terbuk bersifat polikotomus dan mengundang pelbagai
kemungkinan jawapan daripada pelajar secara bertulis. Item ini
memberikan kebebasan kepada pelajar untuk merancang dan
membentuk jawapan. Pelajar bebas mengemukakan idea, pendapat dan
tanggapan mereka, mengorganisasikan idea, membina hujah yang logis,
membentangkan penilaian sesebuah pemikiran atau mengaitkan
pemikiran dan perasaan. Oleh itu jenis item ini sesuai untuk mengukur
konstruk yang memerlukan pelajar menggunakan beberapa kombinasi
kemahiran seperti menginterpretasi, menyelesaikan masalah dan
membuat keputusan. Meskipun begitu , darjah kebebasan ini tertakluk
kepada keperluan tugasan, stimulus dan prompt yang diberi. Item jenis ini
membolehkan pelajar mempamerkan proses pemikiran kritis dan kreatif
mereka kepada pentaksir.
Dalam item respons terbuka, pelajar diperlukan mengutip dan memilih isi-
isi dan idea-idea daripada pengetahuan sendiri, menyusun idea-idea dan
isi-isi itu dan seterusny menulisnya dengan cara yang logik dan dapat
difahami. Peraturan pemarkahan yang disediakan perlulah jelas, terperinci
dan komprehensif.
Kekuatan item jawapan terbuka adalah ia boleh :-
a) Menerokai pelbagai pilihan, cara ata pendekatan bagi menyelesaikan
masaalah
b) Membuat pertimbangan dan penilaian tentang sesuatu idea atau
maklumat.
c) Menghasilkan sesuatu idea yang asli.
d) Menyatu dan mengabungkan pelbagai pengetahuan, idea dan
maklumat daripada pelbagai sumber pembelajaran.
e) Mengenalpasti, memilih, menyusun dan mempersembahkan sesuatu
perkara atau idea dalam bentuk suatu komunikasi.
Namun item jawapan terbuka juga mempunyai kekangan dalam :-
a) Memerlukan pemeriksa yang terlatih untuk membuat penskoran
b) Memerlukan masa yang agak panjang untuk penskoran dan
perbandingan dengan item objektif
c) Penskoran respons pelajar dilakukan secara subjektif dan boleh
memberikan kesan ‘halo’ ( potensi dalam ketidaktepatan pemerhatian
kesan dari terlalu membuat kesimpulan lebihan keatas sesuatu bukti
atau keutamaan atau pengaruh )
d) Memerlukan pelajar menulis dengan bentuk tulisan yang jelas dan
boleh dibaca. Bentuk tulisan yang kuang jelas dan sukar dibaca akan
menjejaskan pemeriksa untuk memahami idea atau maklumat yang
disampaikan dan boleh menjejaskan skor pelajar.
1. Senaraikan jenis item ujian yang anda tahu dan
nyatakan kelebihan dan kekurangan yang anda boleh
fikirkan.
2. Bincangkan jata-jata tugas yang sesuai dalam membina item ujian
Rumusan
Dalam bab ini, kita telah membincangkan mengenai jenis-jenis item ujian.
Membina item atau soalan ialah satu keadah mengukur dan menilai pencapaian
pelajar. Program ini memerlukan guru yang terlatih, penglibatan pelbagai
kepakaran, kurikulum dan kaedah pengajaran khas. Membina item ujian bukan
sahaja mengambil masa yang lama tetapi memerlukan penelitian. Item ujian
boleh membantu mengukur pencapaian kognitif pelajar atau murid jika ianya
dibina dengan betul.
Glosari
Item Aneka-Pilihan . Item aneka-pilihan boleh digunakan untuk
mengukur pengetahuan dan konsep yang kompleks. Oleh kerana
item aneka-pilihan boleh dijawab dengan cepat anda boleh menilai
kemahiran murid dalam pelbagai bidang dalam ujian sejam.Item ini
mudah diberi markah. Item aneka-pilihan yang baik sukar dibina
dan ditadbirkan.
Item Betul-Salah. Oleh kerana peluang untuk membuat tekaan
adalah tinggi, item ini dianggap rendah kebolehpercayaannya.
Sesuai digunakan pada ketika tertentu sahaja.
Item Esei. Item esei membolehkan anda mengukur kebolehan
pelajar dalam menyusun, menerangkan dan menyatakan pendapat
dalam bahasa yang sendiri. Kajian menunjukkan pelajar akan
belajar dengan lebih tekun jika menghadapi ujian esei dari
menghadapi ujian anaeka-pilihan; pelajar akan bersedia untuk
menumpukan hal dan isu yang lebih luas. Ujian esei juga
membolehkan anda memberi komen mengenai pencapaian pelajar,
tahap pemikiran dan tahap kefahaman yang tinggi dan juga boleh
mengesan kekurangan pelajar. Namun ujian esei hanya mampu
mempamirkan bilangan soalan yang rendah dan kandungan
kesahan adalah rendah. Kebolehpercayaan ujian iuga agak
subjektif dan pengredan adalah tidak konsisten.
Item Objektif. Item objektif termasuklah betul-salah, mengisi tempat
kosong, padanan dan aneka-pilihan. Perkataan objektif menunjukkan
bahawa hanya satu jawapan sahaja yang diperlukan. Bergantung kepada
kemahiran membaca dengan pantas dan menerangkan jawapan.
Item Padanan. Format memadan adalah efektif untuk menguji
perhubungan diantara perkataan dan defines, kejadian dan tarikh,
kategori dan contoh.
Item Jawapan Pendek . Bergantung kepada objektif anda, ujian jawapan
pendek boleh dijawab dalam bentuk satu ayat atau lebih. Mudah ditulis
namun agak sukar untuk di skor. Membolehkan anda melihat kebolehan
pelajar anda menyatakan pendapat mereka.
Jadual Penentuan Ujian. Jadual penentuan ujianmengandungi carta
dua-hala atau grid yang mengaitkan objektif arahan dengan kandungan
arahan. Lajur senarai carta menyenaraikan objektif ( tahap kemahiran)
dan barisnya menyenaraikan kunci konsep pengukuran ujian tersebut.
Rujukan :
1. Hale, Gordon et al (December 1980), "Effects of Item Disclosure on TOEFL
Performance," Research Report No. 8, Educational Testing Service,
Princeton, NJ.
2. ED322060. (1988) Social Studies Grade 8. Blue Prints for Testing Minimum
Performance Test Item Specifications.
3.< Hecht, James T. (1974) The Development and Structure of Professional
Examinations Planned for National Use.
4. Childs, R.A. (1989) ED315426 .ERIC Clearinghouse on Tests Measurement
and Evaluation
Washington DC., American Institutes for Research Washington DC.
5. Notar, Charles et al (2004). The table of specifications: insuring
accountability in teacher
made tests. Journal of Instructional Psychology.
BAB 5 KESESUAIAN ITEM UJIAN
Pengenalan
Selepas sesuatu pembinaan dijalankan , satu pencerapan haruslah
dijalankan bagi memastikan samada item atau soalan tersebut sesuai
untuk digunakan. Biasanya prosedur yang dijalankan termasuklah
menganalisa setiap item tersebut. Ini adalah untuk membolehkan kita
mengasing atau menggunakan item-item tersebut untuk tujuan ujian
seterusnya. Seperkara lagi ialah untuk memastikan samada pengguna
tahu atau tidak tahu akan ujian yang akan diambil. Dalam memastikan
bahawa item tersebut boleh digunapakai adalah membuat pengukuran
perbezaan bagi setiap item yang dijalankan. Sebagai contoh, jika ujian
yang dibina adalah bertujuan mengukur pencapaian sekolah maka ujian
yang hendak dijalankan hendaklah akur akan pencapaian yang
ditetapkan.
Kesahan item bagi tujuan meramal pengukuran criteria boleh di tentukan
dengan membuat pengiraan korelasi diantara skoran tehadap item
dengan skoran pengukuran tersedia. Pengukuran korelasi koefisien yang
sering digunakan adalah koefisien titik-biserial ( point-biserial coffecient).
Namun bagi tujuan pengukuran bilik darjah, kebiasaannya posedur yang
disering digunakan adalah melibatkan penentuan peratus pengambil ujian
yang lulus setiap item denga korelasi setiap criteria item. Dalam hal ini,
criteria yang dimaksudkan adalah skor keseluruhan ujian tersebut. Item
yang berkualiti harus mempunyai ciri-ciri keakuran dari aspek kurikulum,
spesisfikasi dan peluang. Item juga hendaklah tepat dalam konstruknya,
tepat akan tajuk atau konteksnya dan hendaklah jelas dari segi stimulus,
tugasan dan arahan. Oleh itu item atau soalan yang dibina juga hendaklah
sesuai dengan kehendak serta ketetapan.
Objektif
Diakhir bab ini, anda seharusnya dapat :
i) menilai ujian berdasarkan tahap kebolehpercayaan dan kesahanujian
ii) membina item ujian agar lebih dipercayai dan sah
5.1.1 Indeks Kesukaran
Yang pertama adalah indeks kesukaran (item-difficulty index) (p). Indeks
ini ditentukan dengan nisbah calon yang mendapat jawapan betul bagi
sesuatu item dan dinyatakan dalam persamaan berikut
Bilangan calon yang menyatakan jawapan yang betul bagi
item x
P = Bilangan calon yang menjawab item x
Nilai bagi p ialah diantara 0.00 hingga 1.00. item yang mudah mempunyai
p yang besar dan sebaliknya sesuatu item yang sukar nilai p adalah kecil.
Walau bagaimanapun, dikatakan bahawa item yang terlalu mudah
( apabila nilai p adalah lebih dari 0.85 ) atau item itu terlalu sukar ( apabila
p kurang daripada 0.15 )tidak akan memberikan maklumat psikometrik
yang berguna.
Aras kesukaran item boleh ditentukan dengan nilai p, seperti berikut ;
Nilai p Aras kesukaran
0.61 hingga
0.80
Item mudah
0.36 hingga
0.60
Item sederhana
0.20 hingga
0.35
Item sukar
Indeks kesukaran juga boleh ditakrifkan sebagai peratusan pelajar yang
menjawab ujian dengan betul. Lagi besar peratusan jawapan betul yang
diperolehi lagi mudahlah sesuatu item. Lagi tinggi peratusan item kesukaran
lagi mudahlah item tersebut (Wood, 1960). Item yang dijawab betul oleh
85% pelajar akan mempunyai nilai p 0.85, manakala item yang dijawab
betul oleh 50% pelajar akan mempunyai nilai indeks kesukaran p yang
rendah iaitu 0.50.
Nilai p hanyalah satu ukuran sikap. Definisi lain bagi terma kesukaran
dalam ciri intrinsik, kesukaran boleh didefinisikan dalam bentuk kekerapan
relatif pengambil ujian memilih respon jawapan yang betul (Thorndike et al,
1991). Sebagai contoh, item manakah dikatakan sukar ?
1. Siapakah Tunku Abdul Rahman Putra Al-Haj ?
2. Siapakah Tun Dr.Mahathir ?
Kita tidak boleh menyatakan item mana yang sukar selepas membaca
soalan ini. Seseorang akan hanya mengenali nama bagi kedua-dua tokoh
tersebut. Namun untuk menyatakan soalan mana yang ditanya itu sukar
hanya boleh ditentukan dengan membuat ujian kesukaran item.
Contoh yang lain, item ujian Bahasa Inggeris yang sukar bagi pelajar
sekolah rendah akan ternyata lebih mudah bagi pelajar sekolah
menengah kebangsaan. Nilai p akan membolehkan kita membuat
pengukuran indek kesukaran di situasi atau ditempat berbeza. Adalah
sukar, bagi kita menentukan samada menjawab soalan sejarah
melibatkan pengetahuan yang lebih mantap, kompleks atau khusus dari
yang diperlukan untuk menjawab soalan matematik. Apabila nilai p
digunakan untuk menentukan indek kesukaran, adalah lebih mudah bagi
menentukan samada item ujian sejarah adalah lebih sukar dari item
matematik khusus bagi ujian yang diambil oleh pelajar yang sama.
Untuk lebih memahami keadaan ini, kita lihat beberapa lagi contoh
berikut. Apabila kita memilih jawapan yang tidak ditetapkan ( p=0 ), dan
tidak ada perbezaan individu didalam skoran bagi item tersebut. Apabila
semua item didapati sukar, majoriti ujian skoran adalah rendah. Dan jika
semua item adalah mudah, kebanyakan ujian skoran adalah agak tinggi.
Oleh itu, nilai p akan terus menghalang kepelbagaian ujian skoran.
Bagi item objektif yang skornya berbentuk dikotomus, aras kesukaran item
ditakrifkan sebagai peratus atau kadar bilangan murid yang memberi
respons dengan betul, kadaran tersebut dipanggil indeks kesukaran item.
Contoh:
Berikan definisi indeks kesukaran.
Item A yang direspons betul oleh 80 daripada 100 orang murid, indeks
kesukarannya ialah 80% atau 0.8. Item B yang direspons betul oleh 30
daripada 100 orang murid, indeks kesukarannya ialah 30% atau 0.3.
Pengiraan di atas menunjukkan :
Item A lebih mudah daripada item B. Aras kesukaran item lebih tinggi
daripada item A.
Bagi item subjektif yang skornya boleh bernilai 0, 1, 2, 3, …atau tidak
dikotomus, indeks kesukarannya ditentukan dengan mencari peratus skor
min (skor purata) atau kadar skor min.
Indeks kesukaran item (K) = Skor Purata
Skor Maksimum
Indeks kesukaran bagi item ujian menerangkan bilangan pelajar yang
menjawab dengan betul sesuatu soalan yang diberikan. Sebagai contoh,
dalam sesuatu ujian didapati , indek kesukaran item adalah 65, ini
menunjukkan bahawa 65 peratus pelajar yang mengambil ujian tersebut
menjawab dengan dengan betul. Lagi tinggi indeks kesukaran, , lebih
mudah item ujian tersebut. Satu ujian yang merangkumi bahan subjek
berkaitan hendaklah mengandungi item yang merangkumi pelbagai nilai
julat kesukaran, namun, jika terdapat peluang atau petunjuk bahawasanya
akan ada indeks atau tahap dibawah 25 , maka seharusnya item tersebut
tidak dimasukkan. Begitu juga jika sesuatu item ujian dijangka akan
menjadi terlalu mudah maka ianya juga harus tidak disertakan.
Lagi tinggi peratusan item kesukaran lagi mudahlah item
tersebut.Bincangkan.
Ujian kebolehpercayaan dan kesahan akan dimaksimakan jika
kebanyakkan kesukaran item adalah agak mudah yakni diantara tahap
peluang dan 100. Dalam keadaan biasa, sesuatu ujian hendaklah yang
mengandungi tahap kesukaran diantara julat 60 hingga 85 dan selebihnya
pada sekitaran 25 dan 100. Ujian yang mengandungi 2 alternatif (betul-
salah) seharusnya mengandungi tahap kesukararan diantara 50 hingga
100.
Koefisien korelasi titik-biserial mengukur hubungan diantara skor item
dengan skor ujian. Nilai julat statistik ini adalah diantara -100 dan + 100.
Nilai positif tinggi menunjukkan sesesorang yang menjawab item dengan
betul akan menerima skoran yang tinggi dalam ujian berbanding dengan
menjawab dengan tidak betul. Nilai hampir sifar akan menunjukkan
terdapat hubungan yang sedikit diantara skoran pada item dan skoran
ujian. Adalah harus untuk mengekal item ujian yang mempunyai koefisien
korelasi titik biserial yang tinggi dan membuangkan item ujian yang hampir
bernilai sifar atau bernilai negatif. Sebagai panduan, adalah dicadangkan
item korelasi yang bernilai negatif atau hampir sifar ( 10 atau kurang)
dibuang atau dikajisemula dan item ujian yang bernilai kolerasi positif
rendah dikaji semula bagi menentukan bagaimana untuk memperbaiki
keadaan item tersebut.
Rumusan konsisten dalam Kuder-Richardson 20 digunakan dalam
pengiraan komputer bagi menentukan anggaran kebolehpercayaan item
ujian. Korelasi kebolehpercayaan jenis ini akan menentukan dan
memberikan tahap indikasi individu yang mengambil ujian akan
memperolehi skoran yang sama dalam ujian. Nilai anggaram julat Kuder-
Richardson ini adalah diantara 0.000 dan 1.000. Nilai yang hampir dengan
+1.000 menunjukkan ujian tersebut mempunyai tahap kebolehpercayaan
yang tinggi. Anggaran hendaklah dibuat secara berhati-hati jika bilangan
pelajar yang mengambil ujian tidak menyempurnakan ujian dalam masa
yang ditetapkan. Untuk ujian biasa selama 50 minit, koefisi
kebolehpercayaan pada tahap 0.75 adalah sesuai. Kebolehpercayaan
boleh ditingkatkan melalui ujian ulangan berdasarkan analisis data yang
dijalankan. Memanjangkan masa ujian (apabila terdapat ujian amali) boleh
meningkatkan tahap kebolehpercayaan, terutama bagi ujian pendek.
Pengukuran ralat rawak adalah anggaran bagi ralat kemungkinan skoran
ujian. Ia diinterpretasikan sebagai mana dijalankan keatas sisihan piawai.
Pengukuran ralat rawak pada tahap 3.500 sebagai contoh, menunjukkan
bagi mana-mana satu skoran ujian, kemungkinannya adalah 2 : 1, yang
mana skoran sebenar pelajar ( purata skoran bagi setiap ujian ) tidak akan
terpencong dari lebih 3.500. Lagi tinggi kebolehpercayaan dan lagi bebas
kesalahan ujian tersebut, lagi kecil lah nilai ralat tawak. Aplikasi terusan ini
kepada skoran menjadikan pengukuran ralat rawak amat penting bagi
menilai perbezaan diantara pelajar dan menentukan markah dan gred.
Indek kesukaran boleh digunakan untuk:
Mengenalpasti konsep yang akan diajar semula
Menyediakan atau memaklumkan kemungkinan kelemahan dan kekuatan
kurikulum
Memberi maklumbalas kepada pelajar
Memberi atau memaklumkan mengenai kemungkinan item bias
5.1.2 Indeks Diskriminasi ( rbis )
Jika sesuatu ujian dan sesuatu item mengukur perkara yang sama,
seseorang akan menganggap mereka yang boleh menjawab dalam ujian
tersebut akan menjawab dengan baik atau betul bagi item tersebut dan
jika mereka yang gagal menjawab ujian tersebut akan turut gagal alam
menjawab item tersebut. Item yang baik akan mendiskriminasikan
diantara mereka yang baik dengan mereka yang kurang baik.
Indek diskriminasi ialah pekali korelasi yang mengaitkan skor ujian ( data
selanjar ) dengan skor setiap opsyen ( data dikotomous , 1 jika memilih
dan 0 jika tidak memilih opsyen bagi sesuatu item berkenaan. rbis
digunakan untuk menentukan darjah keupayaan sesuatu item bagi
membezakan antara calon daripada kumpulan yang mempunyai market
keseluruhan ujian yang tinggi dengan yang rendah.
Pekali korelasi “point-biserial”, ditentukan dengan menggunakan
persamaan berikut :
dimana :
x ialah min skor ujian calon yang menjawab betul
µ ialah min skor ujian
σ ialah sisihan piawai ujian
p ialah nisbah calon yang menjawab betul (indeks kesukaran)
q = ( 1 – p )
Nilai indeks diskriminasi adalah antara – 1.00 hingga 1.00. rpbis yang
bernilai positif menunjukkan calon yang mendapat skor ujian yang tinggi
menyatakan jawapan yang betul, manakala calon yang mendapat skor
ujian yang rendah memilih opsyen yang salah (distraktor). Jika sebaliknya
berlaku, dimana calon yang mendapat skor ujian yang tinggi memilih
opsyen yang salah (distraktor), manakala calon yang mendapat skor ujian
yang rendah menyatakan jawapan yang betul, rpbis akan bernilai negative.
Bagi item yang menunjukkan nilai rpbis adalah 0, bermakna item ini tidak
dapat mendiskriminasikan antara pelajar dari kumpulan yang mendapat
skor tinggi dengan kumpulan calon yang mendapat skor ujian yang
rendah.
Pengelasan kebolehan item mendiskriminasi berdasarkan rpbis
rpbis Pengelasan
0.40 dan keatas Sangat baik
0.30 hingga 0.399 Baik
0.20 hingga 0.299 Sederhana
0.10 hingga 0.199 Kurang baik
Kurang daripada
0.10
Tidak baik
Apakah yang dimaksudkan dengan indeks diskriminasi.
Bincangkan
5.1.3 Pemarkahan Item dan Tahap Masa Ujian
Menjawab persoalan sama ada sesuatu ujian boleh menjamin ketekalan
dalam pemeriksaan dan pemarkahannya. Sama ada ujian itu akan
diperiksa dan diberi markah oleh beberapa orang guru sebagai pemeriksa
yang berasingan atau oleh seorang guru. Sesuatu ujian dikatakan
mempunyai kebolehpercayaan (ketekalan) antara beberapa orang
pemarkah sekiranya keputusan pemarkahan mereka sama atau hampir
sama.
Faktor penting ialah skim pemarkahan bagi ujian tersebut. Skim ini
bertujuan untuk menyelaraskan prosedur pemarkahan atara pemeriksa
dan menjaga ketekalan dalam pengagihan markah. Ini amat penting bagi
ujian jenis subjektif, seperti ujian mengarang, ujian lisan yang dinilai oleh
pemeriksa secara bersendirian. Tujuan skim ini untuk mengurangkan ciri
subjektiviti kepada peringkat yang paling minimum dan meningkatkan ciri
objektiviti kepada peringkat yang paling maksimum dan mengawal
ketekalan pemarkahan dan pengukuran melalui satu skim pemarkahan
yang standard atau serupa.
Bagi ujian bahasa yang bercorak objektif seperti ujian kefahaman bacaan
atau aspek bahasa yang lain menggunakan soalan dalam bentuk aneka
pilihan, persoalan subjektiviti dalam pemarkahan mungkin tidak timbul.
Bagaimanapun, ketekalan pemarkahan antara pemeriksa yang biasanya
terkawal ketat dalam ujian yang menggunakan soalan-soalan aneka
pilihan. Ketekalan jenis ini tidak mencukupi untuk menjamin
kebolehpercayaan sesuatu ujian secara keseluruhannya. Sesuatu ujian
yang berbentu aneka pilihan biasanya terdiri daripada beberapa item.
Setiap item perlu dinilai dari aspek kebolehpercayaan atau ketekalannya
menjalankan sesuatu tugas. Kita perlu melihat kebolehpercayaan item
tersebut.
Perkiraan sama ada hendak menjalankan sesuatu ujian pada hujung
bulan, pertengahan bulan, hujung penggal, pertengahan tahun atau pada
hujung tahun akan membawa implikasi terhadap penentuan skop dan
kandungan ujian tersebut. Dengan kata lain, ini akan menentukan jenis
ujian yang akan dibina oleh guru, sama ada ujian formatif atau sumatif.
Dalam pendidikan bahasa, ujian formatif mempunyai skop dan kandungan
yang terhad. Ujian ini mungkin tentang satu atau dua kemahiran bahasa
ataupun tertumpu kepada satu atau dua aspek bahasa seperti tatabahasa
atau perbendaharaan kata. Bagi kemahiran bahasa pula, kadang kala
ujian ini tertumpu pada kefahaman mendengar sahaja ataupun bacaan
dan kefahaman sahaja. Dalam kemahiran menulis pula, ujian yang
bercorak formatif mungkin hanya menguji kemahiran murid menulis surat
kiriman, misalnya jenis rasmi seperti memohon pekerjaan atau menulis
karangan mengikut tajuk yang bercorak perbincangan sahaja. Jenis ujian
kecil ini bertujuan untuk melihat kemajuan murid dalam mempelajari
sesuatu kemahiran atau aspek bahasa yang tertentu sebelum guru
melanjutkan pengajarannya dengan perkara baru.
Dalam pendidikan bahasa, ujian bulanan atau ujian pertengahan penggal
eloklah bercorak formatif dan diagnostik yang bertujuan untuk menguji
kemajuan murid dalam mempelajari satu atau dua kemahiran atau aspek
bahasa dari semasa ke semasa. Contohnya, ujian bacaan dan kefahaman
juga ada pelbagai jenis. Sekiranya guru telah menguji bacaan dan
kefahaman keratan pelbagai jenis prosa dalam bulan Januari, mungkin
dalam bulan lain guru tersebut boleh menguji bacaan dan kefahaman
puisi.
Sekiranya ujian yang hendak dijalankan itu pada tahap pengajaran yang
lebih panjang seperti di hujung penggal, pertengahan tahun atau di hujung
tahun, skop dan isi kemahiran atau aspek bahasa yang akan diuji menjadi
lebih luas. Ini mungkin memerlukan guru membina ujian yang lebih
menyeluruh dan bercorak sumatif bagi tahap tersebut.
Ujian yang bercorak sumatif memerlukan guru memilih satu sampel
subkemahiran yang hendak diuji. Hal ini perlu sekiranya subkemahiran
yang telah diajar itu banyak dan luas, contohnya aspek tatabahasa dan
peribahasa. Mungkin dalam tempoh sepanjang penggal atau sepanjang
tahun guru telah mengajar pelbagai jenis tatabahasa dan peribahasa.
Tetapi dalam ujian penggal atau hujung tahun itu, guru boleh membina
hanya beberapa soalan atau ujian tentang tatabahasa atau peribahasa.
Pada pendapat anda, adakah tempoh mengadakan ujian memberikan
kesan ketas ujianyang dijalankan. Bincangkan.
5.2 Kebolehpercayaan Ujian
Kebolehpercayaan boleh merujuk kepada ciri skor berhubung dengan
ketepatan dan ketekalan skoran bagi mengambarkan prsetasi calon
dalam perkara yang diuji. Kebolehpercayaan skor berkait rapat dengan
instrumen pentaksiran yang digunakan. Kita harus bertanya samada ujian
yang diberi dapat memberi ukuran yang konsisten kepada seseorang
pelajar jika pelajar tersebut mengambilnya berulangkali. Skoran yang tidak
konsisten yang disebabkan pembolehubah seperti kandungan yang tidak
berkaitan, ujian yang tidak sesuai, kohort dan sebagainya.
Kebolehpercayaan atau reliabiliti yang berkaitan dengan konsep ujian
hendaklah boleh diharapkan, adalah stabil, tidak berubah dan tetap sama,
boleh di agak atau dijangka dan tepat. Begitu juga jika kita mempercayai
seseorang insan atau kawan yang sudah semestinya mempunyai sifat-
sifat yang dinyatakan. Begitu juga dengan sesuatu ujian yang dijalankan
dan dihasilkan, ianya mestilah boleh dipercayai dan bermakna.
Kebolehpercayaan ujian boleh disebut sebagai darjah ketekalan antara
dua pengukuran terhadap sesuatu bahan atau benda.
Dalam bilik darjah atau makmal, seorang guru biasanya mengharapkan
untuk memperoleh pengukuran yang sama keatas sesuatu benda yang
yang diukur, atau, mendapatkan pertimbangan yang sama apabila
mengunakan penimbang yang berbeza dalam masa yang berbeza. Dalam
mengukur pencapaian pelajar pula, guru mengharapkan keputusan ujian
dakan tekal bagi gua ujian yang sama bentuk yang dijalankan kepada
kumpulan yang sama pada dua masa yang berbeza.
Konsep asas teori pengujian menyatakan bahawa skoran yang dicerap
atau diperhatikan (observed score) iaitu skor yang didapati oleh
seseorang pelajar didalam sesuatu ujian mempunyai dua komponen :
i) skor sebenar ( true score iaitu ukuran sebenar kebolehan pelajar )
dan
ii) skor ralat ( error score iaitu ukuran yang disebabkan oleh alat dan
kaedah pengukuran )
Oleh itu kita boleh membuat anggapan bahawa tiada skor yang menjadi
ukuran sebenar bagi kebolehan seseorang.
Dalam ujian bahasa kita boleh katakan bahawa kebolehpercayaan
sesuatu ujian sebagai ketekalan, iaitu mengukur sesuatu kemahiran atau
aspek bahasa yang hendak diukur. Perkara yang hendak dinilai ialah
ketekalan pengukurannya sebagai alat penguji. Contohnya, kita setuju
bahawa jam adalah alat yang sah untuk mengukur masa. Alat ini
mempunyai syarat terpenting sebagai alat penguji, iaitu kesahan.
Selain itu kita persoalkan syarat kedua, iaitu ketekalan
(kebolehpercayaan) pengukurannya. Jam yang baik akan menunjukkan
waktu pukul lapan setiap hari apabila berita TV3 dibacakan. Sekiranya
jam itu menunjukkan pukul 8.15 atau pukul 8.20 walaupun waktu yang
sepatutnya pukul 8.00 tepat, kita katakan pengukurannya tidak tepat dan
tidak boleh dipercayai. Dengan kata lain, ukuran waktu yang ditunjukkan
tidak tekal. Sebuah jam sebagai alat pengukur masa yang sah perlu boleh
dipercayai dari segi ketekalan waktu yang ditunjukkannya.
Dalam memilih dan membina ujian bahasa di bilik darjah amatlah penting
bagi guru bahasa memikirkan tentang kebolehpercayaan sesuatu ujian
yang hendak digunakan. Kebolehpercayaan ujian tersebut ialah mengenai
ketekalannya mengukur sesuatu kemahiran atau aspek bahasa yang
diukurnya. Misalnya, sekiranya ujian digunakan pada pelajar yang sama,
bolehkah menunjukkan keputusan yang sama walaupun ujian itu
digunakan dua kali pada waktu yang berlainan.
Guru bahasa boleh membina ujiannya sendiri atau memilih dan
menggunakan ujian yang sedia ada, mengetahui faktor yang boleh
mempengaruhi kebolehpercayaan sesuatu ujian dan menggunakan
pengetahuan ini bagi membina atau memilih ujian. Menurut teori ujian dan
pengukuran, terdapat tiga jenis kebolehpercayaan. Setiap satunya
merujuk kepada ketekalan pengukuran yang boleh dihasilkan sesuatu
ujian.
Kebolehpercayaan item bermaksud ketekalan sesuatu item ujian itu
membezakan murid yang lemah dalam sesuatu kemahiran atau aspek
bahasa. Contohnya, ujian ejaan yang mengandungi 25 atau 50 item
ejaan, guru perlu jangkakan bahawa terdapat ejaan yang hanya boleh
dieja dengan betul oleh murid yang pandai dan kerap dieja salah oleh
murid yang lemah dalam ejaannya. Sekiranya ini berlaku, kita katakan
item ejaan yang susah mempunyai kebolehpercayaan item yang tinggi
kerana ketekalannya (kebolehpercayaan) membezakan antara murid yang
pandai dan murid yang lemah dalam ujian. Sebaliknya berlaku, iaitu ejaan
yang susah kebanyakannya boleh dieja dengan betul oleh murid yang
lemah dan tidak boleh dieja oleh murid yang pandai, kita katakan item
tersebut tidak boleh dipercayai.
Kebolehpercayaan item kadang kala disebut sebagai ketekalan dalam
sesuatu ujian kerana setiap item dalam ujian berfungsi dalam
kebolehpercayaan atau ketekalannya membezakan murid yang pandai
dengan murid yang lemah tentang kemahiran atau aspek bahasa yang
diukur ujian tersebut
Sehubungan itu, guru janganlah menggunakan item yang terlampau
senang. Ini kerana murid yang pandai dan lemah pun boleh
menjawabnya. Oleh yang demikian item-item tersebut tidak dapat
berfungsi dalam membezakan antara kedua-dua golongan pelajar
tersebut. Guru janganlah menggunakan item soalan yang terlampau
susah. Hal ini kerana murid yang lemah dan pandai tidak dapat
menjawabnya. Oleh yang demikian item tersebut tidak dapat
membezakan antara murid yang lemah dengan murid pandai. Sepatutnya
item yang digunakan oleh guru adalah item soalan yang bercorak susah,
sederhana dan senang dan bukan yang terlampau susah atau terlampau
senang. Selain itu, item yang kabur atau yang mempunyai dua pilihan
jawapan yang boleh dianggap betul hendaklah digugurkan daripada ujian
tersebut.
Pekali kebolehpercayaan selalunya diwakili oleh nombor yang bernilai
diantara 0 hingga 1 yang menunjukkan kestabilan sesuatu ujian. Ada tiga
kaedah yang dikemukakan untuk menghitung kebolehpercayaan sesuatu
ujian iaitu Kaedah Test-Retest, Kaedah Bentuk Selari dan Kaedah Belah
Dua.
Bincangkan mengenai kebolehpercayaan ujian
Kaedah Test-Retest
Dengan mengunakan kaedah test-retest , Pembina ujianakan memberi
ujian yang sama kepada calon di situasi yang berbeza.
Skoran yang diperolehi pada tadbiran ujian pertama dibandingkan pada
skoran tadbiran ujian ke dua dengan menggunakan korelasi ( r )
Kaedah ini menguji pencapaian keatas waktu dan memberi kestabilan
anggaran
Kebanyakkan penyelidik menganggap kaedah ini amat sesuai untuk
membuat pengukuran sementara, yang merujuk kepada konsistensi
skoran ujian berbanding dengan kebolehpercayaan sebenar yang
didefiniskan sebagai nisbah diantara varians sebenar dengan varians
pemerhaatin
Pentadbiran ujian diantara kedua-dua ujian boleh dijalankan dalam masa
yang terdekat maupun masa yang berlainan
Apakah yang anda dapat agak jika masa pentadbiran ujian dijalankan
agak lama ? tentulah tahap kebolehpercayaan adalah meingkat, kenapa ?
Anggapan yang boleh dibuat adalah, calon-calon yang sama mengambil
ujian semula tidak akan berubah dari segi sikap dan tahap kebolehan
mereka walaupun pada dan waktu yang berbeza. Bolehkah anda fikirkan
sebarang factor yang boleh menukarkan respons seseorang dengan
cepat.
Salah satu kembimbangan yang dijangkakan adalah dikatakan sebagai
latihan atau kesan tanggungan . Latihan atau latih-tubi adalah kelebihan
kepada calon yang telah mengambil ujian tersebut, ini akan membolehkan
mereka menyelesaikan atau memperbetulkan sebarang kesilapan keatas
ujian yang pernah mereka ambil. Keadaan ini adalah satu perhatian
khusus yang perlu diambil kira berkaitan dengan ujian semula .
Sesetengah penyelidik memberi pandangan berbeza mengenai kesan
latihan ini kerana kesan ini dianggap sebagai unsure kestabilan dan
ketidak-stabilan dalam pengukuran sementara sesetengah yang lain
menganggapnya sebagai unsure bagi pengukuran ralat rawak. Bolehkah
anda memikirkan satu contoh lain ?
Kaedah Bentuk Selari
Bagi mengantikan kaedah latihan dan lain-lain masalah dengan kaedah
test-retest, Pembina ujian biasanya memberik ujian yang selari kepada
calon yang sama tetapi berlainan masa.
Kebolehpercayaan, dalam hal ini, sekali lagi di nilai dengan korelasi. Apa
yang berkaitan atau yang dikorelasi ?
Kunci aspek kebolehpercayaan ini adalah untuk membentuk alternative
yang hamper sama dengan terma kandungan, proses respons, kaedah
dan cara, dan ciri statistic. Adakah aktiviti semula dan kesan latihan
dihapuskan atau hilang terus ? adakah cara lain bagi kaedah alternative
ini ?
Kaedah Belah-Dua
Kaedah belah-dua ini mengukur konsistensi dalam ujian. Ingat lagi pada
pita pengukur, ia mempunyai konsistensi dalaman yang tinggi. Ukuran
kaki yang pertama adalah sama dengan ukuran kaki ke dua dan ketiga
dan begitu juga dengan setiap ukuran sentimeternya , ianya adalah
uniform.
Kaedah belah dua juga turut mengurangkan atau menghapuskan
beberapa masalaah seperti :
a. keperluan menjalankan dua ujian
b. kesukaran membina ujian semula
c. kesan tanggungan dan pengaktifan semula
d. perubahan sesesorang calon melalui masa
Kaedah yang mudah untuk menjalan kaedah belah-dua adalah dengan :
jalankan ujian keatas sekumpulan individu tertentu sahaja
jalankan secara rawak atau kaedah penentuan yang telah ditetapkan
hubungkaitkan sebahagian skoran awal dengan skoran baru
korelasi ini boleh digunakan untuk membuat anggaran kebolehpercayaan
ujian
Kesan sabpingan kaedah ini adalah konsistensi dalamannua yang
melibatkan masa ujian yang singkat. Apabila kita menjalankan ujian yang
agak lama, dan membahagikan soalan kepada dua , kita juga turut
mengurangkan kadar kebolehpercayaannya. Mengapa ? Soalan yang
sama jenis akan terserlah dan akan memberi makluman terhadap trait,
kemahiran dan pengetahuan untuk calon. Namun begitu, makluman
spesifik ini akan memberikan makluman kepada calon dan membolehkan
variasi kepada skoran ujian yang akan meningkatkan kebolehpercayan.
Untuk itu , perubahan dalam kaedah ini adalah diperlukan dan rumusan
Spearman-Brown boleh digunakan apabila membuat anggaran
kebolehpercayaan dengan menggunakan kaedah belah-dua.
Rumusan yang digunakan adalah :
Kebolehpercayaan Ujian Penuh = 2 X kebolehpercayaan ujian separuh
1 + kebolehpercayaan ujian separuh
Jika nilai kebolehpercayaan diantara kedua-belah didapati +0.80,
kebolehpercayaan ujian sepenuhnya akan didapati bernilai berikut :
Kebolehpercayaan ujian penuh = 2 X 0.80 = 0.89
1 + 0.80
Satu lagi rumusan yang boleh dibuat perkiraan adalah dengan
mengunakan rumus berikut : rxx = k r / (1 + (k –
1))r
Dimana k = bilangan item dalam ujian kaedah-belah dua (baru), iaitu
bilangan soalan ujian yang asal dari kaedah belah-dua dibahagikan
dengan bilangan soalan ujian yang digunakan didalam korelasi belah-dua.
Dalam erti kata yang lain, bilangan atau kadar tempoh masa ujian akan
menjadi lebih lama. Sebagai contoh, katakan ujian anda mempunyai 80
soalan. Anda menjalankan kaedah kebolehpercayaan belah-dua dan
mendapati r = 0.8. Nilai r = 0.8 adalah berdasarkan jumlah 40
item. Bilangan 40 item tersebut adalah bilangan soalan dari item asal
dalam kaedah sebelumnya. Sekarang anda inginkan kebolehpercayaan
ujian anda dipinda kerana bilangan soalan ujian adalah 80. Bilangan 80
adalah merupakan tempoh atau bilangan ujian yang baru. Oleh itu, , k =
80/40 = 2. Nota: Rumusan Spearman-Brown adalah digunakan untuk
membuat anggaran berapakah ujian kebolehpercayaan akan meningkat
apabila ujian ditingkatkan dengan memasukkan item selari.
r = adalah korelasi diantara pecahan asal
Kekurangan kepada kaedah belah-dua adalah beberapa kaedah ujian di
pecahkan. Ini membuat pecahan memberi nilai korelasi yang tinggi.
Salah satu cara bagi mengukur konsistensi dalaman adalah
membandingkan skoran setiap calon dan membahagikan kepada dua
bahagian. Ini akan mengurangkan keslilapan sebarang ralat yang timbul
akibat pecahan ujian kepada dua.
KR-20 (Kuder & Richardson, 1937, 1939). Kaedah ini digunakan bagi
soalan ujian yang skorannya adalah 0 or 1. Formula Kudder Richardson 20
dan 21 dibuat berdasarkan penskoran yang dibuat secara diskrit atau
dikotomi.Digunakan untuk item yang diskor secara dikotomi (betul-salah)
seperti dalam ujian objektif perlbagai pilihan
KR20 = k ( 1 - <Σpq)
k – 1 σT2
KR21 = k ( 1 - <m(k-m))
k – 1 ks2
Coefficicent alpha (Cronbach, 1951). Kaedah ini digunakan bagi soalan
ujian yang skorannya adalah 2 atau lebih. Cronbach alpha adalah pekali
alpha, α, yang kerapkali digunakan dalam menganggarkah
kebolehpercayaan ketekalan-dalaman. Digunakan untuk item yang diskor
secara dikotomi (betul-salah) atau politomi
α = k ( 1 - Σσi2)
k – 1 σT2
Selain dari itu, masalah yang berkemungkinan timbul adalah samada ujain
belahan adalah homogeneous (i.e., mengukur hanya satu ciri) or
heterogeneous (mengukur banyak ciri).
Penyelesaian disini adalah menentukan kebolehpercayaan ujian bagi
setiap komponen heterogeneous dan membandingkan dengan
mengunakan korelasi komponen.
5.2.1 Faktor Yang Mempengaruhi Kebolehpercayaan
Antara yang dipercayai mempengaruhi kebolehpercayaan ujian ialah :-
Kemohogenan Item
Item ujian yang homogen ialah item-item yang mempunyai kesamaan dari
segi prestasi atau peluang untuk dipilih. Bagi ujian berbentuk objektif
aneka pilihan, pilihan jawapan mestilah homogen. Ini bermakna tiap-tiap
opsyen mestilah berkaitan antara satu sama lain dan ada daya tarikan
untuk dipilih oleh pelajar. Jawapan atau distraktor seharusnya tidak bias
sehingga pelajar yang diuji terlalu mudah mengenal pasti jawapan atau
bukan jawapan. Opsyen yang tidak ada persamaan boleh menjejaskan
kebolehpercayaan skor ujian.
Pensampelan Item
Item-item yang dogunakan dalam sesuatu ujian adalah untuk menguji
sebahagian trait yang menjadi pentunjuk kepada kebolehan seseorang.
Oleh itu item tersebut adalah semata-mata sample bagi mewakili
keseluruhan trait mengenai kebolehan seseorang. Jika pemilihan itu tidak
tepat, ia menyumbangkan kepada varians ralat pengukuran. Akibatnya
skor ujian itu tidak boleh dipercayai.
Ralat Rawak
Prestasi seseorang adalah berubah-ubah mengikut keadaan
sekelilingnya. Sebarang perubahan yang berlaku di sekeliling
menyebabkan prestasi berubah. Misalnya semasa ujian tiba-tiba bunyi
bising di sekeliling calon atau bunyi loceng amaran berbunyi. Ini akan
menyebabkan tumpuan dan konsentrasi calon dan varians skor ralat akan
masuk ke dalam varians skor yang dicerap. Lain-lain contoh ralat rawak
adalah seperti sakit, penat, ketegangan emosi, risau dan lain-lain. Pihak
pentadbir yang mengendalikan ujian hendaklah menyediakan keadaan
dan persekitaran tempat yang sesuai dan peraturan pentadbiran ujian
yang sempurna.
Tempoh Ujian
Pada amnya semakin panjang atau lama tempoh ujian semakin tinggi
kebolehpercayaan skor ujian itu. Ini adalah kerana tempoh ujian dapat
memberikan persampelan yang baik dari segi tingkah laku yang ingin
diukur, malahan skor kurang dinganggu oleh tekaan.
5.2.2 Indeks Kebolehpercayaan
Selain dari nilai purata p ( indeks kesukaran ), terdapat satu lagi indeks
penting yang dipanggil indeks kebolehpercayaan atau “ alpha ( α ) “.
Indeks kebolehpercayaan akan menunjukkan pada tahap manakah
hasilan keputusan ujian adalah sama jika semua pelajar mengambil atau
mengulang semula ujian yang telah diambil ( dengan anggapan pelajar
tersebut tidak ingat atau lupa akan ujian yang lepas ). Oleh kerana
perkara sebegini tidak akan berlaku, alpha akan mengukur
kebarangkalian kebolehpercayaan dengan mengunakan ketekalan hasilan
keputusan ujian. Nilai julat indeks kebolehpercayan adalah diantara -1.00
hingga + 1.00. Namun, nilai indeks kebolehpercayaan mestilah nilai
positif, dan bagi kebanyakkan orang perbezaan pada kadaran 0.85 adalah
diperlukan. Dan apabila sesuatu ujian atau peperiksaan diambil kira, ini
akan meningkatkan tahap kebolehpercayaan keseluruhan dan nilai 0.65
bagi setiap kertas ujian adalah memadai.
5.2.3 Mempertingkatkan Kebolehpercayaan
Bagi mempertingkatkan kebolehpercayaan, pendapat menyatakan agar
tempoh masa ujian di panjangkan dan bilangan soalan ujian ditambah
atau dibanyakkan. Sebagaimana larian marathon memberi lebih jarak
atau ruang diantara pelumba lari dari pelumba acara pecut 100 meter dan
membolehkan pelumba ruang untuk menyusun langkah larian atau
merapatkan larian, ujian yang lebih lama adalah dipercayai lebih reliable
dari ujian yang pendek. Perhatian hendaklah diberi terhadap tahap
kebolehpercayaan yang berdasarkan ketekalan sample ujian dan
percambahan ujian tersebut. Jika sasaran populasi adalah pelbagai, yang
memerlukan perbezaan besar dalam mengukur kebolehan dan
pengetahuan, adalah lebih mudah untuk mencapai tahap
kebolehpercayaan yang diperlukan.
Oleh itu, pengukuran ralat piawai akan memaklumkan keberkesanan
skoran individu pelajar atau calon. Ia akan mengenalpasti ditahap
manakah skoran akan dikenalpasti ketepatannya. Tahap yang
dimaksudkan adalah jika 68% ketentuan maka ia akan ada pada tahap
purata 1 atau pun jika pada tahap 96% , ianya akan berada pada tahap 2.
Ini bermaksud , kita boleh mengenalpasti pada tahap 68%, jika calon
memperolehi skoran 30 pada ujian pertama, dan jika calon mengulang
ujian yang sama, beliau dijangka akan memperolehi purata skoran
diantara 30 + 2.7 = 33 atau 30 – 2.7 = 27 dan pada tahap 96%
pula, calon dijangka akan memperolehi skoran 30 + (2 x 2.7) = 35 dan 30
– ( 2 x 2.7 ) = 25.
5.3 Kesahan Ujian
Alat taksiran yang mengukur apa yang ia ukur adalah sah. Sesuatu alat
pengukur tidak memiliki kesahan untuk “semua tujuan”. Sesuatu ujian
mungkin sangat sah untuk sesuatu tujuan atau untuk sesuatu tahap umur
ataupun untuk jenis subjek tertentu tetapi ia tidak mungkin sah dalam
situasi lain. Oleh sebab sesuatu ujian yang tidak sah adalah dianggap
tidak berguna maka seseorang itu hendaklah membentangkan bukti yang
boleh memberi keyakinan bahawa ujian yang digunakannya mengukur
tepat cirri-ciri ujian yang berkenaan direka bentuk untuk diukur. Dalam
menilai kesahan ujian sesuatu ujian untuk tujuan tertentu kita hendaklah
memeriksa satu atau lebih dari jenis kesahan berikut.
Konsep kesahan sesuatu ujian bahasa sebagai alat untuk mengukur dan
mengkuantitikan sesuatu kemahiran atau aspek bahasa tidak berbeza
dengan konsep kesahan alat pengukur yang lain. Dalam bidang pengujian
bahasa, sesuatu ujian merupakan alat untuk mengukur sesuatu
kemahiran atau aspek bahasa. Tinggi atau rendah kesahan sesuatu ujian
bergantung pada ketepatannya mengukur sesuatu kemahiran atau aspek
bahasa yang perlu diukur berdasarkan tujuan atau fungsi pengujian.
Contohnya, ujian ejaan dianggap sah sekiranya benar-benar dapat
mengukur kebolehan pelajar mengeja.
Dalam ujian bahasa timbul persoalan sama ada kesahan sesuatu ujian
dianggap tinggi atau rendah menurut ketepatan mengukur sesuatu
kemahiran atau aspek bahasa yang hendak diukur. Setiap kali guru
membina ujian bahasa, sama ada menguji kemahiran mendengar,
bertutur, membaca, menulis atau aspek bahasa lain seperti tatabahasa,
kosa kata dan sebagainya amatlah penting bagi guru mempersoalkan
kesahan ujian yang dibina.
Adakah ujian yang dibina benar-benar dapat menguji dan mengukur
kemahiran murid mendengar?. Adakah ujian bertutur benar-benar dapat
menguji dan mengukur kemahiran murid bertutur?. Adakah ujian kosa
kata yang dibina guru benar-benar menguji perbendaharaan kata pelajar
atau hakikatnya menguji tatabahasa? Atau berlaku sebaliknya, ujian
tatabahasa yang dibina guru tidak menguji pengetahuan tatabahasa
sebaliknya menguji kosa kata. Contoh-contoh ini perlu ditanyakan kepada
diri sendiri apabila membina sesuatu alat ujian bahasa untuk menjaga
darjah kesahan atau kesahihannya. Jika guru tidak diawasi, kadang kala
alat ujian yang dibina tidak menepati tujuan ujian. Perkara lain yang
hendak diukur tidak terukur dan perkara lain pula yang terukur. Kadang
kala sesuatu ujian mungkin tidak tepat mengukur perkara yang hendak
diukur tetapi hanya mengukur sedikit sahaja atau sipi-sipi. Seterusnya kita
melihat jenis kesahan yang terdapat dalam ujian yang baik.
Berikan definisi kesahan ujian.
Bincangkan
5.3.1 Kesahan Kandungan
Kesahan ini juga dikenali sebagai kesahan logic, kesahan persampelan,
atau kesahan kurikulum dan digunakan meluas dalam ujian pencapaian.
Untuk menentukan kesahan kandungan, pembina ujian hendaklah
menganalisiskan kandungan sesuatu bidang ujian yang dinilai dan
sterusnya menstruktur satu alat yang representative untuk mengukur
pelbagai apsek kandungan berkenaan. Kesahan ini mempersoalkan sama
ada sesuatu ujian mengandungi satu sampel yang seimbang tentang
perkara yang telah diajar seperti yang terdapat dalam sukatan pelajaran
atau program pengajaran. Hal ini penting bagi ujian yang berbentuk
sumatif atau formatif. Contohnya, ujian bulan Februari guru hendaklah
menguji beberapa aspek tatabahasa yang telah diajarnya dalam bulan
tersebut. Kesahan ujian isi tinggi sekiranya item ujian yang dibina
mewakili semua aspek tatabahasa yang telah diajar dalam bulan itu.
Perkara penting dalam kesahan ini guru perlu merujuk semula rekod
pengajaran seperti buku rekod mengajar dan sukatan pelajaran. Ujian
bahasa yang bersifat sumatif seperti ujian akhir penggal, pertengahan
tahun dan ujian tahunan biasanya memerlukan guru membuat
persampelan yang lebih luas tentang kemahiran dan aspek bahasa yang
perlu diuji. Ujian bahasa yang dibina bagi menilai kemajuan murid pada
tahap tersebut mungkin mengandungi ujian tentang kemahiran lisan,
membaca, menulis karangan, meringkaskan karangan, tatabahasa,
peribahasa, kosa kata dan sebagainya. Bagaimanapun, skop ujian
hendaklah mewakili pengajaran dan pembelajaran yang telah berlaku
dalam tempoh tersebut.
5.3.2 Kesahan Gagasan
Kesahan gagasan adalah satu unsure yang dihipotesiskan untuk
menerangkan beberapa aspek tingkahlaku manusia seperti kebolehan
mekanik, kecedersan atau sifat pendiam. Juga dikenali dengan panggilan
kesahan konstruk. Kesahan konstruk ialah satu konsep atau gagasan
tentang sesuatu perkara atau benda sama ada yang abstrak atau maujud.
Contohnya, apakah konstruk (konsep) sebuah kereta? Sebuah kereta
terdiri daripada enjin, cermin, roda, gear, roda dan sebagainya.
Dalam bidang pendidikan bahasa, setiap kemahiran bahasa seperti
kemahiran mendengar, bertutur dan membaca adalah konstrak atau
konsep yang agak abstrak. Bahagian yang mengisi konstrak mengenai
sesuatu kemahiran bahasa sebenarnya adalah subkemahiran yang
membina sesuatu kemahiran bahasa. Contohnya, apakah subkemahiran
yang membina kemahiran bertutur?
Apabila kita hendak menilai sama ada ujian mengenai sesuatu kemahiran
bahasa itu mengandungi kesahan konstrak atau tidak, kita persoalkan
sama ada ujian tersebut benar-benar menguji konstrak kita mengenai
kemahiran tersebut, dan sama ada ujian itu menguji subkemahiran yang
dianggap penting dalam sesuatu kemahiran bahasa yang hendak diuji.
Subkemahiran yang terlibat dalam sesuatu kemahiran asas bahasa
sebenarnya pengisi konstrak tersebut. Tanpa mengenali konstrak
mengenai sesuatu kemahiran atau aspek bahasa, tidak mungkin kita
boleh membina ujian yang sah dan menepati konstrak tersebut. Sebelum
guru boleh menguji kemahiran muridnya dalam kemahiran membaca,
guru seharusnya faham dengan konstrak kemahiran membaca.
Sebelum guru boleh menguji dan menilai kemahiran muridnya menulis
karangan, dia seharusnya faham dengan konstrak kemahiran mengarang
dalam bahagian penting yang terdapat dalam sesuatu karangan yang
baik. Contohnya, dalam menguji kemahiran murid menulis karangan, guru
ingin melihat subkemahiran penting seperti memilih isi, menyusun isi,
tatabahasa, kosa kata dan aspek mekanis dalam penulisan. Dalam
menguji sesuatu kemahiran bahasa, kesahan konstrak mengenai sesuatu
kemahiran yang hendak diuji sangat penting. Sekiranya konstrak kita
mengenai sesuatu kemahiran itu salah, kita akan mengukur dan menilai
subkemahiran yang tidak berkaitan. Oleh yang demikian, kesahan ujian itu
dari segi konstraknya boleh dipertikaikan.
5.3.3 Kesahan Kriteria
Kesahan yang ditunjukkan melalui perbandingan skor ujian dengan satu
lebih pembolehubah luaran atau criteria yang dianggap berupaya
menyediakan pengukuran secara terus terhadap tingkahlaku atau sifat
tertentu dibawah kajian. Mengandungi dua sub-kelas iaitu kesahan
permala dan kesahan serentak.
Menurut Savignon (1983), ujian mesti kelihatan mengukur apa yang
sepatutnya hendak diukur. Bagi Hearon (1979), kesahan muka saja tidak
mencukupi, sebab kadang kala ujian bercorak ‘superficial’ sahaja.
Contohnya, guru telah membina satu ujian untuk menguji kefahaman
bacaan pelajar dengan menggunakan soalan berbentuk aneka pilihan.
Sekali pandang ujian ini mungkin mempunyai kesahan muka yang benar-
benar menguji kefahaman bacaan. Selepas diteliti, didapati terdapat
beberapa item soalannya menguji kefahaman murid mengenai sinonim,
antonim dan dan penggunaan imbuhan. Item yang dimaksudkan bukanlah
menguji kefahaman bacaan murid dalam erti kata sebenarnya.
Selepas guru membina ujian yang bertujuan menguji sesuatu kemahiran
atau aspek bahasa, perlulah disemak semula setiap item atau soalan
supaya tidak terkeluar daripada batasan atau tujuan ujian dibina.
Sebaiknya sebelum ujian dicetak atau ditadbir, dapatkan pandangan guru
lain mengenai kesesuaian item dengan kemahiran atau aspek yang
hendak diuji.
i) Kesahan Peramal
Pendidik biasanya berminat menggunakan sesuatu ujian untuk
meramal sesuatu pada masa hadapan seperti kejayaan dalam
persekolahan atau pekerjaan. Sesuatu ujian yang meramal dengan
tepat tingkahlaku pada masa hadapan yang kerananya dibentuk,
dikatakan memiliki kesahan peramal. Prosedur asas untuk
menentukan kesahan peramal ialah i) mentadirkan ujian
berkenaan, ii) tunggu hingga prestatsi yang diramalkan oleh ujian
berkenaan berlaku, dan iii) lakukan korelasi diantara skor ujian
tersebut dengan prestasi sebenar ujian yang dibentuk untuk
diramal. Semakin tinggi korelasi yang diperolehi semakin
berkesanlah ujian berkenaan sebagai satu peramal.
Masalah yang dikaitkan dengan kesahan peramal adalah ianya
hanya boleh diterima hanya dalam situasi dimana ia telah disahkan
atau dalam situasi yang sama.
ii) Kesahan Serentak
Prosedur yang digunakan untuk menentukan kesahan serentak
adalah sama dengan prosedur yang digunakan untuk menentukan
kesahan peramal. Bezanya ialah hasil yang diramal diukur pada
masa yang agak sama dengan ujian peramal dibuat. Contohnya
sekiranya sesuatu ujian baru di struktur, skor yang diperolehi para
pelajar dalam ujian ini boleh dikaitkan dengan markah yang
didapati dalam ujian sebelumnya untuk subjek yang sama, akan
dikaitkan dengan penilaian guru mereka ataupun dikaitkan dengan
skor-skor yang didapati melalui ujian yang serupa yang telah
disahkan, yang mungkin lebi mahal dan lebih sukar untuk
ditadbiekan. Daripada menunggu beberapa tahu samada sesuatu
ujian minat vokasional berupaya meramal kejayaan dalam sesuatu
pekerjaan, kita boleh mengaitkan skor yang diperolehi dalam ujian
orang-orang yang berjaya dalam sesuatu pekerjaan dengan skor
yang diperolehi dalam ujian pekerjaan lain untuk menentukan
samada ujian berkenaan membezakan dua kumpulan tersebut.
Kesahan serentak menyediakan bukti dengan agak cepat tentang
keraguan sesuatu ujian, tetapi hakikatnya bahawa ujian yang
memeliki kesahan serentak tidaklah menjamin yang ia memiliki
kesahan peramal.
Bandingkan kesahan peramal dan kesahan serentak. Apakah
perbezaan ketara diantara kedua kesahan ini.?
Rumusan
Sesetengah ahli bijak pandai mempertikaikan mengenai pandangan
amalan tradisi bahawa “ kebolehpercayaan adalah satu kemestian tetapi
kesahan tidak diperlukan” dan kenyataan ini adalah disangkal. Institusi
pemikir memberikan konsep bahawa kebolehpercayaan sebagai
invariance dan kesahan adalah unbiasedness. Satu kaedah statistic
mungkin mendapatkan satu nilai keatas persamaan sample yang
bersamaan dengan parameter populasi tetapi akan mempunyai kadar
variance yang tinggi ketas sample yang kecil. Pandangan berikutnya
menyatakan satu pengukuran boleh menjadi tidak boleh dipercayai tetapi
hendaklah mempunyai tahap kesahan yang tinggi.
Glosari
Cronbach Alpha. Satu cara untuk mencari ketakalan dalaman atau
keseragaman soalan
Indeks Kesukaran. Boleh ditakrifkan sebagai peratusan pelajar yang
menjawab ujian dengan betul. Lagi besar peratusan jawapan betul yang
diperolehi lagi mudahlah sesuatu item. Lagi tinggi peratusan item
kesukaran lagi mudahlah item tersebut
Indeks Diskriminasi. Indek diskriminasi ialah pekali korelasi yang
mengaitkan skor ujian ( data selanjar ) dengan skor setiap opsyen ( data
dikotomous , 1 jika memilih dan 0 jika tidak memilih opsyen bagi sesuatu
item berkenaan. rbis digunakan untuk menentukan darjah keupayaan
sesuatu item bagi membezakan antara calon daripada kumpulan yang
mempunyai market keseluruhan ujian yang tinggi dengan yang rendah
Indeks Kebolehpercayaan. Indeks kebolehpercayaan akan menunjukkan
pada tahap manakah hasilan keputusan ujian adalah sama jika semua
pelajar mengambil atau mengulang semula ujian yang telah diambil
( dengan anggapan pelajar tersebut tidak ingat atau lupa akan ujian yang
lepas ).
Kesahan. Kesahan sesuatu ujian merujuk kepada sejauh mana ujian
berkenaan dapat mengumpul maklumat berkaitan bidang yang ditetapkan.
Dengan perkataan lain, sesuatu ujian itu dikatakan sah, sekiranya ujian
berkenaan boleh mengukur sesuatu yang sebenarnya hendak diukur atau
sepatutnya diukur. Dalam konteks Pembelajaran Masteri, ujian yang
terlibat ialah praujian dan pascaujian.
Kesahan Gagasan. Konstruk ialah satu konsep atau gagasan tentang
sesuatu perkara atau benda sama ada yang abstrak atau maujud
Kesahan Kandungan. Kesahan ini mempersoalkan sama ada sesuatu
ujian mengandungi satu sampel yang seimbang tentang perkara yang
telah diajar seperti yang terdapat dalam sukatan pelajaran atau program
pengajaran
Kesahan Kriteria. Menurut Savignon (1983), ujian mesti kelihatan
mengukur apa yang sepatutnya hendak diukur.
Kebolehpercayaan. Kebolehpercayaan sesuatu ujian merujuk kepada
ketekalan, ketepatan, dan kebolehbergantungan ujian berkenaan. Ini
bermaksud sesuatu ujian yang boleh dipercayai akan menghasilkan
maklumat yang tekal (merujuk kepada beberapa pentadbiran ujian yang
telah dijalankan), tepat seperti yang sepatutnya serta boleh diterima pakai
tanpa keraguan.
KR-20 (Kuder & Richardson, 1937, 1939). Kaedah ini digunakan bagi
soalan ujian yang skorannya adalah 0 or 1. Formula Kudder Richardson 20
dan 21 dibuat berdasarkan penskoran yang dibuat secara diskrit atau
dikotomi.Digunakan untuk item yang diskor secara dikotomi (betul-salah)
seperti dalam ujian objektif perlbagai pilihan
KR20 = k ( 1 - <Σpq)
k – 1 σT2
KR21 = k ( 1 - <m(k-m))
k – 1 ks2
Rujukan
Moskal, Barbara et al (2002). Validity, reliability and the assessment of
engineering education. Journal of Engineering Education
Thorndike, et. Al (1991). Measurement and Evaluation in Psychology and
Education. (5th Edition). New York : Macmillan
Wood, D.A. (1960). Test Construction. Columbus, OH; Charles E. Merill Books,
Inc.
Van Krieken, R. (Dr.) (1995). Writing and Administring Examinations. CITO.
Van Dalen., D.P. (1979). Understanding Educational Research. 4th
Edition.McGraw-Hill.Inc