pembinaan item objektif dan subjektif

4.0PEMBINAAN ITEM OBJEKTIF DAN SUBJEKTIF

Pengenalan

Membuat pilihan mengenai jenis ujian yang akan diberikan kepada pelajar

anda bagi tujuan mengukur pencapaian mereka boleh menjadi sukar dan

rumit seperti menulis atau membina item itu sendiri. Ada dua jenis kategori

ujian a) item objektif yang memerlukan pelajar membuat pilihan jawapan yang

betul dari beraneka pilihan atau memberi jawapan dalam bentuk perkataan

atau jawapan pendek atau melengkapkan ayat b) item subjektif atau esei

yang membenarkan pelajar membentuk dan menyediakan jawapan yang

asal dan tepat. Item objektif termasuklah aneka pilihan, betul-salah, padanan

dan melengkapkan sementara item subjektif memerlukan esei jawapan

pendek, jawapan terbuka , penyelesaian masalah atau item ujian pencapaian.

Kebiasaannya, apabila diberikan tugasan untuk membina instrumen ujian

mereka akan menghadapi kesan emosi iaitu gembira atau risau atau kedua-

duanya sekali. Kerisauan timbul kerana mungkin mereka belum pernah

melakukannya dan gembira mungkin kerana diberi peluang untuk mencuba

dan berkongsi pengetahuan dan kemahiran mengenai apa yang patut

diukurkan. Bagi yang sudah bersedia, mereka mungkin telah pun bersedia

dengan penulisan dan pembinaan yang dihajati. Namun persediaan dan

pengetahuan tentang pembinaan item merujuk kepada ketetapan yang telah

disandarkan merupakan satu ujian yang agak getir. Dengan berpandukan

panduan dan peraturan yang telah ditetapkan seseorang pembina item atau

soalan boleh merancang dan menentukan kehendak yang diperlukan atau

jenis soalan atau item yang perlu disediakan.

Objektif

Diakhir bab ini, anda seharusnya dapat :

Merancang pelbagai instrumen pengukuran untuk menilai pencapaian

pelajar didalam sesuatu matapelajaran

Membuat padanan item ujian mengikut objektif

Membina ujian objektif dan ujian esei

Memberi maklumbalas berasaskan ujian pencapaian pelajar

4.1 Jadual Penentuan Ujian

Pembinaan ujian yang akan dijalankan hendaklah mengikut perancangan

dan keperluan spesifikasi ujian yang telah ditetapkan. Sampel

perancangan ujian yang hendak dijalankan mestilah mewakili item ujian

yang seimbang merangkumi dan meliputi aspek kemahiran dan

pengetahuan yang boleh dilaksanakan pengguna. Kaedah ini boleh

mmemastikan pengguna diuji dengan ujian yang relevan dan sah

mengikut kebolehan yang sebenar dengan memberi keyakinan bahawa

pengguna mempunyai asas pengetahuan mengenai perkara yang

dipelajari.

Setiap ujian yang dibina menjalani pelbagai peringkat proses termasuklah

pembinaan item, mengkaji semula, proses ujian awal (pilot-test) dan pra-

ujian bagi memastikan item ujian adalah boleh digunakan dan diperbaiki

(jika ada keperluan). Akhir sekali, sebelum ujian tersebut boleh dijalankan,

item ujian biasanya dikaji dan dinilai oleh pakar pembina item.

Keseluruhan proses kaji-semula ini boleh membantu dalam memastikan

mutu dan kualiti item ujian mempunyai sifat kesahan, kebolehpercayaan

dan pengukuran yang adil. (Hale, 1980)

“A Table of Specifications consists of a two-way chart or grid (Kubiszyn &

Borich, 2003; Linn & Gronlund, 2000; Mehrens & Lehman, 1973; Ooster,

2003) relating instructional objectives to the instructional content. The

column of the chart lists the objectives or "levels of skills" (Gredler, 1999,

p.268) to be addressed; the rows list the key concepts or content the test

is to measure. According to Bloom, et al. (1971), "We have found it useful

to represent the relation of content and behaviors in the form of a two

dimensional table with the objectives on one axis, the content on the

other. The cells in the table then represent the specific content in relation

to a particular objective or behavior" .

Jadual penentuan ujian bukan sahaja membantu mengenalpasti

kandungan pelajaran yang diajar dikelas tetapi juga turut mengenalpasti

objektif pelajaran bagi setiap tahap domain objektif yang berdasarkan

Taksonomi Bloom. Guru akan tentunya yakin bahawa mereka mengukur

pembelajaran pelajar dari awal hingga akhir dan sudah pasti guru tidak

akan lupa mengenai kandungan apa yang patut di ajar.

Enam elemen yang perlu diketahui sebelum membina jadual penentuan ujian bagi

ujian adalah : (1) keseimbangan sasaram ujian; (2) keseimbangan tahap

pembelajaran; (3) format ujian; (4) jumlah item; (5) bilangan item ujian bagi

setiap sasaran tahap pembelajaran; dan (6) kebolehan kemahiran yang dipilih

bagi setiap rangkakerja. Spesifikasi yang terbentuk berdasarkan enam elemen ini

akan membolehkan keseimbangan tahap pengujian yang mewakili setiap unit

yang seimbang sasaran dan tahap pembelajaran.

Aktiviti

Ambil satu contoh kertas ujian yang pernah anda lihat. Berdasarkan item

ujian tersebut senaraikan beberapa objektif pengajaran yang anda dapat

perolehi.

Jadual penentuan ujian dibina sebelum ujian di tulis. Seharusnya ianya

hendaklah dibina sebelum pengajaran dimulakan. (Kubiszyn & Borich.

2003; Mehrans & Lehman, 1973; Ooster. 2003). Memang banyak masa

dan tenaga diperlukan bagi membina spesifikasi ujian. (Kubiszyn &

Borich, 2003). Linn and Gronlund (2000) menyatakan "Walaupun

prosesnya mengambill dan memakan masa yang lama, tugasab yang

dijalankan dalam pembentukan jadual penentuan ujian akan

membolehkan kerja persediaan lebih mudah dimasa depan.

4.1.1. Objektif Pengajaran dan Pembelajaran

Merujuk pengetahuan dan kemahiran yang perlu dicapai / dikuasai murid

selepas sesi Pengajaran dan & Pembelajaran. Objektif pengajaran

merupakan asas pemilihan bahan dan peralatan pengajaran,

pengetahuan asas yang berkaitan yang (pengetahuan sedia ada), isi

pelajaran; di samping mencadangkan aktiviti guru-murid dalam proses

pengajaran-pembelajaran.

Pernyataan objektif pengajaran adalah berasaskan:

i. Hasil yang akan diperolehi murid;

ii. Prestasi atau tingkahlaku murid yang boleh dilihat atau

diukur, selepas sesi pengajaran;

iii. Keadaan atau syarat yang diperlukan bagi sesuatu

tingkahlaku;

iv. Darjah atau peringkat perubahan tingkah-laku yang

dijangkakan.

v.

Di samping itu, objektif pengajaran hendaklah melibatkan:

i) Perkara yang masih belum dikuasai murid;

ii) Masa bilakah objektif tersebut hendak dicapai (misalnya, di

akhir pengajaran);

iii) Kesinambungan dengan pengalaman pelajaran terdahulu;

iv) Maklumat yang dapat menunjukkan sesuatu yang

dikehendaki (misalnya, kemahiran intelektual yang harus

dilaksanakan).

Jadual penentuan ujian dibentuk untuk memberi suatu gambaran

mengenai kandungan dan format item ujian bagi mengukur objektif

pembelajaran. Setiap item penentuan ujian mengandungi perkara-

perkara berikut : nombor pengenalan objektif, tahap gred,

rangkuman matapelajaran, pengenalan tujuan, penerangan

kemahiran, rangsangan dan sample item. Penentuan ujian boleh

memberi arah kepada guru dalam memaklumkan pencapaian

pelajar dalam pengajaran yang telah diberi. Guru juga boleh

membimbing pelajar tentang persediaan menghadapi ujian.

Bagi tujuan ujian berpusat, diantara proses yang dijalankan

pembentukan jadual penentuan ujian termasuklah : (1) menentukan

dan membentuk piawaian (2) membina spesifikasi ujian (3)

membina item (4) mendaftar dan mentadbir ujian dan (5)

penskoran, analisa dan pelaporan. Bagi tujuan menentukan

piawaian, maklumbalas dari ahli-ahli dari pelbagai bidang

hendakah diperolehi. Untuk tujuan itu, tujuan ujian, jenis hasil ujian,

bilangan item ujian dan masa yang diperlukan untuk mentadbir

ujian, jenis item, definisi kandungan dan kemahiran, ciri-ciri ujian

seperti format, kesusahan dan ujian diskriminasi ; kesahan dan

kebolehpercayaan ujian. Pembinaan ujian merangkumi pembinaan

item dan pengujian awal. Pendaftaran dan pentadbiran ujian

melibatkan calon, tempat ujian dan pentadbiran ujian. Langkah

terakhir melibatkan penskoran, analisa dan pelaporan keputusan.

(Hecht, 1974)

4.1.2 Pengertian Jadual Penentuan Ujian

Sebelum sesuatu ujaian dapat dibina dengan sempurnanya, satu

jadual penentuan ujian atau disebut sebagai JPU mestilah dibentuk

terlebih dahulu. JPU merupakan satu blue-print ujian yang perlu

dibina. JPU dibina hanya setelah pembina dapat menetapkan jenis

dan kandungan ujian yang hendak dibina. Pembinaan JPU

membantu pembina ujian mendapatkan skor yang boleh dipercayai

dan sah dari segi keputusan yang akan dibuat ke atas kandungan

ujian berkenaan.

Dalam proses membina ujian, ujian yang sah dan boleh dipercayai

prosedur berikut hendaklah diikuti.

1. merancang ujian

1. menggubal soalan

2. memilih dan menyelaras soalan

3. memprauji soalan

4. memasang kertas soalan

4.1.2.1 Perancangan Ujian dan Pembinaan Jadual Penentuan

Ujian

Perkara yang penting dalam perancangan ujian ialah pembinaan

Jadual Penentuan Ujian (JPU) (Test Table of Specification).

Dalam pembinaan Jadual Penentuan Ujian langkah-langkah berikut

hendaklah diikuti.

4.1.2.2. Mengkaji Sukatan Pelajaran

Sukatan pelajaran dikaji untuk memperolehi maklumat yang

menyeluruh tentang kurikulum yang telah dibina. Isi kandungan

sukatan pelajaran dianalisis untuk menentukan kepentingan tiap-

tiap satu isi kandungannya. Antara aspek-aspek yang dianalisis

ialah

(i) skop dan kedalaman kajian pada sesuatu tajuk

(i) pendekatan yang telah diambil dalam pengajaran sesuatu tajuk

(ii) kepentingan bandingan di antara satu tajuk dengan tajuk-tajuk

yang lain

(iii) kekomplekskan sesuatu tajuk

(iv)masa pengajaran yang diberi bagi sesuatu tajuk

4.1.2.3 Menganalisis Objektif Pendidikan

Di samping itu objektif pendidikan dianalisis untuk menentukan

jenis-jenis kemahiran yang perlu di uji dan pada tahap kesukaran

mana ia perlu diuji. Lazimnya aras kemahiran diasaskan kepada

pembahagian yang dibuat oleh Bloom dan rakan-rakannya.

Maklumat-maklumat yang tersebut di atas ini adalah amat penting

kepada penggubal soalan dan penggubal ujian kerana dengan ini

sifat ujian itu ditentukan, bilangan soalan bagi setiap ujian

ditentukan, dan pada aras kemahiran dan kesukaran apakah yang

ia perlu diuji.

Berdasarkan penganalisaan inilah Jadual Penentuan Ujian dibina.

Lazimnya Jadual Penentuan Ujian mengandungi tiga paksi utama.

1. Paksi Kandungan

- Tajuk

- Subtajuk

1. Paksi Kemahiran

- Aras kemahiran

2. Paksi Wajaran

- Peratusan pemberatan setiap tajuk

- Bilangan soalan

4.1.2.4 Kepentingan Jadual Penentuan Ujian

Jadual Penentuan Ujian yang lengkap dibina akan sangat-sangat

membantu penggubal soalan dan pembina ujian. Antara

kepentingan adanya Jadual Penentuan Ujian ialah:

1. Ujian akan dibina secara sistematik.

1. Keesahan dari segi penyampelan sukatan pelajaran adalah

terjamin.

2. Taburan tajuk adalah seimbang, dan pelajar diuji pada

keseluruhan

kurikulum.

3. Taraf, mutu dan aras kesukaran ujian dapat dikekalkan dari

setahun ke

setahun, walaupun dibina oleh pembina yang berlainan.

4. Ia menjadi panduan kepada penggubal soalan dan pembina

ujian.

Aktiviti

Ambil item ujian yang pernah anda gunakan atau bina dan cuba bina

satu jadual penentuan ujian.

4.1 Pembinaan Item Ujian Objektif

Ujian pencapaian adalah perlu bagi pendidik untuk mengetahui objektif

maklumbalas pelajar tentang banyak manakah mereka faham dan belajar.

Jika diguna dengan betul, ianya boleh menilai tahap pengetahuan setiap

pelajar dan juga membandingkan pencapaian antara sekolah. Ujian

pencapaian yang sering digunakan disekolah adalah hasil dari pembinaan

guru matapelajaran itu sendiri.

Ujian yang menepati pencapaian dan kehendak adalah ujian yang dibina oleh

guru berkenaan bagi kegunaan kelas tertentu. Guru boleh menyesuaikan

informasi yang mereka fikir penting bagi membolehkan kesesuaian dengan

tahap pelajar mereka. Jika dibina dengan betul, ujian yang dibina dan

dijalankan itu akan berupaya memberi maklumat berguna dan tepat

mengenai pengetahuan yang dapat diperolehi dari pelajar atau murid

mereka.

Langkah 1. Merekabentuk Ujian

Langkah pertama dalam merekabentuk sesuatu ujian yang berkesan adalah

mengenalpasti apa yang anda mahu murid pelajari dari sesuatu unit

pengajaran. Pertimbangkan keutamaan objektif dan masukkan soalan-soalan

pertimbangan mengenai apa yang penting dalam objektif pengajaran dan

pembelajaran. Namun begitu, jika ujian tidak menumpukan kepada objektif-

objektif kehendak, murid tidak akan berpeluang menunjukkan tahap dan daya

kefahaman aspek-aspek yang lain dan anda tidak akan dapat membuat

penilaian tepat keatas setiap kebolehan dan pengetahuan murid anda.

Objektif pembelajaran yang ingin anda sampaikan bukan sahaja dapat

memberikan maklumat yang akan diberi dalam ujian tetapi bentuk spesifik

ujian yang akan dijalankan. Sebagai contohnya, adalah penting dan murid

seharusnya mampu menyelesaikan masalah matematik yang memerlukan

jawapan bertulis yang panjang dalam jangkamasa yang telah ditetapkan.

Jenis soalan yang akan digunakan juga bergantung kepada objektif

pembelajaran. Jika murid diperlukan untuk memahami bagaimana kesan

sejarah yang berlaku adalah berkaitan dan mengakibatkan perubahan

kepada keadaan, mungkin soalan jawapan pendek atau soalan esei adalah

lebih sesuai. Jika murid diperlukan untuk mengingati tarikh penting dalam

sejarah, mungkin soalan pelbagai pilihan ( objektif ) atau soalan mengisi

tempat kosong adalah lebih bermakna.

Langkah 2. Menulis Soalan ujian

Sebaik sahaja anda telah menyatakan kepentingan objektif pembelajaran

dan dalam masa yang sama telah menentukan jenis-jenis soalan dan

rekabentuk soalan yang akan digunakan, anda mungkin telah bersedia untuk

memulakan langkah berikutnya iaitu membina satu ujian yang efektif dan

langkah tersebut adalah menulis soalan ujian.

Prinsip Am

Meski pun terdapat pelbagai jenis dan bentuk soalan-soalan ujian seperti

soalan pelbagai pilihan (multiple choice) , soalan mengisi tempat kosong (fill-

in-the-blank) atau soalan jawapan pendek (short answer), soalan betul-salah

(true-false), soalan padanan (matching) dan soalan esei (essay) dibina

berlainan cara , prinsip pembinaan yang sama digunakan untuk tujuan

pembinaan.

1. Arahan bagi setiap jenis soalan hendaklah mudah dan ringkas.

2. Gunakan bahasa yang mudah dan jelas. Jika bahasa yang digunakan tidak

di fahami, murid yang memahami bahan ujian tetapi tidak mempunyai

kemahiran bahasa yang baik akan menghadapi masaalah dalam menjelaskan

pengetahuan mereka. Jika bahasa yang digunakan tidak jelas , murid yang

mempunyai kemahiran bahasa yang tinggi sekali pun akan menjawab dengan

tidak betul atau tepat oleh kerana tafsiran mereka mengenai soalan ujian tidak

sama dengan kehendak instruktor berkenaan.

3. Bina dan tulis item atau soalan yang memerlukan pengetahuan spesifik atau

kebolehan yang dapat dibentuk dari unit tersebut dan bukannya kepintaran

am atau kebijaksaan ujian.

4. Jangan memberi cadangan jawapan bagi sesuatu soalan kepada soalan

yang lain. Ini akan menjadikan ujian tersebut kurang berkesan, kerana murid

yang bijak akan mempunyai kelebihan berbanding rakan mereka yang

mempelajari dan mengetahui perkara yang sama tetapi kurang bijak dalam

kemahiran mengambil ujian.

5. Jangan menulis soalan ujian dalam bentuk yang negatif. Jika anda

memerlukan soalan berbentuk negatif, “tandakan” atau bezakan maksudnya

kerana soalan ini akan membawa murid untuk menjawab soalan dengan tidak

betul.

6. Tentukan unit dan ketepatan jawapan. Contohnya, adakah anda bersedia

menerima jawapan kepada soalan matematik dalam integer bundal.

Langkah 3 . Semakan Akhir

Akhir sekali, buat penilaian semula keatas ujian tersebut. Adakah arahan yang

diberikan tepat ? Adakah objektif pembelajaran yang dipilih sesuai dan

mencukupi dan seimbang ? Adakah soalan yang diberi dinyatakan dalam

bahasa yang tepat dan mudah serta jelas ? Perhatian hendaklah diberikan

agar soalan yang diberi tidak membawa pelajar kepada jawapan yang dapat

dikesan. Soalan ujian yang lemah tahap pembinaannya bukan sahaja tidak

mengukur tahap pengetahuan murid tetapi sekadar mengukur kebolehan murid

mengambil ujian.

Mentafsir Keputusan Ujian

Jika anda sudah pun berpuas hati dengan pengunaan prinsip am pembinaan

ujian yang telah anda lakukan, anda tentu yakin terhadap ujian yang telah anda

bina dan seterusnya memastikan bahawa ujian tersebut akan memberi

pengetahuan keatas pelajar anda. Dengan mengambilkira kepelbagaian dalam

soalan yang telah dibina berlandaskan objektif pembelajaran sebagai ujian

sampingan, anda boleh membina profil pengetahuan dan kemahiran objektif

bagi setiap murid anda. Skoran yang dihasilkan dari ujian sampingan ini boleh

menjadi satu kaedah mengetahui keseluruhan skoran ujian dimana anda akan

dapat mengenal pasti bahagian manakah yang perlu dititikberatkan. Sesuatu

ujian yang dikendalikan dengan baik akan dapat membantu memaklumkan

sejauh manakah pembelajaran yang diperolehi oleh murid dan seterusnya

membantu murid menyelami sepenuhnya objektif pembelajaran tersebut.

4.1.1 Item Aneka Pilihan

Soalan yang sering digunakan didalam ujian adalah soalan/item aneka

pilihan. Item aneka pilihan dikatakan lebih mudah dan skorannya juga

lebih senang dikendalikan daripada soalan esei tetapi adalah agak susah

dari segi menjawab dengan betul tanpa mengetahui keperluan

pengetahuan sebenar dari soalan/item betul-salah. Namun, soalan item

aneka pilihan merupakan jenis soalan yang sukar untuk dibina. Berikut

adalah beberapa langkah pembinaan badi menyediakan soalan/item

aneka pilihan.

1. Nyatakan dengan jelas arahan-arahan samada anda memerlukan

jawapan yang tepat atau jawapan terbaik bagi setiap soalan/item.

2. Jangan ulang perkataan-perkataan pada setiap alternatif tetapi

hendaklah memasukkan perkataan didalam badan utama soalan. Ini akan

memudahkan soalan dibaca dan opsyen mudah dibandingkan. Struktur

nahu atau tatabahasa soalan utama hendaklah tidak mempunyai atau

mengandungi pembayang bagi respon yang betul.

3. Jadikan alternatif menarik dengan tujuan merangsang pemikiran agar

menarik bagi murid yang belum mencapai objektif pembelajaran yang

ditetapkan.

4. Pastikan pilihan jawapan diletakkan secara rawak.

5. Pastikan semua pilihan anda selaras. Pembina baru selalunya

membina jawapan yang panjang dan berhati-hati dan dengan demikian

akan mengakibatkan pembayang jawapan diberikan.

6. Jangan biasakan memberi jawapan “ Kesemua diatas “ atau “Tiada

satu diatas” sebagai alternatif.

7. Kawal aras kesukaran soalan dengan menyediakan alternatif.

Item aneka pilihan mempunyai tiga komponen asas iaitu :

i) Stimulus

Adalah maklumat khusus dimana item itu didasarkan dan berbentuk

teks, grafik, jadual, perbualan dan lain-lain lagi.

ii) Stem

Adalah bahagian yang mengandungi tugasan dan biasanya

berbentuk ayat lengkap, ayat tidak lengkap, soalan dan lain-lain lagi.

iii) Pilihan/Opsyen

Adalah perkara-perkara yang diberikan sebagai pilihan jawapan dan

biasanya berbentuk angka, simbol, frasa, gambarajah, jadual dan

lain-lain lagi. Komponen ini mengandungi dua fungsi :

a) Kunci bagi pilihan betul atau terbaik

b) Pengganggu/Distraktor yang bertujuan untuk menganggu pelajar

dari jawapan sebenar

4.1.2 Item Benar-Salah

Item ini mempunyai pernyataan lengkap samada benar atau salah. Ianya

amat sesuai untuk menguji fakta. Item ini menghendaki pelajar

menentukan jawapannya benar atau salah atau palsu mengenai

pernyataan yang diberi.

4.1.3 Item Mengisi Ruang Kosong

Item jenis ini memerlukan anda memberi rsepon pendek dan kekadang

memberi peluang anda menyampaikan idea bebas anda berpandukan

kandungan pelajaran atau pun mengikut format yang telah diberikan.

Kebiasaannya format item ini amat berguna untuk menguji pengetahuan,

komprehensi dan aplikasi mudah. Format agak lebih objektif dari format

item esei, namun penskorannya agak subjektif. Tahap membuat tekaan

adalah kurang berbanding ujian aneka pilihan kerana peluang meneka

dengan tepat adalah lemah. Oleh kerana jawapan bagi soalan ini adalah

pelbagaian, maka pemeriksa haruslah memiliki kunci jawapan dan

pengetahuan dan kefahaman keatas perkara subjek. Dalam setiap hal,

pembina item sahaja yang mengetahui idea dengan jelas dan juga

jawapan yang dituntut, maka, adalah perlu untuk mengadakan model

jawapan alternatif dan juga kriteria pengredan berkaitan item ujian.

Item ini menghendaki jawapan dalam mengemukakan masaalah dan

beberapa penyelesaian masalah atau stimulus dan tindak balas. Setiap

penyelesaian masalaah atau tindak balas boleh digunakan sekali, lebih

dari sekali atau tidak digunakan langsung. Item ini menghendaki

murid/pelajar memadankan masalah dengan penyelesaiannya atau

stimulus dan tindak balas yang betul.

Contoh 4. Apakah tiga warna utama yang telah anda pelajari dalam kelas

sains ?

Tiga warna utama yang telah dipelajari dalam kelas sains ialah

_______________ ,

______________ dan ______________ . ( 3 markah)

4.2 Pembinaan Item Ujian Subjektif

Item subjektif ialah item yang membenarkan subjektiviti dalam respons yang

diberikan. Item ini digunakan supaya pelajar boleh mempamerkan kedalaman

pengetahuan dan kemahiran yang dimiliki. Pelajar boleh memberi respons dengan

mengemukakan pelbagai jawapan yang bersikaft polikotomus. Oleh itu item ini

mampu disesuaikan untuk menguji tahap kognitif yang lebih tinggi seperti

mentaksir kemahiran menganalisis, mensintesis atau membuat pertimbangan

tentang sesuatu perkara yang mana memerlukan pelajar mengaplikasikan

kemahiran berfikir. Item subjektif juga memberi kebebasan yang agak luas

kepada pelajar bukan sahaja dari segi mempersembahkan respons, tetapi juga

panjang atau pendek respons itu.

Pada pendapat anda item ujian yang manakah lebih sesuai ,

ujian objektif kah atau ujian subjektif ?

Cuba anda bina beberapa item ujian objektif atau pun item ujian

subjektif.

4.2.1 Kata Tugas Item Ujian

Kata tugas adalah suatu kata kerja yang terdapat pada sesuatu item yang

berfungsi untuk menyatakan tugasan yang hendak disampaikan oleh

penuli item tersebut. Kata tugas ini akan mengarahkan pelajar untuk

memberikan respons yang sejajar dengan tugasan item atau soalan. Oleh

itu pemilihan dan penggunaan kata tugas yang sesuai pada suatu item

adalah sangat penting. Kegagalan menggunakan kata tugas yang tepat

dengan hasrat penulis item akan menyebabkan pelajar gagal memberikan

respons seperti dihasratkan dalam peraturan pemarkahan.

Kata tugas mempunyai kaitan yang sangat rapat dengan objektif penilaian

yang menggunakan item berkenaan, dimana kata tugas boleh

membayangkan kerencaman tugasan sesuatu item. Walau bagaimana

pun suatu kata tugas itu tidaklah unik bagi sesuatu objektif penilaian

sahaja, kerana terdapat kata tugas yang sama apabila dikaitkan dengan

tugasan item yang berlainan akan menagih corak dan jenis respons yang

berlainan.

Terdapat kata tugas yang dapat berdiri dengan sendiri untuk menyatakan

tugasan item. Walau bagaimanapun terdapat kata tugas yang

memerlukan sokongan item daripada beberap perkataan lain untuk

menjadikan penyampaian tugasan sesuatu item itu lebih jelas.

4.2.2 Item Esei Jawapan Terbatas

Item jawapan terbatas berkecenderungan menghadkan bentuk dan

respons pelajar. Bentuk respons biasanya dihadkan melalui skop yang

disoal dan markah yang diperuntukkan. Manakala panjangnya respons

adalah dari segi ruangan jawapan yang disediakan. Biasanya item ini

memerlukan pelajar memberikan respons dalam satu prasa atau

beberapa ayat atau satu perenggan.

Item jenis ini tidak terhad kepada menguji pengetahuan sahaja. Dengan

menghadkan bentuk dan panjangnya respons pelajar, pemarkahan lebih

terselaras dan dapat meninggikan kebolehpercayaan skor ujian. Respons

yang diharapkan lazimnya dibina atau dipandu berdasarkan stimulus dan

tugasan item. Dalam menyediakan item respons terhad, butiran yang

disoal boleh melampaui tahap pengetahuan seperti mentaksir kemahiran

aplikasi atau menyelesaikan masalah.

Item jawapan terbuka berupaya memfokuskan tugasan item kepada

sesuatu tujuan yang khusus namun item jawapan terbuka tidak sesuai

digunakan untuk menguji kemahiran intelek yang lebih tinggi. Item

jawapan terbuka tidak mampu mengumpulkan evidens yang mencukupi

tentang kemahiran berfikir plelajar dan berkemungkinan banyak memberi

respons secara terbuka.

4.2.3 Item Esei Jawapan Terbuka

Item jawapan terbuk bersifat polikotomus dan mengundang pelbagai

kemungkinan jawapan daripada pelajar secara bertulis. Item ini

memberikan kebebasan kepada pelajar untuk merancang dan

membentuk jawapan. Pelajar bebas mengemukakan idea, pendapat dan

tanggapan mereka, mengorganisasikan idea, membina hujah yang logis,

membentangkan penilaian sesebuah pemikiran atau mengaitkan

pemikiran dan perasaan. Oleh itu jenis item ini sesuai untuk mengukur

konstruk yang memerlukan pelajar menggunakan beberapa kombinasi

kemahiran seperti menginterpretasi, menyelesaikan masalah dan

membuat keputusan. Meskipun begitu , darjah kebebasan ini tertakluk

kepada keperluan tugasan, stimulus dan prompt yang diberi. Item jenis ini

membolehkan pelajar mempamerkan proses pemikiran kritis dan kreatif

mereka kepada pentaksir.

Dalam item respons terbuka, pelajar diperlukan mengutip dan memilih isi-

isi dan idea-idea daripada pengetahuan sendiri, menyusun idea-idea dan

isi-isi itu dan seterusny menulisnya dengan cara yang logik dan dapat

difahami. Peraturan pemarkahan yang disediakan perlulah jelas, terperinci

dan komprehensif.

Kekuatan item jawapan terbuka adalah ia boleh :-

a) Menerokai pelbagai pilihan, cara ata pendekatan bagi menyelesaikan

masaalah

b) Membuat pertimbangan dan penilaian tentang sesuatu idea atau

maklumat.

c) Menghasilkan sesuatu idea yang asli.

d) Menyatu dan mengabungkan pelbagai pengetahuan, idea dan

maklumat daripada pelbagai sumber pembelajaran.

e) Mengenalpasti, memilih, menyusun dan mempersembahkan sesuatu

perkara atau idea dalam bentuk suatu komunikasi.

Namun item jawapan terbuka juga mempunyai kekangan dalam :-

a) Memerlukan pemeriksa yang terlatih untuk membuat penskoran

b) Memerlukan masa yang agak panjang untuk penskoran dan

perbandingan dengan item objektif

c) Penskoran respons pelajar dilakukan secara subjektif dan boleh

memberikan kesan ‘halo’ ( potensi dalam ketidaktepatan pemerhatian

kesan dari terlalu membuat kesimpulan lebihan keatas sesuatu bukti

atau keutamaan atau pengaruh )

d) Memerlukan pelajar menulis dengan bentuk tulisan yang jelas dan

boleh dibaca. Bentuk tulisan yang kuang jelas dan sukar dibaca akan

menjejaskan pemeriksa untuk memahami idea atau maklumat yang

disampaikan dan boleh menjejaskan skor pelajar.

1. Senaraikan jenis item ujian yang anda tahu dan

nyatakan kelebihan dan kekurangan yang anda boleh

fikirkan.

2. Bincangkan jata-jata tugas yang sesuai dalam membina item ujian

Rumusan

Dalam bab ini, kita telah membincangkan mengenai jenis-jenis item ujian.

Membina item atau soalan ialah satu keadah mengukur dan menilai pencapaian

pelajar. Program ini memerlukan guru yang terlatih, penglibatan pelbagai

kepakaran, kurikulum dan kaedah pengajaran khas. Membina item ujian bukan

sahaja mengambil masa yang lama tetapi memerlukan penelitian. Item ujian

boleh membantu mengukur pencapaian kognitif pelajar atau murid jika ianya

dibina dengan betul.

Glosari

Item Aneka-Pilihan . Item aneka-pilihan boleh digunakan untuk

mengukur pengetahuan dan konsep yang kompleks. Oleh kerana

item aneka-pilihan boleh dijawab dengan cepat anda boleh menilai

kemahiran murid dalam pelbagai bidang dalam ujian sejam.Item ini

mudah diberi markah. Item aneka-pilihan yang baik sukar dibina

dan ditadbirkan.

Item Betul-Salah. Oleh kerana peluang untuk membuat tekaan

adalah tinggi, item ini dianggap rendah kebolehpercayaannya.

Sesuai digunakan pada ketika tertentu sahaja.

Item Esei. Item esei membolehkan anda mengukur kebolehan

pelajar dalam menyusun, menerangkan dan menyatakan pendapat

dalam bahasa yang sendiri. Kajian menunjukkan pelajar akan

belajar dengan lebih tekun jika menghadapi ujian esei dari

menghadapi ujian anaeka-pilihan; pelajar akan bersedia untuk

menumpukan hal dan isu yang lebih luas. Ujian esei juga

membolehkan anda memberi komen mengenai pencapaian pelajar,

tahap pemikiran dan tahap kefahaman yang tinggi dan juga boleh

mengesan kekurangan pelajar. Namun ujian esei hanya mampu

mempamirkan bilangan soalan yang rendah dan kandungan

kesahan adalah rendah. Kebolehpercayaan ujian iuga agak

subjektif dan pengredan adalah tidak konsisten.

Item Objektif. Item objektif termasuklah betul-salah, mengisi tempat

kosong, padanan dan aneka-pilihan. Perkataan objektif menunjukkan

bahawa hanya satu jawapan sahaja yang diperlukan. Bergantung kepada

kemahiran membaca dengan pantas dan menerangkan jawapan.

Item Padanan. Format memadan adalah efektif untuk menguji

perhubungan diantara perkataan dan defines, kejadian dan tarikh,

kategori dan contoh.

Item Jawapan Pendek . Bergantung kepada objektif anda, ujian jawapan

pendek boleh dijawab dalam bentuk satu ayat atau lebih. Mudah ditulis

namun agak sukar untuk di skor. Membolehkan anda melihat kebolehan

pelajar anda menyatakan pendapat mereka.

Jadual Penentuan Ujian. Jadual penentuan ujianmengandungi carta

dua-hala atau grid yang mengaitkan objektif arahan dengan kandungan

arahan. Lajur senarai carta menyenaraikan objektif ( tahap kemahiran)

dan barisnya menyenaraikan kunci konsep pengukuran ujian tersebut.

Rujukan :

1. Hale, Gordon et al (December 1980), "Effects of Item Disclosure on TOEFL

Performance," Research Report No. 8, Educational Testing Service,

Princeton, NJ.

2. ED322060. (1988) Social Studies Grade 8. Blue Prints for Testing Minimum

Performance Test Item Specifications.

3.< Hecht, James T. (1974) The Development and Structure of Professional

Examinations Planned for National Use.

4. Childs, R.A. (1989) ED315426 .ERIC Clearinghouse on Tests Measurement

and Evaluation

Washington DC., American Institutes for Research Washington DC.

5. Notar, Charles et al (2004). The table of specifications: insuring

accountability in teacher

made tests. Journal of Instructional Psychology.

BAB 5 KESESUAIAN ITEM UJIAN

Pengenalan

Selepas sesuatu pembinaan dijalankan , satu pencerapan haruslah

dijalankan bagi memastikan samada item atau soalan tersebut sesuai

untuk digunakan. Biasanya prosedur yang dijalankan termasuklah

menganalisa setiap item tersebut. Ini adalah untuk membolehkan kita

mengasing atau menggunakan item-item tersebut untuk tujuan ujian

seterusnya. Seperkara lagi ialah untuk memastikan samada pengguna

tahu atau tidak tahu akan ujian yang akan diambil. Dalam memastikan

bahawa item tersebut boleh digunapakai adalah membuat pengukuran

perbezaan bagi setiap item yang dijalankan. Sebagai contoh, jika ujian

yang dibina adalah bertujuan mengukur pencapaian sekolah maka ujian

yang hendak dijalankan hendaklah akur akan pencapaian yang

ditetapkan.

Kesahan item bagi tujuan meramal pengukuran criteria boleh di tentukan

dengan membuat pengiraan korelasi diantara skoran tehadap item

dengan skoran pengukuran tersedia. Pengukuran korelasi koefisien yang

sering digunakan adalah koefisien titik-biserial ( point-biserial coffecient).

Namun bagi tujuan pengukuran bilik darjah, kebiasaannya posedur yang

disering digunakan adalah melibatkan penentuan peratus pengambil ujian

yang lulus setiap item denga korelasi setiap criteria item. Dalam hal ini,

criteria yang dimaksudkan adalah skor keseluruhan ujian tersebut. Item

yang berkualiti harus mempunyai ciri-ciri keakuran dari aspek kurikulum,

spesisfikasi dan peluang. Item juga hendaklah tepat dalam konstruknya,

tepat akan tajuk atau konteksnya dan hendaklah jelas dari segi stimulus,

tugasan dan arahan. Oleh itu item atau soalan yang dibina juga hendaklah

sesuai dengan kehendak serta ketetapan.

Objektif

Diakhir bab ini, anda seharusnya dapat :

i) menilai ujian berdasarkan tahap kebolehpercayaan dan kesahanujian

ii) membina item ujian agar lebih dipercayai dan sah

5.1.1 Indeks Kesukaran

Yang pertama adalah indeks kesukaran (item-difficulty index) (p). Indeks

ini ditentukan dengan nisbah calon yang mendapat jawapan betul bagi

sesuatu item dan dinyatakan dalam persamaan berikut

Bilangan calon yang menyatakan jawapan yang betul bagi

item x

P = Bilangan calon yang menjawab item x

Nilai bagi p ialah diantara 0.00 hingga 1.00. item yang mudah mempunyai

p yang besar dan sebaliknya sesuatu item yang sukar nilai p adalah kecil.

Walau bagaimanapun, dikatakan bahawa item yang terlalu mudah

( apabila nilai p adalah lebih dari 0.85 ) atau item itu terlalu sukar ( apabila

p kurang daripada 0.15 )tidak akan memberikan maklumat psikometrik

yang berguna.

Aras kesukaran item boleh ditentukan dengan nilai p, seperti berikut ;

Nilai p Aras kesukaran

0.61 hingga

0.80

Item mudah

0.36 hingga

0.60

Item sederhana

0.20 hingga

0.35

Item sukar

Indeks kesukaran juga boleh ditakrifkan sebagai peratusan pelajar yang

menjawab ujian dengan betul. Lagi besar peratusan jawapan betul yang

diperolehi lagi mudahlah sesuatu item. Lagi tinggi peratusan item kesukaran

lagi mudahlah item tersebut (Wood, 1960). Item yang dijawab betul oleh

85% pelajar akan mempunyai nilai p 0.85, manakala item yang dijawab

betul oleh 50% pelajar akan mempunyai nilai indeks kesukaran p yang

rendah iaitu 0.50.

Nilai p hanyalah satu ukuran sikap. Definisi lain bagi terma kesukaran

dalam ciri intrinsik, kesukaran boleh didefinisikan dalam bentuk kekerapan

relatif pengambil ujian memilih respon jawapan yang betul (Thorndike et al,

1991). Sebagai contoh, item manakah dikatakan sukar ?

1. Siapakah Tunku Abdul Rahman Putra Al-Haj ?

2. Siapakah Tun Dr.Mahathir ?

Kita tidak boleh menyatakan item mana yang sukar selepas membaca

soalan ini. Seseorang akan hanya mengenali nama bagi kedua-dua tokoh

tersebut. Namun untuk menyatakan soalan mana yang ditanya itu sukar

hanya boleh ditentukan dengan membuat ujian kesukaran item.

Contoh yang lain, item ujian Bahasa Inggeris yang sukar bagi pelajar

sekolah rendah akan ternyata lebih mudah bagi pelajar sekolah

menengah kebangsaan. Nilai p akan membolehkan kita membuat

pengukuran indek kesukaran di situasi atau ditempat berbeza. Adalah

sukar, bagi kita menentukan samada menjawab soalan sejarah

melibatkan pengetahuan yang lebih mantap, kompleks atau khusus dari

yang diperlukan untuk menjawab soalan matematik. Apabila nilai p

digunakan untuk menentukan indek kesukaran, adalah lebih mudah bagi

menentukan samada item ujian sejarah adalah lebih sukar dari item

matematik khusus bagi ujian yang diambil oleh pelajar yang sama.

Untuk lebih memahami keadaan ini, kita lihat beberapa lagi contoh

berikut. Apabila kita memilih jawapan yang tidak ditetapkan ( p=0 ), dan

tidak ada perbezaan individu didalam skoran bagi item tersebut. Apabila

semua item didapati sukar, majoriti ujian skoran adalah rendah. Dan jika

semua item adalah mudah, kebanyakan ujian skoran adalah agak tinggi.

Oleh itu, nilai p akan terus menghalang kepelbagaian ujian skoran.

Bagi item objektif yang skornya berbentuk dikotomus, aras kesukaran item

ditakrifkan sebagai peratus atau kadar bilangan murid yang memberi

respons dengan betul, kadaran tersebut dipanggil indeks kesukaran item.

Contoh:

Berikan definisi indeks kesukaran.

Item A yang direspons betul oleh 80 daripada 100 orang murid, indeks

kesukarannya ialah 80% atau 0.8. Item B yang direspons betul oleh 30

daripada 100 orang murid, indeks kesukarannya ialah 30% atau 0.3.

Pengiraan di atas menunjukkan :

Item A lebih mudah daripada item B. Aras kesukaran item lebih tinggi

daripada item A.

Bagi item subjektif yang skornya boleh bernilai 0, 1, 2, 3, …atau tidak

dikotomus, indeks kesukarannya ditentukan dengan mencari peratus skor

min (skor purata) atau kadar skor min.

Indeks kesukaran item (K) = Skor Purata

Skor Maksimum

Indeks kesukaran bagi item ujian menerangkan bilangan pelajar yang

menjawab dengan betul sesuatu soalan yang diberikan. Sebagai contoh,

dalam sesuatu ujian didapati , indek kesukaran item adalah 65, ini

menunjukkan bahawa 65 peratus pelajar yang mengambil ujian tersebut

menjawab dengan dengan betul. Lagi tinggi indeks kesukaran, , lebih

mudah item ujian tersebut. Satu ujian yang merangkumi bahan subjek

berkaitan hendaklah mengandungi item yang merangkumi pelbagai nilai

julat kesukaran, namun, jika terdapat peluang atau petunjuk bahawasanya

akan ada indeks atau tahap dibawah 25 , maka seharusnya item tersebut

tidak dimasukkan. Begitu juga jika sesuatu item ujian dijangka akan

menjadi terlalu mudah maka ianya juga harus tidak disertakan.

Lagi tinggi peratusan item kesukaran lagi mudahlah item

tersebut.Bincangkan.

Ujian kebolehpercayaan dan kesahan akan dimaksimakan jika

kebanyakkan kesukaran item adalah agak mudah yakni diantara tahap

peluang dan 100. Dalam keadaan biasa, sesuatu ujian hendaklah yang

mengandungi tahap kesukaran diantara julat 60 hingga 85 dan selebihnya

pada sekitaran 25 dan 100. Ujian yang mengandungi 2 alternatif (betul-

salah) seharusnya mengandungi tahap kesukararan diantara 50 hingga

100.

Koefisien korelasi titik-biserial mengukur hubungan diantara skor item

dengan skor ujian. Nilai julat statistik ini adalah diantara -100 dan + 100.

Nilai positif tinggi menunjukkan sesesorang yang menjawab item dengan

betul akan menerima skoran yang tinggi dalam ujian berbanding dengan

menjawab dengan tidak betul. Nilai hampir sifar akan menunjukkan

terdapat hubungan yang sedikit diantara skoran pada item dan skoran

ujian. Adalah harus untuk mengekal item ujian yang mempunyai koefisien

korelasi titik biserial yang tinggi dan membuangkan item ujian yang hampir

bernilai sifar atau bernilai negatif. Sebagai panduan, adalah dicadangkan

item korelasi yang bernilai negatif atau hampir sifar ( 10 atau kurang)

dibuang atau dikajisemula dan item ujian yang bernilai kolerasi positif

rendah dikaji semula bagi menentukan bagaimana untuk memperbaiki

keadaan item tersebut.

Rumusan konsisten dalam Kuder-Richardson 20 digunakan dalam

pengiraan komputer bagi menentukan anggaran kebolehpercayaan item

ujian. Korelasi kebolehpercayaan jenis ini akan menentukan dan

memberikan tahap indikasi individu yang mengambil ujian akan

memperolehi skoran yang sama dalam ujian. Nilai anggaram julat Kuder-

Richardson ini adalah diantara 0.000 dan 1.000. Nilai yang hampir dengan

+1.000 menunjukkan ujian tersebut mempunyai tahap kebolehpercayaan

yang tinggi. Anggaran hendaklah dibuat secara berhati-hati jika bilangan

pelajar yang mengambil ujian tidak menyempurnakan ujian dalam masa

yang ditetapkan. Untuk ujian biasa selama 50 minit, koefisi

kebolehpercayaan pada tahap 0.75 adalah sesuai. Kebolehpercayaan

boleh ditingkatkan melalui ujian ulangan berdasarkan analisis data yang

dijalankan. Memanjangkan masa ujian (apabila terdapat ujian amali) boleh

meningkatkan tahap kebolehpercayaan, terutama bagi ujian pendek.

Pengukuran ralat rawak adalah anggaran bagi ralat kemungkinan skoran

ujian. Ia diinterpretasikan sebagai mana dijalankan keatas sisihan piawai.

Pengukuran ralat rawak pada tahap 3.500 sebagai contoh, menunjukkan

bagi mana-mana satu skoran ujian, kemungkinannya adalah 2 : 1, yang

mana skoran sebenar pelajar ( purata skoran bagi setiap ujian ) tidak akan

terpencong dari lebih 3.500. Lagi tinggi kebolehpercayaan dan lagi bebas

kesalahan ujian tersebut, lagi kecil lah nilai ralat tawak. Aplikasi terusan ini

kepada skoran menjadikan pengukuran ralat rawak amat penting bagi

menilai perbezaan diantara pelajar dan menentukan markah dan gred.

Indek kesukaran boleh digunakan untuk:

Mengenalpasti konsep yang akan diajar semula

Menyediakan atau memaklumkan kemungkinan kelemahan dan kekuatan

kurikulum

Memberi maklumbalas kepada pelajar

Memberi atau memaklumkan mengenai kemungkinan item bias

5.1.2 Indeks Diskriminasi ( rbis )

Jika sesuatu ujian dan sesuatu item mengukur perkara yang sama,

seseorang akan menganggap mereka yang boleh menjawab dalam ujian

tersebut akan menjawab dengan baik atau betul bagi item tersebut dan

jika mereka yang gagal menjawab ujian tersebut akan turut gagal alam

menjawab item tersebut. Item yang baik akan mendiskriminasikan

diantara mereka yang baik dengan mereka yang kurang baik.

Indek diskriminasi ialah pekali korelasi yang mengaitkan skor ujian ( data

selanjar ) dengan skor setiap opsyen ( data dikotomous , 1 jika memilih

dan 0 jika tidak memilih opsyen bagi sesuatu item berkenaan. rbis

digunakan untuk menentukan darjah keupayaan sesuatu item bagi

membezakan antara calon daripada kumpulan yang mempunyai market

keseluruhan ujian yang tinggi dengan yang rendah.

Pekali korelasi “point-biserial”, ditentukan dengan menggunakan

persamaan berikut :

dimana :

x ialah min skor ujian calon yang menjawab betul

µ ialah min skor ujian

σ ialah sisihan piawai ujian

p ialah nisbah calon yang menjawab betul (indeks kesukaran)

q = ( 1 – p )

Nilai indeks diskriminasi adalah antara – 1.00 hingga 1.00. rpbis yang

bernilai positif menunjukkan calon yang mendapat skor ujian yang tinggi

menyatakan jawapan yang betul, manakala calon yang mendapat skor

ujian yang rendah memilih opsyen yang salah (distraktor). Jika sebaliknya

berlaku, dimana calon yang mendapat skor ujian yang tinggi memilih

opsyen yang salah (distraktor), manakala calon yang mendapat skor ujian

yang rendah menyatakan jawapan yang betul, rpbis akan bernilai negative.

Bagi item yang menunjukkan nilai rpbis adalah 0, bermakna item ini tidak

dapat mendiskriminasikan antara pelajar dari kumpulan yang mendapat

skor tinggi dengan kumpulan calon yang mendapat skor ujian yang

rendah.

Pengelasan kebolehan item mendiskriminasi berdasarkan rpbis

rpbis Pengelasan

0.40 dan keatas Sangat baik

0.30 hingga 0.399 Baik

0.20 hingga 0.299 Sederhana

0.10 hingga 0.199 Kurang baik

Kurang daripada

0.10

Tidak baik

Apakah yang dimaksudkan dengan indeks diskriminasi.

Bincangkan

5.1.3 Pemarkahan Item dan Tahap Masa Ujian

Menjawab persoalan sama ada sesuatu ujian boleh menjamin ketekalan

dalam pemeriksaan dan pemarkahannya. Sama ada ujian itu akan

diperiksa dan diberi markah oleh beberapa orang guru sebagai pemeriksa

yang berasingan atau oleh seorang guru. Sesuatu ujian dikatakan

mempunyai kebolehpercayaan (ketekalan) antara beberapa orang

pemarkah sekiranya keputusan pemarkahan mereka sama atau hampir

sama.

Faktor penting ialah skim pemarkahan bagi ujian tersebut. Skim ini

bertujuan untuk menyelaraskan prosedur pemarkahan atara pemeriksa

dan menjaga ketekalan dalam pengagihan markah. Ini amat penting bagi

ujian jenis subjektif, seperti ujian mengarang, ujian lisan yang dinilai oleh

pemeriksa secara bersendirian. Tujuan skim ini untuk mengurangkan ciri

subjektiviti kepada peringkat yang paling minimum dan meningkatkan ciri

objektiviti kepada peringkat yang paling maksimum dan mengawal

ketekalan pemarkahan dan pengukuran melalui satu skim pemarkahan

yang standard atau serupa.

Bagi ujian bahasa yang bercorak objektif seperti ujian kefahaman bacaan

atau aspek bahasa yang lain menggunakan soalan dalam bentuk aneka

pilihan, persoalan subjektiviti dalam pemarkahan mungkin tidak timbul.

Bagaimanapun, ketekalan pemarkahan antara pemeriksa yang biasanya

terkawal ketat dalam ujian yang menggunakan soalan-soalan aneka

pilihan. Ketekalan jenis ini tidak mencukupi untuk menjamin

kebolehpercayaan sesuatu ujian secara keseluruhannya. Sesuatu ujian

yang berbentu aneka pilihan biasanya terdiri daripada beberapa item.

Setiap item perlu dinilai dari aspek kebolehpercayaan atau ketekalannya

menjalankan sesuatu tugas. Kita perlu melihat kebolehpercayaan item

tersebut.

Perkiraan sama ada hendak menjalankan sesuatu ujian pada hujung

bulan, pertengahan bulan, hujung penggal, pertengahan tahun atau pada

hujung tahun akan membawa implikasi terhadap penentuan skop dan

kandungan ujian tersebut. Dengan kata lain, ini akan menentukan jenis

ujian yang akan dibina oleh guru, sama ada ujian formatif atau sumatif.

Dalam pendidikan bahasa, ujian formatif mempunyai skop dan kandungan

yang terhad. Ujian ini mungkin tentang satu atau dua kemahiran bahasa

ataupun tertumpu kepada satu atau dua aspek bahasa seperti tatabahasa

atau perbendaharaan kata. Bagi kemahiran bahasa pula, kadang kala

ujian ini tertumpu pada kefahaman mendengar sahaja ataupun bacaan

dan kefahaman sahaja. Dalam kemahiran menulis pula, ujian yang

bercorak formatif mungkin hanya menguji kemahiran murid menulis surat

kiriman, misalnya jenis rasmi seperti memohon pekerjaan atau menulis

karangan mengikut tajuk yang bercorak perbincangan sahaja. Jenis ujian

kecil ini bertujuan untuk melihat kemajuan murid dalam mempelajari

sesuatu kemahiran atau aspek bahasa yang tertentu sebelum guru

melanjutkan pengajarannya dengan perkara baru.

Dalam pendidikan bahasa, ujian bulanan atau ujian pertengahan penggal

eloklah bercorak formatif dan diagnostik yang bertujuan untuk menguji

kemajuan murid dalam mempelajari satu atau dua kemahiran atau aspek

bahasa dari semasa ke semasa. Contohnya, ujian bacaan dan kefahaman

juga ada pelbagai jenis. Sekiranya guru telah menguji bacaan dan

kefahaman keratan pelbagai jenis prosa dalam bulan Januari, mungkin

dalam bulan lain guru tersebut boleh menguji bacaan dan kefahaman

puisi.

Sekiranya ujian yang hendak dijalankan itu pada tahap pengajaran yang

lebih panjang seperti di hujung penggal, pertengahan tahun atau di hujung

tahun, skop dan isi kemahiran atau aspek bahasa yang akan diuji menjadi

lebih luas. Ini mungkin memerlukan guru membina ujian yang lebih

menyeluruh dan bercorak sumatif bagi tahap tersebut.

Ujian yang bercorak sumatif memerlukan guru memilih satu sampel

subkemahiran yang hendak diuji. Hal ini perlu sekiranya subkemahiran

yang telah diajar itu banyak dan luas, contohnya aspek tatabahasa dan

peribahasa. Mungkin dalam tempoh sepanjang penggal atau sepanjang

tahun guru telah mengajar pelbagai jenis tatabahasa dan peribahasa.

Tetapi dalam ujian penggal atau hujung tahun itu, guru boleh membina

hanya beberapa soalan atau ujian tentang tatabahasa atau peribahasa.

Pada pendapat anda, adakah tempoh mengadakan ujian memberikan

kesan ketas ujianyang dijalankan. Bincangkan.

5.2 Kebolehpercayaan Ujian

Kebolehpercayaan boleh merujuk kepada ciri skor berhubung dengan

ketepatan dan ketekalan skoran bagi mengambarkan prsetasi calon

dalam perkara yang diuji. Kebolehpercayaan skor berkait rapat dengan

instrumen pentaksiran yang digunakan. Kita harus bertanya samada ujian

yang diberi dapat memberi ukuran yang konsisten kepada seseorang

pelajar jika pelajar tersebut mengambilnya berulangkali. Skoran yang tidak

konsisten yang disebabkan pembolehubah seperti kandungan yang tidak

berkaitan, ujian yang tidak sesuai, kohort dan sebagainya.

Kebolehpercayaan atau reliabiliti yang berkaitan dengan konsep ujian

hendaklah boleh diharapkan, adalah stabil, tidak berubah dan tetap sama,

boleh di agak atau dijangka dan tepat. Begitu juga jika kita mempercayai

seseorang insan atau kawan yang sudah semestinya mempunyai sifat-

sifat yang dinyatakan. Begitu juga dengan sesuatu ujian yang dijalankan

dan dihasilkan, ianya mestilah boleh dipercayai dan bermakna.

Kebolehpercayaan ujian boleh disebut sebagai darjah ketekalan antara

dua pengukuran terhadap sesuatu bahan atau benda.

Dalam bilik darjah atau makmal, seorang guru biasanya mengharapkan

untuk memperoleh pengukuran yang sama keatas sesuatu benda yang

yang diukur, atau, mendapatkan pertimbangan yang sama apabila

mengunakan penimbang yang berbeza dalam masa yang berbeza. Dalam

mengukur pencapaian pelajar pula, guru mengharapkan keputusan ujian

dakan tekal bagi gua ujian yang sama bentuk yang dijalankan kepada

kumpulan yang sama pada dua masa yang berbeza.

Konsep asas teori pengujian menyatakan bahawa skoran yang dicerap

atau diperhatikan (observed score) iaitu skor yang didapati oleh

seseorang pelajar didalam sesuatu ujian mempunyai dua komponen :

i) skor sebenar ( true score iaitu ukuran sebenar kebolehan pelajar )

dan

ii) skor ralat ( error score iaitu ukuran yang disebabkan oleh alat dan

kaedah pengukuran )

Oleh itu kita boleh membuat anggapan bahawa tiada skor yang menjadi

ukuran sebenar bagi kebolehan seseorang.

Dalam ujian bahasa kita boleh katakan bahawa kebolehpercayaan

sesuatu ujian sebagai ketekalan, iaitu mengukur sesuatu kemahiran atau

aspek bahasa yang hendak diukur. Perkara yang hendak dinilai ialah

ketekalan pengukurannya sebagai alat penguji. Contohnya, kita setuju

bahawa jam adalah alat yang sah untuk mengukur masa. Alat ini

mempunyai syarat terpenting sebagai alat penguji, iaitu kesahan.

Selain itu kita persoalkan syarat kedua, iaitu ketekalan

(kebolehpercayaan) pengukurannya. Jam yang baik akan menunjukkan

waktu pukul lapan setiap hari apabila berita TV3 dibacakan. Sekiranya

jam itu menunjukkan pukul 8.15 atau pukul 8.20 walaupun waktu yang

sepatutnya pukul 8.00 tepat, kita katakan pengukurannya tidak tepat dan

tidak boleh dipercayai. Dengan kata lain, ukuran waktu yang ditunjukkan

tidak tekal. Sebuah jam sebagai alat pengukur masa yang sah perlu boleh

dipercayai dari segi ketekalan waktu yang ditunjukkannya.

Dalam memilih dan membina ujian bahasa di bilik darjah amatlah penting

bagi guru bahasa memikirkan tentang kebolehpercayaan sesuatu ujian

yang hendak digunakan. Kebolehpercayaan ujian tersebut ialah mengenai

ketekalannya mengukur sesuatu kemahiran atau aspek bahasa yang

diukurnya. Misalnya, sekiranya ujian digunakan pada pelajar yang sama,

bolehkah menunjukkan keputusan yang sama walaupun ujian itu

digunakan dua kali pada waktu yang berlainan.

Guru bahasa boleh membina ujiannya sendiri atau memilih dan

menggunakan ujian yang sedia ada, mengetahui faktor yang boleh

mempengaruhi kebolehpercayaan sesuatu ujian dan menggunakan

pengetahuan ini bagi membina atau memilih ujian. Menurut teori ujian dan

pengukuran, terdapat tiga jenis kebolehpercayaan. Setiap satunya

merujuk kepada ketekalan pengukuran yang boleh dihasilkan sesuatu

ujian.

Kebolehpercayaan item bermaksud ketekalan sesuatu item ujian itu

membezakan murid yang lemah dalam sesuatu kemahiran atau aspek

bahasa. Contohnya, ujian ejaan yang mengandungi 25 atau 50 item

ejaan, guru perlu jangkakan bahawa terdapat ejaan yang hanya boleh

dieja dengan betul oleh murid yang pandai dan kerap dieja salah oleh

murid yang lemah dalam ejaannya. Sekiranya ini berlaku, kita katakan

item ejaan yang susah mempunyai kebolehpercayaan item yang tinggi

kerana ketekalannya (kebolehpercayaan) membezakan antara murid yang

pandai dan murid yang lemah dalam ujian. Sebaliknya berlaku, iaitu ejaan

yang susah kebanyakannya boleh dieja dengan betul oleh murid yang

lemah dan tidak boleh dieja oleh murid yang pandai, kita katakan item

tersebut tidak boleh dipercayai.

Kebolehpercayaan item kadang kala disebut sebagai ketekalan dalam

sesuatu ujian kerana setiap item dalam ujian berfungsi dalam

kebolehpercayaan atau ketekalannya membezakan murid yang pandai

dengan murid yang lemah tentang kemahiran atau aspek bahasa yang

diukur ujian tersebut

Sehubungan itu, guru janganlah menggunakan item yang terlampau

senang. Ini kerana murid yang pandai dan lemah pun boleh

menjawabnya. Oleh yang demikian item-item tersebut tidak dapat

berfungsi dalam membezakan antara kedua-dua golongan pelajar

tersebut. Guru janganlah menggunakan item soalan yang terlampau

susah. Hal ini kerana murid yang lemah dan pandai tidak dapat

menjawabnya. Oleh yang demikian item tersebut tidak dapat

membezakan antara murid yang lemah dengan murid pandai. Sepatutnya

item yang digunakan oleh guru adalah item soalan yang bercorak susah,

sederhana dan senang dan bukan yang terlampau susah atau terlampau

senang. Selain itu, item yang kabur atau yang mempunyai dua pilihan

jawapan yang boleh dianggap betul hendaklah digugurkan daripada ujian

tersebut.

Pekali kebolehpercayaan selalunya diwakili oleh nombor yang bernilai

diantara 0 hingga 1 yang menunjukkan kestabilan sesuatu ujian. Ada tiga

kaedah yang dikemukakan untuk menghitung kebolehpercayaan sesuatu

ujian iaitu Kaedah Test-Retest, Kaedah Bentuk Selari dan Kaedah Belah

Dua.

Bincangkan mengenai kebolehpercayaan ujian

Kaedah Test-Retest

Dengan mengunakan kaedah test-retest , Pembina ujianakan memberi

ujian yang sama kepada calon di situasi yang berbeza.

Skoran yang diperolehi pada tadbiran ujian pertama dibandingkan pada

skoran tadbiran ujian ke dua dengan menggunakan korelasi ( r )

Kaedah ini menguji pencapaian keatas waktu dan memberi kestabilan

anggaran

Kebanyakkan penyelidik menganggap kaedah ini amat sesuai untuk

membuat pengukuran sementara, yang merujuk kepada konsistensi

skoran ujian berbanding dengan kebolehpercayaan sebenar yang

didefiniskan sebagai nisbah diantara varians sebenar dengan varians

pemerhaatin

Pentadbiran ujian diantara kedua-dua ujian boleh dijalankan dalam masa

yang terdekat maupun masa yang berlainan

Apakah yang anda dapat agak jika masa pentadbiran ujian dijalankan

agak lama ? tentulah tahap kebolehpercayaan adalah meingkat, kenapa ?

Anggapan yang boleh dibuat adalah, calon-calon yang sama mengambil

ujian semula tidak akan berubah dari segi sikap dan tahap kebolehan

mereka walaupun pada dan waktu yang berbeza. Bolehkah anda fikirkan

sebarang factor yang boleh menukarkan respons seseorang dengan

cepat.

Salah satu kembimbangan yang dijangkakan adalah dikatakan sebagai

latihan atau kesan tanggungan . Latihan atau latih-tubi adalah kelebihan

kepada calon yang telah mengambil ujian tersebut, ini akan membolehkan

mereka menyelesaikan atau memperbetulkan sebarang kesilapan keatas

ujian yang pernah mereka ambil. Keadaan ini adalah satu perhatian

khusus yang perlu diambil kira berkaitan dengan ujian semula .

Sesetengah penyelidik memberi pandangan berbeza mengenai kesan

latihan ini kerana kesan ini dianggap sebagai unsure kestabilan dan

ketidak-stabilan dalam pengukuran sementara sesetengah yang lain

menganggapnya sebagai unsure bagi pengukuran ralat rawak. Bolehkah

anda memikirkan satu contoh lain ?

Kaedah Bentuk Selari

Bagi mengantikan kaedah latihan dan lain-lain masalah dengan kaedah

test-retest, Pembina ujian biasanya memberik ujian yang selari kepada

calon yang sama tetapi berlainan masa.

Kebolehpercayaan, dalam hal ini, sekali lagi di nilai dengan korelasi. Apa

yang berkaitan atau yang dikorelasi ?

Kunci aspek kebolehpercayaan ini adalah untuk membentuk alternative

yang hamper sama dengan terma kandungan, proses respons, kaedah

dan cara, dan ciri statistic. Adakah aktiviti semula dan kesan latihan

dihapuskan atau hilang terus ? adakah cara lain bagi kaedah alternative

ini ?

Kaedah Belah-Dua

Kaedah belah-dua ini mengukur konsistensi dalam ujian. Ingat lagi pada

pita pengukur, ia mempunyai konsistensi dalaman yang tinggi. Ukuran

kaki yang pertama adalah sama dengan ukuran kaki ke dua dan ketiga

dan begitu juga dengan setiap ukuran sentimeternya , ianya adalah

uniform.

Kaedah belah dua juga turut mengurangkan atau menghapuskan

beberapa masalaah seperti :

a. keperluan menjalankan dua ujian

b. kesukaran membina ujian semula

c. kesan tanggungan dan pengaktifan semula

d. perubahan sesesorang calon melalui masa

Kaedah yang mudah untuk menjalan kaedah belah-dua adalah dengan :

jalankan ujian keatas sekumpulan individu tertentu sahaja

jalankan secara rawak atau kaedah penentuan yang telah ditetapkan

hubungkaitkan sebahagian skoran awal dengan skoran baru

korelasi ini boleh digunakan untuk membuat anggaran kebolehpercayaan

ujian

Kesan sabpingan kaedah ini adalah konsistensi dalamannua yang

melibatkan masa ujian yang singkat. Apabila kita menjalankan ujian yang

agak lama, dan membahagikan soalan kepada dua , kita juga turut

mengurangkan kadar kebolehpercayaannya. Mengapa ? Soalan yang

sama jenis akan terserlah dan akan memberi makluman terhadap trait,

kemahiran dan pengetahuan untuk calon. Namun begitu, makluman

spesifik ini akan memberikan makluman kepada calon dan membolehkan

variasi kepada skoran ujian yang akan meningkatkan kebolehpercayan.

Untuk itu , perubahan dalam kaedah ini adalah diperlukan dan rumusan

Spearman-Brown boleh digunakan apabila membuat anggaran

kebolehpercayaan dengan menggunakan kaedah belah-dua.

Rumusan yang digunakan adalah :

Kebolehpercayaan Ujian Penuh = 2 X kebolehpercayaan ujian separuh

1 + kebolehpercayaan ujian separuh

Jika nilai kebolehpercayaan diantara kedua-belah didapati +0.80,

kebolehpercayaan ujian sepenuhnya akan didapati bernilai berikut :

Kebolehpercayaan ujian penuh = 2 X 0.80 = 0.89

1 + 0.80

Satu lagi rumusan yang boleh dibuat perkiraan adalah dengan

mengunakan rumus berikut : rxx = k r / (1 + (k –

1))r

Dimana k = bilangan item dalam ujian kaedah-belah dua (baru), iaitu

bilangan soalan ujian yang asal dari kaedah belah-dua dibahagikan

dengan bilangan soalan ujian yang digunakan didalam korelasi belah-dua.

Dalam erti kata yang lain, bilangan atau kadar tempoh masa ujian akan

menjadi lebih lama. Sebagai contoh, katakan ujian anda mempunyai 80

soalan. Anda menjalankan kaedah kebolehpercayaan belah-dua dan

mendapati r = 0.8. Nilai r = 0.8 adalah berdasarkan jumlah 40

item. Bilangan 40 item tersebut adalah bilangan soalan dari item asal

dalam kaedah sebelumnya. Sekarang anda inginkan kebolehpercayaan

ujian anda dipinda kerana bilangan soalan ujian adalah 80. Bilangan 80

adalah merupakan tempoh atau bilangan ujian yang baru. Oleh itu, , k =

80/40 = 2. Nota: Rumusan Spearman-Brown adalah digunakan untuk

membuat anggaran berapakah ujian kebolehpercayaan akan meningkat

apabila ujian ditingkatkan dengan memasukkan item selari.

r = adalah korelasi diantara pecahan asal

Kekurangan kepada kaedah belah-dua adalah beberapa kaedah ujian di

pecahkan. Ini membuat pecahan memberi nilai korelasi yang tinggi.

Salah satu cara bagi mengukur konsistensi dalaman adalah

membandingkan skoran setiap calon dan membahagikan kepada dua

bahagian. Ini akan mengurangkan keslilapan sebarang ralat yang timbul

akibat pecahan ujian kepada dua.

KR-20 (Kuder & Richardson, 1937, 1939). Kaedah ini digunakan bagi

soalan ujian yang skorannya adalah 0 or 1. Formula Kudder Richardson 20

dan 21 dibuat berdasarkan penskoran yang dibuat secara diskrit atau

dikotomi.Digunakan untuk item yang diskor secara dikotomi (betul-salah)

seperti dalam ujian objektif perlbagai pilihan

KR20 = k ( 1 - <Σpq)

k – 1 σT2

KR21 = k ( 1 - <m(k-m))

k – 1 ks2

Coefficicent alpha (Cronbach, 1951). Kaedah ini digunakan bagi soalan

ujian yang skorannya adalah 2 atau lebih. Cronbach alpha adalah pekali

alpha, α, yang kerapkali digunakan dalam menganggarkah

kebolehpercayaan ketekalan-dalaman. Digunakan untuk item yang diskor

secara dikotomi (betul-salah) atau politomi

α = k ( 1 - Σσi2)

k – 1 σT2

Selain dari itu, masalah yang berkemungkinan timbul adalah samada ujain

belahan adalah homogeneous (i.e., mengukur hanya satu ciri) or

heterogeneous (mengukur banyak ciri).

Penyelesaian disini adalah menentukan kebolehpercayaan ujian bagi

setiap komponen heterogeneous dan membandingkan dengan

mengunakan korelasi komponen.

5.2.1 Faktor Yang Mempengaruhi Kebolehpercayaan

Antara yang dipercayai mempengaruhi kebolehpercayaan ujian ialah :-

Kemohogenan Item

Item ujian yang homogen ialah item-item yang mempunyai kesamaan dari

segi prestasi atau peluang untuk dipilih. Bagi ujian berbentuk objektif

aneka pilihan, pilihan jawapan mestilah homogen. Ini bermakna tiap-tiap

opsyen mestilah berkaitan antara satu sama lain dan ada daya tarikan

untuk dipilih oleh pelajar. Jawapan atau distraktor seharusnya tidak bias

sehingga pelajar yang diuji terlalu mudah mengenal pasti jawapan atau

bukan jawapan. Opsyen yang tidak ada persamaan boleh menjejaskan

kebolehpercayaan skor ujian.

Pensampelan Item

Item-item yang dogunakan dalam sesuatu ujian adalah untuk menguji

sebahagian trait yang menjadi pentunjuk kepada kebolehan seseorang.

Oleh itu item tersebut adalah semata-mata sample bagi mewakili

keseluruhan trait mengenai kebolehan seseorang. Jika pemilihan itu tidak

tepat, ia menyumbangkan kepada varians ralat pengukuran. Akibatnya

skor ujian itu tidak boleh dipercayai.

Ralat Rawak

Prestasi seseorang adalah berubah-ubah mengikut keadaan

sekelilingnya. Sebarang perubahan yang berlaku di sekeliling

menyebabkan prestasi berubah. Misalnya semasa ujian tiba-tiba bunyi

bising di sekeliling calon atau bunyi loceng amaran berbunyi. Ini akan

menyebabkan tumpuan dan konsentrasi calon dan varians skor ralat akan

masuk ke dalam varians skor yang dicerap. Lain-lain contoh ralat rawak

adalah seperti sakit, penat, ketegangan emosi, risau dan lain-lain. Pihak

pentadbir yang mengendalikan ujian hendaklah menyediakan keadaan

dan persekitaran tempat yang sesuai dan peraturan pentadbiran ujian

yang sempurna.

Tempoh Ujian

Pada amnya semakin panjang atau lama tempoh ujian semakin tinggi

kebolehpercayaan skor ujian itu. Ini adalah kerana tempoh ujian dapat

memberikan persampelan yang baik dari segi tingkah laku yang ingin

diukur, malahan skor kurang dinganggu oleh tekaan.

5.2.2 Indeks Kebolehpercayaan

Selain dari nilai purata p ( indeks kesukaran ), terdapat satu lagi indeks

penting yang dipanggil indeks kebolehpercayaan atau “ alpha ( α ) “.

Indeks kebolehpercayaan akan menunjukkan pada tahap manakah

hasilan keputusan ujian adalah sama jika semua pelajar mengambil atau

mengulang semula ujian yang telah diambil ( dengan anggapan pelajar

tersebut tidak ingat atau lupa akan ujian yang lepas ). Oleh kerana

perkara sebegini tidak akan berlaku, alpha akan mengukur

kebarangkalian kebolehpercayaan dengan mengunakan ketekalan hasilan

keputusan ujian. Nilai julat indeks kebolehpercayan adalah diantara -1.00

hingga + 1.00. Namun, nilai indeks kebolehpercayaan mestilah nilai

positif, dan bagi kebanyakkan orang perbezaan pada kadaran 0.85 adalah

diperlukan. Dan apabila sesuatu ujian atau peperiksaan diambil kira, ini

akan meningkatkan tahap kebolehpercayaan keseluruhan dan nilai 0.65

bagi setiap kertas ujian adalah memadai.

5.2.3 Mempertingkatkan Kebolehpercayaan

Bagi mempertingkatkan kebolehpercayaan, pendapat menyatakan agar

tempoh masa ujian di panjangkan dan bilangan soalan ujian ditambah

atau dibanyakkan. Sebagaimana larian marathon memberi lebih jarak

atau ruang diantara pelumba lari dari pelumba acara pecut 100 meter dan

membolehkan pelumba ruang untuk menyusun langkah larian atau

merapatkan larian, ujian yang lebih lama adalah dipercayai lebih reliable

dari ujian yang pendek. Perhatian hendaklah diberi terhadap tahap

kebolehpercayaan yang berdasarkan ketekalan sample ujian dan

percambahan ujian tersebut. Jika sasaran populasi adalah pelbagai, yang

memerlukan perbezaan besar dalam mengukur kebolehan dan

pengetahuan, adalah lebih mudah untuk mencapai tahap

kebolehpercayaan yang diperlukan.

Oleh itu, pengukuran ralat piawai akan memaklumkan keberkesanan

skoran individu pelajar atau calon. Ia akan mengenalpasti ditahap

manakah skoran akan dikenalpasti ketepatannya. Tahap yang

dimaksudkan adalah jika 68% ketentuan maka ia akan ada pada tahap

purata 1 atau pun jika pada tahap 96% , ianya akan berada pada tahap 2.

Ini bermaksud , kita boleh mengenalpasti pada tahap 68%, jika calon

memperolehi skoran 30 pada ujian pertama, dan jika calon mengulang

ujian yang sama, beliau dijangka akan memperolehi purata skoran

diantara 30 + 2.7 = 33 atau 30 – 2.7 = 27 dan pada tahap 96%

pula, calon dijangka akan memperolehi skoran 30 + (2 x 2.7) = 35 dan 30

– ( 2 x 2.7 ) = 25.

5.3 Kesahan Ujian

Alat taksiran yang mengukur apa yang ia ukur adalah sah. Sesuatu alat

pengukur tidak memiliki kesahan untuk “semua tujuan”. Sesuatu ujian

mungkin sangat sah untuk sesuatu tujuan atau untuk sesuatu tahap umur

ataupun untuk jenis subjek tertentu tetapi ia tidak mungkin sah dalam

situasi lain. Oleh sebab sesuatu ujian yang tidak sah adalah dianggap

tidak berguna maka seseorang itu hendaklah membentangkan bukti yang

boleh memberi keyakinan bahawa ujian yang digunakannya mengukur

tepat cirri-ciri ujian yang berkenaan direka bentuk untuk diukur. Dalam

menilai kesahan ujian sesuatu ujian untuk tujuan tertentu kita hendaklah

memeriksa satu atau lebih dari jenis kesahan berikut.

Konsep kesahan sesuatu ujian bahasa sebagai alat untuk mengukur dan

mengkuantitikan sesuatu kemahiran atau aspek bahasa tidak berbeza

dengan konsep kesahan alat pengukur yang lain. Dalam bidang pengujian

bahasa, sesuatu ujian merupakan alat untuk mengukur sesuatu

kemahiran atau aspek bahasa. Tinggi atau rendah kesahan sesuatu ujian

bergantung pada ketepatannya mengukur sesuatu kemahiran atau aspek

bahasa yang perlu diukur berdasarkan tujuan atau fungsi pengujian.

Contohnya, ujian ejaan dianggap sah sekiranya benar-benar dapat

mengukur kebolehan pelajar mengeja.

Dalam ujian bahasa timbul persoalan sama ada kesahan sesuatu ujian

dianggap tinggi atau rendah menurut ketepatan mengukur sesuatu

kemahiran atau aspek bahasa yang hendak diukur. Setiap kali guru

membina ujian bahasa, sama ada menguji kemahiran mendengar,

bertutur, membaca, menulis atau aspek bahasa lain seperti tatabahasa,

kosa kata dan sebagainya amatlah penting bagi guru mempersoalkan

kesahan ujian yang dibina.

Adakah ujian yang dibina benar-benar dapat menguji dan mengukur

kemahiran murid mendengar?. Adakah ujian bertutur benar-benar dapat

menguji dan mengukur kemahiran murid bertutur?. Adakah ujian kosa

kata yang dibina guru benar-benar menguji perbendaharaan kata pelajar

atau hakikatnya menguji tatabahasa? Atau berlaku sebaliknya, ujian

tatabahasa yang dibina guru tidak menguji pengetahuan tatabahasa

sebaliknya menguji kosa kata. Contoh-contoh ini perlu ditanyakan kepada

diri sendiri apabila membina sesuatu alat ujian bahasa untuk menjaga

darjah kesahan atau kesahihannya. Jika guru tidak diawasi, kadang kala

alat ujian yang dibina tidak menepati tujuan ujian. Perkara lain yang

hendak diukur tidak terukur dan perkara lain pula yang terukur. Kadang

kala sesuatu ujian mungkin tidak tepat mengukur perkara yang hendak

diukur tetapi hanya mengukur sedikit sahaja atau sipi-sipi. Seterusnya kita

melihat jenis kesahan yang terdapat dalam ujian yang baik.

Berikan definisi kesahan ujian.

Bincangkan

5.3.1 Kesahan Kandungan

Kesahan ini juga dikenali sebagai kesahan logic, kesahan persampelan,

atau kesahan kurikulum dan digunakan meluas dalam ujian pencapaian.

Untuk menentukan kesahan kandungan, pembina ujian hendaklah

menganalisiskan kandungan sesuatu bidang ujian yang dinilai dan

sterusnya menstruktur satu alat yang representative untuk mengukur

pelbagai apsek kandungan berkenaan. Kesahan ini mempersoalkan sama

ada sesuatu ujian mengandungi satu sampel yang seimbang tentang

perkara yang telah diajar seperti yang terdapat dalam sukatan pelajaran

atau program pengajaran. Hal ini penting bagi ujian yang berbentuk

sumatif atau formatif. Contohnya, ujian bulan Februari guru hendaklah

menguji beberapa aspek tatabahasa yang telah diajarnya dalam bulan

tersebut. Kesahan ujian isi tinggi sekiranya item ujian yang dibina

mewakili semua aspek tatabahasa yang telah diajar dalam bulan itu.

Perkara penting dalam kesahan ini guru perlu merujuk semula rekod

pengajaran seperti buku rekod mengajar dan sukatan pelajaran. Ujian

bahasa yang bersifat sumatif seperti ujian akhir penggal, pertengahan

tahun dan ujian tahunan biasanya memerlukan guru membuat

persampelan yang lebih luas tentang kemahiran dan aspek bahasa yang

perlu diuji. Ujian bahasa yang dibina bagi menilai kemajuan murid pada

tahap tersebut mungkin mengandungi ujian tentang kemahiran lisan,

membaca, menulis karangan, meringkaskan karangan, tatabahasa,

peribahasa, kosa kata dan sebagainya. Bagaimanapun, skop ujian

hendaklah mewakili pengajaran dan pembelajaran yang telah berlaku

dalam tempoh tersebut.

5.3.2 Kesahan Gagasan

Kesahan gagasan adalah satu unsure yang dihipotesiskan untuk

menerangkan beberapa aspek tingkahlaku manusia seperti kebolehan

mekanik, kecedersan atau sifat pendiam. Juga dikenali dengan panggilan

kesahan konstruk. Kesahan konstruk ialah satu konsep atau gagasan

tentang sesuatu perkara atau benda sama ada yang abstrak atau maujud.

Contohnya, apakah konstruk (konsep) sebuah kereta? Sebuah kereta

terdiri daripada enjin, cermin, roda, gear, roda dan sebagainya.

Dalam bidang pendidikan bahasa, setiap kemahiran bahasa seperti

kemahiran mendengar, bertutur dan membaca adalah konstrak atau

konsep yang agak abstrak. Bahagian yang mengisi konstrak mengenai

sesuatu kemahiran bahasa sebenarnya adalah subkemahiran yang

membina sesuatu kemahiran bahasa. Contohnya, apakah subkemahiran

yang membina kemahiran bertutur?

Apabila kita hendak menilai sama ada ujian mengenai sesuatu kemahiran

bahasa itu mengandungi kesahan konstrak atau tidak, kita persoalkan

sama ada ujian tersebut benar-benar menguji konstrak kita mengenai

kemahiran tersebut, dan sama ada ujian itu menguji subkemahiran yang

dianggap penting dalam sesuatu kemahiran bahasa yang hendak diuji.

Subkemahiran yang terlibat dalam sesuatu kemahiran asas bahasa

sebenarnya pengisi konstrak tersebut. Tanpa mengenali konstrak

mengenai sesuatu kemahiran atau aspek bahasa, tidak mungkin kita

boleh membina ujian yang sah dan menepati konstrak tersebut. Sebelum

guru boleh menguji kemahiran muridnya dalam kemahiran membaca,

guru seharusnya faham dengan konstrak kemahiran membaca.

Sebelum guru boleh menguji dan menilai kemahiran muridnya menulis

karangan, dia seharusnya faham dengan konstrak kemahiran mengarang

dalam bahagian penting yang terdapat dalam sesuatu karangan yang

baik. Contohnya, dalam menguji kemahiran murid menulis karangan, guru

ingin melihat subkemahiran penting seperti memilih isi, menyusun isi,

tatabahasa, kosa kata dan aspek mekanis dalam penulisan. Dalam

menguji sesuatu kemahiran bahasa, kesahan konstrak mengenai sesuatu

kemahiran yang hendak diuji sangat penting. Sekiranya konstrak kita

mengenai sesuatu kemahiran itu salah, kita akan mengukur dan menilai

subkemahiran yang tidak berkaitan. Oleh yang demikian, kesahan ujian itu

dari segi konstraknya boleh dipertikaikan.

5.3.3 Kesahan Kriteria

Kesahan yang ditunjukkan melalui perbandingan skor ujian dengan satu

lebih pembolehubah luaran atau criteria yang dianggap berupaya

menyediakan pengukuran secara terus terhadap tingkahlaku atau sifat

tertentu dibawah kajian. Mengandungi dua sub-kelas iaitu kesahan

permala dan kesahan serentak.

Menurut Savignon (1983), ujian mesti kelihatan mengukur apa yang

sepatutnya hendak diukur. Bagi Hearon (1979), kesahan muka saja tidak

mencukupi, sebab kadang kala ujian bercorak ‘superficial’ sahaja.

Contohnya, guru telah membina satu ujian untuk menguji kefahaman

bacaan pelajar dengan menggunakan soalan berbentuk aneka pilihan.

Sekali pandang ujian ini mungkin mempunyai kesahan muka yang benar-

benar menguji kefahaman bacaan. Selepas diteliti, didapati terdapat

beberapa item soalannya menguji kefahaman murid mengenai sinonim,

antonim dan dan penggunaan imbuhan. Item yang dimaksudkan bukanlah

menguji kefahaman bacaan murid dalam erti kata sebenarnya.

Selepas guru membina ujian yang bertujuan menguji sesuatu kemahiran

atau aspek bahasa, perlulah disemak semula setiap item atau soalan

supaya tidak terkeluar daripada batasan atau tujuan ujian dibina.

Sebaiknya sebelum ujian dicetak atau ditadbir, dapatkan pandangan guru

lain mengenai kesesuaian item dengan kemahiran atau aspek yang

hendak diuji.

i) Kesahan Peramal

Pendidik biasanya berminat menggunakan sesuatu ujian untuk

meramal sesuatu pada masa hadapan seperti kejayaan dalam

persekolahan atau pekerjaan. Sesuatu ujian yang meramal dengan

tepat tingkahlaku pada masa hadapan yang kerananya dibentuk,

dikatakan memiliki kesahan peramal. Prosedur asas untuk

menentukan kesahan peramal ialah i) mentadirkan ujian

berkenaan, ii) tunggu hingga prestatsi yang diramalkan oleh ujian

berkenaan berlaku, dan iii) lakukan korelasi diantara skor ujian

tersebut dengan prestasi sebenar ujian yang dibentuk untuk

diramal. Semakin tinggi korelasi yang diperolehi semakin

berkesanlah ujian berkenaan sebagai satu peramal.

Masalah yang dikaitkan dengan kesahan peramal adalah ianya

hanya boleh diterima hanya dalam situasi dimana ia telah disahkan

atau dalam situasi yang sama.

ii) Kesahan Serentak

Prosedur yang digunakan untuk menentukan kesahan serentak

adalah sama dengan prosedur yang digunakan untuk menentukan

kesahan peramal. Bezanya ialah hasil yang diramal diukur pada

masa yang agak sama dengan ujian peramal dibuat. Contohnya

sekiranya sesuatu ujian baru di struktur, skor yang diperolehi para

pelajar dalam ujian ini boleh dikaitkan dengan markah yang

didapati dalam ujian sebelumnya untuk subjek yang sama, akan

dikaitkan dengan penilaian guru mereka ataupun dikaitkan dengan

skor-skor yang didapati melalui ujian yang serupa yang telah

disahkan, yang mungkin lebi mahal dan lebih sukar untuk

ditadbiekan. Daripada menunggu beberapa tahu samada sesuatu

ujian minat vokasional berupaya meramal kejayaan dalam sesuatu

pekerjaan, kita boleh mengaitkan skor yang diperolehi dalam ujian

orang-orang yang berjaya dalam sesuatu pekerjaan dengan skor

yang diperolehi dalam ujian pekerjaan lain untuk menentukan

samada ujian berkenaan membezakan dua kumpulan tersebut.

Kesahan serentak menyediakan bukti dengan agak cepat tentang

keraguan sesuatu ujian, tetapi hakikatnya bahawa ujian yang

memeliki kesahan serentak tidaklah menjamin yang ia memiliki

kesahan peramal.

Bandingkan kesahan peramal dan kesahan serentak. Apakah

perbezaan ketara diantara kedua kesahan ini.?

Rumusan

Sesetengah ahli bijak pandai mempertikaikan mengenai pandangan

amalan tradisi bahawa “ kebolehpercayaan adalah satu kemestian tetapi

kesahan tidak diperlukan” dan kenyataan ini adalah disangkal. Institusi

pemikir memberikan konsep bahawa kebolehpercayaan sebagai

invariance dan kesahan adalah unbiasedness. Satu kaedah statistic

mungkin mendapatkan satu nilai keatas persamaan sample yang

bersamaan dengan parameter populasi tetapi akan mempunyai kadar

variance yang tinggi ketas sample yang kecil. Pandangan berikutnya

menyatakan satu pengukuran boleh menjadi tidak boleh dipercayai tetapi

hendaklah mempunyai tahap kesahan yang tinggi.

Glosari

Cronbach Alpha. Satu cara untuk mencari ketakalan dalaman atau

keseragaman soalan

Indeks Kesukaran. Boleh ditakrifkan sebagai peratusan pelajar yang

menjawab ujian dengan betul. Lagi besar peratusan jawapan betul yang

diperolehi lagi mudahlah sesuatu item. Lagi tinggi peratusan item

kesukaran lagi mudahlah item tersebut

Indeks Diskriminasi. Indek diskriminasi ialah pekali korelasi yang

mengaitkan skor ujian ( data selanjar ) dengan skor setiap opsyen ( data

dikotomous , 1 jika memilih dan 0 jika tidak memilih opsyen bagi sesuatu

item berkenaan. rbis digunakan untuk menentukan darjah keupayaan

sesuatu item bagi membezakan antara calon daripada kumpulan yang

mempunyai market keseluruhan ujian yang tinggi dengan yang rendah

Indeks Kebolehpercayaan. Indeks kebolehpercayaan akan menunjukkan

pada tahap manakah hasilan keputusan ujian adalah sama jika semua

pelajar mengambil atau mengulang semula ujian yang telah diambil

( dengan anggapan pelajar tersebut tidak ingat atau lupa akan ujian yang

lepas ).

Kesahan. Kesahan sesuatu ujian merujuk kepada sejauh mana ujian

berkenaan dapat mengumpul maklumat berkaitan bidang yang ditetapkan.

Dengan perkataan lain, sesuatu ujian itu dikatakan sah, sekiranya ujian

berkenaan boleh mengukur sesuatu yang sebenarnya hendak diukur atau

sepatutnya diukur. Dalam konteks Pembelajaran Masteri, ujian yang

terlibat ialah praujian dan pascaujian.

Kesahan Gagasan. Konstruk ialah satu konsep atau gagasan tentang

sesuatu perkara atau benda sama ada yang abstrak atau maujud

Kesahan Kandungan. Kesahan ini mempersoalkan sama ada sesuatu

ujian mengandungi satu sampel yang seimbang tentang perkara yang

telah diajar seperti yang terdapat dalam sukatan pelajaran atau program

pengajaran

Kesahan Kriteria. Menurut Savignon (1983), ujian mesti kelihatan

mengukur apa yang sepatutnya hendak diukur.

Kebolehpercayaan. Kebolehpercayaan sesuatu ujian merujuk kepada

ketekalan, ketepatan, dan kebolehbergantungan ujian berkenaan. Ini

bermaksud sesuatu ujian yang boleh dipercayai akan menghasilkan

maklumat yang tekal (merujuk kepada beberapa pentadbiran ujian yang

telah dijalankan), tepat seperti yang sepatutnya serta boleh diterima pakai

tanpa keraguan.

KR-20 (Kuder & Richardson, 1937, 1939). Kaedah ini digunakan bagi

soalan ujian yang skorannya adalah 0 or 1. Formula Kudder Richardson 20

dan 21 dibuat berdasarkan penskoran yang dibuat secara diskrit atau

dikotomi.Digunakan untuk item yang diskor secara dikotomi (betul-salah)

seperti dalam ujian objektif perlbagai pilihan

KR20 = k ( 1 - <Σpq)

k – 1 σT2

KR21 = k ( 1 - <m(k-m))

k – 1 ks2

Rujukan

Moskal, Barbara et al (2002). Validity, reliability and the assessment of

engineering education. Journal of Engineering Education

Thorndike, et. Al (1991). Measurement and Evaluation in Psychology and

Education. (5th Edition). New York : Macmillan

Wood, D.A. (1960). Test Construction. Columbus, OH; Charles E. Merill Books,

Inc.

Van Krieken, R. (Dr.) (1995). Writing and Administring Examinations. CITO.

Van Dalen., D.P. (1979). Understanding Educational Research. 4th

Edition.McGraw-Hill.Inc

http://www.findarticles.com/p/articles/mi_qa3886

pembinaan item objektif dan subjektif

Documents