Bagaimana Membangun Keamanan Dan Fleksibilitas
Beberapa klien lebih suka ujian yang bukan formulir tetap, tetapi yang dapat secara otomatis dan acak dihasilkan dari bank item pada saat kandidat duduk untuk menguji. Prometric memiliki kemampuan untuk mengembangkan bank pemeriksaan yang mendukung beberapa jenis pengujian berbasis bank.
Linear on-the-Fly Testing (LOFT).
LOFT adalah perakitan formulir yang disamakan di pusat pengujian sebelum atau selama administrasi pengujian. LOFT (Gambar 2) digunakan untuk menghasilkan formulir tetap yang unik dan sebanding untuk setiap peserta tes. LOFT dimungkinkan ketika semua item telah diuji sebelumnya dan ditempatkan pada skala umum. Agar praktis, LOFT harus dikelola dengan menggunakan pengujian berbasis komputer (CBT).
Konstruksi bentuk uji akan memiliki efek langsung pada konstruksi kumpulan uji untuk pengujian LOFT. Sebagian besar kumpulan item untuk LOFT berisi minimal 10 kali jumlah item tes yang diperlukan untuk setiap formulir. Item pool dirakit menggunakan spesifikasi statistik dan konten dengan perhatian terhadap detail seakan-akan sebuah tes tunggal sedang dirakit (Ariel, van der Linden, & Veldkamp, 2006). Setiap kumpulan item dibangun dari tong item yang berisi banyak item yang dicoba dengan statistik item dan spesifikasi konten (Way, 1998) serta indikator untuk konten isyarat dan tumpang tindih. Item vats adalah dasar untuk merakit kumpulan item untuk arsitektur CBT yang membutuhkan banyak item, seperti LOFT.
LOFT dengan Testlets.
LOFT tingkat testlet menggunakan testlet unik yang sudah disiapkan sebelumnya, bukan item individual untuk membuat formulir individual di pusat pengujian. Setiap testlet berisi item-item unik yang hanya dimiliki oleh satu testlet, namun mereka dibangun untuk mewakili seluruh spesifikasi tes (Gambar 3) atau mereka dapat fokus pada bagian-bagian berbeda dari cetak biru tes (Gambar 4). Kebanyakan testlet mengandung 15 hingga 25 item masing-masing tergantung pada spesifikasi tes. Dalam kasus sebelumnya satu set testlets paralel yang dipilih secara acak bergabung untuk membuat bentuk akhir. Dalam kasus terakhir, testlet dipilih secara acak untuk setiap area konten dan digabungkan untuk membuat bentuk akhir.
Testlets dapat dibangun menggunakan model teori respon klasik, Rasch, atau item. LOFT dengan testlet tepat ketika item sudah diuji sebelumnya dan ketika (a) cetak biru tes cukup sederhana untuk dijadikan sampel dengan testlet tunggal dan / atau (b) pool cukup besar untuk membuat beberapa testlets paralel. LOFT dengan testlet harus diberikan menggunakan CBT.
Persyaratan volume item untuk LOFT dengan testlet, di mana testlet tersebut setara dalam konten dan karakteristik statistik untuk setiap testlet lain dalam kumpulan adalah sekitar lima formulir uji panjang penuh. Tentu saja, lebih banyak item yang diterjemahkan menjadi kombinasi yang lebih mungkin dari bentuk-bentuk tes unik, dengan testlet yang sama mungkin muncul pada banyak bentuk tes yang berbeda tetapi unik. Untuk LOFT dengan testlet yang dirangkai dalam bagian yang berbeda dari cetak biru tes, persyaratan item meningkat menjadi sekitar sepuluh formulir tes panjang penuh karena perbedaan jumlah pertanyaan yang diperlukan di setiap bagian dari cetak biru.
Butir barang adalah kumpulan besar dari pertanyaan yang dicoba (Way, 1998) yang digunakan untuk membangun kumpulan item LOFT yang kemudian dilepaskan ke bidang untuk administrasi. Kolam sering diputar masuk dan keluar dari jendela administrasi yang berbeda untuk membantu dengan kontrol eksposur dan sebagai ukuran yang dimaksudkan untuk menjaga keamanan pengujian dan integritas skor (Ariel, Veldkamp, & van der Linden, 2004). Namun, jika ada upaya bersama dari beberapa peserta tes untuk melanggar keamanan konten tes, langkah-langkah rotasi ini tidak kebal.
Gambar 3. LOFT dengan Testlets Di Seluruh Cetak Biru Utuh
Gambar 4. LOFT dengan Testlets oleh Bagian
Pengujian Adaptif Terkomputerisasi (CAT-FL, CAT-VL)
Tes adaptif terkomputerisasi mengelola item yang berada di dekat tingkat kemampuan peserta tes individu (lihat Gambar 5). Ini menciptakan pengukuran yang lebih efisien daripada yang dimungkinkan dengan bentuk non-adaptif, namun menciptakan persepsi di antara peserta tes bahwa tes CAT lebih sulit dibandingkan dengan tes yang dibangun sebagai bentuk tetap. Persepsi ini disebabkan oleh kenyataan bahwa item yang dipilih untuk setiap peserta ujian disesuaikan dengan kemampuan individu yang ditentukan dari item sebelumnya yang diberikan dalam sesi pengujian. Efisiensi pengukuran ini dapat dimanfaatkan untuk membuat uji panjang tetap (CAT-FL) yang menghasilkan skor yang lebih tepat daripada bentuk non-adaptif atau uji panjang variabel (CAT-VL) yang lebih pendek daripada bentuk non-adaptif dari presisi yang sebanding. CAT paling tepat ketika pengukuran yang tepat dibutuhkan di sepanjang skala kemampuan. Angka yang benar atau dijumlahkan penilaian tidak akan bekerja dengan pengujian adaptif: Metode penilaian Rasch atau IRT harus digunakan. Ini mempertimbangkan Rasch invarian atau parameter teori respons item dari setiap item yang dijawab dengan benar atau salah. CAT harus dikelola dengan menggunakan CBT.
Gambar 5. Pengujian Adaptif Terkomputerisasi
Computerized Mastery Testing (CMT)
Masalah bagi dewan kredensial yang menggunakan metode administrasi linear atau CAT adalah bahwa beberapa keputusan lulus-gagal dibuat secara salah tanpa metode untuk menentukan atau membatasi kesalahan keputusan tersebut. Kesalahan klasifikasi, yang mencerminkan keputusan gagal lulus yang salah, melibatkan dua jenis kesalahan: (A) Positif palsu, yang melibatkan individu yang lulus harus gagal, dan (B) negatif palsu, yang melibatkan individu yang gagal yang harus lulus.
Keputusan yang salah ini terjadi karena tes hampir tidak pernah mengukur sempurna pengetahuan dan keterampilan yang diminati. Pertanyaan pengujian atau situasi masalah hanyalah contoh dari semua yang relevan dengan pekerjaan yang diminati, dan yang diminta dapat memberikan gambaran yang menyesatkan tentang kemampuan beberapa kandidat. Solusi tipikal non-komputer untuk menghindari keputusan yang salah tentang status lulus-gagal kandidat melibatkan peningkatan atau penurunan skor cutoff untuk tes panjang tetap. Ini menghasilkan ukuran kesalahan klasifikasi yang lebih penting yang meningkat atau menurun ke arah yang diinginkan, tetapi ukuran kesalahan klasifikasi lainnya meningkat atau menurun di arah yang berlawanan. Pengujian penguasaan terkomputerisasi dirancang untuk memanfaatkan komputer dan memecahkan masalah keputusan yang salah ini untuk klien sementara tidak membutuhkan sumber daya besar yang dibutuhkan CAT.
Dalam tes penguasaan terkomputerisasi (CMT) , beberapa kandidat diberikan lebih banyak pertanyaan daripada kandidat lainnya. Pertanyaan-pertanyaan dalam pemeriksaan CMT dibagi menjadi kelompok-kelompok kecil dengan panjang tetap yang sama dengan jumlah pertanyaan yang tidak tumpang tindih yang mencakup semua konten yang ditentukan dalam spesifikasi pengujian. Ini adalah spesifikasi pengujian yang sama yang dihasilkan dari analisis pekerjaan standar. Kami menyebutnya kelompok kecil testlet pertanyaan ini. Ukuran testlet yang digunakan dalam setiap pemeriksaan CMT secara langsung terkait dengan jumlah pertanyaan terkecil yang dapat ditanyakan dan masih secara proporsional mencakup seluruh rencana pengujian. (Kami telah menemukan bahwa di mana saja dari 15 hingga 25 pertanyaan per testlet cocok dengan sebagian besar tabel spesifikasi pengujian ujian) masing-masing akan dirancang untuk mencakup seluruh paket konten pengujian dengan cara yang sama.
Dalam ujian CMT, semua kandidat terlebih dahulu diberikan tes dasar. (Kita dapat menganggap tes dasar sebagai tahap pertama dari proses pengujian multistage.) Uji dasar terdiri dari beberapa testlet yang dipilih secara acak dari kumpulan yang terdiri dari testlet yang sama dan tidak tumpang tindih. Calon yang tampil di level ekstrim (tinggi atau rendah) pada tes dasar ini lulus atau gagal segera setelah selesai. Para kandidat dengan kinerja menengah - yang kemungkinan besar kesalahan pengambilan keputusannya salah - diberikan pertanyaan tambahan dalam bentuk testlet tunggal, yang memberi mereka kesempatan tambahan untuk menunjukkan bahwa mereka telah memenuhi standar yang ditetapkan. Proses pemberian testlet tambahan untuk kandidat yang kemungkinan kesalahan keputusannya paling besar kemungkinan berlanjut hingga tes penuh tercapai, di mana keputusan kegagalan lulus akhir dibuat sama dengan yang dibuat dalam pemeriksaan linear panjang penuh . Skor cutoff panjang penuh akhir ini ditentukan dengan cara yang sama dengan skor cutoff uji linear ditentukan. Sebuah studi cut skor dilakukan dan klien memutuskan skor cutoff.
Contoh diberikan dalam gambar terlampir di bawah ini tentang bagaimana satu peserta ujian dapat melanjutkan melalui CMT. Perhatikan bahwa ada tujuh tahap pengujian dan bahwa setelah tahap pertama, kandidat masih berada di wilayah "terus" dan menerima testlet tambahan. Proses pengujian ini berlanjut dalam contoh ini sampai tahap ketiga, ketika peserta ujian jatuh di wilayah gagal dan pengujian berhenti.
Salah satu keuntungan CMT dibandingkan pengujian linier adalah memungkinkan klien menentukan toleransi relatif mereka untuk membuat kesalahan keputusan. Bentuk daerah lulus-terus-gagal yang ditunjukkan pada Gambar 1 akan berubah berdasarkan keputusan klien ini. Selain menetapkan skor cutoff, klien memutuskan kesalahan keputusan mana yang lebih serius atau jika mereka sama-sama serius. Penelitian pendahuluan kami menunjukkan bahwa kami dapat mengklasifikasikan sebagian besar kandidat menggunakan model CMT dengan baik dalam toleransi (kerugian) yang diungkapkan oleh klien.
Keuntungan kedua CMT dibandingkan CAT adalah lebih sedikit pertanyaan yang diperlukan untuk membuat kumpulan testlet daripada yang dibutuhkan untuk membuat kumpulan item CAT (dikalibrasi). Kami telah menemukan bahwa di mana saja dari tiga hingga lima formulir uji linier dengan beberapa item yang tumpang tindih (umum) adalah semua yang diperlukan untuk membentuk kelompok testlet yang memadai. Juga, sampel besar kandidat tidak diperlukan. Kami telah mengembangkan metode CMT yang tidak menggunakan teori respons item (IRT), tetapi masih memanfaatkan komputer. (Beberapa model CMT kami menggunakan IRT, sementara yang lain tidak. Model CMT yang tidak menggunakan IRT sangat mudah dijelaskan kepada kandidat, karena mereka menggunakan sejumlah pertanyaan yang benar dalam perhitungan skor.) Faktanya, beberapa model CMT kami tidak mensyaratkan item yang independen secara kondisional satu sama lain, juga tidak mengharuskan konten pengujian unidimensional. Ini adalah persyaratan khas kumpulan item CAT yang menggunakan IRT.
Contoh Bagaimana Satu Calon Bisa Melanjutkan melalui Pemeriksaan CMT
(lihat Kim & Cohen, 1998)
Prometric menghasilkan laporan form rakitan yang menangkap; (a) formulir uji statistik deskriptif dalam skala skor mentah dan laporan, (b) kesulitan item, diskriminasi, dan statistik waktu respons menurut item, (c) kesalahan pengukuran bersyarat standar untuk setiap skor yang mungkin (jika perlu), (d) informasi pengujian dan fungsi karakteristik pengujian jika perlu, (e) kepatuhan setiap formulir dengan cetak biru tes, (f) histogram waktu pengujian, dan (g) total distribusi skor tes jika sesuai.