Beberapa penyelenggara tes mulai mengubah prosedur penyekorannya menjadi penyekoran yang menggunakan pendekatan baru. Penyekoran tes dilakukan dengan prosedur yang berbeda karena mengaplikasikan Teori Tes Modern atau lebih dikenal dengan Teori Respons Butir (Item Response Theory/IRT). Tulisan ini bertujuan untuk memberikan informasi kepada masyarakat mengenai dasar teori tersebut dan beberapa implikasinya.
Penggunaan IRT dalam pengembangan maupun dalam penyekoran tes bukan merupakan barang baru dalam proses asesmen berskala besar (large-scale assessment), termasuk seleksi calon mahasiswa. Teori ini dapat mengatasi kelemahan-kelemahan CTT dalam mengestimasi informasi mengenai parameter butir dan kemampuan peserta tes. Di Amerika Serikat dan Eropa, IRT dipakai pada banyak tes berskala besar. Misalnya, Scholastic Aptitude Test (SAT), Graduate Record Examination (GRE), and Graduate Management Admission Test (GMAT). Tes-tes yang diproduksi oleh lembaga pengembang tes baik pemerintah atau semi pemerintah seperti Dutch National Institute for Educational Measurement (CITO) di Belanda atau Australian Council for Educational Research (ACER) di Australia juga sudah mengaplikasikan IRT dalam prosedur penyekoran pada tes yang mereka buat.
Kritik terhadap Skor Total
Dalam penyekoran tes secara tradisional skor tes didapatkan dari jumlah jawaban benar atau yang lebih sering dinamakan dengan skor total (sum score). Strategi ini dipakai ketika tes memuat soal-soal yang memiliki parameter butir yang relatif setara. Contoh parameter soal adalah tingkat kesulitan dan daya beda. Tingkat kesulitan soal menunjukkan seberapa sulit soal atau tugas di dalam soal untuk dijawab atau dilakukan dengan benar. Peserta tes yang memiliki kemampuan tinggi memiliki peluang yang lebih besar untuk menjawab pada soal dengan tingkat kesulitan tinggi dibanding dengan mereka yang memiliki tingkat kemampuan rendah. Daya beda butir menunjukkan kemampuan butir dalam membedakan individu yang memiliki kemampuan tinggi dan rendah. Soal yang memiliki daya diskriminasi tinggi terlihat ketika misalnya, individu yang memiliki kemampuan berbeda akan mendapatkan skor yang berbeda. Individu yang memiliki kemampuan tinggi akan mendapatkan skor lebih tinggi dari yang memiliki kemampuan rendah.
Pada penyekoran tes secara tradisional, orang yang memiliki kemampuan lebih tinggi akan mampu mengakumulasi banyak jawaban benar daripada yang memiliki kemampuan lebih rendah. Dalam prosedur ini, informasi mengenai jumlah jawaban benar sudah cukup menjadi dasar untuk mengurutkan individu berdasarkan kemampuan yang diukur. Prosedur ini juga banyak dipakai dalam pengukuran non kognitif. Orang yang banyak menunjukkan perilaku manifestasi dari empati (misalnya ramah, suka menolong) adalah orang yang empatik. Dasar yang dipakai adalah tingkat empati individu diekspresikan melalui banyak perilaku yang jumlahnya sangat banyak. Pengukuran empati dengan memusatkan pada semua perilaku tersebut tidak mungkin dilakukan kecuali pada sampel perilaku. Namun demikian, pengukuran yang berkualitas diharapkan melibatkan investigasi terhadap banyak perilaku. Semakin banyak perilaku yang diukur yang implikasinya adalah semakin banyak butir yang dilibatkan dalam tes, semakin tinggi presisi hasil pengukuran yang dilakukan.
Seiring dengan perkembangan zaman, kritik terhadap teori tes klasik muncul. Kritikan awal muncul diarahkan pada dasar filosofi yang belum mewakili prinsip sains. Pendekatan ini dilihat tidak dapat memenuhi prinsip falsifikasi, salah satu teori filsafat ilmu yang dikemukakan oleh Karl Popper. Penyebabnya adalah teori tes klasik yang menjelaskan sebuah fakta mengenai skor sehingga tidak dapat difalsifikasi atau diverifikasi kebenarannya. Kritik kemudian muncul terkait dengan beberapa asumsi yang dipakai dinilai kurang relevan dengan situasi empirik. Misalnya, pengukuran dengan memusatkan pada perilaku yang sama secara terus menerus akan memunculkan kejenuhan pada diri peserta tes.
Kritikan kedua diarahkan pada penggunaan skor total. Jumlah jawaban benar memberikan informasi yang kurang lengkap mengenai tingkat kemampuan. Jika soal-soal di dalam tes memiliki tingkat kesulitan setara maka jumlah jawaban yang benar menunjukkan kemampuan dalam mengatasi kebosanan, konsistensi dan ketahanan kinerja maupun efektivitas dalam pemecahan masalah. Cara seperti ini ibarat menugaskan individu untuk beberapa kali melompati galah yang memiliki ketinggian sama. Skor yang dihasilkan dari cara tersebut kurang memberikan informasi mengenai kemampuan utama yang diukur, yaitu ketinggian lompatan. Di sisi lain, skor yang dihasilkan justru menghasilkan informasi tentang ketahanan fisik individu karena skor tinggi juga didapatkan oleh orang yang tidak mampu meloncat tinggi akan tetapi memiliki ketahanan fisik yang kuat. Skor yang dihasilkan dari cara ini memiliki keterbatasan karena hanya memberikan informasi mengenai urutan individu,. Misalnya, A lebih kompeten dibanding dengan B, tapi kurang dapat memberikan informasi apakah tingkat kompetensi A termasuk kategori tinggi atau rendah. Kelemahan ini sebenarnya sudah sedikit teratasi ketika tes yang diberikan memiliki tingkat kesulitan yang beragam. Dari informasi beberapa kolega penulis yang bergerak di pengembangan tes skala nasional, pengembangan tes-tes tersebut memang sudah lama mempertimbangkan variasi tingkat kesulitan butir. Pada tataran tertentu upaya ini sudah mereduksi dampak permasalahan yang diakibatkan oleh penggunaan skor total. Jumlah jawaban benar yang banyak pada suatu tes secara otomatis menunjukkan bahwa individu mengatasi soal yang mudah hingga sulit. Yang belum terakomodasi dari skor yang didapatkan adalah pola jawaban. Dua individu dapat memiliki skor total yang sama meskipun dengan pola jawaban yang berbeda.
Dalam proses seleksi, kelemahan penggunaan skor total dimanfaatkan oleh individu yang menerapkan strategi penyelesaian soal secara terpilih. Mereka hanya mengerjakan soal yang dirasa mudah sebanyak-banyaknya. Faktor inilah yang menjadi salah satu alasan munculnya kritik terhadap skor total. Beberapa komunikasi ilmiah, pengritik yang sangat radikal menamakan skor total ini sebagai suatu tirani (the tyranny of sum scores) yang harus dilawan. Selain dua kritik ini, ada banyak kritik yang diajukan terkait dengan skor total. Misalnya, isu terkait dengan informasi mengenai presisi skor yang digeneralisasikan pada semua individu dan jenis data skor total yang bersifat ordinal daripada interval. Skor total dapat memberikan informasi yang tepat mengenai kemampuan individu hanya jika tes yang dipakai memenuhi sejumlah kualifikasi tertentu.
Tes Adaptif Terkomputerisasi
Teori tes modern menawarkan perspektif baru dalam penyekoran suatu tes. Jumlah jawaban benar tidak lagi menjadi faktor utama dalam menunjukkan tingkat kemampuan peserta tes. Ada beberapa prosedur yang dapat dipakai untuk mengestimasi kemampuan peserta tes berdasarkan pendekatan ini, namun semuanya memiliki prinsip yang sama. Tingkat kemampuan peserta tes diestimasi dari titik antara individu mampu dan tidak mampu menyelesaikan tugas. Perlu dicatat bahwa mengerjakan soal di dalam tes adalah bentuk penyelesaian tugas. Seperti pada turnamen lompat tinggi, kemampuan atlet ditunjukkan dari kemampuan melompat tertinggi yang dapat dilakukannya. Atlet yang dapat melompat hingga dua meter diasumsikan akan mampu mengatasi rintangan yang tingginya di bawah dua meter. Sama seperti lompat tinggi, skor tes diestimasi dari kemampuan maksimal yang dapat diperagakan oleh peserta tes.
Prinsip dalam lompat galah ini nantinya dipakai dalam pengukuran dengan menggunakan tes adaptif terkomputerisasi (Computer Adaptive Test/CAT). CAT adalah salah satu produk dari teori tes modern dalam mengadministrasikan suatu tes. Prosedur administrasi tes pada CAT diawali dari pemberian soal-soal dengan tingkat kesulitan yang acak dan bervariasi, tujuannya adalah untuk mendapatkan informasi awal mengenai kemampuan peserta tes. Jika seorang peserta ukur terdeteksi memiliki kemampuan yang tinggi, maka ia kemudian akan mendapatkan soal-soal dengan tingkat kesulitan tinggi yang diambil bank soal. Pada titik inilah proses pengukuran sebenarnya dimulai. Proses pengukuran berhenti hingga terdeteksi setinggi apa level kemampuan peserta tersebut. Di sini kita lihat bahwa tingkat kesulitan penugasan disesuaikan pada tingkat kemampuan peserta tes. Prosedur ini dinamakan dengan prosedur pengukuran adaptif karena soal menyesuaikan kemampuan peserta tes.
Oleh karena sifatnya adaptif maka antara satu peserta tes dengan peserta lain memungkinkan untuk mendapatkan jumlah soal yang berbeda. Skor tes tidak tergantung dari jumlah soal yang dikerjakan. Ada peserta tes yang hanya diminta oleh komputer mengerjakan 10 soal dan ada peserta tes yang hanya mengerjakan 20 soal. Lebih lanjut, jumlah soal yang diberikan tidak terkait dengan skor akhir yang menunjukkan tingkat kemampuan peserta tes. Akibatnya, jumlah soal yang dijawab benar pun juga tidak menunjukkan tingkat kemampuan peserta tes. Tingkat kemampuan diestimasi dari karakteristik soal yang dikerjakan. Individu yang mampu mengatasi 5 soal dengan tingkat kesulitan tinggi akan memiliki skor lebih tinggi daripada individu yang mampu mengatasi 5 soal dengan tingkat kesulitan rendah. Hal ini analog dengan ketika kita membeli kentang, harga 5 buah kentang yang masing-masing beratnya 1 kilogram akan lebih mahal daripada 10 buah kentang yang beratnya 10 gram.