Penyekoran

Prosedur Penyekoran dengan Menggunakan Teori Respons Butir

Oleh: Wahyu Widhiarso

Penyekoran dengan tes-tes pada UPAP sudah dilakukan dengan menggunakan teori respons butir (TRB). TRB merupakan teori tes modern dalam pengembangan dan penyekoran sebuah tes yang melengkapi beberapa keterbatasan teori tes klasik. Penyekoran dengan menggunakan TRB sudah diterapkan oleh pengembang tes di negara-negara maju terutama pada tes-tes yang dipakai pada skala besar (large assessment setting). Penerapan penyekoran dengan menggunakan TRB dilakukan karena panitia penyelenggara sudah memiliki sumber daya yang cukup memadai. Mengingat prosedur penyekoran dengan menggunakan TRB cukup kompleks maka informasi mengenainya sangat diperlukan.

Penyekoran dengan menggunakan teori tes modern dilakukan dalam beberapa tahap yang dapat dilihat sebagai proses yang berulang (iteratif) dan berhenti sampai informasi yang didapatkan sudah cukup memadai. Proses ini tidak hanya melibatkan kegiatan analisis kuantitatif saja akan tetapi juga telaah secara kualitatif, misalnya oleh pakar dalam bidang pengukuran.

Tahap Pertama (Pengodean)

Tahap pertama adalah memberikan kode jawaban yang menunjukkan sebuah urutan kuantitatif. Kode 1 diberikan untuk jawaban benar sedangkan kode 0 diberikan pada jawaban salah atau tidak menjawab (omitted). Kode ini adalah skor yang masuk bersifat kasar karena merupakan data ordinal yang hanya menunjukkan suatu urutan.  Individu yang menjawab benar pada soal sebuah memiliki kemampuan lebih tinggi daripada yang mereka yang menjawab salah atau tidak memberikan jawaban.

Tahap Kedua (Kalibrasi Butir)

Tahap kedua adalah melakukan kalibrasi butir dengan menggunakan teori respons butir. Kalibrasi dilakukan dengan menggunakan Teori Respons Butir (TRB) dengan menggunakan algoritma expected a posteriori (EAP). Model yang dipakai adalah model dua parameter (2PL) yang menekankan pada estimasi daya diskriminasi dan tingkat kesulitan butir. Pemilihan model dua parameter dari beberapa alternatif model yang ada dilakukan dengan pertimbangan bahwa model 2PL merupakan model yang stabil dan banyak dipakai dalam berbagai konteks pengukuran. Hasil kalibrasi pada tahap ini menghasilkan informasi mengenai tingkat kesulitan dan daya beda butir. Informasi ini kemudian ditelaah untuk melihat apakah parameter yang dihasilkan oleh butir sudah sesuai dengan model pengukuran yang memadai.

Tahap kedua ini juga memuat proses penyetaraan (equating) parameter butir. Hal ini dikarenakan tes-tes di dalam SBMPT memiliki banyak set yang bersifat paralel. Proses penyetaraan ini tetap dilakukan meskipun dalam pengembangannya soal-soal antara satu set dengan set lainnya ditulis dengan menggunakan kisi-kisi yang sama. Tujuannya adalah untuk memastikan bahwa satu set dengan set lain adalah tes yang paralel secara empirik.

Proses penyetaraan dilakukan dengan memanfaatkan butir-butir jangkar (anchor item) yang merupakan butir-butir sama yang muncul di semua set soal yang ada. Langkah yang dilakukan adalah mengestimasi semua butir-butir pada set soal yang dimiliki, misalnya tes Bahasa Indonesia. Set soal yang butir-butirnya memiliki parameter yang paling optimal, parameter butir-butir jangkarnya akan dipakai terapkan ke semua set yang ada. Misalnya, hasil analisis menunjukkan bahwa set 10 pada tes Bahasa Indonesia merupakan set yang memiliki parameter butir yang paling optimal. Langkah selanjutnya adalah mengidentifikasi parameter butir jangkar pada set tersebut dan menerapkannya pada butir jangkar di set yang lain.

Kalibrasi butir yang kedua dilakukan dengan menetapkan (constrained) parameter butir jangkar dan membebaskan (freely estimated) parameter butir-butir non jangkar. Proses ini dilakukan pada semua set yang ada. Proses ini akan memastikan bahwa semua set akan memiliki parameter butir yang setara. Dengan memiliki parameter yang setara maka skor yang dihasilkan individu ketika mengerjakan set tertentu akan sama jika ia akan mengerjakan set yang lain. Hal ini dikarenakan alat penghubung (butir jangkar) set-set soal yang berbeda sudah diletakkan pada metrik yang sama (lihat Gambar 1). Hasil kalibrasi ini menghasilkan informasi mengenai tingkat kesulitan maupun daya beda butir relatif yang dipakai untuk melakukan penyekoran kemampuan pada tahap selanjutnya. Hasil kalibrasi pada tahap kedua ini tetap akan ditelaah lagi. Caranya adalah membandingkan kurva karakteristik tes (tes characteristics curve) dari set-set yang ada. Jika set-set soal yang ada secara visual sudah memiliki kesamaan karakteristik maka proses kalibrasi selesai.

Tahap Ketiga (Penyekoran)

Tahap ketiga adalah proses penyekoran. Proses penyekoran dilakukan dengan menggunakan teknik expectation a posteriori (EAP). Oleh karena model yang dipakai adalah dua parameter (2PL) maka bahan yang dipakai untuk melakukan penyekoran adalah daya diskriminasi dan tingkat kesulitan butir. Kedua parameter ini menjadi bobot dalam mengestimasi kemampuan individu dalam skor akhir yang dinamakan dengan skor theta (theta score). Dengan adanya bobot ini maka skor akhir individu tergantung dari pola jawabannya (response pattern). Jumlah jawaban benar tidak berkaitan dengan skor akhir karena jumlah jawaban benar yang sama dapat bersumber dari pola jawaban yang berbeda.

Skor yang dihasilkan berbentuk skor standar yang kemudian dikonversi menjadi skor dengan metrik CEEB (College Entrance Examination Board) untuk memudahkan masyarakat awam menafsirkannya. Skor CEEB adalah skor jenis skor yang memiliki rerata 500 dan deviasi standar 100. Artinya, orang yang memiliki skor mendekati 500 adalah orang yang memiliki tingkat kemampuan setara dengan rata-rata individu di dalam populasi. Skor yang dihasilkan oleh prosedur ini sudah berskala interval sehingga dapat dikatakan bahwa individu yang memiliki skor 500 (dalam skala CEEB) memiliki kemampuan dua kali lipat individu yang memiliki skor 250. Hal ini berbeda dengan skor total yang dapat berupa merupakan data ordinal yang hanya menunjukkan sebuah urutan.

Penekanan pada pola jawaban juga memberikan informasi mengenai ‘kevalidan’ jawaban individu. Pola jawaban yang dapat dikatakan valid adalah pola jawaban yang mengikuti asumsi berikut. Jika individu mampu melompat setinggi 2 meter maka ia pasti mampu melompati galah setinggi 1 atau 1,5 meter, dan sebaliknya. Dari ilustrasi ini kita dapat melihat bahwa misalnya suatu tes berisi 10 soal yang sudah diurutkan tingkat kesulitannya (dari termudah ke tersulit) berdasarkan analisis, maka pola jawaban yang ideal adalah sebagai berikut: 1111110000. Pada pola ini individu dapat menjawab benar enam soal di awal , dari yang paling mudah hingga sedang. Pada soal-soal yang sulit, individu ini tidak berhasil menjawab benar soal di urutan akhir yang merupakan soal-soal yang sulit. Ini adalah pola jawaban yang valid karena sesuai dapat diterima secara logis, dapat mengatasi soal yang mudah tetapi tidak dapat mengatasi soal yang sulit. Tingkat kemampuan individu kira-kira terletak pada batas antara individu mampu dan tidak mampu menjawab dengan benar. Persoalan muncul ketika pola jawaban yang diberikan oleh individu tergolong aneh. Misalnya dapat mengerjakan soal yang sulit akan tetapi tidak dapat mengerjakan soal yang mudah. Literatur menunjukkan beberapa penyebab munculnya pola jawaban aneh, misalnya mengantuk, menebak, kurang termotivasi atau konsentrasi, salah konsep, hingga  menyontek. IRT memberikan informasi berupa indeks yang menunjukkan seberapa aneh pola jawaban setiap individu peserta tes. Beberapa lembaga pengembang tes menggunakan indeks ini untuk menilai kevalidan jawaban siswa yang implikasinya adalah skor tes siswa tersebut tidak dikeluarkan karena pola jawabannya meragukan.