Butir soal-butir soal di dalam kantung butir soal pada subtes yang tidak membutuhkan batasan waktu (power test) dikalibrasi dengan menggunakan Model Rasch dengan menggunakan skala Skor W (W-score). Ada variasi penyekoran pada subtes yang tidak menggunakan batasan waktu dalam AJT CogTest, yaitu penyekoran secara dikotomis (dichotomous) dan politomis (polytomous). Penyekoran secara dikotomi adalah penyekoran jawaban secara pilah yaitu jawaban yang salah (skor 0) dan benar (skor 1). Parameter psikometris butir soal-butir soal yang menggunakan skor dikotomi dikalibrasi dengan menggunakan Model Rasch dikotomi. Penyekoran secara politomi dilakukan pada jawaban yang lebih dari dua kategori, misalnya jawaban yang diskor berdasarkan rubrik dengan skor yang bergerak pada beberapa titik (multiplepoint) dari 0 hingga 2 atau 3. Butir soal dengan karakteristik ini dikalibrasi dengan menggunakan model kredit parsial (Wright & Masters, 1982) yang merupakan salah satu famili dari Model Rasch.
Teknik Analisis Berbasis Model Rasch
AJT CogTest dikembangkan dengan menggunakan pendekatan Model Rasch. Menurut pendekatan ini, tes yang baik adalah alat ukur yang berfungsi seperti penggaris, memiliki skala interval dan dapat mendiskriminasikan berbagai macam level atribut yang diukur dengan baik. Dengan kata lain tes ini mampu menjangkau kemampuan individu yang memiliki kemampuan di bawah rerata hingga di atas rerata.
Analisis butir soal atau identifikasi properti psikometris aitem-aitem AJT dilakukan dengan menggunakan model Rasch. Analisis butir soal dengan menggunakan model Rasch dipakai dalam beberapa tes, misalnya WJ-III, The Wide Range Intelligence Test (WRIT), Kaufman Test Of Educational Achievement (K-TEA) atau The Wide Range Assessment of Visual–Motor Abilities (WRAVMA), Kaufman Brief Intelligence Test (K-BIT2), the Mental Rotation Test (MRT) dan Peabody Individual Achievement Test Reading Comprehension Test-Revised (PIAT-R). Analisis berbasis Model Rasch dipakai untuk mengalibrasi butir soal sehingga dapat dibandingkan antara kelompok-kelompok suku yang ada (multiple ethnic groups), yang dipakai pada pengembangan WIRT serta mengestimasi reliabilitas pengukuran melalui item separation reliability index yang diterapkan pada pengembangan WRAVMA. Sementara itu skor yang dihasilkan oleh WJ-III berupa W-Ability scores atau yang disingkat dengan W-scores didapatkan dari penskalaan melalui model Rasch (Rasch latent-trait scaling).
Rasch model memiliki beberapa keuntungan dibandingkan dengan teori tes klasik. (1), Rasch menyediakan statistik yang dapat menunjukkan presisi abilitas subjek yang diestimasi. (2) Estimasi level abilitas dapat dilakukan dengan tidak tergantung pada butir soal yang diadministrasikan (independent of the particular set of items administered) (3) Estimasi terhadap abilitas dapat tidak tergantung dari tes. (4), Indeks kesulitan butir soal tidak tergantung pada distribusi abilitas subjek di dalam sampel. (5), Model Rasch memfasilitasi penilaian terhadap opsi kategori dan apakah jumlah opsi kategori yang ada dapat dimanfaatkan dengan baik. Rasch model difalsifikasi (falsifiable) sementara model klasik tes itu tidak. Seperti halnya semua metode statistik lainnya, kesesuaian (fit congruence) antara data dan Rasch model tidak menjamin bahwa prinsip pengukuran fundamental telah dicapai (Piquero, Macintosh, & Hickman, 2001).
Properti Psikometri di Level Butir soal
Dengan menggunakan analisis berbasis Model Rasch, di level butir soal properti psikometris yang memungkinkan untuk dipakai dalam pengembangan AJT adalah ketepatan butir soal (item fit) dan tingkat kesulitan butir soal (item measure /locations).
Ketepatan Butir soal dengan Model. Item fit dapat mengevaluasi apakah butir soal sesuai harapan dari Rasch Model atau tidak. Ketepatan butir soal diidentifikasi dengan menggunakan rerata kuadrat residu (mean-square residual fit statistic/MNSQ). Ketepatan butir soal dievaluasi berdasarkan harga MNSQ yang berada dalam kisaran 0.70 hingga 1.30 serta nilai MNSQ yang terstandarisasi (ZSTD) baik pada statistik infit atau outfit masuk dalam kisaran -2.0 hingga 2.0. butir soal yang memiliki harga ketepatan butir soal yang rendah (misfitting items) dipertimbangkan untuk dieliminasi dan tidak dipakai dalam tes versi akhir. Proses eliminasi butir soal berlangsung secara iteratif hingga kesesuaian tes dengan model Rasch Model dapat dicapai. Statistik infit atau outfit yang berada di luar interval yang direkomendasikan menunjukkan kelainan (abnormalities) pola respons pada butir soal tertentu yang kemungkinan terkait dengan masalah dalam unidimensionalitas pengukuran (unidimensionality)
Tingkat Kesulitan Butir soal. Dalam tes yang mengukur kemampuan, tingkat kesulitan butir soal (item locations/measure) menunjukkanseberapa sulit atau mudah soal di dalam tes tersebut . Pada pendekatan latent trait theory, Indeks ini mencerminkan seseorang memiliki probabilitas sebesar 50% untuk mendapatkan jawaban benar pada suatu butir soal. Dalam pendekatan Model Rasch, tingkat kesulitan ditunjukkan dengan angka yang menggunakan skala logit dengan rata-rata sebesar 0. Semakin tinggi nilai tingkat kesulitan butir soal (harga logit di atas 0) menunjukkan butir soal yang bersangkutan semakin sulit karena membutuhkan abilitas yang lebih tinggi untuk mendapatkan probabilitas menjawab benar sebesar 50%. Sebaliknya, tingkat kesulitan butir soal dengan harga logit di bawah 0 menunjukkan bahwa butir soal yang dianalisis semakin mudah, karena orang-orang yang memiliki kemampuan kurang tinggi memiliki peluang lebih besar dari 50% untuk menjawab benar.
Analisis butir soal melalui Rasch akan menghasilkan sebaran lokasi butir soal dan sebaran lokasi abilitas subjek. Jika lokasi butir soal menunjukkan tingkat kesulitan butir soal (dari mudah hingga sulit), maka lokasi abilitas subjek menunjukkan level abilitas subjek (dari abilitas rendah hingga tinggi). Penyusun tes dapat memilih distribusi lokasi butir soal seperti apa yang dikehendaki untuk disesuaikan dengan tujuan pembuatan tes. Pembandingan antara lokasi butir soal dan abilitas subjek memungkinkan pengadministrasi tes untuk memberikan tes yang sesuai dengan abilitas subjek dan memeriksa apakah sebuah butir soal lebih sulit pada satu kelompok tertentu daripada kelompok yang lain. Ketika ada selisih antara lokasi butir soal dan lokasi subjek, maka akan muncul kesalahan estimasi (estimation errors) yang tergantung pada seberapa dekat kemampuan subjek cocok dengan tingkat kesulitan aitem. Subjek yang memiliki kemampuan sesuai “target pengukuran” dan berada dalam kisaran tingkat kesulitan butir soal akan menghasilkan informasi yang akurat daripada subjek yang memiliki kemampuan di luar kisaran tingkat kesulitan aitem.
Ketepatan Respons Orang dengan Model. Indeks ketepatan personal (person fit) menunjukkan kesesuaian pola respons atau jawaban subjek terhadap seperangkat butir soal di dalam tes. Subjek yang memiliki indeks person fit di dalam rentang yang diterima, menunjukkan jawaban yang diberikan sesuai dengan spektrum urutan tingkat kesulitan butir soal atau lokasi butir soal (item locations). Subjek ini dapat mengatasi butir soal yang mudah (aitem yang lokasinya di bawah level abilitasnya) dan tidak mampu mengatasi butir soal yang sulit (aitem yang lokasinya di atas level abilitasnya). Subjek yang memiliki indeks person fit yang berada di luar nilai yang diharapkan, menunjukkan subjek yang bersangkutan menghasilkan pola jawaban yang aneh atau abnormal. Misalnya, subjek tersebut mampu mengatasi beberapa soal-soal yang sulit akan tetapi tidak mampu mengatasi beberapa soal-soal yang sulit. Keanehan jawaban tersebut menunjukkan bahwa subjek yang bersangkutan bermasalah. Masalah-masalah yang terkait dengan indeks person fit antara lain tebakan yang dilakukan oleh subjek, subjek merasa kecapekan, subjek memiliki kesalahan konsep dan sebagainya. Indeks person fit menjadi bahan diagnosis masalah-masalah yang dihadapi subjek.
Unidimensionalitas. Sebuah tes dikatakan unidimensi jika aitem-aitem secara bersama-sama untuk mengukur satu atribut laten (Bond & Fox, 2001). Asumsi unidimensionality sangat penting untuk dikaji sehingga masalah dimensi lain yang tidak terukur dalam tes tidak membingungkan (confounding) hasil pengukuran. Dalam pemodelan Rasch, identifikasi masalah unidimensionality dilakukan melalui properti PGAS (Rasch-residual-based PCA was completed). PCAs lebih bersifat (indicative) daripada sifat definitif (definitive) tentang sifat unidimensionalitas pada pengukuran yang dilakukan. Minimal 50% dari variasi pengukuran harus dapat menjelaskan dengan. Selain itu, pertama kontras (first contrasts) yang menjelaskan lebih dari 5% varians atau memiliki eigenvalues yang lebih besar dari 2 biasanya menunjukkan adanya beberapa dimensi (multiple dimensions) dalam pengukuran.
Properti Psikometri di Level Tes
Peta Butir soal – Subjek. Untuk mencapai data yang interval, Model Rasch dapat mentransformasikan skor individu menjadi metrik dengan satuan logit, demikian juga tingkat kesulitan butir soal. Oleh karena individu (person) dan butir soal (item) memiliki satuan yang sama maka keduanya dapat diletakkan dalam kontinum yang sama (Lihat Gambar 1). Pada Gambar 1, distribusi skor persons (sisi kiri) dan distribusi tingkat kesulitan items (sisi kanan) diletakkan dalam kontinum yang sama dengan menggunakan metrik logit. Tiap 5-10 orang dilambangkan dengan tanda # sedangkan butir soal ditandai dengan nomor butir soal. Untuk persons, semakin ke atas semakin menunjukkan tingginya abilitas individu yang bersangkutan. Untuk butir soal, semakin tinggi semakin menunjukkan tingginya tingkat kesulitan butir soal yang bersangkutan. Tes di dalam AJT menggunakan skor W yang memiliki rerata 500 dan deviasi standard 10, nilai 500 adalah representasi dari nilai rerata di populasi atau nilai Z = 0 pada kurva normal.
Untuk menjangkau berbagai macam level atribut ukur dari level rendah, sedang hingga tinggi, maka tingkat kesulitan butir soal-butir soal di dalam tes dibuat bervariasi. Dalam satu tes harus ada butir soal yang memiliki tingkat kesulitan rendah, sedang hingga tinggi. Butir soal-butir soal dengan tingkat kesulitan rendah akan mendiskriminasikan individu di level rendah dengan baik, sedangkan butir soal-butir soal dengan tingkat kesulitan tinggi akan mendiskriminasikan individu di level tinggi dengan baik.
Reliabilitas Pengukuran. Reliabilitas menunjukkan keajegan atau presisi hasil pengukuran. Menurut konsep pengukuran, reliabilitas pengukuran dapat menunjukkan konsistensi hasil pengukuran. Semakin tinggi konsistensi hasil pengukuran semakin tinggi tingkat kepercayaan kita terhadap skor yang dihasilkan. Alat ukur yang memiliki reliabilitas tinggi dapat menjelaskan bahwa perbedaan skor antar subjek dapat menjelaskan perbedaan yang disebabkan oleh kemampuan bukan karena eror pengukuran (Cohen & Swerdlik 2005).
Pendekatan reliabilitas yang akan digunakan dalam pengambangan AJT CogTest adalah pendekatan konsistensi internal melalui koefisien KR-20 yang harganya bergerak dari 0 hingga 1. Semakin tinggi harga KR-20 yang didapatkan maka semakin makin tinggi reliabilitas pengukuran yang dilakukan oleh sebuah tes. Pendekatan konsistensi internal selain lebih praktis juga dapat mencegah adanya perubahan kondisi subjek yang dapat mempengaruhi hasil reliabilitas.
Properti Psikometri Pendukung
Skala W
Sebagian besar subtes di dalam AJT CogTest dikalibrasi dengan menggunakan Skala W. Skala W menjadi dasar untuk mengembangkan skor-skor dalam bentuk lain misalnya, pemeringkatan persentil dan indeks kecakapan relatif) yang tersedia untuk penilaian WJ III (McGrew & Woodcock, 2001). Skala W dikembangkan oleh Richard Woodcock dan Marshall Dahl pada tahun 1971. Skala W adalah transformasi matematis dari analisis yang menggunakan Model Rasch yang didasarkan pada teori respons butir soal. Tujuan pengembangan skala W adalah untuk mempermudah penafsiran terhadap skor tes. Skala W merupakan salah satu representasi skala interval setara (equal-interval scale). Pada skala interval setara, jarak antar satu titik dengan titik di bawah dan di atasnya pada sebuah kontinum adalah setara. Dengan adanya kesamaan ini maka jarak antara lima titik interval dari 1 hingga 5 sama halnya jarak antara 6 hingga 10. Kesamaan ini juga dapat mengimplikasikan kemampuan skor untuk dimaknai atau ditransformasikan dengan menggunakan operasi matematika. Misalnya skor 10 dapat dimaknai lebih banyak dua kali lipat dari skor 5.
Pada AJT CogTest, tingkat kemampuan subjek maupun tingkat kesulitan butir soal direpresentasikan dalam skala W. Skor subjek dinamakan dengan skor W (W score) sedangkan tingkat kesulitan dalam skala W. Adanya hubungan ini memudahkan penguji untuk melihat abilitas seseorang antara satu subjek dengan subjek lainnya secara kuantitatif relatif (misalnya kemampuan subjek A 3 kali lipat Subjek B) dan melihat posisi abilitasnya tersebut secara kuantitatif objektif seperti halnya posisi berat badan pada timbangan badan.