EDUSCOPE. Januari, 2023. Vol. 08 No. 02 p-ISSN :2460Ae4844 e-ISSN : 2502 Ae 3985 Implementasi Classic Test dan Item Respon Theory Pada Penilaian Tes Pembelajaran Matematika Syaiful Syamsuddin Institut Agama Islam Negeri Curup e-mail korenpondensi: syaifulsyamsuddin@iaincurup. ABSTRACT The quality of learning assessment is one of the benchmarks in improving the quality of education. A good assessment system will trigger educators to be better at teaching and motivate students to learn better. Assessment of learning outcomes by educators is used to assess the achievement of student competencies and improving the learning process. The form of effort to assess student learning outcomes is to carry out tests by paying attention to the quality of tests based on student abilities. This study uses a quantitative approach to analyze the test items through the Classical Test Theory (CTT) and Item Response Theory (IRT) This research was conducted by respondents as much as 285 students. The results showed that based on CTT, 22. 5% were obtained in the difficult category, 47. 5% included in the moderate category, 30% in the easy category and 62. 5% of the items already had good discriminating power. As for questions with a distractor function that functions well at 45% with a reliability of 0. Meanwhile, with the item IRT, the model that is suitable for this study is IRT 2PL with difficulty levels between -6. 337 to 4. 945, differential power ranging from 0. 271 to 2. 254 with 38 fit items. KEYWORDS: Assessment. Measurement. Classical Test Theory. Item Respon Theory ABSTRAK Kualitas penilaian pembelajaran menjadi salah satu tolak ukur dalam peningkatan kualitas Sistem penilaian yang baik akan memicu pendidik untuk lebih baik dalam mengajar dan memotivasi peserta didik untuk belajar yang lebih baik. Penilaian hasil belajar oleh pendidik digunakan untuk menilai pencapaian kompetensi peserta didik dan memperbaiki proses Bentuk upaya penilaian hasil belajar peserta didik adalah melakukan pengujian dengan memperhatikan kualitas tes berdasarkan kemampuan siswa. Penelitian ini menggunakan pendekatan kuantitatif untuk menganalisis butir tes melalui pendekatan Classical Test Theory (CTT) dan Item Respon Theory (IRT). Penelitian ini dilakukan dengan melibatkan jumlah responden sebanyak 285 siswa. Hasil penelitian menunjukkan bahwa berdasarkan CTT diperoleh 22,5% dengan kategori sulit, 47,5% termasuk kategori sedang dan sebesar 30% dengan kategori mudah serta 62,5% soal sudah memiliki daya pembeda yang baik. Adapun soal dengan fungsi distraktor yang berfungsi baik sebesar 45% dengan reliabilitas sebesar 0,785. Sedangkan dengan model IRT, model yang sesuai dengan penelitian ini adalah IRT 2PL dengan perolehan tingkat kesukaran antara -6. 337 sampai 4. 945, daya beda berkisar antara 0,271 sampai 2,254 dengan 38 butir fit. KATA KUNCI: Penilaian. Pengukuran. Teori Tes Klasik. Teori Respon Butir Article History Received: 28 Desember 2022 Revised: 09 Januari 2023 Accepted: 30 Januari 2023 29 Saiful: Implementasi Classic Test A Pembelajaran Matematika PENDAHULUAN Pendahuluan Pada era berkemajuan saat ini, semua negara akan berkompetensi dalam meningkatkan kualitas pendidikan. Melalui pendidikan diharapkan mampu meningkatkan kualitas sumber daya manusia sehingga tingkat kesejahteraan pada masyarakat juga ikut meningkat. Dalam meningkatkan kualitias pendidikan dapat pendidikan dapat ditempuh melalui peningkatan kualitas pembelajaran dan kualitas sistem penilaiannya (Mardapi, 2. Sejalan dengan hal tersebut, (Utami & Syamsuddin, 2. menyebutkan bahwa kualitas pembelajaran didasarkan pada standar penilian khususnya pada jenjang pendidikan dasar dan menengah. Penilaian memiliki peran yang sangat penting dalam pembelajaran. Sebagimana Peraturan Pemerintah Nomor 4 Tahun 2022 tentang Standar Nasional Pendidikan bahwa pelaksanaan pendidikan dikatakan terlaksana apabila sesuai dengan standar nasional pendidikan yang telah ditentukan dan ditetapkan, salah satu diantara 8 standar pendidikan ialah standar penilaian pendidikan (Indonesia, 2. Standar Penilaian Pendidikan merupakan tolak ukur pada sistem pembelajaran mengenai prinsip, tujuan, manfaat, mekanisme, prosedur serta instrumen yang digunakan untuk menilai hasil belajar siswa (Primasari et al. , 2. Sistem pembelajaran dan sistem penilian saling terkait. Penilaian merupakan bagian dari suatu proses untuk dapat diketahui seberapa besar tujuan yang akan dicapai (Al-Fraihat et al. , 2. Bila suatu proses pada penilaian tidak sesuai dengan standar yang telah ditetapkan, maka akan terjadi penyederhanaan dalam proses pembelajaran yang diorientasikan dengan bagaimana penilaian itu dilakukan. Secara umum, hasil penilaian merupakan salah satu indikator standar keberhasilan proses pembelajaran pada sistem pendidikan (Kusainun, 2. (Mukti et al. , 2020. Syamsuddin & Istiyono. Syamsuddin & Setiawati, 2018. Syamsuddin & Utami, 2021. Utami & Syamsuddin, 2. menyatakan bahwa sistem pembelajaran yang baik akan menghasilkan kualitas belajar yang baik dan kualitas pembelajaran yang baik dapat dilihat dari hasil Kemudian, sistem penilaian yang baik akan memicu pendidik untuk lebih baik dalam mengajar dan memotivasi peserta didik untuk belajar yang lebih baik. penilaian merupakan kebutuhan instrik dalam kegiatan belajar mengajar (Gronlund. Untuk itu dalam peningkatan kualitas pembelajaran diperlukan sistem penilaian yang baik pada satuan pendidikan. Penilaian pada satuan pendidikan secara edukatif merupakan penilaian yang hasilnya digunakan sebagai umpan balik bagi tenaga pendidik, siswa dan orang tua dalam meningkatkan proses pembelajaran dan hasil belajar (Permendikbudristek, 2. Untuk itu, kegiatan penialain merupaan salah satu kewajiban pendidik untuk Penilaian dilkukan untuk memberikan gambaran sejauhmana kemajuan EDUSCOPE Vol. 8 No. 02 Januari 2023 30 Saiful: Implementasi Classic Test A Pembelajaran Matematika peserta didik terhadap kurikululm yang telah diajarkan (Ferreira et al. , 2020. GonzylezAa salamanca et al. , 2. Permendikbudristek Nomor 21 Tahun 2022 bahwa penilaian hasil belajar oleh pendidik dilakukan secara formatif dan sumatif untuk memantau proses, kemajuan, perbaikan hasil, mengumpulkan informasi mengenai kesulitan belajar serta perkembangan peseta didik. Sejalan dengan hasil penelitian (Ikhwan, 2. bahwa penilaian hasil belajar oleh pendidik digunakan untuk menilai pencapaian kompetensi peserta didik. bahan penyusunan laporan hasil belajar. dan memperbaiki proses Berdasarkan hal tersebut dapat diartikan bahwa salah satu upaya penilaian hasil belajar peserta didik adalah dengan memberikan tes hasil belajar. Meskipun, terkadang tes yang diberikan kepada peserta didik belum mampu menunjukkan kemampuan peserta didik itu sendiri (Andayani et al. , 2019. Purnama & Alfarisa, 2. Oleh karena itu, diperlukan suatu metode dalam menganalisis butir tes hasil belajar peserta didik yang mampu memnunjukkan kemauan peserta didik. Terdapat dua metode yang dapat digunakan untuk menganalisis butir tes yaitu dengan pendekatan Teori Tes Klasik (Classical Test Theor. dan pendekatan Teori Respon Butir (Item Respon Theor. (Abdu Bichi et al. , 2015. Jabrayilov et al. , 2. Teori Tes Klasik (CTT) dan Teori Respon Butir (IRT) umumnya dianggap sebagai dua kerangka statistik yang digunakan untuk mengatasi hal yang berkaitan dengan pengukuran. Baik CTT maupun IRT menggambarkan karakteristik individu, menganalisis kemampuan dan atribut laten serta memungkinkan untuk memprediksi hasil psikologis dan tes pendidikan dengan mengidentifikasi parameter item dalam hal ini tingkat kesukaran, daya beda dan kemampuan peserta tes (Abdu Bichi et al. , 2. (Hambleton & Jones, 1. menjelaskan bahwa CTT mudah diterapkan dalam banyak situasi pengujian, dimana kemampuan seseorang bergantung pada item dan statistik item yang meliputi tingkat kesukaran dan daya beda bergantung pada sampel. (Cappelleri et al. , 2. berpendapat bahwa CTT merupakan pendekatan yang mudah dipahami dan sederhana dalam menganalisis tes secara empirik yang jika digambarkan, kemampuan peserta tes dilaporkan dalam hal jumlah butir yang dijawab benar. Di sisi lain. IRT lebih berlandaskan teori dan memodelkan distribusi keberhasilan peserta tes di tingkat butir. IRT berfokus pada informasi tingkat item berbeda dengan fokus utama CTT pada informasi tingkat tes (R. K Hambleton & Swaminathan, 1. menjelaskan bahwa Item Respon Theory (IRT) merupakan salah satu cara untuk menilai kelayakan butir dengan membandingkan rerata penampilan butir terhadap tampilan bukti kemampuan kelompok yang diramalkan oleh model. Secara sederhana dijelaskan (Hambleton & Jones, 1. bahwa IRT sebagai teori statistik umum tentang item yang diuji dan performa tes dan bagaimana performa berhubungan dengan kemampuan yang diukur oleh item dalam tes. Ada beberapa kriteria yang diperhatikan dalam CTT yaitu tingakat kesukaran, daya beda, efektivitas distractor dan reliabilitas skor tes (Hamimi et al. , 2020. Suwarto. EDUSCOPE Vol. 8 No. 02 Januari 2023 31 Saiful: Implementasi Classic Test A Pembelajaran Matematika Akan tetapi. CTT dianggap kurang maksimal dalam menggambarkan kemampuan peserta tes yang sebenarnya (Amelia & Kriswantoro, 2. Oleh karena itu. IRT hadir bertujuan untuk mengatasi kelemahan pengukuran melalui CTT, yang berarti sebuah tes dinilai berdasarkan masing-masing item. Sehingga setiap butir memiliki tingkat kesulitamn yang berbeda, memperhitungkan kemampuan peserta didik, serta karakteristik tes tidak bergantung terhadap peserta tes (Purnama & Alfarisa, 2. Pada teori respon butir digunakan model matematis dalam menghubungkan karakteristik butir soal dengan kemampuan responden. (Retnawati, 2. menyatakan bahwa model matematis pada teori respon butir memiliki makna bahwa probabilitas subjek untuk menjawab butir dengan benar tergantung pada kemampuan subjek dan karakteristik butir. Tiga model IRT yang paling umum digunakan adalah model logistik satu parameter . odel 1PL atau Rasc. , model logistik dua parameter . PL) dan model logistik tiga parameter . PL). Ketiga model tersebut memperhatikan tingkat kesukaran Selain itu, model 2PL dan 3PL memngukur daya beda yang memungkinkan butir untuk membedakan kemampuan peserta tes. Sedangkan Model 3PL berisi disebut sebagai parameter untuk melihat guessing yang terjadi pada karakteristik butir (Abdu Bichi et al. , 2. METODE Metode Pada Penelitian ini merupakan penelitian dekriptif dengan pendekatan kuantitatif yang bertujuan untuk memberikan gambaran mengenai hasil analisis butir tes melalui pendekatan Teori Tes Klasik (Classic Theor. dan Teori Respon Butir (Item Respon Theor. Penelitian ini melibatkan 285 siswa SMA se-derajat di Yogyakarta. Siswa yang terlibat dalam penelitian ini ditentukan melalui teknik purposive sampling yang selanjutnya mengerjakan 40 butir tes pembelajaran matematika. Tahapan atau prosedur yang dilakukan dalam penelitian ini adalah sebagai berikut: Penyiapan data berupa penginputan jawaban peserta tes. Penerapan teori uji klasik dengan menghitung indeks tingkat kesukaran, daya beda, sebaran pilihan jawaban dan reliabilitas soal. Penerapan teori respon butir dengan menggunakan model IRT 1PL, 2PL dan 3PL dengan pengujian asumsi model IRT, menghitung parameter karakteristik butir soal( tingkat kesukaran dan daya bed. , menghitung parameter kemampuan untuk setiap model, mencari model ICC yang sesuai dari setiap soal dalam setiap model, mencari model yang paling sesuai untuk menggambarkan setiap soal Software yang digunakan pada penelitian ini adalah ITEMAN dan BILOG-MG. Program ITEMAN digunakan untuk analisis teori tes klasik . lassic theor. , sedangkan program BILOG-MG digunakan untuk menganalisis model item respon theory (IRT) EDUSCOPE Vol. 8 No. 02 Januari 2023 32 Saiful: Implementasi Classic Test A Pembelajaran Matematika 1PL, 2PL dan 3PL HASIL dan PEMBAHASAN Classic Test Theory (CTT) Beberapa aspek yang diperhatikan dalam teori uji klasik yaitu tingkat kesukaran, daya beda, kebermanfaatan distraktor dan reliabilitas skor tes (Perdana, 2. Hasil analisis butir CTT melalui program ITEMAN memberikan gambaran karakteristik butir meliputi tingkat kesukaran, daya beda dan keberfungsian distractor serta reliabilitas skor tes, sebagaimana gambar yang disajikan berikut ini: Gambar 1. Output Analisis Butir melalui CTT menggunakan ITEMAN Tingkat kesukaran butir soal memberikan gambaran mengenai kemungkinan seberapa banyak responden menjawab butir tes dengan benar (Erfan et al. , 2. Adapun kriteria tingkat kesukaran butir dengan pendekatan CTT disajikan pada kriteria sebagai berikut (Lestari & Yudhanegara, 2. Tabel 1. Kriteria Indeks Kesukaran Kategori Sukar Sedang Mudah Interpretasi Indeks Kesukaran 00 < IK O 0. 30 < IK O 0. 70 < IK O 1. Tingkat kesukaran butir tes ini dapat dilihat melalui output ITEMAN pada kolom prop correct (Allen & Yen, 1. Berdasarkan kriteria yang tersaji pada tabel 1 di atas diperoleh 22,5% butir dengan kategori sukar, 47,5% termasuk kategori sedang dan sebesar 30% dengan kategori mudah. Hasil analisis rangkuman butir ditinjau dari tingkat kesukarannya dilihat pada tabel 2 berikut ini: EDUSCOPE Vol. 8 No. 02 Januari 2023 33 Saiful: Implementasi Classic Test A Pembelajaran Matematika Tabel 2. Kriteria Indeks Kesukaran Kategori Sukar Sedang Mudah No. 10, 22, 23, 24, 26, 27, 29, 30, 31 2,4,5, 9, 17, 18, 19, 21, 25, 28, 32, 33, 34, 35, 36, 37, 38,39, 40 1,3,6,7,8, 11, 12, 13, 14, 15,16, 20 Persebaran tingkat kesukaran menggunakan CTT di atas telah merata. Sebanyak 40 butir yang dianalisis, tidak seluruh butir memiliki karakteristik yang sukar ataupun mudah, melainkan tersebar dengan baik. (Arikunto, 2. menjelaskan bahwa tes yang baik adalah tes yang memiliki persebaran butir yang tidak terlalu mudah ataupun tidak terlalu sulit. Butir terlalu mudah tidak dapat memicu peserta didik untuk untuk meningkatkan usaha dalam pemecahannya. Sebaliknya butirl yang terlalu sukar menimbulkan rasa putus asa dan menurunkan motivasi peserta didiki untuk mengulangi tes karena diluar batas kemampuannya (Suzana, 2. Kriteria selanjutnya yang perlu diperhatikan dalam analisis butir menggunakan CTT yakni indeks daya beda. Daya beda merupakan kemampuan tes untuk membedakan peserta tes yang memiliki kemampuan tinggi dan kemampuan rendah berdasarkan kemampuan peserta tes menjawab soal (Suwarto, 2. Daya beda butir biasanya dilakukan dengan menggunakan indeks korelasi, diskriminasi, dan indeks keselarasan item. Dari ketiga cara tersebut yang paling sering digunakan adalah indeks korelasi (Yen, 1. Hasil analisis daya beda butir soal dilihat pada output point biserial sebagaimana penelitian sebelumnya (Saputra et al. , 2. Adapun kriteria suatu butir dikatakan baik ketika indeks daya beda lebih dari 0. dengan kriteria cukup (Erfan et al. , 2020. Suwarto, 2. Berikut rangkuman hasil analis indeks daya beda butir soal yang disajikan pada tabel di bawah ini: Tabel 3. Daya Beda Berdasarkan CTT Kategori Baik Belum baik No Butir 2,3, 5, 6, 9,11, 12,13, 14, 15, 16,17,18,19,22,23, 24, 25, 31, 32, 33, 34, 35, 36, 38 1,4, 7, 8, 10,20, 21,26, 27,28, 29, 30, 37, 39, 40 Dari pembacaan tabel 2 diperoleh bahwa 62,5% soal sudah memiliki daya pembeda yang baik dan selebihnya sebanyak 37,5% belum mampu memiliki daya pembeda yang baik sehingga masih diperlukan adanya perbaikan. Hasil ini menunjukkan bahwa 15 butir dari 40 butir yang diujikan harus direvisi. Sebagaimana (Dichoso & Joy, 2. menyebutkan bahwa butir tes yang berada dalam kategori belum baik harus di revisi dan ketika nilai indeks daya beda sangat rendah maka harus di keluarkan. Meskipun EDUSCOPE Vol. 8 No. 02 Januari 2023 34 Saiful: Implementasi Classic Test A Pembelajaran Matematika demikian, butir-butir yang berada dalam kategori baik dapat digunakan unutk tes pembelajaran matematika. Hal tersebut juga memberikan informasi jika butir-butir tes pembelajaran matematika ini dapat membedakan siswa yang memiliki kemampuan tinggi, sedang ataupun rendah. Semakin besar indeks daya beda butir tes maka butir tersebut mampu mendeteksi perbedaan individu diantara siswa (Singh et al. , 2014. Suwarto, 2. Distraktor atau biasa disebut sebagai pengecoh yang berarti jawaban yang bernilai salah dari bentuk tes pilihan ganda. Distraktor memiliki fungsi sebagai opsi pengecoh yang dapat membuat peserta tes merasa kebingungan dalam memilih jawaban benar diantara alternative jawaban yang disediakan (Suwarto, 2. Suatu distraktor dapat dikatakan berfungsi dengan baik jika dipilih paling sedikit 5% untuk minimal 4 pilihan jawaban (Kementerian Pendidikan Dan Kebudayaan, 2017. Suwarto, 2. Berdasarkan hasil analis dengan ITEMAN diperoleh informasi bahwa 50% butir memiki distraktir yang berfungsi dengan baik meliputi butir 7, 8,9,10,14,19,22, 23, 24, 26, 27, 28, 29, 30, 33, 34, 38,39, 40. Sedangkan 50% butir lainnya, keberfungsian distraktor tidak berjalan dengan baik atau dengan kata lain 50% pengecoh butir-butir tersebut harus direvisi. Sebagaimana penelitian (Maharani & Putro, 2. bahwa 20% butir dengan distraktor yang tidak efektif harus direvisi. Reliabilitas skor tes dilihat menggunakan koefisien alpha. Nilai koefisien alfa yang diperoleh dari hasil ITEMAN sebesar 0,885. Hal ini menunjukan bahwa butir-butir tes ah memenuhi kriteria reliabel. Suatu tes dapat dikatakan reliabel jika nilai koefisien alpha berada di atas batas nilai koefisien reliabilitas 0. 70 (Pascual & North, 2016. Sugianto, 2. Analisis butir menggunakan Classic Test Theory (CTT) memiliki kekurangan dikarenakan butir tes bergantung pada responden yang dikenai butir tes (Amelia & Kriswantoro, 2. Lebih lanjut dijelaskan bahwa pada CTT, tes terasa mudah jika dikerjakan oleh responden dengan kemampuan tinggi . ndeks kesukaran butir menjadi besa. , sedangkan responden dengan kemampuan rendah maka tes akan terasa sukar . ndeks kesukaran butir menjadi keci. (Suwarto, 2. Dengan demikian, peneliti imelanjutkan analisis karakteristik butir soal dengan pendekatan Item Respon Theory (IRT). Item Respon Theory (IRT) Unidimensional merupakan salah satu prasyarat yang harus dipenuhi dalam model IRT Hambleton & Swaminathan, 1985:. Retnowati . menerangkan bahwa salah satu cara yang digunkan untuk mengetahui asumsi unidimensional adalah dengan analisis faktor. Berikut gambar hasil analisis faktor yang dipereoleh dengan mengguakan SPSS disajikan melalui gambar berikut: EDUSCOPE Vol. 8 No. 02 Januari 2023 35 Saiful: Implementasi Classic Test A Pembelajaran Matematika Gambar 2. Grafik Unidimensional Tes Pembelajaran Matematika Scree plot diatas memberikan informasi bahwa faktor yang terbentuk adalah 1 faktor yang berarti unidimensio. (Saepuzaman et al. , 2. menaksir asumsi unidimensional berdasarkan pada rasio akar ciri pertama dan kedua. Jika perbandingan nilai perbandingan akar ciri yang tinggi mengindikasikan unidimensional. Gambar diatas menunjukkan penurunan grafik yang ekstrim antara faktor dan faktor 2 hingga hampir membentuk sudut siku-siku. Hal ini berarti hanya terdapat 1 faktor dominan dalam perangkat tes pembelajaran matematika atau dengan kata lain diartikan jika setiap butir hanya mengukur satu kemampuan (Retnawati, 2. Faktor pertama memiliki akar ciri . sebesar 1,138 sedangkan faktor-faktor lainnya memiliki akar ciri . kurang dari satu. Terdapat dua cara yang bisa digunakan untuk menentukan kecocokan model parameter logistik yakni dengan metode grafik dengan memperhatikan nilai chi square . dan metode grafik dengan melihat kurva ICC (Retnawati, 2. Lebih lanjut dijelaskan, (R. K Hambleton & Swaminathan, 1985. Saepuzaman et al. , 2. bahwa butir dikatakan cocok jika nilai chi square . atau Threshold pada output ITEMAN berada pada rentang -2 s. d 2 (Cheng et al. , 2. Pada penelitian ini, kecocokan model menggunakan metode statistik dan metode Adapun dalam menentukan model parameter yang cocok untuk kedua metode . tatistik dan grafi. yakni dengan membandingkan paling banyak butir yang cocok . dengan model parameter logistik . PL, 2PL dan 3PL) (Saepuzaman et al. , 2. Berikut rangkuman kecocokan butir 1PL, 2PL dan 3 PL ditinjau dari tingkat kesukaran disajikan pada tabel 4 berikut ini: Tabel 4. Kecocokan Butir Pada Model Parameter . PL, 2PL, dan 3PL) No. Butir 1 PL 2 PL EDUSCOPE Vol. 8 No. 02 Januari 2023 36 Saiful: Implementasi Classic Test A Pembelajaran Matematika Threshold Ket Tidak Fit Fit Tidak Fit Fit Fit Fit Tidak Fit Fit Fit Tidak Fit Tidak Fit Fit Tidak Fit Fit Fit Fit Fit Fit Fit Tidak Fit Fit Fit Fit Fit Fit Tidak Fit Tidak Fit Fit Fit Tidak Fit Tidak Fit Fit Fit Fit Fit Fit Fit Fit Fit Fit Threshold Ket Tidak Fit Fit Fit Fit Fit Fit Tidak Fit Fit Fit Fit Fit Fit Fit Fit Fit Fit Fit Tidak Fit Fit Fit Fit Fit Fit Fit Tidak Fit Tidak Fit Tidak Fit Tidak Fit Tidak Fit Fit Fit Fit Fit Fit Fit Fit Fit Fit Fit Threshold Ket Tidak Fit Fit Fit Fit Fit Fit Fit Fit Fit Tidak Fit Fit Fit Fit Fit Fit Fit Fit Fit Fit Fit Fit Fit Fit Fit Fit Tidak Fit Tidak Fit Tidak Fit Tidak Fit Tidak Fit Tidak Fit Tidak Fit Tidak Fit Tidak Fit Tidak Fit Tidak Fit Tidak Fit Tidak Fit Tidak Fit Tidak Fit Berdsarkan hasil analisis di atas karakteristik keseluruhan butir tes pembelajaran matematika menggunakan model IRT 1PL menunjukan bahwa soal tersebut memiliki EDUSCOPE Vol. 8 No. 02 Januari 2023 37 Saiful: Implementasi Classic Test A Pembelajaran Matematika rentang tingkat kesukaran antara -6. 804 sampai 3. Nilai chi-square atau threshold butir yang berada dalam rentang fit berkisar 72. 5% meliputi butir 2, 4, 5, 6, 8, 9 12, 14, 15, 16, 17, 18, 19, 21, 22, 23, 24, 25, 28, 29, 32, 33, 34, 35, 36, 37, 38, 39, dan 40. Selain itu, model kurva ICC . etode grafi. untuk model parameter logistic 1 PL dapat dilihat pada gambar di bawah ini: Gambar 3. Kurva ICC 1 PL Tes Pembelajaran Matematika Hasil analisa karakteristik butir tes pembelajaran matematika menggunakan model IRT 2PL menunjukan bahwa soal tersebut mempunyai tingkat kesukaran antara -6. atau dengan kata lain 77. 5% keseluruhan butir cocok dengan model meliputi butir 2, 3, 4, 5, 6, 8, 9, 11, 12, 13,14, 15, 16, 17, 18, 19 20, 21, 22, 23, 24, 25, 31, 32, 33, 34, 35, 36, 37, 38, 39, dan 40. Adapun daya beda pada butir tes tersebut berkisar antara 0,271 sampai 2,254. (R. K Hambleton & Swaminathan, 1. menyebutkan jika daya beda butir soal yang baik berada pada kisaran 0 s. Berdasarkan karakteristik tersebut, keseluruhan butir memiliki daya beda yang baik. Hasil ini sejalan dengan penelitian lain (Danuwijaya, 2018. Saputra et al. , 2. bahwa dalam hasil penelitiannya memperoleh indeks daya beda yang baik meskipun konteks penelitiannya berbeda. Butir-butir yang memiliki indeks daya beda yang baik dapat membedakan responden atau peserta tes yang berkemampuan tinggi dan berkemampuan rendah (Uddin et al. , 2. dalam konteks tes pembelajaran mataematika. Selain itu, model kurva ICC . etode grafi. untuk model parameter logistic 2 PL dapat dilihat pada gambar di bawah ini: EDUSCOPE Vol. 8 No. 02 Januari 2023 38 Saiful: Implementasi Classic Test A Pembelajaran Matematika Gambar 4. Kurva ICC 2 PL Tes Pembelajaran Matematika Analisis berikutnya yang dilakukan yaitu mengestimasi parameter butir dengan model 3PL meliputi tingkat kesukaran, daya beda dan guessing. Hasil analisa karakteristik butir tes pembelajaran matematika menggunakan model IRT 3PL menunjukan bahwa analisis butir soal tidak bisa dilakukan sampai 40 butir, hanya 25 butir yang dianalisis dari sejumlah butir yang ada yakni 40 butir soal. Hal ini terjadi karena batas acuan untuk memberhentikan penyajian soal pada pada output ITEMAN kesalahan baku pengukuran (SE) adalah 0. 01 (Fatkhudin et al. , 2. Model IRT dengan 3 PL memperhatikan nilai asimtot bawah pada output ITEMAN (Allen & Yen, 1979. K Hambleton & Swaminathan, 1. tidak sama dengan 0 yang mengindikasikan adanya unsur guessing . (Suwarto, 2. Mengaju hal tersebut, pada model 3 PL diperoleh indeks tingkat kesukaran butir berada pada rentang -5. 789, daya beda berkisar antara 0. 497 sampai 2. 595 dan 26 butir yang teranalisis dalam penelitian ini tidak sama dengan 0. Berdasarkan hal tersebut maka 57. 5% butir fit atau yang cocok dengan model meliputi butir 2, 3, 4, 5, 6, 7, 8, 9, 11, 12, 13, 14, 15, 16, 17, 18, 20, 21, 22, 23, 24, 25, 26. KESIMPULAN dan SARAN Kesimpulan Berdasarkan hasil pembahasan terdapat perbedaan parameter daya pembeda dan tingkat kesukaran pada metode Classic Test Theory dan Item Respon Theory (IRT). Pada kasus CTT dipengaruhi oleh kemampuan kelompok. yang berarti kemampuan peserta tes/responden dinyatakan pada variabel yang bersifat diskrit serta nilai koefisien reliabilitas tergantung pada peserta tes yang mengikuti tes. Sedangkan dalam kasus IRT dipengaruhi oleh kemampuan individu yang berarti kemampuan peserta tes/responden dinyatakan pada variabel yang sifatnya kontinu serta dalam menentukan koefisien reliabilitas tidak memerlukan tes paralel serta tidak bergantung kepada responden/peserta tes yang mengikuti tes. Meskipun demikian, dalam pengujian EDUSCOPE Vol. 8 No. 02 Januari 2023 39 Saiful: Implementasi Classic Test A Pembelajaran Matematika menggunakan CTT tidak mewajibkan jumlah sampel yang besar dan lebih mudah Sebaliknya, analisis butir soal dengan IRT memerlukan jumlah sampel yang besar untuk hasil analisis yang lebih representative dan memerlukan software yang baik untuk melakukan estimasi parameter yang akurat. Model yang paling sesuai untuk menggambarkan 40 butir tes pada pembelajaran matematika adalah model teori respon butir 2PL. Item fit pada model teori respon butir 2PL antara lain 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40 yaitu berkisar 77. 5% butir fit. Saran yang dapat diberikan penelitian yang dilakukan memperhatikan jumlah Analisis dengan IRT harus memiliki jumlah responden yang lebih banyak dan dapat dianalisis dengan menggunakan analisis faktor dengan memperhatikan KMO dan BartlettAos test. Selain itu, tingkat kesukaran butir sebaiknya dibuat proportional dengan peresentase 25% kategori mudah, 25% sulit dan 50% lainnya memiliki kategori DAFTAR RUJUKAN Abdu Bichi. Embong. , & Mamat. Comparison of Classical Test Theory and Item Response Theory:A Review of Empirical Studies. Australian Journal of Basic and Applied Sciences, 9. , 549Ae556. Al-Fraihat. Joy. MasaAodeh. , & Sinclair. Evaluating E-learning systems success: An empirical study. Computers in Human Behavior, 102, 67Ae86. https://doi. org/10. 1016/j. Allen. , & Yen. Introduction to measurement theory. Brooks/Cole Publising Company. Amelia. , & Kriswantoro. Implementation of Item Response Theory for Analysis of Test Items Quality and StudentsAo Ability in Chemistry. JKPK (Jurnal Kimia Dan Pendidikan Kimi. , 2. , 1. https://doi. org/10. 20961/jkpk. Andayani. Purwanto, & Ramalis. Kajian implementasi teori respon butir dalam menganalisis instrumen tes materi fisika. Prosiding Seminar Nasional Fisika 5. , 37Ae42. Arikunto. Dasar - Dasar Evaluasi Pendidikan. Bumi Aksara. Cappelleri. Jason Lundy. , & Hays. Overview of classical test theory and item response theory for the quantitative assessment of items in developing patient-reported outcomes measures. Clinical Therapeutics, 36. , 648Ae662. https://doi. org/10. 1016/j. Cheng. Yang. , & Du. A class of asymptotically optimal group testing EDUSCOPE Vol. 8 No. 02 Januari 2023 40 Saiful: Implementasi Classic Test A Pembelajaran Matematika strategies to identify good items. Discrete Applied Mathematics, 260, 109Ae116. https://doi. org/10. 1016/j. Danuwijaya. Item Analysis of Reading Comprehension Test for PostGraduate Students. English Review: Journal of English Education, 7. , 29. https://doi. org/10. 25134/erjee. Dichoso. , & Joy. Test item analyzer using point-biserial correlation and p-values. International Journal Of Scientific & Technology Research, 9. , 2122Ae2126. Erfan. Maulyda. Hidayati. Astria. , & Ratu. Analisis Kualitas Soal Kemampuan Membedakan Rangkaian Seri dan Paralel melalui Teori Tes Klasik Dan Model Rasch. Indonesian Journal of Educational Research and Review, 3. , 11Ae19. Fatkhudin. Surarso. , & Subagio. Item Response Theory Model Empat Parameter Logistik Pada Computerized Adaptive Test. Jurnal Sistem Informasi Bisnis, 4. , 121Ae129. https://doi. org/10. 21456/vol4iss2pp121-129 Ferreira. Martinsone. , & TaliN. Promoting Sustainable Social Emotional Learning at School through Relationship-Centered Learning Environment. Teaching Methods and Formative Assessment. Journal of Teacher Education for Sustainability, 22. , 21Ae36. https://doi. org/10. 2478/jtes-2020-0003 Gonzylez-salamanca. Agudelo. , & Salinas. Key competences, education for sustainable development and strategies for the development of 21st century skills. A systematic literature review. Sustainability (Switzerlan. , 12. , 1Ae https://doi. org/10. 3390/su122410366 Gronlund. Constructing Achievement Tests Third Edition. New Jersey:PrenticeHall. Hambleton. K, & Swaminathan. Item response theory: principlesand applications. MA: Kluwer-Nijhoff. Hambleton. Ronald K, & Jones. Comparison of classical test theory and item Educational Measurement, 12. , 38Ae47. papers2://publication/uuid/A3D74B30-9CF1-4A78-83BE-D6650B671ED1 Hamimi. Zamharirah. , & Rusydy. Analisis Butir Soal Ujian Matematika Kelas VII Semester Ganjil Tahun Pelajaran 2017/2018. Mathema: Jurnal Pendidikan Matematika, 2. , 57. https://doi. org/10. 33365/jm. Ikhwan. Management of Learning Assessment Using Curriculum 2013 (Case Study in Islamic Primary School (MI) Muhammadiyah 5 Wonosari Ponorogo - East Java Indonesia. , 108Ae123. Indonesia. Peraturan Pemerintah Republik Indonesia Nomor 4 Tahun 2022 Tentang Perubahan Atas Peraturan Pemerintah Nomor 57 Tahun 2021 Tentang Standar Nasional Pendidikan. Lembaran Negara Republik Indonesia Nomor 14 Tahun 2022, 1Ae16. https://peraturan. id/Home/Details/196151/pp-no-4-tahun-2022 Jabrayilov. Emons. , & Sijtsma. Comparison of Classical Test Theory EDUSCOPE Vol. 8 No. 02 Januari 2023 41 Saiful: Implementasi Classic Test A Pembelajaran Matematika and Item Response Theory in Individual Change Assessment. Applied Psychological Measurement, 40. , 559Ae572. https://doi. org/10. 1177/0146621616664046 Kementerian Pendidikan Dan Kebudayaan. Panduan Penilaian oleh Pendidik dan Satuan Pendidikan Sekolah Menengah Pertama. Kementerian Pendidikan Dan Kebudayaan Direktorat Jenderal Pendidikan Dasar Dan Menengah, 43Ae45. http://repositori. id/18051/1/1. Panduan Penilaian SMP - Cetakan Keempat 2017. Kusainun. Analisis Standar Penilaian Pendidikan di Indonesia. Jurnal Keislaman Dan Kemasyarakatan, 4. , 134Ae154. Lestari. , & Yudhanegara. Penelitian Pendidikan Matematikan (Anna . PT. Refika Aditama. Maharani. , & Putro. Item Analysis of English Final Semester Test. Indonesian Journal EFL Linguistics, 5. , https://doi. org/10. 21462/ijefl. Mardapi. Pengukuran. Penilaian, dan Evaluasi Pendidikan. In Academia Edu (Vol. Issue . Yogyakarta Nuha Medika. Mukti. Utami. , & Puspitasari. Sekolah Alam: Evaluasi Program Sekolah dalam Menumbuhkan Kecerdasan Naturalistik dan Kinestetik pada Pendidikan Anak Usia Dini. INSANIA : Jurnal Pemikiran Alternatif Kependidikan, 25. , 123Ae132. https://doi. org/10. 24090/INSANIA. V25I1. Pascual. , & North. Analysis of The English Achievement Test for ESL Learners in Northern Philippines. International Journal of Advanced Research in Management and Social Sciences, 5. , 1Ae5. Perdana. Analisis Kualitas Instrumen Pengukuran Pemahaman Konsep Persamaan Kuadrat Melalui Teori Tes Klasik Dan Rasch Model. Jurnal Kiprah, 6. , 41Ae48. https://doi. org/10. 31629/kiprah. Permendikbudristek. Standar Penilaian Pendidikan Permendikbudristek No 21 Gurusumedang. Com. https://w. com/2022/06/standarpenilaian-pendidikan. Primasari. Marini. Arita. , & Mohamad. Analisis Kebijakan Dan Pengelolaan Pendidikan Terkait Standar Penilaian Di Sekolah Dasar. Jurnal Basicedu, 5. , 1479Ae1491. https://jbasic. org/index. php/basicedu/article/view/956 Purnama. , & Alfarisa. Karakteristik Butir Soal Try Out Teori Kejuruan Akuntansi Smk Berdasarkan Teori Tes Klasik Dan Teori Respons Butir. Jurnal Pendidikan Akuntansi Indonesia, 18. , 36Ae46. https://doi. org/10. 21831/jpai. Retnawati. Teori Respon Butir dan Penerapannya. Nuha Medika. Saepuzaman. Istiyono. Haryanto. Retnawati. , & Yustiandi. Analisis EDUSCOPE Vol. 8 No. 02 Januari 2023 42 Saiful: Implementasi Classic Test A Pembelajaran Matematika Karakteristik Butir Soal Fisika Dengan Pendekatan IRT Penskoran Dikotomus dan Politomus. Radiasi : Jurnal Berkala Pendidikan Fisika, 14. , 62Ae75. https://doi. org/10. 37729/radiasi. Saputra. Retnawati. , & Yusron. Analysis Difficulties and Characteristics of Item Test of on Biology National Standard School Examination. Proceedings of the 6th International Seminar on Science Education (ISSE 2. , 541(Isse 2. , 8Ae14. https://doi. org/10. 2991/assehr. Singh. Kariwal. Gupta. , & Shrotriya. Improving Multiple Choice Questions ( MCQs ) through item analysis : An assessment of the assessment tool. International Journal of Sciences & Applied Research, 1. , 53Ae57. Sugianto. Validity and Reliability of English Summative Test for Senior High School. Indonesian EFL Journal: Journal of ELT. Linguistics, and Literature, 3. , 22Ae38. http://ejournal. id/mataraman/index. php/efi Suwarto. Teori Tes Klasik dan Teori Tes Modern. 1, 69Ae78. Suwarto. Karakteristik Tes Ilmu Pengetahuan Alam. Jurnal Pendidikan, 31. , 109. https://doi. org/10. 32585/jp. Suwarto. The Characteristics of Indonesia Second-semester Final Test for Eighth-grade Students. , 356Ae370. Suzana. Analisis Tingkat Kesukaran dan Daya Beda Butir-Butir Soal Penilaian Akhir Tahun Matematika Kelas X di SMA Negeri 1 Purbalingga. MathGram Matematika, 2. , 1Ae8. Syamsuddin. , & Istiyono. The effectiveness of mathematics learning through contextual teaching and learning approach in Junior High School. AIP Conference Proceedings, 2014. , 020085. https://doi. org/10. 1063/1. Syamsuddin. , & Setiawati. The influence of problem solving ability, emotional intelligence and formative tests on learning outcomes of mathematics. International Conference on Mathematics and Science Education of Universitas Pendidikan Indonesia, 803Ae808. http://science. edu/proceeding/index. php/ICMScE/article/view/174 Syamsuddin. , & Utami. Efektivitas Pembelajaran Matematika melalui Pendekatan Contextual Teaching and Learning. Jurnal Riset Dan Inovasi Pembelajaran, 1. , 32Ae40. https://doi. org/10. 51574/JRIP. V1I1. Uddin. Uddin. Rehman. Siyar. , & Mehboob. Item Analysis of Multiple Choice Questions in Pharmacology. Journal of Saidu Medical College. Swat, 10. https://doi. org/10. 52206/jsmc. Utami. , & Syamsuddin. An Implementation to Determine The KKM of Music. , 541Ae549. Utami, & Syamsuddin. Perubahan Perilaku Nomophobia melalui Pendekatan Interaksi Sosial: Sngle Case Research (SCR). Preschool: Jurnal Perkembangan Dan EDUSCOPE Vol. 8 No. 02 Januari 2023 43 Saiful: Implementasi Classic Test A Pembelajaran Matematika Pendidikan Anak Usia Dini, 2. , 133Ae140. http://ejournal. id/index. php/preschool/article/view/10307 EDUSCOPE Vol. 8 No. 02 Januari 2023