Education Achievment: Journal of Science and Research Volume 6 Issue 3 November 2025 Journal Homepage: http://pusdikra-publishing. com/index. php/jsr Analisis Kelayakan Butir Soal Pilihan Ganda Perpajakan Sebagai Instrumen Evaluasi Pembelajaran SMK Akuntansi melalui Software ANATES Erina Octaviani Mirantu1. Rifka Amelia Putri2. Ardelia Benita Diva Gristiana3. Fidia Saputri4. Nur Fatimah Az Zahra5. Ira Yuli Indrianti6. Luqman Hakim7. Vivi Pratiwi8 1,2,3,4,5,6,7,8 Universitas Negeri Surabaya. Indonesia Corresponding Author: : 24080304036@mhs. ABSTRACT ARTICLE INFO Article history: Received 01 November 2025 Revised 05 November 2025 Accepted 20 November 2025 Key Word How to cite Penelitian ini bertujuan untuk menganalisis kelayakan butir soal berupa pilihan ganda pada materi Perpajakan sebagai instrumen evaluasi pembelajaran bagi peserta didik SMK Akuntansi dengan memanfaatkan perangkat lunak ANATES. Instrumen penelitian yakni berupa 54 butir soal yang dikembangkan berdasarkan 6 indikator elemen kompetensi perpajakan fase F. Soal tersebut diujikan kepada 20 responden peserta didik SMK, kemudian dianalisis menggunakan ANATES versi 4. 09 untuk memperoleh informasi mengenai tingkat kesukaran, daya pembeda, validitas, reliabilitas, serta kualitas Hasil analisis menunjukkan bahwa tes memiliki reliabilitas tinggi dengan koefisien sebesar 0,95, menandakan konsistensi internal yang sangat baik. Berdasarkan tingkat kesukaran, diperoleh 46,3% butir soal tergolong mudah, 31,5% sedang, 5,6% sukar, dan sisanya sangat mudah. Dari aspek daya pembeda, sebagian besar butir soal berada pada kategori baik hingga sangat baik, dengan rata-rata indeks daya pembeda sebesar 0,46. Sementara itu, hasil korelasi butir menunjukkan mayoritas soal memiliki validitas signifikan dan pengecoh yang berfungsi dengan baik. Secara keseluruhan, hasil penelitian ini menunjukkan bahwa instrumen tes pilihan ganda perpajakan yang dikembangkan layak digunakan sebagai alat evaluasi pembelajaran di SMK Akuntansi, meskipun beberapa butir perlu direvisi untuk meningkatkan keseimbangan tingkat kesukaran dan efektivitas pengecoh. Analisis Butir Soal. ANATES. Perpajakan. Evaluasi Pembelajaran. SMK Akuntansi https://pusdikra-publishing. com/index. php/jsr This work is licensed under a Creative Commons Attribution-ShareAlike 4. 0 International License PENDAHULUAN Pendidikan memiliki peran penting untuk membentuk suumber daya manusia berkualitas serta mampu beradaptasi dengan perkembangan pengetahuan juga teknologi yang semakin pesat. Dalam dunia pendidikan, kualitas pembelajaran tidak hanya diukur dari bagaimana materi disampaikan, tetapi juga dari bagaimana hasil belajar peserta didik dievaluasi (Ikhsaniyah et al. , 2. Beberapa komponen penting dalam proses pendidikan yakni evaluasi pembelajaran, yang berfungsi mengetahui Education Achievment : Journal of Science and Research Volume 6 Issue 3 November 2025 Page 961-974 tingkat pencapaian kompetensi peserta didik serta efektivitas proses pembelajaran yang Evaluasi pembelajaran harus dilakukan secara objektif, terukur, dan berkesinambungan, sehingga diperlukan media evaluasi yang memiliki kualitas baik, yaitu validitas, reliabel, tingkat kesukaran, daya pembeda yang tinggi, juga pengecoh yang berfungsi dengan baik (Arikunto, 2. Dalam pembelajaran di SMK Akuntansi, instrumen evaluasi yang baik sangat diperlukan untuk mengukur penguasaan peserta didik terhadap kompetensi keahlian, salah satunya pada elemen perpajakan. Kompetensi ini mengharuskan peserta didik bukan hanya paham pada konsep saja, tetapi juga bisa menerapkan prinsip perpajakan dalam situasi kontekstual sesuai dengan dunia kerja. Butir soal yang digunakan dalam evaluasi pembelajaran perlu melalui proses analisis kelayakan agar dapat memberikan hasil penilaian yang akurat dan adil. Perihal ini bukan hanya meningkatkan kualitas dari suatu pembelajaran, akan tetapi mendukung peserta didik untuk bisa terjun ke dunia pekerjaan yang membutuhkan kemampuan berpikir secara kritis (Hidayati & Nisa, 2. Pada proses ini bisa dilakukan dengan berbagai metode, seperti mengikuti tes soal pilihan ganda. Tes merupaan salah satu alat yang dipakai untuk mengukur sesuatu menurut (Worbay, 2. Evaluasi bisa berupa data kualitatif maupun kuantitatif berdasar kriteria yang sudah ditetapkan. Hasil yang dapat dipakai untuk menentukan keputusan pada bidang pendidikan. Dengan pengukuran bisa membandingkan hasil dengan standar penelitian yang telah ditetapkan (Putri & Hakim, n. ) . Analisis butir-butir soal mempunyai posisi sangat penting guna mendapatkan pertanyaan-pertanyaan yang baik serta bisa digunakan untuk alat tes. Analisis soal juga mampu meningkatkan suatu keterampilan persiapan pertanyaan peserta didik dan pendidik (Yusuf, 2. Dengan melaksanakan analisis butir soal pendidik dapat mengidentifikasi kekurangan dalam soal tersebut dan memperoleh informasi yang diperlukan untuk melakukan perbaikan, sehingga kualitas soal dapat ditingkatkan (Ayu, 2. Salah satu cara untuk menilai kelayakan butir soal adalah dengan analisis butir soal . tem analysi. menggunakan bantuan perangkat lunak. Pemanfaatan teknologi informasi pada analisis masalah yakni dengan salah satu alternatif metode pemecahan masalah yang dapat diterapkan sehingga memudahkan pendidik untuk mengevaluasi pertanyaan dengan lebih efisien (Febrina et al. , 2. Salah satu program yang sering digunakan adalah software ANATES (Wiguna, 2. Yang dapat menganalisis berbagai aspek kualitas soal seperti validitas, reliabilitas, tingkat kesukaran, daya pembeda, dan efektivitas pengecoh (Mardiyah, 2. Beberapa penelitian sebelumnya menunjukkan bahwa penerapan ANATES dalam menganalisis soal memberikan hasil yang efektif untuk meningkatkan kualitas instrumen evaluasi pembelajaran (Ikawati et al. , 2. Namun, hasil dari analisis menyatakan masih banyak soal yang tergolong mudah, dengan daya pembeda yang Education Achievment : Journal of Science and Research Volume 6 Issue 3 November 2025 Page 961-974 rendah, dan beberapa pengecoh tidak berfungsi dengan baik. Kondisi ini menunjukkan pentingnya analisis mendalam sebelum soal digunakan dalam ujian atau penilaian Berdasarkan latar belakang tersebut, penelitian dengan tujuan untuk menganalisis kelayakan butir soal pada pilihan ganda pada materi perpajakan sebagai instrumen evaluasi pembelajaran SMK Akuntansi dengan bantuan software ANATES. Evaluasi yang baik memberikan pemahaman tentang kualitas pembelajaran dan memudahkan guru merencanakan strategi pengajaran (Magdalena et al. , 2. Melalui penelitian ini diharapkan dapat diketahui kualitas butir soal dari aspek validitas, reliabilitas, tingkat kesukaran, daya pembeda, dan pengecoh, sehingga hasilnya dapat menjadi acuan dalam penyusunan instrumen evaluasi yang lebih baik dan sesuai dengan tujuan pembelajaran vokasi. METODE PENELITIAN Penelitian ini menggunakan pendekatan deskriptif kuantitatif karena berfokus pada penyajian dan analisis data hasil tes secara numerik untuk menggambarkan kelayakan butir soal pilihan ganda. Pendekatan ini dipilih agar peneliti dapat mendeskripsikan secara objektif kualitas instrumen evaluasi yang dikembangkan, baik dari segi validitas, reliabilitas, tingkat kesukaran, daya pembeda, maupun efektivitas Membantu juga dalam memahami rincian data dengan membandingkan dan menganalisis pola dari sampel data yang relevan (Aziza, 2. Subjek penelitian ini adalah 20 peserta didik SMK Akuntansi yang telah menerima pembelajaran materi Perpajakan pada fase F. Mereka menjadi responden dalam uji coba instrumen tes yang Objek penelitian berupa 54 butir soal pilihan ganda, yang disusun berdasarkan enam indikator elemen kompetensi dalam elemen perpajakan fase F. Keenam indikator ini mencakup pemahaman terhadap ketentuan umum perpajakan, identifikasi wajib pajak dan jenis pajak, perhitungan pajak terutang, ketentuan pembayaran dan pelaporan pajak, serta analisis ketentuan dan sanksi perpajakan. Analisis butir soal yaitu proses pengumpulan, peringkasan, dan penggunaan informasi dari jawaban peserta didik untuk membuat keputusan (Sedya Santosa, 2. Tes dapat didefinisikan dalam bentuk serangkaian pertanyaan yang dijawab dengan maksud untuk menilai sejauh mana kinerja individu atau mengungkapkan aspek-aspek khusus dari orang yang mengikuti tes (Susanto, 2. Instrumen penelitian berbentuk tes objektif pilihan ganda dengan lima opsi jawaban (A. D, dan E), di mana satu merupakan jawaban benar dan empat lainnya berfungsi sebagai Butir soal disusun dengan memperhatikan kaidah penulisan soal yang baik agar dapat mengukur kemampuan peserta didik secara proporsional pada ranah pengetahuan . Tes diimplementasikan melalui Google Form, kemudian hasil jawaban peserta diunduh dan diolah menggunakan perangkat lunak ANATES versi Education Achievment : Journal of Science and Research Volume 6 Issue 3 November 2025 Page 961-974 Data yang diperoleh berupa hasil pekerjaan peserta didik untuk setiap butir soal. Jawaban tersebut dimasukkan ke dalam program ANATES untuk dilakukan analisis ANATES menghasilkan data kuantitatif yang meliputi tingkat kesukaran, daya pembeda, validitas, reliabilitas, serta efektivitas pengecoh pada setiap butir soal. Dalam pembelajaran yang diterapkan peserta didik dihapkan mampu menerapkan proses berfikir tingkat tingkat tinggi (Tasrif, 2. Analisis validitas digunakan untuk mengetahui sejauh mana suatu butir soal mampu mengukur kompetensi yang diharapkan. Suatu soal dikatakan valid apabila nilai korelasi antara skor butir dan skor total signifikan pada taraf kepercayaan 5%. Selanjutnya, reliabilitas menunjukkan konsistensi hasil tes secara keseluruhan. Hasil analisis ANATES menunjukkan nilai reliabilitas sebesar 0,95, yang termasuk kategori sangat tinggi, artinya instrumen memiliki konsistensi internal yang baik antarbutir soal. Analisis tingkat kesukaran digunakan untuk mengetahui proporsi peserta didik yang dapat menjawab benar setiap soal. Soal yang baik umumnya memiliki tingkat kesukaran sedang, karena dapat menggambarkan variasi kemampuan peserta didik secara lebih objektif. Hasil penelitian menunjukkan bahwa 46,3% butir soal tergolong mudah, 31,5% tergolong sedang, 5,6% tergolong sukar, dan sisanya sangat mudah. Selanjutnya, daya pembeda digunakan untuk melihat sejauh mana suatu soal mampu membedakan antara peserta didik yang berkemampuan tinggi dan rendah. Rata-rata daya pembeda pada penelitian ini sebesar 0,46, yang termasuk kategori baik. Nilai tersebut menunjukkan bahwa sebagian besar soal sudah cukup efektif untuk membedakan tingkat kemampuan peserta. Selain itu, dilakukan pula analisis terhadap efektivitas pengecoh. Pengecoh dinilai berfungsi dengan baik apabila dipilih oleh minimal 5% peserta tes. Berdasarkan hasil ANATES, sebagian besar pengecoh pada soal berfungsi dengan baik, walaupun terdapat beberapa butir yang masih perlu direvisi karena pengecohnya tidak menarik bagi peserta. Berdasarkan hasil analisis tersebut, suatu butir soal dinyatakan layak digunakan apabila memenuhi kriteria valid, reliabel, memiliki tingkat kesukaran sedang hingga mudah, daya pembeda baik, serta pengecoh yang berfungsi. Sebaliknya, butir yang tidak memenuhi kriteria tersebut disarankan untuk direvisi atau diganti agar kualitas instrumen evaluasi pembelajaran meningkat. Metode penelitian ini tidak hanya bertujuan untuk mengetahui hasil pengujian kelayakan butir soal, tetapi juga memberikan gambaran menyeluruh tentang bagaimana perangkat evaluasi dapat dioptimalkan agar sesuai dengan tujuan pembelajaran perpajakan di SMK Akuntansi. HASIL DAN PEMBAHASAN Salah satu cara untuk menganalisis sebuah pertanyaan adalah dengan melakukan analisis kualitatif atau kuantitatif. Dalam penelitian ini kami mengumpulkan jawaban butir soal sebagai hasil pengukuran dan melakukan analisis kuantitatif (Mustaqim. Education Achievment : Journal of Science and Research Volume 6 Issue 3 November 2025 Page 961-974 & Sulisti, 2. Analisis butir soal dalam penelitian ini dilakukan menggunakan software ANATES versi 4. 09 terhadap 54 butir soal pilihan ganda pada materi Perpajakan Fase F SMK Akuntansi. Keunggulan dari Anates yakni secara otomatis menganalisis unsur-unsur pertanyaan dan memungkinkan melihat jawaban benar serta salah dengan cepat. Selain itu, anates juga memiliki kelebihan langkah-langkah menjalankan program dalam bahasa Indonesia sehingga mudah dimengerti, dan hasil analisa dapat dipindahkan ke Ms Excel untuk dihitung nilainya (Elviana, 2. Instrumen diberikan kepada 20 peserta didik, kemudian hasil tes dianalisis untuk mengetahui kelayakan butir soal berdasarkan lima aspek utama, yaitu validitas, reliabilitas, tingkat kesukaran, daya pembeda, dan efektivitas pengecoh. Tujuan analisis yakni meneliti serta mempertimbangkan setiap soal yang akan diajukam untuk peserta didik (Garut et al. , 2. Secara umum, hasil analisis menunjukkan bahwa instrumen soal yang disusun memiliki kualitas yang baik dan dapat digunakan untuk mengevaluasi hasil belajar peserta didik, meskipun beberapa butir perlu direvisi agar kualitasnya lebih optimal. Hasil Validitas Validitas menunjukkan sejauh mana suatu butir soal mampu mengukur kompetensi yang seharusnya diukur. Hasil analisis ANATES menunjukkan bahwa dari 54 butir soal, terdapat 40 butir soal valid . ,1%) dan 14 butir soal tidak valid . ,9%). Soal yang valid memiliki korelasi signifikan antara skor butir dan skor total tes, sedangkan soal yang tidak valid umumnya memiliki redaksi kurang jelas, indikator yang tidak sesuai, atau pengecoh yang tidak berfungsi. Table 1. Hasil Analisis Validitas No. Butir Soal Korelasi Signifikas No. Buti Soal Kor Signifikasi No. Buti Soal Kor Signifikasi NAN NAN 0,74 Sangat Signifikan 0,55 Sangat Signifikan NAN NAN 0,59 Sangat Signifikan 0,44 Sangat Signifikan 0,851 Sangat Signifikan 0,59 Sangat Signifikan 0,52 Sangat Signifikan 0,537 Sangat Signifikan 0,46 Sangat Signifikan 0,54 Sangat Signifikan NAN NAN 0,70 Sangat Signifikan 0,75 Sangat Signifikan 0,702 Sangat Signifikan 0,85 Sangat Signifikan 0,18 0,851 Sangat Signifikan 0,17 0,71 Sangat Signifikan 0,627 Sangat Signifikan 0,74 Sangat Signifikan 0,70 Sangat Signifikan 0,754 Sangat Signifikan 0,77 Sangat Signifikan 0,53 Sangat Signifikan 0,754 Sangat Signifikan 0,23 0,41 Sangat Signifikan 0,901 Sangat Signifikan 0,05 0,48 Sangat Signifikan 0,230 0,33 0,79 Sangat Signifikan Sangat Signifikan Education Achievment : Journal of Science and Research Volume 6 Issue 3 November 2025 Page 961-974 Hasil ini menunjukkan bahwa sebagian besar soal sudah baik dan sesuai indikator Namun, soal yang tidak valid sebaiknya direvisi agar lebih mewakili kompetensi pada elemen perpajakan fase F. Reabilitas Reliabilitas tes merupakan seberapa jauh alat ukur bisa mengukur secara konsisten dan tepat apa yang sudah diukur. Rangkaian pengujian dianggap baik dan benar jika dapat diandalkan. Jika dilakukan pada subjek yang serupa dan di kondisi yang sama, bakal diperoleh hasil yang sama (Kaka et al. , 2. Reabilitas berfungsi untuk menilai tingkat konsistensi hasil suatu instrumen evaluasi. Tes yang reliabel akan memberikan hasil pengukuran yang relatif stabil ketika digunakan dalam kondisi Instrumen dengan tingkat reabilitas tinggi dipandang memiliki keajegan yang baik karena mampu menghasilkan data yang dapat dipercaya (Hasanah, 2. dan (Endah et al. , 2. Temuan penelitian lain juga menekankan bahwa konsistensi internal merupakan salah satu indikator penting dalam menentukan keandalan sebuah alat ukur. Tingkat Kesukaran Table 2. Hasil Analisis Tingkat Kesukaran No. Buti Soal Indeks Tingkat Kesukar 100,00 Mudah No. Buti Soal 100,00 75,00 Mudah 90,00 70,00 Sedang 70,00 70,00 Sedang 100,00 95,00 90,00 85,00 Sangat Mudah Sangat Mudah Mudah 80,00 Sangat Mudah Sangat Mudah Sangat Mudah Mudah 95,00 90,00 75,00 Mudah 80,00 Mudah 85,00 Mudah 80,00 Mudah 60,00 Sedang 85,00 Mudah 60,00 Sedang Kategori Sangat Mudah Sangat Mudah Sangat Mudah Sedang No. Buti Soal Indeks Tingkat Kesukar 80,00 Kategori No. Buti Soal Indeks Tingkat Kesukaran Mudah Mudah Mudah Mudah Mudah Sedang Mudah Sangat Mudah Mudah Sedang Mudah Education Achievment : Journal of Science and Research Volume 6 Issue 3 November 2025 Page 961-974 Tingkat kesukaran menggambarkan proporsi peserta tes yang mampu menjawab benar suatu butir soal. Kemampuan menilai topik pada tingkat tertentu yang diwakili oleh indeks biasanya (Akhmadi, 2. Soal dengan tingkat kesukaran yang seimbang . idak terlalu mudah atau suka. dianggap ideal karena dapat mengukur variasi kemampuan peserta didik secara objektif. Berdasarkan hasil analisis ANATES, distribusi tingkat kesukaran soal ditunjukkan dalam tabel berikut: Dari hasil tersebut terlihat bahwa sebagian besar soal tergolong mudah dan sedang, sehingga tes ini masih lebih banyak mengukur kemampuan dasar. Diagram menunjukkan bahwa sebagian besar butir soal perpajakan berada pada kategori mudah sebanyak 38,9%, diikuti kategori sedang sebesar 31,5%. Sementara itu, 24,1% soal tergolong sangat mudah dan hanya 5,56% yang termasuk kategori sukar. Agar lebih representatif, proporsi soal dengan tingkat kesukaran sedang perlu ditingkatkan. Hasil ini sesuai dengan pendapat yang menyatakan bahwa soal yang baik adalah soal dengan tingkat kesukaran sedang karena mampu menggambarkan perbedaan kemampuan peserta didik secara optimal (Arikunto, 2. Daya Pembeda Menurut Iskandar dan Rizal dalam (Mania et al. , 2. bahwa daya beda suatu butir bertujuan untuk membedakan antara peserta didik yang berkemampuan tinggi dan rendah. Daya pembeda juga menunjukkan sejauh mana suatu soal mampu membedakan antara peserta didik yang memiliki kemampuan tinggi dan rendah. Hasil analisis ANATES menunjukkan bahwa rata-rata daya pembeda soal sebesar 0,46, yang termasuk kategori baik. Table 3. Hasil Analisis Daya Pembeda No. Buti Soal Indeks (%) Kategori Indeks (%) Jelek Jelek Cukup No. Buti Soal 0,00 0,00 40,00 60,00 Baik 80,00 Jelek 95,00 10,00 Jelek 80,00 40,00 60,00 60,00 40,00 40,00 40,00 Cukup Baik Baik Cukup Cukup Cukup 60,00 20,00 20,00 60,00 -20,00 20,00 Baik Baik Sangat Baik Sangat Baik Sangat Baik Sangat Baik Baik Jelek Jelek Baik Jelek Cukup 20,00 40,00 40,00 40,00 Jelek Cukup Cukup Cukup 20,00 -60,00 -20,00 60,00 Jelek Jelek Jelek Baik 20,00 40,00 Jelek Cukup 0,00 20,00 Jelek Jelek 60,00 60,00 80,00 Kategori No. Buti Soal Indek (%) 60,00 40,00 80,00 Baik Cukup Sangat Baik 40,00 Cukup 40,00 Cukup 80,00 Sangat Baik 70,00 80,00 60,00 50,00 40,00 60,00 40,00 60,00 40,00 Sangat Baik Sangat Baik Sangat Baik Baik Baik Sangat Baik Kategori Cukup Baik Cukup Sangat Baik Baik Cukup Education Achievment : Journal of Science and Research Volume 6 Issue 3 November 2025 Page 961-974 Hasil analisis terhadap kategori daya pembeda menunjukkan bahwa sebagian besar butir soal berada pada kategori Cukup dan Jelek, yaitu masing-masing sebesar 32,1% dan 30,2%. Kondisi ini menggambarkan bahwa masih banyak soal yang belum mampu memisahkan secara optimal antara peserta didik berkemampuan tinggi dan Sementara itu, kategori Baik mencakup 24,5% dari keseluruhan soal, yang berarti terdapat sejumlah butir yang sudah efektif dalam membedakan kemampuan peserta tes. Adapun kategori Sangat Baik hanya berjumlah 13,2%, sehingga butir-butir dengan kualitas sangat tinggi masih relatif sedikit. Secara keseluruhan, distribusi ini menunjukkan bahwa instrumen evaluasi memerlukan perbaikan pada sebagian besar soal, terutama yang berada pada kategori Jelek dan Cukup, agar kualitas pengukuran kemampuan peserta didik dapat meningkat dan hasil evaluasi menjadi lebih akurat. Kualitas Pengecoh Distractor quality adalah Bahasa Inggris dari kualitas pengecoh, yaitu ukuran seberapa efektif pilihan jawaban yang salah dalam sebuah butir tes . is-multiple choic. dalam AumengecohAy peserta didik yang kurang paham dengan materi. Distraktor berfungsi untuk membingungkan peserta didik jika mereka tidak memilih jawaban yang benar (Radja et al. , 2. Distraktor yang berkualitas baik harus cukup meyakinkan agar peserta yang tidak menguasai materi bisa tertarik memilihnya, tetapi tidak begitu menarik sehingga pesaing kunci jawaban menjadi tidak dipilih (Uswatun et al. , 2. Faktor kualitas pengecoh meliputi ketidakjelasan dan ambiguitas . istraktor tidak terlalu mirip dengan jawaban bena. , gaya bahasa & format, distribusi kesalahan . eseimbangan piliha. , konteks & relevansi serta keseragaman kesulitan antara pengecoh. Sesuai dengan hasil butir soal terhadap kualitas pengecoh dalam bentuk pilihan ganda disajikan dengan diagram batang seperti dibawah: Diagram 1. Hasil Analisis Daya Pengecoh Education Achievment : Journal of Science and Research Volume 6 Issue 3 November 2025 Page 961-974 Pembahasan Validitas Berdasarkan hasil perhitungan menggunakan aplikasi ANATES, maka penulis dapat menyimpulkan bahwa analisis validitas butir soal dilakukan dengan membandingkan nilai koefisien korelasi butir soal dengan nilai r-tabel pada tingkat signifikansi yang ditetapkan (Issn et al. , 2. Butir soal dengan kategori sangat signifikan sebanyak 38 butir yakni pada nomor 3, 4, 6, 7, 8, 9, 10, 11, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 26, 27, 30, 37, 38, 39, 40, 41, 43, 44, 45, 46, 47, 48, 50, 52, 53, 54. Butir-butir ini dikategorikan sebagai soal sangat baik serta dapat diterima untuk digunakan pada tes selanjutnya. Lalu soal dengan kriteria signifikan berjumlah 3 soal pada nomor 13, 31, dan 51. Butir-butir ini memiliki validitas kategori rendah, yang berarti masih dapat diterima tetapi disarankan untuk ditinjau kembali atau Lalu Soal dengan Kriteria Tidak Valid atau yang ditandai dengan (-) berjumlah 10 soal pada nomor 12, 25, 28, 29, 32, 33, 35, 36, 42, 49. Butir-butir ini Tidak diterima atau seharusnya dibuang karena tidak memenuhi kriteria validitas minimum atau memiliki koefisien korelasi di bawah r-tabel. Lalu soal dengan kriteria NAN atau tidak terhitung berjumlah 3 soal pada nomor 1, 2, dan 5. Butirbutir ini terjadi ketika semua responden memberikan jawaban yang sama sehingga tidak ada variasi skor. Butir-butir ini perlu dipertimbangkan untuk dibuang atau Reabilitas Hasil dari perhitungan reabilitas menggunakan aplikasi ANATES pada instrumen tes mata pelajaran perpajakan kelas 11 menunjukkan koefisien sebesar 0,95. Berdasarkan kriteria penilaian reliabilitas, nilai tersebut termasuk dalam kategori sangat tinggi karena berada pada rentang Ou 0,90 (Arini & Dewi, 2. Temuan ini mengindikasikan bahwa instrumen soal memiliki tingkat konsistensi internal yang sangat baik dalam mengukur kemampuan peserta didik. Nilai reabilitas yang tinggi tersebut memperkuat bahwa instrumen pada penelitian berjudul AuAnalisis Kelayakan Butir Soal Pilihan Ganda Perpajakan sebagai Instrumen Evaluasi Pembelajaran melalui Software ANATESAy layak digunakan sebagai alat evaluasi, karena mampu memberikan hasil pengukuran yang stabil dan dapat dipercaya (Arini & Dewi, 2. Penelitian lain juga menyatakan bahwa koefisien reliabilitas di atas 0,90 menjadi indikator bahwa suatu instrumen memiliki tingkat keandalan yang sangat baik. Tingkat Kesukaran Berdasarkan hasil analisis tingkat kesukaran terhadap 54 butir soal perpajakan, diperoleh gambaran bahwa sebaran tingkat kesukaran cenderung mengarah pada kategori mudah. Hal ini terlihat dari diagram yang menunjukkan bahwa 38,9% butir berada pada kategori mudah, diikuti 31,5% kategori sedang, 24,1% kategori Education Achievment : Journal of Science and Research Volume 6 Issue 3 November 2025 Page 961-974 sangat mudah, dan hanya 5,56% yang termasuk kategori sukar. Data pada dokumen analisis juga memperlihatkan banyaknya butir dengan indeks kesukaran berada pada rentang 75100%, menegaskan bahwa sebagian besar soal dapat dijawab dengan benar oleh mayoritas peserta tes. Dominasi soal kategori mudah dan sangat mudah menunjukkan bahwa instrumen evaluasi cenderung memberikan tingkat tantangan yang rendah, sehingga belum optimal dalam membedakan kemampuan peserta didik yang beragam. Rendahnya proporsi soal kategori sukar . anya tiga buti. mengindikasikan bahwa peserta didik jarang diuji pada level kemampuan tinggi seperti analisis, evaluasi, atau penerapan konsep Kondisi tersebut berpotensi membuat instrumen kurang komprehensif dalam mengukur penguasaan materi secara mendalam. Jika pada soal sangat sulit atau sangat mudah, peserta didik bisa saja merasa tidak mampu dalam menyelesaikan dan berhenti mengerjakan (Alista & Syahzanani, 2. Oleh karena itu, penyusunan soal di masa mendatang disarankan untuk menambah variasi tingkat kesulitan, terutama pada kategori sedang dan sukar, agar evaluasi pembelajaran mampu mencerminkan kemampuan peserta didik secara lebih akurat, seimbang, dan proporsional. Daya Pembeda Berdasarkan hasil analisis kualitas pengecoh pada 54 butir soal, terlihat bahwa sebagian besar distraktor tidak berfungsi sebagaimana mestinya. Banyak opsi salah tidak dipilih oleh peserta didik, sehingga dikategorikan sebagai distraktor buruk hingga sangat buruk. Kondisi ini menunjukkan bahwa sebagian besar soal cenderung terlalu mudah, karena peserta didik langsung mengenali kunci jawaban tanpa mempertimbangkan opsi lainnya. Pola ini juga sejalan dengan hasil analisis tingkat kesukaran, di mana banyak butir berada pada kategori mudah hingga sangat mudah, serta didukung oleh data daya pembeda yang menunjukkan masih banyak soal berada pada kategori jelek dan cukup, yang berarti kemampuannya dalam membedakan peserta didik berkemampuan tinggi dan rendah masih rendah. Hanya sebagian kecil butir yang memiliki pengecoh berkualitas baik hingga sangat baik, yaitu pada soal-soal yang distraktornya benar-benar dipilih oleh kelompok peserta didik berkemampuan rendah dan dihindari oleh kelompok peserta didik berkemampuan tinggi. Hal ini menunjukkan bahwa hanya sedikit soal yang dirancang dengan distraktor yang efektif dan mendukung fungsi evaluasi secara Secara keseluruhan, kualitas pengecoh yang kurang baik ikut mempengaruhi tingkat kesukaran yang cenderung mudah dan menurunkan daya pembeda butir soal. Oleh karena itu, pengecoh perlu direvisi menjadi lebih logis, lebih menyerupai kunci jawaban, dan lebih mampu menarik peserta didik yang belum menguasai materi, sehingga setiap butir soal dapat berfungsi optimal dalam mengukur kemampuan peserta didik secara akurat. Education Achievment : Journal of Science and Research Volume 6 Issue 3 November 2025 Page 961-974 Kualitas Pengecoh Berdasarkan hasil analisis kualitas pengecoh pada 54 butir soal, terlihat bahwa sebagian besar pengecoh tidak berfungsi dengan baik karena banyak opsi salah yang sama sekali tidak dipilih peserta didik, sehingga dikategorikan buruk hingga sangat buruk dan mengindikasikan bahwa soal-soal tersebut terlalu mudah. Kondisi ini menyebabkan mayoritas butir soal memiliki pengecoh yang tidak mampu menjalankan fungsinya untuk membedakan kemampuan peserta didik, karena peserta didik hampir selalu langsung memilih kunci jawaban tanpa mempertimbangkan opsi lain. Hanya beberapa butir yang memiliki pengecoh berkualitas baik hingga sangat baik, terlihat dari adanya distraktor yang dipilih oleh kelompok peserta didik dengan kemampuan rendah dan dihindari oleh kelompok peserta didik berkemampuan tinggi, hal ini menandakan bahwa hanya sebagian kecil soal yang benar-benar dirancang dengan distraktor yang efektif. Banyaknya pilihan adalah 3 sampai 5 (Azzahroh et al. , 2. Secara keseluruhan kualitas pengecoh menyebabkan tingkat kesukaran menjadi terlalu mudah dan daya pembeda butir menurun. Oleh karena itu, pengecoh perlu direvisi agar lebih masuk akal, lebih mirip dengan kunci jawaban, dan lebih mampu menarik peserta didik yang belum menguasai materi. KESIMPULAN Berdasarkan hasil analisis menggunakan ANATES terhadap keseluruhan butir soal pada mata pelajaran Perpajakan kelas XI, dapat disimpulkan bahwa sebanyak 40 dari 54 soal dinyatakan valid, sedangkan 14 soal lainnya tidak memenuhi kriteria validitas sehingga perlu dilakukan perbaikan. Daya pembeda menunjukkan bahwa sebagian butir soal masih memerlukan revisi, dengan 30,2% soal berada pada kategori kurang baik, 32,1% kategori cukup, 24,5% kategori baik, dan hanya 13,2% yang termasuk kategori sangat baik. Berdasarkan tingkat kesukaran, sebanyak 24,1% soal tergolong sangat mudah, 38,9% termasuk kategori mudah, 31,5% kategori sedang, dan 5,56% masuk kategori sukar. Komposisi ini menunjukkan bahwa mayoritas soal masih berada pada level kesulitan rendah. Hasil perhitungan reliabilitas menunjukkan koefisien sebesar 0,95, yang berada pada kategori sangat tinggi dan menandakan konsistensi internal instrumen yang sangat baik. Dari aspek kualitas pengecoh, sebagian besar distraktor belum bekerja secara efektif karena banyak pilihan jawaban yang tidak dipilih peserta, meskipun terdapat sejumlah kecil butir soal yang memiliki pengecoh yang berfungsi dengan baik. Secara umum, penelitian ini mengungkapkan dua hal penting: . Penyusun soal mata pelajaran Perpajakan perlu memperhatikan kembali kualitas butir soal, terutama sebelum soal digunakan dalam evaluasi berskala luas, sehingga uji coba dan revisi Education Achievment : Journal of Science and Research Volume 6 Issue 3 November 2025 Page 961-974 perlu dilakukan secara berkelanjutan . Sekolah memerlukan dukungan peningkatan kompetensi guru dalam mengembangkan instrumen evaluasi, dan pelatihan penyusunan soal akan sangat membantu untuk menghasilkan instrumen yang lebih berkualitas dan sesuai standar penilaian. DAFTAR PUSTAKA