POLINOMIAL Jurnal Pendidikan Matematika Volume 5 Issue 1 . , pp. Online: https://ejournal. org/index. php/jp e-ISSN: 2830-0378 Pengembangan Instrumen Tes Higher Order Thinking Skills (HOTS) Konten Perbandingan untuk Siswa Fase D Ulfa Nabilah 1*. Armis 2. Sehatta Saragih 3 1,2,3 Universitas Riau. Indonesia *Corresponding Author: nabilah0877@student. Submitted: 26 November 2025 | Revised: 19 December 2025 | Accepted: 20 December 2025 Abstrak Kemampuan berpikir tingkat tinggi atau Higher Order Thinking Skills (HOTS) adalah keterampilan penting yang harus dimiliki oleh siswa. Banyak siswa yang memiliki HOTS yang rendah. Penelitian ini bertujuan untuk mengembangkan instrumen tes Higher Order Thinking Skills (HOTS) pada konten perbandingan untuk siswa fase D. Penelitian menggunakan model development studies dengan dua tahap utama, yaitu preliminary dan formative evaluation. Tahap formative evaluation terdiri dari beberapa langkah yang meliputi self evaluation, expert review, one-to-one, small group, dan field test. Subjek penelitian melibatkan 30 siswa fase D. Data dikumpulkan melalui lembar validasi, angket keterbacaan siswa, serta hasil tes HOTS, kemudian dianalisis dengan bantuan software Anates Uraian Hasil penelitian menunjukkan bahwa 10 butir soal HOTS yang dikembangkan memenuhi kriteria valid secara rasional maupun empiris, memiliki reliabilitas sangat tinggi . , tingkat kesukaran yang bervariasi . ua mudah, enam sedang, dua suka. , serta daya pembeda yang baik. Dengan demikian. Instrumen tes HOTS konten perbandingan ini layak digunakan sebagai alat evaluasi untuk melatih keterampilan berpikir kritis, analitis, dan kreatif siswa. Kata Kunci: HOTS, pengembangan instrumen, perbandingan, asesmen, siswa fase D Abstract Higher Order Thinking Skills (HOTS) are essential competencies that students must possess. Many students still exhibit low levels of HOTS. This study aims to develop a Higher Order Thinking Skills (HOTS) instrument in comparison content for Phase D students. The research employed a development studies model consisting of two main stages: the preliminary stage and formative evaluation. The formative evaluation stage comprised several steps, including self-evaluation, expert review, one-toone, small group, and field testing. The research subjects involved 30 Phase D students. Data were collected through validation sheets, student readability questionnaires, and HOTS test results, which were analyzed using Anates Uraian 4. 5 software. The results indicated that the ten HOTS items developed met both rational and empirical validity criteria, showed very high reliability . , had varying levels of difficulty . wo easy, six moderate, and two difficult item. , and demonstrated good discriminating power. Therefore, the developed HOTS instrument on comparison content is considered feasible to be used as an evaluation tool to enhance studentsAo critical, analytical, and creative thinking Keywords: HOTS, instrument development, comparison, assessment. Phase D students PENDAHULUAN Keterampilan berpikir tingkat tinggi atau Higher Order Thinking Skills (HOTS) memiliki peran sentral dalam pendidikan modern karena mencakup kemampuan analisis, evaluasi, dan kreasi untuk memecahkan persoalan yang kompleks (Tim Pusat Penelitian, 2. Siswa dituntut tidak hanya menghafal informasi, melainkan memahami konsep secara mendalam serta mampu bernalar kritis dan logis ketika menyelesaikan permasalahan (Suyatno, dkk. Tujuan penerapan HOTS adalah mengembangkan kemampuan berpikir kritis, kreatif, dan inovatif yang selaras dengan tuntutan kehidupan nyata (Direktorat Jenderal Guru dan Tenaga Kependidikan, 2. This is an open access article under the CC BY-SA license. Copyright A 2025 by Author | 69 Jurnal Polinomial. Volume 5 Issue 1 . , pp. 69-80, Ulfa Nabilah. Armis. Sehatta Saragih Pembelajaran matematika menuntut keterlibatan HOTS secara optimal agar siswa mampu menghadapi tantangan abad 21. Penerapan soal-soal HOTS terbukti efektif mendorong siswa berpikir di level kognitif C4 . C5 . , dan C6 . sebagaimana diuraikan dalam Taksonomi Bloom Revisi (Anderson & Krathwohl dalam Tim Pusat Penelitian, 2. Penelitian sebelumnya menyebutkan bahwa soal berbasis HOTS mampu meningkatkan keterampilan berpikir kritis sekaligus efektivitas pembelajaran (Gradini, 2. Temuan empiris menunjukkan bahwa keterampilan siswa dalam menyelesaikan soal HOTS masih tergolong rendah. Studi yang dilakukan Tania . melaporkan persentase rata-rata kemampuan siswa pada level C4 hanya mencapai 53,12% . ategori renda. C5 sebesar 67,2% . ategori sedan. , dan C6 sekitar 54,98% . ategori Fakta ini mengindikasikan perlunya intervensi untuk meningkatkan keterampilan berpikir tingkat tinggi melalui penyediaan instrumen soal yang memadai. Asesmen membantu siswa terbiasa menghadapi soal-soal yang menuntut pemikiran tinggi dan pada saat yang sama membantu guru mengetahui tingkat penguasaan kognitif siswa (Wulandari, dkk. , 2. Kurikulum merdeka menyediakan tiga jenis asesmen yang dapat digunakan guru, yaitu diagnostik untuk memetakan kemampuan awal siswa, formatif untuk memantau perkembangan pembelajaran, serta sumatif untuk mengevaluasi capaian akhir (Kemendikbud, 2. Hasil penelitian Kurniasi & Arsisari . mengungkapkan bahwa sebagian besar guru masih mengandalkan soal dari buku paket yang belum sepenuhnya melatih keterampilan berpikir tingkat tinggi. Pusparini & Mistiani . merekomendasikan penyusunan soal berbasis konteks nyata agar siswa terbiasa berpikir kritis, analitis, dan kreatif. Minimnya ketersediaan soal HOTS mengakibatkan siswa kurang mendapatkan kesempatan untuk mengasah kemampuan berpikir tingkat tinggi secara optimal. Konten perbandingan dalam matematika memiliki keterkaitan erat dengan situasi kehidupan sehari-hari, misalnya membandingkan harga barang, waktu perjalanan, atau skala peta (Wahyuni & Prihatiningtyas. Penelitian Ummah & Khotimah . menyatakan bahwa latihan soal kontekstual pada topik ini dapat mendorong siswa berpikir lebih logis dan mendalam. Wawancara dengan guru dibeberapa sekolah mengindikasikan keterbatasan soal HOTS pada materi perbandingan, sehingga siswa belum terbiasa menghadapi persoalan kontekstual yang membutuhkan pemikiran kritis dan kreatif. Penelitian Panjaitan, dkk. melaporkan bahwa 33% siswa mengalami kesulitan menyelesaikan soal cerita pada konten perbandingan. Hoar, dkk. juga menegaskan bahwa rendahnya keseriusan siswa dalam mempelajari konten perbandingan serta kesalahan mendasar yang muncul memengaruhi capaian pembelajaran. Bukti tersebut memperkuat pentingnya pengembangan instrumen soal yang dapat memfasilitasi keterampilan berpikir tingkat tinggi secara komprehensif. Instrumen yang berkualitas perlu memenuhi kriteria validitas, reliabilitas, tingkat kesukaran yang proporsional, serta daya pembeda yang memadai (Wati, 2. Konsep validitas berkaitan dengan ketepatan instrumen dalam mengukur kompetensi yang diharapkan, sedangkan reliabilitas menekankan pada konsistensi hasil pengukuran. Tingkat kesukaran dan daya pembeda menentukan kemampuan soal dalam mengklasifikasikan siswa berdasarkan tingkat pemahaman yang berbeda (Yusuf, 2. Open Access: https://ejournal. org/index. php/jp | 70 Jurnal Polinomial. Volume 5 Issue 1 . , pp. 69-80, Ulfa Nabilah. Armis. Sehatta Saragih Pengembangan instrumen soal HOTS untuk topik perbandingan pada siswa fase D diharapkan mampu menjawab tantangan tersebut. Penyediaan soal yang memenuhi kriteria kualitas asesmen akan membantu guru dalam melaksanakan evaluasi pembelajaran yang sesuai dengan tuntutan kurikulum merdeka sekaligus melatih keterampilan berpikir tingkat tinggi siswa. Ketersediaan Instrumen tes HOTS yang valid, reliabel, memiliki tingkat kesukaran seimbang, serta daya pembeda yang baik dapat memperbaiki kualitas pembelajaran Siswa juga akan lebih siap menghadapi soal-soal yang menantang kemampuan berpikir kritis, analitis, dan kreatif sehingga kompetensi abad 21 dapat tercapai secara optimal. METODE Penelitian ini menggunakan model pengembangan development studies yang terdiri dari dua tahapan pokok. Tahap pertama adalah preliminary, yang meliputi kegiatan analisis kebutuhan dan perancangan instrumen. Tahap kedua yaitu formative evaluation, yang disusun berdasarkan model Tessmer dan mencakup beberapa langkah, antara lain self evaluation, expert review, one-to-one, small group, serta field test (Heriyadi & Prahmana, 2. Prosedur pengembangan secara keseluruhan dapat digambarkan sebagai berikut. Preliminary: Persiapan Analisis kurikulum: komponen kurikulum merdeka dari analisis CP dan TP Analisis Desain: membuat kisi-kisi soal, merumuskan butirbutir soal, menyusun alternatif penyelesaian dan pedoman penskoran, serta membuat lembar validitas ahli dan lembar uji keterbacaan siswa Formative Evaluation Self Evaluation: penilaian sendiri terhadap produk awal yang kembangkan Prototype I One-to-one dan Small Group: uji coba kepada 6 orang siswa yang memiliki karakteristik hasil belajar berbeda . endah, sedang, tingg. Expert review: proses validasi oleh validator. Penilaian terhadap prototype I sehingga dinyatakan valid atau tidak Valid Tidak Revisi Prototype II Field test:diujicobakan kepada siswa fase D dengan jumlah siswa yang lebih banyak daripada tahap one-to-one dan small group Uji validitas, reliabilitas, tingkat kesukaran, daya pembeda instrumen soal HOTS yang dikembangkan Produk Final Gambar 1. Bagan prosedur pengembangan Open Access: https://ejournal. org/index. php/jp | 71 Jurnal Polinomial. Volume 5 Issue 1 . , pp. 69-80, Ulfa Nabilah. Armis. Sehatta Saragih Tahap preliminary mencakup kegiatan analisis terhadap kebutuhan, kurikulum dan siswa, serta desain produk awal dan instrumen penelitian. Pada tahap formative evaluation, ada beberapa langkah yang dilaksanakan. Pertama, self evaluation, yaitu menilai dan memperbaiki produk awal. Hasil dari self evaluation disebut prototype I. Prototype I kemudian divalidasi oleh validator dalam tahap expert review, menilai dari aspek materi, konstruk, dan Jika produk dinyatakan valid, tahap berikutnya dapat dilanjutkan. Jika belum valid, revisi dilakukan berdasarkan saran validator. Tahap selanjutnya adalah tahap one-to-one dan small group yang dilakukan setelah revisi hasil expert review. Pada tahap ini, prototype I diujicobakan kepada enam siswa fase D dengan kemampuan heterogen yang telah mempelajari konten perbandingan. Siswa diminta mengerjakan dan memberikan komentar terkait kejelasan, kelengkapan, dan keterbacaan Siswa juga diminta mengisi angket uji keterbacaan siswa. Komentar siswa pada tahap ini menjadi acuan untuk memperbaiki prototype I. Masukan dari siswa digunakan untuk menyempurnakan instrumen sehingga menghasilkan prototype II. Tahap terakhir yaitu field test melibatkan subjek penelitian yang diujicobakan kepada 30 siswa fase D. Data diperoleh melalui hasil tes dan angket respon siswa, kemudian dianalisis menggunakan software Anates Uraian 4. 5 untuk menentukan validitas butir soal, reliabilitas, tingkat kesukaran, dan daya pembeda. Produk Nakhir yang memenuhi kriteria kualitas instrumen kemudian ditetapkan sebagai soal HOTS final yang siap digunakan dalam Data dalam penelitian ini diperoleh secara rasional melalui lembar validasi dan angket uji keterbacaan siswa, serta secara empiris melalui soal. Data yang menggunakan skala Likert . eperti lembar validasi dan angket uji keterbacaan sisw. terlebih dahulu diubah dari data kualitatif berupa sangat setuju/sesuai (SS), setuju/sesuai (S), kurang setuju/sesuai (KS), dan tidak setuju/sesuai (TS) menjadi data kuantitatif dengan ketentuan skor: 4 untuk SS, 3 untuk S, 2 untuk KS, dan 1 untuk TS. Pengumpulan data dilakukan menggunakan teknik angket dan tes, serta instrumen penelitian berupa lembar validasi, angket respon siswa dan soal HOTS. Lembar validasi diisi oleh tiga validator pada tahap expert review untuk memperoleh hasil validitas rasional dari aspek materi, konstruk dan bahasa, serta untuk mendapatkan komentar dan saran perbaikan terhadap instrumen soal yang dikembangkan. Angket uji keterbacaan siswa dikerjakan oleh siswa pada tahap one-to-one dan small group, bertujuan melihat respon siswa terhadap keterbacaan instrumen soal HOTS. Soal HOTS diberikan untuk mendapatkan jawaban siswa pada tahap field test, yang diperlukan dalam menganalisis validitas empiris, reliabilitas, tingkat kesulitan, dan daya pembeda. Validitas rasional adalah uji kevalidan kepada para ahli/validator, sedangkan validitas empiris adalah kevalidan yang diuji kepada siswa dengan melihat reliabilitas, tingkat kesulitan soal, dan daya pembedanya (Riyani, dkk. , 2. Untuk mengetahui kevalidan instrumen soal HOTS dilakukan perhitungan nilai validasi dengan menggunakan bantuan Microsoft Excel. Penilaian dari validator berupa skala likert . angat sesuai, sesuai, kurang sesuai, tidak sesua. diubah ke dalam bentuk skor 4, 3, 2 dan 1. Untuk menginterpretasi nilai validitas rasional yang diperoleh, selanjutnya digunakan pengklasifikasian validitas menurut pendapat Ratumanan & Laurens . alam Mita, dkk. , 2. dengan ketentuan seperti yang disajikan pada tabel 1 Open Access: https://ejournal. org/index. php/jp | 72 Jurnal Polinomial. Volume 5 Issue 1 . , pp. 69-80, Ulfa Nabilah. Armis. Sehatta Saragih Tabel 1. Kriteria Validitas Rasional Nilai rata-rata total validitas 5 O ycIycNycO O 4,0 5 O ycIycNycO < 3. 5 O ycIycNycO < 2. 1,0 O ycIycNycO < 1. Tingkat Validitas Sangat Valid Valid Kurang Valid Tidak Valid (Modifikasi dari Ratumanan & Laurens dalam Mita, dkk. , 2. Instrumen soal HOTS dikatakan valid jika RTV lebih besar dari 2,5. Angket uji keterbacaan siswa diberikan kepada siswa setelah selesai mengerjakan instrumen soal HOTS. Untuk mengetahui nilai keterbacaan atau respon siswa terhadap instrumen soal HOTS dilakukan perhitungan dengan menggunakan bantuan Microsoft Excel. Hasil penilaian dari siswa berupa skala likert . angat setuju, setuju, kurang setuju, tidak setuj. diubah ke dalam bentuk skor 4, 3, 2 dan 1. Angket uji keterbacaan siswa dianalisis dan diinterpretasikan menurut pendapat Vebrian, dkk. dengan ketentuan seperti pada tabel 2 sebagai berikut. Tabel 2. Kriteria Uji keterbacaan Persentase 81,25% O ycE O 100% 62,5% O ycE < 81,25% 43,75% O ycE < 62,5% 25% O ycE < 43,75% Kriteria Sangat baik Baik Kurang baik Tidak baik (Modifikasi dari Vebrian, dkk. , 2. Respon siswa terhadap instrumen asesmen dikatakan baik apabila persentase lebih dari 50%. Pada tahap uji validitas empiris, data diperoleh melalui pelaksanaan uji coba instrumen tes kepada subjek penelitian, kemudian dilakukan analisis terhadap validitas, reliabilitas, tingkat kesukaran, serta daya pembeda butir soal. Pengujian validitas dilakukan menggunakan rumus korelasi Product Moment dengan bantuan software Anates Uraian versi 4. Nilai ycEaycnycycycuyci yang diperoleh kemudian dibandingkan dengan nilai yc ycycaycayceyco pada taraf signifikansi yu = 5% dan jumlah responden . sebanyak 30 siswa. Suatu butir soal dinyatakan valid apabila memenuhi kriteria ycEaycnycycycuyci Ou yc ycycaycayceyco . Uji reliabilitas dilakukan dengan menerapkan rumus Alpha Cronbach menggunakan software Anates Uraian versi 4. Suatu instrumen dapat dinyatakan reliabel apabila nilai koefisien reliabilitasnya Ou 0,70 (Mansyur, dkk. , 2. Analisis tingkat kesukaran dilakukan dengan menggunakan rumus tingkat kesukaran yang diolah dengan bantuan software Anates Uraian versi 4. Suatu butir soal dianggap memiliki tingkat kesukaran yang baik apabila tidak terlalu mudah maupun terlalu sukar (Lestari & Yudhanegara, 2. Soal dikatakan sangat mudah apabila hampir seluruh siswa menjawab benar, sedangkan sangat sukar apabila sebagian besar siswa menjawab salah. Uji daya pembeda dilakukan dengan mengurutkan skor siswa dari tertinggi hingga terendah, kemudian membaginya menjadi dua kelompok, yaitu kelompok atas 27% dan kelompok bawah 27%. Setelah data kedua kelompok diperoleh, dilakukan perhitungan daya pembeda menggunakan rumus yang sesuai dengan bantuan software Anates Uraian versi Butir soal yang dapat diterima sebagai instrumen adalah yang memiliki daya pembeda dengan kategori sangat baik, baik, atau cukup (Lestari & Yudhanegara, 2. Open Access: https://ejournal. org/index. php/jp | 73 Jurnal Polinomial. Volume 5 Issue 1 . , pp. 69-80, Ulfa Nabilah. Armis. Sehatta Saragih HASIL PENELITIAN Produk akhir yang dihasilkan pada penelitian pengembangan ini berupa instrumen Tes Higher Order Thinking Skills (HOTS) konten perbandingan untuk siswa fase D yang memiliki kriteria valid secara rasional, valid secara empiris, reliabilitas yang tinggi, tingkat kesukaran dan daya pembeda yang baik. Pengembangan instrumen soal ini dilakukan dengan mengikuti prosedur pengembangan tipe development study sebagai berikut: Tahap Preliminary Tahapan preliminary mencakup kegiatan analisis yang dilakukan peneliti sebagai langkah awal dalam proses pengembangan instrumen soal HOTS. Analisis awal yang dilaksanakan peneliti berupa analisis kebutuhan. Berdasarkan hasil analisis kebutuhan diperoleh informasi dari hasil wawancara yang dilakukan kepada dua guru matematika didua sekolah berbeda yang menyatakan bahwa guru cukup kesulitan untuk memberikan soal HOTS dalam melatih siswa. Hal ini dikarenakan guru kurang referensi untuk membuat soal HOTS, sehingga guru hanya memberikan soal-soal yang ada dibuku paket matematika di sekolah Jenis soal-soal tes pada buku paket yang digunakan guru juga belum teruji kevalidan, reliabilitas, tingkat kesukaran dan daya pembeda dalam melatih HOTS siswa. Hasil analisis kurikulum menunjukkan tujuan pembelajaran yang selaras dengan capaian pembelajaran (CP) pada konten perbandingan dalam kurikulum merdeka. Capaian pembelajaran konten perbandingan di fase D pada elemen bilangan dengan capaian pembelajaran sebagai berikut: AuSiswa dapat menggunakan rasio . kala, proporsi, dan laju perubaha. dalam penyelesaian masalahAy. Berdasarkan capaian pembelajaran tersebut peneliti membuat tujuan pembelajaran terfokus pada konten perbandingan yaitu: . menyelesaikan permasalahan yang berkaitan dengan rasio dua besaran yang satuannya . menyelesaikan permasalahan yang berkaitan dengan perbandingan senilai dengan menggunakan tabel data. menyelesaikan permasalahan kontekstual yang berkaitan dengan perbandingan senilai. menyelesaikan permasalahan kontekstual yang berkaitan dengan perbandingan berbalik nilai. menyelesaikan permasalahan yang berkaitan dengan perbandingan berbalik nilai dengan menggunakan tabel data. mengevaluasi skala berbeda secara numerik dan logis serta menyimpulkan pilihan yang paling tepat dalam konteks dunia Pada analisis siswa diperoleh bahwa ujicoba soal tes dilakukan kepada siswa fase D yang telah mempelajari konten perbandingan. Berdasarkan hasil analisis yang telah dilakukan, peneliti membuat rancangan produk awal yang terdiri dari kisi-kisi soal, butir soal, alternatif penyelesaian, pedoman penskoran. Peneliti juga merancang instrumen penelitian yang terdiri atas lembar validasi dan angket uji keterbacaan siswa. Tahap Formative Evaluation. Untuk langkah-langkah pada tahap formative evaluation diadopsi dari Tessmer terdiri atas tahapan sebagai berikut: Self Evaluation Tahap self evaluation dilaksanakan dengan meninjau dan memeriksa secara cermat kelengkapan produk awal yang telah dirancang oleh peneliti. Perbaikan pada tahap ini meliputi penyesuaian struktur kalimat serta penyempurnaan dalam penggunaan simbol-simbol Berdasarkan hasil penelaahan pada tahap self evaluation, diperoleh 10 butir soal Open Access: https://ejournal. org/index. php/jp | 74 Jurnal Polinomial. Volume 5 Issue 1 . , pp. 69-80, Ulfa Nabilah. Armis. Sehatta Saragih yang dinyatakan siap untuk divalidasi oleh validator. Produk yang dihasilkan pada tahap ini disebut sebagai prototype I. Expert Review Prototype I kemudian divalidasi oleh tiga orang validator untuk memperoleh data mengenai validitas rasional yang mencakup tiga aspek, yaitu materi, konstruk, dan bahasa. Proses penilaian dilakukan oleh para validator dengan mengisi lembar validasi menggunakan skala Likert empat tingkat, yakni sangat sesuai, sesuai, kurang sesuai, dan tidak sesuai. Setiap kategori penilaian tersebut kemudian dikonversi ke dalam bentuk data kuantitatif dengan ketentuan skor: 4 untuk sangat sesuai, 3 untuk sesuai, 2 untuk kurang sesuai, dan 1 untuk tidak sesuai. Berdasarkan hasil penilaian dari ketiga validator, diperoleh rata-rata skor validitas rasional instrumen soal HOTS yang dapat dilihat pada tabel 3 berikut. Tabel 3. Rekapitulasi Hasil Validitas Rasional Soal HOTS Aspek Penilaian Materi Konstruk Bahasa Rata-Rata Skor Penilaian Pervalidator Rata-Rata Total Validitas (RTV) Kriteria Rata-Rata Tiap Aspek Sangat Valid Rata-rata validitas yang diberikan validator, aspek konstruk untuk soal HOTS memperoleh nilai terendah karena tedapat beberapa kesalahan kalimat yang belum sesuai dengan rumusan pokok item dalam penulisan soal. Peneliti tidak memberikan gambar ilustrasi untuk soal nomor 2, 5 dan 8 sehingga disarankan untuk menambahkan gambar ilustrasi. Ratarata keseluruhan nilai validitas dari ketiga aspek tersebut sebesar 3,8 dan termasuk dalam kategori sangat valid, sehingga dapat disimpulkan bahwa instrumen soal HOTS yang dikembangkan telah memenuhi kriteria validitas rasional atau teoretis. One-to-One dan Small Group Prototype I yang telah dikembangkan diuji coba terhadap enam siswa dengan tingkat kemampuan matematis bervariasi, meliputi tinggi, sedang, dan rendah, melalui tahap one-toone sekaligus small group. Tahap ini menugaskan siswa untuk menyelesaikan soal-soal HOTS yang telah disusun sebelumnya. Hasil analisis respons siswa menunjukkan bahwa indikator HOTS yang diharapkan mulai tampak dalam proses tersebut. Jawaban siswa memperlihatkan kemampuan memahami serta menuliskan pernyataan matematis secara tepat tanpa mencantumkan unsur diketahui maupun ditanyakan dalam soal. Langkah berikut menunjukkan bahwa siswa belum mampu menguraikan jawaban secara runtut dan sistematis. Pertanyaan tersebut sudah dapat disimpulkan dengan keputusan yang sesuai konteks Selesai mengerjakan instrumen soal HOTS, peneliti meminta siswa mengisi angket uji Tujuan kegiatan tersebut untuk mengetahui respon siswa terhadap instrumen yang dikembangkan. Rata-rata persentase respon siswa terhadap soal HOTS mencapai 82,73%, menunjukkan kategori sangat baik terhadap instrumen yang telah dikembangkan Saran dan komentar siswa menjadi dasar revisi prototype II yang mencakup Open Access: https://ejournal. org/index. php/jp | 75 Jurnal Polinomial. Volume 5 Issue 1 . , pp. 69-80, Ulfa Nabilah. Armis. Sehatta Saragih penambahan kejelasan informasi soal serta penyederhanaan rumusan kalimat pada butir Field Test Tahap field test melibatkan pengujian prototype II terhadap subjek penelitian. Subjek uji coba terdiri atas 30 siswa fase D. Jawaban siswa dalam tahap field test diberi skor kemudian dianalisis untuk memperoleh data mengenai validitas empiris, reliabilitas, tingkat kesukaran, serta daya pembeda butir soal. Proses uji validitas butir soal menggunakan software Anates Uraian versi 4. 5 terhadap 10 butir soal. Setelah dilakukan pengujian, berikut hasil uji validitas empiris yang dapat dilihat pada tabel 4 berikut. Tabel 4. Hasil Uji Validitas Empiris Level Kognitif No Butir 0,801 0,671 0,841 0,733 0,781 0,623 0,864 0,778 0,743 0,865 0,361 Keputusan Valid Valid Valid Valid Valid Valid Valid Valid Valid Valid Berdasarkan hasil analisis validitas butir soal yang dilakukan diperoleh sebanyak 10 butir soal yang termasuk dalam kategori valid. Nilai reliabilitas untuk soal HOTS mencapai 0,95, yang menunjukkan kriteria sangat Mengacu pada pendapat Mansyur, dkk. , suatu instrumen dapat dinyatakan reliabel apabila memiliki nilai reliabilitas minimal 0,70, sehingga instrumen soal HOTS yang dikembangkan telah memenuhi syarat reliabilitas. Dengan demikian, soal HOTS yang disusun memiliki tingkat keakuratan dan konsistensi jawaban yang tinggi, meskipun diuji pada subjek, lokasi, atau waktu yang berbeda. Hasil dari analisis dan perhitungan uji tingkat kesukaran pada penelitian ini untuk 10 soal bentuk uraian dihitung secara otomatis menggunakan software Anates Uraian versi 4. dapat dilihat pada tabel 5 berikut. Tabel 5. Hasil Uji Tingkat Kesukaran No Butir Level Kognitif Tkt. Kesukaran (%) Tafsiran 68,23 67,71 54,30 28,52 71,88 37,50 29,69 71,35 34,90 39,45 Sedang Sedang Sedang Sukar Mudah Sedang Sukar Mudah Sedang Sedang Open Access: https://ejournal. org/index. php/jp | 76 Jurnal Polinomial. Volume 5 Issue 1 . , pp. 69-80, Ulfa Nabilah. Armis. Sehatta Saragih Analisis terhadap tingkat kesukaran soal HOTS dilakukan untuk memastikan adanya keseimbangan proporsi tingkat kesulitan pada butir soal. Dari 10 soal yang dikembangkan, diperoleh dua soal kategori mudah, enam soal kategori sedang, dan dua soal kategori sukar. Seluruh soal tersebut dinyatakan layak digunakan karena tidak terdapat butir yang tergolong terlalu mudah maupun terlalu sukar. Temuan ini sejalan dengan pendapat Lestari & Yudhanegara . yang menyatakan bahwa soal dengan tingkat kesukaran yang baik adalah soal yang tidak terlalu sulit atau terlalu mudah. Hasil analisis dan perhitungan daya pembeda soal HOTS dihitung secara otomatis menggunakan software Anates Uraian versi 4. 5 dapat dapat dilihat pada tabel 6 berikut. Tabel 6. Hasil Uji Daya Pembeda No Butir Soal Level Kognitif DP (%) Kriteria 40,63 Baik 50,00 Baik 67,97 Baik 30,47 Cukup 32,81 Cukup 60,42 Baik 50,00 Baik 44,79 Baik 65,63 Baik 61,72 Baik Hasil analisis terhadap daya pembeda soal HOTS menunjukkan bahwa terdapat delapan soal memiliki daya pembeda baik dan dua soal tergolong cukup. Seluruh butir soal yang dikembangkan layak digunakan, karena memiliki nilai daya pembeda di atas 20%, yang menandakan bahwa setiap butir mampu membedakan kemampuan siswa secara efektif. Dengan demikian, instrumen yang dikembangkan dapat menggambarkan perbedaan kemampuan antara siswa berkemampuan tinggi dan rendah. Tabel 7. Rekapitulasi Analisis Validitas Empiris. Reliabilitas. Tingkat Kesukaran dan Daya Pembeda Soal HOTS Validitas Empiris Reliabilitas Kriteria Kriteria 0,801 0,671 0,841 0,733 0,781 0,623 0,864 0,778 0,743 0,865 Valid Valid Valid Valid Valid Valid Valid Valid Valid Valid 0,95 Sangat Tinggi Tingkat Kesukaran TK (%) Kriteria DP (%) Kriteria 68,23 67,71 54,30 28,52 71,88 37,50 29,69 71,35 34,90 39,45 40,63 50,00 67,97 30,47 32,81 60,42 50,00 44,79 65,63 61,72 Baik Baik Baik Cukup Cukup Baik Baik Baik Baik Baik Sedang Sedang Sedang Sukar Mudah Sedang Sukar Mudah Sedang Sedang Daya Pembeda Open Access: https://ejournal. org/index. php/jp Keputusan Diterima Diterima Diterima Diterima Diterima Diterima Diterima Diterima Diterima Diterima | 77 Jurnal Polinomial. Volume 5 Issue 1 . , pp. 69-80, Ulfa Nabilah. Armis. Sehatta Saragih PEMBAHASAN Penelitian ini menghasilkan sebuah instrumen tes HOTS pada konten perbandingan bagi siswa fase D. Pengembangan instrumen dilaksanakan melalui model development studies yang mencakup dua tahap utama, yaitu preliminary dan formative evaluation yang diadaptasi dari rancangan Tessmer. Setiap tahap memiliki peran penting dalam memastikan mutu produk yang dihasilkan, baik dari segi materi, konstruk dan bahasa. Hasil penelitian menunjukkan bahwa sepuluh butir soal uraian yang dikembangkan telah memenuhi standar kevalidan, baik secara rasional maupun empiris. Berdasarkan penilaian tiga validator ahli, rata-rata skor validitas mencapai 3,8 dengan kategori sangat valid. Aspek materi memperoleh nilai tertinggi, sementara aspek konstruk memerlukan revisi kecil pada kejelasan redaksi dan penggunaan ilustrasi penunjang. Perbaikan dilakukan melalui penyusunan ulang kalimat dan penambahan gambar kontekstual agar makna soal menjadi lebih jelas bagi siswa. Hasil revisi tersebut menjadikan instrumen layak untuk dilanjutkan ke tahap pengujian selanjutnya. Pada tahap field test, diperoleh hasil uji validitas empiris menggunakan software Anates Uraian versi 4. 5 juga memperlihatkan bahwa seluruh butir soal tergolong valid, sehingga setiap soal mampu mengukur aspek kognitif sesuai dengan indikator HOTS yang ditetapkan. Diperoleh juga data bahwa instrumen memiliki tingkat reliabilitas sangat tinggi, yaitu sebesar 0,95, melampaui batas minimal 0,70 sebagaimana dikemukakan oleh Mansyur, dkk. Nilai tersebut menunjukkan bahwa instrumen yang dikembangkan bersifat konsisten dan dapat digunakan untuk melatih kemampuan berpikir tingkat tinggi secara stabil di berbagai Hasil tingkat kesukaran pada tahap field test menunjukkan pola distribusi yang lebih seimbang dibandingkan tahap one-to-one dan small group. Terdapat dua soal kategori mudah . omor 5 dan . , enam soal kategori sedang . omor 1, 2, 3, 6, 9, dan . , dan dua soal kategori sukar . omor 4 dan . Distribusi ini sudah mendekati proporsi kesukaran yang direkomendasikan Widoyoko . , yaitu tidak terlalu mudah dan tidak terlalu sukar. Analisis tingkat kesukaran menunjukkan variasi tingkat kesukaran yang proporsional, yaitu terdapat soal dengan kategori mudah, sedang, dan sukar. Variasi tingkat kesukaran ini penting untuk memberikan tantangan dan kesempatan bagi siswa untuk berpikir tingkat tinggi. Temuan ini mengindikasikan bahwa instrumen telah memberikan peluang bagi seluruh siswa untuk berusaha mencapai penyelesaian optimal. Daya pembeda soal menunjukkan bahwa sebagian besar butir soal berada pada kategori baik, yaitu delapan soal berkategori baik dan dua soal berkategori cukup. Daya pembeda yang baik menunjukkan bahwa instrumen mampu membedakan siswa dengan kemampuan tinggi dan rendah. Temuan ini relevan dengan pendapat Lestari & Yudhanegara . yang menyebutkan bahwa soal dengan daya pembeda lebih besar atau sama dengan 20% dapat diterima karena mampu mengidentifikasi kemampuan siswa secara akurat. Secara keseluruhan, hasil pengembangan membuktikan bahwa Instrumen tes HOTS konten perbandingan yang dihasilkan memenuhi kriteria kevalidan, reliabilitas, tingkat kesukaran, serta daya pembeda yang baik, tetapi masih terdapat keterbatasan dalam keseimbangan tingkat kesukaran dan distribusi subtopik antarbutir soal. Penelitian berikutnya diharapkan dapat memperluas cakupan submateri dan menyesuaikan proporsi soal agar lebih representatif terhadap keseluruhan elemen pembelajaran matematika pada fase D, sehingga Open Access: https://ejournal. org/index. php/jp | 78 Jurnal Polinomial. Volume 5 Issue 1 . , pp. 69-80, Ulfa Nabilah. Armis. Sehatta Saragih instrumen yang dihasilkan dapat digunakan secara lebih luas dalam konteks asesmen SIMPULAN DAN SARAN Penelitian ini menerapkan model pengembangan tipe development studies yang mencakup dua tahap utama, yaitu tahap pendahuluan . dan tahap evaluasi formatif . ormative evaluatio. Hasil akhir dari kegiatan pengembangan ini berupa instrumen tes kemampuan berpikir tingkat tinggi atau Higher Order Thinking Skills (HOTS) yang terdiri atas sepuluh butir soal uraian. Instrumen tes HOTS pada konten perbandingan untuk siswa fase D terbukti telah memenuhi kriteria kevalidan, baik secara teoritis maupun empiris, serta memiliki reliabilitas tinggi, daya pembeda memadai, dan tingkat kesulitan yang baik. Sebagai tindak lanjut, peneliti selanjutnya diharapkan dapat mengembangkan instrumen sejenis dengan memperhatikan komposisi tingkat kesukaran yang lebih proporsional, agar diperoleh alat asesmen yang lebih representatif dan akurat dalam melatih kemampuan siswa. DAFTAR PUSTAKA