Vol. No. 1, 2025, pp. DOI: https://doi. org/10. 29210/1202525556 Daftar isi tersedia di Jurnal IICET Jurnal EDUCATIO (Jurnal Pendidikan Indonesi. ISSN: 2476-9886 (Ceta. ISSN: 2477-0302 (Elektroni. Beranda jurnal: https://jurnal. org/index. php/jppi Analisis butir soal instrumen tes keterampilan berpikir kreatif pada materi energi terbarukan menggunakan rasch model Ria Rohmatika*). Sri Fatmawati. Suhartono Suhartono Program Studi Tadris Fisika. Fakultas Tarbiyah dan Ilmu Keguruan. Institut Agama Islam Negeri Palangka Raya. Indonesia Article Info ABSTRACT Article history: Received Mar 04 , 2025 Revised Mar 20th, 2025 Accepted Apr 10th, 2025 Keywords: Instrumen soal Berpikir kreatif Rasch model Wright maps Differential item function Keterbatasan instrumen tes keterampilan berpikir kreatif pada materi energi terbarukan menjadi alasan perlunya pengembangan dan analisis instrumen secara mendalam. Penelitian ini bertujuan untuk menganalisis butir soal instrumen tes keterampilan berpikir kreatif pada materi energi terbarukan secara keseluruhan menggunakan Rasch Model. Pendekatan kuantitatif deskriptif diterapkan sebagai metode penelitian dengan mengambil subjek sebanyak 34 siswa kelas X SMA Negeri 1 Palangka Raya yang dipilih dengan teknik purposive Pengumpulan data menggunakan teknik tes berupa soal essay sebanyak 12 soal. Hasil data dianalisis menggunakan Rasch Model berbantuan software Winsteps 5. dengan beberapa parameter uji: unidimensionality, item fit. DIF, reliabilitas, separation, wright maps, dan tingkat kesukaran soal. Hasil penelitian menunjukkan unidimensionality, dengan nilai raw variance explained by measures sebesar 46,9% . , dari 12 soal yang dianalisis, 6 soal fit dengan model, sementara sisanya perlu direvisi. Tidak teramati bias terhadap butir soal berdasarkan hasil DIF . >0,. Namun, 2 butir soal dengan nilai logit ekstrem . Parameter Uji Unidimensionality Item Fit (Tingkat Kesesuaian Butir Soa. DIF (Differential Item Functionin. Person Reliability dan Item Reliability CronbachAos Alpha Kriteria Nilai raw variance explained by measure tidak kurang dari 20%. Nilai unexplned variance in 1st constract tidak lebih dari 15% Sumber Output Item: dimensionality 0,5 < MNSQ < 1,5 -2,0 < ZSTD < 2,0 0,4 < PT Mean Corr < 0,85 Item (Colum. : fit Prob > 0,05 (Tidak bia. Item: DIF, between/within >0,94 (Istimew. 0,91 Ae 0,94 (Baik Sekal. 0,81 Ae 0,90 (Bai. 0,67 Ae 0,80 (Cuku. <0,67 (Lema. >0,8 (Baik Sekal. 0,7 Ae 0,8 (Bai. 0,6 Ae 0,7 (Cuku. 0,5 Ae 0,6 (Jele. <0,5 (Buru. 1 Summary Statistics 1 Summary Statistics Separation . ndeks Hseparation Ou2,0 1 Summary Statistics Tingkat Kesukaran Butir Soal Measure logit > 1 SD (Sulit Sekal. 0,00 OMeasure logit O 1 SD (Suli. 0,00OuMeasure logitOuAe1SD (Muda. Measure logit < Ae 1 SD (Mudah Sekal. Item: measure Wright Maps (Peta variabe. -2,0 OMeasure logit O 2,0 Variabel maps Sumber: Sumintono & Widhiarso, 2014 Merujuk pada kriteria pada Tabel 1, analisis butir soal instrumen tes dapat dilakukan secara sistematis dan menyeluruh. Hasil analisis yang memenuhi kriteria yang telah ditetapkan mencerminkan kualitas instrumen yang baik, valid dan reliabel untuk mengukur keterampilan berpikir kreatif siswa pada materi energi terbarukan. Teknik pengumpulan data berupa tes tertulis berbentuk essay sebanyak 12 soal yang disusun berdasarkan indikator berpikir kreatif yang dikembangkan oleh Torrance . Uji coba instrumen dilakukan secara luring di kelas pada jam pelajaran fisika selama 2 jam pelajaran (JP) yang berkisar selama 90 menit. Selama pengerjaan soal, siswa tidak diperkenankan menggunakan alat elektronik guna memastikan kejujuran serta kemampuan tiap siswa secara objektif. Sebelum soal tes digunakan, telah dilakukan tahap validasi ahli dengan melibatkan 2 validator ahli di bidang fisika yang meliputi guru dan dosen. Validasi ahli dilakukan agar dapat dinyatakan bahwa dengan estimasi soal tersebut sesuai dengan indikator berpikir kreatif dan layak diuji coba. Untuk melihat hasil kelayakan dari validasi ahli, digunakan kriteria kategorisasi yang perlu ditentukan sebelumnya dengan memuat data statistik seperti, jumlah subjek (N), mean (M), skor maksimum (Xmak. , skor minimum (Xmi. , standar deviasi (SD), dan range. Hasil dari data tersebut kemudian digunakan untuk menentukan kriteria kategorisasi sesuai dengan pedoman yang dikemukakan oleh (Azwar, 2. pada Tabel 2. Tabel 2 Interval Koefisien X Ou (Mean 1,5SD) (Mean 0,5SD)< X O (Mean 1,5SD) (Mean - 0,5SD)< X O (Mean 0,5SD) (Mean - 1,5SD) < X O (Mean - 0,5SD) X O (Mean - 1,5SD) Kategori Sangat Layak Layak Cukup Layak Kurang Layak Tidak Layak Merujuk pada pedoman tersebut, diperoleh kriteria kategorisasi untuk melihat kelayakan instrumen tes keterampilan berpikir kreatif pada materi energi terbarukan merujuk pada skor penilaian dari 2 validator yang disajikan pada Tabel 3. Setelah instrumen memenuhi kriteria kelayakan pada Tabel 3 dan telah dilakukan perbaikan berdasarkan komentar dari masing-masing validator, instrumen tes kemudian diuji coba ke sampel yang telah ditentukan Beranda jurnal: https://jurnal. org/index. php/j-edu Jurnal EDUCATIO (Jurnal Pendidikan Indonesi. Rohmatika. , et al Vol. No. 1, 2025, pp. guna mengetahui kualitas dari tiap butir soal instrumen tes. Sebelum pengumpulan data uji coba dilakukan, peneliti telah menyampaikan permohonan izin kepada pihak sekolah dan menyampaikan tujuan penelitian kepada siswa yang menjadi sampel penelitian. Penelitian dilakukan dengan menjaga kerahasiaan identitas siswa dan data yang diperoleh hanya digunakan untuk keperluan penelitian. Tabel 3 Interval Koefisien X O 24 24 < X O 35 35 < X O 45 45 < X O 56 X Ou 56 Kategori Tidak Layak Kurang Layak Cukup Layak Layak Sangat Layak Teknik analisis data uji coba instrumen tes menggunakan Rasch Model berbantuan software Winsteps 0 untuk menguji dari berbagai parameter uji, antara lain unidimensionality, kesesuaian butir soal . tem fi. DIF (Differential Item Functio. , reliabilitas, separation . ndeks pemisaha. , variabel . maps, dan tingkat kesukaran tiap butir soal. Rasch Model dipilih karena mampu mengevaluasi kualitas instrumen secara menyeluruh, serta mampu memberikan informasi mengenai kualitas respon siswa dan butir soal dalam kerangka pengukuran yang sama. Selain itu. Rasch Model mampu menggambarkan kualitas butir soal dari berbagai parameter uji yang tidak sepenuhnya dapat dilakukan melalui pendekatan teori klasik (Sumintono & Widhiarso, 2. Setiap parameter uji memiliki kriteria tertentu yang dijadikan sebagai acuan penilaian instrumen agar memenuhi syarat validitas dan reliabilitas. Tabel 3 berikut menyajikan rangkuman kriteria dari berbagai parameter uji, serta tabel output pada software Winsteps 5. Hasil dan Diskusi Hasil data dari penelitian merupakan hasil analisis uji coba instrumen tes keterampilan berpikir kreatif pada materi energi terbarukan sebanyak 12 soal dengan merujuk pada 4 indikator berpikir kreatif, yaitu elaborasi . , keaslian . , keluwesan . , dan kelancaran . Soal tersebut telah divalidasi oleh 2 validator, yaitu dosen dan guru yang ahli dalam bidang instrumen tersebut. Terdapat 6 aspek penilaian untuk mengevaluasi instrumen tes berpikir kreatif, meliputi kejelasan . , relevansi . , keluwesan . , kelancaran . , keaslian . , dan elaborasi . Dari enam aspek tersebut, diuraikan menjadi 8 butir kriteria penilaian dengan 5 skala penilaian, yang meliputi 1 . angat kurang bai. , 2 . urang bai. , 3 . ukup bai. , 4 . , dan 5 . angat bai. Hasil skor penilaian dari 2 validator diperoleh skor sebesar 65 dengan kategori sangat layak yang merujuk pada Tabel 2. Kemudian, instrumen diuji coba ke siswa kelas 10 SMA Negeri 1 Palangka Raya yang berada di dalam satu kelas dengan jumlah siswa sebanyak 34 orang . laki-laki dan 19 perempua. Hasil data uji coba kemudian dianalisis menggunakan software Winsteps 5. dengan berbagai parameter uji, seperti unidimensionality, kesesuaian butir soal . tem fi. Differential Item Function (DIF), reliabilitas, separation . ndeks pemisaha. , variabel . maps, dan tingkat kesukaran butir soal. Unidimensionality Nilai tersebut dapat diperoleh berdasarkan output tabel 23. Item: dimensionality pada Winsteps yang tertera pada Gambar 1. Gambar 1 Beranda jurnal: https://jurnal. org/index. php/j-edu Analisis butir soal instrumen tes keterampilan berpikirA Validitas instrumen tes keterampilan berpikir kreatif dapat dilihat pada Rasch Model menggunakan istilah item unidimensionality yang dapat menggambarkan kemampuan instrumen tes dalam mengukur apa yang seharusnya diukur, yaitu keterampilan berpikir kreatif siswa, serta mampu mewakili data dari variabel secara akurat sehingga butir soal dapat dikatakan valid (Putri & Khusna, 2020. Sumintono & Widhiarso. Suatu instrumen dapat dianggap unidimensionality jika memenuhi dua persyaratan, yaitu nilai raw variance explained by measure tidak kurang dari 20%, yang berarti jika berada pada rentang 2040%, maka instrumen tes keterampilan berpikir kreatif pada materi energi terbarukan dinyatakan cukup baik. Sementara itu, jika berada pada rentang 4060% instrumen dianggap baik, dan jika nilai lebih dari 60%, maka instrumen dianggap baik sekali. Dan syarat yang kedua yaitu nilai unexplned variance in 1st constract tidak lebih dari 15% (Sumintono & Widhiarso, 2. Merujuk pada hasil output item: dimensionality yang tertera pada Gambar 1. Terlihat bahwa nilai raw variance explained by measures sebesar 46,9%, yang berarti nilai tersebut berada pada rentang 4060% sehingga instrumen dianggap baik. Sedangkan, nilai unexplained variance in 1st contrast teramati bahwa tidak lebih dari 15%, yaitu sebesar 11,8%. Begitu juga dengan nilai unexplained variance in 2st contrast hingga 5th tidak lebih dari 15% yang masing-masing bernilai, 8,9%, 7,8%, 6,5%, dan 4,3%. Hasil uji unidimensionality ini menunjukkan bahwa instrumen tes keterampilan berpikir kreatif pada materi energi terbarukan memenuhi syarat unidimensionality dan dianggap dapat mengevaluasi apa yang harusnya diukur. Temuan ini serupa dengan temuan Muhammad et al. , yang memperoleh nilai raw variance explained by measures dengan kriteria baik dengan nilai sebesar 57,2% yang termasuk pada rentang 4060%. Begitupun dengan nilai unexplained variance in 1st contrast hingga 5th teramati bahwa berada di bahwa 15%, yang masing-masing bernilai 10,1%, 8,0%, 6,1%, 4,9%, dan 4,1%. Instrumen penelitian tersebut juga dianggap unidimensionality karena telah memenuhi kedua syarat yang ditentukan. Item Fit (Tingkat Kesesuaian Butir Soa. Setelah diperoleh hasil uji validasi instrumen, selanjutnya yaitu mengamati kesesuaian tiap butir soal dari Merujuk pada tabel output 10. Item: fit order, terlihat bahwa kesesuaian butir soal ditentukan berdasarkan 3 kriteria, yaitu Outfit Means Square (MNSQ). Outfit Z-Standard (ZTSD), dan Point Measure Correlation (Pt Measure Corr ) yang tersaji dalam Tabel 4. Nilai Outfit Means Square (MNSQ). Outfit ZStandard (ZTSD), dan Point Measure Correlation merupakan kriteria acuan untuk menyelidiki kesesuaian butir Apabila suatu butir soal tidak sesuai dengan ketiga kriteria tersebut, maka dapat dianggap butir soal tersebut kurang layak, sehingga soal tersebut perlu direvisi atau digantikan dengan soal yang baru. Hal ini dilakukan untuk memastikan bahwa kemampuan siswa benar-benar teruji dengan butir soal yang berkualitas (Suryani & Jaedun, 2. Tabel 4 No. Item S10 S11 S12 Outfit MNSQ 0,47 0,52 1,48 2,20 0,81 0,77 1,06 0,71 0,47 0,98 1,35 0,41 ZSTD -2,52 -2,06 0,97 3,19 -0,60 -0,98 0,33 -0,78 -1,16 0,14 0,90 -0,61 Pt. Measure Corr Keterangan 0,51 0,55 -0,06 0,14 0,54 0,52 0,45 0,61 0,69 0,54 0,42 0,44 Misfit Misfit Misfit Misfit Fit Fit Fit Fit Misfit Fit Fit Misfit Merujuk pada Tabel 4. Nilai Outfit MNSQ yang fit sebanyak 8 butir soal, yaitu S11. S10. S3. S7. S5. S8. S6, dan S2, sedangkan nilai yang misfit sebanyak 4 butir soal, yaitu S4. S9. S12, dan S1. Adapun nilai outfit ZTSD yang fit diperoleh sebanyak 9 butir soal, yaitu S11. S10. S3. S7. S5. S9. S8. S6, dan S12, sedangkan nilai yang misfit diperoleh sebanyak 3 butir soal, yaitu S4. S2, dan S1. Nilai outfit Pt Measure Corr juga nilai fit dan misfit. Butir soal yang fit pada outfit Pt Measure Corr lebih banyak daripada outfit MNSQ dan outfit ZTSD, yaitu sebanyak 10 butir, yang terdiri dari S11. S10. S7. S5. S9. S8. S6. S12. S2, dan S1, sedangkan butir soal yang misfit hanya ada 2 butir soal, yaitu S4, dan S3. Berdasarkan perolehan nilai fit dan misfit butir soal pada masing-masing kriteria, ditemukan bahwa hanya sebagian soal yang fit dan misfit terhadap 3 kriteria Outfit MNSQ. ZTSD, dan Pt Measure Corr. yang didistribusikan ke dalam Tabel 5. Beranda jurnal: https://jurnal. org/index. php/j-edu Jurnal EDUCATIO (Jurnal Pendidikan Indonesi. Rohmatika. , et al Vol. No. 1, 2025, pp. Tabel 5 Kriteria Fit Misfit Nomor butir soal S5. S6. S7. S8. S10, dan S11 S1. S2. S3. S4. S9, dan S12 Jumlah Merujuk pada Tabel 5, terlihat bahwa terdapat 6 butir soal yang fit. Butir soal ini dianggap fit karena memenuhi 3 kriteria outfit yang telah ditetapkan, yaitu 0,5 < MNSQ < 1,5, -2,0 < ZSTD < 2,0, dan 0,4 < PT Mean Corr < 0,85 (Sumintono & Widhiarso, 2. Sedangkan, 6 soal lainnya dianggap misfit karena tidak memenuhi 3 kriteria tersebut. Hal ini mencerminkan pola yang tidak konsisten mengenai respon siswa terhadap butir soal dengan tingkat kemampuan siswa dalam berpikir kreatif. Butir soal S1, menuntut siswa untuk menjelaskan beberapa aspek dalam satu pertanyaan, seperti bentuk energi, contoh penerapannya dalam kehidupan sehari-hari dan sumber energi yang digunakan. Soal tersebut mencakup materi dasar, sehingga besar kemungkinan mayoritas siswa memahami soal tersebut dan mampu menjawab walaupun dengan beragam jawaban. Begitu juga dengan butir soal S2, yang menuntut siswa untuk menjelaskan cara memanfaatkan energi alternatif dalam kehidupan sehari-hari. Kemudian, butir Soal S3. S4, dan S12 merupakan soal perhitungan mengenai jumlah panel surya yang digunakan, konsumsi listrik yang dibutuhkan di bundaran besar, serta kebutuhan energi surya yang digunakan dalam sebulan. Soal-soal tersebut cenderung mengukur keterampilan numerasi daripada keterampilan berpikir kreatif siswa. Sehingga, besar kemungkinan siswa menganggap soal tersebut sulit diselesaikan. Hal ini sejalan dengan Boone . , yang menyatakan bahwa suatu item dikatakan misfit karena soal yang sulit justru dapat diselesaikan dengan benar oleh siswa berkemampuan rendah. Begitupun sebaliknya, suatu butir soal yang mudah justru dijawab dengan salah oleh siswa yang memiliki kemampuan tinggi. Differential Item Function (DIF) Kevalidan suatu instrumen juga dapat dilihat dari ada tidaknya bias pada butir soal. Butir soal dapat dianggap valid jika butir soal tersebut tidak teridentifikasi bias (Ummah et al. , 2. Analisis Rasch Model juga dapat digunakan untuk mendeteksi bias pada butir soal yang disebut dengan uji Differential Item Function (DIF). Butir soal dianggap teridentifikasi bias apabila nilai probabilitas dari output DIF yang diperoleh < 0,05 (Sumintono & Widhiarso, 2. Analisis DIF dilakukan berdasarkan jenis kelamin, apakah ada butir soal yang dominan terhadap siswa laki-laki daripada siswa perempuan, dan sebaliknya, berdasarkan tingkat kesulitan butir soal dan kemampuan rata-rata setiap kelompok jenis kelamin (Yim et al. , 2. Untuk melihat nilai probabilitas dapat diperoleh dari output tabel 30. DIF, between/within pada Winsteps yang tersaji pada Gambar 2. Gambar 2 Merujuk pada nilai probabilitas yang tersaji dalam Gambar 2, terlihat bahwa tidak terdapat nilai yang berada dibawah 0,05, yang artinya tidak terdapat butir soal yang mempengaruhi perbedaan signifikan terhadap kelompok siswa laki-laki dan perempuan. Namun, jika melihat dari hasil grafik pada Gambar 3. Beranda jurnal: https://jurnal. org/index. php/j-edu Analisis butir soal instrumen tes keterampilan berpikirA terdapat 2 soal yang memiliki perbedaan DIF yang cukup tinggi dibandingkan soal yang lainnya, yaitu S1 dan S12. Person DIF plot (DIF=$S3W. DIF Measure . Item -0,5 -1,5 Gambar 3 Dari grafik terlihat bahwa garis hijau S1 dan S12 yang menunjukkan adanya perbedaan sangat signifikan terhadap kelompok siswa laki-laki dan perempuan, karena kedua soal tersebut masing-masing jauh dari -2 logit dan 2 logit dan merupakan soal yang mudah sekali dan sulit sekali. Sementara itu, 10 soal lainnya memiliki nilai DIF yang hampir sama antara kelompok siswa laki-laki dan perempuan, yang menyatakan bahwa soal tersebut tidak bias terhadap kelompok mana pun dan dianggap cukup adil untuk setiap Hasil ini serupa dengan penelitian Susongko et al. yang juga memperoleh soal bias terhadap jenis kelamin. Soal tes yang digunakan adalah soal tes Scientific Literacy Skills with Integrated Science (SLiSIS) sebanyak 42 butir soal dan diperoleh sebanyak 8 butir soal terdeteksi bias. Reliabilitas Reliabilitas suatu tes merupakan sejauh mana suatu instrumen menghasilkan hasil yang konsisten dan stabil meskipun dilakukan pengulangan pada kondisi dan subjek yang sama (Gunawan et al. , 2023. Muqaffi et al. Reliabilitas diukur dengan mengamati nilai CronbachAos Alpha dan nilai reliabilitas butir soal. Dalam Rasch Model, reliabilitas dinilai melalui dua indikator utama: person reliability dan item reliability, yang memberikan wawasan tentang reliabilitas pengukuran pada tingkat siswa dan item. Rasch Model juga menggunakan indeks pemisahan orang untuk mengelompokkan responden berdasarkan kemampuan mereka, yang memberikan dimensi tambahan dalam menilai konsistensi pengukuran. Dalam analisis ini, nilai reliabilitas Rasch yang lebih tinggi dibandingkan dengan CTT menunjukkan keunggulan dalam konsistensi pengukuran instrumen (Krylikowska et al. , 2. Adapun untuk nilai reliabilitas terlihat dari hasil Summary Statistics yang disajikan pada Tabel 6. Tabel 6 Kriteria CronbachAos Alpha Reliabilitas Separation Item Reliability Person Reliability Item Separation Person Separation Nilai 0,62 0,90 0,49 2,97 0,98 Merujuk pada hasil Summary Statistics, nilai person reliability dianggap lemah, karena berada pada rentang <0,67 dengan nilai sebesar 0,49 dan nilai item reliability berada pada rentang 0,81 Ae 0,90 dengan kriteria baik, yaitu sebesar 0,90. Sedangkan, nilai CronbachAos Alpha (KR-. yang menyatakan hubungan antara siswa dan butir soal diperoleh sebesar 0,62 yang berada pada rentang 0,6 Ae 0,7 dengan kriteria cukup. Hasil ini menunjukkan bahwa instrumen yang digunakan kurang mampu membedakan kemampuan berpikir kreatif siswa secara efektif, sehingga hal tersebut mengindikasikan perlunya perbaikan pada butir soal agar dapat lebih akurat dalam mengukur keterampilan berpikir kreatif. Merujuk pada nilai CronbachAos Alpha dengan kriteria cukup menunjukkan bahwa ada korelasi yang cukup antara siswa dan butir soal. Hal ini Meskipun nilai ini menyatakan bahwa instrumen memiliki konsistensi yang dapat diterima, namun masih ada peluang untuk perbaikan agar memperoleh instrumen dengan tingkat reliabilitas yang tinggi. Hal ini merujuk pada Beranda jurnal: https://jurnal. org/index. php/j-edu Jurnal EDUCATIO (Jurnal Pendidikan Indonesi. Rohmatika. , et al Vol. No. 1, 2025, pp. pernyataan Plummer & Ozcelik . , bahwa ambang batas nilai CronbachAos Alpha yang diterima hanya sebagai aturan praktis dan tidak menyiratkan bahwa nilai yang lebih rendah dianggap sebagai instrumen yang tidak memuaskan atau tidak dapat diterima. Dengan demikian, hasil perolehan nilai CronbachAos Alpha 0,62 pada penelitian ini masih dapat diterima sebagai hasil uji coba awal instrumen dan dapat ditingkatkan secara bertahap agar mencapai reliabilitas yang lebih tinggi (Taber, 2018. Tavakol & Dennick, 2. Hasil ini serupa dengan penelitian sebelumnya oleh Erfan et al. , yang juga memperoleh nilai person reliability dengan kriteria lemah, yaitu sebesar 0,60, dan CronbachAos Alpha dengan kategori cukup, yaitu sebesar 0,64. Namun, nilai item reliability pada penelitian tersebut tidak serupa dengan hasil penelitian ini. Item reliability pada penelitian tersebut memiliki kriteria yang istimewa dengan nilai sebesar 0,97. Penelitian lainnya seperti Fadhilah et al. , menghasilkan nilai CronbachAos Alpha dengan kategori cukup, yaitu sebesar 0,68, dan person reliability juga memiliki kriteria lemah dengan nilai sebesar 0,55. Namun, nilai item reliability penelitian tersebut tidak serupa, yaitu sebesar 0,99 dengan kriteria istimewa. Separation (Indeks Pemisaha. Hasil dari Summary Statistics juga dapat diketahui daya pembeda antara siswa dan butir soal. Pada Rasch Model dapat diketahui dari nilai separation yang tertera pada Tabel 6 hasil Summary Statistics. Menurut Sumintono & Widhiarso . , nilai separation yang semakin tinggi, mengindikasikan suatu instrumen secara keseluruhan dianggap memiliki kualitas yang baik secara person dan item. Hal ini dapat dianggap mampu membedakan kelompok person dan item. Merujuk pada hasil analisis, diperoleh person separation senilai 0,98 serta item separation senilai 2,97. Agar hasil pengelompokkan perlu menghitung indeks strata (H) separation menggunakan persamaan 1. ya= [. ycu ycIyaycEyaycIyaycNyaycCycA) 1 ] . Setelah dilakukan perhitungan, diperoleh nilai indeks strata person separation (Hperson separatio. sebesar 1,64 dibulatkan menjadi 2. Sementara itu, nilai indeks strata item separation (Hitem separatio. sebesar 4,29 dibulatkan Merujuk pada hasil tersebut, mengindikasikan bahwa siswa yang terlibat dalam penelitian ini dapat diklasifikasikan menjadi 2 kelompok, yang artinya siswa memiliki kemampuan yang berbeda dan dapat diklasifikasikan berdasarkan tiap kemampuan siswa. Sedangkan, tingkat kesulitan butir soal dapat diklasifikasikan menjadi 4 kriteria mulai dari tingkat yang mudah hingga sulit. Hasil ini menunjukkan bahwa secara keseluruhan instrumen memiliki kualitas yang baik dari siswa maupun butir soal, karena mampu membedakan kelompok siswa dan butir soal (Sumintono & Widhiarso, 2. Hasil ini sejalan dengan Bond & Fox . , bahwa nilai indeks separation yang di atas 2,0 mencerminkan bahwa instrumen yang dikembangkan efektif dalam mengidentifikasi keragaman kemampuan siswa dan tingkat kesukaran butir soal. Hasil indeks strata (H) yang diperoleh dalam penelitian ini memiliki kesamaan dengan penelitian sebelumnya oleh Prayoga et al. , yang memperoleh Hitem separation sebesar 3,70 yang dibulatkan menjadi Namun. Hperson separation penelitian tersebut berbeda dengan penelitian ini, yaitu sebesar 2,50 yang dibulatkan menjadi 3, sehingga menunjukkan kriteria tingkat kesulitan butir soal penelitian tersebut lebih banyak daripada penelitian ini. Sementara itu, penelitian oleh Nur et al. ditemukan bahwa terdapat nilai indeks strata yang serupa, yaitu Hperson separation dengan nilai 1,5 yang dibulatkan menjadi 2 sehingga klasifikasi siswa terbagi menjadi 2. Sedangkan, tingkat kesulitan butir soal pada penelitian tersebut diklasifikasikan ke dalam 2 kriteria merujuk pada Hitem separation yang diperoleh sebesar 1,93 yang dibulatkan menjadi 2. Hal tersebut menunjukkan bahwa kriteria tingkat kesulitan penelitian ini lebih banyak daripada penelitian Tingkat Kesukaran Butir Soal Untuk mengamati tingkat kesukaran tiap butir soal secara efektif dapat diamati dengan merujuk pada hasil output tabel 13. Item measure yang disajikan pada Gambar 4. Merujuk pada Gambar 4, tertera nilai standar deviasi (SD) item sebesar 0,50. Dari nilai SD tersebut, dapat digunakan untuk menentukan kriteria tingkat kesukaran butir soal dengan merujuk pada Tabel 4. Kriteria dapat diklasifikasikan menjadi 4 tingkat, yaitu Sulit Sekali (Measure logit > 0,. Sulit . ,00 O Measure logit O 0,. Mudah . ,00 Ou Measure logit Ou Ae0,. , dan Mudah Sekali (Measure logit < Ae 0,. Terlihat pada Gambar 6, bahwa butir soal S1 terbukti bahwa soal tersebut mudah sekali dengan nilai Measure logit -1,05. Sebaliknya, butir soal dengan nilai Measure logit tertinggi adalah S12 dengan nilai sebesar 1,11 tergolong ke dalam kriteria butir soal yang sulit sekali. Butir soal ini perlu dianalisis lebih lanjut faktor apa saja yang menyebabkan kedua soal tersebut merupakan soal yang mudah sekali dan sulit sekali. Gambar 5 menyajikan bentuk soal S1 dan S12 untuk memperjelas karakteristik butir soal dengan tingkat kesukaran yang ekstrem. Beranda jurnal: https://jurnal. org/index. php/j-edu Analisis butir soal instrumen tes keterampilan berpikirA Gambar 4 . Gambar 5 <. Butir Soal S1: Mudah Sekali. Butir Soal S12: Sulit Sekali> Merujuk pada bentuk soal S1 dan S2 yang disajikan pada Gambar 5, terlihat bahwa pertanyaan yang digunakan pada soal S1 merupakan materi yang relatif mudah dipahami oleh sebagian besar siswa, karena berkaitan dengan sumber energi yang digunakan dalam kehidupan sehari-hari, sehingga sebagian besar siswa mampu menjawab soal tersebut. Karakteristik soal yang tidak asing memungkinkan siswa untuk lebih mudah memahami pertanyaan dan menyelesaikannya dengan tepat. Sementara itu, bentuk soal S12 terlihat memang cukup rumit, karena siswa dituntut untuk menyelesaikan perhitungan dari total energi yang dihasilkan dari PLTS rumah tangga dalam sebulan. Karakteristik soal ini memerlukan pemahaman konsep dan numerasi yang lebih kompleks. Hal ini memungkinkan sebagian besar siswa belum sepenuhnya menguasai materi tersebut, sehingga menyebabkan soal ini tergolong dalam kriteria sulit sekali. Untuk memperoleh gambaran secara menyeluruh mengenai sebaran tingkat kesukaran butir soal instrumen tes keterampilan berpikir kreatif pada materi energi terbarukan, berikut disajikan Tabel 7. Tabel 7 Kriteria Sulit Sekali Sulit Rentang Measure logit > 0,50 0,00 O Measure logit O 0,50 Nomor butir soal S12 S3. S10. S9, dan S11 Mudah 0,00 Ou Measure logit Ou Ae0,50 S6. S7. S2. S5. S8 dan S4 Mudah Sekali Measure logit < Ae 0,50 Nilai Logit 1,11 0,38, 0,38, 0,31, dan 0,12 -0,36, -0,29, -0,24, -0,17, 0,00, dan -0,17 Jumlah -1,05 Merujuk pada Tabel 7, menunjukkan bahwa sebagian besar butir soal tersebar secara merata dalam kriteria mudah dan sulit, sehingga instrumen ini menggambarkan tingkat kesukaran yang beragam dan mampu mengukur keterampilan berpikir kreatif siswa dari berbagai tingkat kemampuan dengan perolehan nilai Measure logit dalam rentang -1,05 hingga 1,11. Hasil ini sesuai dengan teori Hambleton et al. bahwa jika nilai Measure logit berada dalam rentang -2,0 hingga 2,0, maka tingkat kesukaran dianggap baik. Sebaran tingkat kesukaran butir soal instrumen tes keterampilan berpikir kreatif pada materi energi terbarukan divisualisasikan dalam bentuk diagram pie pada Gambar 6. Beranda jurnal: https://jurnal. org/index. php/j-edu Jurnal EDUCATIO (Jurnal Pendidikan Indonesi. Rohmatika. , et al Vol. No. 1, 2025, pp. 8%8% Sulit Sekali Sulit Mudah Mudah Sekali Gambar 6 Merujuk pada Gambar 6, presentase tertinggi tingkat kesukaran butir soal berada pada kriteria mudah, yaitu sebesar 50%. Kemudian, urutan kedua diduduki oleh kriteria mudah sekali dengan presentase sebesar Adapun kriteria sulit sekali dan kriteria mudah sekali memiliki presentase yang sama, yaitu sebesar Merujuk pada penelitian Jumini et al. , juga memperoleh sebaran tingkat kesukaran berdasarkan analisis Rasch Model, yaitu soal dengan kriteria sulit sekali sebanyak 2 soal, kriteria sulit sebanyak 3 soal, kriteria mudah sebanyak 7 soal, dan kriteria mudah sekali sebanyak 3 soal. Sebaran tingkat kesukaran yang merata ini memungkinkan instrumen mampu mengukur keterampilan berpikir kreatif siswa dengan lebih akurat (Sumintono & Widhiarso, 2. Wright Maps (Peta Variabe. Hasil analisis selanjutnya menunjukkan distribusi kemampuan siswa dan tingkat kesulitan butir soal instrumen tes keterampilan berpikir kreatif pada materi energi terbarukan dapat diamati pada output Tabel Variabel (Wrigh. maps yang tersaji pada Gambar 7. Peta Variabel atau biasa disebut peta Wright menunjukkan sebaran siswa dan butir soal pada skala logit yang sama memberikan peluang untuk membantu peneliti dalam mengevaluasi kualitas butir soal terhadap kemampuan siswa (Saidi & Siew, 2. Jika ditemukan kesenjangan besar antara butir soal, maka butir soal baru perlu ditambahkan dengan menyesuaikan tingkat kesukarannya. Jika ditemukan terlalu banyak butir soal dengan tingkat kesukaran yang sama, beberapa di antaranya lebih baik dihilangkan agar instrumen terjaga keseimbangannya (Planinic et al. , 2. Peta Wright terbagi menjadi dua area, yaitu kanan dan kiri (Sumintono & Widhiarso, 2. Area kanan menunjukkan tingkat kesukaran butir soal, dan area kiri menunjukkan tingkat kemampuan Siswa berkemampuan tinggi akan ditempatkan di area kiri atas, dan siswa berkemampuan rendah akan ditempatkan di area kiri bawah. Soal dengan tingkat kesulitan tinggi akan ditempatkan di area kanan atas, dan soal dengan tingkat kesulitan rendah akan ditempatkan di area kanan bawah (Hikmah et al. , 2. Gambar 7. Hasil Variabel (Wrigh. maps Beranda jurnal: https://jurnal. org/index. php/j-edu Analisis butir soal instrumen tes keterampilan berpikirA Hasil Peta Wright pada Gambar 7 memberikan gambaran bahwa terdapat perbedaan tingkat kesulitan butir soal pada area sebelah kanan. Butir soal S12 berada jauh di atas melebihi nilai logit 1 yang terlihat pada measure. Sementara itu, butir soal S1 berada jauh di bawah melewati nilai logit -1. Hal itu mengindikasikan bahwa butir soal S12 dianggap sebagai butir soal yang sangat sulit oleh siswa karena tidak ada siswa yang berhasil mengerjakan butir soal tersebut, dan butir soal S1 dianggap mudah, karena mayoritas siswa berhasil mengerjakan butir soal tersebut. Jika dilihat dari tingkat kemampuan siswa yang berada di area kiri, sebagian besar berada pada logit 0 hingga -1, yang menggambarkan bahwa mayoritas siswa memiliki kemampuan tingkat rendah. Distribusi kemampuan siswa terhadap tingkat kesukaran soal penelitian ini hampir serupa dengan penelitian Handayani & Iba . , yang memperoleh distribusi kemampuan siswa berada pada logit 1 hingga -1 yang mencerminkan sebagian besar kemampuan siswa masih rendah karena sebagian besar berada pada logit 0 hingga -1. Penelitian ini memiliki kelebihan dalam penerapan parameter uji Rasch Model, seperti unidimensionality, kesesuaian butir soal . tem fi. Differential Item Function (DIF), reliabilitas, separation . ndeks pemisaha. , variabel . maps, dan tingkat kesukaran tiap butir soal. Berbagai parameter uji yang digunakan mampu menggambarkan hasil analisis secara lebih objektif dan akurat. Jika dibandingkan dengan penelitian Yuliadinda et al. , yang menganalisis validitas tes keterampilan berpikir kreatif pada materi tekanan zat dengan Rasch Model, penelitian ini lebih unggul karena menerapkan berbagai parameter uji yang mampu menghasilkan validitas dan reliabilitas secara menyeluruh, serta mampu menggambarkan kemampuan siswa dan tingkat kesukaran butir soal yang digunakan. Sementara itu, penelitian tersebut hanya menerapkan 1 parameter uji saja, yaitu item fit yang hanya menggambarkan kesesuaian butir soal tanpa menggambarkan reliabilitas secara keseluruhan, tingkat kemampuan siswa, serta tingkat kesukaran butir soal. Penelitian lainnya seperti Lidinillah et al. , menunjukkan kesamaan dalam parameter uji yang diterapkan dalam analisis instrumen tes keterampilan berpikir kreatif, seperti unidimensionality, item fit, reliabilitas, variabel Wright maps. Differential Item Function (DIF), dan tingkat kemampuan siswa. Penelitian tersebut menghasilkan instrumen yang lebih tinggi (CronbachAos Alpha = 0,. dibandingkan dengan penelitian ini . , dan menggunakan sampel yang lebih luas, yakni 100 siswa dari 4 sekolah dasar. Hasil analisis penelitian ini memiliki relevansi penting dalam dunia pendidikan, yaitu dalam pengembangan instrumen yang lebih objektif dan adil untuk menguji keterampilan berpikir kreatif. Selain memastikan tingkat kesulitan yang beragam, uji Differential Item Function (DIF) mengungkapkan kecenderungan untuk membiaskan beberapa item terhadap kelompok tertentu, baik laki-laki maupun Oleh karena itu, penyesuaian diperlukan agar instrumen dapat digunakan secara lebih netral oleh semua siswa. Selain sebagai alat ukur, instrumen ini juga dapat berfungsi sebagai alat diagnostik dalam pembelajaran, membantu pendidik mengidentifikasi aspek-aspek keterampilan berpikir kreatif yang masih perlu ditingkatkan. Namun, penelitian ini memiliki keterbatasan pada jumlah sampel yang hanya mencakup 1 kelas dengan jumlah 34 siswa. Hal ini memungkinkan hasil yang diperoleh kurang efektif jika diaktualisasikan ke populasi dengan ukuran yang lebih besar. Selain itu, penelitian ini dilakukan hanya di sekolah tertentu. Dalam merumuskan pertanyaan, perlu memperhatikan kemungkinan bias dengan adanya faktor non-kognitif, seperti gaya bahasa atau konteks pertanyaan yang dapat mempengaruhi respon siswa terhadap pertanyaan. Oleh sebab itu, penelitian lebih lanjut perlu direalisasikan untuk mengatasi keterbatasan ini. Merujuk pada terbatasnya hasil penelitian ini, maka dihimbau untuk penelitian yang akan datang agar dapat mengembangkan serta menguji instrumen serupa pada sampel yang cukup luas dan lebih beragam agar instrumen dapat dipastikan kelayakannya dalam konteks pendidikan yang beragam pula. Kemudian, adanya bias butir soal terhadap gender agar lebih diperhatikan dan perlu diperbaiki agar dapat menunjukkan kesetaraan terhadap berbagai kelompok siswa. Selain itu, butir soal perlu dikembangkan secara inovatif, yang dapat mencakup pengetahuan berbasis teknologi dan proyek mengenai energi terbarukan, sehingga dapat menjadi alternatif dalam mengukur keterampilan berpikir kreatif siswa secara efektif. Analisis kualitatif melalui wawancara dengan siswa atau guru perlu dilakukan agar dapat memberikan wawasan lebih mendalam tentang faktor-faktor yang memengaruhi hasil data. Langkah-langkah ini memungkinkan penyempurnaan instrumen secara berkelanjutan untuk menilai dan meningkatkan keterampilan berpikir kreatif siswa secara lebih akurat di berbagai lingkungan belajar. Simpulan Hasil penelitian menggambarkan bahwa instrumen tes keterampilan berpikir kreatif pada materi energi terbarukan dinyatakan memiliki kualitas yang baik dilihat dari beberapa parameter uji Rasch Model. Hal ini dibuktikan dengan nilai raw variance explained by measures sebesar 46,9% dengan kriteria baik dan Beranda jurnal: https://jurnal. org/index. php/j-edu Rohmatika. , et al Jurnal EDUCATIO (Jurnal Pendidikan Indonesi. Vol. No. 1, 2025, pp. unexplained variance in 1st contrast sebesar 11,8% yang mengindikasikan bahwa instrumen dinyatakan unidimensionality atau instrumen secara objektif mengukur keterampilan berpikir kreatif sesuai harapan. Butir soal yang digunakan sebagian besar memiliki kesesuaian dengan Rasch Model, yaitu sebanyak 6 soal dari 12 soal yang dianalisis, yaitu karena memenuhi 3 kriteria outfit (MNSQ. ZTSD, dan Pt Measure Cor. yang mengindikasikan tiap butir soal tersebut layak digunakan dalam mengukur keterampilan berpikir kreatif siswa. Instrumen keterampilan berpikir kreatif ini memperoleh nilai CronbachAos Alpha sebesar 0,62, person reliability 0,49, dan item reliability 0,90 yang menunjukkan konsistensi instrumen yang cukup baik dalam mengukur keterampilan berpikir kreatif siswa dengan kualitas butir soal yang baik, meskipun konsistensi kemampuan siswa masih dikatakan lemah. Selain itu, hasil indeks separation (H) menggambarkan bahwa instrumen mampu membedakan kemampuan siswa menjadi 2 kelompok, serta butir soal terbagi menjadi 4 tingkat kesukaran. Butir soal instrumen tidak terdapat bias yang signifikan setelah dilakukan uji Differential Item Function (DIF). Meskipun terdapat 2 soal dengan nilai logit ekstrem, yaitu S1 dan S12 yang masing-masing mewakili indikator berpikir kreatif kelancaran . , serta elaborasi . , sehingga perlu dilakukan tinjauan ulang terhadap kedua butir soal tersebut. Berdasarkan hasil analisis, instrumen ini cukup valid dan reliabel untuk digunakan oleh pendidik sebagai alat ukur keterampilan berpikir kreatif siswa pada materi energi terbarukan dan diharapkan mampu memberikan gambaran mengenai keandalan Rasch Model dalam menganalisis instrumen tes. Rekomendasi untuk penelitian selanjutnya adalah mengembangkan lebih banyak butir soal yang mencakup indikator berpikir kreatif secara merata, melakukan uji coba instrumen pada sampel yang lebih luas dan beragam guna memperoleh hasil yang lebih akurat, serta mengombinasikan Rasch Model dengan pendekatan analisis lainnya, seperti analisis kualitatif terhadap respon siswa. Referensi