PSYCHE: Jurnal Psikologi Universitas Muhammadiyah Lampung Vol. 7 No. Agustus 2025 ISSN . ISSN . VALIDASI STRUKTUR INTERNAL DAN LATEN SUB-CLASS ACADEMIC SELFREGULATED LEARNING VERSI INDONESIA DENGAN RASCH MIXTURE MODEL VALIDATION OF INTERNAL STRUCTURE AND LATENT SUB-CLASSES OF THE INDONESIAN VERSION OF ACADEMIC SELF-REGULATED LEARNING SCALE USING THE MIXTURE RASCH MODEL Sandra Arviyenna. Ni Putu Rahayu Eka Putri. Ananta Yudiarso Universitas Surabaya sandraubaya@gmail. com, rahayuekaputri10@gmail. com, ananta@staff. ABSTRAK Penelitian ini bertujuan untuk menguji validitas menggunakan model Rasch dan Rasch Mixture pada skala Academic Self-Regulated Learning Scale (A-SRL-S) (Magno, 2. Metode penelitian menggunakan survei dengan non-random sampling melibatkan 401 Hasil penelitian menunjukkan unidimensionalitas pada skala A-SRL terpenuhi pada semua sub-skala setelah menggugurkan MS4. MS5. SA32. SA37. O53, dan O54, sehingga menjadi 48 item. Reliabilitas item pada semua sub-skala menunjukkan hasil yang sangat baik, sedangkan person reliability dan person separated index tidak reliabel dengan rentang 0. 79 dan PSI 0. Item misfit pada LR46, tidak sesuai dengan model Rasch. Responden mampu membedakan skala dari STS sampai SS. Pada analisis DIF, item LR44 dan LR46 menunjukkan bias gender dengan probabilitas Welch 0065 (LR. 0037 (LR. Wright map menunjukkan tingkat kesulitan item yang kurang mampu menjangkau responden dengan kemampuan tinggi. Pada analisis Rasch Mixture Model, sub-skala learning responsibility mendapati laten sub-class terdiri dari dua Implikasi temuan menunjukkan perlunya item misfit dan item multidimensi, renorming berdasarkan latent class, serta replikasi penelitian dengan partisipan yang lebih heterogen guna meningkatkan sensitivitas skala. Kata Kunci: A-SRL-S, analisis rasch, analisis rasch mixture ABSTRACT This study aims to examine the validity using the Rasch model and Rasch Mixture Model on the Academic Self-Regulated Learning Scale (A-SRL-S) by Magno . The research method employed a survey with non-random sampling with 401 respondents. The results indicate that the assumption of unidimensionality for the A-SRL scale is met for all subscales after the removal of items MS4. MS5. SA32. SA37. O53, and O54, leaving 48 items. Item reliability for all subscales showed excellent results, while person reliability and person separation index were not reliable, ranging from 0. 46 to 0. 79, with a PSI of 0. 92 to 1. Misfit item LR46 do not fit the Rasch Model. Respondents were able to distinguish the scale from strongly disagreed to strongly agreed. The DIF analysis revealed that items LR44 and LR46 exhibited gender bias, with Welch probabilities of 0. 0065 (LR. 0037 (LR. The Wright map showed that the item difficulty levels did not adequately reach respondents with high ability. In the Rasch Mixture Model analysis, the learning responsibility subscale exhibited a latent subclass consisting of two classes. The findings imply the need to revise misfit and multidimensional items, conduct renorming based on latent class, and replicate the study with a more heterogeneous sample to enhance the scaleAos sensitivity. Keywords: A-SRL-S, rasch analysis, rasch mixture analysis https://doi. org/10. 36269/psyche. PSYCHE: Jurnal Psikologi Universitas Muhammadiyah Lampung Vol. 7 No. Agustus 2025 ISSN . ISSN . PENDAHULUAN Self-regulated learning (SRL) telah muncul sebagai konsep penting dalam psikologi pendidikan, mencerminkan proses di mana peserta didik mengambil kendali atas pengalaman belajar mereka sendiri. Konsep A-SRL mencakup berbagai aspek, yaitu penetapan tujuan . oal settin. , tanggung jawab belajar . earning responsibilit. , evaluasi diri . elf evaluatio. , mencari bantuan . eeking assistanc. , strategi memori . emory strateg. , pengaturan lingkungan . nvironmental structurin. , dan pengorganisasian . (Zimmerman & Martinez-Pons, 1. Dimensi-dimensi ini sangat penting untuk mendorong pembelajaran mandiri dan keberhasilan akademik, karena memungkinkan peserta didik untuk mengelola strategi belajar mereka secara efektif. Validasi skala pengukuran yang menilai SRL sangatlah penting untuk penelitian maupun aplikasi praktis dalam lingkungan pendidikan. Magno . mengembangkan skala untuk mengukur SRL, yang didasarkan pada karya dasar Zimmerman dan Martinez-Pons . Skala ini bertujuan untuk menyediakan alat yang andal bagi pendidik dan peneliti dalam menilai keterampilan pengaturan diri siswa. Penelitian yang dilakukan oleh Magno . mengenai pengukuran self-regulated learning (SRL) menggunakan skala A-SRL telah diterapkan pada berbagai populasi dan konteks pendidikan. Magno . menganalisis struktur faktor skala ini menggunakan explanatory factor analysis (EFA) dan dikonfirmasi dengan confirmatory factor analysis (CFA). Selain itu model Polychotomous Rasch (Partial Credit Mode. digunakan untuk menguji apakah kategori dalam skala sudah sesuai dan apakah setiap item dalam skala berfungsi dengan baik. Analisis mengunakan Item Response Theory (IRT) menunjukkan bahwa skala ini memiliki urutan kategori yang logis dan sesuai dengan harapan, dengan kata lain step function meningkat secara pasti. Semakin tinggi skor responden, semakin besar peluang mereka memilih kategori yang lebih tinggi dalam skala. Namun, ditemukan 4 dari 55 item yang tidak konsisten dengan item lainnya, sehingga perlu dievaluasi lebih lanjut. Hasil penelitian menunjukkan item reliability yang tinggi untuk seluruh sub-skala (>0. Pada penelitian selanjutnya (Magno, 2. menguji validitas konstruk dari A-SRLS yang terdiri dari 7 sub-skala dan 54 item, dengan membandingkannya terhadap Motivated Strategies for Learning Quistionnaire (MLSQ) dan Learning and Study Strategies Inventory (LASSI). Studi ini dilakukan pada 755 mahasiswa di Filipina menggunakan https://doi. org/10. 36269/psyche. PSYCHE: Jurnal Psikologi Universitas Muhammadiyah Lampung Vol. 7 No. Agustus 2025 ISSN . 2655-6936 ISSN . 2686-0430 Confirmatory Factor Analysis (CFA). Hasil menunjukkan bahwa model tiga faktor, di mana A-SRL-S. MSLQ, dan LASSI dipisahkan sebagai tiga faktor yang berkorelasi, menunjukkan kecocokan terbaik dibandingkan model lainnya (X2=473. 47, df = 87. AIC = . Meskipun demikian, untuk meningkatkan relevansi dan akurasi pengukuran dalam konteks budaya Indonesia, diperlukan penelitian lanjutan yang lebih mendalam. Van de Vijver dan Leung . menunjukkan pentingnya menyesuaikan instrumen pengukuran untuk mengakomodasi perbedaan budaya, untuk memastikan bahwa instrumen yang digunakan dapat mengukur dengan tepat sesuai dengan makna dalam konteks budaya yang spesifik. Oleh karena itu, validasi lebih lanjut di Indonesia sangat Dengan demikian, penelitian lanjutan dapat memberikan bukti empirik yang lebih kuat untuk mendukung penggunaan skala ini dalam populasi Indonesia, yang pada akhirnya dapat meningkatkan akurasi dan keandalan pengukuran dalam penelitian psikologi di Indonesia. Satu dari beberapa pendekatan yang dapat digunakan dalam proses validasi ini ialah Rash Mixture Model (RMM) unidimensional untuk identifikasi perbedaan dalam respons partisipan berdasarkan kelompok laten yang memiliki pola pemahaman atau interpretasi berbeda terhadap item dalam skala (Rost, 1. Penelitian ini bertujuan untuk mengukur validitas dan reliabilitas A-SRL versi Indonesia yang telah diterjemahkan oleh Andiani . Validasi instrumen pengukuran dalam penelitian psikologi dan pendidikan memperhatikan American Educational Research Association (AERA). American Psychological Association (APA), dan National Council on Measurement (NCME). Standar ini menekankan pentingnya menilai kualitas praktik pengujian, dengan validitas sebagai bukti dan teori yang mendukung interpretasi hasil tes (Sireci & Faulkner-Bond, 2. Validitas dapat dikaji dari berbagai aspek, termasuk isi item, proses respons, struktur internal, hubungan dengan variabel lain, serta dampak pengukuran. Penelitian ini menggunakan Rasch unidimensional model, yang mengasumsikan bahwa hanya satu faktor utama yang memengaruhi respon individu terhadap suatu Keunggulannya terletak pada kemampuannya menghasilkan skala pengukuran yang konsisten dan memungkinkan perbandingan langsung antarindividu meskipun menggunakan soal yang berbeda (Wright & Linacre, 1. Selain itu. Rasch Mixture Model (RMM) dapat digunakan untuk mengidentifikasi subkelompok laten dalam populasi yang memiliki pola respons berbeda meskipun menggunakan instrumen yang https://doi. org/10. 36269/psyche. PSYCHE: Jurnal Psikologi Universitas Muhammadiyah Lampung Vol. 7 No. Agustus 2025 ISSN . 2655-6936 ISSN . 2686-0430 Oleh karena itu, kombinasi Model Rasch dan RMM diharapkan dapat meningkatkan ketepatan pengukuran dan memastikan instrumen dapat digunakan secara lebih akurat dalam berbagai konteks budaya. METODE PENELITIAN Desain Penelitian Validasi psikometri ini dilakukan dengan pendekatan kuantitatif melalui Rasch Model dan Rasch Mixture Model pada skala Academic Self-Regulated Learning versi Indonesia. Penelitian ini disusun untuk mengevaluasi konsistensi dan kemampuan skala dalam mengukur kemampuan self-regulated learning secara akurat dan adil, memastikan bahwa skala ini mengukur satu aspek utama, serta mengidentifikasi apakah terdapat kelompok-kelompok peserta dengan pola jawaban yang berbeda. Partisipan Ukuran sampel dalam analisis Rasch dipengaruhi oleh prinsip kalibrasi instrumen. Ketika suatu instrumen dikalibrasi pada sampel yang berbeda dari peserta yang sama, perbedaan hasil kecil bisa saja terjadi (Linacre, 1. Jika ukuran sampel terlalu kecil, hasil kalibrasi menjadi tidak stabil dan kurang mampu mencerminkan kondisi yang sebenarnya (Wright & Stone, 1. Sebaliknya, ukuran sampel yang besar dapat mengurangi perbedaan dalam hasil kalibrasi, tetapi memerlukan waktu dan biaya yang lebih besar (Linacre, 1. Menurut Linacre . , untuk mendapatkan hasil analisis Rasch yang reliabel dengan tingkat kepercayaan 99% diperlukan ukuran sampel antara 108 hingga 243 responden. Sample size kalkulator digunakan pada pengambilan sampel pada penelitian ini, yang terdapat dalam Raosoft. Populasi diasumsikan sebanyak 000 dengan taraf kepercayaan 95% dan margin of error 5%, didapatkan sampel subjek minimal 377 orang. Penelitian ini melibatkan 401 responden yang terdiri dari 111 laki-laki dan 290 Seluruh responden adalah mahasiswa aktif semester 5 dan 7 dipilih dengan teknik non-random sampling dengan subjek dipilih berdasarkan karakteristik tertentu tanpa peluang yang sama untuk seluruh anggota populasi (Fraenkel et al. , 2. Teknik ini menggunakan convenience sampling, yaitu pemilihan responden yang mudah dijangkau dan bersedia berpartisipasi dalam penelitian (Etikan. Musa, & Alkassim, 2. https://doi. org/10. 36269/psyche. PSYCHE: Jurnal Psikologi Universitas Muhammadiyah Lampung Vol. 7 No. Agustus 2025 ISSN . 2655-6936 ISSN . 2686-0430 Instrumen Peneliti menggunakan instrumen Academic Self-Regulated of Learning Scale (A-SRLS) versi Indonesia yang berjumlah 54 item. Aspek yang diukur mencakup penetapan tujuan . oal settin. , tanggung jawab belajar . earning responsibilit. , evaluasi diri . elf evaluatio. , mencari bantuan . eeking assistanc. , strategi memori . emory strateg. , . Setiap pernyataan dalam skala ini diukur menggunakan skala Likert dengan empat opsi jawaban, yaitu 1 untuk sangat tidak setuju, 2 untuk tidak setuju, 2 untuk setuju, dan 4 untuk sangat setuju. Tabel 1. Blueprint Academic Self-Regulated of Learning Scale (A-SRL-S) Aspek Item Coding MS1 MS2 MS3 MS4 MS5 Memory Strategy MS6 MS7 MS8 MS9 MS10 MS11 MS12 MS13 MS14 GS15 GS16 GS17 Goal Setting GS18 GS19 SE20 SelfEvaluation SE21 SE22 SE23 Item Saya menggunakan catatan kecil untuk menuliskan informasi yang perlu saya ingat Saya membuat daftar informasi berdasarkan kategori Saya menulis ulang catatan kuliah saya dengan kata-kata saya sendiri Saya menggunakan gambar, skema, dan bagan untuk memahami informasi yang tidak jelas . Saya menggunakan simbol . ambar, skema, bagan, dl. agar saya mudah mengingatnya Saya membuat rangkuman bacaan saya Saya membuat rangkuman sebagai panduan saya belajar Saya membuat rangkuman semua topik yang akan dijelaskan di kelas Saya membayangkan suatu kata untuk mengingat sesuatu Saya membaca jawaban pertanyaan terkait topik tertentu Saya mencatat materi perkuliahan yang saya ikuti Saya menjawab contoh pertanyaan yang saya buat dari topik Saya membaca catatan saya saat belajar untuk ujian Saya menulis catatan untuk mengingatkan saya untuk mengerjakan Saya membuat jadwal aktivitas saya dengan detail Saya membuat daftar aktivitas yang harus diselesaikan Saya merencanakan apa yang harus saya lakukan dalam 1 minggu Saya menggunakan buku catatan untuk mengetahui apa yang harus saya kerjakan Saya menggunakan kalender untuk mengetahui apa yang harus saya Jika saya mengalami kesulitan dalam belajar, saya meminta bantuan dari orang yang lebih pintar Saya menerima masukan dari teman terhadap hasil kerja saya Saya mengevaluasi kesuksesan saya setiap akhir belajar Saya meminta teman memberi komentar mengenai hasil tugas saya sebelum saya menyerahkannya ke dosen https://doi. org/10. 36269/psyche. PSYCHE: Jurnal Psikologi Universitas Muhammadiyah Lampung Vol. 7 No. Agustus 2025 ISSN . ISSN . SE24 SE25 SE26 SE27 SE28 SE29 SE30 SE31 SA32 SA33 Seeking Assistance SA34 SA35 SA36 SA37 SA38 SA39 ES40 Environmental Structuring ES41 ES42 ES43 LR44 LR45 Learning Responsibility LR46 LR47 LR48 O49 O50 Organizing O51 O52 O53 O54 Saya mencatat perkembangan kemajuan yang saya alami Saya memeriksa kemajuan saya dalam mengerjakan sesuatu Saya menanyakan pendapat orang lain yang lebih pintar mengenai hasil kerja saya Saya mendengarkan orang yang mengomentari tugas saya Saya terbuka dengan masukan orang lain untuk mengembangkan tugas saya menjadi lebih baik Saya melihat kembali nilai-nilai tugas, ujian dsb sebelumnya untuk melihat perkembangan saya Saya bertanya pada orang lain apa yang harus saya perbaiki dalam tugas saya Saya mau berubah berdasarkan saran atau masukan dari orang lain Saya menggunakan beberapa sumber yang berbeda . uku, jurnal, penelitian orang lain, ds. dalam membuat laporan atau makalah Saya menggunakan perpustakaan untuk mencari informasi yang saya Saya menulis catatan perkuliahan saya di kelas Saya suka bekerja sama dengan teman karena kami saling membantu Ketika saya tidak masuk kuliah, saya bertanya pada teman mengenai tugas yang diberikan dosen pada hari itu Saya mencari teman yang bisa saling berdiskusi Saya belajar dengan teman untuk membandingkan catatan kuliah Saya menjelaskan pada teman apa yang telah saya pelajari dari topik Saya tidak menonton TV . ermasuk video, youtube, ds. saat ada tugas kuliah Saya menghindari tempat yang mengganggu saya belajar Saya tidak bisa belajar atau mengerjakan tugas bila ruangannya tidak Saya mematikan TV . ermasuk video, youtube, ds. agar bisa berkonsentrasi belajar Saya memeriksa ulang tugas saya untuk memastikan semuanya benar sebelum mengumpulkannya Saya langsung mengerjakan tugas yang diberikan dosen Saya cemas dengan batas waktu pengumpulan tugas yang ditetapkan Saya mendahulukan tugas perkuliahan saya daripada aktivitas Saya menyelesaikan tugas saya sebelum mengerjakan yang lain Saya memberikan stabilo atau menggarisbawahi kata atau informasi penting dalam bacaan saya Saya membayangkan bentuk ujian yang akan datang berdasarkan ujian sebelumnya Saya menyimpan catatan dan catatan kuliah lama saya di tempat Saya belajar sesuai kemampuan maksimal yang saya mampu Saya merapikan barang-barang di sekitar tempat belajar sebelum mulai belajar Saya memastikan tempat belajar saya bersih sebelum mulai belajar https://doi. org/10. 36269/psyche. PSYCHE: Jurnal Psikologi Universitas Muhammadiyah Lampung Vol. 7 No. Agustus 2025 ISSN . 2655-6936 ISSN . 2686-0430 Analisis Data Data yang telah dikumpulkan dianalisis menggunakan software WinstepsA Rasch Measurement versi 5. 0 untuk menganalisis Rasch Model dan Jamovi untuk menganalisis Rasch Mixture Model (RMM). Analisis data dilakukan dengan menggunakan Rasch Model untuk menghasilkan informasi holistik yang mencakup uji unidimensionalitas, rating scale, reliability, item fit, wright map, dan differential item functioning. Statistik fit diterapkan untuk menilai sejauh mana data mendukung model Rasch, berdasarkan nilai infit MNSQ dan outfit MNSQ di mana idealnya berada pada rentang 0,5 hingga 1,5. Model Rasch memungkinkan kemampuan individu dan tingkat kesulitan item untuk dinyatakan dalam suatu skala logaritmik yang sama, yaitu skala logit, sehingga mendukung pengukuran yang objektif (Bond & Fox, 2. Model Rasch mampu memberikan estimasi yang lebih stabil pada data tes, mampu mengidentifikasi item-item yang tidak berfungsi sebagaimana mestinya . isfitting item. , serta memastikan unidimensionality, yaitu bahwa tes hanya mengukur satu konstruk utama. Jamovi versi 2. 28 digunakan untuk menganalisis Rasch Mixture Model (RMM), yang membantu mengidentifikasi subkelompok tersembunyi dalam data dan memberikan pemahaman lebih mendalam tentang variasi respons antar kelompok (The Jamovi Project, 2. Penggunaan kedua software ini memastikan analisis yang lebih komprehensif dan akurat dalam memvalidasi skala A-SRL versi Indonesia. HASIL PENELITIAN Unidimensionalitas Analisis dalam penelitian ini dilakukan secara terpisah untuk setiap aspek dalam ASRL-S. Setiap sub skala diuji unidimensionalitasnya dengan mengacu pada varians mentah yang dijelaskan oleh pengukuran, menggunakan kriteria yang ditetapkan oleh Rasch Principal Component Analysis of Residuals (PCAR). Linacre . menyatakan bahwa varians yang dijelaskan sebesar 40% dapat diterima sebagai indikator unidimensionalitas, dengan syarat nilai eigenvalue dari first contrast tidak melebihi 2. Nilai eigenvalue yang melebihi 2. 0 mengindikasikan adanya kemungkinan dimensi tambahan yang dapat memengaruhi hasil pengukuran. Pada raw variance explained by measure dari 54 item A-SRL-S, diperoleh nilai subskala GS. SE. ES, dan O yang berada >40%. Namun, sub-skala MS . 9%). SA . dan O . 9%) masih kurang memenuhi ambang batas minimal, sehingga kontribusinya https://doi. org/10. 36269/psyche. PSYCHE: Jurnal Psikologi Universitas Muhammadiyah Lampung Vol. 7 No. Agustus 2025 ISSN . 2655-6936 ISSN . 2686-0430 terhadap dimensi utama perlu diperhatikan lebih lanjut. Peneliti melakukan penghapusan item MS4. MS5. SA32. SA37. O53, dan O54 dengan melihat residual loadings for item yang bernilai >0. Setelah dilakukan pengguguran item, pada Tabel 2 menunjukkan bahwa semua sub-skala unidimensional dengan 48 item. Selanjutnya, akan dilakukan analisis lanjutan menggunakan 48 item. Tabel 2. Unidimensionalitas Raw Variance Explained by Measure (>40%) First Contrast (<2. Item Deleted Kesimpulan MS4. MS5 Unidimensional Goal Setting (GS) Unidimensional Self Evaluation (SE) Unidimensional SA32. SA37 Unidimensional Unidimensional Unidimensional O53. O54 Unidimensional Sub-skala Memory Strategy (MS) Seeking Assistance (SA) Environmental Structuring (ES) Learning Responsibility (LS) Organizing (O) Berdasarkan scree plot dari dimensi A-SRL. Memory Strategy dan Goal Setting menunjukkan pola unidimensional, dengan satu komponen utama yang dominan dan penurunan tajam setelahnya. Hal ini mengindikasikan bahwa item-item dalam kedua dimensi tersebut cenderung mengukur satu konstruk inti. Sementara itu, dimensi Self Evaluation. Seeking Assistance. Environmental Structuring, dan Learning Responsibility menunjukkan kecenderungan multidimensional, karena memiliki lebih dari satu komponen dengan eigenvalue yang masih signifikan. Pola ini mengisyaratkan bahwa setiap dimensi tersebut memuat beberapa aspek berbeda yang turut berkontribusi dalam pembentukan konstruk utamanya. https://doi. org/10. 36269/psyche. PSYCHE: Jurnal Psikologi Universitas Muhammadiyah Lampung Vol. 7 No. Agustus 2025 ISSN . 2655-6936 ISSN . 2686-0430 Memory Strategy Goal Setting Seeking Assistance Environmental Structuring https://doi. org/10. 36269/psyche. Self Evaluation Learning Responsibility PSYCHE: Jurnal Psikologi Universitas Muhammadiyah Lampung Vol. 7 No. Agustus 2025 ISSN . 2655-6936 ISSN . 2686-0430 Organizing Gambar 1. Scree Plot A-SRL Rating Scale Diagnostic Skala penilaian yang digunakan dalam A-SRL-S adalah skala likert dengan empat poin yang terdiri dari Ausangat tidak setujuAy . Autidak setujuAy . AusetujuAy . , dan Ausangat setujuAy . Diagnostik skala penilaian dilakukan untuk menilai apakah responden mampu membedakan pilihan jawaban yang disediakan. Hasil analisis ini memberikan informasi yang lebih akurat dan mudah dipahami terkait konstruk yang diukur, karena peneliti dapat mengidentifikasi jarak aktual yang digunakan oleh responden saat menentukan pilihan. Andrich Threshold adalah nilai ambang batas dalam model Rasch yang menunjukkan titik transisi antara satu kategori respons ke kategori berikutnya dalam skala pengukuran (Andrich, 1. Berdasarkan Tabel 3, nilai Andrich threshold semua sub-skala menunjukkan ambang batas yang meningkat secara bertahap dari negatif ke positif dari empat opsi respons (Linacre, 2. Hal ini menunjukkan bahwa responden mampu membedakan satu jawaban dengan jawaban lainnya. https://doi. org/10. 36269/psyche. PSYCHE: Jurnal Psikologi Universitas Muhammadiyah Lampung Vol. 7 No. Agustus 2025 ISSN . 2655-6936 ISSN . 2686-0430 Tabel 3. Rating Scale Diagnostics A-SRL-S Sub-scale Memory Strategy Goal Setting Self Evaluation Seeking Assistance Environmental Structuring Learning Responsibility Organizing Rating Scale STS STS STS STS STS STS STS Average Measure Infit MNSQ Outfit MNSQ Andrich Threshold NONE NONE NONE NONE NONE NONE NONE Reliabilitas Model Rasch digunakan untuk menilai reliabilitas baik pada responden maupun pada item. Kemampuan instrumen dalam membedakan responden berdasarkan variabel yang diukur disebut person reliability. Nunnally & Bernstein . menyatakan nilai reliabilitas minimal 0. 8 disarankan terutama untuk keperluan evaluatif serta diagnostik, karena memberikan dasar yang lebih kuat dalam pengambilan keputusan. Nilai CronbachAos di atas 0. 8 menunjukkan konsistensi internal yang tinggi, sehingga mengurangi kesalahan pengukuran dan meningkatkan validitas data (Gliem & Gliem. Standar ini sangat penting, khususnya dalam penelitian di bidang psikologi klinis atau pendidikan, di mana hasil yang akurat sangat menentukan interpretasi data (Streiner, 2. Meskipun nilai 0. 7 masih dapat diterima dalam penelitian eksploratif https://doi. org/10. 36269/psyche. PSYCHE: Jurnal Psikologi Universitas Muhammadiyah Lampung Vol. 7 No. Agustus 2025 ISSN . 2655-6936 ISSN . 2686-0430 (Hair et al. , 2. , namun reliabilitas 0. 8 dianggap lebih ideal karena menawarkan tingkat kepercayaan yang lebih tinggi terhadap stabilitas alat ukur. Oleh karena ini, dengan mempertahankan reliabilitas pada angka 0. 8 berkontribusi pada peningkatan validitas, kredibilitas temuan, dan juga mengurangi potensi bias dalam analisis. Tabel 4 menunjukkan nilai CronbachAos untuk semua sub-skala A-SRL berada di 8, yang menunjukkan konsistensi internal yang tinggi dalam mengukur konstruk yang dimaksud. Menurut Nunnally & Bernstein . , nilai reliabilitas sebesar >0. dianggap memadai untuk instrumen yang digunakan dalam konteks pengukuran Namun, reliabilitas person pada seluruh sub-skala tidak reliabel. Reliabilitas person yang rendah menunjukkan bahwa perbedaan kemampuan individu tidak dapat diestimasi secara akurat. Selain itu, item separation index menunjukkan bahwa seluruh sub-skala memiliki nilai di atas 2. 0, yang berarti instrumen memiliki kemampuan yang memadai untuk membedakan secara statistik antara peserta dengan performa tinggi dan rendah (Linacre, 2. Person separation index seluruh sub-skala tidak memenuhi kriteria ideal . yang berarti bahwa instrumen belum cukup andal untuk membedakan individu berdasarkan tingkat kemampuannya secara bermakna (Linacre, 2. Sedangkan strata pada seluruh sub-skala berada di bawah 3. 0 yang menunjukkan bahwa instrumen belum mampu membedakan secara jelas tiga kelompok performa . endah, sedang, tingg. secara statistik. Tabel 4. Reliability Skala A-SRL Person Reliability (>. Alpha Cronbach (>. Item Separation Index (>2. Person Separation Index (>2. Strata (>3. Subskala 1:MS 12 item Subskala 2: 5 item Subskala 3: 12 item Subskala 4: 6 item Subskala 5:ES 4 item Subskala 6: 5 item Subskala 7: O 4 item Item Misfit Item misfit dalam Rasch Model mengacu pada sejauh mana respon responden terhadap item, sesuai dengan model Rasch yang diharapkan secara teoretis. Evaluasi item fit penting untuk menentukan apakah suatu item dalam instrument pengukuran https://doi. org/10. 36269/psyche. PSYCHE: Jurnal Psikologi Universitas Muhammadiyah Lampung Vol. 7 No. Agustus 2025 ISSN . 2655-6936 ISSN . 2686-0430 berfungsi dengan baik dalam mengukur konstruk yang sama secara konsisten. Rasch Model menganalisis efektivitas setiap item dengan memperhatikan nilai Infit MNSQ. Outfit MNSQ, dan korelasi point-measure. Menurut Linacre, nilai MNSQ ideal untuk infit dan outfit berada di antara 0. 5 sampai 1. Nilai ZSTD . tandardized z-scor. ideal berada di rentang A2. 0 untuk menunjukkan kecocokan item yang baik (Sumintono & Widhiarso. Item dengan nilai di luar rentang tersebut menunjukkan anomali yang memerlukan perhatian lebih. Sedangkan korelasi point-measure yang mengacu pada hubungan antara kemampuan responden dan tingkat kesulitan item, dikatakan baik apabila hasilnya berada pada rentang 0. 4 hingga 0. 85 (Sumintono, 2. Tabel 5 menunjukkan bahwa item SE 20. SA33. ES42, dan LR 46 tergolong misfit karena nilai infit dan outfit melebihi batas 2. Nilai ZSTD yang tinggi menunjukkan kontribusi item yang kurang sesuai terhadap model (Bond & Fox, 2. Sedangkan item SE22. SE27. SE30. SA38. SA39. ES40. ES43. LR45. LR47, dan LR48 dikategorikan overfit karena nilai ZTD berada di bawah -2. Hal ini menunjukkan adanya inkonsistensi dalam pola respons yang dapat mengindikasikan item tidak berfungsi dengan baik dalam mengukur konstruk yang dimaksud (Linacre, 2. LR46 memiliki Infit dan Outfit MNSQ 63 dengan ZSTD 7. 7, yang menunjukkan tingkat misfit yang tinggi dan item yang tidak sesuai dengan model pengukuran atau memiliki interpretasi yang berbeda di antara responden (Linacre, 2. Sementara itu. LR47 dan LR48 memiliki infit dan outfit ZSTD -4. 1 dan -4. 2, menunjukkan bahwa item ini terlalu mudah bagi responden atau kurang memberikan informasi diskriminatif yang cukup (Zumbo, 2. Dalam analisis Rasch, nilai ZSTD yang berada di luar rentang -2. 0 Ae 2. 0 dapat diabaikan jika nilai MNSQ dan Point Measure Correlation berada dalam batas wajar, karena ZSTD sangat sensitif terhadap ukuran sampel (Sumintono & Widhiarso, 2. Dengan demikian, item LR46 perlu dikaji ulang untuk memastikan kesesuaian dengan model pengukuran, karena selain nilai ZSTD yang berada di luar rentang batas, nilai infit dan outfit MNSQ juga berada di atas 1. 5, sedangkan item lainnya dapat dinyatakan sesuai dengan model. https://doi. org/10. 36269/psyche. PSYCHE: Jurnal Psikologi Universitas Muhammadiyah Lampung Vol. 7 No. Agustus 2025 ISSN . 2655-6936 ISSN . 2686-0430 Tabel 5. Item Misfit Item Measure Infit MNSQ MS9 MS1 MS12 MS2 MS13 MS14 MS3 MS10 MS11 MS8 MS6 MS7 GS19 GS17 GS16 GS18 GS15 SE20 SE24 SE31 SE21 SE29 SE26 SE28 SE23 SE25 SE22 SE27 SE30 SA33 SA36 SA34 SA35 SA38 SA39 ES42 ES41 ES43 ES40 LR46 LR44 LR45 LR47 LR48 O49 O51 O50 O52 https://doi. org/10. 36269/psyche. Outfit MNSQ Infit ZSTD Outfit ZSTD Point Measure Correlation PSYCHE: Jurnal Psikologi Universitas Muhammadiyah Lampung Vol. 7 No. Agustus 2025 ISSN . 2655-6936 ISSN . 2686-0430 Wright Map Validitas konstruk dapat dianalisis dan divisualisasikan menggunakan Wright Map yang diterapkan dalam model Rasch. Wright Map, atau yang juga dikenal sebagai ItemPerson Map, memberikan representasi grafis yang memadukan tingkat kemampuan responden dengan tingkat kesulitan item dalam satu skala logit yang sama (Boone. Staver, & Yale, 2. Dalam Wright Map, kemampuan responden ditempatkan pada sisi kiri, sedangkan tingkat kesulitan item terletak di sisi kanan. Tingkat kesulitan item ditampilkan dalam urutan dari yang paling mudah di bagian bawah hingga yang paling sulit di bagian atas. Hal ini memungkinkan peneliti untuk memeriksa apakah tingkat kemampuan responden tersebar secara merata di sepanjang skala, serta apakah terdapat kecocokan antara kemampuan responden dengan kesulitan item yang diukur (Linacre, 2. Dengan kata lain. Wright Map tidak hanya membantu mengevaluasi sejauh mana item mencerminkan konstruk yang diukur, tetapi juga memberikan gambaran tentang sejauh mana item tersebut mampu membedakan individu dengan kemampuan yang berbeda. Pemetaan ini juga bermanfaat untuk mengidentifikasi item yang mungkin tidak sesuai dengan kemampuan mayoritas responden, seperti item yang terlalu mudah atau terlalu sulit. Selain itu. Wright Map dapat digunakan untuk mendeteksi item yang mungkin memerlukan revisi, terutama jika item tersebut tidak berfungsi sebagaimana mestinya atau tidak memberikan informasi yang cukup pada tingkat kemampuan tertentu (Bond & Fox, 2. Gambar 2 menunjukkan bahwa skala A-SRL memiliki tingkat kesulitan item yang kurang merata. Item lebih banyak mengukur responden dengan kemampuan rendah hingga sedang, serta kurang mampu mengukur responden dengan kemampuan yang Ketidakmerataan tingkat kesulitan item menunjukkan bahwa skala lebih terfokus pada kelompok responden dengan kemampuan rendah hingga sedang. Instrumen dapat memberikan informasi yang baik untuk responden pada tingkat kemampuan ini, tetapi kurang efektif untuk menilai responden dengan kemampuan tinggi. Selain itu, kurangnya item yang menargetkan kemampuan tinggi menciptakan kesenjangan dalam pengukuran, sehingga skala tidak mampu membedakan antara responden dengan tingkat kemampuan tinggi. Dalam konteks validitas konstruk, skala belum sepenuhnya representatif untuk seluruh dimensi atau variasi dari konstruk yang diukur. https://doi. org/10. 36269/psyche. PSYCHE: Jurnal Psikologi Universitas Muhammadiyah Lampung Vol. 7 No. Agustus 2025 ISSN . 2655-6936 ISSN . 2686-0430 Memory Strategy Goal Setting Environmental Structuring Self Evaluation Learning Responsibility Seeking Assistance Organizing Gambar 2. Wright Map Skala A-SRL Versi Indonesia https://doi. org/10. 36269/psyche. PSYCHE: Jurnal Psikologi Universitas Muhammadiyah Lampung Vol. 7 No. Agustus 2025 ISSN . 2655-6936 ISSN . 2686-0430 Differential Item Functioning Analisis Differential Item Functioning (DIF) bertujuan untuk mengidentifikasi dan mengevaluasi apakah terdapat perbedaan pola respons antar sub-kelompok dalam sampel yang memiliki tingkat karakteristik serupa terhadap konstruk yang diukur (Zumbo, 1. DIF mengukur apakah item tertentu dalam instrumen cenderung memberikan keuntungan atau kerugian kepada kelompok tertentu, sehingga dapat digunakan untuk memastikan keadilan dan validitas instrumen dalam populasi yang heterogen (Penfield & Camilli, 2. Dalam penelitian ini, sub-kelompok dibedakan berdasarkan jenis kelamin, yaitu laki-laki dan perempuan. DIF dianalisis menggunakan metode item trait chi-square sebagaimana dijelaskan oleh Linacre . Metode ini menggunakan pendekatan berbasis Rasch, yang secara khusus mengevaluasi apakah parameter item, seperti tingkat kesulitan, berbeda antara sub-kelompok. Item yang memiliki nilai probabilitas kurang dari 0,05 dianggap menunjukkan bias signifikan, yang berarti item tersebut memperlakukan kelompok secara tidak adil (Linacre, 2. Selain itu, teknik DIF dapat memberikan wawasan tentang sejauh mana item berfungsi secara seragam di seluruh Bias pada item dapat merusak interpretasi hasil pengukuran, sehingga mendeteksi dan mengeliminasi item bias merupakan langkah penting dalam pengembangan instrumen yang valid dan adil (Holland & Wainer, 1. Teknik ini juga relevan dalam konteks pengujian berbasis kelompok yang beragam, seperti pendidikan, psikologi, atau survei populasi umum, untuk memastikan bahwa hasil tidak terpengaruh oleh perbedaan sub-kelompok non-konstruk (Clauser & Mazor, 1. Selain metode item trait chi-square sebagaimana dijelaskan oleh Linacre . , terdapat pendekatan lain yang sering digunakan dalam analisis DIF berbasis Rasch, seperti WelchAos t-test dan Mantel-Haenszel test. WelchAos t-test membandingkan perbedaan estimasi DIF contrast antara dua kelompok dengan mempertimbangkan varians yang tidak sama. Jika nilai t menunjukkan signifikansi . < 0. , maka item tersebut memiliki perbedaan yang signifikan antar kelompok dan berpotensi bias (Zumbo, 1. Sementara itu. Mantel-Haenszel test mengevaluasi rasio peluang dari kemungkinan menjawab benar antara kelompok dengan tingkat kemampuan setara. Jika nilai chi-square menunjukkan signifikansi . < 0. , maka item dianggap memiliki DIF yang signifikan (Mantel & Haenszel, 1. Dengan menggunakan kedua metode ini, peneliti dapat mengidentifikasi item yang berfungsi secara tidak adil dan https://doi. org/10. 36269/psyche. PSYCHE: Jurnal Psikologi Universitas Muhammadiyah Lampung Vol. 7 No. Agustus 2025 ISSN . 2655-6936 ISSN . 2686-0430 mempertimbangkan revisi atau eliminasi item untuk meningkatkan validitas instrumen (Penfield & Camilli, 2. Berdasarkan temuan dari hasil analisis DIF yang dilakukan untuk menguji bias gender, diperoleh probabilitas (Welc. 0065 pada item LR44 (Ausaya memeriksa ulang tugas saya untuk memastikan semuanya benar sebelum mengumpulkannyaA. , dan 0038 pada item LR46 (AuSaya cemas dengan batas waktu pengumpulan tugas yang ditetapkan dosenA. Hal ini mengindikasikan adanya perbedaan interpretasi antara lakilaki dan perempuan dalam memahami item LR44 dan LR46. Selain itu, pada probability Mantel-Haenzel, hanya item LR44 saja yang mengalami bias gender . <0. Laki-laki cenderung memilih skala penilaian yang lebih tinggi dibandingkan perempuan, sedangkan pada item LR46, perempuan cenderung memilih skala penilaian yang lebih tinggi dibandingkan laki-laki. Oleh karena itu, perlu kehati-hatian dalam menggunakan item LR44 dan LR46 karena terdapat kecenderungan untuk bias gender. Tabel 6. Differential Item Functioning Item LS44 LS46 Probability (Welc. Probability (Mantel-Haenze. Rasch Mixture Model Rasch Mixture Model (RMM) dalam penelitian ini digunakan untuk mengidentifikasi heterogenitas data dengan mengelompokkan individu ke dalam kelas-kelas laten. Model ini sangat efektif dalam menganalisis data yang memiliki populasi responden yang tidak homogen, memungkinkan peneliti untuk mengungkap pola-pola tersembunyi berdasarkan karakteristik responden. Dengan demikian. RMM memberikan pemahaman yang lebih dalam mengenai hubungan antara item dan pola respons, serta kelompok-kelompok memengaruhi hasil analisis (Rost, 1. Fit indices digunakan untuk mengevaluasi kecocokan model ini. Salah satunya adalah Akaike Information Criterion (AIC), yang mengukur keseimbangan antara kecocokan model dan kompleksitasnya. AIC memberikan penalti terhadap jumlah parameter yang digunakan, sehingga nilai AIC yang lebih rendah menunjukkan model yang lebih optimal dalam menjelaskan data tanpa overfitting (Burnham & Anderson. Selain itu. Bayesian Information Criterion (BIC) bekerja dengan cara serupa, tetapi https://doi. org/10. 36269/psyche. PSYCHE: Jurnal Psikologi Universitas Muhammadiyah Lampung Vol. 7 No. Agustus 2025 ISSN . 2655-6936 ISSN . 2686-0430 memberikan penalti yang lebih besar terhadap kompleksitas model, khususnya pada ukuran sampel besar, sehingga lebih konservatif dalam menentukan model terbaik. Nilai BIC yang lebih rendah menunjukkan bahwa model memiliki keseimbangan yang baik antara kecocokan data dan kesederhanaan struktur model (Schwarz, 1. Selanjutnya. Consistent Akaike Information Criterion (CAIC) menawarkan pendekatan lebih ketat dibandingkan AIC dan BIC, dengan memberikan penalti tambahan pada kompleksitas model untuk menjaga konsistensi, terutama pada sampel besar. Hal ini menjadikan CAIC sebagai indeks yang sangat selektif dalam memilih model yang optimal (Bozdogan, 1. Log-likelihood (LL), yang juga digunakan, mengukur seberapa baik model memprediksi data yang diamati. Nilai LL yang lebih tinggi atau mendekati nol menunjukkan kemampuan prediksi model yang lebih baik. Namun. LL sering digunakan bersama indeks lainnya, seperti AIC. BIC, dan CAIC, untuk memberikan penilaian komprehensif terhadap model (Christensen et al. , 2. Berdasarkan Tabel 7, diketahui bahwa aspek learning responsibility lebih optimal dengan model dua kelas karena menunjukkan penurunan nilai AIC. BIC, dan CAIC, serta peningkatan log-likelihood, yang mencerminkan kemampuan model untuk menangkap heterogenitas responden secara lebih baik (Burnham & Anderson, 2004. Schwarz, 1. Sementara itu, pada aspek seeking assistance, memory strategy, self-evaluation dan environmental structuring, meskipun nilai AIC menurun pada model dua kelas, terjadi kenaikan nilai BIC dan CAIC yang berarti bahwa penalti terhadap kompleksitas model menyebabkan model dua kelas menjadi kurang optimal dibandingkan model satu kelas (Bozdogan, 1. Oleh karena itu, model satu kelas dipilih untuk aspek-aspek ini, karena lebih sederhana dan efisien dalam menggambarkan data. Lebih lanjut, pada aspek goal setting dan organizing, terjadi peningkatan nilai AIC. BIC, dan CAIC pada model dua kelas, yang mengindikasikan bahwa model satu kelas lebih Peningkatan nilai tersebut menunjukkan bahwa model dua kelas tidak memberikan keunggulan signifikan dalam memprediksi data, tetapi menambah kompleksitas model sehingga kurang efisien dibandingkan model satu kelas (Schwarz. Dalam penerapan analisis model laten sub-class, penurunan AIC dan BIC sering digunakan sebagai indikator untuk menambahkan laten sub-class, terutama jika BIC menunjukkan penurunan karena sifatnya lebih konservatif. Jika kedua kriteria tersebut mengalami penurunan, hal ini semakin menguatkan bukti bahwa penambahan laten sub- https://doi. org/10. 36269/psyche. PSYCHE: Jurnal Psikologi Universitas Muhammadiyah Lampung Vol. 7 No. Agustus 2025 ISSN . 2655-6936 ISSN . 2686-0430 class meningkatkan kualitas model. BIC direkomendasikan sebagai kriteria utama karena kemampuannya mencegah overfitting dengan memilih model yang lebih sederhana (Nylund et al. , 2. Oleh karena itu, penilaian penambahan laten sub-class sebaiknya berfokus pada penurunan AIC dan BIC, dengan perhatian khusus pada BIC. Dengan demikian, berdasarkan analisis Rasch Mixture Model, diperoleh kesimpulan bahwa aspek Learning Responsibility terdapat laten sub-class yang terdiri dari dua kelas, sementara aspek lainnya tidak terdapat laten sub-class. Tabel 7. Model fit Information Aspek Memory Strategy Goal Setting Self Evaluation Seeking Assistance Environmental Structuring Learning Responsibility Organizing Class AIC BIC CAIC Log-likelihood Gambar 3. Grafik Distribusi Kelas dan Elbow Plot sub-skala Learning Responsibility Hasil pada Tabel 8 menunjukkan bahwa distribusi gender tidak secara langsung menjadi faktor utama pembentukan laten sub-class. Namun pada Tabel 9 menunjukkan adanya perbedaan signifikan dalam distribusi kelas berdasarkan angkatan, di mana https://doi. org/10. 36269/psyche. PSYCHE: Jurnal Psikologi Universitas Muhammadiyah Lampung Vol. 7 No. Agustus 2025 ISSN . 2655-6936 ISSN . 2686-0430 mahasiswa angkatan 2020 cenderung mendominasi kelas satu, sementara kelas dua lebih banyak diisi oleh angkatan 2021. Learning responsibility dapat dipengaruhi oleh tugas perkembangan individu, seperti penyesuaian terhadap tanggung jawab akademik, membangun hubungan sosial yang matang, dan pengelolaan diri secara mandiri (Havighurst, 1. Dalam konteks ini, mahasiswa angkatan 2020 lebih mungkin telah menyelesaikan fase perkembangan tersebut dibandingkan dengan angkatan 2021 yang masih dalam tahap awal adaptasi. Selain itu, pada fase identity vs role confusion menurut Erikson . , individu mulai membangun identitas yang lebih bertanggung jawab, yang dapat tercermin dalam perilaku belajar mereka. Tabel 8. Frekuensi Kelas berdasarkan Gender pada Aspek Learning Responsibility Gender Perempuan Laki-laki Kelas Jumlah Kumulatif (%) Tabel 9. Frekuensi Kelas berdasarkan Angkatan pada Aspek Learning Responsibility Angkatan Kelas Jumlah Kumulatif (%) DISKUSI Hasil analisis unidimensionalitas menunjukkan bahwa setelah penghapusan enam item (MS4. MS5. SA32. SA37. O53, dan O. , setiap sub-skala dalam A-SRL-S mencapai unidimensionalitas dengan 48 item. Penghapusan ini dilakukan karena itemitem tersebut memiliki residual loadings >0. 5, yang dapat mengindikasikan adanya varians yang tidak dijelaskan oleh dimensi utama (Linacre, 2. Sebelum penghapusan, sub-skala MS. SA, dan O memiliki raw variance explained by measure yang lebih rendah (<40%), yang menunjukkan kemungkinan multidimensionalitas atau kurangnya kontribusi terhadap faktor utama (Smith, 2. Penghapusan item ini meningkatkan kualitas pengukuran dengan memastikan bahwa setiap sub-skala tetap unidimensional dan sesuai dengan prinsip dasar model Rasch (Bond & Fox, 2. Faktor seperti kesulitan pemahaman item atau perbedaan https://doi. org/10. 36269/psyche. PSYCHE: Jurnal Psikologi Universitas Muhammadiyah Lampung Vol. 7 No. Agustus 2025 ISSN . 2655-6936 ISSN . 2686-0430 interpretasi dalam konteks budaya dapat berkontribusi terhadap rendahnya varian yang dijelaskan sebelum reduksi (Van de Vijver & Poortinga, 1. Dengan demikian, analisis lanjutan dengan 48 item dapat memberikan hasil yang lebih valid dan reliabel dalam mengukur aspek self-regulated learning. Analisis rating scale menunjukkan bahwa semua sub-skala dalam A-SRL-S memiliki threshold yang meningkat secara bertahap dari negatif ke positif, yang mengindikasikan bahwa responden mampu membedakan setiap opsi respons dengan baik (Linacre, 2. Sementara itu, seluruh sub-skala memiliki nilai infit dan outfit MNSQ sesuai dengan model Rasch, dengan rentang 0. 5 (Bond & Fox 2. Struktur skala respons yang berfungsi dengan baik harus menunjukkan perbedaan yang jelas di antara kategori pilihan jawaban (Wright & Masters, 1. Oleh karena itu, hasil ini mengonfirmasi bahwa skala A-SRL-S mampu mengukur setiap aspek self-regulated learning dengan konsistensi yang baik. Hasil analisis reliabilitas menunjukkan bahwa semua sub-skala A-SRL memiliki nilai CronbachAos Alpha di atas 0. Hal ini mengindikasikan bahwa item-item dalam masing-masing sub-skala memiliki konsistensi internal yang tinggi dalam mengukur konstruk yang dimaksud. Temuan ini menunjukkan bahwa alat ukur A-SRL yang digunakan dalam penelitian ini cukup andal. Berdasarkan kriteria kualitas instrumen yang dikembangkan oleh William P. Fisher. Jr. , nilai reliabilitas pengukuran . aik person maupun ite. yang berada pada rentang Ou 0. 81 hingga > 0. 94 dikategorikan sebagai good hingga excellent. Sejalan dengan hal ini, nilai reliabilitas sebesar >0. 8 dianggap memadai, terutama ketika instrumen digunakan dalam konteks pengukuran terapan (Nunnally & Bernstein, 1. Person separation index seluruhnya berada di bawah 2. 0 yang dapat mengindikasikan bahwa partisipan dalam penelitian ini memiliki karakteristik yang relatif homogen, sehingga skala kurang mampu membedakan individu dengan tingkat kemampuan yang berbeda (Boone et al. , 2. Homogenitas partisipan dapat terjadi ketika sampel berasal dari kelompok dengan pengalaman atau kemampuan serupa, yang menyebabkan distribusi respons menjadi terbatas (Linacre, 2. Dalam kondisi seperti ini, diperlukan sampel yang lebih beragam untuk meningkatkan sensitivitas skala dalam mengukur perbedaan individu secara lebih akurat (Wright & Masters, 1. Selain itu, hasil strata pada semua sub-skala berada di bawah ambang batas minimal . yang menunjukkan bahwa ketajaman instrumen dalam mengelompokkan https://doi. org/10. 36269/psyche. PSYCHE: Jurnal Psikologi Universitas Muhammadiyah Lampung Vol. 7 No. Agustus 2025 ISSN . 2655-6936 ISSN . 2686-0430 individu ke dalam level kemampuan yang berbeda masih terbatas. Dengan kata lain, strata <3. 0 mencerminkan bahwa separation yang dihasilkan oleh data belum cukup untuk mengidentifikasi setidaknya tiga level kemampuan yang berbeda dalam populasi yang diuji (Linacre, 2. Hasil analisis item misfit menunjukkan bahwa item LR46 memiliki nilai ZSTD yang berada di luar rentang ideal (-2. 0 Ae 2. dan nilai infit-outfit MNSQ yang melebihi batas ideal . 5 - 1. Hal ini mengindikasikan bahwa item tersebut memiliki pola respons yang tidak sesuai dengan model dan perlu dikaji ulang. Sebaliknya, meskipun sejumlah item memiliki nilai ZSTD di luar rentang Ae2. 0 hingga 2. 0, namun nilai infit-outfit MNSQ dan point-measure correlation menunjukkan hasil yang masih berada dalam batas yang dapat diterima (Sumintono & Widhiarso, 2. Tingkat kesulitan item dalam skala A-SRL yang tidak merata menunjukkan bahwa instrumen lebih efektif dalam mengukur responden dengan kemampuan rendah hingga sedang, tetapi kurang sensitif dalam menilai responden dengan kemampuan tinggi. Dari analisis reliabilitas person yang rendah pada seluruh sub-skala menunjukkan bahwa skala kurang mampu membedakan individu berdasarkan tingkat kemampuannya secara konsisten (Linacre, 2. Kurangnya item yang menargetkan kemampuan tinggi juga dapat menyebabkan bias dalam pengukuran dan menurunkan validitas konstruk (Bond & Fox, 2. Diperlukan pengembangan item tambahan yang lebih menargetkan responden dengan kemampuan tinggi agar skala dapat memberikan gambaran yang lebih komprehensif mengenai seluruh spektrum kemampuan yang diukur. Hasil analisis DIF menunjukkan bahwa item LR44 dan LR46 mengalami bias gender, di mana laki-laki dan perempuan memiliki kecenderungan respon yang berbeda terhadap item tersebut. Pada analisis item mistfit. LR46 memiliki nilai Infit dan Outfit MNSQ tertinggi, yang mengindikasikan adanya variasi respons yang tidak konsisten. Ketidaksesuaian ini dapat disebabkan oleh perbedaan interpretasi terhadap makna item berdasarkan pengalaman atau persepsi yang berbeda antara laki-laki dan perempuan (Zumbo, 2. Selain itu, bias gender dapat terjadi ketika formulasi item tidak mewakili pengalaman semua gender, sehingga menimbulkan perbedaan pola respons (Camilli & Shepard, 1. Evaluasi lebih lanjut diperlukan untuk memastikan bahwa LR44 dan LR46 tidak menghambat keandalan serta interpretasi hasil pengukuran secara adil bagi seluruh responden. https://doi. org/10. 36269/psyche. PSYCHE: Jurnal Psikologi Universitas Muhammadiyah Lampung Vol. 7 No. Agustus 2025 ISSN . 2655-6936 ISSN . 2686-0430 Analisis Rasch Mixture Model menunjukkan bahwa aspek LR lebih optimal dengan model dua kelas, sedangkan sub-skala lainnya lebih sesuai dengan model satu kelas. Temuan ini mengindikasikan adanya heterogenitas responden dalam LR, yang mungkin berkaitan dengan perbedaan strategi belajar atau keterlibatan akademik (Nylund et al. Sementara itu, kesesuaian model satu kelas pada MS. GS. SE. SA. MS, dan ES menunjukkan bahwa variabilitas respons di aspek-aspek ini tidak cukup kuat untuk membentuk sub-kelas terpisah (Bozdogan, 1. Pada item misfit, ketidakkonsistenan respons pada LR46 menunjukkan bahwa faktor tambahan seperti bias gender atau interpretasi berbeda dapat mempengaruhi model yang dipilih. Oleh karena itu, dalam pengembangan instrumen lebih lanjut, penting untuk mempertimbangkan faktor-faktor ini agar model dapat menangkap struktur laten responden secara lebih akurat. Penggunaan teknik convenience sampling dapat menimbulkan bias seleksi karena tidak semua anggota populasi memiliki peluang yang sama untuk terpilih sebagai Hal ini dapat membuat hasil penelitian kurang merepresentasikan keseluruhan populasi mahasiswa dan membatasi generalisasi temuan. Penelitian selanjutnya, disarankan menggunakan metode sampling yang lebih representatif untuk meningkatkan validitas eksternal. KESIMPULAN DAN SARAN Setelah dilakukan penghapusan enam item (MS4. MS5. SA32. SA37. O53, dan O. , setiap sub-skala pada A-SRL-S berhasil memenuhi unidimensionalitas dengan 48 item. Reliabilitas item di seluruh sub-skala menunjukkan hasil yang sangat baik (> 0. , namun person reliability dan person separation index tidak menunjukkan reliabilitas yang memadai, dengan nilai person reliability berada dalam rentang 0. 46 Ae 0. 79 dan person separation index berada dalam rentang 0. 92 Ae 1. 94, yang mengindikasikan bahwa instrumen belum cukup sensitif untuk membedakan individu berdasarkan tingkat kemampuannya secara bermakna (Linacre, 2. Strata sub-skala juga berada di bawah ambang batas . yang mengindikasikan perlunya peningkatan jumlah atau kualitas item agar instrumen lebih sensitif dan akurat dalam mengukur perbedaan kemampuan. Hasil analisis item misfit mengidentifikasi bahwa item LR46 memiliki infit dan outfit MNSQ sebesar 1. 63 dengan ZSTD 7. 7, yang menunjukkan misfit yang signifikan. Selain itu, bias gender ditemukan pada item LR44 dan LR46 dengan probabilitas Welch https://doi. org/10. 36269/psyche. PSYCHE: Jurnal Psikologi Universitas Muhammadiyah Lampung Vol. 7 No. Agustus 2025 ISSN . 2655-6936 ISSN . 2686-0430 0065 dan 0. 0037, yang menunjukkan perbedaan respon yang signifikan antara laki-laki dan perempuan (Camilli & Shepard, 1. Rasch Mixture Model menunjukkan bahwa sub-skala learning responsibility lebih optimal dengan model dua kelas, sementara subskala lainnya lebih sesuai dengan model satu kelas. Dengan adanya pembagian ini, instrumen dapat disesuaikan dengan menetapkan cut-off score yang lebih spesifik untuk masing-masing kelas, memungkinkan perbedaan tanggung jawab belajar yang lebih tepat sesuai dengan karakteristik individu dalam setiap kelompok. Penyesuaian ini memberikan instrumen kemampuan yang lebih baik untuk menangkap perbedaan tingkat tanggung jawab belajar antara individu dengan kemampuan yang berbeda. Diperlukan pengembangan item yang lebih menargetkan responden dengan kemampuan tinggi untuk meningkatkan sensitivitas skala dalam mengukur variabilitas Penambahan item yang lebih mengakomodasi responden dengan kemampuan tinggi dapat memperbaiki reliabilitas person dan PSI, yang saat ini menunjukkan keterbatasan dalam membedakan individu dengan kemampuan yang berbeda (Boone et , 2. Selain itu, penggunaan sampel yang lebih beragam di masa mendatang akan membantu meningkatkan distribusi respons, sehingga skala dapat lebih akurat dalam menggambarkan perbedaan individu secara lebih konsisten (Linacre, 2. Secara keseluruhan, implikasi dari temuan penelitian adalah perlunya revisi itemitem misfit yaitu SE20. SA33. ES42, dan LR46. Meskipun infit dan outfit MNSQ serta point biserial correlation memenuhi batas item fit. Selain itu, perlu adanya revisi item, terutama pada item yang dipersepsikan multidimensi, yaitu item MS4. MS5. SA32. SA37. O53, dan O54. Lebih lanjut, berdasarkan temuan pada latent class analysis, meskipun gender tidak secara langsung memengaruhi pembentukan latent sub-class, perbedaan angkatan Hal mengindikasikan bahwa karakteristik perkembangan individu berdasarkan tahap pendidikan dapat memengaruhi tanggung jawab belajar . earning responsibilit. Oleh karena itu perlu dilakukan renorming berdasarkan kelompok laten class, khususnya dengan mempertimbangkan perbedaan tahap perkembangan psikososial antar Reliabilitas person yang rendah juga menunjukkan perlunya replikasi penelitian dengan partisipan yang lebih heterogen untuk meningkatkan sensitivitas skala dalam mengukur perbedaan individu secara lebih akurat (Wright & Masters, 1. Dalam proses adaptasi skala ke dalam konteks Indonesia, penting untuk mempertimbangkan https://doi. org/10. 36269/psyche. PSYCHE: Jurnal Psikologi Universitas Muhammadiyah Lampung Vol. 7 No. Agustus 2025 ISSN . 2655-6936 ISSN . 2686-0430 aspek-aspek budaya lokal, seperti orientasi kolektivisme dan norma-norma akademik yang dapat berbeda dengan konteks asal pengembangan skala di Filipina. Penyesuaian ini diperlukan untuk memastikan bahwa instrumen tidak hanya valid secara linguistik, tetapi juga relevan secara kultural. DAFTAR PUSTAKA