483
Progresif: Jurnal Ilmiah Komputer https://ojs.
stmik-banjarbaru.
id/index.
php/progresif/index Jl.
Ahmad Yani.
33,5 - Kampus STMIK Banjarbaru Loktabat - Banjarbaru (Tlp.
, e-mail: puslit.
stmikbjb@gmail.
e-ISSN: 2685-0877 Penerapan K-Means Clustering dalam Segmentasi Siswa Berdasarkan Status Sosial Ekonomi DOI: http://dx.
org/10.
35889/progresif.
Creative Commons License 4.
0 (CC BY Ae NC) Dewi Eka Putri1*.
Eka Praja Wiyata Mandala2 Teknik Informatika.
Universitas Putra Indonesia YPTK.
Padang.
Indonesia *e-mail Corresponding Author: dewieka@upiyptk.
Abstract The accuracy of educational aid distribution remains a challenge, especially when it is not based on structured socioeconomic data.
This study aims to group students at SMP Negeri 1 Lunang based on socioeconomic status using the K-Means Clustering algorithm as a segmentation The data used includes parents' income and occupation, number of dependents, social assistance, certificates of poverty, and distance from home to school.
After data normalization, clustering and visualization were performed using Principal Component Analysis (PCA).
The clustering results yielded three main groups representing different socioeconomic levels: low, medium, and high.
Validation using the Silhouette Score yielded a value of 0.
2592, indicating that the cluster separation was adequate.
These findings suggest that K-Means can serve as a decision-making tool for data-driven aid distribution.
This study offers a new approach to student segmentation that simultaneously considers geographical and socioeconomic indicators.
Keywords: K-Means.
Socioeconomic status.
Student segmentation.
PCA.
Silhouette score Abstrak Ketepatan penyaluran bantuan pendidikan masih menjadi tantangan, terutama ketika tidak berbasis pada data sosial ekonomi yang terstruktur.
Penelitian ini bertujuan untuk mengelompokkan siswa SMP Negeri 1 Lunang berdasarkan status sosial ekonomi menggunakan algoritma K-Means Clustering sebagai pendekatan segmentasi.
Data yang digunakan mencakup penghasilan dan pekerjaan orang tua, jumlah tanggungan, bantuan sosial, surat keterangan tidak mampu, dan jarak rumah ke sekolah.
Setelah data dinormalisasi, dilakukan klasterisasi dan visualisasi menggunakan Principal Component Analysis (PCA).
Hasil clustering menghasilkan tiga kelompok utama yang merepresentasikan tingkatan sosial ekonomi berbeda yaitu rendah, menengah dan tinggi.
Validasi menggunakan Silhouette Score menunjukkan nilai sebesar 0,2592, menandakan bahwa pemisahan klaster cukup baik.
Temuan ini menunjukkan bahwa K-Means dapat menjadi alat bantu pengambilan keputusan untuk penyaluran bantuan berbasis Penelitian ini menawarkan pendekatan baru dalam segmentasi siswa yang mempertimbangkan indikator geografis dan sosial secara bersamaan.
Kata kunci: K-Means.
Status sosial ekonomi.
Segmentasi siswa.
PCA.
Silhouette score Pendahuluan Pendidikan menjadi kebutuhan penting yang tidak dapat dikesampingkan bagi masyarakat Indonesia .
dan menjadi faktor yang sangat penting dalam mengembangkan kualitas sumber daya manusia.
Pendidikan berkembang dengan signifikan sehingga pemerintah harus menaikkan kualitas dan kuantitas pendidikan di Indonesia .
Namun, terjadi ketimpangan terhadap pendidikan sehingga menjadi masalah yang serius di seluruh penjuru Indonesia.
Pemerintah Indonesia telah meluncurkan berbagai program untuk meningkatkan pemerataan pendidikan, seperti Bantuan Operasional Sekolah (BOS) .
Kartu Indonesia Pintar (KIP).
Program Indonesia Pintar (PIP) dan sebagainya .
Program-program ini merupakan upaya pemerintah untuk menambah dan mengupayakan pendidikan bagi siswa yang kurang mampu .
Bantuan pendidikan memberikan jaminan dan peluang bagi anak yang kurang mampu.
Penerapan K-Means Clustering dalam Segmentasi a.
Dewi Eka Putri e-ISSN: 2685-0877 Program Indonesia Pintar (PIP) dan Bantuan Operasi Sekolah (BOS) merupakan dua program unggulan dan prioritas dari pemerintah .
Program-program yang telah diluncurkan pemerintah merupakan cara agar pendidikan merata bagi seluruh masyarakat Indonesia, khususnya pada keterbatasan di sektor ekonomi dan geografis .
Bantuan pendidikan ini dapat meringankan beban finansial keluarga siswa, dapat menenangkan pikiran agar bisa fokus pada pelajaran dengan tidak memikirkan biaya tambahan .
Penelitian ini dilakukan di SMP Negeri 1 Lunang yang terletak di Kecamatan Lunang.
Kabupaten Pesisir Selatan.
Provinsi Sumatera Barat.
Salah satu permasalahan utama dalam penyaluran bantuan pendidikan di SMP Negeri 1 Lunang adalah kurangnya data yang akurat dan terstruktur mengenai kondisi sosial ekonomi siswa.
Hal ini menyebabkan ketidaktepatan dalam pemberian bantuan, di mana siswa yang seharusnya menerima bantuan tidak mendapatkannya, sementara siswa yang kurang membutuhkan justru mendapatkannya.
Untuk mengatasi permasalahan ini, diperlukan pendekatan yang dapat mengelompokkan siswa berdasarkan kondisi sosial ekonomi mereka secara objektif dan sistematis.
Untuk mengatasi permasalahan diatas, perlu dilakukan penganalisaan terhadap data pokok siswa untuk mengelompokkan siswa yang berhak mendapatkan bantuan pendidikan dari Penganalisaan data pokok siswa dilakukan dengan menggunakan pendekatan data Data mining diterapkan untuk menguji data dalam jumlah besar untuk mendapatkan pola baru yang lebih bermanfaat .
Data mining mengidentifikasi korelasi, pola dan tren yang tidak terlihat dalam data yang besar .
Salah satu teknik dalam data mining adalah teknik clustering.
Penelitian ini menggunakan teknik clustering untuk melakukan segmentasi siswa.
Clustering dipakai untuk membagi kumpulan data ke dalam beberapa kelompok sesuai dengan kemiripan masing-masing atribut yang dimiliki .
Algoritma yang akan dipakai pada penelitian ini adalah Algoritma K-Means.
Algoritma K-Means merupakan metode dalam teknik clustering yang dipakai untuk mengelompokkan data yang sesuai dengan kesamaan karakteristik, salah satunya untuk analisis data pendidikan karena mampu mengelompokkan data yang kompleks .
Penelitian ini membantu pihak SMP Negeri 1 Lunang dalam klasterisasi siswa yang berhak menerima bantuan pendidikan dari pemerintah.
Tujuan dari penelitian ini adalah untuk menerapkan metode K-Means Clustering dalam segmentasi siswa berdasarkan status sosial ekonomi, sehingga dapat membantu pihak sekolah dalam menyalurkan bantuan pendidikan secara lebih tepat sasaran.
Tinjauan Pustaka Pada penelitian sebelumnya yang dilakukan oleh Eka Indriati pada tahun 2023 membahas pengelompokan status calon penerima beasiswa KIP Kuliah di Universitas Papua, yang selama ini dilakukan secara manual dan kurang optimal akibat banyaknya pendaftar.
Objek penelitian adalah data calon penerima KIP Kuliah di Universitas Papua.
Metode yang digunakan adalah algoritma K-Means Clustering dengan bantuan bahasa pemrograman Python pada platform Jupyter Notebook, untuk mengelompokkan data berdasarkan kemiripan karakteristik.
Hasil penelitian menunjukkan terbentuknya dua cluster, yaitu 687 data yang dikelompokkan sebagai penerima KIP Kuliah dan 547 data yang tidak diterima sebagai penerima .
Pada penelitian sebelumnya yang dilakukan oleh Eviana Nahak dkk pada tahun 2024 tentang penentuan siswa yang akan menerima beasiswa Program Indonesia Pintar.
Penelitian ini menjelaskan bahwa permasalahan utama pada SMPN Satu Atap Nununamat sebagai objek penelitian yaitu penentuan calon penerima beasiswa sering memakan waktu yang lama dan banyak siswa yang memiliki kesamaan kriteria sehingga pemberian beasiswa sering tidak tepat Penelitian ini menggunakan pendekatan MOORA.
Hasil dari penelitian ini dijelaskan dapat memberikan kemudahan bagi staf tata usaha dalam tahap seleksi penerima beasiswa PIP sehingga tidak salah sasaran dan menghasilkan keputusan dengan tepat dan cepat .
Penelitian lainnya yang dilakukan oleh Ida Bagus Adisimakrisna Peling dkk pada tahun 2024 membahas permasalahan dalam penentuan penerima beasiswa yang sering kali tidak objektif dan memerlukan pertimbangan lebih lanjut.
Objek penelitian adalah mahasiswa calon penerima beasiswa dengan kriteria seperti IPK, presensi kehadiran, dan UKT.
Penelitian ini menggunakan metode K-Means untuk melakukan pengelompokan mahasiswa ke dalam tiga cluster berdasarkan karakteristik data, serta metode SAW (Simple Additive Weightin.
untuk memberikan peringkat prioritas terhadap masing-masing cluster.
Hasilnya.
Cluster 1 menempati peringkat tertinggi dengan anggota yang memiliki IPK dan kehadiran tinggi serta UKT sedang.
Cluster 2 di peringkat kedua dengan seluruh kriteria bernilai tinggi.
dan Cluster 3 di peringkat Progresif: Vol.
No.
Agustus 2025: 483-494 Progresif e-ISSN: 2685-0877 terakhir dengan karakteristik data yang tidak konsisten.
Pendekatan ini membantu institusi pendidikan dalam pengambilan keputusan penerima beasiswa secara lebih tepat dan efisien .
Penelitian selanjutnya yang dilakukan Nana Suarna dkk pada tahun 2025 membahas upaya optimalisasi prestasi akademik siswa melalui pengelompokan indeks prestasi menggunakan metode K-Means Clustering.
Objek penelitian adalah data indeks prestasi siswa dari beberapa semester, yang dianalisis untuk mengidentifikasi kelompok siswa berdasarkan kesamaan nilai akademik.
Metode K-Means dipilih karena mampu mengelompokkan data secara efisien ke dalam klaster homogen.
Proses dilakukan dengan menetapkan jumlah klaster awal dan mengoptimalkan posisi centroid hingga konvergen.
Hasil penelitian menunjukkan bahwa siswa dapat dikelompokkan menjadi tiga kategori utama, yaitu berprestasi tinggi, sedang, dan rendah.
Pengelompokan ini membantu pihak sekolah dalam menyusun strategi pembinaan dan intervensi akademik yang lebih tepat sasaran .
Penelitian lainnya yang dilakukan oleh Eneng Okta Srirahmawati pada tahun 2025 membahas pengelompokan prestasi akademik siswa di SDN Lebakwangi dengan menggunakan algoritma K-Means.
Objek penelitian adalah 171 data nilai rapor siswa kelas 1 hingga 5 semester genap tahun 2024, yang mencakup berbagai mata pelajaran.
Penelitian ini menerapkan metode data mining untuk mengidentifikasi pola pengelompokan berdasarkan kesamaan karakteristik nilai akademik.
Hasil analisis menunjukkan bahwa pada percobaan dengan nilai k = 2, diperoleh hasil terbaik dengan nilai Davies-Bouldin Index (DBI) sebesar 0,738, yang menghasilkan dua cluster: cluster_0 dengan 141 siswa kategori AubaikAy .
ata-rata nilai 76,.
dan cluster_1 dengan 27 siswa kategori Ausangat baikAy .
ata-rata nilai 85,.
Temuan ini dapat membantu guru dalam merancang strategi pembelajaran yang lebih sesuai dengan kebutuhan tiap kelompok siswa .
Penelitian lainnya yang dilakukan oleh Amanda Salsabila pada tahun 2025 membahas pengelompokan kemampuan calistung .
embaca, menulis, dan berhitun.
siswa sekolah dasar sebagai dasar dalam menentukan strategi pembelajaran yang tepat sasaran.
Objek penelitian adalah data nilai siswa dari dua Sekolah Dasar di Kota Lubuklinggau.
Penelitian menggunakan metode hybrid berbasis machine learning dengan menggabungkan algoritma K-Means Clustering untuk pengelompokan awal dan K-Nearest Neighbors (KNN) untuk klasifikasi.
Proses analisis meliputi preprocessing data, validasi klaster dengan Silhouette Score, serta evaluasi model klasifikasi menggunakan metrik accuracy, precision, recall, dan F1-score.
Hasilnya.
K-Means berhasil mengelompokkan siswa ke dalam tiga klaster: Rendah.
Menengah, dan Tinggi, sementara model KNN dengan nilai k=3 memberikan akurasi klasifikasi hingga 97%, menunjukkan bahwa metode hybrid ini efektif dalam mengklasifikasikan kemampuan calistung siswa .
Penelitian yang berkaitan dengan segmentasi siswa berdasarkan status sosial ekonomi sudah banyak dilakukan menggunakan teknik klasterisasi.
Beberapa studi sebelumnya menggunakan algoritma K-Means Clustering karena mampu mengelompokkan data dengan Namun, sebagian besar penelitian terdahulu belum mengintegrasikan teknik reduksi dimensi seperti Principal Component Analysis (PCA) untuk mengatasi masalah kompleksitas data berdimensi tinggi.
Selain itu, penilaian efektivitas performa model pada penelitian sebelumnya masih terbatas pada visualisasi.
Dalam penelitian ini, dilakukan integrasi antara PCA dan K-Means Clustering untuk meningkatkan kualitas hasil segmentasi, serta digunakan Silhouette Score untuk mengukur konsistensi dan kekompakan antar klaster yang terbentuk.
Pendekatan ini memberikan keunggulan dibandingkan penelitian sebelumnya, karena mampu memberikan hasil segmentasi yang lebih optimal dan terukur secara objektif.
Kombinasi metode ini menjadi novelty utama dalam penelitian, yang berkontribusi pada peningkatan akurasi pengambilan keputusan segmentasi siswa berdasarkan variabel sosial ekonomi.
Metodologi Agar penelitian lebih terstrukur, maka penelitian ini memerlukan metodologi yang akan menjadi landasan dalam penelitian ini.
Penelitian ini melalui beberapa tahapan yang harus Tahapan penelitian dijelaskan dalam beberapa tahap sebagai berikut:
Pengumpulan Data Dataset pada penelitian ini didapatkan dari SMP Negeri 1 Lunang.
Penelitian ini menggunakan data 35 orang siswa yang mengajukan beasiswa.
Masing-masing siswa memiliki data yang terdiri dari data penghasilan orang tua, pekerjaan orang tua, status bantuan lainnya, jumlah tanggungan yang masih sekolah, jarak rumah ke sekolah .
dan surat keterangan tidak mampu.
Penerapan K-Means Clustering dalam Segmentasi a.
Dewi Eka Putri e-ISSN: 2685-0877 Pra-pemrosesan Data Tahapan ini terdiri dari pembersihan data yang dilakukan untuk menghapus data duplikat atau kosong, transformasi data yang dilakukan untuk merubah data numerik dan kategorikal ke dalam bentuk yang sesuai untuk pemrosesan algoritma dan normalisasi data agar setiap variabel memiliki skala yang sebanding.
Untuk memastikan bahwa seluruh variabel memiliki skala yang sebanding dan tidak mendominasi dalam proses klasterisasi, dilakukan normalisasi menggunakan metode Min-Max Scaling.
ycUOe ycUycoycnycu ycUycuycuycyco = .
ycUycoycaycu Oe ycUycoycnycu .
Penerapan Algoritma K-Means Algoritma K-Means diawali dengan menentukan jumlah klaster dan tentukan titik pusat klaster secara acak.
Menghitung jarak antar data dengan titik pusat klaster dengan Ecludean Distances untuk memperoleh jarak terdekat.
ya11 = Oo.
cA1yca Oe ya1yca )2 .
cA1yca Oe ya1yca )2 U .
cA1yce Oe ya1yce ) Jarak terdekat dimasukkan ke dalam masing-masing klaster.
Hitung titik pusat klaster baru, lakukan perhitungan jarak dan kelompokkan kembali.
Jika ada perubahan anggota klaster maka proses diulang kembali dari menentukan titik pusat klaster baru, jika tidak ada perubahan anggota klaster, maka proses selesai.
Mereduksi Dimensi Data Penelitian ini menggunakan banyak dimensi data yaitu 6 dimensi, maka perlu dilakukan pengurangan dimensi dengan melakukan reduksi dimensi data menggunakan Principal Component Analysis (PCA) agar hasil pengelompokkan lebih mudah divisualisasikan.
Mengukur Validasi Klaster Mengukur kualitas klaster dengan mempertimbangkan seberapa baik data yang sama berkumpul dalam satu klaster dan seberapa jauh perpisahan antara klaster menggunakan Silhoutte Score.
Evaluasi dan Interpretasi Hasil Pada tahap ini dilakukan pengamatan dan evaluasi terhadap distribusi anggota pada tiap Kemudian dilanjutkan dengan memberikan penerjemahan untuk tiap klaster.
Hasilnya, klaster 0 menunjukkan kelompok siswa dengan status sosial ekonomi Klaster 1 menggambarkan siswa dengan status sosial ekonomi yang lebih Klaster 2 merupakan siswa dengan status sosial ekonomi yang lebih rendah.
Hasil dan Pembahasan 1 Implementasi Algoritma Penelitian ini dimulai dengan mengumpulkan dataset dari SMP Negeri 1 Lunang berupa data siswa sebanyak 35 orang siswa yang mengajukan untuk mendapat bantuan pendidikan yang dapat dilihat pada Tabel 1.
Table 1.
Dataset siswa yang mengajukan bantuan pendidikan Nama Penghasilan orang tua (Rp.
APF
KKI
MDF
ZNF
ZJP
WRN
RNR
Pekerjaan orang tua Bantuan Jumlah Petani Petani Pedagang kecil Buruh Petani Wiraswasta Petani Petani Karyawan swasta Karyawan swasta A.
Petani Tidak Tidak Tidak Tidak Tidak A.
Tidak A.
Progresif: Vol.
No.
Agustus 2025: 483-494 Jarak rumah ke .
Surat Ada Ada Ada Ada Ada Tidak Tidak Tidak Tidak Tidak A.
Tidak Progresif e-ISSN: 2685-0877 Dataset masing-masing siswa terdiri dari penghasilan orang tua, pekerjaan orang tua, status bantuan lainnya, jumlah tanggungan yang masih sekolah, jarak rumah ke sekolah .
dan status surat keterangan tidak mampu.
Dataset yang digunakan pada penelitian ini tidak ditampilkan nama siswa .
ama diinisialka.
karena permintaan pihak sekolah, namun kriteria yang digunakan merupakan data yang benar dari siswa tersebut.
Dari Tabel 1 dapat dilihat bahwa data yang digunakan dalam penelitian ini terdiri dari 35 siswa yang berasal dari SMP Negeri 1 Lunang, dengan variabel-variabel yang mencerminkan status sosial ekonomi masing-masing Variabel yang diamati meliputi penghasilan orang tua, pekerjaan orang tua, kepemilikan bantuan pendidikan lainnya, jumlah tanggungan dalam keluarga, jarak tempat tinggal ke sekolah, serta kepemilikan surat keterangan tidak mampu.
Sebagian besar siswa berasal dari keluarga dengan penghasilan di bawah Rp.
per bulan, dengan pekerjaan orang tua yang didominasi oleh sektor informal seperti petani, buruh, dan pedagang kecil.
Pekerjaan sebagai petani mendominasi dengan lebih dari separuh siswa berasal dari keluarga petani.
Ada siswa yang tercatat sebagai penerima bantuan lain dari pemerintah, sementara sisanya tidak menerima bantuan tambahan.
Mayoritas orang tua siswa memiliki 2Ae3 tanggungan, yang menunjukkan beban ekonomi keluarga yang cukup tinggi.
Sebagian besar siswa tinggal dalam radius 1Ae3 km, namun terdapat pula beberapa siswa yang tinggal cukup jauh, hingga 10 km dari sekolah.
Ada siswa yang memiliki SKTM, ada ada juga yang tidak memilikinya.
Ini mengindikasikan bahwa tidak semua siswa dengan kondisi ekonomi rendah secara administratif terdata sebagai penerima bantuan formal.
Secara keseluruhan, data ini memberikan gambaran mengenai kondisi sosial ekonomi siswa SMP Negeri 1 Lunang dan menjadi dasar yang relevan untuk penerapan metode K-Means Clustering dalam segmentasi penerima bantuan pendidikan secara lebih objektif dan tepat sasaran.
Langkah selanjutnya adalah melakukan pra-pemrosesan data dari dataset diatas.
Sebelum data digunakan dalam proses analisis menggunakan algoritma K-Means Clustering, dilakukan tahapan pra-pemrosesan untuk memastikan mutu dan kesiapan data.
Tahapan prapemrosesan yang dilakukan terdiri dari pembersihan data, transformasi data dan normalisasi .
Pembersihan Data Pada tahap ini, data diperiksa untuk memastikan tidak terdapat data kosong .
issing value.
, duplikat, atau inkonsistensi penulisan.
Dari hasil pengecekan terhadap 35 data siswa, seluruh atribut terisi dengan lengkap dan tidak ditemukan data ganda.
Transformasi Data Beberapa atribut bersifat kategorikal dan perlu dikonversi ke dalam bentuk numerik agar dapat diproses oleh algoritma K-Means Clustering.
Transformasi dilakukan sebagai .
Kolom Nama tidak digunakan dalam pemodelan dan dihapus karena tidak berkontribusi terhadap analisis klasterisasi.
Kolom Penghasilan orang tua diubah dari format teks menjadi format angka numerik.
Misalnya merubah AuRp.
000Ay menjadi 1500000.
Pekerjaan orang tua dikodekan ke dalam angka sesuai kategori.
Semua pekerjaan diberikan kode seperti AuPetaniAy menjadi 0.
AuBuruhAy menjadi 0.
AuPedagang kecilAy 3.
AuPedagang besarAy menjadi 0.
AuKaryawan swastaAy menjadi 0.
5 dan AuWiraswastaAy menjadi 0.
Kolom Bantuan lainnya dikodekan ke dalam angka.
Bantuan dengan atribut AuYaAy dirubah menjadi 1 dan bantuan dengan atribut AuTidakAy dirubah menjadi 0.
Kolom Surat keterangan tidak mampu juga dikodekan ke dalam angka.
Surat dengan atribut AuAdaAy dirubah menjadi 1 dan surat dengan atribut AuTidakAy dirubah menjadi 0.
Normalisasi Data Metode Min-Max Scaling digunakan untuk menormalisasikan variabel numerik berikut:
Penghasilan orang tua Penghasilan orang tua memiliki nilai minimum Rp.
000 dan maksimum Rp.
000, maka penghasilan Rp.
000 akan dinormalisasi menjadi:
000 Oe 1.
ycUycuycuycyco = = 0.
000 Oe 1.
Jumlah tanggungan Jumlah tanggungan orang tua memiliki nilai minimum 1 dan maksimum 3, maka jumlah tanggungan 2 akan dinormalisasi menjadi:
Penerapan K-Means Clustering dalam Segmentasi a.
Dewi Eka Putri e-ISSN: 2685-0877 ycUycuycuycyco = 2Oe1 = 0.
3Oe1 .
Jarak rumah ke sekolah Jarak rumah ke sekolah memiliki nilai minimum 1 km dan maksimum 10 km, maka jarak rumah ke sekolah 7 km akan dinormalisasi menjadi:
7Oe1 ycUycuycuycyco = = 0.
10 Oe 1 Setelah dilakukan pembersihan, transformasi, dan normalisasi, data siap untuk diproses menggunakan algoritma K-Means Clustering dalam tahap analisis.
Setelah melalui tahapan pembersihan, transformasi, dan normalisasi data, maka diperoleh data yang telah siap untuk dianalisis menggunakan metode K-Means Clustering.
Tabel 2 menyajikan hasil akhir dari proses pra-pemrosesan, di mana seluruh atribut kategorikal telah dikonversi menjadi bentuk numerik, dan atribut numerik telah dinormalisasi ke dalam rentang nilai 0 hingga 1.
Table 2.
Dataset setelah melalui pra-pemrosesan Nama Siswa (Inisia.
Penghasilan orang tua Pekerjaan orang tua Bantuan Jumlah A.
APF
KKI
MDF
ZNF
ZJP
WRN
RNR
Jarak rumah ke .
Surat A.
Tabel 2 juga menunjukkan bahwa semua atribut telah disatukan dalam satu format numerik yang seragam dan tidak memiliki nilai kosong maupun duplikat.
Dengan data yang telah terstandarisasi dan terstruktur dengan baik ini, proses klasterisasi dapat berjalan lebih optimal dan menghasilkan segmentasi yang akurat sesuai dengan karakteristik sosial ekonomi masingmasing siswa.
Pada tahap selanjutnya dilakukan proses klasterisasi data siswa berdasarkan status sosial ekonomi menggunakan algoritma K-Means Clustering.
Algoritma ini merupakan metode unsupervised learning yang efektif dalam pengelompokan data berdasarkan kedekatan Dalam penelitian ini, nilai jumlah klaster .
ditentukan sebanyak 3 klaster, dengan asumsi pembagian segmentasi siswa ke dalam tiga kelompok status sosial ekonomi, yaitu rendah, menengah, dan tinggi.
Langkah pertama adalah menentukan tiga titik centroid awal secara acak dari data yang telah dinormalisasi.
Titik centroid awal ini menjadi pusat sementara untuk masing-masing klaster, dan selanjutnya akan diperbarui berdasarkan rata-rata anggota klaster yang terbentuk.
Berikut tiga centroid yang menjadi centroid awal:
C0 = .
C1 = .
C2 = .
Seluruh data siswa dihitung jaraknya ke masing-masing centroid menggunakan metode Euclidean Distance.
Hasil perhitungan jarak antara data dengan centroid dapat dilihat pada Tabel Progresif: Vol.
No.
Agustus 2025: 483-494 Progresif e-ISSN: 2685-0877 A.
Table 3.
Jarak data siswa ke masiing-masing centroid
Nama Jarak ke C0lama Jarak ke C1lama
Jarak ke C2lama
APF
KKI
MDF
ZNF
ZJP
WRN
RNR
Dari Tabel 3 dilakukan pengelompokkan dengan membandingkan jarak masing-masing data dengan centroid.
Jarak terpendek akan masuk ke dalam masing-masing klaster.
Misalnya Siswa 1 memiliki jarak terpendek ke klaster 0 (C .
maka Siswa 1 masuk ke dalam klaster 0, dan begitu seterusnya.
Jika semua sudah dikelompokkan, maka akan dihitung centroid baru dengan menghitung rata-rata dari setiap anggota masing-masing klaster.
Dari hasil perhitungan maka diperoleh centroid baru sebagai berikut:
C0baru = .
C1baru = .
C2baru = .
Langkah selanjutnya adalah menghitung kembali jarak masing-masing data siswa dengan centroid baru yang sudah diperoleh.
Perhitungan jarak ini dilakukan untuk mengelompokkan anggota ke masing-masing klaster.
Hasil perhitungan jarak dengan centrod baru dapat dilihat pada Tabel 4.
Table 4.
Jarak data siswa ke masing-masing centroid baru Nama Jarak ke C0baru
Jarak ke C1baru
Jarak ke C2baru
APF
KKI
MDF
ZNF
ZJP
WRN
RNR
Dari Tabel 4 dapat dilihat bahwa ada perubahan anggota klaster yang terjadi pada Siswa Siswa 6 sebelumnya berada pada klaster 2 yang tampak pada Tabel 3 berpindah ke klaster 1 yang dapat dilihat pada Tabel 4.
Karena terjadi perubahan anggota, maka perhitungan berlanjut ke iterasi berikutnya.
Perhitungan terus dilakukan, sampai perhitungan berhenti pada iterasi ke4 karena tidak terjadi lagi perubahan anggota klaster.
Hasil perhitungan jarak data siswa dengan centroid baru pada iterasi ke-4 dapat dilihat pada Tabel 5.
Penerapan K-Means Clustering dalam Segmentasi a.
Dewi Eka Putri e-ISSN: 2685-0877 Table 5.
Jarak data siswa ke masing-masing centroid baru pada iterasi ke-4
Nama Jarak ke C0baru Jarak ke C1baru Jarak ke C2baru
APF
KKI
MDF
ZNF
ZJP
WRN
RNR
Setelah proses iterasi selesai yang hasilnya ditampilkan pada Tabel 5, maka diperoleh tiga klaster akhir sebagai berikut:
Klaster 0 diberi nama AuStatus Sosial Ekonomi MenengahAy yaitu siswa dengan penghasilan orang tua menengah, pekerjaan lebih variatif .
etani, wiraswasta, karyawa.
, dan jarak rumah ke sekolah sedang.
Klaster 1 diberi nama AuStatus Sosial Ekonomi RendahAy yaitu mayoritas siswa dengan penghasilan orang tua rendah, pekerjaan informal .
etani/buru.
, tidak memiliki bantuan lain, dan memiliki surat keterangan tidak mampu.
Klaster 2 diberi nama AuStatus Sosial Ekonomi TinggiAy yaitu siswa dengan penghasilan orang tua tinggi, orang tua bekerja sebagai karyawan swasta atau pedagang besar, tanpa bantuan pemerintah dan tidak memiliki surat keterangan tidak mampu.
Distribusi klaster ini dapat digunakan pihak sekolah dalam menentukan siswa yang paling layak menerima bantuan pendidikan berdasarkan karakteristik sosial ekonomi dari masingmasing kelompok.
Model ini membantu dalam pengambilan keputusan yang lebih objektif dan tepat sasaran.
Hasil pengelompokkan siswa ke dalam masing-masing klaster dapat dilihat pada Tabel 6.
Table 6.
Anggota dari masing-masing klaster status sosial ekonomi Klaster 0 Klaster 1 Klaster 2 Menengah Rendah Tinggi APF.
CP.
KKI.
ZNF.
ZJP.
RF.
WRN.
RNR.
RN.
MDF.
NA.
MS.
BDA.
HDP.
MAA.
NPS.
RNP.
SER.
RMA.
ALN
UIK.
AN.
AS,
VES.
ZAK
AAT.
FSD.
HA,
MDY.
MSO.
SWR,
ZA.
ZR.
VNP,
Untuk memahami pola pengelompokan siswa berdasarkan status sosial ekonominya, dilakukan proses clustering menggunakan algoritma K-Means dengan jumlah klaster sebanyak tiga .
= .
Seluruh data yang digunakan sebelumnya telah dinormalisasi agar berada dalam skala yang seragam.
Agar hasil pengelompokan lebih mudah divisualisasikan secara dua dimensi, diterapkan teknik Principal Component Analysis (PCA) untuk mereduksi dimensi data dari enam variabel menjadi dua komponen utama, yaitu PCA Komponen 1 (PCA.
dan PCA Komponen 2 (PCA.
Kedua komponen ini mewakili variansi terbesar dari seluruh data dan mampu mempertahankan sebagian besar informasi penting.
Hasil scatter plot dua dimensi dapat dilihat pada Gambar 1.
Progresif: Vol.
No.
Agustus 2025: 483-494 Progresif e-ISSN: 2685-0877 Gambar 1.
Visualisasi clustering K-Means dengan PCA Gambar 1 menunjukkan hasil visualisasi dari proses pengelompokan menggunakan algoritma K-Means Clustering yang direduksi ke dalam dua dimensi melalui teknik Principal Component Analysis (PCA).
Proses ini dilakukan untuk menyederhanakan visualisasi dari enam variabel utama menjadi dua komponen utama, yakni PCA Komponen 1 dan PCA Komponen 2, yang secara kolektif mewakili variansi terbesar dalam dataset.
Setiap titik pada scatter plot merepresentasikan satu siswa, yang diwarnai berdasarkan hasil klasterisasi:
Cluster 0 berwarna biru yang merepresentasikan kelompok siswa dengan status sosial ekonomi menengah.
Distribusi titik-titik dalam klaster ini tersebar di wilayah kanan bawah hingga tengah atas plot.
Cluster 1 berwarna hijau yang menggambarkan siswa dengan indikasi status sosial ekonomi yang lebih tinggi, ditandai oleh posisi yang cenderung mengarah ke kuadran kanan atas dari plot.
Cluster 2 berwarna oranye yang merupakan kelompok siswa dengan status sosial ekonomi yang lebih rendah, dengan konsentrasi titik yang terkonsentrasi di sisi kiri grafik.
Tanda X menunjukkan posisi centroid dari masing-masing klaster, yang menjadi pusat dari kelompok berdasarkan karakteristik data.
Jarak antar centroid yang cukup signifikan memperkuat validitas pemisahan antar klaster.
2 Pengukuran Validasi Efektifitas Kinerja Algoritma Validasi efektivitas algoritma K-Means Clustering dalam proses pengelompokan dilakukan menggunakan metrik Silhouette Score, yaitu salah satu ukuran evaluasi yang umum dipakai untuk menilai kualitas klaster.
Silhouette score menggambarkan seberapa dekat data dalam suatu klaster terhadap data lain dalam klaster yang sama dibandingkan dengan klaster Rentang silhouette score berada antara -1 hingga 1, di mana nilai mendekati 1 menandakan bahwa objek berada dalam klaster yang sangat sesuai, sedangkan nilai mendekati 0 mengindikasikan bahwa objek berada di batas antara dua klaster.
Nilai negatif menandakan kemungkinan bahwa objek telah salah diklasifikasikan ke dalam klaster yang tidak tepat.
Berdasarkan hasil pengujian yang dilakukan terhadap data yang telah dinormalisasi dan dikelompokkan menggunakan algoritma K-Means dengan jumlah klaster sebanyak tiga .
, diperoleh silhouette score rata-rata sebesar 0.
Nilai ini menunjukkan bahwa struktur klaster yang terbentuk berada dalam kategori cukup baik, di mana mayoritas data berada pada posisi yang tepat dalam klasternya masing-masing, meskipun terdapat beberapa data yang berada di dekat batas antar klaster.
Hasil pengukuran dapat divisualisasikan melalui silhouette plot yang dapat dilihat pada Gambar 2.
Penerapan K-Means Clustering dalam Segmentasi a.
Dewi Eka Putri e-ISSN: 2685-0877 Gambar 2.
Visualisasi Silhouette Score dengan Silhouette Plot Gambar 2 memberikan gambaran visual sebaran silhouette score untuk masing-masing Plot ini menunjukkan bahwa ukuran dan kepadatan masing-masing klaster relatif bervariasi, namun secara umum masih mempertahankan kohesi internal yang memadai.
Garis vertikal merah pada grafik menunjukkan silhouette score rata-rata keseluruhan.
Dengan demikian, berdasarkan nilai Silhouette Score dan hasil visualisasinya, dapat disimpulkan bahwa algoritma K-Means berhasil melakukan pengelompokan data dengan struktur yang cukup jelas dan terpisah antar klaster, sehingga dapat diterima sebagai metode segmentasi yang valid untuk membantu SMP Negeri 1 Lunang dalam mengelompokkan siswa yang berhak menerima bantuan pendidikan secara lebih tepat sasaran.
3 Pembahasan Penelitian ini berhasil menerapkan algoritma K-Means clustering pada data siswa SMP Negeri 1 Lunang berdasarkan variabel sosial ekonomi seperti penghasilan orang tua, pekerjaan, jumlah tanggungan, jarak ke sekolah, bantuan lain, dan surat keterangan tidak mampu.
Hasil segmentasi mengelompokkan siswa ke dalam tiga klaster yang representatif yaitu rendah, menengah, dan tinggi untuk status sosial ekonomi.
Visualisasi dalam bentuk scatter plot berbasis PCA dan pembuktian kinerja menggunakan Silhouette Score memperlihatkan bahwa klaster terbentuk dengan cukup baik dan dapat menjadi dasar valid untuk penyaluran bantuan pendidikan secara tepat sasaran.
Penelitian sebelumnya meneliti segmentasi siswa SMK berdasarkan prestasi akademik dan kehadiran menggunakan K-Means .
, sementara pada penelitian ini meneliti segmentasi siswa SMP yang fokus pada bantuan pendidikan menggunakan K-Means karena belum banyak penelitian khusus pada tingkat SMP untuk distribusi bantuan berdasarkan analisis sosial Penelitian sebelumnya memanfaatkan kombinasi variabel sosial ekonomi dan psikologi .
otivasi, stres, akses interne.
untuk membentuk 3 klaster .
, sementara pada penelitian ini menggunakan kombinasi variabel dari sisi sosial ekonomi dan akses pendidikan dengan membentuk 3 klaster.
Penelitian sebelumnya menggunakan K-Means untuk mengukur tingkat keterlibatan siswa dalam pembelajaran online yang divalidasi dengan Silhouette Score .
, sementara pada penelitian ini menggunakan kombinasi visualisasi PCA dan metrik Silhouette Score memberikan gambaran yang lebih solid terkait efektivitas klasterisasi sehingga langsung dapat dimanfaatkan oleh pihak sekolah untuk merancang strategi distribusi bantuan pendidikan yang lebih objektif.
Simpulan Penelitian ini berhasil menerapkan algoritma K-Means clustering untuk mengelompokkan siswa berdasarkan indikator sosial ekonomi, seperti penghasilan dan pekerjaan orang tua, jumlah tanggungan, bantuan sosial, surat keterangan tidak mampu, dan jarak rumah ke sekolah.
Proses normalisasi data dan pemrosesan lanjutan dengan PCA menghasilkan visualisasi klaster yang Progresif: Vol.
No.
Agustus 2025: 483-494 Progresif e-ISSN: 2685-0877 jelas, yang kemudian divalidasi menggunakan nilai Silhouette Score sebesar 0,2592, menandakan bahwa pemisahan antar klaster berada dalam kategori cukup baik.
Hasil ini menunjukkan bahwa algoritma K-Means efektif dalam mengidentifikasi tiga kelompok utama siswa: status sosial ekonomi rendah, menengah, dan tinggi.
Klasterisasi ini dapat digunakan sebagai dasar dalam pengambilan keputusan yang lebih objektif untuk penyaluran bantuan pendidikan secara tepat sasaran di lingkungan sekolah.
Secara spesifik, kontribusi utama penelitian ini terletak pada penerapan unsupervised learning untuk membantu kebijakan distribusi bantuan sosial di jenjang pendidikan menengah, yaitu SMP.
Penelitian ini juga memperluas pendekatan segmentasi siswa dengan mempertimbangkan faktor geografis .
arak ke sekola.
, yang masih jarang digunakan dalam studi Dengan demikian, hasil penelitian tidak hanya memperkuat efektivitas metode K-Means dalam konteks pendidikan, tetapi juga memberikan pendekatan praktis berbasis data yang relevan bagi pengelola sekolah khususnya SMP Negeri 1 Lunang.
Namun demikian, penelitian ini masih memiliki keterbatasan, terutama pada jumlah sampel yang relatif kecil dan belum adanya validasi lapangan atas keakuratan klaster yang Selain itu, penelitian ini belum mengkaji dimensi temporal, seperti perubahan kondisi sosial ekonomi siswa dari waktu ke waktu.
Oleh karena itu, penelitian selanjutnya direkomendasikan untuk melibatkan dataset yang lebih besar, memperluas cakupan sekolah atau wilayah, serta mengintegrasikan pendekatan lokasi untuk mengamati dinamika status sosial ekonomi siswa secara berkala.
Penggunaan metode clustering lain seperti DBSCAN atau Agglomerative Clustering juga dapat menjadi bahan pembanding untuk menguji hasil Daftar Referensi .
Firdani.
Wibowo, dan B.
Lubis.
AuSistem Pendukung Keputusan Penerimaan Bantuan dari Pemerintah untuk Siswa Tidak Mampu dengan Metode Simple Additive Weighting (SAW) pada SMP Permata Depok,Ay METHODIKA, vol.
11, no.
1, pp.
20Ae29, 2025, doi: doi.
org/10.
46880/mtk.
Abrianto.
AuApplication of K-Means Clustering Algorithm for Determining PIP Scholarship Recipients at SMPN 9 Blitar,Ay JOSAR, vol.
9, no.
1, pp.
204Ae214, 2024, doi:
org/10.
35457/josar.
Dawous.
Oktaviany, dan M.
Ashari.
AuDana Bos Dan Pemerataan Layanan Pendidikan Dasar Di Daerah Timur Indonesia,Ay J.
Al Burhan Staidaf, vol.
2, no.
2, pp.
32Ae41, 2022, [Darin.
Tersedia pada: https://jurnal.
id/index.
php/jab/article/view/79.
Lubis.
Pangaribuan.
Ahmad, dan S.
Arif.
AuKebijakan Pemerataan dan Perluasan Akses Pendidikan dan Dampaknya Terhadap Sekolah Swasta,Ay Syntax Lit.
Ilm.
Indones.
, vol.
6, no.
7, pp.
6172Ae6182, 2022, [Darin.
Tersedia pada:
https://jurnal.
id/index.
php/syntax-literate/article/view/7135.
P dan M.
Qibtiyah.
AuPemanfaatan Algoritma K-Means Clustering dalam Penentuan Prioritas Penerima Program Bantuan Sosial Pendidikan,Ay J.
Inform.
dan Komput.
Inform.
dan Komput.
, vol.
15, no.
2, pp.
68Ae76, 2024, [Darin.
Tersedia pada:
https://journal.
id/index.
php/jik/article/view/386.
Ivan.
AuEvaluasi Kebijakan Bantuan Pendidikan (Program Indonesia Pintar/Bantuan Operasional Sekola.
dalam Mengatasi Anak Tidak Sekolah (ATS) dan Peningkatan Angka Partisipasi Kasar/Angka Partisipasi Murni (APK/APM) di Indonesia,Ay J.
Transform.
Adm.
, vol.
14, no.
01, pp.
80Ae92, 2024, doi: 10.
59098/talim.
Sahila.
Maesaroh, dan Baharuddin.
AuEfektivitas program bantuan operasional sekolah dalam meningkatkan akses pendidikan,Ay Idarah Tarb.
Manag.
Islam.
Educ.
, vol.
5, no.
307Ae315, 2024, doi: 10.
32832/itjmie.
Batuk.
Baitanu.
Atu, dan Y.
Benu.
AuEvaluasi Pemberian Bantuan Pendidikan bagi Siswa Siswi Kurang Mampu,Ay J.
Stud.
Multidisipliner, vol.
8, no.
6, pp.
159Ae162, 2024, [Darin.
Tersedia pada: https://oaj.
com/index.
php/jsm/article/view/3279.
Fauzan.
Witanti, dan F.
Umbara.
AuPrediksi Bantuan Operasional Raudhatul Athfal di Tingkat Kabupaten Menggunakan Metode Support Vector Machine Ae Regression,Ay JATI (Jurnal Mhs.
Tek.
Inform.
, vol.
9, no.
1, pp.
773Ae779, 2025, doi:
org/10.
36040/jati.
Sandiva.
Defit, dan G.
Nurcahyo.
AuImplementasi Algoritma C4.
5 untuk Prediksi Penerima Beasiswa Program Indonesia Pintar,Ay J.
KomtekInfo, vol.
11, no.
4, pp.
354Ae362.
Penerapan K-Means Clustering dalam Segmentasi a.
Dewi Eka Putri e-ISSN: 2685-0877 2024, doi: 10.
35134/komtekinfo.
Agustin dan A.
Bahtiar.
AuImplementasi Algoritma Nayve Bayes Terhadap Penerima Kartu Indonesia Pintar,Ay JATI (Jurnal Mhs.
Tek.
Inform.
, vol.
8, no.
2, pp.
1521Ae1528, 2024, doi:
36040/jati.
Prayudha.
Kurniawan.
Wijaya, dan U.
Hayati.
AuAlgoritma K-Means untuk Meningkatkan Model Klasterisasi Data Siswa SMK Samudra Nusantara Kabupaten Cirebon Berdasarkan Nilai Akademik,Ay JATI (Jurnal Mhs.
Tek.
Inform.
, vol.
9, no.
1, pp.
1314Ae1321, 2025, doi: doi.
org/10.
36040/jati.
Indriati.
Suharyani Azisa.
Ivo Sihombing, dan Z.
Sukma Dewi Mokodompit.
AuImplementasi Algoritma K-Means Clustering Untuk Pengelompokan Status Penerima Kip Kuliah Mahasiswa Universitas Papua,Ay JATI (Jurnal Mhs.
Tek.
Inform.
, vol.
7, no.
6, pp.
3458Ae3463, 2023, doi: 10.
36040/jati.
Nahak.
Tedy.
Siki.
Ngaga.
Jando, dan S.
Mau.
AuImplementasi Metode MOORA dalam Sistem Pendukung Keputusan bagi Calon Penerima Beasiswa Program Indonesia Pintar di SMPN Satu Atap Nununamat,Ay KONSTELASI Konvergensi Teknol.
dan Sist.
Inf.
, vol.
4, no.
1, pp.
83Ae98, 2024, doi: 10.
24002/konstelasi.
Peling.
Ariawan, dan G.
Subiksa.
AuAnalisis Cluster Mahasiswa Penerima Beasiswa dengan Metode K-means dan SAW,Ay Sist.
Sist.
Inf.
, vol.
13, no.
4, pp.
1334Ae 1343, 2024, doi: doi.
org/10.
32520/stmsi.
Suarna.
Rahaningsih, dan A.
Suarna.
AuOptimalisasi Prestasi Akademik Siswa Melalui Pengelompokan Indeks Prestasi dengan K-Means Clustering,Ay J.
Kecerdasan Buatan dan Teknol.
Inf.
, vol.
4, no.
198Ae207, 2025, doi:
org/10.
69916/jkbti.
Srirahmawati.
Purnamasari.
Bahtiar, dan E.
Tohidi.
AuPengelompokan Prestasi Akademik Siswa SD Menggunakan Algoritma K-Means,Ay JIRE (Jurnal Inform.
Rekayasa Elektron.
, vol.
8, no.
1, pp.
80Ae86, 2025, doi: doi.
org/10.
36595/jire.
Salsabila.
Susilo, dan N.
Daulay.
AuMetode Hybrid Dalam Pengelompokkan Kemampuan Calistung Siswa Berbasis Machine Learning,Ay J.
Informatics Manag.
Inf.
Technol.
, vol.
5, no.
2, pp.
112Ae119, 2025, doi: 10.
47065/jimat.
Mukhsyi.
Purnamaari.
Bahtiar, dan Kaslani.
AuImproving Student Achievement Clustering Model Using K-Means Algorithm in Pasundan Majalaya Vocational School,Ay J.
Artif.
Intell.
Eng.
Appl.
, vol.
4, no.
2, hal.
977Ae985, 2025, doi: doi.
org/10.
59934/jaiea.
Iqbal.
Sipayung.
Sinaga, dan P.
Hasugian.
AuAnalysis of Student Achievement with K-Means on Socioeconomic .
Behavioral , and Psychological Factors,Ay J.
Info Sains Inform.
dan Sains, vol.
14, no.
04, pp.
715Ae728, 2024, doi:
54209/infosains.
Kim.
Cho.
Kim, dan D.
Kim.
AuStatistical Assessment on Student Engagement in Asynchronous Online Learning Using the k-Means Clustering Algorithm,Ay Sustain.
, vol.
3, pp.
1Ae14, 2023, doi: 10.
3390/su15032049.
Progresif: Vol.
No.
Agustus 2025: 483-494