Jurnal Teknik Komputer AMIK BSI Volume 10.
No.
Juli 2024 P-ISSN 2442-2436.
E-ISSN: 2550-0120
Akreditasi Ristekdikti.
No: 36/E/KPT/2019 (Sinta .
DOI: 10.
31294/jtk.
Hal.
Clustering Penduduk Kurang Mampu Di Desa Mekar Baru Menggunakan Algoritma K-Means Egy Andryan1.
Asrul Abdullah2*.
Putri Yuli Utami3 Teknik Informatika.
Universitas Muhammadiyah Pontianak.
Indonesia gmadzaky@gmail.
*e-mail: asrul.
abdullah@unmuhpnk.
e-mail: 181220053@unmuhpnk.
Diterima 10-08-2024 Direvisi 14-08-2024 Disetujui 15-08-2024 Abstrak - Kemiskinan merupakan masalah yang telah lama ada dan belum berhasil diselesaikan oleh pemerintah.
Meskipun berbagai upaya, seperti program bantuan sosial tunai (BLT), telah dilakukan, masih terdapat tantangan dalam pelaksanaannya.
Salah satu kendala yang dihadapi pemerintah daerah di Desa Mekar Baru adalah ketidak merataan dan ketidaktepatan sasaran dalam distribusi bantuan sosial.
Algoritma K-Means, yang merupakan salah satu algoritma paling populer dan sederhana, digunakan untuk mengelompokkan data penduduk kurang mampu menjadi beberapa klaster.
Berdasarkan hasil evaluasi, diperoleh empat klaster: klaster 1 .
angat tidak mamp.
dengan 114 data .
,8% dari total dat.
, klaster 0 .
angat mamp.
dengan 89 data .
,8%), klaster 3 .
dengan 83 data .
,8%), dan klaster 2 .
angat mamp.
dengan 23 data .
,4%).
Klaster tersebut diurutkan dari yang memiliki jumlah terbesar hingga terkecil.
Penelitian ini bertujuan untuk mengembangkan sebuah aplikasi yang dapat mengidentifikasi klaster dari dataset yang dianalisis menggunakan metode K-Means.
Kata Kunci: Maching Learning, klastering.
K-means.
Penduduk Kurang mampu Abstract - Poverty is a longstanding issue that the government has yet to resolve.
Despite various efforts, such as the cash transfer program (BLT), challenges persist in its implementation.
One of the difficulties faced by local governments in Desa Mekar Baru is the uneven and inaccurate distribution of social assistance.
The K-Means algorithm, known for its simplicity and popularity, is used to cluster data on low-income residents into several Based on the evaluation results, four clusters were identified: Cluster 1 .
ery poo.
with 114 data points .
8% of the tota.
Cluster 0 .
ery affluen.
with 89 data points .
8%).
Cluster 3 .
with 83 data points .
8%), and Cluster 2 .
ery affluen.
with 23 data points .
4%).
These clusters are ranked from the largest to the The goal of this study is to develop an application that can identify the clusters obtained from the dataset using the K-Means method.
Keywords: Analytic Hierarchy Process.
Decision Support System.
Product
PENDAHULUAN
Kemiskinan adalah salah satu masalah yang telah lama dihadapi oleh pemerintah, namun belum sepenuhnya terselesaikan.
Berbagai upaya telah dilakukan, salah satunya melalui program Bantuan Sosial Tunai (BLT), yang bertujuan untuk mengurangi beban ekonomi masyarakat miskin.
Namun, meskipun bantuan ini disalurkan, masih terdapat banyak tantangan dalam proses distribusinya.
Salah satu permasalahan yang sering terjadi adalah penyaluran bantuan yang tidak merata dan tidak tepat sasaran.
Hal ini terutama disebabkan oleh pendataan yang tidak akurat dan sistem distribusi yang masih manual.
Berdasarkan wawancara dengan Ketua RT Desa Mekar Baru.
Bapak Ahmad, diketahui bahwa pendataan di desa ini masih dilakukan secara manual menggunakan Microsoft Excel, yang mengakibatkan lambatnya proses penentuan penerima bantuan(Suhartini & Yuliani, 2.
Untuk mengatasi masalah ini, dibutuhkan sebuah sistem yang lebih efisien dan akurat.
Sistem berbasis web diharapkan dapat membantu dalam proses penentuan penerima bantuan sosial dengan lebih cepat dan tepat.
Dengan adanya sistem ini, diharapkan bantuan dapat disalurkan kepada mereka yang benarbenar ketidakmerataan dan ketidaktepatan sasaran dapat diminimalisir (Arianto, 2.
http://ejournal.
id/ejurnal/index.
php/jtk This work is licensed under a Creative Commons Attribution-ShareAlike 4.
0 International License Jurnal Teknik Komputer AMIK BSI.
Volume 10.
No.
Juli 2024 P-ISSN 2442-2436.
E-ISSN: 2550-0120
Dalam konteks ini, data mining dapat digunakan untuk mengklasifikasikan penduduk berdasarkan tingkat kemampuan ekonominya.
Salah satu metode data mining yang efektif untuk tugas ini K-Means Clustering.
Metode ini digunakan untuk mengelompokkan data penduduk ke dalam beberapa klaster berdasarkan kemiripan data mereka.
Dengan metode ini.
Kantor Desa Mekar Baru dapat mengidentifikasi kelompok-kelompok penduduk yang paling membutuhkan bantuan, sehingga bantuan sosial dapat disalurkan dengan lebih tepat sasaran(Filki.
Metode K-Means Clustering dipilih karena memiliki tingkat akurasi yang baik dan dapat menangani data dalam jumlah besar dengan efisien.
Algoritma K-Means adalah bagian dari kelompok Unsupervised Learning yang digunakan untuk membagi data ke dalam beberapa klaster berdasarkan karakteristik tertentu.
Dalam penelitian ini, penulis mengaplikasikan algoritma K-Means pada data penduduk kurang mampu di Desa Mekar Baru.
Data yang digunakan mencakup 1.
432 penduduk dari tahun 2022 yang diperoleh dari Kantor Kepala Desa(Suhartini & Yuliani, 2.
Penelitian mengembangkan sebuah aplikasi web yang dapat mengklasifikasikan penduduk kurang mampu berdasarkan metode K-Means.
Dengan adanya aplikasi ini, diharapkan dapat membantu Kantor Desa Mekar Baru dalam menyalurkan bantuan sosial dengan lebih tepat dan efektif, sehingga masalah kemiskinan dapat ditangani dengan lebih baik.
Data mining Data Mining adalah suatu siklus yang memanfaatkan setidaknya satu prosedur pembelajaran PC untuk memeriksa dan memisahkan informasi secara alami atau serangkaian siklus untuk menghilangkan nilai tambah dari kombinasi informasi sebagai informasi yang sebelumnya tidak jelas secara fisik.
Lantaran itu Data Mining sebenarnya mempunyai akar yang panjang berdasarkan bidang ilmu seperti kecerdasan buatan .
rtificial intelligen.
, machine learning, statistik dan database.
Data mining adalah sebuah proses untuk menentukan korelasi pada pola, dan tren baru yang bermakna dengan memilah-milah data dalam jumlah sangat besar yang disimpan di dalam repositori, menggunakan teknologi pengenalan pola serta teknik statistik dan matematika.
Data mining adalah proses menemukan sebuah pola dan pengetahuan menarik dari data dalam jumlah yang sangat besar(Nabila et al.
, 2.
Algoritma K-Means Proses membagi sampel yang sama menjadi beberapa kelompok atau klaster yang sesuai disebut dengan clustering, yang merupakan sub bab dari data Menemukan struktur dalam data yang sebelumnya tidak diketahui adalah tujuan dari Ada banyak perhitungan Bunching yang dapat diakses, seperti K-Means.
Algoritma yang paling sederhana dan paling banyak digunakan.
K-Means, mengatur data ke dalam cluster yang telah ditentukan (Rafi Nahjan et al.
, 2.
Metode elbow Kelompok pembelajaran tanpa pengawasan mencakup algoritma Clustering K-Means, yang menggunakan sistem partisi untuk membagi data menjadi beberapa kelompok.
Pembelajaran mandiri merupakan perhitungan penggalian informasi untuk mencari desain dari seluruh faktor (SKS), faktor .
yang tujuan/nilai/kelasnya tidak jelas .
idak Perhitungan K-Means merupakan prosedur pengelompokan berbasis jarak yang memartisi informasi menjadi beberapa kelompok dan perhitungan ini hanya berhubungan dengan bilangan atau sifat numerik (Nabila et al.
, 2.
Tentukan jumlah klaster menggunakan metode elbow untuk menemukan titik optimal.
Pilih pusat klaster secara acak, tetapi dalam penelitian ini, pusat klaster ditentukan dari urutan tertinggi hingga Hitung jarak antara data dan pusat klaster menggunakan Euclidean Distance:
ycu ycc.
cuyc , ycayc ) = Oc o .
cuyc Oe ycayc ) 2 A A A A A A A A .
yc=1 Keterangan :
d = jarak xj = Data ke-j cj = centroid ke-j Tempatkan data pada klaster terdekat, lalu hitung ulang pusat klaster.
Ulangi Data Tidak berubah.
METODE PENELITIAN Berikut ini adalah tahapan-tahapan yang akan peneliti gambarkan melalui alur metode penelitian pada Gambar 1 yang di bawah ini:
Clustering Penduduk Kurang Mampu Di Desa Mekar Baru Menggunakan Algoritma K-Means Jurnal Teknik Komputer AMIK BSI.
Volume 10.
No.
Juli 2024 P-ISSN 2442-2436.
E-ISSN: 2550-0120
Sumber : Hasil Penelitian, 2023 Gambar 1.
Metodologi Penelitian Identifikasi Masalah Identifikasi masalah dan merumuskan masalah pada penelitian untuk bertujuan mengatasi masalah yang di alami kantor Desa Mekar baru agar pemberian bantuan sosial kepada masyarakat kurang mampu dibagikan sangat tepat.
Pengumpulan Data Pengumpulan data dalam penelitian ini mencakup data penduduk kurang mampu di Desa Mekar Baru.
Proses pengumpulan data dilakukan melalui tiga tahapan:
pertama, observasi langsung untuk memahami masalah yang ada.
kedua, wawancara dengan pihak RT, yaitu Bapak Ahmad, untuk mendapatkan data primer mengenai penduduk kurang mampu melalui survei dan pengamatan langsung.
ketiga, studi pustaka untuk memperkuat penelitian dengan mengacu pada buku dan jurnal yang relevan, khususnya terkait metode Clustering K-Means untuk menentukan jumlah klaster Implementasi dan Pengujian Proses Data Mining: Setelah dataset diperoleh, langkah awal yang dilakukan adalah proses data mining menggunakan metode Knowledge Discovery in Database (KDD), di mana preprocessing dilakukan untuk mempersiapkan dataset sebelum dilatih oleh model guna menentukan jumlah klaster.
Perancangan Web: Pada tahap ini, penulis mendesain UI dan mengembangkan aplikasi web menggunakan bahasa pemrograman Python.
Clustering Algoritma K-Means: Algoritma K-Means, yang termasuk dalam kelompok Unsupervised learning, digunakan untuk mengelompokkan data ke dalam beberapa kelompok berdasarkan sistem partisi.
Unsupervised learning adalah metode data mining yang mencari pola dari semua variabel tanpa menentukan target atau label.
Pengujian: Tahap ini melibatkan pengujian klaster menggunakan metode cohessian dan separation.
Cohessian diukur dengan menghitung semua objek dalam sebuah klaster, sementara separation diukur dengan menghitung jarak rata-rata setiap objek dalam klaster dengan klaster terdekat, menggunakan rumus Euclidean distance.
Pengujian Pengujian yang saat ini menggabungkan metode pemisahan dan kohesi adalah pengujian cluster.
Jumlah objek dalam sebuah cluster dihitung untuk menentukan kohesi, dan jarak rata-rata antara masing-masing objek dalam sebuah cluster dan cluster terdekat digunakan untuk menentukan pemisahan.
Jarak antar informasi ditentukan dengan menggunakan persamaan jarak Euclidean.
Penyusunan laporan Laporan akhir penelitian ditulis dengan menggunakan kerangka kerja yang mencakup pendahuluan, landasan teori, metodologi penelitian, analisis, implementasi dan Egy Andryan.
Asrul Abdullah.
Putri Yuli Utami pengujian sistem, penutup, serta lampiran hasil Berdasarkan tabel ini untuk menjelaskan jenis kriteria penduduk kurang mampu pada tabel 3.
yang di bawah ini:
Tabel 1.
Tabel Kriteria penduduk kurang mampu KRITERIA
KETERANGAN
Jenis kelamin Jenis kelamin pada kepala keluarga.
Umur
Wni
Menentukan umur
Apakah asli Indonesia
atau tidak Jenis pekerjaan Apakah memiliki pekerjaan yang tetap Kepemilikan rumah
Memiliki tempat tinggal
sendiri atau sewa
Jenis lantai Memiliki jenis lantai yang ditinggali Jenis atap
Memiliki jenis atap
yang ditinggali Jenis dinding Memiliki jenis dinding yang ditinggali Jenis bahan bakar
Memiliki jenis bahan bakar memasak yang Sumber air
Memiliki sumber air
yang layak untuk digunakan sehari-hari Jumlah kendaraan Memiliki jumlah kendaraan yang cukup Penghasilan per bulan Penghasilan yang diperoleh per bulan Pendidikan Apakah pendidikan tamat atau tidak ASN
Apakah menjadi pegawai negeri atau KTP
Apakah penduduk pindahan atau penduduk Sumber : Penelitian 2023
HASIL DAN PEMBAHASAN
Bab ini berisi uraian tentang hasil, analisis dan pengujian aplikasi clustering penduduk kurang mampu di Desa Mekar Baru menggunakan Algoritma Kmeans.
Pengujian ini akan mencari hasil cluster terbaik menggunakan silhouete score.
Hasil Preprocessing Pada tahapan ini akan dilakukan preprocessing merupakan proses untuk mempersiapkan data sebelum dilatih oleh model.
Berikutnya yaitu proses Label Encoding.
Jurnal Teknik Komputer AMIK BSI.
Volume 10.
No.
Juli 2024 P-ISSN 2442-2436.
E-ISSN: 2550-0120
Label Encoding merupakan proses mengonversi datadata kategorial menjadi numerik.
Berikut Gambar 5.
proses label encoding.
Sumber: Penelitian 2023 Gambar 2.
Label Encoding Berdasarkan Gambar 2 di atas maka proses label encoding untuk mengubah data kategorial ke numerik agar dapat mudah dipahami oleh model.
Berikutnya yaitu proses missing value.
Missing value merupakan kondisi dimana ada satu atau sejumlah data tidak tersedia atau hilang dalam sebuah set data.
Berikut ini adalah informasi terkait missing value dari semua fitur pada Gambar 3 di bawah ini.
Pada Gambar 4 diatas dapat dilihat nilai korelasi antar atribut dalam skala warna.
Angkat di dalam kotak-kotak adalah nilai korelasi.
Maka nilai korelasi maka nilai tertinggi atribut KTP dan ASN dengan nilai 0,57.
Nilai korelasi mendekati 1 menunjukkan korelasi negatif dan nilai mendekati 0 korelasi lemah.
Terakhir Ouliter.
Outlier atau bisa juga dikenal dengan anomali ini merupakan sebuah data atau observasi yang menyimpang secara ekstrem dari rata-rata sekumpulan data yang ada.
Penyimpanan ini bisa berupa angkanya terlalu tinggi atau terlalu rendah.
Cara untuk melihat data outlier bisa dengan box plot seperti Gambar 5 dibawah ini.
Sumber: Penelitian 2023 Gambar 3.
Informasi Missing Value Berdasarkan Gambar 5.
2 diatas adalah kategori mana saja yang terdapat missing value.
Setelah melakukan analisis terdapat missing value, dapat dilihat bahwa ada data yang hilang yaitu jenis kelamin, jumlah pendapatan, jenis lantai.
Setelah itu ada kerangka koneksi.
Dibandingkan dengan penelitian sebelumnya, matriks korelasi digunakan untuk meningkatkan akurasi.
Matriks korelasi digunakan untuk mencari kumpulan data untuk atribut-atribut yang berkorelasi dan dapat Visualisasi correlation matrix dapat dilihat pada gambar 4 di bawah ini.
Sumber: Penelitian 2023 Gambar 5.
Informasi Missing Value Pada Gambar 5 di atas merupakan hasil dari penanganan menggunakan nilai median pada data umur tanpa ubah data apa pun agar tidak merusak atau mempengaruhi data lainya.
Implementasi Untuk mencari nilai yang ideal, dilakukan strategi perampingan dengan menggunakan teknik siku untuk mencari jumlah tandan terbaik.
Berikutnya adalah efek samping dari estimasi SSE sehubungan dengan pengujian kualitas k=2 hingga k=10.
Tabel 2.
Tabel Kriteria penduduk kurang mampu Sumber: Penelitian 2023 Gambar 4.
Correlation Matrix
K10
Sumber: Penelitian 2023 Dari perhitungan SSE metode elbow pada Tabel 5.
Di atas didapatkan nilai SSE yang tertinggi terdapat pada nilai k=4.
Sehingga jumlah cluster terbaik yang dibentuk sejumlah 4 cluster.
Clustering Penduduk Kurang Mampu Di Desa Mekar Baru Menggunakan Algoritma K-Means Jurnal Teknik Komputer AMIK BSI.
Volume 10.
No.
Juli 2024 P-ISSN 2442-2436.
E-ISSN: 2550-0120
Sumber: Penelitian 2023 Gambar 6.
Informasi Missing Value Berdasarkan Gambar 6 di atas dapat dilihat bahwa pada k=4 mengalami penurunan jika dibandingkan jumlah k lainnya.
Jumlah cluster selain k=4 mengalami penurunan yang stabil.
Maka dapat ditentukan jumlah cluster optimal yang terbentuk 4 Pilih pusat Cluster secara acak.
Pemilihan pusat klaster dapat dilakukan dengan berbagai cara, yang paling sering dilakukan adalah secara acak.
Dengan menentukan 4 cluster maka dipilih centroid awal atau pusat cluster yaitu data ke 9 sebagai pusat cluster 1, data ke 14 sebagai pusat cluster 2, data ke 41 sebagai pusat cluster 3 dan data ke 114 sebagai pusat pusat cluster 4 yang akan digunakan untuk perhitungan iterasi ke-1.
Tabel 2.
Menentukan pusat centroid awal.
agian kir.
Da centr um w k a 1.
,1,2,2,1,1,2,1,2,2,2,2,2,.
ke centroid awal.
Menghitung data ke centroid:
Melakukan perhitungan jarak terhadap jumlah penduduk kurang mampu dengan data pertama ke titik centroid cluster pertama.
Data .
= .
A .
A .
A .
A .
A .
A .
A .
A .
A .
A .
A .
A .
A .
A = 21.
Dan dihitungkan terus sampai dengan Data 309.
Melakukan perhitungan jarak terhadap jumlah penduduk kurang mampu dengan data pertama ke centroid cluster kedua.
Data .
= .
A .
A .
A .
A .
A .
A .
A .
A .
A .
A .
A .
A .
A .
A = 9.
Dan dihitungkan terus sampai dengan Data 309.
Perhitungan jarak jumlah penduduk kurang mampu dengan data pertama ke centroid cluster ketiga.
Data .
= .
A .
A .
A .
A .
A .
A .
A .
A .
A .
A .
A .
A .
A .
A =2.
Dan dihitungkan terus sampai dengan Data 309.
Perhitungan jarak jumlah penduduk kurang mampu dengan data pertama ke centroid ke empat.
Data .
= .
A .
A .
A .
A .
A .
A .
A .
A .
A .
A .
A .
A .
A .
A =2.
Tabel berikut akan dibuat setelah seluruh data penduduk kurang mampu dari data 1 sampai dengan data 309 dihitung untuk setiap pusat klaster pada iterasi pertama dengan menggunakan rumus Euclidien Distance, di antaranya:
Tabel 4.
Hasil Perhitungan Jarak Semua Data Ke Pusat Cluster Pada Iterasi 1 Sumber : Penelitian 2023 Estimasi pemisahan dari informasi 1 ke tempat grup sesuai persamaan pada 4.
6 di atas.
Berikutnya adalah ilustrasi perhitungan antar informasi Egy Andryan.
Asrul Abdullah.
Putri Yuli Utami Jarak Clu Terde Sumber : Penelitian 2023 Tabel 3.
Menentukan pusat centroid awal.
agian kana.
PP JL TT SA BBM JD JA KDRAN Jurnal Teknik Komputer AMIK BSI.
Volume 10.
No.
Juli 2024 P-ISSN 2442-2436.
E-ISSN: 2550-0120
a a a AA a a a AA a a.
Sumber : Penelitian 2023 Setelah masing-masing informasi dimasukkan ke dalam kelompok terdekat dan hasilnya diketahui pada penekanan pertama, maka tempat kelompok yang lain akan dihitung ulang berdasarkan berapa banyak informasi yang ada.
Untuk mendapatkan komunitas grup lain untuk C2.
C3 dan C4, lakukan sesuai perhitungan C1 di atas.
Hasil estimasi perolehan tempat grup baru pada penekanan kedua adalah sebagai berikut:
Tabel 5.
Pusat Cluster Baru Untuk Iterasi Ke-2.
agian kir.
Wni khususnya tabel 4 untuk tempat kelompok baru pada tabel 5 dan 6.
Perhitungan untuk menentukan tempat kelompok baru dilakukan seperti pada model di atas.
sampai tandannya tidak berubah lagi maka estimasi Penentuan Hasil Klaster yang Stabil: Pada tahap ini, perhitungan dihentikan pada iterasi kedua karena data penduduk tidak mengalami perubahan pada iterasi Hasil Pengelompokan Algoritma K-Means: Halaman ini menampilkan hasil pengelompokan menggunakan algoritma K-Means, yang memvisualisasikan klaster yang dihasilkan.
Dataset yang digunakan diperoleh dari Kantor Desa Mekar Baru, dan hasilnya dapat dilihat pada Gambar 7.
Sumber : Penelitian 2023 Tabel 6.
Pusat Cluster Baru Untuk Iterasi Ke-2.
agian BBM
KDR
1E-05
E-08
Sumber : Penelitian 2023 Sumber: Penelitian 2023 Gambar 7.
Hasil Pengelompokan Penelitian melakukan perhitungan dengan menggunakan persamaan untuk menghitung jarak antar data pada K-means menggunakan rumus Euclidiance Distance.
Pada halaman ini ditampilkan hasil jumlah cluster yang menghasilkan 4 cluster.
Untuk lebih jelasnya dapat dilihat.
Gambar 8 di bawah ini.
Sumber: Penelitian 2023 Gambar 8.
Hasil Pengelompokan Berdasarkan Gambar 7 di atas maka menunjukkan anggota penduduk pada setiap cluster dengan nilai k=4.
Dimana dari jumlah 309 data penduduk menjadi anggota pada cluster 1 sejumlah 114 anggota penduduk, cluster 0 sejumlah 89 anggota penduduk, cluster 3 sejumlah 83 anggota penduduk dan cluster 2 anggota sejumlah 23 penduduk.
Pada tahapan berikutnya yaitu integrasi cara menyimpan dan menggunakan model yang disimpan.
Menyimpan pemodelan ipynb yang dibangun ke dalam file csv menggunakan Library Python dengan code di bawah ini.
df = pd.
read_csv ('dpkm.
csv', index_col=.
Hasil Halaman Profile Pada halaman ini ditampilkan biodata penulis dari pembangunan website yaitu berisi tentang Nama.
Nim.
Age.
Addres.
Serta menampilkan sebuah kelebihan.
Untuk lebih jelasnya Halaman Profile dapat dilihat Gambar 9 dibawah ini.
Pada Tabel 5 dan 6 di atas akan dilakukan estimasi ke depannya dari setiap informasi populasi.
Clustering Penduduk Kurang Mampu Di Desa Mekar Baru Menggunakan Algoritma K-Means Jurnal Teknik Komputer AMIK BSI.
Volume 10.
No.
Juli 2024 P-ISSN 2442-2436.
E-ISSN: 2550-0120
Sumber: Penelitian 2023 Gambar 9.
Halaman Profile Berikutnya Hasil halaman home Pada halaman ini ditampilkan hasil dari pembangunan website yaitu berisi beberapa informasi tentang manfaat penerimaan bantuan, halaman home dapat dilihat Gambar 10 di bawah ini.
Sumber: Penelitian 2023 Gambar 10.
Halaman Home Evaluasi Pada tahap pengujian dengan menggunakan silhouette coeficent bahwa untuk mencari nilai terbaik dalam setiap cluster.
Pada Gambar 11 dibawah ini.
Sumber: Penelitian 2023 Gambar 11.
Hasil Evaluasi Silhoutte Coeficent Berdasarkan Gambar 11, hasil pengujian menunjukkan bahwa kolom 'Cluster' memiliki empat nilai unik, yaitu 1, 0, 3, dan 2, dengan proporsi kemunculan yang berbeda-beda.
Cluster 1, yang mewakili kategori sangat tidak mampu, muncul paling banyak dengan 36.
dari total data.
Cluster 0, yang mewakili kategori sangat mampu, muncul sebanyak 28.
Cluster 3, yang mewakili kategori mampu, muncul sebanyak 26.
sedangkan Cluster 2, yang mewakili kategori sangat mampu, muncul paling sedikit dengan 7.
Hasil ini menggambarkan distribusi dan persentase masingmasing kategori dalam kolom 'Cluster'.
KESIMPULAN
Berdasarkan disimpulkan bahwa penulis berhasil membangun sebuah aplikasi untuk mengidentifikasi cluster dalam dataset menggunakan metode K-Means.
Pengujian dengan silhouette score pada dataset penduduk kurang Egy Andryan.
Asrul Abdullah.
Putri Yuli Utami mampu menghasilkan empat cluster dengan distribusi sebagai berikut: Cluster 1 .
angat tidak mamp.
mencakup 114 data .
8%).
Cluster 0 .
angat mamp.
mencakup 89 data .
8%).
Cluster 3 .
mencakup 83 data .
8%), dan Cluster 2 .
angat mamp.
mencakup 23 data .
4%).
Nilai cluster diurutkan dari yang terbesar hingga terkecil.
Sebagai saran, penelitian selanjutnya disarankan untuk menggunakan dataset yang lebih besar untuk representasi klasterisasi yang lebih akurat, mempertimbangkan metode klasterisasi lain seperti DBSCAN atau hierarchical clustering, dan menambahkan metode validasi tambahan seperti crossvalidation untuk memastikan validitas hasil pengujian.
REFERENSI