PENERAPAN ALGORITMA K-MEANS DALAM KLASIFIKASI JUMLAH
PENDUDUK JAKARTA SELATAN
Reynold Julian Tamba1.
Aries Suharso2.
Purwantoro 3 Universitas Singaperbangsa Karawang Jl.
HS.
Ronggo Waluyo.
Puseurjaya.
Telukjambe Timur.
Karawang.
Jawa Barat 41361 E-mail : 1910631170226@student.
id1, aries.
suharso@staff.
masbro@staff.
ABSTRAK
Penelitian ini merupakan sebuah studi kasus yang dilakukan di Ditjen Kependudukan dan Pencatatan Sipil dengan tujuan untuk mengelompokkan jumlah penduduk berdasarkan kecamatan dan jenis kelamin, dan metode yang digunakan adalah algoritma K-Means.
Hasil evaluasi dengan menggunakan metode silhouette coefficient menunjukkan bahwa K-Means merupakan algoritma terbaik karena memperoleh nilai 0.
Dalam penelitian ini, terdapat 39 jenis kepadatan penduduk yang dianalisis, di mana 6 tergolong dalam kelompok rendah .
, 20 berada dalam kelompok menengah .
, 8 kelompok menengah .
, dan 6 yang paling tinggi .
Penelitian ini memberikan kontribusi penting dalam penentuan jumlah naik atau turunnya kepadatan penduduk setiap tahunnya.
Kata kunci : Algoritma K-Means.
Data Mining.
Silhouette coefficient ABSTRACTS This research is a case study conducted at the Directorate General of Population and Civil Registration with the aim of grouping the population based on sub-district and gender, and the method used is the K-Means algorithm.
The evaluation results using the silhouette coefficient method show that K-Means is the best algorithm because it obtained a value of 0.
In this study, there were 39 types of population density analyzed, of which 6 were classified as low .
, 20 were in the middle group .
, and 8 were middle group .
, and 6 were the highest .
This research makes an important contribution in determining the amount of increase or decrease in population density each year.
Keywords: Algorithm K-Means.
Data Mining.
Silhouette coefficient PENDAHULUAN Pertumbuhan penduduk memiliki tujuh konsekuensi negatif (Kumalasari, 2.
, yaitu dampak terhadap ketimpangan pendapatan, lingkungan, kesehatan, pendidikan, pasokan pangan dan migrasi Perencanaan yang terstruktur dengan baik diperlukan oleh pemerintah untuk menghindari dampak buruk yang mungkin terjadi akibat pertumbuhan penduduk yang tidak diantisipasi dan diperhitungkan sebelumnya, serta agar pertumbuhan tersebut dapat meningkatkan kualitas suatu wilayah.
Penerapan Teknik Data Mining Menggunakan Algoritma K-Means pada data Kependudukan merupakan masalah sosial yang dihadapi oleh hampir setiap negara.
Kepadatan Penduduk tidak hanya menjadi masalah bagi pemerintah pusat, tetapi juga menjadi masalah serius bagi pemerintah daerah.
Masalah padatnya penduduk yang dihadapi pemerintah sangat erat kaitannya dengan pendapatan yang rendah dan ketidakmampuan untuk memenuhi kebutuhan dasarnya.
Pendapatan yang rendah menyebabkan kurangnya akses ke pendidikan dan fasilitas pemerintah lainnya.
Demikian juga pendapatan daerah yang rendah menyebabkan distribusi pendapatan masyarakat berkurang.
Tujuan dari penelitian ini untuk menerapkan data mining dengan menggunakan algoritma K-Means dalam Jumlah Penduduk Jakarta Selatan.
Penelitian ini akan dilakukan menggunakan analisis cluster dengan metode K-Means.
METODE PENELITIAN
Tahapan penelitian yang menerapkan metodologi Knowledge Discovery in Database (KDD).
terdiri dari enam tahapan yaitu Selection Data .
eleksi dat.
Preprocessing Data .
emrosesan dat.
Transformation Data .
ransformasi dat.
Data Mining.
Evaluation Data .
, dan Knowledge 134 | I T B A D i a n C i p t a C e n d i k i a Presentation .
Alur penelitian dilakukan dengan beberapa tahapantahapan didalamnya sebagai berikut :
Data Selection Tahapan pertama yaitu pengumpulan dan seleksi Dataset yang digunakan adalah informasi data kepadatan penduduk di Kota Jakarta.
Data Preprocessing Tahapan kedua yaitu menentukan banyaknya cluster dari dataset yang digunakan, data ini diperoleh langsung dari Dukcapil Kota Jakarta.
Dilakukan pembersihan data atau yang disebut dengan data cleaning yang digunakan untuk menghilangkan duplikasi data dan missing value.
Data Mining Pada tahap ketiga proses ini menggunakan algoritma K-means untuk menghitung jarak euclidean antar objek dengan pusat.
Data Transformation Proses transformasi dilakukan apabila pada tabel dataset terdapat data yang kategorial .
on numeri.
maka data tersebut akan diganti menjadi data yang numeric sesuai kebutuhan Data Evaluation Pada tahap kelima dilakukan pengujian hasil dari tahap data mining yang digunakan, pada penelitian ini untuk menguji hasil dengan menggunakan metode Untuk melihat seberapa baik untuk digunakan dalam penelitian ini.
Knowledge Presentation Tahapan pertama yaitu pengumpulan dan seleksi data .
ata selectio.
Dataset yang digunakan adalah informasi data kepadatan penduduk yang bersumber dari Dukcapil Kota Jakarta Selatan.
Data yang digunakan untuk dilakukan penelitian ini pada tahun 2019,2021,2022 dan 2023.
Kecamatan Jagakarsa Laki-Laki Perempuan Jumlah Tahun Pasar Minggu Cilandak Pesanggrahan Kebayoran Lama Kebayoran Baru Mampang Prapatan Pancoran Tebet Setiabudi Jagakarsa Pasar Minggu Cilandak Pesanggrahan Kebayoran Lama Kebayoran Baru Mampang Prapatan Pancoran Tebet Setiabudi Tebet Setiabudi Mampang Prapatan Pasar Minggu Kebayoran Lama Cilandak Kebayoran Baru Pancoran Jagakarsa Pesanggrahan Tebet Setiabudi Mampang Prapatan Pasar Minggu Kebayoran Lama Cilandak Kebayoran Baru Pancoran Jagakarsa Pesanggrahan Gambar 3.
1 Data Selection 2 Data Preprocessing Pada tahap keenam terbentuknya cluster sebagai informasi atau pengetahuan yang dilakukan pada penelitian ini, yang akan divisualisasikan dengan menggunakan google colaboratory sehingga informasi dan pengetahuan akan lebih mudah HASIL DAN PEMBAHASAN Hasil dari penelitian yang telah dilakukan adalah melakukan pengelompokan tingkat kepadatan penduduk berdasarkan cluster rendah dan tinggi di Kota Jakarta Selatan menggunakan teknik clustering dan algoritma K-Means.
sebagai metode standar dalam data mining untuk mengolah data mentah yang didapatkan dari hasil observasi, dengan tahapan-tahapan yakni : Seleksi data.
Cleaning data.
Transformation data.
Proses data mining (Clusterin.
, dan Pengujian data.
1 Sub Bab Setelah tahap seleksi data .
ata selectio.
dilakukan, tahap selanjutnya masuk kedalam tahap Pre-Processing Data yang dilakukan yaitu data atau Data Cleaning.
Dalam tahap ini dilakukan penghapusan data yang tidak sesuai dengan kebutuhan penelitian, dimana proses tersebut menghilangkan Noise Data atau Missing Values.
Data yang menjadi Missing Value karena terdapat atribut yang tidak memiliki nilai, sehingga perlu dilakukan Pre-Processing Data agar mendapatkan dataset yang bersih dan siap untuk Pada data yang bersumber dari Dukcapil Kota Jakarta Selatan tidak perlu karena data tersebut sudah siap pakai dan sudah berbentuk angka jadi tidak perlu di preprocessing lagi.
3 Data Transformation Pada tahapan ini, melakukan proses transformasi 135 | I T B A D i a n C i p t a C e n d i k i a data (Transformasi Dat.
jika pada tabel dataset terdapat data yang kategorial .
on numeri.
akan diganti menjadi data yang numeric sesuai kebutuhan dalam penelitian namun setelah dilakukan seleksi data dan pembersihan.
Peneliti tidak menemukan data-data yang semestinya di 4 Data Mining Setelah selesai melakukan tahap Transformation Data, berikutnya data dapat masuk ke dalam penerapan data mining.
Teknik data mining yang digunakan pada penelitian ini yaitu dengan k-means menggunakan metode elbow pada tools Google Colaboratory.
KESIMPULAN DAN SARAN
1 Kesimpulan Berdasarkan penelitian yang telah dilakukan maka dapat diambil kesimpulan sebagai berikut.
Penerapan algoritma K-Means mampu kepadatan penduduk di Jakarta Selatan pada tahun 2019,2021,2022 dan 2023 berdasarkan jenis kelamin.
Pada pengelompokkan tingkat kepadatan penduduk di Jakarta Selatan didapatkan sebanyak 39 jenis kepadatan penduduk masuk ke dalam cluster 0 yang merupakan tingkat rendah, terdapat 20 jenis yang masuk ke dalam cluster 1, terdapat 8 jenis kepadatan yang masuk ke dalam cluster 2, 6 jenis yang masuk ke dalam cluster 3 yang merupakan tingkat tinggi terjadinya kasus kepadatan penduduk.
Jadi untuk tiap tahun dan kota itu memiliki cluster yang berbeda, fitur yang paling berpengaruh pada hasil cluster adalah jumlah penduduk wanita, pria dan jumlah keseluruhan.
Dan peneliti melihat setiap tahunnya pada setiap kota/kecamatan di Jakarta Selatan itu mengalami penurunan.
2 Saran Dari hasil penelitian yang telah dilakukan, maka terdapat saran yang dapat digunakan pada penelitian selanjutnya yaitu:
Diharapkan di penelitian selanjutnya dapat menambahkan jumlah dataset yang lebih banyak, dikarenakan dengan semakin banyaknya data yang digunakan, maka akan semakin berpengaruh untuk mendekati tujuan yang ingin dicapai.
Pada menggunakan algoritma atau metode clustering lainnya dalam melakukan Penelitian berikutnya dapat menggunakan tools lain dalam melakukan proses data mining dengan kemampuan yang tepatada bagian ini, nomer bab penutup akan menyesuaikan seberapa jumlah bab pada bagian isi penelitian.
Kesimpulan berisikan jawaban dari penelitian Tersebut, serta saran pengembangan untuk penelitian Judul bab terakhir ini juga dibuat seragam: Kesimpulan.
DAFTAR PUSTAKA