Institute of Research and Publication Indonesia MALCOM: Indonesian Journal of Machine Learning and Computer Science Journal Homepage: https://journal. id/index. php/malcom Vol. 1 Iss. 1 April 2021, pp: 1-6 P-ISSN: 2797-2313 E-ISSN: 2775-8575 Implemnetation of K-Means Algorithm for Economic Distribution Clustering Base on Demographics of Population Implementasi Algoritma K-Means untuk Pengelompokan Distribusi Sosial Ekonomi Masyarakat Berdasarkan Demografi Kependudukan Desi Syaputri1. Puji Herwina Noprita2. Siti Romelah3 Departemen of Information System. Faculty of Science and Technology. UIN Sultan Syarif Kasim Riau. Indonesia Departement of Computer Engineering and Netwoking. Vocational High School of 1 Rejotangan. Tulungagung. East Java. Indonesia E-Mail: 1desi. saputri@gmail. com, 2pujiherwina@gmail. com, 3trisula58@gmail. Received December 07th 2020. Revised January 13th 2021. Accepted February 20th 2021 Corresponding Author: Desi Syaputri Abstract In the development process, one of the issues that must be considered is population-related, several factors that influence this, including the number, composition and distribution of the population. Population is a very dominant factor in the implementation of development, because the population is not only the target but also the executor of development. Demographic characteristics of the population used to determine the socio-economic conditions of the population in an area include the number of children, occupation, income, age, number of dependents, assets owned, home ownership status, and the amount of monthly expenses. Based on the demographic characteristics of the population, the public can find out how the socio-economic relations exist in the housing area. This study applies the k-means clustering algorithm to perform statistical analysis and machine learning to classify the socio-economic distribution of residential communities against the pattern of socio-economic relationships with population demographics. K-means is a data grouping method that leads to the division of N objects of observation into K groups . where each object of observation belongs to a group with the closest centroid value. Several experiments were carried out by applying the k-means clustering algorithm, in order to obtain the best experimental results. with the number of clusters = 4 with a DBI value of 0. Keyword: Socio-Economic. Social Distribution of Housing. Communities. K-Means. Abstrak Dalam proses pembangunan, salah satu masalah yang harus diperhatikan adalah terkait kependudukan, beberapa faktor yang mempengaruhi hal tersebut diantaranya yaitu jumlah, komposisi dan distribusi penduduk. Penduduk merupakan faktor yang sangat dominan dalam pelaksanaan pembangunan, karena penduduk tidak hanya menjadi sasaran namun juga menjadi pelaksana dari pembangunan. Karakteristik demografi penduduk masyarakat yang digunakan untuk mengetahui sosial ekonomi penduduk di suatu wilayah diantaranya adalah jumlah anak, pekerjaan, penghasilan, umur, jumlah tanggungan, aset yang dimiliki, status kepemilikan rumah, serta jumlah pengeluaran perbulannya. Berdasarkan karakteristik demografi penduduk tersebut, masyarakat dapat mengetahui bagaimana hubungan sosial ekonomi yang ada di kawasan perumahan Penelitian ini menerapkan algoritma k-means clustering untuk melakukan analisis dalam statistik dan mesin pembelajaran untuk mengelompokkan distribusi sosial ekonomi masyarakat perumahan terhadap pola hubungan antara sosial ekonomi dengan demografi penduduk. K-means merupakan metode pengelompokkan data yang mengarah pada pembagian N objek pengamatan ke dalam K kelompok . dimana setiap objek pengamatan yang dimiliki oleh sebuah kelompok dengan nilai centroid terdekat Dilakukan beberapa percobaan dengan menerapkan algoritma k-means clustering, sehingga diperoleh hasil percobaan terbaik dengan jumlah cluster = 4 dengan nilai DBI 0,87. Kata Kunci: Distribusi Sosial Ekonomi Sosial Ekonomi Masyarakat Perumahan. K-Means. Link: https://journal. id/index. php/malcom/article/view/5 MALCOM-1. : 1-6 PENDAHULUAN Dalam proses pembangunan, salah satu masalah yang harus diperhatikan adalah terkait kependudukan, beberapa faktor yang mempengaruhi hal tersebut diantaranya yaitu jumlah, komposisi dan distribusi penduduk. Penduduk merupakan faktor yang sangat dominan dalam pelaksanaan pembangunan, karena penduduk tidak hanya menjadi sasaran namun juga menjadi pelaksana dari pembangunan. Keberhasilan proses pembangunan bergantung pada sedikit banyaknya jumlah penduduk di suatu wilayah, selain itu juga ditentukan oleh kualitas sumber daya tersebut dan ketersediaan sumber daya lain. Banyak perubahan yang terjadi yang diakibatkan oleh pembangunan tersebut, diantaranya seperti perubahan penggunaan lahan dan perubahan lainnya terkait sosial dan ekonomi, seperti jumlah penduduk, pendapatan, migrasi, fasilitas dan pelayanan sosial, serta menjadi penyebab adanya tingkat perkembangan sosial ekonomi dan demografi peri-urban . Kedudukan atau posisi seseorang dalam kelompok masyarakat yang ditentukan oleh jenis aktivitas ekonomi, tingkat pendapatan, tingkat pendidikan, rumah tinggal dan jabatan dalam organisasi disebut dengan sosial ekonomi. Sosial ekonomi dapat diukur berdasarkan tingkat penghasilan keluarga . ingkat pendapata. , tingkat pendidikan, kedudukannya didalam masyarakat dan keadaan rumah tinggal . Selain kebutuhan sandang dan pangan, tempat tinggal juga merupakan kebutuhan mendasar manusia. Dalam ilmu ekonomi, tiga kebutuhan tersebut dapat disebut juga dengan kebutuhan primer atau kebutuhan pokok. Lingkungan tempat tinggal yang baik dan sehat merupakan kebutuhan dasar yang penting untuk dipenuhi. Pembangunan perumahan yang semakin banyak hadir di lingkungan masyarakat memudahkan masyarakat untuk mendapatkan tempat tinggal yang layak huni. Adanya hubungan sosial ekonomi dengan demografi penduduk membantu masyarakat untuk mengetahui bagaimana kelompok masyarakat yang tinggal dikawasan perumahan tersebut . Karakteristik demografi penduduk masyarakat yang digunakan untuk mengetahui sosial ekonomi penduduk di suatu wilayah diantaranya adalah jumlah anak, pekerjaan, penghasilan, umur, jumlah tanggungan, aset yang dimiliki, status kepemilikan rumah, serta jumlah pengeluaran perbulannya. Berdasarkan karakteristik demografi penduduk tersebut, masyarakat dapat mengetahui bagaimana hubungan sosial ekonomi yang ada di kawasan perumahan tersebut. Namun yang menjadi permasalahan adalah ketika buruknya kondisi demografi dan sosial ekonomi masyarakat dapat berpengaruh terhadap kondisi perekonomian wilayah tersebut dan berujung pada kemiskinan, sehingga perlu dilakukan sebuah pengelompokkan data untuk analisis lebih lanjut. Salah satu teknik pengelompokkan data yang dikenal dalam data mining adalah teknik k-means clustering . Berdasarkan penelitian terdahulu yang dilakukan oleh Suprawoto mengenai klasifikasi data mahasiswa, metode k-means mampu memberikan hasil cluster terbaik dan memiliki hasil yang signifikan. Data yang digunakan dalam penelitian ini adalah data masyarakat perumahan yang diperoleh melalui penyebaran kuisioner. Penyebaran kuisioner dibatasi hanya untuk masyarakat dengan kategori kepemilikan tempat tinggal berupa perumahan type 36 di 12 perumahan terpilih yang ada di Kota Pekanbaru, yaitu Perumahan Asabri (Pana. Nugraha Perdana Lestari (Pana. Pinang Kencana (Pana. Graha Rawa Bangun (Pana. Perdana Limbungan (Rumba. Citra Sari (Rumba. Kompleks GTI (Rumba. Berdikari (Kuli. Bumi Tangor Lestari (Kuli. Mutiara Kulim Permai (Kuli. Perumahan Pesona Jati Asri (Bukit Ray. Peputra Jaya (Bukit Ray. Hal ini dapat mempermudah sensus kependudukan sosial ekonomi masa Oleh karena itu, penelitian ini akan melakukan penerapan metode k-means clustering untuk mengelompokkan distribusi sosial ekonomi masyarakat perumahan terhadap pola hubungan antara sosial ekonomi dengan demografi penduduk berdasarkan hasil analisis cluster. Hasil dari penelitian yang dilakukan akan menghasilkan beberapa manfaat diataranya adalah untuk mengetahui dan memvisualisasikan kondisi kependudukan dalam bentuk grafik pemetaan, sehingga dapat lebih mudah dalam memahami karakteristik disekitar objek. Penelitian ini juga dapat memberikan rekomendasi kepada pemerintah dalam pengambilan kebijakan terhadap masyarakat dalam bidang sosial ekonomi di wilayah Kota Pekanbaru. BAHAN DAN METODE Beberapa tahapan dari penelitian ini terdiri atas tahap perencanaan, pengumpulan data, pre-processing data, pemrosesan data dan analisis. Tahap perencanaan adalah tahapan yang dilakukan saat akan memulai penelitian, dengan cara menentukan topik penelitian dan merumuskan masalah yang dapat diperoleh dari penelitian terdahulu terkait topik yang diminati untuk diteliti lebih lanjut. Selanjutnya tahap pengumpulan data, yaitu tahap yang dilakukan untuik memperoleh data yang akan digunakan dalam penelitian. Pengumpulan data dilakukan dengan cara menyebarkan kuisioner kepada masyarakat Kota Pekanbaru yang bertempat tinggal di wilayah perumahan. Setelah mendapatkan data yang dibutuhkan, selanjutnya dilakukan tahap pre-pocessing dengan melakukan pembersihan terhadap data duplikat, data kosong dan noise untuk mendapatkan data yang baik, setelah itu dilakukan pula proses transformasi dan normalisasi data untuk dilanjutkan ke tahap pemrosesan data. Tahap pemrosesan data dilakukan dengan menerapkan metode k-means clustering untuk mengelompokkan distribusi sosial ekonomi masyarakat perumahan berdasarkan demografi kependudukan di Kota Pekanbaru. Tahapan akhir dilakukan analisis terhadap hasil pengelompokkan data tersebut. Metode penelitian yang dilakukan dalam penelitian ini secara rinci dapat dilihat pada Gambar 1. Clustering The Socio-Economic Distribution of Housing. (Syaputri et al, 2. ISSN(P): 2797-2313 ISSN(E): 2775-8575 Mulai Pengumpulan Data Validasi Data Transformasi Data Pengelompokan Data: K-Means Clustering Validitas Cluster: DBI Analisis Data Selesai Gambar 1. Metodologi Penelitian Data Mining Data mining merupakan proses untuk mendapatkan informasi yang bermanfaat yang diperoleh dari gudang basis data yang besar . Pengertian lain dari data mining yaitu sebuah proses pengekstrakan informasi baru yang diambil dari bongkahan data besar yang dapat membantu dalam pengambilan kebijakan, dapat disebut juga sebagai knowladge discovery . K-Means Clustering Metode k-means clustering merupakan metode pengelompokan data iteratif yang melakukan partisi set data ke dalam sejumlah k cluster yang sudah ditentukan. Metode k-means clustering bersifat sederhana untuk diimplementasikan dan dijalankan, relatif cepat, mudah beradaptasi dan umum digunakan . Berikut ini merupakan persamaan yang dapat digunakan untuk menentukan jumah cluster: k = Oo2 Dengan: k = Klaster n = Jumlah data Berikut persamaan yang dapat digunakan untuk pengukuran jarak: = || x-y |. = ocycuycn=1. cuycn Oe ycyc. Dengan: d= Euclidian Distance x= data y= Pusat cluster Davies-Bouildien Index (DBI) DBI merupakan salah satu teknik yang dapat digunakan untuk mengukur validitas cluster dalam pengelompokan data. Kohesi dapat diartikan sebagai jumlah dari kedekatan data ke titik centroid dari cluster yang diikuti. Sementara pemisahan didasarkan pada jarak antara titik centroid ke cluster. DBI pada validitas cluster dianggap menghasilkan skema clustering yang optimum apabila memiliki nilai DBI minimal . Demografi Penduduk Penduduk merupakan sejumlah orang yang bermukim di suatu wilayah tertentu yang berasal hasil dari proses-proses demografi yaitu fertilitas, mortalitas dan migrasi. Penduduk merupakan pelaku dan juga sasaran dalam pembangunan, sehingga data penduduk merupakan data pokok yang perlu diketahui karakteristiknya. MALCOM - Vol. 1 Iss. 1 April 2021, pp: 1-6 MALCOM-1. : 1-6 diantaranya yaitu kuantitas, distribusi, komposisi dan kualitas. Hal ini bertujuan untuk mengetahui potensi maupun kebutuhan yang diperlukan dalam rangka menuju subyek yang berkualitas . HASIL DAN ANALISIS Kriteria penentu yang digunakan sebagai pendukung hasil akhir pengelompokkan data distribusi sosial ekonomi masyarakat perumahan di wilayah Kota Pekanbaru berdasarkan demografi kependudukan diantaranya adalah Usia. Pendidikan Terakhir. Agama. Pekerjaan. Penghasilan. Pengeluaran. Status Perkawinan. Asuransi Kesehatan. Jumlah Anak. Jumlah Anggota Keluarga Bekerja. Jumlah Tanggungan. Aset yang dimiliki. Perumahan. Kecamatan. Kelurahan. Status Kepemilikan Rumah dan Lama Tinggal. Data yang digunakan bersumber dari data masyarakat di 12 Perumahan terpilih yang ada di Kota Pekanbaru pada tahun 2018. Eksperimen K-Means Pengumpulan data dilakukan selama 30 Hari dengan menyebarkan kuesioner kepada 300 penduduk di Kota Pekanbaru. Teknik pengumpulan data dilakukan dengan pendekatan random sampling dengan melibatkan 12-30 warga dalam setiap perumahan kemudian dikumpulkan untuk dilakukan validasi data Badan Pusat Statistik (BPS) Kota Pekanbaru. Selanjutnya dilakukan pre-processing data dengan cara pembersihan data, transformasi dan normalisasi data dengan tujuan untuk menghasilkan data yang baik untuk digunakan dalam proses pengolahan data. Sebelum dilakukan normalisasi, terlebih dahulu tentukan nilai maksimal dan nilai minimal setiap kriteria kemudian dilakukan proses normalisasi menggunakan rumus min-max normalization. Langkah selanjutnya adalah menentukan jumlah cluster, adapun jumlah cluster yang digunakan terdiri dari 5 cluster. Kemudian dilakukan proses pengolahan data dengan pemberian nilai centroid yang dilakukan secara acak menggunakan algoritma k-means clustering dengan penentuan jarak menggunakan Euclidean Distance. Menentukan Jarak Euclidean Distance Menentukan jarak dari setiap data input terhadap masing-masing titik centroid dilakukan menggunakan persamaan Euclideon Distance sehingga dihasilkan jarak yang paling dekat dari setiap data centroid. Hasil dari perhitungan jarak menggunakan rumus Eucledien Distance dapat dilihat pada Tabel 1. Tabel 1. Hasil Perhitungan Jarak Menggunakan Persamaan Euclidean Responden R01 R02 R03 R04 R05 R06 R07 R08 R09 R10 R11 R12 R13 R14 R15 R16 R17 R18 R19 R240 1,6350 0,0000 1,5262 1,7335 2,2954 1,6502 2,0485 1,4259 1,8008 1,0108 1,1150 2,0928 1,7390 1,0696 1,8955 1,7125 1,8018 1,9534 1,9836 2,0150 1,8724 2,0485 1,1009 2,3692 2,8807 1,7858 0,0000 1,7973 1,4519 2,1176 1,6456 1,8617 1,9330 1,8783 1,9891 1,5493 2,3317 2,5816 2,2805 3,0242 Hasil Cluster 1,4084 2,0928 1,5105 2,1080 2,3537 1,7589 1,8617 1,5678 1,9077 1,8688 1,7025 0,0000 1,5324 1,6893 1,5998 1,6496 2,2391 2,3085 2,2901 2,9111 1,3554 1,7125 1,2507 1,9212 2,6355 1,5195 1,5493 1,3669 1,3603 1,6880 1,0852 1,6496 1,3066 1,3842 1,5350 0,0000 1,9202 2,0030 1,2154 2,3047 2,0136 1,9836 1,8395 1,8744 2,6823 2,0013 2,2805 2,0025 1,7620 1,8742 1,6858 2,2901 1,4586 1,8553 2,0174 1,2154 2,0481 2,1170 0,0000 1,8059 Nilai Min Cluster 1,3554 0,0000 1,1009 1,7335 2,2954 1,5195 0,0000 1,3669 1,3603 1,0108 1,0852 0,0000 1,3066 1,0696 1,5350 0,0000 1,8018 1,9534 0,0000 3,2611 Hasil Pengelompokan Dalam proses perhitungan metode k-means clustering dilakukan beberapa percobaan dengan menggunakan 3, 4 dan 5 cluster. Hasil percobaan 5 cluster menghasilkan jumlah anggota cluster 1 sebanyak 20 anggota cluster, cluster 2 sebanyak 114 anggota cluster, cluster 3 sebanyak 80 anggota cluster, cluster 4 sebanyak 18 anggota cluster dan cluster 5 sebanyak 8 anggota cluster. Hasil percobaan algoritma k-means clustering untuk 5 cluster dapat dilihat pada Gambar 2. Clustering The Socio-Economic Distribution of Housing. (Syaputri et al, 2. ISSN(P): 2797-2313 ISSN(E): 2775-8575 Hasil Percobaan 5 Cluster Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Gambar 2. Hasil Percobaan 5 Cluster Hasil percobaan 4 cluster menghasilkan jumlah cluster 1 sebanyak 80 anggota cluster, cluster 2 sebanyak 114 anggota cluster, cluster 3 sebanyak 8 anggota cluster dan cluster 4 sebanyak 38 anggota cluster. Hasil percobaan algoritma k-means clustering untuk 4 cluster dapat dilihat pada Gambar 3. Hasil Percobaan 4 Cluster Cluster 1 Cluster 2 Cluster 3 Cluster 4 Gambar 3. Hasil Percobaan 4 Cluster Hasil percobaan 3 cluster menghasilkan jumlah anggota cluster 1 sebanyak 121 anggota cluster, cluster 2 sebanyak 39 anggota cluster dan cluster 3 sebanyak 80 anggota cluster. Hasil percobaan algoritma k-means clustering untuk 3 cluster dapat dilihat pada Gambar 4. Hasil Percobaan 3 Cluster Cluster 1 Cluster 2 Cluster 3 Gambar 4. Hasil Percobaan 3 Cluster Berdasarkan beberapa percobaan yang dilakukan memghasilkan nilai validitas cluster sebagai acuan pengelompokan terbaik menggunakan teknik DBI. Nilai validitas dari masing-masing percobaan dapat dilihat pada Tabel 2. MALCOM - Vol. 1 Iss. 1 April 2021, pp: 1-6 MALCOM-1. : 1-6 Tabel 2. Percobaan K-Means Clustering Berdasarkan Validitas Cluster DBI Percobaan Jumlah Cluster 5 Jumlah Cluster 4 Jumlah Cluster 3 Cluster 1 0,66 0,69 0,33 Cluster 2 0,31 0,87 0,45 Cluster 3 0,22 0,77 0,71 Cluster 4 0,82 0,83 Cluster 5 0,34 Dari percobaan tersebut dapat disimpulkan bahwa percobaan dengan jumlah cluster = 4 merupakan komponen percobaan terbaik dengan formulasi pada cluster 2 dengan nilai DBI sebesar 0,87. Sedangkan dari hasil analisis keadaan lapangan berdasarkan peneglompokan dan validasi data yang dilakukan menggambarkan beberapa kesimpuan awal yaitu akibat dari pesatnya pembangunan di lingkungan masyarakat dengan tingkat ekomoni dibawah rata-rata. KESIMPULAN Kesimpulan yang didapat berdasarkan hasil pengelompokkan data distribusi sosial ekonomi masyarakat perumahan di wilayah Kota Pekanbaru berdasarkan demografi kependudukan yang dilakukan menggunakan metode k-means clustering dengan percobaan 3, 4 dan 5 cluster menggunakan teknik validasi DBI, diperoleh cluster paling optimal yaitu dengan menerapkan 4 cluster dengan nilai validitas DBI yang diperoleh adalah 0,87 dan dilakukan sebanyak 1000 kali iterasi. Pola hubungan antara sosial ekonomi terhadap demografi penduduk masyarakat perumahan di Kota Pekanbaru dapat dilihat dari rata-rata penduduk dengan pendidikan terakhir SMA memiliki penghasilan yang rendah. Selain itu, ada pula penduduk yang memiliki pendidikan terakhir S1 memiliki penghasilan yang rendah pula. Cluster tersebut didominasi oleh warga dengan pendidikan terakhir SMA, mayoritas warga bekerja sebagai Karyawan Swasta dengan penghasilan rata-rata 1. Penelitian ini membuktikan bahwa adanya pola hubungan antara distribusi sosial ekonomi masyarakat perumahan dengan demografi kependudukan yang diperoleh dari hasil pengelompokkan yang dilakukan menggunakan metode k-means clustering. REFERENSI