Jurnal Riset Sistem Informasi Dan Teknik Informatika (JURASIK) Volume 6 Nomor 1 Februari, pp 244-252 ISSN: 2527-5771/EISSN: 2549-7839 https://tunasbangsa. id/ejurnal/index. php/jurasik Pengelompokkan Sumber Air Minum Dari Air Sungai Menggunakan Metode K-Means Sabrina Biutiqwin Sinaga1. Solikhun2. Dedi Suhendro3 1Mahasiswa Program Studi Sistem Informasi. STIKOM Tunas Bangsa. Pematangsiantar 2,3AMIK Tunas Bangsa. Pematangsiantar 1sabrinabiutiqwinsinaga@gmail. com, 2solikhun@amiktunasbangsa. su@amiktunasbangsa. Abstract River water is one of the most frequently used water by the community and has a multipurpose function for life, one of which is a source of drinking water. However, now we know that the population of river water pollution is very high and it is used as a waste disposal site which causes a lot of river water to be polluted, it can make people susceptible to disease because they consume unhealthy river water. Judging from the data obtained by province, many use river water as a source of drinking water, for this reason the authors conducted a study that aims to classify drinking water sources from river water by province using the K-means Clustering algorithm and will test it with the Rapidminer application, so that Data from 34 provinces will be divided into 3 clusters in which cluster 1 (C. is a high group, cluster 2 (C. is a medium group, and cluster 3 (C. is a low group. The results obtained from this study are C1 with a total of 2 provinces. C2 with a total of 9 provinces. C3 with a total of 23 provinces and the value of the results carried out with the Rapidminer application has the same value. With this research, it is hoped that this can provide information for the government about the data on the grouping of drinking water sources and used as a consideration for overcoming polluted rivers. Keywords: Centroid. Clustering. K-Mean. Mining. Abstrak Air sungai termasuk air yang paling sering digunakan oleh masyarakat dan menjadi fungsi serbaguna bagi kehidupan, salah satunya sebagai sumber air minum. Akan tetapi sekarang ini yang kita ketahui populasi pencemaran air sungai sangat tinggi dan dijadikan tempat pembuangan limbah yang menyebabkan banyak air sungai tercemar, itu dapat membuat masyarakat dengan mudah terkena penyakit karena mereka mengkonsumsi air sungai yang tidak sehat. Dilihat dari data yang diperoleh berdasarkan provinsi banyak yang menggunakan air sungai sebagai sumber air minum, untuk itu penulis melakukan sebuah penelitian yang bertujuan untuk mengelompokkan sumber air minum dari air sungai berdasarkan provinsi dengan menggunakan algoritma K-means Clustering dan akan mengujinya dengan aplikasi Rapidminer, sehingga data dari 34 provinsi tersebut akan dibagi menjadi 3 cluster dimana cluster 1 (C. kelompok yang tinggi, cluster 2 (C. kelompok yang sedang, dan cluster 3 (C. yaitu kelompok yang rendah. Hasil yang diperoleh dari penelitian ini yaitu C1 dengan jumlah 2 provinsi. C2 dengan jumlah 9 provinsi. C3 dengan jumlah 23 provinsi dan nilai hasil yang dilakukan dengan aplikasi Rapidminer bernilai sama. Dengan adanya penelitian ini diharapkan dapat menjadi informasi bagi pemerintah tentang data pengelompokan sumber air minum dan dijadikan sebagai bahan pertimbangan untuk menanggulangi sungai yang tercemar. Kata Kunci: Centroid. Clustering. K-Mean. Mining. PENDAHULUAN Air merupakan sumber kehidupan dan sangat penting bagi manusia . Tanpa air maka manusia juga tidak akan bertahan hidup lebih lama, karena air adalah sumber kehidupan dan tanda dari adanya kehidupan. Air sungai termasuk air yang sering digunakan oleh masyarakat dan menjadi fungsi serbaguna bagi Pengelompokkan Sumber Air Minum Dari Air Sungai dengan K-Means (Sabrina Biutiqwin Sinag. Jurnal Riset Sistem Informasi Dan Teknik Informatika (JURASIK) Volume 6 Nomor 1 Februari, pp 244-252 ISSN: 2527-5771/EISSN: 2549-7839 https://tunasbangsa. id/ejurnal/index. php/jurasik kehidupan salah satunya sebagai sumber air minum. Namun saat ini, populasi pencemaran air sungai sangat tinggi dan digunakan sebagai tempat pembuangan limbah yang menyebabkan banyak air sungai tercemar dan itu dapat membuat masyarakat dengan mudah terkena penyakit karena mereka mengkonsumsi air sungai yang tidak sehat. Sumber pencemaran lingkungan yang terbesar yaitu sering membuang sampah kesungai, limbah rumah tangga, limbah pabrik, bahan organik, bahan anorganik, serta beberapa bahan kimia lainnya yang telah banyak ditemukan dalam air yang di pergunakan. Pemerintah membutuhkan informasi tentang data pengelompokan sumber air minum yang berasal dari sungai berdasarkan provinsi yang mana data tersebut dapat dijadikan sebagai bahan pertimbangan untuk menanggulangi sungai yang tercemar oleh limbah sehingga masyarakat dapat mengkonsumsi air minum yang Dengan adanya penelitian ini diharapkan dapat menjadi informasi bagi pemerintah agar lebih menekankan dan memberi peringatan pada pabrik Ae pabrik dan perusahaan industri yang tidak memiliki tempat pembuangan limbah khusus, kemudian untuk masyarakat agar pemerintah dapat memberikan fasilitas air bersih dan menghimbau masyarakat agar selalu menjaga lingkungan dengan tidak mengalirkan limbah dan sampah ke sungai sehingga terhindar dari berbagai macam penyakit, reboisasi agar dapat membantu mencegah adanya banjir, efisiensi dalam penggunaan air dengan menggunakan air seperlunya saja. METODOLOGI PENELITIAN Adapun diagram alur pada penelitian ini diuraikan dalam rancangan pada dibawah ini: Identifikasi Masalah Teknik Pengumpulan Data Pengolahan Data Transformasi dengan Metode K-means Clustering Olah Data Rapidminer Gambar 1. Alur Perancangan Penelitian HASIL DAN PEMBAHASAN Pengolahan Data Pengolahan data pada penelitian ini menguraikan perhitungan yang digunakan penulis, adapun tahapan yang dilakukan yaitu: Menentukan data k yang akan di cluster sampai cluster R34, berikut adalah hasil dari nilai rata-rata untuk cluster pertama: Pengelompokkan Sumber Air Minum Dari Air Sungai dengan K-Means (Sabrina Biutiqwin Sinag. Jurnal Riset Sistem Informasi Dan Teknik Informatika (JURASIK) Volume 6 Nomor 1 Februari, pp 244-252 ISSN: 2527-5771/EISSN: 2549-7839 https://tunasbangsa. id/ejurnal/index. php/jurasik Tabel 1. Rata-Rata Sumber Air Minum Nama Nilai Rata-Rata Aceh 3,608 Sumatera Utara 3,215 Sumatera Barat 3,284 Riau 2,116 Jambi 7,422 Sumatera Selatan 8,394 Bengkulu 8,394 Lampung 1,192 Kepulauan Bangka Belitung 0,983 Kepulauan Riau 1,075 Papua Barat 10,593 Papua 11,362 Dengan nilai k jumlah cluster centoid awal sumber air minum sebanyak 3 cluster . Cluster yang ditentukan yaitu cluster tinggi, cluster sedang, cluster rendah, seperti table 2 dibawah ini: Tabel 2. Nilai Data Centroid Awal Cluster Nilai Tinggi (Max/C. 30,421 Sedang (Average/C. 5,250 Rendah(Min/C. 0,020 . Menentukan nilai pusat cluster centroid awal . yang telah ditentukan secara random/acak berdasarkan nilai data yang telah di tentukan Adapun nilai cluster dapat dilihat pada tabel 3. 2 di atas. Menghitung jarak antara rata-rata dengan nilai k centroid awal yang telah ditentukan dengan menggunakan rumus perhitungan sebagai berikut: = oc Dimana: = Ukuran Ketidak miripan. Xi = (Xi. X2. ) yaitu variabel centroid awal. Yi = (Yi. Y2. ) yaitu variabel data. Adapun tabel iterasi 1 dapat dilihat pada tabel 3 dibawah ini: Tabel 3. Iterasi 1 No. Nama Aceh Sumatera Utara Sumatera Barat Riau Jambi Sumatera Selatan Bengkulu Nilai Rata-Rata 3,608 3,215 3,284 2,116 7,422 8,394 2,291 26,813 27,206 27,137 28,305 22,999 22,027 28,130 1,642 2,035 1,966 3,134 2,172 3,144 2,959 3,588 3,195 3,264 2,096 7,402 8,374 2,271 Pengelompokkan Sumber Air Minum Dari Air Sungai dengan K-Means (Sabrina Biutiqwin Sinag. Jurnal Riset Sistem Informasi Dan Teknik Informatika (JURASIK) Volume 6 Nomor 1 Februari, pp 244-252 ISSN: 2527-5771/EISSN: 2549-7839 https://tunasbangsa. id/ejurnal/index. php/jurasik No. Nama Nilai Rata-Rata Lampung 1,192 Kepulauan Bangka Belitung 0,983 Kepulauan Riau 1,075 Papua Barat 10,593 Papua 11,362 29,229 29,438 29,346 19,828 19,059 4,058 1,172 4,267 0,963 4,175 1,055 5,343 10,573 6,112 11,342 Mengelompokkan berdasarkan jarak terpendek berdasarkan centroid, seperti tabel 4 dibawah ini: Tabel 4. Jarak Terpendek Iterasi 1 26,813 27,206 27,137 28,305 22,999 22,027 28,130 29,229 29,438 29,346 30,401 25,829 19,828 19,059 Jarak Terpendek Hasil 1,642 3,588 1,642 2,035 3,195 2,035 1,966 3,264 1,966 3,134 2,096 2,096 2,172 7,402 2,172 3,144 8,374 3,144 2,959 2,271 2,271 4,058 1,172 1,172 4,267 0,963 0,963 4,175 1,055 1,055 5,230 0,000 0,000 0,658 4,572 0,658 5,343 10,573 5,343 6,112 11,342 6,112 Sehingga dapat diperoleh hasil cluster iterasi 1 pada tabel 5 seperti dibawah ini: Tabel 5. Hasil Iterasi 1 Cluster Provinsi ,2,3,5, 6,19,22,23,24,26,29,30,32,33,. ,7,8,9,10,11,12,13,14,15,16,17,18,25,27,28 Nilai Hasil . Melanjutkan ke iterasi selanjutnya hingga centroid bernilai sama. Jarak terpendek pada iterasi 2 berdasarkan centroid, seperti tabel 6 dibawah ini: Tabel 6. Jarak Terpendek Iterasi 2 21,914 22,307 22,238 23,406 18,100 3,561 3,954 3,885 5,053 0,253 2,437 2,044 2,113 0,945 6,251 Jarak Terpendek Hasil 2,437 2,044 2,113 0,945 0,253 Pengelompokkan Sumber Air Minum Dari Air Sungai dengan K-Means (Sabrina Biutiqwin Sinag. Jurnal Riset Sistem Informasi Dan Teknik Informatika (JURASIK) Volume 6 Nomor 1 Februari, pp 244-252 ISSN: 2527-5771/EISSN: 2549-7839 https://tunasbangsa. id/ejurnal/index. php/jurasik 17,128 23,231 24,330 A 20,930 14,929 14,160 Jarak Terpendek Hasil 1,225 7,223 1,225 4,878 1,120 1,120 5,977 0,021 0,021 2,577 3,421 2,577 3,424 9,422 3,424 4,193 10,191 4,193 Sehingga dapat diperoleh hasil cluster iterasi 2 pada tabel 7 seperti dibawah ini: Tabel 7. Hasil Iterasi 2 Cluster Provinsi ,6,19,22,23,24,26,30,32,33,. ,2,3,4,7,8,9,10,11,12,13,14,15,16,17,18,25,2 7,28,29,. Nilai Hasil Melanjutkan ke iterasi selanjutnya hingga centroid bernilai sama dan untuk hasil yang bernilai sama penulis melakukan 4 iterasi yang langkah-langkahnya dilakukan seperti iterasi 2. Adapun hasil dari iterasi 3 dan 4 yaitu seperti tabel 8 dan 9 dibawah ini: Tabel 8. Hasil Iterasi 3 Cluster Provinsi ,6,22,23,24,26,30,33,. ,2,3,4,7,8,9,10,11,12,13,14,15,16,17,18,19,2 5,27,28,29,31,. Nilai Hasil Nilai Hasil Tabel 9. Hasil Iterasi 4 Cluster Provinsi ,6,22,23,24,26,30,33,. ,2,3,4,7,8,9,10,11,12,13,14,15,16,17,18,19,2 5,27,28,29,31,. Hasil Percobaan Setelah operator saling berhubungan maka tahap selanjutnya yaitu dengan meng klik simbol play sehingga hasil dari pengelompokan dalam penggunakan Rapidminer dapat dilihat seperti gambar 2 dibawah ini: Gambar 2. Hasil Nilai Cluster Pengelompokkan Sumber Air Minum Dari Air Sungai dengan K-Means (Sabrina Biutiqwin Sinag. Jurnal Riset Sistem Informasi Dan Teknik Informatika (JURASIK) Volume 6 Nomor 1 Februari, pp 244-252 ISSN: 2527-5771/EISSN: 2549-7839 https://tunasbangsa. id/ejurnal/index. php/jurasik Berdasarkan dari pengolahan data di atas mengenai tahap-tahap dari pengolahan dan percobaan yang telah dilakukan maka pada gambar 2 berikut adalah hasil keterkaitan antara hasil perhitungan manual dengan hasil yang di tampilkan oleh Rapidminer. Gambar 3. Tampilan Hasil Perhitungan Manual Gambar 3 diatas menampilkan hasil dari data yang digunakan dalam perhitungan Gambar 4. Tampilan Hasil Perhitungan Rapidminer Pengelompokkan Sumber Air Minum Dari Air Sungai dengan K-Means (Sabrina Biutiqwin Sinag. Jurnal Riset Sistem Informasi Dan Teknik Informatika (JURASIK) Volume 6 Nomor 1 Februari, pp 244-252 ISSN: 2527-5771/EISSN: 2549-7839 https://tunasbangsa. id/ejurnal/index. php/jurasik Gambar 4 diatas menampilkan hasil dari data yang digunakan dalam perhitungan Rapidminer. Gambar 5. Hasil Akhir Pengelompokan Rapidminer Pada Gambar 5 dapat dilihat dimana cluster 0 pada rapidminer adalah cluster tinggi yang terbagi menjadi 2 provinsi dapat dilihat pada titik merah yang berjumlah 2 titik, cluster sedang pada rapidminer yaitu cluster 1 yang berjumlah 9 provinsi dapat dilihat pada titik hujau, sedangkan cluster rendah pada rapidminer berjumlah 23 provinsi yang dapat dilihat pada titik biru cluster 2. Adapun Provinsi yang termasuk kedalam cluster tinggi yaitu seperti tabel 10 Tabel 10. Cluster Tinggi No. Nama Provinsi Cluster 1 1 Kalimantan Barat Tinggi 2 Kalimantan Tengah Tinggi Provinsi yang termasuk kedalam cluster sedang yaitu: Tabel 11. Cluster Sedang No. Nama Provinsi Cluster 2 Jambi Sedang Sumatera Selatan Sedang Kalimantan Selatan Sedang Kalimantan Timur Sedang Kalimantan Utara Sedang Sulawesi Tengah Sedang Sulawesi Barat Sedang Pengelompokkan Sumber Air Minum Dari Air Sungai dengan K-Means (Sabrina Biutiqwin Sinag. Jurnal Riset Sistem Informasi Dan Teknik Informatika (JURASIK) Volume 6 Nomor 1 Februari, pp 244-252 ISSN: 2527-5771/EISSN: 2549-7839 https://tunasbangsa. id/ejurnal/index. php/jurasik No. Nama Provinsi 8 Papua Barat 9 Papua Cluster 2 Sedang Sedang Sedangkan provinsi yang termasuk kedalam cluster rendah yaitu: Tabel 12. Cluster Rendah No. Nama Provinsi Cluster 3 Aceh Rendah Sumatera Utara Rendah Sumatera Barat Rendah Riau Rendah Bengkulu Rendah Lampung Rendah Kepulauan Bangka Belitung Rendah Kepulauan Riau Rendah DKI Jakarta Rendah Jawa Barat Rendah Jawa Tengah Rendah DI Yogyakarta 4 Rendah Jawa Timur Rendah Banten Rendah Bali Rendah Nusa Tenggara Barat Rendah Nusa Tenggara Timur Rendah Sulawesi Utara Rendah Sulawesi Selatan Rendah Sulawesi Tenggara Rendah Gorontalo Rendah Maluku Rendah SIMPULAN Hasil akhir penelitian dari 34 provinsi dengan masing-masing nilai cluster disimpulkan dengan: Cluster Tertinggi (C. dengan jumlah sebanyak 2 provinsi yaitu: Kalimantan Barat. Kalimantan Tengah. Cluster Sedang (C. dengan jumlah sebanyak 9 provinsi yaitu: Jambi. Sumatera Selatan. Kalimantan Selatan. Kalimantan Timur. Kalimantan Utara. Sulawesi Tengah. Sulawesi Barat. Papua Barat. Papua. Cluster Rendah (C. dengan jumlah sebanyak 23 provinsi yaitu: Aceh. Sumatera Utara. Sumatera Barat. Riau. Bengkulu. Lampung. Kepulauan Bangka Belitung. Kepulauan Riau. DKI Jakarta. Jawa Barat. Jawa Tengah. DI Yogyakarta. Jawa Timur. Banten. Bali. Nusa Tenggara Barat. Nusa Tenggara Timur. Sulawesi Utara. Sulawesi Selatan. Sulawesi Tenggara. Maluku. Maluku Utara. Pengelompokkan Sumber Air Minum Dari Air Sungai dengan K-Means (Sabrina Biutiqwin Sinag. Jurnal Riset Sistem Informasi Dan Teknik Informatika (JURASIK) Volume 6 Nomor 1 Februari, pp 244-252 ISSN: 2527-5771/EISSN: 2549-7839 https://tunasbangsa. id/ejurnal/index. php/jurasik . Proses pemberhentian iterasi pada pengujian data dalam penelitian ini terjadi pada iterasi ke 4. Nilai hasil yang dilakukan dengan perhitungan manual dan dengan aplikasi rapidminer bernilai sama DAFTAR PUSTAKA