Jurnal IPSIKOM Vol 13 No. 1 Ae Juni 2025 e-ISSN : 2686-6382 ALGORITMA K-MEANS UNTUK PENGELOMPOKAN LOKASI SUMUR BERDASARKAN TINGKAT KONTAMINASI BAKTERI COLIFORM DI KOTA CIMAHI Ade Rizki AS1*. Novita Lestari Anggreini2 Program Studi Teknik Informatika, 2Politeknik TEDC Bandung *Penulis Korespondensi: aderizkias0@gmail. ABSTRAK Penelitian ini bertujuan untuk mengelompokkan lokasi sumur di Kota Cimahi berdasarkan tingkat kontaminasi bakteri coliform dengan menggunakan algoritma K-Means Clustering. Kualitas air merupakan isu krusial dalam pembangunan kota terutama di daerah padat penduduk seperti Cimahi. Melalui teknik pengelompokan data . , penelitian ini mengklasifikasikan data sumur ke dalam empat kategori yaitu tingkat kontaminasi rendah, sedang, tinggi dan sangat tinggi. Dataset yang digunakan bersumber dari Dinas Lingkungan Hidup Kota Cimahi tahun 2018Ae2022 yang tersedia di open data Cimahi. Data dianalisis menggunakan Google Colab dan dilakukan normalisasi sebelum dilakukan proses clustering. Hasil pengelompokan menunjukkan pemisahan cluster yang cukup baik dengan nilai silhouette score sebesar 0,82. Temuan ini diharapkan dapat membantu pemerintah daerah dalam mengidentifikasi wilayah yang berisiko tinggi terhadap pencemaran air tanah dan mengambil langkah-langkah mitigasi yang tepat. Keywords: Cimahi. Coliform. K-Means. Kualitas Air. Clustering PENDAHULUAN Kota Cimahi yang berada di Provinsi Jawa Barat merupakan salah satu wilayah dengan luas terkecil di Indonesia namun memiliki tingkat kepadatan penduduk yang cukup tinggi. Pada tahun 2001 Cimahi resmi menjadi kota otonom. Sejak saat itu Cimahi menunjukkan perkembangan yang pesat di pendidikan dan industri. Namun kemajuan tersebut juga membawa dampak lingkungan yang cukup serius termasuk pada kualitas air sumur sebagai sumber utama air bersih bagi Pertumbuhan populasi dan industrialisasi meningkatkan kebutuhan lahan kemampuan tanah menyerap air hujan. Selain itu aktivitas domestik dan limbah industri turut berkontribusi terhadap meningkatnya tingkat pencemaran air sumur. Kualitas air harus memenuhi standar tertentu untuk memastikan konsumsi yang Air bersih adalah air yang memenuhi standar tertentu dan dapat digunakan untuk sehari-hari (Djana Kandungan zat besi (FeAA) yang berlebihan pada air jika dikonsumsi dalam jumlah banyak dapat menyebabkan gangguan metabolisme (Kristiandi. Anisah, and Junardi 2. Selain itu keberadaan bakteri coliform menjadi indikator utama kebersihan air. Bakteri coliform merupakan kelompok bakteri yang pencemaran air limbah dan buruknya kebersihan air. terdapat bakteri coliform yang bersifat patogen yaitu bakteri yang dapat menimbulkan penyakit (Ayer et al. Bakteri ini terbagi menjadi dua kelompok fecal dan non fecal. , coliform fekal yang berasal dari tinja manusia dan hewan termasuk E. coli serta coliform non fekal yang berasal dari hewan atau tumbuhan mati (Agustina et al. Air minum yang memenuhi standar kesehatan harus bebas bakteri tersebut untuk mencegah risiko penyakit pencernaan. Pemetaan tingkat kontaminasi air sumur di Kota Cimahi menjadi langkah yang sangat penting untuk mengidentifikasi masalah dan merancang solusi. Menurut data dari Dinas Lingkungan Hidup tahun 2019 kualitas air tanah di sejumlah lokasi memerlukan pengawasan yang lebih ketat serta upaya pengelolaan kualitas air yang lebih efektif (Putri and Wardhani 2. Salah satu metode yang dapat diterapkan untuk mengelompokkan data kualitas air adalah algoritma K-Means Clustering. Algoritma adalah ilmu yang menangani penyelesaian suatu masalah melalui serangkaian langkah spesifik yang kemudian disusun secara sistematis dan dalam bahasa yang logis serta memiliki tujuan (Maulana Hasan and Yahfizham 2. Algoritma mengelompokkan data berdasarkan kesamaan tertentu seperti tingkat kontaminasi. Tujuan utamanya adalah membagi data atau objek ke dalam beberapa cluster di mana setiap cluster berisi data yang memiliki kemiripan satu sama lain (Mirantika 2. Algoritma K-Means dapat digunakan untuk memetakan lokasilokasi dengan tingkat pencemaran yang serupa mempermudah pemerintah dalam mengambil langkah intervensi yang tepat dan Pendekatan ini memungkinkan analisis data yang terstruktur dan memberikan hasil yang jelas serta mudah diinterpretasikan untuk mendukung pengambilan keputusan yang lebih baik. Dengan memanfaatkan algoritma KMeans Clustering tingkat kontaminasi air sumur di Kota Cimahi dapat dipetakan berdasarkan konsentrasi coliform. Coliform yang merupakan indikator utama pencemaran bakteri dalam air berperan penting dalam menentukan kelayakan air sumur untuk digunakan sehari hari ataupun dikonsumsi. Algoritma K-Means dapat digunakan untuk pengelompokan wilayah berdasarkan tingkat kontaminasi coliform ke dalam kategori rendah, sedang, tinggi dan sangat Hasil dari pengelompokan ini membantu mengidentifikasi wilayah-wilayah kritis secara lebih efektif sehingga mendukung proses pengambilan keputusan untuk pengelolaan kualitas air sumur. Dengan demikian penerapan algoritma K-Means untuk memetakan kontaminasi Coliform menghadapi pemetaan air bersih di Kota Cimahi. algoritma K-means clustering. Tujuan utamanya adalah mengelompokkan lokasi sumur di Kota Cimahi berdasarkan tingkat kontaminasi coliform. Metode yang diusulkan merupakan suatu proses untuk memudahkan penelitian dapat dilihat pada gambar 1 Metode yang diusulakan. Gambar 1. Metode yang diusulkan Dataset Dataset adalah kumpulan data yang dapat digunakan sebagai bahan percobaan penelitian (Yuliska and Syaliman 2. Dalam penelitian ini penulis menggunakan data lokasi sumur yang terkontaminasi oleh bakteri coliform di Kota Cimahi. Data yang dikumpulkan merupakan data dari tahun 2018-2022 yang berjumlah 326 data. Data sebelum di preparasi yang memiki 13 kolom . d, kode provinsi, nama, provinsi, kode kabupaten kota, nama kabupaten kota, lokasi sumur, waktu sampling, titik koordinat lintang, titik koordinat bujur, coliform, jumlah, satuan, tahu. Preparasi Data Preparasi data dimaksudkan untuk memastikan bahwa data yang akan digunakan memiliki kualitas optimal, bebas kesalahan, terorganisir dengan baik dan siap untuk analisis lebih lanjut (Buntara. Napitupulu, and Gusriani 2. Setelah ditelaah kembali data lokasi sumur ternyata 2 baris data adalah 1 data karena 1 baris ada kolom fecal coliform dan 1 baris kolom total colifom maka dari itu 2 baris itu disatukan dalam satu baris dengan membuat kolom baru yaitu fecal coliform dan total coliform. Preparasi yang dilakukan METODOLOGI PENELITIAN Metodologi penelitian merupakan aspek penting dalam desain dan implementasi penelitian (Sina, 2. penelitian empiris adalah yang datanya tersedia dalam bentuk angka (Syahrizal and Jailani 2. Penelitian ini menggunakan pendekatan kuantitatif dengan metode data mining menggunakan penulis terdapat 4 kolom data yang akan digunakan . okasi sumur, tahun, fecal coliform, total coliform. Berikut adalah tabel 1 Data yang telah di preparasi. Standardscaler bekerja dengan rumus: ycUA = ycuOeAA yua XAo = nilai setelah dinormalisasi X = nilai asli. AA = rata- rata seluruh data di kolom tersebut. E = standar deviasi seluruh data dikolom Tabel 1 Data yang telah dipreparasi Lokasi Sumur Tahun Fecal Total Coliform Coliform Air sumur rumah hj. Kustiah rt. 08/01 Cimahi kec. Cimahi tengah 02/16 Cibabat Implementasi K-Means Algoritma K-Means menggunakan pustaka scikit-learn di Google Colab. Parameter yang digunakan adalah n_clusters=4 untuk menghasilkan empat Proses K-Means Pengelompokan K-means merupakan salah satu teknik pengelompokan yang paling umum digunakan dalam analisis data. Algoritma ini bekerja dengan membagi data ke dalam K kelompok yang telah ditentukan sebelumnya di mana K adalah jumlah kelompok yang diinginkan. Proses ini dimulai dengan memilih secara acak K pusat cluster . di ruang data dan kemudian mengelompokkan setiap titik data ke dalam kelompok dengan centroid terdekat . (Yudhistira and Andika 2. Data sebelumnya yang telah di preparasi selanjutnya akan dilakukan proses di Google Colab menggunakan algoritma K-means Clustering. Berikut langkah-langkah yang Hasil Clustering Berdasarkan hasil clustering lokasi sumur dikategorikan 0, 1, 2 dan 3. Dimana cluster 0 adalah sumur dengan tingkat kontaminasi rendah lalu cluster 1 yang dikategorikan tingkat kontaminasi sedang, cluster 2 yang dikategorikan tingkat kontaminasi tinggi dan 3 kategori sangat Analisis Analisis dilakukan untuk mengevaluasi K-Means mengklasifikasikan lokasi sumur berdasarkan tingkat kontaminasi coliform di Kota Cimahi. Evaluasi dilakukan dengan mengamati sebaran cluster dan kestabilan hasil cluster. Metrik evaluasi yang digunakan meliputi nilai inertia dan silhouette Score untuk mengukur kualitas clustering. Pemilihan Variabel Variabel yang digunakan untuk pengelompokan adalah kolom fecal coliform dan total coliform, yang menunjukkan jumlah bakteri coliform dalam satuan jumlah/1000 HASIL DAN PEMBAHASAN Hasil penelitian membahas proses pengolahan data, proses pengujian serta implementasi algoritma K-Means Clustering. Penentuan Jumlah Cluster Jumlah cluster yang digunakan adalah empat kategori yaitu rendah, sedang, tinggi dan sangat tinggi tingkat kontaminasi Data Yang Digunakan Data yang digunakan untuk dianalisis adalah data dari Dinas Lingkungan Hidup Kota Cimahi dari tahun 2018-2022. Sebelum digunakan data telah melalui proses pembersihan untuk menghapus atribut yang tidak diperlukan dan melakukan penyesuaian Normalisasis Data dengan Standardscaler Normalisasi diperlukan karena nilai untuk fecal coliform dan total coliform sangat Jika normalisasi tidak dilakukan hasil pengelompokan mungkin condong ke nilai yang lebih tinggi. Selanjutnya menambahkan kolom cluster dimana untuk memberikan label lokasi sumur berdasarkan tingkat kontaminasi coliform. Tabel 2 adalah Dataset dengan Kolom Cluster. antara titik data dan pusat cluste. Gambar 4 adalah Elbow Method. Tabel 2 Dataset dengan Kolom Cluster Lokasi Sumur Air sumur rumah hj. Kustiah 08/01 kel. Cimahi kec. Cimahi 02/16 Cibabat Tahun Fecal Coliform Total Coliform Gambar 4. Elbow Method Dari grafik yang dihasilkan nilai K optimal ditentukan berdasarkan titik siku pada Dalam penelitian ini K = 4 dipilih berdasarkan kategori pencemaran yaitu 0 adalah Pencemaran rendah, 1 adalah Pencemaran sedang, 2 adalah Pencemaran tinggi dan 3 adalah Pencemaran sangat tinggi. Implementasi Algoritma K-Means Setelah pengolahan data dilakukan dari mengisi nilai yang kosong sampai menentukan cluster selanjutnya akan dilakukan implementasi algoritma K-Means untuk mengelompokan lokasi berdasarkan tingkat kontaminasi coliform. Gambar 5 adalah Code K-Means. Pengolahan Data Pada tahap ini dilakukan pengolahan data dengan tujuan untuk mempersiapkan dataset agar dapat digunakan dengan lebih baik dalam proses clustering menggunakan algoritma K-Means. Langkah pertama yang dilakukam adalah mengisi nilai yang kosong dengan angka 0 dan membuat kolom fecal dan total coliform menjadi satu baris dapat dilihat pada gambar 2 Proses Pengolahan Data. Gambar 5. Code K-Means Gambar 2. Proses Pengolahan Data Hasil dari proses ini adalah bahwa setiap sumur diklasifikasikan menjadi salah satu dari empat cluster tergantung pada tingkat kontaminasi coliform dan dapat dilihat pada gambar 6 Hasil Clustering K-Means. Lalu data dinormalisasi menggunakan StandardScaler Normalisasi diperlukan karena data yang digunakan memiliki skala nilai yang berbeda sehingga perlu diubah agar semua fitur memiliki distribusi yang sebanding. Gambar 3 adalah proses Normalisasi Data Dengan Metode Standardscaler. Gambar 3. Normalisasi Data Dengan Metode Standardscaler. Setelah data di normalisasi langkah menentukan jumlah cluster yang optimal mengevaluasi nilai inertia . umlah jarak Gambar 6. Hasil Clustering K-Means Hasil Clustering Setelah melalui proses K-Means clustering didapat data bahwa ada 136 data untuk cluster 0 yang artinya rendah, 5 data untuk cluster 1 yang artinya sedang, 15 data untuk cluster 2 yang artinya tinggi dan 1 data untuk cluster 3 yang artinya sangat tinggi. Dapat dilihat pada gambar 7 Jumlah Data Per Cluster. Air sumur dalam kategori ini lebih aman untuk dikonsumsi dibandingkan cluster lainnya. Cluster 1 (Kontaminasi Sedan. , sumur dalam cluster ini memiliki tingkat coliform yang lebih tinggi dibandingkan cluster 0 tetapi masih dalam batas wajar untuk air tanah. Air dari sumur ini memerlukan pengolahan lebih lanjut sebelum digunakan untuk konsumsi. Cluster 2 (Kontaminasi Tingg. , cluster ini terdiri dari sumur dengan tingkat coliform yang tinggi. Air sumur dari cluster ini tidak layak dikonsumsi tanpa pengolahan khusus karena dapat menyebabkan berbagai penyakit. Tabel 3 adalah contoh data yang telah dianalisis dari berbagai cluster. Cluster 3 (Kontaminasi Sangat Tingg. , cluster ini terdiri dari sumur dengan tingkat coliform yang sangat tinggi jauh dari kelayakan konsumsi maupun pemakaian sehari hari. Air dari sumur-sumur ini memerlukan tindakan pengolahan yang intensif serta pemantauan berkala. Tabel 3 adalah Data Yang Telah Dianalisis. Gambar 7. Jumlah Data per Cluster Lalu untuk mengetahui keakuratan Kmeans untuk clustering dapat dilihat pada gambar 8 Nilai Akurasi Silhouette Score yaitu mengukur seberapa baik data dikelompokkan dengan mempertimbangkan jarak antar cluster. Silhouette Score berkisar antara -1 Tabel 3 Data Yang Telah Dianalisis. Gambar 8. Nilai Akurasi Silhouette Score Sementara itu nilai inertia yang jika nilainya semakin rendah maka menunjukkan bahwa jarak antara data individual dan pusat cluster . juga kecil. Gambar 9 adalah Nilai Inertia K-Means pengelompokan lokasi sumur berdasarkan kontaminasi coliform. Lokasi Sumur Tah Fecal Coliform Total Coliform 01/01 Baros 03/02 Setiam 03/07 Cibebe Jl. Kolonel Masturi Gang Margar RT 02 RW 10 Kel. Cimahi Gambar 9. Nilai Inertia Evaluasi Model Clustering Berdasarkan hasil evaluasi model, diperoleh nilai silhouette score sebesar 0,806 dan nilai inertia sebesar 43,08. Nilai silhouette score yang mendekati 1 menunjukkan kualitas hasil pengelompokan data dengan menggunakan algoritma KMeans sangat baik. Data individu relatif dekat dengan cluster nya sendiri dan jauh dari cluster lainnya. Hal ini menunjukkan struktur cluster yang kompak dan terpisah dengan Analisis Karakteristik Setiap Cluster Dari menggunakan algoritma K-Means, lokasi sumur dikelompokkan menjadi tiga cluster berdasarkan tingkat pencemaran fecal coliform dan total coliform. Karakteristik masing-masing klaster adalah sebagai berikut: Cluster 0 . ontaminasi renda. , mayoritas sumur dalam cluster ini memiliki nilai fecal coliform dan total coliform yang rendah atau mendekati nol setelah Nilai inertia yang relatif rendah menunjukkan jarak antara data individu dengan pusat cluster nya . juga kecil. Hal ini menunjukkan cluster yang terbentuk secara optimal dan efisien mengelompokkan data berdasarkan kedekatan. Dengan demikian, dapat disimpulkan bahwa algoritma K-Means cukup efektif dalam mengelompokkan lokasi sumur di Kota Cimahi berdasarkan tingkat pencemaran DAFTAR PUSTAKA