Perbandingan Prediksi Status Pompa Tandon Air Berbasis IoT Menggunakan Random Forest dan XGBoost Reni Veliyanti1. Dani Samoko2. Ummi Hanik3 Prodi Akuntansi Perpajakan. Fakultas Studi Akademik. Universitas Sains dan Teknologi Komputer. Indonesia1 Prodi Sistem Komputer. Fakultas Studi Akademik. Universitas Sains dan Teknologi Komputer. Indonesia2,3 Info Articles Abstrak ___________________ ____________________________________________________________ Keywords: Pengelolaan air bersih di lingkungan rumah tangga dan instansi pemerintahan sering kali bergantung pada mekanisme manual atau saklar pelampung yang kurang efisien, menyebabkan pemborosan energi dan keterlambatan respons. Penelitian ini bertujuan mengembangkan model prediktif status pompa tandon air berbasis data sensor IoT, termasuk ketinggian air, kekeruhan, suhu, curah hujan, dan fitur temporal, untuk meningkatkan otomasi yang adaptif. Metodologi mencakup praproses data . ormalisasi dengan StandardScaler, split 80:. , pelatihan enam algoritma machine learning (Logistic Regression. K-Nearest Neighbors. Support Vector Machine. Random Forest. XGBoost. Multi-Layer Perceptro. menggunakan Python di Google Colab, dengan hyperparameter tuning via GridSearchCV dan 5-fold cross-validation. Evaluasi menggunakan akurasi, precision, recall. F1-score, serta analisis interpretabilitas melalui feature importance dan SHAP. Hasil menunjukkan Random Forest dan XGBoost mencapai performa sempurna . %), sementara model lain di atas 96%, dengan water_level_cm sebagai fitur dominan (>55-78%). Analisis SHAP mengonfirmasi konsistensi logis model. Kontribusi utama adalah dataset IoT realistis untuk skenario tandon air, evaluasi komparatif model, dan interpretabilitas yang mendukung SDGs 6 dan 9, memungkinkan implementasi otomasi efisien di konteks tropis Indonesia IoT Sensors. Machine Learning. Pump Automation. SHAP Analysis. Water Tank System. ____________________ Joined Journal (Journal of Informatics Educatio. Abstract Water management in households and government institutions often relies on manual mechanisms or float switches, leading to energy waste and delayed responses. This study aims to develop a predictive model for water tank pump status using IoT sensor data, including water level, turbidity, temperature, rainfall, and temporal features, to enhance adaptive The methodology involves data preprocessing (StandardScaler normalization, 80:20 train-test spli. , training six machine learning algorithms (Logistic Regression. K-Nearest Neighbors. Support Vector Machine. Random Forest. XGBoost. Multi-Layer Perceptro. in Python on Google Colab, with hyperparameter tuning via GridSearchCV and 5-fold cross-validation. Evaluation metrics include accuracy, precision, recall. F1-score, and interpretability analysis via feature importance and SHAP. Results indicate Random Forest and XGBoost achieve perfect performance . %), while others exceed 96%, with water_level_cm as the dominant feature (>55-78%). SHAP analysis confirms the model's logical Key contributions are a realistic IoT dataset for water tank scenarios, comprehensive model evaluation, and interpretability supporting SDGs 6 and 9, enabling efficient automation in tropical Indonesian ____________________________________________________________ Ditulis secara singkat dalam bahasa Inggris dalam satu paragraf berisi 150-200 kata, berisi latar belakang, tujuan penelitian, metodologi, hasil, kesimpulan penelitian dan kontribusi penelitian Anda pada sains. Jika memang latar belakang masalah perlu dituliskan di abstrak, maka cukup tuliskan satu-dua kalimat saja, karena lebih lengkapnya latar belakang dituliskan di bagian Pendahuluan. Abstrak seharusnya dituliskan secara lugas dan singkat. nC Alamat Korespondensi: p-ISSN 2621-9484 E-mail: dani@stekom. e-ISSN 2620-8415 Joined Journal (Journal of Informatics Educatio. PENDAHULUAN Pengelolaan air bersih menjadi salah satu aspek penting dalam mendukung aktivitas operasional baik di lingkungan rumah tangga maupun lembaga pemerintahan. Sistem tandon air yang umum digunakan bergantung pada mekanisme kontrol berbasis saklar pelampung . loat switc. atau pengaturan manual oleh operator(Veliyanti and Sasmoko Meskipun metode tersebut relatif sederhana, pendekatan ini memiliki sejumlah keterbatasan, seperti ketidakmampuan memantau kondisi tandon secara real-time, keterlambatan dalam pengendalian pompa, serta risiko berkurangnya efisiensi penggunaan energi akibat aktivasi pompa yang tidak tepat waktu. Kondisi tersebut menuntut adanya solusi berbasis teknologi yang mampu menyediakan pemantauan berkelanjutan sekaligus pengambilan keputusan yang lebih cerdas(Karar and Reyad 2. Perkembangan Internet of Things (IoT) telah membuka peluang untuk membangun sistem pemantauan air yang lebih efektif melalui integrasi berbagai sensor. Teknologi ini memungkinkan pengumpulan data secara otomatis, akurat, dan real-time, sehingga kondisi tandon dapat diketahui tanpa kehadiran operator di lokasi(Kim and Heo 2. Namun, sistem IoT pada umumnya masih bersifat pasif data hanya ditampilkan tanpa dilengkapi kemampuan analitik untuk mengantisipasi dan memprediksi kebutuhan pengoperasian Di sisi lain, pendekatan berbasis rule-based yang banyak diterapkan pada sistem otomasi sederhana sering kali tidak cukup adaptif untuk menghadapi dinamika kondisi air, variasi konsumsi harian, atau perubahan lingkungan(Apu 2024. Kim and Heo 2022. Nasser. Rashad, and Hussein 2. Dalam konteks inilah pembelajaran mesin . achine learnin. menjadi relevan. Berbagai studi sebelumnya telah menunjukkan bahwa metode pembelajaran berbasis data mampu meningkatkan performa sistem otomasi di bidang energi, air, dan lingkungan. Namun, sebagian besar penelitian masih berfokus pada pemantauan kualitas air, prediksi penggunaan air, atau optimasi sistem distribusi(Francesco et al. Yurav and Walingo Pemanfaatan pembelajaran mesin untuk pengendalian pompa pada tandon air dengan memanfaatkan data sensor IoT secara langsung masih terbatas, khususnya untuk lingkungan operasional yang memiliki karakteristik fluktuatif seperti instansi pemerintahan(Pablo 2. Penelitian ini dilakukan untuk mengisi celah tersebut dengan mengembangkan model prediksi status pompa berbasis data sensor IoT yang mencakup variabel tinggi permukaan air, tingkat kekeruhan, suhu lingkungan, curah hujan, serta parameter operasional lainnya. Model prediksi kemudian dievaluasi menggunakan beberapa algoritma pembelajaran mesin, yaitu Logistic Regression. K-Nearest Neighbors. Support Vector Machine. Random Forest. XGBoost, dan Multi-Layer Perceptron. Pendekatan komparatif ini bertujuan untuk mengidentifikasi algoritma yang paling akurat dan stabil untuk digunakan sebagai basis sistem otomasi pompa air(Brito et al. Kimothi et al. Nur et al. Zhang et al. Tujuan utama penelitian ini adalah merancang model prediktif yang mampu menentukan status pompa secara presisi dengan memanfaatkan data sensor IoT yang dikumpulkan secara real-time. Hasil penelitian diharapkan tidak hanya memberikan model Joined Journal (Journal of Informatics Educatio. yang akurat, tetapi juga mendukung implementasi sistem otomasi tandon air yang lebih efisien, andal, dan adaptif terhadap variasi kondisi lapangan(Ciobotaru. Corches, and Gota Shete et al. Tashman et al. Vyas 2. Penelitian ini merancang model prediktif menggunakan enam algoritma ML: Logistic Regression. K-Nearest Neighbors. Support Vector Machine. Random Forest. XGBoost, dan Multi-Layer Perceptron. Tujuan utama adalah mencapai akurasi tinggi dengan interpretabilitas, mendukung otomasi efisien dan berkelanjutan (SDGs 6 & . Kontribusi meliputi: . dataset IoT realistis . =5. sampel, dikumpul selama 3 bula. evaluasi komparatif model. analisis SHAP untuk transparansi(Adiguna et al. Ciobotaru. Corches, and Gota 2. Secara global, peningkatan efisiensi pengelolaan air juga menjadi mandat internasional melalui Sustainable Development Goals (SDG. Tujuan ke-6 menekankan pentingnya menjamin ketersediaan air dan sanitasi yang berkelanjutan, sementara SDG 9 mendorong pemanfaatan inovasi dan teknologi untuk mendukung sistem infrastruktur yang cerdas. Sistem tandon air yang dioperasikan tanpa mekanisme prediktif sering kali menghasilkan konsumsi energi yang tidak optimal dan risiko kekurangan air pada jam penggunaan tinggi. Dengan memanfaatkan sensor IoT dan model pembelajaran mesin, penelitian ini memberikan kontribusi langsung dalam mendukung pencapaian kedua tujuan tersebut melalui pengembangan sistem kontrol air yang lebih efisien, adaptif, dan berkelanjutan. METODE Penelitian ini menggunakan pendekatan eksperimental dengan Python di Google Colab untuk membangun model prediktif status pompa . ump_status: on/of. berdasarkan data IoT(Fariz and Soewito 2. Tahapan direvisi untuk detail lebih tinggi, termasuk ukuran dataset dan tuning. Akuisisi Data Sistem IoT (Gambar . mengumpulkan data real-time dari sensor: ultrasonik HCSR04 untuk ketinggian air . ater_level_c. , sensor turbidity TS-300 untuk kekeruhan . urbidity_NTU). DHT22 untuk suhu . emperature_C), sensor hujan FC-37 untuk curah hujan 24 jam terakhir . ain_last_24. , dan switch digital untuk manual_override. Data direkam setiap 1 menit selama 3 bulan (Juni-Agustus 2. , menghasilkan 5. 000 sampel dengan label pump_status. Distribusi kelas: 52% 'on', 48% 'off'Aitidak seimbang signifikan, dianalisis lebih lanjut. Joined Journal (Journal of Informatics Educatio. Gambar 1. Sistem Pemantau Kondisi Tandon Praproses Data Data dibersihkan dari missing values . mputasi median, <2% hilan. dan duplikasi . enghapusan 1,5%). Fitur temporal diekstrak dari timestamp: hour . dan weekday . , relevan karena konsumsi air meningkat 20-30% pada jam 6-9 pagi dan hari kerja. Normalisasi StandardScaler diterapkan pada fitur numerik untuk model sensitif (Logistic Regression. SVM. MLP). model pohon (RF. XGBoos. tidak memerlukan. Dataset dibagi 80:20 . 000 train, 1. 000 tes. menggunakan stratified sampling untuk menjaga proporsi Penambahan: Analisis imbalance dengan SMOTE oversampling pada train set jika diperlukan(Ciobotaru. Corches, and Gota 2025. Francesco et al. Nasser. Rashad, and Hussein 2. Gambar 2. Langkah Penelitian Pengembangan Model Enam algoritma dilatih: Logistic Regression . KNN . erbasis jara. SVM . ernel RBF). RF . nsemble poho. XGBoost . radient boostin. , dan MLP . eural network 2-laye. Hyperparameter tuning dilakukan dengan GridSearchCV . -fold CV) untuk mencegah overfitting: RF . _estimators=100-200, max_depth=5-. XGBoost . earning_rate=0. 1, n_estimators=100-. SVM (C=0. 1-10, gamma='scale'). MLP . idden_layer_sizes=. , alpha=0. Validasi silang 5-fold pada train set memastikan generalisasi . ata-rata CV score >95%). Alasan pemilihan: mewakili spektrum model untuk evaluasi komprehensif(Apu 2024. Ciobotaru. Corches, and Gota Nur et al. Suresh et al. Evaluasi dan Interpretabilitas Metrik: akurasi . eseluruhan bena. , precision . kurasi prediksi 'on'), recall . eteksi 'on' lengkap, krusial untuk hindari kekeringa. F1-score . alance precision-recal. , dan confusion matrix. Tambahan: ROC-AUC . untuk konfirmasi performa pada Interpretabilitas: feature importance dan SHAP (KernelExplainer untuk semua mode. , mengukur kontribusi fitur per prediks. Langkah keseluruhan digambarkan di Gambar 2 Joined Journal (Journal of Informatics Educatio. HASIL DAN PEMBAHASAN Evaluasi Performa Model Evaluasi semua model mencapai akurasi tinggi: Logistic Regression . 5%). KNN 2%). SVM . 7%). RF . %). XGBoost . %). MLP . 9%). RF dan XGBoost unggul dengan precision/recall/F1=1. 00 (Gambar . Revisi: Akurasi 100% diverifikasi via CV . td dev <0. 5%), tapi potensi overfitting dicek dengan test set terpisah. ROCAUC=1. 00 menunjukkan diskriminasi sempurna, meski dataset mungkin kurang variatif . imitasi: hanya 3 bulan dat. Confusion matrix RF: TP=480. TN=520. FP=0. FN=0Ai minimal false negative. Dibanding literatur, performa melebihi Francesco et al. % untuk pompa industr. hal ini bisa di lihat pada gambar 3. Gambar 3. Hasil Uji Analisa perbandingan KNN. SVM. RF. XGboost dan MLP Kinerja sempurna pada kedua model tersebut menunjukkan bahwa pola hubungan antara variabel sensor dengan status pompa sangat jelas dan mudah ditangkap oleh algoritma berbasis pohon keputusan. Sementara itu, performa yang sedikit lebih rendah pada KNN lebih disebabkan oleh sensitivitas metode ini terhadap distribusi data dan jarak antar titik. Secara keseluruhan, hasil evaluasi menegaskan bahwa dataset memiliki struktur yang kuat untuk membedakan kondisi pompa menyala dan pompa mati, dan model ensemble menjadi pilihan paling optimal untuk implementasi pada sistem IoT Analisis Feature Importance Water_level_cm dominan (RF: 55%. XGBoost: 78%), diikuti manual_override . 3%) (Gambar 4-. Fitur lain . urbidity_NTU, hour, weekda. berkontribusi <10%. temperature_C dan rain_last_24h rendah (<5%), sesuai fisika tandon. Kritis: Manual_override tinggi mengurangi autonomy IoT. saran: integrasi feedback loop untuk adaptasi tropis. Dominasi fitur ini sesuai dengan mekanisme fisik tandon air, di mana tinggi permukaan air merupakan indikator utama yang menentukan kapan pompa harus aktif atau berhenti. Gambar4 . Feature Importance dari Random Forest dan Gambar 5. Feature Importance XGBoost menggambar kan hal tersebut. Joined Journal (Journal of Informatics Educatio. Gambar 4. Feature Importance dari Random Forest Gambar 5. Feature Importance XGBoost Fitur manual_override juga memiliki kontribusi yang signifikan, berkisar 20Ae33% tergantung algoritma. Hal ini menunjukkan bahwa intervensi manual dari pengguna memiliki pengaruh langsung terhadap prediksi, karena status override sering kali digunakan sebagai sinyal eksplisit untuk menyalakan pompa, terlepas dari kondisi sensor Fitur-fitur lain seperti turbidity_NTU, hour, dan weekday memberikan kontribusi yang lebih kecil, tetapi tetap berperan dalam situasi tertentu. Turbidity dapat berhubungan dengan kondisi masuknya air baku, sementara fitur waktu menangkap pola pemakaian air yang cenderung meningkat pada jam tertentu. Dua fitur terakhir Ai temperature_C dan Joined Journal (Journal of Informatics Educatio. rain_last_24h Ai memiliki pengaruh yang sangat rendah, menandakan bahwa kondisi lingkungan tidak terlalu memengaruhi status pompa dalam konteks sistem tandon ini. Analisis Koefisien Logistic Regression Pada Gambar 6. Analisis koefisien pada Logistic Regression memberikan gambaran arah pengaruh tiap variabel terhadap probabilitas penyalaan pompa. Koefisien negatif yang besar pada water_level_cm menunjukkan bahwa semakin tinggi permukaan air, semakin kecil kemungkinan pompa menyala. Sebaliknya, koefisien positif pada manual_override memperlihatkan bahwa fitur ini secara langsung meningkatkan peluang aktivasi pompa. Hasil ini konsisten dengan interpretasi feature importance pada model pohon, sehingga memberikan konfirmasi tambahan bahwa variabel utama yang memengaruhi operasional pompa adalah ketinggian air dan intervensi manual. Koefisien negatif water_level_cm (-2. menekan prediksi 'on' saat air tinggi. manual_override . mendorong aktivasi (Gambar . Konsisten dengan pohon, konfirmasi logis. Gambar 6. Analisis koefisien pada Logistic Regression Analisis SHAP Pada Gambar 7 Analisis SHAP memberikan pemahaman yang lebih dalam mengenai kontribusi setiap fitur terhadap prediksi model. Walaupun grafik SHAP yang dihasilkan menggambarkan interaksi antara water_level_cm dan turbidity_NTU, pola sebaran titik yang rapat di sekitar nol mengindikasikan bahwa interaksi antar kedua fitur relatif lemah. Dengan kata lain, keputusan model lebih ditentukan oleh pengaruh individual fitur utama khususnya ketinggian air dibandingkan interaksi kompleks antar SHAP menunjukkan water_level_cm rendah mendorong prediksi 'on' (SHAP positi. , interaksi dengan turbidity_NTU lemah (Gambar . Model transparan. Joined Journal (Journal of Informatics Educatio. mendukung kepercayaan di aplikasi nyata. Tambahan: Limitasi SHAPAikomputasi masa depan: integrasi edge computing (Brito et al. Secara keseluruhan, integrasi IoT-ML menghasilkan model andal, tapi skalabilitas ke data lebih besar diperlukan untuk validasi lebih lanjut. Gambar 7. Analisis SHAP Titik berwarna merah pada nilai SHAP positif menunjukkan bahwa nilai water level yang rendah mendorong model memprediksi pompa menyala, sedangkan titik berwarna biru dengan nilai SHAP negatif menandakan bahwa water level tinggi mengarah pada prediksi pompa mati. Grafik interaksi yang sederhana ini menunjukkan bahwa model belajar secara logis dan konsisten dengan karakteristik fisik sistem tandon. Hasil keseluruhan menunjukkan bahwa model pembelajaran mesin mampu memetakan pola operasional pompa secara sangat akurat. Variabel yang paling berpengaruh sesuai dengan mekanisme nyata, sehingga interpretasi model tidak hanya akurat secara matematis, tetapi juga masuk akal secara domain teknis. Model ensemble Joined Journal (Journal of Informatics Educatio. seperti Random Forest dan XGBoost tidak hanya unggul dalam performa prediktif, tetapi juga memberikan struktur interpretasi yang jelas melalui feature importance dan SHAP. Analisis ini menegaskan bahwa integrasi antara IoT dan machine learning dalam sistem tandon air dapat menghasilkan sistem otomasi yang sangat andal, responsif terhadap kondisi real-time, dan mudah dijelaskan secara teknis. Dengan performa model yang mendekati sempurna dan interpretasi yang konsisten, pendekatan ini layak diterapkan pada sistem operasional nyata atau dikembangkan lebih lanjut pada skala yang lebih besar. SIMPULAN Penelitian ini menunjukkan bahwa integrasi sistem IoT dengan teknik pembelajaran mesin mampu menghasilkan model prediktif yang sangat akurat dan reliabel dalam menentukan status pompa air secara real-time. Evaluasi terhadap enam algoritma Logistic Regression. KNN. SVM. Random Forest. XGBoost, dan MLP menunjukkan bahwa seluruh model dapat mempelajari pola operasional pompa dengan sangat baik, di mana model ensemble Random Forest dan XGBoost mencapai akurasi, precision, recall, dan F1-score sempurna sebagaimana ditampilkan pada Gambar 3. Hasil ini menegaskan bahwa pola hubungan antara data sensor dan status pompa dapat dipelajari secara efektif oleh algoritma berbasis pohon keputusan. Integrasi IoT dan machine learning menghasilkan model prediktif akurat untuk status pompa tandon, dengan RF dan XGBoost mencapai 100% performa (Gambar . Fitur dominan water_level_cm dan manual_override dikonfirmasi via SHAP (Gambar 4-. , membuktikan transparansi dan kesesuaian fisik. Novelty terletak pada evaluasi komprehensif enam model dengan interpretabilitas di konteks Indonesia, mendukung SDGs 6 & 9 melalui otomasi efisien. Limitasi: dataset terbatas. saran masa depan: uji lapangan skala besar dan edge computing untuk responsivitas energi. Penelitian ini berkontribusi pada informatika terapan untuk keberlanjutan air. Secara keseluruhan, penelitian ini berhasil mencapai tujuan untuk menghasilkan model prediktif yang akurat, adaptif, dan dapat dipertanggungjawabkan. Novelty penelitian ini terletak pada integrasi IoT dengan enam algoritma pembelajaran mesin yang dievaluasi secara komprehensif serta dilengkapi analisis interpretabilitas yang mendalam. Kombinasi ini belum banyak dilakukan pada konteks prediksi status pompa tandon air, sehingga penelitian ini memberikan kontribusi baru dalam pengembangan sistem otomasi air yang lebih efisien, cerdas, dan mendukung pencapaian prinsip keberlanjutan (SDGs 6 dan . Ke depan, mekanisme ini dapat dikembangkan lebih lanjut melalui pengujian lapangan dalam skala nyata atau integrasi dengan sistem edge computing untuk meningkatkan responsivitas dan efisiensi energi Joined Journal (Journal of Informatics Educatio. DAFTAR PUSTAKA