Computer Science (CO-SCIENCE) Vol. 5 No. 2 Juli 2025 Akreditasi Sinta 4 Nomor SK : 230/E/KPT/2022 Model Prediksi Risiko Kesehatan Perkotaan Berbasis Lingkungan dengan XGBoost Muhammad Kahfi Aulia1*. Eka Utaminingsih2. Nanang Prihatin3 Universitas Bumi Persada Alue Awe. Muara Dua. Lhokseumawe. Aceh. Indonesia Politeknik Negeri Lhokseumawe Buketrata. Blang Mangat. Lhokseumawe. Aceh. Indonesia e-mail: 1auliamuhammadkahfi@gmail. com, 2ekautami921@gmail. com, 3nanang@pnl. (*) Corresponding Author Artikel Info : Diterima : 11-06-2025 | Direvisi : 29-06-2025 | Disetujui : 10-07-2025 Abstrak - Kualitas udara perkotaan yang buruk merupakan isu kesehatan masyarakat yang serius, terutama di wilayah dengan urbanisasi tinggi. Penelitian ini bertujuan memprediksi risiko kesehatan akibat polusi udara menggunakan metode pembelajaran mesin berbasis variabel lingkungan. Dataset yang digunakan adalah Urban Air Quality and Health Impact, terdiri atas 1. 000 baris dan 46 kolom, mencakup suhu, kelembapan, kecepatan angin, titik embun, indeks ultraviolet (UV), dan skor risiko kesehatan dari kota-kota besar di Amerika Serikat. Sebagai peningkatan dari studi sebelumnya yang menggunakan regresi linier dan Random Forest (R-squared 0,89. Mean Squared Error/MSE 0,. , penelitian ini menerapkan model Extreme Gradient Boosting (XGBoos. yang dioptimasi menggunakan teknik Randomized Search terhadap beberapa hiperparameter utama. Model ini dilatih dan diuji dengan pembagian data 80:20, menghasilkan R-squared sebesar 0,9692 dan MSE sebesar 0,0122. Titik embun dan kecepatan angin merupakan fitur paling berpengaruh. Dataset yang digunakan bersifat sintetis namun menyerupai pola lingkungan di kota-kota Indonesia. Penelitian ini tidak menggunakan kerangka text mining, melainkan pendekatan regresi terawasi berbasis data lingkungan. Kebaruan utama terletak pada penerapan pertama XGBoost yang dioptimasi dengan fitur kompleks seperti suhu terasa untuk estimasi risiko kesehatan perkotaan. Keterbatasan penelitian ini meliputi belum adanya validasi dengan data lokal serta belum dianalisisnya hubungan antarvariabel secara mendalam. Kata Kunci : kualitas udara, risiko kesehatan. XGBoost, pembelajaran mesin, regresi lingkungan Abstracts - Poor urban air quality is a major public health concern, especially in highly urbanized areas. This study aims to predict health risks associated with air pollution using machine learning techniques based on environmental variables. The dataset used. Urban Air Quality and Health Impact, contains 1,000 rows and 46 columns, including temperature, humidity, wind speed, dew point, ultraviolet (UV) index, and health risk scores from major U. As an improvement over previous studies using linear regression and Random Forest (Rsquared 0. Mean Squared Error/MSE 0. , this research implements an optimized Extreme Gradient Boosting (XGBoos. The model was fine-tuned using Randomized Search on key hyperparameters and evaluated with an 80:20 data split. It achieved an R-squared of 0. 9692 and MSE of 0. Dew point and wind speed were identified as the most influential features. Although synthetic, the dataset reflects environmental patterns similar to Indonesian urban areas. This study does not adopt a text mining framework but instead uses a supervised regression approach based on environmental features. Its main novelty lies in the first application of an optimized XGBoost model using complex variables such as feels-like temperature to estimate urban health risk. Limitations include the absence of real-world validation with Indonesian data and the lack of analysis on interactions between Keywords : air quality, health risk. XGBoost, fine-tuning, machine learning, environmental variables This work is licensed under a Creative Commons Attribution-ShareAlike 4. 0 International License. Copyright . 2025 The Autour. Computer Science (CO-SCIENCE) Vol. 5 No. 2 Juli 2025 | E-ISSN: 2774-9711 | P-ISSN: 2808-9065 PENDAHULUAN Pertumbuhan pesat populasi di wilayah perkotaan telah menyebabkan meningkatnya paparan masyarakat terhadap risiko lingkungan yang kompleks, seperti pencemaran udara dan kondisi cuaca ekstrem. Menurut World Health Organization . , polusi udara menjadi penyebab lebih dari tujuh juta kematian dini setiap tahunnya, setara dengan risiko kesehatan global lainnya seperti malnutrisi dan penyakit menular. Konsentrasi polutan seperti PMCC. CI. NOCC, dan OCE telah terbukti secara signifikan meningkatkan insiden penyakit pernapasan dan kardiovaskular, terutama di wilayah urban dengan tingkat emisi tinggi (Rosatul Umah & Eva Gusmira, 2. Di Indonesia, dampak polusi udara telah diamati secara luas. Garmini dan Purwana . menunjukkan bahwa paparan SOCC dan polutan dalam ruang tertutup meningkatkan risiko ISPA pada balita. Studi serupa oleh Inayah . juga menegaskan bahwa kejadian ISPA pada balita berhubungan erat dengan konsentrasi PM dan NOCC di lingkungan Di DKI Jakarta, peningkatan tingkat polusi udara berkorelasi langsung dengan meningkatnya kasus pneumonia balita (Munggaran et al. , 2. , sebuah temuan yang konsisten dengan studi Nova et al. di sekitar kawasan industri baja. Selain pencemaran udara, kondisi meteorologis seperti suhu tinggi, kelembaban, dan variasi angin juga mempengaruhi risiko kesehatan. Titik embun yang tinggi, misalnya, telah dikaitkan dengan eksaserbasi penyakit paru obstruktif kronik (Myrovics et al. , 2. dan peningkatan penyakit Mycobacterium tuberculosis (Krishnan et , 2. Brimicombe et al. menyatakan bahwa indeks panas seperti heat index secara signifikan berdampak pada morbiditas ibu dan bayi, menjadikannya indikator penting dalam peringatan dini terhadap gelombang panas. Dampak gabungan antara polusi udara dan kondisi suhu ekstrem juga ditemukan dalam studi lintas negara oleh Castro et al. , yang mengungkap bahwa interaksi antara PMCC. CI dan suhu tinggi meningkatkan risiko kematian secara signifikan. Di konteks nasional, studi Rahayuningtyas et al. di Kabupaten Bantul menunjukkan bahwa kombinasi faktor iklim seperti kelembaban, dew point, dan suhu bola basah berkontribusi terhadap prediksi kejadian demam berdarah dengue (DBD). Hal ini memperkuat argumen bahwa kondisi atmosfer memainkan peran penting dalam mempengaruhi beban penyakit masyarakat. Untuk menjawab kompleksitas ini, pendekatan berbasis machine learning menjadi pilihan yang menjanjikan dalam mengembangkan sistem prediksi risiko kesehatan lingkungan. Beberapa pendekatan sebelumnya telah mencoba memprediksi dampak polusi udara terhadap kesehatan, salah satunya adalah studi oleh Pathak et al. yang menggunakan algoritma Random Forest dengan data lingkungan perkotaan. Meskipun menghasilkan nilai koefisien determinasi (RA) sebesar 0,89, pendekatan tersebut masih memiliki keterbatasan, seperti akurasi yang kurang optimal dan ketidakmampuan menangkap relasi non-linear yang kompleks antar fitur Random Forest juga cenderung menghasilkan model yang sulit diinterpretasikan secara kebijakan karena tidak memprioritaskan variabel secara eksplisit. Salah satu algoritma yang menunjukkan performa unggul adalah Extreme Gradient Boosting (XGBoos. Sebagai respons terhadap masalah yang diangkat pada penelitian ini, peneliti mengusulkan pemanfaatan XGBoost, sebuah algoritma pembelajaran ensemble yang menggabungkan kekuatan decision tree dalam bentuk boosting XGBoost tidak hanya memiliki performa prediktif yang unggul, tetapi juga menawarkan kontrol regularisasi untuk mencegah overfitting serta kemampuan untuk menangani data tidak seimbang (Asnawi et al. Zhou et al. menunjukkan bahwa XGBoost dapat secara akurat memprediksi volume kunjungan rumah sakit dengan memperhitungkan parameter lingkungan seperti PMCC. CI dan suhu. Kemampuan XGBoost dalam menangani relasi non-linear dan interaksi antar fitur menjadikannya sangat cocok untuk data lingkungan yang Selain akurasi, aspek interpretabilitas menjadi penting untuk keperluan kebijakan publik. XGBoost mendukung analisis feature importance yang membantu mengidentifikasi variabel lingkungan paling berpengaruh, seperti titik embun atau suhu terasa (Lev, 2. Dengan pendekatan ini, di masa depan, sistem peringatan dini dapat difokuskan pada variabel utama seperti titik embun dan kecepatan angin kencang, sebagaimana yang juga disarankan dalam penelitian Sapna et al. dan Fauzianto & Ali . yang menyoroti pentingnya pemantauan polutan dan kondisi atmosfer pasca kebakaran lahan. Penelitian ini bertujuan untuk mengembangkan model prediksi risiko kesehatan perkotaan berbasis regresi XGBoost yang telah dioptimasi, menggunakan data kualitas udara dan parameter meteorologi. Selain menghasilkan model prediktif yang akurat, studi ini juga mengevaluasi kontribusi relatif dari setiap variabel lingkungan terhadap risiko kesehatan. Kontribusi utama penelitian ini terletak pada penerapan pertama model XGBoost yang telah di-finetuning dalam konteks analisis kesehatan urban di Indonesia, serta penyajian basis data empiris yang mendekati kondisi lokal melalui pemanfaatan data sintetis yang representatif. http://jurnal. id/index. php/co-science Computer Science (CO-SCIENCE) Vol. 5 No. 2 Juli 2025 | E-ISSN: 2774-9711 | P-ISSN: 2808-9065 METODE PENELITIAN Penelitian ini menerapkan pendekatan kuantitatif analitik untuk membangun model prediksi risiko kesehatan perkotaan menggunakan algoritma XGBoost. Dataset berisi 1000 baris dan 46 kolom. Semua baris yang memiliki nilai kosong pada variabel target Health Risk Score dihapus, dan fitur numerik yang memiliki nilai hilang diimputasi menggunakan nilai median, karena metode ini relatif tahan terhadap outlier. Jumlah data setelah prapemrosesan serta distribusi variabel target dicatat untuk memastikan transparansi metodologis. Selanjutnya, data dibagi menjadi subset pelatihan sebesar 80% dan pengujian sebesar 20% dengan pembagian stratifikasi berdasarkan nilai Health Risk Score, dan penguncian parameter random_state dilakukan agar hasil dapat direproduksi secara konsisten. Model dikembangkan menggunakan pustaka xgboost. XGBRegressor dari Python, dan dilakukan penyetelan . ine-tunin. hyperparameter dengan menggunakan RandomizedSearchCV serta validasi silang . -fold cross-validatio. Ruang pencarian mencakup parameter n_estimators . Ae1. , max_depth . Ae. , learning_rate . ,01Ae0,. , dan subsample . ,5Ae1,. Metode ini dipilih berdasarkan temuan bahwa Randomized Search lebih efisien dalam menjelajahi ruang parameter dibandingkan Grid Search (Pramudhyta & Rohman, 2024. Suba, 2. XGBoost juga menyediakan regularisasi L2 internal yang secara empiris terbukti efektif dalam menekan risiko overfitting (Bentyjac et al. , 2. Evaluasi model dilakukan dengan dua metrik utama: Mean Squared Error (MSE) dan koefisien determinasi (R-square. MSE mengukur rata-rata kuadrat selisih antara nilai aktual dan prediksi, dihitung menggunakan persamaan . 1 ycu . cycn Oe ycn )2 ycAycIya = yuycn=1 . ycu dengan n adalah jumlah sampel, yA adalah nilai aktual, dan A adalah nilai prediksi. MSE merupakan metrik yang umum digunakan dalam regresi karena mempertahankan satuan variabel target (Ozili, 2. Sementara itu. R-squared mengukur proporsi variasi data yang dapat dijelaskan oleh model prediktif, dihitung dengan persamaan . ycI2 = 1 Oe ( yu. cycn Oe ycn )2 yu. cycn Oe )2 . di mana adalah rata-rata nilai aktual. Nilai RA mendekati 1 menunjukkan bahwa model memiliki kemampuan penjelasan yang tinggi terhadap variabilitas data (Chicco et al. , 2. Kedua metrik ini dihitung pada data pengujian serta pada setiap lipatan cross-validation untuk menilai akurasi dan kemampuan generalisasi model. Tahap selanjutnya adalah analisis feature importance menggunakan metrik gain dari XGBoost untuk mengidentifikasi fitur-fitur lingkungan yang paling berkontribusi terhadap prediksi skor risiko kesehatan. Kemudian tahap akhir dari penelitian ini adalah penyusunan rekomendasi berbasis hasil analisis feature importance dari model XGBoost. Setelah model dievaluasi, fitur-fitur lingkungan yang memiliki kontribusi tertinggi terhadap prediksi skor risiko kesehatan diidentifikasi menggunakan metrik gain. Berdasarkan fitur-fitur tersebut, rekomendasi awal dirumuskan dengan mengusulkan ambang batas atau kombinasi nilai parameter lingkungan yang dapat diasosiasikan dengan peningkatan risiko kesehatan, sehingga dapat digunakan sebagai indikator peringatan dini atau masukan kebijakan mitigasi. Rekomendasi ini bersifat eksploratif dan bertujuan menyediakan dasar awal bagi pengembangan sistem pemantauan kesehatan masyarakat yang berbasis data lingkungan secara lebih responsif dan adaptif. Rangkaian proses penelitian secara keseluruhan disajikan dalam bentuk blok diagram pada Gambar 1. Sumber : Hasil Penelitian . Gambar 1. Rangkaian proses penelitian HASIL DAN PEMBAHASAN Dataset Dataset Urban Air Quality and Health Impact (Abdullah & Yaqoob, 2. adalah dataset publik dari Kaggle yang berisi 1. 000 observasi dan 46 variabel yang merekam parameter lingkungan serta dampaknya terhadap kesehatan masyarakat di kota-kota Amerika Serikat. Fitur-fitur dalam dataset ini mencakup tujuh kategori http://jurnal. id/index. php/co-science Computer Science (CO-SCIENCE) Vol. 5 No. 2 Juli 2025 | E-ISSN: 2774-9711 | P-ISSN: 2808-9065 utama, yaitu: . identifikasi spasial-temporal . isalnya tanggal, kota, musim, dan har. , . parameter termal seperti suhu maksimum, suhu persepsi, titik embun, dan heat index, . kondisi atmosfer seperti kelembapan, tekanan, angin, dan jarak pandang, . presipitasi dan salju, . radiasi matahari dan indeks cuaca ekstrem, . variabel kesehatan berupa Health Risk Score dan deskripsi kondisi atmosfer, serta . metadata tambahan seperti fase bulan dan sumber data. Setiap fitur telah melalui proses validasi kualitas dan dapat dimanfaatkan dalam studi epidemiologi lingkungan, prediksi risiko kesehatan berbasis cuaca, serta analisis perubahan iklim mikro perkotaan. Variabelvariabel termal dan kelembapan khususnya memberikan wawasan penting terkait fenomena heat stress dan implikasinya terhadap kesehatan populasi. Contoh sampel data dan nama fiturnya disajikan pada Tabel 1. Tabel 1. Sampel dataset dan fiturnya Health_Risk_Sc 10,52217031099 10,06233162414 9,673386510582 9,411519469002 9,515178582170 Sumber: Dataset Urban Air Quality and Health Impact . Hasil Penelitian Model XGBoost Regression yang telah dioptimasi melalui proses tuning hyperparameter dengan RandomizedSearchCV pada 5-fold cross-validation menghasilkan performa prediktif yang sangat tinggi. Parameter optimal yang diperoleh adalah n_estimators=700, max_depth=3, learning_rate=0. 05, subsample=0. colsample_bytree=0. 6, reg_alpha=0. 5, reg_lambda=1. 5, dan gamma=0. Dengan konfigurasi ini, model mencapai nilai Mean Squared Error (MSE) sebesar 0,0122 dan koefisien determinasi (RA) sebesar 0,9692 pada data uji. Artinya, model mampu menjelaskan hampir 97% variasi dalam skor risiko kesehatan berdasarkan parameter lingkungan, dengan rata-rata kesalahan prediksi sebesar Oo0,0122 OO 0,11 unit pada skala risiko yang diasumsikan berkisar antara 0Ae12. Gambar 2 menyajikan feature importance dari 10 fitur utama berdasarkan metrik gain, yang mengukur kontribusi fitur terhadap penurunan fungsi loss dalam pemodelan. Fitur dew point menjadi yang paling signifikan dengan skor 2,76, menunjukkan pengaruh besar dari kelembapan absolut terhadap prediksi risiko. Fitur berikutnya adalah Heat Index . , yang mewakili kombinasi suhu dan kelembapan dalam mencerminkan beban panas terhadap tubuh manusia. Wind Gust, atau kecepatan hembusan angin, menempati posisi ketiga . dan mengindikasikan bahwa variabilitas atmosfer ekstrem turut meningkatkan risiko kesehatan. Fitur-fitur lainnya seperti Severity_Score, feelslikemax, humidity, dan cloudcover juga memberikan kontribusi bermakna. Sumber : Hasil Penelitian . Gambar 2. Feature importance dari 10 fitur utama. http://jurnal. id/index. php/co-science Computer Science (CO-SCIENCE) Vol. 5 No. 2 Juli 2025 | E-ISSN: 2774-9711 | P-ISSN: 2808-9065 Gambar 3 menunjukkan hubungan antara nilai prediksi dan nilai aktual dari Health Risk Score pada data Titik-titik data tersebar sangat dekat dengan garis referensi . = . yang digambarkan dalam garis putus-putus merah, menandakan tingkat kecocokan yang tinggi antara hasil prediksi dan observasi sebenarnya. Konsistensi ini mengindikasikan bahwa model mampu memberikan estimasi yang akurat di seluruh rentang skor, tidak hanya pada nilai tengah. Pola ini juga menunjukkan bahwa tidak terdapat pola sistematis terhadap overestimasi atau underestimasi pada rentang skor tertentu. Sumber : Hasil Penelitian . Gambar 3. Hubungan antara nilai prediksi dan nilai aktual dari Health Risk Score Distribusi error . ditampilkan dalam Gambar 4, yang memperlihatkan histogram dari selisih antara nilai aktual dan prediksi. Distribusi ini berbentuk simetris dan mendekati distribusi normal, dengan puncak yang jelas di sekitar nol. Artinya, kesalahan model tidak condong ke arah positif maupun negatif, dan prediksi yang dihasilkan tidak memiliki bias sistematis. Ini penting sebagai indikator bahwa model tidak hanya akurat secara statistik, tetapi juga seimbang secara prediktif dalam berbagai kondisi atmosfer. Sumber : Hasil Penelitian . Gambar 4. Distribusi residual Gambar 5 adalah heatmap korelasi antar 10 fitur terpenting yang digunakan dalam model. Korelasi sangat tinggi ditemukan antara feelslikemax, feelslike, dan tempmax . > 0,. , yang menunjukkan adanya redudansi informasi suhu di antara fitur-fitur ini. Korelasi yang kuat ini dapat dijadikan pertimbangan dalam penyederhanaan model di masa depan melalui reduksi dimensi atau seleksi fitur. Di sisi lain, korelasi rendah antara windgust. Severity_Score, dan fitur lainnya menunjukkan bahwa fitur-fitur tersebut menyumbang informasi yang unik dan independen terhadap output model. Korelasi antara dew dan humidity . OO 0,. mengindikasikan bahwa titik embun berhasil menangkap dimensi kelembapan lingkungan secara lebih efektif daripada kelembapan relatif http://jurnal. id/index. php/co-science Computer Science (CO-SCIENCE) Vol. 5 No. 2 Juli 2025 | E-ISSN: 2774-9711 | P-ISSN: 2808-9065 Sumber : Hasil Penelitian . Gambar 5. Heatmap korelasi antar 10 fitur terpenting Jika dibandingkan dengan studi Pathak et al. , model XGBoost dalam penelitian ini menunjukkan peningkatan kinerja yang nyata. Pathak menggunakan Random Forest untuk prediksi dampak kualitas udara dan hanya mencapai RA sebesar 0,89 dan RMSE 0,65. Model yang dikembangkan dalam studi ini tidak hanya mencapai RA = 0,9692 . eningkatan lebih dari 8%), tetapi juga memberikan interpretasi fitur yang jauh lebih rinci dan akurat berkat metrik gain dalam XGBoost. Perbedaan signifikan ini menunjukkan bahwa dengan tuning dan analisis fitur mendalam. XGBoost mampu memberikan prediksi yang lebih presisi dan bermanfaat secara aplikatif. Secara keseluruhan, hasil penelitian ini memperlihatkan bahwa model XGBoost Regression yang dikembangkan tidak hanya akurat secara kuantitatif, tetapi juga kuat secara diagnostikAidengan distribusi error yang seimbang, dominasi fitur yang konsisten dengan teori medis, dan struktur internal antar fitur yang mendukung interpretabilitas lanjutan. Pembahasan Dengan hasil evaluasi MSE sebesar 0,0122 dan RA sebesar 0,9692, model ini menunjukkan kinerja yang sangat superior dibandingkan metode regresi tradisional. Dalam studi Pathak et al. Random Forest dilaporkan hanya mencapai RA sebesar 0,89 dan RMSE sekitar 0,65 dalam konteks prediksi dampak lingkungan terhadap kesehatan, tanpa integrasi eksplisit analisis fitur atau proses tuning parameter secara sistematis. Dibandingkan dengan itu, pendekatan XGBoost dalam studi ini tidak hanya menunjukkan akurasi lebih tinggi, tetapi juga menghasilkan model yang lebih stabil dan dapat dijelaskan secara interpretatif melalui analisis feature Pentingnya fitur dew point dalam model selaras dengan literatur medis yang menyebutkan bahwa kelembapan absolut memainkan peran lebih signifikan dalam memicu eksaserbasi pernapasan dibanding kelembapan relatif. Kombinasi dengan heat index dan wind gust sebagai prediktor utama memperkuat bukti bahwa variabilitas termal dan atmosferik memiliki dampak besar terhadap beban penyakit. Keunikan wind gust sebagai fitur dengan korelasi rendah namun gain tinggi juga menunjukkan bahwa elemen-elemen cuaca ekstrem yang tidak selalu muncul sebagai tren jangka panjang tetap dapat meningkatkan risiko secara tajam dalam jangka pendek. Korelasi antar fitur dalam heatmap memperlihatkan pola hubungan yang dapat dimanfaatkan dalam rekayasa fitur selanjutnya. Penghapusan fitur dengan korelasi sangat tinggi dapat mengurangi multikolinearitas dan mempercepat waktu komputasi tanpa kehilangan informasi signifikan. Sebaliknya, fitur dengan korelasi rendah namun skor gain tinggi sebaiknya dipertahankan sebagai bagian dari fitur esensial yang menyumbang informasi independen terhadap variabel target. Dari sisi implementasi, hasil ini sangat aplikatif dalam konteks perkotaan Indonesia. Kota-kota besar seperti Jakarta. Surabaya. Bandung, dan Makassar sering mengalami kelembapan tinggi, fluktuasi suhu ekstrem, dan paparan polusi kronis. Model ini dapat diintegrasikan ke dalam sistem pemantauan kualitas udara dan kesehatan lingkungan oleh Dinas Kesehatan atau instansi mitigasi bencana seperti BPBD. Misalnya, ketika nilai dew point dan wind gust melebihi ambang tertentu, sistem dapat mengeluarkan peringatan dini bagi kelompok rentan seperti lansia dan penderita penyakit kronis. Selain itu, perencanaan kota juga dapat mengadopsi temuan ini dalam perancangan ruang terbuka hijau dan ventilasi alami. Namun, penelitian ini masih memiliki batasan. Dataset yang digunakan adalah dataset sekunder dari luar negeri dan belum dikalibrasi dengan kondisi atmosfer dan profil kesehatan lokal Indonesia. Variabel sosialhttp://jurnal. id/index. php/co-science Computer Science (CO-SCIENCE) Vol. 5 No. 2 Juli 2025 | E-ISSN: 2774-9711 | P-ISSN: 2808-9065 ekonomi dan kepadatan populasi yang juga berperan dalam menentukan dampak lingkungan terhadap kesehatan belum dimasukkan dalam model. Oleh karena itu, validasi eksternal dan pengembangan lanjutan dengan data lokal sangat direkomendasikan untuk memperluas jangkauan dan efektivitas implementasi model di Indonesia. Sebagai simpulan bagian ini, pendekatan XGBoost Regression yang telah dioptimasi dan divalidasi dalam studi ini bukan hanya unggul dibanding metode lain dalam hal akurasi, tetapi juga memberikan informasi bernilai tinggi tentang faktor risiko lingkungan yang dapat ditindaklanjuti secara operasional. Keunggulan ini menjadikan model ini layak untuk diadopsi dalam sistem pemantauan kesehatan lingkungan berbasis data di wilayah urban Indonesia. KESIMPULAN Penelitian ini menunjukkan bahwa XGBoost Regression yang dioptimasi melalui penyetelan hiperparameter mampu memprediksi risiko kesehatan masyarakat perkotaan dengan akurasi tinggi (MSE = 0,0122. RA = 0,9. Model secara konsisten mengidentifikasi dew point dan wind gust sebagai fitur dominan, yang mencerminkan pentingnya kombinasi tekanan termal dan variabilitas atmosfer dalam mempengaruhi beban Temuan ini berkontribusi secara teoretis pada literatur pemodelan prediktif berbasis lingkungan, sekaligus memberikan implikasi praktis berupa peluang penerapan sistem peringatan dini dan pemantauan risiko berbasis data, terutama di wilayah urban tropis seperti kota-kota besar di Indonesia. Namun demikian, penggunaan dataset dari Amerika Serikat menghadirkan potensi bias jika diterapkan langsung di Indonesia tanpa kalibrasi lokal. Model ini juga belum mempertimbangkan faktor sosial-ekonomi, status kesehatan dasar, dan distribusi kerentanan populasi. Oleh karena itu, penelitian selanjutnya perlu memanfaatkan data lokal yang mencerminkan kondisi iklim, demografi, dan perilaku masyarakat Indonesia. Integrasi dengan data real-time . ensor udara atau catatan medi. , serta penerapan pendekatan explainable AI seperti SHAP, akan memperkuat relevansi kebijakan dan kepercayaan pengguna. Dengan pendekatan yang adaptif dan berbasis bukti, sistem ini dapat menjadi fondasi bagi perencanaan kota yang lebih tanggap terhadap risiko ACKNOWLEDGEMENTS Peneliti mengucapkan terima kasih kepada pengembang dataset Urban Air Quality and Health Impact (Abdullah & Yaqoob, 2. yang telah membagikan data secara terbuka melalui Kaggle di bawah lisensi MIT. Dataset ini menjadi dasar utama dalam proses pengembangan dan evaluasi model prediktif pada studi ini. Penelitian ini tidak menerima pendanaan eksternal dan seluruh analisis dilakukan secara independen. CONFLICT OF INTEREST Peneliti menyatakan tidak memiliki konflik kepentingan, baik secara finansial, institusional, maupun pribadi, yang dapat memengaruhi hasil atau interpretasi dari penelitian ini. REFERENSI