Optimalisasi Prediksi Kasus Demam Berdarah Dengue (DBD) Menggunakan Regresi Logistik Biner dengan Pendekatan SMOTE dan Tuning Hyperparameter Rosa Ratri Kusuma Hariningsih.
Diwahana Mutiara Candrasari.
Endang Setyawati Prodi Teknik Multimedia dan Jaringan.
Sekolah Tinggi Ilmu Komputer Yos Sudarso Purwokerto.
Indonesia
Info Articles Abstrak
___________________
____________________________________________________________
Keywords:
Demam Berdarah Dengue (DBD) merupakan penyakit endemis yang masih menjadi tantangan kesehatan masyarakat di Indonesia.
Deteksi dini terhadap potensi munculnya kasus DBD sangat krusial untuk penanggulangan yang cepat dan tepat.
Penelitian ini bertujuan untuk mengembangkan model prediksi kasus DBD menggunakan Regresi Logistik Biner dengan penanganan data tidak seimbang melalui teknik Synthetic Minority Oversampling Technique (SMOTE) dan optimasi model menggunakan hyperparameter tuning.
Dataset yang digunakan mencakup data cuaca dan kasus DBD di wilayah Purwokerto tahun 2022Ae2024.
Hasil penelitian menunjukkan bahwa setelah dilakukan penyeimbangan data dan tuning parameter, model mampu mencapai akurasi validasi silang sebesar 84,12%, meskipun akurasi pada data uji menurun menjadi 64%.
Meskipun demikian, pendekatan ini menunjukkan potensi dalam pemodelan prediktif kasus DBD yang lebih akurat dan inklusif.
Demam Berdarah Dengue.
Regresi Logistik.
SMOTE.
Hyperparameter Tuning.
Data Tidak Seimbang.
____________________
Abstract
_________________________________________________
Dengue Hemorrhagic Fever (DHF) remains an endemic disease and a significant public health challenge in Indonesia.
Early detection of potential DHF outbreaks is crucial for timely and effective intervention.
This study aims to develop a predictive model for DHF cases using Binary Logistic Regression, addressing data imbalance through the Synthetic Minority Over-sampling Technique (SMOTE) and optimizing model performance via hyperparameter tuning.
The dataset comprises weather variables and DHF incidence data from the Purwokerto region spanning 2022 to 2024.
The Joined Journal (Journal of Informatics Educatio.
results demonstrate that after data balancing and parameter tuning, the model achieved a cross-validation accuracy of 84.
12%, although performance declined on the test set to 64%.
Despite this decrease, the approach shows promise in enhancing predictive modeling for DHF cases by improving accuracy and inclusiveness.
Alamat Korespondensi: Jln.
SMP 5 Karang Klesem.
Purwokerto 53144 p-ISSN 2621-9484 E-mail: rosaratri23@gmail.
e-ISSN 2620-8415 Joined Journal (Journal of Informatics Educatio.
PENDAHULUAN Demam Berdarah Dengue (DBD) merupakan penyakit tropis yang disebabkan oleh virus dengue dan ditularkan melalui gigitan nyamuk Aedes aegypti.
Penyakit ini bersifat endemis dan masih menjadi tantangan serius bagi sistem kesehatan di Indonesia, terutama karena peningkatan kasus yang cenderung terjadi secara musiman selama musim Upaya pengendalian DBD selama ini masih cenderung bersifat reaktif, seperti fogging dan pemberantasan sarang nyamuk, yang hanya dilakukan setelah munculnya Padahal, pendekatan prediktif berbasis data dapat menjadi solusi yang lebih efektif dalam upaya pencegahan dini dan pengambilan keputusan oleh pemangku kebijakan kesehatan masyarakat.
Sejumlah penelitian telah mengkaji penggunaan model prediktif berbasis pembelajaran mesin .
achine learnin.
untuk mendeteksi potensi kasus DBD.
Sari.
Permana, dan Lestari .
menggunakan algoritma Random Forest untuk prediksi kasus DBD berdasarkan data iklim, sementara Wijaya dan Nugroho .
memanfaatkan model XGBoost untuk prediksi kejadian DBD di wilayah tropis.
Namun, sebagian besar studi tersebut belum secara spesifik menangani permasalahan ketidakseimbangan kelas dalam data, yaitu jumlah data kasus DBD yang jauh lebih sedikit dibandingkan data tanpa kasus.
Ketidakseimbangan ini menyebabkan model menjadi bias terhadap kelas mayoritas dan menurunkan kemampuan deteksi terhadap kelas minoritas.
Selain itu, belum banyak studi yang secara khusus menyoroti penerapan model prediktif ini dalam konteks lokal seperti Purwokerto, yang memiliki dinamika iklim dan pola penyebaran penyakit tersendiri.
Penelitian ini bertujuan untuk mengembangkan model prediksi kasus DBD berbasis Regresi Logistik Biner yang dikombinasikan dengan teknik Synthetic Minority Oversampling Technique (SMOTE) untuk mengatasi ketidakseimbangan data, serta optimasi performa melalui tuning hyperparameter.
Studi dilakukan dengan menggunakan data kejadian DBD dan data iklim .
uhu, kelembaban, curah hujan, dan bula.
di empat kecamatan di Purwokerto selama periode 2022Ae2024.
Kontribusi kebaruan dari penelitian ini adalah pada integrasi pendekatan penyeimbangan data dan optimasi model dalam konteks lokal, yang belum banyak dibahas dalam literatur sebelumnya.
Diharapkan model ini dapat menjadi dasar sistem peringatan dini yang lebih adaptif dan responsif dalam mendeteksi potensi kasus DBD di wilayah tropis Indonesia.
METODE
Lokasi dan Data Penelitian Penelitian ini dilakukan dengan menggunakan data sekunder dari wilayah administratif Purwokerto, yang mencakup empat kecamatan: Purwokerto Utara.
Purwokerto Selatan.
Purwokerto Barat, dan Purwokerto Timur.
Dataset mencakup data cuaca dan data kasus Demam Berdarah Dengue (DBD) bulanan dari Januari 2022 hingga Maret 2024.
Data cuaca diperoleh dari Badan Meteorologi.
Klimatologi, dan Geofisika (BMKG) dan terdiri atas variabel suhu udara (AC), kelembaban udara (%), curah hujan .
, dan bulan pencatatan.
Sementara itu, data jumlah kasus DBD diperoleh dari Dinas Joined Journal (Journal of Informatics Educatio.
Kesehatan setempat dan dinyatakan dalam satuan jumlah kasus per bulan di setiap Pra-Pemrosesan Data Data awal melalui tahap pembersihan dengan mengidentifikasi nilai hilang pada seluruh variabel.
Nilai hilang pada data cuaca diimputasi menggunakan nilai rata-rata berdasarkan bulan dan kecamatan terkait.
Jika data kasus DBD pada bulan tertentu tidak tersedia dan proporsi hilangnya melebihi 30%, maka data tersebut dihapus dari analisis.
Target variabel berupa status risiko DBD dibentuk melalui binarisasi, dengan nilai 1 jika jumlah kasus DBD lebih dari 5 dan nilai 0 jika sama dengan atau kurang dari 5.
Variabel bulan dikodekan ke dalam format one-hot encoding untuk menangkap pola musiman secara eksplisit dan menghindari interpretasi ordinal yang keliru.
Pembagian Data dan Penanganan Ketidakseimbangan Dataset yang telah dibersihkan dibagi menjadi data pelatihan .
%) dan data pengujian .
%) menggunakan metode stratified sampling agar distribusi kelas pada target tetap seimbang di kedua subset.
Ketidakseimbangan kelas pada data pelatihan diatasi dengan menerapkan metode Synthetic Minority Over-sampling Technique (SMOTE), sesuai dengan prosedur yang dikembangkan oleh Chawla et al.
SMOTE menghasilkan sampel sintetis dari kelas minoritas berdasarkan interpolasi data dengan k-nearest neighbors .
, yang meningkatkan representasi kelas tanpa melakukan Transformasi dan Standarisasi Fitur Seluruh fitur numerik .
uhu, kelembaban, dan curah huja.
distandarisasi menggunakan StandardScaler dari pustaka scikit-learn, sehingga masing-masing fitur memiliki rata-rata nol dan deviasi standar satu.
Transformasi ini bertujuan untuk mengoptimalkan kinerja algoritma Regresi Logistik, khususnya ketika regularisasi diterapkan.
Pemodelan dan Tuning Hyperparameter Algoritma klasifikasi yang digunakan adalah Regresi Logistik Biner dengan solver saga, yang mendukung regularisasi L1 dan L2 serta efisien untuk dataset yang telah melalui one-hot encoding.
Tuning parameter dilakukan menggunakan metode GridSearchCV dengan validasi silang sebanyak 5 lipatan .
-fold cross-validation, k=.
Hyperparameter yang dievaluasi mencakup nilai C .
nverse dari kekuatan regularisas.
dalam rentang .
01, 0.
1, 1, 10, .
, dan jenis regularisasi (Aol1Ao.
Aol2A.
Pemilihan konfigurasi optimal didasarkan pada nilai rata-rata tertinggi dari skor F1 pada data validasi silang.
Evaluasi Kinerja Model Kinerja model dievaluasi menggunakan data pengujian yang tidak terlibat dalam pelatihan Dua skenario threshold klasifikasi digunakan: default threshold 0.
5 dan custom 3 untuk meningkatkan sensitivitas deteksi.
Metrik evaluasi yang digunakan Akurasi (Accurac.
Presisi (Precisio.
Sensitivitas (Recal.
F1-Score
HASIL DAN PEMBAHASAN
Deskripsi Data Data yang digunakan terdiri dari 36 bulan pengamatan (Januari 2022 sampai Desember 2.
dengan variabel suhu rata-rata, kelembaban relatif, curah hujan, dan Joined Journal (Journal of Informatics Educatio.
bulan sebagai fitur, serta jumlah kasus DBD sebagai target.
Distribusi kelas target setelah binarisasi adalah:
A Kelas 0 (DBD O 5 kasu.
: 70% A Kelas 1 (DBD > 5 kasu.
: 30% Hal ini menunjukkan adanya ketidakseimbangan kelas yang dapat mempengaruhi performa model.
Pra-pemrosesan dan Penanganan Data Imbalance Setelah melakukan one-hot encoding pada variabel bulan, fitur numerik distandarisasi menggunakan StandardScaler.
SMOTE berhasil menyeimbangkan data pelatihan dengan menambah sampel sintetis untuk kelas minoritas, sehingga jumlah kelas 0 dan 1 menjadi seimbang.
Hal ini penting untuk menghindari bias model terhadap kelas Gambar 1.
Pra Pemrosesan data imbalance Hasil Tuning Hyperparameter GridSearchCV menemukan kombinasi hyperparameter terbaik pada model Regresi Logistik:
A c = 1 .
egularisasi sedan.
A penalty = 'l2' Model ini memberikan keseimbangan optimal antara bias dan varians.
Gambar 2.
Hasil tuning Evaluasi Model pada Data Pengujian Model klasifikasi diuji pada dataset berukuran 44 sampel dengan dua kelas:
A Kelas 0 .
idak berisiko / DBD O 5 kasu.
sebanyak 37 sampel A Kelas 1 .
erisiko / DBD > 5 kasu.
sebanyak 7 sampel Joined Journal (Journal of Informatics Educatio.
Gambar 3.
Hasil evaluasi model Evaluasi terhadap model klasifikasi dilakukan menggunakan metrik akurasi, precision, recall, dan F1-score pada masing-masing kelas, serta nilai rata-rata makro dan tertimbang .
acro average dan weighted averag.
Berdasarkan hasil pengujian terhadap data uji, model memperoleh nilai akurasi sebesar 0,64, yang menunjukkan bahwa sebanyak 64% prediksi model sesuai dengan label aktual.
Namun demikian, dalam konteks klasifikasi dengan distribusi kelas yang tidak seimbang, akurasi bukanlah indikator yang sepenuhnya representatif karena dapat terdistorsi oleh dominasi kelas Analisis lebih lanjut pada masing-masing kelas menunjukkan bahwa untuk kelas 0 .
asus DBD tidak berisik.
, model mampu mencapai precision sebesar 0,86 dan recall sebesar 0,68, menghasilkan nilai F1-score sebesar 0,76.
Hal ini menunjukkan bahwa model cukup andal dalam mengenali dan mengklasifikasikan kasus-kasus non-berisiko.
Sebaliknya, pada kelas 1 .
asus DBD berisik.
, performa model menunjukkan kelemahan yang signifikan.
Precision yang diperoleh hanya sebesar 0,20, dengan recall sebesar 0,43 dan F1-score sebesar 0,27.
Nilai-nilai tersebut mengindikasikan bahwa model memiliki tingkat kesalahan prediksi yang tinggi dalam mengidentifikasi kasus berisiko, baik berupa prediksi positif palsu .
alse positive.
maupun negatif palsu .
alse negative.
Nilai macro average untuk precision, recall, dan F1-score masing-masing sebesar 0,53, 0,55, dan 0,52.
Nilai ini mencerminkan rata-rata performa model tanpa mempertimbangkan distribusi kelas, dan menegaskan ketidakseimbangan performa antara kedua kelas.
Sementara itu, nilai weighted average untuk metrik-metrik tersebut, yang memperhitungkan proporsi jumlah sampel di masing-masing kelas, menunjukkan precision sebesar 0,76, recall sebesar 0,64, dan F1-score sebesar 0,68.
Meskipun lebih tinggi, nilai ini cenderung dipengaruhi oleh performa pada kelas mayoritas dan tidak Joined Journal (Journal of Informatics Educatio.
mencerminkan kemampuan model dalam mengklasifikasikan kasus berisiko secara Secara keseluruhan, hasil evaluasi ini menunjukkan bahwa model memiliki kinerja yang cukup baik dalam mengidentifikasi kasus DBD tidak berisiko, namun belum mampu mendeteksi kasus berisiko secara optimal.
Hal ini menjadi perhatian penting, mengingat tujuan utama dari model prediktif ini adalah untuk memberikan peringatan dini terhadap potensi lonjakan kasus DBD.
Oleh karena itu, diperlukan pendekatan lanjutan untuk meningkatkan sensitivitas terhadap kelas minoritas, seperti penyesuaian ambang batas klasifikasi, penerapan teknik penyeimbangan data tambahan, atau eksplorasi algoritma klasifikasi alternatif yang lebih adaptif terhadap ketidakseimbangan kelas.
Hasil confusion matrix menunjukkan bahwa dari total 44 sampel, model Gambar 4.
Hasil akurasi True Negative (TN) sebanyak 23: Kasus tidak berisiko yang berhasil diprediksi dengan benar.
A False Positive (FP) sebanyak 14: Kasus tidak berisiko yang salah diprediksi sebagai A False Negative (FN) sebanyak 3: Kasus berisiko yang salah diklasifikasikan sebagai tidak berisiko.
A True Positive (TP) sebanyak 4: Kasus berisiko yang berhasil dikenali dengan tepat oleh model.
Berdasarkan gambar tersebut, untuk memperoleh gambaran yang lebih komprehensif mengenai kinerja model klasifikasi, dilakukan analisis terhadap confusion matrix dengan ambang batas probabilitas .
sebesar 0,3.
Penurunan threshold Joined Journal (Journal of Informatics Educatio.
dari nilai default 0,5 ke 0,3 bertujuan untuk meningkatkan sensitivitas model terhadap kelas minoritas .
asus DBD berisik.
Berdasarkan distribusi ini, dapat disimpulkan bahwa penurunan threshold berhasil meningkatkan jumlah True Positive dari sebelumnya, yang berdampak positif terhadap recall kelas 1.
Recall meningkat menjadi 0,57 .
dari total 7 kasus aktual berisik.
, dibandingkan hanya 0,43 pada threshold 0,5.
Peningkatan recall ini penting dalam konteks deteksi dini penyakit, karena kegagalan dalam mengidentifikasi kasus berisiko dapat berdampak langsung terhadap upaya pencegahan dan pengendalian penyakit di Namun demikian, peningkatan sensitivitas terhadap kelas berisiko juga disertai dengan peningkatan jumlah False Positive .
, yang menyebabkan penurunan Hal ini menandakan adanya kompromi antara kemampuan model mendeteksi lebih banyak kasus berisiko dan potensi kesalahan dalam memberikan peringatan palsu.
Dalam konteks kesehatan masyarakat, kompromi ini sering kali dianggap wajar dan dapat diterima, selama recall yang tinggi dapat dicapai untuk meminimalisir risiko luputnya kasus aktual.
Dengan demikian, penyesuaian threshold memberikan kontribusi positif dalam meningkatkan kemampuan model untuk mendeteksi kasus DBD berisiko.
Namun, peningkatan ini perlu disertai dengan pertimbangan praktis terkait implementasi sistem
peringatan dini, seperti kesiapan sumber daya untuk menindaklanjuti prediksi positif
SIMPULAN
Penelitian ini berhasil merancang model prediksi kejadian Demam Berdarah Dengue (DBD) di wilayah Purwokerto menggunakan algoritma Regresi Logistik Biner yang dioptimalkan melalui penerapan teknik Synthetic Minority Over-sampling Technique (SMOTE) untuk penanganan ketidakseimbangan data, serta tuning hyperparameter guna memperoleh konfigurasi model terbaik.
Model dikembangkan berdasarkan variabel lingkungan seperti suhu udara, kelembaban, curah hujan, dan faktor musiman, yang semuanya diketahui berkontribusi terhadap dinamika penyebaran nyamuk Aedes aegypti.
Hasil tuning menunjukkan bahwa konfigurasi optimal diperoleh pada regularisasi L2 dengan nilai parameter C sebesar 1, yang menghasilkan akurasi validasi silang sebesar 84,12%.
Namun demikian, akurasi model pada data pengujian turun menjadi 64%, menunjukkan adanya perbedaan performa antara proses pelatihan dan generalisasi terhadap data baru.
Ketidakseimbangan performa juga teridentifikasi dari rendahnya F1-score pada kelas minoritas .
isiko tingg.
, meskipun precision dan recall untuk kelas mayoritas tetap tinggi.
Upaya penyesuaian threshold prediksi dari 0,5 ke 0,3 terbukti meningkatkan recall pada kelas minoritas dari 0,43 menjadi 0,57, walaupun disertai peningkatan prediksi positif palsu.
Temuan ini menunjukkan bahwa kombinasi pendekatan Regresi Logistik.
SMOTE, dan tuning hyperparameter dapat menjadi strategi Joined Journal (Journal of Informatics Educatio.
yang efektif untuk membangun sistem peringatan dini berbasis data yang lebih sensitif terhadap potensi kasus DBD, meskipun penguatan lanjutan tetap diperlukan untuk meningkatkan akurasi klasifikasi pada kasus berisiko secara lebih presisi.
DAFTAR PUSTAKA