BULLETIN OF COMPUTER SCIENCE RESEARCH
ISSN 2774-3659 (Media Onlin.
Vol 5.
No 6.
October 2025 | Hal 1304-1314 https://hostjournals.
com/bulletincsr DOI: 10.
47065/bulletincsr.
Perbandingan Teknik Penyeimbang Kelas Pada Multi-Layer Perceptron (MLP) Berbasis Backpropagation Untuk Klasifikasi Diabetes Mellitus Robby Azhar.
Siska Kurnia Gusti*.
Iis Afrianty.
Elvia Budianita Fakultas Sains dan Teknologi.
Prodi Teknik Informatika.
Universitas Islam Negeri Sultan Syarif Kasim Riau.
Pekanbaru.
Indonesia Email: 112150114654@students.
uin-suska.
id, 2,*siskakurniagusti@uin-suska.
id, 3iis.
afrianty@uin-suska.
budianita@uin-suska.
Email Penulis Korespondensi: siskakurniagusti@uin-suska.
AbstrakOeDiabetes Mellitus (DM) adalah penyakit jangka panjang yang berpotensi menimbulkan komplikasi serius apabila tidak terdeteksi sejak dini, sehingga diagnosis dini menjadi hal yang sangat penting.
Salah satu metode yang dapat diterapkan untuk diagnosis dini adalah teknik klasifikasi pada data mining.
Namun, proses klasifikasi sering terkendala oleh ketidakseimbangan kelas yang dapat menurunkan kinerja model.
Penelitian ini bertujuan untuk menganalisis pengaruh teknik penyeimbangan kelas terhadap performa Backpropagation Neural Network (BPNN) dalam klasifikasi penyakit DM.
BPNN merupakan bentuk Multi-Layer Perceptron (MLP) dengan struktur yang sederhana dan memiliki kemampuan menyelesaikan permasalahan kompleks dengan akurasi yang baik.
Dataset yang digunakan adalah Pima Indians Diabetes Dataset dengan total 768 data, terdiri dari 500 data non-diabetes dan 268 data diabetes.
Metode penelitian dilakukan dengan tiga skenario, yaitu tanpa penyeimbangan.
Synthetic Minority Over-sampling Technique (SMOTE), dan Random Under Sampling (RUS).
Model BPNN dirancang dengan dua variasi arsitektur .
atu hidden layer dan dua hidden laye.
, tiga nilai learning rate .
,1.
0,01.
, serta jumlah neuron yang bervariasi.
Pembagian dataset dilakukan menggunakan teknik 10-Fold Cross Validation.
Hasil penelitian menunjukkan bahwa penerapan SMOTE menghasilkan kinerja terbaik, dengan rata-rata akurasi sebesar 90,89%, presisi 91,22%, recall 90,89%, dan F1-score 90,89% pada arsitektur BPNN dengan satu hidden layer.
Selain itu, arsitektur satu hidden layer terbukti lebih stabil dibandingkan dua hidden layer, terutama ketika jumlah data berkurang akibat penerapan RUS.
Dengan demikian, kombinasi SMOTE dan BPNN dengan satu hidden layer memberikan performa yang lebih baik dalam klasifikasi penyakit diabetes mellitus.
Kata Kunci: BPNN.
Ketidakseimbangan Kelas.
Klasifikasi.
RUS.
SMOTE
AbstractOeDiabetes Mellitus (DM) is a chronic disease that can lead to serious complications if not detected early.
therefore, early diagnosis is highly important.
One of the methods that can be applied for early diagnosis is the classification technique in data mining.
However, the classification process often faces challenges due to class imbalance, which can reduce model performance.
This study aims to analyze the effect of class balancing techniques on the performance of the Backpropagation Neural Network (BPNN) in classifying DM cases.
BPNN is a form of Multi-Layer Perceptron (MLP) with a simple structure and the ability to solve complex problems with good accuracy.
The dataset used in this study is the Pima Indians Diabetes Dataset, consisting of 768 instances, including 500 non-diabetic and 268 diabetic cases.
The research was conducted using three scenarios: without balancing.
Synthetic Minority Over-sampling Technique (SMOTE), and Random Under Sampling (RUS).
The BPNN model was designed with two architectural variations .
ne hidden layer and two hidden layer.
, three learning rate values .
1, 0.
01, and 0.
, and a varying number of neurons.
The dataset was divided using the 10-Fold Cross Validation technique.
The results show that applying SMOTE achieved the best performance, with an average accuracy of 90.
89%, precision of 91.
22%, recall of 90.
89%, and F1-score of 90.
89% on the BPNN architecture with one hidden layer.
Furthermore, the single hidden layer architecture proved more stable than the two hidden layers, especially when the dataset size decreased due to RUS.
Therefore, the combination of SMOTE and BPNN with one hidden layer provides better performance in classifying Diabetes Mellitus cases.
Keywords: BPNN.
Class Imbalance.
Classification.
RUS.
SMOTE
PENDAHULUAN
Diabetes Melitus (DM) adalah penyakit jangka panjang yang ditandai dengan peningkatan kadar glukosa darah, yang disebabkan oleh gangguan dalam produksi maupun respon tubuh terhadap insulin .
Berdasarkan data tahun 2019, di seluruh dunia terdapat sekitar 463 juta penderita diabetes, dan jumlah tersebut diprediksikan akan meningkat pada tahun 2045 hingga 700 juta kasus .
World Health Organization (WHO) juga memprediksi bahwa pada tahun 2030.
DM diprediksi menjadi salah satu penyebab kematian utama secara global, seiring pada setiap tahunnya terdapat peningkatan jumlah penderita diabetes.
Indonesia sendiri merupakan salah satu negara dengan jumlah penderita diabetes terbanyak yang menempati peringkat keempat di dunia .
Faktor penyebab utama dari penyakit ini meliputi pola hidup yang berubah, pola makan yang tidak seimbang, rendahnya kesadaran deteksi dini, serta rendahnya aktivitas fisik .
Penyakit ini ditandai dengan kondisi hiperglikemia, yaitu meningkatnya kadar gula darah yang disebabkan oleh gangguan produksi maupun penggunaan insulin secara efektif .
Apabila tidak ditangani dengan tepat.
DM dapat menimbulkan komplikasi serius seperti gangguan ginjal, serangan jantung, amputasi, dan kerusakan saraf .
Oleh karena itu, diagnosis dini menjadi langkah yang penting sebagai upaya pencegahan untuk meminimalkan risiko komplikasi jangka panjang .
, .
, .
Diagnosis dini penyakit DM dapat dilakukan dengan memanfaatkan perkembangan teknologi data mining yang dapat menjadi alat yang potensial dalam membantu proses diagnosis .
Data mining merupakan bagian dari proses Knowledge Discovery in Database (KDD), yang bertujuan untuk menggali pola atau informasi bernilai dari basis data yang besar .
Salah satu teknik data mining yang banyak digunakan adalah klasifikasi, yaitu proses mengelompokkan data berdasarkan target tertentu .
Copyright A 2025 The Author.
Page 1304 This Journal is licensed under a Creative Commons Attribution 4.
0 International License BULLETIN OF COMPUTER SCIENCE RESEARCH ISSN 2774-3659 (Media Onlin.
Vol 5.
No 6.
October 2025 | Hal 1304-1314 https://hostjournals.
com/bulletincsr DOI: 10.
47065/bulletincsr.
Salah satu metode klasifikasi yang banyak diterapkan pada penelitian diagnosis penyakit adalah Backpropagation Neural Network (BPNN) yang merupakan bentuk Multi-Layer Perceptron (MLP).
Penelitian oleh Nurhadi.
Defit, dan Nurcahyo pada tahun 2025 yang menerapkan multilayer perceptron untuk mengidentifikasi demam dengue dan tifus memperoleh akurasi sebesar 98,68% pada rasio data 70:30 .
Selanjutnya, penelitian yang dilakukan oleh Ramadani dan kawan-kawan pada tahun 2024 dengan mengaplikasikan BPNN dalam klasifikasi penyakit jantung koroner dan mencatat rata-rata akurasi mencapai 98,42% dengan perbadingan data latih 90% dan data uji 10% .
Penelitian lainnya oleh Marwati dan Fauzi pada tahun 2024 menunjukkan bahwa penggunaan BPNN dalam klasifikasi penyakit diabetes melitus menghasilkan akurasi sebesar 80,75% dan presisi sebesar 81,74% .
Sementara itu, penelitian oleh Guswanti dan kawan-kawan pada tahun 2025 menggunakan backpropagation dengan nguyen widrow sebagai metode inisialisasi bobot menghasilkan akurasi 92,11% pada learning rate 0,001 dan arsitektur BPNN .
Berdasarkan hasil dari berbagai penelitian tersebut, dapat disimpulkan bahwa BPNN merupakan metode jaringan saraf tiruan (JST) yang terbukti efektif dan mampu menyelesaikan permasalahan klasifikasi yang kompleks dengan akurasi tinggi melalui proses pembelajaran berulang dan penyesuaian bobot secara bertahap .
, .
Pada proses klasifikasi memiliki tantangan utama yang perlu diperhatikan yaitu ketidakseimbangan kelas .
lass Ketidakseimbangan kelas yaitu kondisi ketika distribusi jumlah data antar kelas tidak seimbang, di mana satu kelas memiliki data lebih besar dibanding kelas lain .
, .
Kondisi tidak seimbang ini membuat model klasifikasi lebih sering memprediksi kelas mayoritas, sehingga performa klasifikasi terhadap kelas minoritas menurun .
, .
Untuk mengatasi hal tersebut, digunakan teknik penyeimbang kelas seperti oversampling dan undersampling.
Synthetic Minority Oversampling Technique (SMOTE) sebagai teknik oversampling yang menunjukkan kemampuan dalam meningkatkan akurasi dengan menambah sampel sintetis pada kelas minoritas tanpa menghapus data asli .
SMOTE
juga efektif mengurangi risiko overfitting dan meningkatkan generalisasi model .
Di sisi lain.
Random Undersampling (RUS) bekerja dengan menghapus sebagian data dari kelas mayoritas sehingga jumlah kelas seimbang .
Penerapan SMOTE dan RUS telah diterapkan pada berbagai penelitian, diantaranya penelitian oleh Azhima dan kawan-kawan pada tahun 2024 membuktikan bahwa penggunaan SMOTE pada klasifikasi penyakit stroke dengan BPNN mampu meningkatkan akurasi hingga 96,14% .
Selanjutnya, penelitian oleh Muhidin.
Danny, dan Surojudin pada tahun 2025 menunjukkan bahwa penerapan SMOTE pada prediksi kegagalan perangkat industri menggunakan Random Forest menghasilkan akurasi sebesar 97% serta meningkatkan nilai presisi, recall, dan F1-score, dengan peningkatan paling signifikan pada recall sebesar 21% .
Penelitian lainnya yang dilakukan oleh Ramadhan dan Salam pada tahun 2024 menunjukkan bahwa penerapan RUS pada klasifikasi kista ginjal menggunakan CNN mencapai akurasi sebesar 99% .
Selanjutnya penelitian oleh Untoro dan Yusuf pada tahun 2023 menunjukkan bahwa penggunaan RUS dengan Decision Tree pada dataset resolve imbal anced dapat mengatasi ketidakseimbangan data dengan nilai akurasi 76,21%, presisi 76,28%, recall 76,74%, dan f-measure 76,48% .
Penelitian ini merupakan lanjutan dari studi sebelumnya oleh Guswanti pada tahun 2025 yang menyarankan agar dilakukan pengujian lebih lanjut dengan mempertimbangkan teknik penyeimbang kelas, karena ketidakseimbangan kelas dapat mempengaruhi performa model .
Menindaklanjuti hal tersebut, penelitian ini mengadopsi dua teknik penyeimbang kelas yaitu SMOTE (Synthetic Minority Over-sampling Techniqu.
sebagai teknik oversampling dan Random Undersampling (RUS) sebagai teknik undersampling, yang masing-masing akan diuji dalam model klasifikasi menggunakan BPNN.
Selain itu, penelitian ini juga menerapkan teknik inisialisasi bobot Xavier (Glorot Initializatio.
yang menentukan bobot dan bias secara acak dalam rentang tertentu berdasarkan jumlah neuron pada lapisan input dan Inisialisasi Xavier terbukti efektif saat digunakan bersama fungsi aktivasi sigmoid biner .
, karena dapat mengurangi risiko vanishing gradient yang membuat proses pembelajaran menjadi lambat atau terhenti.
Dengan demikian, teknik Inisialisasi Xavier membantu menjaga distribusi aktivasi tetap stabil pada setiap lapisan jaringan.
Penelitian ini juga menilai performa model secara keseluruhan menggunakan beberapa metrik evaluasi yaitu presisi, recall.
F1-score, dan akurasi.
Dengan demikian, penelitian ini bertujuan untuk meningkatkan performa klasifikasi penyakit diabetes melitus melalui penerapan BPNN dengan teknik penyeimbang kelas SMOTE dan RUS, serta penggunaan inisialisasi bobot Xavier.
METODOLOGI PENELITIAN
Penelitian ini bersifat kuantitatif eksperimental yang bertujuan untuk mengevaluasi pengaruh teknik penyeimbangan data terhadap performa algoritma Backpropagation Neural Network (BPNN) dalam mengklasifikasikan penyakit diabetes Proses penelitian dilaksanakan melalui beberapa tahapan utama yang dilakukan secara sistematis hingga diperoleh hasil evaluasi kinerja model.
Tahapan penelitian ini disajikan pada Gambar 1.
Gambar 1.
Tahapan Peneitian Copyright A 2025 The Author.
Page 1305 This Journal is licensed under a Creative Commons Attribution 4.
0 International License BULLETIN OF COMPUTER SCIENCE RESEARCH ISSN 2774-3659 (Media Onlin.
Vol 5.
No 6.
October 2025 | Hal 1304-1314 https://hostjournals.
com/bulletincsr DOI: 10.
47065/bulletincsr.
1 Pengumpulan Data Pada penelitian ini, dataset yang digunakan adalah Pima Indians Diabetes Dataset, yang diperoleh dari platform Kaggle pada tautan https://w.
com/datasets/jamaltariqcheema/pima-indians-diabetes-dataset.
Dataset ini terdiri dari 768 data, yang terbagi menjadi 268 data pasien diabetes dan 500 data pasien non-diabetes.
Setiap data memiliki 8 atribut dan dua label klasifikasi, yaitu diabetes dan non-diabetes.
Daftar atribut pada dataset ditampilkan pada Tabel 1.
Tabel 1.
Daftar Atribut pada Dataset
Atribut
Pregnancies Glucose Blood Pressure Skin Thickness Insulin
BMI
Diabetes Pedigree Function Age Outcome Deskripsi Jumlah kehamilan yang pernah dialami oleh pasien.
Konsentrasi plasma glukosa 2 jam setelah dilakukan Oral Glucose Tolerance Test .
g/d.
Tekanan darah diastolik pasien yang diukur dalam satuan mm/Hg.
Ketebalan lipatan kulit trisep yang diukur dalam milimeter .
Kadar insulin serum 2 jam setelah uji dalam satuan mikro unit per mililiter .
u U/m.
Indeks Massa Tubuh pasien, dihitung berdasarkan berat badan .
dibagi tinggi badan kuadrat .
A).
Nilai yang merepresentasikan riwayat diabetes pada keluarga serta hubungan genetik dengan pasien.
Semakin tinggi nilainya, semakin besar kemungkinan pasien menderita Usia pasien dalam tahun.
Variabel target, dengan nilai 0 menunjukkan pasien tidak menderita diabetes, dan 1 menunjukkan pasien menderita diabetes.
2 Preprocessing Data Tahap preprocessing adalah langkah untuk memastikan kualitas data dan konsistensi data sebelum digunakan dalam pemodelan .
Pada penelitian ini, tahap preprocessing data meliputi:
1 Pembersihan Data Langkah ini bertujuan untuk menangani data yang hilang .
issing valu.
, noise data, serta memastikan konsistensi dan relevansi data .
Dalam penelitian ini, dilakukan pengecekan terhadap duplikasi data dan data yang hilang .
issing Jika ditemukan data duplikat, maka data tersebut akan dihapus.
Sementara itu, missing value diatasi dengan pengisian menggunakan nilai rata-rata .
untuk meminimalkan potensi bias pada dataset yang berukuran kecil.
2 Transformasi Data Transformasi data dilakukan untuk menyesuaikan format atau skala data supaya sesuai dengan kebutuhan pemodelan, sehingga dapat meningkatkan kinerja algoritma yang digunakan .
Pada penelitian ini, tidak dilakukan transformasi bentuk data karena seluruh atribut dalam dataset sudah berbentuk numerik dan sesuai dengan format yang dapat langsung diproses oleh model.
Selanjutnya, normalisasi dilakukan pada tahap ini agar setiap fitur berada pada skala yang seragam, yaitu dalam rentang 0 sampai 1.
Penelitian ini menerapkan teknik Min-Max Normalization .
, sebagaimana ditunjukkan pada Persamaan .
ycuOemin.
ycu A = max.
Oemin.
Dimana ycu A merupakan hasil normalisasi, ycu merupakan data asli, max.
merupakan nilai maksimum pada atribut, min.
merupakan nilai minimum pada atribut.
3 Teknik Penyeimbang Kelas Distribusi kelas pada dataset menunjukkan ketidakseimbangan antara kelas mayoritas .
on-diabete.
dan kelas minoritas .
Untuk mengatasi hal tersebut, dua teknik penyeimbangan digunakan:
1 SMOTE (Synthetic Minority Oversampling Techniqu.
SMOTE adalah teknik oversampling yang menghasilkan data sintetis pada kelas minoritas dengan memanfaatkan kedekatan antar sampel .
Pemilihan SMOTE didasarkan pada kemampuannya menambah jumlah data minoritas tanpa mengurangi informasi kelas mayoritas, sehingga distribusi data menjadi lebih seimbang.
Secara matematis, proses pembentukan data sintetis dalam SMOTE dapat dirumuskan pada Persamaan .
ycu yca = ycu yc.
cu yco Oe yc.
Dimana ycu yca adalah data sintetis, ycu yco adalah data tetangga terdekat, yc adalah bilangan acak antara 0 dan 1, ycu adalah data kelas minoritas.
Copyright A 2025 The Author.
Page 1306 This Journal is licensed under a Creative Commons Attribution 4.
0 International License BULLETIN OF COMPUTER SCIENCE RESEARCH ISSN 2774-3659 (Media Onlin.
Vol 5.
No 6.
October 2025 | Hal 1304-1314 https://hostjournals.
com/bulletincsr DOI: 10.
47065/bulletincsr.
2 RUS (Random Undersamplin.
Random undersampling (RUS) adalah teknik undersampling yang secara acak mengurangi sebagian sampel dari kelas mayoritas hingga diperoleh distribusi data yang lebih seimbang .
Metode ini dapat membuat model lebih fokus mengenali pola kelas minoritas tanpa mengabaikan kelas mayoritas, sekaligus mengurangi risiko overfitting dan mempercepat proses pelatihan .
4 K-Fold Cross Validation Penelitian ini menggunakan 10-fold cross validation sebagai teknik untuk membagi data.
Pada setiap iterasi, satu subset data digunakan untuk pengujian, sementara sembilan subset sisanya digunakan untuk pelatihan.
Proses ini berlangsung sebanyak 10 kali hingga seluruh bagian pernah berperan sebagai data uji satu kali dan data latih sembilan kali.
Salah satu keunggulan menggunakan k-fold cross validation adalah kemampuannya dalam meminimalkan risiko overfitting, karena model dilatih dan diuji menggunakan berbagai kombinasi data .
Alur kerja dari 10-Fold Cross Validation diilustrasikan pada Tabel 2.
Tabel 2.
Alur Kerja 10-Fold Cross Validation .
Fold 1 Fold 2 Fold 3 Fold 4 Fold 5 Fold 6 Fold 7 Fold 8 Fold 9 Fold 10 Keterangan:
: Data Training : Data Testing 5 Pemodelan BPNN Backpropagation Neural Network (BPNN) merupakan metode pembelajaran terawasi yang terdiri atas tiga lapisan utama, yaitu lapisan input, lapisan hidden, dan lapisan output .
Setiap lapisan jaringan terdiri dari neuron-neuron yang terhubung dengan bobot .
, dan bobot tersebut diperbarui secara berulang dalam tahap pelatihan .
Jumlah neuron pada hidden layer dapat ditentukan menggunakan Persamaan .
ycn < yco < 2ycn Dimana m merupakan neuron hidden dan i merupakan neuron input.
Salah satu arsitektur BPNN yang digunakan disajikan pada Gambar 2.
Gambar 2.
Arsitektur BPNN Gambar 2 menunjukkan salah satu arsitektur BPNN yang digunakan, terdiri atas 8 neuron pada lapisan input, 9 neuron hidden layer , dan 1 neuron pada lapisan output.
Delapan neuron pada lapisan input merepresentasikan delapan fitur pada dataset, sedangkan sembilan neuron pada lapisan tersembunyi diperoleh berdasarkan Persamaan .
Satu neuron pada lapisan output digunakan untuk menghasilkan keluaran berupa klasifikasi biner, yaitu diabetes atau nonCopyright A 2025 The Author.
Page 1307 This Journal is licensed under a Creative Commons Attribution 4.
0 International License BULLETIN OF COMPUTER SCIENCE RESEARCH ISSN 2774-3659 (Media Onlin.
Vol 5.
No 6.
October 2025 | Hal 1304-1314 https://hostjournals.
com/bulletincsr DOI: 10.
47065/bulletincsr.
Kemudian, antar lapisan dihubungkan dengan bobot dimana v antara inputAehidden dan w antara hiddenAeoutput .
Sebelum proses pelatihan dimulai, bobot awal jaringan diinisialisasi menggunakan metode Xavier.
Metode ini menginisialisasi bobot dan bias secara acak pada interval tertentu berdasarkan jumlah neuron pada lapisan input dan Rumus perhitungan inisialisasi Xavier ditunjukkan pada Persamaan .
Oo6 ycOycO = [Oe ycu ycu Oo ycn Oo6 ycn 1 Ooycuycn ycuycn 1 Dimana ycO adalah bobot yang akan diinisialisasikan, ycO adalah distribusi uniform, ycuycn adalah jumlah neuron pada layer sebelumnya, ycuycn 1 adalah jumlah neuron pada layer berikutnya, dan Oo6 adalah nilai konstan dari xavier initialization.
Proses pelatihan BPNN dilakukan melalui tiga tahap utama, yaitu propagasi maju .
, propagasi balik .
, serta pembaruan bobot dan bias .
Parameter pelatihan yang digunakan dalam penelitian ini meliputi fungsi aktivasi sigmoid, jumlah epoch maksimum sebanyak 1.
000, target error sebesar 0,01, serta variasi learning rate .
,1.
0,01.
serta optimasi menggunakan Adam.
Adam melakukan pembaruan bobot secara adaptif dengan menyesuaikan learning rate selama proses pelatihan .
Optimizer Adam dipilih karena memiliki adaptive learning rate dengan menggabungkan keunggulan Momentum dan RMSProp, sehingga mampu mempercepat konvergensi, mengurangi tingkat kesalahan prediksi, dan menjaga stabilitas pelatihan .
6 Evaluasi Evaluasi dilakukan untuk mengukur kemampuan model BPNN dalam mengklasifikasi data secara tepat.
Pengukuran kinerja dilakukan menggunakan Confusion Matrix , yang berisi nilai True Positive (TP) .
False Positive (FP) .
True Negative (TN) , dan False Negative (FN), yang merepresentasikan jumlah hasil prediksi yang tepat dan yang salah pada data uji .
Dari confusion matrix, terdapat beberapa metrik evaluasi yang digunakan sebagai berikut:
ycNycE ycNycA yaycoycycycaycycn = ycNycE ycNycA yaycE yaycA ycNycE ycNycE ycEycyceycycnycycn = ycNycE yaycE ycIyceycaycaycoyco = ycNycE yaycA ya1 ycycaycuycyce = 2 y.
cyycyceycycnycycn yycyceycaycaycoyc.
ycyycyceycycnycycn ycyceycaycaycoyco
HASIL DAN PEMBAHASAN
1 Deskripsi Dataset Penelitian ini menggunakan Pima Indians Diabetes Dataset yang terdiri dari 768 sampel dengan delapan atribut, dan label target dibagi menjadi dua kelas, yaitu kelas 0 yang menunjukkan pasien tidak menderita diabetes, dan kelas 1 yang menunjukkan pasien menderita diabetes.
Kelas 0 berjumlah 500 sampel, sedangkan kelas 1 berjumlah 268 sampel.
Distribusi ini menunjukkan adanya ketidakseimbangan kelas, di mana kelas mayoritas lebih dominan dibandingkan kelas Tabel 3 menyajikan parameter pengukuran diabetes pada masing-masing atribut yang digunakan dalam penelitian ini.
Nilai Outcome merupakan label target klasifikasi dengan nilai 0 untuk pasien tidak menderita diabetes dan 1 untuk pasien menderita diabetes.
Tabel 3.
Parameter Pengukuran Dataset
Pregnancies Glucose Blood
Pressure Skin
Thickness Insulin
BMI
Diabetes Pedigree Function
0,627
0,351
0,672
0,315
Age Outcome 2 Hasil Preprocessing Data Preprocessing data pada penelitian ini memuat tahapan pembersihan data dan transformasi data.
Hasil dari tahap pembersihan data menunjukkan bahwa tidak ditemukan data duplikat maupun nilai kosong .
issing value.
dalam Dengan demikian, tidak ada data yang perlu dihapus dan seluruh data dapat digunakan secara utuh.
Selanjutnya, karena semua atribut dalam dataset sudah berbentuk numerik, tidak dilakukan transformasi tipe data.
Namun, untuk memastikan bahwa setiap fitur berada pada skala yang sebanding, dilakukan proses normalisasi menggunakan metode Min-Max Normalization pada Persamaan .
Hasil normalisasi pada Tabel 4 menunjukkan bahwa seluruh nilai atribut telah berada dalam rentang 0 hingga 1.
Copyright A 2025 The Author.
Page 1308 This Journal is licensed under a Creative Commons Attribution 4.
0 International License BULLETIN OF COMPUTER SCIENCE RESEARCH ISSN 2774-3659 (Media Onlin.
Vol 5.
No 6.
October 2025 | Hal 1304-1314 https://hostjournals.
com/bulletincsr DOI: 10.
47065/bulletincsr.
Tabel 4.
Hasil Normalisasi Data
Pregnancies Glucose Blood
Pressure Skin
Thickness Insulin
BMI
0,35294
0,05882
0,47058
0,05882
0,67096
0,26451
0,89677
0,31612
0,48979
0,42857
0,40816
0,46938
0,30434
0,23913
0,27173
0,260862
0,18689
0,10637
0,18689
0,10637
0,31492
0,17177
0,10429
0,24948
Diabetes Pedigree Function
0,23441
0,11656
0,25362
0,10119
Age
0,48333
0,16666
0,18333
0,033333
3 Hasil Penyeimbang Kelas Setelah tahap preprocessing selesai, dilakukan penyeimbangan distribusi kelas pada dataset.
Hasil penyeimbangan sebagai berikut:
1 SMOTE (Synthetic Minority Over-sampling Techniqu.
Pada penelitian ini, penerapan SMOTE berhasil menambah jumlah sampel pada kelas 1 hingga seimbang dengan kelas 0, yaitu masing-masing sebanyak 500 sampel.
Dengan demikian, total data setelah proses SMOTE menjadi 1.
000 sampel.
Visualisasi distribusi data sebelum dan sesudah penerapan SMOTE diperlihatkan pada Gambar 3 dengan menggunakan scatter plot.
Gambar 3.
Distribusi Data Sebelum dan Sesudah SMOTE 2 Random Undersampling Pada penelitian ini, jumlah data pada kelas 0 dikurangi hingga seimbang dengan jumlah kelas 1, yaitu 268 sampel.
Akibatnya, data kelas mayoritas yang tidak terpilih akan diabaikan dalam proses pelatihan.
Total data setelah RUS menjadi 536 sampel.
Visualisasi distribusi data sebelum dan sesudah penerapan Random Undersampling diperlihatkan pada Gambar 4 dengan menggunakan scatter plot.
Gambar 4.
Distribusi Data Sebelum dan Sesudah Random Undersampling Perbandingan jumlah dataset sebelum dan sesudah penyeimbangan kelas ditunjukkan pada Gambar 5.
Hasil tersebut memperlihatkan bahwa baik SMOTE maupun RUS mampu mengatasi ketidakseimbangan kelas, namun dengan pendekatan yang berbeda.
Teknik SMOTE menambah sampel sintetis pada kelas minoritas sehingga jumlah data menjadi seimbang, sedangkan RUS mengurangi jumlah data pada kelas mayoritas agar sesuai dengan jumlah data pada kelas Copyright A 2025 The Author.
Page 1309 This Journal is licensed under a Creative Commons Attribution 4.
0 International License BULLETIN OF COMPUTER SCIENCE RESEARCH ISSN 2774-3659 (Media Onlin.
Vol 5.
No 6.
October 2025 | Hal 1304-1314 https://hostjournals.
com/bulletincsr DOI: 10.
47065/bulletincsr.
Gambar 5.
Perbandingan Jumlah Dataset Sebelum dan Sesudah Penyeimbangan Kelas 4 Hasil Pembagian Data Latih dan Data Uji Pembagian dataset ke dalam data latih dan data uji dilakukan melalui metode 10-Fold Cross Validation.
Skema ini membagi data menjadi sepuluh subset berukuran sama, lalu secara berulang satu subset dipakai sebagai data uji, sementara sembilan lainnya dipakai untuk pelatihan.
Proses ini diulang sebanyak sepuluh kali agar setiap subset pernah digunakan sebagai data uji satu kali.
Penerapan 10-Fold Cross Validation dilakukan setelah proses penyeimbangan kelas menggunakan SMOTE dan RUS.
Dengan demikian, metode ini diterapkan pada tiga skenario, yaitu tanpa penyeimbangan, dengan SMOTE, dan dengan RUS.
Seluruh subset data pada proses validasi berasal dari dataset yang telah disesuaikan pada masing-masing skenario, sehingga pembagian data latih dan data uji dilakukan secara konsisten berdasarkan hasil penyeimbangan awal.
5 Hasil Pemodelan BPNN Model dikembangkan menggunakan Backpropagation Neural Network (BPNN) dengan dua konfigurasi arsitektur, yaitu satu hidden layer dan dua hidden layer.
Jumlah neuron pada masing-masing layer bervariasi dimana neuron pada input layer berasal dari atribut.
Jumlah neuron pada hidden layer dihitung menggunakan Persamaan .
dengan tiga skenario, yaitu nilai terdekat, nilai tengah, dan nilai tertinggi dari perhitungan.
Pada output layer, jumlah neuron ditentukan sesuai dengan jumlah kelas pada data target.
Parameter jaringan yang digunakan adalah fungsi aktivasi sigmoid, jumlah maksimum iterasi .
000, target error 0,01, serta variasi learning rate .
,1.
0,01.
dan 0,.
dengan optimizer Adam.
Bobot dan bias diinisialisasi menggunakan metode Xavier (Xavier Initializatio.
dengan Persamaan .
6 Evaluasi Performa Model Pengujian model dilakukan dengan mengevaluasi setiap konfigurasi BPNN pada berbagai kombinasi learning rate .
,1.
0,01.
dan jumlah neuron yang berbeda.
Selain itu, pengujian dilakukan pada tiga skenario data yaitu tanpa penyeimbang, dengan SMOTE (Synthetic Minority Over-sampling Techniqu.
, dan dengan RUS (Random Under Samplin.
1 BPNN dengan Satu Hidden Layer Pada arsitektur BPNN dengan satu hidden layer, performa terbaik tanpa penyeimbangan kelas diperoleh pada konfigurasi dengan learning rate 0,001 dan 12 neuron pada hidden layer dengan akurasi sebesar 93,42%, presisi 92%, recall 94%, dan F1-score 93%.
Penerapan SMOTE mendapatkan konfigurasi terbaik pada learning rate 0,1 dengan 9 neuron hidden, menghasilkan akurasi 95%, presisi 95%, recall 95%, dan F1-score 95%.
Sementara itu, penerapan RUS menunjukkan performa terbaik pada konfigurasi dengan learning rate 0,1 dan 9 neuron hidden, serta konfigurasi dengan learning rate 0,1 dan 12 neuron hidden yang memberikan nilai sama, yaitu akurasi 92,45%, presisi 93%, recall 92%, dan F1-score Hasil akurasi untuk setiap skenario pada arsitektur BPNN dengan satu hidden layer ditampilkan pada Tabel 5.
Tabel 5.
Hasil Akurasi BPNN dengan Satu Hidden Layer
Learning Jumlah neuron
0,01
0,001
Rata-Rata Tanpa penyeimbangan (%) 85,53 86,84 89,47 88,16 89,47 88,16 88,16 93,42 92,11 89,04 Dengan SMOTE (%) 90,89 Dengan RUS (%) 92,45 92,45 84,91 84,91 90,57 81,13 88,68 92,45 86,79 88,26 Copyright A 2025 The Author.
Page 1310 This Journal is licensed under a Creative Commons Attribution 4.
0 International License BULLETIN OF COMPUTER SCIENCE RESEARCH ISSN 2774-3659 (Media Onlin.
Vol 5.
No 6.
October 2025 | Hal 1304-1314 https://hostjournals.
com/bulletincsr DOI: 10.
47065/bulletincsr.
2 BPNN dengan Dua Hidden layer Pada arsitektur BPNN dengan dua hidden layer, performa tertinggi tanpa penyeimbang diperoleh pada konfigurasi learning rate 0,1 dan jumlah neuron hidden 12Ae15 dengan akurasi 93,42%, presisi 93%, recall 93%, dan F1-score 93%.
SMOTE menghasilkan performa terbaik dengan akurasi 93%, presisi 93%, recall 93%, dan F1-score 93% pada konfigurasi learning rate 0,1 dan neuron hidden 15Ae9.
Sementara itu.
RUS menghasilkan performa tertinggi dengan akurasi 94,34%, presisi 94%, recall 94%, dan F1-score 94% pada konfigurasi learning rate 0,1 dan neuron hidden 12Ae Hasil akurasi untuk setiap skenario pada arsitektur BPNN dengan dua hidden layer ditampilkan pada Tabel 6.
Tabel 6.
Hasil Akurasi BPNN dengan Dua Hidden Layer
Learning rate
0,01
0,001
Jumlah neuron hidden Rata-Rata Tanpa penyeimbangan (%) 90,79 93,42 88,16 90,79 84,21 88,16 90,79 92,11 90,79 89,91 Dengan SMOTE (%) 90,33 Dengan RUS (%) 92,45 94,34 88,68 81,13 81,13 81,13 86,79 84,91 86,79 86,37 Tabel 5 dan Tabel 6 memperlihatkan bahwa kinerja Backpropagation Neural Network (BPNN) bervariasi tergantung pada konfigurasi jumlah hidden layer dan teknik penyeimbangan kelas yang digunakan.
Pada skenario tanpa penyeimbangan, arsitektur BPNN dengan dua hidden layer memperoleh rata-rata akurasi sebesar 89,91%, sedikit lebih tinggi dibandingkan arsitektur satu hidden layer yang mencapai 89,04%.
Perbedaan yang relatif kecil ini menunjukkan bahwa penambahan hidden layer tidak memberikan peningkatan performa yang signifikan, karena kompleksitas data yang rendah sudah dapat ditangani dengan satu hidden layer.
Pada skenario dengan SMOTE, kinerja kedua arsitektur relatif setara, yakni 90,89% untuk satu hidden layer dan 90,33% untuk dua hidden layer.
Hal ini mengindikasikan bahwa teknik oversampling melalui SMOTE mampu menyeimbangkan distribusi kelas sehingga proses pembelajaran model menjadi lebih optimal.
Sebaliknya, penerapan RUS justru menurunkan akurasi, terutama pada arsitektur dua hidden layer yang hanya mencapai 86,37%, dibandingkan satu hidden layer dengan 88,26%.
Penurunan ini disebabkan oleh berkurangnya jumlah data akibat undersampling, sehingga sebagian informasi penting hilang dan kemampuan generalisasi model melemah.
Secara keseluruhan, perbandingan rata-rata akurasi pada setiap skenario ditunjukkan pada Gambar 6.
Perbandingan Rata-rata Akurasi BPNN per Skenario
Akurasi
92,00%
90,00%
89,04%
89,91%
90,89% 90,33%
88,26%
88,00%
86,37%
86,00%
Satu Hidden Layer
Dua Hidden Layer
84,00%
Tanpa Penyeimbangan SMOTE
RUS
Skenario Gambar 6.
Perbandingan Rata-Rata Akurasi BPNN per Skenario Berdasarkan Gambar 6, teknik SMOTE memberikan akurasi tertinggi pada semua konfigurasi arsitektur yang diuji, menunjukkan bahwa metode oversampling lebih efektif dibandingkan tanpa penyeimbangan atau dengan Keunggulan SMOTE terletak pada kemampuannya menambah data minoritas tanpa mengurangi data mayoritas, sehingga informasi tetap utuh.
Sebaliknya.
RUS justru mengurangi data mayoritas sehingga sebagian informasi Selain itu, arsitektur dengan satu hidden layer terbukti lebih stabil pada seluruh skenario, khususnya ketika jumlah data berkurang akibat RUS.
Stabilitas ini dipengaruhi oleh struktur model yang lebih sederhana dan jumlah bobot yang lebih sedikit, sehingga meskipun data berkurang, model tetap dapat belajar dengan baik dan menghasilkan kinerja yang Sementara itu, arsitektur dengan dua hidden layer cenderung lebih sensitif terhadap perubahan jumlah data dan berpotensi mengalami overfitting karena memiliki lebih banyak parameter, terutama jika data sintetis yang dihasilkan terlalu mirip dengan sampel asli.
Tahap berikutnya dalam evaluasi kinerja model diterapkan confusion matrix dengan menghitung nilai presisi, recall, dan F1-score pada Persamaan .
hingga Persamaan .
Metrik ini dipilih karena lebih representatif dalam menilai Copyright A 2025 The Author.
Page 1311 This Journal is licensed under a Creative Commons Attribution 4.
0 International License BULLETIN OF COMPUTER SCIENCE RESEARCH ISSN 2774-3659 (Media Onlin.
Vol 5.
No 6.
October 2025 | Hal 1304-1314 https://hostjournals.
com/bulletincsr DOI: 10.
47065/bulletincsr.
performa klasifikasi pada data medis yang tidak seimbang dibandingkan hanya menggunakan akurasi.
Rata-rata hasil evaluasi ditampilkan pada Tabel 7.
Tabel 7.
Rata-Rata Hasil Evaluasi Kinerja Model BPNN
Jumlah Hidden Layer
Skenario
Tanpa Penyeimbang SMOTE
RUS
Tanpa Penyeimbang SMOTE
RUS
Presisi (%) 88,22 91,22 88,44 88,78 90,67 86,67 Recall (%) 88,22 90,89 88,11 89,78 90,33 86,33 F1-Score (%) 90,89 88,22 89,22 90,33 86,33 Tabel 7 menunjukkan bahwa penerapan SMOTE konsisten menghasilkan nilai presisi, recall, dan F1-score yang lebih tinggi dibandingkan tanpa penyeimbang maupun RUS.
Pada konfigurasi satu hidden layer.
SMOTE mencapai presisi 91,22%, recall 90,89%, dan F1-score 90,89%.
Temuan ini menunjukkan bahwa penggunaan SMOTE dapat meningkatkan kemampuan model dalam mengenali kelas minoritas dengan baik dan tetap mempertahankan nilai presisi.
Sebaliknya, nilai terendah diperoleh pada skenario RUS dengan dua hidden layer, yaitu presisi 86,67%, recall 86,33%, dan F1-score 86,33%.
Kondisi ini terjadi karena RUS menghapus sebagian data kelas mayoritas, sehingga informasi penting hilang dan kinerja model menurun.
Adapun hasil confusion matrix untuk masing-masing skenario ditampilkan pada Gambar 7.
Gambar 7.
Hasil Confusion Matrix dengan .
Tanpa Penyeimbang, .
SMOTE, dan .
RUS Gambar 7 menunjukkan hasil Confusion Matrix untuk setiap skenario, yang diambil dari konfigurasi model dengan akurasi tertinggi secara keseluruhan.
Konfigurasi terbaik tersebut meliputi model tanpa penyeimbang dengan learning rate 0,001 dan 12 neuron hidden layer, model dengan SMOTE pada learning rate 0,1 dan 9 neuron hidden, serta model dengan RUS pada learning rate 0,1 dan 12Ae15 neuron hidden.
Pada skenario tanpa penyeimbang, terlihat bahwa model cenderung bias terhadap kelas 0 .
on-diabete.
, dengan nilai True Negative (TN) yang tinggi dan True Positive (TP) yang Setelah penerapan SMOTE, distribusi prediksi menjadi lebih seimbang dengan peningkatan jumlah TP, yang menandakan kemampuan model yang lebih baik dalam mengenali kelas positif .
Sementara itu, pada skenario RUS, meskipun keseimbangan kelas berhasil dicapai, jumlah prediksi benar pada kelas mayoritas mengalami penurunan akibat berkurangnya data.
Dengan demikian, hasil ini membuktikan bahwa penerapan teknik penyeimbangan data dapat membantu menyeimbangkan distribusi kelas serta meningkatkan kemampuan model dalam mendeteksi kasus positif secara lebih akurat.
Copyright A 2025 The Author.
Page 1312 This Journal is licensed under a Creative Commons Attribution 4.
0 International License BULLETIN OF COMPUTER SCIENCE RESEARCH ISSN 2774-3659 (Media Onlin.
Vol 5.
No 6.
October 2025 | Hal 1304-1314 https://hostjournals.
com/bulletincsr DOI: 10.
47065/bulletincsr.
Temuan ini memperkuat hasil penelitian sebelumnya oleh Muhidin.
Danny, dan Surojudin pada tahun 2025 yang menyatakan bahwa penerapan SMOTE mampu mengatasi ketidakseimbangan kelas serta meningkatkan nilai akurasi, presisi, recall, dan F1-score .
Selain itu, jika dibandingkan dengan penelitian sebelumnya oleh Guswanti dan kawankawan pada tahun 2025 yang menggunakan inisialisasi bobot Nguyen-Widrow pada BPNN dengan akurasi 92,11%, penelitian ini memperlihatkan peningkatan kinerja .
Dengan penerapan inisialisasi Xavier dan penyeimbangan data menggunakan SMOTE, arsitektur BPNN dengan satu hidden layer mampu mencapai akurasi 95%, atau meningkat 2,89% dibandingkan penelitian terdahulu.
Temuan ini menegaskan bahwa teknik penyeimbangan kelas memiliki peran penting dalam meningkatkan performa model.
Secara keseluruhan, penelitian ini menunjukkan bahwa kombinasi SMOTE dan BPNN dengan satu hidden layer memberikan performa yang baik dalam klasifikasi penyakit diabetes mellitus.
Selain itu, pendekatan ini memperlihatkan kemampuan model dalam menangani data medis yang tidak seimbang secara lebih efektif.
Hasil tersebut tidak hanya berkontribusi pada pengembangan metode klasifikasi berbasis jaringan saraf tiruan, tetapi juga memiliki potensi penerapan secara praktis.
Model yang dihasilkan dapat dimanfaatkan sebagai alat bantu dalam proses deteksi awal berbasis komputer, sehingga dapat membantu mempercepat pengambilan keputusan, mengurangi beban kerja manual, serta meningkatkan akurasi.
KESIMPULAN
Temuan penelitian ini membuktikan bahwa teknik penyeimbangan kelas memiliki pengaruh signifikan terhadap performa model Backpropagation Neural Network (BPNN) dalam klasifikasi penyakit diabetes mellitus.
Model BPNN diuji menggunakan dua konfigurasi arsitektur, yaitu satu hidden layer dan dua hidden layer, serta tiga nilai learning rate .
,1.
0,01.
dan 0,.
dengan jumlah neuron yang bervariasi.
Pengujian dilakukan pada tiga skenario data, yaitu tanpa penyeimbangan, dengan SMOTE (Synthetic Minority Over-sampling Techniqu.
, dan dengan RUS (Random Under Samplin.
Dari ketiga skenario tersebut.
SMOTE menghasilkan performa terbaik pada semua konfigurasi, dengan ratarata akurasi terbaik sebesar 90,89% pada BPNN dengan satu hidden layer.
Penerapan SMOTE juga menghasilkan nilai presisi, recall, dan F1-score yang lebih tinggi dibandingkan dua skenario lainnya.
Hasil terbaik didapatkan pada konfigurasi satu hidden layer, dimana SMOTE mencapai presisi 91,22%, recall 90,89%, dan F1-score 90,89%.
Nilai recall sebesar 90,89% menunjukkan kemampuan model dalam mengenali kasus positif diabetes dengan baik.
Hal ini penting dalam konteks medis karena recall mencerminkan kemampuan sistem untuk mendeteksi pasien yang benar-benar menderita diabetes, sehingga dapat meminimalkan kesalahan diagnosis.
Kinerja unggul SMOTE disebabkan oleh kemampuannya menambah data minoritas tanpa mengurangi data mayoritas, sehingga informasi tetap utuh.
Sebaliknya.
RUS pada dua hidden layer justru memperoleh nilai terendah dengan presisi 86,67%, recall 86,33%, dan F1-score 86,33%.
Hal ini dikarenakan RUS mengurangi data mayoritas sehingga sebagian informasi hilang dan kinerja model Selain itu, arsitektur satu hidden layer terbukti lebih stabil dibandingkan dua hidden layer, khusunya pada jumlah data yang berkurang akibat RUS.
Hal ini dikarenakan arsitektur satu hidden layer memiliki struktur yang lebih sederhana dengan jumlah bobot lebih sedikit, sehingga model tetap mampu belajar secara optimal meskipun data Secara keseluruhan, kombinasi SMOTE dan BPNN satu hidden layer merupakan konfigurasi terbaik dan berpotensi digunakan sebagai alat bantu dalam proses awal untuk membantu mendeteksi kemungkinan penyakit diabetes secara lebih cepat dan akurat.
Namun, pada penelitian ini hanya menerapkan metode SMOTE dan RUS sebagai teknik penyeimbang kelas.
Sehingga, untuk penelitian selanjutnya dapat mengeksplorasi teknik hybrid sampling seperti SMOTEAeTomek Links atau SMOTE-ENN.
Metode ini menggabungkan kelebihan oversampling dan undersampling, sehingga data menjadi lebih seimbang dan model dapat mengenali pola pada kelas minoritas dengan lebih baik.
REFERENCE