JURNAL ILMIAH PERPUSTAKAAN.
SISTEM INFORMASI.
INFORMATIKA & ELEKTRO
Volume 1.
Nomor 1.
Juni 2026
ANALISIS KOMPARATIF ALGORITMA DECISION TREE DAN
RANDOM FOREST DALAM KLASIFIKASI PENYAKIT
DIABETES
Andrian Falah Kalyana1.
Feri Sulianta2 Fakultas Teknik.
Universitas Widyatama.
Jl.
Cikutra no 204 A Bandung 40124 E-mail korespondensi: 1andrian.
falah@widyatama.
id, 2feri.
sulianta@widyatama.
Keywords: Diabetes.
Machine Learning.
Decision Tree.
Random Forest.
Medical Prediction.
Kata kunci: Diabetes.
Machine Learning.
Decision Tree.
Random Forest.
Prediksi Medis.
Abstract Diabetes is a global health issue that requires an accurate early detection system to prevent chronic complications.
This study aims to analyze and compare the performance of two machine learning algorithms Decision Tree and Random Forest in predicting the risk of diabetes.
The research methodology uses the Pima Indians Diabetes secondary dataset from Kaggle, which was processed through data preprocessing stages, including handling missing values and feature standardization using StandardScaler.
Model evaluation was conducted by measuring accuracy, precision, recall, and F1-score metrics.
The analysis results show that the Decision Tree algorithm delivers the most optimal performance with an accuracy rate of 76%.
The research findings confirm that glucose and body mass index (BMI) features have the most significant influence on prediction accuracy.
It is hoped that the contributions of this research can serve as a reference in the development of an efficient clinical decision support system for early diabetes screening based on computational data.
Abstrak Diabetes merupakan masalah kesehatan global yang memerlukan sistem deteksi dini yang akurat untuk mencegah komplikasi kronis.
Penelitian ini bertujuan untuk menganalisis dan membandingkan performa dua algoritma Machine Learning, yaitu Decision Tree dan Random Forest, dalam memprediksi risiko penyakit diabetes.
Metodologi penelitian ini menggunakan dataset sekunder Pima Indians Diabetes dari Kaggle yang diolah melalui tahapan prapemrosesan data, termasuk penanganan nilai hilang .
issing value.
dan standardisasi fitur menggunakan StandardScaler.
Evaluasi model dilakukan dengan mengukur metrik akurasi, presisi, recall, dan f1-score.
Hasil analisis menunjukkan bahwa algoritma Decision Tree memberikan performa paling optimal dengan tingkat akurasi sebesar 76%.
Temuan penelitian mengonfirmasi bahwa fitur glukosa dan indeks massa tubuh (BMI) memiliki pengaruh paling signifikan terhadap ketepatan prediksi.
Kontribusi penelitian ini diharapkan dapat menjadi referensi dalam pengembangan sistem pendukung keputusan klinis yang efisien untuk skrining awal diabetes berbasis data komputasional.
PENDAHULUAN
Diabetes merupakan kondisi medis kronis yang ditandai dengan tingginya kadar gula darah akibat gangguan produksi atau efektivitas insulin dalam tubuh.
Insulin adalah hormon yang diproduksi oleh pankreas, berfungsi mengatur kadar glukosa agar dapat diserap oleh sel sebagai sumber energi (Aditya et al.
, 2.
Secara global, data International Diabetes Federation (IDF) tahun JURNAL ILMIAH PERPUSTAKAAN.
SISTEM INFORMASI.
INFORMATIKA & ELEKTRO 2021 mencatat lebih dari 537 juta penderita diabetes di seluruh dunia, dengan angka kematian mencapai 6,7 juta jiwa.
Angka ini menunjukkan bahwa diabetes merupakan masalah kesehatan global yang memerlukan perhatian serius (Desmita et al.
, 2.
Tanpa diagnosis dini yang tepat, diabetes dapat memicu komplikasi kesehatan jangka panjang yang serius, yang mengancam kesejahteraan individu maupun masyarakat luas (Ibrahim et al.
, 2025.
Seiring dengan perkembangan teknologi, pemanfaatan teknologi Machine Learning dalam bidang kesehatan, khususnya untuk prediksi penyakit diabetes telah menunjukkan potensi yang sangat besar (Siswoyo & Nurhafidz, 2.
Machine Learning adalah cabang kecerdasan buatan yang berfokus pada pengembangan sistem yang mampu belajar dari data untuk meningkatkan akurasi prediksi secara bertahap (Ginting et al.
, 2.
Model ini memproses parameter klinis seperti kadar glukosa, tekanan darah.
BMI, usia, dan riwayat keluarga untuk memprediksi risiko diabetes dengan akurasi tinggi (Handayani et al.
, 2.
Di antara berbagai algoritma yang tersedia.
Decision Tree menawarkan keunggulan dalam hal interpretabilitas, memungkinkan dokter memahami alur logika keputusan, meskipun sering kali rentan terhadap overfitting.
Sementara itu.
Random Forest, sebagai metode ensemble, hadir untuk menutupi kelemahan model tunggal dengan meningkatkan akurasi dan stabilitas prediksi melalui agregasi banyak pohon keputusan (Amritha & Dayanti, 2.
Penelitian ini bertujuan untuk menganalisis dan membandingkan performa data dari dua model Machine Learning Decision Tree dan Random Forest, dalam prediksi penyakit diabetes.
Hasil penelitian ini diharapkan dapat memberikan panduan dalam pemilihan teknik yang optimal untuk mendukung interpretasi hasil prediksi diabetes berbasis Machine Learning, serta meningkatkan efektivitas komunikasi hasil prediksi kepada praktisi medis dan pasien (Ibrahim et al.
, 2025.
METODE
Metode yang digunakan dalam penelitian ini terdiri dari beberapa tahapan sistematis, mulah dari pengumpulan data hingga evaluasi model.
Alur penelitian digambarkan melalui tahapan berikut:
Gambar 1 Flowchart Alur Penelitian ANALISIS KOMPARATIF ALGORITMA DECISION TREE DAN RANDOM FOREST DALAM KLASIFIKASI
PENYAKIT DIABETES
Volume 1.
Nomor 1.
Juni 2026 Studi Literatur Literatur dalam studi ini diperoleh dari berbagai macam jurnal medis.
Tujuannya adalah untuk memberikan pemahaman mengenai penyakit diabetes dan bagaimana algoritma Decision Tree dan Random Forest telah digunakan oleh peneliti sebelumnya.
Pengumpulan Data Data yang digunakan dalam penelitian ini merupakan data sekunder yang diperoleh dari platform Dataset ini dipilih karena memiliki atribut klinis yang relevan untuk klasifikasi diabetes, data tersebut memiliki 9 fitur, dimana diantaranya 8 fitur sebagai input and 1 fitur sebagai output.
Exploratory Data Analysis (EDA) Exploratory Data Analysis (EDA) adalah pendekatan yang umum digunakan untuk menganalisis dan menginterpolasi informasi yang berguna melalui grafik dan visualisasi statistik untuk mendapatkan pemahaman yang lebih baik tentang kumpulan data yang sedang dipelajari (Silmina & Perkasa, 2.
Pra-pemrosesan Data Pra-pemrosesan data dilakukan untuk memastikan dataset yang digunakan memiliki kualitas yang baik dan siap untuk proses pelatihan model Tahapan pra-pemrosesan yaitu pembersihan data, transformasi data, pembagian data (Sidiq et al.
, 2.
Split Data Data dibagi menjadi dua yaitu data latih .
raining dat.
dan data uji .
esting dat.
Pembagian data dilakukan untuk menghindari bias dan memastikan evaluasi model yang objektif.
Implementasi Algoritma Algoritma Decision Tree Algoritma Decision Tree menggunakan graph seperti pohon yang mewakili struktur root atau akar dan leaf atau daun.
Setiap root pohon mewakili sebuah atribut.
Setiap cabang dari simpul mewakili hasil tes, dan simpul terakhir adalah AudaunAy yang mewakili label atau kelas.
Untuk menentukan root, algoritma Decision Tree umumnya menggunakan Information Gain atau Gini Index (Karo & Hendriyana, 2.
Algoritma Random Forest Random Forest adalah algoritma Ensemble Learning yang menerapkan teknik Bagging untuk membangun beberapa pohon keputusan untuk menghasilkan sampel acak dan melatih pohon keputusan dari sampel tersebut.
Dua aspek utama dalam algoritma Random Forest meliputi pembentukan beberapa pohon keputusan selama proses pelatihan dan penggabungan prediksi melalui pemungutan suara mayoritas.
Random Forest memiliki beberapa keunggulan, antara lain tingkat akurasi yang tinggi, kemampuan untuk menangani data yang mengandung noise, kecepatan kinerja dan kontrol terhadap overfitting (Hanif & Utomo, 2.
JURNAL ILMIAH PERPUSTAKAAN.
SISTEM INFORMASI.
INFORMATIKA & ELEKTRO
Evaluasi Model Setelah model dilatih, performa keduanya diukur menggunakan data uji.
Parameter evaluasi yang digunakan meliputi Akurasi.
Presisi.
Recall, dan F1-Score.
Hasil dari kedua algoritma ini dibandingkan untuk melihat algoritma mana yang memberikan prediksi paling stabil dan akurat dalam mendeteksi penyakit diabetes.
HASIL
Statistika Deskriptif Analisis deskriptif terhadap dataset Kaggale menunjukkan karakteristik klinis respoden yang Dataset ini terdiri dari 768 baris dengan 8 fitur klinis yaitu Pregnancies.
Glucose.
BloodPressure.
SkinThickness.
Insulin.
BMI.
DiabetesPedigreeFunction, dan Age dan 1 variabel target (Outcom.
untuk kelas 0 .
idak diabete.
dan unutk kelas 1 .
Tabel 1 menyajikan ringkasan statistik untuk variabel utama yang menjadi indikator diabetes.
Tabel 1 Dataset Pregnan Gluc BloodPres SkinThick Insul DiabetesPedigreeFu Outco Uji Korelasi Dan Asumsi Uji asumsi dilakukan melalui pemetaan korelasi antar fitur menggunakan Heatmap.
Hasil menunjukkan bahwa fitur Glucose memiliki hubungan linear paling signifikan terhadap Outcome.
Selain itu, penggunaan StandatScaler memastikan asumsi keseragaman skala data terpenuhi sebelum proses pemodelan.
Bisa dilihat pada gambar di bawah ini.
ANALISIS KOMPARATIF ALGORITMA DECISION TREE DAN RANDOM FOREST DALAM KLASIFIKASI
PENYAKIT DIABETES
Volume 1.
Nomor 1.
Juni 2026 Gambar 2 Heatmap Korelasi Fitur Setelah melakukan pemetaan korelasi antar fitur, tahap selanjutnya pra-pemrosesan data yaitu pembersihan data, handling missing value, dan pembagian data, bisa dilihat pada tabel di bawah ini data yang sudah siap digunakan untuk pemodelan.
Tabel 2 Data Yang Sudah Pra-Pemrosesan Pregnan Gluc BloodPres SkinThick Insul DiabetesPedigreeF Outco Uji Hipotesis Performa Model Uji Hipotesis dilakukan untuk membandingkan efektivitas kedua model.
Data dibagi menjadi 80% data latih dan 20% data uji.
Hasil evaluasi berdasarkan confusion matrix dan classification Gambar dibawah ini adalah visualisasi dari pohon keputusan.
JURNAL ILMIAH PERPUSTAKAAN.
SISTEM INFORMASI.
INFORMATIKA & ELEKTRO
Gambar 3 Visualisasi Pohon Keputusan Tabel 3 Hasil Evaluasi Perbandingan Kedua Model Model Accuracy Precision Recall Decision Tree Random Forest F1Score Berdasarkaan tabel 3.
Decision Tree menunjukkan performa akurasi sebesar 76%, sedikit unggul dibandingkan Random Forest yang mencapai 75%.
Namun, perlu dicatat bahwa Random Forest memiliki nilai Precision yang lebih baik .
, yang mengindikasikan kemampuan model dalam meminimalkan kesalahan prediksi positif palsu (False Positiv.
Gambar 4 Confusion Matrix Decision Tree & Random Forest
ANALISIS KOMPARATIF ALGORITMA DECISION TREE DAN RANDOM FOREST DALAM KLASIFIKASI
PENYAKIT DIABETES
Volume 1.
Nomor 1.
Juni 2026 Berikut hasil analisis menggunakan confusion matrix.
Akurasi tinggi pada kelas 0 .
idak diabete.
dan untuk kelas 1 .
Kedua model ini memiliki performa yang sangat baik dalam mengklasifikasikan tidak diabetes dan diabetes.
Confusion matrix pada Algoritma Decision Tree, model ini berhasil mengklasifikasikan 78% tidak diabetes .
dengan benar, dari total 100 pasien.
Untuk pasien yang terkena diabetes .
, model berhasil mengidentifikasi 39 kasus yang benar dati total 54 pasien.
Confusion matrix pada Algoritma Random Forest, model ini berhasil mengklasifikasikan 86% tidak diabetes .
dengan benar, dari total 100 pasien.
Untuk pasien yang terkena diabetes .
, model berhasil mengidentifikasi 30 kasus yang benar dati total 54 pasien.
Penulisan Rumus Algoritma Decision Tree Gini Impurity Gini Impurity digunakan untuk mengukur seberapa sering elemen yang dipilih secara acak dari set data akan salah diklasifikasikan.
yca yaycnycuycn .
cI) = 1 Oe Oc( ycyycn )2 .
ycn=1 Keterangan:
S: Himpunan data .
yy: Jumlah kelas .
alam kasus kamu ada 2: Diabetes atau Tida.
pi: Probabilitas atau proporsi sampel yang termasuk dalam kelas i.
Entropy yca yaycuycycycuycyyc.
cI) = Oc Oeycyycn log2 .
cyycn ) .
ycn=1 Serupa dengan Gini Impurity hanya saja memiliki perbedaan yaitu entropy mengizinkan penggunanya untuk memilih pemisahan yang meminimalisir ketidakpastian di dalam klasifikasi, sedangkan Gini impurity akan langsung meminimalisasi kemungkinan kesalahan dalam melakukan klasifikas Algoritma Random Forest algoritma ini membuat banyak pohon .
efault 100 poho.
Rumusnya bukan lagi satu pohon, melainkan Voting Mayoritas:
yc = ycoycuyccyce { ycN1 .
, ycN2 .
A , ycNycu .
} .
Artinya, hasil akhir y adalah kelas yang paling banyak dipilih oleh seluruh pohon T yang ada di dalam forest tersebut.
JURNAL ILMIAH PERPUSTAKAAN.
SISTEM INFORMASI.
INFORMATIKA & ELEKTRO
Metriks Evaluasi
Presentasi total prediksi yang benar yaycaycaycycycaycayc = ycNycE ycNycA
ycNycE ycNycA yaycE yaycA
PEMBAHASAN
Hasil analisis menunjukkan bahwa algoritma Decision Tree memiliki performa yang lebih baik dibandingkan dengan Random Forest dalam mengklasifikasikan pasien diabetes.
Decision Tree berhasil mencapai akurasi rata-rata sebesar 76%, sedangkan Random Forest memiliki akurasi rata-rata 75%.
Hal ini menunjukkan bahwa Decision Tree tidak hanya memiliki akurasi lebih tinggi, tetapi juga lebih stabil dan andal secara statistik.
Hasil confusion matrix memperlihatkan karakteristik yang berbeda antara kedua model dalam mendeteksi pasien diabetes.
Decision Tree menunjukkan kemampuan yang lebih baik dalam menangkap kasus positif dengan berhasil mengklasifikasikan 39 dari 54 pasien positif diabetes (True Positiv.
, sementara Random Forest hanya berhasil mengidentifikasi 30 dari 54 pasien Hal ini membuat nilai recall Decision Tree lebih unggul dalam mendeteksi penyakit.
Namun demikian.
Random Forest memiliki keunggulan signifikan dalam memprediksi pasien non-diabetes.
Random Forest hanya menghasilkan 14 kesalahan prediksi pada orang sehat (False Positiv.
, lebih rendah dibandingkan Decision Tree yang mencapai 22 kesalahan.
Dengan tingkat False Positive yang lebih rendah ini.
Random Forest memiliki nilai precision yang lebih baik, yang berarti model ini lebih dipercaya saat memberikan vonis positif.
Interpretasi terhadap efektivitas model tidak dapat dilepaskan dari peran tahap pra-pemrosesan Penanganan nilai nol .
ero value.
pada fitur klinis seperti Glucose dan BMI melalui teknik imputasi median telah terbukti meningkatkan akurasi model secara signifikan.
Data medis sering kali mengandung noise atau data hilang yang jika tidak ditangani dengan tepat, akan menyebabkan bias pada fase training.
Perbedaan mendasar dalam penelitian ini adalah penggunaan StandardScaler yang disesuaikan secara spesifik untuk fitur dengan rentang nilai luas seperti Insulin, sehingga mencegah satu fitur mendominasi proses pembelajaran model dibandingkan fitur lainnya.
KESIMPULAN
Kesimpulan dari penelitian ini menunjukkan bahwa penggunaan algoritma Machine Learning memberikan kontribusi signifikan dalam memvalidasi parameter klinis sebagai prediktor risiko
Melalui analisis komparatif, ditemukan bahwa meskipun Random Forest memiliki keunggulan dalam stabilitas melalui mekanisme ensemble, pada dataset dengan karakteristik
ANALISIS KOMPARATIF ALGORITMA DECISION TREE DAN RANDOM FOREST DALAM KLASIFIKASI
PENYAKIT DIABETES
Volume 1.
Nomor 1.
Juni 2026 tertentu.
Decision Tree mampu memberikan performa akurasi dan recall yang bersaing.
Temuan utama penelitian ini menegaskan bahwa tingkat glukosa darah dan indeks massa tubuh (BMI) merupakan faktor determinan paling konsisten dalam klasifikasi risiko medis.
Secara substansial, penelitian ini memberikan kontribusi pada pengembangan ilmu pengetahuan dengan menunjukkan bahwa efektivitas model prediksi tidak hanya bergantung pada kompleksitas algoritma, tetapi juga pada optimalisasi pra-pemrosesan data klinis.
Hal ini membuka wawasan baru bahwa model yang lebih sederhana dan dapat diinterpretasikan secara visual .
nterpretable AI) memiliki nilai guna yang tinggi dalam mendukung pengambilan keputusan klinis yang cepat dan akurat di fasilitas kesehatan dengan sumber daya terbatas.
Berdasarkan temuan penelitian ini, disarankan bagi peneliti selanjutnya untuk melakukan eksplorasi lebih mendalam dengan mengintegrasikan teknik penanganan ketidakseimbangan data .
lass imbalanc.
seperti SMOTE guna meningkatkan sensitivitas model terhadap kelompok pasien berisiko tinggi.
Selain itu, pengembangan penelitian ke depan dapat diarahkan pada pengujian model menggunakan dataset primer yang lebih luas dan variatif secara demografis untuk memperkuat generalisasi hasil.
Dari sisi perkembangan ilmu pengetahuan, disarankan adanya integrasi antara pendekatan komputasional dengan analisis psikologi kesehatan guna memahami bagaimana hasil prediksi otomatis ini dapat memengaruhi persepsi risiko dan kepatuhan pasien dalam menjalani gaya hidup sehat.
Kontribusi baru ini diharapkan dapat menciptakan sistem deteksi dini yang tidak hanya akurat secara teknis, tetapi juga adaptif terhadap aspek perilaku manusia dalam manajemen kesehatan kronis.
REFERENSI