Diterima Disetujui Hal : 13 Juni 2025
: 25 Juni 2025
: 144-151
Al-Aqlu: Jurnal Matematika.
Teknik dan Sains https://jurnal.
com/index.
php/aqlu e-ISSN : 2985-4369 Vol.
No.
Juli 2025 PERBANDINGAN KINERJA METODE K-NEAREST NEIGHBOR (KNN).
RANDOM
FOREST.
DAN DECISION TREE DALAM MEMPREDIKSI DIABETES
[Comparing the Accuracy of K-Nearest Neighbour (KNN).
Random Forest, and Decision Tree Methods in Predicting Diabete.
Sherly Yulianty.
Mohamad Khoirun Najib.
* Sekolah Sains Data.
Matematika dan Informatika.
IPB University mkhoirun@apps.
orresponding autho.
ABSTRAK Diabetes merupakan suatu penyakit dengan jumlah penderita yang terus bertambah dan menjadi penyebab kematian dari 1.
5 juta manusia di dunia pada tahun 2019.
Diperlukan suatu penanganan penyakit diabetes, salah satunya dengan melakukan prediksi penderita diabetes.
Metode K-Nearest Neighbor (KNN).
Random Forest, dan Decision Tree merupakan beberapa metode yang dapat digunakan untuk melakukan prediksi klasifikasi diabetes.
Penelitian ini bertujuan membandingkan kinerja metode KNN.
Random Forest, dan Decision Tree berdasarkan akurasi dan waktu komputasinya.
Data yang digunakan pada penelitian ini yaitu Pregnancies.
Glucose.
Insulin.
Body Mass Index (BMI), dan Age sebagai peubah bebas serta Outcome sebagai peubah terikat.
Hasil penelitian data yang belum dinormalisasi dengan Min-Max menunjukkan metode KNN memiliki waktu komputasi yang lebih cepat dibandingkan dua metode lainnya, sedangkan berdasarkan nilai akurasinya metode Decision Tree memiliki nilai yang lebih tinggi dibandingkan dua metode lainnya.
Selanjutnya pada data yang telah dinormalisasi Min-Max menunjukkan penurunan nilai akurasi pada metode Decision Tree dan Random Forest, sedangkan nilai akurasi metode KNN mengalami peningkatan.
Oleh karena itu, perlakuan normalisasi Min-Max lebih baik digunakan untuk metode KNN.
Kata kunci: Diabetes.
K-Nearest Neighbor.
Random Forest.
Decision Tree
ABSTRACT
Diabetes is a disease with a growing number of sufferers and is the cause of death of 1.
5 million people in the world in 2019.
A treatment for diabetes is needed, one of which is by predicting diabetics.
The K-Nearest Neighbour (KNN).
Random Forest, and Decision Tree methods are some methods that can be used to predict diabetes classification.
This research aims to compare the performance of KNN.
Random Forest, and Decision Tree methods based on accuracy and computation time.
The data used in this study are Pregnancies.
Glucose.
Insulin.
Body Mass Index (BMI), and Age as independent variables and Outcome as a dependent variable.
The results of research on data that has not been normalised with Min-Max show that the KNN method has a faster computation time than the other two methods, while based on the accuracy value the Decision Tree method has a higher value than the other two methods.
Furthermore, the Min-Max normalised data shows a decrease in the accuracy value of the Decision Tree and Random Forest methods, while the accuracy value of the KNN method has increased.
Therefore, the Min-Max normalisation treatment is better used for the KNN method.
Keywords: Diabetes.
K-Nearest Neighbor.
Random Forest.
Decision Tree
PENDAHULUAN
Saat ini, teknologi telah berkembang dengan pesat yang turut berpengaruh dalam keberlangsungan hidup manusia.
Tekonologi berperan aktif dalam keberlangsungan hidup manusia di berbagai bidang, misalnya bidang pendidikan, bisnis, kesehatan, informasi, komunikasi, transportasi, energi, dan masih banyak lainnya.
Secara khusus pada bidang kesehatan, berbagai jenis penerapan teknologi telah memberikan perannya yang di antaranya teknologi informasi, komunikasi, medis, dan lainnya.
Machine learning sebagai bagian dari teknologi informasi telah terbukti memiliki banyak manfaat di bidang kesehatan (Telaumbanua et al.
, 2.
Penerapan machine learning yang telah banyak dilakukan yaitu misalnya dalam melakukan klasifikasi pasien dalam diagnosa suatu Contoh penerapan machine learning dalam bidang kesehatan misalnya adalah penggunaan metode Decision Tree yang telah terbukti memiliki akurasi yang sangat baik dalam melakukan prediksi klasifikasi tingkat suatu penyakit (Wardhana et al.
, 2.
Selain itu, terdapat metode lainnya yang dapat digunakan dalam proses klasifikasi penyakit yang di antaranya adalah K-Nearest Neighbor.
Random Forest, dan lain sebagainya.
Diabates merupakan suatu penyakit dengan jumlah penderitanya yang terus bertambah.
Diabetes menjadi penyebab dari 1.
5 juta kematian yang ada pada tahun 2019 (WHO, 2.
Oleh karena itu, perlu dilakukan pencegahan dan penanganan terkait dengan penyakit diabetes.
Salah satu pencegahan dan penanganan yang dapat dilakukan yaitu dengan melakukan prediksi pendiagnosaan diabetes pada pasien.
Pada penelitian ini akan dilakukan perbandingan prediksi akurasi klasifikasi penyakit diabetes dengan metode K-Nearest Neighbor (KNN).
Random Forest, dan Decision Tree.
Penelitian terkait dengan prediksi diagnosa penyakit dengan model klasifikasi telah banyak Pada penelitiannya.
Aprilliandhika dan Abdulloh .
membandingkan kinerja KNN dan Support Vector Machine (SVM) dalam prediksi penyakit stroke.
Berdasarkan penelitian tersebut diketahui bahwa model KNN lebih baik digunakan untuk prediksi penyakit stroke dibandingkan SVM.
Selanjutnya.
Aziz et al.
melakukan penelitian terkait dengan prediksi penyakit jantung dengan model klasifikasi yang berbasis Decision Tree.
Pada penelitian terdahulu yang telah dijelaskan sebelumnya, metode klasifikasi KNN.
Random Forest, dan Decision Tree dilakukan secara terpisah dengan menggunakan data yang berbeda pada setiap penelitian.
Selain itu pada penelitian terdahulu, perbandingan model klasifikasi pada dataset yang sama dilakukan pada dua model klasifikasi.
Sedangkan pada penelitian ini akan dilakukan perbandingan kinerja model klasifikasi yaitu KNN.
Random Forest, dan Decision Tree pada dataset yang sama.
Pemilihan model terbaik dilakukan dengan melihat tingkat akurasi model klasifikasi dalam melakukan prediksinya.
METODE PENELITIAN
Data yang digunakan pada penelitian ini adalah data klasifikasi pasien diabetes yang diperoleh dari Kaggle.
Data tersebut diperoleh dari 768 pasien yang diamati.
Peubah terikat yang digunakan pada penelitian ini adalah diagnosa pasien terkait penyakit diabetes (Outcom.
Selanjutnya untuk peubah bebas yang digunakan pada penelitian ini terdiri atas Pregnancies.
Glucose.
Insulin.
Body Mass Index (BMI), dan Age.
Data yang digunakan pada penelitian ini dibagi menjadi data training dan testing.
Pembagian data tersebut dilakukan dengan menggunakan data baru yang telah dilakukan penanganan ketidakseimbangan data yang telah dilakukan sebelumnya.
Data training yang digunakan yaitu 80% dari total data yang digunakan untuk membangun model dan sisanya digunakan sebagai data testing.
K-Nearest Neighbor (KNN) KNN merupakan suatu metode klasifikasi yang paling umum digunakan.
KNN merupakan suatu metode klasifikasi yang dibangun pada data training berdasarkan jarak yang paling dekat dengan objek berdasarkan nilai (Setianto et al.
, 2018.
Hawari et al.
, 2.
Metode KNN pertama kali diperkenalkan pada tahun 1951 oleh Fix dan Hodges.
Metode KNN memiliki kelebihan yang di antaranya adalah memiliki tingkat akurasi yang tinggi dan tidak memiliki asumsi khusus yang harus dipenuhi oleh data yang digunakan (Pratama et al.
, 2.
KNN merupakan suatu metode supervised classification (Gharehbaghi, 2.
tetangga terdekat dari data testing, dengan jarak Euclidean yang dirumuskan seperti berikut.
Algoritma 1 Classification of a testing sample, , based on KNN method Procedure KNN Calculate end procedure Random Forest Random Forest merupakan suatu algoritma machine learning yang digunakan untuk proses Random Forest merupakan suatu kumpulan pohon klasifikasi yang diperoleh dari sampling bootstrip data (Chairunisa et al.
, 2.
Rumus menentukan pohon keputusan, dituliskan seperti berikut, dengan merupakan kumpulan data yang diamati, merupakan persentase dari setiap bagian terhadap total seluruh himpunan , dan merupakan banyaknya total kasus dalam himpunan (Handayani et al.
, 2.
Selanjutnya algoritma Random Forest dapat dituliskan seperti pada Algoritma 2 berikut (Kozak, 2.
Algoritma 2 Random forest algorithm 1 ensemble = NULL.
2 for number_of_classifiers do // Construction of a decision tree classifier data_set_classifier = choose_objects.
ata_se.
// bootstrap aggregation new_classifier = NULL.
while incomplete_decision_tree attributes = create_subset_of_attributes( from all atribute.
division = select_next_division.
ata_set_classifier, attribute.
new_classifier.
endWhile add.
ew_classifie.
12 endFor 13 result = ensemble.
Decision Tree Decision Tree merupakan suatu metode yang digunakan untuk proses klasifikasi yang berbasis pohon.
Terdapat beberapa algoritma yang termasuk kedalam Decision Tree yang di antaranya ID3.
C4.
5, dan CART (Solahuddin et al.
, 2.
Decision Tree memiliki kelebihan yang menjadikannya banyak disukai dalam pemodelan untuk proses klasifikasi.
Decision Tree memiliki kelebihan yang mampu menangani data kompleks dan beragam, serta memberikan model yang tidak sulit dalam diinterpretasikan (Rahman et al.
, 2.
Struktur decision tree mirip dengan tree with a root node, a left subtree, and right subtree.
Node daun pada pohon mewakili label kelas.
Busur dari satu node ke node lainnya menunjukkan kondisi pada atribut (Alifah et al.
, 2.
Decision Tree dapat digunakan dalam proses klasifikasi dengan mengikuti persamaan berikut .
engan merupakan notasi distribus.
, dengan diberikan pada fungsi berikut, merupakan pohon keputusan yang dibangun berdasarkan himpunan training , merupakan keputusan untuk peubah yang ditentukan oleh atribut kondisionalnya, dan merupakan himpunan nilai yang mungkin untuk setiap atribut (Kozak, 2.
Algortima Decision Tree dapat dilihat pada Algoritma 3 berikut.
Algoritma 3 Pseudo-code of the ACDT algorithm pheromone = initialization_pheromone_trail().
for number_of_iterations do best_tree = NULL.
for number_of_ants do //build the decision tree new_tree = null.
top_condition_is_not_fulfille.
heuristic = calculate_the_heuristic_function().
p = calc_the_choossing_probability.
heromone, heuristi.
//choose the test in the node .
oulette whee.
new_tree test = roulette_wheel endWhile pruning.
ew_tre.
assessment_of_the_tree_quality.
ew_tre.
if new_tree is_higher_quality_than bbest_tree then best_tree = new_tree.
18 endFor 19 update_pheromone_trail.
est_tree, pheromon.
20 if best_tree is_higher_quality_than best_constructed_tree then best_constructed_tree = best_tree.
22 endIf 23 endFor 24 result = best_constructed_tree.
Akurasi Akurasi digunakan untuk mengukur kinerja model dalam melakukan klasifikasi dengan Umumnya, nilai akurasi diberikan dalam bentuk persentase.
Apabila nilai akurasi mendekati 1 .
%), maka model dapat melakukan prediksi klasifikasi dengan sangat baik.
Nilai akurasi dapat dihitung dengan menggunakan rumus yang ditunjukkan pada persamaan berikut (Maskuri et al.
Tahapan Penelitian dilakukan dengan mengikuti langkah-langkah penelitian sebagai berikut:
Merumuskan Masalah.
Penelitian ini diawali dengan merumuskan masalah yang selanjutnya menjadi dasar dan arah penelitian.
Pada penelitian ini, peneliti tertarik untuk melakukan penelitian terkait dengan klasifikasi diagnosa penyakit diabetes berdasarkan dengan faktor-faktor penyebab yang dipilih peneliti dalam penelitian ini.
Mengumpulkan Data.
Pada tahap ini, peneliti melakukan pengumpulan data yang dibutuhkan untuk masalah yang telah dirumuskan sebelumnya.
Melakukan Eksplorasi Data.
Pada tahap ini, peneliti melakukan eksplorasi data untuk melihat karakteristik data.
Selanjutnya peneliti melakukan penyaringan data secara spesifik untuk dapat digunakan pada penelitian ini.
Menentukan Metode.
Pada tahap ini, peneliti melakukan penentuan metode yang sesuai dengan data yang digunakan.
Metode-metode yang sesuai dengan suatu data dapat ditentukan pada bahasa pemrograman Julia dengan menggunakan package MLJ.
Pada penelitian ini, peneliti memilih untuk menggunakan tiga metode yang di antaranya adalah KNN.
Random Forest, dan Decision Tree.
Melakukan Studi Literatur.
Pada tahap ini, peneliti melakukan studi literatur untuk memhami metode-metode yang digunakan pada penelitian ini.
Peneliti mempelajari metode-metode yang digunakan melalui jurnal dan buku yang berkaitan yang telah tersebar luas di internet.
Mengolah Data.
Data yang telah dikumpulkan dan disaring sebelumnya untuk memperoleh data-data yang paling sesuai dalam masalah yang diangkat, selanjutnya dilakukan pengolahan data dengan menggunakan metode-metode yang telah dipilih sebelumnya.
Menyusun Makalah Penelitian.
Data yang telah selesai diolah, selanjutnya disajikan menjadi suatu tulisan yang disusun dalam suatu makalah.
Dalam suatu penelitian, hasil penelitian perlu dituliskan dan dibagikan sebagai suatu informasi kepada pembaca dan dapat diimanfaatkan sebagaimana mestinya.
Menarik Kesimpulan.
Penelitian ini diakhiri dengan penarikan kesimpulan atas penelitian yang Berdasarkan hasil kesimpulan dapat dilihat apakah terdapat kekurangan yang perlu dilakukan perbaikan pada penelitian ini.
HASIL DAN PEMBAHASAN
Eksplorasi Data Sebelum mengolah data, penting untuk melakukan pengecekan missing data pada data yang Banyaknya missing data pada data penelitian ini disajikan pada Tabel 1 berikut.
Tabel 1.
Deteksi Missing Data Pada Setiap Peubah Peubah Banyaknya missing data Pregnancies Glucose Insulin Body Mass Index (BMI) Age Outcome Berdasarkan Tabel 1, peubah-peubah yang digunakan pada penelitian ini tidak terdapat missing data, sehingga tingkat bias pada model yang terbentuk sekecil mungkin.
Akan tetapi, pada data penelitian yang digunakan, terdapat ketidakseimbangan data antara diagnosa pasien yang tidak terdiagnosa diabetes dengan pasien yang terdiagnosa diabetes.
Pengklasifikasian data diagnosa pasien terkait dengan diabetes dapat dilihat pada Gambar 1 berikut.
Gambar 1.
Bobot Data Diagnosa Diabetes .
Asli .
Seimbang Berdasarkan Gambar 1.
di atas dapat dilihat bahwa perbandingan data pasien yang terdiagnosa diabetes dan tidak terdiagnosa diabetes tidak seimbang.
Suatu data dikatakan tidak seimbang apabila proporsi data minoritas kurang dari 35% (Andiriani dan Susilaningrum, 2.
Oleh karena itu, data yang digunakan pada penelitian ini merupakan data yang tidak seimbang, sehingga diperlukan suatu penanganan untuk mengatasi ketidakseimbangan data tersebut.
Salah satu penanganan yang dapat dilakukan yaitu dengan melakukan random oversample untuk data minoritas.
Selanjutnya pada Gambar 1.
dapat dilihat bahwa data yang digunakan telah memenuhi syarat keseimbangan data.
Selanjutnya, data yang telah seimbang dapat digunakan dalam tahap selanjutnya.
Peubah bebas yang digunakan pada penelitian ini memiliki ukuran satuan yang berbeda.
Peubah bebas Pregnancies menunjukkan jumlah kehamilan pada individu.
Glucose menunjukkan kadar glukosa dalam darah individu.
Insulin menunjukkan kadar Insulin dalam darah individu.
Body Mass Index (BMI) menunjukkan Indeks Masa Tubuh individu, selanjutnya Age menunjukkan usia Berdasarkan makna peubah bebas tersebut, terlihat bahwa skala nilai setiap peubah bebas Oleh karena itu, diperlukan adanya penyelarasan skala data.
Normalisasi Min-Max merupakan salah satu metode yang dapat digunakan untuk menyelaraskan skala data.
Gambar 2.
Boxplot .
Pregnancies .
Glucose .
Insulin .
BMI .
Age Pada setiap data peubah bebas yang digunakan pada penelitian ini terdapat outlier.
Hal tersebut dapat terlihat pada Gambar 2 yang menunjukkan outlier pada data peubah bebas.
Namun, tidak semua outlier harus ditangani dengan cara dibuang.
Pada dunia kesehatan, penanganan outlier perlu diperhatikan dengan hati-hati.
Outlier pada data kesehatan bisa saja memberikan informasi klinis yang signifikan.
Oleh karena itu, pada penelitian ini tidak dilakukan penanganan data outlier.
Kinerja Metode KNN.
Random Forest, dan Decision Tree Dalam Memprediksi Diabetes Berdasarkan hasil eksplorasi data diketahui bahwa peubah bebas yang digunakan pada penelitian ini memiliki skala yang berbeda.
Pada penelitian ini penyelerasan data dilakukan dengan normalisasi Min-Max.
Selain itu, pada penelitian ini dilakukan penanganan ketidakseimbangan data.
Oleh karena itu, data yang digunakan pada penelitian ini adalah data yang telah seimbang.
Perbandingan kinerja metode KNN.
Random Forest, dan Decision Tree sebelum dilakukannya normalisasi dapat dilihat pada Tabel 5 berikut.
Tabel 2.
Perbandingan Kinerja Metode Sebelum Normalisasi Min-Max Metode Akurasi Waktu .
KNN Random Forest Decision Tree Berdasarkan Tabel 2 di atas, dapat dilihat akurasi kinerja setiap model beserta dengan waktu yang diperlukan dalam membangun masing-masing model di Julia pada data yang belum dilakukan Decision Tree memiliki nilai akurasi yang lebih tinggi dibandingkan metode-metode Selanjutnya KNN memiliki waktu komputasi yang lebih cepat dibandingkan metode-metode Pemilihan metode disesuaikan dengan tujuan penelitian yang akan dilakukan.
Perbandingan kinerja metode pada data yang telah dilakukan normalisasi Min-Max dapat dilihat pada Tabel 6 Tabel 3.
Perbandingan Kinerja Metode Setelah Normalisasi Min-Max Metode Akurasi Waktu .
KNN Random Forest Decision Tree Berdasarkan Tabel 3 dapat dilihat bahwa normalisasi Min-Max tidak memberikan peningkatan akurasi pada metode Decision Tree dan Random Forest.
Namun dari sisi waktu komputasi, metode Decision Tree dan KNN memiliki waktu komputasi yang lebih kecil setelah dilakukan normalisasi Min-Max.
Pada metode KNN, penanganan normalisasi Min-Max memberikan akurasi yang lebih tinggi dibandingkan sebelum dilakukan normalisasi.
Selain itu, waktu komputasi metode KNN pada data yang telah dilakukan normalisasi Min-Max lebih kecil dibandingkan sebelum dilakukan normalisasi Min-Max.
PENUTUP
Simpulan Metode K-Nearest Neighbor (KNN).
Random Forest, dan Decision Tree dapat digunakan untuk memprediksi diabetes.
Data peubah bebas yang digunakan pada penelitian ini memiliki skala ukuran yang berbeda, sehingga pada penelitian ini dilakukan normalisasi Min-Max.
Hasil penelitian pada data yang belum dinormalisasi dengan Min-Max menunjukkan bahwa metode Decision Tree mem-iliki nilai akurasi yang lebih tinggi dibandingkan K-Nearest Neighbor (KNN) dan Random Forest.
Sedangkan berdasarkan waktu komputasi, metode K-Nearest Neighbor (KNN) memiliki waktu komputasi yang lebih kecil dibandingkan Decision Tree dan Random Forest.
Pada data yang telah dilakukan normalisasi Min-Max, metode KNN mengalami peningkatan akurasi dan memiliki nilai akurasi yang lebih baik dibandingkan dengan metode Decision Tree dan Random Forest.
Hasil metode Decision Tree dan Random Forest memiliki nilai akurasi yang berbanding terbalik dengan KNN pada data setelah normalisasi Min-Max.
Sedangkan berdasarkan waktu komputasinya, ketiga metode menunjukkan waktu komputasi yang lebih cepat setelah dilakukan normalisasi Min-Max pada data peubah bebas yang digunakan.
Saran Pada penelitian ini hanya digunakan lima peubah bebas, penelitian selanjutnya disarankan untuk menambahkan peubah bebas lainnya yang berkaitan dengan penyebab penyakit diabetes seperti jenis kelamin, kebiasaan konsumsi alkohol, dan lainnya.
Selain itu, terdapat banyak metode lainnya yang dapat dilakukan untuk melakukan prediksi diagnosa diabates.
DAFTAR PUSTAKA