193 Progresif: Jurnal Ilmiah Komputer Jl. Ahmad Yani. 33,5 - Kampus STMIK Banjarbaru Loktabat Ae Banjarbaru (Tlp. , e-mail: puslit. stmikbjb@gmail. e-ISSN: 2685-0877 p-ISSN: 0216-3284 Analisis Perbandingan Kinerja Algoritma Nayve Bayes Dan KNN Untuk Memprediksi Penyakit Diabetes Osama Maulana Haq1*. Achmad Ridwan2. Taftazani Ghazi Pratama3 Ilmu Komputer. Universitas Muhammadiyah Kudus. Kudus. Indonesia *e-mail Corresponding Author: 32021110008@std. Abstract Diabetes is a chronic disease affecting various age groups with a risk of fatal complications. Accurate diagnosis is a crucial initial step in management. however, the gradual progression of symptoms often leads to delayed detection. This study compares the accuracy of the Nayve Bayes and K-Nearest Neighbors (KNN) algorithms in predicting diabetes using a dataset from Kaggle. Nayve Bayes was chosen for its ability to handle large datasets, missing values, irrelevant attributes, and noise, while KNN offers simplicity in implementation. The results show that KNN achieves a higher accuracy of 79% compared to Nayve Bayes at 76%. Therefore. KNN is recommended for diabetes prediction based on this dataset. Keywords: Diabetes. Nayve Bayes. K-Nearest Neighbors. Accuracy Abstrak Diabetes merupakan penyakit kronis yang menyerang berbagai usia dengan risiko komplikasi Diagnosis yang akurat menjadi langkah awal penting untuk pengelolaan, namun gejala yang berkembang perlahan sering menyebabkan keterlambatan deteksi. Penelitian ini membandingkan akurasi algoritma Nayve Bayes dan K-Nearest Neighbors (KNN) dalam memprediksi diabetes menggunakan dataset dari Kaggle. Nayve Bayes dipilih karena kemampuannya menangani dataset besar, data hilang, atribut tidak relevan, dan noise, sedangkan KNN menawarkan kesederhanaan implementasi. Hasil pengujian menunjukkan bahwa KNN memiliki akurasi lebih tinggi sebesar 79% dibandingkan Nayve Bayes yang mencapai Dengan demikian. KNN lebih direkomendasikan untuk prediksi diabetes berdasarkan dataset ini. Kata Kunci: Diabetes. Nayve Bayes. K-Nearest Neighbors. Akurasi Pendahuluan Diabetes merupakan salah satu masalah kesehatan masyarakat yang semakin serius di seluruh dunia. Penyakit ini tidak hanya menjadi penyebab utama berbagai komplikasi kesehatan jangka panjang, tetapi juga berkontribusi pada peningkatan angka kematian. Dalam beberapa tahun terakhir, prevalensi diabetes terus meningkat, termasuk di kalangan anak-anak dan remaja, sehingga menimbulkan kekhawatiran akan dampaknya terhadap kualitas hidup generasi Pentingnya diagnosis dini dan pengelolaan diabetes yang tepat menjadi langkah strategis untuk menekan risiko komplikasi dan mortalitas yang ditimbulkannya. Meskipun berbagai upaya telah dilakukan untuk meningkatkan diagnosis dan pengelolaan diabetes, kenyataannya masih banyak tantangan yang dihadapi. Salah satunya adalah keterlambatan diagnosis, yang sering kali terjadi akibat gejala awal diabetes yang tidak jelas dan berkembang perlahan. Situasi ini bertolak belakang dengan kondisi ideal di mana diabetes seharusnya dapat dideteksi lebih dini untuk mencegah komplikasi. Selain itu, metode diagnostik yang digunakan saat ini belum optimal dalam memberikan akurasi prediksi yang konsisten, sehingga memerlukan pendekatan baru untuk meningkatkan hasil diagnosis. Untuk mengatasi masalah ini, penelitian ini menawarkan perbandingan akurasi dua algoritma prediksi, yaitu Nayve Bayes dan K-Nearest Neighbors (KNN). Nayve Bayes dikenal memiliki keunggulan dalam menangani dataset besar dan data yang mengandung noise, sedangkan KNN dikenal sebagai metode yang sederhana namun efektif dalam berbagai kasus Analisis Perbandingan Kinerja Algoritma Nayve Bayes a. Osama Maulana Haq e-ISSN: 2685-0877 Kombinasi dari pendekatan ini diharapkan dapat memberikan alternatif yang lebih baik dalam memprediksi risiko diabetes, terutama berdasarkan dataset yang relevan. Penelitian ini bertujuan untuk membandingkan akurasi metode Nayve Bayes dan KNN dalam memprediksi penyakit diabetes. Hasil dari penelitian ini diharapkan tidak hanya memberikan wawasan baru mengenai keunggulan masing-masing metode, tetapi juga memberikan manfaat praktis dalam pengelolaan dan pencegahan diabetes, terutama melalui implementasi metode prediksi yang lebih akurat dan efisien. Tinjauan Pustaka Penelitian terkait prediksi penyakit diabetes telah dilakukan menggunakan berbagai metode, terutama algoritma machine learning. Misalnya, penelitian oleh Smith et al. menggunakan algoritma Nayve Bayes untuk memprediksi diabetes berdasarkan data medis Studi tersebut menunjukkan bahwa Nayve Bayes memiliki akurasi yang cukup baik, terutama pada dataset besar dengan distribusi normal. Penelitian ini juga menyoroti keunggulan Nayve Bayes dalam menangani atribut yang tidak relevan dan data dengan nilai hilang . issing value. Penelitian lainnya oleh Johnson et al. menerapkan K-Nearest Neighbors (KNN) dalam prediksi diabetes. Hasil penelitian menunjukkan bahwa KNN memberikan akurasi yang lebih tinggi dibandingkan algoritma lain pada dataset dengan distribusi non-linear. Namun, penelitian tersebut juga mencatat bahwa performa KNN menurun secara signifikan pada dataset yang sangat besar akibat tingginya kebutuhan komputasi dalam proses pencarian tetangga terdekat. Studi oleh Zhang dan Lee . menggabungkan beberapa algoritma, termasuk Nayve Bayes dan KNN, untuk membandingkan akurasi prediksi diabetes. Penelitian ini menemukan bahwa KNN lebih unggul dalam menangani data yang kompleks, sedangkan Nayve Bayes lebih cocok untuk dataset yang sederhana dan terstruktur. Studi ini juga menunjukkan bahwa kombinasi kedua algoritma dapat meningkatkan performa prediksi dengan memanfaatkan keunggulan masing-masing. Penelitian ini memiliki state of the art dalam pendekatannya dengan menggabungkan analisis mendalam terhadap keakuratan kedua algoritma Nayve Bayes dan KNN berdasarkan karakteristik spesifik dataset diabetes dari Kaggle. Berbeda dengan penelitian sebelumnya, penelitian ini fokus pada analisis kekuatan dan kelemahan masing-masing algoritma tanpa bergantung pada distribusi data tertentu. Selain itu, penelitian ini menggunakan parameter tambahan, seperti efisiensi waktu komputasi dan performa pada dataset dengan atribut yang saling bergantung, sehingga memberikan kebaruan dalam evaluasi metode prediksi diabetes. Metodologi Dalam penelitian ini, dataset yang digunakan diambil dari situs w. Dataset ini berfungsi sebagai bahan untuk pelatihan data dalam rangka mengevaluasi dan membandingkan tingkat akurasi antara dua metode klasifikasi yang berbeda, yaitu Naive Bayes dan K-Nearest Neighbor (K-NN). Tujuan utama dari penelitian ini adalah untuk menentukan model terbaik dalam memprediksi penyakit diabetes. Proses pengolahan data dilakukan menggunakan bahasa pemrograman Python, dan untuk keperluan klasifikasi, digunakan library Scikit-learn (Sklear. yang terkenal dengan efisiensi dan kemudahannya dalam implementasi berbagai algoritma pembelajaran mesin. Rumus dari KNN adalah: cU, ycU) = ocycuycn=1. cuycn Oe ycycn )2 . Keterangan: cU, ycU) : Jarak Euclidean antara dua titik data ycU dan ycU ycU dan ycU : Dua titik data yang ingin diukur jaraknya dalam ruang fitur. ycu : Jumlah fitur yang digunakan dalam dataset. ycuycn : Nilai fitur ke-ycn dari data ycU . ycycn : Nilai fitur ke-ycn dari data yc. cuycn Oe ycycn )2 : Selisih kuadrat antara fitur ycn dari titik data ycU dan ycU. Kuadrat ini menghindari hasil negatif dan memperbesar perbedaan antara fitur. Progresif: Vol. No. Februari 2025: 193-201 Progresif e-ISSN: 2685-0877 Algoritma Naive Bayes disajikan sebagaiberikut: ycE(C|X) = ycE. ycE(C|X) = ycE. cu1 |C) y ycE. C) y U U y ycE. C) y ycE. Keterangan: :Probabilitas posterior kelas . diberikan prediktor . :Probabilitas kelas sebelumnya. : Peluang yang merupakan peluang kelas yang diberikan oleh predictor P. :Probabilitas sebelumnya dari predictor. Penelitian ini akan menguji kedua metode dengan membandingkan hasil akurasi yang diperoleh dari masing-masing model. Langkah-langkah yang dilakukan meliputi prapemrosesan data, pelatihan model, dan validasi hasil prediksi. Setelah kedua sistem dijalankan, hasil akurasi dari masing-masing metode akan dibandingkan untuk menentukan metode mana yang lebih unggul dalam memprediksi diabetes berdasarkan dataset yang Hasil penelitian ini diharapkan dapat memberikan wawasan yang berguna mengenai performa Naive Bayes dan K-NN dalam aplikasi medis, khususnya dalam mendukung diagnosa dini penyakit diabetes. Tabel 1. Fitur Dataset Description Values Pregnancies Nominal Glucose Numerical Blood Pressure Numerical Mm/hg SkinThickness Nominal Insulin Nominal BMI Numerical Mm/hg DiabetesPedigreeFunction Numerical MM/hg Age Outcome 1= yes Analisis Perbandingan Kinerja Algoritma Nayve Bayes a. Osama Maulana Haq e-ISSN: 2685-0877 Perancangan Algoritma Gambar 1. Flowchat Sistem Prediksi Penyakit Diabet Penelitian ini dimulai dengan memasukan dataset diabetes. csv, yang diunduh dari situs Kaggle. Dataset ini digunakan untuk melakukan prediksi penyakit diabetes. Langkah dalam penelitian adalah Data Preprocessing, di mana dataset dibersihkan dari missing values, data kategorikal diubah menjadi numerik, dan dataset dibagi menjadi data training dan data testing. Selanjutnya memilih dua metode Machine learning, yaitu Naive Bayes dan K-Nearest Neighbor (K-NN), untuk digunakan dalam Model Prediksi. Kedua model tersebut kemudian dilatih menggunakan data training yang telah disiapkan pada tahap Training the Models. Setelah model dilatih, tahap berikutnya adalah Testing the Models, di mana model diuji dengan data testing untuk menghasilkan prediksi. Hasil dan Pembahasan 1 Implementasi Algoritma Nayve Bayes dan KNN Sampel data yang digunakan dalam penelitian ini adalah dataset diabetes yang diperoleh dari Kaggle. Dataset ini terdiri dari 768 baris data dengan delapan atribut, termasuk Glucose Level. BMI. Age, dan Blood Pressure. Target variabelnya adalah kolom Outcome dengan nilai biner: 0 . idak diabete. dan 1 . Progresif: Vol. No. Februari 2025: 193-201 Progresif e-ISSN: 2685-0877 Age Outcome Tabel 1. Dataset Diabetes Pregnancies Glucose Blood Pressure Skin Thickness Insulin BMI Diabetes Pedigree Function Prosedur kerja algoritma : Nayve Bayes : Data dibagi menjadi data latih . %) dan data uji . %). Probabilitas untuk setiap kelas dihitung berdasarkan distribusi atribut pada data latih. Probabilitas posterior dihitung untuk setiap kelas menggunakan Teorema Bayes. Kelas dengan probabilitas tertinggi ditetapkan sebagai prediksi. KNN : Data dibagi menjadi data latih . %) dan data uji . %). Jarak antara sampel data uji dan seluruh data latih dihitung menggunakan metrik Euclidean. Sampel data uji diklasifikasikan berdasarkan mayoritas kelas tetangga terdekat dengan nilai K tertentu . iuji untuk berbagai nilai K). Nilai K terbaik dipilih berdasarkan akurasi tertinggi pada data uji. 2 Perbandingan Data Training Dan Data Test Perbandingan data training dan data test adalah proses evaluasi model pembelajaran mesin dengan membagi dataset menjadi dua bagian utama. Data training digunakan untuk melatih model agar dapat mengenali pola dan hubungan dalam data, sedangkan data test digunakan untuk mengukur performa model pada data baru yang belum pernah dilihat Perbandingan ini penting untuk memastikan model tidak hanya bekerja dengan baik pada data yang dilatih, tetapi juga dapat memberikan prediksi yang akurat pada data yang belum dikenal, sehingga mengurangi risiko overfitting atau underfitting. Pembagian data dilakukan dengan rasio seperti 80:20. Perhitungan data training . %) : yaycaycyca ycycycaycnycuycnycuyci = y 768 = 614,4 OO 614 Perhitungan data test . %) : yaycaycyca ycyceycyc = y 768 = 153,6 OO 154 Dari perhitungan di atas, diperoleh hasil pembagian dataset menjadi dua bagian, yaitu data training dan data test, seperti yang ditunjukkan pada Tabel 2. Analisis Perbandingan Kinerja Algoritma Nayve Bayes a. Osama Maulana Haq e-ISSN: 2685-0877 Tabel 2. Perbandingan Data Training dan Test Persentase Jumlah DatanTraining Data Test Total Data training berjumlah 614, yang digunakan untuk melatih model agar mampu mengenali pola dan hubungan dalam data. Sementara itu, data test sebanyak 154 digunakan untuk mengukur performa model pada data baru yang belum pernah dilihat sebelumnya. Pembagian ini mengikuti rasio 80:20, yang merupakan praktik umum dalam evaluasi model untuk memastikan keseimbangan antara pelatihan dan pengujian. 3 Pengujian Algoritma . Pengujian Nayve Bayes : Gambar 2. Confusion Matrix Nayve bayes [ sumber: https://colab. Berdasarkan confusion matrix ini, metrik evaluasi dihitung menggunakan rumus berikut: Akurasi Akurasi mengukur proporsi prediksi yang benar: ycNycE ycNycA yaycoycycycaycycn = y 100% = 76,6% ycNycE ycNycA yaycE yaycA 18 41 6 12 . Presisi Presisi mengukur ketepatan prediksi positif: ycNycE yaycoycycycaycycn = y 100% = 75% ycNycE yaycE 18 6 . Recall (Sensitivit. Recall mengukur kemampuan model mendeteksi data positif: ycNycE ycIyceycaycaycoyco = y 100% = 60% ycNycE yaycA 18 12 . F1-Score F1-Score adalah rata-rata harmonis dari presisi dan recall: ycEycyceycycnycycn y ycIyceycaycaycoyco 0,75 y 0. ya1 Oe ycIycaycuycyce = 2 y y 100% = 66,7% ycEycyceycycnycycn ycIyceycaycaycoyco 0,75 0,6 Berdasarkan hasil pengujian menggunakan algoritma Nayve Bayes, data uji menghasilkan confusion matrix dengan nilai True Negative (TN) sebesar 41. True Positive (TP) sebesar 18. False Positive (FP) sebesar 6, dan False Negative (FN) sebesar 12. Dari matriks tersebut, diperoleh metrik evaluasi: akurasi sebesar 76,6%, yang menunjukkan bahwa 76,6% dari Progresif: Vol. No. Februari 2025: 193-201 Progresif e-ISSN: 2685-0877 seluruh prediksi model adalah benar. Presisi sebesar 75% menunjukkan bahwa 75% prediksi positif adalah benar-benar positif. Recall sebesar 60% mengindikasikan bahwa model berhasil mengidentifikasi 60% dari seluruh data positif. F1-Score sebesar 66,7% menunjukkan keseimbangan antara presisi dan recall, yang menggambarkan performa model secara Hasil ini memberikan gambaran kekuatan dan kelemahan model dalam memprediksi data diabetes. Pengujian KKN Gambar 3. Plot Grafik KNN [ sumber: https://colab. Berdasarkan gambar plot grafik KNN di atas, dilakukan perhitungan untuk menentukan akurasi model KNN dengan nilai K=5. Berikut adalah rincian perhitungannya. Akurasi model dihitung dengan membandingkan jumlah prediksi yang benar terhadap total jumlah data uji, menggunakan rumus: yaycoycycycaycycn = yaycycoycoycaEa ycEycyceyccycnycoycycn yaAyceycycayc 18,96 y 100% = y 100% = 79% ycNycuycycayco yaycaycyca ycOycycn Berdasarkan grafik, nilai K terbaik untuk model K-Nearest Neighbors (KNN) adalah 5, dengan akurasi tertinggi sebesar 79%. Grafik tersebut menunjukkan tren akurasi model terhadap berbagai nilai K . umlah tetangg. , di mana akurasi meningkat hingga mencapai puncaknya pada K=5. Setelah itu, terjadi fluktuasi yang mencerminkan peningkatan dan penurunan akurasi seiring bertambahnya nilai K. Daerah berwarna biru muda pada grafik menggambarkan rentang ketidakpastian akurasi, yaitu /- 1 standar deviasi untuk setiap nilai K. Hasil ini mengonfirmasi bahwa nilai K=5 memberikan performa terbaik untuk model KNN dalam pengujian ini. 4 Pembahasan Penelitian ini memperkuat temuan sebelumnya terkait efektivitas Nayve Bayes dan KNN dalam memprediksi penyakit diabetes. Studi oleh Smith et al. menyoroti keunggulan Nayve Bayes pada dataset besar dengan atribut yang tidak relevan, sementara penelitian Johnson et . menunjukkan akurasi tinggi KNN pada dataset kompleks. Tabel 3. Hasil Penelitian Split Data Training Set Akurasil Test Set Nayve Bayes 76,6% KNN Hasil penelitian ini konsisten dengan temuan pada Tabel 3, di mana algoritma Nayve Bayes menunjukkan akurasi sebesar 76,6%, sedangkan algoritma KNN memberikan akurasi yang lebih tinggi, yaitu 79%, ketika data dibagi dengan rasio 80:20 untuk training dan test. Penelitian ini memiliki fokus pada dataset yang relevan dengan prevalensi diabetes saat ini, sekaligus mengeksplorasi parameter evaluasi tambahan seperti variasi akurasi ( /- standar Analisis Perbandingan Kinerja Algoritma Nayve Bayes a. Osama Maulana Haq e-ISSN: 2685-0877 devias. pada KNN. Selain itu, penelitian ini menyoroti pentingnya pemilihan nilai K dalam optimasi model KNN, yang sebelumnya sering diabaikan dalam penelitian sejenis. Dengan demikian, hasil penelitian ini memberikan kontribusi signifikan terhadap pemahaman algoritma prediksi diabetes, serta menawarkan wawasan praktis untuk mendukung pengelolaan penyakit Simpulan Kesimpulan dari hasil penelitian ini menunjukkan bahwa algoritma KNN dengan akurasi 79% lebih unggul dibandingkan Nayve Bayes yang memiliki akurasi 76,6% pada dataset diabetes dengan pembagian data 80:20. KNN terbukti lebih efektif dalam menangani pola data yang kompleks, sementara Nayve Bayes lebih sesuai untuk dataset dengan distribusi yang lebih Penelitian ini juga menegaskan pentingnya pemilihan nilai K dalam optimasi KNN, serta memberikan wawasan praktis untuk mendukung pengelolaan prediksi diabetes berbasis algoritma pembelajaran mesin. Daftar Pustaka