SMATIKA : STIKI Informatika Jurnal Vol. No. Desember 2024, pp. ISSN: 2087-0256, e-ISSN: 2580-6939 Komparasi Metode K-Nearest Neighbor dan Nayve Bayes untuk Mengklasifikasi Resiko Diabetes Rizki Alifia Safitri 1* Rahmatina Hidayati2 1,2Sistem Informasi. Universitas Merdeka Malang. Terusan Dieng No. Klojen. Pisang Candi. Sukun. Jawa Timur, 65146. Indonesia 1alifiasafitri54139@gmail. com, 2 rahmatina. hidayati@unmer. *Penulis Korespondensi: Rizki Alifia Safitri alifiasafitri54139@gmail. Abstrak Diabetes melitus termasuk masalah kesehatan dengan pertumbuhan paling cepat di abad ke-21. Salah satu penyebabnya karena kurangnya kesadaran Masyarakat untuk chek-up kesehatan secara berkala, sedangkan pola hidup yang dijalaini terbilang tidak sehat. Pemeriksaan hemoglobin A1c (HbA1. sangat dianjurkan untuk mendeteksi diabetes. Tapi layanan tersebut belum ada di Posbindu Desa Bulupitu. Oleh karena itu perlu pendekatan lain untuk mendeteksi dini resiko Masyarakat terkena diabetes yakni dengan data mining. Metode data mining yang digunakan dalam penelitian ini adalah metode klasifikasi Nayve Bayes dan KNN. Variabel untuk menentukan resiko diabetes antara lain: jenis kelamin, usia, keturunan diabetes, sering kencing. Body Mass Index (BMI), kadar gula, dan output resiko diabetes. Pembagian dataset testing dan training menggunakan cross-validation dan rasion . :40, 70:30, 80:20, dan 90:. Akurasi terbaik metode Nayve Bayes diperoleh diperoleh dengan pembagian dataset cross-validation k-fold=2 sebesar 96,1%. Sedangkan pada metode KNN hasil terbaik diperoleh dari rasio dataset 80:30. Manhattan distance menjadi perhitungan jarak terbaik dalam penelitian ini dibandingkan dengan Euclidean distance dan Chebyshev distance. Kata Kunci: Diabetes. KNN. Nayve Bayes Abstract Diabetes mellitus is one of the fastest-growing health problems in the 21st century. One of the causes is the lack of public awareness for regular health check-ups, while the lifestyle being led is quite unhealthy. Hemoglobin A1c (HbA1. examination is highly recommended to detect diabetes. However, this service is not yet available at Posbindu in Bulupitu Village. Therefore, another approach is needed to detect the risk of diabetes early, namely through data mining. The data mining methods used in this research are the Nayve Bayes and kNN classification methods. The variables to determine the risk of diabetes include gender, age, family history of diabetes, frequent urination. Body Mass Index (BMI), blood sugar levels, and diabetes risk output. The division of testing and training datasets uses cross-validation and ratio . :40, 70:30, 80:20, and 90:. The best accuracy of the Nayve Bayes method was obtained by dividing the dataset using k-fold crossvalidation with k=2, achieving 96. In the kNN method, the best results were obtained from the 80:20 dataset ratio. Manhattan distance was found to be the best distance calculation in this study compared to Euclidean distance and Chebyshev distance. Keywords: Diabetes. KNN. Nayve Bayes Pendahuluan Diabetes melitus adalah penyakit gangguan metabolisme yang ditandai dengan kenaikan kadar gula dalam darah. Penyakit ini tergolong berisiko, karena jika terjadi dalam jangka waktu yang panjang dapat menyebabkan kerusakan ginjal, sistem saraf, disfungsi mata, dan pembuluh darah . Menurut data The International Diabetes Federation, diabetes termasuk salah satu masalah kesehatan yang mengalami pertumbuhan tercepat di abat ke-21. Di Indonesia prevalensi diabetes pada usia antara 20 sampai 79 tahun sekitar 10,6% yang menandakan 1 dari 9 orang terkena diabetes . Di Pos Pembinaan Terpadu. Skrining Penyakit Tidak Menular (Posbind. Desa Bulupitu pada kurun waktu Januari hingga Februari 2024, mencatat lebih dari 80 pasien mengidap diabetes. Sebagian dari pasien tersebut mengetahui dirinya terkena diabetes dalam kondisi yang lumayan Cite: Safitri. , dkk. Komparasi Metode K-Nearest Neighbor dan Nayve Bayes untuk Mengklasifikasi Resiko Diabetes. SMATIKA : STIKI Informatika Jurnal, 14. doi: https://doi. org/10. 32664/smatika. Komparasi Metode K-Nearest Neighbor dan Nayve Bayes untuk Mengklasifikasi Resiko Diabetes Hal ini karena kurangnya kesadaran Masyarakat untuk check-up kesehatan secara berkala. Di Posbindu Desa Bulupitu Masyarakat hanya bisa mengecek gula darah. Sedangkan untuk medeteksi diabetes, perlu pemeriksaan hemoglobin A1c (HbA1. Pemeriksaan ini memiliki kaitan terhadap kadar glukosa dalam darah pada penderita diabetes melitus . Namun, layanan pengecekan HbA1c belum tersedia di Posbindu Desa Bulupitu. Kabupaten Malang. Posbindu Desa Bulupitu memerlukan pendekatan lain untuk mendeteksi dini resiko Masyarakat terkena diabetes yakni dengan data mining. Metode data mining melibatkan penggunaan alat dan teknik untuk mengeksplorasi kumpulan data dan membantu penemuan pengetahuan . Beberapa metode yang bisa digunakan untuk memprediksi kemungkinan diabetes antara lain: random forest . , support vector machine . K-Nearest Neighbor (KNN) . , dan Nayve Bayes . Dalam penelitian ini penulis akan membandingkan metode KNN dan Nayve Bayes untuk memprediksi diabetes di Posbindu Desa Bulupitu. Pada penelitian . , peneliti menggunakan KNN untuk klasifikasi diabetes. Perhitungan jarang yang digunakan hanya Euclidean distance. Pada penelitian ini penulis akan membandingkan beberapa perhitungan jarak, antara lain Euclidean distance. Mahanttan distance, dan Chebyshev Penelitian . membandingkan beberapa metode untuk mengklasifikasi indeks kedalaman kemiskinan provinsi Sulawesi Selatan. Hasil yang didapat metode KNN dan Neural Network menunjukkan performa paling baik. Penelitian . mengklasifikasi diabetes melitus berdasarkan fakto-faktor penyebabnya. Faktor tersebut antara lain kehamilan, glukosa. BMI, dan usia. Pada penelitian . variabel yang digunakan untuk klasifikasi diabetes antara lain kehamilan, glukosa, tekanan darah diastolik, berat badan, umur, silsilah diabetes, ketebalan triceps pada lipatan kulit, dan serum insulin 2 jam. Dalam penelitian . terdapat 16 variabel untuk memprediksi diabetes. Penerapan metode Nayve Bayes dengan penambahan fitur selection menghasilkan 4 fitur tebaik yakni jenis kelamin, sering buang air kecil . , rasa haus yang berlebih . , dan rambut rontok . Perhitungan jarak pada kNN menjadi sangat penting untuk menentukan kedekatan antar data. Beberapa perhitungan jarak yang bisa digunakan antara lain Euclidean. Chebyshev. Manhattan, dan Minkowski . Meskipun deteksi dini melalui sistem data mining ini dapat membantu mengidentifikasi risiko diabetes lebih awal, pemeriksaan HbA1c tetap perlu dilakukan untuk konfirmasi lebih lanjut. Deteksi dini hanya sebagai langkah awal untuk meningkatkan kesadaran masyarakat terhadap risiko diabetes dan mendorong mereka untuk melakukan pemeriksaan medis lebih mendalam, termasuk pengecekan HbA1c, yang memiliki akurasi lebih tinggi dalam diagnosis diabetes. Metode Penelitian Diabetes melitus merupakan penyakit gangguan metabolik yang diakibatkan pankreas memproduksi sedikit insulin. Diabetes juga dapat disebabkan oleh ketidakefektifan tubuh menggunakan insulin yang diproduksi . Adapun model klasifikasi pada penelitian ini menggunakan K-Nearest Neighbor (KNN) dan Nayve Bayes. K-Nearest Neighbor adalah metode klasifikasi terhadap objek berdasarkan data ketetanggaan . yang memiliki jarak terdekat dengan objek tersebut. Perhitungan jarak yang akan digunakan dalam penetian ini antara lain . Euclidean distance yccyceycyca . cu, y. = ocyccyc=1. cuyc Oe ycyc )2 Manhattan distance A 2024 SMATIKA Jurnal. Published by LPPM STIKI Malang This is an open access article under the CC BY SA license. ttps://creativecommons. org/licenses/by-sa/4. Komparasi Metode K-Nearest Neighbor dan Nayve Bayes untuk Mengklasifikasi Resiko Diabetes yccycoycaycu = Ocyccyc=1 . cuyc Oe ycyc | . Chebyshev distance ycoycaycu yccycaEayce = 1OycoOycc . cuyc Oe ycyc | . Nayve Bayes merupakan teknik untuk klasifikasi data dengan menggunakan prinsip teorema Bayes. Persamaan 4 menunjukkan rumus dari Nayve Bayes . ycU) = ycE. OycE. cU) . Keterangan: P(H|X) P(H) P(X|H) Data dengan kelas yang belum diketahui Hipotesis data di kelas tertentu Probabilitas hipotesis H berdasarkan X . robabilitas posterior. Probabilitas hipotesis H . robabilitas prio. Probabilitas X berdasarkan H . ikelihood probabilit. Berikut tahapan dalam penelitian ini: Gambar 1. Alur Penelitian Data yang digunakan dalam penelitian berupa data masyarakat yang berjumlah 100. Beberapa dataset ditampilkan pada Tabel 1. Data diperoleh dari (Posbind. Desa Bulupitu. Varibael yang digunakan antara lain : jenis kelamin laki-laki/Perempuan, usia rentang 27 Ae 60 tahun, keturunan diabetes . a/tida. , sering kencing . a/tida. Body Mass Index (BMI) . , kadar gula . dan output resiko diabetes . a/tida. Tabel 1. Dataset Jenis Kelamin Keturunan Tidak Sering Kencing Tidak Tidak Kadar Gula Tidak Usia BMI Diabetes Tidak 2024 SMATIKA Jurnal. Published by LPPM STIKI Malang This is an open access article under the CC BY SA license. ttps://creativecommons. org/licenses/by-sa/4. Komparasi Metode K-Nearest Neighbor dan Nayve Bayes untuk Mengklasifikasi Resiko Diabetes Pada tahap data cleaning bertujuan untuk menghapus data yang rusak atau duplikat dan data yang memiliki variabel tidak lengkap. Pada pembagian dataset membagi dataset menjadi 2 yakni training dan testing. Proses pembagian data menggunakan beberapa model, antara lain . Crossvalidation yaitu teknik validasi silang untuk membagi data menjadi k bagian set data . ang disebut fol. dengan sama ukuran . Rasio training:testing . :40, 70:30, 80:20, dan 90:. Melakukan perbandingan klasifikasi Nayve Bayes dan KNN. Untuk metode Nayve Bayes, pemisahan data training dan testing menggunakan cross-validation dan rasio. Sedangkan pada metode KNN hanya menggunakan rasio. Mengevaluasi hasil klasifikasi dengan confusion matrix. Tabel 2. Confusion Matrix Actual Predicted Negatif Positif Negatif Positif Sumber. Confusion matrix terdiri dari 4 sel: True Positive (TP): jumlah data actual positif dan dikenali sebagai positif False Positive (FP): jumlah data actual negatif namun dikenali sebagai positif True Negative (TN): jumlah data actual negatif dan dikenali sebagai negatif False Negative (FN): jumlah data actual positif namun dikenali sebagai negatif Perhitungan yang dilakukan berdasarkan confusion matrix antara lain: . Akurasi, yaitu menghitung berapa persen masyarakat yang benar diprediksi diabetes dan tidak dibetes dari keseluruhan data. Presisi, yaitu menghitung berapa persen Masyarakat yang benar diabetes dari keseluruhan Masyarakat yang diprediksi diabetes. Recall, perhitungan recall atau sensitivitas untuk mengetahui berapa persen masyarakat yang diprediksi diabetes dibandingkan keseluruhan masyarakat yang sebenarnya diabetes. Hasil Implementasi metode klasifikasi untuk memprediksi resiko diabetes Masyarakat Desa Bulupitu menggunakan aplikasi Orange. Pada load data dataset yang tersimpan dalam format excel dimasukkan ke dalam orange. Pada data cleaning, data yang digunakan tidak ditemukan duplikat Sedangkan untuk pengecekan variabel, semua data memiliki variabel yang lengkap. Sehingga, pada proses ini, tidak ada data yang dihapus karena sudah memenuhi syarat. Pada pembagian dataset berdasarkan cross-validation dan rasio training:testing, dan melakukan perbandingan Gambar 2 menampilkan hasil klasifikasi Nayve Bayes dengan dataset cross-validation. Pada nilai kfold = 2 memiliki akurasi tertinggi 96,1% dibandingkan dengan k-fold = 3, k-fold = 5, dan k-fold = Sedangkan recall dan presisi tertinggi berada pada k-fold = 5. A 2024 SMATIKA Jurnal. Published by LPPM STIKI Malang This is an open access article under the CC BY SA license. ttps://creativecommons. org/licenses/by-sa/4. Komparasi Metode K-Nearest Neighbor dan Nayve Bayes untuk Mengklasifikasi Resiko Diabetes Gambar 2. Evaluasi Nayve Bayes dengan Cross-Validation Pembahasan Tabel 3 menampilkan hasil klasifikasi Nayve Bayes dengan pembagian dataset berdasarkan rasio. Akurasi tertinggi diperoleh dengan rasio data 70:30 dengan nilai 96%. Sedangkan presisi dan recall tertinggi berada di rasio 90:10. Tabel 3. Hasil Klasifikasi Nayve Bayes Rasio 60:40 70:30 80:20 90:10 Akurasi 95,6% 95,8% 94,8% Presisi 93,9% 93,8% 94,2% Recall 92,5% 93,3% 94,1% Dalam Tabel 4, nilai akurasi metode KNN yang diperoleh tidak jauh berbeda pada tiga perhitungan Dari percobaan 4 model rasio data training:testing, hasil terbaik berada pada model 80:20 di masing-masing jarak atau distance. Berdasarkan Distance Eulidean akurasi diperoleh 97,3%, sedangkan dengan Distance Manhattan diperoleh akurasi 97,4% dan pada Distance Chebyshev diperoleh akurasi 97,3%. Tabel 4. Hasil Klasifikasi Tertinggi Masing-Masing Distance Distance Euclidean Manhattan Chebyshev Rasio 80:20 80:20 80:20 Akurasi 97,3% 97,4% 97,3% Evaluasi metode Naive Bayes dan KNN untuk mengklasifikasi resiko diabetes Masyarakat Desa Bulupitu menghasilkan KNN sebagai metode terbaik. Hal ini sesuai dengan penelitian yang dilakukan oleh. Penutup Berdasarkan hasil penelitian maka dapat disimpulkan bahwa performa terbaik metode Nayve Bayes diperoleh dengan pembagian dataset cross-validation k-fold=2. Sedangkan untuk dataset rasio, nilai tertinggi didapat dari model 70:30. Pada metode KNN hasil terbaik diperoleh dari rasio 2024 SMATIKA Jurnal. Published by LPPM STIKI Malang This is an open access article under the CC BY SA license. ttps://creativecommons. org/licenses/by-sa/4. Komparasi Metode K-Nearest Neighbor dan Nayve Bayes untuk Mengklasifikasi Resiko Diabetes dataset 80:30. Dan Manhattan distance menjadi perhitungan jarak terbaik dalam penelitian ini. Puskesmas dapat mempertimbangkan penggunaan model ini untuk mendeteksi dini penyakit Jika hasil dari deteksi dini menyatakan warga tersebut berpotensi diabetes, maka puskemas bisa memberikan rekomendasi untuk pemeriksaan lebih lanjut. Saran untuk penelitian selajutnya dapat menggunakan metode lain seperti Random Forest atau Support Vector Machine. Serta menambahkan fitur-fitur lain yang relevan dan signifikan dalam prediksi diabetes, seperti riwayat keluarga, gaya hidup, dan faktor genetik untuk meningkatkan akurasi prediksi. Referensi