Positif : Jurnal Sistem dan Teknologi Informasi Volume 10. No 1, 2024. Page : 65 - 74 E-ISSN 2460-9552 P-ISSN 2620-3227 Article history Received Sept 09, 2023 Accepted July 31, 2023 Published Nov 26, 2024 PERBANDINGAN ALGORITMA SUPPORT VECTOR MACHINE (SVM) DAN NAyaVE BAYES DALAM KLASIFIKASI PENYAKIT DIABETES Anita Desiani1*. Novi Rustiana Dewi2. Muhammad Arhami3. Dina Suzzete Sitorus4. Suristhia Rahmadita5 Matematika dan Ilmu Pengetahuan Alam/Matematika. Universitas Sriwijaya1*,2,4,5 Teknologi informasi dan komputer. Poltek Lhokseumawe 3 email: anita_desiani@unsri. id1*, novirustiana@unsri. arhami@pnl. id3,suzzeteceliesitorus22@gmail. com4, suristhiarahmadita08@gmail. Abstract High levels of sugar in the blood can cause diabetes. The longer people are unable to control glucose in their blood, the more complications it can cause, other diseases and even death. Early detection of diabetes is needed, one way is by carrying out data mining classification. Data mining classification in this research uses two algorithms, namely SVM (Support Vector Machin. and Nayve Bayes. This research compares the two algorithms using two methods, namely training split and k-fold cross validation which aims to get the best classification results in detecting diabetes. The best classification results are determined by calculating the average value of precision, recall and accuracy. Based on this research, the SVM algorithm with split percentage training produces average values for precision, recall and accuracy, namely 77%, 71. 5%, 77. 27%, while the SVM algorithm with k-fold cross validation produces average values for precision, recall , and accuracy is 77%, 72. 5%, 71%. The Nayve Bayes algorithm with the split percentage training method produces average values for precision, recall and accuracy, namely 75. 5%, 74. 5%, 79%, while the Nayve Bayes algorithm with k-fold cross validation produces average values for precision, recall, and accuracy of 75. 5%, 74. 5%, 75%. The best classification result in detecting diabetes is the Nayve Bayes algorithm, the split percentage method, which provides the best accuracy, precision and recall values above 74%. Keywords: Classification. Diabetes. Comparison. Nayve Bayes. Support Vector Machine. Abstrak Tingginya kadar gula dalam darah dapat mengakibatkan penyakit Diabetes. Semakin lama orang tidak dapat mengontrol glukosa dalam darah, maka dapat mengakibatkan komplikasi penyakit lain bahkan Diperlukannya deteksi dini terhadap penyakit diabetes, salah satu caranya yaitu dengan melakukan klasifikasi data mining. Klasifikasi data mining dalam penelitian ini menggunakan dua algoritma yaitu SVM (Support Vector Machin. dan Nayve Bayes. Penelitian ini membandingkan kedua algoritma dengan menggunakan dua metode yakni training split dan k-fold cross validation yang bertujuan untuk mendapatkan hasil klasifikasi terbaik dalam mendeteksi penyakit diabetes. Hasil klasifikiasi terbaik ditentukan dengan menghitung nilai dari rata-rata presisi, recall, dan akurasi. Berdasarkan penelitian ini, algoritma SVM dengan training persentase split menghasilkan nilai rata-rata untuk presisi, recall, dan akurasi yaitu 77%, 71. 5%, 77. 27%, sedangkan algoritma SVM dengan k-fold cross validation menghasilkan nilai rata-rata untuk presisi, recall, dan akurasi yaitu 77%, 72. 5%, 71%. Algoritma Nayve Bayes dengan metode training persentase split menghasilkan nilai rata-rata untuk presisi, recall, dan akurasi yaitu 75. 5%, 74. 5%, 79%, sedangkan algoritma Nayve Bayes dengan k-fold cross validation menghasilkan nilai rata-rata untuk presisi, recall, dan akurasi sebesar 75. 5%, 74. Hasil klasifikasi terbaik dalam mendeteksi penyakit diabetes adalah algoritma Nayve Bayes metode persentase split memberikan nilai akurasi, presisi, recall terbaik diatas 74%. Kata Kunci: Klasifikasi. Diabetes. Perbandingan. Nayve Bayes. Support Vector Machine PENDAHULUAN Hormon insulin merupakan rangkaian dari asam amino yang dihasilkan oleh kelenjar Hormon insulin dibutuhkan oleh tubuh untuk mengatur keseimbangan kadar gula . dalam darah . Jika kekurangan hormon insulin, maka dapat menyebabkan kadar gula . dalam darah tidak dapat dikontrol . Tingginya kadar gula . dalam darah mampu mengakibatkan penyakit Diabets Millitus atau sering dikenal dengan nama diabetes . Penyakit diabetes yaitu salah satu jenis penyakit yang tidak menular namun tidak dapat disembuhkan. Semakin lama orang tidak dapat mengontrol glukosa . adar gul. dalam darah dan menderita penyakit diabetes, maka dapat mengakibatkan penyakit komplikasi lain seperti kerusakan pada ginjal, saraf, kulit, permasalahan mata, dan bahkan dapat menyebabkan kematian . Berdasarkan laporan Riskesdas pada tahun 2013 prevalensi diabetes mengalami peningkatan sebanyak 6,9% sedangkan pada tahun 2018 prevalensi diabetes meningkat sebanyak 8,5% dan dengan total kasus sebanyak 713. Pada tahun 2018 berdasarkan usia pravelensi diabetes yang paling sering terjadi pada rentang umur 1524 tahun dengan jumlah 159. 014 orang atau sebesar 22% . Sedangkan pravelensi diabetes di Indonesia menduduki urutan ke tujuh di dunia pada tahun 2021 menurut IDF (International Diabetes Federatio. banyak terjadi pada gologngan orang dewasa dengan rentang usia 2079. Tingginya pravelensi diabetes di Indonesia terjadi karena terlalu banyak mengkonsumsi karbohidrat tinggi, jarang berolahraga, dan masih banyak lagi. Tingginya pravelensi diabetes di Indonesia, diperlukan deteksi dini terhadap penderita penyakit diabetes. Salah satu cara mendeteksi penyakit diabetes yaitu dengan memanfaatkan data mining, sehingga dapat membantu penderita penyakit diabetes untuk melakukan pengobatan yang relevan. Data mining adalah algoritma optimal data yang memiliki tujuan untuk mendapatkan informasi dari sekumpulan data jumlah tertentu . Salah satu pengolahan data mining yaitu melakukan klasifikasi secara matematika. Klasifikasi merupakan sebuah proses dalam memasukan nilai sebuah objek data untuk masuk ke kelas tertentu sesuai dengan jumlah kelas yang ada . Beberapa algoritma yang dapat digunakan data mining dalam klasifikasi adalah SVM (Support Vector Machin. dan Nayve Bayes. Pemanfaatan data mining dalam klasifikasi sudah banyak dilakukan dalam beberapa penelitian sebelumnya Damuri et all . melakukan klasifikasi pada dataset penerima bantuan sembako dengan menggunakan Nayve Bayes dengan akurasi 86%. Darmawan et all . melakukan klasifikasi pada dataset kepuasan menggunakan algoritma SVM dengan akurasi 86% dan Arifin dan Sasangko . melakukan klasifikasi pada dataset jalur minat anak SMA dengan menggunakan SVM dan Nayve Bayes menghasilkan akurasi 97% dan 92%. Algoritma SVM (Support Vector Machin. merupakan algoritma yang mampu bekerja dalam menentukan titik maksimal dan garis pemisah yang terbaik untuk memisah dua buah kelas . Algoritma SVM memiliki kelebihan yaitu dapat menemukan hyperplane yang optimal berfungsi sebagai pemisah yang nyata bagi titik-titik masukan, mampu bekerja dan menghasilkan nilai terbaik pada dataset yang kecil, dan sangat cocok untuk data berdimensi tinggi . , . Penelitian yang menggunakan algoritma SVM diantaranya. Hermanto et all . menerapkan algoritma SVM untuk klasifikasi layanan komplain mahasiswa dengan akurasi 92,2% dan Dharmapatni dan Merawati . menerapkan algoritma SVM untuk klasifikasi kenaikan tarif BPJS kesehatan dengan akurasi 92%. Algoritma SVM juga memiliki kelemahan yaitu pemilihan kernel yang dapat mempengaruhi kinerja SVM, tidak cocok untuk dataset yang besar, tidak cocok untuk kumpulan data dengan nilai yang hilang. Berbeda dengan algoritma Nayve bayes yang mampu menangani data yang hilang dan cocok untuk dataset yang besar dengan dimensi tinggi karena pada Nayve Bayes perhitungannya menggunakan probabilitas untuk data yang hilang akan ditambahkan angka 1 pada setiap perhitungannya. Selain itu kelebihan Nayve Bayes yaitu performa klasifikasinya tinggi dan efisien karena tidak menggunakan kernel, regulasi, dan lain-lainnya . Nayve Bayes merupakan algoritma pengklasifikasian statistik yang menggunakan probabilistik sederhana dan menerapkan teorema bayes . turan baye. dengan dugaan kuat yang tidak terikat . Penelitian sebelumnya yang menggunakan Nayve Bayes Buani . yang memakai algoritma Nayve Bayes untuk klasifikasi pendeteksi gagal jantung dengan akurasi 70% dan Damuri et all . menggunakan algoritma Nayve Bayes untuk klasifikasi kelayakan penerima bantuan sembako dengan akurasi 86%, serta Desiani . yang Positif : Jurnal Sistem dan Teknologi Informasi Volume 10. No 1, 2024. Page : 65 - 74 menggunakan algoritma Nayve Bayes untuk klasifikasi penyakit hati dengan akurasi 85%. Kelemahan algoritma Nayve Bayes yaitu probabilitas kurang berjalan secara optimal dan tidak cocok untuk tipe data numerik . Penelitian ini, akan membandingkan dua algoritma yaitu SVM (Support Vector Machin. dan Nayve Bayes yang bertujuan mendapatkan hasil klasifikasi yang terbaik dalam mendeteksi penyakit diabetes. Dataset pada penelitian ini menghasilkan dua kelas yaitu diabetes dan tidak Dalam studi saat ini, ukuran akurasi, recall, dan presisi akan diambil. Untuk pengujian kedua algoritma, desain pengujian pemisahan persentase dan desain validasi silang k-lipat Untuk metode pemisahan persentase, ukuran pemisahan ditetapkan pada 80% untuk data uji dan 20% untuk data pelatihan. Untuk validasi silang k-lipat, nilai k diambil sebagai 10, yang berarti bahwa data dibagi menjadi sepuluh kelompok yang bergiliran sebagai data pelatihan dan pengujian selama sepuluh kali total. Hasilnya akan dibandingkan satu sama lain agar mendapatkan algoritma dan metode uji yang terbaik yang dapat digunakan dalam mendeteksi penyakit diabetes. METODE PENELITIAN Deskripsi Data Data set yang digunakan dalam penelitian ini adalah data set yang berasal dari situs Kaggle . com/datasets/akshaydattatraykhare /diabetes-datase. dengan judul Diabetes Dataset dan berformat csv. Data set tersebut diperoleh dari National Institute of Diabetes and Digestive and Kidney Diseases. Secara total, jumlah data berjumlah 768 perempuan Pima Indian berusia di atas 21 tahun. Pada dataset tersebut terdapat 9 variabel yang terdiri dari 8 variabel independent dan 1 variabel dependent. Variabel yang bersifat independent adalah pregnancies, glucose, blood pressure, skin thickness, insulin. BMI, diabetes pedigree function, dan age. Variabel dependent dalam penelitian ini adalah label. Terdapat 2 kelas label pada dataset ini, kelas 0 tidak diabetes berjumlah 500, kelas 1 diabetes berjumlah 258. Selamat, hanya label pada 2 kelas. Klasifikasi label dibuat pada faktor transformasi dependent dan konfigurasinya memberikan hasil yang ditunjukkan pada tabel berikut. Mari melihat tabel 1 di atas yang memuat catatan dari variabel- E-ISSN 2460-9552 P-ISSN 2620-3227 variabel yang Tabel 1. Variabel Data Atribut Keterangan Deskripsi Pregnancies Jumlah berapa kali Kehamilan wanita hamil Glucose Konsentrasi glukosa pada Kadar Gula 2 jam dalam tes toleransi Blood Tekanan Pressure Tekanan . m/H. Darah jantung rileks Skin Memperkirak Thickness Penebalan tubuh . Kulit yang diukur pada lengan Insulin Tingkat insulin 2 jam Insulin insulin serum dalam satuan mu U/ml BMI Berat dalam kg / . inggi dalam meter Indeks kuadra. , dan Massa Tubuh Diabetes Indikator Pedigree Fungsi Function Silsilah Diabetes Age Umur wanita Umur suku Indian Pima Outcome 0 = Tidak Label diabetes, 1 = Diabetes Preprocessing Data Preprocessing data adalah teknik awal dari data mining untuk memperbaiki data mentah menjadi informasi yang mudah dipahami. Preprocessing data atau praproses data dilakukan untuk mempermudah proses analisis data, mengurangi durasi data mining, dan mendapatkan hasil yang lebih tepat . Praproses data dapat berupa transformasi data. Praproses data pada dataset diabetes akan ditransformasikan karena pada atribut label akan diubah tipe data numeric menjadi kategorik khusus untuk algoritma Nayve Bayes. Dataset diabetes akan ditransformasikan karena ada rentang nilai yang memiliki perbedaan di beberapa atribut. Untuk mengatasinya maka dilakukan sebuah transformasi data menggunakan normalisasi dengan tujuan agar rentang nilai setiap atribut sama, sehingga dapat memperoleh klasifikasi yang lebih baik. Dalam penelitian ini, terdapat 8 atribut yang ditransformasi dengan Pada atribut Kehamilan. Kadar Gula. Tekanan Darah. Penebalan Kulit. Insulin. Indeks Massa Tubuh. Fungsi Silsilah Diabetes dan Umur karena di dalamnya terdapat range data yang terlalu jauh. Normalisasi data yang dipakai dalam penelitian ini yaitu dengan melakukan teknik minmax normalization dengan persamaan . cu ) = ycIycaycuyciyce ycu . cu ycoycnycuycOycaycoycyc. coycaycuycIycaycuyciyceOeycoycnycuycIycaycuyciyc. ycoycaycuycOycaycoycyceOeycoycnycuycOycaycoycyce . Untuk digunakan 2 metode pengujian, yaitu persentase bersplit dan k-fold cross validation. Pada persen split ini memiliki perbandingan 8:2 yang artinya, data tersebut akan terpecah menjadi 2 bagian yakni data training dan data testing. Jika data diletakkan pada dryink pens atau dryink. data ini bersifat tetap yang hanya akan diverifikasi dalam pengujian. 80 persen dari data akan digunakan sebagai data pelatihan, dan 20 persen akan digunakan sebagai data evaluasi. Menggunakan k=10 untuk k-fold cross validation. Algoritma Support Vector Machine (SVM) SVM digunakan untuk menemukan hyperplane optimal sehingga dapat memisahkan ke dalam dua kelas yang berbeda serta memaksimalkan margin antara dua kelas tersebut . Tujuan dari algoritma SVM dapat dilihat pada Gambar 1. Gambar 1. Hyperplane Terbaik Untuk Memisahkan Kedua Kelas Gambar 1. merupakan garis hyperplane terbaik yang dapat memisahkan dua kelas disimbolkan dengan kotak biru dan lingkaran Garis-garis terputus merupakan simbol dari bidang pembatas yang memisahkan dua kelas tersebut secara sejajar, sehingga didapatkan pertidaksamaan . dan pertidaksamaan . , yaitu . , . EE . ycuycn yca Ou 1, ycycuycycyco ycoyceycoycayc 1 yc EE . ycuycn yca Ou 0, ycycuycycyco ycoyceycoycayc 0 EE merupakan normal bidang atau nilai bobot, yca yc adalah nilai bias atau posisi bidang alternative terhadap pusat koordinat, dan ycuycn merupakan nilai input ke-i dimanaycuycn OO ycu e1 , ycu e2 . A , ycu eycu . Hyperplane optimal memiliki marginal, seperti pada Gambar Marginal didapatkan dengan memaksimalkan jarak antara hyperplane dan titik kedua kelas Rumus mencari marginal adalah 1Oeyca(Oe1Oeyc. Memaksimalkan marginal Anyc EE An Anyc EE An dengan tetap memenuhi pertidaksamaan . Apabila kedua batasan bidang pada ketidaksamaan . akan direpresentasikan dalam ketidaksamaan . , yaitu EE . ycu eyco yc. Oe 1 Ou 0 . min Anyc EE An2 dengan ycycn . c ycycn merupakan kelas label ke-i sampai N. Untuk memperoleh pengklasifikasian seperti pada Gambar 1, maka pengklasifikasian data tidak dapat dipisahkan secara linear. Formula SVM harus dimodifikasi dengan menggunakan pertidaksamaan . dan penambahan variabel yuOycn Positif : Jurnal Sistem dan Teknologi Informasi Volume 10. No 1, 2024. Page : 65 - 74 E-ISSN 2460-9552 P-ISSN 2620-3227 dimana yuOycn Ou 1. OAycn : yuOycn didapatkan pertidaksamaan . dengan ycycn . c EE . eyco yc. min Anyc EE An2 ya(OcycA ycn=1 yuOycn ) Ou 1 Oe yuOycn yuOycn Ou 0 ya adalah parameter yang digunakan untuk mengurangi kesalahan data pelatihan sambil menyederhanakan model. C juga dikenal sebagai parameter regularisasi. Untuk penelitian ini, fungsi kernel yang digunakan adalah kernel linier, yaitu ya. = ycu . adalah fungsi kernel linear, ycu adalah data latih . dan yc adalah data uji. Algoritma Nayve Bayes Nayve Bayes pengklasifikasian statistika dengan menggunakan probabilistik yang sederhana dan menerapkan teorema bayes . turan baye. dengan dugaan kuat yang tidak terikat . Segala atribut diperlakukan secara bebas dan sama antara satu atribut dengan atribut yang lainnya. Metode ini memakai Nayve Bayes Classifier dalam perhitungan nilai bobot peluang pada setiap Langkah-langkah yang digunakan dalam klasifikasi dengan metode Nayve Bayes sebagai berikut . Dihitung jumlah kelas atau label. Setiap kategori akan dihitung peluang. Menentukan jumlah kemunculan atau frekuensi untuk setiap kategori. Dengan nilai maksmimal akan ditentukan Perhitungan algoritma Nayve Bayes dilakukan dengan menggunakan persamaan . cA) = ycE. cA) ycE. cA) ycE. cA) . Untuk ycA adalah data yang kelasnya belum ycA adalah hipotesis data ycA merupakan kelas spesifik. ycE merupakan simbol peluang, maka ycE. cA) itu peluang hipotesis ycA, ycE. cA) itu peluang hipotesis ycA . Dan untuk simbol | merupakan peluang bersyarat, maka ycE. cA) merupakan peluang hipotesis ycA berdasarkan kondisi ycA sedangkan ycE. cA) merupakan peluang hipotesis ycA berdasarkan kondisi ycA. Analisis Hasil Hasil disajikan menggunakan confusion Confusion matrix adalah tabel yang memberikan informasi tentang jumlah total titik data yang diuji di luar sampel yang telah diklasifikasikan dengan benar dan uji di luar sampel yang telah diklasifikasikan secara salah biasanya dengan angka dari total tes yang dilakukan . Dari segi lain, definisi lain dari confusion matrix adalah matriks yang menggambarkan kemampuan dari klasifikasi algoritma dengan mesin berbentuk matriks yang mengklasifikasikan hasil prediksi menjadi empat kategori, yaitu: True Positive (TP). False Positive (FP). True Negative (TN), dan False Negative (FN). Ciri-ciri dan pembentukan confusion matriks untuk klasifikasi dua kelas dapat dilihat pada Tabel 2 . Tabel 2. Confusion Matrix Nilai Aktual Kelas Positif Negatif True False Positif Positive Positive (TP) (FP) Nilai Prediksi False True Negatif Negative Negative (FN) (FN) Keterangan . True Positive (TP) adalah total data positif yang diklasifikasikan sebagai positif. False Negative (FN) adalah total data negatif yang diklasifikasikan sebagai positif. False Positive (FP) adalah total data positif yang diklasifikasikan sebagai negatif. True Negative (TN) adalah total data negatif yang diklasifikasikan sebagai negatif. Dari confusion matrix, kita dapat menghitung akurasi, presisi, dan recall. Akurasi di sisi lain dapat ditentukan oleh seberapa akurat klasifikasi Akurasi dari suatu klasifikasi dapat mencerminkan kinerja keseluruhan dari model Dengan tingkat akurasi yang tinggi, dapat disimpulkan bahwa model klasifikasi tersebut akan memiliki kinerja yang baik, sedangkan tingkat akurasi yang rendah menyiratkan kinerja yang buruk dari model Rumus yang dapat digunakan untuk persamaan . Akurasi = ycNycE ycNycA x 100% ycNycE ycNycA yaycE yaycA Presisi ialah besaran nilai ketepatan antara informasi yang diinginkan oleh pengguna terhadatanggapan yang diberikan oleh sistem. Rumus dalam menghitung presisi dapat dilihat pada persamaan . Presisi = ycNycE x 100% ycNycE yaycE Recall ialah besaran nilai ketepatan sistem dalam mendapatkan kembali sebuah penjelasan Rumus yang digunakan dalam menghitung recall dapat dilihat pada persamaan . Recall = ycNycE x 100% ycNycE yaycA HASIL DAN PEMBAHASAN Hasil Algoritma SVM Penerapan algoritma SVM pada penyakit Confusion matriks dari algoritma SVM pada dataset penyakit diabetes dengan metode training persentase split dan k-fold validation terlihat pada Tabel 3. Tabel 3. Confusion Matrix SVM (Support Vector Machin. Confusion Matrix Persentase Split dan K-Fold Cross Validation Nilai Aktual Tidak Kelas Diabetes Diabet Nilai Prediksi Diabetes Tidak Persentase Diabetes Split Nilai Prediksi Diabetes Persentase K- Tidak Fold Cross Diabetes Validation Berdasarkan Tabel 3 dapat dilihat bahwa persentase split memprediksi 91 pasien diabetes sebagai diabetes, 26 pasien diabetes sebagai tidak diabetes, 9 pasien tidak diabetes sebagai diabetes, dan 28 pasien diabetes sebagai diabetes. Algoritma SVM dengan metode k-fold cross validation memprediksi 119 secara tepat dan 35 data ditebak pada kelas yang salah. Selanjutnya dihitung nilai presisi, recall, dan akurasi terlihat pada Tabel 4. Tabel 4. Perbandingan kedua teknik pengujian algoritma SVM (Support Vector Machin. Presisi Recall Meto Akur Tidak Tidak Diab Diab Trai Diabet Diabe Perse ntase 77% 76% Split KFold Cros 71% 76% Valid Berdasarkan tabel 4 terlihat bahwa nilai akurasi, presisi, dan recall yang diperoleh dari penerapan algoritma SVM menggunakan teknik pengujian persentase split lebih besar dibandingan dengan teknik pengujian k-fold cross validation. Nilai akurasi sebesar 77% dengan presisi diabetes 76% dan tidak diabetes 78%. Untuk nilai recall diabetes dan tidak diabetes sebesar 52% dan 91%. Hasil Algoritma Nayve Bayes Penerapan algoritma Nayve Bayes pada penyakit diabetes confusion matriks dari algoritma Nayve Bayes pada dataset penyakit diabetes dengan metode training persentase split dan k-fold validation terlihat di Tabel 5. Tabel 5. Confusion Matrix Nayve Bayes Confusion Matrix Persentase Split dan K-Fold Cross Validation Nilai Aktual Kelas Tidak Diabetes Diabetes Nilai Prediksi Diabetes Tidak Persentase Diabetes Split Nilai Prediksi Diabetes Persentase K- Tidak Fold Cross Diabetes Validation Dari Tabel 5 dapat dilihat bahwa Persentase Split memprediksi 93 pasien diabetes sebagai diabetes, 18 pasien diabetes sebagai tidak diabetes, 14 pasien tidak diabetes sebagai diabetes, dan 29 pasien diabetes sebagai diabetes. Kemudian untuk Positif : Jurnal Sistem dan Teknologi Informasi Volume 10. No 1, 2024. Page : 65 - 74 k-fold validation memprediksi 93 pasien diabetes sebagai diabetes, 19 pasien diabetes sebagai tidak diabetes, 14 pasien tidak diabetes sebagai diabetes, dan 28 pasien diabetes sebagai diabetes. Metode Nayve Bayes memprediksi 121 secara tepat dan 33 data ditebak pada kelas salah. Selanjutnya dihitung nilai presisi, recall, dan akurasi terlihat pada Tabel 6. Tabel 6. Perbandingan kedua teknik pengujian algoritma Nayve Bayes Meto Traini Perse Split KFold Cross Valid Akur Presisi Tidak Diabe Diabe Recall Tidak Diabe Diabe Berdasarkan Tabel 6 terlihat bahwa nilai akurasi, presisi, dan recall yang diperoleh dari penerapan algoritma Nayve Bayes menggunakan teknik pengujian Persentase Split lebih besar dibandingan dengan teknik pengujian k-fold cross Nilai akurasi sebesar 79% dengan presisi diabetes 67% dan tidak diabetes 84%. Untuk nilai recall diabetes dan tidak diabetes sebesar 62% dan 87%. Hasil Algoritma C4. Penerapan algoritma C4. 5 pada penyakit diabetes confusion matriks dari algoritma C4. pada dataset penyakit diabetes dengan metode training persentase split dan k-fold validation terlihat di Tabel 7. Tabel 7. Confusion Matrix C4. Confusion Matrix Persentase Split dan K-Fold Cross Validation Nilai Aktual Kelas Tidak Diabetes Diabetes Nilai Prediksi Diabetes Tidak Persentase Diabetes Split Nilai Prediksi Diabetes Persentase K- Tidak Fold Cross Diabetes Validation E-ISSN 2460-9552 P-ISSN 2620-3227 Dari Tabel 7 dapat dilihat bahwa Persentase Split memprediksi 77 pasien diabetes sebagai diabetes, 25 pasien diabetes sebagai tidak diabetes, 22 pasien tidak diabetes sebagai diabetes, dan 30 pasien tidak diabetes sebagai tidak diabetes. Kemudian untuk k-fold validation memprediksi 396 pasien diabetes sebagai diabetes, 112 pasien diabetes sebagai tidak diabetes, 104 pasien tidak diabetes sebagai diabetes, dan 28 pasien tidak diabetes sebagai tidak diabetes. Metode C4. memprediksi 107 secara tepat dan 47 data ditebak pada kelas salah. Selanjutnya dihitung nilai presisi, recall, dan akurasi terlihat pada Tabel 8. Tabel 8. Perbandingan kedua teknik pengujian algoritma C4. Meto Traini Perse Split KFold Cross Valid Akur Presisi Tidak Diabe Diabe Recall Tidak Diabe Diabe Berdasarkan Tabel 8 terlihat bahwa nilai akurasi, presisi, dan recall yang diperoleh dari penerapan algoritma C4. 5 menggunakan teknik pengujian kfold cross validation lebih besar dibandingan dengan teknik pengujian Persentase Split. Nilai akurasi sebesar 71% dengan presisi diabetes 58% dan tidak diabetes 75%. Untuk nilai recall diabetes dan tidak diabetes sebesar 55% dan 78%. Hasil Perbandingan SVM dan Nayve Bayes Hasil prediksi dari dua algoritma SVM dan Nayve Bayes mengklasifikasikan penyakit diabetes metode SVM dan Nayve Bayes dapat bekerja dengan baik karena diatas 70%. Setelah dilakukan perhitungan nilai akurasi, presisi, dan recall dengan algoritma SVM dan Nayve Bayes memakai teknik training presentase split dan k-fold cross validation dapat dibandingkan hasil keduanya, dapat dilihat pada Tabel 9. Dengan mengacu pada Tabel 9 data latihan pada rasio pembagian algoritma Nayve Bayes menunjukkan nilai presisi, recall, dan akurasi yang lebih baik dibandingkan algoritma SVM yang nilainya berturut-turut 75. 5, 74. 5 dan 79%. Sedangkan untuk algoritma SVM memperoleh nilai presisi, recall, dan akurasi masing-masing berturut 77%, 71. 5%% dan 77. Untuk teknik pengujian k-fold cross validation juga didapatkan hasil Nayve Bayes dengan nilai akurasi, precision dan recall lebih tinggi dari pada algoritma SVM dengan rasio berturut-turut 75% dan 75. 5% dan Sementara itu algoritma SVM hanya mampu meraih nilai akurasi, presisi dan recall masing-masing berturut 71%, 77% dan 72,5%. Dengan ini disimpulkan bahwa berdasarkan hasil kedua teknik pengujian algoritma Nayve Bayes memiliki peringkat akurasi, presisi dan recall yang lebih baik dibandingkan algoritma SVM. Presentasi penyebaran metode pengujian split lebih baik daripada metode k-fold cross validation pada semua data yang diujikan di kedua algoritma Untuk mempermudah dalam membaca hasil perbandingan nilai akurasi dari kedua algoritma terlihat pada gambar2. Persentasi (%) SVM Nayve Bayes Akurasi Split K-Fold Cross Validation Gambar 2. Akurasi SVM dan Nayve Bayes Menggunakan Presentase Split dan K-Fold Cross Validation Berdasarkan Gambar 2 dapat dilihat nilai akurasi dari algoritma SVM dan Nayve Bayes, besar nilai akurasi yang dihasilkan persentase split lebih besar dibandingkan k-fold cross validation. Pada algoritma Nayve Bayes nilai akurasi dengan persentase split lebih besar dibandingkan SVM yaitu 79% sedangkan SVM 77%. Kemudian ratarata nilai presisi dan recall pada metode SVM dan Nayve Bayes terlihat pada Gambar 3. Persentase (%) Tabel 9. Perbandingan SVM dan Nayve Bayes dengan presentase split dan K-Fold Cross Validation Metode Presentase Split K-Fold Cross Training Validation SVM Nayve SVM Nayve Bayes Bayes Akurasi 77. 27% 79% Presisi 5% 77% 75. Recall 5% 74. 5% 72. 5% 74. SVM Nayve Bayes SVM Presisi Nayve Bayes Recall Metode Klasifikasi Data Mining Split K-Fold Cross Validation Gambar 3. Nilai Rata-rata Presisi dan Recall Algoritma SVM dan Nayve Bayes Berdasarkan Gambar 3 dapat diketahui bahwa SVM pada algoritma yang menggunakan metode persentase split dan k-fold cross validation memiliki tingkat presisi sebesar 77% yang lebih tinggi dibandingkan Nayve Bayes sebesar 75. Sementara untuk average recall pada Nayve Bayes dengan persentase split dan k-fold cross validation adalah sebesar 74. 5% yang lebih besar dibandingkan pada algoritma SVM. Untuk nilai rata-rata recall, nilai rata-rata k-fold cross dibandingkan dengan persentase split yang Dan Metode Nayve Bayes dengan persentase split melebihi Nayve Bayes dengan k-fold cross. Nayve Bayes dengan persentase split. SVM dengan persentase split, dan SVM dengan persentase k-fold juga menggunakan metode cross validation. PENUTUP Berdasarkan hasil penelitian dan pembahasan yang telah dilakukan dapat disimpulkan bahwa menggunakan metode Support Vector Machine (SVM) dan metode Nayve Bayes tergolong baik Positif : Jurnal Sistem dan Teknologi Informasi Volume 10. No 1, 2024. Page : 65 - 74 karena diatas 70%. Hal ini dapat dilihat dari nilai akurasi, presisi, dan recall dari kedua metode. Metode SVM dengan metode uji yaitu persentase split menghasilkan nilai rata-rata untuk presisi, recall, dan akurasi yaitu 77%, 71. 5%, 77. sedangkan metode SVM dengan k-fold cross validation menghasilkan nilai rata-rata untuk presisi, recall, dan akurasi yaitu 77%, 72. Metode Nayve Bayes dengan metode training persentase split menghasilkan nilai ratarata untuk presisi, recall, dan akurasi yaitu 75. 5%, 79%, sedangkan metode Nayve Bayes dengan k-fold cross validation menghasilkan nilai rata-rata untuk presisi, recall, dan akurasi sebesar 5%, 74. 5%, 75%. Hasil klasifikasi terbaik dalam mendeteksi penyakit diabetes adalah metode Nayve Bayes dengan metode uji persentase split yang memberikan nilai akurasi, presisi, recall terbaik diatas 74%. REFERENSI