Prosiding Seminar Nasional KARSA NUSANTARA Kolaborasi Rekayasa dan Sains Nasional untuk Teknologi.
Riset, dan Kecerdasan Buatan Fakultas Teknik.
Universitas Wijaya Kusuma Surabaya ISSN 3090-1154 (Media Onlin.
Volume 2.
Tahun 2025 Perbandingan Algoritma Nayve Bayes dan K-Nearest Neighbor Untuk Mengklasifikasikan Status Kesehatan Nazhifatul Muthohharoh*1.
Lukman Fakih Lidimilah2.
Ahmad Homaidi3.
1,2,3
Universitas Ibrahimy Email: nsfh2502@gmail.
com, lukylukman7@gmail.
com , 3Ahmadhomaidi@ibrahimy.
Abstrak Pemanfaatan algoritma klasifikasi dalam bidang kesehatan dapat membantu mengidentifikasi status kesehatan individu secara lebih akurat dan efisien.
Penelitian ini bertujuan untuk membandingkan kinerja algoritma Naive Bayes dan K-Nearest Neighbor (K-NN) dalam mengklasifikasikan status kesehatan berdasarkan beberapa parameter menurut kebiasaan gaya hidup seperti kebiasaan merokok, aktifitas bekerja, aktifitas begadang, aktifitas olahraga, pola makan teratur dan penyakit bawaan.
Data diolah menggunakan Google Colaboratory dengan pembagian 80% data latih dan 20% data uji.
Evaluasi dilakukan menggunakan metrik akurasi, presisi, recall, dan F1-score.
Hasil menunjukkan bahwa algoritma.
Nayve Bayes dan K-Nearest Neighbor, keduanya menunjukkan akurasi yang sama, yaitu 0.
92, dimana keduanya dapat digunakan secara efektif, tetapi, jika data memeiliki distribusi normal dan kontinu, nayve bayes bisa menjadi pilihan yang efisien.
Temuan ini mengindikasikan bahwa pemilihan algoritma sebaiknya disesuaikan dengan kebutuhan sistem, apakah mengutamakan akurasi atau efisiensi.
Penelitian ini diharapkan dapat menjadi referensi dalam pengembangan sistem klasifikasi kesehatan berbasis machine learning yang efektif dan adaptif.
Kata kunci: Klasifikasi.
Nayve Bayes.
K-NN.
Data Mining.
Pembelajaran mesin Abstract .
pt, cetak tebal, dan di tenga.
The utilization of classification algorithms in the health sector can help identify individual health status more accurately and efficiently.
This study aims to compare the performance of Naive Bayes and K-Nearest Neighbor (K-NN) algorithms in classifying health status based on several parameters according to lifestyle habits such as smoking habits, work activities, late night activities, sports activities, regular diet and congenital diseases.
Data is processed using Google Collaboratory with a division of 80% training data and 20% test data.
Evaluation is done using accuracy, precision, recall, and F1-score metrics.
Results showed that the algorithms.
Nayve Bayes and K-Nearest Neighbor, both showed similar accuracy of 0.
which can be used effectively, however, if the data has a normal and continuous distribution.
Nayve Bayes can be an efficient choice.
This finding indicates that algorithm selection should be tailored to the needs of the system, whether it prioritizes accuracy or efficiency.
This research is expected to be a reference in the development of an effective and adaptive machine learning-based health classification system.
Keywords: Classification.
Nayve Bayes.
K-NN.
Data Mining.
Machine Learning PENDAHULUAN Gaya hidup modern yang semakin tidak sehat telah berkontribusi pada meningkatnya berbagai permasalahan kesehatan, seperti obesitas, tekanan darah tinggi, dan diabetes.
Pola makan tidak seimbang, kurangnya aktivitas fisik, serta stres yang berkepanjangan menjadi faktor utama pemicunya.
Oleh karena itu, dibutuhkan suatu sistem prediksi yang dapat mendeteksi potensi risiko kesehatan berdasarkan pola hidup individu.
Dengan adanya sistem prediksi ini, intervensi dini dan upaya pencegahan dapat dilakukan secara lebih tepat sasaran.
Integrasi teknologi data mining dalam sistem prediksi tersebut memungkinkan analisis data kesehatan secara menyeluruh, sehingga menghasilkan rekomendasi yang akurat dan bermanfaat dalam mendukung pengambilan keputusan di bidang medis maupun kebijakan kesehatan masyarakat .
Karena kemampuannya dalam menangani data numerik dan kategorikal secara efisien.
Nayve Bayes dan K-Nearest Neighbor (K-NN) yang merupakan dua algoritma klasifikasi yang banyak digunakan .
, .
Prinsip probabilistic dengan berdasar pada teorema bayes digunakan pada algoritma nayve bayes, dan untuk K-NN bekerja dengan menghitung jarak ketetanggaan antar data untuk menentukan kelas.
Halaman - 24 Prosiding Seminar Nasional KARSA NUSANTARA Kolaborasi Rekayasa dan Sains Nasional untuk Teknologi.
Riset, dan Kecerdasan Buatan Fakultas Teknik.
Universitas Wijaya Kusuma Surabaya ISSN 3090-1154 (Media Onlin.
Volume 2.
Tahun 2025 Beberapa penelitian sebelumnya telah mengimplementasikan kedua algoritma tersebut dalam bidang medis, seperti klasifikasi status pertumbuhan anak stunting.
, diabetes.
, dan metabolic sindrom .
Namun, perbandingan performa keduanya dalam konteks klasifikasi status kesehatan secara umum masih belum banyak dibahas secara komprehensif.
Tujuan penelitian ini untuk membandingkan kinerja algoritma Nayve Bayes dan K-NN dalam mengklasifikasikan status kesehatan berdasarkan variable tertentu.
Identifikasi masalah yang diangkat adalah: .
Seberapa besar tingkat akurasi diantara kedua algoritma, dan .
Seberapa efisien pemrosesan data yang dimiliki masing-masing algoritma.
Metode yang digunakan mencakup proses preprocessing data, pembagian data menjadi latih dan uji, penerapan kedua algoritma menggunakan Google Colaboratory, serta evaluasi performa dengan metrik akurasi, presisi, recall, dan F1-score.
Data yang digunakan diperoleh dari repositori Lifestyle Habits di platform Kaggle dengan 387 entri dengan Sembilan atribut.
Proses pengolahan dan pelatihan model menggunakan RapidMiner untuk visualisasi dan juga menggunakan Python pada Google Colab.
Penelitian ini diharapkan dapat memberikan kontribusi dalam pengembangan sistem klasifikasi kesehatan berbasis machine learning yang optimal, serta menjadi acuan dalam pemilihan algoritma yang sesuai dengan kebutuhan sistem.
Berbeda dengan penelitian sebelumnya, penelitian ini tidak hanya menyoroti akurasi, tetapi juga mempertimbangkan efisiensi komputasi sebagai faktor penting dalam implementasi nyata.
II.
METODE PENELITIAN
Penelitian ini, menggunakan pendekatan kuantitatif dengan metode eksperimen komparatif untuk membandingkan performa algoritma klasifikasi, yaitu Nayve bayes dan K-Nearest Neighbor (K-NN), dalam mengklasifikasikan status Kesehatan.
Desain penelitian ini bertujuan untuk menganilisis perbedaan performa dalam melakukan klasifikasi berdasarkan parameter data yang sudah ditentukan.
Dimana kedua algoritma ini diuji dan dibandingkan kinerjanya dalam mengklasifikasikan data status Kesehatan sebagai AusehatAy atau Autidak sehatAy.
Algoritma nayve bayes memiliki karakteristik berbasis probabilistic dan KNN berbasis kedekatan jarak, kedua algoritma ini dipilih karena masing-masing memiliki karakteristik berbeda dalam pendekatan klasifikasi.
Metode algoritma Nayve Bayes Naive Bayes merupakan suatu algoritma yang dapat mengklasifikasikan suatu variable tertentu dengan menggunakan metode probabilitas dan statistic.
Naive bayes menggunkan sebuah ilmu cabang matematika yang dikenal juga dengan teori probabilitas untuk mencari peluang terbesar dari kemungkinan klasifikasi, dengan cara melihat frekuensi tiap klasifikasi pada data training.
cU .
ycE .
cU) = .
cU) Keterangan:
X: kriteria suatu kasus berdasarkan masukan Ci: Kelas solusi pola ke-i, dimana i adalah jumlah label kelas P(C.
X): Probabilitas label kelas Ci dengan kriteria masukan X P(X|C.
: Probalitas kriteria masukan X dengan label kelas Ci P(C.
: Probabilitas label kelas Ci Metode algoritma K-Nearest Neighbor K-Nearest Neighbors .
merupakan algoritma yang mengklasifikasikan data berdasarkan data pembelajaran .
raining data se.
yang diambil dari k-tetangga terdekat .
earest neighbour.
adalah banyaknya tetangga terdekat.
Metode K-Nearest Neighbors melakukan 14 klasifikasi dengan memproyeksikan data latih ke dalam ruang multidimensi.
Area ini dibagi menjadi beberapa bagian yang mewakili data dasar pelatihan.
Semua data pelatihan direpresentasikan sebagai titik c dalam ruang K-Nearest Neighbors (KNN) merupakan algoritma klasifikasi yang menggunakan himpunan nilai K dari data terdekat .
sebagai acuan untuk menentukan kelas data baru.
KNN mengklasifikasikan data berdasarkan kemiripan atau kedekatannya dengan data lain.
Algoritma KNN ini adalah pembelajaran yang malas.
Artinya, tidak menggunakan titik data pelatihan untuk membangun model.
Dengan kata lain algoritma KNN mempunyai fase pelatihan yang sangat minim.
Tujuan dari algoritma ini adalah untuk mengklasifikasikan objek baru berdasarkan atribut dan sampel pada data pelatihan.
a, yaA) = ocycuycn=1.
aycn Oe yaAycn )2 .
Halaman - 25 Prosiding Seminar Nasional KARSA NUSANTARA Kolaborasi Rekayasa dan Sains Nasional untuk Teknologi.
Riset, dan Kecerdasan Buatan Fakultas Teknik.
Universitas Wijaya Kusuma Surabaya ISSN 3090-1154 (Media Onlin.
Volume 2.
Tahun 2025 Setelah menghitung jarak Euclidean langkah selanjutnya adalah menentukan K- Neighborsnya dengan cara mengurutkan dari nilai yang kecil sampai yang terbesar.
Dari K neighbors terdekat tentukan label berdasarkan mayoritas dari K tetangga terdekat untuk mengevaluasi model dari algoritma K-NN tersebut, setelah mengevaluasi mode langkah selanjutnya adalah menentukan kelas dari dataset.
Dari seluruh perhitungan tersebut terbagi kepada perhitungan dengan class label AoIyaAo dan AoTidakAo, kemudian hasil yang terbesar dari perbandingan ketiga label tersebut merupakan hasil dari prediksi algoritma K-Nearest Neighbors tersebut.
Penelitian ini dilakukan melalui beberapa tahapan utama untuk membandingkan performa algoritma nayve bayes dan K-NN dalam mengklasifikasikan status Kesehatan.
Setiap tahap dirancang secara sistematis agar proses pengujian dapat berjalan dengan optimal.
Adapun alur proses penelitian ditunjukkan pada gambar 1 berikut:
Gambar 1.
Flowchart Tahapan Penelitian Flowchart pada gambar 1 menunjukkan alur kerja penelitian dimulai dari read CSV, yaitu membaca data dalam format CSV (Comma Separated Value.
Dilanjutkan dengan tahap preprocessing dimana tahap tersebut meliputi membersihkan dan mempersiapkan data.
Selanjutnya pada multiplay data dibagi untuk kebutuhan pelatihan dan pengujian model.
Setelah itu dilakukan proses klasifikasi menggunakan dua algoritma, yaitu nayve bayes dan K-NN, kinerja masing-masing algoritma diukur melalui metrik performa meliputi akurasi, presisi, recall, dan F1-score.
Hasil evaluasi kemudian dianalisis secara statistic menggunakan T-Test utnuk mengetahui seberapa signifikan perbedaan performa kedua algoritma.
Pengumpulan data dan Preprocessing data Dalam penelitian ini, data diperoleh dari repositori online aplikasi Kaggle yaitu lifestyle habits.
Berikut adalah tautan yang dapat diakses https://w.
com/datasets/rustaas/kebiasaan-burukberdampak-ke-kesehatan.
Tabel 1.
Atribut Pada Data Status Kesehatan Aktivita Aktivita Pola Penyakit Hasil Jenis Meroko Bekerj Bawaan Usia kelami Begadan Olahrag Mud Iya Jarang Teratur Tidak Tidak Pria Aktif Tidak Mud Tidak Sering Kurang Ada Wanita Pasif Iya Mud Tidak Sering Kurang Ada Wanita Pasif Iya Mud Iya Sering Kurang Tidak Pria Aktif Tidak Mud Iya Jarang Teratur Tidak Tidak Pria Aktif Tidak Iya Jarang Teratur Ada Tidak Tua Wanita Aktif Iya Langkah awal yang krusial dalam proses klasifikasi adalah preprocessing data, untuk memastikan bahwa data dalam kondisi siap olah dan sesuai untuk dimasukkan kedalam algoritma machine learning, beberapa tahapan dalam preprocessing yang diterapkan dalam penelitian ini meliputi:
Penanganan nilai kosong (Missing Value.
Halaman - 26 Prosiding Seminar Nasional KARSA NUSANTARA Kolaborasi Rekayasa dan Sains Nasional untuk Teknologi.
Riset, dan Kecerdasan Buatan Fakultas Teknik.
Universitas Wijaya Kusuma Surabaya ISSN 3090-1154 (Media Onlin.
Volume 2.
Tahun 2025 Pada tahap ini, data diperiksa untuk menemukan nilai kosong pada fitu-fitur tertentu.
Jika ditemukan, nilai kosong diisi menggunakan Teknik imputasi seperti rata-rata atau modus tergantung pada jenisnya.
Normalisasi data Normalisasi dilakukan untuk menyertakan skala fitur numerik agar algoritma yang berbasis jarak seperti K-NN dapat bekerja secara optimal.
Algoritma K-NN menghitung jarak antar data, sehingga perbedaan skala antar fitur dapat memengaruhi hasil klasifikasi secara signifikan.
Normalisasi yang digunakan adalah Min-Max Normalization:
ycuOeycuycoycnycu ycuycoycaycu Oeycuycoycnycu sebaliknya, algoritma nayve bayes tidak bergantung pada skala fitur karena menggunakanlprinsip probabilitas dan distribusi data antar fitur.
Oleh karena itu, normalisasi tidak bersifat wajib untuk nayve bayes, tetapi tetap dilakukan secara seragam untuk menjaga kesetaraan perlakuan terhadap seluruh dataset.
Label Encoding Agar data dapat diproses oleh machine learning, maka proses label encoding ini adalah mengubah data kategorikal menjadi numerik, karena Sebagian besar algoritma, tidak dapat bekerja secara langsung dengan data bentuk asing.
, .
Pemisahan data Untuk membantu mengevaluasi kinerja machine learning, maka Kumpulan data dibagi menjadi subset training dan testing.
Kemudian machine learning melatihnya pada satu bagian data dan mengujinya pada bagian yang lain .
Implementasi Nayve bayes Hitung probabilitas awal Probabilitas Kondisional Probabilitas Gabungan Implementasi K-NN Data testing .
ebagai target klasifikas.
Data training dan label .
Euclidean distance Penentuan tetangga terdekat .
= .
Prediksi kelas Evaluasi Model i.
HASIL DAN PEMBAHASAN
Implementasi Algoritma Nayve Bayes Naive Bayes merupakan suatu algoritma yang dapat mengklasifikasikan suatu variable tertentu dengan menggunakan metode probabilitas dan statistic.
Naive bayes menggunkan sebuah ilmu cabang matematika yang dikenal juga dengan teori probabilitas untuk mencari peluang terbesar dari kemungkinan klasifikasi, dengan cara melihat frekuensi tiap klasifikasi pada data training Hitung Probabilitas Awal Probabilitas awal menunjukkan seberapa besar kemungkinan suatu kelas muncul dalam keseluruhan data sebelum mempertimbangkan dengan fitur lainnya.
= ycycycoycoycaEa yccycaycyca Eaycaycycnyco=ycyca ycE.
= ycycuycycayco yccycaycyca
ycycycoycoycaEa yccycaycyca Eaycaycycnyco=ycyca ycycuycycayco yccycaycyca
= 0,50
= 0,55
Probabilitas Kondisional Probabilitas kondisional menghitung kemungkinan suatu fitur .
yang muncul dalam kelas Diperhitungkan untuk setiap fitur terhadap masing-masing kelas dengan menerapkan Halaman - 27 Prosiding Seminar Nasional KARSA NUSANTARA Kolaborasi Rekayasa dan Sains Nasional untuk Teknologi.
Riset, dan Kecerdasan Buatan Fakultas Teknik.
Universitas Wijaya Kusuma Surabaya ISSN 3090-1154 (Media Onlin.
Volume 2.
Tahun 2025 Laplace Smooting untuk menghindari hasil nol .
jika tidak ada data yang sesuai.
Probabilitas kondisional dari setiap atribut terhadap masing-masing kelas dengan persamaan berikut:
aycn ) = ycAycuycOyaycn 1 ycAya yco ycn Keterangan:
ycuyc = nilai dari fitur ke-j yang diamati yaycn = salah satu kelas target ycAycuyc Oyaycn = jumlah data yang memiliki nilai fitur ycuyc dan termasuk dalam kelas yaycn ycAyaycn = jumlah total data yang termasuk dalam kelas yaycn yco = jumlah kategori unik dalam fitur ycuyc 1 yccycaycu yco = merupakan bagian dari laplace smoothing, untuk menghindari hasil 0 jika tidak ditemukan kombinasi fitur dan kelas di data, dari persamaan diatas.
Tabel 2.
Probabilitas Kondisional Setiap Kelas Variabel Kategori Hasil Probabilitas Kondisional Muda Muda Tidak Usia Tua Tua Tidak Wanita Wanita Tidak Jenis Kelamin Pria Pria Tidak Aktif Aktif Tidak Merokok Pasif Pasif Tidak Tidak Bekerja Yes Yes Tidak Iya Iya Tidak Aktifitas Tidak Tidak Tidak Jarang Jarang Tidak Aktifitas Sering Sering Tidak Teratur Teratur Tidak Pola makan Kurang Kurang Tidak Ada Ada Tidak Penyakit Tidak ada Tidak ada Tidak Probabilitas Gabungan Pada probabilitas gabungan, semua probabilitas kondisinonal dikalikan untuk setiap kelasnya, dan hasilnya dikalikan dengan probabilitas awal.
cyceEaycay.
ycU) Oy ycE.
cyceEaycay.
ycyceEaycay.
cUyc.
ycIyceEaycay.
cNycnyccycayc.
ycyceEaycay.
cUyc.
ycyceEaycay.
Halaman - 28 Prosiding Seminar Nasional KARSA NUSANTARA Kolaborasi Rekayasa dan Sains Nasional untuk Teknologi.
Riset, dan Kecerdasan Buatan Fakultas Teknik.
Universitas Wijaya Kusuma Surabaya ISSN 3090-1154 (Media Onlin.
Volume 2.
Tahun 2025 ycE.
cU) = 0,56 .
0,43 .
0,96 .
0,43 .
0,06 .
0,93 .
0,21 .
0,78 .
0,41 .
0,58 .
0,25 .
0,74.
0,49 .
0,50 .
0,79 .
0,20
= 1,53 .
0,50 = 7,56
cNycnyccycayco .
cU) = 0,39 .
0,60 .
0,51 .
0,57 .
0,97 .
0,02 .
0,56 .
0,43 .
0,71 .
0,28 .
0,87 .
0,12.
0,88 .
0,11 .
0,45 .
0,54
= 1,55 .
0,55 = 8,53
Implementasi Algoritma K-Nearest Neighbor K-Nearest Neighbors (KNN) merupakan algoritma klasifikasi yang menggunakan himpunan nilai K dari data terdekat .
sebagai acuan untuk menentukan kelas data baru.
KNN mengklasifikasikan data berdasarkan kemiripan atau kedekatannya dengan data lain.
Algoritma KNN ini adalah pembelajaran yang malas.
Artinya, tidak menggunakan titik data pelatihan untuk membangun model.
Dengan kata lain algoritma KNN mempunyai fase pelatihan yang sangat minim.
Tujuan dari algoritma ini adalah untuk mengklasifikasikan objek baru berdasarkan atribut dan sampel pada data pelatihan.
Untuk memberikan pemahaman konkret terhadap proses klasifikasi menggunakan algoritma K-NN, disajikan contoh penghitungan jarak euclidean antara satu data uji dan sejumlah data testing.
Langkah ini merupakan bagian dari pemodelan dan sangat menentukan kelas dari data baru berdasarkan kedekatan terhadap data yang telah diketahui labelnya.
Data Testing .
ebagai target klasifikas.
Data testing yang akan diklasifikasikan terdiri dari delapan atribut yang telah diubah ke dalam numerik menggunakan label encoding.
Nilai-nilai yang digunakan menggambarkan karakteristik seperti usia, jenis kelamin, merokok, dan sebagainya.
Dengan vector data uji adalah berikut :
X = .
, 0, 0, 0, 0, 0, 0, .
Dimana, dengan kelas dimasing-masing atribut : usia muda, aktif merokok, tidak bekerja, sering begadang, jarang olahraga, pola makan tidak teratur, dan tidak ada penyakit bawaan.
Data Training dan Label .
Empat data training digunakan untuk membandingkan kedekatan dengan data uji.
Masing Ae masing memiliki nilai atribut yang juga telah dinormalisasi secara label, serta dilengkapi dengan label kelas .
Tabel 3.
Data Training dan Label No Data training Label (Hasi.
, 1, 1, 1, 1, 1, 1, .
, 1, 1, 1, 1, 1, 1, .
, 0, 0, 0, 0, 0, 1, .
, 0, 0, 0, 0, 0, 1, .
0(Tida.
Euclidean Distance Jarak ke data training 1 Data training pertama memiliki banyak nilai berbeda terhadap data uji.
Berikut perhitungannya :
ycc1 = Oo.
Oe .
Oe .
Oe .
Oe .
Oe .
Oe .
Oe .
Oe .
Oe .
2 ycc1 = Oo0 1 1 1 1 1 1 1 = Oo7 = 2,645 Jarak ke data testing 2 Karena data training 2 identik dengan data training 1, hasil jaraknya juga sama :
ycc2 = Oo.
Oe .
Oe .
Oe .
Oe .
Oe .
Oe .
Oe .
Oe .
Oe .
2 ycc2 = Oo0 1 1 1 1 1 1 1 = Oo7 = 2,645 Jarak ke data training 3 Data ini memiliki lebih banyak kesamaan dengan data testing, namun berbeda pada dua fitur ycc3 = Oo.
Oe .
Oe .
Oe .
Oe .
Oe .
Oe .
Oe .
Oe .
Oe .
2 ycc3 = Oo0 0 0 0 0 0 1 1 = Oo2 = 1,414 Jarak ke data training 4 Halaman - 29 Prosiding Seminar Nasional KARSA NUSANTARA Kolaborasi Rekayasa dan Sains Nasional untuk Teknologi.
Riset, dan Kecerdasan Buatan Fakultas Teknik.
Universitas Wijaya Kusuma Surabaya ISSN 3090-1154 (Media Onlin.
Volume 2.
Tahun 2025 Data ini sangat mirip dengan data training 3, tetapi memiliki kecocokan penuh pada fitur ke 8:
ycc3 = Oo.
Oe .
Oe .
Oe .
Oe .
Oe .
Oe .
Oe .
Oe .
Oe .
2 ycc3 = Oo0 0 0 0 0 0 1 0 = Oo2 = 1,000 Penentuan Tetangga Terdekat .
= .
Setelah seluruh jarak dihitung, tiga data latih dengan jarak terdekat dipilih sebagai referensi untuk Berikut hasil peringkat berdasarkan kedekatan, dimana semakin kecil nilainya, maka semakin baik modelnya.
Tabel 4.
Penentuan Tetangga Terdekat Jarak Data training Label yc4 yc3 yc1 Prediksi Kelas Prediksi kelas, ditentukan dari banyaknya label yang muncul, label dari tiga tetangga terdekat yaitu, label 1 .
sebanyak 2 kali muncul, dan label 0 .
Dengan demikian, label mayoritas adalah 1.
dan ditentukan sebagai prediksi akhir.
Evaluasi Model Evaluasi model merupakan tahap penting dalam penelitian, guna mengukur dan membandingkan kinerja dua algoritma yang digunakan, yaitu nayve bayes dan K-NN, dalam mengklasifikasikan status Kesehatan.
Evaluasi dilakukan dengan menggunakan beberapa metrik yang umum digunakan dalam klasifikasi, yaitu akurasi, presisi, recall, dan F1-score.
Untuk memperoleh metrik evaluasi tersebut, penelitian ini menggunakan confusion matrix sebagai dasar penghitungan.
Dimana, confusion matrix memberikan Gambaran performa klasifikasi berdsarkan empat komponen utama : True Positive (TP).
True Negative (TN).
False Positive (FP), dan False Negative (FN).
Berdasarkan matriks ini, masingmasing metrik dihitung menggunakan rumus sebagai berikut:
Akurasi dimana metrik ini mengukur proporsi prediksi yang benar dari keseluruhan data, dengan ycNycE ycNycA yaycoycycycaycycn = ycNycE ycNycA yaycE yaycA Selanjutnya presisi, metrik in menunjukkan seberapa tepat model dalam mengklasifikasikan data ke dalam kelas positif:
ycNycE ycEycyceycycnycycn = ycNycE yaycE Lalu, recall atau sensitivitas yang menunjukkan seberapa banyak data positif yang berhasil diklasifikasikan dengan benar:
ycNycE ycIyceycaycaycoyco = ycNycE yaycA Terakhir adalah F1-Score adalah harmonic mean antara presisi dan recall, yang digunakan untuk mengukur keseimbangan keduanya :
ycEycyceycycnycycn .
ycIyceycaycaycoyco ya1 = 2.
ycEycyceycycnycycn ycIyceycaycaycoyco Metode evaluasi ini diterapkan pada hasil klasifikasi yang diperoleh dari kedua algoritma, baik nayve bayes maupun K-NN.
Pengolahan data dan evaluasi model dilakukan dengan bantuan platform Google Colaboratory.
Hasil evaluasi dari masing-masing model kemudian dianalisis untuk mengetahui algoritma mana yang memiliki performa lebih baik dalam mengklasifikasikan staus Kesehatan berdasarkan dataset yang digunakan.
Penelitian ini menggunakan dataset yang berisi atribut-atribut Kesehatan pada tabel Kesehatan diatas, serta hasil sebagai label.
Dataset dibagi menjadi dua bagian, 80% sebagai data latih dan 20% sebagai data uji.
Dengan menggunakan dua algoritma, yaitu nayve bayes dan K-NN serta diimplementasikan menggunakan bahasa pemrograman phyton pada platform Google Colaboratory.
Hasil klasifikasi dari dua lagoritma di Halaman - 30 Prosiding Seminar Nasional KARSA NUSANTARA Kolaborasi Rekayasa dan Sains Nasional untuk Teknologi.
Riset, dan Kecerdasan Buatan Fakultas Teknik.
Universitas Wijaya Kusuma Surabaya ISSN 3090-1154 (Media Onlin.
Volume 2.
Tahun 2025 evaluasi menggunakan metrik meliputi: akurasi, presisi, recall dan F1- Score.
Tabel 5.
Berikut menunjukkan hasil evaluasi berdasarkan confusion matrix yang dihasilkan.
Tabel 5.
Hasil Evaluasi Model Naive Bayes dan K-NN Sumber : hasil pengujian model, diolah menggunakan Google Colab Algoritma Akurasi Kelas Presisi Recall F1-Score Naive Bayes K-NN Dari kedua model diatas, naive bayes dan K-NN, keduanya menunjukkan hasil akurasi yang sama, dimana presisi untuk kelas 1 sangat tinggi dikedua model, artinya prediksi positif sangat akurat.
Recall untuk kelas 0 juga sangat tinggi, menunjukkan bahwa mayoritas kelas negatif dikenali dengan baik.
Kelas 1 memiliki recall yang sedikit lebih rendah, menunjukkan bahwa ada beberapa data kelas 1 yang gagal Dari hasil evaluasi model pada tabel diatas, menunjukkan bahwa perbedaan kinerja antara kedua algoritma disebabkan oleh cara kerja masing-masing.
Naive Bayes bekerja berdasarkan probabilitas dan mengasumsikan independensi antar fitur.
Pendekatan ini cocok digunakan apabila fitur-fitur yang digunakan memang saling bebas secara statistik.
Namun dalam praktiknya, banyak atribut kesehatan yang saling berkorelasi, sehingga dapat mempengaruhi akurasi prediksi Naive Bayes.
Disisi lain.
K-NN merupakan algoritma berbasis instance yang mengklasifikasikan data berdasarkan kemiripan .
terhadap tetangga terdekatnya.
Dengan kata lain.
K-NN tidak membuat asumsi terhadap distribusi data, sehingga lebih fleksibel dalam menangani data nyata yang kompleks.
Namun, kekurangan K-NN terletak pada efisiensi komputasinya, karena seluruh dataset perlu disimpan dan dihitung ulang untuk setiap IV.
KESIMPULAN
Penelitian ini bertujuan untuk membandingkan kinerja algoritma nayve bayes dan K-NN dalam mengklasifikasikan status Kesehatan berdasarkan data yang mencakup variable usia, jenis kelamin, serta enam variable lainnya, dengan satu label berupa hasil.
Tujuan tersebut telah tercapai melalui pengitungan algoritma dan hasil pengujian model yang di olah menggunakan Google Colab, dimana kedua algoritma menunjukkan akurasi yang sama.
Artinya, kedua algoritma dapat digunakan secara efektif, tetapi jika data memiliki distribusi normal dan kontinu, nayve bayes bisa menjadi pilihan yang efisien.
Sedangkan K-NN
cocok untuk data yang tidak memerlukan asumsi distribusi dan lebih eksploratif terhadap pola-pola lokal
REFERENSI