v3i1.
https://pub.
id/sainsdata Sains Data Jurnal Studi Matematika dan Teknologi ISSN 2986-903X Klasifikasi Penyakit Hepatitis C dengan Menggunakan K-Nearest Neighbor Fathul Qorib Yusfila1*.
Bain Khusnul Khotimah2 Devie Rosa Anamisa3.
Ana Tsalitsatun NiAomah4 1,2,3 Teknik Informatika.
Universitas Trunojoyo Madura.
Indonesia 4 Pendidikan Informatika.
Universitas Trunojoyo Madura.
Indonesia Jl.
Raya Telang.
PO BOX 2.
Kamal.
Bangkalan - 69162 E-mail: 190411100041@student.
id , bain@trunojoyo.
devros_gress@trunojoyo.
id, ana.
tsalits@trunojoyo.
DOI : https://doi.
org/10.
52620/sainsdata.
ABSTRAK
Hepatitis merupakan kondisi peradangan pada hati yang disebabkan oleh berbagai jenis virus, baik yang menular maupun tidak menular, dan dapat menimbulkan komplikasi serius hingga Terdapat lima tipe utama virus hepatitis, yaitu A.
D, dan E.
Penelitian ini bertujuan untuk mengklasifikasikan penyakit Hepatitis C menggunakan algoritma K-Nearest Neighbor (KNN) dengan pendekatan penanganan data tidak seimbang melalui teknik Random Oversampling.
Dataset yang digunakan adalah HCV dari UCI Machine Learning Repository, yang terdiri dari 615 data dengan 14 fitur dan 5 kategori kelas.
Karena data bersifat tidak seimbang, dilakukan peningkatan jumlah data pada kelas minoritas menggunakan Random Oversampling.
Proses evaluasi dilakukan dengan membandingkan performa KNN tanpa dan dengan oversampling, serta menentukan nilai K terbaik melalui skenario pengujian menggunakan 5-fold Cross Validation.
Hasil menunjukkan bahwa KNN tanpa oversampling menghasilkan akurasi tertinggi sebesar 94% pada nilai K=3, sementara dengan oversampling akurasi meningkat menjadi 96,70% pada nilai K yang sama.
Dengan demikian, dapat disimpulkan bahwa penerapan Random Oversampling mampu meningkatkan performa klasifikasi algoritma KNN pada data Hepatitis C yang tidak seimbang.
Kata Kunci: Hepatitis C.
K-Nearest Neighbor, klasifikasi.
Random Oversampling.
Cross Validation.
ABSTRACT
Hepatitis is a liver inflammation condition caused by various types of viruses, both infectious and non-infectious, which can lead to serious complications and even death.
There are five main types of hepatitis viruses: A.
D, and E.
This study aims to classify Hepatitis C using the K-Nearest Neighbor (KNN) algorithm with a handling approach for imbalanced data through the Random Oversampling technique.
The dataset used is the HCV dataset from the UCI Machine Learning Repository, consisting of 615 records with 14 features and 5 class categories.
Due to the imbalance in the data, the minority classes were increased using Random Oversampling.
The evaluation process was carried out by comparing the performance of KNN with and without oversampling, as well as determining the optimal value of K through test scenarios using 5-fold Cross Validation.
The results show that KNN without oversampling achieved the highest accuracy of 94% at K=3, while with oversampling, the accuracy increased to 96.
70% at the same K value.
Thus, it can be concluded that the application of Random Oversampling enhances the classification performance of the KNN algorithm on imbalanced Hepatitis C data.
Keywords: Hepatitis C.
K-Nearest Neighbor.
Classification.
Random Oversampling.
Cross Validation.
This work is licensed under a Creative Commons Attribution 4.
0 International License A 2025 Author .
https://pub.
id/sainsdata Sains Data Jurnal Studi Matematika dan Teknologi ISSN 2986-903X
PENDAHULUAN
Hepatitis merupakan penyakit peradangan pada hati yang disebabkan oleh berbagai jenis virus, baik yang bersifat menular maupun tidak menular, yang dapat menimbulkan masalah kesehatan serius hingga berakibat fatal.
Terdapat lima tipe utama virus hepatitis, yaitu A.
D, dan E.
Di antara kelima tipe tersebut, virus hepatitis B dan C berpotensi menyebabkan sirosis dan kanker hati, yang menjadi penyakit kronis pada ratusan juta orang di dunia dan merupakan salah satu penyebab utama kematian.
Saat ini, tercatat sekitar 354 juta orang di dunia hidup dengan infeksi hepatitis B atau C .
Hepatitis C terutama ditularkan melalui jalur parenteral, seperti penggunaan jarum suntik secara bergantian atau melalui transfusi darah.
Sebaliknya, penularan melalui hubungan seksual tergolong jarang terjadi .
Salah satu upaya penanganan terhadap infeksi virus hepatitis C adalah dengan terapi antivirus langsung (Direct-Acting Antiviral / DAA).
Terapi ini menunjukkan tingkat kesembuhan yang tinggi dan memiliki tingkat toleransi yang baik.
DAA
terdiri dari kombinasi dua atau lebih obat yang dikonsumsi secara oral, sehingga lebih praktis dibandingkan terapi injeksi.
Penggunaan DAA mempertimbangkan genotipe dan kondisi sirosis pasien, serta memerlukan perhatian khusus untuk penderita hepatitis C dengan komorbid seperti HIV atau hepatitis B, pasien yang menjalani transplantasi organ dan jaringan, anak-anak, serta wanita hamil .
Seiring berkembangnya teknologi, pemanfaatan data mining menjadi penting dalam mendukung proses diagnosis dan klasifikasi penyakit.
Data mining merupakan proses ekstraksi informasi yang tersembunyi dan potensial dari sejumlah besar data, serupa dengan proses analisis yang dilakukan oleh analis data .
Salah satu metode dalam data mining adalah klasifikasi, yaitu proses membangun model untuk memetakan data ke dalam kelas-kelas yang telah ditentukan sebelumnya.
Beberapa algoritma yang umum digunakan untuk klasifikasi antara lain Naive Bayes.
Support Vector Machine, dan K-Nearest Neighbor (KNN).
Algoritma KNN bekerja dengan cara mencari sejumlah K data terdekat dari data baru yang akan diklasifikasikan, lalu menentukan kelas data tersebut berdasarkan mayoritas tetangga terdekatnya .
Beberapa penelitian sebelumnya telah membandingkan performa algoritma KNN dengan algoritma lainnya.
Penelitian oleh .
menunjukkan bahwa algoritma Gaussian Naive Bayes menghasilkan akurasi sebesar 90,98%, presisi 69,91%, dan recall 61,57%, sementara KNN menunjukkan akurasi yang lebih tinggi yaitu 91,80%, dengan presisi 68,96% dan recall 51,85%.
Penelitian lain oleh .
menyimpulkan bahwa baik Naive Bayes maupun KNN mampu mengklasifikasikan penyakit hati dengan baik.
Dalam penelitian tersebut.
Naive Bayes mencatat akurasi, presisi, dan recall sebesar 85,5%, sedangkan KNN menunjukkan hasil sempurna dengan akurasi, presisi, dan recall masing-masing sebesar 100%.
Berdasarkan latar belakang tersebut, penelitian ini bertujuan untuk menganalisis dan membandingkan performa algoritma KNN dalam mengklasifikasikan penyakit Hepatitis C sebelum dan sesudah dilakukan proses resampling menggunakan teknik Random Oversampling.
Dataset yang digunakan merupakan data multivariat dari UCI Machine Learning Repository, yang terdiri atas 14 fitur dan 5 kategori kelas.
Penelitian ini dilakukan dengan menggunakan bahasa pemrograman Python, pengukuran performa model menggunakan Confusion Matrix, serta validasi model melalui metode K-Fold Cross Validation.
https://pub.
id/sainsdata Sains Data Jurnal Studi Matematika dan Teknologi ISSN 2986-903X
METODE
Rancangan sistem klasifikasi Hepatitis C yang digunakan pada penelitian ini yaitu digambarkan dalam bentuk IPO (Input,Process,Outpu.
yang ditunjukan pada gambar 1.
Gambar 1.
Rancangan Sistem Klasifikasi Hepatitis C Preprocessing Preprocessing pada penelitian ini terdapat 3 tahap yaitu:
Data Transformation Data Transformation atau transformasi data adalah metode yang digunakan untuk merubah data dengan tipe kategorikal menjadi tipe data numerik.
Mean Imputation Mean Imputation atau imputasi rata rata adalah Teknik pengisian data yang hilang dengan menghitung rata rata nilai dari variabel yang sama.
rumus Mean Imputation tesebut yaitu.
Keterengan:
= mean = jumlah seluruh data nilai = jumlah seluruh frekuensi Z-Score Normalization Data kemudian di normalisasi menggunakan Z-Score Normalization di mana konsep dari normalisasi ini yang berdasarkan nilai mean atau nilai rata-rata dan Standart Deviation .
eviasi standar.
dari data.
Metode ini sangat berguna jika tidak diketahui nilai aktualisasi maksimum dan minimum pada data.
Rumus Z-Score Normalization sebagai berikut:
Keterangan :
= nilai baru dari normalisai data = nilai lama = nilai populasi mean = nilai standart deviasi https://pub.
id/sainsdata Sains Data Jurnal Studi Matematika dan Teknologi ISSN 2986-903X Random Oversampling Random Oversampling (ROS) adalah metode resampling kelas minoritas dalam data secara acak, kemudian data yang dipilih diduplikasi dan ditambahkan ke dataset training baru sehingga jumlah kelas minoritas sama dengan kelas mayoritas.
K-Nearest Neighbor K-Nearest Neighbor (KNN) melakukan klasifikasi data objek berdasarkan jumlah K dari data pelatihan terdekat.
Tujuan dari klasifikasi ini adalah untuk mengklasifikasikan objek baru berdasarkan atribut data sampel yang ada dalam data Training.
Dalam metode KNN, langkahlangkah yang dilakukan adalah menentukan parameter K atau jumlah tetangga terdekat, menghitung jarak antara pasangan data menggunakan metrik jarak Euclidean Distance.
Setelah jarak dihitung, hasil pengukuran jarak diurutkan secara menaik dari nilai jarak terkecil hingga Langkah selanjutnya adalah mengelompokkan berdasarkan target klasifikasi dan menentukan kelas dengan menggunakan nilai K yang telah ditentukan sebelumnya.
Kelas akan ditentukan berdasarkan mayoritas nilai K yang akan menentukan kelas tersebut .
Adapun Langkah Langkah pada algoritma KNN sebagai berikut:
Tentukan K untuk jumlah tetangga.
Hitung jarak menggunakan Euclidean Distance antara data Training dan data Testing.
Jarak Euclidean dapat dilihat dari persamaan berikut .
Urutkan jarak dan indeks yang terurut dari terkecil ke terbesar berdasarkan perhitungan Tentukan K dari data terdekat.
Tentukan kelompok Testing berdasarkan label mayoritas pada K.
K-Fold Cross Validation K-fold Cross Validation adalah salah satu bentuk Cross Validation yang sering digunakan.
Metode ini membagi data menjadi k subset, kemudian dilakukan proses pelatihan sebanyak k kali.
Pada setiap iterasi, k-1 subset digunakan sebagai data pelatihan, sementara subset yang tersisa digunakan sebagai data validasi.
Confusion Matrix Confusion Matrix adalah sebuah tabel klasifikasi yang berisi informasi hasil perhitungan secara keseluruhan.
Tabel ini digunakan untuk mengevaluasi pengukuran melalui akurasi, presisi, dan recall.
Untuk memudahkan pembacaan, hasil evaluasi tersebut direpresentasikan dalam bentuk tabel klasifikasi.
Tabel 1.
Confusion Matrix Nilai Prediksi Positif Negatif Nilai sebenarnya Benar TP .
enar positi.
TN .
enar negati.
Salah FP .
alah positi.
FN .
alah negati.
Pada Confusion Matrix terdapat 4 istilah sebagai representasi hasil proses klasifikasi yaitu True Positive (TP).
False Positive (FP).
True Negatif (TN) dan False Negatif (FN).
Akurasi mengukur persentase hasil klasifikasi sistem yang tepat.
Presisi adalah ukuran akurasi untuk kelas tertentu, sedangkan recall mengindikasikan persentase data yang diklasifikasikan sebagai positif dari keseluruhan data yang sebenarnya positif .
Adapun rumus nya sebagai berikut:
https://pub.
id/sainsdata Sains Data Jurnal Studi Matematika dan Teknologi ISSN 2986-903X Akurasi Presisi Recall .
Di mana :
TP AuTrue PositiveAy, yaitu jumlah data positif yang diklasifikasikan dengan benar oleh sistem.
TN AuTrue NegatifAy, yaitu jumlah data negatif yang diklasifikasikan dengan benar oleh sistem.
FP AuFalse PositiveAy, yaitu jumlah data positif tetapi diklasifikasikan salah oleh sistem.
FN AuFalse NegatifAy, yaitu jumlah data negatif tetapi diklasifikasikan salah oleh sistem.
HASIL DAN PEMBAHASAN
Perbandingan hasil akurasi dari percobaan K-nearest = 3,5,7, dan 9 pada KNN tanpa menggunakan oversampling dapat dilihat pada tabel 2 dibawah ini.
Tabel 2.
Perbandingan K-nearest = 3,5,7, dan 9 pada KNN
Knearest
Metode KNN
KNN
KNN
KNN
Model Evaluasi Akurasi Presisi Recall 46% 99.
65% 100%
02% 100%
22% 100%
Prediksi Kelas prediksi 0=Blood Donor 1=Hepatitis 2=Fibrosis 3=Cirrhosis 0=Blood Donor 1=Hepatitis 2=Fibrosis 3=Cirrhosis 0=Blood Donor 1=Hepatitis 2=Fibrosis 3=Cirrhosis 0=Blood Donor 1=Hepatitis 2=Fibrosis 3=Cirrhosis Waktu .
Hasil akurasi dari KNN dengan K-nearest = 3,5,7, dan 9 dengan pembagian data menggunakan 5fold Cross Validation dapat dilihat pada gambar 2 dibawah ini.
https://pub.
id/sainsdata Sains Data Jurnal Studi Matematika dan Teknologi ISSN 2986-903X Gambar 2.
Grafik rata-rata akurasi pada KNN dengan 5-fold Cross Validation Grafik diatas jika disimpulkan berdasarkan hasil rata rata akurasi dapat dilihat pada tabel 3 dibawah ini.
Tabel 1.
Rata-rata akurasi KNN K-fold K-nearest-3 k-fold 1 k-fold 2 k-fold 3 k-fold 4 k-fold 5 K-nearest5 K-nearest7 K-nearest9 Rata-rata Pada tabel diatas dapat dilihat bahwa pembagian data dengan 5-fold Cross Validation diperoleh hasil rata-rata akurasi model yang berbeda.
Pada k-fold = 1, model memperoleh ratarata akurasi tertinggi sebesar 93%, menunjukan kinerja yang sangat baik.
Namun, akurasi tersebut mengalami penurunan pada k-fold = 2 dengan nilai sebesar 86%.
Peningkatan kembali terjadi pada k-fold = 3 dengan nilai rata-rata akurasi sebesar 90%, menunjukan pembagian dataset menjadi tiga subset memberikan dampak kontribusi positif terhadap performa model.
Selanjutnya k-fold = 4, k-fold = 5 menunjukan akurasi sebesar 93% dan 89% secara berturutturut.
Meskipun terdapat kenaikan pada k-fold = 4, hasil ini menunjukan bahwa model memiliki kemampuan yang baik untuk menggeneralisasi pada data yang tidak terlihat selama proses Perbandingan hasil akurasi dari percobaan K-nearest = 3,5,7, dan 9 pada KNN menggunakan oversampling dapat dilihat pada tabel 4.
10 dibawah ini.
https://pub.
id/sainsdata Sains Data Jurnal Studi Matematika dan Teknologi ISSN 2986-903X Tabel 4.
Perbandingan K-nearest = 3,5,7, dan 9 pada KNN oversampling Model Evaluasi
Kneare Metode KNN
KNN
KNN
KNN
Akura Presisi Recall Prediksi Kelas prediksi 0=Blood Donor 1=Hepatitis 2=Fibrosis 3=Cirrhosis 0=Blood Donor 1=Hepatitis 2=Fibrosis 3=Cirrhosis 0=Blood Donor 1=Hepatitis 2=Fibrosis 3=Cirrhosis 0=Blood Donor 1=Hepatitis 2=Fibrosis 3=Cirrhosis Waktu .
Hasil akurasi dari KNN oversampling dengan K-nearest = 3,5,7, dan 9 dengan pembagian data menggunakan 5-fold Cross Validation dapat dilihat pada gambar 3 dibawah ini.
Gambar 3.
Grafik rata-rata akurasi pada KNN oversampling dengan 5-fold Cross Validation Grafik diatas jika disimpulkan berdasarkan hasil rata rata akurasi dapat dilihat pada tabel 5 dibawah ini.
https://pub.
id/sainsdata Sains Data Jurnal Studi Matematika dan Teknologi ISSN 2986-903X Tabel 5.
rata-rata KNN oversampling K-nearestK-nearestk-fold k-fold 1 k-fold 2 k-fold 3 k-fold 4 k-fold 5 K-nearest7 K-nearest9 Rata-rata Pada tabel diatas dapat dilihat bahwa pembagian data dengan 5-fold Cross Validation diperoleh hasil rata-rata akurasi model yang bervariasi.
Pada k-fold = 1 model mencapai akurasi tertinggi dengan nilai 96%, menunjukan kemampuan model untuk memberikan prediksi yang tepat jika diuji pada subset tertentu.
Namun, pada k-fold = 2 mengalami penurunan akurasi pada model sebesar 87%, yang mungkin disebabkan oleh variasi data yang kurang representatif dalam dua subset.
Peningkatan kembali terjadi pada k-fold = 3 dengan rata-rata akurasi sebesar 89%, menunjukan bahwa pembagian dataset menjadi 3 subset dapat meningkatkan generalisasi Ketika k-fold = 4 rata-rata akurasi mengalami peningkatan kembali menjadi 92% yang menandakan bahwa lebih banyak subset dalam proses cross validation dapat meningkatkan kinerja model.
Pada k-fold = 5 rata-rata akurasi mencapai 89% menunjukan hasil yag baik meskipun mengalami penurunan akurasi.
SIMPULAN
Berdasarkan hasil penelitian yang telah dilakukan, diperoleh perbandingan performa algoritma K-Nearest Neighbor (KNN) dalam mengklasifikasikan data Hepatitis C sebelum dan sesudah diterapkan metode Random Oversampling.
KNN tanpa oversampling menghasilkan akurasi tertinggi sebesar 94% pada nilai K-nearest = 3.
Setelah diterapkan Random Oversampling, akurasi meningkat menjadi 97% pada nilai K-nearest yang sama.
Peningkatan akurasi sebesar 3% ini menunjukkan bahwa metode oversampling efektif dalam menangani ketidakseimbangan data .
mbalanced dat.
dan meningkatkan kinerja model klasifikasi.
Selain itu, variasi akurasi yang diperoleh dari setiap pengujian menunjukkan bahwa pembagian data menggunakan k-fold cross validation turut memengaruhi hasil klasifikasi.
Oleh karena itu, pemilihan nilai k-fold yang tepat sangat penting untuk memperoleh hasil yang optimal dan Saran Meskipun hasil klasifikasi menggunakan algoritma KNN menunjukkan performa yang cukup baik, penelitian ini masih memiliki keterbatasan, salah satunya adalah dominasi satu kelas dalam hasil klasifikasi, baik sebelum maupun sesudah diterapkannya metode Hal ini kemungkinan besar disebabkan oleh proses pembagian data secara acak melalui k-fold cross validation serta pemilihan metode resampling yang belum sepenuhnya sesuai dengan karakteristik data.
Untuk penelitian selanjutnya, disarankan untuk mengeksplorasi metode pembagian data dan teknik resampling lain yang lebih sesuai, seperti SMOTE (Synthetic Minority Over-sampling Techniqu.
atau stratified sampling, guna mengurangi dominasi kelas dan meningkatkan generalisasi model.
Selain itu, dapat pula dilakukan perbandingan dengan algoritma klasifikasi lain seperti Random Forest.
Support Vector Machine, atau XGBoost untuk memperoleh wawasan yang lebih komprehensif terkait performa klasifikasi data Hepatitis C.
https://pub.
id/sainsdata Sains Data Jurnal Studi Matematika dan Teknologi ISSN 2986-903X
DAFTAR PUSTAKA