Volume 01. No. Juni 2025. Hal. 15 Ae 22 e-ISSN : 3109Ae4163 Prediksi Analitik untuk Penyakit Ginjal Kronis: Perbandingan Metode Machine Learning Krisna Nuresa Qodri*1. Muhammad Rausan Fikri2. Luthfi Ardi3 Program Studi Teknologi Informasi. Fakultas Kesehatan dan Teknologi. Universitas Muhammadiyah Klaten. Klaten Pengadilan Negeri Bangkinang. Kampar EZB Wisata Indonesia. Batam Email: 1krisna@umkla. ABSTRACT Ai Chronic kidney disease (CKD) is a progressive malady defined by reduced glomerular filtration rate, increased urinary albumin excretion or both, and is a major global public health concern with an extremely high unmet medical need. CKD is estimated to occur in 8-16% of the worldwide population and results in a substantially reduced life Early detection and accurate prediction of CKD is crucial to reduce health complications such as hypertension, anemia, and premature death. This study aims to develop CKD prediction models using three machine learning methods: Random Forest. Naive Bayes, and Support Vector Machine, then compare the performance of each method. The dataset used is the CKD dataset from UCI Machine Learning Repository consisting of 400 instances with 24 attributes. Experimental results show that Random Forest achieved 90. 50% accuracy. Naive Bayes achieved the highest accuracy of 94. 21%, while SVM achieved 88. 84% accuracy. The results indicate that Naive Bayes provides the best performance for chronic kidney disease prediction with superior accuracy compared to other methods. This prediction model can assist medical practitioners in early detection and appropriate clinical decision-making for CKD patient management. KEYWORDS Ai business intelligence. data mining. predictive analytics. naive bayes. support vector machine. random forest. chronic kidney disease. INTISARI Ai Penyakit ginjal kronis (CKD) adalah penyakit progresif yang ditandai dengan penurunan laju filtrasi glomerulus, peningkatan ekskresi albumin urin atau keduanya, dan merupakan masalah kesehatan masyarakat global utama dengan beban kesehatan yang sangat tinggi. CKD diperkirakan terjadi pada 8-16% dari populasi dunia dan mengakibatkan harapan hidup yang jauh berkurang. Deteksi dini dan prediksi yang akurat terhadap CKD sangat penting untuk mengurangi komplikasi kesehatan seperti hipertensi, anemia, dan kematian prematur. Penelitian ini bertujuan untuk mengembangkan model prediksi CKD menggunakan tiga metode machine learning yaitu Random Forest. Naive Bayes, dan Support Vector Machine, kemudian membandingkan performa masing-masing metode. Dataset yang digunakan adalah dataset CKD dari UCI Machine Learning Repository yang terdiri dari 400 instance dengan 24 atribut. Hasil eksperimen menunjukkan bahwa Random Forest memperoleh akurasi 90,50%. Naive Bayes memperoleh akurasi tertinggi sebesar 94,21%, sedangkan SVM memperoleh akurasi 88,84%. Hasil penelitian ini menunjukkan bahwa Naive Bayes memberikan performa terbaik untuk prediksi penyakit ginjal kronis dengan tingkat akurasi yang superior dibandingkan metode lainnya. Model prediksi ini dapat membantu tenaga medis dalam melakukan deteksi dini dan pengambilan keputusan klinis yang tepat untuk penanganan pasien CKD. KATA KUNCI Ai business intelligence. data mining. prediksi analitik. naive bayes. support vector machine. random forest. penyakit ginjal kronis. PENDAHULUAN Penyakit ginjal kronis (CKD) merupakan salah satu masalah kesehatan global yang paling serius dan berkembang dengan cepat. Menurut Sustainable Development Goals (SDG. ketiga dari PBB tentang kesehatan dan kesejahteraan yang baik, penyakit tidak menular menjadi tantangan yang berkembang dengan tujuan mengurangi kematian prematur akibat penyakit tidak menular sebesar sepertiga pada tahun 2030 . CKD adalah penyakit progresif yang ditandai dengan penurunan laju filtrasi glomerulus, peningkatan ekskresi albumin urin atau keduanya, dan merupakan masalah kesehatan masyarakat global utama dengan kebutuhan medis yang sangat tinggi . Prevalensi CKD terus meningkat secara global. Statistik menunjukkan bahwa CKD mempengaruhi 10-15% dari populasi global dan menjadi penyebab signifikan morbiditas A Jurnal Keilmuan Teknologi Informasi Volume 01. No. Juni 2025. Hal 15 Ae 22 e-ISSN 3109Ae4163 dan mortalitas dari penyakit tidak menular . Di Indonesia, berdasarkan data Riset Kesehatan Dasar (Riskesda. 2018, prevalensi penyakit ginjal kronis mencapai 3,8% dari total populasi, dengan kecenderungan meningkat seiring bertambahnya usia . Diabetes mellitus diakui sebagai penyebab utama gagal ginjal pada hampir setengah dari semua kasus CKD baru, dan mengingat pandemi diabetes global saat ini, prevalensi komplikasi ginjal akan terus meningkat . Deteksi dini dan prediksi yang akurat terhadap stadium CKD sangat penting untuk meminimalkan dampak komplikasi kesehatan pasien seperti hipertensi, anemia, penyakit kardiovaskular, dan kematian prematur . Penyakit ginjal memerlukan perawatan medis khusus berdasarkan kondisi kronis pasien dari Stadium 1 hingga Stadium 5, dimana prosedur akan bervariasi berdasarkan penyebabnya . Jurnal Keilmuan Teknologi Informasi Volume 01. No. Juni 2025. Hal 15 Ae 22 Perawatan biasanya terdiri dari tindakan untuk membantu mengendalikan tanda dan gejala, mengurangi komplikasi, dan memperlambat perkembangan penyakit . Dalam era digital dan big data saat ini, teknologi machine learning telah menunjukkan potensi besar dalam bidang kesehatan, khususnya untuk prediksi dan diagnosis penyakit . Machine learning dapat membantu mengidentifikasi pola kompleks dalam data medis yang mungkin terlewatkan oleh analisis konvensional . Beberapa penelitian terdahulu telah mengeksplorasi penggunaan berbagai algoritma machine learning untuk prediksi CKD, namun masih terdapat ruang untuk peningkatan akurasi dan efisiensi model . Penelitian terdahulu menunjukkan bahwa metode ensemble learning dan hybrid approaches dapat meningkatkan performa prediksi CKD . Namun, masih terdapat keterbatasan dalam hal perbandingan komprehensif antara metode-metode klasik seperti Random Forest. Naive Bayes, dan Support Vector Machine dengan dataset yang sama dan preprocessing yang konsisten . Selain itu, banyak penelitian yang berfokus pada deteksi penyakit setelah terjadi, namun sedikit yang berkontribusi pada prediksi penyakit sebelum manifestasi klinis . Business intelligence dalam bidang kesehatan merupakan salah satu solusi untuk meningkatkan layanan dan perawatan pasien . Dengan menganalisis data penyakit dari pasien, dokter akan mudah mengambil keputusan dalam pengobatan pasien . Prediksi penyakit ginjal kronis memungkinkan dokter untuk menentukan perawatan yang sesuai dengan stadium penyakit pasien . Dari sisi pasien, mereka akan mengetahui kondisi kesehatan dan perawatan yang harus dilakukan, yang tentunya akan meningkatkan efisiensi perawatan kesehatan dan perawatan pasien . Penelitian ini bertujuan untuk mengembangkan model prediksi CKD menggunakan tiga metode machine learning yang berbeda yaitu Random Forest. Naive Bayes, dan Support Vector Machine, kemudian membandingkan performa masingmasing metode untuk menentukan algoritma yang paling Model prediksi ini akan sangat berguna dalam situasi darurat ketika dokter membutuhkan informasi lebih lanjut terkait pasien untuk memutuskan perawatan selanjutnya . Penelitian ini signifikan untuk dipersiapkan dengan cermat karena dalam situasi darurat terdapat beberapa situasi yang harus dihadapi, seperti kerusakan infrastruktur rumah sakit, kurangnya informasi . isalnya rekam medis hilan. Kontribusi utama penelitian ini adalah: . perbandingan komprehensif tiga metode machine learning populer untuk prediksi CKD. evaluasi performa menggunakan dataset standar dengan preprocessing yang konsisten. analisis mendalam tentang karakteristik setiap algoritma dalam konteks prediksi CKD. rekomendasi praktis untuk implementasi model prediksi CKD di lingkungan klinis. diperoleh menunjukkan bahwa klasifikasi Naive Bayes memiliki hasil 100% akurat sedangkan Artificial Neural Network memiliki akurasi 72,73%. Namun, penelitian ini menggunakan dataset yang relatif kecil dan tidak mempertimbangkan validasi silang yang komprehensif. Penelitian terbaru oleh Kumar et al. mengeksplorasi penggunaan ensemble learning untuk prediksi CKD dan menemukan bahwa kombinasi multiple algorithms dapat meningkatkan akurasi prediksi hingga 96,8%. Studi ini menggunakan dataset yang lebih besar dan teknik feature selection yang lebih canggih, namun tidak memberikan perbandingan mendalam tentang performa individual dari setiap algoritma. Singh et al. mengembangkan framework prediksi CKD menggunakan deep learning dan deep ensemble learning Penelitian ini berfokus pada prediksi kejadian CKD dalam jangka waktu tertentu menggunakan Convolutional Neural Network (CNN). Long Short-Term Memory (LSTM), dan deep ensemble model. Hasil menunjukkan bahwa ensemble model memberikan performa terbaik dengan akurasi 97,2%. Dalam konteks regional, penelitian oleh Khalid et al. menggunakan hybrid machine learning model untuk prediksi CKD dan menemukan bahwa Random Forest merupakan algoritma yang paling efektif dalam ensemble dan stacking classification approach. Penelitian ini menggunakan dataset yang dikumpulkan dari rumah sakit di Asia Selatan dan menunjukkan pentingnya adaptasi model untuk karakteristik populasi lokal. Bakare et al. menerapkan algoritma Multirank untuk memprediksi penyakit asma dengan menggunakan berbagai pendekatan mining untuk data spesifik. Dalam hasil eksperimen, akurasi 80% telah diamati. Penelitian ini memberikan wawasan tentang pentingnya pemilihan algoritma yang tepat untuk jenis penyakit tertentu. Penelitian oleh Sahoo et al. mengamati bahwa akurasi 98% telah ditunjukkan dalam status terkini perawatan kesehatan pasien. Mereka memprediksi penyakit kesehatan dalam bentuk asma dan kanker dengan membangun lingkungan cloud dalam penelitian mereka tentang "Analyzing healthcare big data with prediction for future health condition". Jena et al. mendiagnosis penyakit ginjal kronis menggunakan teknik data mining seperti Support Vector Machine (SVM). J48. Naive Bayes. Multi Layer Perceptron. Conjunctive Rule, dan Decision Table. Alat yang digunakan adalah WEKA dan mereka menganalisis bahwa Multiple Perceptron memiliki hasil yang lebih akurat dibandingkan dengan yang lain untuk mengamati penyakit pada manusia. Penelitian terbaru oleh Rahman et al. mengeksplorasi penggunaan explainable AI untuk prediksi CKD, menggunakan lima metode machine learning yaitu Logistic Regression. Random Forest. Decision Tree. Naive Bayes, dan Extreme Gradient Boosting. Penelitian ini menekankan pentingnya interpretabilitas model dalam konteks klinis. Chaudhary et al. menggunakan algoritma Apriori dan K-means dengan 42 atribut yang terdapat dalam dataset. Mereka memprediksi penyakit gagal ginjal dan penyakit jantung dengan menggunakan alat machine learning seperti statistik atribut dan distribusi untuk menganalisis data. Vijayarani et al. menggunakan teknik klasifikasi seperti Naive Bayes dan Support Vector Machine (SVM) untuk mengevaluasi prediksi penyakit jantung. Hasil mereka menunjukkan bahwa SVM berperforma lebih baik II. TINJAUAN PUSTAKA Beberapa penelitian telah dilakukan dalam bidang prediksi dan deteksi penyakit ginjal kronis menggunakan berbagai pendekatan data mining dan machine learning. Perkembangan teknologi machine learning dalam bidang kesehatan telah membuka peluang baru untuk meningkatkan akurasi prediksi dan diagnosis medis . Sabitha et al. menggunakan klasifikasi data mining bernama Artificial Neural Network (ANN) dan Naive Bayes untuk prediksi dan diagnosis penyakit ginjal kronis. Dalam penelitian ini, alat Rapid Miner digunakan dan hasil yang Jurnal Keilmuan Teknologi Informasi Volume 01. No. Juni 2025. Hal 15 Ae 22 dibandingkan dengan Naive Bayes dalam kasus penyakit Penelitian oleh Noia et al. memprediksi stadium akhir penyakit ginjal yang dikenal sebagai ESKD dengan menerapkan klasifikasi bernama Artificial Neural Network (ANN) yang memeriksa probabilitas stadium akhir dan pada gilirannya mengembangkan alat perangkat lunak untuk Penelitian ini mengeksplorasi sepuluh jaringan dalam 38 tahun dan dapat digunakan sebagai aplikasi ponsel Android dan juga dapat dimanfaatkan sebagai aplikasi web Dalam konteks teknologi terbaru, penelitian oleh Liu et al. mengembangkan sistem berbasis web untuk prediksi progresi dan mortalitas CKD menggunakan machine learning. Sistem ini menggunakan model AI yang dapat memprediksi risiko End-Stage Kidney Disease (ESKD) dan kematian sebelum ESKD dengan akurasi yang tinggi. Solanki et al. menggunakan alat data mining WEKA mengklasifikasikan data sel dalam bentuk komputasi numerik. Penelitian ini memberikan perspektif tentang penggunaan tool yang berbeda untuk analisis data medis. Berdasarkan tinjauan literatur yang telah dilakukan, penelitian ini memiliki beberapa kebaharuan dan kontribusi dibandingkan dengan penelitian-penelitian sebelumnya. Perbandingan Komprehensif: Penelitian ini memberikan perbandingan yang komprehensif antara tiga metode machine learning populer (Random Forest. Naive Bayes, dan SVM) dengan menggunakan dataset yang sama dan preprocessing yang konsisten, berbeda dengan penelitian sebelumnya yang sering menggunakan dataset atau preprocessing yang berbeda. Fokus pada Akurasi Individual: Sementara banyak penelitian terbaru berfokus pada ensemble methods dan hybrid approaches, penelitian ini mengeksplorasi performa individual dari setiap algoritma untuk memberikan pemahaman yang lebih baik tentang karakteristik masing-masing metode. Validasi Menggunakan 10-Fold Cross Validation: Penelitian ini menggunakan 10-fold cross validation yang lebih robust dibandingkan dengan split testing sederhana yang digunakan dalam beberapa penelitian sebelumnya. Konteks Lokal: Penelitian ini memberikan kontribusi untuk konteks Indonesia dengan menggunakan metodologi yang dapat diadaptasi untuk karakteristik populasi lokal. Berdasarkan analisis gap penelitian, masih terdapat kebutuhan untuk penelitian yang memberikan perbandingan yang fair dan komprehensif antara metode-metode klasik machine learning untuk prediksi CKD, terutama dalam konteks praktis implementasi di lingkungan klinis. su : Sugar . ominal in 0,1,2,3,4,. rbc : Red Blood Cells . ormal, abnorma. pc : Pus Cell . ormal, abnorma. pcc : Pus Cell clumps . resent, notpresen. ba : Bacteria . resent, notpresen. bgr : Blood Glucose Random . umerical in mgs/d. bu : Blood Urea . umerical in mgs/d. sc : Serum Creatinine . umerical in mgs/d. sod : Sodium . umerical in mEq/L) pot : Potassium . umerical in mEq/L) -hemo : Hemoglobin . umerical in gm. pcv : Packed Cell Volume . wc : White Blood Cell Count . umerical in cells/cum. rc : Red Blood Cell Count . n millions/cm. htn : Hypertension . es, n. dm : Diabetes Mellitus . es, n. cad : Coronary Artery Disease . es, n. appet : Appetite . ood, poo. pe : Pedal Edema . es, n. ane : Anemia . es, n. class : Classification . kd, notck. Preprocessing Data Sebelum data diproses, dilakukan beberapa langkah preprocessing untuk memastikan kualitas data yang optimal . Proses Tahapan preprocessing dilakukan seperti pada Gambar 1: Gambar 1. Preprocessing data Gambar 1 menunjukkan proses preprocessing data yang digunakan dalam penelitian ini. Penanganan Missing Values: Dilakukan pengecekan nilai yang hilang dan eliminasi data yang tidak lengkap. Dataset asli memiliki beberapa missing values yang ditangani dengan teknik imputasi untuk data numerik dan mode untuk data kategorika. Konversi Data Kategorikal: Data kategorikal dikonversi menjadi numerik menggunakan label encoding untuk memastikan kompatibilitas dengan algoritma machine learning. Normalisasi Data: Data numerik dinormalisasi menggunakan StandardScaler untuk memastikan semua fitur memiliki skala yang sama. Pembagian Dataset: Dataset dibagi menjadi dua kelompok yaitu training dan testing dengan proporsi 70% untuk training dan 30% untuk mempertahankan distribusi kelas. METODOLOGI Pengumpulan Data Dataset yang digunakan dalam penelitian ini dikumpulkan dari UCI Machine Learning Repository berjudul "Chronic Kidney Disease" yang disediakan oleh Dr. Soundarapandian, . M . Dataset ini terdiri dari 400 instance dengan 24 atribut yang dikumpulkan dari pasien di Apollo Hospitals. India. Dataset ini merupakan dataset standar yang sering digunakan dalam penelitian CKD dan telah divalidasi secara klinis . Atribut-atribut dalam dataset mencakup: br : Blood Pressure . umerical in mm/H. sg : Specific Gravity . al : Albumin . ominal in 0,1,2,3,4,. Jurnal Keilmuan Teknologi Informasi Volume 01. No. Juni 2025. Hal 15 Ae 22 Metode Machine Learning Arsitektur Sistem Penelitian ini menggunakan tiga metode machine learning yang berbeda untuk prediksi penyakit ginjal kronis, kemudian membandingkan performa teknik klasifikasi tersebut. Konstruksi metode menjelaskan konstruksi metode yang diusulkan dapat dilihat pada Gambar 2. Support Vector Machine (SVM) Support Vector Machine (SVM) adalah teknik untuk membuat prediksi, baik dalam kasus klasifikasi maupun regresi . SVM termasuk dalam kelas supervised learning yang bekerja dengan mencari hyperplane optimal yang dapat memisahkan dua set data dari dua kelas yang berbeda . Dalam penelitian ini, teknik SVM digunakan untuk menemukan fungsi klasifikasi optimal yang dapat memisahkan dua set data dari dua kelas yang berbeda. Penggunaan teknik machine learning ini karena performanya yang meyakinkan dalam memprediksi kelas dari data baru . Formulasi matematis SVM adalah sebagai berikut: Masalah optimisasi primal untuk mencari optimal margin min AnycAn2 yc. ycuycn yc. Ou1,OAycuycn . dengan constraint: c yc OI. cuycn ) . Ou 1 Oe yuOycn dan yuOycn Ou 0, i = 1. A . N . Gambar 2. Konstruksi metode . Naive Bayes Gambar 2 menunjukkan sistem terdiri dari beberapa tahap Tahap Pengumpulan Data: Melatih dataset Chronic Kidney Disease (CKD) yang terdiri dari 400 instance dan 24 atribut dengan 2 kelas yang dikumpulkan dari UCI machine learning repository. Tahap Preprocessing Data: Normalisasi data dan pemisahan data yang memiliki missing value (NaN). Tahap Pembagian Data: Membagi dataset menjadi dua bagian, yang pertama digunakan untuk training dan yang kedua digunakan untuk testing. Tahap Feature Selection: Metode seleksi fitur BestFirst digunakan untuk memilih subset fitur guna mengurangi jumlah atribut dan waktu training. BestFirst mencari ruang subset fitur dengan greedy hill-climbing yang diperkuat dengan fasilitas backtracking . Tahap Training Model: Model klasifikasi dilatih untuk membuat model prediktif guna memprediksi data yang belum terlihat. Tahap Prediksi: Kelas chronic kidney diprediksi menggunakan data Naive Bayes adalah metode klasifikasi yang berakar pada teorema Bayes . Metode klasifikasi dengan menggunakan metode probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes, yaitu memprediksi peluang masa depan berdasarkan pengalaman sebelumnya sehingga dikenal sebagai Teorema Bayes . Karakteristik utama Naive Bayes Classifier adalah asumsi yang sangat kuat . tentang independensi dari setiap kondisi/kejadian . Formulasi matematis Naive Bayes ycE. = ycE. ca )ycE. Untuk class conditional independence: ycU) = ycE. y ycE. y A y ycE. y ycE. Random Forest Validasi dan Evaluasi Random Forest adalah algoritma machine learning yang fleksibel dan mudah digunakan yang menghasilkan hasil yang bagus bahkan tanpa hyper-parameter tuning . Random Forest merupakan salah satu algoritma yang paling sering digunakan karena kesederhanaannya dan dapat digunakan untuk tugas klasifikasi maupun regresi . Random Forest menambahkan keacakan tambahan pada model sambil menumbuhkan pohon . Alih- alih mencari fitur terpenting saat memisahkan node, algoritma mencari fitur terbaik di antara subset acak dari fitur. Hal ini menghasilkan keragaman yang luas yang umumnya menghasilkan model yang lebih baik . Dalam Random Forest, hanya subset acak dari fitur yang dipertimbangkan oleh algoritma untuk memisahkan node. Pohon dapat dibuat lebih acak dengan menggunakan threshold acak untuk setiap fitur daripada mencari threshold terbaik yang mungkin . Untuk validasi model, penelitian ini menggunakan 10-fold cross validation yang merupakan metode yang robust untuk mengevaluasi performa model machine learning . Dalam 10-fold cross validation, dataset dibagi menjadi 10 bagian yang sama, dimana 9 bagian digunakan untuk training dan 1 bagian untuk testing, proses ini diulang 10 kali dengan bagian testing yang berbeda . Performa model dievaluasi menggunakan beberapa metrik evaluasi yang umum digunakan dalam klasifikasi biner . Akurasi (Accurac. : Tingkat keberhasilan keseluruhan dari klasifikasi yang didefinisikan sebagai: yaycoycycycaycycn = . cNycE ycNycA) . cE ycA) . Jurnal Keilmuan Teknologi Informasi Volume 01. No. Juni 2025. Hal 15 Ae 22 Sensitivitas (Sensitivit. : True positive rate yang didefinisikan sebagai fraksi dari instance positif yang diprediksi dengan benar oleh model: ycIyceycuycycnycycnycycnycyc = ycNycE . cNycE yaycA) untuk memastikan hasil yang robust dan dapat dipercaya. Hasil eksperimen dapat dilihat pada tabel 1. TABEL 1. HASIL PERBANDINGAN PERFORMA Metode . Random Forest Naive Bayes SVM Spesifisitas (Specificit. : True negative rate yang didefinisikan sebagai fraksi dari instance negatif yang diprediksi dengan benar oleh model: Specificity = ycNycA . aycE ycNycA) Sensitivitas (%) Spesifisitas (%) Dari hasil pengujian yang dilakukan menggunakan 10-fold cross validation. Naive Bayes memperoleh akurasi tertinggi 21%, diikuti oleh Random Forest dengan akurasi 50%, dan SVM dengan akurasi 88. Dimana TP adalah true positive. TN adalah true negative. FP adalah false positive. FN adalah false negative. P adalah kelas positif, dan N adalah kelas negatif. Analisis Performa Naive Bayes menunjukkan performa terbaik dengan akurasi Keunggulan Naive Bayes dalam dataset ini dapat dikaitkan dengan asumsi independensi fitur yang cukup sesuai dengan karakteristik data medis CKD . Algoritma ini juga menunjukkan sensitivitas yang tinggi . 56%), yang penting dalam konteks medis karena mengurangi false negative rate . Random Forest memberikan performa yang baik dengan Algoritma ini menunjukkan stabilitas yang baik dan kemampuan menangani overfitting dengan baik melalui ensemble dari multiple decision trees . Spesifisitas Random Forest . 23%) menunjukkan kemampuan yang baik dalam mengidentifikasi pasien yang tidak memiliki CKD. Support Vector Machine memberikan performa yang paling rendah dengan akurasi 88. Hal ini mungkin disebabkan oleh kompleksitas data yang tidak sepenuhnya dapat ditangani oleh kernel RBF, atau memerlukan tuning parameter yang lebih intensif . IV. HASIL DAN PEMBAHASAN Akurasi (%) Dataset Dataset yang digunakan dalam penelitian ini adalah dataset Chronic Kidney Disease (CKD) India yang terdiri dari 400 instance dan 24 atribut dengan 2 kelas yang dikumpulkan dari UCI machine learning repository. Atribut dalam dataset ini terdiri dari dua jenis yaitu atribut numerik dan nominal yang terbagi menjadi 11 atribut numerik dan 14 atribut nominal. Dataset ini dikumpulkan dari pasien di Apollo Hospitals. India, yang memberikan representasi yang baik untuk karakteristik populasi Asia Selatan . Distribusi kelas dalam dataset menunjukkan bahwa 62,5% pasien didiagnosis dengan CKD dan 37,5% tidak memiliki CKD, yang mencerminkan prevalensi CKD dalam populasi klinis . Setelah tahap preprocessing, dataset dibagi menjadi dua kelompok dengan rasio 70% untuk training dan 30% untuk Dataset training terdiri dari 280 instance sedangkan dataset testing terdiri dari 120 instance. Pembagian ini dilakukan dengan stratified sampling untuk mempertahankan distribusi kelas yang seimbang antara dataset training dan testing . Validasi Statistik Untuk memvalidasi signifikansi statistik dari perbedaan performa, dilakukan uji statistik menggunakan McNemar's test . Hasil uji menunjukkan bahwa perbedaan performa antara Naive Bayes dan algoritma lainnya adalah signifikan secara statistik . < 0. Analisis lebih lanjut menggunakan confusion matrix menunjukkan bahwa Naive Bayes memiliki false positive rate yang paling rendah . 51%) dibandingkan dengan Random Forest . 77%) dan SVM . 29%). Dalam konteks medis, false positive rate yang rendah penting untuk menghindari overdiagnosis . Implementasi Model Implementasi ketiga algoritma machine learning dilakukan menggunakan Python dengan library scikit-learn. Setiap algoritma dikonfigurasi dengan parameter yang optimal berdasarkan grid search dan cross validation . Metode random forest dimplementasikan dengan 100 decision trees . _estimators=. , maksimum depth 10, dan random state 42 untuk reproducibility. Pemilihan jumlah tree berdasarkan hasil tuning parameter yang menunjukkan bahwa 100 tree memberikan performa optimal tanpa overfitting . Motode naive bayes digunakan Gaussian Naive Bayes yang sesuai untuk data dengan distribusi kontinu. Metode support vector machine diimplementasikan dengan kernel RBF (Radial Basis Functio. , parameter C=1. 0, dan gamma='scale'. Pemilihan kernel RBF berdasarkan karakteristik data yang tidak linear separable . Algoritma ini tidak memerlukan parameter tuning yang ekstensif karena kesederhanaannya . Interpretasi Hasil Hasil penelitian menunjukkan bahwa Naive Bayes unggul dalam prediksi CKD dengan beberapa faktor yang berkontribusi terhadap performa superior ini: Kesesuaian dengan Karakteristik Data Dataset CKD memiliki fitur-fitur yang relatif independen satu sama lain, yang sesuai dengan asumsi fundamental Naive Bayes tentang independensi fitur . Fiturfitur seperti tekanan darah, kadar glukosa, dan parameter darah lainnya cenderung memiliki korelasi yang tidak terlalu kuat, sehingga asumsi independensi tidak terlalu dilanggar. Hasil Eksperiman . Kemampuan Menangani Data Kategorikal Hasil eksperimen menunjukkan performa yang bervariasi dari ketiga metode machine learning yang digunakan. Eksperimen dilakukan menggunakan 10-fold cross validation Dataset CKD mengandung campuran data numerik dan Naive Bayes menunjukkan kemampuan yang baik dalam menangani kedua jenis data ini secara bersamaan . Jurnal Keilmuan Teknologi Informasi Volume 01. No. Juni 2025. Hal 15 Ae 22 Algoritma ini dapat mengakomodasi variasi dalam jenis data tanpa memerlukan transformasi yang kompleks. Random Forest SVM Robustness terhadap Noise Naive Bayes relatif robust terhadap noise dalam data, yang penting dalam konteks data medis yang seringkali mengandung variabilitas tinggi . Karakteristik ini memungkinkan algoritma untuk tetap memberikan prediksi yang akurat meskipun terdapat beberapa outlier dalam dataset. CKD (Ful. UCI Hasil penelitian menunjukkan bahwa Naive Bayes dalam penelitian ini memberikan performa yang baik dan konsisten dengan penelitian sebelumnya, namun dengan metodologi yang lebih robust menggunakan 10-fold cross validation dan dataset lengkap. Efisiensi Komputasi Selain akurasi yang tinggi. Naive Bayes juga menunjukkan efisiensi komputasi yang baik dengan waktu training yang relatif singkat dibandingkan dengan Random Forest dan SVM . Hal ini penting untuk implementasi praktis dalam lingkungan klinis. Hasil penelitian memiliki beberapa implikasi penting untuk praktik klinis: Deteksi Dini Model prediksi dengan akurasi tinggi dapat membantu dalam deteksi dini CKD, memungkinkan intervensi yang lebih cepat dan efektif . Deteksi dini sangat penting karena CKD stadium awal seringkali asimptomatik. Performa Random Forest yang baik . 50%) dapat dikaitkan dengan kemampuannya dalam menangani overfitting dan memberikan prediksi yang stabil . Namun, kompleksitas model yang tinggi membuatnya memerlukan computational resources yang lebih besar dibandingkan Naive Bayes. SVM dengan kernel RBF menunjukkan performa yang paling rendah, yang mungkin disebabkan oleh beberapa faktor: sensitivitas terhadap parameter tuning, . karakteristik data yang tidak sepenuhnya cocok dengan kernel RBF, dan . kompleksitas yang tinggi untuk dataset berukuran sedang . Decision Support System Model dapat diintegrasikan dalam sistem pendukung keputusan klinis untuk membantu dokter dalam diagnosis dan perencanaan pengobatan . Sistem ini dapat memberikan second opinion yang objektif berdasarkan data laboratorium. Screening Program Model dapat digunakan dalam program screening populasi untuk mengidentifikasi individu dengan risiko tinggi CKD, terutama pada populasi dengan faktor risiko seperti diabetes dan hipertensi . Analisis Feature Importance Analisis feature importance dilakukan untuk memahami kontribusi relatif dari setiap fitur terhadap prediksi CKD. Hasil analisis menunjukkan bahwa fitur-fitur yang paling berkontribusi adalah: Serum Creatinine . : Fitur ini menunjukkan importance score tertinggi karena merupakan indikator langsung fungsi ginjal . Blood Urea . : Kadar urea dalam darah merupakan indikator penting untuk menilai fungsi ginjal . Specific Gravity . : Mengindikasikan kemampuan ginjal untuk mengkonsentrasi urin . Albumin . : Keberadaan albumin dalam urin merupakan tanda awal kerusakan ginjal . Hemoglobin . : Anemia sering terjadi pada pasien CKD karena penurunan produksi eritropoietin . Resource Allocation Prediksi yang akurat dapat membantu dalam alokasi sumber daya kesehatan yang lebih efisien, dengan fokus pada pasien yang benar-benar memerlukan perhatian medis intensif . KESIMPULAN Penelitian ini telah berhasil mengembangkan dan membandingkan tiga model machine learning untuk prediksi penyakit ginjal kronis menggunakan dataset UCI Machine Learning Repository. Hasil eksperimen menunjukkan bahwa Naive Bayes memberikan performa terbaik dengan akurasi 21%, sensitivitas 95. 56%, dan spesifisitas 91. 49%, diikuti oleh Random Forest dengan akurasi 90. 50% dan SVM dengan Keunggulan Naive Bayes dalam prediksi CKD dapat dikaitkan dengan kesesuaian asumsi independensi fitur dengan karakteristik data medis, kemampuan menangani data campuran numerik dan kategorikal, serta robustness terhadap noise dalam data. Model prediksi yang dikembangkan dapat membantu tenaga medis dalam melakukan deteksi dini dan pengambilan keputusan klinis yang tepat untuk penanganan pasien CKD. Penelitian ini memberikan kontribusi dalam bentuk perbandingan komprehensif tiga metode machine learning populer dengan metodologi yang robust menggunakan 10-fold cross validation. Hasil penelitian menunjukkan bahwa pemilihan algoritma yang tepat sangat penting untuk mencapai performa prediksi yang optimal dalam konteks medis. Pada mengeksplorasi ensemble methods yang menggabungkan Perbandingan dengan Penelitian Sebelumnya Perbandingan hasil penelitian ini dengan penelitian sebelumnya menunjukkan bahwa performa yang dicapai kompetitif dan dalam beberapa kasus superior. Tabel 2 menunjukkan perbandingan dengan penelitian terdahulu: TABEL 2. PERBANDINGAN HASIL PENELTIAN Penelitian Sabitha et al. Kumar et al. Singh et al. Khalid et al. Penelitian ini Metode Naive Bayes ANN Ensemble Akurasi (%) Deep Ensemble Random Forest Naive Bayes Implikasi Klinis Dataset CKD UCI (Subse. CKD UCI (Extende. CKD UCI (Modifie. Local Dataset Jurnal Keilmuan Teknologi Informasi Volume 01. No. Juni 2025. Hal 15 Ae 22 mengimplementasikan deep learning approaches untuk menangani kompleksitas yang lebih tinggi dalam data medis. Selain itu, validasi menggunakan dataset yang lebih besar dan beragam akan meningkatkan generalisasi model untuk populasi yang berbeda. REFERENSI