Prediksi penyakit ginjal kronis dengan metode pengurangan fitur Symmetrical Uncertainty Muhamad Kurniawan1 Program Magister Teknik Informatika Program Pascasarjana Universitas Amikom Yogyakarta Jl. Ring Road Utara. Condong Catur. Sleman. Yogyakarta 55283 17@students. Abstrak Data mining berhubungan dengan pencarian data untuk menemukan pola atau pengetahuan dari data keseluruhan. Data mining dapat digunakan untuk memprediksi suatu keadaan, seperti apakah seseorang terkena penyakit ginjal kronis atau tidak. Dalam penelitian ini metode pengurangan fitur symmetrical uncertainty dengan algoritma klasifikasi Gradient Boosting. Random Forest. Support Vector Machine, dan Nayve Bayes digunakan untuk memprediksi penyakit ginjal Jumlah atribut yang diklasifikasi adalah 24, 12, 6, 5, dan 4 atribut. Peningkatan nilai akurasi didapatkan pada pengurangan atribut dari 24 ke 12 dengan algoritma Nayve Bayes. Selain itu, diperoleh Support Vector Machine memiliki akurasi terbaik pada semua jumlah atribut, diikuti Gradient Boosting. Random Forest, dan Nayve Bayes. Pada klasifikasi 5 atribut, terlihat algoritma Support Vector Machine dan Gradient Boosting masih memiliki akurasi 1. Kelima atribut tersebut antara lain: hemoglobin, packed cell volume, serum creatinine, albumin, dan specifity gravity. Pengurangan atribut dapat meningkatkan akurasi dan dapat memudahkan proses prediksi karena jumlah atribut lebih sedikit. Kata Kunci gradient boosting. SVM, pengurangan dimensi, sistem pendukung keputusan Pendahuluan Seiring dengan cepatnya perkembangan teknologi disemua bidang baik dari sektor pendidikan, pemerintahan, pertanian, dan khususnya kesehatan, teknologi dapat memberikan informasi yang cepat dan akurat baik untuk tim kesehatan, dokter, bahkan untuk pasien sendiri agar lebih mudah mengontrol kondisi kesehatan mereka. Berbagai rumah sakit menghasilkan data pasien dengan jumlah yang besar tiap tahunnya. Dengan teknologi, data tersebut dapat diolah untuk memperoleh pengetahuan baru yang bermanfaat di bidang kesehatan. Penyakit ginjal kronis (PGK) merupakan penyakit yang belakangan ini mencuat sebagai persoalan kesehatan selain penyakit jantung. Pada tahun 1990, penyakit ginjal berada pada peringkat 27 sebagai penyebab kematian, kemudian pada tahun 2010 meningkat menjadi peringkat ke-18 . Di Indonesia sendiri, penyakit ginjal kronis berada pada peringkat ke-2 dalam pembiayaan Badan Penyelenggara Jaminan Sosial (BPJS) terbesar setelah penyakit jantung . PGK adalah kondisi saat fungsi ginjal menurun secara bertahap karena kerusakan Secara medis, penyakit ginjal kronis didefinisikan sebagai penurunan laju penyaringan atau filtrasi ginjal selama 3 bulan atau lebih. Pada kondisi penyakit ginjal kronis, cairan dan elektrolit, serta limbah dapat menumpuk dalam tubuh. Gejala dapat terasa lebih jelas saat fungsi ginjal sudah semakin menurun. Pada tahap akhir PGK, kondisi penderita dapat berbahaya jika tidak ditangani dengan terapi pengganti ginjal, salah satunya cuci darah. Data mining berhubungan dengan pencarian data untuk menemukan pola atau pengetahuan dari data keseluruhan. Pengklasifikasian suatu keadaan, seperti apakah seseorang terkena A Muhamad Kurniawan. licensed under Creative Commons License CC-BY Jurnal Open Access Yayasan Lentera Dua Indonesia Prediksi penyakit ginjal kronis dengan metode pengurangan fitur Symmetrical Uncertainty penyakit ginjal kronis atau tidak dapat dilakukan dengan data mining. Pada proses klasifikasi tidak terlepas dengan adanya suatu error atau kesalahan, oleh karena itu, banyak ilmuwan yang melakukan penelitian untuk meningkatkan tingkat akurasi dari proses ini. Penelitian memprediksi penyakit ginjal kronis, telah banyak dilakukan dengan membandingkan beberapa metode klasfikasi untuk memperoleh metode dengan akurasi terbaik . namun masih sedikit yang memperhitungkan metode pre-processing pada Metode pengurangan dimensi merupakan salah satu pre-processing yang mana pada beberapa penelitian disebutkan terbukti mampu meningkatkan hasil akurasi . Pada penelitian ini digunakan metode pengurangan fitur, yaitu Symmetrical Uncertainty. Hasil dari pengurangan dimensi kemudian diklasifikasi dengan metode Gradient Boosting. Random Forest. Support Vector Machine (SVM) dan Nayve Bayes. Simulasi model pada penelitian ini menggunakan bahasa pemrograman R. Penelitian terkait Tangri, dkk melakukan penelitian dengan membangun dan melakukan validasi model prediksi dari 2 cohort pasien dengan penyakit ginjal kronis stadium 3 sampai 5. Model dibangun menggunakan Cox proportional hazard regression dan dievaluasi dengan C-statistics . Model yang dibangun dapat memprediksi dengan cukup akurat penyakit ginjal kronis pada stadium 3 sampai 5. Pada penelitiannya. Di Noia, dkk. menyajikan sebuah perangkat lunak yang dapat mengklasifikasi status kesehatan pasien berpotensi terkena penyakit ginjal stadium akhir . Perangkat lunak yang digunakan menggunakan algoritma jaringan syaraf buatan yang di latih dengan data yang dikumpulkan selama 38 tahun di Universitas Bari. Perangkat lunak tersedia dalam betuk aplikasi web atau aplikasi android. Kemudian S. Vijayarani, dkk. melakukan penelitian prediksi penyakit ginjal kronis dengan algoritma klasifikasi Nayve Bayes dan SVM . Penelitian ini fokus pada membandingkan akurasi dan waktu eksekusi pada kedua algoritma tersebut . Hasil penelitian tersebut didapat bahwa algoritma SVM lebih baik dari pada Nayve Bayes. Selain itu. Jena, dkk. melakukan penelitian dengan memprediksi penyakit kronis ginjal menggunakan aplikasi WEKA . Algoritma yang digunakan adalah Nayve Bayes. Multilayer Perceptron. SVM. J48. Conjunctive Rule, dan Decision Table. Berbeda dengan penelitian yang dilakukan oleh S. Vijayarani, pada penelitian ini algoritma Nayve Bayes memiliki akurasi yang lebih baik dibandingkan SVM. Kemudian akurasi terbaik diperoleh dengan menggunakan algoritma Multilayer Perceptron. Pada penelitian lainnya. Asif Salekin dkk. algoritma klasifikasi K-NN. Random Forest, dan Neural Network untuk memprediksi penyakit ginjal kronis . Selain itu, untuk mengurangi overfitting dan menentukan atribut prediktif, mereka melakukan pengurangan fitur dengan metode wrapper dan regularisasi LASSO. Diperoleh bahwa algoritma Random Forest dengan klasifikasi atribut sebanyak 12 memiliki akurasi tertinggi, yaitu 0. 998 dengan F1-measure. Metodologi Dataset percobaan Dataset penyakit ginjal yang digunakan diambil dari UCI Machine Learning Repository tersebut berasal dari rumah sakit Appolo. India yang terdiri dari 25 atribut dan 400 baris, seperti yang ditunjukan dalam tabel 1. Muhamad Kurniawan Tabel 1 Tabel dataset Atribut Umur Tekanan darah Specific gravity Albumin Sugar Red blood cells Pus cell Pus cell clumps Bacteria Blood glucose random Blood urea Nilai / Satuan Atribut Tahun mm/Hg . 005,1. 010,1. 015,1. 020,1. ,1,2,3,4,. ,1,2,3,4,. ormal,abnorma. ormal,abnorma. resent,notpresen. resent,notpresen. mgs/dl mgs/dl Serum creatinine Sodium Potassium Hemoglobin mgs/dl mEq/L mEq/L Gms Packed cell volume White blood cell count Red blood cell count cells/cmm millions/cmm Hypertension Diabetes mellitus Coronary artery disease Appetite Pedal edema Anemia . es,n. es,n. es,n. ood,poo. es,n. es,n. Class . kd,notck. Keterangan Kadar urea yang tinggi dalam darah dapat menunjukkan adanya masalah pada ginjal . Studi memperlihatkan bahwa orang yang terkena penyakit ginjal kronis memiliki hemoglobin yang rendah . Studi memperlihatkan bahwa orang yang terkena penyakit ginjal kronis memiliki red blood cell count yang rendah . Beberapa studi memperlihatkan orang yang terkena penyakit ginjal kronis juga mengalami anemia . Untuk mengisi nilai missing value, digunakan metode multiple imputation and chained Dataset yang telah diisi missing value nya kemudian dipisahkan antara data training dan data testing. Data training sebesar 80% dari dataset dengan perlakuan 10 fold cross validation. Kemudian dihitung nilai atribut penting nya dengan metode symmetrical Setelah itu diambil 12, 6, 5, dan 4 variabel yang paling berpengaruh. Setelah diperoleh beberapa set variabel tersebut kemudian dilakukan klasifikasi dengan algoritma Nayve Bayes. SVM. Random Forest, dan Gradient Boosting. Evaluasi dilakukan dengan melihat nilai akurasi, sensitivitas, dan spesifitas nya. Alur penelitian yang dilakukan seperti tertampil pada Gambar 1. Prediksi penyakit ginjal kronis dengan metode pengurangan fitur Symmetrical Uncertainty Gambar 1 Alur penelitian Metode yang digunakan Salah satu metode pengurangan fitur adalah Symmetrical Uncertainty (SU) yang melihat seberapa berpengaruh suatu variabel terhadap kelas label. Rumus Symmetrical Uncertainty tertampil dalam formula 1. SU (X. Y ) = 2xM I(X. Y ) H(X) H(Y ) . Dengan SU adalah nilai attribute importance. MI adalah Mutual Information dan H adalah Entrophy. Semakin tinggi nilai SU suatu variabel, maka semakin berpengaruh variabel tersebut terhadap kelas label dan sebaliknya . Metode Nayve Bayes merupakan algorithma pembelajaran mesin yang menggunakan teorema Bayes yang banyak digunakan untuk mengatasi masalah klasifikasi. Rumus Nayve Bayes adalah tertampil dalam formula 2. P (A|B) = P (B|A)(P A) P (B) Dengan P (A|B) adalah probabilitas event A terjadi terhadap event B. P (A) adalah probabilitas of event A terjadi. P (B) adalah kemungkinan event B terjadi, dan P (B|A) adalah keungkinan event B terjadi terhadap event A. SVM merupakan salah satu algoritma Muhamad Kurniawan yang bisa digunakan untuk mengatasi masalah klasifikasi dengan memisahkan sejumlah data menggunakan hyperplane. SVM bertanggung jawab dalam memaksimalkan nilai marginAe jarak antara hyperplane terhadap titik Ae titik terdekat. Rumus hyperplane dapat ditulis seperti dalam formula 3. 0 1 y x1 2 y x2 . n y xn Random Forest merupakan salah satu metode lain untuk melakukan peningkatan akurasi dalam klasifikasi. Metode ini berbasis metode decision tree yang berbentuk seperti pohon dengan sebuah root node yang digunakan untuk mengumpulkan data. Berbeda dengan tree pada umumnya yang membagi setiap node berdasarkan pembagian terbaik dalam setiap Sedangkan Random Forest setiap node dibagi berdasarkan sekelompok prediktor yang terbaik di antara nodeyang dipilih secara acak . Random Forest menggunakan metode bagging dalam melakukan training model Ae model nya. Seperti Random Forest. Gradient Boosting juga merupakan salah satu metode decision Perbedaannya adalah pada proses training modelnya menggunakan metode boosting. Metode boosting melakukan training model secara sekuensial. Tiap model belajar dari kesalahan pada model sebelumnya. Suatu studi memperlihatkan bahwa Gradient Boosting sangat baik dalam menyelesaikan masalah klasifikasi dengan variabel berjumlah sedikit sedangkan pada variabel dengan jumlah banyak Random Forest memiliki performa yang lebih baik . Diskusi dan hasil Tabel 2 memperlihatkan nilai attribute importance pada dataset penyakit ginjal UCI yang dihitung dengan metode Symmetrical Uncertainty. Nilai Attribute Importance memperlihatkan seberapa berpengaruh suatu variabel terhadap kelas label. Semakin tinggi nilai attribute importance suatu variabel, semakin berpengaruh variabel tersebut pada kelas label. Nilai attribute importance yang rendah memperlihatkan bahwa variabel tersebut kurang berhubungan dengan kelas label. Terlihat bahwa 6 variabel yang paling berpengaruh terhadap label penyakit ginjal adalah hemoglobin, packed cell volume, serum creatinine, albumin, specifity gravity, dan red blood cell count. Hal ini sedikit berbeda dengan penentuan nilai atribut penting dengan metode LASSO dimana variabel yang paling berpengaruh adalah specifity gravity, albumin, diabetes melitus, hypertension, hemoglobin, dan serum creatinine . Dari hasil klasifikasi dataset dengan 24 atribut diperoleh bahwa Gradient Boosting dan SVM memiliki akurasi terbaik, diikuti dengan Random Forest dan Nayve Bayes seperti tertampil dalam tabel 3. Tabel 4 memperlihatkan hasil klasifikasi dengan 12 atribut dengan attribute importance Diperoleh bahwa Gradient Boosting dan SVM memiliki nilai akurasi tertinggi diikuti dengan Random Forest dan Nayve Bayes. Gradient Boosting memang memiliki reputasi yang sangat baik dalam menyelesaikan masalah klasifikasi, bahkan banyak penelitian yang memperlihatkan bahwa Gradient Boosting menghasilkan akurasi yang lebih baik dibandingkan Random Forest . Studi yang dilakkan oleh Rich Caruna, dkk. bahwa hal ini hanya berlaku pada variabel berjumlah sedikit. Pada variabel berjumlah banyak (> 4. , metode Random Forest lebih baik dibandingkan dengan Gradient Boosting . Menurut Rich Caruna, dkk, hal ini dapat disebabkan pada variabel berjumlah banyak, metode Gradient Boosting mudah mengalami overfitting. Selain itu, terlihat bahwa nilai akurasi Nayve Bayes meningkat saat jumlah variabel dikurangi dari 24 ke 12 atribut. Hal ini dapat disebabkan pada klasifikasi 24 atribut terdapat variabel dengan attribute importance rendah, sedangkan pada klasifikasi 12 atribut, attribute Prediksi penyakit ginjal kronis dengan metode pengurangan fitur Symmetrical Uncertainty Tabel 2 Nilai attribute importance dari dataset Atribut Hemoglobin Packed cell volume Serum creatinine Albumin Specific gravity Red blood cell count Hypertension Diabetes mellitus Red blood cells Blood urea Pus cell Blood glucose random Sodium Sugar Blood pressure Appetite Potassium Pedal edema Anemia White blood cell count Age Coronary artery disease Pus cell clumps Bacteria Attribute Importance Tabel 3 Hasil klasifikasi 24 atribut Gradient Boost Random Forest Nayve Bayes SVM Accuracy Sensitivity Specificity importance rendah dihilangkan. Nilai attribute importance yang rendah dapat mengacaukan akurasi pada proses klasifikasi. Tabel 4 Hasil klasifikasi 12 atribut Gradient Boost Random Forest Nayve Bayes SVM Accuracy Sensitivity Specificity Pada klasifikasi dengan 6 atribut, nilai akurasi Nayve Bayes menurun seperti terlihat pada tabel 5. Sedangkan untuk algoritma lainnya tidak ada perubahan nilai akurasi, bahkan Muhamad Kurniawan pada pada pengurangan atribut dari 6 ke 5 juga tidak terdapat pengurangan nilai akurasi pada semua algoritma. Pada tabel ?? terlihat bahwa dengan hanya 5 atribut masih dapat diperoleh akurasi 100% dengan metode Gradient Boosting dan SVM. Kelima atribut tersebut antara lain hemoglobin, packed cell volume, serum creatinine, albumin, dan specifity gravity. Tabel 5 Hasil klasifikasi 6 atribut Gradient Boost Random Forest Nayve Bayes SVM Accuracy Sensitivity Specificity Tidak berubahnya nilai akurasi ketika atribut keAe6 . ed blood cell coun. dihilangkan dapat disebabkan karena atribut red blood cell count memiliki korelasi yang cukup tinggi dengan atribut selain kelas label, yaitu: atribut ke-1 . dan ke-2 . acked cell Bahkan korelasi dengan kedua atribut tersebut lebih besar dibandingkan korelasi dengan label kelas. Perubahan terjadi pada semua metode jika atribut dikurangi menjadi 4 seperti tertampil pada tabel 7. Tabel 6 Hasil klasifikasi 5 atribut Gradient Boost Random Forest Nayve Bayes SVM Accuracy Sensitivity Specificity Accuracy Sensitivity Specificity Tabel 7 Hasil klasifikasi 4 atribut Gradient Boost Random Forest Nayve Bayes SVM Tabel 8 meperlihatkan nilai korelasi dengan metode pearson antara atribut red blood cell count dengan kelima atribut lainnya. Terlihat bahwa nilai korelasi antara red blood cell count dengan hemoglobin sebesar 0. 7698490, dengan packed cell volume sebesar 0. dan dengan kelas label sebesar -0. Jika ketiga nilai tersebut diabsolutkan, nilai korelasi hemoglobin dan packed cell volume masih lebih tinggi dibandingkan kelas label. Nilai negatif pada kelas label tidak menunjukkan bahwa kelas label kurang berkorelasi, namun nilai mendekati -1 menunjukkan hubungan berkorelasi namun berkebalikan sedangkan nilai mendekati 1 menunjukan berkorelasi dan searah. Nilai mendekati 0 menunjukkan hubungan kurang berkorelasi. Tinggi nya nilai korelasi red blood cell count dengan 2 atribut selain kelas label menyebabkan atribut red blood cell count dapat diwakilkan dengan kedua atribut tersebut sehingga ketika red blood cell count dihilangkan nilai akurasi tidak banyak berubah . Melihat PUSTAKA Tabel 8 Nilai korelasi antara red blood cell Atribut Hemoglobin Packed cell volume Serum creatinine Albumin Specific gravity Nilai Korelasi fungsinya pada tubuh, red blood cell atau sel darah merah memiliki fungsi yang sama dengan hemoglobin, sehingga wajar atribut red blood cell dapat diwakilkan oleh hemoglobin. Secara keseluruhan. SVM memiliki akurasi terbaik, diikuti dengan Gradient Boosting. Random Forest, dan Nayve Bayes. Hasil ini berbeda dengan penelitian L. Jena, dkk. menggunakan dataset yang sama 7, dimana pada penelitian tersebut SVM memiliki nilai akurasi yang jauh lebih rendah dari pada Nayve Bayes. Hal ini dapat disebabkan proses perlakuan missing value nya yang berbeda. Pada penelitian L. Jena, dkk. , perlakuan missing value tidak disebutkan, kemungkinan adanya missing value tidak dihiraukan. Sedangkan pada penelitian ini, missing value di isi dengan metode multiple imputation and chained SVM cukup sensitif terhadap adanya missing value, karena SVM hanya melakukan pemodelan dengan suatu bagian data saja, sedangkan kebanyakan classifier menggunakan keseluruhan data . Kesimpulan dan saran Pada penelitian ini dilakukan prediksi penyakit ginjal dengan metode pemilihan fitur Symmetrical Uncertainty. Algoritma klasifikasi yang digunakan adalah Nayve Bayes. SVM. Random Forest, dan Gradient Boosting. Jumlah variabel yang diklasifikasi 24, 12, 6, 5, dan 4. Secara keseluruhan. SVM memiliki akurasi terbaik, diikuti dengan Gradient Boosting. Random Forest, dan Nayve Bayes. Dari penelitian ini diperoleh bahwa dengan hanya 5 atribut masih dapat diperoleh akurasi 100% dengan metode Gradient Boosting dan SVM. Kelima atribut tersebut antara lain hemoglobin, packed cell volume, serum creatinine, albumin, dan specifity Penelitian kedepannya dapat dengan membandingkan antara metode symmetrical uncertainty dengan metode pemilihan fitur lainnya. Selain itu dapat dilakukan dengan dataset lainnya yang memiliki jumlah baris dan variabel yang lebih banyak, serta berasal dari negara Indonesia. Pustaka 1 The Global Burden of Disease: Generating Evidence. Guiding Policy. Institute for Health Metrics and Evaluation. Seattle. WA: IHME, 2013. 2 Situasi Penyakit Ginjal Kronis. Pusat Data dan Informasi Kementrian Kesehatan Republik Indonesia. Jl. HR Rasuna Said Blok X5 Kav. 4-9 Lantai 6 Blok C Jakarta Selatan, 3 T. Di Noia. Ostuni. Pesce. Binetti. Naso. Schena, and E. Di Sciascio. PUSTAKA AuAn end stage kidney disease predictor based on an artificial neural networks ensemble,Ay Expert systems with applications, vol. 40, no. 11, pp. 4438Ae4445, 2013. 4 S. Vijayarani. Dhayanand et al. AuData mining classification algorithms for kidney disease prediction,Ay International Journal on Cybernetics & Informatics (IJCI), vol. 4, pp. 13Ae25, 2015. 5 I. Pasadana. Hartama. Zarlis. Sianipar. Munandar. Baeha, and A. Alam. AuChronic kidney disease prediction by using different decision tree techniques,Ay in Journal of Physics: Conference Series, vol. 1255, no. IOP Publishing, 2019, p. 6 N. Tangri. Stevens. Griffith. Tighiouart. Djurdjev. Naimark. Levin, and A. Levey. AuA predictive model for progression of chronic kidney disease to kidney failure,Ay Jama, vol. 305, no. 15, pp. 1553Ae1559, 2011. 7 L. Jena and N. Kamila. AuDistributed data mining classification algorithms for prediction of chronic-kidney-disease,Ay International Journal of Emerging Research in Management &Technology, vol. 4, no. 11, pp. 110Ae118, 2015. 8 A. Salekin and J. Stankovic. AuDetection of chronic kidney disease and selecting important predictive attributes,Ay in 2016 Ie International Conference on Healthcare Informatics (ICHI). Ie, 2016, pp. 262Ae270. 9 Tabassum. Mamatha Bai, and J. Majumdar. AuAnalysis and prediction of chronic kidney disease using data mining techniques,Ay 2017. [Onlin. Available: http://rgdoi. net/10. 13140/RG. 10 M. Nasution. Sitompul, and M. Ramli. AuPca based feature reduction to improve the accuracy of decision tree c4. 5 classification,Ay in Journal of Physics: Conference Series, 978, no. IOP Publishing, 2018, p. 11 H. Xie. Li. Zhang, and Y. Wang. AuComparison among dimensionality reduction techniques based on random projection for cancer classification,Ay Computational biology and chemistry, vol. 65, pp. 165Ae172, 2016. 12 P. Madan. Kalra. Agarwal, and O. Tandon. AuCognitive impairment in chronic kidney disease,Ay Nephrology Dialysis Transplantation, vol. 22, no. 2, pp. 440Ae444, 2007. 13 O. Latiweshob. Elwerfaly. Sheriff et al. AuHaematological changes in predialyzed and hemodialyzed chronic kidney disease patients in libya,Ay IOSR J of Dental and Med Sciences, vol. 16, pp. 106Ae12, 2017. 14 A. Saikhu. Arifin, and C. Fatichah. AuCorrelation and symmetrical uncertainty-based feature selection for multivariate time series classification,Ay International Journal of Intelligent Engineering and Systems, vol. 12, pp. 129Ae137, 06 2019. 15 A. Liaw. Wiener et al. AuClassification and regression by randomforest,Ay R news, 2, no. 3, pp. 18Ae22, 2002. 16 R. Caruana. Karampatziakis, and A. Yessenalina. AuAn empirical evaluation of supervised learning in high dimensions,Ay in Proceedings of the 25th international conference on Machine learning, 2008, pp. 96Ae103. 17 I. Babajide Mustapha and F. Saeed. AuBioactive molecule prediction using extreme gradient boosting,Ay Molecules, vol. 21, no. 8, p. 983, 2016. 18 J. Ogutu. -P. Piepho, and T. Schulz-Streeck. AuA comparison of random forests, boosting and support vector machines for genomic selection,Ay in BMC proceedings, vol. S3. Springer, 2011, p. S11. 19 R. Misir. Mitra, and R. Samanta. AuA reduced set of features for chronic kidney disease prediction,Ay Journal of pathology informatics, vol. 8, 2017. PUSTAKA