Jurnal Infortech Volume 7 No. 1 Juni 2025 E-ISSN: 2715-8160 Klasifikasi Diagnosis Penyakit Diabetes Menggunakan Algoritma C4. Indah Sagita Cahyani1. Karlena Indriani2. Monikka Nur Winnarto3* 1,2,3 Universitas Bina Sarana Informatika e-mail: 19236025@bsi. id, 2karlena@bsi. id, 3monikka. mnt@bsi. Diterima 02-06-2025 Direvisi 04-06-2025 Disetujui 12-06-2025 Abstrak - Kesehatan memiliki peranan yang sangat penting untuk menunjang kehidupan manusia, dengan memiliki kesehatan yang baik, manusia dapat melakukan aktifitas dengan produktif dalam sosialisasi atau ekonomi untuk mecapai tujuan hidup. Salah satu penyakit yang dapat mengakibatkan komplikasi bahkan kematian adalah penyakit diabetes. Angka kematian yang tinggi yang diakibatkan oleh penyakit diabetes sangat mengkhawatirkan, diagnosis dini begitu penting dilakukan untuk menekan angka kematian. Selain itu diagnosis dini juga merupakan titik awal penderita untuk mencegah terjadinya diabetes lebih parah dengan melakukan pola hidup sehat agar tidak mengalami komplikasi. Diagnosa penyakit diabetes pada manusia salah satunya dapat dilakukan dengan menerapkan algoritma Machine Learning yaitu C4. Penelitian ini bertujuan melakukan diagnosa penyakit diabetes untuk menghindari keterlambatan diagnosis yang dapat mengakibatkan komplikasi pada pasien pengidap penyakit diabetes dengan menggunakan Algoritma C4. 5 dalam mendiagnosa dan membuat model prediksi yang menghasilkan sebuah pohon keputusan serta pengujian terhadap hasil diagnosa penyakit diabetes. Dalam penelitian ini terdapat beberapa atribut klasifikasi yaitu gender, age, urea, creatinine. HbA1c, cholesterol, trigeliserida. HDL. LDL. VLDL, dan BMI. Hasil dari penelitian ini dijadikan sebagai acuan untuk dapat melihat apakah seseorang terkena diabetes atau tidak. Hasil akhir dari penelitian ini yaitu menghasilkan nilai akurasi 47%, dimana nilai ini menandakan bahwa algoritma C4. 5 mampu melakukan diagnosis penyakit diabetes dengan baik. Kata Kunci : Diabetes. Data Mining. Algoritma C4. Abstracts Health plays a very important role in supporting human life, by having good health, humans can carry out productive activities in socialization or economy to achieve life goals. One of the diseases that can cause complications and even death is diabetes. The high mortality rate caused by diabetes is very worrying, early diagnosis is very important to reduce the mortality rate. In addition, early diagnosis is also the starting point for sufferers to prevent diabetes from getting worse by adopting a healthy lifestyle so as not to experience One of the ways to diagnose diabetes in humans is by applying the Machine Learning algorithm, namely C4. This study aims to diagnose diabetes to avoid delays in diagnosis that can cause complications in patients with diabetes by using the C4. 5 Algorithm in diagnosing and creating a prediction model that produces a decision tree and testing the results of the diabetes diagnosis. In this study there are several classification attributes, namely gender, age, urea, creatinine. HbA1c, cholesterol, triglycerides. HDL. LDL. VLDL, and BMI. The results of this study are used as a reference to see whether someone has diabetes or not. The final result of this study is to produce an accuracy value of 99. 47%, where this value indicates that the C4. 5 algorithm is able to diagnose diabetes well. Keywords: Diabetes. Data Mining. C4. 5 Algorithm PENDAHULUAN Kesehatan merupakan peranannya sangat penting untuk menunjang kehidupan manusia, delngan melmiliki kelselhatan yang baik, manulsia dapat mel akulkan aktifitas delngan produlktif dalam sosialisasi ataul elkonomi ulntulk melcapai tuljulan hidulp. Salah satul pelnyakit yang dapat melngakibatkan komplikasi bahkan kelmatian adalah pelnyakit Diabeltels bulkan hanya pelnyelbab dari http://ejournal. id/ejurnal/index. php/infortech kelmatian prelmatulr di dulnia, pelnyakit ini bisa melnyelbabkan kelbultaan, gagal ginjal, dan bisa julga melnyelbabkan pelnyakit jantulng (Robbani elt al. Klasifikasi melrulpakan salah satul telknik dalam data mining. Klasifikasi . melrulpakan prosels pelnelmpatan objelk ataul konselp telrtelntul kel dalam satul selt katelgori belrdasarkan objelk yang Salah satul telknik klasifikasi yang popul ar Jurnal Infortech. Volume 7 No. 1 Juni 2025 E-ISSN 2715-8160 digulnakan adalah delcision trelel. Klasifikasi julga dapat diartikan selbagai selbulah prosels melnelmulkan sulatul model ataul fulngsi yang melnggambarkan dan melmbeldakan klas data ataul konselp delngan tuljulan dapat melnggulnakan model ulntulk melmbulat preldiksi kel as objelk dimana kel as label nya tidak dikeltahuli. Tuljulan dari klasifikasi adalah ulntulk melnelmulkan model dari training selt yang melmbeldakan atribult kel dalam katelgori ataul kel as yang selsulai, model telrselbult kelmuldian digulnakan ulntulk melngklasifikasikan atribult yang kel asnya bel ulm dikeltahuli selbel ulmnya (Bachtiar, 2. Melnulrult Han dan Kambelr, data mining adalah prosels pelnelmulan pola ataul informasi yang belrgulna dari basis data belsar delngan melnggulnakan meltodel telrmasulk telknik statistik, matelmatika, dan kelcelrdasan bulatan. Prosels data mining mel ibatkan pelnggulnaan belrbagai telknik statistik, matelmatis, dan kelcelrdasan bulatan ulntulk melnganalisis data delngan cara yang sistelmatis dan otomatis. Hasil dari data mining dapat digulnakan ulntulk melndulkulmg pelngambilan kelpultulsan, melngidelntifikasi treln pasar, melningkatkan elfisielnsi opelrasional ataul melrulmulskan stratelgi bisnis (Suldipa elt al. , 2. AuData Mining adalah sulatul prosels pelncarian data selcara otomatis dapat melndapatkan selbulah model dari databasel yang belsarAy (Delwi & Rahayul. Pelnel itian selbel ulmnya yang melnggulnakan meltodel algoritma C4. 5 melmiliki akulrasi yang sangat baik, maka dalam pelnel itian ini akan melnelrapkan algoritma C4. 5 pada kasuls diabeltels, diharapkan agar dapat melningkatkan kinelrja algoritma C4. 5 dan melnghasilkan informasi yang akulrat. AuAlgoritma C4. 5 adalah algoritma yang digulnakan ulntulk melngklasifikasin dataselt delngan melmbulat pohon kelpultulsan yang dapat dimanfaatkan ulntulk melmpreldiksi sulatul kelpultulsan selsulai delngan atulran pelngambilan kelpultulsan. Dalam pohon kelpultulsan melrulpakan diagram alir dan seltiap intelrnal nodel melnghimpuln atribult akan diuljuli, pada seltiap cabang melmprelselntasikan kel as-kel as telrtelntulAy (Pultra, 2. AuAlgoritma C4. 5 adalah algoritma klasifikasi dan preldiksi yang culkulp telrkelnal dan biasanya melmiliki akulrasi yang tinggiAy (Najib elt al. Melnulrult Intelrnational Diabeltels Feldelration yang melngidap pelnyakit diabeltels pada tahuln 2015 selbanyak 415 julta jiwa, dan dipelrkirakan melningkat selbanyak 227 julta jiwa ataul melnjadi 642 julta jiwa pada tahuln 2040 yang melngidap pelnyakit telrselbult. seltiap nelgara julmlah Diabeltels Mel ituls melngalami pelngingkatan dan kasuls telrbanyak orang yang http://ejournal. id/ejurnal/index. php/infortech melngalami Diabeltels Mel ituls belrada di ulsia antara 4059 tahuln. Dilihat dari angka kelmatian yang tinggi yang diakibatkan olelh diabeltels, diagnosis dini belgitul pelnting dilakulkan ulntulk melnelkan angka kelmatian. Sel ain itul diagnosis dini julga melrulpakan titik awal pelndelrita ulntulk melncelgah telrjadinya diabeltels lelbih parah delngan mel akulkan pola hidulp selhat agar tidak melngalami komplikasi. Seldangkan selselorang yang suldah lama melngalami diabeltels yang tidak telrdiagnosis dan tidak diobati, belrkelmulngkinan belsar kelselhatan tulbulhnya akan selmakin bulrulk. (Fadhillah elt , 2. Belrdasarkan data diatas pada pelnel itian ini klasifikasi diagnosis diabeltels dilakulkan delngan melnggulnakan telknik data mining yaitul algoritma C4. Pelnel itian ini melngarah pada diagnosis apakah melngklasifikasikan variabel -variabel yang tel ah Dula bel as variabel diulji, salah satulnya adalah variabel targelt, yaitul AupositifAy dan AunelgatifAy. METODE PENELITIAN Prosels pelnel itian diawali delngan pelngulmpul an data mel aluli Melndel ely seltel ah itul dilakulkan analisis data ulntulk pelmahaman telrhadap pelrmasalahan yang ada, dalam melnyel elsaikan pelrmasalahan pelnel iti mel akulkan tinjaulan pulstaka ulntulk melncari solulsi telpat telrhadap pelrmasalahan. Kelmuldian dilakulkan pelneltapan meltodel, pada pelnel itian ini melnggulnakan meltodel algoritma C4. 5 sel anjultnya dilakulkan pelngolahan data dan pelnguljian mel aluli aplikasi RapidMinelr. Pada tahap telrakhir pelnel iti mel akulkan analisa akhir. Sumber: Penelitian, 2025 Gambar 1. Tahapan Penelitian Jurnal Infortech. Volume 7 No. 1 Juni 2025 E-ISSN 2715-8160 HASIL DAN PEMBAHASAN Tabel 1. Atribut dan Nilai Kategori untuk Menentukan Penyakit Diabetes Pengumpulan Data Pelnel itian ini belrlandaskan pada meltodel Algoritma C4. 5 ulntulk melningkatkan akulrasi diagnosis pelnyakit diabeltels. Hasil dari Algoritma C4. 5 adalah selbulah pohon kelpultulsan ataul decl ision l Pohon kelpultulsan belrpelran ulntulk melngkaji data, melnelmulkan ikatan telrselmbulnyi antara seljulmlah variabel masulkan dan variabel sasaran. Prosels dalam pohon kelpultulsan adalah melngulbah data yang belrisi atulran-atulran melnjadi strulktulr hielrarki yang kelmuldian melnghasilkan kelpultulsan akhir yaitul belrulpa variabel sasaran ataul label . Selhingga prosels pelngambilan kelpultulsan dapat dilakulkan delngan selgelra karelna pohon kelpultulsan melmangkas prosels yang komplelks melnjadi lelbih ringkas. Langkah melngakulmul asi data, dalam pelnel itian ini melndel ely https://data. melndel ely. com/dataselts/wj9rwkp9c2/1 yaitul data dikulmpul kan dari masyarakat Irak karelna datanya dipelrolelh dari laboratoriulm Rulmah Sakit Med l ical City dan (Pulsat Spelsialis Elndokrinologi dan Rulmah Sakit Pelndidikan Diabeltels-Al-Kind. Filel pasieln diambil dan data dielkstraksi darinya dan dimasulkkan kel dalam databasel ulntulk melmbulat kulmpul an data diabeltels. Selbanyak 947 data telrmulat di dalamnya, data telrselbult disel elksi kelmuldian digolongkan melnjadi 12 atribult, 11 diantaranya adalah atribult pelrbandingan dan satul atribult hasil ulntulk mel ihat statuls dari pasieln telrselbult. Data-data pasieln dapat dilihat dalam gambar belrikult: Jenis Pemeriksaan Tahap sel anjultnya dataselt yang diakulmul asi akan diklasifikasikan belrdasarkan atribult yang tel ah ditelntulkan ulntulk dilakulkan pelngkajian Algoritma C4. 5 delngan melnggulnakan Rapidminelr. Hasil pelrhitulngan dari model yang diulsul kan melnciptakan pohon kelpultulsan. Belrikult atribult selrta rangel dan nilai yang dapat dilihat pada tabel 1. http://ejournal. id/ejurnal/index. php/infortech Range Sumber (Rosita elt , 2. Gelndelr/Jelnis Kel amin Pelrelmpulan Laki-laki Agel/ulmulr Tahuln Risiko >55 Tahuln Belrelsiko Normal >115 Tidak Normal < 18,5 Ae 29,9 kg/m2 Normal >30 kg/m2 Tidak Normal 5,176,18 Normal >6,21 Tidak Normal 1,8 - 7,1 Normal >7. 1 mmol Tidak Normal mmol/mol Normal >48 mmol/mol Tidak Normal < 1,7 Normal ataul lelbih Tidak Normal Lipoprotelin Delnsitas Relndah (LDL) <3,4 Normal >3,4 Tidak Normal Lipoprotelin Delnsitas Tinggi (HDL) >1,3 Normal <1,3 Tidak Normal Velry Low Delnsity <0,77 Normal Crelatininel Ratio Body Indelx BMI Mass Chol (Cholelstelro. Ulrela HbA1c Trigliselrida (TG) Sumber: Penelitian, 2025 Gambar 2. Data Hasil Pemeriksaan Diabetes Nilai (Milita elt , 2. (Belnioff ChildrelnAos Hospitals, (Kelmelntrian Kelselhatan RI, 2. (Roselnson, (Liul elt al. (Hospitals, (Kelmelntrian Kelselhatan RI, 2. (Clelvel and Clinic Abul Dhabi, (Lelel & Siddiquli, (Barrel l. Jurnal Infortech. Volume 7 No. 1 Juni 2025 E-ISSN 2715-8160 Jenis Pemeriksaan Nilai Range Lipoprotelin (VLDL) >0,77 mmol/L). Tidak Normal Sumber Sumber: Penelitian, 2025 Analisa Data Tahap Pre-Processing Data Tahap prosels pelngolahan data di aplikasi RapidMinelr pada bagian atribult gelndelr ulntulk typel nya diganti kel binominal karna melmiliki dula nilai dan bagian class ditambah melnjadi label . Pelngolahan data akan selcara otomatis mel akulkan prel-procelssing data yaitul selpelrti melndeltelksi data yang kosong, isi kolom yang belrbelda dan akan otomatis melmbelri celntang no problelms bila data suldah selsulai dan tidak ada masalah. Belrikult adalah cara melnghitulng nilai elntropy dan nilai gain selcara manulal delngan melnggulnakan pelrsamaan belrikult : l tropy . = ((-844/. *LOG2. *LOG2. ) l tropy . = 0,496178092 Sel anjultnya pada nilai Gain pada baris Gelndelr dihitulng mel aluli pelrsamaan selbagai belrikult: Gain . otal, gen l derl ) = . ,496178. Ae (. * 0,379669. Ae (. * 0,617568. Gain . otal, gen l derl ) = 0,011501191 Pengolahan Data Pelngolahan data dilakulkan melnggulnakan aplikasi Rapidminelr, pada tahap dataselt melmakai opelrator split data yang akan dibagi melnjadi dula yaitul data training dan data tesl ting delngan pelrbandingan 80:20, 70:30 dan 60:40 selrta melmakai Shulffleld Sampling. Data training akan mel atih data ulntulk melmbanguln selbulah model algoritma C4. 5 seldangkan data tesl ting ulntulk melngeltahuli accurl acy, precl ision, recl all dan kulrva ROC. Sumber : Penelitian, 2025 Gambar 4. Menggunakan Tools Split Data dan Penggunaan Operator RapidMiner Sumber : Penelitian, 2025 Gambar 3. Proses Pengolahan Data Pada RapidMiner Penetapan Metode Algoritma C4. 5 digulnakan dalam pelnelrapan data mining ini delngan tuljulan ulntulk melmpreldiksi pasieln pelnyakit diabeltels. Pohon kelpultulsan akan melmbelntulk akar pohon, sel anjultnya data dibeldakan selsulai delngan atribult yang sama ulntulk dibelntulk dauln ataul cabang. Prosels pelmangkasan cabang pohon yang tidak dipelrlulkan olelh pohon yang suldah telrbelntulk ataul mel akulkan pelnyeldelrhanaan ulkulran pohon karelna pohon kelpultulsan yang dibelntulk biasanya belrulkulran Pelmangkasan julga belrfulngsi ulntulk melminimalisir julmlah elrror pada hasil preldiksi. http://ejournal. id/ejurnal/index. php/infortech Pada klasifikasi data. RapidMinelr akan melmbanguln selbulah model delcision trelel delngan data training yaitul delngan melmbulat pohon kelpultulsan dan tesl ting akan digulnakan ulntulk pelnguljian dan elvalulasi data mel aluli opelrator perl formance. l Sel anjultnya ratio ulntulk sulbselt training dan sulbselt tesl ting melnggulnakan pelrbandingan 0. 8 dan 0. 2 ulntulk melngeltahuli kelakulratan data selpelrti dibawah ini Bentuk gambar mengikuti contoh berikut: Jurnal Infortech. Volume 7 No. 1 Juni 2025 E-ISSN 2715-8160 Jika HbA1c = < 5. BMI = < 24. Cholelstelrol = > 4. TG = < 1. HDL = < 1. 500 maka hasil nelgatif diabeltels Analisa Akhir Sumber : Penelitian, 2025 Gambar 5. Subset Training dan Subset Testing Pelnguljian pada hasil pelrhitulngan delngan melnggulnakan aplikasi RapidMinelr dilakulkan delngan belbelrapa prosels selhingga melmpelrolelh hasil akulrasi Ulntulk mel ihat nilai accurl acy, precl ision dan recl all dapat dilihat pada gambar belrikult ini: Pengujian Data Hasil dari ulji coba yang dilakulkan dapat melnghasilkan Delcision Trelel . ohon kelpultulsa. dan ulntulk melnghasilkan nilai acculracy. Belrikult ulntulk mel ihat Delcision Trelel (Pohon Kelpultulsa. Sumber : Penelitian, 2025 Gambar 6. Decision Tree Delcision trelel . ohon kelpultulsa. adalah cara ulntulk melmbanguln model dalam pelnambangan data, itul dapat dipahami selbagai pohon binelr telrbalik. Dari pelrhitulngan diatas telrdapat belbelrapa rul els yang dapat dijadikan selbagai relfelrelnsi dalam klasifikasi pelnyakit Adapuln antara rul els diatas belrulpa elmpat rul els kelpultulsan positif dan dula rul els kelpultulsan nelgatif dapat dijabarkan mel aluli narasi selbagai Jika HbA1c = >5. 650 maka hasil positif telrkelna diabeltels. Jika HbA1c = < 5. 650 celk BMI = > 24. maka hasil positif telrkelna diabeltels. Jika HbA1c = < 5. BMI = < 24. Cholelstelrol = < 4. 950 maka hasil nelgatif Jika HbA1c = < 5. BMI = < 24. Cholelstelrol = > 4. TG = > 1. 950 maka hasil positif telrkelna diabeltels. Jika HbA1c = < 5. BMI = < 24. Cholelstelrol = > 4. TG = < 1. HDL = > 1. 500 maka hasil positif telrkelna diabeltels http://ejournal. id/ejurnal/index. php/infortech Sumber : Penelitian, 2025 Gambar 7. Hasil Nilai Accuracy. Recall dan Precision Dari gambar diatas tel ah didapatkan hasil confulsion matrix dari pelnguljian data mel aluli algoritma C4. hasil yang didapatkan adalah accurl acy 99. 47%, prelcision 100. 00% dan relcall Sumber: Penelitian, 2025 Gambar 8. ConfusionMatrix Algoritma C4. Jurnal Infortech. Volume 7 No. 1 Juni 2025 E-ISSN 2715-8160 REFERENSI