Jurnal Cahaya Mandalika. Vol. No. 1, 2024, e-ISSN: 2721-4796, p-ISSN: 2828-495X Available online at: http://ojs. com/index. php/JCM Akreditasi Sinta 5 SK. Nomor: 1429/E5. 3/HM. 01/2022 KLASIFIKASI PENYAKIT SIROSIS HATI DENGAN CART Yasmin Roni Mz1A. I Komang Gde Sukarsa2. I Gusti Ayu Made Srinadi3 1,2,3 Program Studi Matematika. Fakultas MIPA Ae Universitas Udayana Corresponding Author: yasminroni2907@gmail. comA , gedesukarsa@unud. id2 , srinadi@unud. Abstract: The nonparametric exploratory is a method that can be used to see the relationship between the dependent variable and the independent variable. One of the types of nonparametric exploratory methods is the CART. CART is a method that presents large amounts of data to be processed in the form of a decision tree so that it becomes valuable and easy to understand information. This research aims to build a decision tree model based on medical records from patients with liver cirrhosis using the CART. This research also used 16 independent variables of 276 data that will be used as research objects. The results of this study obtained a decision tree model with an independent variable. The first used as the root node is hepatomegaly because the hepatomegaly variable has a more homogeneous value compared to the other independent variables and that there were eight groups in this research. However, due to the nature of the CART method which is unstable and very sensitive to new data, and highly dependent on the number of samples, the accuracy rate in this study is less than 70%, this is because the data in one group is unbalanced if compared to data in the other group. Keywords: CART. Liver Cirrhosis. Decision Tree. Nonparametric Regression. Entropy PENDAHULUAN Jaringan Ae jaringan yang mempunyai satu atau lebih fungsi di dalam tubuh makhluk hidup disebut dengan organ (KBBI, 2. Salah satu organ di dalam tubuh manusia adalah organ hati yang terletak pada bagian kanan atas perut tepat di bawah tulang rusuk yang normalnya berwarna merah kecoklatan. Hati memiliki fungsi vital dalam proses metabolisme tubuh sehingga, apabila hati tidak berfungsi dengan baik dapat menyebabkan peradangan atau inflamasi. Penyakit inflamasi pada hati salah satunya adalah sirosis hati yaitu keadaan patologis karena terdapat luka pada hati sehingga hati membentuk jaringan parut untuk mengantikan jaringan normal pada hati. Jaringan parut yang terbentuk secara terus menerus dapat menghalangi aliran darah ke organ. Penyakit sirosis hati menurut WHO menyebutkan pertambahan 3 Ae 4 juta orang/tahun dengan 3% populasi manusia menderita penyakit ini. Penyebab penyakit sirosis hati pada negara barat dan Indonesia memiliki perbedaan apabila, pada negara barat penyebab sirosis hati adalah karena kebiasaan meminum alkohol sedangkan pada negara Indonesia penyebab sirosis hati karena penyakit hepatitis B dan hepatitis C. Gejala awal penyakit sirosis hati adalah peradangan pada hati karena melawan infeksi oleh bakteri sehingga hati tertutup oleh lemak yang disebut dengan fatty liver atau disebut juga dengan hati berlemak. Sirosis hati terdiri dari empat stadium sehingga untuk dapat mendiagnosis seorang pasien mengalami stadium sirosis hati level satu maupun level lainnya dapat ditinjau dengan melihat rekam medis pasien dari pasien yang bersangkutan. Salah satu metode yang dapat digunakan untuk mendiagnosis seorang pasien tersebut adalah metode CART. Metode CART pertama kali digagas oleh Leo Breiman. Jerome Friedman. Richard Olshen, dan Charles Stone pada tahun 1984. Metode ini menghasilkan decision tree yang memiliki ciri memcah simpul hanya menjadi dua cabang. CART bekerja dengan membagi data menjadi dua kelompok yang semakin homogen berdasarkan atribut Pohon keputusan yang dihasilkan mirip dengan hierarki keputusan yang mengarah dari akar . ode pertam. ke daun . ode terakhi. dengan setiap node memiliki nilai atribut tertentu. Hasil dari setiap percabangan di pohon keputusan adalah klasifikasi This is an open-access article under the CC-BY-SA License. untuk data kategori atau prediksi untuk data numerik. Pada penelitian ini akan diklasifikasikan stadium seorang pasien penderita sirosis hati pada masa mendatang berdasarkan rekam medis mereka. Rekam medis tersebut yang akan dijadikan dasar untuk menentukan stadium pasien sirosis hati disebut variabel prediktor. Adapun stadium sirosis hati yang akan ditentukan berdasarkan variabel prediktor disebut variabel respon. Sehingga dari uraian latar belakang diatas akan dipaparkan hasil klasifikasi stadium pasien yang menderita sirosis hati dengan menggunakan metode CART. METODE PENELITIAN Penelitian ini menggunakan data yang bersumber dari kaggle dengan nama liver cirrhosis prediction, berikut akan disajikan gambaran umum dari data : Tabel 2. 1 Gambaran Umum Data PEUBAH JENIS Stage Ordinal Drug Nominal Age Rasio Sex Nominal Ascites Nominal Hepatomegaly Nominal Spiders Nominal Edema Nominal Bilirubin Cholesterol Albumin Copper Alk_Phos SGOT Triglycerides Platelets Prothrombin Rasio Rasio Rasio Rasio Rasio Rasio Rasio Rasio Rasio KETERANGAN 1 : Stadium I 2 : Stadium II 3 : Stadium i 4 : Stadium IV Placebo D-penicillamine F : Female M : Male Y : Yes (Y. N : No (Tida. Y : Yes (Y. N : No (Tida. Y : Yes (Y. N : No (Tida. Y : edema & tanpa terapi diuretik S : edema tanpa diuretik/ edema teratasi dengan N : edema meskipun dengan terapi diuretik METODE PEMBELAJARAN Metode pembelajaran adalah salah satu pendekatan dalam pembelajaran mesin . achine learnin. Metode ini terbagi menjadi dua yaitu supervised learning atau metode pembelajaran terawasi yaitu model mempelajari dari data yang telah berlabel yang bertujuan untuk mengajarkan model menghubungkan input dan output yang diinginkan sehingga model dapat memprediksi secara akurat data baru meskipun belum pernah dilihat sebelumnya. Contoh dari supervised learning adalah prediksi seseorang akan bermain bola basket outdoor atau tidak berdasarkan behavior sebelumnya. Metode pembelajaran kedua adalah unsupervised learning. Kebalikan dari metode sebelumnya, pada unsupervised learning model diharapkan dapat menemukan kelompok atau asosiasi yang alami dalam data mengidentifikasi pola atau struktur yang tersembunyi dalam data tanpa adanya informasi target yang jelas. Contoh dari metode unsupervised learning adalah seorang guru yang ingin mengelompokan siswa Ae siswa berdasarkan pada kriteria kesamaan IQ atau mengelompokan berdasarkan umur dan tinggi badan maupun 1 Decision Tree Decision tree adalah sebuah struktur berhirarki yang menggambarkan model klasifikasi maupun regresi yang bertugas menguraikan data yang kemudian disajikan menjadi sebuah pohon keputusan. Berdasarkan algoritmanya decision tree dapat menghasilkan pohon berbentuk biner maupun non Ae biner. Gambar 2. 1 Contoh DT Non Ae Biner Decision tree non Ae biner nilai atribut akan terbagi menjadi lebih dari dua himpunan bagian tidak kosong yang berbeda. Misalnya nilai atribut warna = . erah, hijau, bir. maka, akan terdapat himpunan bagian yaitu : {. , . , . Gambar 2. 2 Contoh DT Biner Selanjutnya pada decision tree biner nilai Ae nilai atribut terbagi menjadi dua himpunan bagian tidak kosong yang berbeda dengan lebih dari satu kemungkinan bentuk percabangan apabila jumlah nilai atributnya lebih dari dua. Misalnya nilai atribut warna = . erah, hijau, bir. maka, akan terdapat tiga kemungkinan himpunan bagian yaitu : {{. , . ijau, bir. }, {. , . erah, bir. }, {. , . erah, hija. }}. Entropi Entropi adalah metode yang digunakan untuk mencari informasi ketidakteraturan atau ketidakpastian dari suatu data (Gray, 2. Jika kumpulan sampel semakin heterogen, maka nilai entropinya akan semakin besar. Suatu kumpulan data yang terbagi menjadi yca kelas memiliki nilai entropi yang berada pada interval 0 hingga log 2 yca dengan yca adalah banyak kelompok pada varibel terikat. Sehingga apabila himpunan data terkelompok dalam empat kelas nilai entropi maksimum adalah log 2 yca = log 2 4 = 2. Sehingga apabila nilai entropi maksimum proporsi jumlah data antar kelas adalah sama namun, apabila nilai entropi minimum atau 0 maka, kelas tersebut mempunyai tidak memiliki keberagaman atau homogen. Nilai entropi dapat dihitung dengan hasil penjumlahan setiap probabilitas amatan sebanyak log 2 ycyycn yang secara matematis dapat ditulis sebagai berikut: ycu yaycuycycycuycyycn. cI) = Oe Oc ycyycn . og 2 ycyycn ) ycn=1 Formulasi dari perhitungan nilai entropi dapat iilustrasikan seperti berikut ini : Gambar 2. 3 Ilutrasi Perhitungan Entropi Terdapat tiga buah kendi yang berisi 10 bola. Bola Ae bola tersebut berwarna merah dan hijau dengan proporsi bola merah dan hijau berbeda pada masing Ae masing kendi. Selanjutnya akan dihitung nilai entropi pada ketiga kendi dengan keterangan ycy1 adalah probabilitas bola merah dan ycy2 probabilitas bola hijau seperti pada Tabel 2. 1 berikut ini: Tabel 2. 2 Perhitungan Nilai Entropi ycy1 ycy2 yaycuycycycuycyycn. cI) Terlihat pada kendi tiga entropi bernilai maksimum karena terdapat dua kelompok pada kendi sehingga interval pada kejadian tersebut adalah 0 hingga log 2 yca = log 2 2 = Nilai entropi maksimum berarti proporsi antara bola merah dan bola hijau pada kendi tiga adalah seimbang. Sedangkan pada kendi satu dan kendi dua proporsi bola merah dan hijau tidak seimbang sehingga nilai entropi hanya mendekati nilai maksimum. 3 Information Gain Information gain ini adalah selisih antara entropi awal sebelum data tersebut dipartisi atau yaycuycycycuycyycn . cI) dengan rata Ae rata terboboti dari entropi masing Ae masing bagian yaycuycycycuycyycn. cI1 ), yaycuycycycuycyycn. cI2 ) hingga yaycuycycycuycyycn. cIycu ) yang dituliskan secara matematis sebagai berikut : cIycu | yaya = yaycuycycycuycyycn. cI) Oe Oc yaycuycycycuycyycn. cIycu ) . cI| ycn=1 Formulasi dari perhitungan nilai information gain dapat dijelaskan sebagai berikut : Gambar 2. 4 Ilutrasi Perhitungan IG Pada subab 2. 3 telah dijelaskan perhitungan nilai entropi sehingga pada subab selanjutnya akan diilustrasikan perhitungan dari information gain dengan keterangan yaycuycycycuycyycn . cI1 ) adalah nilai entropi pada bagian atas kendi satu atau bagian kiri pada kendi dua dan kendi tiga, sedangkan yaycuycycycuycyycn . cI2 ) adalah nilai entropi pada bagian bawah kendi satu atau bagian kanan kendi dua dan kendi tiga. Untuk mempermudah melihat perbedaanya nilai telah disajikan dalam bentuk Tabel 2. 2 di bawah ini : Tabel 2. 3 Perhitungan Nilai IG ycy1 ycy2 ya. cI1 ) ycy1 ycy2 ya. cI2 ) ya. cI) . cI1 | ya. cI1 ) . cI2 | ya. cI2 ) IG . cI| . cI| 47 A 89 A Sehingga kesimpulannya adalah information gain nilainya akan semakin besar jika partisi yang dilakukan menghasilkan partisi baru yang bersifat lebih homogen atau kelas pada partisi tersebut cenderung didominasi pada salah satu kelas saja. 4 Algoritma Cart Salah satu ciri dari metode ini adalah memecah simpul hanya menjadi dua cabang . Adapun langkah Ae langkah dari algoritma CART sendiri adalah : Untuk setiap variabel bebas akan ditentukan kemungkinan penyekatan yang terjadi berdasarkan tipe data. Bagi data yang bertipe numerik akan didapatkan ycu Oe 1, untuk data yang bertipe nominal akan didapatkan sebanyak 2yaOe1 Oe 1 calon cabang dan bagi data yang bertipe ordinal akan didapatkan ya Oe 1 calon cabang. Menyusun calon cabang yang dilakukan terhadap semua variabel prediktor. Adapun daftar yang berisikan calon cabang tersebut dinamakan calon cabang mutakhir. Selanjutnya yaitu menilai kinerja seluruh calon cabang yang berada pada daftar calon cabang mutakhir dengan cara menghitung nilai besaran kesesuaian. Setelah mendapatkan nilai kesesuaian untuk semua calon cabang, maka dipilih nilai terbesar untuk dipecah terlebih dahulu. HASIL DAN PEMBAHASAN Setelah dilakukan pembersihan data yang meliputi penghapusan data yang hilang dan memperbaiki kesalahan penulisan didapatkan data baru yang berjumlah 276 data dengan rincian stadium 1 sebanyak 12 data, stadium 2 sebanyak 59 data, stadium 3 sebanyak 111 data dan stadium 4 sebanyak 94 data. Selanjutnya akan digunakan perbandingan sebesar 90 : 10 untuk perbandingan data latih dan data uji. Sehingga dari 248 data yang digunakan sebagai data uji terdapat satu variabel terikat dengan skala pengukuran ordinal yang terdiri dari empat kelas dan 16 variabel bebas dengan skala pengukuran nominal dan Pada tahap pertama akan ditentukan terlebih dahulu untuk cabang kanan dan cabang kiri pada penelitian ini, yang mana variabel yang bertipe nominal pada penelitian ini akan memiliki masing Ae masing satu calon cabang hal ini karena variabel nominal pada penelitian ini hanya memiliki dua nilai . Oe1 Oe 1 = . kecuali, untuk variabel edema, karena variabel ini akan memiliki tiga calon cabang . Oe1 Oe 1 = . Selanjutnya akan didapatkan 18 simpul untuk calon cabang kanan dan kiri. Kemudian dilakukan perhitungan nilai indeks gini yang disajikan dalam Tabel 3. 1 di bawah ini: Tabel 3. 1 Nilai Indeks Gini Simpul ycyc ycyc yeO. Setelah didapatkan nilai dari indeks gini pada setiap cabang kemudian akan dipilih cabang pertama untuk dipecah terlebih dahulu yang diurutkan berdasarkan pada nilai goodness of split yang dapat dilihat pada Tabel 3. 2 berikut ini: Tabel 3. 2 Rangking Goodness of Split Simpul yo. Rangking Terlihat bahwa nilai goodness of split yang terbesar berada pada simpul kelima yaitu 11 dengan variabel hepatomegaly pada cabang kiri N dan cabang kanan adalah Selanjutnya digunakan variabel hepatomegaly sebagai root node dan proses pembentuka pohon keputusan berulang kembali secara rekursif. Berdasarkan pohon keputusan yang dihasilkan didapatkan delapan kelompok penduga yang disajikan dalam Tabel 3. Tabel 3. 3 Kelompok Penduga Yang Dihasilkan Observasi Prothrombin Ou11 Cholesterol <352 Tryglicerides <122 Tryglicerides Ou122 Albumin <3. Albumin Ou3. Prothrombin <10 Prothrombin Ou10 Age <18e 3 Age Ou18e 3 Age <17e 3 Age Ou17e 3 SGOT <64 SGOT Ou64 KESIMPULAN DAN SARAN Dari pembahasan pada penelitian ini dapat diketahui CART memiliki beberapa keunggulan jika dibandingkan dengan metode klasifikasi lainnya, yaitu hasilnya lebih mudah diinterpretasikan karena tersaji dalam bentuk visual dan lebih cepat penghitungannya, selain itu CART dapat diterapkan untuk himpunan data yang berjumlah besar dengan variabel yang banyak namun terlepas dari itu semua. Metode ini juga memiliki kelemahan seperti tidak stabil dalam decision tree hal ini karena CART sangat sensitif dengan data baru dan CART sangat bergantung dengan jumlah sampel sehingga apabila sampel data learning dan testing berubah maka pohon keputusan yang dihasilkan juga ikut berubah. Saran yang ingin disampaikan oleh peneliti untuk hasil dari penelitian ini yaitu bagi peneliti selanjutnya diharapkan untuk meningkatkan tingkat akurasinya baik dengan cara menerapkan metode untuk menangani unbalanced data maupun mencari data yang seimbang apabila ingin menggunakan metode CART. DAFTAR PUSTAKA