Cogito Smart Journal | VOL.
9 - NO.
DECEMBER 2023
Analisis Perbandingan Kinerja Algoritma Apriori.
FPGrowth dan Eclat dalam menemukan Pola Frekuensi pada Dataset INA-CBGAoS Comparative Analysis of The Performance of The Apriori.
FP-Growth and Eclat Algorithms In Finding Frequency Patterns In The Ina-Cbg's Dataset Eka Wahyu Pujiharto*1.
Kusrini 2.
Asro Nasiri 3 Program Studi PJJ Magister Teknik Informatika.
Jl.
Ring Road Utara.
Condong Catur.
Sleman.
Yogyakarta.
Telp: .
Fax: .
884208 Program Studi PJJ Magister Teknik Informatika.
FIK Universitas Amikom.
Yogyakarta e-mail: *1eka.
pujiharto@students.
id, 2Kusrini@amikom.
Asro@amikom.
Abstrak Setiap fasilitas kesehatan seperti rumah sakit, klinik dan puskesmas yang bekerjasama dengan BPJS wajib melakukan klaim pembiayaan atas perawatan kesehatan terhadap pasien menggunakan tarif INACBGAos (Indonesian - Case Based Group.
Tarif INACBGAos merupakan paket layanan yang didasarkan kepada pengelompokan diagnosa penyakit yang menggunakan kode ICD-10.
Penelitian ini bertujuan menemukan pola frekuensi pada dataset INA-CBGAos terutama kombinasi diagnosa agar diketahui kombinasi diagnosa apa saja yang sering muncul untuk bahan evaluasi lebih lanjut oleh pihak manajemen fasilitas kesehatan.
Penelitian ini membandingkan kinerja Algoritma Apriori.
FP-Growth dan Eclat.
Nilai Akurasi Lift Ratio dan Rule Asosiasi ketiga algoritma didapatkan nilai yang sama, tetapi untuk waktu komputasi dan pemakaian memori pada Algoritma Eclat lebih banyak daripada Algoritma Apriori dan FpGrowth, maka dapat disimpulkan bahwa Algoritma FP-Growth dan Apriori lebih cocok untuk dijadikan solusi dalam menemukan pola frekuensi pada dataset INACBGAos.
Kata kunciAiAnalisis Perbandingan.
Apriori.
FP-Growth.
Eclat Abstract Every health facility such as hospitals, clinics and community health centers that collaborate with BPJS is required to make funding claims for health care for patients using INACBG's (Indonesian - Case Based Group.
INACBG's tariff is a service package that is based on disease diagnosis groupings using ICD-10 codes.
This research aims to find frequency patterns in the INA-CBG's dataset, especially combinations of diagnoses, in order to find out what combinations of diagnoses frequently appear for further evaluation by health facility This research compares the performance of the Apriori.
FP-Growth and Eclat The accuracy values of the Lift Ratio and Rule Association of the three algorithms obtained the same value, but the computing time and memory usage of the Eclat Algorithm is more than the Apriori and Fp-Growth Algorithms, so it can be concluded that the FP-Growth and Apriori Algorithms are more suitable to be used as solutions in found frequency patterns in INACBG's dataset.
KeywordsAiComparative Analysis.
Apriori.
FP-Growth.
Eclat
PENDAHULUAN
Fakultas Ilmu Komputer | Universitas Klabat | CORIS | ISSN: 2541-2221 | E-ISSN: 2477-8079 Cogito Smart Journal | VOL.
9 - NO.
DECEMBER 2023
ada bidang kesehatan.
BPJS (Badan Penyelenggara Jaminan Sosia.
menerapkan pola pembayaran Jaminan Kesehatan Nasional (JKN) Kesehatan menggunakan tarif INA-CBGAos (Indonesia Case Based Group.
Setiap fasilitas kesehatan seperti rumah sakit, klinik dan puskesmas yang bekerjasama dengan BPJS wajib melakukan klaim pembiayaan atas perawatan kesehatan terhadap pasien menggunakan tarif INACBGAos (Indonesian - Case Based Group.
Tarif INACBGAos berdasarkan paket pelayanan dengan cara mengelompokan diagnosis penyakit yang memiliki kelompok tarif.
Kendala yang terjadi pada fasilitas kesehatan dengan adanya sistem pembayaran klaim biaya pasien menggunakan INACBGAos adalah fasilitas kesehatan mengalami kesulitan untuk menganalisa data klaim, terkait penegakan diagnosa, prosedur tindakan dan variabel lainnya.
Tarif INACBGs menggunakan kode ICD-10 untuk sistem koding pada diagnosis penyakit.
Data mining adalah adalah proses mengekstraksi informasi berguna dari database besar, mengubah dan mengekstraksinya menjadi informasi baru untuk membantu pengambilan keputusan .
Algoritma data mining menjadi sangat penting dalam menganalisis data untuk mengidentifikasi pola-pola kombinasi kode diagnosa dan kode prosedur ini.
Pola-pola ini dapat mengungkap hubungan yang tidak terlihat secara langsung antara berbagai variabel dalam data.
Algoritma untuk mengenali pola dari data yaitu algoritma asosiasi, ada tiga algoritma asosiasi yang umum digunakan diantaranya adalah Apriori.
FP-Growth, dan ECLAT .
Perbedaan dasar dari ketiga algoritma adalah algoritma Apriori menggunakan pendekatan generate and test dengan cara membuat semua itemset kandidat kemudian menghitung dukungan untuk masingmasing itemset dan membuang yang tidak memenuhi ambang batas dukungan.
Algoritma Eclat juga menggunakan pendekatan generate and test, tetapi lebih fokus pada menyusun itemset yang lebih panjang dari itemset yang lebih pendek.
Sedangkan algoritma FP-growth menggunakan pendekatan divide and conquer yaitu dengan membangun struktur data yang disebut FP-tree dan kemudian mengeksploitasi struktur ini untuk menemukan pola asosiasi.
Telah dilakukan beberapa penelitian yang meneliti tentang algoritma asosiasi untuk menemukan pola frekuensi pada dataset, berikut ini tinjauan pustaka pada penelitian yang telah dilakukan oleh peneliti lain dan menjadi referensi dalam penelitian ini, yaitu:
Penelitian pertama oleh Idris, dkk .
Hasil literatur yang telah dilakukan diperoleh bahwa FP-Growth menggunakan memori yang lebih banyak daripada kedua algoritma lainnya, tetapi memiliki performa terbaik.
Algoritma Apriori-TID lebih cepat dan menggunakan memori yang lebih ringan.
Penelitian kedua oleh V Srinadh .
Hasil literature yang telah dilakukan bahwa Fpgrowth menggunakan format data horizontal, yang mengharuskan pemindaian basis data beberapa kali dan menyebabkan waktu komputasi yang cukup lama.
Eclat memiliki keunggulan dalam hal waktu komputasi.
Eclat menghilangkan pemindaian basis data berulang dan mengkonsumsi waktu yang lebih sedikit daripada Apriori dan Fpgrowth tetapi sangat tergantung pada data masukan dan sumber daya yang tersedia.
Jika diperhitungkan faktor lain selain waktu, hasilnya mungkin bervariasi tergantung pada faktor-faktor tersebut.
Penelitian ketiga oleh Thanathamathe dan Sawangarreera .
Hasil dari penelitian ini menyatakan bahwa Algoritma FP-Growth dan Eclat berhasil menemukan beberapa pola yaitu empat pola peningkatan pendapatan yang terkait kuat dengan kategori aset dan kewajiban dalam keuangan, sembilan pola penurunan pendapatan yang terkait kuat lainnya terkait dengan kewajiban, pendapatan, dan kategori beban dalam laporan keuangan, dan mengidentifikasi sepuluh akuntansi penting deskriptor yang mencerminkan laba masa depan.
Penelitian keempat oleh Syahrir, dkk .
Hasil dari penelitian ini adalah semakin besar dataset yang akan diolah, hasilnya akan lebih optimal jika menggunakan algoritma fpgrowth RapidMiner, namun kurang maksimal jika dataset yang akan diolah merupakan Fakultas Ilmu Komputer | Universitas Klabat | CORIS | ISSN: 2541-2221 | E-ISSN: 2477-8079 Cogito Smart Journal | VOL.
9 - NO.
DECEMBER 2023
dataset kecil.
Berbeda dengan menggunakan algoritma FP-growth Apriori dan Weka dimana rule yang dihasilkan kurang maksimal jika dataset yang digunakan besar dan optimal jika datasetnya kecil.
Metode yang digunakan sebagai perbandingan adalah algoritma Apriori tradisional fp-growth dan TPQ-Apriori.
Apriori Tradisional.
FPgrowth, dan TPQ-Apriori.
Untuk pengujian rule, hasil rule TPQ-Apriori dibandingkan dengan algoritma Fp-Growth pada tools Rapidminer dan Weka serta algoritma Apriori pada tools Weka.
Dari hasil pengujian.
TPQ-Apriori mampu lebih optimal dan Penelitian kelima oleh Indradewi dan Putri .
Penelitian ini menyatakan bahwa Penerapan Association Rule menggunakan algoitma FP-Growth dengan prosedur yang telah dilakukan diperoleh 12 aturan asosiasi dimana memiliki nilai lift ratio > 1 yang digunakan sebagai acuan untuk mendapatkan pengetahuan-pengatahuan baru dari data yang diolah.
Penelitian keenam oleh Ritha, dkk .
Penelitian menyatakan bahwa Algoritma apriori dapat digunakan untuk menentukan aturan asosiasi di poliklinik penyakit dalam RSUD Bintan.
Dalam penelitian ini, ditemukan 22 aturan asosiasi, yang memberikan ambang batas minimal support sebesar 6% dan minimal confidence sebesar 50%.
Dan hanya 9 aturan asosiasi yang dapat digunakan, dan 13 aturan asosiasi yang diperoleh dari total 22 aturan asosiasi tidak dapat digunakan.
Hal ini disebabkan karena informasi yang terdapat pada hasil aturan asosiasi 13 mengandung informasi yang kurang spesifik.
Penelitian ketujuh oleh Robu, dkk .
Penelitian ini membandingkan efisiensi algoritma Apriori dan Eclat dalam penambangan aturan asosiasi dengan mengevaluasi kinerjanya pada kumpulan data dunia nyata.
Selain efisiensi kinerja, makalah ini juga mempertimbangkan faktor-faktor penting dalam lingkungan bisnis seperti kuantitas aturan yang dihasilkan, daya tarik aturan, kelemahan algoritma, dan efisiensi waktu yang diperlukan untuk menghasilkan Studi ini menjelaskan bahwa di dunia yang datanya terus dihasilkan, penting untuk mengubahnya menjadi pengetahuan yang berharga, terutama bagi perusahaan besar yang ingin memahami perilaku pelanggan.
Penambangan aturan asosiasi penting untuk mengidentifikasi pola yang sering terjadi dalam kumpulan data besar, dengan fokus pada masalah Analisis Keranjang Pasar atau masalah Pembelajaran Aturan Asosiasi, yang bertujuan untuk mengidentifikasi kumpulan item yang paling sering muncul dalam kumpulan data transaksional.
Penelitian kedelapan oleh Islamiyah, dkk .
Makalah penelitian ini mengeksplorasi pentingnya data mining dalam menganalisis data transaksi dari minimarket untuk mendapatkan wawasan berharga tentang pola pembelian konsumen.
Studi ini membandingkan algoritma Apriori dan algoritma FP-Growth untuk mengidentifikasi aturan asosiasi berdasarkan pola pembelian konsumen.
Dengan menggunakan data primer dari transaksi penjualan, penelitian menemukan bahwa algoritma FP-Growth lebih cepat dan menghasilkan 10 aturan dibandingkan 11 aturan dari algoritma Apriori.
Temuannya menunjukkan bahwa informasi ini dapat dimanfaatkan untuk mengelola penempatan barang dan merancang konsep pemasaran, sehingga berpotensi meningkatkan penjualan.
Selain itu, penggunaan teknik data mining dan metode asosiasi di perusahaan ritel dapat membantu memahami kebutuhan konsumen dan merancang strategi pemasaran, yang pada akhirnya memungkinkan bisnis untuk mengoptimalkan penempatan barang dan stok.
Makalah ini juga membahas tentang proses data mining, kelebihan algoritma FP-Growth dibandingkan algoritma Apriori, dan perbandingan waktu eksekusi kedua algoritma.
Selain itu menguraikan berbagai tahapan dan langkah yang terlibat dalam penelitian menggunakan Fakultas Ilmu Komputer | Universitas Klabat | CORIS | ISSN: 2541-2221 | E-ISSN: 2477-8079 Cogito Smart Journal | VOL.
9 - NO.
DECEMBER 2023
metode CRISPDM, menekankan pentingnya memahami hubungan antara barang yang sering METODE PENELITIAN Untuk melakukan penelitian dibutuhkan alur penelitian sebagai langkah-langkah yang harus dilakukan agar penelitian dapat berjalan dengan baik, adapun alur penelitian dari penelitian ini adalah sebagai berikut :
Tahap Awal Alur dari penelitian ini berawal dari identifikasi masalah pada objek penelitian yang dilakukan serta studi pustaka yaitu dengan mengumpulkan dan menganalisa publikasipublikasi yang telah dilakukan sebelumnya serta mengambil beberapa referensi teori dari beberapa buku yang telah terbit dan berkaiatan dengan penelitian yang dilakukan sebagai rujukan untuk menentukan metode algoritma yang sesuai untuk penyelesaian permasalahan.
Pada tahap persiapan data, peneliti melakukan pengumpulan data klaim INACBGAos pada Rumah Sakit X.
Untuk data yang diambil adalah data pasien Rawat Inap selama satu tahun.
Variabel yang ada pada data INACBGAos adalah seperti yang tercantum pada Tabel 1.
Variabel Data INACBGAos sebagai berikut :
Tabel 1.
Variabel Data INACBGAos
Nama Variabel
KODE_RS
KELAS_RS
KELAS_RAWAT
KODE_TARIF
ADMISSION_DATE
DISCHARGE_DATE
BIRTH_DATE
BIRTH_WEIGHT
SEX
DISCHARGE_STATUS
DIAGLIST
PROCLIST
INACBG
DESKRIPSI_INACBG
TARIF_INACBG
TARIF_RS
LOS
NAMA_PASIEN
MRN
UMUR_TAHUN
UMUR_HARI
DPJP
SEP
Keterangan Variabel Kode Rumah Sakit Kelas Rumah Sakit Kelas Perawatan Kode Tarif INACBG Tgl Masuk Tgl Keluar Tanggal Lahir Berat Lahir Jenis Kelamin Status Pulang List Diagnosa (ICD .
List Prosedur (ICD .
Kode Group Diagnosa Keterangan Group Diagnosa Tarif INACBG Tarif Rumah Sakit Length Of Stay Nama Pasien Medical Record Number Umur dalam Tahun Umur dalam Hari Dokter Penanggung Jawab No SEP Fakultas Ilmu Komputer | Universitas Klabat | CORIS | ISSN: 2541-2221 | E-ISSN: 2477-8079 Cogito Smart Journal | VOL.
9 - NO.
DECEMBER 2023
NOKARTU
No.
Kartu BPJS Data yang sudah diambil kemudian dilakukan pre processing data yaitu melakukan pembersihan data dan transformasi data, setelah itu mengambil variabel Diaglist .
ist diagnose kode ICD .
untuk dijadikan dataset yang dibutuhkan pada proses selanjutnya.
Penentuan Skenario Pada tahap ini dilakukan proses pengolahan data terhadap dataset yang telah disiapkan sebelumnya, membuat model untuk masing-masing algoritma yang digunakan, dengan tahapan sebagai berikut :
Mencari frequensi item untuk masing-masing item data.
Mencari nilai support masing-masing item data.
Menentukan nilai minimum support untuk memfilter data yang dibutuhkan untuk proses Mencari asosiasi rule yang terbentuk dari hasil filter data.
Evaluasi Pada tahap ini mengevaluasi asosiai rule yang sudah ditemukan dengan mencari nilai confidence dan nilai lift ratio untuk setiap algoritma yang digunakan.
Tahap Akhir Pada tahap akhir menganalisa asosiasi rule dengan tahapan :
Mendeskripsikan antecendent dan consequent pada asosiasi rule yang terbentuk dalam bentuk kode ICD menjadi deskripsi diagnosa sesuai dengan Buku Kode Klasifikasi Penyakit dan Tindakan Medis ICD 10.
Memilih asosiasi rule terbaik dengan nilai confidence >60% dan nilai lift ratio > 1.
Membandingkan asosiasi rule yang terbaik dari ketiga model algoritma.
Hasil dari perbandingan ini maka ditemukan algoritma yang paling cocok untuk digunakan dalam menemukan pola frequensi dan aturan asosiasi pada dataset INACBG's.
Alur penelitian juga digambarkan pada Gambar 1.
Alur Penelitian sebagai berikut :
Fakultas Ilmu Komputer | Universitas Klabat | CORIS | ISSN: 2541-2221 | E-ISSN: 2477-8079 Cogito Smart Journal | VOL.
9 - NO.
DECEMBER 2023
Gambar 1.
Alur Penelitian HASIL DAN PEMBAHASAN Proses perbandingan ini menggunakan dataset DIAGLIST (ICD.
, dataset tersebut diperoleh dari data INACBGAos yang memiliki 24 variabel data sebelumnya.
Kami mengambil variabel DIAGLIST atau kelompok kode diagnose ICD10 sebagai dataset yang akan digunakan.
Dataset DIAGLIST berukuran 14672 baris dan 1 kolom.
Fakultas Ilmu Komputer | Universitas Klabat | CORIS | ISSN: 2541-2221 | E-ISSN: 2477-8079 Cogito Smart Journal | VOL.
9 - NO.
DECEMBER 2023
Tabel 2.
Dataset DIAGLIST
DIAGLIST
K36
D10.
R06.
K85.
R10.
C43.
K11.
K04.
S02.
S06.
K80.
L02.
D24
A09
Untuk mendapatkan aturan asosiasi pada dataset diperlukan 2 metodologi dasar dalam aturan asosiasi, yaitu analisis pola frekuens tinggi dan pembentukan aturan asosiatif .
Peneliti menggunakan algoritma Apriori.
FP-Growth dan ECLAT dengan memakai bahasa pemrograman Python untuk implementasinya.
Algoritma Apriori digunakan untuk menghitung jumlah aturan asosiasi antar item.
Aturan asosiasi mendefinisikan bagaimana dua atau lebih item terkait satu sama lain .
Itemset yang sering muncul dipilih untuk menentukan aturan asosiasi.
Algoritma Apriori memiliki langkah-langkah sebagai berikut :
Menentukan support dari itemset .
engan nilai k = .
pada database.
Tahap ini menghasilkan himpunan kandidat.
Jika ditemukan support lebih kecil dari ambang batas .
yang diberikan maka lakukan pemangkasan .
kumpulan kandidat.
Buat himpunan ukuran k 1 dengan menggabungkan himpunan item yang paling sering , dan ulangi himpunan di atas sampai dengan itemset tidak dapat dibentuk kembali.
Algoritma Apriori memiliki kelemahan karena harus melakukan scan database setiap kali iterasi, sehingga waktu yang dibutuhkan semakin bertambah iterasi.
Masalah ini diselesaikan dengan algoritma baru seperti FP-Growth .
Algoritma FP-Growth merupakan algoritma asosiasi yang dapat digunakan untuk mencari himpunan data yang paling sering muncul .
requent itemse.
pada sebuah kumpulan data .
Algoritma FP-Growth memiliki langkah-langkah sebagai berikut :
Sediakan set data Pengurutan didasarkan pada nilai frekuensi tertinggi dari item yang muncul Membentuk FP-tree Membentuk Conditional Pattern Base Membentuk Conditional FP-tree Membentuk Frequent Pattern Generated Mencari frequency 2 Itemset Mencari Support 2 Itemset dan Mencari Confidance 2 Itemset.
Algoritma FP-Growth memerlukan bantuan FP-Tree yang bertujuan untuk menemukan frequent itemset.
Dengan menggunakan FP-Tree.
Algoritma FP-Growth dapat langsung mengekstrak frequent itemset dari FP-Tree .
Algoritma ECLAT ditemukan oleh M.
Zaki tahun 1997.
Algoritma ECLAT melakukan pencarian item mulai dari yang sering muncul hingga item yang jarang muncul dengan dilakukan Fakultas Ilmu Komputer | Universitas Klabat | CORIS | ISSN: 2541-2221 | E-ISSN: 2477-8079 Cogito Smart Journal | VOL.
9 - NO.
DECEMBER 2023
tanpa memperhatikan urutan apapun.
Proses pemindaian dilakukan satu kali tanpa pengulangan .
Algoritma ECLAT memiliki langkah-langkah sebagai berikut :
Langkah pertama adalah mengidentifikasi semua item dalam dataset dan membuat itemset awal yang hanya mengandung satu item.
Selanjutnya, algoritma akan menghitung dukungan .
untuk setiap set item.
adalah jumlah transaksi yang mencakup itemset tersebut dibagi dengan jumlah total Setelah itu, itemset-itemset yang memiliki dukungan .
di atas batas minimum akan dipertahankan, sedangkan itemset-itemset yang tidak memiliki dukungan akan dihapus.
Algoritma kemudian akan membentuk itemset baru yang lebih panjang dengan menggabungkan itemset yang dipertahankan.
Proses penggabungan itemset-itemset dilakukan secara berulang hingga tidak ada lagi itemsetitemset baru yang terbentuk.
Terakhir, algoritma ini akan menghasilkan semua itemset yang memenuhi batas minimum dukungan .
Analisis Pola Frekuensi Tinggi Pada tahap ini dicari kombinasi item yang memenuhi syarat minimum dari nilai support pada database.
Persentase item atau kombinasi item yang ada pada database disebut nilai support .
Untuk menghitung frequensi dataset maka perlu membuat matrix itemset untuk menampilkan kemunculan kode ICD10 pada setiap transaksi seperti pada Gambar 2.
Matrix dibawah ini :
Gambar 2.
Matrix Itemset Pada Gambar 2.
Matrix Itemset diatas diketahui ukuran dari dataset DIAGLIST memiliki 14672 baris dan 2151 kolom.
Langkah selanjutnya menghitung frequensi dataset dengan menghitung nilai support tiaptiap itemset menggunakan algoritma apriori, fp-growth dan eclat.
Berikut ini cara mencari nilai support sebuah item dengan rumus persamaan sebagai berikut :
Fakultas Ilmu Komputer | Universitas Klabat | CORIS | ISSN: 2541-2221 | E-ISSN: 2477-8079 Cogito Smart Journal | VOL.
9 - NO.
DECEMBER 2023
ycIycycyycyycuycyc .
= yaycycoycoycaEa ycNycycaycuycycaycoycycn ycOycuycycyco ya ycNycuycycayco ycNycycaycuycycaycoycycn Rumus nilai support pada rumus persamaan .
menjelaskan bahwa nilai support adalah hasil bagi dari jumlah transaksi yang mengandung item A .
atu ite.
dengan total jumlah keseluruhan transaksi.
Sedangkan untuk nilai support dari 2 item diperoleh dari rumus persamaan sebagai berikut ycIycycyycyycuycyc .
a, yaA) = yaycycoycoycaEa ycNycycaycuycycaycoycycn ycycuycycyco ya yccycaycu yaA ycNycuycycayco ycNycycaycuycycaycoycycn Rumus persamaan .
menjelaskan bahwa nilai support 2-itemsets diperoleh dengan cara membagi jumlah transaksi yang mengandung item A dan item B dengan total jumlah keseluruhan Hasil dari perhitungan nilai support pada itemset terdapat pada tabel 3, sebagai berikut:
Tabel 3.
Hasil Perhitungan Nilai Support pada Itemset
Algoritma
Support
(>=)
001 Ae 0.
Jumlah Itemset
N=1
Jumlah Itemset
N=2
Jumlah Itemset
N=3
FP-Growth 001 Ae 0.
Eclat Apriori Dari hasil perhitungan pada Tabel 3.
Hasil Perhitungan Nilai Support pada Itemset didapatkan beberapa kesimpulan yaitu sebagai berikut :
Semakin kecil nilai support maka dihasilkan jumlah itemset lebih banyak Pada jumlah itemset N=1 dan nilai support 0.
001 didapatkan Jumlah Itemset terbanyak adalah pada perhitungan dataset menggunakan algoritma Eclat dengan jumlah itemset Jumlah itemset terbanyak pada itemset N=2 sebanyak 30 yang diperoleh dari perhitungan menggunakan algoritma Apriori dengan menggunakan nilai support 0.
Jumlah itemset N=3 didapatkan pada perhitungan menggunakan algoritma apriori dengan nilai support 0.
001 sebanyak 2 itemset dan pada nilai support 0.
008 sebanyak 1 itemset.
Fakultas Ilmu Komputer | Universitas Klabat | CORIS | ISSN: 2541-2221 | E-ISSN: 2477-8079 Cogito Smart Journal | VOL.
9 - NO.
DECEMBER 2023
Perhitungan ketiga algoritma menghasilkan jumlah itemset yang sama saat nilai 01 mendapatkan 12 itemset, dan pada saat nilai suppot 0.
02 mendapatkan 1 Pembentukan Aturan Asosiatif Setelah semua pola frekuensi tinggi telah diidentifikasi, tahap selanjutnya adalah dicari aturan asosiasi yang memenuhi syarat minimum untuk confidence dengan cara menghitung nilai confidence aturan assosiatif A B.
Rumus persamaan di bawah ini digunakan untuk menghitung nilai confidence aturan A B sebagai berikut :
a, yaA) = yaycycoycoycaEa ycNycycaycuycycaycoycycn ycycuycycyco ya yccycaycu yaA yaycycoycoycaEa ycNycycaycuycycaycoycycn ya .
Nilai confidence dihitung menggunakan rumus persamaan .
yaitu hasil bagi jumlah transaksi yang mengandung item A dan item B dengan jumlah total transaksi yang hanya mengandung item A, seperti terlihat pada rumus di atas.
Aturan asosiasi harus diurutkan menurut Support y Confidence untuk memilihnya.
kemudian aturan diambil sebanyak n aturan yang memiliki hasil terbesar.
Lift Ratio digunakan untuk menghitung kekuatan aturan asosiasi .
ssociation rul.
yang telah terbentuk dari nilai support dan confidence.
Nilai lift ratio juga digunakan sebagai penentu apakah aturan asosiasi valid atau tidak valid .
Antecedent dan consequent adalah dua item yang saling mempengaruhi sebab akibat dari kedua item tersebut.
Nilai dari expected confidence dihitung dengan rumus persamaan sebagai yaycuycyyceycaycyceycc yaycuycuyceycnyccyceycuycayce = yaycycoycoycaEa ycNycycaycuycycaycoycycn ycoyceycuyciycaycuyccycycuyci yaA yaycycoycoycaEa ycNycycaycuycycaycoycycn Ada 2 cara untuk menghitung Lift ratio yaitu sebagai berikut :
Membandingkan antara confidence untuk suatu aturan dibagi dengan expected confidence.
dengan rumus persamaannya sebagai berikut :
yaycuycuyceycnyccyceycuycayce yaycnyceyc ycIycaycycnycu = yaycuycyyceycaycyceycc yaycuycuyceycnyccyceycuycayce .
Membandingkan nilai support A B dibagi dengan perkalian antara nilai support A dan nilai support B, dengan rumus persamaan sebagai berikut :
ycIycycyycyycuycyc .
a,yaA) yaycnyceyc ycIycaycycnycu = .
cIycycyycyycuycyc.
OycIycycyycyycuycyc.
aA) .
Penulis akan menggunakan rumus persamaan .
untuk menghitung lift ratio dalam penelitian ini.
Jika nilai Lift Ratio lebih besar dari 1 mengandung arti adanya manfaat dari aturan Jika lebih tinggi nilai Lift ratio, maka lebih besar kekuatan asosiasinya .
Dari tabel 3 kita pilih nilai support 0.
01 untuk menampilkan aturan asosiasi yang terbentuk dengan menentukan nilai confidence > 0.
Hasil dari perhitungan ketiga algoritma menghasilkan aturan asosiasi sebanyak 7 itemset dengan komposisi kode ICD yang sama, adapun hasilnya sebagai berikut :
Fakultas Ilmu Komputer | Universitas Klabat | CORIS | ISSN: 2541-2221 | E-ISSN: 2477-8079 Cogito Smart Journal | VOL.
9 - NO.
DECEMBER 2023
Gambar 3.
Hasil Aturan Asosiasi Menggunakan Algoritma Apriori Gambar 4.
Hasil Aturan Asosiasi Menggunakan Algoritma FP-Growth Gambar 5.
Hasil Aturan Asosiasi Menggunakan Algoritma Eclat Setelah hasil aturan asosiasi yang terbentuk selanjutnya mendeskripsikan nilai antecendent dan consequent dalam bentuk kode ICD menjadi deskripsi diagnosa sesuai dengan Buku Kode Klasifikasi Diagnosa Penyakit ICD 10.
menjadi sebagai berikut :
O821 : Delivery by emergency caesarean section Z370 : Single live birth O809 : Single spontaneous delivery O429 : Premature rupture of membranes C20 : Malignant neoplasm of rectum Z511 : Encounter for antineoplastic chemotherapy and immunotherapy P929 : Feeding problem of newborn P599 : Neonatal jaundice E870 : Hyperosmolality and hypernatraemia J969 : Respiratory failure P071 : Other low birth weight Fakultas Ilmu Komputer | Universitas Klabat | CORIS | ISSN: 2541-2221 | E-ISSN: 2477-8079 Cogito Smart Journal | VOL.
9 - NO.
DECEMBER 2023
Aturan asosiasi dengan nilai support 0.
01 dan nilai confidence > 0.
6, sebagai berikut :
(O.
dan (Z.
dengan nilai confidence 0.
99 dan nilai lift ratio 20.
Jika pasien melahirkan dengan tindakan operasi caesar sebagian besar melahirkan 1 bayi (O.
dan (Z.
dengan nilai confidence 0.
95 dan nilai lift ratio 20.
Jika pasien melahirkan dengan normal sebagian besar melahirkan 1 bayi (O.
dan (Z.
dengan nilai confidence 0.
85 dan nilai lift ratio 18.
Jika pasien melahirkan bayi premature sebagian besar melahirkan 1 bayi (C.
dan (Z.
dengan nilai confidence 0.
74 dan nilai lift ratio 21.
Jika pasien didiagnosa tumor sebagian besar dilakukan kemoterapi (P.
dan (P.
dengan nilai confidence 0.
71 dan nilai lift ratio 35.
Jika pasien bayi baru lahir susah menelan sebagian besar terkena juga penyakit kuning (E.
dan (J.
dengan nilai confidence 0.
69 dani nilai lift ratio 22.
Jika pasien didiagnosa Hiperosmolalitas dan hypernatremia biasanya mengalami gagal (P.
dan (P.
dengan nilai confidence 0.
60 dan nilai lift ratio 30.
Jika pasien bayi lahir dengan berat badan rendah sebagian besar terkena juga penyakit Aturan asosiasi dengan nilai support 0.
02 dan nilai confidence > 0.
6 adalah sebagai berikut :
(O.
dan (Z.
dengan nilai confidence 0.
99 dan nilai lift ratio 20.
Jika pasien melahirkan dengan tindakan operasi caesar sebagian besar melahirkan 1 bayi 3 Perbandingan Waktu Proses dan Kapasitas Memori Untuk mendapatkan perbandingan dari kinerja ketiga algoritma yang digunakan, maka peneliti menghitung waktu proses dan kapasitas memori yang digunakan untuk melakukan perhitungan dalam pembentukan aturan asosiasi.
Perbandingan waktu proses dilakukan menggunakan library time pada python, proses yang dilakukan adalah mencari aturan asosiasi dengan nilai support 0.
01 dan confidence 0.
didapatkan hasil sebagai berikut :
Apriori FP Growth Eclat Gambar 6.
Grafik Waktu Proses Algoritma Pada Gambar 6.
Grafik Waktu Proses Algoritma dapat disimpulkan bahwa untuk waktu proses perhitungan pembentukan aturan asosiasi dengan menggunakan algoritma Eclat membutuhkan waktu paling lama yaitu 179,21 detik , sedangkan FP-Growth adalah algoritma yang paling cepat waktu prosesnya yaitu 2.
74 detik.
Penggunaan memori dihitung dengan menggunakan library tracemalloc pada python, proses yang dilakukan adalah mencari aturan asosiasi dengan nilai support 0.
01 dan confidence 0.
6 setelah Fakultas Ilmu Komputer | Universitas Klabat | CORIS | ISSN: 2541-2221 | E-ISSN: 2477-8079 Cogito Smart Journal | VOL.
9 - NO.
DECEMBER 2023
diuji maka didapatkan perbedaan kapasitas penggunaan memori dari ketiga algoritma sebagai 509,469,080 99,528,393 Apriori 31,759,608 FP Growth Eclat Gambar 7.
Grafik Penggunaan Memori pada Proses Algoritma Pada Gambar 7.
Grafik Penggunaan Memori pada Proses Algoritma dapat dilihat bahwa algoritma ECLAT membutuhkan kapasitas memori yang paling besar jika dibandingkan dengan kapasitas memori yang dibutuhkan algoritma apriori dan FP Growth untuk melakukan proses perhitungan pembentukan aturan asosiasi tersebut.
KESIMPULAN
Data yang digunakan dalam penelitian ini adalah data INACBGAos kemudian dipilih satu variabel bernama DIAGLIST yang berisi kombinasi kode diagnose ICD10 untuk dijadikan sebuah dataset, ukuran dataset DIAGLIST memiliki 14672 baris dan 2151 kolom.
Hasil dari proses pembentukan aturan asosiasi oleh algoritma Apriori.
FP Growth dan ECLAT pada dataset DIAGLIST, dengan menentukan nilai support 0.
01 dan confidence > 0.
6 didapatkan hasil yang sama yaitu memperoleh 7 aturan asosiasi, adapun deskripsi dari aturan asosiasi tersebut adalah AuJika pasien melahirkan dengan tindakan operasi caesar maka sebagian besar melahirkan 1 bayiAy.
AuJika pasien melahirkan dengan normal maka sebagian besar melahirkan 1 bayiAy.
AuJika pasien melahirkan bayi premature maka sebagian besar melahirkan 1 bayiAy.
AuJika pasien didiagnosa tumor maka sebagian besar dilakukan kemoterapiAy.
AuJika pasien bayi baru lahir mengalami susah menelan maka sebagian besar terkena juga penyakit kuningAy.
AyJika pasien didiagnosa Hiperosmolalitas dan hypernatremia maka biasanya mengalami gagal nafasAy.
AuJika pasien bayi lahir dengan berat badan rendah maka sebagian besar terkena juga penyakit kuningAy.
Aturan asosiasi yang dihasilkan dari frequent itemset dapat dipakai sebagai pendukung keputusan bagi fasilitas kesehatan dalam melakukan persiapan pelayanan yang berkaitan antara dua penyakit, meningkatkan pemantauan pelayanan pada kasus-kasus penyakit yang sering terjadi, dan meningkatkan persiapan obat, alat kesehatan dan sarana prasarana yang mendukung pelayanan Hasil perbandingan dari waktu proses perhitungan pembentukan aturan asosiasi dengan menggunakan algoritma Eclat membutuhkan waktu paling lama yaitu 179,21 detik , sedangkan FP-Growth adalah algoritma yang paling cepat waktu prosesnya yaitu 2,7484 detik.
Dalam proses pembentukan aturan asosiasi Algoritma ECLAT membutuhkan kapasitas memori yang paling besar jika dibandingkan dengan kapasitas memori yang dibutuhkan Algoritma Apriori dan FPGrowth untuk melakukan proses perhitungan pembentukan aturan asosiasi tersebut.
Maka dari hasil analisis ketiga perbandingan tadi peneliti menyimpulkan bahwa Algoritma FP-Growth adalah algoritma yang paling cocok dan efisien dalam melakukan proses pembentukan aturan asosiasi untuk dataset DIAGLIST pada database INACBG.
Fakultas Ilmu Komputer | Universitas Klabat | CORIS | ISSN: 2541-2221 | E-ISSN: 2477-8079 Cogito Smart Journal | VOL.
9 - NO.
DECEMBER 2023
SARAN
Penelitian ini hanya mengungkap hubungan antara kombinasi kode diagnose ICD10 pada variabel DIAGLIST di database INACBGAos, peneltian ini dapat dkembangkan lagi dengan mengungkap semua variabel-variabel lain yang dimiliki database INACBGAos.
Belum banyak yang meneliti bidang datascience yang menggunakan database INACBGAos sehingga masih dapat dikembangkan lagi pada penelitian-penelitian selanjutnya.
DAFTAR PUSTAKA