Analisa data transaksi penjualan barang menggunakan algoritme Apriori dan FP-Growth Harianto1 dan Hadryan Eddy2 Program Magister Teknik Informatika Program Pascasarjana Universitas Amikom Yogyakarta Jl. Ring Road Utara. Condong Catur. Sleman. Yogyakarta 55283 27@students. Program Magister Teknik Informatika Program Pascasarjana Universitas Amikom Yogyakarta Jl. Ring Road Utara. Condong Catur. Sleman. Yogyakarta 55283 hadrian@students. Abstrak Transaksi penjualan barang pada sebuah perusahaan terjadi setiap hari mengakibatkan semakin bertambah banyaknya catatan transaksi penjualan. Banyak dari perusahaan menjadikan transaksi penjualan itu hanya sebagai arsip belaka sehingga pada akhirnya mengakibatkan sebuah perusahaan mengalami kekurangan stok barang. Tentunya hal demikian terjadi karena transaksi penjualan barang tidak dianalisa dan dipelajari polanya. Terdapat beberapa metode data mining yang dapat digunakan untuk menganalisa pola pembelian barang secara bersamaan oleh pembeli. Diantara metode yang sering kali digunakan adalah Apriori dan FP-Growth. Pada penelitian ini, bertujuan untuk menemukan pola pembelian barang secara bersamaan berdasarkan bulan selama satu tahun. Untuk menemukan pola pembelian tersebut digunakan algoritme Apriori dan FP-Growth kemudian membandingkan hasil dalam menemukan pola kombinasi yang dihasilkan dalam dataset. Hasil dari penelitian ini algoritme Apriori membutuhkan waktu yang lebih cepat dalam memperoses dan menampilkan hasil tapi rules yang didapatkan lebih sedikit dibandingkan algoritma FP-Growth. Sedangkan algoritme FP- Growth membutuhkan waktu yang lebih lama dbandingkan algoritme Apriori tapi menghasilkan rules yang lebih banyak dibandingkan algoritme Apriori. Kata Kunci transaksi penjualan, data mining, association rule, apriori, fp-growth Pendahuluan Terdapat sebuah teknik dalam data mining disebut Market Basket Analysis (MBA) atau dikenal juga sebagai Association Rule Mining (ARM) yang merupakan teknik untuk menemukan barang yang dibeli bersama berdasarkan pada perilaku pembelian pelanggan . Metode yang sering digunakan untuk menganalisis keranjang belanja pada MBA adalah algoritme Apriori . K-Apriori . ARM-Predictor . FP-Growth . dan Neural Networks . Metode tersebut pernah dipakai oleh para peneliti dalam menganalisis MBA untuk mengetahui perilaku pelanggan dalam pembelian barang bersama kemudian digunakan untuk membuat rekomendasi keputusan untuk tata letak barang, memprediksi kebutuhan inventaris barang pada tahun berikutnya . dan rekomendasi barang kepada pelanggan online . Apriori adalah algoritme yang paling klasik dan cukup penting dalam Frequent Itemsets Mining (FIM). Walaupun banyak dikembangkan algoritme serupa yang lebih efisien, seperti FP-Growth. LCM, dan sebagainya. Apriori masih tetap paling banyak digunakan dan diimplementasikan dalam produk komersial untuk data mining karena dianggap sebagai algoritme yang lebih mapan . Kunci utama dalam proses algoritme Apriori adalah A Harianto dan Hadryan Eddy. licensed under Creative Commons License CC-BY Jurnal Open Access Yayasan Lentera Dua Indonesia Analisa data transaksi penjualan barang menggunakan algoritme Apriori dan FP-Growth membuat beberapa tahap iterasi di dalam database . Dijelaskan juga bahwa tiap iterasi menghasilkan pola frekuensi yang dihitung dengan cara meng-scan database untuk mendapatkan support dari setiap item. Setelah support dari setiap item didapat, item yang memiliki support di atas minimum support dipilih menjadi pola frekuensi tinggi dengan panjang satu atau sering disebut 1 Oe itemset. Istilah k Oe itemset adalah istilah untuk satu set yang terdiri dari k item. Sementara iterasi kedua akan menghasilkan 2 Oe itemset yang tiap setnya memiliki dua item . Dalam penggunaannya, algoritme Apriori dapat mengurangi jumlah kandidat yang harus dihitung supportnya dengan cara pemangkasan. Pemangkasan inilah yang membuat algoritme Apriori memiliki performa yang baik . Di samping memiliki performa yang baik, algoritme Apriori juga memiliki kelemahan . Beberapa peneliti menyimpulkan kelemahan yang yang ada di algoritme Apriori berada pada proses scanning yang wajib dilakukan pada setiap kali iterasi sehingga akan memerlukan waktu yang cukup lama dan kemampuan komputasi yang besar. Kekurangan algoritme Apriori ini sudah tidak lagi ditemukan dalam algoritme -algoritme baru yang serupa, seperti contohnya FP-Growth. Mereka juga mengatakan bahwa algoritme Apriori masih perlu diteliti dan dikembangkan lagi dalam kaitannya dengan bidang data mining. FP-Growth merupakan salah satu alternatif algoritme yang cukup efektif untuk mencari himpunan data yang paling sering muncul . requent itemse. dalam sebuah kumpulan data yang besar . FP-Growth memiliki kecepatan dalam menampilkan hasil dibandingkan dengan Apriori, namun gagal dalam menghasilkan nilai confidence yang tinggi . FPGrowth memiliki kelebihan mengenali suatu objek secara non-linier, mempermudah pemetaan input menjadi suatu hasil tanpa mengetahui proses sebenarnya, kuat di parallel processing dan kemampuan untuk mentoleransi. Pada penelitian ini akan membandingkan algoritme Apriori dan algoritme FP-Growth dalam menampilkan himpunan data yang paling sering muncul . requent itemse. per bulan dalam sebuah kumpulan data yang besar dan waktu yang dibutuhkan dalam menampilkan himpunan data tersebut. Metodologi Para peneliti Rusia berhasil dalam penyatuan dua sumber data yang sangat berbeda. Penelitian itu juga dapat mengelola penyaringan dan pemilihan data yang sangat berguna untuk adaptasi data K-train dataset. Penemuan itu tentunya sangat berguna untuk menganalisis MBA dengan sumber data yang berbagai macam untuk perbaikan sistem tata letak barang . Sebagai contoh, para peneliti lebih banyak berputar studi mereka di sekitar aturan asosiasi, hubungan antar barang yang dibeli bersama oleh pelanggan . Para peneliti mencoba mengembangkan algoritme Apriori yang merupakan algoritme klasik dan cukup penting dalam FIM. Contoh dari beberapa algoritme apriori yang dikembangkan adalah ARM Predictor Algorithm. Algoritme tersebut secara otomatis melacak perubahan fakta dari data sebelumnya. Hasilnya sangat dipengaruhi oleh nilai ambang batas manual untuk skor, sehingga diperlukan untuk mengotomatiskan nilai ambang batas menjadi lebih baik dalam mencari outlier . Dalam analisis keranjang pasar terhadap perilaku pelanggan dalam pembelian barang secara bersama beberapa peneliti yang dilakukan dengan menggunakan Apriori menyimpulkan bahwa Apriori memiliki kelemahan dalam kecepatan menampilkan hasil. Hal ini bisa diatasi dengan menggunakan algoritme sejenis dengan Apriori yaitu FP-Growth yang memiliki kecepatan yang lebih baik dalam menampilkan hasil dibandingkan dengan Apriori, namun gagal dalam menghasilkan nilai confidence yang tinggi . Harianto dan Eddy. Dataset yang digunakan dalam penelitian ini diambil pada retail online transaksi pada Ritel online atau belanja online adalah suatu bentuk perdagangan elektronik yang memungkinkan konsumen untuk langsung membeli barang atau jasa dari seorang penjual melalui internet tanpa jasa perantara. Sebuah toko online, e-toko, e-toko, toko internet, web-toko, web- store , toko online, atau toko virtual membangkitkan analogi fisik membeli produk atau jasa pada batu bata-dan-mortir pengecer atau pusat perbelanjaan . Proses ini disebut business-to-consumer (B2C) belanja online. Tahapan penelitian Penelitian dimulai dengan mengambil dataset pada retail online kemudian memilih berdasarkan bulan dengan pemodelan percobaan menjadi 7 percobaan. Kemudian algoritme Apriori dan FP-Growth dibandingkan berdasarkan jumlah kombinasi itemset yang dihasilkan dan perbandingan efisiensi waktu yang digunakan dalam membuat aturan. Hasil percobaan tersebut membuktikan perbandingan pola yang dihasilkan dari setiap algoritme dan kemudian dapat digunakan sebagai bahan analisis dalam meningkatkan strategi penjualan bagi pihak lain yang ingin melakukan analisis menggunakan salah satu atau kedua dari algoritme Alur penelitian dapat dilihat pada Gambar 1 berikut. Gambar 1 Alur penelitian Pada penelitian ini rumus dalam algoritme Apriori yang digunakan menghitung kecenderungan kemunculan itemset dalam jumlah transaksi yang mengacu pada frequency, support count atau count itemset . Pada algoritme FP-Growth yang merupakan salah satu algoritme dari teknik association rule digunakan untuk menentukan himpunan data yang paling sering muncul . requent itemse. dalam sebuah kumpulan data. Pada bagian ini penelitian menggunakan rumus dari analisis pola frekuensi tinggi dan pembetukan aturan asosiatif . Analisa data transaksi penjualan barang menggunakan algoritme Apriori dan FP-Growth Hasil dan pembahasan Berdasarkan metodologi penelitian, beberapa tahap penting yang akan dilakukan untuk menyelesaikan penelitian ini. Adapun tahapan tersebut terdiri dari perencanaan, pengumpulan dan pengolahan data, perhitungan association rule menggunakan algoritme priori dan FP-Growth serta membandingkan hasil pola yang didapatkan oleh kedua algoritme . Data yang digunakan telah dilakukan preprocessing dan melakukan pemilahan data berdasarkan bulan, setelah itu baru kemudian melakukan kombinasi eksperimen. Eksperimen dilakukan tujuh kali dalam data: Januari. Februari. Maret. April. Mei. Juni dan Juli. Tabel 1 Retail online dataset Bulan Jumlah transaksi Januari Februari Maret April Mei Juni Juli Percobaan dilakukan sebanyak 7 kali dengan menentukan nilai minimum support = 0. nilai minimum confidence = 0. 08 dan nilai lift = 6. Peroses percobaan dilakukan dengan menggunakan bahasa pemrograman Python 3 dengan platform Jupyter. Sebagai contoh pada tahap yang dilakukan akan dipaparkan langkahnya pada precobaan pertama yaitu pada bulan Januari. Adapun tahap yang dilakukan adalah : menginport library dan dataset, membersihkan data, memisahkan data sesuai dengan bulan transaksi, pengkodean data, dan membangun model dan menganalisis hasilnya. Hasil dari analisis atau pembuatan rules pada item set menggunakan algoritme Apriori ataupun FP-Growth dalam menemukan pola penjualan barang dapat dilihat pada Gambar 2 dan Gambar 3. Gambar 2 Hasil algoritme Apriori data bulan januari Dari hasil percobaan pertama dengan data transaksi penjualan pada bulan Januari sampai percobaan ke tujuh dengan data pada masing-masing bulan dapat dilihat perbandingan hasil pola item set atau rules yang dihasilkan oleh masing-masing algoritme dan waktu efisiensi Harianto dan Eddy. Gambar 3 Hasil algoritme FP-Growth data bulan januari Tabel 2 Rules dan perbandingan efisiensi waktu algoritme Apriori dan FP- growth Bulan Januari Februari Maret April Mei Juni Jumlah rules support >=0. 05 dan waktu proses apriori. ulesFP-growth. 5 - 0. 472 - 0. 5 - 0. 34 - 0. 5 - 0. 50 - 0. 5 - 0. 36 - 0. 5 - 0. 144 - 0. 5 - 0. 102 - 0. Jumlah rules lift >= 6 dan confidence >= 0. 08 dan waktu proses apriori. ulesFP-growth. 6 - 0. 49 - 0. 4 - 0. 8 - 0. 11 - 0. 18 - 0. 0 - 0. 6 - 0. 3 - 0. 9 - 0. 19 - 0. 29 - 0. yang dibutuhkan dalam memproses dan menampilkan hasil. Untuk lebih jelas hasilnya dapat dilihat pada Table 2. Jumlah rules dengan nilai support >= 0. 05 jumlah rules yang didapatkan dari percobaan pertama bulan januari sampai percobaan ke tujuh bulan Juli untuk algoritme Apriori adalah 30 rules atau 2%. Sedangkan rules yang didapatkan oleh algoritme FP-Growth adalah 1. rules atau 98%. Ini menandakan bahwa algoritme FP-Growth lebih banyak menghasilkan pola pembelian atau item set dibandingkan dengan algoritme Apriori. Hasilnya bisa dilihat pada Gambar 4. Untuk perbandingan efisiensi waktu yang dibutuhkan untuk menghasilkan rules dalam satuan detik jika dijumlahkan keseluruhan waktu pada tujuh percobaan, algoritme apriori membutuhkan waktu 0. 3357 detik atau 22% dan FP-Growth 1. 2110 detik atau 78%. Artinya algoritme Apriori membutuhkan waktu yang lebih sedikit untuk menampilkan hasil rules sedangkan FP-Growth membutuhkan waktu yang lebih lama 0. 8752 detik dibandingkan algoritme Apriori. Perbandingan waktu efisiensi bisa dilihat pada Gambar 5. Kemudian dilihat jumlah rules dengan nilai lif t >= 6 dan nilai conf idence >= 0. 08 dan waktu proses pada seluruh percobaan. Jika dibandingkan jumlah rules yang diperoleh oleh kedua algoritme dari percobaan pada bulan januari sampai dengan bulan Juli, maka algoritme Apriori memperoleh 57 rules atau 18% sedangkan algoritme FP-Growth memperoleh 256 rules atau 82%. Ini artinya dengan nilai lif t >= 6 dan nilai conf idence >= 0. 08, algoritme FP-Growth masih lebih unggul dibandingkan algoritme Apriori dalam menghasilkan pola atau item set. Untuk lebih jelas bisa dilihat hasilnya pada Gambar 6. Untuk perbandingan efisiensi waktu yang dibutuhkan untuk menghasilkan rules dalam Analisa data transaksi penjualan barang menggunakan algoritme Apriori dan FP-Growth Gambar 4 Perbandingan rules dengan nilai support >=0. Gambar 5 Perbandingan rules dengan nilai support >=0. satuan detik jika dijumlahkan keseluruhan waktu pada tujuh percobaan, algoritme apriori membutuhkan waktu 0. 0424 detik atau 39% sedangkan algoritme FP-Growth 0. 0650 detik atau 61%. Artinya algoritme Apriori membutuhkan waktu yang lebih sedikit untuk menampilkan hasil rules sedangkan FP-Growth membutuhkan waktu yang lebih lama 0. detik dibandingkan algoritme Apriori. Pada penelitian sebelumnya. , algoritme Apriori membutuhkan waktu yang lebih lama dibandingkan algoritme FP-Growth. Perbandingan waktu efisiensi bias dilihat pada Gambar 7 Harianto dan Eddy. Gambar 6 Perbandingan rules dengan nilai support >=0. Gambar 7 Perbandingan rules dengan nilai support >=0. Kesimpulan dan saran Hasil dari penelitian ini adalah menemukan perbedaan pola pembelian barang yang dilakukan oleh pembeli berdasarkan bulan dengan menggunakan algoritme Apriori dan FP-Growth. Algoritme FP-Growth pada tiap bulannya lebih banyak menampilkan pola yang dihasilkan dibandingkan dengan Apriori. Untuk rules yang dihasilkan oleh algoritme Apriori masih PUSTAKA lebih sedikit dibandingkan dengan FP-Growth sedangkan pada efisiensi waktu Apriori lebih cepat atau membutuhkan waktu yang relatif sedikit dibandingkan dengan FP-Growth dalam mengolah data dan menampilkan hasil. Untuk meningkatkan hasil pola yang didapatkan dan untuk menyempurnakan hasil penelitian yang telah dibuat ini, maka peneliti memberikan saran sebagai berikut : menambah algoritme data mining yang digunakan untuk MBA untuk menemukan pola item set yang lebih bervariasi. Diharapkan untuk seleksi dataset per bulan menggunakan kode, karena pada penelitian ini transaksi dipisahkan filenya berdasarkan bulan. Pustaka 1 N. Isa. Kamaruzzaman. Ramlan. Mohamed, and M. Puteh. AuMarket basket analysis of customer buying patterns at corm cafy,Ay International Journal of Engineering & Technology, vol. 7, no. 42, pp. 119Ae123, 2018. 2 I. Surjandari and A. Seruni. AuDesign of product placement layout in retail shop using market basket analysis,Ay Makara Journal of Technology, vol. 9, no. 2, pp. 43Ae47, 2010. 3 N. Kawale and D. Snehil. AuMarket basket analysis using apriori algorithm in r language,Ay nternational Journal of Trend in Scientific Research and Development, vol. 4, pp. 2628Ae2633, 2018. 4 A. Valarmathi. Durga, and M. Fathima. AuMarket basket analysis for mobile showroom. Ay International Journal for Research in Applied Science & Engineering Technology, vol. X, pp. 1279Ae1284, 2017. 5 M. Kaur and S. Kang. AuMarket basket analysis: Identify the changing trends of market data using association rule mining,Ay Procedia computer science, vol. 85, pp. 78Ae85, 2016. 6 N. Maheshwari. Pandey, and P. Agarwal. AuMarket basket analysis using association rule learning,Ay International Journal of Computer Applications, vol. 975, p. 8887, 2016. 7 A. Mansur and T. Kuncoro. AuProduct inventory predictions at small medium enterprise using market basket analysis approach-neural networks,Ay Procedia Economics and Finance, 4, pp. 312Ae320, 2012. 8 A. Izang. Okoro. Olarewaju. Fasanu, and A. Adeyinka. AuAutomated market basket analysis system,Ay International Journal of Computer Applications, vol. 180, no. 9 K. Kumar and R. Chezian. AuA survey on association rule mining using apriori algorithm,Ay International Journal of Computer Applications, vol. 45, no. 5, pp. 47Ae50, 10 R. Gupta. Ratan. Rajesh. Chen. Kim. Burhans. Miller. Santhosh. Davuluri. Butte et al. AuSequencing and analysis of a south asian-indian personal genome,Ay BMC genomics, vol. 13, no. 1, p. 440, 2012. 11 P. Devi. Rao. Sigamani. Faruqui. Jose. Gupta. Kerkar. Jain. Joshi. Chidambaram et al. AuPrevalence, risk factors and awareness of hypertension in india: a systematic review,Ay Journal of human hypertension, vol. 27, no. 5, pp. 281Ae287, 12 B. Patel. Chaudhari. Karan, and Y. Rana. AuOptimization of association rule mining apriori algorithm using aco,Ay International Journal of Soft Computing and Engineering, vol. 1, no. 1, pp. 24Ae26, 2011. 13 S. Kumar. Karanth. Akshay. Prabhu, and B. Kumar. AuImproved aprori algorithm based on bottom up approach using probability and matrix,Ay International Journal of Computer Science Issues (IJCSI), vol. 9, no. 2, p. 242, 2012. PUSTAKA