Prosiding KONSTELASI Vol. 2 No. Juni 2025 Pencarian HighUtility Itemset pada Dataset YooChoose Buys R T Nugroho*1. R Gunawan2 Program Studi Informatika. Universitas Sanata Dharma. DIY. Indonesia E-mail: ranggatrinugroho2430@gmail. com1, rido@usd. Abstrak. Perkembangan e-commerce yang pesat, membuat strategi penjualan harus dioptimalkan untuk meningkatkan keuntungan bisnis. Dalam upaya untuk meningkatkan keuntungan, penting untuk mengidentifikasi pola pembelian pelanggan yang dapat memberikan keuntungan maksimal. Data mining menawarkan beberapa metode analisis pola pembelian, seperti Frequent Itemset Mining (FIM) dan High utility Itemset (HUI). FIM dapat menghasilkan pola yang kurang relevan bagi bisnis karena hanya mempertimbangkan kemunculan item daripada nilai ekonominya, metode HUI, khususnya algoritma HUI-Miner, digunakan untuk mengidentifikasi itemset yang mempunyai nilai keuntungan yang tinggi. HUI-Miner memanfaatkan struktur utility-list untuk meningkatkan efisiensi dalam pencarian pola pembelian yang menguntungkan. HUI-Miner diterapkan pada dataset transaksi YooChoose Buys untuk menganalisis pola pembelian pelanggan. Hasil analisis menunjukkan bahwa algoritma HUIMiner mampu menemukan itemset yang bernilai tinggi secara efisien. Semakin tinggi threshold yang digunakan, semakin sedikit itemset yang memenuhi kriteria sebagai HUI, yang menunjukan bahwa pemilihan threshold yang tepat sangat berpengaruh terhadap hasil analisis. Hasil ini dapat dimanfaatkan untuk mengoptimalkan strategi pemasaran dan pengelolaan stok untuk meningkatkan keuntungan penjualan. Kata kunci: E-commerce. Data mining. High Utility Itemset. HUI-Miner Abstract. The rapid development of e-commerce, makes sales strategies must be optimized to increase business profits. In an effort to increase profits, it is important to identify customer purchasing patterns that can provide maximum profit. In overcoming these problems, data mining offers several methods of analyzing purchasing patterns, such as Frequent Itemset Mining (FIM) and High utility Itemset (HUI). FIM can produce patterns that are less relevant to business because it only considers the occurrence of items rather than their economic value. HUI methods, especially the HUI-Miner algorithm, are used to identify itemsets that have high profit value. This algorithm can utilize the utility-list structure to improve efficiency in finding profitable purchase patterns. HUI-Miner is applied to the YooChoose Buys transaction dataset to analyze customer purchase patterns. The analysis results show that the HUI-Miner algorithm is able to find high-value itemsets efficiently. The higher the threshold used, the fewer itemsets that meet the criteria as HUI, which shows that the selection of the right threshold greatly affects the analysis results. These results can be used to optimize marketing strategies and stock management to increase sales profits. Keywords: E-commerce. Data mining. High Utility Itemset. HUI-Miner Pendahuluan E-Commerce, atau electronic commerce, adalah bentuk perdagangan elektronik yang memungkinkan penjualan barang dan jasa dilakukan secara online melalui media elektronik, khususnya internet. Perdagangan elektronik memainkan peran penting dalam memajukan teknologi informasi dan Prosiding KONSTELASI Vol. 2 No. Juni 2025 komunikasi . Penyebaran internet yang sangat besar telah mendorong pertumbuhan e-commerce, karena internet dan telepon sudah menjadi bagian dari kehidupan setiap orang . Pertumbuhan ini dapat terlihat pada data dari YooChoose, yang menunjukkan aktivitas pembelian pengguna dalam bisnis e-commerce besar di Eropa selama periode enam bulan, khususnya pada platform yang menjual berbagai kebutuhan konsumen . Seiring dengan pertumbuhan yang pesat ini, penting untuk mengoptimalkan penjualan agar bisnis tetap kompetitif. Dalam upaya tersebut terdapat beberapa metode analisis pola pembelian yang umum digunakan dalam transactional database, seperti Frequent Itemset Mining (FIM) dan High utility itemset (HUI) yang sudah banyak dipakai untuk permasalahan yang berkaitan dengan jumlah pembelian barang dan keuntungan dari barang yang dibeli . Metode Frequent Itemset Mining (FIM) memiliki kelebihan dalam mengurangi ruang pencarian, sehingga dapat mengurangi jumlah kombinasi yang perlu dieksplorasi namun, kelemahan dari metode ini adalah bahwa FIM hanya mempertimbangkan frekuensi kemunculan itemset tanpa mempertimbangkan nilai atau profitabilitas setiap item. Akibatnya, metode ini dapat menghasilkan itemset yang tidak relevan atau tidak menguntungkan . Dalam kehidupan nyata, pola yang sering muncul tidak selalu merupakan pola yang paling menarik atau berguna . Metode High utility itemset (HUI) dapat mengatasi kelemahan yang terdapat pada metode Frequent Itemset Mining (FIM) karena HUI memungkinkan analisis yang lebih relevan dalam konteks bisnis dengan mempertimbangkan nilai atau keuntungan dari setiap item, bukan hanya frekuensinya saja . HUI-Miner, dirancang untuk meningkatkan efisiensi dalam menemukan itemset dengan utilitas Algoritma ini menggunakan struktur utility-list untuk menyimpan informasi utilitas dan heuristik. HUI-Miner dapat menghitung utilitas itemset dengan lebih cepat tanpa perlu memindai ulang database. Hal ini sangat menguntungkan ketika bekerja dengan dataset besar, di mana pemindaian ulang dapat menjadi sangat mahal . Penelitian ini bertujuan untuk melihat kinerja dari algoritma HUI-Miner dengan menggunakan data transaksi dari e-commerce YooChoose untuk mengidentifikasi pola pembelian yang bernilai tinggi. Dengan menerapkan algoritma ini diharapkan dapat ditemukan pola transaksi yang tidak hanya sering terjadi tetapi juga memberi keuntungan optimal bagi bisnis. Kerangka Teoritis E-Commerce E-commerce adalah jenis transaksi bisnis seperti distribusi, pembelian, penjualan, dan pelayanan yang dilakukan secara elektronik melalui jaringan komputer, terutama internet, tetapi juga jaringan eksternal. Akses internet, kemudahan mendapatkan informasi, kemampuan tenaga kerja, dan tanggung jawab manajemen informasi adalah beberapa dimensi atau indikator e-commerce. Dimensi ini mencakup proses, pemasaran, dan pembayaran . Istilah e-commerce secara umum digunakan untuk menggambarkan penjualan barang dan jasa melalui internet . Pada tahun 2015 RecSys mengadakan kompetisi atau challenge yang berfokus pada isu-isu yang berkaitan dengan sistem rekomendasi. Kompetisi tersebut menggunakan data yang disediakan oleh YooChoose, sebuah perusahaan yang menyediakan layanan di bidang e-commerce. Dataset yang disediakan oleh YooChoose terbagi menjadi dua bagian, bagian pertama berisi tentang training data file, bagian kedua berisi tentang test data file . Data mining Data mining adalah proses mengekstraksi dan mengidentifikasi informasi terkait dari berbagai database besar menggunakan metode statik, matematika, kecerdasan buatan (AI), dan pembelajaran mesin . Data mining secara khusus adalah suatu proses ekstraksi atau penggalian data dan informasi yang besar, yang belum diketahui sebelumnya, namun dapat dipahami dan berguna dari database yang besar serta digunakan untuk membuat suatu keputusan bisnis yang sangat penting . Data mining telah berkembang menjadi alat bantu untuk menemukan pola penting dalam basisdata yang sangat besar, yang tidak dapat ditemukan secara manual . Prosiding KONSTELASI Vol. 2 No. Juni 2025 High Utility Itemset (HUI) Pengertian HUI. High Utility Itemset adalah itemset yang memenuhi ambang batas minimum utilitas yang ditentukan oleh pengguna. Artinya. HUI adalah kombinasi item yang tidak hanya sering muncul dalam transaksi, tetapi juga memberikan nilai yang signifikan ketika dipertimbangkan bersamasama . HUI merupakan masalah penambangan data yang populer karena mempertimbangkan faktor utilitas, seperti kuantitas dan keuntungan unit item selain ukuran frekuensi dari basis data transactional, hal ini membantu menemukan produk/item yang sulit dilacak hanya dengan menggunakan frequent itemset . Tujuan High Utility Itemset. Tujuan utama dari HUI yaitu, untuk mengidentifikasi kombinasi item yang memberikan nilai utilitas tinggi dalam transaksi. Hal ini membantu dalam memahami itemset mana yang paling menguntungkan bagi bisnis atau organisasi. Dengan mengetahui itemset yang memiliki utilitas tinggi, perusahaan dapat membuat keputusan yang lebih baik terkait strategi pemasaran, pengelolaan inventaris, dan penawaran produk. Ini memungkinkan perusahaan untuk fokus pada item yang memberikan kontribusi terbesar terhadap pendapatan. Dengan fokus pada itemset yang memberikan utilitas tinggi, perusahaan dapat meningkatkan profitabilitas mereka dengan mengoptimalkan penawaran produk dan mengurangi biaya yang terkait dengan item yang kurang menguntungkan . Langkah-langkah Menemukan High Utility Itemset (HUI). Langkah-langkah berikut menjelaskan proses untuk menemukan HUI dengan menggunakan algoritma HUI-Miner: Persiapan data, mengumpulkan dan menyiapkan data transaksi yang berisi item-item yang dibeli dalam setiap transaksi. Hitung utilitas dasar, hitung utilitas dasar setiap item dalam basis data dengan mengalikan harga per unit dan jumlah item yang terjual. Perhitungan utilitas diperoleh dengan menggunakan yc. cnyc , ycNyc ) = yc. cnyc , ycNyc ) y ycyyceyc. cnyc ) . Keterangan: j,T. = kuantitas dari item ij dalam transaksi Tq. Kuantitas menunjukkan jumlah item ij yang terdapat dalam transaksi tersebut. = profit per unit dari item ij. Profit per unit adalah nilai atau harga yang diperoleh dari setiap unit item. Tentukan ambang batas, tentukan batas minimum utility . Hanya itemset yang memiliki utility lebih dari batas ini yang akan dianggap sebagai HUI. Membuat utility list, untuk setiap item, buat daftar utilitas. Daftar utilitas membantu dalam proses pruning karena menyimpan informasi tentang utilitas dari itemset yang relevan. Pruning Awal, mengurangi jumlah item yang perlu dievaluasi, lakukan pruning awal untuk menyingkirkan item yang utilitasnya lebih rendah dari ambang batas. yaycOya Ia {X. c(X) Ou ycNycO y y. Keterangan: u(X) = utilitas dari itemset X. Utilitas ini dihitung berdasarkan nilai dan kuantitas item dalam itemset tersebut. = total utilitas dari seluruh basis data = ambang batas minimum . yang ditetapkan untuk menentukan apakah itemset tersebut dianggap sebagai HUI Prosiding KONSTELASI Vol. 2 No. Juni 2025 Generate Candidate Itemsets. HUI-Miner membuat kandidat item dari itemset yang sudah ada. Proses ini menggabungkan itemset yang sudah ada melalui operasi penggabungan . oin operatio. untuk membentuk itemset baru. Hitung utility untuk kandidat, hitung utility untuk setiap kandidat itemset yang dihasilkan. Bandingkan utility ini dengan threshold . mbang bata. yang telah ditentukan. Identifikasi HUI, itemset yang utilitasnya lebih besar dari ambang batas disebut HUI dan harus disimpan untuk analisis lebih lanjut. Iterasi, ulangi proses ini untuk itemset yang lebih besar hingga tidak ada kandidat baru yang dapat dihasilkan. Evaluasi hasil, setelah menemukan HUI, evaluasi hasilnya untuk memastikan bahwa itemset yang ditemukan relevan dan bermanfaat. Output HUI. Hasilnya adalah daftar HUI yang ditemukan, yang dapat digunakan untuk analisis dan pengambilan keputusan bisnis berikutnya. Metodologi Penelitian Metodologi yang digunakan dalam penelitian ini terbagi menjadi beberapa tahap seperti yang ditunjukkan pada Gambar 1. Gambar 1. Tahapan Penelitian Tahapan penelitian ini dibagi menjadi beberapa langkah yaitu: Inisialisasi Data Insialisasi data adalah tahap pertama penelitian. Pada tahap ini, peneliti menentukan subjek penelitian, mengumpulkan data dari sumber yang relevan, dan memilih atribut awal yang paling relevan untuk dianalisis. Persiapan Data (Data Preparatio. Tahap selanjutnya adalah data preparation, yaitu mempersiapkan data dari hasil inisialisasi data agar bisa diproses dan di analisa lebih lanjut. Pada tahap ini, data diperiksa untuk memastikan konsistensi, dibersihkan dari duplikat, menghitung utility per item, dan disusun dalam format yang tepat agar dapat diolah pada tahap berikutnya. Preprocessing Tahap selanjutnya adalah preprocessing, di mana data dibuat lebih siap untuk dianalisis lebih Tujuan dari preprocessing adalah untuk membersihkan, menormalkan, dan mempersiapkan data sehingga dapat diolah lebih efektif oleh algoritma analisis atau model machine learning . Pada tahap ini, beberapa proses dilakukan, seperti menghapus nilai yang hilang (NaN) atau null, melakukan feature selection untuk meringankan beban pemrosesan dalam model data mining . Selain itu, feature selection digunakan untuk memilih fitur yang relevan dan menghilangkan fitur yang tidak relevan, dan bagian terakhir yaitu melakukan Prosiding KONSTELASI Vol. 2 No. Juni 2025 grouping atau mengelompokkan data berdasarkan atribut seperti Session ID untuk memudahkan analisis lebih lanjut. Identifikasi High Utility Itemset (HUI) Setelah data siap, dilakukan analisis untuk mengidentifikasi high utility itemset (HUI) menggunakan algoritma HUI-Miner. Tujuannya adalah untuk menemukan kombinasi item yang dapat memberikan keuntungan tinggi. Evaluasi Pada tahap evaluasi, hasil high utility itemset dianalisis serta disaring berdasarkan threshold . atas nila. yang telah ditetapkan. Itemset yang dihasilkan akan di evaluasi berdasarkan nilai dan manfaatnya dalam mendukung pengambilan keputusan bisnis, terutama dalam meningkatkan keuntungan penjualan. Penelitian ini bertujuan untuk memperoleh High Utility Itemset (HUI) dengan menggunakan model HUI-Miner. Model ini diterapkan untuk menemukan itemset dengan nilai utilitas tinggi berdasarkan data transaksi dari YooChoose Buys. Model ini digunakan karena mempunyai keuntungan dalam menyimpan data transaksi dalam bentuk utility-list, sehingga dapat meningkatkan efisiensi dalam proses pencarian HUI. Hasil dan Pembahasan Data Penelitian Data yang digunakan dalam penelitian ini merupakan data transaksi dari platform e-commerce YooChoose. Data ini mencakup lebih dari 1 juta data transaksi dengan lima atribut yang dapat dianalisis lebih lanjut. Namun, data mentah tersebut masih terdapat banyak data yang tidak penting dan atribut yang kurang mendukung dalam proses analisis. Oleh karena itu, data perlu disiapkan dengan baik, dan diperlukan proses pengolahan data awal untuk mendapatkan data yang berkualitas sebelum digunakan dalam penelitian. Berikut ini merupakan data mentah dari data transaksi e-commerce YooChoose Buys. Tabel 1. Tabel Dataset Transaksi Session ID Time Stamp 2014-0406T18:44:58. 2014-0406T18:44:58. 2014-0406T09:40:13. 2014-0404T06:13:28. 2014-0404T06:13:28. 2014-0407T09:22:28. 2014-0407T09:22:28. 2014-0407T09:22:28. 2014-0407T09:22:28. 2014-0407T09:22:28. Item ID Item Price Quantity Prosiding KONSTELASI Vol. 2 No. Juni 2025 Karena data memiliki jumlah 1 juta data dengan 5 atribut yang terlalu banyak maka dalam pengujian hanya akan menggunakan 1. 000 sample data dan beberapa sample ter tampil seperti pada Tabel 1. Berikut ini merupakan penjelasan dari atribut yang akan digunakan: Session ID merupakan kode sesi pengguna. Time Stamp merupakan waktu dibelinya suatu item. Item ID merupakan id dari suatu produk atau item. Item Price merupakan harga dari suatu produk. Quantity merupakan jumlah dari barang yang di beli. Persiapan Data (Data Preparatio. Data yang telah dibaca harus disiapkan sebelum diproses karena terdapat duplikasi, data tidak penting, dan data kosong yang dapat membuat data tidak valid atau bahkan tidak dapat diproses. 1 Pembersihan Data Tabel 2 menunjukkan hasil dari data mentah yang telah mengalami proses pembersihan data. Tabel 2. Tabel Hasil Pembersihan Data Session ID Time Stamp 2014-0406T18:44:58. 2014-0406T18:44:58. 2014-0406T09:40:13. 2014-0404T06:13:28. 2014-0404T06:13:28. 2014-0407T09:22:28. 2014-0407T09:22:28. 2014-0407T09:22:28. 2014-0407T09:22:28. 2014-0407T09:22:28. Item ID Item Price Quantity Hasil yang di dapatkan dari Tabel 2 menunjukkan bahwa dalam proses pembersihan data, terutama penghapusan data duplikat, terlihat pada Tabel 1 bahwa Session ID . mempunyai Time Stamp. Item ID, dan Item Price yang sama. Oleh karena itu, salah satu data duplikat tersebut akan dihapus. Menghitung Utility Per Item Utility setiap item didapatkan dari mengalikan item price dengan quantity. Tabel 3 menunjukkan utility masing-masing item yang ada. Prosiding KONSTELASI Vol. 2 No. Juni 2025 Tabel 3. Tabel Utility per item Session ID Time Stamp 2014-0406T18:44:58. 2014-0406T18:44:58. 2014-0406T09:40:13. 2014-0404T06:13:28. 2014-0404T06:13:28. 2014-0407T09:22:28. 2014-0407T09:22:28. 2014-0407T09:22:28. 2014-0407T09:22:28. 2014-0407T09:22:28. Item ID Item Price Quantity Utility Preprocessing Menghapus nilai null Data yang mengandung nilai yang kosong atau null akan dihapus secara langsung, sehingga hanya tersisa data yang lengkap dan sudah siap untuk di proses lebih lanjut. Feature Selection Tabel 4 menunjukkan hasil setelah atribut yang tidak relevan, seperti Time Stamp dihapus. Tabel 4. Tabel Hasil Feature Selection Session ID Item ID Item Price Quantity Utility Kolom Time Stamp dihapus karena tidak memiliki relevansi dalam menemukan HUI. Grouping Data transaksi yang sudah selesai di preprocessing, kemudian akan di kelompokan berdasarkan Session ID yang sama. Prosiding KONSTELASI Vol. 2 No. Juni 2025 Tabel 5. Tabel Hasil Grouping Session ID Item ID Item Price 6073, 2617 Quantity 1, 1 523, 1046, 837, 1151, 1, 1, 1, 1, 1 1, 1 Utility 6073, 2671 523, 1046, 837, 1151, Identifikasi HUI Data yang sudah siap dan valid akan digunakan untuk mengidentifikasi High Utility Itemset (HUI). Proses ini dilakukan dengan menerapkan algoritma HUI-Miner, untuk mencari itemset dengan kualitas yang tinggi. Setiap itemset yang memenuhi threshold . mbang batas nila. yang sudah di tentukan akan dianggap sebagai HUI. Hasil HUI ditampilkan pada Tabel 6. Dari 1. 000 data yang diambil dan sudah diolah, didapatkan total utility sebesar 4. Dari total utility tersebut, diambil threshold . sebesar 1%, yaitu 41. 857,98, sebagai nilai minutil untuk menentukan itemset yang memenuhi kriteria sebagai High Utility Itemset (HUI). Tabel 6. Hasil Akhir HUI Itemset 214821285, 214826803 214567404, 214821277, 214821371, 214835585 214567404, 214821277, 214835585 214821277, 214821371, 214835585 214821277, 214835585 Total Utility Utility Hasil dari Tabel 6 menunjukkan bahwa semakin tinggi threshold . mbang batas nila. yang digunakan, semakin sedikit jumlah itemset yang ditemukan sebagai High Utility Itemset (HUI). Dari Tabel 6, total utility yang diperoleh sebesar 1. 142, dengan itemset yang memiliki utility tertinggi yaitu 214587765 Prosiding KONSTELASI Vol. 2 No. Juni 2025 Itemset yang mempunyai utility yang tinggi menunjukkan bahwa produk atau kombinasi produk tersebut memiliki kontribusi yang besar terhadap total keuntungan. Sebagai contoh, item 214821285 dan 214826803 membentuk kombinasi dengan utility yang diperoleh sebesar 81640, hal ini menunjukkan adanya hubungan yang kuat antara kedua item dalam meningkatkan keuntungan Jumlah itemset yang teridentifikasi sebagai HUI juga dipengaruhi oleh threshold yang digunakan. Semakin rendah threshold, semakin banyak itemset yang memenuhi sebagai kriteria HUI, sedangkan semakin tinggi threshold, semakin sedikit itemset yang teridentifikasi sebagai HUI, karena hanya itemset dengan nilai utility yang sangat tinggi yang akan dipertahankan dalam analisis. Hal ini menunjukkan bahwa pemilihan threshold yang tepat sangat penting dalam menemukan pola pembelian yang paling Kesimpulan Berdasarkan hasil identifikasi HUI, dapat disimpulkan bahwa: Algoritma HUI-Miner mampu menemukan itemset yang memenuhi threshold untuk menjadi High Utility Itemset (HUI), dengan efisiensi tinggi. Hal ini memungkinkan identifikasi pola pembelian yang dapat memberikan keuntungan secara signifikan. Pemilihan threshold sangat berpengaruh terhadap jumlah itemset yang teridentifikasi sebagai HUI. Semakin rendah threshold, semakin banyak itemset yang memenuhi sebagai kriteria HUI, sedangkan semakin tinggi threshold, semakin sedikit itemset yang teridentifikasi sebagai HUI. Hasil analisis High Utility Itemset (HUI) dapat digunakan untuk menentukan produk atau kombinasi produk yang memiliki dampak ekonomi terbesar bagi bisnis. Misalnya, bisnis dapat mengoptimalkan strategi penjualan mereka dengan memahami itemset dengan nilai utility tinggi untuk meningkatkan pemasaran, memberikan saran untuk strategi pemasaran berbasis data, atau menggunakannya untuk pengelolaan stok yang lebih efektif untuk memastikan bahwa produk memiliki nilai utility tinggi. Itemset dengan utility yang tinggi menunjukkan produk atau kombinasi produk yang berkontribusi besar terhadap total keuntungan. Misalnya, item 214587765 memiliki utility tertinggi sebesar 276. 985, yang menunjukkan bahwa produk ini memiliki nilai ekonomi yang signifikan dalam transaksi. Selain itu, kombinasi produk seperti 214821285 dan 214826803 dengan utility 81. 640 menunjukkan hubungan yang kuat dalam meningkatkan keuntungan Referensi