JISKA (Jurnal Informatika Sunan Kalijag.
Vol.
No.
SEPTEMBER, 2024.
Pp.
170 Ae 177 ISSN: 2527 Ae 5836 .
| 2528 Ae 0074 .
Segmentasi Pelanggan E-Commerce Menggunakan Fitur Recency.
Frequency.
Monetary (RFM) dan Algoritma Klasterisasi K-Means Reyhan Muhammad Fauzan .
Ganjar Alfian .
* Teknik Elektro dan Informatika.
Sekolah Vokasi.
Universitas Gadjah Mada.
Yogyakarta.
Indonesia e-mail : reyhanmuhammad@mail.
id, ganjar.
alfian@ugm.
* Penulis korespondensi.
Artikel ini diajukan 25 Januari 2024, direvisi 1 Mei 2024, diterima 2 Mei 2024, dan dipublikasikan 25 September 2024.
Abstract The rapid growth in the e-commerce industry demands the development of smarter and more focused marketing strategies.
One approach that can be applied is customer segmentation using various features such as Recency.
Frequency, and Monetary (RFM), along with machine learningbased clustering methods.
The objective of this study is to design and develop a web-based ecommerce customer segmentation application using a combination of RFM features and clustering methods.
The study proposes the K-Means algorithm and compares it with K-Medoids and Fuzzy C Means using publicly available e-commerce datasets.
Experimental results showed that the K-Means algorithm outperformed K-Medoids and Fuzzy C Means (FCM) based on the Silhouette Score of 0.
Davies Bouldin Index of 0.
51435, and Calinski Harabasz Index of Through analysis and testing, the designed application has proven effective in grouping customers into relevant segments.
These segments are divided into three categories: Loyal.
Need Attention, and Promising, visualized in a web-based application dashboard using Streamlit.
The developed application allows e-commerce business owners and users from the business, management, and marketing divisions to categorize customers based on transaction data.
The results of this study are expected to provide valuable insights to e-commerce management and marketing professionals who are facing increasingly fierce competition.
Keywords: E-Commerce.
Customer Segmentation.
RFM.
K-Means.
Web Application Abstrak Peningkatan pesat dalam industri e-commerce menuntut pengembangan strategi pemasaran yang lebih cerdas dan terfokus.
Salah satu pendekatan yang dapat diterapkan adalah segmentasi pelanggan menggunakan berbagai fitur, seperti Recency.
Frequency, dan Monetary (RFM), serta metode klasterisasi berbasis machine learning.
Tujuan dari penelitian ini adalah untuk merancang dan membangun aplikasi segmentasi pelanggan e-commerce berbasis web yang menggunakan kombinasi fitur RFM dan metode klasterisasi.
Penelitian ini mengusulkan algoritma K-Means dan membandingkannya dengan K-Medoids, serta Fuzzy C Means pada dataset e-commerce yang tersedia secara publik.
Hasil penelitian menunjukkan bahwa algoritma K-Means lebih unggul dibanding algoritma K-Medoids dan Fuzzy C Means (FCM) berdasarkan nilai Silhouette Coefficient sebesar 0,67305.
Davies Bouldin Index sebesar 0,51435, dan Calinski Harabasz Index sebesar 5647,89.
Melalui analisis dan pengujian, aplikasi yang dirancang telah terbukti efektif dalam mengelompokkan pelanggan ke dalam segmen yang relevan.
Segmen tersebut dibagi menjadi tiga kategori yaitu Loyal.
Need Attention, dan Promising, kemudian divisualisasikan dalam bentuk dashboard pada aplikasi berbasis web menggunakan Streamlit.
Aplikasi yang dikembangkan dalam penelitian ini memungkinkan pemilik bisnis e-commerce ataupun pengguna dari bidang bisnis, divisi manajemen, dan pemasaran untuk mengelompokkan pelanggan berdasarkan data transaksi.
Hasil dari penelitian ini diharapkan dapat memberikan informasi berharga kepada manajemen e-commerce maupun bidang pemasaran dalam menghadapi persaingan yang semakin ketat.
Kata Kunci: E-Commerce.
Segmentasi Pelanggan.
RFM.
K-Means.
Aplikasi Web Artikel ini didistribusikan mengikuti lisensi Atribusi-NonKomersial CC BY-NC sebagaimana tercantum pada https://creativecommons.
org/licenses/by-nc/4.
171 n JISKA (Jurnal Informatika Sunan Kalijag.
Vol.
No.
SEPTEMBER, 2024: 170 Ae 177
PENDAHULUAN
Di era digital yang dipenuhi oleh industri e-commerce yang pesat, persaingan antarperusahaan untuk menarik, mempertahankan, dan memahami pelanggan semakin ketat.
Aktivitas perdagangan melalui penerapan e-commerce sangat praktis hanya menggunakan perangkat elektronik seperti laptop, komputer, atau smartphone dan menggunakan internet sebagai perantara (Molla & Licker, 2.
Namun, dengan pertumbuhan pesat ini, juga muncul tantangan besar dalam mengelola dan memahami pelanggan e-commerce.
Mengingat kompleksitas bisnis dan pasar e-commerce yang terus berkembang, keberhasilan bisnis dalam sektor ini sangat bergantung pada kemampuan mereka untuk memahami dan merespon perubahan perilaku pelanggan dengan cepat dan efektif.
Memahami kebutuhan dan perilaku pelanggan merupakan hal yang krusial dalam merancang strategi pemasaran yang efektif dan meningkatkan kualitas layanan.
Salah satu tantangan utama dalam e-commerce adalah bagaimana mengelompokkan pelanggan ke dalam segmen yang relevan.
Segmentasi pelanggan diperlukan untuk mengelompokkan pelanggan yang memiliki kesamaan karakteristik (Kim et al.
, 2.
Selanjutnya, hasil kelompok pelanggan akan mendapatkan perlakuan yang berbeda-beda dalam strategi pemasaran (Li et al.
, 2010.
Shirole et al.
, 2.
Analisis RFM adalah salah satu cara untuk melakukan segmentasi pelanggan berdasarkan recency, frequency, dan monetary.
Faktor recency menilai seberapa baru pelanggan melakukan Frequency menilai seberapa sering pelanggan bertransaksi, sedangkan monetary menilai seberapa besar total pengeluaran yang dilakukan oleh pelanggan saat bertransaksi (Anitha & Patil, 2.
Selanjutnya nilai RFM juga dapat digunakan sebagai fitur untuk segmentasi pelanggan menggunakan metode klasterisasi yang berbasis unsupervised learning.
Penelitian sebelumnya menganalisis pola penggunaan Mass Rapid Transit (MRT) dan layanan berbagi sepeda atau bike sharing (YouBik.
di Taipei.
Taiwan, dengan menggunakan data Dengan menggunakan algoritma RFM dan K-Means clustering, penelitian ini mengidentifikasi tiga kelompok pengguna MRT-YouBike yang berbeda: potential, vulnerable, dan loyal (Chen et al.
, 2.
Penelitian selanjutnya berfokus pada data e-retailer sebagai studi Pada penelitian ini.
RFM .
ecency, frequency, monetar.
digunakan sebagai solusi pembuatan klaster.
Penelitian ini menganalisis informasi pembelian pelanggan selama delapan Kemudian klaster dievaluasi menggunakan metrics Silhouette Coefficient untuk algoritma K-Means dengan jumlah klaster yang berbeda.
Hasil yang didapatkan menunjukkan bahwa klaster dengan jumlah 3 lebih baik daripada klaster yang berjumlah 5 (Anitha & Patil, 2.
Implementasi model K-Means untuk segmentasi pelanggan menjadi 3 klaster yaitu loyal, promising, dan need attention sudah dilakukan oleh penelitian sebelumnya (Hilmy et al.
, 2.
Hasilnya menunjukkan bahwa model K-Means lebih baik dibanding dengan model K-Medoids dalam segmentasi data pelanggan.
Dengan menggunakan metode klasterisasi K-Means, dapat menentukan kategori dan strategi yang baik untuk pelanggan.
Hasil penelitian sebelumnya menunjukkan bahwa metode klasterisasi K-Means dengan skor atribut RFM yang berbeda berhasil mengelompokkan 14.
data pelanggan kedalam 5 klaster (Sutresno et al.
, 2.
Pada penelitian selanjutnya menganalisis model RFM dan klasterisasi K-Means pada online bookstore.
Masalah dalam penelitian ini adalah menurunnya jumlah transaksi dalam rentang bulan Januari 2019 hingga bulan November 2020.
Sehingga dilakukan analisis untuk menciptakan klaster yang optimal menggunakan elbow method dan dilakukan pengujian performa menggunakan metrics Silhouette Coefficient dan Calinski Harabasz Index.
Hasil jumlah klaster yang optimal untuk strategi pemasaran dari 23.
152 pelanggan adalah berjumlah 3 klaster (Juhari & Juarna, 2.
Selain berfokus terhadap analisis, penelitian selanjutnya memvisualisasikan hasil dari analisis yang didapat menjadi dashboard berbasis web.
Pada penelitian kali ini data pelanggan diperoleh dari platform Kaggle.
Penelitian ini menggunakan model RFM dan algoritma K-Means untuk menganalisis segmentasi pelanggan.
Dalam penelitian ini juga digunakan metode Silhouette Artikel ini didistribusikan mengikuti lisensi Atribusi-NonKomersial CC BY-NC sebagaimana tercantum pada https://creativecommons.
org/licenses/by-nc/4.
JISKA (Jurnal Informatika Sunan Kalijag.
ISSN:2527Ae5836 .
| 2528Ae0074 .
n 172 untuk mengoptimalkan klaster yang berjumlah 4 klaster.
Hasil yang diperoleh kemudian divisualisasikan menjadi bentuk dashboard menggunakan platform Streamlit (Alzami et al.
, 2.
Penelitian sebelumnya telah mengeksplorasi penggunaan metode RFM dan klasterisasi K-Means dalam segmentasi pelanggan, tetapi masih terdapat kekurangan dalam membandingkan metode ini dengan algoritma klasterisasi lain seperti K-Medoids dan Fuzzy C Means, serta dalam mengevaluasi efektivitas model klasterisasi tersebut.
Dalam penelitian ini, akan dikembangkan sebuah aplikasi web yang mengintegrasikan RFM dan K-Means untuk segmentasi pelanggan.
Efisiensi algoritma K-Means akan diukur dan dibandingkan dengan K-medoids dan Fuzzy C Means menggunakan tiga metrik validasi klaster: Skor Silhouette.
Indeks Calinski-Harabasz, dan Indeks Davies-Bouldin.
Tujuan akhir dari penelitian ini adalah untuk menyediakan sebuah alat yang efektif bagi perusahaan, khususnya di sektor bisnis dan e-commerce, untuk meningkatkan strategi pemasaran, mempertahankan pelanggan, dan membina hubungan jangka panjang yang lebih kuat dengan pelanggan.
METODE PENELITIAN
Langkah-langkah dalam proses analisis mencakup beberapa tahapan yang dimulai dengan memahami secara menyeluruh kebutuhan bisnis.
Proses tersebut mencakup pengumpulan data yang relevan, pemrosesan awal untuk memastikan kualitasnya, pembuatan model yang sesuai, evaluasi kinerjanya, dan visualisasi hasil (Anitha & Patil, 2.
Semua langkah ini dapat dilihat detail dalam Gambar 1.
Gambar 1 Alur Penelitian Alur dimulai dari memahami secara menyeluruh tentang bagaimana suatu bisnis atau organisasi beroperasi, tujuan bisnisnya, serta konteks eksternal yang mempengaruhi keberhasilannya.
Pemahaman bisnis juga sangat penting dalam pengembangan perangkat lunak atau solusi teknologi, karena membantu para pengembang membangun solusi yang sesuai dengan kebutuhan bisnis dan memberikan nilai tambah.
Selanjutnya adalah pengumpulan data yang dibutuhkan untuk penelitian.
Dataset yang digunakan pada penelitian ini diperoleh melalui platform online data.
world dengan nama Global Superstore.
Dataset ini merupakan kumpulan data yang berasal dari komunitas Tableu dengan total 51.
290 baris.
Kumpulan data dimulai dari tahun 2011 hingga tahun 2014 yang berpusat pada transaksi pelanggan dari berbagai vendor dan pasar yang berbeda.
Penelitian dengan dataset ini sudah dilakukan sebelumnya oleh (Mahfuza et al.
, 2.
dengan tujuan untuk melakukan segmentasi pelanggan.
Adapun detail dataset dapat dilihat pada Gambar 2.
Artikel ini didistribusikan mengikuti lisensi Atribusi-NonKomersial CC BY-NC sebagaimana tercantum pada https://creativecommons.
org/licenses/by-nc/4.
JISKA (Jurnal Informatika Sunan Kalijag.
Vol.
No.
SEPTEMBER, 2024: 170 Ae 177 173 n Gambar 2 Ilustrasi Dataset Penelitian Sebelum melakukan analisis diperlukan pembersihan data dengan melakukan data preprocessing agar hasil analisis dapat sesuai dengan keinginan.
Melalui data preprocessing dataset dapat dibersihkan seperti mengisi nilai yang hilang, mengkoreksi data ganda, ataupun mengkoreksi ketidakcocokan antar data (Anitha & Patil, 2.
Pada tahap selanjutnya yaitu menentukan metode analisis dengan menggunakan RFM .
ecency, frequency, monetar.
dan KMeans.
RFM memberikan kerangka kerja yang kuat dengan mempertimbangkan faktor seberapa baru pelanggan berbelanja .
, seberapa sering mereka berbelanja .
, dan seberapa besar total belanjaan mereka .
Integrasi metode klasterisasi seperti KMeans membawa dimensi tambahan dalam proses segmentasi, memungkinkan identifikasi kelompok pelanggan yang memiliki pola perilaku serupa.
Pembuatan model dimulai dengan menghitung skor recency, frequency, dan monetary yang diperoleh dari metode RFM.
Untuk memberikan gambaran perhitungan tersebut, contoh data pelanggan disajikan dalam Tabel 1.
Tabel 1 Contoh Data Pelanggan Nama Pelanggan Tanggal Pembelian 12 November 2023 13 November 2023 15 November 2023 17 November 2023 19 November 2023 20 November 2023 Jumlah Pembelian $150 $200 $50 $300 $200 $100 Dengan mengasumsikan bahwa hari ini adalah tanggal 23 November 2023, skor Recency dihitung berdasarkan perbedaan antara tanggal saat ini dan tanggal transaksi terakhir pelanggan.
Skor Frequency diperoleh dengan menghitung total transaksi yang dilakukan, sementara skor Monetary dihitung dengan menjumlahkan total pengeluaran dari setiap transaksi.
Hasil dari ketiga perhitungan skor tersebut dapat dilihat pada Tabel 2.
Tabel 2 Contoh Hasil Perhitungan RFM Nama Pelanggan Recency Frequency Monetary $150 $500 $50 $300 Skor yang telah dihitung dapat berfungsi sebagai fitur untuk segmentasi pelanggan pada algoritma K-Means.
Algoritma K-Means bekerja dengan pertama menentukan jumlah klaster (K) yang diinginkan (Adiyanto & Arie Wijaya, 2.
Kemudian, secara acak memilih titik-titik awal sebagai centroid atau titik tengah.
Setiap titik dalam dataset kemudian dikelompokkan ke klaster Artikel ini didistribusikan mengikuti lisensi Atribusi-NonKomersial CC BY-NC sebagaimana tercantum pada https://creativecommons.
org/licenses/by-nc/4.
JISKA (Jurnal Informatika Sunan Kalijag.
ISSN:2527Ae5836 .
| 2528Ae0074 .
n 174 yang paling dekat berdasarkan jarak Euclidean ke centroid tersebut.
Jarak .
antara titik data y dan pusat massa x dihitung menggunakan rumus jarak Euclidean, sebagaimana tertulis pada Pers.
Setelah pengelompokan, posisi centroid diperbarui dengan menghitung rata-rata dari semua titik dalam klaster tersebut.
Proses ini diulang Ae pengelompokan data dan pembaruan centroid Ae hingga klaster stabil, yaitu ketika tidak ada perubahan signifikan dalam pengelompokan atau sampai batas iterasi maksimum tercapai.
Hasil akhirnya adalah pembentukan klaster dengan titik-titik data yang memiliki kesamaan ciri di dalamnya dan titik-titik centroid yang stabil.
ycu ycc.
cu, y.
= oc.
cuycn Oe ycycn )2 .
ycn=1 Langkah berikutnya melibatkan evaluasi model pada fase penilaian hasil klaster.
Silhouette Coefficient (SC) adalah metrik evaluasi yang digunakan untuk mengukur sejauh mana titik data dalam suatu klaster cocok dengan klaster tempatnya berada dan seberapa dekat atau jauh dari klaster lainnya.
Metrik ini merupakan metode evaluasi klaster gabungan antara separasi dan kohesi (Paembonan & Abduh, 2.
Adapun rumus SC dapat dilihat pada Pers.
= yca.
Oe yca.
, yca.
) .
Evaluasi selanjutnya dilakukan dengan menggunakan Davies Bouldin Index (DBI), yang mengukur perbandingan antara jarak di dalam suatu klaster dan jarak antar klaster.
Pers.
menjelaskan DBI, dengan k sebagai jumlah total klaster yang digunakan, dan (Ri,.
sebagai rasio antara klaster i dan klaster j.
Nilai DBI yang lebih rendah menandakan bahwa kualitas klasterisasi yang dihasilkan lebih baik (Agustino & Budaya, 2.
ya yayaAya = Oc ycoycaycuycnOyc .
cIycn,yc ) ya .
ycn Metrik evaluasi terakhir adalah Calinski Harabasz Index (CHI) yang digunakan untuk mengukur kualitas suatu klasterisasi pada data.
Keuntungan dari CHI adalah bahwa nilai yang lebih tinggi mencerminkan klaster yang lebih jelas (Sikana & Wijayanto, 2.
Perhitungan CHI dapat dilihat pada Pers.
yayaya = ycyc.
aAyco ) .
cA Oe yc.
cOyco ) .
co Oe .
Dalam melakukan segmentasi pelanggan, digunakan model machine learning.
Model klasterisasi diterapkan menggunakan bahasa pemrograman Python dengan menggunakan pustaka Scikitlearn, dan parameter bawaan dari Scikit-learn yang digunakan.
Setelah melalui tahap pengujian, langkah selanjutnya adalah fase implementasi model, yang melibatkan pemanfaatan pustaka Streamlit.
Pustaka ini mempermudah pembuatan dasbor yang menampilkan hasil analisis secara Untuk menjalankan dashboard menggunakan Streamlit, diperlukan koneksi ke GitHub untuk mengakses kode sumber yang sebelumnya telah diunggah ke GitHub.
Melalui proses ini, program yang sebelumnya berjalan secara lokal dapat diakses secara publik.
HASIL DAN PEMBAHASAN
1 Perbandingan Model Klaterisasi Perbandingan antara metode klasterisasi K-Means.
K-Medoids, dan Fuzzy C Means dapat dievaluasi berdasarkan tiga metrik utama, yaitu Silhouette Coefficient (SC).
Davies Bouldin Index (DBI), dan Calinski Harabasz Index (CHI).
Silhouette Coefficient memberikan indikasi seberapa Artikel ini didistribusikan mengikuti lisensi Atribusi-NonKomersial CC BY-NC sebagaimana tercantum pada https://creativecommons.
org/licenses/by-nc/4.
JISKA (Jurnal Informatika Sunan Kalijag.
Vol.
No.
SEPTEMBER, 2024: 170 Ae 177 175 n baik objek dalam klaster terpisah dan saling berdekatan, dengan nilai mendekati 1 menandakan pembentukan klaster yang baik.
Davies Bouldin Index menilai sejauh mana batas klaster terdefinisi dan seberapa homogen klaster tersebut.
Nilai rendah pada DBI mengindikasikan pembentukan klaster yang baik.
Sementara itu.
Calinski Harabasz Index mengevaluasi homogenitas dan pemisahan klaster, dengan nilai tinggi menandakan pembentukan klaster yang Hasil perhitungan yang telah dilakukan menunjukkan bahwa algoritma K-Means lebih unggul daripada algoritma K-Medoids dan Fuzzy C Means.
Nilai ketiga indeks tersebut menunjukkan nilai 0,67305 pada Silhouette Coefficient, nilai 0,51435 Davies Bouldin Index, dan nilai 5647,89 pada Calinski Harabasz Index, sebagaimana tergambar pada Tabel 3.
Tabel 3 Perbandingan Model Klasterisasi Matriks Silhouette Coefficient (SC) Davies Bouldin Index (DBI) Calinski Harabasz Index (CHI) K-Means 0,67305 0,51435 5647,89 K-Medoids 0,66130 0,52575 5271,67 Fuzzy C Means 0,67303 0,51467 5644,48 Hasil segmentasi menggunakan fitur RFM melalui penerapan algoritma K-Means menunjukkan bahwa pelanggan dapat diklasifikasikan ke dalam tiga kategori, yaitu loyal, promising, dan need attention (Hilmy et al.
, 2.
Jumlah masing-masing pelanggan/konsumen dalam kelompok loyal, promising, dan need attention adalah 222, 546, dan 822.
Dari jumlah tersebut, 222 pelanggan dianggap loyal karena memiliki frekuensi tinggi dan nilai monetary yang tinggi.
Kategori promising mencakup 546 pelanggan dengan frekuensi dan monetary sedang.
Sementara itu, kategori need attention terdiri dari 822 pelanggan dengan frekuensi dan monetary yang rendah.
Hasil pengelompokkan menggunakan K-Medoids menunjukkan bahwa 316 pelanggan dikategorikan sebagai loyal, 478 pelanggan dalam kategori promising, dan 796 pelanggan diklasifikasikan need attention.
Algoritma Fuzzy C Means menghasilkan 225 pelanggan pada kategori loyal, 546 pelanggan pada promising, dan 819 pelanggan pada kategori need attention.
Rangkuman jumlah pelanggan dari hasil klasterisasi ini dapat dilihat pada Tabel Tabel 4 Hasil Pengelompokkan Klasterisasi Kategori Loyal Promising Need Attention K-Means K-Medoids Fuzzy C Means 2 Visualisasi Hasil Penelitian ini bertujuan untuk merancang dan mengembangkan sistem segmentasi pelanggan ecommerce berbasis web untuk membantu memberikan dukungan pada proses pengambilan keputusan manajemen.
Sistem ini dikonstruksi dengan menggunakan bahasa pemrograman Python, memanfaatkan perpustakaan Streamlit untuk antarmuka web dan memanfaatkan Google Sheets untuk meletakkan file dataset yang telah dimiliki.
Proses pengelompokan data pelanggan dilakukan dengan menggunakan perpustakaan Scikit-learn.
Setelah berhasil melakukan login, pengguna akan diarahkan ke halaman dashboard, sebagaimana terlihat pada Gambar 3, yang menampilkan hasil klastersasi.
Artikel ini didistribusikan mengikuti lisensi Atribusi-NonKomersial CC BY-NC sebagaimana tercantum pada https://creativecommons.
org/licenses/by-nc/4.
JISKA (Jurnal Informatika Sunan Kalijag.
ISSN:2527Ae5836 .
| 2528Ae0074 .
Gambar 3 Hasil Visualisasi
KESIMPULAN
Segmentasi pelanggan menggunakan model RFM telah berhasil dijalankan, dan dari hasil analisis tersebut, beberapa kesimpulan dapat diambil.
Pertama, fitur RFM (Recency.
Frequency.
Monetar.
bersama dengan algoritma K-Means.
K-Medoids, dan Fuzzy C Means berhasil menampilkan 3 segmen pelanggan utama, yaitu Loyal.
Promising, dan Need Attention.
Kedua, performa algoritma K-Means.
K-Medoids, dan FCM dievaluasi menggunakan metrik seperti Silhouette Coefficient (SC).
Davies Bouldin Index (DBI), dan Calinski Harabasz Index (CHI).
Hasil evaluasi menunjukkan bahwa algoritma K-Means mencapai hasil paling optimal dengan nilai 0,67305 pada SC, 0,51435 pada DBI, dan 5647,89 pada CHI.
Ketiga, output dari analisis dapat disajikan secara visual melalui aplikasi web menggunakan pustaka Streamlit, sehingga dapat memberikan dukungan untuk pengambilan keputusan yang efektif.
Visualisasi menggunakan scatter plots, pie charts, dan line charts memudahkan penyajian hasil analisis dengan jelas, membantu pemahaman pola dan tren pelanggan secara intuitif.
Kedepannya, optimalisasi model dan komparasi dengan model klasterisasi lain akan kami sajikan dalam penelitian selanjutnya.
DAFTAR PUSTAKA