ISSN (Prin.
: 1411 Oe 8890.
ISSN (Onlin.
: 2541 Oe 4518 http://journal.
id/index.
php/emitor EMITOR: Jurnal Teknik Elektro Analisis Perbandingan algoritme Bisecting K-Means dan Fuzzy C-Means pada Data Pengguna Kartu Kredit Shinta DwididantiO,1 .
Dimas Aryo Anggoro1 .
Muslich Hartadi Sutanto2 Program Studi Teknik Informatika/Fakultas Komunikasi dan Informatika Oe Universitas Muhammadiyah Surakarta1 Surakarta.
Indonesia Universiti Teknologi PETRONAS2 Seri IskandarOePerak.
Malaysia O L200160124@student.
AbstractOe In this digital era having a credit card is a common thing in society, with all the conveniences offered in every payment transaction, it is possible to attract public interest to using a credit card.
With high public interest in credit cards, this can be used as a good indicator for credit card companies to develop a credit card business.
In order to give consumerAos needs for credit cards, companies are required to make decisions in determining the right marketing strategy to attract customersAo interest.
And one of the way is by segmenting the customers using the clustering method.
Bisecting K-Means and Fuzzy C-Means are clustering algorithms that will be used in this study to segment the data about credit card user.
Analysis will be performed to find out for the best performing algorithm based on validity measurement of both algorithm.
From this research, it was found that Bisecting K-Means without normalization had a higher silhouette coefficient value than Fuzzy C-Means where the coefficient value of Bisecting K-Means silhouette is 0.
588 and 0.
579 with normalization, while the silhouette coefficient value of Fuzzy C-Means is 0.
488 and 0.
582 with normalization.
Bisecting K-Means silhouette is 0.
579 with normalization, while the silhouette coefficient value of Fuzzy C-Means is 0.
488 and 0.
582 with normalization.
AbstrakOe Di era digital seperti sekarang ini memiliki kartu kredit merupakan suatu hal yang wajar di masyarakat, dengan segala kemudahan yang ditawarkan dalam setiap transaksi pembayaran tidak menutup kemungkinan untuk menarik minat masyarakat dalam menggunakan kartu kredit.
Dengan minat masyarakat yang tinggi terhadap kartu kredit, hal ini dapat dijadikan sebagai indikator yang baik bagi perusahaan kartu kredit untuk mengembangkan bisnis kartu kredit.
Dalam rangka memenuhi kebutuhan konsumen akan kartu kredit, perusahaan dituntut untuk mengambil keputusan dalam menentukan strategi pemasaran yang tepat sehingga dapat menarik minat para pelanggan, salah satu caranya adalah dengan melakukan segmentasi pelanggan dengan metode clustering.
Bisecting K-Means dan Fuzzy C-Means merupakan algoritme clustering yang akan digunakan pada penelitian ini untuk melakukan pengelompokan data pengguna kartu kredit.
Analisis akan dilakukan untuk mengetahui algoritme dengan performa terbaik berdasarkan pengujian validitas dari kedua algoritme dengan menggunakan metode silhouette coefficient.
Dari penelitian ini didapatkan hasil bahwa Bisecting K-Means tanpa normalisasi memiliki nilai silhouette coefficient yang lebih tinggi dibandingkan dengan Fuzzy C-Means.
Nilai silhouette coefficient Bisecting K-Means sebesar 0,588 dan 0,579 dengan normalisasi, sedangkan nilai silhouette coefficient Fuzzy C-Means adalah 0,488 dan 0,582 dengan normalisasi.
Kata KunciOe Credit Card.
Data Mining.
Bisecting K-Means.
Fuzzy C-Means.
Silhouette Coefficient P ENDAHULUAN EJALAN dengan perkembangan teknologi yang kian maju di era modern ini, semakin banyak pula pengaruh teknologi di berbagai bidang tidak terkecuali di bidang finansial.
Salah satu contohnya adalah dengan semakin maraknya penggunaan kartu kredit di kalangan masyarakat.
Kartu kredit dapat didefinisikan Naskah diterima 4 September 2021, diterima setelah revisi 11 Agustus 2022, terbit online 2 September 2022.
Emitor merupakan jurnal Teknik Elektro Universitas Muhammadiyah Surakarta yang terakreditasi Sinta 4 dengan alamat Gedung H Lantai 2 UMS.
Jalan Ahmad Yani Tromol Pos 1 Surakarta Indonesia 57165.
sebagai transaksi modern dalam bidang ekonomi yang menggunakan jasa bank atau perusahaan untuk menarik uang tunai dari bank serta perusahaan pembiayaan .
Berdasarkan data dari Bank Sentral Republik Indonesia (BI), jumlah alat pembayaran dengan menggunakan kartu (APMK) kategori kartu kredit yang beredar mengalami peningkatan yang cukup signifikan dari tahun ke tahun.
Seperti pada tahun 2018 dengan jumlah pengguna kartu kredit sebanyak 17.
128 meningkat pada Desember 2019 menjadi 17.
057 kartu kredit .
Hal ini merupakan suatu peluang bagi para pelaku bisnis kartu kredit untuk mengembangkan bis- doi: 10.
23917/emitor.
nis kartu kredit.
Pengembangan bisnis tidak lepas dari proses pemasaran, oleh karena itu pentingnya suatu perusahaan untuk memiliki strategi pemasaran yang sesuai dengan kebutuhan pasar dan konsumen yang menjadi target pasar, untuk menarik minat para pelanggan.
Salah satu cara untuk menentukan strategi pemasaran adalah dengan proses segmentasi pada pelanggan.
Salah satu metode untuk melakukan segmentasi data adalah dengan menggunakan metode pada data mining yaitu clustering.
Clustering merupakan pendekatan klasifikasi tanpa pengawasan .
untuk mengenali pola, yang didasarkan pada pengelompokan objek yang memiliki kemiripan secara bersama-sama.
Pendekatan ini berguna untuk menemukan pola dalam kumpulan data tidak berlabel .
Pada clustering kemiripan data dalam satu kelompok akan bernilai maksimum sedangkan kemiripan data antar kelompok akan bernilai minimum .
Oleh karena itu, pada penelitian ini akan dilakukan analisis perbandingan algoritme clustering yaitu algoritme Bisecting K-Means dan Fuzzy C-Means untuk menentukan algoritme yang lebih tepat digunakan pada proses segmentasi data pengguna kartu kredit.
Pada analisis mengenai performa K-Means dan Bisecting K-Means di data web log didapatkan kesimpulan bahwa performa Bisecting K-Means relatif lebih unggul dan efisien daripada K-Means berdasarkan nilai performa dan akurasi.
Nilai akurasi akhir dari Bisecting K-Means sebesar 84,52% dan K-Means 78,75%, selain itu nilai performa dari Bisecting K-Means juga lebih unggul dibandingkan dengan K-Means dengan rata-rata performa dari setiap log files berkisar 70-80% dan K-Means berkisar 60-70% .
Pada penelitian mengenai analisis perbandingan K-Means dan Fuzzy C-Means untuk pengelompokan data user knowledge modeling menjelaskan bahwa Fuzzy C-Means memiliki nilai validitas yang lebih tinggi dibandingkan dengan K-Means dimana nilai PCI dari Fuzzy C-Means sebesar 0,2854 sedangkan nilai silhouette coefficient dari K-Means hanya sebesar 0,1866.
Penelitian ini bertujuan untuk membandingkan performa dari algoritme Bisecting K-Means dan Fuzzy C-Means pada data pengguna kartu kredit guna mengetahui algoritme yang memiliki performa lebih baik.
Hasil dari penelitian ini berupa perbandingan validitas dari kedua algoritme berdasarkan nilai silhouette coefficient, dimana algoritme yang memiliki nilai silhouette coefficient lebih tinggi diindikasikan sebagai algoritme yang memiliki kualitas performa lebih baik.
Diharapkan penelitian ini dapat dimanfaatkan oleh masyarakat untuk menunjang pembelajaran mengenai algoritme yang sama dan dapat dijadikan referensi untuk penelitian selanjutnya.
II.
M ETODE P ENELITIAN
Data Collection Pada penelitian ini dataset diperoleh dari Kaggle Dataset yang dibuat oleh seorang data scientist asal India bernama Arjun Bhasin.
Dataset ini merangkum 8951 tingkah laku para pengguna kartu kredit aktif selama 6 bulan dan memiliki 18 atribut.
Tabel 1 adalah penjelasan rinci mengenai atribut yang digunakan.
Tabel 1: Keterangan atribut data kartu kredit Nama Atribut Keterangan Cust id Balance Balance Frequency Purchases One off Purchases Installment Purchases Cash Advance Purchases Frequency Cash advance trx One offpurchase frequency Purchases installment frequency Cash advance frequency Tenure Purchases Trx Credit Limit Payments Minimum Payments Prc full payment Identifikasi pemegang kartu kredit Jumlah saldo yang tersisa di akun mereka untuk melakukan pembelian Seberapa sering saldo diperbarui Jumlah pembelian yang dilakukan dari akun Jumlah pembelian maksimum yang dilakukan dalam sekali transaksi Jumlah pembelian yang dilakukan dengan mencicil Uang muka yang diberikan oleh pengguna Seberapa sering melakukan pembelian Jumlah transaksi yang dilakukan dengan tunai Seberapa sering pembelian terjadi dalam sekali transaksi Seberapa sering pembelian dalam cicilan sedang dilakukan Uang tunai yang dibayar di muka Masa berlaku layanan kartu kredit untuk pengguna Banyaknya transaksi pembelian yang dilakukan Batas kartu kredit untuk pengguna Jumlah pembayaran yang dilakukan oleh pengguna Jumlah minimum pembayaran yang dilakukan oleh pengguna Persen dari pembayaran penuh yang dibayarkan oleh pengguna Data Preprocessing Beberapa dataset memiliki kualitas yang kurang baik seperti tidak lengkap, tidak konsisten bahkan memiliki noise yang dapat mempengaruhi hasil akhir dari proses data mining.
Salah satu cara untuk meningkatkan kualitas data adalah dengan melakukan pengolahan data.
Preprocessing adalah langkah pengolahan data pada data mining yang mempersiapkan dan mentransformasi data agar sesuai dengan proses data mining.
Preprocessing bertujuan untuk mereduksi data, menormalisasi data dan menghilangkan outlier, pada proses preprocessing terdapat beberapa teknik seperti data cleaning dan reduction .
Pada penelitian ini akan dilakukan dua proses preprocessing yaitu normalisasi dengan menggunakan min Oe max Normalization dan proses dimentional reduction dengan menggunakan principal component analysis (PCA).
Normalisasi min Oe max merupakan metode proses data yang menggunakan nilai maksimum dan minimum dari suatu atribut untuk mentransformasikan data ke rentang baru secara linier dengan rentang nilai 0 sampai dengan 1 sehingga menghasilkan perbandingan antar data yang seimbang, baik sebelum atau sesudah proses Emitor: Vol.
22 No.
02 September 2022 normalisasi .
Persamaan 1 merupakan persamaan i.
Data Processing min Oe max:
Data processing merupakan metode proses data untuk mendapatkan fitur yang diperlukan untuk proses berimin .
Oe ).
ax Oe xA = .
Berikut data processing yang akan diuraikan xmax Oe xmin yaitu Fuzzy C-Means dan bisecting K-Means.
Fuzzy C-Means (FCM) merupakan teknik pengdengan xA merupakan data hasil normalisasi, x data dengan keberadaan setiap objek dalam merupakan data asli, xmax merupakan nilai maksimal ditentukan oleh derajat keanggotaan terpada atribut, xmin merupakan nilai minimum pada atribut,minR merupakan minimum range, dan maxR me- tentu .
Tujuan utama Fuzzy C-Means adalah membagi objek yang berada pada beberapa dimensi ke dalam rupakan maximum range.
Principal Component Analysis (PCA) adalah tran- jumlah cluster tertentu agar mendapatkan centroid yang sformasi linier untuk menentukan sistem koordinat ba- dapat meminimalisasi ketidaksamaan antar cluster.
Furu dari sebuah dataset .
PCA bertujuan untuk me- zzy C-Means termasuk ke dalam soft clustering yang nyederhanakan data berdimensi tinggi menjadi data memungkinkan objek untuk dimiliki oleh lebih dari dengan dimensi yang lebih kecil dan berfungsi seba- satu cluster dengan derajat keanggotaan yang berbeda.
gai ringkasan dari keseluruhan data tanpa mengubah Objek yang berada pada perbatasan cluster tidak sepepola dan karakteristik data.
PCA mengubah satu set nuhnya termasuk dalam salah satu cluster, melainkan variabel yang saling terkait menjadi satu set variabel dapat menjadi anggota dari beberapa cluster dengan detidak memiliki korelasi yang disebut sebagai principal rajat keanggotaan parsial antara 0 sampai dengan 1 .
Berikut adalah langkah dari algoritme Berikut adalah algoritme dari Fuzzy C-Means .
Inisiasi data berupa matriks berukuran n y m, dePCA .
Dengan X berupa dataset yang memiliki himpunan n vektor .
1 , x2 , .
, xn ) dan setiap Xi meru- ngan n merupakan jumlah sampel data dan m adalah pakan titik data keOei dari dataset, lakukan perhitungan atribut setiap data.
Kemudian tentukan jumlah cluster .
, pangkat .
, maksimum iterasi .
ax Ite.
, error terrata-rata dari setiap dimensi dengan Persamaan 2.
kecil (A), fungsi objektif awal (P0 = .
dan iterasi awal Ocni=1 xi = .
Buat bilangan acak dengan i = 1, 2, .
, n.
xE = .
1, 2, .
, n dan c sebagai elemen matriks partisi awal U.
dengan n merupakan jumlah data dan xE berupa nilai Hitung jumlah setiap kolom dengan Persamaan 6 dan rata-rata.
Untuk mendapatkan matriks kovarian digu- nilai matriks partisi dengan Persamaan 7.
nakan Persamaan 3.
Oc (Xi Oe xE) Oe (Yi Oe yE) Oc AAik Cov.
, .
= i=1 .
nOe1 AAik Inti dari PCA adalah nilai eigen dan vektor eigen AAik = .
dari matriks kovarian, di mana nilai eigen akan menentukan arah dari dimensi yang baru dan vektor eigen Lakukan perhitungan untuk mendapatkan pusat akan menentukan besarnya.
Untuk mendapatkan nilai cluster keOek dengan menggunakan Persamaan .
dan eigen digunakan Persamaan 4.
fungsi objektif pada iterasi keOet dengan Persamaan .
Av = v, .
Ocn AAikw xi j Vk j = i=1 .
Ocni=1 AAikw dengan A merupakan matriks n y n, v berupa nilai ei! gen dari A dan adalah nilai eigen.
Kemudian nilai 2 w Pt = Oc Oc Oc Xi j OeVk j (AAik ) .
eigen yang dikomputasi, ditransformasikan menggut=1 k=1 j=1 nakan matriks identitas (I) dengan menggunakan Persamaan 5.
Kemudian hitung perubahan matriks partisi dengan menggunakan Persamaan .
AOeI = 0 Oe1 2 wOe1 Setelah didapatkan nilai eigen, urutkan dari nilai terOcmj=1 xi j Oe vk j AAik = .
tinggi sampai terendah.
Pada tahap ini vektor eigen Oe1 2 wOe1 yang sesuai dengan nilai eigen yang sudah diurutkan Ock=1 Oc j=1 xi j Oe vk j akan menjadi principal component.
doi: 10.
23917/emitor.
Selanjutnya adalah memastikan kondisi berhenti, terdapat beberapa kriteria untuk menentukan berhentinya proses perhitungan algoritme Fuzzy C-Means yaitu:
Jika: (|P Oe PtOe1 < A|) atau .
> max Ite.
Jika tidak: t = t 1, ulang kembali proses perhitungan pusat cluster Bisecting K-Means merupakan algoritme berbasis K-Means yang mengkombinasikan algoritme K-Means dan hirarki clustering yang memiliki kepekaan terhadap data pencilan .
Pada setiap langkah bisecting atau membelah diri, hanya titik data pada cluster dan dua centroid yang terlibat dalam proses komputasi.
Selain itu.
Bisecting K-Means efektif dalam mengatasi situasi dimana algoritme memasuki kondisi optimal lokal sampai batas tertentu .
, .
Bisecting K-Means termasuk ke dalam hard clustering dimana setiap objek hanya memiliki satu keanggotaan cluster.
Berikut adalah persamaan Bisecting K-Means.
Buat seluruh data menjadi satu cluster dan tentukan nilai k, kemudian lakukan langkah bisecting dengan mencari dua sub cluster menggunakan algoritme K-Means.
Berikut adalah langkah dari algoritme K-Means.
Inisiasi 2 centroid cluster Untuk setiap data objek pada cluster, hitung kemiripan dengan kedua centroid dan tempatkan objek dengan centroid yang lebih dekat dengan menggunakan Persamaan .
Euclidean Distance, dengan D.
, .
merupakan jarak data i ke pusat cluster j, xki merupakan data keOei pada atribut keOe j, dan x ji merupakan titik pusat keOe j pada atribut k.
Hitung ulang kedua centroid berdasarkan letak objek yang baru Ulangi langkah 2 dan 3 sampai konvergensi.
Kemudian ulangi langkah bisecting hingga didapatkan cluster sebanyak nilai k yang ditetapkan di awal, pilih hasil clustering dengan tingkat kemiripan tinggi.
, .
= .
1i Oe x1 j )2 .
xki Oe xk j Evaluasi Model Silhouette Coefficient merupakan gabungan dari metode separasi dan kohesi yang berguna untuk mengetahui kualitas dan kekuatan cluster berdasarkan seberapa baik penempatan objek pada cluster .
Nilai silhouette coefficient berkisaran antara -1 sampai dengan 1 dimana nilai tersebut menunjukkan ketepatan penempatan objek dan seberapa besar kemiripan data suatu cluster, nilai yang mendekati 1 menunjukkan objek data berada pada cluster yang tepat.
Sebaliknya jika nilai mendekati -1 menunjukkan bahwa rata-rata antar objek Nilai = 0 menunjukkan bahwa data berada di antara dua cluster.
Untuk menghitung nilai silhouette coefficient terdapat 2 komponen yaitu a.
yang merupakan rata-rata jarak data keOei dengan data lainnya yang ada pada satu cluster dan b.
adalah rata-rata jarak data keOei dengan semua data yang ada pada cluster lain .
Komponen a.
dan b.
ditentukan dengan menggunakan Persamaan .
dan Persamaan .
= Oc d.
ij , xrj ) m j Oe 1 r=1 b.
= minn=,.
n= j Oc d.
ij , xrj ) .
r=1 Persamaan 14 berikut merupakan persamaan dari Silhouette Coefficient.
Oe a.
, a.
} .
dengan j merupakan cluster, i merupakan indeks data ( i = 1, 2, .
, m j ), dengan m j merupakan jumlah data dalam cluster keOe j, d.
ir , xrj ) merupakan jarak data keOei dengan data keOer dalam satu cluster j, dan S merupakan nilai silhouette coefficient.
H ASIL P ENELITIAN DAN D ISKUSI
Dataset dengan jumlah keseluruhan data sebanyak 8951 data dan 18 atribut mengenai tingkah laku para pengguna kartu kredit aktif pada suatu bank digunakan pada penelitian ini.
Sebelum dataset melalui tahap preprocessing dan processing, salah satu dimensi pada dataset akan dikurangi dikarenakan keberadaannya tidak diperlukan sehingga jumlah dimensi pada dataset berkurang menjadi 17 dimensi, dimensi tersebut adalah AoCUSTIDAo.
Tidak semua dataset memiliki kualitas yang baik.
Terdapat dataset yang memiliki beberapa permasalahan seperti data yang tidak konsisten, adanya data noise, outlier dan penskalaan data yang berbeda dapat mempengaruhi hasil dari proses data mining sehingga dilakukan tahap preprocessing untuk meningkatkan kualitas dari data.
Tahap awal preprocessing adalah penanganan missing values untuk menyeimbangkan data.
Selain dapat menyebabkan pendistribusian dan variasi data yang tidak seimbang, missing values juga menyebabkan analisa statistik yang tidak akurat .
Missing values adalah nilai data yang tidak tersimpan pada suatu variabel, missing values dapat mengurangi kekuatan statistik dari analisis yang dapat merusak validitas hasil dan Emitor: Vol.
22 No.
02 September 2022 estimasi yang bias .
Dengan pertimbangan jumlah missing values sebanyak 314 data, di mana 313 data berasal dari dimensi AoTENUREAo dan 1 data berasal dari dimensi AoCREDIT-LIMITAo yang kemudian didapatkan persentase missing values dari jumlah keseluruhan data sebesar 3,5%.
Pada penelitian ini metode imputation digunakan untuk menangani missing values, di mana missing values akan diganti dengan nilai rata-rata yang didapat melalui perhitungan nilai rata-rata dari data non-missing values .
Proses selanjutnya adalah proses normalisasi data untuk menyamakan perbedaan skala agar data tidak menjadi timpang dan dapat menemukan rentang baru dari rentang yang ada .
Metode normalisasi MinMax digunakan pada penelitian ini karena Min-Max dapat mengubah data yang kompleks dengan tetap mempertahankan hubungan antar nilai pada data .
, .
Data yang sudah dinormalisasi dilanjutkan dengan proses reduksi dimensi menggunakan metode PCA untuk menyederhanakan kompleksitas data berdimensi tinggi dengan tetap mempertahankan pola dan karakteristik data.
Selain itu.
PCA juga mengurangi data dan memproyeksikan secara geometris kepada dimensi yang lebih kecil dan disebut dengan PC, dengan tujuan untuk menemukan ringkasan terbaik dari data .
Sebanyak 17 dimensi dirangkum dan direduksi sesuai dengan nilai PC yang didapatkan yaitu 2 dimensi.
Nilai PC diperoleh melalui pengujian nilai PC 1 sampai dengan 17 dengan menggunakan metode Silhouette untuk menemukan PC optimal yang memiliki Indeks Silhouette tertinggi.
Kemudian didapatkan nilai PC optimal = 2, dengan nilai cumulative variance sebesar 80,2% yang dapat mengurangi 88,2% dari total dimensi yaitu sebanyak 15 dimensi, seperti yang terdapat pada Gambar 1.
Dataset yang sudah melalui tahap preprocessing dilanjutkan dengan tahap processing menggunakan algoritme Fuzzy C-Means dan Bisecting K-Means.
Untuk mendapatkan hasil clustering terbaik dibutuhkan k yang optimal.
Pada penelitian ini, k optimal didapatkan melalui pengujian nilai k pada rentang dengan menerapkan metode silhouette coefficient, k dengan nilai silhouette coefficient tertinggi diindikasikan sebagai k Pada Fuzzy C-Means dan Bisecting K-Means didapatkan k optimal dari setiap algoritme yaitu 3.
Gambar 2: Nilai k Optimal Fuzzy C-Means Gambar 3: Nilai k Optimal Bisecting K-Means Gambar 1: Nilai Principal Component Gambar 2 dan 3 merupakan hasil dari pengujian nilai k optimal pada Fuzzy C-Means dan Bisecting K-Means yang menunjukkan adanya penurunan nilai silhouette coefficient secara berkala seiring bertambahnya nilai k, setelah mendapatkan nilai k optimal yaitu k = 3.
Hal ini dapat diartikan bahwa semakin banyak cluster maka semakin rendah ketepatan penempatan data pada cluster.
Selain itu, semakin tinggi nilai silhouette coefficient menunjukkan bahwa semakin baik proses kohesi dan separasi pada cluster .
Dalam pengujian ini juga dapat disimpulkan bahwa semakin banyak nilai k, maka jarak antar objek pada cluster semakin besar dan jarak antar cluster semakin kecil.
doi: 10.
23917/emitor.
Gambar 4: Proses clustering sebelum normalisasi .
clustering Fuzzy C-Means .
Bisecting K-Means .
Gambar 5: Proses clustering sesudah normalisasi .
clustering Fuzzy C-Means .
Bisecting K-Means Pada tahap processing menggunakan Fuzzy CMeans, langkah awal yang dilakukan adalah melakukan inisiasi pada beberapa parameter, yaitu maksimal iterasi sebanyak 30 iterasi.
A = 0, 00001.
P0 = 0.
Lalu dilanjutkan dengan perhitungan silhouette coefficient dari Fuzzy C-Means.
Didapatkan nilai silhouette coefficient sebelum dan sesudah normalisasi seperti pada Tabel 2.
Tabel 2: Nilai Silhouette Coefficient Fuzzy C-Means Nilai Silhouette Coefficient Tanpa Normalisasi
Normalisasi
0,488
0,582
Nilai silhouette coefficient dari Fuzzy C-Means setelah proses normalisasi dengan menggunakan metode Min-Max mengalami peningkatan sebesar 0,094 yaitu dari 0,488 menjadi 0,582.
Dikarenakan pada proses normalisasi menggunakan metode Min-Max, data ditransformasikan kepada interval 0 - 1 sehingga didapatkan hasil yang lebih baik dan akurat .
Gambar 4 .
dan 5 .
menunjukkan hasil persebaran data sebelum dan sesudah melalui proses normalisasi.
Pada Bisecting K-Means nilai silhouette coefficient dari data sebelum dan sesudah normalisasi mengalami penurunan sebesar 0,009, dengan nilai silhouette coefficient sebelum normalisasi sebesar 0,588 menjadi 0,579 setelah melalui proses normalisasi.
Hal ini dapat Emitor: Vol.
22 No.
02 September 2022 menandakan bahwa pada penelitian ini algoritme Bisecting K-Means memiliki ketepatan penempatan data pada cluster yang lebih baik dengan data tanpa normalisasi.
Hasil pada Tabel 2 didapatkan melalui pengujian Bisecting K-Means dengan k optimal = 3 dan inisiasi maksimum iterasi sebanyak 30 iterasi.
Gambar 4 .
dan 5 .
menunjukkan hasil persebaran data sebelum dan sesudah proses normalisasi pada Bisecting K-Means.
Tabel 3: Nilai Silhouette Coefficient Bisecting K-Means Nilai Silhouette Coefficient Tanpa Normalisasi
Normalisasi
0,588
0,579
Berdasarkan pada Tabel 2 dan 3.
Bisecting KMeans tanpa normalisasi memiliki nilai silhouette coefficient yang lebih tinggi dibandingkaan dengan Fuzzy C-Means baik sebelum maupun sesudah proses normalisasi.
Hal ini dapat disimpulkan bahwa Bisecting K-Means memiliki kualitas dan kekuatan clustering berdasarkan ketepatan penempatan data yang lebih baik dibandingkan Fuzzy C-Means.
IV.
K ESIMPULAN
Berdasarkan penelitian mengenai perbandingan algoritme Fuzzy C-Means dan Bisecting K-Means pada data pengguna kartu kredit yang telah dilakukan didapatkan hasil bahwa algortima Bisecting K-Means memiliki nilai silhouette coefficient yang lebih tinggi dibandingkan dengan Fuzzy C-Means.
Selain itu penggunaan metode normalisasi Min-Max juga mempengaruhi hasil dari Fuzzy C-Means dan Bisecting K-Means.
Pada Fuzzy C-Means data yang telah melalui proses normalisasi mengalami peningkatan nilai silhouette coefficient sedangkan pada Bisecting K-Means mengalami penurunan.
Pada penelitian ini terdapat beberapa hal yang dapat dikembangkan pada penelitian selanjutnya yaitu dengan menggunakan dataset yang lebih baik dengan sedikit data noise, missing values, serta outlier.
Selain itu dapat dilakukan modifikasi pada algoritme dan proses preprocessing untuk mendapatkan hasil yang lebih .
Indonesia.
AuJumlah apmk beredar,Ay Diambil dari id/ id/ statistik/ sistempembayaran/ apmk/ contents/ jumlah apmk beredar.
aspx, 2020.
Zahra.
Ghazanfar.
Khalid.
Azam.
Naeem, dan A.
Prugel-Bennett.
AuNovel centroid selection approaches for kmeans-clustering based recommender systems,Ay Information sciences, vol.
320, pp.
156Ae189, 2015.
Yohannes.
AuAnalisis perbandingan algoritma fuzzy cmeans dan k-means,Ay in Annual Research Seminar (ARS), 2, no.
1, 2017, pp.
151Ae155.
Abirami dan P.
Mayilvahanan.
AuPerformance analysis of k-means and bisecting k-means algorithms in weblog data,Ay Int.
Emerg.
Technol.
Eng.
Res, vol.
4, no.
8, pp.
119Ae124, .
Tamilselvi.
Sivasakthi, dan R.
Kavitha.
AuAn efficient preprocessing and postprocessing techniques in data mining,Ay Int.
Res.
Comput.
Appl.
Robot, vol.
3, no.
4, pp.
80Ae85, .
Nasution.
Khotimah, dan N.
Chamidah.
AuPerbandingan normalisasi data untuk klasifikasi wine menggunakan algoritma k-nn,Ay CESS (Journal of Computer Engineering.
System and Scienc.
, vol.
4, no.
1, pp.
78Ae82, 2019.
Syakhala.
Puspitaningrum, dan E.
Purwandari.
AuPerbandingan metode principal component analysis .
dengan metode hidden markov model .
dalam pengenalan identitas seseorang melalui wajah,Ay Rekursif: Jurnal Informatika, vol.
3, no.
2, 2015.
Jamal.
Handayani.
Septiandri.
Ripmiatin, dan Effendi.
AuDimensionality reduction using pca and k-means clustering for breast cancer prediction,Ay Lontar Komputer:
Jurnal Ilmiah Teknologi Informasi, pp.
192Ae201, 2018.
Zhu.
Idemudia, dan W.
Feng.
AuImproved logistic regression model for diabetes prediction by integrating pca and k-means techniques,Ay Informatics in Medicine Unlocked, 17, p.
100179, 2019.
Febrianti.
Hafiyusholeh, dan A.
Asyhar.
AuPerbandingan pengklusteran data iris menggunakan metode k-means dan fuzzy c-means,Ay Jurnal MatematikaAy MANTIK, vol.
1, pp.
7Ae13, 2016.
Zhou.
Ran.
Chen.
Zhang.
Wei.
Li.
Kang.
Zhou, dan H.
Sun.
AuA fast screening framework for secondlife batteries based on an improved bisecting k-means algorithm combined with fast pulse test,Ay Journal of Energy Storage, 31, p.
101739, 2020.
Zhang dan S.
Wang.
AuDetecting group shilling attacks in online recommender systems based on bisecting k-means clustering,Ay Ie Transactions on Computational Social Systems, vol.
7, no.
5, pp.
1189Ae1199, 2020.
Kodinariya dan P.
Makwana.
AuReview on determining number of cluster in k-means clustering,Ay International Journal, vol.
1, no.
6, pp.
90Ae95, 2013.
Kuswantoro.
AuKomparasi gabungan algoritma average linkage dan k-means dengan kmeans clustering untuk analisa
DAFTAR P USTAKA
faktor pengangguran dan angkatan kerja-comparison of algorithms average linkage and k-means clustering with k-means .
Pramuhadi et al.
AuGaya hidup penggunaan kartu kredit clustering to analyze the unemployment factor on work formasyarakat urban di surabaya,Ay Ph.
Universice,Ay Ph.
Institut Teknologi Sepuluh Nopember, tas Airlangga, 2019.
doi: 10.
23917/emitor.
Armitage.
Godzien.
Alonso-Herranz.
AA.
LoApez- .
Singh.
Verma, dan A.
Thoke.
AuInvestigations on GonzaAlvez, dan C.
Barbas.
AuMissing value imputation strateimpact of feature normalization techniques on classifierAos gies for metabolomics data,Ay Electrophoresis, vol.
36, no.
performance in breast tumor classification,Ay International 3050Ae3060, 2015.
Journal of Computer Applications, vol.
116, no.
19, 2015.
Kang.
AuThe prevention and handling of the missing data,Ay .
Lever.
AuKrzywinski.
, m.
, & altman, n.
Korean journal of anesthesiology, vol.
64, no.
5, pp.
402Ae406, component analysis,Ay Nature Methods, vol.
14, no.
7, pp.
641Ae642.
Aljuaid dan S.
Sasi.
AuProper imputation techniques for missing values in data sets,Ay in 2016 international conference .
Eler.
Teixeira.
Macanha, dan R.
Garcia.
AuSimplified stress and simplified silhouette coefficient on data science and engineering (ICDSE).
Ie, 2016, pp.
to a faster quality evaluation of multidimensional projection 1Ae5.
techniques and feature spaces,Ay in 2015 19th International .
Patro.
AuKk sahu.
,Ay Normalization: A PreproConference on Information Visualisation.
Ie, 2015, pp.
cessing Stage.
IARJSET, vol.
2, no.
3, pp.
20Ae22.
133Ae139.
Fenny.
AuAnalisis perbandingan cosine normalization dan min-max normalization pada pengelompokan terjemahan ayat .
Anggoro dan N.
Kurnia.
AuComparison of accuracy leal quran menggunakan algoritma k-means clustering,Ay B.
vel of support vector machine .
and k-nearest neighbors thesis.
Fakultas Sains dan Teknologi Universitas Islam Negeri .
algorithms in predicting heart disease,Ay International Syarif Hidayatullah, 2019.
Journal, vol.
8, no.
5, 2020.