JISKA: Jurnal Sistem Informasi Dan Informatika Vol 4 No 1 .
: Januari 2026 Hal.
http://jurnal.
id/index.
php/jiska Analisis Hierarchical Clustering untuk Segmentasi Pelanggan pada Dataset Mall Customers Maissy Angelica Pakpahana.
Sirlia Sahidb.
Mika M.
F Simanullangc.
Rifqi Putra Winandad Ilmu Komputer.
FMIPA.
Universitas Negeri Medan, maissyangelica63@gmail.
Ilmu Komputer.
FMIPA.
Universitas Negeri Medan, sirliasahid@gmail.
Ilmu Komputer.
FMIPA.
Universitas Negeri Medan, simanullangmika6@gmail.
Ilmu Komputer.
FMIPA.
Universitas Negeri Medan, putrarifqy416@gmail.
Abstract This study aims to analyze customer segmentation using the Hierarchical Clustering method on the Mall Customers dataset.
The main objective is to group customers based on similarities in Annual Income and Spending Score.
The research method involves data preprocessing using Z-score normalization, calculation of Euclidean distance, and clustering using Ward The optimal number of clusters is determined using several evaluation metrics such as Silhouette Score.
CalinskiHarabasz Index, and Davies-Bouldin Index.
The results show that the optimal number of clusters is five, with good clustering performance indicated by a high Silhouette Score and low Davies-Bouldin value.
Each cluster represents a unique customer segment, such as high-income high-spending customers and low-income low-spending customers.
This clustering can be used as a basis for targeted marketing strategies.
Keywords: clustering, hierarchical clustering, customer segmentation, mall customers, data mining Abstrak Penelitian ini bertujuan untuk menganalisis segmentasi pelanggan menggunakan metode Hierarchical Clustering pada dataset Mall Customers.
Tujuan utama penelitian adalah mengelompokkan pelanggan berdasarkan kemiripan Annual Income dan Spending Score.
Metode penelitian meliputi preprocessing data menggunakan normalisasi Z-score, perhitungan jarak Euclidean, serta proses clustering menggunakan metode Ward linkage.
Penentuan jumlah cluster optimal dilakukan dengan menggunakan beberapa metrik evaluasi seperti Silhouette Score.
Calinski-Harabasz Index, dan Davies-Bouldin Index.
Hasil penelitian menunjukkan bahwa jumlah cluster optimal adalah lima dengan performa clustering yang baik ditunjukkan oleh nilai Silhouette yang tinggi dan Davies-Bouldin yang rendah.
Setiap cluster merepresentasikan segmen pelanggan yang berbeda seperti pelanggan dengan pendapatan tinggi dan belanja tinggi maupun rendah.
Hasil ini dapat digunakan sebagai dasar strategi pemasaran yang lebih efektif.
Kata Kunci: clustering, hierarchical clustering, segmentasi pelanggan, mall customers, data mining This work is licensed under Creative Commons Attribution License 4.
0 CC-BY International license PENDAHULUAN Penelitian dalam bidang data mining terus berkembang seiring dengan meningkatnya kebutuhan akan pengolahan data yang efektif dan efisien.
Berbagai metode telah dikembangkan untuk mengatasi permasalahan analisis data, khususnya dalam mengidentifikasi pola dan struktur yang tersembunyi di dalam data.
Salah satu pendekatan yang banyak digunakan adalah teknik clustering, yang menjadi bagian penting dalam proses eksplorasi data karena kemampuannya dalam mengelompokkan data berdasarkan karakteristik tertentu.
Perkembangan teknologi informasi yang semakin pesat telah mendorong peningkatan jumlah data yang dihasilkan di berbagai bidang, seperti bisnis, kesehatan, pendidikan, dan industri.
Data yang dihasilkan tidak hanya berukuran besar, tetapi juga memiliki kompleksitas yang tinggi, sehingga diperlukan metode analisis yang mampu mengolah data tersebut menjadi informasi yang bermakna.
Salah satu pendekatan yang OA digunakan adalah data mining, yaitu proses ekstraksi pola atau pengetahuan tersembunyi dari sekumpulan data dengan memanfaatkan teknik statistik dan pembelajaran mesin.
Pendekatan ini dinilai efektif dalam mendukung proses pengambilan keputusan berbasis data .
Salah satu teknik dalam data mining yang banyak digunakan adalah clustering, yaitu metode pengelompokan data tanpa label .
nsupervised learnin.
Clustering bertujuan untuk mengelompokkan objek berdasarkan tingkat kemiripan karakteristiknya, sehingga objek dalam satu kelompok memiliki tingkat kesamaan yang tinggi dibandingkan dengan objek pada kelompok lainnya.
Teknik ini telah banyak diterapkan dalam berbagai bidang, seperti segmentasi pelanggan, analisis kesehatan, dan pengelompokan data wilayah .
Selain itu, clustering juga digunakan dalam pengelompokan data kasus tertentu guna membantu proses analisis yang lebih terarah .
Salah satu teknik dalam data mining yang banyak digunakan adalah clustering, yaitu metode pengelompokan data tanpa label .
nsupervised learnin.
Clustering bertujuan untuk mengelompokkan objek berdasarkan tingkat kemiripan karakteristiknya, sehingga objek dalam satu kelompok memiliki tingkat Jurnal Sistem Informasi Dan InformatikaAe JISKA Vol 4 No 1 .
: Januari 2026 JISKA: Jurnal Sistem Informasi Dan Informatika Vol 4 No 1 .
: Januari 2026 Hal.
http://jurnal.
id/index.
php/jiska kesamaan yang tinggi dibandingkan dengan objek pada kelompok lainnya.
Teknik ini telah banyak diterapkan dalam berbagai bidang, seperti segmentasi pelanggan, analisis kesehatan, dan pengelompokan data wilayah .
Selain itu, clustering juga digunakan dalam pengelompokan data kasus tertentu guna membantu proses analisis yang lebih terarah .
Salah satu metode clustering yang cukup populer adalah Hierarchical Clustering, yang mampu membentuk struktur pengelompokan data secara bertahap dalam bentuk hierarki.
Metode ini memiliki keunggulan dalam memberikan representasi visual berupa dendrogram, sehingga memudahkan dalam memahami hubungan antar data serta menentukan jumlah cluster yang optimal.
Pendekatan ini juga dinilai fleksibel karena tidak memerlukan penentuan jumlah cluster di awal proses .
Selain itu, hierarchical clustering dapat digunakan untuk menganalisis struktur data secara lebih mendalam, bahkan dalam konteks pengelompokan algoritma atau sistem yang kompleks .
Beberapa penelitian sebelumnya menunjukkan bahwa metode hierarchical clustering mampu menghasilkan pengelompokan data yang lebih stabil dan mudah diinterpretasikan dibandingkan metode lainnya.
Penggunaan metode ini dalam berbagai studi, seperti analisis ketahanan pangan dan kesejahteraan wilayah, menunjukkan bahwa hierarchical clustering dapat memberikan hasil yang representatif dalam mengidentifikasi pola data .
Di sisi lain, keberhasilan proses clustering juga dipengaruhi oleh tahap preprocessing, seperti normalisasi data, yang bertujuan untuk menyamakan skala antar variabel agar tidak terjadi bias dalam perhitungan jarak .
Beberapa penelitian sebelumnya menunjukkan bahwa metode hierarchical clustering mampu menghasilkan pengelompokan data yang lebih stabil dan mudah diinterpretasikan dibandingkan metode lainnya.
Penggunaan metode ini dalam berbagai studi, seperti analisis ketahanan pangan dan kesejahteraan wilayah, menunjukkan bahwa hierarchical clustering dapat memberikan hasil yang representatif dalam mengidentifikasi pola data .
Di sisi lain, keberhasilan proses clustering juga dipengaruhi oleh tahap preprocessing, seperti normalisasi data, yang bertujuan untuk menyamakan skala antar variabel agar tidak terjadi bias dalam perhitungan jarak.
Meskipun demikian, masih terdapat permasalahan dalam penerapan clustering, terutama dalam menentukan metode yang tepat serta memastikan kualitas hasil pengelompokan data.
Oleh karena itu, diperlukan penerapan metode clustering yang sesuai dengan karakteristik data yang digunakan, serta tahapan analisis yang sistematis agar hasil yang diperoleh lebih optimal.
Berdasarkan permasalahan tersebut, penelitian ini menggunakan dataset Iris sebagai objek studi, yang merupakan salah satu dataset klasik dalam bidang machine learning.
Dataset ini terdiri dari beberapa atribut numerik yang merepresentasikan karakteristik bunga Iris, serta memiliki tiga kelas utama, yaitu Setosa.
Versicolor, dan Virginica.
Meskipun sederhana, dataset ini memiliki tingkat kemiripan antar kelas yang cukup tinggi, sehingga menjadi tantangan dalam proses clustering.
Penelitian ini bertujuan untuk menerapkan metode Hierarchical Clustering dalam mengelompokkan data Iris berdasarkan tingkat kemiripan fitur.
Proses analisis dilakukan melalui beberapa tahapan, yaitu pengolahan data dari file Excel, normalisasi data menggunakan Z-score, perhitungan jarak menggunakan Euclidean distance, serta pembentukan cluster menggunakan metode Ward linkage.
Hasil dari proses ini divisualisasikan dalam bentuk dendrogram untuk mengetahui struktur pengelompokan data secara hierarkis.
Diharapkan hasil penelitian ini dapat memberikan pemahaman yang lebih jelas mengenai penerapan hierarchical clustering dalam analisis data, serta menjadi referensi dalam pengembangan metode clustering pada berbagai permasalahan yang serupa.
METODE PENELITIAN
Penelitian ini menggunakan pendekatan kuantitatif berbasis data mining dengan menerapkan metode Hierarchical Clustering pada dataset Mall Customers.
Tahapan penelitian meliputi pengumpulan data, prapemrosesan, normalisasi, pembangunan model clustering, dan evaluasi performa cluster.
Seluruh proses komputasi dilakukan menggunakan bahasa pemrograman Python dengan pustaka scikit-learn, scipy, dan Dataset Dataset yang digunakan dalam penelitian ini adalah Mall Customers Dataset yang terdiri dari 200 data pelanggan sebuah pusat perbelanjaan.
Dataset ini memiliki 5 atribut yang ditunjukkan pada Tabel 1.
Tidak ditemukan nilai yang hilang .
issing value.
pada seluruh atribut sehingga data dapat langsung digunakan tanpa proses imputasi.
Tabel 1.
Deskripsi Atribut Dataset Mall Customers Atribut CustomerID Genre Tipe Data Integer Kategorikal Deskripsi Min Max Identitas unik pelanggan Jenis kelamin (Male/Femal.
Jurnal Sistem Informasi Dan InformatikaAe Vol 4 No 1 .
: Januari 2026 JISKA: Jurnal Sistem Informasi Dan Informatika Vol 4 No 1 .
: Januari 2026 Hal.
http://jurnal.
id/index.
php/jiska Age Integer Usia pelanggan .
Annual Income Integer .
Spending Score Integer .
Ae.
Pendapatan tahunan dalam ribuan dolar Skor belanja yang ditetapkan 2 Pra Ae Pemrosesan Data Pra-pemrosesan data dilakukan dengan normalisasi Z-score pada dua fitur utama yang digunakan dalam proses clustering, yaitu Annual Income dan Spending Score.
Normalisasi dilakukan untuk menyetarakan skala kedua fitur sehingga tidak ada dominasi satu fitur terhadap perhitungan jarak.
Formula normalisasi Z-score yang digunakan adalah:
ycs = .
cU Oe yuN)/yua .
Keterangan: X adalah nilai asli, adalah rata-rata, dan E adalah standar deviasi.
Tabel 2 menyajikan statistik deskriptif sebelum dan setelah normalisasi.
Tabel 2.
Statistik Deskriptif Data Sebelum dan Sesudah Normalisasi Statistik Age Annual Income .
Spending Score Z_Income (/E) Z_Spending (/E) Mean 00 / 1.
00 / 1.
Std Dev Min Max 3 Perhitungan Matriks Jarak Euclidean Setelah normalisasi, jarak antar titik data dihitung menggunakan metrik jarak Euclidean.
Formula jarak Euclidean untuk dua titik data yang telah dinormalisasi adalah:
cn, y.
= Oo[.
c 1 A Oe yc 1 )2 .
c 2 A Oe yc 2 )2 ] .
Matriks jarak dihitung untuk seluruh 200 data pelanggan.
Sebagai ilustrasi.
Tabel 3 menyajikan sebagian matriks jarak dari 6 sampel pertama (C001AeC.
setelah normalisasi Z-score.
Tabel 3.
Matriks Jarak Euclidean .
sample pertam.
ID \ ID
C001
C002
C003
C004
C005
C001
C002
C003
C004
C005
C006
4 Metode Hierarchical Clustering Ae Ward Linkage Proses clustering dilakukan menggunakan metode Hierarchical Agglomerative Clustering dengan Ward Linkage.
Metode Ward dipilih karena terbukti menghasilkan cluster yang paling seimbang dan kompak dibandingkan metode linkage lainnya.
Prinsip kerja Ward Linkage adalah meminimalkan peningkatan total Sum of Squared Error (SSE) dalam satu cluster ketika dua cluster digabungkan.
Formula Ward adalah:
a, yaA) = .
cuya A ycuyaA)/.
cuya ycuyaA) A AnyuNya Oe yuNyan2 Keterangan: nA dan nB adalah jumlah anggota cluster A dan B, sedangkan A dan B adalah centroid masing-masing cluster.
Proses penggabungan dilakukan secara iteratif mulai dari setiap titik data sebagai cluster tunggal hingga seluruh data tergabung dalam satu cluster .
Jurnal Sistem Informasi Dan InformatikaAe Vol 4 No 1 .
: Januari 2026 JISKA: Jurnal Sistem Informasi Dan Informatika Vol 4 No 1 .
: Januari 2026 Hal.
http://jurnal.
id/index.
php/jiska 5 Penentuan Jumlah Cluster Optimal Penentuan jumlah cluster optimal .
dilakukan dengan membandingkan tiga metrik evaluasi, yaitu: .
Silhouette Score yang mengukur kekompakan dan separasi cluster .
entang 0Ae1, semakin tinggi semakin bai.
Calinski-Harabasz Index (CH Scor.
yang mengukur rasio dispersi antar-cluster terhadap dalam-cluster.
Davies-Bouldin Index (DB Scor.
yang mengukur kemiripan rata-rata cluster dengan cluster tetangganya .
emakin rendah semakin bai.
Selain itu.
Cophenetic Correlation Coefficient juga dihitung untuk menilai seberapa baik dendrogram merepresentasikan jarak antar data asli.
HASIL DAN PEMBAHASAN
Hasil Normalisasi Data Normalisasi Z-score berhasil diterapkan pada dua fitur utama.
Setelah normalisasi, nilai rata-rata kedua fitur menjadi 0 dengan standar deviasi 1, memastikan kesetaraan skala dalam proses perhitungan jarak.
Sebagai contoh, pelanggan dengan Annual Income = 15 k menghasilkan Z-score sebesar Oe1.
739, sedangkan pelanggan dengan Spending Score = 39 menghasilkan Z-score Oe0.
Data setelah normalisasi siap digunakan sebagai masukan pada proses clustering.
Matriks Jarak dan Proses Linkage Matriks jarak Euclidean berhasil dihitung untuk seluruh 200 data pelanggan .
atriks 200y.
Analisis terhadap 20 sampel pertama menunjukkan jarak terdekat antara C013 dan C015 sebesar 0.
0601, yang kemudian menjadi pasangan pertama yang digabungkan pada langkah pertama proses linkage Ward.
Secara keseluruhan, terdapat 19 tahapan penggabungan cluster pada 20 sampel manual.
Jarak Ward mulai menunjukkan lonjakan signifikan pada langkah 17 .
dan langkah 18 .
, yang mengindikasikan adanya batas pemisahan cluster yang optimal.
Penentuan Jumlah Cluster Optimal Evaluasi dilakukan terhadap empat metode linkage untuk menentukan jumlah cluster optimal.
Hasil perbandingan disajikan pada Tabel 4.
Cophenetic Correlation Coefficient pada metode Ward mencapai nilai 7209, yang melebihi ambang batas 0.
7, artinya dendrogram merepresentasikan struktur jarak data asli dengan Tabel 4.
Perbandingan Metrik Evaluasi Clustering Metode Linkage Silhouette Score k Optimal CH Score DB Score Ward Complete Average Single Berdasarkan Tabel 4, metode Ward Linkage menghasilkan Silhouette Score tertinggi sebesar 0.
5538 dengan jumlah cluster optimal k = 5.
Nilai CH Score yang tinggi .
menunjukkan separasi antar-cluster yang baik, sementara nilai DB Score yang rendah .
mengkonfirmasi kekompakan cluster.
Oleh karena itu, analisis selanjutnya menggunakan k = 5 cluster dengan metode Ward.
Hasil Clustering Final Proses Hierarchical Clustering Ward dengan k = 5 menghasilkan lima segmen pelanggan yang terdefinisi dengan baik.
Tabel 5 menyajikan ringkasan karakteristik setiap cluster yang terbentuk dari seluruh 200 data Tabel 5.
Karakteristik Lima Cluster Pelanggan Mall
Cluster
N (%)
Avg Income .
Avg Spending Avg Age Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Jurnal Sistem Informasi Dan InformatikaAe Vol 4 No 1 .
: Januari 2026 JISKA: Jurnal Sistem Informasi Dan Informatika Vol 4 No 1 .
: Januari 2026 Hal.
http://jurnal.
id/index.
php/jiska 5 Interpretasi dan Pembahasan Tiap Cluster Cluster 1 (N=39, 20%) Ae Pelanggan VIP dengan Pendapatan Tinggi dan Belanja Tinggi.
Cluster ini merupakan segmen paling berharga bagi pihak mall.
Pelanggan memiliki rata-rata pendapatan tahunan 86.
dan skor belanja 82.
1 dengan usia rata-rata 32.
7 tahun, menunjukkan segmen muda-dewasa yang memiliki daya beli tinggi dan motivasi berbelanja yang kuat.
Strategi yang direkomendasikan adalah program loyalitas premium dan penawaran eksklusif.
Cluster 2 (N=32, 16%) Ae Pelanggan Pendapatan Tinggi.
Belanja Rendah.
Segmen ini memiliki rata-rata pendapatan tertinggi .
namun skor belanja sangat rendah .
dengan usia rata-rata 41 tahun.
Pola ini mengindikasikan pelanggan yang mampu secara finansial namun belum termotivasi untuk berbelanja di mall.
Intervensi berupa penawaran produk premium, program diskon bertarget, dan peningkatan pengalaman berbelanja dapat meningkatkan keterlibatan segmen ini.
Cluster 3 (N=21, 10%) Ae Pelanggan Muda dengan Pendapatan Rendah dan Belanja Tinggi.
Dengan ratarata usia 25.
3 tahun, pendapatan 25.
1 k, dan skor belanja 80.
0, segmen ini menggambarkan pelanggan muda yang konsumtif meskipun memiliki keterbatasan pendapatan.
Program cicilan, diskon produk tertentu, dan promosi berbasis media sosial relevan untuk segmen ini.
Cluster 4 (N=23, 12%) Ae Pelanggan Pendapatan Rendah.
Belanja Rendah.
Merupakan segmen dengan daya beli dan motivasi belanja paling rendah .
3 k, skor belanja 20.
Usia rata-rata 45.
2 tahun mengindikasikan segmen paruh baya dengan anggaran terbatas.
Program promosi berbasis harga, produk kebutuhan sehari-hari, dan event diskon besar dapat menjadi daya tarik segmen ini.
Cluster 5 (N=85, 42%) Ae Segmen Terbesar: Pendapatan Menengah.
Belanja Standar.
Dengan proporsi terbesar .
% dari total dat.
, segmen ini memiliki rata-rata pendapatan 55.
8 k dan skor belanja 49.
Kelompok ini merepresentasikan pelanggan tipikal mall yang menjadi tulang punggung pendapatan.
Strategi retensi pelanggan, program poin reward, dan penawaran lintas kategori produk sangat relevan untuk mempertahankan dan meningkatkan frekuensi kunjungan segmen ini.
Diskusi Temuan Secara keseluruhan, hasil penelitian mengkonfirmasi bahwa Hierarchical Clustering dengan metode Ward Linkage mampu mengidentifikasi struktur segmentasi pelanggan yang bermakna pada dataset Mall Customers.
Nilai Cophenetic Correlation sebesar 0.
7209 menunjukkan bahwa dendrogram yang dihasilkan merepresentasikan hubungan jarak antar data dengan akurasi yang dapat diterima.
Pemilihan k = 5 secara konsisten dikonfirmasi oleh dua metode linkage berbeda (Ward dan Complet.
, yang memperkuat validitas jumlah cluster tersebut.
Temuan ini sejalan dengan karakteristik umum segmentasi pelanggan ritel yang biasanya terbagi dalam kelompok berdasarkan kombinasi daya beli dan perilaku konsumsi.
Implikasi manajerial dari penelitian ini adalah bahwa strategi pemasaran mall tidak dapat bersifat seragam, melainkan perlu disesuaikan dengan profil unik masing-masing segmen untuk memaksimalkan efektivitas program promosi dan pengelolaan hubungan SIMPULAN Penerapan Hierarchical Clustering dengan Ward Linkage pada dataset Mall Customers menunjukkan hasil yang cukup memuaskan dalam membentuk segmentasi pelanggan yang terstruktur.
Dari serangkaian pengujian menggunakan tiga metrik evaluasi Silhouette Score.
Calinski-Harabasz Index, dan Davies-Bouldin Index diperoleh bahwa pembagian ke dalam 5 cluster memberikan performa terbaik, dengan nilai Silhouette 0.
CH Score 244.
41, dan DB Score 0.
Selain itu, kualitas dendrogram yang dibuat dievaluasi sebagai representatif, seperti yang ditunjukkan oleh nilai Cophenetic Correlation sebesar 0.
7209, yang melampaui ambang batas 0.
Kelima cluster yang terbentuk menunjukkan betapa beragamnya profil pelanggan.
mereka terdiri dari pelanggan muda yang sangat berdaya beli hingga pelanggan paruh baya yang lebih konservatif.
Hasil ini menunjukkan bahwa metode pemasaran yang seragam tidak akan efektif jika diterapkan pada semua pelanggan.
Dengan memahami karakteristik tiap segmen secara lebih mendalam, pihak manajemen mall dapat merancang strategi promosi dan program loyalitas yang lebih tepat sasaran.
UCAPAN TERIMAKASIH