JISKA: Jurnal Sistem Informasi Dan Informatika Vol 4 No 1 .
: Januari 2026 Hal.
http://jurnal.
id/index.
php/jiska Penerapan Metode Agglomerative Clustering Untuk Segmentasi Data Dalam Lingkungan Big Data Paskal Arienda Epindonta Gintinga.
Risky Immanuel Situmorangb.
Muhammad Raihansyah Lubisc.
Raja Ansel Hartama Sihombingd.
Arnita Piliange Ilmu Komputer.
Fakultas Matematika dan Ilmu Pengetahuan Alam.
Universitas Negeri Medan, paskalginting1@gmail.
Ilmu Komputer.
Fakultas Matematika dan Ilmu Pengetahuan Alam.
Universitas Negeri Medan, rizkicrew223@gmail.
Ilmu Komputer.
Fakultas Matematika dan Ilmu Pengetahuan Alam.
Universitas Negeri Medan, raihansyah12lubis@gmail.
Ilmu Komputer.
Fakultas Matematika dan Ilmu Pengetahuan Alam.
Universitas Negeri Medan, rajahombing5@gmail.
Ilmu Komputer.
Fakultas Matematika dan Ilmu Pengetahuan Alam.
Universitas Negeri Medan, arnita@unimed.
Abstract The exponential growth of data in the digital era has increased the need for analytical methods capable of handling Big Data This study examines the application of Agglomerative Hierarchical Clustering (AHC) for data segmentation using two datasets: .
an Iris dataset of 24 samples with 8 morphological attributes, and .
an e-commerce transaction dataset of 10 customer records.
Ward linkage was selected based on literature evidence of its superiority.
Results on the Iris dataset yielded 3 optimal clusters with a Silhouette Score of 0.
4196 and an Adjusted Rand Index of 0.
3635, achieving 70.
classification accuracy.
In the e-commerce dataset, three customer segments were formed: premium, middle-tier, and passive These findings confirm AHC as an effective multidimensional data segmentation method.
Keywords: agglomerative clustering, big data, data segmentation, hierarchical clustering, ward linkage Abstrak Pertumbuhan data secara eksponensial dalam era digital telah mendorong kebutuhan akan metode analisis yang mampu menangani volume, kecepatan, dan keragaman data dalam lingkungan Big Data.
Penelitian ini mengkaji penerapan metode Agglomerative Hierarchical Clustering (AHC) sebagai pendekatan segmentasi data tidak terstruktur.
Eksperimen dilaksanakan menggunakan dua dataset: .
dataset Iris sebanyak 24 sampel dengan 8 atribut morfologi bunga, dan .
dataset transaksi e-commerce sebanyak 10 record pelanggan dengan 5 atribut perilaku.
Metode Ward linkage dipilih berdasarkan kajian literatur yang konsisten menunjukkan keunggulannya.
Hasil eksperimen pada dataset Iris membentuk 3 cluster optimal dengan Silhouette Score 0,4196 dan Adjusted Rand Index 0,3635, dengan akurasi pengelompokan 70,83%.
Cluster 1 seluruhnya berisi Setosa .
Cluster 2 didominasi Versicolor .
, dan Cluster 3 didominasi Virginica .
Pada dataset e-commerce, terbentuk 3 segmen pelanggan: pelanggan premium .
rekuensi tinggi, belanja besa.
, pelanggan menengah, dan pelanggan pasif.
Temuan ini konsisten dengan penelitian terdahulu dan memvalidasi efektivitas AHC sebagai metode segmentasi data multidimensi.
Kata Kunci: agglomerative clustering, big data, hierarchical clustering, segmentasi data, ward linkage This work is licensed under Creative Commons Attribution License 4.
0 CC-BY International license PENDAHULUAN Perkembangan teknologi informasi yang pesat telah menghasilkan akumulasi data dalam jumlah yang sangat besar, heterogen, dan terus bertumbuh secara eksponensial.
Fenomena ini dikenal dengan istilah Big Data, yang dicirikan oleh tiga dimensi utama yaitu Volume.
Velocity, dan Variety .
Dalam konteks ini, kemampuan mengekstrak informasi bermakna dari data berskala masif menjadi kebutuhan kritis di berbagai sektor, mulai dari e-commerce, kesehatan, keuangan, hingga pemerintahan.
Segmentasi data merupakan teknik analitik fundamental dalam data mining yang mengelompokkan objekobjek berdasarkan kesamaan karakteristik .
Agglomerative Hierarchical Clustering (AHC) adalah pendekatan bottom-up dari hierarchical clustering yang secara iteratif menggabungkan dua klaster terdekat hingga seluruh data tergabung dalam satu hierarki tunggal yang divisualisasikan melalui dendrogram .
Keunggulan AHC dibandingkan K-Means terletak pada tidak diperlukannya penetapan jumlah klaster di awal proses serta kemampuannya menghasilkan struktur hierarkis yang kaya informasi .
Penelitian ini bertujuan mengimplementasikan AHC secara manual pada dua dataset: dataset morfologi bunga Iris .
sampel, 8 fitu.
dan dataset perilaku pelanggan e-commerce .
record, 5 fitu.
Implementasi mencakup normalisasi Z-score, penghitungan matriks jarak Euclidean, prosedur linkage Ward step-by-step, pembentukan dendrogram, serta evaluasi kualitas cluster menggunakan Silhouette Score dan Adjusted Rand Index.
METODE PENELITIAN
Penelitian menggunakan pendekatan eksperimental-komputasional dengan implementasi manual algoritma AHC.
Dataset pertama adalah sampel bunga Iris sebanyak 24 record yang mencakup 6 sampel Setosa, 7 Jurnal Sistem Informasi Dan InformatikaAe JISKA Vol 4 No 1 .
: Januari 2026 JISKA: Jurnal Sistem Informasi Dan Informatika Vol 4 No 1 .
: Januari 2026 Hal.
http://jurnal.
id/index.
php/jiska Versicolor, dan 11 Virginica dengan atribut sepal length, sepal width, petal length, petal width, petal area, dan sepal area.
Dataset kedua adalah 10 record pelanggan platform e-commerce dengan atribut total belanja bulanan, frekuensi transaksi, durasi kunjungan web, jumlah item dibeli, dan skor ulasan pelanggan.
Prosedur penelitian meliputi: .
pra-pemrosesan data dengan normalisasi Z-score, .
penghitungan matriks jarak Euclidean berdimensi 24y24, .
iterasi Ward linkage sebanyak 23 langkah, .
pemotongan dendrogram pada threshold untuk membentuk 3 cluster, dan .
evaluasi menggunakan Silhouette Score dan Adjusted Rand Index.
Metode Ward dipilih karena konsisten menghasilkan cluster yang kompak dan homogen pada berbagai studi .
HASIL DAN PEMBAHASAN
1 Dataset dan Pra-Pemrosesan Dataset Iris yang digunakan terdiri dari 24 sampel yang dipilih secara representatif dari tiga spesies (Setosa.
Versicolor.
Virginic.
dengan delapan atribut numerik.
Distribusi spesies bersifat tidak seimbang: 6 sampel Setosa, 7 Versicolor, dan 11 Virginica, yang mencerminkan kondisi data tidak seimbang .
mbalanced dat.
yang umum ditemui pada Big Data nyata.
Dua atribut turunan, yaitu petal area .
anjang y lebar peta.
dan sepal area .
anjang y lebar sepa.
, ditambahkan untuk memperkaya representasi fitur dan meningkatkan diskriminasi antar Normalisasi menggunakan metode Z-score .
dilakukan untuk menghilangkan pengaruh perbedaan skala antar fitur.
Setelah normalisasi, setiap fitur memiliki mean = 0 dan standar deviasi = 1, menjamin bahwa tidak ada fitur yang mendominasi penghitungan jarak Euclidean.
Nilai rata-rata .
sebelum normalisasi untuk sepal length adalah 5,929.
sepal width 2,963.
petal length 4,179.
dan petal width 1,392.
Tabel 5.
Data Asli dan Hasil Pengelompokan 24 Sampel Dataset Iris Sepal Sepal Petal Petal Spesies Petal Area Sepal Area Cluster Setosa Cluster Setosa Cluster Setosa Cluster Setosa Cluster Setosa Cluster Setosa Cluster Versicolor Cluster Versicolor Cluster Versicolor Cluster Versicolor Cluster Versicolor Cluster Versicolor Cluster Versicolor Cluster Virginica Cluster Virginica Cluster Jurnal Sistem Informasi Dan InformatikaAe Vol 4 No 1 .
: Januari 2026 JISKA: Jurnal Sistem Informasi Dan Informatika Vol 4 No 1 .
: Januari 2026 Hal.
http://jurnal.
id/index.
php/jiska Sepal Sepal Petal Petal Spesies Petal Area Sepal Area Cluster Virginica Cluster Virginica Cluster Virginica Cluster Virginica Cluster Virginica Cluster Virginica Cluster Virginica Cluster Virginica Cluster Virginica Cluster Tabel 5 menyajikan 24 sampel dataset Iris beserta hasil pengelompokan akhir yang diperoleh melalui proses AHC Ward linkage.
Terlihat bahwa Cluster 1 secara eksklusif berisi seluruh 6 sampel Setosa, sementara Cluster 2 dan Cluster 3 berbagi sampel dari Versicolor dan Virginica dengan pola overlapping yang mencerminkan kemiripan morfologi antara kedua spesies tersebut.
2 Proses Agglomerative Clustering dan Dendrogram Algoritma AHC Ward linkage dijalankan secara iteratif melalui 23 langkah penggabungan .
-1 langkah untuk n=24 sampe.
Setiap langkah menggabungkan dua klaster dengan jarak Ward terkecil, yang didefinisikan sebagai peningkatan minimum pada jumlah kuadrat error (SSE) akibat penggabungan.
Langkah pertama menggabungkan sampel S7 (Versicolo.
dan S11 (Versicolo.
dengan jarak Ward 0,4503, yang merupakan pasangan paling homogen dalam seluruh dataset.
Langkah kedua menggabungkan S1 dan S4 .
eduanya Setos.
dengan jarak 0,4948, diikuti penggabungan S14 dan S18 .
eduanya Virginic.
pada langkah ketiga dengan jarak 0,6202.
Pola yang konsisten terlihat pada tahap awal: sampel-sampel dalam spesies yang sama cenderung bergabung lebih awal .
arak Ward lebih keci.
, mengindikasikan homogenitas intra-spesies yang tinggi.
Lompatan jarak .
ap distanc.
yang signifikan terjadi antara Step 22 .
arak 8,2.
dan Step 23 .
arak 11,3.
, yang menjadi dasar penentuan threshold pemotongan dendrogram pada nilai 3,5 untuk menghasilkan 3 cluster optimal.
Gambar 1.
Dendrogram Agglomerative Hierarchical Clustering (Ward Linkage, 24 Sampel Dataset Iri.
Jurnal Sistem Informasi Dan InformatikaAe Vol 4 No 1 .
: Januari 2026 JISKA: Jurnal Sistem Informasi Dan Informatika Vol 4 No 1 .
: Januari 2026 Hal.
http://jurnal.
id/index.
php/jiska Gambar 1 menampilkan dendrogram yang dihasilkan dari 23 langkah penggabungan.
Garis merah putusputus menunjukkan threshold pemotongan pada Ward Distance = 3,5 yang menghasilkan tiga kelompok utama.
Cabang biru .
mewakili Cluster 1 yang murni berisi Setosa, cabang oranye .
mewakili Cluster 2 yang didominasi Versicolor, dan cabang hijau .
mewakili Cluster 3 yang didominasi Virginica.
3 Hasil Pengelompokan dan Karakteristik Cluster Setelah pemotongan dendrogram pada threshold yang telah ditentukan, terbentuk tiga cluster dengan komposisi sebagai berikut: Cluster 1 berisi 6 sampel .
eluruhnya Setos.
Cluster 2 berisi 8 sampel .
Versicolor 4 Virginic.
, dan Cluster 3 berisi 10 sampel .
Versicolor 7 Virginic.
Total akurasi pengelompokan adalah 70,83% .
dari 24 sampel terklaster dengan tepat sesuai spesies asl.
, dengan 7 sampel yang terjadi misklasifikasi akibat overlap karakteristik morfologi Versicolor-Virginica.
Tabel 6.
Statistik Deskriptif Centroid Setiap Cluster Cluster Sepal L.
Sepal W.
Petal L.
Petal W.
Petal Area Jumlah Cluster 1 6 sampel Cluster 2 8 sampel Cluster 3 10 sampel Tabel 6 merangkum centroid .
ilai rata-rata fitu.
untuk setiap cluster.
Cluster 1 (Setos.
memiliki nilai petal length rata-rata 1,483 cm dan petal width 0,233 cm, jauh lebih kecil dibandingkan dua cluster lainnya.
Cluster 3 .
ominan Virginic.
memiliki dimensi petal terbesar dengan petal length 5,620 cm dan petal area 11,116 cmA.
Cluster 2 berada di antara keduanya dengan petal length 4,400 cm, mencerminkan karakteristik Versicolor yang memiliki ukuran sedang.
Gambar 2.
Hasil Segmentasi AHC (Ward Linkag.
Ae Visualisasi Petal Length vs Petal Width Gambar 2 memvisualisasikan hasil segmentasi pada ruang dua dimensi .
etal length y petal widt.
Tampak bahwa Cluster 1 .
Setos.
terpisah dengan sangat jelas di kuadran kiri bawah, sepenuhnya terisolasi dari dua cluster lainnya.
Cluster 2 .
dan Cluster 3 .
sedikit tumpang tindih pada rentang petal length 4,6Ae5,1 cm, yang menjelaskan adanya misklasifikasi antara Versicolor dan Virginica.
Jurnal Sistem Informasi Dan InformatikaAe Vol 4 No 1 .
: Januari 2026 JISKA: Jurnal Sistem Informasi Dan Informatika Vol 4 No 1 .
: Januari 2026 Hal.
http://jurnal.
id/index.
php/jiska Gambar 3.
Perbandingan Nilai Rata-Rata Fitur per Cluster Gambar 3 memperjelas perbedaan karakteristik antar cluster melalui visualisasi nilai centroid semua fitur.
Fitur petal area menunjukkan diskriminasi terbesar: Cluster 1 memiliki petal area rata-rata hanya 0,352 cmA, sementara Cluster 3 mencapai 11,116 cmA Ai perbedaan sekitar 30 kali lipat.
4 Evaluasi Kualitas Cluster Tabel 7.
Metrik Evaluasi Hasil Clustering Metrik Evaluasi Nilai Skala Interpretasi Silhouette Score [-1, .
Struktur cluster cukup baik.
nilai mendekati 0.
Adjusted Rand Index , .
Kesesuaian moderat dengan label spesies asli
Akurasi Klasifikasi
%, 100%]
17 dari 24 sampel terklaster dengan benar Tabel 7 merangkum tiga metrik evaluasi yang digunakan.
Silhouette Score sebesar 0,4196 mengindikasikan struktur cluster yang cukup baik, di mana nilai rata-rata jarak intra-cluster lebih kecil dibandingkan jarak ke cluster terdekat.
Nilai ini berada di bawah ambang batas "cluster kuat" (SS > 0,.
yang ditetapkan oleh Handayani & Sitokdana .
, namun hal ini dapat dijelaskan oleh adanya overlap alami antara Versicolor dan Virginica.
Nilai Adjusted Rand Index (ARI) sebesar 0,3635 mengukur kesesuaian antara hasil cluster AHC dengan label spesies asli.
Nilai ini berada pada kisaran "kesesuaian moderat", konsisten dengan tingkat misklasifikasi 29,17% yang terjadi akibat tumpang tindih karakteristik Versicolor-Virginica.
Tabel 8.
Matriks Konfusi: Hasil Cluster vs Label Spesies Asli Cluster \ Spesies Setosa Versicolor Virginica Total Cluster 1 Cluster 2 Cluster 3 Total Tabel 8 menampilkan matriks konfusi yang merekam distribusi label spesies asli dalam setiap cluster.
Cluster 1 mencapai presisi sempurna .
/6 = 100% Setos.
, membuktikan bahwa AHC berhasil mengisolasi Setosa secara sempurna.
Cluster 3 memiliki presisi 70% untuk Virginica .
, sementara Cluster 2 memiliki presisi 50% untuk Versicolor .
Jurnal Sistem Informasi Dan InformatikaAe Vol 4 No 1 .
: Januari 2026 JISKA: Jurnal Sistem Informasi Dan Informatika Vol 4 No 1 .
: Januari 2026 Hal.
http://jurnal.
id/index.
php/jiska Gambar 4.
Matriks Konfusi Hasil Clustering vs Label Spesies Asli 5 Implementasi pada Dataset E-Commerce Untuk memvalidasi generalisabilitas metode AHC dalam konteks Big Data yang lebih relevan secara praktis, dilakukan juga implementasi pada dataset transaksi e-commerce yang terdiri dari 10 record pelanggan dengan 5 atribut perilaku.
Dataset ini mensimulasikan kondisi nyata segmentasi pelanggan yang menjadi salah satu aplikasi kritis dalam industri ritel digital.
Tabel 9.
Dataset Pelanggan E-Commerce dan Hasil Segmentasi Belanja/Bln (R.
Frek.
Transaksi Durasi Web (Mn.
Item
Dibeli Skor
Ulasan Cluster
C001
Cluster A C002
Cluster A C003
Cluster A C004
Cluster B
C005
Cluster B
C006
Cluster B
C007
Cluster C
C008
Cluster C
C009
Cluster C
C010
Cluster C Tabel 9 menampilkan 10 record pelanggan beserta hasil segmentasi.
Metode AHC Ward linkage secara konsisten membentuk 3 cluster yang memiliki interpretasi bisnis yang jelas.
Cluster A mencakup pelanggan premium (C001.
C002.
dengan rata-rata belanja bulanan Rp 5.
000, frekuensi transaksi 13Ae15 kali/bulan, dan skor ulasan tinggi .
,7Ae4,.
Cluster B berisi pelanggan menengah (C004.
C005.
dengan rata-rata belanja Rp 1.
000 dan frekuensi 2Ae4 transaksi/bulan.
Cluster C merupakan pelanggan pasif (C007.
C008.
C009.
dengan belanja di bawah Rp 200.
000 dan hanya 1 transaksi/bulan.
Jurnal Sistem Informasi Dan InformatikaAe Vol 4 No 1 .
: Januari 2026 JISKA: Jurnal Sistem Informasi Dan Informatika Vol 4 No 1 .
: Januari 2026 Hal.
http://jurnal.
id/index.
php/jiska Gambar 5.
Segmentasi Pelanggan E-Commerce Ae Visualisasi Total Belanja vs Frekuensi Transaksi Gambar 5 menggambarkan hasil segmentasi pelanggan pada bidang dua dimensi .
otal belanja y frekuensi Ketiga cluster terpisah dengan sangat jelas tanpa adanya overlap, berbeda dengan kasus dataset Iris.
Temuan segmentasi pelanggan ini memiliki relevansi langsung dengan kebutuhan strategi pemasaran.
Segmen Cluster A .
memerlukan program loyalitas eksklusif.
Cluster B .
merupakan target potensial untuk up-selling, sementara Cluster C .
membutuhkan strategi re-engagement.
6 Perbandingan dengan Penelitian Terdahulu Tabel 10.
Perbandingan Hasil Penelitian dengan Studi Terdahulu Penelitian Domain / Dataset Metode Sil.
Score
DBI
Ket.
Penelitian ini Iris E-Commerce .
AHC Ward Kode PySpark Abdulpatah et al.
Daerah penghasil padi AHC Avg.
Linkage n=34 prov.
Handayani & Sitokdana .
Tenaga Kesehatan AHC n=38 prov.
Nellie et al.
Rekomendasi Film
AHC
Manhattan n=2.
Usna & Aprilia .
Kemiskinan Sumut AHC vs KMeans DBI lebih AHC Tabel 10 memposisikan temuan penelitian ini dalam konteks literatur yang lebih luas.
Nilai Silhouette Score 0,4196 yang diperoleh berada di bawah nilai yang dilaporkan Abdulpatah et al.
(SS = 0,.
dan Handayani & Sitokdana .
(SS = 0,.
, namun perbedaan ini dapat dijelaskan oleh beberapa faktor kontekstual, termasuk overlap morfologi alami antara Versicolor dan Virginica serta ukuran dataset yang lebih kecil .
Meskipun demikian, penelitian ini berhasil memvalidasi dua aspek fundamental AHC yang konsisten dengan literatur: .
kemampuan AHC memisahkan kelompok yang terisolasi dengan sempurna (Cluster 1 / Setosa mencapai presisi 100%), dan .
kecenderungan Ward linkage menghasilkan cluster yang relatif kompak dan seimbang ukurannya .
, 8, 10 sampe.
7 Analisis Keterbatasan dan Implikasi Penelitian Penelitian ini memiliki beberapa keterbatasan yang perlu diakui.
Pertama, ukuran dataset yang relatif kecil .
=24 untuk Iris, n=10 untuk e-commerc.
membatasi generalisabilitas temuan secara langsung ke skenario Big Jurnal Sistem Informasi Dan InformatikaAe Vol 4 No 1 .
: Januari 2026 JISKA: Jurnal Sistem Informasi Dan Informatika Vol 4 No 1 .
: Januari 2026 Hal.
http://jurnal.
id/index.
php/jiska Data berskala jutaan record.
Kedua, evaluasi terbatas pada dua metrik (SS dan ARI) tanpa Davies-Bouldin Index dan Calinski-Harabasz Index yang digunakan oleh beberapa penelitian pembanding .
Meskipun demikian, penelitian ini memberikan kontribusi metodologis yang penting: dokumentasi langkahlangkah AHC secara manual .
and-calculatio.
yang transparan dan dapat direproduksi, yang dapat menjadi referensi pedagogis bagi peneliti dan praktisi yang ingin memahami mekanisme internal algoritma sebelum beralih ke implementasi skala besar.
SIMPULAN
Penelitian ini berhasil mengimplementasikan metode Agglomerative Hierarchical Clustering (AHC) dengan Ward linkage untuk segmentasi data pada dua dataset berbeda dalam konteks Big Data.
Beberapa kesimpulan utama dapat ditarik dari hasil penelitian ini.
Pertama.
AHC Ward linkage berhasil membentuk 3 cluster optimal pada dataset Iris .
=24, 8 fitu.
dengan Silhouette Score 0,4196 dan Adjusted Rand Index 0,3635.
Cluster 1 sepenuhnya berisi spesies Setosa .
resisi 100%), sementara Cluster 2 dan Cluster 3 berbagi sampel Versicolor dan Virginica akibat kemiripan morfologi kedua spesies tersebut.
Akurasi keseluruhan pengelompokan mencapai 70,83% .
/24 sampel bena.
Kedua, implementasi AHC pada dataset e-commerce .
=10, 5 fitu.
menghasilkan 3 segmen pelanggan yang terdefinisi jelas tanpa overlap: pelanggan premium dengan rata-rata belanja Rp 5.
000 dan frekuensi 13Ae15 transaksi/bulan, pelanggan menengah dengan belanja Rp 1.
000 dan 2Ae4 transaksi/bulan, serta pelanggan pasif dengan belanja di bawah Rp 200.
000 dan hanya 1 transaksi/bulan.
Ketiga, perbandingan dengan 20 referensi menunjukkan bahwa efektivitas AHC dipengaruhi oleh tiga faktor utama: .
pemilihan metode linkage, di mana Ward linkage secara konsisten unggul.
karakteristik intrinsik data, khususnya tingkat separasi antar kelompok.
skala dataset.
Untuk penelitian lanjutan, disarankan: .
memperluas implementasi ke dataset berskala Big Data sesungguhnya (> 100.
000 recor.
menggunakan Apache Spark.
membandingkan secara sistematis empat metode linkage pada dataset yang sama.
menambahkan metrik evaluasi Davies-Bouldin Index dan CalinskiHarabasz Index.
mengeksplorasi metode hybrid AHC-K-Means.
UCAPAN TERIMAKASIH
Penulis mengucapkan terima kasih kepada Program Studi Teknik Informatika dan seluruh pihak yang telah mendukung pelaksanaan penelitian dan penulisan manuskrip ini.
DAFTAR PUSTAKA