JURNAL FOURIER | Oktober 2025.
Vol.
No.
2, 68-79
DOI: 10.
14421/fourier.
ISSN 2252-763X
E-ISSN 2541-5239
PERBANDINGAN SINGLE LINKAGE DAN K-MEDOIDS PADA
DATA PENGHASILAN DAN DEMOGRAFI AREA KOMUNITAS
CHICAGO
Salsadilla Azizi Firda1.
Haikal Agung Widiyanto2.
Regina Adelisa3.
Etis Sunandi4* Program Studi Statistika.
Fakultas Matematika dan Ilmu Pengetahuan Alam.
Universitas Bengkulu Jalan W.
Supratman.
Kandang Limun.
Bengkulu 38371A.
Indonesia Korespondensi.
Etis Sunandi.
Email: esunandi@unib.
Abstrak Penelitian ini menganalisis metode Hierarchical Clustering Single Linkage dan K-Medoids dalam mengelompokkan data penghasilan dan demografi komunitas di Chicago.
Dengan menggunakan data sekunder dari website Kaggle, penelitian ini mengelompokkan 77 area komunitas berdasarkan kesamaan karakteristik sosial dan ekonomi.
Hasil analisis dengan metode Hierarchical Clustering Single Linkage menunjukkan bahwa terdapat satu area komunitas yang terpisah dalam klaster kedua, sementara sisanya tergabung dalam satu klaster utama.
Sebaliknya, metode K-Medoids menghasilkan dua klaster yang lebih seimbang dalam distribusi datanya.
Berdasarkan visualisasi clustering, metode K-Medoids dianggap lebih baik karena mampu membagi data secara lebih seimbang.
Namun, jika ditinjau dari nilai Silhouette Score dan Dunn Index, metode Hierarchical Clustering Single Linkage lebih unggul karena memiliki nilai yang lebih tinggi, mengindikasikan pemisahan klaster yang lebih jelas.
Dengan demikian, pemilihan metode terbaik bergantung pada tujuan analisis, di mana K-Medoids lebih sesuai untuk interpretasi distribusi data yang lebih merata, sedangkan Hierarchical Clustering Single Linkage lebih optimal dalam pemisahan klaster yang jelas.
Kata Kunci: Clustering.
Hierarchical Clustering.
K-Medoids.
Silhouette Score.
Dunn Index.
Penghasilan.
Demografi.
Abstract This study analyzes the Hierarchical Clustering Single Linkage and K-Medoids methods in clustering income and demographic data of communities in Chicago.
Using secondary data from the Kaggle website, this study clusters 77 community areas based on similarities in social and economic characteristics.
The analysis using the Hierarchical Clustering Single Linkage method reveals that one community area is isolated in the second cluster, while the rest are grouped into a single main cluster.
In contrast, the K-Medoids method produces two clusters with a more balanced Based on clustering visualization, the K-Medoids method is considered superior as it provides a more evenly distributed classification.
However, when evaluated using the Silhouette Score and Dunn Index, the Hierarchical Clustering Single Linkage method outperforms K-Medoids due to its higher values, indicating clearer cluster separation.
Thus, the choice of the best method depends on the analytical objective, where K-Medoids is more suitable for interpreting a more balanced data distribution, while Hierarchical Clustering Single Linkage is optimal for achieving distinct cluster separation.
Keywords: Clustering.
Hierarchical Clustering.
K-Medoids.
Silhouette Score.
Dunn Index.
Income.
Demographics.
Pendahuluan Pertumbuhan kota yang pesat sering kali diiringi dengan ketimpangan sosial-ekonomi antar wilayah.
Chicago, sebagai salah satu kota metropolitan terbesar di Amerika Serikat, memiliki beragam karakteristik demografis dan ekonomi di setiap wilayahnya.
Perbedaan tingkat pendapatan, kepadatan penduduk, serta faktor sosial lainnya dapat mencerminkan disparitas yang signifikan dalam akses terhadap layanan publik dan kualitas hidup masyarakat.
Ketimpangan ini dapat terlihat dalam berbagai aspek, seperti kesenjangan dalam akses pendidikan, layanan kesehatan, peluang kerja, serta tingkat A 2025 JURNAL FOURIER Versi online via w.
Perbandingan Single Lingkage dan K-Medoids .
kriminalitas di berbagai komunitas.
Dengan menganalisis penghasilan dan demografi area komunitas Chicago ini, pemerintah, akademisi, dan perencana kebijakan dapat mengidentifikasi wilayah yang membutuhkan perhatian lebih, merancang kebijakan pembangunan yang lebih inklusif, serta meningkatkan akses terhadap layanan publik bagi masyarakat.
Selain itu, data penghasilan dan demografi juga memainkan peran penting dalam perencanaan tata kota, analisis pasar tenaga kerja, serta pengembangan strategi ekonomi berbasis komunitas.
Saat ini, konsep data mining semakin dikenal sebagai tools penting dalam manajemen informasi karena jumlah informasi yang semakin besar jumlahnya.
Data mining sendiri sering disebut sebagai knowledge discovery in database (KDD) adalah kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan, pola hubungan dalam set data berukuran besar.
Salah satu teknik yang dikenal dalam data mining yaitu clustering.
Pengertian clustering keilmuan dalam data mining adalah pengelompokan sejumlah data atau objek ke dalam cluster .
sehingga setiap dalam cluster tersebut akan berisi data yang semirip mungkin dan berbeda dengan objek dalam cluster yang lainnya .
Ada dua metode dalam analisis cluster, yaitu metode hierarki dan non-hierarki.
Metode hierarki adalah metode yang dirancang untuk dekomposisi berhierarki .
dari kumpulan data menurut karakteristik pada data tersebut.
Sedangkan metode non-hierarki adalah metode yang digunakan untuk mengelompokkan data dan jumlah cluster yang akan dibuat dapat ditetapkan sebelumnya.
Ada berbagai jenis analisis cluster yang digunakan dalam metode hierarki, yaitu single linkage dan complete Sedangkan jenis analisis cluster yang digunakan dalam metode non-hierarki, yaitu metode KMeans dan KMedoids .
Agar dapat menentukan tingkatan prioritas dalam mengidentifikasi wilayah yang membutuhkan perhatian lebih, merancang kebijakan pembangunan yang lebih inklusif, serta meningkatkan akses terhadap layanan publik bagi Masyarakat Chicago, maka perlu dilakukan pengelompokan terhadap data penghasilan dan demografi area komunitas Chicago.
Pengelompokan ini dilakukan berdasarkan kemiripan karakteristik wilayahnya.
Terdapat beberapa penelitian serupa terkait pengelompokan wilayah berdasarkan indikator tertentu.
Thamrin dan Wijayanto .
melakukan penelitian untuk menentukan metode clustering terbaik dalam mengelompokkan kabupaten/kota di Pulau Jawa menggunakan metode hard clustering dan soft clustering berdasarkan tingkat kesejahteraan.
Berdasarkan penelitian tersebut diperoleh hasil bahwa metode terbaik dalam pengelompokan kabupaten/kota di Pulau Jawa berdasarkan tingkat kesejahteraan yaitu menggunakan Agglomerative Ward Linkage dengan tiga cluster.
Selanjutnya.
Luthfi dan Wijayanto .
juga melakukan penelitian yang serupa.
Penelitian kali ini melakukan pengelompokan pengelompokan terhadap 77 area komunitas di Chicago menggunakan dua metode clustering, yaitu Hierarchical Clustering dan K-Medoids.
Hasil dari kedua metode tersebut kemudian dibandingkan untuk menentukan metode yang paling optimal dalam mengelompokkan area komunitas berdasarkan karakteristik sosial, ekonomi, dan demografisnya.
Melalui proses clustering ini diharapkan pemerintah dapat menentukan prioritas dan mengambil kebijakan yang tepat mengenai area komunitas di Chicago mana yang perlu ditindak lanjuti terlebih dahulu.
Namun, research gap dalam studi ini muncul karena penelitian sebelumnya yang menganalisis pengelompokan wilayah di Chicago masih terbatas, baik dalam hal metode yang digunakan maupun variabel yang dianalisis.
Sebagian besar studi terdahulu berfokus pada Spatial Regression atau Hotspot Analysis untuk mendeteksi ketimpangan sosial, sementara penerapan metode non-hierarkis seperti KMedoids dalam konteks community area clustering di Chicago masih jarang dilakukan.
Oleh karena itu, penelitian ini memberikan kontribusi baru dengan membandingkan dua pendekatan clustering berbeda untuk memperoleh hasil pengelompokan yang lebih representatif dan dapat mendukung pengambilan kebijakan berbasis data.
JURNAL FOURIER .
14 68-79
Salsadilla Azizi Firda,dkk Landasan Teori Clustering Clustering adalah metode penganalisis data, yang sering dimasukkan sebagai salah satu metode data mining, yang bertujuan adalah untuk mengelompokan data dengan karakteristik yang sama ke suatu AowilayahAo yang sama dan data dengan karakteristik yang berbeda AowilayahAo yang lain .
Analisis cluster membuat pengelompokan objek berdasarkan jarak antara pasangan objek.
Jarak merupakan ukuran yang digunakan untuk mengukur kemiripan dari suatu objek.
Pada proses pemilihan ini, dapat dipilih salah satu dari beberapa jarak yang biasa digunakan salah satunya adalah jarak Euclidean.
Jarak Euclidean adalah akar dari jumlah kuadrat perbedaan/deviasi di dalam nilai untuk setiap variable.
Jarak euclidean antara cluster objek ke-i dan cluster objek ke-g dari p variabel didefinisikan sebagai berikut .
ycy ycc.
cUycn , ycUyci ) = [Oc .
cUycnyc Oe ycUyciyc ) ] .
yc=1 Metode Hierarchical Clustering (Single Linkag.
Hierarchical clustering merupakan salah satu metode clustering yang didasarkan pada struktur seperti dendogram, yaitu membagi atau menggabungkan data seperti cabang-cabang pohon dengan mengelompokkan dua atau lebih data yang memiliki kesamaan terdekat .
Hierarchical clustering dibagi menjadi dua yaitu Agglomeratif Clustering dan Difisive Clustering.
Agglomeratif Clustering mengelompokkan data dengan pendekatan bawah atas .
ottom u.
, sedangkan Difisive Clustering menggunakan pendekatan atas bawah .
op-botto.
Salah satu pengelompokan data Agglomeratif Clustering adalah single linkage.
Algoritma pengelompokan single linkage diawali dengan memilih jarak terkecil dalam matriks ya = .
ccycnyc }, kemudian menggabungkan objek yang bersesuaian misalnya ycO dan ycO untuk memperoleh cluster .
cOycO).
Langkah berikutnya adalah mencari jarak antara .
cOycO) dengan cluster lainnya, misalnya W sehingga dapat dituliskan sebagai berikut:
cOycO)ycO = min .
ccycOycO , yccycOycO ) .
Dengan yccycOycO adalah jarrah tetangga terdekat dari cluster U dan W serta yccycOycO adalah jarak tetangga terdekat dari cluster V dan W .
Metode K-Medoid K-Medoids merupakan suatu algoritma yang digunakan untuk menemukan medoids didalam sebuah kelompok .
yang merupakan titik pusat dari suatu kelompok .
Metode K-Medoids merupakan metode clustering yang berkaitan dengan metode KMedoids dan Medoidshift.
Algoritma KMedoids yang biasa dikenal dengan PAM (Partition Around Medoid.
adalah algoritma yang mengimplementasikan objek yaitu medoids sebagai perwakilan di setiap cluster .
Algoritma KMedoids tidak menetapkan rata-rata objek dalam suatu cluster sebagai titik referensi, melainkan menggunakan medoid .
, yaitu objek yang terletak paling di tengah cluster .
Strategi dasar dari algoritma k-medoids adalah menemukan cluster dari objek yco ke ycu dengan terlebih dahulu menemukan objek asli .
secara acak sebagai perwakilan dari setiap cluster.
Setiap objek yang tersisa dikelompokkan dengan medoid yang paling mirip .
Silhouette Coefficient Indeks silhoutte adalah nilai yang digunakan untuk menentukan nilai k yang paling optimal.
Dengan cluster disebut terbentuk dengan baik jika nilai indeks mendekati 1.
Sedangkan cluster disebut terbentuk kurang baik jika nilai indeks mendekati -1 .
JURNAL FOURIER .
14 68-79
Perbandingan Single Lingkage dan K-Medoids .
= yca.
Oe yca.
, yca.
) .
Dunn Index Indeks dunn merupakan rasio jarak terkecil antara observasi yang pada cluster yang berbeda dengan jarak intra cluster terbesar .
Indeks dunn berada pada rentang antara 0 sampai tak hingga (O).
Semakin besar nilai indeks dunn pada suatu cluster, semakin baik hasil clustering-nya.
Rumus yang digunakan untuk menghitung indeks dunn yaitu .
ycoycnycu ycoycnycu yccycnycyc.
cn, y.
) yayco , yayco OO ya, yayco O yayco ycn OO yayco , yc OO yayco ya.
= ycoycaycu yayco OO ya .
ayco )) .
dimana D(C) adalah indeks dunn.
dan diam.
ayco ) adalah jarak maksimum antar observasi dalam cluster yayco .
Bahan dan Metode Data yang digunakan yaitu data sekunder yang diperoleh dari publikasi website Kaggle :https://w.
com/datasets/aniket0712/acs-5-year-data-by-community-area penghasilan dan demografi area komunitas Chicago tahun 2023.
Jumlah data yang digunakan berjumlah 78 pengamatan dengan banyak variable sejumlah 28 variable sebagai berikut:
Tabel 1 Variabel Data Variabel Area komunitas (Nama wilayah komunitas di Chicag.
Pendapatan rendah (< $25,000 per tahu.
Pendapatan menengah bawah ($25,000-$49,999 per tahu.
Pendapatan menengah ($50,000-$74,999 per tahu.
Pendapatan menengah atas ($75,000-$125,000 per tahu.
Pendapatan tinggi (Ou$125,000 per tahu.
Keterangan Variabel Keterangan Label Perempuan usia 25-34 tahun ycU14 Perempuan usia 35-49 tahun ycU15 Perempuan usia 50-64 tahun ycU16 Perempuan usia Ou65 tahun ycU17 Total populasi ycU18 Kulit putih (Whit.
ycU19 Laki-laki usia 0-17 tahun ycU6 ycU20 Laki-laki usia 18-24 tahun ycU7 Laki-laki usia 25-34 tahun Laki-laki usia 35-49 tahun Laki-laki usia 50-64 tahun Laki-laki usia Ou 65 tahun ycU8 ycU10 ycU11 Perempuan usia 0-17 tahun ycU12 Kulit hitam atau AfrikaAmerika Penduduk Indian atau Alaska Asli Penduduk Asia Penduduk Kepulauan Pasifik Ras lainnya Multiras Kulit putih bukan Hispanik/Latin ycU21 ycU22 ycU23 ycU24 ycU25 ycU26 JURNAL FOURIER .
14 68-79
Salsadilla Azizi Firda,dkk Perempuan usia 18-24 tahun ycU13 ycU28 Hispanik atau Latin Selanjutnya tahapan-tahapan dalam analisis Hierarchical Clustering .
ingle linkag.
dan K-Medoids pada data penghasilan dan demografi area komunitas Chicago pada penelitian ini yaitu sebagai berikut:
Melakukan analisis statistika secara deskriptif pada data penelitian.
Menghitung jarak antar observasi dengan menggunakan metrik Euclidean untuk mengukur kedekatan antar wilayah dalam analisis Hierarchical Clustering dan K-Medoids.
Menerapkan metode Hierarchical Clustering dengan pendekatan Single Linkage dengan cara membentuk matriks jarak antar data, membangun dendrogram, dan menentukan jumlah klaster optimal menggunakan metode Sillhouette.
Menerapkan metode K-Medoids dengan menentukan jumlah klaster k yang optimal menggunakan Silhouette Score, memilih medoids sebagai pusat klaster, mengelompokkan data berdasarkan kedekatan dengan medoids, serta mengoptimalkan pemilihan pusat klaster hingga hasil konvergen.
Membuat plot visualisasi hasil metode Hierarchical Clustering dengan pendekatan Single Linkage dan K-Medoids.
Menentukan metode terbaik berdasarkan Silhouette Score dan Dunn Index Menarik Kesimpulan Hasil dan Pembahasan Statistik Deskriptif Data Sebagai tahap awal, dilakukan analisis secara deskriptif terhadap masing-masing variable yang digunakan dalam penelitian.
Hal ini bertujuan untuk menggambarkan karakteristik data secara ringkas agar didapatkan pemahaman yang lebih baik mengenai data tersebut.
Tabel 2 Statistik Deskriptif Data Summary Pendapatan rendah (< $25,000 per tahu.
Pendapatan menengah bawah ($25,000-$49,999 per tahu.
Pendapatan menengah ($50,000-$74,999 per tahu.
Pendapatan menengah atas ($75,000-$125,000 per tahu.
Pendapatan tinggi (Ou$125,000 per tahu.
Laki-laki usia 0-17 tahun Laki-laki usia 18-24 tahun Laki-laki usia 25-34 tahun Laki-laki usia 35-49 tahun Laki-laki usia 50-64 tahun Laki-laki usia Ou 65 tahun Perempuan usia 0-17 tahun Perempuan usia 18-24 tahun JURNAL FOURIER .
14 68-79
Minimum
Standar dev Median Mean
Maximum
822,99592
9930,9139
743,10818
974,68.
2565,84199
2274,59478
1245,05532
3545,97462
2642,58713
1779,07426
1235,46300
2296,21662
1374,75631
Perbandingan Single Lingkage dan K-Medoids .
Perempuan usia 25-34 tahun Perempuan usia 35-49 tahun Perempuan usia 50-64 tahun Perempuan usia Ou65 tahun Total populasi Kulit putih (Whit.
Kulit hitam atau AfrikaAmerika
Penduduk Indian atau Alaska
Asli
Penduduk Asia
Penduduk Kepulauan Pasifik
Ras lainnya Multiras Kulit putih bukan Hispanik/Latin Hispanik atau Latin
3401,92424
2301,38657
1759,66499
1586,58222
2248,359920
15913,45394
12622,49114
290,95015
3441,44.
34,42925
5171,59055
3285,63457
17,91
14842,60307
12238,11978
Pada tabel 1 hasil analisis statistik deskriptif pada data penghasilan dan demografi area komunitas Chicago menunjukkan bahwa distribusi pendapatan dan karakteristik populasi memiliki tingkat variasi yang tinggi.
Nilai rata-rata pada beberapa kelompok populasi menunjukkan kecenderungan tertentu, tetapi standar deviasi yang besar pada beberapa kategori mengindikasikan adanya perbedaan yang signifikan dalam distribusi pendapatan dan ukuran populasi.
Selain itu, terdapat nilai ekstrem dalam beberapa kategori, terutama dalam jumlah populasi dan distribusi kelompok ras, yang menunjukkan adanya area dengan populasi yang sangat besar atau sangat kecil.
Penyebaran data ini menjadi faktor penting dalam penerapan metode Hierarchical Clustering Single Linkage dan K-Medoids, karena variasi dalam distribusi penghasilan dan karakteristik demografi dapat memengaruhi pola pengelompokan komunitas di Chicago.
Metode Hierarchical Clustering Pada penelitian ini akan dilakukan analisis clustering dengan menerapkan metode Hierarchical Clustering dengan pendekatan Single Linkage.
Dalam melakukan Hierarchical Clustering dengan pendekatan Single Linkage diperlukan menghitung matriks jarak menggunakan metode Euclidean.
Metode ini dipilih karena mampu mengukur kedekatan antar data dalam ruang multidimensi dengan menghitung jarak lurus antara dua titik.
Dengan demikian, matriks jarak yang dihasilkan akan memberikan gambaran mengenai seberapa mirip atau berbeda setiap data dalam dataset yang digunakan.
Adapun hasil perhitungan matriks jarak pada data kali ini adalah sebagai berikut:
Tabel 3 Matriks Jarak Antar-Cluster Pada tabel 3 dapat diketahui bahwa setiap data memiliki jarak nol terhadap dirinya sendiri, sebagaimana terlihat pada nilai diagonal utama matriks.
Hal ini menunjukkan bahwa tidak ada perbedaan antara suatu data dengan dirinya sendiri.
Selain itu, jarak antara data 1 dan data 2 bernilai 1.
934, yang JURNAL FOURIER .
14 68-79 Salsadilla Azizi Firda,dkk mengindikasikan tingkat perbedaan atau ketidaksamaan antara kedua data tersebut.
Semakin besar nilai jarak Euclidean, semakin jauh hubungan antara dua data, sehingga dalam kasus ini dapat disimpulkan bahwa data 1 dan data 2 memiliki perbedaan yang cukup signifikan.
Selain itu, matriks ini bersifat simetris, yang berarti bahwa jarak antara data 1 ke data 2 sama dengan jarak antara data 2 ke data 1.
Hasil matriks jarak ini dapat menjadi dasar dalam proses clustering atau analisis lebih lanjut untuk memahami pola kedekatan antar data dalam dataset.
Gambar 1.
Matriks Jarak Antar-Cluster Setelah menghitung matriks jarak antar-cluster, langkah selanjutnya adalah melakukan clustering menggunakan metode hirarki.
Dalam penelitian ini, metode yang digunakan adalah Single Linkage, yang merupakan salah satu teknik dalam hierarchical clustering.
Metode ini mengelompokkan data dengan menghubungkan dua kluster terdekat berdasarkan jarak minimum antar titik.
Dengan pendekatan ini, proses pembentukan klaster dilakukan secara bertahap hingga seluruh data tergabung dalam satu hierarki yang dapat divisualisasikan dalam bentuk dendrogram.
Gambar 2.
Dendogram Single Linkage Pada gambar 2 menunjukkan bagaimana data dikelompokkan berdasarkan kesamaannya menggunakan metode Single Linkage.
Semakin rendah garis penggabungan, semakin mirip objek-objek tersebut.
Sebaliknya, garis tinggi menunjukkan bahwa objek lebih berbeda sebelum akhirnya dikelompokkan.
Dari grafik ini, kita bisa menentukan jumlah klaster optimal dengan memotong pada titik tertentu, sehingga data terbagi ke dalam kelompok yang lebih seragam.
JURNAL FOURIER .
14 68-79
Perbandingan Single Lingkage dan K-Medoids .
Setelah model Clustering Hirarki dibuat dengan metode Single Linkage, langkah selanjutnya adalah menentukan jumlah klaster yang optimal dan membagi data sesuai hasil analisis.
Dendrogram yang dihasilkan kemudian dipotong untuk membentuk dua klaster.
Hasil klasterisasi ini ditambahkan ke dalam dataset asli agar setiap data memiliki label klaster.
Dengan begitu, data dapat lebih mudah dianalisis dan divisualisasikan untuk memahami karakteristik masing-masing kelompok.
Gambar 3.
Cluster Optimal Menggunakan Metode Silhouette Gambar 3 menunjukkan bahwa jumlah klaster optimal adalah 2, dengan nilai Silhouette Score tertinggi.
Ini menandakan bahwa data paling baik dipisahkan menjadi dua kelompok, di mana objek dalam klaster lebih mirip satu sama lain dibandingkan dengan klaster lain.
Setelah k = 2, nilai menurun, menunjukkan bahwa menambah jumlah klaster tidak meningkatkan kualitas pemisahan.
Berdasarkan jumlah cluster optimal silhouette score diperoleh nilai k sebesar dua.
Dengan menggunakan jumlah cluster sebanyak dua didapatkan bahwa pada cluster dua hanya terdapat satu buah daerah are komunitas di Chicago, sementara yang lainnya berada pada cluster satu sebagai berikut:
Tabel 4 Hasil Hierarchical Clustering Single Linkage Cluster Anggota Albany Park.
Ashburn.
Avondale.
Belmont Cragin.
Bridgeport.
Brighton Park.
Chicago Lawn.
Dunning.
Edgewater.
Gage Park.
Garfield Ridge.
Humboldt Park.
Irving Park.
Lake View.
Lincoln Park.
Lincoln Square.
Logan Square.
Loop.
Lower West Side.
Near North Side.
Near West Side.
New City.
North Center.
Norwood Park.
Portage Park.
Rogers Park.
South Lawndale.
Uptown.
West Lawn.
West Ridge.
West Town.
Archer Heights.
Armour Square.
Auburn Gresham.
Avalon Park.
Beverly.
Burnside.
Calumet Heights.
Chatham.
Clearing.
Douglas.
East Garfield Park.
East Side.
Edison Park.
Englewood.
Forest Glen.
Fuller Park.
Grand Boulevard.
Greater Grand Crossing.
Hegewisch.
Hermosa.
Hyde Park.
Jefferson Park.
Kenwood.
Mckinley Park.
Montclare.
Morgan Park.
Mount Greenwood.
Near South Side.
North Lawndale.
North Park.
Oakland.
Ohare.
Pullman.
Riverdale.
Roseland.
South Chicago.
South Deering.
South Shore.
Washington Heights.
Washington Park.
West Elsdon.
West Englewood.
West Garfield Park.
West Pullman.
Woodlawn Austin JURNAL FOURIER .
14 68-79
Salsadilla Azizi Firda,dkk Dari hasil Hierarchical Clustering Single Linkage Tabel 4 di atas dapat di visualisasikan untuk untuk memahami pola distribusi area komunitas di Chicago adalah sebagai berikut:
Gambar 4.
Visualisasi Hierarchical Clustering Plot hasil Hierarchical Clustering di atas menunjukkan dua klaster yang terbentuk.
Klaster pertama .
arna mera.
memiliki distribusi yang lebih luas dan mencakup sebagian besar data, sedangkan klaster kedua .
arna bir.
hanya terdiri dari satu titik yang jauh terpisah dari klaster utama.
Hal ini mengindikasikan bahwa terdapat satu komunitas yang sangat berbeda karakteristiknya dibandingkan dengan yang lain, kemungkinan merupakan outlier atau wilayah dengan kondisi sosial-ekonomi yang Metode K-Medoids Pada penelitian ini akan dilakukan analisis clustering dengan menerapkan metode K-Medoids.
Tahapan pertama yang dilakukan adalah menentukan jumlah cluster optimum menggunakan metode Gambar 5.
Cluster Optimal Metode K-Medoids JURNAL FOURIER .
14 68-79 Perbandingan Single Lingkage dan K-Medoids .
Berdasarkan plot dari metode silhouette terlihat bahwa jumlah cluster optimal yang terbentuk yaitu sebanyak dua cluster.
Dengan menggunakan cluster optimal sebanyak dua cluster, sehingga didapatkan hasil clustering menggunakan metode K-Medoids sebagai berikut:
Tabel 5.
Hasil Clustering K-Medoid Cluster Anggota Albany Park.
Ashburn.
Austin.
Avondale.
Belmont Cragin.
Bridgeport.
Brighton Park.
Chicago Lawn.
Dunning.
Edgewater.
Gage Park.
Garfield Ridge.
Humboldt Park.
Irving Park.
Lake View.
Lincoln Park.
Lincoln Square.
Logan Square.
Loop.
Lower West Side.
Near North Side.
Near West Side.
New City.
North Center.
Norwood Park.
Portage Park.
Rogers Park.
South Lawndale.
Uptown.
West Lawn.
West Ridge.
West Town Archer Heights.
Armour Square.
Auburn Gresham.
Avalon Park.
Beverly.
Burnside.
Calumet Heights.
Chatham.
Clearing.
Douglas.
East Garfield Park.
East Side.
Edison Park.
Englewood.
Forest Glen.
Fuller Park.
Grand Boulevard.
Greater Grand Crossing.
Hegewisch.
Hermosa.
Hyde Park.
Jefferson Park.
Kenwood.
Mckinley Park.
Montclare.
Morgan Park.
Mount Greenwood.
Near South Side.
North Lawndale.
North Park.
Oakland.
Ohare.
Pullman.
Riverdale.
Roseland.
South Chicago.
South Deering.
South Shore.
Washington Heights.
Washington Park.
West Elsdon.
West Englewood.
West Garfield Park.
West Pullman.
Woodlawn Berdasarkan hasil clustering K-Medoid pada Tabel 5 di atas dapat dilakukan visualisasi clustering nya sebagai berikut:
Gambar 6.
Visualisasi Clustering K-Medoid Pada gambar 6, hasil clustering menggunakan metode K-Medoids dari visualisasi tersebut, terlihat bahwa klaster 1 memiliki cakupan wilayah yang lebih luas dibandingkan klaster 2, yang memiliki distribusi data yang lebih terkonsentrasi.
Klaster 1 mencakup komunitas dengan karakteristik ekonomi dan demografi yang lebih beragam, sementara klaster 2 cenderung lebih homogen dalam aspek-aspek tersebut.
Evaluasi Model Terbaik JURNAL FOURIER .
14 68-79 Salsadilla Azizi Firda,dkk Dari hasil kedua metode clustering yaitu Hierarchical Clustering serta K-Medoid dapat dilakukan evaluasi model terbaik sebagai berikut:
Tabel 5 Hasil Evaluasi Clustering Metode K-Medoids Hierarki Silhouette Score Dunn Index Berdasarkan hasil evaluasi clustering Tabel 5 di atas.
Hierarchical Clustering memiliki kinerja yang lebih baik dibandingkan K-Medoids.
Hal ini ditunjukkan oleh Silhouette Score yang lebih tinggi .
987013 vs.
, mengindikasikan bahwa objek dalam satu cluster lebih homogen dan terpisah dengan baik.
Selain itu.
Dunn Index pada Hierarchical Clustering juga lebih besar .
4981542 vs.
, menunjukkan bahwa jarak antar-cluster lebih optimal.
Dengan demikian.
Hierarchical Clustering lebih efektif dalam membentuk cluster yang terpisah dengan baik dibandingkan K-Medoids.
Kesimpulan Penelitian ini menganalisis metode Hierarchical Clustering Single Linkage dan K-Medoids dalam mengelompokkan data penghasilan dan demografi komunitas di Chicago.
Dengan menggunakan metode Hierarchical Clustering Single Linkage di dapatkan bahwa terdapat hanya ada satu daerah area komunitas yang berada pada cluster ke dua, dan sisanya berada pada area komunitas yang lain di Chicago.
Sementara ketika menggunakan metode K-Medoids di dapatkan bahwa data terbagi lebih jelas menjadi dua cluster yang lebih seimbang.
Berdasarkan analisis statistika metode Hierarchical Clustering Single Linkage dan K-Medoids dalam mengelompokkan data penghasilan dan demografi komunitas di Chicago dapat disimpulkan bahwa berdasarkan visualisasi clustering menggunakan scatter plot metode yang terbaik untuk digunakan adalah metode K-Medoids, karena pada K-Medoids, data terbagi lebih jelas menjadi dua cluster yang lebih seimbang.
Sementara di tinjau dari nilai Silhouette Score dan Dunn Index diperoleh metode terbaik yaitu metode Hierarchical Clustering Single Linkage, sebagaimana dibuktikan oleh nilai yang lebih tinggi.
Referensi