Zeta Ae Math Journal Volume 7 No. Juni 2022 - November 2022 ISSN: 2459-9948 e-ISSN: 2579-5864 Agglomerative Hierarchy Clustering Pada Penentuan Kelompok Kabupaten/Kota di Jawa Timur Berdasarkan Indikator Pendidikan Ardiana Fatma Dewi1. Kurnia Ahadiyah2 IAIN Kediri, ardianafatmad@iainkediri. IAIN Kediri, kurniaahadiyah@iainkediri. DOI 10. 31102/zeta. ABSTRACT One way to improve the condition of education in each district/city in East Java is to use grouping analysis according to the characteristics of education. Cluster analysis is an analysis that belongs to the group of multivariate analysis which aims to group objects based on their characteristics. This study uses agglomerative cluster analysis with five methods. This cluster analysis is called "agglomerative hierarchy clustering". The purpose of this study is to compare the method of analysis of the hierarchical cluster by finding the best model through the search for the largest cophenetic correlation coefficient value. The data that used in this study is secondary data obtained from the Central Statistics Agency (BPS) of East Java and the Ministry of Education of the Republic of Indonesia. In the grouping of districts/cities in East Java Province based on education indicators using the Agglomerative Hierarchical Clustering method, it was found that the optimal algorithm used was the average linkage algorithm with a cophenetic correlation value obtained of 0. 807, when the value is close to one then the solution resulting from the clustering process is good. Based on education indicators from 38 regencies/cities in East Java Province, they are divided into two clusters where the first cluster consists of 3 regencies/cities and the second cluster is 35 regencies/cities. Keywords: agglomerative, clustering, hierarchical, cophenetic ABSTRAK Salah satu cara agar dapat meningkatkan kondisi pendidikan di setiap kabupaten/kota di Jawa Timur adalah dengan menggunakan analisis pengelompokan sesuai dengan karakteristik Analisis Klaster merupakan analisis yang termasuk ke dalam golongan analisis multivariat yang bertujuan untuk mengelompokkan objek berdasarkan karakteristik yang dimilikinya. Penelitian ini menggunakan analisis klaster tipe agglomerative dengan lima metode. Analisis klaster ini disebut dengan Auagglomerative hierarchy clusteringAy. Tujuan penelitian ini adalah membandingkan metode analisis klaster herarki tersebut dengan mencari model terbaik melalui pencarian nilai koefisien korelasi cophenetic terbesar. Data yang digunakan pada penelitian ini merupakan data sekunder yang diperoleh dari Badan Pusat Statistik (BPS) Jawa Timur dan Kementerian Pendidikan Republik Indonesia. Pada pengelompokan Kabupaten/Kota di Provinsi Jawa Timur berdasarkan indikator pendidikan dengan menggunakan metode Agglomerative Hierarchical Clustering dihasilkan bahwa algoritma optimal yang digunakan yaitu pada algoritma average linkage dengan nilai korelasi cophenetic yang diperoleh sebesar 0,807, dimana ketika nilai tersebut mendekati satu maka solusi yang dihasilkan dari proses clustering tersebut cukup baik. Berdasarkan indikator pendidikan dari 38 Kabupaten/Kota di Provinsi Jawa Timur terbagi menjadi dua cluster dimana pada cluster pertama beranggotakan 3 Kabupaten/Kota dan cluster kedua 35 Kabupaten Kota. Keywords: agglomerative, clustering, hierarchical, cophenetic Zeta Ae Math Journal Volume 7 No. Juni 2022 - November 2022 ISSN: 2459-9948 e-ISSN: 2579-5864 PENDAHULUAN Di Indonesia, pendidikan menjadi salah satu unsur yang mendukung pembangunan dan kemajuan Pendidikan juga dapat meningkatkan kualitas sumber daya manusia jika sistem pendidikan itu sendiri berjalan dengan baik. Namun, dengan kondisi di Indonesia saat ini yang sedang dihadapkan dengan virus Covid-19, pendidikan menjadi salah satu aspek yang terdampak karena pemerintah membuat kebijakan Pembelajaran Jarak Jauh (PJJ) untuk semua jenjang pendidikan. Jawa Timur merupakan provinsi yang memiliki jumlah penduduk terbesar kedua setelah Jawa Barat. Semakin banyak jumlah penduduk, maka semakin banyak pula faktor yang mempengaruhi kondisi pendidikan. BPS . menyebutkan terjadinya penurunan Angka Partisipasi Kasar (APK) di jenjang SD dan SMP pada saat pandemi Covid-19. Untuk jenjang SD pada tahun 2019 presentase APK sebesar 105,56% sedangkan pada tahun 2020 menurun sebesar 1,21% menjadi 104,35%. Untuk jenjang SMP pada tahun 2019 presentase APK sebesar 94% dan pada tahun 2020 menurun 2% sehingga menjadi 94%. Namun untuk jenjang SMA tidak mengalami peningkatan maupun penurunan antara tahun 2019 dan 2020 yaitu tetap sebesar 85%. Angka Partisipasi Kasar merupakan proporsi anak sekolah di suatu jenjang pendidikan berdasarkan umur yang sesuai dengan jenjang pendidikannya. Semakin tinggi nilai APK di suatu daerah, maka semakin banyak anak yang Dengan adanya penurunan partisipasi anak dalam bersekolah, maka perlu adanya pemetaan kabupaten/kota di Jawa Timur agar kondisi di tiap Salah satu cara agar dapat meningkatkan kondisi pendidikan di setiap kabupaten/kota di Jawa Timur adalah dengan menggunakan analisis pengelompokan sesuai dengan karakteristik pendidikannya. Analisis Klaster merupakan analisis yang termasuk ke dalam golongan analisis multivariat yang bertujuan untuk mengelompokkan objek berdasarkan karakteristik yang dimilikinya (Nafisah, 2. Penelitian ini menggunakan analisis klaster tipe agglomerative dengan lima metode. Analisis klaster ini disebut dengan Auagglomerative hierarchy clusteringAy. Agglomerative hierarchy clustering dibagi menjadi 4 jenis metode berdasarkan sudut pandang cara mengelompokkan objeknya. Diantaranya adalah Single Linkage. Complete Linkage. Average Linkage, dan Ward. Kelima metode tersebut memiliki tujuan yang yaitu mengelompokkan objek yang memiliki karakter yang sama (Roux, 2. Tujuan penelitian ini adalah membandingkan kelima metode analisis klaster herarki tersebut dengan mencari model terbaik melalui pencarian nilai koefisien korelasi cophenetic TINJAUAN PUSTAKA Multikolinieritas Multikolinieritas adalah kondisi dimana beberapa objek penelitian yang memiliki korelasi antar variabel prediktornya. Multikolinieritas dapat menyebabkan data mempunyai determinan sama dengan nol pada matriks . cU Oe1 ycU)Oe1 . Selain itu, ada beberapa masalah yang dapat ditimbulkan akibat multikolinieritas, diantaranya adalah sebagai berikut: Nilai dugaan dari koefisien regresi menjadi sangat sensitif terhadap perubahan data Koefisien regresi dugaan menjadi tidak nyata meskipun nilai ycI2 tinggi Pada metode kuadrat terkecil, simpangan baku koefisien regresi dugaan menjadi sangat besar. Salah satu cara untuk mengetahui terdapat multikolinieritas atau tidak pada variabel, dapat dilakukan dengan menghitung nilai Variance Inflation Factors (VIF) dengan rumus sebagai ycOyayaycn = 1 Oe ycIycn2 Dengan ycIycn merupakan koefisien determinasi variabel bebas keOeycn. Tolak ukur terjadinya multikolinieritas pada variabel prediktor jika nilai VIF nya lebih besar dari 10 (MuAoafa, 2. Analisis Komponen Utama Analisis komponen utama adalah analisis statistika yang termasuk kedalam golongan analisis Analisis komponen utama merupakan analisis yang digunakan untuk mentransformasi variabel yang saling berkorelasi menjadi variabel baru yang tidak saling berkorelasi satu sama lain dengan cara mereduksi beberapa variabel sehingga mempunyai dimensi yang lebih kecil tanpa mengurangi informasi data dan tetap dapat menerangkan sebagian besar dari keragaman variabel Variabel baru tersebut dinamakan komponen utama . rincipal componen. Pembentukan komponen utama melalui dua matriks yaitu matriks ragam-peragam () dan matriks korelasi yang digunakan untuk perhitungan nilai eigen yuIycn dan vektor eigen yuycn . Nilei eigen yang diperoleh dari persamaan | Oe yuIy. = 0 adalah yuI1 , yuI2 . A . , yuIycy , sedangkan vektor eigen yang diperoleh ( Oe yuIycn y. yuycn = 0 yu1 , yu2 . A A , yuycy dimana ycn = 1, 2. A . , ycy (Mariana. Komponen utama ke-i dapat didefinisikan sebagai berikut: yaycOycn = yuycn1 ycU1 U yuycnycy ycUycy Zeta Ae Math Journal Volume 7 No. Juni 2022 - November 2022 ISSN: 2459-9948 e-ISSN: 2579-5864 dengan ragam sebagai berikut: yuayaycO1 = ycOycayc . aycOycn ) = yuIycn = yuycnA yu1 ycy ycy = Oc Oc yu1ycn yu1yc yuaycnyc ycn=1 yc=1 Dimana yc = 1, 2. A . , ycy. Adapun beberapa kriteria pemilihan yco komponen utama diantaranya adalah sebagai berikut: Dalam pemilihan jumlah komponen teresebut belum ada aturan tertentu yang disepakati oleh semua ahli statistika. Sebagian ahli statistika ada yang mengambil akar ciri yang lebih besar dari 1 atau mengambil komponen utama tertentu, dimana proporsi keragaman yc yang dapat diterangkan oleh komponen tersebut dianggap cukup berarti. Proporsi kumulatif keragaman data asal yang dijelaskan oleh k komponen utama minimal 80%, dan proporsi total variansi populasi bernilai cukup besar. Dengan menggunakan scree plot yaitu plot antara i dengan yuIycn , pemilihan nilai k berdasarkan scree plot ditentukan dengan melihat letak terjadinya belokan dengan menghapus komponen utama yang menghasilkan beberapa nilai eigen kecil membentuk pola garis lurus. Single Linkage Metode Single Linkage merupakan metode analisis cluster herarki dengan cara mengelompokkan objek berdasarkan jarak yang paling dekat terlebih dahulu (Goreti, 2. Pertama, kita terlebih dahulu menentukan jarak terpendek ya = . ccycnyco } serta menggabungkan objek-objek yang bersesuaian. Berdasarkan langkah ke-3 pada Agglomerative Hierarchical Clustering, jarak antara cluster ycOycO dan ycO dapat dihitung dengan ycc. cOycO)ycO = ycoycnycu. ccycOycO . yccycOycO } dimana yccycOycO adalah jarak terpendek antara ycO dan ycO, sedangkan yccycOycO adalah jarak terpendek antara ycO dan ycO. Agglomerative Hierarchical Clustering Analisis cluster adalah metode statistika yang digunakan untuk pengelompokan data yang mempunyai banyak variabel dengan tujuan utamanya mengelompokkan objek yang mirip. Salah satu cara mengelompokkan objek yang mirip yaitu dengan cara mengukur jarak antar objek dengan rumus Euclidean: ycy ycc. cu, y. = oc ycn=1 . cuycnyco Oe ycycyco ) Complete Linkage Metode Complete Linkage merupakan metode analisis vluster herarki dengan cara mengelompokkan objek berdasarkan jarak paling jauh atau yang mempunyai kemiripan terkecil antar objek (Ningsih. Pertama, kita terlebih dahulu menentukan elemen matriks ya = . ccycnyco } serta menggabungkan objek-objek yang bersesuaian misalnya ycO dan ycO untuk menjadi cluster . cOycO). Berdasarkan langkah ke3 pada Agglomerative Hierarchical Clustering, jarak antara cluster ycOycO dan ycO dapat dihitung dengan ycc. cOycO)ycO = ycoycaycoyc. ccycOycO . yccycOycO } dimana yccycOycO adalah jarak terdekat antara ycO dan ycO, sedangkan yccycOycO adalah jarak terdekat antara ycO dan ycO. Analisis cluster dibagi menjadi dua metode, yaitu hirarki dan non hirarki. Berdasarkan cara mengelompokkanya, metode hirarki dibagi menjadi dua yaitu Agglomerative Hierarchical Clustering dan Divisive Clustering. Agglomerative Hierarchical Clustering dibagi menjadi 4 metode yaitu Single Linkage. Complete Linkage. Average Linkage. Ward. Adapun langkah-langkah pengelompokan dengan metode Agglomerative Hierarchical Clustering dengan objek sebanyak N cluster adalah sebagai berikut (Murtagh, 2. simetrik dari jarak . ya = . dengan tipe ycA y ycA. Cari matriks jarak untuk pasangan cluster yang terdekat . aling miri. Misalkan jarak antara cluster U dan V yang paling mirip adalah yccycyc. Gabungkan cluster U dan V. Label cluster yang baru dibentuk dengan (UV). Update entries pada matrik jarak dengan cara : Hapus baris dan kolom yang bersesuaian dengan cluster U dan V Tambahkan baris dan kolom yang memberikan jarak-jarak antara cluster (UV) dan cluster-cluster yang tersisa. Ulangi langkah 2 dan 3 sebanyak . cA Oe . (Semua objek akan berada dalam cluster tunggal setelah algoritma berahi. Catat identitas dari cluster yang digabungkan dan tingkat-tingkat . arak atau similarita. dimana penggabungan Average Linkage Metode average linkage merupakan metode analisis cluster herarki dengan cara mengelompokkan objek berdasarkan jarak rata-rata antara semua pasangan objek (Asiska, 2. Pertama, tentukan elemen matriks ya = . ccycnyco } untuk mendapatkan objek yang paling mirip . aling deka. satu sama lain misalnya ycO dan ycO. Berdasarkan langkah ke-3 pada Dimulai dengan N cluster, setiap cluster mengandung entiti tunggal dan sebuah matriks Zeta Ae Math Journal Volume 7 No. Juni 2022 - November 2022 ISSN: 2459-9948 e-ISSN: 2579-5864 Agglomerative Hierarchical Clustering, jarak antara cluster ycOycO dan ycO dapat dihitung dengan Ocycn Ocyco yccycnyco ycc. cOycO)ycO = ycAycOycO ycAycO dimana yccycnyco adalah jarak antar objek ycn pada cluster . cOycO) dan objek yco pada cluster ycO, sedangkan ycAycOycO dan ycAycO adalah banyaknya item pada cluster . cOycO) dan ycO. Ward Method Metode Ward merupakan metode analisis cluster herarki yang didasari oleh hilangnya informasi karena penggabungan objek-objek menjadi cluster. Metode memaksimumkan homogenitas menggunakan Error Sum of Squares (ESS) di dalam satu kelompok (Fathia, 2. yco ycuyc ycuyc yaycIycI = Oc (Oc ycuycnyc2 Oe (Oc ycuycnyc2 )) ycuyc yc=1 ycn=1 ycn=1 ycUycnyc = Nilai objek ke-ycn ycn = 1,2,3, . pada kelompok ke-yc ya = Jumlah kelompok setiap stage ycuyc = Jumlah kelompok ke-ycn pada kelompok ke-yc Pendidikan Republik Indonesia. Terdapat 38 unit pengamatan yang digunakan yaitu sebanyak Kabupaten/ Kota yang ada di Jawa Timur. Data yang akan dianalisis berkaitan dengan indikator pendidikan di Jawa Timur pada Tahun 2021, berikut ini pada Tabel 1 merupakan beberapa variabel yang Tabel 1. Variabel Penelitian X10 Metode Analisis Data Penelitian Terdapat beberapa tahapan pada analisis Agglomerative Hierarchical Clustering diantaranya adalah sebagai berikut ini. Analisis statistika deskriptif untuk mengetahui karakteristik umum pendidikan yang ada di Kabupaten/Kota yang ada di Provinsi Jawa Timur. Uji korelasi untuk mengetahui keeratan hubungan antar variabel, karena pada analisis ini menggunakan variabel yang cukup banyak sehingga dimungkinkan antar variabel terdapat korelasi yang kuat. Ketika terdapat korelasi yang kuat diantara variabel tersebut maka dilakukan Analisis Komponen Utama untuk mereduksi variabel tanpa mengurangi informasi yang ada. Jika tidak terdapat korelasi maka langsung dilanjutkan ke langkah 3. Menghitung jarak Euclidean untuk mengetahui ukuran kedekatan antar objek. Analisis Kabupaten/ Kota di Provinsi Jawa Timur berdasarkan indikator pendidikan menggunakan metode Agglomerative Hierarchical Clustering. Membandingkan beberapa algoritma pada Agglomerative Hierarchical Clustering diantaranya yaitu dengan metode Single Linkage. Complete Linkage. Average Linkage, dan Ward. Memilih salah satu diantara metode Single Linkage. Complete Linkage. Average Linkage, dan Ward yang memiliki nilai koefisien korelasi cophenetic terbesar. Menentukan banyak cluster dengan metode internal dan stability. Membuat Kesimpulan. Model Terbaik Dalam perbandingan metode dalam statistika, perlu adanya pencarian model terbaik. Setelah mendapatkan hasil dari masing-masing proses analisis cluster hirarki, maka perlu dilakukan uji validitas cluster guna melihat kebaikan model hasil analisis cluster. Salah satu ukuran yang dapat digunakan untuk menguji validitas hasil cluster adalah koefisien korelasi (Widodo, 2. Koefisien korelasi cophenetic adalah koefisien korelasi antar elemen-elemen asli matriks yang tidak mirip . atriks jarak Euclidia. dengan elemenelemen yang dihasilkan oleh matriks cophenetic. Adapun rumus untuk menghitung koefisien korelasi cophenetic sebagai berikut (Saracli, 2. ycyaycuycyEa = Variabel Angka Partisipasi Kasar (APK) SD Angka Partisipasi Kasar (APK) SMP Angka Partisipasi Kasar (APK) SMA Jumlah Siswa SD Jumlah Siswa SMP Jumlah Siswa SMA Jumlah Sekolah SD Jumlah Sekolah SMP Jumlah Sekolah SMA Rata-rata Lama Sekolah (RLS) Ocycn 0,5 maka dapat dikatakan bahwa data yang dianalisis sudah memnuhi asumsi kecukupan data. Tabel 4. Uji Bartlett Spherecity Chi-Square p-value Bartlett Spherecity 427,13 2,2 x 10-16 Berdasarkan Tabel 4 dapat diketahui bahwa nilai Chi-Square sebesar 427,13 dengan taraf signifikansi sebesar 5% dihasilkan p-value sebesar 2,2 x 10-16, jika p-value kurang dari 5% maka dapat disimpulkan bahwa terdapat korelasi antar variabel pada data indikator pendidikan di Provinsi Jawa Timur pada Hasil yang didapatkan dalam analisis komponen utama berupa skor komponen utama yang dihitung berdasarkan persamaan dari komponen utama yang terbentuk, dan selanjutnya akan digunakan sebagai inputan untuk menggantikan variabel asal. Berikut dibawah ini merupakan hasil korelasi setelah dilakukan analisis komponen utama dapat dilihat pada Tabel 5. Hasil Penerapan Metode Agglomerative Hierarchical Clustering pada Klasifikasi Kabupaten/Kota di Provinsi Jawa Timur berdasarkan Indikator Pendidikan Tabel 5. Uji Korelasi setelah dilakukan Analisis Komponen Utama 1 Uji Korelasi dan Analisis Komponen Utama Langkah awal sebelum dilakukan analisis cluster perlu dilakukan analisis uji multikolinearitas karena variabel yang digunakan dalam penelitian ini cukup Uji untuk mengetahui apakah terdapat Zeta Ae Math Journal Volume 7 No. Juni 2022 - November 2022 ISSN: 2459-9948 e-ISSN: 2579-5864 Berdasarkan Tabel 5 dapat dilihat bahwa dengan adanya analisis komponen utama data akan ditransformasikan sehingga antar variabel yang mulanya mengandung korelasi tinggi akan menjadi lebih kecil. Hal tersebut sesuai dengan asumsi pada analisis cluster, bahwa antar variabel telah saling Setelah pemeriksaan asumsi pada analisis komponen utama selanjutnya dilakukan analisis faktor yang digunakan untuk mengetahui faktor baru yang terbentuk. Berikut ini merupakan acuan yang akan digunakan untuk membentuk analisis faktor pada Tabel 6. Average Linkage sehingga algoritma tersebut digunakan dalam penelitian ini. Setelah diketahui algoritma yang optimal pada analisis cluster, maka langkah berikutnya yaitu menentukan banyak cluster yang optimal berdasarkan validasi internal. Berikut dibawah ini merupakan hasil dari validasi cluster internal. Tabel 8. Validasi Cluster Internal Connectivity Dunn Silhouette Nilai 5,015 0,388 0,519 Jumlah Cluster Tabel 6. Nilai Eigen Value Pada Tabel 8 dapat dilihat bahwa dari 2 sampai 6 cluster baik connectivity index, dunn index, dan silhouette index memiliki hasil perolehan yang sama yaitu sebanyak 2 cluster yang memiliki nilai optimal. Sehingga pada pengelompokan Kabupaten/Kota di Jawa Timur berdasarkan indikator pendidikan dikelompokkan menjadi 2 cluster. Berdasarkan Tabel 6 dapat dilihat bahwa ketika eigen value lebih besar dari 1, maka komponen tersebut merupakan banyak faktor yang nantinya akan terbentuk yaitu komponen ke 3. Artinya pada penelitian ini dari sepuluh variabel yang digunanakan maka akan disederhanakan sehingga menjadi 3 faktor, dengan total varians sebesar 81,2%. Faktor baru yang terbentuk bebas dari korelasi dan selanjutnya akan dilakukan analisis cluster. Berikut ini merupakan hasil analisis cluster pada data indikator pendidikan di Provinsi Jawa Timur yang dikelompokan menjadi 2 cluster dapat dilihat pada gamba dendogram dibawah. 2 Analisis Cluster Analisis cluster pada penelitian ini digunakan untuk mengelompokkan Kabupaten/Kota di Provinsi Jawa Timur berdasarkan indikator pendidikan yang Pengelompokan didasarkan pada jarak Euclidean dengan pembentukan cluster mengunakan algoritma yang menghasilkan korelasi chopenetic yang paling tinggi diantara algoritma berikut ini Single Linkage. Complete Linkage. Average Linkage. Ward Linkage. Centroid Linkage. Median Linkage. Hasil dari beberapa algoritma cluster yang telah disebutkan dapat dilihat pada tabel dibawah. Gambar 1. Dendogram Analisis Average Linkage Cluster Gambar 1 merupakan dendogram visualisasi cluster optimal dengan metode average linkage yang terbentuk berdasarkan indikator pendidikan di Provinsi Jawa Timur pada Tahun 2021. Berdasarkan validasi analisis cluster secara internal diketahui bahwa cluster yang optimal yaitu sebanyak 2. Pada dendogam yang terbentuk dapat diketahui juga anggota pada masing-masing cluster, dimana cluster pertama yaitu ditandai dengan batas merah dan cluster kedua ditandai dengan garis hijau. Berikut ini merupakan tabel daftar anggota pada masing-masing cluster dapat dilihat pada Tabel 8. Tabel 7. Nilai Korelasi Chopenetic Metode Single Linkage Complete Linkage Average Linkage Ward Linkage Centroid Linkage Median Linkage Korelasi Chopenetic 0,831 0,745 0,833 0,608 0,811 0,537 Pada Tabel 7 dapat dilihat bahwa nilai korelasi chopenetic yang tertinggi yaitu 0,833 pada algoritma Zeta Ae Math Journal Volume 7 No. Juni 2022 - November 2022 ISSN: 2459-9948 e-ISSN: 2579-5864 DAFTAR PUSTAKA