Institut Riset dan Publikasi Indonesia (IRPI) MALCOM: Indonesian Journal of Machine Learning and Computer Science Journal Homepage: https://journal. id/index. php/malcom Vol. 5 Iss. 3 July 2025, pp: 797-806 ISSN(P): 2797-2313 | ISSN(E): 2775-8575 Comparison of K-Means and K-Medoids Clustering Algorithm Performance in Grouping Schools in Riau Province Based on Availability of Facilities and Infrastructure Perbandingan Kinerja Algoritma Clustering K-Means dan K-Medoids dalam Pengelompokan Sekolah di Provinsi Riau Berdasarkan Ketersediaan Sarana dan Prasarana Muhammad Dzaki Salman1*. Rahmaddeni2. Nanda Rizki Pratama3. Nakhlah Farid A4. Ahmad Agung Setiawan5, fenisya Zalianti6. Isra Bil Huda7 1,2,3,4,5,6,7 Program Studi Teknik Informatika. Universitas Sains dan Teknologi Indonesia. Indonesia E-Mail: 1muhammaddzakisalman@gmail. com, 2Rahmaddeni@usti. rizkiperawan28@gmail. com, 4nakhlahfarid@gmail. com, 5bwaahmadagung@gmail. deswita0999@gmail. com, 7israbilhuda239@gmail. Received Feb 09th 2025. Revised Apr 10th 2025. Accepted May 13th 2025. Available Online Jun 19th 2025. Published Jun 22th 2025 Corresponding Author: Muhammad Dzaki Salman Copyright A2025 by Authors. Published by Institut Riset dan Publikasi Indonesia (IRPI) Abstract Quality education is strongly influenced by the availability of adequate facilities and infrastructure. This study aims to compare the performance of two clustering algorithms, namely K-Means and K-Medoids, in clustering 497 public schools in Riau Province consisting of elementary, junior high, high school, and vocational school levels. The data analyzed included the number of teachers, students, classrooms, laboratories, internet access, sanitation, and accreditation status. Data were obtained from the Riau Province Education Office and BPS, then analyzed through Exploratory Data Analysis (EDA), preprocessing, and dimension reduction with Principal Component Analysis (PCA). Evaluation results using Davies-Bouldin Index (DBI) with k=3 showed that K-Medoids produced more separated and better quality clusters . than K-Means . The advantage of K-Medoids lies in its resistance to outliers and uneven data distribution. The results of this study can be used as a reference in planning a more equitable and targeted education policy in Riau Province. Keyword: Clustering. Davies-Bouldin Index. K-Means. K-Medoids. Principal Component Analysis Abstrak Pendidikan yang berkualitas sangat dipengaruhi oleh ketersediaan sarana dan prasarana yang memadai. Penelitian ini bertujuan untuk membandingkan kinerja dua algoritma clustering, yaitu K-Means dan K-Medoids, dalam mengelompokkan 497 sekolah negeri di Provinsi Riau yang terdiri dari jenjang SD. SMP. SMA, dan SMK. Data yang dianalisis meliputi jumlah guru, siswa, ruang kelas, laboratorium, akses internet, sanitasi, dan status akreditasi. Data diperoleh dari Dinas Pendidikan dan Badan Pusat Statistik (BPS) Provinsi Riau, kemudian dianalisis melalui Exploratory Data Analysis (EDA), preprocessing, dan reduksi dimensi dengan Principal Component Analysis (PCA). Hasil evaluasi menggunakan Davies-Bouldin Index (DBI) dengan k=3 menunjukkan bahwa K-Medoids menghasilkan cluster yang lebih terpisah dan lebih baik . dibandingkan K-Means . Keunggulan K-Medoids terletak pada ketahanannya terhadap outlier dan distribusi data yang tidak merata. Hasil penelitian ini dapat digunakan sebagai acuan dalam perencanaan kebijakan pendidikan yang lebih merata dan tepat sasaran di Provinsi Riau. Kata Kunci: Clustering. Davies-Bouldin Index. K-Means. K-Medoids. Principal Component Analysis PENDAHULUAN Pendidikan memegang peranan yang sangat penting dalam mendorong pembangunan suatu daerah. Pentingnya pendidikan sebagai indikator pembangunan juga tercermin dalam tujuan Sustainable Development Goals (SDG. , yaitu AuMenjamin kualitas pendidikan yang inklusif dan merata, serta DOI: https://doi. org/10. 57152/malcom. MALCOM-05. : 797-806 mendukung kesempatan belajar seumur hidup bagi semua. Ay Salah satu cara untuk mewujudkan hal ini adalah dengan memastikan bahwa fasilitas pendidikan terdistribusi secara merata dan memadai di seluruh wilayah, termasuk daerah yang lebih terpencil dan kurang berkembang . Pendidikan yang berkualitas merupakan modal utama bagi suatu bangsa untuk maju. Dalam pelaksanaannya, pendidikan di Indonesia umumnya dilaksanakan di sekolah yang bertujuan untuk mempersiapkan generasi muda agar dapat menghadapai masa depan yang lebih baik. Namun, meskipun upaya peningkatan kualitas pendidikan Indonesia telah dilakukan, masalah distribusi fasilitas pendidikan yang tidak merata masih menjadi tantangan besar yang harus dihadapi, khususnya di daerah-daerah yang jauh dari pusat- pusat kota besar. Dalam perbandingan dengan negara-negara tetangga, kualitas pendidikan Indonesia masih tertinggal . Ketimpangan dalam distribusi sarana dan prasarana sekolah merupakan salah satu faktor utama yang menyebabkan perbedaan kualitas pendidikan di berbagai wilayah. Sekolah-sekolah di daerah perkotaan cenderung memiliki fasilitas yang lebih lengkap dibandingkan dengan sekolah di daerah terpencil, yang dapat berdampak pada kesenjangan kualitas pembelajaran. Oleh karena itu, diperlukan metode untuk mengelompokkan sekolah berdasarkan ketersediaan fasilitas guna mengidentifikasi daerah yang membutuhkan perhatian khusus dalam perencanaan kebijakan pendidikan . Clustering sekolah berdasarkan ketersediaan sarana dan prasarana dapat menjadi salah satu solusi untuk mengatasi permasalahan ketidakmerataan fasilitas pendidikan. Dengan pengelompokan yang tepat, pemerintah dapat mengidentifikasi daerah-daerah yang membutuhkan perhatian khusus dalam hal penyediaan fasilitas dan sumber daya pendidikan. Hal ini penting untuk memastikan bahwa semua sekolah memiliki akses yang setara terhadap fasilitas yang dapat mendukung kualitas pendidikan . Algoritma clustering telah banyak digunakan dalam mengelompokkan objek berdasarkan karakteristik tertentu, seperti DBSCAN. Gaussian Mixture Model (GMM), dan Agglomerative Hierarchical Clustering (AHC). Dalam penelitian oleh Kurniawan . , model GMM menunjukkan performa terbaik dalam mengelompokkan rumah sakit di Jakarta berdasarkan jumlah tenaga medis dan fasilitas tempat tidur, dengan nilai DBI sebesar 0. 6457, lebih baik dibandingkan DBSCAN dan AHC . Selain itu, hasil perbandingan antara K-Means dan K-Medoids pada penelitian yang dilakukan oleh Farahdina . menunjukkan bahwa K-Medoids lebih robust terhadap outlier dibandingkan K-Means. KMeans menggunakan centroid yang merupakan rata-rata dari objek dalam cluster, sehingga dapat terpengaruh oleh nilai ekstrem. Sebaliknya. K-Medoids menggunakan objek representatif . sebagai pusat cluster, yang tidak terpengaruh oleh outlier, sehingga lebih stabil dalam pengelompokan data yang memiliki nilai ekstrem. Temuan ini relevan untuk penelitian ini karena data fasilitas dan infrastruktur sekolah yang digunakan mengandung nilai ekstrem akibat variasi yang signifikan dalam fasilitas dan infrastruktur antar sekolah. Oleh karena itu, penerapan metode K-Medoids diharapkan mampu memberikan hasil pengelompokan yang lebih akurat dan stabil. Penelitian oleh Tusyakdiah Halima . melakukan implementasi K-Means dan K-Medoids untuk mengelompokkan provinsi-provinsi di Indonesia berdasarkan aspek pendidikan pemuda. Hasilnya. K-Means memiliki performa lebih baik dalam hal rasio simpangan baku . ,527. dibandingkan K-Medoids . ,5612. Selain itu. Damanik . menerapkan algoritma K-Medoids untuk mengelompokkan desadesa di Indonesia berdasarkan ketersediaan fasilitas sekolah. Penelitian ini menegaskan keunggulan KMedoids dalam menangani data dengan kemungkinan outlier dan urutan masukan data yang tidak seragam . Dalam penelitian ini. K-Means dan K-Medoids dipilih karena sifatnya yang lebih sederhana dan banyak digunakan dalam analisis clustering. Untuk mengevaluasi hasil clustering, digunakan metode DaviesBouldin Index (DBI) untuk mengukur seberapa baik cluster yang terbentuk. DBI mengevaluasi rasio jarak antara cluster dan variasi dalam cluster, sehingga membantu dalam menilai efektivitas setiap metode clustering yang diterapkan. Penelitian ini juga menerapkan Principal Component Analysis (PCA) sebagai teknik reduksi dimensi sebelum proses clustering, yang bertujuan untuk meningkatkan akurasi hasil Penelitian ini bertujuan untuk membandingkan kinerja algoritma K-Means dan K-Medoids dalam pengelompokan sekolah-sekolah di Provinsi Riau menjadi tiga cluster . berdasarkan ketersediaan sarana dan prasarana. Hasil clustering ini dapat digunakan oleh pemerintah daerah sebagai dasar perumusan kebijakan pendidikan yang lebih merata dan tepat sasaran, seperti pengalokasian anggaran, prioritas pembangunan infrastruktur pendidikan, serta distribusi tenaga pengajar dan sumber daya lainnya sesuai dengan kebutuhan masing-masing sekolah. METODOLOGI PENELITIAN Metodologi penelitian ini dibagi dalam enam tahap dapat dilihat pada gambar 1. Adapan penjelasannya taitu: Data Collection. Data sekolah di Provinsi Riau dikumpulkan dari Dinas Pendidikan Provinsi Riau dan Badan Pusat Statistik (BPS) Provinsi Riau. Perbandingan Kinerja Algoritma Clustering K-Means dan K-Medoids. (Salman et al, 2. ISSN(P): 2797-2313 | ISSN(E): 2775-8575 EDA. Data yang dikumpulkan kemudian dianalisis menggunakan metode EDA untuk memahami distribusi data dan identifikasi outlier. Data Preprocessing. Data yang telah dianalisis kemudian diproses untuk menghilangkan missing value dan melakukan normalisasi data. Modeling. Algoritma K-Means dan K-Medoids digunakan untuk mengelompokkan sekolah di Provinsi Riau berdasarkan ketersediaan sarana dan prasarana. PCA adalah alat analisis data yang digunakan dalam berbagai disiplin ilmu untuk mengidentifikasi struktur tersembunyi dalam kumpulan data. Evaluasi dan Hasil. Hasil pengelompokan sekolah dievaluasi menggunakan indeks evaluasi DBI. Gambar 1. Metode Penelitian Data Collection Data collection didefinisikan sebagai proses mengumpulkan, mengukur, dan merekam data yang akurat dan relevan dari berbagai sumber untuk tujuan analisis dan pengambilan keputusan. Tujuan utama data collection adalah untuk mengumpulkan informasi dan data yang akurat dan relevan untuk membuat keputusan bisnis yang tepat, meningkatkan kualitas produk atau jasa, meningkatkan efisiensi operasional, dan meningkatkan kepuasan pelanggan . Dalam melakukan data collection, terdapat beberapa metode yang dapat digunakan, antara lain observasi, wawancara, kuesioner, analisis dokumen, dan eksperimen. Data collection sangat penting dalam berbagai bidang, termasuk bisnis, kesehatan, pendidikan, dan lain-lain. Dengan mengumpulkan data yang akurat dan relevan, organisasi dapat membuat keputusan yang tepat, meningkatkan kualitas produk atau jasa, dan meningkatkan efisiensi operasional . Exploratory Data Analysis (EDA) EDA adalah proses menganalisis dan menampilkan data bertujuan mendapatkan pemahaman yang lebih baik tentang wawasan dari data. Ada berbagai langkah yang dilakukan saat melakukan EDA, berikut ini adalah langkah-langkah umum yang dapat diambil dalam melakukan analisis EDA data: Memaksimalkan wawasan ke dalam kumpulan data. Mengungkap struktur data. Ekstrak variabel yang penting. Mendeteksi outlier dan anomali. Melakukan uji asumsi. Mengembangkan model. Menentukan faktor yang optimal. MALCOM - Vol. 5 Iss. 3 July 2025, pp: 797-806 MALCOM-05. : 797-806 Kebanyakan Teknik EDA adalah berbentuk grafis dengan beberapa Teknik kuantitatif. Peran utama EDA adalah untuk mengeksplorasi data secara terbuka, dan grafik bertujuan memperkuat analisis yang dilakukan. Berikut adalah beberapa jenis teknik grafis sederhana yang banyak digunakan. Plotting data mentah seperti data traces, histograms, bihistograms, probability plots, lag plots, block plots, dan Youden plots. Plotting statistik sederhana seperti mean plots, standard deviation plots, box plots. Preprocessing Data Preprocessing Data adalah serangkaian langkah yang dilakukan untuk mempersiapkan data mentah menjadi format yang lebih baik untuk dianalisis atau digunakan oleh model pembelajaran mesin . Tujuan utama dari data preprocessing adalah meningkatkan kualitas data, mengatasi masalah yang mungkin ada, dan memastikan bahwa data siap digunakan dalam proses analisis atau pelatihan model . Proses preprocessing data yang digunakan untuk penelitian ini adalah sebagai berikut. Feature Engineering, adalah proses mengubah data mentah menjadi fitur-fitur baru yang lebih informatif untuk analisis atau model prediktif, guna meningkatkan kualitas data dan kinerja model . Feature Selecion, adalah suatu kegiatan pemodelan atau penganalisaan data yang umumnya dapat dilakukan secara preprocessing dan bertujuan untuk memilih fitur yang berpengaruh . itur optima. dan mengesampingkan fitur yang tidak berpengaruh. Label Encoding, adalah teknik dalam pembelajaran mesin untuk mengubah data kategori menjadi numerik . Data Normalization, adalah proses mengubah data ke dalam rentang nilai yang seragam, biasanya antara 0 dan 1, untuk memperbaiki kualitas data dan meningkatkan efisiensi algoritma . Outlier Handling, adalah teknik untuk mengidentifikasi dan menghilangkan pengaruh data yang tidak biasa . Missing Value Handling, adalah teknik untuk mengatasi kehilangan data yang dapat mempengaruhi akurasi analisis . Principal Component Analysis (PCA) PCA adalah teknik analisis multivariat yang digunakan untuk mengurangi dimensi data dan mengidentifikasi pola-pola yang terkait dalam data. PCA bekerja dengan mengubah variabel-variabel asli menjadi komponen-komponen baru yang tidak terkait dan memiliki variansi yang maksimum. Dengan demikian. PCA dapat membantu mengidentifikasi struktur data yang tersembunyi, mengurangi kompleksitas data, dan meningkatkan akurasi model prediksi . Selain itu. PCA juga dapat digunakan untuk mengurangi noise dalam data dan mengidentifikasi outlier . Dalam proses PCA, terdapat beberapa langkah yang harus dilakukan, yaitu pengumpulan data, normalisasi data, perhitungan kovariansi, perhitungan eigenvalue dan eigenvector, seleksi komponen utama, dan transformasi data. Dengan melakukan langkah-langkah tersebut. PCA dapat membantu mengidentifikasi komponen-komponen yang paling berpengaruh dalam data dan mengurangi dimensi data menjadi lebih sederhana . Proses PCA meliputi langkah-langkah berikut: Menentukan eigenvalue det. a Oe yuIy. = 0 Dimana A adalah matriks kovariansi dan yuI merupakan nilai eigen. Nilai ini mencerminkan besarnya variansi data sepanjang suatu arah tertentu. Menentukan eigenvector a Oe yuIy. yc = 0 Vektor ini menunjukkan arah komponen utama, yang menjadi dasar dalam pembentukan ruang fitur Menghitung proporsi variansi masing-masing komponen: ycEycn = yu ycu ycn yuI ya=1 yc ycEycn menyatakan proporsi variansi dari komponen ke- ycn, dan yuIycn merupakan nilai eigen yang bersesuaian. Perbandingan Kinerja Algoritma Clustering K-Means dan K-Medoids. (Salman et al, 2. ISSN(P): 2797-2313 | ISSN(E): 2775-8575 Menghitung kumulatif proporsi variansi: Ocyc yaycEyc = Ocycuycn=1 ycn , yccyceycuyciycaycu yuIycn > yuI2 > U > yuIycu yc=1 yuIyc Nilai eigen diurutkan dari terbesar ke terkecil untuk membantu menentukan jumlah komponen yang cukup untuk merepresentasikan data. Transformasi akhir ke dalam ruang komponen utama: ycs = ycUycO Mentransformasikan data ke ruang dimensi baru, di mana ycU adalah data terstandarisasi dan ycO adalah matriks vektor eigen. PCA juga memiliki beberapa kelemahan, seperti tidak dapat menangani data yang tidak berdistribusi normal dan tidak dapat menangani data yang memiliki banyak outlier . Oleh karena itu, perlu dilakukan pengecekan dan pengolahan data sebelum melakukan analisis PCA. Clustering Clustering atau pengelompokan data merupakan suatu teknik penting dalam analisis data yang bertujuan untuk mengidentifikasi kesamaan dan pola dalam data, serta mengelompokkan data yang serupa ke dalam kelompok-kelompok yang berbeda. Sebagai salah satu metode unsupervised learning, clustering memungkinkan kita untuk menemukan struktur dan pola dalam kumpulan data yang tidak berlabel. Dalam clustering, data dibagi menjadi sejumlah kelompok yang memiliki kesamaan karakteristik yang lebih besar dibandingkan dengan kelompok lainnya . Algoritma clustering sangat tergantung pada jenis data, tujuan, dan aplikasi yang spesifik. Dalam analisis cluster, algoritma dapat digunakan sebagai alat deskriptif atau eksplorasi untuk memperoleh insights dari data. Oleh karena itu, tidak jarang beberapa algoritma clustering dicoba pada data yang sama untuk memperoleh hasil yang optimal. Secara umum, metode clustering dapat diklasifikasikan ke dalam beberapa kategori, salah satunya adalah metode partisi . artitioning metho. Metode partisi ini melibatkan penentuan awal jumlah kelompok, diikuti dengan realokasi objek secara iteratif untuk menemukan kembali kelompokkelompok yang optimal. Dua algoritma yang populer dalam metode partisi ini adalah K-Means dan KMedoids . K-Means K-Means adalah salah satu metode data clustering non-hierarki yang mempartisi data menjadi satu atau lebih cluster berdasarkan karakteristik yang sama. Tujuan dari metode ini adalah untuk mengelompokkan data yang memiliki karakteristik yang sama ke dalam satu cluster dan data yang memiliki karakteristik yang berbeda ke dalam cluster lainnya . K-Means adalah metode clustering berbasis jarak yang membagi data ke dalam sejumlah cluster. Algoritma ini hanya bekerja pada atribut numeric dan termasuk dalam kategori partitioning clustering. KMeans memisahkan data ke dalam k daerah bagian yang terpisah dan sangat terkenal karena kemudahan dan kemampuannya untuk mengklaster data yang besar dan data outlier dengan sangat cepat . Dalam algoritma K-Means, setiap data harus termasuk ke dalam cluster tertentu dan dapat berpindah ke cluster lainnya pada tahap berikutnya. Algoritma ini merupakan metode non-hierarki yang pada awalnya mengambil sebagian besar komponen populasi untuk dijadikan pusat cluster awal. Pusat cluster dipilih secara acak dari sekumpulan populasi data . Kemudian. K-Means menguji masing-masing komponen di dalam populasi data dan menandai komponen tersebut ke salah satu pusat cluster yang telah didefinisikan tergantung dari jarak minimum antar komponen dengan tiap-tiap cluster. Posisi pusat cluster akan dihitung kembali sampai semua komponen data digolongkan ke dalam tiap-tiap pusat cluster dan terakhir akan terbentuk posisi pusat cluster yang baru . Kelebihan utama dari algoritma K-Means adalah kesederhanaan dan efisiensinya dalam mengolah data berskala besar. K-Means memiliki waktu komputasi yang relatif cepat karena hanya membutuhkan perhitungan rata-rata untuk setiap iterasi. Selain itu, algoritma ini dapat dengan mudah diimplementasikan dan dikombinasikan dengan metode lain dalam proses analisis lanjutan. Namun demikian. K-Means memiliki kelemahan penting, yaitu sangat sensitif terhadap outlier dan nilai ekstrim, karena pusat cluster dihitung berdasarkan rata-rata yang mudah terdistorsi oleh data yang ekstrem. K-Means juga mensyaratkan pengguna untuk menentukan jumlah cluster . secara manual, yang sering kali sulit diketahui tanpa eksplorasi awal terhadap data. Selain itu, algoritma ini kurang optimal ketika digunakan pada data yang memiliki bentuk cluster tidak sferis atau distribusi yang tidak merata antar cluster . MALCOM - Vol. 5 Iss. 3 July 2025, pp: 797-806 MALCOM-05. : 797-806 K-Medoids K-Medoids adalah sebuah metode clustering yang merupakan varian dari metode K-Means. Metode ini dikembangkan oleh Kaufman dan Rousseeuw . untuk mengatasi kelemahan metode K-Means yang sensitif terhadap outlier dan noise dalam data. K-Medoids berbeda dengan K-Means dalam beberapa hal, yaitu representasi cluster, kriteria pemilihan cluster, dan robustness terhadap outlier . K-Medoids menggunakan objek data yang sebenarnya sebagai representasi cluster, sedangkan K-Means menggunakan mean . ata-rat. dari objek data dalam cluster. Selain itu. K-Medoids menggunakan jarak antara objek data dan medoid cluster sebagai kriteria pemilihan cluster, sedangkan K-Means menggunakan jarak antara objek data dan mean cluster. K-Medoids juga lebih robust terhadap outlier dan noise dalam data karena menggunakan medoid sebagai representasi cluster . Algoritma ini juga lebih stabil untuk data yang memiliki distribusi tidak merata atau struktur cluster yang kompleks. Berdasarkan penelitian Marlina dkk, . , implementasi K-Medoids dalam pengelompokan data sebaran anak cacat di Provinsi Riau menunjukkan kinerja yang lebih baik dibandingkan K-Means, dengan nilai validasi Silhouette Coefficient sebesar 0. 5009, jauh lebih tinggi dibanding K-Means yang hanya sebesar 0. Hasil ini menunjukkan bahwa K-Medoids mampu membentuk cluster yang lebih konsisten dan terpisah dengan baik. Namun demikian, algoritma ini memiliki kelemahan dari sisi komputasi, karena membutuhkan perhitungan jarak antar semua pasangan titik dalam cluster, sehingga kompleksitas waktunya lebih tinggi dibanding K-Means. Proses pemilihan medoid baru juga dapat menjadi mahal secara waktu terutama pada dataset berskala besar. Selain itu, seperti halnya K-Means, algoritma ini juga mengharuskan penentuan jumlah cluster k di awal, yang bisa menjadi tantangan dalam tahap eksplorasi awal data. HASIL DAN PEMBAHASAN Data Collection Penelitian ini menggunakan data sekolah jenjang Sekolah Dasar (SD). Sekolah Menengah Pertama (SMP). Sekolah Menengah Akhir (SMA), dan Sekolah Menengah Kejuruan (SMK) negeri di Provinsi Riau yang diperoleh dari situs Badan Pusat Statistik (BPS). Data yang dikumpulkan mencakup berbagai aspek pendidikan, seperti jumlah guru, jumlah, pegawai, jumlah siswa, jumlah ruang kelas, jumlah lab, akses air, akses internet, sanitasi, dan akreditasi dengan total data sebanyak 497 baris. Data yang digunakan dapat dilihat pada Tabel 1. Tabel 1. Data Sekolah Provinsi Riau Jumlah Guru Jumlah PTK Jumlah Jumlah Siswa LakiSiswa Perempuan Rombongan Belajar Jumlah Kelas Lab Internet Akreditasi Ada Ada Tidak Tidak Ada Tidak Preprocessing Data Dataset yang digunakan dalam penelitian ini menjalani tahapan preprocessing yang meliputi data cleaning dengan imputasi untuk menangani missing values, diikuti feature engineering untuk menciptakan atau menggabungkan fitur baru yang lebih relevan. Setelah itu, dilakukan feature selection untuk menghapus variabel yang tidak signifikan. Tahap selanjutnya adalah data transformation, di mana variabel dengan distribusi miring ditransformasikan menggunakan log transformation untuk mendekatkan distribusi data ke bentuk normal. Berikut dataset setelah dilakukan preprocessing data ditunjukkan pada Tabel 2. Tabel 2. Preprocessing Data Jumlah Guru Jumlah PTK Jumlah Siswa Rombongan Belajar Jumlah Kelas Lab Internet Akreditasi Perbandingan Kinerja Algoritma Clustering K-Means dan K-Medoids. (Salman et al, 2. ISSN(P): 2797-2313 | ISSN(E): 2775-8575 Principal Component Analysis (PCA) Pada tahap ini, metode PCA digunakan untuk mereduksi dataset menjadi dua komponen utama, yaitu PC1 dan PC2. PCA berguna meningkatkan efisiensi komputasi, mengatasi curse of dimensionality, dan menghilangkan redundansi data. Dengan mengubah data ke dalam komponen utama. PCA membantu mempermudah interpretasi serta visualisasi pola dalam dataset, terutama dalam clustering dan klasifikasi. Selain itu. PCA memungkinkan analisis yang lebih fokus pada fitur paling signifikan, sehingga menghasilkan representasi data yang lebih efektif tanpa kehilangan informasi penting. Berikut dataset setelah melalui proses PCA yang ditunjukkan pada Tabel 3. Tabel 3. Hasil PCA PC1 PC2 Modeling Pada tahap ini, dilakukan modeling dari algoritma K-Means dan K-Medoids untuk melakukan clustering dan menetapkan k=3 pada masing-masing algoritma. K-Means Data yang telah melewati proses preprocessing dan reduksi dimensi (PCA) akan diolah menggunakan metode K-Means clustering. Algoritma ini bekerja dengan menentukan centroid awal secara acak, mengelompokkan data berdasarkan jarak ke centroid terdekat, dan memperbarui posisi centroid hingga cluster stabil. K-Means Model Input: df_pca Output: df_pca Initialization n_cluster, random_state Get kmeans = KMeans. _clusters=3, random_state=42, n_init=. f_pc. K-Medoids Modeling K-Medoids clustering juga menggunakan data yang sama pada tahap modeling K-Means. KMedoids menggunakan titik data aktual . sebagai pusat cluster, sehingga lebih tahan terhadap outlier. K-Medoids Model Input: df_pca Output: df_pca Initialization n_cluster, random_state Get kmedoids = Kmedoids. _clusters=3, random_state=. f_pc. Evaluasi Pada penelitian ini, algoritma K-Means dan K-Medoids digunakan untuk mengelompokkan data sekolah di Provinsi Riau berdasarkan ketersediaan sarana dan prasarana. Jumlah cluster ditentukan sebanyak tiga . = . , sehingga hasil clustering akan membentuk tiga kelompok. Plotting hasil clustering dari kedua algoritma ditampilkan pada Gambar 2. Gambar 2 menunjukkan data yang direduksi menjadi dua dimensi (PC1 dan PC. menggunakan teknik PCA. Cluster yang dihasilkan algoritma K-Means menunjukkan lebih banyak tumpang tindih . dibandingkan dengan algoritma K-Medoids. Titik pusat cluster . pada algoritma KMeans terbentuk berdasarkan rata-rata posisi seluruh anggota cluster. Sementara itu, pada hasil clustering KMedoids, medoid yang terbentuk merupakan titik data yang meminimalkan total jarak terhadap semua titik lain dalam cluster. Selanjutnya melakukan evaluasi hasil clustering menggunakan metode DBI. DBI dapat digunakan tanpa memerlukan label data atau ground truth, sehingga cocok untuk evaluasi clustering pada data yang tidak berlabel. Perbandingan nilai DBI dapat dilihat pada Gambar 3. MALCOM - Vol. 5 Iss. 3 July 2025, pp: 797-806 MALCOM-05. : 797-806 Gambar 2. Ploting Hasil Clustering Perbandingan DBI 0,61 Davies-Bouldin Index (DBI) K-Means K-Medoids Gambar 3. Perbandingan DBI Algoritma K-Means dan K-Medoids K-Medoids memiliki DBI yang lebih rendah . dibandingkan dengan K-Means . , yang menunjukkan bahwa K-Medoids memiliki kualitas clustering yang lebih baik. Selanjutnya distribusi data dalam tiga cluster yang dihasilkan oleh algoritma K-Means dan K-Medoids ditunjukkan pada Gambar 4. Gambar 4. Distribusi Data Cluster Algoritma K-Means dan K-Medoids Distribusi hasil clustering menunjukkan bahwa baik K-Means maupun K-Medoids menghasilkan satu cluster dominan dengan persentase terbesar, yaitu cluster 0 pada K-Means . 9%) dan cluster 1 pada KMedoids . 9%). DISKUSI Hasil clustering menunjukkan bahwa algoritma K-Medoids memiliki nilai Davies-Bouldin Index . yang lebih rendah daripada K-Means . , menandakan bahwa K-Medoids membentuk cluster yang lebih terpisah dan konsisten. Hal ini disebabkan oleh metode pemilihan pusat cluster pada K-Medoids yang tidak terpengaruh oleh nilai ekstrem, sehingga lebih stabil ketika digunakan pada data pendidikan yang memiliki outlier, seperti sekolah dengan fasilitas sangat minim atau sangat lengkap. Perbandingan Kinerja Algoritma Clustering K-Means dan K-Medoids. (Salman et al, 2. ISSN(P): 2797-2313 | ISSN(E): 2775-8575 Temuan ini sejalan dengan studi sebelumnya (Farahdinna dkk, 2. dan (Marlina dkk, 2. yang menunjukkan keunggulan K-Medoids dalam mengelola data yang tidak merata dan mengandung noise. Dibandingkan K-Means yang sensitif terhadap distribusi data yang tidak merata. K-Medoids memberikan hasil yang lebih representatif terhadap kondisi nyata sekolah-sekolah di Riau. Dari hasil clustering, diketahui bahwa terdapat satu cluster dominan yang merepresentasikan mayoritas sekolah dengan fasilitas dasar yang cukup, hal ini mencerminkan bahwa kondisi rata-rata sekolah di Riau yang tidak kekurangan ekstrem tapi juga belum mencapai level terbaik. sedangkan dua cluster lainnya mewakili sekolah dengan infrastruktur sangat baik atau sangat buruk. Namun demikian, hasil clustering belum mencakup variabel sosial-ekonomi atau letak geografis sekolah, yang juga berpotensi memengaruhi hasil kebijakan. Oleh karena itu, interpretasi hasil clustering harus dikombinasikan dengan kajian kontekstual lapangan untuk implementasi kebijakan yang tepat sasaran. KESIMPULAN Penelitian ini menunjukkan bahwa algoritma K-Medoids memberikan performa lebih baik dibandingkan K-Means dalam mengelompokkan sekolah di Provinsi Riau berdasarkan ketersediaan sarana dan prasarana, sebagaimana ditunjukkan oleh nilai DBI yang lebih rendah. Hal ini menegaskan keunggulan K-Medoids dalam menangani data dengan outlier dan distribusi yang tidak merata. Hasil pengelompokan ini dapat dijadikan sebagai dasar dalam merumuskan kebijakan pendidikan yang lebih merata, seperti alokasi anggaran, distribusi guru, dan pembangunan infrastruktur pendidikan yang berbasis pada kebutuhan nyata Kelemahan dari penelitian ini terletak pada keterbatasan variabel yang digunakan, yang hanya mencakup indikator fisik sarana dan prasarana tanpa mempertimbangkan aspek sosial, geografis, dan kualitas pembelajaran. Penelitian selanjutnya disarankan untuk mengintegrasikan lebih banyak dimensi, termasuk data spasial dan faktor-faktor non-fisik lainnya, serta mengeksplorasi algoritma clustering lainnya untuk validasi hasil. REFERENSI