BULLET : Jurnal Multidisiplin Ilmu Volume 2.
No.
Febuari - Maret 2023 ISSN 2829-2049 .
edia onlin.
Hal 271-276 Segmentasi Minat Mahasiswa Terhadap Program Studi Menggunakan Algoritma K-Means Clustering Edi Wahyudin1.
Fatihanursari Dikananda2* 1Program Studi Komputerisasi Akuntansi.
STMIK IKMI Cirebon.
Kota Cirebon.
Indonesia 2Program Studi Teknik Informatika.
STMIK IKMI Cirebon.
Kota Cirebon.
Indonesia Email: 1Ediwahyudin.
ikmi@gmail.
com, 2*Fatihanursari.
ikmi@gmail.
(* : coressponding autho.
Abstrak Oe Segmentasi minat mahasiswa terhadap program studi merupakan langkah penting dalam pengambilan keputusan strategis di bidang pendidikan tinggi.
Dengan mengetahui kelompok minat yang terbentuk, institusi dapat menyusun kurikulum yang relevan serta strategi pemasaran yang lebih efektif.
Penelitian ini bertujuan untuk mengelompokkan minat mahasiswa terhadap program studi menggunakan algoritma K-Means Clustering.
Data yang digunakan berasal dari kuesioner minat dan preferensi mahasiswa baru terhadap beberapa program studi.
Hasil dari penerapan algoritma K-Means menunjukkan bahwa mahasiswa dapat dikelompokkan ke dalam beberapa klaster berdasarkan kesamaan minat mereka, yang dapat digunakan untuk mendukung kebijakan akademik dan promosi program studi.
Kata Kunci: Segmentasi.
Minat Mahasiswa.
K-Means Clustering.
Program Studi.
Data Mining Abstract Oe Segmenting student interest in study programs is a crucial step in strategic decision-making within higher education.
By identifying interest groups, institutions can design more relevant curricula and develop more effective marketing strategies.
This study aims to cluster student interests in study programs using the KMeans Clustering algorithm.
The data used in this research were obtained from questionnaires assessing the interests and preferences of new students towards various study programs.
The results of applying the K-Means algorithm indicate that students can be grouped into several clusters based on the similarity of their interests, which can be utilized to support academic policy and program promotion strategies.
Keywords: Segmentation.
Student Interest.
K-Means Clustering.
Study Program.
Data Mining PENDAHULUAN Dalam pendidikan tinggi, memahami preferensi dan minat mahasiswa sangat penting untuk perencanaan akademik dan pengembangan institusi.
Banyaknya pilihan program studi yang tersedia seringkali membingungkan calon mahasiswa dalam menentukan keputusan yang sesuai dengan minat dan bakat mereka.
Oleh karena itu, diperlukan metode analisis yang dapat membantu mengelompokkan mahasiswa berdasarkan kesamaan minat terhadap program studi.
Teknologi analisis data berupa data mining mempermudah institusi pendidikan dalam memahami pola minat mahasiswa.
Salah satu metode efektif dalam pengelompokan data adalah algoritma K-Means Clustering, yaitu teknik pembelajaran tak terawasi yang banyak digunakan untuk segmentasi (Meftah et al.
, 2.
Algoritma ini memungkinkan data dikelompokkan ke dalam beberapa klaster berdasarkan kemiripan karakteristik, sehingga dapat diidentifikasi pola-pola tersembunyi dalam data mahasiswa yang sebelumnya sulit terlihat secara manual.
Penelitian ini bertujuan untuk mengelompokkan minat mahasiswa terhadap program studi menggunakan algoritma K-Means.
Segmentasi yang dihasilkan dapat membantu institusi dalam menyusun strategi yang lebih tepat sasaran dalam menawarkan program studi yang diminati calon Selain itu, hasil segmentasi ini juga dapat digunakan untuk merancang kegiatan promosi, bimbingan karier, dan pengembangan kurikulum yang sesuai dengan kecenderungan minat mahasiswa di masing-masing klaster.
Dengan adanya pendekatan ini, institusi tidak hanya mampu meningkatkan efektivitas dalam menarik minat calon mahasiswa, tetapi juga dapat meningkatkan kepuasan dan keberhasilan akademik mahasiswa dengan menyelaraskan program studi yang ditawarkan dengan potensi dan minat yang dimiliki.
Di era transformasi digital saat ini, pemanfaatan data untuk pengambilan keputusan strategis menjadi aspek krusial dalam pengelolaan pendidikan tinggi yang adaptif dan responsif terhadap kebutuhan mahasiswa (Putri et al.
, 2.
Edi Wahyudin | https://journal.
id/index.
php/bullet | Page 271 BULLET : Jurnal Multidisiplin Ilmu Volume 2.
No.
Febuari - Maret 2023 ISSN 2829-2049 .
edia onlin.
Hal 271-276
METODOLOGI PENELITIAN
Sumber Data Data Data diperoleh dari kuesioner yang disebarkan kepada mahasiswa baru pada awal tahun Kuesioner mencakup pertanyaan mengenai minat terhadap program studi yang ditawarkan, alasan memilih program, pengaruh orang tua, prospek karir, dan ketertarikan pribadi.
Total responden sebanyak 300 mahasiswa dari berbagai fakultas yang mewakili spektrum disiplin ilmu, seperti sains dan teknologi, sosial dan humaniora, serta ekonomi dan desain.
Untuk memastikan validitas data, kuesioner dirancang menggunakan skala Likert 1Ae5 untuk mengukur intensitas minat dan preferensi mahasiswa terhadap masing-masing aspek.
Selain itu, kuesioner juga telah melalui proses uji coba dan validasi oleh pakar pendidikan sebelum penyebaran secara luas, guna menjamin bahwa setiap item benar-benar merepresentasikan konstruk yang diukur.
Pengumpulan data dilakukan selama dua minggu melalui platform survei daring, dengan tetap menjaga anonimitas dan kerahasiaan responden.
Kriteria inklusi yang digunakan adalah mahasiswa baru tahun akademik berjalan yang telah resmi terdaftar di institusi pendidikan terkait.
Data yang terkumpul kemudian dikompilasi dalam bentuk spreadsheet dan diproses menggunakan perangkat lunak pengolahan data statistik sebelum masuk ke tahap pra-pemrosesan dan analisis Dengan pendekatan ini, data yang diperoleh diharapkan mampu memberikan gambaran yang komprehensif tentang pola minat mahasiswa baru terhadap program studi yang tersedia, serta faktorfaktor yang mempengaruhinya.
Informasi ini menjadi dasar penting dalam proses segmentasi menggunakan algoritma K-Means Clustering.
Pra-Pemrosesan Data Sebelum dilakukan pengelompokan, data melalui tahapan pra-pemrosesan berikut:
Pembersihan Data Proses ini dilakukan untuk menghapus entri duplikat yang dapat menyebabkan bias pada hasil Selain itu, data yang tidak validAiseperti nilai yang berada di luar rentang wajar atau bertentangan secara logisAijuga diperbaiki.
Penanganan data kosong dilakukan dengan dua pendekatan, yaitu penghapusan entri yang tidak signifikan jumlahnya, serta imputasi .
menggunakan metode rata-rata atau modus tergantung pada tipe data .
umerik atau kategori.
Transformasi Data Sebagian besar data berasal dari jawaban kualitatif seperti "sangat berminat", "tidak berminat", atau "netral".
Untuk dapat dianalisis oleh algoritma K-Means yang bekerja dengan data numerik, data kualitatif tersebut diubah menjadi bentuk numerik menggunakan label encoding (Kusumadewi et al.
, 2.
Pada kasus tertentu, seperti variabel dengan banyak kategori, onehot encoding juga dipertimbangkan untuk menghindari asumsi hubungan ordinal yang tidak Normalisasi Seluruh fitur data dinormalisasi menggunakan metode Min-Max Scaling, yang mengubah nilai fitur ke dalam rentang 0 hingga 1.
Normalisasi ini penting untuk menghindari dominasi fitur dengan skala besar terhadap proses pembentukan klaster.
Dengan skala yang seragam, algoritma K-Means dapat menghitung jarak antar data secara lebih adil dan akurat.
Pemeriksaan Outlier Outlier atau nilai pencilan dapat mengganggu proses klastering karena dapat menarik pusat klaster secara tidak proporsional.
Oleh karena itu, dilakukan identifikasi dan analisis outlier menggunakan boxplot dan metode z-score.
Jika ditemukan data yang ekstrem dan tidak Edi Wahyudin | https://journal.
id/index.
php/bullet | Page 272 BULLET : Jurnal Multidisiplin Ilmu Volume 2.
No.
Febuari - Maret 2023 ISSN 2829-2049 .
edia onlin.
Hal 271-276 representatif, maka data tersebut dipertimbangkan untuk dikeluarkan dari proses pelatihan Dengan menjalani tahapan pra-pemrosesan ini, data yang digunakan menjadi lebih bersih, konsisten, dan sesuai untuk dianalisis menggunakan algoritma K-Means, sehingga hasil segmentasi yang diperoleh dapat lebih akurat dan bermanfaat secara praktis.
Algoritma K-Means Algoritma K-Means adalah metode pembelajaran tak terawasi yang digunakan untuk mengelompokkan data ke dalam sejumlah klaster berdasarkan kedekatan antar titik data.
Algoritma ini bekerja dengan cara meminimalkan jarak antara data dan pusat klaster .
, sehingga setiap data dikelompokkan dengan data lain yang memiliki karakteristik serupa.
Langkah-langkah dalam algoritma K-Means adalah sebagai berikut:
Menentukan Jumlah Klaster .
Sebelum menerapkan algoritma, jumlah klaster .
harus ditentukan terlebih dahulu.
Pemilihan jumlah klaster yang optimal sangat penting agar hasil segmentasi sesuai dengan tujuan analisis.
Beberapa metode yang dapat digunakan untuk menentukan k yang optimal adalah Metode Elbow.
Silhouette Score, atau metode Gap Statistic.
Dalam penelitian ini, jumlah klaster dipilih menggunakan Metode Elbow, yang akan dijelaskan lebih lanjut pada bagian berikutnya.
Menginisialisasi Centroid Secara Acak Setelah menentukan jumlah klaster, langkah selanjutnya adalah menginisialisasi posisi centroid secara acak.
Centroid adalah titik pusat dari setiap klaster yang mewakili rata-rata posisi semua titik data dalam klaster tersebut.
Penginisialisasian centroid dilakukan secara acak pada ruang data yang ada, yang kemudian menjadi titik awal dalam proses klastering.
Pemilihan centroid yang tepat sangat mempengaruhi hasil akhir dari pengelompokan, sehingga berbagai metode seperti K-Means digunakan untuk meningkatkan kualitas inisialisasi centroid.
Mengelompokkan Titik Data Berdasarkan Jarak Euclidean ke Centroid Setelah centroid diinisialisasi, setiap titik data dikelompokkan berdasarkan kedekatannya dengan centroid.
Jarak antar titik data dan centroid dihitung menggunakan rumus jarak Euclidean, yang memberikan ukuran jarak geometris antara dua titik dalam ruang n-dimensi.
Titik data akan dimasukkan ke dalam klaster yang memiliki jarak terkecil dengan centroidnya.
Proses ini berlangsung secara iteratif, di mana setiap titik data akan selalu bergabung dengan klaster terdekat.
Menghitung Ulang Posisi Centroid Berdasarkan Anggota Klaster Baru Setelah semua titik data dikelompokkan, langkah selanjutnya adalah menghitung ulang posisi centroid untuk masing-masing klaster.
Posisi centroid yang baru ini merupakan rata-rata dari semua titik data yang terdapat dalam klaster tersebut.
Dengan kata lain, centroid akan bergerak menuju titik tengah klaster berdasarkan anggota-anggota baru yang telah dimasukkan ke dalam Mengulangi Langkah 3 dan 4 hingga Posisi Centroid Konvergen Langkah-langkah pengelompokan dan perhitungan ulang posisi centroid akan diulang secara iteratif hingga posisi centroid tidak berubah lagi atau perubahan yang terjadi sangat kecil .
Pada titik ini, klaster dianggap stabil, dan proses klastering selesai.
Konvergensi ini terjadi ketika tidak ada perubahan signifikan dalam anggota klaster atau posisi centroid pada iterasi berikutnya.
Hal ini menandakan bahwa algoritma telah menemukan pembagian klaster yang optimal.
Dalam implementasi K-Means, ada beberapa pertimbangan yang perlu diperhatikan, seperti pemilihan jumlah klaster yang optimal dan inisialisasi centroid yang tepat, untuk memastikan bahwa algoritma bekerja dengan baik dan menghasilkan klaster yang representatif (Fahmi & Nurhayati.
Edi Wahyudin | https://journal.
id/index.
php/bullet | Page 273 BULLET : Jurnal Multidisiplin Ilmu Volume 2.
No.
Febuari - Maret 2023 ISSN 2829-2049 .
edia onlin.
Hal 271-276 Penentuan Nilai K Optimal Metode Penentuan jumlah klaster yang optimal .
merupakan langkah penting dalam algoritma K-Means.
Jika jumlah klaster terlalu sedikit, maka hasil klastering mungkin tidak mewakili keragaman data dengan baik.
Sebaliknya, jika jumlah klaster terlalu banyak, maka klaster yang terbentuk bisa terlalu spesifik dan tidak memberikan wawasan yang berguna.
Salah satu metode yang paling umum digunakan untuk menentukan nilai k yang optimal adalah Metode Elbow.
Metode Elbow dilakukan dengan cara mengamati grafik yang menunjukkan hubungan antara jumlah klaster .
dan Sum of Squared Error (SSE), yang merupakan jumlah dari kuadrat jarak antara setiap titik data dan centroid klasternya.
Semakin banyak jumlah klaster yang digunakan.
SSE cenderung menurun karena data akan lebih terkelompok dengan lebih baik.
Namun, penurunan SSE ini tidak akan terus berlanjut dengan cara yang signifikan setelah titik tertentu.
Langkah-langkah dalam menggunakan Metode Elbow adalah sebagai berikut:
Menghitung SSE untuk Berbagai Nilai k Lakukan pengelompokan data untuk berbagai nilai k, misalnya mulai dari k = 1 hingga k = 10, dan hitung nilai SSE untuk masing-masing k.
SSE dihitung dengan rumus:
Gambar 2.
1 Rumus SSE Di mana xix adalah titik data, ckc_kck adalah centroid klaster, dan k adalah jumlah Plot Grafik SSE terhadap Jumlah Klaster .
Setelah nilai SSE dihitung untuk masing-masing k, buat grafik yang memplotkan nilai k .
terhadap nilai SSE .
Identifikasi Titik Elbow Amati grafik dan cari titik di mana penurunan SSE mulai melambat atau mencapai suatu titik yang hampir horizontal.
Titik ini disebut sebagai Elbow .
, dan ini merupakan jumlah klaster optimal .
yang memberikan keseimbangan terbaik antara pengurangan SSE dan kompleksitas model.
Validasi Hasil Meskipun Metode Elbow dapat memberikan gambaran yang jelas mengenai nilai k, terkadang keputusan subjektif diperlukan untuk memilih titik Elbow yang paling sesuai dengan tujuan Beberapa teknik lain seperti Silhouette Score juga dapat digunakan untuk memvalidasi hasil yang diperoleh dari Metode Elbow (Rahman et al.
, 2.
Metode Elbow ini sangat berguna dalam menentukan jumlah klaster yang optimal, namun perlu diingat bahwa tidak selalu ada titik Elbow yang jelas.
Dalam hal ini, metode tambahan atau evaluasi manual berdasarkan konteks masalah dapat diperlukan untuk menentukan nilai k yang paling relevan.
Evaluasi Klaster Untuk mengevaluasi kualitas pengelompokan, digunakan metrik Silhouette Score, yang mengukur sejauh mana setiap titik data cocok dalam klasternya dibandingkan dengan klaster lain (Putri et al.
, 2.
Edi Wahyudin | https://journal.
id/index.
php/bullet | Page 274 BULLET : Jurnal Multidisiplin Ilmu Volume 2.
No.
Febuari - Maret 2023 ISSN 2829-2049 .
edia onlin.
Hal 271-276
ANALISA DAN PEMBAHASAN
Penentuan K Optimal Metode Elbow yang digunakan dalam penelitian ini menunjukkan bahwa jumlah klaster optimal adalah 3, yang mengindikasikan adanya tiga kelompok utama minat mahasiswa terhadap program studi.
Titik Elbow terlihat jelas pada grafik SSE ketika nilai k = 3, di mana penurunan nilai SSE setelah titik ini tidak signifikan lagi.
Hal ini menunjukkan bahwa pembagian menjadi tiga klaster sudah cukup mewakili variasi dalam data minat mahasiswa.
Hasil ini juga diperkuat dengan evaluasi menggunakan Silhouette Score yang menunjukkan hasil clustering yang memadai.
Hasil Pengelompokan Berdasarkan hasil penerapan algoritma K-Means, data responden berhasil dikelompokkan ke dalam tiga klaster utama, yaitu:
Klaster 1 .
% responde.
Kelompok mahasiswa yang sangat berminat pada program-program sains dan teknologi, seperti Teknik Informatika,Teknik Elektro,Sistem Informasi.
Faktor utama yang mempengaruhi minat mereka meliputi Prospek karir di bidang teknologi informasi dan Perkembangan pesat dunia teknologi dan digitalisasi,Daya tarik gaji tinggi dan stabilitas pekerjaan Klaster 2 .
% responde.
Kelompok mahasiswa yang tertarik pada bidang ilmu sosial dan humaniora, seperti Psikologi.
Ilmu Hukum.
Ilmu Komunikasi.
Faktor-faktor penentu minat di klaster ini antara lain Ketertarikan pribadi terhadap interaksi sosial dan dinamika manusia.
Pengaruh keluarga, teman, dan lingkungan.
Cita-cita berkontribusi di bidang sosial atau pelayanan masyarakat Klaster 3 .
% responde.
Kelompok mahasiswa dengan minat beragam dan multidisipliner, terutama pada Manajemen.
Bisnis.
Desain Komunikasi Visual Mahasiswa dalam klaster ini menunjukkan karakteristik Ketertarikan pada kreativitas, inovasi, dan fleksibilitas profesi.
Aspirasi untuk menjadi wirausahawan atau bekerja di industri kreatif.
Motivasi untuk membangun bisnis sendiri atau bekerja secara independen Evaluasi Klaster Nilai Evaluasi kualitas hasil pengelompokan dilakukan menggunakan Silhouette Score, yaitu metrik yang mengukur seberapa baik suatu data cocok dengan klaster tempat ia berada dibandingkan dengan klaster lain.
Pada penelitian ini, diperoleh nilai Silhouette Score sebesar 0.
63, yang tergolong dalam kategori cukup baik.
Nilai tersebut menunjukkan bahwa:
Sebagian besar data memiliki kohesi internal yang kuat, artinya data dalam satu klaster memiliki kemiripan yang tinggi.
Pemisahan antar klaster juga cukup baik, yang berarti jarak antara satu klaster dengan klaster lainnya relatif jelas dan tidak tumpang tindih secara signifikan.
Selain itu, pengamatan visual terhadap hasil klastering melalui plot dua dimensi terhadap atribut-atribut utama .
eperti minat utama dan alasan pemilihan program stud.
memperlihatkan pola pengelompokan yang terdistribusi secara wajar dan tidak terjadi dominasi satu klaster terhadap keseluruhan data.
Evaluasi ini memperkuat kesimpulan bahwa hasil pengelompokan menggunakan algoritma K-Means pada data minat mahasiswa cukup representatif dan dapat digunakan sebagai dasar segmentasi untuk keperluan kebijakan institusional.
Implikasi Temuan Hasil penelitian ini menyarankan bahwa institusi dapat memanfaatkan segmentasi ini untuk:
Edi Wahyudin | https://journal.
id/index.
php/bullet | Page 275 BULLET : Jurnal Multidisiplin Ilmu Volume 2.
No.
Febuari - Maret 2023 ISSN 2829-2049 .
edia onlin.
Hal 271-276 Menyusun kurikulum yang sesuai dengan kelompok minat mahasiswa.
Mengembangkan strategi pemasaran program studi yang lebih tertarget.
Menyediakan layanan bimbingan dan konseling yang disesuaikan.
KESIMPULAN
Penelitian ini berhasil melakukan segmentasi minat mahasiswa terhadap program studi menggunakan algoritma K-Means Clustering.
Hasil pengelompokan menunjukkan tiga kelompok minat utama yang dapat dijadikan dasar dalam pengambilan kebijakan akademik dan promosi program studi yang lebih tepat sasaran.
Evaluasi menggunakan Silhouette Score menunjukkan bahwa segmentasi yang dihasilkan memiliki kualitas yang baik.
Penelitian ini membuktikan bahwa pendekatan data mining dapat diterapkan secara efektif dalam dunia pendidikan tinggi untuk memahami karakteristik mahasiswa dengan lebih baik.
Penelitian selanjutnya disarankan untuk mengeksplorasi teknik clustering lainnya seperti DBSCAN dan HCA (Hierarchical Clustering Analysi.
, serta memperluas dataset agar hasil yang diperoleh lebih komprehensif dan dapat digeneralisasi.
REFERENCES