JURNAL SISTEM INFORMASI TGD
Volume 4.
Nomor 1.
Januari 2025.
Hal 65-74 P-ISSN : 2828-1004 .
E-ISSN : 2828-2566
https://ojs.
id/index.
php/jsi Pengelompokkan Film Trending di Youtube Menggunakan TF-IDF dan K-Means Clastering Dwi Remawati 1 .
Hendro Wijayanto2 .
Yustina Retno Wahyu Utami 3 .
Bayu Dwi Raharja4 Teknologi Informasi.
STM IK Sinar Nusantara Surakarta Informatika.
STM IK Sinar Nusantara Surakarta Email: dwirema@sinus.
id, 2hendro@sinus.
id, 3yustina.
lecturer@sinus.
id, 4bayudr@sinus.
Email Penulis Korespondensi: dwirema@sinus.
Abstrak YouTube telah menjadi platform utama untuk konsumsi konten video, dengan tren video yang terus berkembang sesuai perubahan minat audiens.
Penelitian ini bertujuan untuk mengelompokkan film trending di YouTube berdasarkan judul dan popularitasnya menggunakan pendekatan TF-IDF dan K-M eans Clustering.
TF-IDF digunakan untuk mengekstraksi fitur dari judul video, mengidentifikasi kata-kata kunci penting yang mencirikan tema setiap film.
Algoritma K-M eans kemudian digunakan untuk mengelompokkan video ke dalam beberapa cluster berdasarkan kemiripan fitur TF-IDF dan jumlah views.
Hasil penelitian menunjukkan bahwa video dapat dikelompokkan ke dalam tiga cluster dengan karakteristik unik.
Cluster pertama berisi video dengan tema komedi, aktor populer, dan jumlah views tinggi.
Cluster kedua mencakup video dari berbagai genre dengan jumlah views yang Cluster ketiga terdiri dari video yang lebih spesifik dengan popularitas tinggi.
Evaluasi menggunakan Silhouette Score menunjukkan bahwa kualitas clustering masih dapat ditingkatkan.
Penelitian ini memberikan wawasan bagi kreator konten dan pemasar digital untuk menyusun strategi konten yang lebih menarik dan relevan, serta memberikan kontribusi akademis dalam analisis data berbasis teks.
Kata Kunci: data mining, clustering.
K-means.
TF IDF, film trending Abstract YouTube has become a major platform for video content consumption, with video trends constantly evolving according to changing audience interests.
This study aims to cluster trending movies on YouTube based on their titles and popularity using TF-IDF and KMeans Clustering approaches.
TF-IDF is used to extract features from video titles, identifying important keywords that characterize the theme of each movie.
The K-Means algorithm is then used to cluster videos into several clusters based on the similarity of TF-IDF features and the number of views.
The results show that videos can be grouped into three clusters with unique characteristics.
The first cluster contains videos with comedy themes, popular actors, and high views.
The second cluster includes videos from various genres with varying views.
The third cluster consists of more specific videos with high popularity.
Evaluation using Silhouette Scor e shows that the quality of clustering can still be improved.
This study provides insights for content creators and digital marketers to develop more interesting and relevant content strategies, as well as providing academic contributions in text-based data analysis.
Keywords: data mining, clustering.
K-means.
TF IDF, film trending PENDAHULUAN Di era digital saat ini.
YouTube telah menjadi salah satu media utama bagi pengguna untuk menikmati konten hiburan, termasuk film.
Setiap hari, banyak orang menonton dan mencari film-film trending pada platform ini.
Dengan banyaknya konten yang tersedia, pengelompokkan film berdasarkan judul dan popularitasnya menjadi sangat penting.
Dengan adanya pengelompokan ini dapat membantu pengguna, kreator, dan pengiklan untuk lebih memahami pola preferensi audiens serta tren populer dalam berbagai kategori film.
Pengelompokkan film berdasarkan judul dan popularitas .
memiliki manfaat yang signifikan, terutama dalam analisis data dan industri hiburan.
Manfaatnya antara lain membantu memahami pilihan penonton, mengoptimalkan strategi konten dan pemasaran, serta menyederhanakan proses rekomendasi yang dapat membantu pengguna menemukan konten yang mungkin mereka sukai berdasarkan film trending yang memiliki genre atau kategori serupa.
Selain itu, hasil pengelompokan ini mendukung pengambilan keputusan dalam industri hiburan, khususnya dalam menentukan jenis film yang sebaiknya diproduksi atau didistribusikan, sehingga meningkatkan peluang keberhasilan komersial.
Bagi pengiklan, pengelompokan ini membuka peluang untuk menjangkau audiens yang lebih spesifik.
Sebagai contoh, pengiklan produk olahraga mungkin akan lebih tertarik beriklan pada film aksi atau petualangan yang sedang trending, karena segmen audiensnya lebih relevan.
Klusterisasi .
adalah teknik dalam data mining atau machine learning yang berfungsi untuk membagi data menjadi beberapa kelompok .
berdasarkan kesamaan atribut atau karakteristik tertentu.
Data dalam satu cluster akan memiliki kemiripan yang tinggi, sementara data antar cluster akan memiliki perbedaan yang signifikan.
Penggunaan TF-IDF (Term Frequency-Inverse Document Frequenc.
dalam clustering film bertujuan untuk mengekstraksi informasi penting dari teks, yaitu judul film, dan mengubahnya menjadi fitur numerik yang dapat dianalisis dalam proses clustering.
TF-IDF menghitung seberapa penting suatu kata dalam dokumen .
alam hal ini, judul fil.
pada seluruh kumpulan dokumen.
Metode ini memprioritaskan kata-kata yang spesifik dan signifikan dalam judul film, seperti Action.
Comedy, atau Romantic, yang dapat menggambarkan kategori atau tema film tersebut.
Komponen IDF (Inverse Document Frequenc.
dalam TF-IDF berfungsi untuk menurunkan nilai kata-kata yang terlalu umum dan sering muncul di banyak dokumen, seperti AuMovieAy atau AuFilmAy.
Dengan demikian kata-kata yang kurang informatif dalam konteks Dwi Remawati, 2025.
Hal 65
JURNAL SISTEM INFORMASI TGD
Volume 4.
Nomor 1.
Januari 2025.
Hal 65-74 P-ISSN : 2828-1004 .
E-ISSN : 2828-2566
https://ojs.
id/index.
php/jsi clustering tidak akan memberikan pengaruh besar pada hasil analisis kemiripan antar judul.
Clustering membutuhkan input berupa data numerik, dan TF-IDF menghasilkan vektor yang mengandung bobot setiap kata penting .
Representasi ini memungkinkan setiap judul film diterjemahkankan ke dalam ruang fitur numerik.
Kata -kata dengan bobot TF-IDF yang tinggi mencerminkan tema atau genre spesifik, sehingga dapat membantu dalam proses pengelompokan film berdasarkan tema atau kategori.
TF-IDF adalah metode yang sederhana namun efisien untuk diterapkan pada data teks .
Meskipun tidak sekompleks teknik NLP lainnya.
TF-IDF cukup kuat untuk mengidentifikasi pola-pola dasar dalam teks tanpa membutuhkan sumber daya komputasi yang besar.
Ketika digunakan bersama algoritma clustering seperti K-Means.
TF-IDF memberikan representasi numerik yang memungkinkan K-Means mengelompokkan film dengan lebih akurat berdasarkan tema atau popularitas .
Hasilnya, film dengan tema atau genre serupa dapat dikelompokkan bersama, menciptakan cluster yang bermakna berdasarkan pola kunci dalam judul Salah satu penelitian yang telah dilakukan oleh .
membahas bagaimana dokumen skripsi dikelompokkan berdasarkan topiknya untuk membentuk kelompok-kelompok topik skripsi.
Setelah dikelompokkan, data divisualisasikan berdasarkan periode waktu tahun untuk menganalisis trend topik skripsi yang berkembang sehingga dap at digunakan sebagai referensi mahasiswa dalam memilih topik skripsi yang akan diambil dan untuk membantu pembimbing dalam menyetujui topik penelitian skripsi yang baru.
Untuk pengelompokkan menggunakan text mining dan K-Means Clustering.
Tujuannya untuk melakukan analisis trend untuk mengetahui trend topik skripsi.
Penelitian berikutnya dilakukan oleh .
mengelompokkan berita dengan tujuan untuk mengidentifikasi setiap kelompok berita.
Menggunakan metode K-Means yang didasarkan pada proses pembobotan kata menggunakan Algoritma TF-IDF (Term Frequency Inverse Document Frequenc.
Proses clustering menggunakan berita hasil crawling dari situs detik.
com dengan jangka waktu satu tahun .
yang berjumlah 124.
509 berita dan disimpan dalam bentuk file CSV (Comma Seperated Valu.
Berdasarkan hasil pengujian, terdapat 27 kelompok berita yang berhasil di identifikasi dengan kemampuan aplikasi yang cukup memadai dalam memproses data yang besar.
Penelitian berikutnya melakukan pegelompokkan review konsumen terhadap salah satu produk skincare.
Produk skincare tersebut adalah SKINTIFIC merupakan merk lokal Indonesia yang sedang viral dengan penjualan yang cukup banyak baik offline maupun online.
Pada penelitian ini review diambil dari twitter, menggunakan metode TF- IDF untuk pembobotan kata dan metode K-Means Clustering untuk pengelompokkan sentimen positif dan negatif.
Hasil penelitian, pengelompokkan dibagi menjadi 2 yaitu Cluster Positif dan Cluster negatif.
Dengan persentase jumlah cluster positif (C.
79,5%.
Sedangkan persentase jumlah cluster negatif (C.
19,7% .
Pada penelitian ini diharapkan menghasilkan pengelompokan film berdasarkan judul dan popularitas di platform YouTube.
Selain itu, penelitian ini juga bertujuan untuk mengevaluasi efektivitas algoritma clustering dalam mengelompokkan data video berdasarkan judul dan popularitas, sehingga dapat menjadi dasar untuk pengembangan model analisis data yang lebih baik di masa depan.
METODOLOGI PENELITIAN
1 Tahapan Penelitian Tahapan penelitian dalam proses clustering menggunakan algoritma TF-IDF dan metode K-mean untuk pengelompokan film trending di youtube meliputi beberapa tahapan yaitu mulai dari penentuan data, preprosesing data yang terdiri dari tokenisasi, stemming, penghilangan stopword serta eksplorasi data menggunakan bahasa pemrograman Python.
Tahapan penelitian pada penelitian ini seperti pada Gambar 1.
Gambar 1.
Tahapan Penelitian Dwi Remawati, 2025.
Hal 66
JURNAL SISTEM INFORMASI TGD
Volume 4.
Nomor 1.
Januari 2025.
Hal 65-74 P-ISSN : 2828-1004 .
E-ISSN : 2828-2566
https://ojs.
id/index.
php/jsi Penjelasan tahapan penelitian :
Pengumpulan Data Dataset yang digunakan adalah data trending youtube movies yang diperoleh secara online melalui Kaggle dengan alamat situs https://w.
com/datasets.
Preprosesing Data, pada tahap ini untuk memudahkan penerapan preprosesing data, penulis menggunakan nltk dalam Phyton.
Pembersihan Teks: Judul film akan dibersihkan dari karakter khusus, angka, dan kata -kata yang tidak relevan .
untuk meningkatkan kualitas pengelompokan.
Proses ini mencakup case folding, tokenisasi, stopword removal dan stemming.
Penormalan Atribut Popularitas: Data numerik seperti jumlah views, likes, dan komentar akan dinormalisasi menggunakan teknik Min-Max Scaling untuk menyamakan skala antara judul teks dan popularitas dalam analisis Ekstraksi Fitur Menggunakan TF-IDF Setiap judul film yang telah melalui pra-pemrosesan akan diubah menjadi representasi numerik menggunakan TF-IDF.
TF-IDF digunakan untuk menghitung bobot setiap kata dalam judul film, dengan memperhatikan frekuensi kemunculan kata tersebut di seluruh judul yang ada, sehingga kata -kata yang lebih khas dari setiap judul akan mendapatkan bobot lebih tinggi.
Hasil ekstraksi fitur ini akan digunakan sebagai representasi vektor dari masing -masing judul untuk proses Komponen utama TF-IDF adalah:
C Term Frequency (TF): Mengukur seberapa sering sebuah kata muncul dalam sebuah dokumen.
Formula umumnya:
ycNya .
c, yc.
= C ycycycoycoycaEa ycoyceycoyc ycuycaycycoycaycu ycoycaycyca yc yccycaycoycayco yccycuycoycycoyceycu ycc ycNycuycycayco ycoycaycyca yccycaycoycayco yccycuycoycycoyceycu ycc Inverse Document Frequency (IDF): Mengukur seberapa unik sebuah kata dalam keseluruhan dokumen di corpus.
Formula umumnya:
IDF.
,D) = log ( C ycA 1 ycuyc N: Jumlah total dokumen dalam corpus.
nt : Jumlah dokumen yang mengandung kata t.
Penambahan 1 pada penyebut untuk menghindari pembagian dengan nol.
TF-IDF Score: Menggabungkan TF dan IDF untuk memberikan bobot pada sebuah kata dalam TFOeIDF.
,d,D) = TF.
y IDF.
,D) Clustering dengan K-Means Algoritma K-Means Clustering akan digunakan untuk mengelompokkan data berdasarkan fitur TF-IDF dari judul dan atribut popularitas.
Proses clustering ini bertujuan untuk membentuk kelompok-kelompok yang menggambarkan tren film trending di YouTube, baik dari sisi tema .
erdasarkan judu.
maupun dari tingkat popularitasnya.
Jarak Antar Vektor (Cosine Similarity atau Euclidean Distanc.
Cosine Similarity sering digunakan untuk data teks karena lebih fokus pada arah vektor daripada magnitudenya:
ycayc d.
i,c.
= 1Oecos () =1Oe OuxiOuOucjOu xi: Vektor TF-IDF dari dokumen ke-i.
cj: Centroid cluster ke-j.
OuxiOu: Panjang .
dari vektor xi.
Euclidean Distance juga bisa digunakan untuk mengukur jarak:
i,c.
= ocycA ycn=1 ycuycnyco Oe ycaycyco 2 Fungsi Objektif : Sama seperti K-Means standar, fungsi objektif adalah meminimalkan jarak total antara dokumen dan centroid cluster.
Dwi Remawati, 2025.
Hal 67
JURNAL SISTEM INFORMASI TGD
Volume 4.
Nomor 1.
Januari 2025.
Hal 65-74 P-ISSN : 2828-1004 .
E-ISSN : 2828-2566
https://ojs.
id/index.
php/jsi j = Ock.
Oc{ xiOOC.
cuycn Oe ycay.
2 Evaluasi Hasil Clustering Hasil clustering akan dievaluasi menggunakan Silhouette Score untuk memastikan bahwa kluster yang terbentuk memiliki kualitas dan keterpisahan yang baik.
Analisis hasil kluster akan dilakukan dengan membandingkan karakteristik setiap kelompok yang terbentuk, termasuk perbedaan dalam atribut popularitas dan kata kunci yang dominan dalam judul di setiap kluster.
Interpretasi dan Visualisasi Hasil Hasil kluster akan divisualisasikan dalam bentuk scatter plot untuk menunjukkan distribusi film berdasarkan kategori yang terbentuk.
Visualisasi ini membantu dalam memahami perbedaan tema atau tren film di setiap Berdasarkan hasil klustering, akan diinterpretasikan karakteristik masing-masing kelompok, seperti apakah ada tema khusus yang mendominasi kluster tertentu atau apakah ada kluster yang didominasi oleh film-film dengan HASIL DAN PEMBAHASAN Clustering film trending di Youtube ini dimulai dari pengumpulan data training set, tahap desain, dan penerapan data Nantinya, akan dihasilkan pola tertentu yang dapat digunakan untuk melihat dan memprediksi tren.
Tahapan penelitian meliputi identifikasi dat training set, pra-processing data, eksplorasi data menggunakan python, dan analisis 1 Data set Data yang diperoleh dari Kaggle merupakan data mentah.
Gambar 2 menampilkan data mentah sebelum dilakukan konversi pada kolom Youtube Views.
Pada kolom Youtube Views, data terlihat dalam bentuk string, misalnya "9.
views", "188K views", dan sebagainya.
Gambar 2.
Data mentah 2 Data Preprocessing Bagian ini berisi tahapan penyiapan data, yang terdiri dari case folding, tokenisasi, stemming, dan penghilangan kata henti serta kata sambung.
Penulis menggunakan bahasa pemrograman python pada semua tahapan penyiapan ini agar pengolahan data menjadi mudah dan efektif.
Case folding Merupakan langkah dalam preprocessing data teks yang bertujuan untuk meng konversi semua huruf dalam teks menjadi huruf kecil .
Langkah ini dilakukan untuk memastikan bahwa perbedaan kapitalisasi huruf tidak memengaruhi analisis teks.
Hasil case folding pada judul-judul video atau film dari dataset seperti pada Gambar 3.
Dwi Remawati, 2025.
Hal 68
JURNAL SISTEM INFORMASI TGD
Volume 4.
Nomor 1.
Januari 2025.
Hal 65-74 P-ISSN : 2828-1004 .
E-ISSN : 2828-2566
https://ojs.
id/index.
php/jsi Gambar 3.
Hasil Case Folding Tokenisasi Tokenisasi adalah proses dalam pengolahan bahasa alami (Natural Language Processing atau NLP) yang memecah teks menjadi unit-unit kecil yang disebut token.
Token biasanya berupa kata, frasa, kalimat, atau simbol, tergantung pada konteks dan tujuan analisis.
Hasil tokenisasi seperti pada Gambar 4.
Gambar 4.
Hasil Tokenisasi Stopwords Removal Stopwords removal adalah proses dalam untuk menghapus kata-kata umum .
yang sering muncul dalam teks tetapi tidak memberikan informasi penting untuk analisis.
Hasil stopwords removal ditunjukkan pada gambar 5.
Gambar 5.
Hasil Stopwords Removal Stemming Stemming merupakan proses untuk mengubah kata menjadi bentuk dasarnya .
oot word atau ste.
dengan cara menghapus imbuhan seperti awalan, akhiran, atau sisipan.
Proses stemming tidak selalu menghasilkan kata yang valid secara linguistik, tetapi cukup untuk tujuan analisis teks.
Hasil stemming seperti pada Gambar 6.
Dwi Remawati, 2025.
Hal 69
JURNAL SISTEM INFORMASI TGD
Volume 4.
Nomor 1.
Januari 2025.
Hal 65-74 P-ISSN : 2828-1004 .
E-ISSN : 2828-2566
https://ojs.
id/index.
php/jsi Gambar 6.
Hasil Stemming 3 Penerapan TF IDF Algoritma Term Frequency (TF) dan Inverse Document Frequency (IDF) untuk menghitung setiap token .
pada setiap dokumen dalam korpus.
Semakin sering kata muncul, maka semakin besar pula nilai TF.
Selanjutnya, mencari nilai IDF untuk menghitung seberapa banyak istilah-istilah tersebut tersebar luas dalam kumpulan dokumen terkait.
Berbeda dengan TF, dalam IDF, semakin jarang kata-kata muncul dalam dokumen, semakin besar nilainya.
Hasil TF IDF seperti pada gambar 6.
Gambar 7.
Hasil TF IDF Dwi Remawati, 2025.
Hal 70
JURNAL SISTEM INFORMASI TGD
Volume 4.
Nomor 1.
Januari 2025.
Hal 65-74 P-ISSN : 2828-1004 .
E-ISSN : 2828-2566
https://ojs.
id/index.
php/jsi 4 Hasil klusterisasi Hasil vektor TF-IDF sebagai input ke algoritma K-Means untuk klusterisasi atau pengelompokan.
Hasil klusterisasi seperti pada Gambar 7, dimana terdapat 3 pengelompokkan berdasarkan Genre yaitu Comedy.
Romantic dan lainnya.
Algoritma K-Means mengelompokkan data film ini ke dalam beberapa cluster berdasarkan kemiripan atribut .
eperti judul, views, kategori, atau atribut lain yang digunaka.
Setiap angka di kolom "Cluster" menunjukkan label cluster yang dihasilkan oleh K-Means.
Terdapat 3 kluster yaitu 0, 1 dan 2.
Gambar 8.
Hasil Klusterisasi Persebaran views seperti terlihat pada Gambar 8 menunjukkan bahwa Cluster 0 (Bar Bir.
: Mayoritas video dalam cluster ini memiliki jumlah views yang sangat rendah, mendekati nol.
Sebagian kecil video dalam cluster ini memiliki views hingga sekitar 40 juta, tetapi jumlahnya jauh lebih sedikit dibandingkan views rendah.
Cluster 1 (Bar Orany.
Cluster ini menunjukkan distribusi views yang lebih tersebar dibandingkan Cluster 0.
Sebagian besar video memiliki views rendah hingga sedang .
i bawah 40 jut.
, tetapi ada beberapa video dengan views di rentang yang lebih tinggi.
Cluster 2 (Bar Hija.
: Cluster ini memiliki beberapa video dengan jumlah views sangat tinggi, bahkan mendekati 100 Sebagian besar video dalam cluster ini memiliki views menengah hingga tinggi, menunjukkan bahwa cluster ini mungkin berisi video populer.
Gambar 9.
Distribusi Views Dwi Remawati, 2025.
Hal 71
JURNAL SISTEM INFORMASI TGD
Volume 4.
Nomor 1.
Januari 2025.
Hal 65-74 P-ISSN : 2828-1004 .
E-ISSN : 2828-2566
https://ojs.
id/index.
php/jsi 5 Evaluasi klusterisasi Silhouette adalah metrik yang digunakan untuk mengevaluasi kualitas hasil clustering.
Metrik ini mengukur seberapa baik titik data cocok dengan cluster mereka sendiri dibandingkan dengan cluster lain.
Pada penelitian ini setelah klusterisasi.
Silhouette Score rata-rata yang diperoleh adalah 0,066358.
Dari hasil Silhouette Score rata-rata tersebut, menunjukkan kualitas clustering yang rendah.
Titik data berada di batas antara cluster.
Cluster yang terbentuk tidak cukup representatif untuk memisahkan data ke dalam kelompok yang jelas .
Hal ini bisa dikarenakan representasi vektor yang dihasilkan memiliki dimensi tinggi, sehingga clustering menjadi sulit.
6 WordCloud WordCloud adalah alat yang sering digunakan dalam analisis teks untuk memberikan gambaran tentang tema atau kata kunci yang sering digunakan dalam teks atau kumpulan data teks, dimana ukuran setiap kata menunjukkan frekuensi atau pentingnya kata tersebut.
Pada penelitian ini.
Cluster 0 pada Gambar 9 merepresentasikan video yang sebagian besar berkaitan dengan film aksi, baik dari Hollywood maupun industri film India, dengan tema-tema seperti daftar film terbaik, film berdasarkan kisah nyata, atau film populer.
Gambar 10.
WordCloud Cluster 0 Cluster 1 pada Gambar 10 merepresentasikan video yang sebagian besar berkaitan dengan Film berbahasa Hindi yang merupakan hasil dubbing dari bahasa lain, terutama dari industri film India Selatan.
Konten populer yang mencakup film baru, mashup lagu, dan film blockbuster.
Gambar 11.
WordCloud Cluster 1 Cluster 2 pada Gambar 11 merepresentasikan video yang berkaitan dengan Film Bollywood dengan fokus pada genre Film lengkap atau konten berkualitas tinggi .
isalnya, 4K).
Video yang menonjolkan aktor-aktor terkenal Bollywood, seperti Akshay Kumar dan Rajpal Yadav.
Dwi Remawati, 2025.
Hal 72
JURNAL SISTEM INFORMASI TGD
Volume 4.
Nomor 1.
Januari 2025.
Hal 65-74 P-ISSN : 2828-1004 .
E-ISSN : 2828-2566
https://ojs.
id/index.
php/jsi Gambar 12.
WordCloud Cluster 2 7 Visualisasi Kluster dengan PCA Principal Component Analysis (PCA) adalah metode analisis data yang digunakan memvisualisasikan data, mengurangi dimensi dan memahami pola dalam dataset.
PCA bekerja dengan mengubah dataset berdimensi tinggi menjadi ruang berdimensi lebih rendah sambil mempertahankan informasi sebanyak mungkin.
Pada Gambar 12 merupakan visualisasi kluster dengan PCA pada kasus ini.
Distribusi Klaster Cluster 0 (Bir.
: memiliki penyebaran data yang cukup luas dan dominan di sisi kiri dan tengah bawah grafik.
Cluster 1 (Orany.
: Data ini lebih tersebar di tengah grafik, tetapi dalam jumlah lebih kecil dibanding Cluster 0 dan Cluster 2 (Hija.
: lebih tersebar di bagian atas dan kanan grafik, menunjukkan pola distribusi yang lebih spesifik.
Gambar 13.
Visualisasi Kluster dengan PCA
KESIMPULAN
Penelitian ini berhasil mengelompokkan video YouTube menjadi tiga cluster utama berdasarkan fitur seperti judul video, genre, dan jumlah views.
WordCloud untuk setiap cluster memberikan gambaran kata-kata dominan yang mencerminkan tema utama dalam cluster tersebut.
Penelitian ini memberikan wawasan tentang bagaimana video YouTube dapat dikelompokkan berdasarkan tema dan popularitas menggunakan teknik TF-IDF.
K-Means clustering, dan WordCloud.
Hasil Silhouette Score rata-rata adalah sekitar 0.
066, yang menunjukkan kualitas clustering yang rendah , menunjukkan bahwa data dalam cluster memiliki tumpang tindih yang tinggi, atau sulit untuk dipisahkan dengan baik ke Dwi Remawati, 2025.
Hal 73
JURNAL SISTEM INFORMASI TGD
Volume 4.
Nomor 1.
Januari 2025.
Hal 65-74 P-ISSN : 2828-1004 .
E-ISSN : 2828-2566
https://ojs.
id/index.
php/jsi dalam cluster yang berbeda.
Sebagai masukan untuk penelitian ke depan dengan optimalisasi jumlah klaster .
ataupun dengan pemilihan fitur yang lebih relevan.
UCAPAN TERIMAKASIH
Ucapan terima kasih disampaikan kepada pihak-pihak yang telah mendukung terlaksananya penelitian ini yang tidak bisa penulis sebutkan satu per satu.
DAFTAR PUSTAKA