Infotekmesin Vol. No. Juli 2025 p-ISSN: 2087-1627, e-ISSN: 2685-9858 DOI: 10. 35970/infotekmesin. 2812, pp. Kombinasi Algoritma TF-IDF dan Weighted Dice Similarity Untuk Pengukuran Kemiripan Judul Tugas Akhir Santi Purwaningrum1*. Agus Susanto2. Annas Setiawan Prabowo 3 1, 2Program Studi Teknologi Rekayasa Multimedia. Politeknik Negeri Cilacap 3Program Studi Teknik Informatika. Politeknik Negeri Cilacap 1,2,3Jln. Dr. Soetomo No. 1 Karangcengis Sidakaya. Kabupaten Cilacap, 53212. Indonesia E-mail: santi. purwaningrum@pnc. id1, agus. susanto@pnc. id 2, annassetiawanp@gmail. Abstrak Info Naskah: Naskah masuk: 11 Juni 2025 Direvisi: 2 Juli 2025 Diterima: 6 Juli 2025 Tingginya tingkat kemiripan judul tugas akhir mahasiswa menjadi isu penting dalam menjaga orisinalitas karya ilmiah di lingkungan perguruan tinggi. Penelitian ini bertujuan mengembangkan sistem pendeteksi kemiripan judul secara otomatis dengan menggabungkan algoritma Term FrequencyAeInverse Document Frequency dan Weighted Dice Similarity. Metode TF-IDF digunakan untuk memberikan bobot pada kata-kata penting dalam judul, sedangkan Weighted Dice Similarity digunakan untuk mengukur tingkat kesamaan antar judul berdasarkan distribusi dan bobot kata-kata Penelitian ini menggunakan data judul tugas akhir yang telah melalui proses anotasi manual sebagai ground truth. Proses analisis melibatkan tahapan preprocessing, pembobotan kata, dan perhitungan similarity antar judul. Hasil penelitian menunjukkan bahwa sistem mencapai akurasi sebesar 94%, presisi 66,67%, recall 81,3%, serta nilai similarity rata-rata dengan metode Weighted Dice sebesar 0,62. Meskipun nilai presisi tidak terlalu tinggi, kombinasi kedua metode dinilai efektif karena mampu mengidentifikasi kemiripan judul berdasarkan representasi semantik dan struktur leksikal secara bersamaan, yang tidak ditangkap hanya dengan metode pembobotan atau pengukuran kesamaan saja. Abstract Keywords: term frequencyAeinverse document frequency. weighted dice similarity. teks mining. The high similarity rate among undergraduate thesis titles has become a critical issue in maintaining the originality of academic work within higher education institutions. This study aims to develop an automated system for detecting title similarity by combining the Term FrequencyAeInverse Document Frequency (TF-IDF) algorithm with the Weighted Dice Similarity method. TF-IDF is used to assign weights to important words in the titles, while Weighted Dice Similarity measures the degree of similarity between titles based on the distribution and weights of these words. The study utilizes a dataset of 200 manually annotated thesis titles as ground truth. The analysis process includes preprocessing, word weighting, and similarity computation between titles. Experimental results show that the system achieves an accuracy of 94%, a precision of 67%, a recall of 81. 3%, and an average Weighted Dice similarity score of 0. Although the precision score is relatively moderate, the combination of both methods is considered effective, as it captures both lexical structure and semantic similarityAi capabilities that are not fully achieved when using a single method alone. *Penulis korespondensi: Santi Purwaningrum E-mail: santi. purwaningrum@pnc. p-ISSN: 2087-1627, e-ISSN: 2685-9858 Pendahuluan Tugas akhir merupakan salah satu syarat kelulusan bagi mahasiswa di perguruan tinggi yang mencerminkan kemampuan mahasiswa dalam menerapkan ilmu pengetahuan dan keterampilan yang telah diperoleh selama masa studi. Tugas akhir mahasiswa berfungsi sebagai jembatan antara pendidikan formal dan dunia profesional, mempersiapkan mereka untuk menjadi profesional yang kompeten dan adaptif terhadap perkembangan teknologi dan informasi yang terus berubah . Tugas akhir tidak hanya menjadi media evaluasi kompetensi, tetapi juga pengembangan keilmuan melalui penelitian. Melalui tugas akhir, mahasiswa tidak hanya belajar untuk menyelesaikan proyek penelitian, tetapi juga memperoleh keterampilan penting lainnya, seperti kemampuan berpikir kritis, analisis, dan komunikasi yang efektif. Salah satu komponen yang sangat penting dalam penyusunan tugas akhir adalah pemilihan judul, karena judul menjadi representasi utama dari arah dan cakupan penelitian. Judul tugas akhir harus bersifat orisinal, relevan dengan bidang studi, serta memiliki nilai kebaruan. Namun, dalam praktiknya, banyak mahasiswa mengalami kesulitan dalam menentukan judul yang benar-benar baru dan belum pernah digunakan sebelumnya. Akibatnya, sering ditemukan judul-judul tugas akhir yang memiliki kemiripan tinggi satu sama lain, baik dalam bentuk struktur kalimat, topik, maupun kata kunci. Fenomena ini diperparah dengan keterbatasan mahasiswa dalam melakukan pencarian literatur atau referensi judul yang komprehensif. Tingginya tingkat kemiripan judul tugas akhir dapat menimbulkan berbagai permasalahan. Pertama, hal ini menimbulkan kekhawatiran terkait indikasi plagiarisme akademik, meskipun tidak selalu disengaja. Kedua, kemiripan judul berpotensi menimbulkan redundansi penelitian yang merugikan dalam konteks pengembangan ilmu pengetahuan. Ketiga, bagi dosen pembimbing dan pihak program studi, proses pengecekan kesamaan judul yang masih dilakukan secara manual menjadi kurang efisien . Penelitian tentang deteksi kesamaan judul tugas akhir telah berkembang pesat dengan menggunakan berbagai pendekatan dan algoritma untuk mengatasi permasalahan Penelitian mengenai deteksi judul tugas akhir banyak difokuskan pada metode pembobotan dan pengukuran kesamaan kata untuk meningkatkan efektivitas dalam mencegah plagiarisme dan membantu dalam pengelolaan data akademik. Salah satu studi yang relevan adalah penelitian oleh . yang mengembangkan sistem deteksi plagiarisme menggunakan Natural Language Processing (NLP) dengan algoritma Jaro-Winkler dan Term Frequency-Inverse Document Frequency (TF-IDF). Penelitian ini menunjukkan bahwa kombinasi algoritma tersebut dapat secara efektif mendeteksi kesamaan dalam penulisan tugas akhir mahasiswa, sehingga membantu menjaga integritas akademik dan mencegah plagiarisme. Selain itu, penelitian oleh . menganalisis penerapan metode Winnowing untuk mendeteksi kesamaan judul tugas Hasil dari penelitian ini menunjukkan bahwa nilai parameter k yang digunakan dalam algoritma memiliki pengaruh signifikan terhadap hasil kesamaan yang terdeteksi, dimana variabel k lebih berpengaruh dibandingkan variabel lain dalam menentukan tingkat kesamaan antara judul-judul. Melalui penelitian-penelitian ini, jelas bahwa metode pembobotan dan pengukuran kesamaan seperti algoritma yang relevan, memainkan peran memfasilitasi pengelolaan tugas akhir yang lebih efisien. Penggunaan Weighted Dice Similarity dalam konteks tugas akhir mahasiswa telah dieksplorasi yang menunjukkan bahwa pendekatan ini meningkatkan efektivitas dalam pengambilan keputusan berdasarkan kriteria yang berbeda . Hasil penelitian menunjukkan bahwa dengan menerapkan metode ini, sistem tidak hanya dapat mendeteksi kesamaan secara lebih akurat, tetapi juga dapat melakukan klasifikasi judul tugas akhir dengan mempertimbangkan relevansi setiap istilah yang terlibat, yang sangat penting dalam mencegah plagiarisme. Penelitian penerapan algoritma text mining dan tf-idf untuk menganalisis abstrak skripsi mengembangkan sistem aplikasi yang memanfaatkan metode TF-IDF untuk mengelompokkan topik skripsi berdasarkan abstrak mahasiswa di Perpustakaan Universitas Dehasen Bengkulu. Penelitian ini bertujuan membantu petugas perpustakaan dalam mengelompokkan skripsi secara otomatis ke dalam beberapa kategori topik seperti Sistem Pakar. Data Mining. Sistem Pendukung Keputusan, dan Jaringan, sehingga memudahkan pencarian dan pengelolaan dokumen. Proses pengolahan teks melalui tahapan tokenizing, filtering, dan stemming menghasilkan bobot kata menggunakan TF-IDF yang kemudian digunakan untuk menentukan tingkat kemiripan dan pengelompokan abstrak. Hasil pengujian dengan data training 25 abstrak dan data testing 3 abstrak menunjukkan bahwa sistem mampu mengelompokkan skripsi dengan akurat, misalnya 2 skripsi masuk ke topik Data Mining . ,77%) dan 1 skripsi ke Sistem Pendukung Keputusan . ,33%). Kesimpulannya, aplikasi ini berjalan sesuai harapan dan efektif membantu pengelompokan topik skripsi secara otomatis, sehingga memberikan kemudahan bagi petugas perpustakaan dan pengguna dalam menemukan skripsi yang relevan . Pada penelitian ini digunakan pendekatan teknik text mining dengan mengukur kemiripan antar judul Algoritma TFIDF banyak digunakan dalam bidang pencarian informasi untuk menilai bobot pentingnya suatu kata dalam sebuah dokumen dibandingkan dengan dokumen lain. TF-IDF menghitung skor berdasarkan frekuensi kemunculan kata dalam dokumen dan seberapa unik kata tersebut di seluruh korpus dokumen, sehingga membantu dalam mengekstraksi fitur penting dari teks secara efektif dan efisien . Selain itu, algoritma Weighted Dice Similarity digunakan untuk mengukur kesamaan antara dua set data dengan memperhitungkan bobot masing-masing elemen, yang relevan dalam analisis teks dan klasifikasi. Weighted Dice mengadaptasi rumus klasik Dice similarity dengan memasukkan bobot relevansi elemen yang dapat diperoleh dari TF-IDF. Penelitian ini menggunakan pendekatan melalui teknik text mining dengan mengukur kemiripan antar judul p-ISSN: 2087-1627, e-ISSN: 2685-9858 menggunakan algoritma tertentu. Algoritma TF-IDF banyak digunakan dalam bidang pencarian informasi untuk menilai bobot pentingnya suatu kata dalam sebuah dokumen dibandingkan dengan dokumen lain. TF-IDF menghitung skor berdasarkan frekuensi kemunculan kata dalam dokumen dan seberapa unik kata tersebut di seluruh korpus dokumen, sehingga membantu dalam mengekstraksi fitur penting dari teks . Sementara itu, algoritma Weighted Dice Similarity adalah pendekatan yang digunakan untuk mengukur kesamaan antara dua set data, dengan memperhitungkan bobot dari masing-masing elemen dalam perhitungan. Ini sangat relevan dalam konteks pengolahan data, terutama dalam aplikasi yang memerlukan analisis teks dan klasifikasi. Weighted Dice Similarity mengadaptasi rumus klasik Dice similarity, yang dihitung dengan memperhatikan seberapa banyak elemen yang sama di antara dua set. Namun, dalam metode ini, setiap elemen diberi bobot berdasarkan relevansinya, yang dapat diperoleh melalui teknik seperti TF-IDF. Penelitian ini bertujuan untuk mengisi research gap dengan mengembangkan pendekatan kombinasi yang mampu memberikan hasil evaluasi kemiripan judul yang lebih akurat dan kontekstual. Penelitian dalam penggunaan TF-IDF dan algoritma lain seperti Weighted Dice Similarity dapat dilihat dari pemahaman dan penerapan kombinasi Sementara penelitian sebelumnya cenderung fokus pada penggunaan algoritma TF-IDF dalam pengukuran kemiripan antar dokumen atau judul tugas akhir mahasiswa, banyak yang belum mengeksplorasi memperbaiki akurasi dan efisiensi dalam analisis data teks. Kelebihan metode ini terletak pada kemampuannya menggabungkan pembobotan kata melalui TF-IDF dengan pengukuran tumpang tindih melalui Weighted Dice Similarity, yang memperhatikan bobot kontribusi dari setiap Dibandingkan dengan pendekatan-pendekatan klasik sebelumnya, metode ini lebih kontekstual dan adaptif terhadap variasi redaksional. Selain itu, penelitian ini juga menghasilkan dataset ground truth yang dapat Pengumpulan data Pre processing Judul TA Case Folding dimanfaatkan untuk validasi dan pengujian lanjutan sistem Dengan menggabungkan metode TF-IDF sebagai teknik ekstraksi fitur dan Weighted Dice Similarity sebagai pengukur kedekatan antar judul, diharapkan dapat diperoleh sistem yang mampu memberikan hasil deteksi kemiripan yang lebih optimal, terutama pada teks pendek seperti judul tugas akhir. Penelitian ini bertujuan untuk mengembangkan dan mengevaluasi kombinasi kedua algoritma tersebut dalam konteks pendidikan tinggi, khususnya dalam membantu proses validasi judul tugas akhir mahasiswa secara otomatis. Metode Bagian ini menguraikan metodologi penelitian yang diterapkan untuk mengukur kemiripan judul tugas akhir menggunakan kombinasi algoritma TF-IDF dan Weighted Dice Similarity. Secara garis besar, metodologi ini terstruktur dalam enam tahapan utama: . Perancangan Penelitian, yang meliputi penentuan tujuan penelitian, identifikasi variabel, dan perumusan hipotesis. Pengumpulan Data, yaitu proses pengumpulan dataset judul tugas akhir yang akan dianalisis. Perancangan Data, yang melibatkan persiapan dan format data yang sesuai untuk diproses oleh algoritma. Implementasi Metode TF-IDF, digunakan untuk menghitung bobot setiap kata dalam judul tugas akhir. Implementasi Metode Weighted Dice Similarity, yang digunakan untuk mengukur kemiripan antar judul berdasarkan bobot kata yang dihasilkan oleh TF-IDF. Metode Pengujian, yang mencakup evaluasi kinerja model menggunakan metrik yang relevan untuk mengukur akurasi dan efektivitas kombinasi algoritma TF-IDF dan Weighted Dice Similarity . 1 Perancangan Penelitian Rancangan kegiatan penelitian terdiri dari beberapa tahapan utama, yaitu pengumpulan data, preprocessing, pembobotan kata, mengukir tingkat kemiripan, serta pengujian dan evaluasi hasil tingkat kemiripan antar judul. Tahapan penelitian di jelaskan pada gambar 1. Pembobotan Kata Implementasi TF IDF Tokenizing Tingkat kemiripan Pengujian Wieghted Dice SImilarity Confusion Matrix Pecision Stopword Recall Stemming Gambar 1. Metode Penelitian p-ISSN: 2087-1627, e-ISSN: 2685-9858 Berdasarkan kerangka pikir pada gambar 1, alur penelitian ini dimulai dengan pengumpulan data. Data mentah ini kemudian diproses melalui serangkaian tahapan preprocessing yang meliputi: Case Folding untuk mengubah semua teks menjadi huruf kecil. Tokenizing untuk memecah teks menjadi unit-unit kata atau token, penghapusan Stopword yaitu untuk menghapus kata-kata umum yang tidak memiliki nilai informatif, dan Stemming untuk mengubah kata ke bentuk dasarnya. Setelah itu, dilakukan pembobotan kata dengan Implementasi TF-IDF untuk menghitung bobot setiap kata dalam judul. Selanjutnya, tingkat kemiripan antar judul diukur menggunakan algoritma Weighted Dice Similarity. Terakhir, dilakukan pengujian dengan menghitung Confusion Matrix. Precision, dan Recall untuk mengevaluasi kinerja model dalam mengukur kemiripan Operasional variabel dalam penelitian ini dibagi menjadi dua: . Variabel bebas yaitu algoritma yang digunakan (TF-IDF dan Weighted Dice Similarit. , dan . Variabel terikat yaitu skor kemiripan judul yang dihasilkan oleh sistem. Skor ini berkisar antara 0 sampai 1, di mana nilai yang lebih tinggi menunjukkan tingkat kemiripan yang lebih besar. 2 Pengumpulan data Data berupa kumpulan judul tugas akhir mahasiswa yang diperoleh dari repositori kampus dalam rentang lima tahun terakhir. Tahap pengumpulan data merupakan langkah awal yang krusial dalam penelitian ini. Data yang digunakan adalah kumpulan judul tugas akhir dari repositori kampus dalam rentang lima tahun terakhir. Pemilihan judul TA sebagai unit analisis didasarkan pada pertimbangan bahwa judul TA merepresentasikan inti dari topik penelitian yang dilakukan oleh mahasiswa, sehingga kemiripan judul dapat mengindikasikan adanya kesamaan topik atau tema penelitian. Proses pengumpulan data dilakukan dengan ekstraksi dari database. Dataset yang terkumpul kemudian disimpan dalam format untuk memudahkan proses preprocessing dan analisis selanjutnya. 3 Perancangan Data Perancangan data merupakan tahap penting dalam memastikan bahwa data yang digunakan dalam penelitian siap untuk diproses secara optimal oleh algoritma yang Data yang digunakan dalam penelitian ini berupa kumpulan judul tugas akhir yang diperoleh dari repositori akademik perguruan tinggi. Sebelum data dianalisis, dilakukan serangkaian proses preprocessing untuk membersihkan dan menstandarkan format teks, guna meningkatkan akurasi analisis kemiripan. Setelah data judul tugas akhir terkumpul masuk pada tahap pertama yaitu text preprocessing. Metode preprocessing dalam text mining sangat penting untuk memastikan data judul tugas akhir mahasiswa dapat diproses dengan optimal sebelum analisis lebih lanjut. Kegiatan preprocessing mencakup beberapa langkah yang berfokus pada membersihkan dan menyiapkan data untuk Secara umum, tahapan-tahapan tersebut meliputi case folding, penghapusan simbol dan karakter non-alfabet, penghilangan stopword, tokenisasi, dan stemming . Case folding adalah proses mengubah semua karakter menjadi huruf kecil untuk menghilangkan perbedaan akibat penggunaan huruf besar atau kecil, sehingga menjaga konsistensi dalam analisis teks. Stopword removal yaitu penghapusan simbol dan karakter non-alfabet dilakukan untuk memastikan bahwa teks yang diproses tidak mengandung elemen yang dapat mengganggu analisis, seperti tanda baca atau angka yang tidak relevan . Penghilangan stopword juga merupakan langkah penting karena stopword adalah kata-kata umum yang tidak memiliki kontribusi makna signifikan dalam konteks analisis . Teknik ini dapat mempengaruhi efisiensi dan efektivitas hasil analisis, dengan memperkecil ukuran data yang perlu diproses, sehingga mengurangi waktu komputasi . Tokenisasi adalah proses memecah teks menjadi unit individual, atau "token", seperti kata atau frasa, yang selanjutnya digunakan dalam analisis. Stemming adalah proses mengembalikan kata ke bentuk dasarnya untuk menyatukan variasi kata yang berbeda yang memiliki makna serupa. misalnya, "berjalan", "berjalanlah", dan "berjalan-jalan" akan distemming menjadi "jalan" . Data yang telah melalui tahap preprocessing kemudian direpresentasikan dalam bentuk matriks vektor, dengan bobot yang dihitung melalui algoritma TF-IDF. Matriks ini selanjutnya digunakan sebagai input dalam perhitungan kemiripan menggunakan metode Weighted Dice Similarity. Dengan perancangan data yang terstruktur ini, penelitian dapat memastikan bahwa informasi yang relevan dalam setiap judul terwakili secara optimal dalam proses analisis dan evaluasi kesamaan teks 4 Metode TF-IDF Setelah teks dibersihkan, data kemudian diubah menjadi representasi numerik menggunakan algoritma TF-IDF. Metode pembobotan kata dengan algoritma TFIDF adalah teknik yang banyak digunakan dalam pengolahan teks dan analisis informasi. Secara mendasar. TF-IDF bekerja berdasarkan dua komponen utama: frekuensi term dan frekuensi dokumen, pada persamaan . Dimana : A TF (Term Frequenc. menghitung seberapa sering suatu kata muncul di dalam dokumen. Biasanya, ini dinyatakan dalam bentuk persamaan . IDF (Inverse Document Frequenc. mengukur pentingnya suatu kata di seluruh koleksi dokumen. Rumusnya adalah pada persamaan . p-ISSN: 2087-1627, e-ISSN: 2685-9858 Frekuensi term (TF) mengukur seberapa sering sebuah kata muncul dalam sebuah dokumen, memberikan bobot yang lebih tinggi pada kata-kata yang sering muncul dalam konteks dokumen tersebut. Di sisi lain, frekuensi dokumen (IDF) mengevaluasi seberapa umum atau jarangnya kata tersebut dalam kumpulan dokumen. Dengan membagi jumlah total dokumen dengan jumlah dokumen yang mengandung kata tertentu dan mengambil logaritma dari hasilnya. IDF memberikan penekanan pada kata-kata yang lebih spesifik dan relevan dalam konteks keseluruhan . 5 Weighted Dice Similarity Metode Weighted Dice Similarity adalah salah satu pendekatan yang digunakan untuk mengukur kesamaan antara dua set data dengan memberikan bobot pada setiap elemen dalam perhitungan. Pendekatan ini memperluas konsep asli dari Dice similarity, yang mendasari pengukuran kesamaan dua set dengan rumus dasar yang mengacu pada jumlah elemen yang sama, dengan menambahkan bobot yang mencerminkan relevansi setiap elemen dalam konteks yang lebih luas . Dengan menggunakan bobot, metode ini dapat menyoroti elemenelemen yang lebih penting, mengatasi kelemahan metode Dice biasa yang dapat menempatkan semua elemen pada tingkat kepentingan yang sama, meskipun beberapa elemen mungkin memiliki dampak yang lebih besar pada keseluruhan kesamaan, pada persamaan . A,B: Mewakili dua dokumen yang akan : Menunjukkan sebuah token atau kata dalam A B: Irisan dari dua dokumen, yaitu himpunan kata yang muncul di kedua dokumen. : Nilai TF-IDF dari kata dokumen A. Nilai ini mencerminkan seberapa penting kata tersebut dalam dokumen A. : Nilai TF-IDF dari kata dokumen B. Memilih A terkecil dari TF-IDF kata pada dokumen A dan B, sebagai bentuk konservatif dari kontribusi kemiripan . arena kata harus penting di kedua dokumen untuk memberikan kontribusi besa. : Menjumlahkan nilai minimum TF-IDF dari setiap kata A yang ada di kedua dokumen. Menjumlahkan seluruh bobot TF-IDF dari kata-kata dalam masing-masing dokumen. Rumus tersebut menghitung kemiripan dengan memberi penekanan lebih pada kata-kata penting . erdasarkan TF-IDF), dan membandingkan seberapa banyak dan seberapa penting kata-kata yang sama dalam kedua dokumen, dibandingkan dengan total bobot kata di masing-masing dokumen . 6 Pengujian Dalam menilai kinerja sistem yang telah dibangun, evaluasi dilakukan dengan menggunakan metode confusion matrix, yang merupakan alat penting dalam pengukuran efektivitas sistem klasifikasi. Confusion matrix memberikan gambaran menyeluruh terkait hasil klasifikasi, yang terdiri dari empat elemen utama: True Positives (TP). True Negatives (TN). False Positives (FP), dan False Negatives (FN) . Dari elemen-elemen ini, dua metrik utama yang sering digunakan adalah precision dan recall. Precision mengukur proporsi prediksi positif yang benar dibandingkan dengan total prediksi positif. Hal ini penting karena precision menggambarkan seberapa akurat model dalam memberikan prediksi positif. Di sisi lain, recall mengukur proporsi prediksi positif yang benar dibandingkan dengan total sebenarnya dari kelas positif. Rumus Precision dan Recall dinyatakan pada persamaan . dan persamaan . TP merupakan Jumlah prediksi positif yang benar, sedangkan FP adalah Jumlah prediksi positif yang salah kenyataannya "negatif". FN Jumlah kasus positif yang gagal diprediksi sebagai positif . istem mengira negatif padahal sebenarnya positif. Dengan tahapan analisis ini, sistem mampu memberikan hasil deteksi kemiripan judul yang efektif dan dapat digunakan sebagai alat bantu dalam menjaga orisinalitas karya ilmiah mahasiswa. Hasil dan Pembahasan 1 Hasil Penelitian Hasil dari penelitian ini disajikan secara kuantitatif berdasarkan tahapan kegiatan yang telah dilakukan, mulai dari analisis data judul, perancangan sistem, hingga proses pengujian performa algoritma. Pada tahap awal, dilakukan analisis terhadap sekumpulan data judul tugas akhir mahasiswa yang diambil dari repositori kampus dalam format digital. Preprocessing Dari total 231 judul yang dikumpulkan, dilakukan proses preprocessing melalui teknik tokenisasi, case folding, stopword removal, dan stemming untuk menghasilkan representasi teks yang bersih dan siap dianalisis lebih lanjut. Tujuan utama dari preprocessing adalah untuk mengubah teks mentah menjadi bentuk representasi yang lebih bersih, terstruktur, dan mudah diolah secara komputasional. Masing-masing tahapan preprocessing memiliki peranan penting dalam menyederhanakan dan menormalkan teks tanpa menghilangkan makna utamanya. Tahap pertama adalah tokenisasi, yaitu proses memecah teks menjadi satuan-satuan kecil yang disebut token, biasanya berupa p-ISSN: 2087-1627, e-ISSN: 2685-9858 Tokenisasi membantu mesin untuk memahami teks dalam unit-unit dasar yang bisa dianalisis lebih lanjut. Contoh : APLIKASI PEMBELAJARAN METAMORFOSIS SERANGGA MENGGUNAKAN AUGMENTED REALITY BERBASIS ANDROID (STUDI KASUS SDN JERUKLEGI WETAN . Setelah proses tokenisasi : "APLIKASI", "PEMBELAJARAN", "METAMORFOSIS", "SERANGGA", "MENGGUNAKAN", "AUGMENTED", "REALITY", "BERBASIS", "ANDROID", "STUDI", "KASUS", "SDN", "JERUKLEGI", "WETAN", "01" Tahap selanjutnya adalah case folding, yaitu proses mengubah semua huruf menjadi huruf kecil. Hal ini dilakukan untuk menyamakan bentuk kata yang sama namun berbeda kapitalisasi. Hasil case folding menjadi : "aplikasi", "pembelajaran", "metamorfosis", "serangga", "menggunakan", "augmented", "reality", "berbasis", "android", "studi", "kasus", "sdn", "jeruklegi", "wetan", "01" Tahap ketiga adalah stopword removal, yaitu menghapus kata-kata umum yang tidak membawa makna penting dalam analisis, seperti "yang", "dan", "dengan", "untuk", dll. Pada judul contoh, kata-kata seperti AumenggunakanAy. AustudiAy, dan AukasusAy bisa saja dianggap sebagai stopword tergantung pada kamus stopword yang Hasil stopword removal menjadi: "aplikasi", "pembelajaran", "metamorfosis", "serangga", "augmented", "reality", "berbasis", "android", "sdn", "jeruklegi", "wetan", "01" Tahap terakhir adalah stemming, yaitu proses mengembalikan kata ke bentuk dasarnya. Proses ini penting untuk menyamakan variasi kata dengan akar kata yang Misalnya. AupembelajaranAy diubah menjadi AuajarAy. AuberbasisAy menjadi AubasisAy. Dengan demikian, hasil stemming menjadi: "aplikasi", "ajar", "metamorfosis", "serangga", "augmented", "reality", "basis", "android", "sdn", "jeruklegi", "wetan", "01" Setelah melalui keempat tahapan preprocessing tersebut, teks telah direduksi menjadi representasi yang lebih sederhana namun tetap kaya informasi. Representasi ini memungkinkan proses analisis lanjutan seperti pengelompokan konten menjadi lebih efisien dan akurat. Pembobotan kata Pada tahap ini, dilakukan proses pembobotan terhadap setiap kata yang terdapat dalam kumpulan judul tugas akhir menggunakan algoritma TF-IDF Pembobotan ini bertujuan untuk mengukur tingkat kepentingan suatu kata dalam sebuah dokumen relatif terhadap keseluruhan korpus. Katakata yang sering muncul dalam satu dokumen tetapi jarang muncul di dokumen lain akan memiliki bobot TF-IDF yang lebih tinggi, karena dianggap lebih representatif terhadap isi dokumen tersebut. Sebaliknya, kata-kata umum yang muncul di banyak dokumen akan mendapatkan bobot yang lebih rendah karena memiliki tingkat diskriminasi yang Hasil dari pembobotan ini menjadi dasar penting dalam proses perhitungan kemiripan teks pada tahap selanjutnya, khususnya saat diterapkannya algoritma Weighted Dice Similarity, yang mempertimbangkan bobot TF-IDF sebagai nilai kontribusi antar kata. Tahapa wal TF-TDF adalah mengukur seberapa sering suatu kata muncul dalam satu dokumen yang biasa disebut TF dengan cara Jumlah kemunculan kata dibagi dengan jumlah total kata. Pada contoh kata setelah di processing diatas terdapat 12 kata berasal dari satu dokumen, dan tiap kata muncul 1 kali, maka TF tiap kata: Kemudian masuk pada proses IDF yang berfungsi mengukur seberapa penting suatu kata secara keseluruhan. Kata yang sering muncul di banyak dokumen dianggap kurang informatif, sehingga IDF-nya kecil. IDF dapat dihitung dengan cara log dari jumlah total dokumen dibagi dengan jumlah dokumen dalam korpus yang mengandung kata tertentu. Setelah menghitung TF dan IDF, nilai TF-IDF dihitung dengan mengalikan keduanya: TFI-DF "aplikasi"=0,083 x 0. 106165 = 0. TFI-DF "aplikasi"=0,083 x 37. 78 = 3. Dari contoh ini terlihat bahwa kata seperti "jeruklegi", yang jarang muncul di seluruh dokumen, memiliki nilai TFIDF lebih tinggi, sehingga dianggap lebih informatif atau khas untuk dokumen tersebut. Sedangkan kata seperti "aplikasi" yang umum, meskipun muncul, kontribusinya terhadap representasi dokumen akan lebih kecil. Hasil dari pembobotan ini menjadi dasar penting dalam proses perhitungan kemiripan teks pada tahap selanjutnya, khususnya saat diterapkannya algoritma Weighted Dice Similarity, yang mempertimbangkan bobot TF-IDF sebagai nilai kontribusi antar kata. Tingkat kemiripan Salah satu pendekatan untuk mengukur kemiripan semantik antar judul adalah dengan menggunakan metode Weighted Dice Similarity, yang menggabungkan representasi kata melalui teknik vektorisasi seperti TF-IDF dengan pengukuran overlap antar kata-kata kunci. Tujuan dari perhitungan ini adalah untuk mengetahui sejauh mana p-ISSN: 2087-1627, e-ISSN: 2685-9858 kedua judul tersebut memiliki kemiripan konten secara semantik berdasarkan keterhubungan kata-kata penting yang dimiliki masing-masing. Contoh: Judul A : Auaplikasi", "ajar", "metamorfosis", "serangga", "augmented", "reality", "basis", "android", "sdn", "jeruklegi", "wetan", "01" Judul B : AuaplikasiAy. AuajarAy. AuplanetAy. AugunaAy. AuaugmentedAy. Aureality. AubasisAy. AusmartphoneAy. AuandroidAy Judul 1 & 3 memiliki nilai similarity 0. 45, menandakan banyak tumpang tindih kata kunci seperti AupembelajaranAy. AumenggunakanAy, dan Auaugmented realityAy. Judul 2 & 3 memiliki similarity 0. 37, menunjukkan kemiripan tema meski topiknya berbeda . lanet vs wudh. Judul 1 & 4 19, artinya meskipun sama-sama menggunakan "augmented reality", konten tematik sangat berbeda . erangga vs senam ibu hami. Nilai similarity berada di 16Ae0. 45, menunjukkan adanya kesamaan kata namun juga keberagaman isi, seperti pada Tabel 2. Tabel 2. Lima Pasangan Non-Identik dengan Similarity Tertinggi No. Dengan perhitungan menggunakan rumus Weighted Dice Similarity dari dua judul diatas adalah sebegai berikut: Intersection (Oc mi. adalah Jumlah minimum dari nilai TFIDF untuk kata-kata yang muncul di kedua judul. = min . = 6 y 0. Total IDF adalah Oc TFIDFA =2. Oc TFIDFB =0. Total = 5. Sehingga Weighted Dice Similarity = . / 5. Hasil perhitungan Weighted Dice Similarity berbasis TF-IDF menunjukkan bahwa kemiripan antara kedua judul 4913 atau 49. Ini mengindikasikan bahwa meskipun judul-judul ini memiliki fokus topik berbeda (Aumetamorfosis seranggaAy vs. AuplanetA. , terdapat kemiripan dalam penggunaan istilah teknologi dan struktur kalimat. Metode ini efektif dalam mengukur kemiripan semantik berbasis bobot kata nyata, dan sangat cocok untuk aplikasi seperti pencarian dokumen mirip, penyaringan duplikasi, atau klasifikasi topik, seperti pada Tabel 1. Tabel 1. Vektorisasi menggunakan TF-IDF dan similarity menggunakan Weighted Judul A Judul B aplikasi pembelajaran aplikasi pembelajaran aplikasi pembelajaran media pembelajaran interaktif gerakan dan bacaan wudhu. media pembelajaran aplikasi pembelajaran interaktif gerakan dan bacaan wudhu. penerapan teknologi aplikasi pembelajaran augmented reality untuk senam ibu media pembelajaran pembelajaran gerakan interaktif gerakan dan bacaan wudhu. Weighted Dice Judul A sistem informasi pemesanan dan penjualan berbasis sistem informasi penjualan hasil laut berbasis android aplikasi pengelolaan data aset sekolah berbasis android sistem informasi pengelolaan anggota kwartir cabang berbasis web media pembelajaran interaktif gerakan dan bacaan wudhu augmented reality Judul B Similaritas sistem informasi pemesanan dan penjualan berbasis sistem informasi penjualan hasil laut berbasis pepngelolaan data aset sekolah berbasis android sistem informasi anggota pramuka kwartir cabang berbasis web interaktif gerakan dan bacaan wudhu augmented reality berbasis android Perbedaan kecil dalam ejaan, seperti pengelolaan vs pepngelolaan, tetap berdampak pada skor, tetapi similarity tetap tinggi karena kata lainnya identik. Pasangan ke-5 memperlihatkan bahwa penambahan frasa kecil seperti "berbasis android" tidak mengubah makna secara signifikan, tapi memengaruhi bobot TF-IDF, seperti pada Tabel 3. Tabel 3. Pasangan Judul dengan Similarity Terendah . No. Judul A rancang bangun aplikasi pencatat stok barang di toko bahan bangunan berbasis web rancang bangun aplikasi pencatat stok barang di toko bahan bangunan berbasis web aplikasi pembelajaran planet menggunakan augmented reality berbasis smartphone android rancang bangun aplikasi Judul B sistem informasi penjualan pada pangkalan gas elpiji sistem penjualan pada rumah makan ayam sistem informasi penjualan pada pangkalan gas elpiji sistem pendukung p-ISSN: 2087-1627, e-ISSN: 2685-9858 No. Judul A Judul B pencatat stok barang di toko bahan bangunan berbasis web media pembelajaran interaktif gerakan dan bacaan wudhu menggunakan augmented keputusan penentuan beasiswa siswa baru sistem informasi penilaian perkembangan anak di paud berbasis android Judul-judul ini berasal dari domain yang sangat berbeda: pembelajaran vs penjualan, atau pendidikan agama vs sistem distribusi barang. Tidak ada istilah atau frasa penting yang tumpang tindih, sehingga similarity-nya benar-benar nol. Judul-judul seperti Auaugmented realityAy atau Aupenilaian perkembangan anakAy tidak relevan satu sama lain secara semantik maupun teknis. Setelah dilakukan transformasi, dari setiap judul diambil lima token dengan nilai TF-IDF tertinggi untuk kemudian digunakan sebagai masukan dalam perhitungan Dice Similarity. Dice Similarity digunakan untuk menilai sejauh mana dua judul memiliki token yang sama. Sistem dirancang untuk menghasilkan skor kemiripan antar judul dalam rentang 0 sampai 1, di mana nilai di atas threshold 75 dikategorikan sebagai judul yang berpotensi mirip secara ide atau topik, seeprti pada Tabel 4. Tabel 4. Pasangan Judul dengan nilai kemiripan di atas ambang Judul 1 Judul 2 Similarity sistem informasi anggota kwartir cabang pramuka sistem informasi pengelolan anggota pramuka kwartir sistem informasi pemesanan dan penjualan berbasis sistem informasi pemesanan dan penjualan berbasis sistem informasi penjualan hasil laut berbasis web sistem informasi penjualan hasil laut berbasis web Dari hasil perhitungan, ditemukan bahwa beberapa judul memiliki nilai kemiripan di atas ambang batas 0. yang menunjukkan kemiripan yang signifikan baik dari segi struktur maupun konten. Misalnya, judul Ausistem informasi pengelolaan anggota kwartir cabang pramukaAy dan Ausistem informasi pengelolan anggota pramuka kwartir cabangAy memiliki nilai similarity sebesar 0. 8031, yang menunjukkan bahwa keduanya hampir identik meskipun ada sedikit perbedaan penulisan kata. Demikian pula, judul Ausistem informasi pemesanan dan penjualan berbasis androidAy muncul dua kali dengan kemiripan 0. 9228, menunjukkan kemungkinan adanya duplikasi data. Satu lagi pasangan judul. Ausistem informasi penjualan hasil laut berbasis webAy, juga muncul dua kali dengan nilai kemiripan 0. menguatkan indikasi duplikasi atau pengulangan yang tidak . Pengujian Pada tahapan terakhir dari proses pembangunan sistem, dilakukan evaluasi kinerja menggunakan pendekatan confusion matrix untuk menilai sejauh mana sistem mampu mengidentifikasi kemiripan antar judul dengan akurat. Evaluasi ini mengelompokkan hasil prediksi sistem ke dalam empat kategori: True Positive (TP). False Positive (FP). True Negative (TN), dan False Negative (FN), dengan membandingkan hasil prediksi sistem terhadap label ground truth yang telah disusun berdasarkan kemiripan struktur awal judul dan nilai similarity. Sistem menganggap dua judul mirip apabila nilai similarity Ou 0. 75, dan ground truth menetapkan pasangan sebagai benar-benar mirip jika memenuhi syarat tersebut dan memiliki kesamaan struktur tiga kata pertama. Gambar 2. Evaluasi kombinasi algoritma TF-IDF dan Weighted Dice Similarity Berdasarkan perbandingan antara hasil prediksi dan data ground truth tersebut, diperoleh metrik evaluasi sebagai berikut: A Akurasi sebesar 94% yang menunjukkan bahwa hampir seluruh pasangan judul diklasifikasikan dengan benar oleh sistem. A Dalam analisis presisi sistem prediksi kemiripan judul, nilai presisi sebesar 0. 6667 menunjukkan bahwa hanya sekitar 66,67% dari semua pasangan judul yang diprediksi benar-benar mirip memiliki kemiripan yang sesuai dengan kebenaran . round trut. Meskipun angka ini tampak relatif tinggi, terdapat sejumlah false positive, yang berarti beberapa pasangan judul yang tidak benar-benar mirip tetap diprediksi sebagai mirip oleh sistem. Nilai presisi di bawah 65% dapat diartikan sebagai indikator bahwa sistem masih memiliki potensi Ketidakakuratan ini dapat disebabkan oleh beberapa faktor, termasuk ketidakefektifan metode pengukuran kesamaan yang digunakan. A Recall sebesar 81,3% mengindikasikan bahwa sistem cukup sensitif, namun masih terdapat sekitar 18,7% pasangan judul mirip yang tidak berhasil dikenali oleh sistem . alse negative. Hal ini bisa terjadi karena kemiripan teks secara semantik tidak selalu tercermin secara eksplisit dalam struktur kalimat atau urutan kataAiterutama jika perbedaan redaksional, sinonim, atau struktur frasa tidak ditangani secara optimal oleh metode berbasis TF-IDF. p-ISSN: 2087-1627, e-ISSN: 2685-9858 Secara keseluruhan, sistem menunjukkan performa yang sangat tinggi dalam mendeteksi kemiripan judul, sehingga sistem mampu mendeteksi judul yang mirip dengan cukup baik dan seimbang antara ketepatan dan Temuan ini menunjukkan bahwa kombinasi TF-IDF dan Dice Similarity mampu mengurangi risiko duplikasi ide dan dapat digunakan sebagai alat bantu administratif untuk pengawasan orisinalitas topik tugas 2 Pembahasan Pembahasan mengenai kombinasi algoritma TF-IDF dan Weighted Dice Similarity untuk menentukan tingkat kemiripan judul tugas akhir mahasiswa bertujuan untuk mengidentifikasi potensi kesamaan dalam penamaan tugas akhir di kalangan mahasiswa. Penelitian ini menyoroti kekurangan dan tantangan yang dihadapi dalam analisis teks, yang sering kali melibatkan pengukuran kesamaan yang tidak mendalam dalam konteks akademik. Hasil evaluasi menunjukkan bahwa sistem ini mampu mengenali pola kemiripan judul dengan akurasi tinggi, serta tingkat recall yang cukup baik, yaitu 81,3%, yang berarti mayoritas pasangan judul yang sebenarnya mirip berhasil diidentifikasi oleh sistem. Hal ini menunjukkan bahwa pendekatan yang digunakan efektif dalam konteks pemrosesan teks pendek seperti judul penelitian, meskipun masih terdapat beberapa pasangan mirip yang terlewatkan. Hasil ini memperlihatkan adanya kebaruan pada aspek metode kombinasi, yaitu dengan memadukan TF-IDF dan Weighted Dice Similarity dalam proses evaluasi teks Dibandingkan dengan penelitian sebelumnya yang hanya mengandalkan cosine similarity atau metode string matching biasa, pendekatan ini memberikan fleksibilitas dan akurasi yang lebih baik, khususnya dalam mengidentifikasi teks yang berbeda secara struktural namun sama secara semantik. penelitian ini juga menghasilkan kontribusi praktis berupa dataset ground truth yang dapat digunakan untuk evaluasi sistem secara objektif. Penyusunan label referensi ini memungkinkan dilakukan evaluasi berbasis confusion matrix yang menghasilkan nilai akurasi sebesar 94%, presisi 66,67%, dan recall 81,3%. Nilai mengindikasikan bahwa sistem sesekali mengklasifikasikan judul yang tidak terlalu mirip sebagai mirip. Dengan demikian, pembahasan ini menunjukkan bahwa sistem yang dikembangkan tidak hanya memenuhi tujuan penelitian, tetapi juga menghadirkan kontribusi baru pada metode deteksi kemiripan judul berbasis teks pendek. Pendekatan gabungan yang digunakan terbukti dapat memberikan hasil yang lebih kontekstual dan akurat dibandingkan metode sebelumnya Kesimpulan Penelitian ini menyimpulkan bahwa kombinasi algoritma TF-IDF dan Weighted Dice Similarity terbukti efektif dalam mendeteksi tingkat kemiripan antar judul tugas akhir mahasiswa. Sistem yang dibangun mampu mengidentifikasi pasangan judul yang memiliki struktur atau makna yang serupa dengan cukup akurat, meskipun redaksional judul berbeda. Dari hasil pengujian judul tugas akhir yang telag dilakukan, sistem menunjukkan performa evaluasi yang baik, dengan nilai akurasi sebesar 94%, presisi sebesar 66,67%, dan recall sebesar 81,3%. Nilai recall yang tinggi menunjukkan bahwa sistem memiliki sensitivitas yang kuat dalam mengenali judul-judul yang memang mirip, meskipun masih terdapat kelemahan pada aspek presisi yang menunjukkan adanya prediksi mirip yang tidak sepenuhnya tepat. Sebagai saran, sistem dapat dikembangkan lebih lanjut dengan mengintegrasikan pendekatan berbasis semantik seperti word embeddings . ontoh: Word2Vec atau BERT) untuk meningkatkan presisi dan menangkap kesamaan makna yang tidak tergambar melalui kata-kata eksplisit. Sistem ini berpotensi besar untuk diterapkan secara luas dalam validasi judul tugas akhir di institusi pendidikan tinggi sebagai alat bantu administratif dalam menjaga orisinalitas dan mengurangi risiko duplikasi penelitian. Ucapan Terimakasih