[E-ISSN 2656-0. [Vol 20 No . [Januari 2. PENERAPAN ALGORITMA TF-IDF DAN COSINE SIMILARITY UNTUK QUERY PENCARIAN SOAL MATA PELAJARAN SOSIOLOGI SMA Kerina Putri a,1,*. Nanda Aulia Ramadlani b,2. Laili Cahyani c,3 a,b,c Universitas Trunojoyo Madura. Jalan Raya Telang. Kecamatan Kamal. Kabupaten Bangkalan. Jawa Timur 69162. 1 kerinaputri4@gmail. 2 nanda2210aulia@gmail. 3 laili. cahyani@trunojoyo. * corresponding author ARTICLE INFO ABSTRACT Keywords Information Retrieval TFIDFCosine Similarity Question Search Searching for questions in high school sociology question banks is often inefficient due to the large number of documents, causing difficulties for both students and teachers in finding relevant questions quickly. address this problem, this study develops an Information RetrievalAe based question search system using TF-IDF and Cosine Similarity to improve retrieval accuracy. The dataset consists of 350 sociology questions, which were processed through text preprocessing stages including case folding, tokenization, stopword removal, and stemming. The normalized documents were then weighted using TF-IDF and matched with user queries using Cosine Similarity to generate ranking System performance was evaluated using two threshold settings, namely threshold 10 and threshold 15, by measuring precision, recall, and F1-measure. The results show that threshold 10 yields higher precision but very low recall, causing many relevant documents to be missed. Meanwhile, threshold 15 achieves better balance with an average precision of 0. 733, recall of 0. 037, and F1-measure of 0. making it the most optimal configuration in this study. These findings indicate that increasing the threshold improves the systemAos ability to retrieve relevant documents while maintaining acceptable accuracy, and therefore threshold 15 is recommended for the sociology question retrieval system developed in this research. Pendahuluan Perkembangan teknologi saat ini berkembang pesat, terutama dibidang Pendidikan. Teknologi tidak hanya berperan sebagai sarana pembelajaran, tetapi juga dapat dimanfaatkan untuk menilai, mengevaluasi, serta meningkatkan kualitas hasil belajar siswa dan guru. Dalam konteks tersebut, salah satu pemanfaatan teknologi yang memiliki kontribusi besar adalah pengembangan sistem pencarian soal yang mampu membantu pengguna menemukan soal secara lebih cepat, akurat, dan sesuai kebutuhan pembelajaran . Pada pembelajaran Sosiologi tingkat SMA, bank soal menjadi komponen penting karena digunakan sebagai sumber latihan, evaluasi, maupun bahan persiapan penilaian. Namun seiring bertambahnya jumlah soal pada setiap semester atau tahun pelajaran, guru dan siswa sering kali mengalami kesulitan dalam menemukan https://doi. org/10. 47111/JTI Available online at https://e-journal. id/index. php/JTI [E-ISSN 2656-0. [Vol 20 No . [Januari 2. soal yang relevan dengan topik tertentu. Hal ini terjadi karena proses pencarian masih dilakukam secara manual, yaitu dengan membuka dokumen satu per satu, membaca isi dokumen tersebut, kemudian mencocokannya dengan kebutuhan pembelajaran. Proses manual ini tidak hanya memakan waktu, tetapi juga berpotensi menghasilkan pencarian yang tidak efisien serta menampilkan dokumen yang tidak relevan dengan kebutuhan pengguna. Kondisi tersebut dapat menghambat proses evaluasi pembelajaran, baik dari sisi guru yang membutuhkan soal dengan cepat, maupun siswa yang memerlukan latihan sesuai kompetensi yang dipelajari. Untuk mengatasi permasalahan tersebut, diperlukan sebuah sistem pencarian soal berbasis teks yang mampu melakukan pencarian secara efisien, efektif dan akurat berdasarkan query yang dimasukkan pengguna. Sistem pencarian soal yang dikembangkan dalam penelitian ini memberikan kemudahan bagi pengguna dalam menemukan soal sosiologi yang relevan, namun implementasinya tetap membutuhkan algoritma serta metode yang mampu memproses data teks secara tepat agar presisi hasil pencarian dapat tercapai. Terdapat berbagai pendekatan pengelolaan data teks yang dapat digunakan dalam sistem temu kembali Namun, penelitian ini memfokuskan pada pemanfaatan metode TF-IDF sebagai teknik perhitungan bobot kata, serta Cosine Similarity sebagai pengukuran kemiripan antara query pengguna dan dokumen soal. Kombinasi kedua metode tersebut diharapkan mampu menyediakan hasil pencarian yang lebih relevan, terukur, dan sesuai deng kebutuhan pencarian soal Sosiologi pada tingkat SMA. Tujuan utama dari sistem pencarian ini adalah mempermudah pengguna baik guru maupun siswa dalam menemukan soal Sosiologi yang sesuai topik secara cepat dan tepat, tanpa harus menelusuri dokumen secara Dengan demikian, sistem ini diharapkan dapat mendukung proses evaluasi dan kegiatan belajar melalui pencarian soal yang lebih efisien dan relevan. Metodologi Penelitian Penelitian ini menggunakan pendekatan content-based retrieval untuk melakukan pencarian dokumen soal berdasarkan kemiripan konten antara query dan kumpulan dokumen soal Sosiologi SMA. Pada implementasinya, metode TF-IDF digunakan untuk memberikan bobot pada setiap term dalam dokumen, lalu untuk Cosine Similarity digunakan untuk menghitung Tingkat kemiripan antara query dan dan dokumen . Hasilnya semua digunakan untuk menghasilkan ranking relevansi yang tujuannya agar soal yang paling relevan dengan query muncul urutan paling atas. https://doi. org/10. 47111/JTI Available online at https://e-journal. id/index. php/JTI [E-ISSN 2656-0. [Vol 20 No . [Januari 2. Gambar 1. Tahapan Penelitian Pengumpulan Data Tahapan pertama dalam penelitian ini adalah proses pengumpulan dataset. Data soal diperoleh melalui metode studi pustaka dengan cara mengumpulkan berbagai soal yang telah dipublikasikan pada laman penyedia bahan ajar dan bank soal daring. Sumber utama dataset berasal dari situs https://w. com/, yang menyediakan beragam soal Sosiologi tingkat SMA untuk kelas X. XI, dan XII. Seluruh dokumen soal yang diperoleh kemudian diekstraksi ke dalam format teks agar dapat diproses lebih lanjut. Pada penelitian ini digunakan total 350 soal, di mana setiap soal dianggap sebagai satu dokumen yang selanjutnya diproses dalam sistem Information Retrieval berbasis teks. Seluruh data tersebut disimpan dalam format CSV dan dikonversi menjadi dataset menggunakan library Python, yaitu pandas. , untuk memudahkan proses pengolahan. Selain mengumpulkan dokumen yang relevan, yaitu soal-soal Sosiologi SMA, penelitian ini juga menyertakan sejumlah dokumen tidak relevan berupa soal dari mata pelajaran Biologi. Penambahan dokumen tidak relevan ini dilakukan untuk mensimulasikan kondisi dataset yang lebih realistis dan untuk menguji kemampuan sistem dalam membedakan dokumen relevan dan tidak relevan selama proses pencarian. Preprocessing Tahap ini bertujuan untuk menormalisasikan setiap dokumen dapat diubah menjadi representasi numerik untuk diproses lebih lanjut. Dataset penelitian terdiri 350 soal Sosiologi SMA, dimana setiap soal dijadikan satu dokumen. Adapun tahapan preprocessing yang diterapkan adalah sebagai berikut: Case Folding Teks diubah ke huruf kecil dan dibersihkan dari angka, simbol, maupun karakter non-alfabet menggunakan Regular Expression (Rege. Langkah ini bertujuan menyederhanakan bentuk teks agar fokus hanya pada kata yang relevan. Tokenizing dan Filtering https://doi. org/10. 47111/JTI Available online at https://e-journal. id/index. php/JTI [E-ISSN 2656-0. [Vol 20 No . [Januari 2. Dokumen yang telah dibersihkan diubah menjadi token kata menggunakan metode pemisahan Token yang terlalu pendek, tidak alfabet, atau terdeteksi sebagai typo dibuang agar hanya menyisakan kata yang bermakna. Stopword Removal Kata-kata umum yang sering muncul namun tidak memiliki kontribusi penting baik dari daftar stopword NLTK maupun tambahan manual dihilangkan. Hal ini dilakukan untuk meningkatkan kualitas fitur yang dianalisis oleh sistem. Stemming Setiap token kemudian diubah ke bentuk dasarnya menggunakan stemmer Sastrawi. Proses ini berguna untuk menyatukan berbagai variasi kata berimbuhan sehingga representasi dokumen menjadi lebih konsisten. TF-IDF Metode ini digunakan untuk menentukan bobot suatu istilah terkait yang digunakan dengan sebuah dokumen pendekatan ini menggabungkan dua prinsip untuk menghitung bobot, yaitu frekuensi kemunculan suatu istilah dalam dokumen tertentu dan frekuensi invers dari dokumen yang mengandung istilah tersebut. Mengukur frekuensi kemunculan kata dalam suatu dokumen memberikan wawasan tentang signifikansi istilah dalam dokumen tersebut. TF-IDF adalah istilah gabungan yang terdiri dari dua kata yang berbeda: Term Frequency dan Inverse Document Frequency. TF digunakan untuk mengukur frekuensi kemunculan suatu istilah dalam dokumen, dengan menggunakan rumus dibawah ini:. ycNya = ycycycoycoycaEa ycoyceycoycycuycaycycoycaycu ycoycaycyca yccycaycoycayco yccycuycoycycoyceycu ycycycoycoycaEa ycoycaycyca yccycaycoycayco yccycuycoycycoyceycu Inverse document frequency (IDF) memberikan bobot yang lebih rendah untuk kata-kata yang sering muncul dan memberikan bobot yang lebih tinggi untuk kata-kata yang jarang muncul. IDF atau inverse document frequency, berperan. IDF memberikan bobot untuk kata-kata berdasarkan frekuensi kemunculannya dalam satu set dokumen. Kata-kata yang sering muncul diberi bobot yang lebih rendah sementara kata-kata yang jarang muncul diberi bobot yang lebih tinggi. Berikut rumusnya :. yayaya = ycoycuyci Total jumlah dokumen Jumlah dokumen di mana kata yc muncul Bobot akhir dihitung dengan mengalikan nilai TF dan IDF: . ycyce Oe ycnyccyce. c, yc. = ycyce y ycnyccyce Cosine Similarity Skor similarity diperoleh dengan mengukur skor similarity antara dua vektor, yaitu vektor queri dan vektor dokumen. Semakin besar nilai relevansi, semakin mirip atau relevan queri dan dokumen tersebut. Ukuran similarity digunakan untuk menentukan tingkat similarity antara titik data Cosine Similarity https://doi. org/10. 47111/JTI Available online at https://e-journal. id/index. php/JTI [E-ISSN 2656-0. [Vol 20 No . [Januari 2. ditentukan sebagai kosinus sudut yang terbentuk antara vektor-vektor. Formula Cosine Similarity memiliki rumus sebagai berikut :. Ocycu ycn=1 ycEycn yaycn ycEUIya Sim. cE, y. = . cE| . = Keterangan: A Q A D A QED A ||Q|| dan ||D|| . ycu ocycu ycn=1 ycEycn ocycn=1 yaycn = Vektor Query . ata kunci pencaria. = Vektor Dokumen . = Dot product antara vektor query dan dokumen. = Euclidean length . dari vektor. Evaluasi Evaluasi dilakukan untuk mengukur tingkat keefektifan sistem dalam menampilkan hasil pencarian soal Sosiologi yang relevan dan tidak relevan berdasarkan nilai similarity. Evaluasi pada penilitian ini membutuhkan sebuah matriks yang disebut berupa matriks confusion. Matriks confusion ditunjukkan pada tabel 1: Tabel 1: Matriks Confusion Classifier positive label Classifier negative label True positive label True negative label Keterangan: A (True Positiv. : jumlah dokumen yang berhasil dikategorikan oleh sistem ke dalam kategori Ck. B (False Negativ. : jumlah dokumen yang mempunyai kategori Ck, namun sistem tidak mengklasifikasikannya ke dalam kategori Ck. C (False Positiv. : jumlah dokumen bukan kategori Ck, namun sistem mengklasifikasikannya ke dalam kategori Ck. D (True Negativ. : jumlah dokumen yang tidak termasuk kategori Ck, dan sistem juga tidak mengklasifikasikannya ke dalam kategori Ck. Confusion matrix ini digunakan untuk menghitung nilai Precision. Recall, dan F-Measure: Precision adalah proporsi jumlah dokumen yang ditemukan dan dianggap relevan untuk kebutuhan si pencari informasi. Rumusnya:. ya ycEycyceycaycnycycnycuycu = ya ya . Keterangan: A A (True Positiv. Jumlah dokumen yang benar-benar termasuk kategori Ck dan diklasifikasikan dengan benar oleh sistem. A C (False Positiv. https://doi. org/10. 47111/JTI Available online at https://e-journal. id/index. php/JTI [E-ISSN 2656-0. [Vol 20 No . [Januari 2. Jumlah dokumen yang bukan termasuk kategori Ck, tetapi secara salah diklasifikasikan oleh sistem sebagai kategori Ck. A A C Total semua dokumen yang diprediksi sistem sebagai kategori Ck, baik yang benar maupun yang salah. Recall adalah proporsi jumlah dokumen yang dapat ditemukan-kembali oleh sebuah proses pencarian di sistem IR. Adapun perhitungan recall: . ycIyceycaycaycoyco = ya yaA Keterangan: A (True Positiv. Jumlah dokumen yang benar-benar termasuk kategori Ck dan berhasil diklasifikasikan dengan benar oleh B (False Negativ. Jumlah dokumen yang seharusnya termasuk kategori Ck, tetapi tidak diklasifikasikan oleh sistem ke dalam kategori Ck. A B Total semua dokumen yang aslinya memang kategori Ck, baik yang terdeteksi maupun yang tidak terdeteksi oleh sistem. F-Measure adalah ukuran gabungan yang mempertimbangkan Precision dan Recall sekaligus, untuk memberikan gambaran performa sistem secara keseluruhan. F-Measure mengharmonisasi kedua metrik ini sehingga sistem yang memiliki Precision tinggi tapi Recall rendah atau sebaliknya, tetap dapat dinilai secara seimbang. ycEycyceycaycnycycnycuycu y ycIyceycaycaycoyco ya Oe ycoyceycaycycycyce = 2 y ycEycyceycaycnycycnycuycu ycIyceycaycaycoyco Keterangan : Precision: seberapa tepat prediksi sistem untuk kategori Ck. Recall: seberapa lengkap sistem mengenali dokumen sebenarnya dalam kategori Ck. F-Measure: nilai akhir yang menggabungkan ketepatan dan kelengkapan prediksi. Nilainya berada di antara 0 dan 1. semakin mendekati 1, performa sistem semakin baik. Hasil dan Pembahasan Hasil Pengumpulan Data Pada tahap pengumpulan data, seluruh soal yang diambil dari situs websiteedukasi. com berhasil dimuat ke dalam sistem menggunakan library pandas. Dataset terdiri dari 350 dokumen, masing-masing merepresentasikan satu butir soal yang digunakan sebagai bahan uji pada sistem pencarian. Struktur dataset memuat informasi dasar seperti nomor soal, kelas, mata pelajaran, dan isi teks soal. https://doi. org/10. 47111/JTI Available online at https://e-journal. id/index. php/JTI [E-ISSN 2656-0. [Vol 20 No . [Januari 2. Selain soal Sosiologi sebagai dokumen relevan, dataset juga mencakup beberapa soal Biologi sebagai dokumen tidak relevan. Penyertaan dua jenis dokumen ini bertujuan untuk menguji kemampuan sistem dalam membedakan konten yang sesuai dan tidak sesuai dengan topik pencarian. Tabel 2 menampilkan contoh data yang digunakan dalam penelitian ini. Tabel 2. Dataset Soal Sosiologi Sosiologi Sosiologi Sosiologi A A A Salah satu faktor pendorong terjadinya perubahan sosial yang berasal dari luar masyarakat adalah . Krisis minyak bumi mendorong masyarakat Indonesia melakukan inovasi/penemuan baru. Masyarakat berhasil menemukan minyak gas yang bahan bakunya dari kotoran hewan dan dapat dimanfaatkan untuk menganti minyak tanah. Contoh tersebut merupakan perubahan sosial yang disebabkan oleh faktor . Berubahnya sistem pemerintahan dari sistem kerajaan menjadi presidensiil, termasuk bentuk perubahan sosial . Biologi Bagaimana hubungan antara perilaku sosial dan keberhasilan suatu populasi? Biologi Jelaskan bagaimana mekanisme biologis mengatur interaksi dalam kelompok Hasil Preprocessing Dataset yang digunakan dalam penelitian ini terdiri dari 350 soal Sosiologi SMA. Setiap dokumen merepresentasikan satu butir soal. Sebelum masuk ke tahap perhitungan TF-IDF dan Cosine Similarity, seluruh dokumen diproses menggunakan tahapan preprocessing agar teks menjadi lebih bersih dan seragam. Tahapan yang dilakukan meliputi: Case Folding. Tokenizing dan Filtering. Stopword Removal, dan Stemming. Implementasi kode preprocessing ditunjukkan pada potongan program berikut. https://doi. org/10. 47111/JTI Available online at https://e-journal. id/index. php/JTI [E-ISSN 2656-0. [Vol 20 No . [Januari 2. !pip install Sastrawi import pandas as pd import numpy as np import re import nltk from nltk. corpus import stopwords from Sastrawi. Stemmer. StemmerFactory import StemmerFactory # Case Folding def case_folding. text = str. text = re. '[^a-z\. ', ' ', tex. text = re. '\s ', ' ', tex. return text. df['Case_Folding'] = df['soal']. ase_foldin. # Tokenizing def tokenizing. return text. df['Tokenizing'] = df['Case_Folding']. # Filtering def filtering. hasil = [] for t in tokens: if t. isalpha() and len. >= 3: return hasil https://doi. org/10. 47111/JTI Available online at https://e-journal. id/index. php/JTI [E-ISSN 2656-0. [Vol 20 No . [Januari 2. df["Filtering"] = df["Tokenizing"]. # Hapus typo absurd typo_buruk = {"xv","a","b","c","z","q","l","m","n","yt","p"} df["Filtering"] = df["Filtering"]. ambda x: . for t in x if t not in typo_buru. ) # Stopword Removal download('stopwords') stop_words = set. words("indonesian")) stop_tambahan = { "apa","yang","pada","dalam","untuk","dengan","agar","jika","karena", "bagaimana","sebutkan","jelaskan","manakah","berikut","adalah" stop_words |= stop_tambahan def stopword_removal. for t in tokens if t not in stop_word. df["Stopword_Removal"] = df["Filtering"]. topword_remova. # Stemming factory = StemmerFactory() stemmer = factory. create_stemmer() def stemming. for t in token. df["Stemming"] = df["Stopword_Removal"]. # Gabungkan kembali def gabung_teks. return " ". df["Preprocessed_Text"] = df["Stemming"]. abung_tek. Kode Sumber 1. Preprocessing Kemudian hasil preprocessing dataset dapat dilihat pada Gambar 2: Gambar 2. Hasil Preprocessing https://doi. org/10. 47111/JTI Available online at https://e-journal. id/index. php/JTI [E-ISSN 2656-0. [Vol 20 No . [Januari 2. Implementasi Pembobotan TF-IDF Setelah proses preprocessing menghasilkan teks soal yang bersih dan seragam, tahap selanjutnya adalah melakukan pembobotan menggunakan metode Term FrequencyAeInverse Document Frequency (TF-IDF). Metode ini mengubah setiap dokumen menjadi representasi vektor numerik berdasarkan frekuensi kata dan tingkat kepentingan kata dalam keseluruhan koleksi dokumen. Perhitungan TF-IDF dilakukan menggunakan TfidfVectorizer dari library scikit-learn, dengan input berupa teks hasil preprocessing pada kolom clean_text. Hasil proses ini berupa matriks TF-IDF yang merepresentasikan bobot setiap term pada seluruh dokumen, yang kemudian digunakan sebagai dasar dalam perhitungan Cosine Similarity. Potongan kode implementasi TF-IDF dapat dilihat pada program berikut : from sklearn. feature_extraction. text import TfidfVectorizer print(". Menghitung bobot TF-IDF. vectorizer = TfidfVectorizer() tfidf_matrix = vectorizer. fit_transform. f["Preprocessed_Text"]) feature_names = vectorizer. get_feature_names_out() tfidf_df = pd. DataFrame( tfidf_matrix. toarray(), columns=feature_names print("TF-IDF Selesai! Matriks ukuran:", tfidf_matrix. Kode Sumber 2. TF-IDF Hasil pembobotan TF-IDF menghasilkan representasi vektor dari setiap dokumen soal, di mana setiap nilai menunjukkan tingkat kepentingan suatu term dalam dokumen tersebut. Representasi vektor ini selanjutnya digunakan sebagai dasar perhitungan kemiripan dan proses pemeringkatan soal pada tahap berikutnya. Contoh hasil perhitungan Cosine Similarity ditampilkan pada Gambar 3. Gambar 3. Hasil TF-IDF https://doi. org/10. 47111/JTI Available online at https://e-journal. id/index. php/JTI [E-ISSN 2656-0. [Vol 20 No . [Januari 2. Implimentasi Cosine Similarity Cosine Similarity digunakan untuk mengukur kedekatan dua vektor TF-IDF berdasarkan sudut antar Nilai similarity berkisar dari 0 hingga 1, di mana nilai mendekati 1 menunjukkan bahwa dua soal memiliki kemiripan tinggi. Pada penelitian ini, matriks Cosine Similarity dihitung menggunakan fungsi cosine_similarity dari Scikit-Learn dan digunakan untuk mengidentifikasi soal paling relevan terhadap sebuah query. Implementasi kode ditunjukkan pada potongan program berikut. from sklearn. pairwise import cosine_similarity print(". Menghitung Cosine Similarity. cosine_sim_matrix = cosine_similarity. fidf_matri. labels = . "Soal_. " for i in range. )] cosine_df = pd. DataFrame( cosine_sim_matrix, index=labels, columns=labels print("Cosine similarity selesai! Matriks ukuran:", cosine_sim_matrix. Kode Sumber 3. Cosine Similarity Hasil perhitungan ini membentuk sebuah matriks kemiripan antar dokumen, yang kemudian digunakan untuk menentukan urutan soal yang paling relevan berdasarkan nilai similarity tertinggi. Contoh hasil perhitungan Cosine Similarity ditampilkan pada Gambar 4. Gambar 4. Hasil Cosine Similarity Hasil Pengujian Kinerja Sistem Query yang digunakan dalam pengujian ini adalah sebagai berikut: https://doi. org/10. 47111/JTI Available online at https://e-journal. id/index. php/JTI [E-ISSN 2656-0. [Vol 20 No . [Januari 2. Tabel 3. Query interaksi sosial dan faktor yang mempengaruhi nilai dan norma sosial dalam kehidupan masyarakat perilaku menyimpang dan pengendalian social kelompok sosial dan karakteristiknya mobilitas sosial di masyarakat modern perubahan sosial dan dampaknya lembaga sosial dan perannya masyarakat multikultural Indonesia sosialisasi dan pembentukan kepribadian hubungan masyarakat dengan lingkungannya 1 Hasil Pengujian Query Hasil pencarian dokumen dengan query interaksi sosial dan faktor yang mempengaruhi Table 4. Hasil Pencarian Query interaksi sosial dan faktor yang mempengaruhi Threshold Kelas Sosiologi Biologi Sosiologi Sosiologi Sosiologi Biologi Sosiologi Biologi Mapel Sosiologi Sosiologi Sosiologi Terjadinya mobilitas sosial biasanya dipengaruhi oleh faktor Bagaimana pencemaran lingkungan memengaruhi interaksi Konflik pada dasarnya merupakan suatu interaksi sosial yang bersifat. Suatu proses sosial atau interaksi sosial disebut asosiatif, jikaA. Bagaimana interaksi antarorganisme memengaruhi keseimbangan suatu ekosistem? Berikut yang merupakan faktor-faktor yang dapat mempercepat terjadinya integrasi sosial. Bagaimana kondisi lingkungan memengaruhi pola interaksi hewan di habitatnya? Di bawah ini merupakan faktor yang mempengaruhi terjadinya difusi intramasyarakat adalah . Berikut ini yang bukan faktor yang memengaruhi difusi antarmasyarakat adalah. Syarat utama terjadinya interaksi sosial adalah adanya kontak sosial dan. Berikut ini merupakan faktor-faktor yang dapat menyebabkan perubahan sosial budaya, kecuai . Relevansi Relevan Tidak Relevan Relevan Relevan Tidak Relevan Relevan Tidak Relevan Relevan Relevan Relevan Relevan https://doi. org/10. 47111/JTI Available online at https://e-journal. id/index. php/JTI [E-ISSN 2656-0. [Vol 20 No . [Januari 2. Biologi Sosiologi Sosiologi Biologi Faktor apa yang memengaruhi pembentukan hierarki dalam kelompok hewan? Unsur yang terdapat dalam masyarakat yang mampu mempengaruhi perubahan sosial disebut dengan . Berikut ini merupakan bentuk interaksi sosial yang bersifat disosiatif, kecuali . Apa faktor biologis yang memengaruhi pembentukan pemimpin dalam kelompok hewan? Tidak Relevan Relevan Relevan Tidak Relevan Table 5. Hasil Pengujian dengan Threshold 10 Retrieved Non-Retrieved Actual Non-Actual Precision = 0,700 Recal = 0,023 F-measure = 0,045 Table 6. Hasil Pengujian dengan Threshold 15 Retrieved Non-Retrieved Actual Non-Actual Precision = 0,667 Recal = 0,033 F-measure = 0,063 Kemudian Query 2 sampai Query 10 dilakukan perhitungan seperti pada Query 1 di atas untuk mencari nilai precision, recall dan f. measure pada threshold 10 dan 15. Hasil dari pencarian precision, recall dan f1measure pada semua query dapat dilihat pada tabel berikut: Table 7. Hasil Evaluasi Precision. Recall. F-measure pada Threshold 10 Precision Recall F-measure Query 1 Query 2 0,700 1,000 0,023 0,033 0,045 0,065 Query 3 0,200 0,007 0,013 Query 4 0,900 0,030 0,058 Query 5 Query 6 1,000 1,000 0,033 0,033 0,065 0,065 Query 7 0,800 0,027 0,052 Query 8 1,000 0,033 0,065 Query 9 Query 10 0,900 0,200 0,007 0,058 0,013 Rata-rata 0,770 0,025 0,050 https://doi. org/10. 47111/JTI Available online at https://e-journal. id/index. php/JTI [E-ISSN 2656-0. [Vol 20 No . [Januari 2. Table 8. Hasil Evaluasi Precision. Recall. F-measure pada Threshold 15 Precision Recall F-measure Query 1 0,667 0,033 0,063 Query 2 0,933 0,047 0,089 Query 3 Query 4 0,200 0,733 0,010 0,037 0,019 0,070 Query 5 1,000 0,050 0,095 Query 6 1,000 0,050 0,095 Query 7 Query 8 0,733 1,000 0,037 0,050 0,070 0,095 Query 9 0,867 0,043 0,083 Query 10 0,200 0,010 0,019 Rata-rata 0,733 0,037 0,070 Gambar 5. Grafik average dari precision, recall dan f. mesure pada setiap threshold Gambar 6. Grafik nilai f. measure dari threshold 10 dan 15 Hasil Analisis Pengujian Berdasarkan hasil pengujian yang dilakukan pada dua threshold, yaitu threshold 10 dan threshold 15, terlihat adanya perbedaan performa sistem dalam melakukan temu kembali dokumen. Pada threshold 10, nilai precision berada pada angka rata-rata 0. 770, sedangkan pada threshold 15 nilai precision sedikit menurun https://doi. org/10. 47111/JTI Available online at https://e-journal. id/index. php/JTI [E-ISSN 2656-0. [Vol 20 No . [Januari 2. Penurunan precision ini wajar terjadi karena semakin tinggi threshold, semakin banyak dokumen yang diambil, sehingga peluang masuknya dokumen yang tidak relevan menjadi lebih besar. Berbeda dengan precision, nilai recall justru mengalami peningkatan ketika threshold dinaikkan. Threshold 10 hanya menghasilkan recall sebesar 0. 025, sedangkan threshold 15 meningkat menjadi 0. Kondisi ini menunjukkan bahwa dengan mengambil lebih banyak dokumen, sistem memiliki peluang lebih besar untuk menemukan dokumen relevan yang sebelumnya terlewat pada threshold yang lebih rendah. Kombinasi perubahan precision dan recall ini juga berdampak pada nilai F1-measure. Pada threshold 10. F1-measure tercatat sebesar 0. 050, sementara threshold 15 menghasilkan nilai F1-measure tertinggi yaitu Meskipun precision menurun, peningkatan recall yang cukup signifikan membuat threshold 15 menghasilkan keseimbangan performa yang lebih baik. Dengan demikian, secara keseluruhan threshold 15 dapat dinilai sebagai konfigurasi yang lebih optimal karena mampu mempertahankan tingkat precision yang cukup baik sambil meningkatkan kemampuan sistem dalam menemukan dokumen relevan. Kesimpulan Berdasarkan keseluruhan proses penelitian dan pengujian yang telah dilakukan menggunakan metode TFIDF dan cosine similarity, dapat disimpulkan bahwa sistem Information Retrieval mampu menjalankan proses pencarian dokumen sesuai query dengan melalui tahapan preprocessing, pembobotan TF-IDF, serta perhitungan cosine similarity. Evaluasi performa pada kedua threshold menunjukkan adanya perbedaan yang cukup jelas. Threshold 10 menghasilkan nilai precision yang tinggi, namun memiliki recall yang sangat rendah sehingga kurang mampu menemukan seluruh dokumen relevan. Sebaliknya, threshold 15 memberikan recall yang lebih besar sehingga berdampak pada peningkatan nilai F1-measure secara keseluruhan. Nilai rata-rata precision 0. 733, recall 0. 037, dan F1-measure 0. 070 pada threshold 15 menunjukkan bahwa konfigurasi ini merupakan yang paling optimal dalam konteks penelitian ini, karena memberikan keseimbangan terbaik antara ketepatan dan kelengkapan hasil pencarian. Dengan demikian, threshold 15 dapat direkomendasikan sebagai parameter yang paling sesuai untuk sistem pencarian dokumen pada dataset soal Sosiologi yang digunakan dalam penelitian ini. Daftar Pustaka