Jurnal ICT: Information Communication & Technology Vol.
N0.
Desember 2025, pp.
p-ISSN: 2302-0261, e-ISSN: 2303-3363.
DOI: https://doi.
org/10.
36054/jict-ikmi.
Analisis Perbandingan Algoritma BM25 dan TF-IDF untuk Temu Kembali Metadata Jurnal Indonesia pada Temujurnal.
Muhamad Syarif1*.
Rabiatus SaAoadah2.
M Rafi Ardana Listi3.
Ravi Manisha4 Fakultas Teknik dan Informatika.
Universitas Bina Sarana Informatika.
Indonesia Email: 1muhamad.
mdx@bsi.
id, 2rabiatus.
rbh@bsi.
1,2,3,4
INFORMASI ARTIKEL
Histori artikel:
Naskah masuk, 28 November 2025 Direvisi, 28 Desember 2025 Diiterima, 31 Desember 2025 Kata Kunci:
BM25,
TF-IDF,
Temu Kembali Informasi.
Metadata Jurnal.
Temujurnal.
ABSTRAK
Abstract- The growth of scientific publications in Indonesia necessitates an efficient journal metadata search mechanism.
This study aims to compare the performance of Term Frequency-Inverse Document Frequency (TF-IDF) and Best Matching 25 (BM.
algorithms on the Temujurnal.
aggregator platform.
The methodology involves text preprocessing and the implementation of Hybrid Retrieval logic, which integrates textual variables with filters such as Sinta rank, publication month, and publication fees.
Testing was performed using 100 journal metadata entries and 20 test queries, evaluated through Precision.
Recall.
F1-Score, and Mean Average Precision (MAP) metrics.
The results indicate that BM25 significantly outperforms TF-IDF, achieving a MAP value of 0.
74 compared to 0.
BM25 is proven to be more stable in managing variations in journal metadata length than TF-IDF.
This study recommends the implementation of BM25 on the Temujurnal platform to enhance the accuracy and efficiency of the national scientific literature retrieval system.
Abstrak- Pertumbuhan publikasi ilmiah di Indonesia menuntut mekanisme pencarian metadata jurnal yang efisien.
Penelitian ini bertujuan membandingkan performa algoritma Term Frequency-Inverse Document Frequency (TF-IDF) dan Best Matching 25 (BM.
pada platform agregator Temujurnal.
Metodologi yang digunakan meliputi pra-pemrosesan teks dan penerapan logika Hybrid Retrieval yang mengintegrasikan variabel tekstual dengan filter peringkat Sinta, bulan terbit dan biaya publikasi.
Pengujian dilakukan menggunakan 100 metadata jurnal dan 20 kueri uji dengan metrik evaluasi Precision.
Recall.
F1-Score, dan Mean Average Precision (MAP).
Hasil penelitian menunjukkan bahwa BM25 secara signifikan mengungguli TF-IDF dengan nilai MAP 0,74 berbanding 0,59.
Algoritma BM25 terbukti lebih stabil dalam menangani variasi panjang metadata jurnal dibandingkan TF-IDF.
Penelitian ini merekomendasikan implementasi BM25 pada platform Temujurnal untuk meningkatkan akurasi dan efisiensi sistem temu kembali literatur ilmiah nasional.
Copyright A 2025 LPPM - STMIK IKMI Cirebon This is an open access article under the CC-BY license Penulis Korespondensi:
Muhamad Syarif Fakultas Teknik dan Informatika.
Universitas Bina Sarana Informatika Universitas Bina Sarana Informatika Jl.
Abdul Rahman Saleh No.
Kec.
Pontianak Tenggara.
Kota Pontianak.
Kalimantan Barat - Indonesia Email: muhamad.
mdx@bsi.
Pendahuluan Ekosistem publikasi ilmiah di Indonesia telah mengalami transformasi digital yang masif melalui portal SINTA yang mengintegrasikan ribuan jurnal berbasis Open Journal Systems (OJS).
Peningkatan https://ejournal.
id/index.
php/jict-ikmi volume dokumen akademik memicu tantangan baru dalam efisiensi penemuan informasi yang relevan bagi peneliti .
Kebutuhan untuk menemukan wadah publikasi yang tepat kini tidak lagi terbatas pada kesesuaian focus dan scope, namun melibatkan Jurnal ICT: Information Communication & Technology Vol.
N0.
Desember 2025, pp.
parameter multidimensi yang krusial seperti peringkat Sinta, biaya publikasi (Article Processing Charg.
, serta periode bulan terbit untuk memastikan target luaran riset tercapai tepat waktu .
Temujurnal.
com hadir sebagai platform aggregator jurnal Indonesia yang memfasilitasi pencarian komprehensif melalui atribut metadata tekstual .
ama jurnal, singkatan, penerbit, deskrips.
serta filter spesifik .
eringkat sinta, periode terbit, biaya publikas.
Keberagaman atribut metadata ini menuntut adanya sistem temu kembali informasi (Information Retrieva.
yang cerdas agar mampu memberikan hasil yang presisi.
Namun, banyak sistem pencarian pada repositori menghadapi kendala dalam menentukan relevansi ketika kueri pengguna bersifat ambigu atau sangat spesifik .
Permasalahan utama terletak pada penggunaan algoritma Term Frequency-Inverse Document Frequency (TF-IDF) yang secara historis menjadi standar dalam pembobotan dokumen .
Meskipun efektif dalam membedakan katakata unik.
TF-IDF memiliki kelemahan signifikan dalam menangani metadata heterogen, seperti perbedaan panjang karakter antara AuSingkatan JurnalAy yang singkat dengan AuDeskripsi JurnalAy yang Tanpa mekanisme normalisasi panjang dokumen yang memadai.
TF-IDF cenderung memberikan skor yang tidak proporsional pada dokumen yang lebih panjang, sehingga menurunkan kualitas peringkat relevansi bagi pengguna .
Sebagai solusi, algoritma BM25 (Best Matching .
memiliki mekanisme pendekatan probabilistik yang mengintegrasikan parameter term saturation dan document length normalization.
Mekanisme BM25 memberikan bobot yang lebih stabil, sehingga dokumen pendek seperti AuNama JurnalAy tidak terabaikan oleh dokumen dengan AuDeskripsi JurnalAy yang lebih panjang namun memiliki densitas kata kunci yang serupa .
Integrasi algoritma berbasis BM25 secara konsisten mampu memberikan nilai akurasi yang lebih tinggi dibandingkan metode ruang vektor tradisional, terutama pada sistem yang mengolah teks berbahasa Indonesia dengan struktur yang tidak seragam .
Keunggulan BM25 terletak pada dua parameter kalibrasi utama, yaitu k1 yang berfungsi mengontrol fungsi saturasi frekuensi kata .
erm frequency saturatio.
dan b yang mengatur tingkat normalisasi panjang dokumen .
ocument length normalizatio.
Penelitian ini bertujuan untuk melakukan analisis perbandingan performa antara algoritma BM25 dan TF-IDF pada platform Temujurnal.
Fokus utamanya adalah melakukan analisis perbandingan performa antara algoritma BM25 dan TF-IDF untuk mengevaluasi efektivitas temu kembali metadata jurnal Indonesia pada platform https://ejournal.
id/index.
php/jict-ikmi p-ISSN: 2302-0261 e-ISSN: 2303-3363 Temujurnal.
Hasil penelitian diharapkan dapat memberikan rujukan teknis yang konkret dalam mengoptimalkan mesin pencari metadata jurnal.
Studi Literatur Information Retrieval Temu kembali informasi (Information Retrieval atau IR) adalah bidang ilmu yang berfokus pada penemuan dokumen atau informasi yang tidak terstruktur .
iasanya tek.
yang memenuhi kebutuhan informasi dari dalam koleksi yang besar .
Proses utama dalam sistem IR melibatkan representasi dokumen melalui indexing dan pemrosesan kueri untuk menghasilkan daftar Di era digital saat ini, efisiensi sistem IR pada portal jurnal menjadi kunci bagi peneliti dalam mengelola information overload guna mendapatkan referensi yang akurat .
Metadata Jurnal Metadata merupakan data terstruktur yang mendeskripsikan karakteristik suatu dokumen.
Dalam konteks jurnal ilmiah di Indonesia, metadata mencakup atribut krusial seperti judul, singkatan, institusi, bidang ilmu, peringkat Sinta, hingga biaya publikasi .
Pengolahan metadata yang heterogen memerlukan pendekatan algoritma yang mampu menangani perbedaan panjang teks .
eperti nama jurnal yang pendek versus deskripsi jurnal yang panjan.
agar informasi filter seperti bidang ilmu dan peringkat tetap terjaga relevansinya .
Algoritma TF-IDF (Term Frequency-Inverse Document Frequenc.
TF-IDF adalah metode statistik yang digunakan untuk mengevaluasi seberapa penting sebuah kata dalam sebuah dokumen terhadap sekumpulan korpus .
Algoritma ini terdiri dari dua komponen utama:
Term Frequency (TF): Menghitung jumlah kemunculan kata kunci pada korpus data untuk menentukan bobot relevansi dokumen.
Inverse Document Frequency (IDF):
Mengurangi bobot kata yang muncul terlalu sering di banyak dokumen .
eperti kata hubun.
dan meningkatkan bobot kata yang unik.
Secara matematis, bobot TF-IDF dirumuskan sebagai berikut .
ycA yc!,# = ycyce!,# y log ) , yccyce! Komponen-komponen dalam perhitungan skor TF-IDF didefinisikan sebagai berikut:
tfi,j: Jumlah kemunculan term i di dalam dokumen j .
umber of occurrences of i in .
Nilai ini mewakili aspek Term Frequency, di mana semakin sering suatu kata muncul dalam Jurnal ICT: Information Communication & Technology Vol.
N0.
Desember 2025, pp.
dokumen, semakin tinggi bobotnya untuk dokumen tersebut.
dfi: Jumlah dokumen yang mengandung term i .
umber of documents containing .
Nilai ini digunakan untuk menghitung Inverse Document Frequency (IDF).
N: Total jumlah dokumen dalam koleksi atau korpus .
otal number of document.
log(N/df.
: Bagian ini merupakan komponen IDF.
Fungsinya adalah untuk mengurangi bobot katakata yang muncul terlalu umum di banyak dokumen .
eperti kata hubung AudanAy.
AuyangA.
dan meningkatkan bobot kata-kata yang lebih unik dan jarang muncul di seluruh korpus .
Kelemahan utama TF-IDF dalam pencarian metadata yang beragam panjangnya adalah ketiadaan mekanisme normalisasi panjang dokumen yang eksplisit dan seringkali menyebabkan bias pada dokumen dengan teks lebih panjang .
Algoritma BM25 (Best Matching .
Algoritma BM25 merupakan pengembangan dari model sistem temu kembali informasi berbasis probabilistik, dirancang untuk menyempurnakan kelemahan pada metode TF-IDF, khususnya dalam hal normalisasi panjang dokumen dan efek saturasi frekuensi term secara non-linier .
Skor relevansi dokumen d terhadap kueri Q dihitung dengan rumus sebagai berikut:
ycIycaycuycyce!"#$.
cE, yc.
= .
c% ) UI
%'(
c% , yc.
UI .
co( .
c% , yc.
yco( UI 81 Oe yca yca UI .
ycaycyciyccyco Komponen-komponen dalam perhitungan skor BM25 adalah sebagai berikut .
ScoreBM25(Q,.
: Skor akhir relevansi dokumen d terhadap kueri Q.
IDF.
: Nilai Inverse Document Frequency dari kata ke-i dalam kueri.
Nilai ini memberikan bobot lebih tinggi pada kata-kata yang jarang muncul di seluruh korpus.
i, .
: Frekuensi kemunculan kata qi di dalam dokumen d.
: Panjang dokumen d yang sedang dihitung skornya .
umlah kat.
avgdl: Rata-rata panjang dokumen .
verage document lengt.
dalam keseluruhan koleksi atau database.
k1: Parameter bebas .
ree paramete.
yang berfungsi untuk mengontrol fungsi saturasi frekuensi kata.
Nilai yang umum digunakan berada pada rentang 1.
2 hingga 2.
b: Parameter bebas yang berfungsi untuk mengatur tingkat normalisasi panjang dokumen.
Nilai b berada di antara 0 hingga 1.
jika b=1, sistem melakukan normalisasi panjang dokumen secara penuh, sedangkan jika b=0, tidak ada normalisasi panjang dokumen yang dilakukan.
n: Jumlah total kata kunci yang terdapat dalam kueri Q.
https://ejournal.
id/index.
php/jict-ikmi p-ISSN: 2302-0261 e-ISSN: 2303-3363 Keunggulan utama BM25 dalam pencarian metadata pada terletak pada penggunaan parameter Parameter ini memastikan bahwa dokumen dengan judul yang singkat namun sangat relevan tidak kalah bersaing dengan dokumen yang memiliki deskripsi panjang, sehingga hasil pencarian menjadi lebih relevan dan akurat .
Text Preprocessing Dalam memproses teks berbahasa Indonesia, tahap preprocessing sangat menentukan akurasi Tahapan ini umumnya meliputi case folding, punctuation and number removal, tokenizing.
Stopwords Removal, dan Stemming .
Mengingat bahasa Indonesia memiliki morfologi yang kompleks dengan imbuhan awalan, sisipan, dan akhiran, penggunaan algoritma stemming yang tepat seperti algoritma Nazief-Adriani atau Sastrawi sangat diperlukan untuk mengembalikan kata ke bentuk dasarnya agar dapat dicocokkan oleh algoritma BM25 maupun TF-IDF .
Pipeline pra-pemrosesan yang diterapkan pada setiap dokumen metadata adalah sebagai berikut:
Case Folding: Melakukan penyeragaman seluruh karakter teks menjadi huruf kecil .
guna menghindari redundansi pada term yang Punctuation Removal and Number Removal:
Mengeliminasi elemen noise berupa tanda baca dan angka.
Tokenization: Melakukan segmentasi teks dengan memecah rangkaian kalimat menjadi unit-unit term yang mandiri.
Stopword Removal: Menghapus kata-kata fungsional yang memiliki frekuensi kemunculan tinggi namun minim kandungan informasi .
isal: AudanAy.
AudiAy.
AuyangA.
Stemming: Mereduksi kata ke bentuk dasar.
Metrik Evaluasi Sistem Untuk mengukur kinerja perbandingan antara kedua algoritma, penelitian ini menggunakan metrik standar dalam sistem temu kembali informasi, yaitu Precision.
Recall, dan F1-Score .
Precision: Rasio dokumen relevan yang ditemukan terhadap total dokumen yang diambil.
Recall: Rasio dokumen relevan yang ditemukan terhadap total dokumen relevan yang ada dalam F1-Score: Rata-rata antara score Precision dan Recall untuk melihat stabilitas performa algoritma .
Metode seleksi fitur secara umum dapat dibagi menjadi tiga kategori: filter, wrapper, dan Metode filter adalah yang paling sederhana dan paling cepat secara komputasi.
Metode ini mengevaluasi relevansi fitur berdasarkan Jurnal ICT: Information Communication & Technology Vol.
N0.
Desember 2025, pp.
karakteristik statistik data itu sendiri, sebelum model Salah satu metode filter yang paling umum adalah analisis korelasi, seringkali menggunakan koefisien korelasi Pearson.
Pendekatan ini mengukur kekuatan hubungan linier antara setiap fitur independen dan variabel target misalnya, diagnosed_diabetes.
Dengan menetapkan ambang batas misalnya peneliti dapat dengan cepat menyaring sejumlah besar fitur dan hanya fitur-fitur hubungan statistik terkuat dengan hasil yang ingin Celah Penelitian Berdasarkan tinjauan literatur yang telah dipaparkan pada bab sebelumnya, terdapat beberapa kesenjangan penelitian .
esearch gap.
yang menjadi landasan utama dilakukannya penelitian ini:
Karakteristik Metadata Pendek (Short-Text Metadat.
: Sebagian besar penelitian mengenai perbandingan TF-IDF dan BM25 di Indonesia berfokus pada dokumen teks panjang seperti berita daring atau dokumen skripsi secara utuh .
Masih sangat terbatas penelitian yang secara spesifik menguji performa kedua algoritma tersebut pada metadata jurnal yang bersifat heterogen, di mana terdapat perbedaan panjang yang kontras antara singkatan jurnal .
angat pende.
dengan deskripsi jurnal .
Integrasi Atribut Non-Tekstual: Penelitian terdahulu umumnya hanya berfokus pada relevansi berbasis teks semata .
Belum ada kajian mendalam yang meneliti bagaimana algoritma ranking seperti BM25 berinteraksi dengan filter yang sering digunakan peneliti Indonesia, seperti peringkat Sinta dan biaya publikasi (APC).
Penelitian ini mengisi celah tersebut dengan menguji bagaimana algoritma menangani kueri pada platform Temujurnal.
yang memiliki beberapa atribut filter.
Dengan mengidentifikasi celah-celah tersebut, penelitian ini bermaksud untuk memberikan kontribusi baru berupa evaluasi empiris yang lebih relevan bagi kebutuhan akademisi di Indonesia dalam menemukan wadah publikasi ilmiah yang sesuai berdasarkan hasil perbandingan metode Metode Penelitian Penelitian ini dilaksanakan melalui enam tahapan sistematis untuk memastikan perbandingan yang objektif.
Tahapan penelitian diilustrasikan pada Gambar 1.
https://ejournal.
id/index.
php/jict-ikmi p-ISSN: 2302-0261 e-ISSN: 2303-3363 Gambar 1.
Tahapan Penelitian Pengumpulan Data Tahap pertama adalah pengumpulan data .
ata acquisitio.
dari basis data Temujurnal.
Dataset terdiri dari 100 metadata jurnal Indonesia yang mencakup variabel teks dan non-teks.
Variabel Teks: Nama Jurnal.
Singkatan.
Bidang Ilmu.
Penerbit, dan Deskripsi.
Variabel Non-Teks (Filte.
: Peringkat Sinta.
Biaya Publikasi, dan Periode Terbit.
Pra-pemrosesan Data Data teks yang bersifat tidak terstruktur diproses melalui tahap NLP (Natural Language Processin.
untuk menghasilkan indeks yang bersih.
Tahapan ini meliputi Case Folding.
Punctuation Removal and Number Removal.
Tokenization.
Stopword Removal, dan Stemming.
Implementasi Model Kedua algoritma diterapkan untuk menghitung bobot relevansi dokumen terhadap kueri pengguna.
Implementasi TF-IDF Mengacu pada rumus pembobotan frekuensi term dikalikan logaritma frekuensi dokumen Implementasi BM25 Digunakan sebagai model pembanding yang menyertakan parameter normalisasi panjang dokumen guna menangani variasi teks dan non teks .
Parameter diatur pada nilai k1= 1.
dan b= 0.
Penyusunan Skenario Evaluasi Disusun skenario evaluasi yang meliputi:
Query Set: Penentuan 20 kueri uji yang mencakup pencarian nama jurnal dan instansi Penerbit .
isal: AuUniversitas Bina Sarana InformatikaA.
Ground Truth: Penetapan daftar Audokumen relevanAy dilakukan melalui Expert Judgment.
Dokumen dianggap relevan jika metadata memenuhi kriteria teks kueri dan batasan filter Sinta atau Biaya.
Eksekusi Eksperimen Tahap eksekusi eksperimen merupakan inti dari pengujian sistem, di mana kueri diolah melalui mekanisme Hybrid Retrieval.
Mekanisme ini menggabungkan efisiensi sistem berbasis aturan .
ule-based filterin.
dengan akurasi pemeringkatan berbasis teks .
robabilistic rankin.
Proses eksekusi dibagi menjadi tiga fase operasional utama.
Jurnal ICT: Information Communication & Technology Vol.
N0.
Desember 2025, pp.
Fase Penyaringan Pada fase pertama, sistem menerima masukan filter non-teks yang mencakup Peringkat Sinta, batasan Biaya Publikasi, dan Periode Terbit.
Atributatribut ini diperlakukan sebagai Hard Constraints, di mana sistem melakukan operasi logika Boolean untuk membatasi ruang pencarian .
earch spac.
Logika Filter: Jurnal hanya akan diloloskan ke tahap berikutnya jika memenuhi kriteria filter.
Status = (Sinta == Targe.
and (Cost <= Limi.
and (Month == Targe.
Dokumen yang tidak memenuhi kriteria tersebut akan langsung dieliminasi, sehingga algoritma pembobotan hanya bekerja pada sub-set data yang sudah valid.
Fase Pemeringkatan Probabilistik Setelah sub-set dokumen terbentuk, sistem menerapkan algoritma TF-IDF dan BM25 secara terpisah untuk menghitung skor relevansi tekstual terhadap kueri pengguna.
Pada tahap ini, sistem melakukan pencocokan kueri terhadap empat variabel teks utama: Nama Jurnal.
Singkatan.
Penerbit, dan Deskripsi.
Multi-field Weighting: Mengingat metadata memiliki kepentingan yang berbeda, sistem memberikan bobot prioritas .
, pada atribut Nama Jurnal dan Singkatan diberikan bobot lebih Deskripsi, mencerminkan relevansi langsung terhadap Perhitungan Skor: Untuk BM25, skor akhir dihitung dengan menjumlahkan kontribusi dari setiap kata kueri .
yang ditemukan pada seluruh variabel teks metadata tersebut sesuai dengan parameter saturasi k1 dan normalisasi panjang dokumen b.
Fase Integrasi dan Urutan Luaran Hasil akhir dari eksekusi ini adalah daftar jurnal yang diurutkan secara menurun .
escending orde.
berdasarkan total skor relevansi yang dihasilkan pada fase kedua.
Penanganan Relevansi Nol: Jika terdapat dokumen yang lolos filter Boolean namun memiliki skor teks nol .
idak ada kata kueri yang coco.
, dokumen tersebut akan tetap ditampilkan di posisi paling bawah atau diabaikan tergantung pada pengaturan ambang batas .
Validasi Komparatif: Setiap luaran dari model TF-IDF dan BM25 dicatat secara sistematis untuk kemudian dibandingkan nilai akurasinya pada tahap analisis kuantitatif.
Proses ini memastikan bahwa pengaruh normalisasi panjang dokumen pada BM25 benar-benar teruji.
Analisis dan Evaluasi Tahap akhir dari metodologi ini adalah melakukan pengukuran efektivitas sistem untuk https://ejournal.
id/index.
php/jict-ikmi p-ISSN: 2302-0261 e-ISSN: 2303-3363 menentukan algoritma mana yang paling optimal dalam melakukan temu kembali metadata.
Evaluasi dilakukan dengan membandingkan luaran sistem terhadap ground truth yang telah ditetapkan Performa diukur menggunakan empat metrik standar, yaitu Precision.
Recall.
F1-Score, dan Mean Average Precision (MAP).
Precision Precision digunakan untuk mengukur tingkat keakuratan sistem dalam menyajikan dokumen yang relevan dari keseluruhan dokumen yang berhasil diambil .
Nilai presisi yang tinggi menunjukkan bahwa sistem mampu meminimalisir kemunculan jurnal yang tidak relevan pada daftar hasil pencarian.
Perhitungan Precision dilakukan dengan rumus:
Precision = Jumlah Metadata Relevan yang Terambil Total Jumlah Metadata yang Terambil Recall Recall mengukur kemampuan sistem dalam menemukan kembali seluruh dokumen relevan yang terdapat di dalam basis data.
Metrik ini menunjukkan seberapa lengkap sistem dalam menyajikan jurnal yang sesuai dengan kriteria filter (Sinta.
Biaya.
Bidang Ilm.
dan kueri pengguna.
Rumus yang digunakan adalah:
Recall = Jumlah Metadata Relevan yang Terambil Total Jumlah Metadata Relevan dalam Basis Data F1-Score Mengingat sering terjadinya trade-off antara Precision dan Recall, maka digunakan F1-Score sebagai rata-rata untuk melihat keseimbangan performa algoritma secara keseluruhan.
Metrik ini sangat berguna untuk memberikan penilaian tunggal yang objektif terhadap efektivitas algoritma BM25 dan TF-IDF.
Perhitungan F1-Score adalah sebagai F1-Score = 2 y Precision y Recall Precision Recall Mean Average Precision (MAP) Untuk mengevaluasi kualitas urutan peringkat .
anking qualit.
, penelitian ini menerapkan Mean Average Precision (MAP).
MAP memberikan gambaran mengenai kemampuan algoritma dalam menempatkan dokumen yang paling relevan pada posisi teratas di setiap kueri.
MAP dihitung dengan merata-ratakan nilai Average Precision (AP) dari seluruh kueri uji (Q):
|"|
MAP =
( AP.
|Q| #$% Prosedur Validasi Statistik Data hasil perhitungan dari kedua algoritma kemudian ditabulasi untuk dilakukan analisis Analisis ini bertujuan untuk membuktikan secara empiris apakah penggunaan parameter normalisasi panjang dokumen pada BM25 memberikan peningkatan performa yang signifikan Jurnal ICT: Information Communication & Technology Vol.
N0.
Desember 2025, pp.
dibandingkan TF-IDF, terutama pada metadata yang melibatkan variabel teks yang bervariasi.
Hasil dan Pembahasan Pengujian dilakukan terhadap 100 metadata jurnal yang mencakup variabel Nama Jurnal.
Singkatan.
Penerbit.
Bidang Ilmu, hingga Deskripsi.
Berdasarkan skenario evaluasi yang melibatkan 20 kueri uji, kinerja algoritma diukur menggunakan metrik Precision.
Recall.
F1-Score, dan Mean Average Precision (MAP).
Hasil Pengujian Kinerja Algoritma Hasil perbandingan algoritma TF-IDF dan BM25 disajikan pada Tabel 1.
Precision Recall TF-IDF
BM25
F1Score Filter berhasil mengeliminasi metadata yang tidak memenuhi syarat akreditasi, periode terbit atau anggaran pengguna sebelum algoritma pemeringkatan bekerja.
Pada tahap scoring.
Di dalam sub-set data yang sudah difilter.
BM25 terbukti lebih akurat dalam mengolah variabel Penerbit.
Penambahan variabel ini memberikan konteks institusi yang membantu pengguna membedakan jurnal dengan nama serupa namun dikelola oleh institusi yang MAP Analisis Sensitivitas Parameter BM25 Untuk memastikan akuntabilitas hasil, dilakukan pengujian sensitivitas terhadap parameter normalisasi b.
Hasil pengujian menunjukkan bahwa nilai b = 0,75 adalah titik optimal bagi korpus metadata Temujurnal.
Nilai b MAP Keterangan Tabel 1.
Perbandingan Performa Rata-rata Algoritma TF-IDF dan BM25 Algoritma p-ISSN: 2302-0261 e-ISSN: 2303-3363 Data pada Tabel 1 menunjukkan bahwa BM25 mengungguli TF-IDF di seluruh metrik.
Nilai MAP 74 mengindikasikan kemampuan BM25 lebih tinggi dalam menempatkan jurnal yang paling relevan pada urutan teratas, yang sangat krusial bagi pengguna di platform Temujurnal.
Analisis Pengaruh Karakteristik Metadata dan Variabel Penerbit Perbedaan algoritma berakar pada cara mereka menangani atribut metadata tekstual yang heterogen.
Berdasarkan Rumus TF-IDF, algoritma ini menghitung bobot wi,j secara linear berdasarkan frekuensi kemunculan term .
Hal ini menyebabkan bias pada atribut Deskripsi dan Penerbit yang cenderung panjang.
Jurnal dengan deskripsi yang berulang-ulang mendapatkan skor lebih tinggi meskipun secara substansi kurang Keunggulan Probabilistik BM25 adalah penggunaan parameter b untuk normalisasi panjang dokumen .
sangat efektif dalam menangani metadata Singkatan yang pendek.
Parameter ini memastikan jurnal dengan singkatan yang cocok secara eksis .
AuECODEMICAA.
tetap mendapatkan peringkat tinggi tanpa kalah bersaing dengan jurnal yang memiliki deskripsi teks yang ekspansif.
Dampak Integrasi Hybrid Retrieval Sesuai dengan alur penelitian pada Gambar 3, eksekusi eksperimen melibatkan logika Hybrid Retrieval.
Temuan menunjukkan bahwa integrasi filter Sinta.
Periode, dan Biaya sebagai hard constraints secara drastis meningkatkan efisiensi https://ejournal.
id/index.
php/jict-ikmi Tabel 2.
Pengaruh Variasi Parameter b Terhadap Nilai MAP
0,00
0,50
0,75
1,00
0,65
0,71
0,74
0,70
Tanpa normalisasi panjang dokumen Normalisasi tingkat menengah Nilai Optimal Normalisasi penuh Pembahasan Hasil membuktikan bahwa algoritma BM25 memiliki stabilitas dan akurasi yang lebih tinggi dibandingkan TF-IDF dalam mengolah metadata jurnal pada platform Temujurnal.
Keunggulan ini tercermin pada nilai MAP sebesar 0,74 yang dicapai oleh BM25, mengungguli TF-IDF yang hanya mencapai 0,59.
Perbedaan signifikan sebesar 0,15 poin dipicu oleh kemampuan BM25 dalam menangani heterogenitas panjang dokumen melalui parameter normalisasi b=0,75.
Mekanisme ini mencegah terjadinya bias pada atribut Deskripsi dan Penerbit yang memiliki jumlah kata lebih banyak, sehingga nama jurnal dengan teks yang singkat namun relevan tetap mampu menempati peringkat teratas dalam hasil pencarian.
Selain faktor normalisasi, penggunaan parameter saturasi k1=1,2 pada BM25 terbukti efektif dalam meredam dominasi kata yang muncul berulang kali pada bagian deskripsi jurnal.
Hal ini berdampak langsung pada nilai Precision sebesar 0,78 menunjukkan sistem mampu meminimalisir luaran jurnal yang tidak relevan dibandingkan model TF-IDF yang Precision hanya mencapai nilai 0,62.
Integrasi variabel Penerbit memberikan dimensi pencarian yang lebih kuat, mekanisme pembobotan IDF pada BM25 mampu mengenali keunikan nama instansi atau universitas sebagai entitas penting, didukung oleh proses stemming bahasa Indonesia Jurnal ICT: Information Communication & Technology Vol.
N0.
Desember 2025, pp.
yang akurat untuk memastikan kata dasar institusi diberikan bobot yang tepat secara statistik.
Dalam Hybrid Retrieval, algoritma ini bersinergi secara optimal dengan fitur filter seperti peringkat Sinta, periode terbit dan biaya publikasi.
Meskipun filter tersebut berfungsi sebagai pembatas kaku .
ard constrain.
, algoritma BM25 memegang peranan vital dalam mengurutkan hasil akhir dengan nilai F1-Score mencapai 0,75.
Tingginya nilai efektivitas menunjukkan bahwa sistem tidak hanya sekadar menyaring data berdasarkan kategori, tetapi juga mampu memposisikan jurnal yang paling sesuai dengan kebutuhan riset peneliti di posisi peringkat teratas .
op-ran.
Hasil ini memberikan rekomendasi teknis bahwa implementasi BM25 sangat layak digunakan untuk meningkatkan efisiensi proses penemuan wadah publikasi ilmiah pada agregator jurnal nasional.
Kesimpulan dan Saran Kesimpulan Berdasarkan hasil analisis dan eksperimen yang telah dilakukan dalam membandingkan algoritma BM25 dan TF-IDF untuk temu kembali metadata jurnal pada platform Temujurnal.
maka dapat ditarik beberapa kesimpulan.
Algoritma BM25 terbukti lebih unggul dibandingkan TF-IDF dalam seluruh metrik evaluasi yang digunakan.
Hal ini dibuktikan dengan perolehan nilai MAP sebesar 0,74 yang melampaui TF-IDF dengan nilai 0,59.
BM25
menunjukkan tingkat akurasi yang lebih tinggi dengan nilai Precision sebesar 0,78 dan F1-Score sebesar 0,75.
Keunggulan BM25 terletak pada penggunaan parameter normalisasi panjang dokumen .
=0,.
yang mampu menangani heterogenitas metadata jurnal secara stabil.
Mekanisme ini memastikan bahwa atribut yang singkat seperti Nama Jurnal dan Singkatan tidak terdominasi oleh atribut yang lebih panjang seperti Penerbit dan Deskripsi, sehingga peringkat relevansi yang dihasilkan menjadi lebih adil dan akurat.
Implementasi logika Hybrid Retrieval yang menggabungkan filter Peringkat Sinta.
Periode Terbit dan Biaya Publikasi sebagai hard constraints dengan algoritma pembobotan probabilistik terbukti sangat efektif.
Sistem mampu menyaring data sesuai kriteria pengguna, sementara BM25 berperan dalam mengurutkan hasil akhir berdasarkan kedekatan kueri terhadap metadata tekstual jurnal.
Saran Meskipun penelitian memberikan hasil yang positif, terdapat beberapa saran pengembangan yang dapat dilakukan untuk penelitian selanjutnya guna meningkatkan kualitas sistem temu kembali informasi pada domain metadata jurnal ilmiah.
https://ejournal.
id/index.
php/jict-ikmi p-ISSN: 2302-0261 e-ISSN: 2303-3363 Mengingat penelitian ini menggunakan sampel 100 metadata jurnal, disarankan agar penelitian selanjutnya memperluas cakupan dataset hingga mencakup seluruh populasi jurnal nasional yang terindeks di SINTA atau Garuda.
Perluasan ini penting untuk menguji konsistensi, efisiensi komputasi, dan skalabilitas algoritma BM25 pada volume data yang jauh lebih besar dan Disarankan untuk melakukan optimasi parameter k1 dan b pada BM25 menggunakan metode pencarian parameter otomatis .
eperti Grid Searc.
agar mendapatkan nilai yang paling presisi sesuai dengan karakteristik bahasa Indonesia yang terus berkembang.
Keterbatasan algoritma berbasis frekuensi kata dalam menangani sinonim, pengembangan sistem di masa depan dapat mengintegrasikan pendekatan Semantic Search berbasis Deep Learning .
eperti BERT atau Word2Ve.
untuk menangkap makna kontekstual di balik kueri Untuk memperkuat akuntabilitas perbandingan, penelitian masa depan dapat menyertakan uji signifikansi statistik seperti Paired Sample T-test atau Wilcoxon Signed-Rank Test.
Daftar Pustaka