[E-ISSN 2656-0.
[Vol 20 No .
[Januari 2.
PENERAPAN METODE VECTOR SPACE MODEL (VSM) DENGAN TF-IDF DAN COSINE SIMILARITY PADA SISTEM
TEMU KEMBALI INFORMASI LOWONGAN PEKERJAAN
Fadli Maghfirli a,1,*.
Aditya Firmansyah b,2.
Laili Cahyani c,3 a,b,c Universitas Trunojoyo Madura.
Jalan Raya Telang.
Kecamatan Kamal.
Kabupaten Bangkalan.
Jawa Timur 69162.
1 fadlimaghfirli5@gmail.
2 muhamad.
aditya0007@gmail.
3 laili.
cahyani@trunojoyo.
* corresponding author
ARTICLE INFO
ABSTRACT
Keywords Information Retrieval.
Job Vacancy.
TF-IDF.
Cosine Similarity.
Vector Space Model.
Finding relevant job vacancy information is often a challenge for job seekers due to the large volume of data on the internet and the limitations of exact keyword matching, which often produces inaccurate results.
This study aims to build a job vacancy Information Retrieval (IR) system using the Vector Space Model (VSM) approach.
The system applies Term Frequency-Inverse Document Frequency (TFIDF) for term weighting and Cosine Similarity to measure the relevance between user queries and job documents.
The study utilized a dataset of 350 documents, consisting of 300 valid job postings and 50 noise The text preprocessing stages included case folding, tokenizing, filtering, and stemming.
System performance was evaluated using Precision.
Recall, and F-Measure metrics on 10 different search The test results demonstrated high accuracy in retrieving relevant documents, achieving an average Precision of 0.
%) at the top-10 threshold and 0.
%) at the top-15 threshold.
These results indicate that the combination of TF-IDF and Cosine Similarity is effective in filtering out irrelevant documents and ranking job vacancies according to the user's needs.
Pendahuluan Perkembangan teknologi informasi yang pesat telah mengubah cara masyarakat dalam mencari Internet menyediakan platform yang luas bagi penyedia kerja untuk mempublikasikan lowongan, namun hal ini memunculkan masalah baru berupa ledakan informasi .
nformation overloa.
Pencari kerja seringkali kesulitan menemukan posisi yang sesuai dengan keahlian mereka karena banyaknya dokumen yang tidak relevan yang muncul pada hasil pencarian.
Oleh karena itu, dibutuhkan sebuah sistem temu kembali informasi (Information Retrieva.
yang mampu menyaring dan memeringkat dokumen berdasarkan tingkat relevansinya terhadap kebutuhan pengguna .
Permasalahan utama pada sistem pencarian lowongan kerja sederhana adalah penggunaan metode pencocokan string biasa yang kaku.
Jika pencari kerja memasukkan kata kunci yang tidak persis sama dengan yang ada di database, sistem seringkali gagal menampilkan hasil yang relevan.
Diperlukan pendekatan berbasis pembobotan kata dan pengukuran kemiripan vektor untuk mengatasi variasi bahasa dalam deskripsi pekerjaan .
Beberapa penelitian terdahulu telah menerapkan metode serupa untuk kasus yang berbeda.
Algoritma TF-IDF dan Cosine Similarity pada sistem rekomendasi lowongan pekerjaan dan menghasilkan tingkat akurasi sebesar 80% .
Penelitian tersebut menunjukkan bahwa kombinasi kedua metode ini efektif dalam mencocokkan profil pelamar dengan deskripsi pekerjaan.
Selain itu, dalam penelitian mengenai sistem pencarian pekerjaan menyebutkan bahwa meskipun metode TF-IDF membutuhkan waktu komputasi lebih lama dibandingkan full query, hasil pencarian yang diberikan jauh lebih relevan .
Efektivitas Cosine Similarity juga dikuatkan pada sistem temu kembali informasi pasal KUHP, di mana metode ini mampu mengukur kedekatan dokumen hukum dengan queri pengguna secara presisi .
Sementara itu, pendekatan Content-Based Filtering dengan algoritma yang sama untuk merekomendasikan pekerjaan berdasarkan keterampilan, yang membuktikan fleksibilitas algoritma ini https://doi.
org/10.
47111/JTI
Available online at https://e-journal.
id/index.
php/JTI [E-ISSN 2656-0.
[Vol 20 No .
[Januari 2.
dalam domain ketenagakerjaan .
Namun, sebagian besar penelitian tersebut berfokus pada sistem rekomendasi .
ush informatio.
, sedangkan penelitian ini berfokus pada mekanisme pencarian aktif .
ull informatio.
melalui kueri pengguna pada sistem temu kembali informasi.
Berdasarkan latar belakang tersebut, penelitian ini mengusulkan penerapan metode Term Frequency-Inverse Document Frequency (TF-IDF) untuk pembobotan kata dan Cosine Similarity untuk pengukuran relevansi pada sistem pencarian lowongan pekerjaan.
TF-IDF dipilih karena kemampuannya memberikan bobot tinggi pada kata unik yang mencirikan suatu dokumen .
, sedangkan Cosine Similarity dipilih karena efektivitasnya dalam mengukur kemiripan dua dokumen teks yang dinormalisasi, sehingga tidak terpengaruh oleh panjang pendeknya dokumen.
Tujuan dari penelitian ini adalah membangun sistem yang dapat memudahkan pencari kerja mendapatkan informasi lowongan yang paling relevan dengan kata kunci yang mereka masukkan.
Metodologi Penelitian Metodologi penelitian ini menjelaskan tahapan-tahapan yang dilakukan dalam membangun sistem temu kembali informasi (Information Retrieva.
untuk pencarian lowongan pekerjaan.
Penelitian ini menerapkan model Vector Space Model (VSM) dengan pembobotan TF-IDF dan pengukuran kemiripan menggunakan Cosine Similarity.
Secara umum, alur penelitian terdiri dari pengumpulan data, preprocessing, pembobotan, perhitungan kemiripan, dan evaluasi .
Gambar 1.
Tahapan Penelitian Pengumpulan Data Data yang digunakan dalam penelitian ini merupakan data sekunder yang terdiri dari dua kategori utama untuk menguji performa sistem dalam membedakan dokumen relevan dan tidak relevan.
Total dataset berjumlah 350 dokumen.
Preprocessing Preprocessing adalah proses text mining yang digunakan untuk mendapatkan informasi berkualitas tinggi dari teks dan merupakan tahapan awal untuk menyiapkan teks menjadi data yang akan diolah lebih lanjut .
Karena algoritma pencarian tidak dapat mengubah teks secara langsung dalam proses, proses preprocessing diperlukan untuk mengubah teks menjadi data numerik .
Tahapan preprocessing yang dilakukan adalah sebagai berikut .
Case Folding: Mengubah seluruh huruf dalam dokumen menjadi huruf kecil .
untuk menyeragamkan format teks.
Cleaning: Menghapus karakter angka, tanda baca, dan karakter non-alfabet menggunakan fungsi sub.
'[^a-z\.
', '', tex.
agar fokus hanya pada kata-kata yang bermakna.
https://doi.
org/10.
47111/JTI
Available online at https://e-journal.
id/index.
php/JTI [E-ISSN 2656-0.
[Vol 20 No .
[Januari 2.
Stopword Removal: Menghilangkan kata-kata umum yang sering muncul namun tidak memiliki makna penting dalam pencarian .
eperti "dan", "yang", "di").
Proses ini menggunakan daftar stopword dari library Sastrawi (StopWordRemoverFactor.
Stemming: Mengubah kata berimbuhan menjadi kata dasarnya .
ontoh: "membutuhkan" menjadi "butuh") menggunakan StemmerFactory dari Sastrawi.
Langkah ini penting untuk mengatasi variasi morfologi kata dalam Bahasa Indonesia.
Pembobotan TF-IDF Setelah data bersih, tahap selanjutnya adalah pembobotan kata menggunakan metode Term Frequency-Inverse Document Frequency (TF-IDF).
Metode ini mengubah data teks menjadi representasi vektor numerik .
Cosine Similarity Nilai Cosine Similarity berkisar antara 0 hingga 1.
Nilai mendekati 1 menunjukkan kemiripan dokumen yang tinggi dengan query, sedangkan nilai 0 menunjukkan ketidakmiripan sama sekali.
Rumus perhitungan yang digunakan adalah:
Evaluasi Evaluasi dilakukan untuk mengukur performa sistem dalam menampilkan dokumen yang relevan.
Pengujian dilakukan menggunakan 10 query pencarian yang berbeda terkait lowongan pekerjaan .
isalnya: "IT", "sales admin").
Hasil dan Pembahasan Pengumpulan Data Pada tahap implementasi, data yang telah dikumpulkan berhasil dimuat ke dalam sistem menggunakan library Pandas.
Dataset yang diproses terdiri dari 350 baris data dengan tiga atribut utama yang digunakan dalam penelitian, yaitu judul lowongan .
ob_titl.
, deskripsi pekerjaan .
ob_descriptio.
, dan label kelas (Relevans.
Table 1.
Tabel Dataset Relevan job_title Admin Online Shop Relevan Procurement Department Head job_description Deskripsi Pekerjaan:Dapat menggunakan aplikasi E-Commerce/Market Place .
ontoh: Tokopedia.
Blibli.
Shopee, dan lain-lai.
Bertanggung jawab terhadap penjualan onlineMemasarkan produk broadcast chat dan social Memonitor onlineMembantu menyelesaikan jika ada orderan online yang bermasalahMenjawab chat / pertanyaan konsumen onlineMemberikan pelayanan yang terbaik bagi konsumenSelalu belajar hal baru & mengikuti aplikasi-aplikasi Kualifikasi:Maksimal Usia 23 tahunLulusan SMASMK/SederajatTidak sedang kullahFamiliar dengan homputer, sosmed FB.
IG, marketplace, dan MS OfficeAmanah, disiplin dan bertanggungjawabKreatif dan mau belajarDiutamakan domisili Serpong dan sekitarnya Job Role: 1.
Responsible for material availability for production heavy equipment and supporting equipment to ensure supportto operational needs, with proper specification, budget, quantity and time required.
Ensure complete database of suppliers/vendors/subcontractors, contract management, material delivery, scrapreselling activities from Jobsite accordingly to plan and procedure.
Ensuring subcontractor requirements for equipment/units Production.
Engineering PlantRequirement.
Education S1 Mechanical Engineering / Industrial Engineering / EconomicsWork Experience.
5 Years in the same position, preferably from mining servicesIndustry Preference: Mining ServicesTechnical https://doi.
org/10.
47111/JTI
Available online at https://e-journal.
id/index.
php/JTI [E-ISSN 2656-0.
[Vol 20 No .
[Januari 2.
A A NonRelevan Sales Asuransi Jiwa Konvensional Tergeser Platform Insurtech NonRelevan Rumah Sakit Swasta Lakukan Efisiensi Staf Admin Pendaftaran Skill: Heavy Equipment Knowledge.
Negotiation ManagementGood command in English is a must A Skill.
Contract Generasi muda yang lebih memilih membeli produk asuransi mikro melalui aplikasi (Insurtec.
tanpa perantara agen membuat perusahaan asuransi konvensional melakukan penyesuaian.
Ribuan tenaga pemasar asuransi .
nsurance agent.
dengan kinerja di bawah rata-rata diputus kontrak kemitraannya karena perusahaan menutup kantor-kantor keagenan fisik yang sepi peminat demi efisiensi biaya sewa.
Digitalisasi layanan kesehatan melalui aplikasi pendaftaran online dan anjungan mandiri di rumah sakit swasta mengurangi antrean fisik.
Dampaknya, manajemen rumah sakit mulai mengurangi jumlah staf admin pendaftaran dan rekam medis manual, mengalihkan fokus anggaran pada tenaga medis profesional dibandingkan tenaga administratif.
Preprocessing Setelah data dikumpulkan, tahapan selanjutnya adalah preprocessing.
Tahap ini bertujuan untuk membersihkan dan mempersiapkan data teks agar optimal saat diproses oleh algoritma.
Mengingat data yang digunakan berbahasa Indonesia, proses ini memanfaatkan pustaka Sastrawi untuk stemming dan stopword removal, serta Regular Expression (Rege.
untuk pembersihan karakter.
Dan berikut hasil preprocessing dataset, dapat dilihat pada Gambar 2.
Hasil Preprocessing Gambar 2.
Hasil Preprocessing 3 Pembobotan TF-IDF Setelah data teks bersih, dilakukan proses pembobotan kata menggunakan metode Term FrequencyInverse Document Frequency (TF-IDF).
Metode ini mengubah data teks menjadi matriks angka yang merepresentasikan bobot pentingnya sebuah kata dalam dokumen terhadap keseluruhan korpus data.
Proses ini diimplementasikan menggunakan modul TfidfVectorizer dari pustaka Scikit-Learn.
Berikut kode sumber pembobotan TF-IDF:
# Inisialisasi TfidfVectorizer vectorizer = TfidfVectorizer() # Transformasi data teks menjadi matriks bobot TF-IDF tfidf_matrix = vectorizer.
fit_transform.
f_final['clean_text']) 4 Cosine Similarity Tahap inti dari sistem temu kembali informasi ini adalah perhitungan kemiripan antara query .
ata 50 kunci pencaria.
yang dimasukkan pengguna dengan dokumen lowongan kerja yang tersedia.
Metode Cosine Similarity menggunakan kata kunci .
dari dokumen untuk mengukur tingkat kesamaan https://doi.
org/10.
47111/JTI
Available online at https://e-journal.
id/index.
php/JTI [E-ISSN 2656-0.
[Vol 20 No .
[Januari 2.
antara dua objek yang diwakili dalam dua vektor .
Berikut kode sumber untuk Cosine Similarity:
def search_engine.
uery, top_n=.
# Preprocess query user clean_query = preprocessing.
# Transform ke vector query_vec = vectorizer.
lean_quer.
) # Hitung kemiripan (Cosine Similarit.
similarity_scores = cosine_similarity.
uery_vec, tfidf_matri.
# Urutkan index dari score tertinggi top_indices = similarity_scores.
argsort()[::-.
[:top_.
# .
ode untuk menampilkan hasi.
Berdasarkan uji coba dengan query "IT", sistem berhasil menampilkan dokumen yang memiliki skor relevansi tertinggi, seperti terlihat pada Gambar 3.
Hasil Pencarian Query IT Gambar 3.
Hasil Pencarian Query IT 5 Evaluasi Dalam konteks sistem yang telah dibuat ini, evaluasi bertujuan untuk menentukan seberapa jauh hasil rekomendasi sistem memenuhi harapan atau preferensi pencari lowongan kerja .
Proses evaluasi mengacu pada metode pengujian yang dilakukan dalam penelitian .
, yaitu dengan menggunakan perhitungan Precision.
Recall, dan F-Measure.
Pengujian dilakukan dengan memasukkan 10 .
kata kunci .
yang berbeda ke dalam Kata kunci ini dipilih untuk mewakili berbagai bidang pekerjaan yang terdapat dalam dataset.
Setiap query akan diproses oleh sistem, dan sistem akan menampilkan 10 dokumen teratas (Top-.
yang memiliki nilai Cosine Similarity tertinggi.
Daftar kata kunci yang digunakan dalam skenario pengujian dapat dilihat pada Table 2.
Query Table 2.
Query pencarian Query pencarian Manager Sales https://doi.
org/10.
47111/JTI
Available online at https://e-journal.
id/index.
php/JTI [E-ISSN 2656-0.
[Vol 20 No .
[Januari 2.
Bank Staff Teknik Admin Marketing Supervisor Design 1 Hasil Pengujian Hasil pencarian dokumen dengan query IT Table 3.
Hasil Pencarian Query IT Threshold IT Governance Supervisor job_title Relevansi Relevan Staf IT Helpdesk Level 1 Digantikan Chatbot Cerdas Non-Relevan Badai PHK Tech Winter Masih Berlanjut di Tahun 2025 Non-Relevan IT SECURITY COORDINATOR Relevan IT Support Relevan SPV IT Relevan IT Project Management Relevan Odoo Developer / IT Full Stack Developer Relevan Startup "Unicorn" Indonesia Lakukan Efisiensi Tim IT dan Produk Non-Relevan Sales B2B Perangkat Lunak (SaaS) Dikurangi Akibat Efisiensi Klien Non-Relevan SECURITY ENGINEER Relevan IT Staff Relevan IT Software Developer Staff Relevan IT Support Staff Relevan Backend Developer Relevan Precision = 0.
Recal = 0.
F-measure = 0.
Kemudian Query 2 sampai Query 10 dilakukan perhitungan seperti pada Query 1 di atas untuk mencari nilai precision, recall dan f.
measure pada threshold 5, 10 dan 15.
Hasil dari pencarian precision, recall dan f.
measure pada semua query dapat dilihat pada table berikut:
Table 4.
Hasil Evaluasi Precision.
Recall.
F-measure pada Threshold 10 Query 1 Query 2 Query 3 Query 4 Query 5 Query 6 Query 7 Precision Recall F-measure https://doi.
org/10.
47111/JTI
Available online at https://e-journal.
id/index.
php/JTI [E-ISSN 2656-0.
[Vol 20 No .
[Januari 2.
Query 8 Query 9 Query 10 Rata-rata Table 5.
Hasil Evaluasi Precision.
Recall.
F-measure pada Threshold 15 Query 1 Query 2 Query 3 Query 4 Query 5 Query 6 Query 7 Query 8 Query 9 Query 10 Rata-rata Precision Recall F-measure Kesimpulan Berdasarkan implementasi dan hasil pengujian yang telah dilakukan pada sistem temu kembali informasi lowongan pekerjaan menggunakan metode Vector Space Model (VSM) dengan pembobotan TF-IDF dan Cosine Similarity, dapat ditarik beberapa kesimpulan sebagai berikut:
Efektivitas Metode: Penerapan kombinasi metode pembobotan TF-IDF dan pengukuran kemiripan Cosine Similarity terbukti efektif dalam menyaring dan memeringkat dokumen lowongan pekerjaan.
Sistem mampu membedakan antara dokumen lowongan kerja yang relevan dan dokumen noise .
erita atau artikel umu.
dengan baik.
Akurasi Pencarian (Precisio.
: Berdasarkan pengujian terhadap 350 dokumen .
data relevan dan 50 data nois.
menggunakan 10 query uji yang berbeda, sistem menunjukkan tingkat relevansi yang tinggi pada hasil pencarian teratas.
Rata-rata nilai Precision yang diperoleh adalah 0,840 .
%) pada batasan hasil pencarian .
10 dokumen teratas, dan meningkat menjadi 0,880 .
%) pada threshold 15 dokumen teratas.
Kinerja pada Top-N: Hasil evaluasi menunjukkan bahwa semakin banyak dokumen yang ditampilkan .
ari top-10 ke top-.
, nilai presisi cenderung stabil bahkan meningkat, yang mengindikasikan bahwa dokumen-dokumen relevan terdistribusi dengan baik pada peringkat atas hasil pencarian sistem.
Hal ini membuktikan bahwa sistem dapat memenuhi kebutuhan pengguna dalam mendapatkan informasi yang paling relevan secara cepat tanpa harus memilah banyak dokumen yang tidak sesuai.
Daftar Pustaka