Jurnal Pelita Teknologi.
Vol.
2024, pp.
PELITA TEKNOLOGI
Journal homepage: jurnal.
id,p-ISSN: 2301-475X, e-ISSN: 2656-7059 Efektivitas Algoritma Support Vector Machine Dan Naive Bayes Dalam Mengiden Tifikasi Sentimen Ulasan Pengguna Aplikasi Jobstreet : Sebuah Analisis Komparatif Donny Maulana1.
Nazwa Aulia Rachman2 Teknik Informatika.
Fakultas Teknik.
Universitas Pelita Bangsa Jl.
Inspeksi Kalimalang No.
Cibatu.
Cikarang Selatan.
Kab.
Bekasi.
Jawa Barat.
Indonesia Korespondensi email: donny.
maulana@pelitabangsa.
Abstrak Informasi Artikel This study develops an automated sentiment Diterima: 8 Juli 2024 analysis system to classify Indonesian-language Direvisi: 6 Agustus 2024 user reviews of the JobStreet application from the Dipublikasikan: 30 September 2024 Google Play Store.
It compares the performance of two machine learning algorithms.
Support Vector Machine (SVM) and Naive Bayes.
The review data were preprocessed through cleaning, case folding, tokenization, normalization, stopword removal, and stemming before model training and Performance was measured using accuracy, precision, recall, and F1-score.
The results show that SVM outperformed Naive Bayes, achieving 97% accuracy, 0.
98 precision, 0.
recall, and a 0.
97 F1-score.
In comparison.
Naive Bayes achieved 89% accuracy, 0.
93 precision, 83 recall, and a 0.
86 F1-score.
SVM
demonstrated more balanced precision and recall across sentiment classes, indicating better classification performance.
These findings suggest that SVM is more effective for Indonesianlanguage sentiment analysis and has strong potential for implementation in automated systems to support intelligent recommendations and improve service quality on digital recruitment Pendahuluan Perkembangan teknologi digital telah mendorong pertumbuhan aplikasi pencarian kerja seperti JobStreet yang berperan penting dalam menghubungkan pencari kerja dengan penyedia lowongan.
Selain menyediakan informasi pekerjaan, platform ini juga Keywords Sentiment Analysis.
JobStreet.
Support Vector Machine (SVM).
Naive Bayes.
Machine Learning memfasilitasi pengguna untuk memberikan ulasan terkait pengalaman mereka.
Ulasan tersebut mencerminkan tingkat kepuasan, persepsi, serta evaluasi terhadap fitur dan kualitas layanan aplikasi, sehingga menjadi sumber data yang bernilai bagi pengembang dalam merumuskan strategi peningkatan Namun.
ISSN: p.
2301-475X e.
banyaknya ulasan dalam bentuk teks bebas menyebabkan proses interpretasi manual menjadi kurang efektif, sehingga dibutuhkan pendekatan otomatis melalui analisis Analisis sentimen merupakan bagian dari Natural Language Processing (NLP) yang bertujuan mengidentifikasi dan mengklasifikasikan opini atau emosi dalam teks .
menggunakan algoritma seperti Sastrawi untuk mengubah kata berimbuhan menjadi bentuk dasar .
Representasi fitur teks kemudian dapat dilakukan menggunakan metode Term Frequency Inverse Document Frequency (TF-IDF) yang efektif dalam mengekstraksi kata kunci penting dari dokumen .
Beberapa penelitian sebelumnya telah membandingkan performa Naive Bayes dan SVM pada berbagai aplikasi.
Penelitian Majid menunjukkan bahwa SVM memperoleh akurasi 80% dibandingkan 76% pada Naive Bayes dalam analisis ulasan Peduli Lindungi .
Studi Gumilar dkk.
memperoleh akurasi 96% menggunakan Naive Bayes pada ulasan aplikasi Lita .
, sedangkan Fristtikasari dkk.
melaporkan akurasi 94% pada aplikasi kita lulus meskipun terdapat kelemahan pada nilai recall .
Penelitian Al-Husna dkk.
menemukan bahwa SVM sedikit lebih unggul dibandingkan Naive Bayes pada ulasan LinkedIn dengan akurasi 90% dan 88% .
Meskipun demikian, sebagian besar penelitian masih terbatas pada aplikasi umum dan belum secara khusus mengkaji ulasan aplikasi pencari kerja seperti JobStreet.
Dalam implementasinya, analisis sentimen umumnya memanfaatkan teknik machine learning sebagai metode klasifikasi.
Machine learning merupakan cabang kecerdasan buatan yang memungkinkan sistem belajar dari data untuk meningkatkan akurasi prediksi secara otomatis .
Salah satu pendekatan yang sering digunakan adalah supervised learning, di mana model dilatih menggunakan data berlabel untuk melakukan klasifikasi atau regresi .
Dalam konteks klasifikasi teks, algoritma yang banyak digunakan antara lain Naive Bayes dan Support Vector Machine (SVM).
Naive Bayes bekerja berdasarkan teori probabilitas dengan asumsi independensi antar fitur dan dikenal sederhana serta efisien .
Sementara itu.
SVM merupakan hyperplane optimal untuk memisahkan kelas Berdasarkan uraian tersebut, penelitian ini dengan margin maksimum dan memiliki bertujuan melakukan analisis komparatif performa yang baik pada data linier maupun antara algoritma Naive Bayes dan Support non-linier .
Vector Machine dalam mengklasifikasikan Sebelum proses klasifikasi dilakukan, tahapan sentimen ulasan pengguna aplikasi JobStreet.
preprocessing menjadi langkah krusial untuk Evaluasi dilakukan menggunakan confusion meningkatkan kualitas data.
Preprocessing matrix dengan pengukuran akurasi, presisi, serta recall, dan F1-score .
guna memperoleh menyederhanakan representasi teks agar dapat gambaran kinerja model secara menyeluruh.
diproses oleh algoritma secara optimal .
Penelitian ini diharapkan dapat memberikan Tahapan ini meliputi cleaning untuk kontribusi teoretis dalam pengembangan menghapus simbol atau karakter tidak kajian analisis sentimen berbasis machine relevan, case folding untuk menyeragamkan learning, sekaligus memberikan manfaat huruf, tokenizing untuk memecah teks praktis bagi pengembang aplikasi dalam menjadi unit kata .
, normalization untuk meningkatkan kualitas layanan berbasis opini memperbaiki kata tidak baku, stopword pengguna.
removal untuk menghilangkan kata umum II.
Metodologi yang kurang informatif .
, serta stemming ISSN: p.
2301-475X e.
Penelitian ini menggunakan pendekatan kuantitatif dengan desain komparatif untuk membandingkan kinerja dua algoritma pembelajaran mesin, yaitu Support Vector Machine (SVM) dan Naive Bayes (NB), dalam pengguna aplikasi JobStreet.
Proses penelitian diawali dengan pengumpulan data ulasan secara terprogram melalui teknik web scraping menggunakan bahasa pemrograman Python pada platform Google Colab.
Library google-play-scraper dimanfaatkan untuk 000 ulasan teratas dari Google Play Store dengan ID aplikasi jobstreet_mobile.
Data yang diperoleh disimpan dalam format DataFrame dan diekspor ke file CSV untuk tahap pengolahan selanjutnya.
Gambar 1 Diagram Alur Metodologi Penelitian Data yang terkumpul berupa teks ulasan pengguna yang kemudian melalui tahap preprocessing untuk mengurangi noise dan meningkatkan kualitas representasi data .
Tahapan preprocessing meliputi cleaning .
enghapusan karakter tidak releva.
, case .
engubahan lowercas.
, tokenizing .
emecahan teks .
, .
enyeragaman kata tidak bak.
, stopword ISSN: p.
2301-475X e.
enghapusan kata umu.
, serta stemming menggunakan algoritma Sastrawi untuk memperoleh bentuk dasar kata .
Tahapan ini bertujuan menghasilkan data teks yang terstruktur dan siap diproses oleh algoritma klasifikasi.
Pelabelan sentimen dilakukan secara otomatis menggunakan pendekatan lexicon-based dengan memanfaatkan kamus sentimen bahasa Indonesia dari repositori GitHub Setiap token dicocokkan dengan skor polaritas dalam kamus, kemudian skor total digunakan untuk menentukan kelas sentimen: positif jika skor > 0 dan negatif jika skor < 0 .
Pendekatan ini dipilih karena dinilai lebih efisien dan konsisten dibandingkan pelabelan manual.
menilai ketepatan prediksi positif, recall mengukur kemampuan model mendeteksi seluruh kelas positif, dan F1-score memberikan keseimbangan antara presisi dan recall .
yaycoycycycaycycn = (Jumlah Prediksi Bena.
(Total Jumlah Dat.
(TP TN) (TP TN FP FN) Dalam evaluasi model klasifikasi digunakan *confusion matrix* yang terdiri dari empat komponen, yaitu True Positive (TP).
True Negative (TN).
False Positive (FP), dan False Negative (FN).
True Positive (TP) adalah jumlah data positif yang berhasil diprediksi dengan benar sebagai positif, sedangkan True Negative (TN) adalah jumlah data negatif Selanjutnya dilakukan ekstraksi fitur yang diprediksi dengan benar sebagai negatif.
menggunakan metode Term FrequencyAe Inverse Document Frequency (TF-IDF) untuk Sebaliknya.
False Positive (FP) merupakan mengubah teks menjadi representasi numerik data negatif yang salah diprediksi sebagai .
Pemilihan TF-IDF didasarkan pada positif, dan False Negative (FN) adalah data penelitian terdahulu yang menunjukkan positif yang salah diprediksi sebagai negatif.
performa lebih baik dalam analisis sentimen Keempat komponen ini menjadi dasar dalam berbasis teks dibandingkan metode lain menghitung metrik evaluasi seperti akurasi, .
Dataset kemudian dibagi menjadi presisi, recall, dan F1-score untuk mengukur data pelatihan dan data pengujian dengan kinerja model secara keseluruhan.
empat variasi rasio, yaitu 50:50, 60:40, 70:30.
Seluruh proses penelitian dilakukan dengan dan 80:20, guna mengidentifikasi konfigurasi memperhatikan aspek etika, yaitu hanya pembagian data yang paling optimal .
menggunakan data yang tersedia secara Model klasifikasi dibangun menggunakan publik, menjaga anonimitas pengguna, algoritma SVM dan Naive Bayes.
SVM memanfaatkan data semata untuk kepentingan bekerja dengan mencari hyperplane optimal akademik, serta mematuhi ketentuan layanan yang memaksimalkan margin antar kelas .
, platform sumber data.
Dengan tahapan sedangkan Naive Bayes mengklasifikasikan tersebut, penelitian ini diharapkan mampu data berdasarkan probabilitas menggunakan menghasilkan evaluasi komparatif yang teorema Bayes dengan asumsi independensi objektif dan terukur mengenai efektivitas antar fitur .
Kedua model dilatih algoritma SVM dan Naive Bayes dalam menggunakan data training dan diuji analisis sentimen ulasan aplikasi JobStreet.
menggunakan data testing yang belum pernah dilihat sebelumnya.
Evaluasi performa Hasil dan Pembahasan dilakukan menggunakan confusion matrix i.
serta metrik akurasi, presisi, recall, dan F1- Hasil penelitian menunjukkan bahwa dataset score .
Akurasi mengukur proporsi yang digunakan berupa 2.
000 ulasan prediksi benar terhadap seluruh data, presisi pengguna aplikasi JobStreet yang diperoleh ISSN: p.
2301-475X e.
dari Google Play Store menggunakan library google_play_scraper pada lingkungan Python (Google Cola.
Dataset terdiri atas tanggal unggahan dan isi teks ulasan berbahasa Indonesia.
Setelah dilakukan proses cleaning untuk menghapus simbol, angka.
URL, dan karakter tidak relevan guna mengurangi noise .
, jumlah data yang dapat diproses lebih lanjut menjadi 1.
386 ulasan.
Tahapan prapemrosesan dilanjutkan dengan case folding untuk menyeragamkan huruf menjadi lowercase .
, tokenizing untuk memecah teks menjadi unit kata .
, normalization untuk memperbaiki kata tidak baku .
, stopword removal untuk menghapus kata umum yang kurang informatif .
, serta stemming menggunakan algoritma Sastrawi guna mengubah kata berimbuhan menjadi bentuk dasar .
Seluruh tahapan ini bertujuan meningkatkan kualitas representasi teks sebelum proses klasifikasi.
Pelabelan data dilakukan secara otomatis menggunakan pendekatan lexicon-based dengan kamus sentimen Bahasa Indonesia dari repositori masdevid .
Setiap token dicocokkan dengan kamus, kemudian dihitung skor polaritasnya untuk menentukan label akhir.
Dari total data, diperoleh 398 ulasan positif .
,7%) dan 195 ulasan negatif .
,1%), sedangkan 793 data netral .
,2%) tidak digunakan dalam proses pemodelan karena tidak memiliki kecenderungan sentimen yang jelas.
Tahap ekstraksi fitur menggunakan metode TF-IDF menghasilkan 212 fitur unik.
Kata dengan bobot tinggi pada sentimen positif seperti AubagusAy dan AumudahAy pengguna, sedangkan kata seperti AuloginAy dan AugagalAy mendominasi sentimen negatif.
Gambar 4.
9 Confunsion Matriks Naive Bayes 80-20 Pengujian dilakukan dengan empat skenario pembagian data .
:50, 60:40, 70:30, 80:.
Hasil klasifikasi menggunakan Support Vector Machine (SVM) menunjukkan peningkatan performa seiring bertambahnya data latih, dengan akurasi tertinggi 97%, precision 0,98, recall 0,96, dan F1-score 0,97 pada skema 80:20.
Sementara itu.
Naive Bayes memperoleh akurasi tertinggi 89%, precision 0,93, recall 0,83, dan F1-score 0,86 pada skema yang sama.
Evaluasi melalui confusion matrix menunjukkan bahwa SVM mampu mengklasifikasikan data secara lebih seimbang, dengan recall sentimen negatif mencapai 0,92, sedangkan Naive Bayes hanya 0,67.
Hasil ini menunjukkan bahwa SVM lebih unggul dalam menangani klasifikasi teks berdimensi tinggi karena mampu membentuk margin pemisah yang optimal antar kelas .
Temuan ini sejalan dengan penelitian sebelumnya yang menyatakan bahwa SVM memiliki performa lebih baik dibandingkan metode probabilistik dalam analisis sentimen .
Secara keseluruhan, penelitian ini membuktikan bahwa SVM lebih efektif dalam mengklasifikasikan sentimen ulasan aplikasi JobStreet dibandingkan Naive Bayes, serta pengembangan metode text mining dan natural language processing pada platform digital pencarian kerja.
IV.
Kesimpulan ISSN: p.
2301-475X e.
Berdasarkan hasil analisis dan pengujian yang telah dilakukan, dapat disimpulkan bahwa algoritma Support Vector Machine (SVM) pengguna aplikasi JobStreet dibandingkan Naive Bayes.
Pada skema pembagian data 80:20.
SVM mampu mencapai akurasi sebesar 97%, presisi 0,98, recall 0,96, dan F1-score 0,97, yang menunjukkan kemampuan model dalam mengenali sentimen positif maupun negatif secara seimbang dengan tingkat kesalahan yang sangat rendah.
Sementara itu.
Naive Bayes pada skema yang sama memperoleh akurasi 89%, presisi 0,93, recall 0,83, dan F1-score 0,86.
Perbedaan paling signifikan terlihat pada recall sentimen negatif, di mana SVM mencapai 0,92 sedangkan Naive Bayes hanya 0,67, sehingga dapat dikatakan bahwa SVM lebih unggul dalam menjaga keseimbangan klasifikasi antar label sentimen.
Berdasarkan temuan tersebut, penelitian selanjutnya disarankan untuk melakukan eksperimen dengan algoritma yang lebih modern seperti metode deep learning .
isalnya LSTM atau BERT) guna memperoleh perbandingan yang lebih komprehensif terhadap performa algoritma Selain itu, pengembangan fitur juga dapat dilakukan dengan mencoba teknik representasi teks lain seperti Word2Vec.
GloVe, atau FastText yang mampu menangkap konteks semantik secara lebih Penelitian berikutnya juga pendekatan klasifikasi tiga label .
ositif, negatif, dan netra.
dengan strategi penanganan ambiguitas yang lebih baik, sehingga analisis sentimen dapat dilakukan secara lebih lengkap tanpa menurunkan kinerja model.
Daftar Pustaka.