JTIKA.
Vol.
No.
September 2021
ISSN:2657-0327
DETEKSI SMS SPAM BERBAHASA INDONESIA MENGGUNAKAN
TF-IDF DAN STOCHASTIC GRADIENT DESCENT CLASSIFIER
(Indonesian SMS Spam Detection using TF-IDF and Stochastic Gradient Descent Classifie.
Ramaditia Dwiyansaputra*.
Gibran Satya Nugraha.
Fitri Bimantoro.
Arik Aranta Dept Informatics Engineering.
Mataram University Jl.
Majapahit 62.
Mataram.
Lombok NTB.
INDONESIA Email: rama@unram.
id, .
ibransn, bimo, arikarant.
@unram.
*Penulis Korespondensi Abstract Short Message Service (SMS) has evolved in the last few decades.
The simplicity of SMS makes this short message service attractive to use as a direct communication service on mobile devices.
As the popularity of this service increases, it also harms attacks on mobile devices such as SMS spam.
Spam SMS are short messages that the recipient doesn't want, such as advertisements and scams.
Spam SMS can overwhelm your inbox and make your mobile device experience less good.
One way to overcome this problem is to implement a machine learning model to automatically recognize and filter Spam SMS.
This research aims to build a machine learning model that provides higher accuracy for detecting SMS spam in Indonesian using the TF-IDF method and the Stochastic Gradient Descent Classifier.
Based on the test results, the model built can detect SMS spam and not spam with an accuracy of 97%.
Keywords: Klasifikasi Teks.
Sms Spam.
TF-IDF.
Stochastic Gradient Descent
*Penulis korespondensi
PENDAHULUAN
Short Message Service (SMS) atau layanan pesan singkat merupakan salah satu media komunikasi jarak jauh yang masih banyak digunakan pada era sekarang ini untuk mengirim pesan singkat.
Seiring dengan perkembangan layanan pesan singkat ini, muncul dampak negatif berupa serangan pada perangkat seluler seperti sms spam.
SMS spam merupakan pesan singkat yang tidak dikehendaki oleh penerima, contohnya seperti iklan dan penipuan .
SMS
Selain dapat menyebabkan kerugian akibat dari penipuan, sms spam ini juga dapat membanjiri kotak masuk dan membuat pengalaman penggunaan perangkat seluler menjadi kurang baik.
Beberapa upaya pencegahan yang dilakukan oleh pemerintah melalui Kementerian Komunikasi dan Informatika (Kominf.
dan Badan Regulasi Telekomunikasi Indonesia (BRTI) untuk mengatasi permasalahan sms spam ini antara lain yakni meminta sejumlah operator seluler untuk memberikan ID http://jtika.
id/index.
php/JTIKA/ khusus bagi penjual pulsa di seluruh Indonesia pada tahun 2015 .
Kemudian, pada tahun yang sama juga dikeluarkan ketentuan pelaksanaan registrasi pelanggan pra bayar melalui Surat Ketua BRTI Nomor:
326/BRTI/IX/2015 .
Namun, upaya-upaya yang telah dilakukan tersebut belum cukup untuk dapat mengatasi permasalahan sms spam ini.
SMS spam masih terus bermunculan dan banyak dikeluhkan oleh masyarakat .
Ae.
Salah permasalahan sms spam ini adalah dengan menggunakan teknik klasifikasi pembelajaran mesin .
achine learnin.
untuk menyaring sms spam tersebut secara otomatis.
Klasifikasi merupakan suatu proses untuk menemukan fungsi atau model yang dapat digunakan untuk mengenali ciri-ciri dari suatu kelas atau label .
alam hal ini adalah sms spam dan bukan spa.
dengan tujuan untuk memprediksi kelas dari objek yang belum diketahui kelasnya.
Jika model pembelajaran mesin yang dihasilkan dapat mengenali ciri sms spam dan bukan spam dengan baik, tentu cara JTIKA.
Vol.
No.
September 2021 ini akan sangat efektif digunakan untuk mengatasi permasalahan sms spam.
Penelitian tentang klasifikasi sms spam berbahasa Indonesia telah cukup banyak dilakukan sebelumnya.
Dalam penelitian-penelitian tersebut, metode-metode pembelajaran mesin seperti Support Vector Machine (SVM) .
Ae.
dan Nayve Bayes Classifier (NBC) .
, .
, .
menghasilkan performa yang baik, namun belum mencapai performa ideal.
Performa klasifikasi sms spam berbahasa Indonesia masih dapat ditingkatkan salah satunya dengan melakukan perbaikan dengan menerapkan metode yang dapat bekerja lebih baik dalam klasifikasi teks pada umumnya.
Salah satu metode yang memiliki performa yang baik dalam klasifikasi teks adalah metode Stochastic Gradient Descent (SGD) Classifier.
SGD merupakan metode optimasi sederhana namun efisien untuk mencari nilai koefisien untuk meminimalkan loss function pada skala besar contohnya seperti data teks.
Sedangkan.
SGD Classifier adalah metode yang menggunakan SGD dalam proses pembelajarannya.
Beberapa metode yang menggunakan SGD dalam proses pembelajarannya di antarannya adalah seperti metode Regresi Logistik.
Smoothed hinge loss classifier dan linear Support Vector Regression.
Performa metode SGD Classifier lebih baik dibandingkan dengan SVM dalam penelitian sistem deteksi berita hoax berbahasa Indonesia .
dan lebih juga baik dari metode SVM dan NBC dalam penelitian klasifikasi dokumen teks Bangla .
SGD Classifier juga memiliki performa yang baik saat dipilih sebagai metode-metode terbimbing untuk teks klasifikasi .
Metode SGD Classifier dinilai cocok untuk klasifikasi data teks yang memiliki multidimensi matriks .
emiliki banyak fitu.
dan cocok digabungkan dengan metode pembobotan fitur yang umum digunakan dalam klasifikasi teks yakni metode TF-IDF .
Berdasarkan uraian di atas, pada penelitian ini akan digunakan metode Stochastic Gradient Descent Classifier untuk deteksi sms spam berbahasa Indonesia.
Metode SGD Classifier akan digabungkan dengan metode TF-IDF sebagai pembobotan fitur.
Model yang diusulkan kemudian akan dibandingkan performanya dengan metode-metode yang memiliki performa terbaik dalam penelitian klasifikasi sms spam berbahasa Indonesia sebelumnya yakni metode Support Vector Machine dan Nayve Bayes Classifier.
TINJAUAN PUSTAKA
Penelitian tentang deteksi sms spam berbahasa Indonesia telah cukup banyak dilakukan sebelumnya.
http://jtika.
id/index.
php/JTIKA/ ISSN:2657-0327 Penelitian-penelitian tersebut menggunakan metodemetode machine learning yang cukup beragam dan memiliki performa yang cukup baik.
Dari sisi pembobotan fitur, metode TF-IDF yang paling banyak Pada penelitian .
dilakukan perbandingan metode klasifikasi C4.
KNN.
Nayve Bayes dan SVM untuk klasifikasi sms spam berbahasa Indonesia.
Metode pembobotan fitur yang digunakan adalah pembobotan fitur TF-IDF.
Jumlah dataset yang digunakan adalah sebanyak 100 sms berbahasa Indonesia yang terdiri dari masing-masing 50 sms spam dan bukan spam .
Teks pra-proses seperti case folding, normalisasi kalimat, stopword removal dan stemming .
enggunakan librari Sastraw.
dilakukan untuk membuat data sms menjadi terstruktur.
Kemudian 10-fold menghasilkan metode SVM yang memiliki tingkat akurasi yang paling tinggi yakni 94,06% kemudian diikuti oleh metode Nayve bayes.
C4.
5 dan KNN dengan akurasi berturut-turut yakni 86,1%, 85,86% dan 77,5%.
Pada penelitian .
dilakukan perbandingan antara metode SVM dan NBC dalam melakukan klasifikasi sms spam berbahasa Indonesia.
Metode pembobotan fitur yang digunakan adalah metode TF-IDF.
Data sms yang digunakan sejumlah 1143 data sms yang dibagi menjadi data pelatihan sejumlah 765 data dan data uji Hasilnya didapatkan bahwa metode NBC memiliki performa dalam recall dan presisi yang lebih baik dibandingkan dengan metode SVM yakni sebesar 94% dan 95% untuk masing-masing recall dan presisi untuk metode NBC.
Sedangkan untuk metode SVM dihasilkan nilai recall sebesar 92.
06% dan presisi Pada penelitian .
digunakan metode NBC dan pembobotan fitur TF-IDF untuk klasifikasi pesan sms spam berbahasa Inggris.
Metode algoritme Genetik juga digunakan untuk seleksi fitur.
Untuk dataset, pada penelitian ini digunakan data sms sejumlah 5572 sms berbahasa Inggris dari UCI Machine Learning Repository.
Dari penelitian ini dihasilkan bahwa metode seleksi fitur menggunakan algoritme Genetika dapat meningkatkan akurasi klasifikasi yakni yang awalnya tanpa seleksi fitur dihasilkan akurasi sebesar 39%, kemudian setelah menggunakan seleksi fitur akurasi yang dihasilkan meningkat menjadi 89.
Dari uraian beberapa penelitian sebelumnya di atas, didapatkan bahwa metode SVM dan NBC memiliki performa yang baik dalam melakukan klasifikasi sms spam berbahasa Indonesia.
Namun, performa tersebut belum mencapai performa ideal JTIKA.
Vol.
No.
September 2021 dan masih terus dapat ditingkatkan dengan melakukan perbaikan dari sisi pra-proses data sms, pembobotan fitur ataupun menerapkan metode yang dapat bekerja dengan lebih baik dalam klasifikasi teks pada Salah satu metode yang memiliki performa yang baik dalam klasifikasi teks adalah metode Stochastic Gradient Descent (SGD) Classifier.
SGD merupakan metode optimasi sederhana namun efisien untuk mencari nilai koefisien untuk meminimalkan loss function pada skala besar contohnya seperti data teks.
Sedangkan.
SGD Classifier adalah metode yang menggunakan SGD dalam proses pembelajarannya.
Beberapa metode yang menggunakan SGD dalam proses pembelajarannya di antarannya adalah seperti metode Regresi Logistik.
Smoothed hinge loss classifier dan linear Support Vector Regression.
Metode SGD Classifier digunakan dalam penelitian .
untuk mendeteksi berita hoax berbahasa Indonesia.
Hasilnya didapatkan bahwa metode SGD Classifier memiliki performa akurasi yang lebih baik dari metode SVM.
Metode SGD Classifier cocok untuk digabungkan dengan metode pembobotan fitur TF-IDF.
Pada penelitian tersebut, metode SGD Classifier dengan smoothed hinge loss menghasil peningkatan akurasi dan presisi sebesar 4% dan 20% masing-masing.
Dalam penelitian lainnya yakni penelitian .
metode SGD Classifier memiliki performa F1-score yang lebih baik dibandingkan dengan metode SVM dan NBC dalam klasifikasi dokumen teks Bangla.
Metode pembobotan TF-IDF digunakan dengan fitur bigram sehingga didapatkan sejumlah 350000 fitur dari 9 kategori artikel.
Metode SGD Classifier juga memiliki performa yang baik saat dipilih sebagai pembanding metode-metode pembelajaran terbimbing untuk teks klasifikasi yang dilakukan pada penelitian .
Dalam penelitian tersebut tidak digunakan metode pembobotan TF-IDF, melainkan hanya digunakan probalitas kemunculan dari term.
Beberapa korpus dataset yang digunakan untuk pengujian adalah Reuters Corpus.
Browns Corpus dan Movie-review Corpus.
Berdasarkan beberapa penelitian sebelumnya mengenai metode SGD Classifier di mana metode tersebut menghasilkan performa yang baik untuk klasifikasi teks, maka pada penelitian ini akan SGD Classifier menggabungkannya dengan metode TF-IDF untuk klasifikasi sms spam berbahasa Indonesia.
Kemudian model yang diusulkan tersebut akan dibandingkan performanya dengan metode-metode yang memiliki performa terbaik dalam penelitian klasifikasi sms spam http://jtika.
id/index.
php/JTIKA/ ISSN:2657-0327 berbahasa Indonesia sebelumnya yakni metode SVM dan NBC.
METODE PENELITIAN
Dataset Dataset yang akan digunakan pada penelitian ini berjumlah 1143 data sms berbahasa Indonesia yang didapatkan dari penelitian .
Data sms terdiri dari 2 kategori yakni kategori yakni kategori sms normal .
ms bukan spa.
dengan jumlah 569 data sms dan kategori spam dengan jumlah 574 data sms.
Alur Klasifikasi Sms Spam Pada Gambar 1 menunjukkan diagram proses klasifikasi sms spam yang akan dilakukan pada penelitian ini.
Proses klasifikasi terbagi menjadi 2 proses yaitu proses pelatihan dan proses pengujian.
Pada proses awal yaitu pelatihan, konten teks sms digunakan sebagai input sistem akan diolah agar menjadi teks terstruktur dan dapat diproses dengan baik oleh metode pembelajaran mesin.
Proses pelatihan ini akan menghasilkan sebuah model pembelajaran yang akan digunakan untuk proses klasifikasi sms spam.
Proses selanjutnya yakni proses pengujian bertujuan untuk mengevaluasi model yang dihasilkan pada proses pelatihan.
JTIKA.
Vol.
No.
September 2021
Proses Pelatihan Dokumen
Latih
ISSN:2657-0327
Proses Pengujian Dokumen Uji Pra-proses Cleaning Tokenizing BOW Model Stopword Removal Pembobotan Fitur Normalisasi Vector Pembelajaran Klasifikasi Model Pembelajaran Hasil Prediksi pemisahan kata ini adalah metode unigram yakni pemisahan menjadi kata tunggal.
Sebelum dilakukan proses tokenizing, biasanya akan dilakukan proses penyeragaman kata menjadi huruf kecil atau huruf besar semua sehingga dapat menghindari perbedaan pengenalan kata AuKAMUAy dengan AukamuAy oleh sistem Stopword Removal merupakan proses untuk menghilangkan kata-kata umum yang tidak terlalu berpengaruh pada teks.
Contoh kata-kata tersebut dalam Bahasa Indonesia adalah kata AudanAy.
AukamuAy.
AuiniAy.
AuituAy dan sebagainya.
Pada penelitian ini digunakan stopword yang didapatkan dari publik repositori .
yang umum digunakan dalam klasifikasi teks secara umum.
Keluaran tahapan pra-proses ini adalah dokumen teks yang terstruktur yang disimpan dalam model representasi BOW atau AuBag-of-WordAy.
Representasi ini merupakan model yang banyak digunakan dalam klasifikasi teks karena kemudahan penggunaannya untuk tujuan klasifikasi .
Pada Gambar 2 dapat dilihat visualisasi model representasi BOW.
merupakan dokumen teks .
alam penelitian ini adalah sm.
, sedang Ti merupakan token hasil dari pra-proses.
Gambar 1.
Diagram Proses Klasifikasi Sms Spam Pra-proses Data Teks Pra-proses merupakan tahapan awal pada klasifikasi sms spam untuk mempersiapkan teks yang awalnya tidak terstruktur ke dalam bentuk tokentoken sehingga dapat diproses dengan baik oleh mesin Token-token atau yang sering disebut juga fitur merupakan suatu ciri yang dapat diambil dari sebuah objek yang sebisa mungkin dapat merepresentasikan objek tersebut.
Dalam dokumen teks, fitur yang dimaksud adalah konten teks yang terkandung dalam sms yang diambil dalam bentuk kata atau gabungan kata.
Terdapat 3 .
tahapan yang dilakukan dalam proses ini yaitu tahapan Cleaning.
Tokenizing, dan Stopword Removal.
Cleaning merupakan suatu proses untuk menghilangkan karakter-karater yang merupakan noise dari data teks sms.
Pada penelitian ini akan fokus menggunakan konten teks sms sebagai fitur klasifikasi, maka karakter seperti emoticon akan dihilangkan pada proses ini.
Tokenizing merupakan proses pemisahan deretan kata di dalam kalimat atau paragraf yang ada pada konten teks menjadi kata tunggal atau beberapa Metode yang umum digunakan untuk http://jtika.
id/index.
php/JTIKA/ Gambar 2.
Representasi dengan model bag-of-word Metode Pembobotan Fitur Token atau kata yang dihasilkan pada tahapan praproses perlu diberikan bobot yang dapat merepresentasikan seberapa besar pengaruh kata tersebut terhadap suatu dokumen.
Pemberian bobot yang sesuai akan memberikan pengaruh yang signifikan terhadap performa mesin klasifikasi teks.
Metode pembobotan fitur yang umum digunakan dalam penelitian sebelumnya adalah TF-IDF atau Term Frequency - Inverse Document Frequency.
Metode TFIDF menggunakan 2 parameter pembobotan yaitu pembobotan lokal dengan menggunakan ycyceycn,yc dan pembobotan global dengan menggunakan ycnyccyceycn .
ycyceycn,yc merupakan bobot yang didapat dari frekuensi JTIKA.
Vol.
No.
September 2021
ISSN:2657-0327
kemunculan kata i dalam dokumen j.
Sedangkan ycnyccyceycn merupakan bobot yang didapatkan dengan mempertimbangkan jumlah kemunculan kata i .
ayaycn ) pada keseluruhan dokumen N.
Selanjutnya, bobot total didapatkan dengan melakukan perkalian nilai bobot lokal dengan nilai bobot global.
Persamaan .
menunjukkan persamaan matematis metode TF-IDF yang digunakan pada.
ycnyccyceycn = log ycycn,yc = ycyceycn,yc ycu .
og yaya Normalisasi Setiap dokumen teks memiliki panjang dokumen yang berbeda-beda.
Variasi panjang dokumen teks ini dapat menyebabkan permasalahan sebagai berikut:
Besarnya frekuensi term atau kata Pada dokumen yang panjang, kata yang sama cenderung muncul berulang kali sehingga menyebabkan term frequency cenderung besar.
Besarnya term frequency mengakibatkan ratarata bobot kata menjadi tinggi dan meningkatkan nilai relevansi kata pada dokumen.
Banyaknya term atau kata Dalam dokumen yang panjang, sering ditemukan sejumlah term atau kata yang berbeda.
Hal ini mengakibatkan meningkatnya sejumlah relevansi kata pada dokumen.
Untuk mengurangi pengaruh perbedaan panjang dokumen ini, pada pembobotan kata digunakan satu faktor lagi yang disebut sebagai normalisasi panjang Normalisasi yang sering digunakan adalah normalisasi dengan cara membagi setiap bobot kata .
omponen vekto.
dengan panjang dokumen atau vektor .
iasanya digunakan norm L.
sehingga memiliki persamaan seperti yang ditunjukkan pada Persamaan .
co, yc = yc yc.
cyco ,yccyc Ocyc= .
c yc .
cyco ,yccyc .
Pembelajaran dan Proses Klasifikasi Tujuan proses Pembelajaran ini adalah untuk membangun model pembelajaran yang akan digunakan dalam proses Klasifikasi.
Algoritme pembelajaran yang digunakan pada penelitian ini adalah Stochastic Gradient Descent (SGD) Classifier.
SGD merupakan metode optimasi sederhana berbasis statistik yang efisien digunakan mencari nilai koefisien http://jtika.
id/index.
php/JTIKA/ untuk meminimalkan loss .
function pada skala Saat diberikan suatu function .
yang memiliki sekumpulan parameter.
SGD memulai dengan bobot nilai parameter awal, kemudian pada setiap iterasi akan bergerak menuju nilai parameter dengan bobot yang baru yang memiliki titik minimum untuk fungsi tersebut.
Proses pencarian titik minimum menggunakan metode penurunan dalam kalkulus untuk mencari garis lurus yang mendekati nilai Proses algoritme SGD adalah dengan menemukan nilai yang dapat meminimalkan fungsi J().
Untuk menentukan nilai awal digunakan algoritme pencarian, kemudian pada setiap iterasi nilai agar terus diperbaharui sampai menemukan titik minimum atau nilai J yang paling minimum.
Proses pembaharuan nilai pada setiap iterasi menggunakan Persamaan .
Pembaharuan dilakukan secara bersamaan untuk semua nilai j = 0.
A, n.
Variable merupakan learning rate yang mengatur seberapa besar pembaharuan nilai.
Persamaan nilai J() dapat dilihat pada Persamaan .
, di mana L merupakan loss function yang digunakan pada data pelatihan .
cu , yc .
A, .
cu , yc , dan R merupakan regularisasi atau penalty terhadap kompleksitas model.
yc ya.
u = yuyc = yuyc Oe yu ycu ya.
Ocycn= ya.
cycn , yce.
cuycn ) yuycI.
HASIL DAN PEMBAHASAN Pada bagian ini dilaporkan hasil penelian untuk mengukur performa model yang diusulkan yakni model untuk mendeteksi sms spam berbahasa Indoensia menggunakan TF-IDF dan SGD Classifier dengan 3 jenis loss function berbeda yakni smooted hinge loss .
odified hube.
dan logistic regression .
Performa model yang diusulkan akan dibandingkan dengan metode terbaik yang digunakan pada penelitian sebelumnya yaitu metode SVM dan NBC.
Metode-metode tersebut diimplementasikan ulang menggunakan bahasa pemrograman Python dengan bantuan pustaka Scikit-learn .
Untuk penjelasan mengenai implementasi metode SVM dan NBC untuk melakukan klasifikasi klasifikasi sms spam berbahasa Indonesia dapat dilihat pada penelitian .
, .
, .
Selanjutnya, akan dibandingkan juga terkait pengaruh penggunaan stopword dalam pra-proses data teks dalam klasifikasi sms spam berbahasa Indonesia.
Untuk evaluasi performa digunakan metode K-fold Cross Validation dengan nilai k=10 dan dilakukan JTIKA.
Vol.
No.
September 2021
ISSN:2657-0327
pengulangan sebanyak 30 kali .
-Stage 10-Cross Fold Validatio.
Metrik pengukuran yang digunakan untuk pengukuran performa ini adalah akurasi, presisi dan recall seperti yang terlihat pada Persamaan .
, .
Metrik tersebut dihitung berdasarkan nilai dari true positive (TP), false positive (FP), true negative (TN) dan false negative (FN) pada tabel confusion matrix seperti yang terlihat pada Tabel I.
TABEL I.
Confusion Matrix.
Kategori Prediksi
Spam
Kategori Sebenarnya Spam
Non Spam
True Positive (TP) False Negative (FN) True
Negative (TN) Non False Positive Spam
(FP)
yaycoycycycaycycn = ycEycyceycycnycycn = ycIyceycaycaycoyco = ycE ycE yaycE ya ycE ycE yaycE ycE ycE ya .
Gambar 3.
Perbandingan Metode SGD Classifier dengan Metode SVM dan NBC tanpa menggunakan Stopword Dari hasil pada Gambar 3, dapat terlihat juga bahwa metode NBC memiliki nilai recall yang paling tinggi namun sebaliknya memiliki nilai presisi yang paling rendah di antara metode yang diujikan.
Hal ini dapat menunjukkan bahwa metode NBC memiliki nilai False Positif Rate (FPR) yang paling tinggi di antara metode-metode yang diujikan seperti yang terlihat pada Gambar 4.
Nilai FPR menunjukkan bahwa metode NBC memiliki tingkat kesalahan yang paling tinggi dalam mengidentifikasi kelas negatif .
ms normal atau bukan spa.
sebagai kelas positif .
ms spa.
Nilai FPR yang tinggi ini dapat menyebabkan over blocking yakni sistem akan cukup banyak mendeteksi sms normal .
ms bukan spa.
menjadi sms spam.
Hal ini krusial karena akan merugikan pengguna jika sms normal yang dikirimkan akan difilter karena dideteksi sebagai sms Pada Gambar 4, metode NBC memiliki nilai FPR sebesar 5,7% sedangkan untuk metode nilai FPR cenderung tidak jauh berbeda, namun metode SGD dengan loss function mod_huber memiliki performa yang paling baik yakni 2,8%.
Pengujian Tanpa Stopword Gambar perbandingan metode SGD Classifier dengan metode SVM dan NBC.
Dari hasil tersebut dapat dilihat bahwa performa beberapa metode yang diujikan memiliki performa yang tidak jauh berbeda.
Namun, secara rata-rata metode SGD Classifier dengan loss function logistik .
memiliki performa terbaik dalam hal akurasi yakni 97%.
Untuk performa dalam hal recall dan presisi secara rata-rata metode SGD Classifier dengan loss function logistik juga memiliki performa terbaik dengan rata-rata 97.
Gambar 4.
Perbandingan nilai False Positif Rate (FPR) Pengujian dengan Stopword Hasil pengujian performa model klasifikasi sms spam dengan menggunakan stopword yang bertujuan untuk mengurangi jumlah fitur umum memiliki hasil yang lebih rendah dibandingkan dengan tanpa penggunaan stopword.
Seperti yang terlihat pada Gambar 5, secara rata-rata model yang diujikan mengalami penurunan performa sebesar 0,5% untuk akurasi, 0,6% untuk recall dan 0,3% untuk presisi.
Penurunan performa model klasifikasi ini dapat disebabkan karena penggunaan data stopword yang diperoleh dari publik repositori dataset yang kurang http://jtika.
id/index.
php/JTIKA/ JTIKA.
Vol.
No.
September 2021 merepresentasikan fitur-fitur umum dalam klasifikasi sms spam karena merupakan stopword untuk klasifikasi teks berbahasa Indonesia secara umum.
Konten teks sms spam cukup pendek, jadi penggunaan stopword yang cukup banyak memungkinkan terhapusnya fitur kata penting yang dapat digunakan untuk deteksi sms spam atau sms normal dengan cukup baik.
ISSN:2657-0327
2 Saran Untuk penelitian selanjutnya perlu digunakan daftar stopword yang lebih sesuai dengan data sms Selanjutnya, dalam hal pembobotan fitur, dapat dicoba metode pembobotan lain selain TF-IDF yang cukup umum digunakan seperti metode pembobotan fitur terbimbing atau metode pembobotan fitur yang memanfaatkan informasi kelas dari dataset sms spam.
DAFTAR PUSTAKA