Institut Riset dan Publikasi Indonesia (IRPI) MALCOM: Indonesian Journal of Machine Learning and Computer Science Journal Homepage: https://journal.
id/index.
php/malcom Vol.
5 Iss.
3 July 2025, pp: 981-989
ISSN(P): 2797-2313 | ISSN(E): 2775-8575
Comparison of Nayve Bayes and Support Vector Machine in Sentiment Analysis of Confiscation of Corrupt Assets on Twitter Perbandingan Nayve Bayes dan Support Vector Machine Dalam Analisa Sentimen Tentang Penyitaan Aset Koruptor di Twitter Ananda Sholekhah1*.
Muntahanah2 Program Studi Teknik Informatika.
Universitas Muhammadiyah Bengkulu.
Indonesia E-Mail: 1anandasholekhah1@gmail.
com, 2muntahanah@umb.
Received Apr 28th 2025.
Revised Jul 17th 2025.
Accepted Jul 21th 2025.
Available Online Jul 31th 2025.
Published Jul 31th 2025 Corresponding Author: Ananda Sholekhah Copyright A 2025 by Authors.
Published by Institut Riset dan Publikasi Indonesia (IRPI) Abstract Sentiment analysis is one approach used to understand public perception of social issues and government policies through textual data.
This study examines Indonesian public opinion toward President Prabowo SubiantoAos statement regarding the confiscation of corruptorsAo assets, which questioned.
AuIs it fair for the children to suffer?Ay.
The dataset was collected from Twitter, comprising 1,561 tweets gathered between April 9 and April 25, 2025, using relevant The analysis involved preprocessing.
TF-IDF vectorization, and classification using Nayve Bayes and Support Vector Machine (SVM) algorithms.
Model performance was evaluated using a confusion matrix and four evaluation metrics: accuracy, precision, recall, and F1-score.
The results indicate that SVM outperformed Nayve Bayes, achieving an accuracy of 70.
51% and an F1-score of 0.
69, while Nayve Bayes recorded 66.
34% accuracy and 0.
66 F1-score.
Most of the sentiments were classified as positive, reflecting majority public support for the asset confiscation policy despite its impact on the perpetratorsAo families.
This research demonstrates the effectiveness of machine learning-based classification in mapping public opinion on controversial policy issues through social media platforms.
Keyword: Asset Forfeiture.
Corruptors.
Nayve Bayes.
Sentiment Analysis.
Support Vector Machine Abstrak Analisis sentimen merupakan salah satu pendekatan dalam memahami persepsi publik terhadap isu-isu sosial dan kebijakan pemerintah melalui data teks.
Penelitian ini mengkaji opini masyarakat Indonesia terhadap pernyataan Presiden Prabowo Subianto mengenai penyitaan aset koruptor yang berbunyi AuApakah adil anaknya menderita?Ay.
Data dikumpulkan dari Twitter sebanyak 1.
561 tweet dalam rentang waktu 9 hingga 25 April 2025 dengan menggunakan kata kunci yang relevan.
Proses analisis dilakukan melalui tahap prapemrosesan, pembobotan TF-IDF, dan klasifikasi menggunakan algoritma Nayve Bayes dan Support Vector Machine (SVM).
Evaluasi performa model dilakukan menggunakan confusion matrix serta empat metrik evaluasi, yaitu akurasi, presisi, recall, dan F1-score.
Hasil menunjukkan bahwa SVM unggul dengan akurasi 70,51% dan F1-score 0,69, sedangkan Nayve Bayes memperoleh akurasi 66,34% dan F1-score 0,66.
Sentimen terbanyak berasal dari kelas positif, mengindikasikan mayoritas publik mendukung penyitaan aset koruptor meskipun berdampak pada keluarganya.
Penelitian ini memperlihatkan efektivitas pendekatan machine learning dalam memetakan opini publik terhadap isu kebijakan kontroversial di media sosial.
Kata Kunci: Analisis Sentimen.
Koruptor.
Nayve Bayes.
Penyitaan Aset.
Support Vector Machine.
PENDAHULUAN
Metode yang digunakan bagi mengetahui opini publik terhadap suatu topik, seperti isu-isu sosial, kebijakan pemerintah, maupun layanan publik ialah analisis sentimen yang dimanfaatkan sebagai sarana evaluasi rancangan kebijakan yang telah diusulkan oleh presiden Prabowo Subianto terhadap penyitaan asset koruptor, dengan cara mengumpulkan pandangan publik lewat platform daring terutama pada platform Twitter .
Twitter merupakan satu diantara platform daring sangat sering yang dipakai oleh warga Indonesia bagi menyampaikan pendapat politik mereka secara terbuka dan real-time.
Ay DOI: https://doi.
org/10.
57152/malcom.
MALCOM-05.
: 981-989
Pernyataan Prabowo mengenai penyitaan aset koruptor AuApakah adil anaknya menderita?Ay menimbulkan perdebatan luas pada platform digital.
Penelitian saat ini dilakukan demi menganalisis sentimen publik mengenai isu yang dimaksud dengan menerapkan metode analisis sentimen berbasis machine learning, sebagaimana Nayve Bayes serta Support Vector Machine (SVM).
Data diperoleh lewat Twitter selama periode 9 hingga 25 April 2025 menggunakan kata kunci yang relevan, dan diproses melalui tahapan prapemrosesan dan representasi TF-IDF .
Penelitian terdahulu menunjukkan bahwa analisis sentimen terhadap isu-isu politik di media sosial mampu merepresentasikan persepsi masyarakat dan memberikan indikasi terhadap kemungkinan pengaruhnya terhadap arah kebijakan pemerintah .
Namun, hingga saat ini belum ada penelitian komprehensif yang menganalisis sentimen masyarakat khusus terhadap dilema moral antara penegakan hukum dan dampak tidak langsung terhadap anggota keluarga yang tidak bersalah, terutama dalam konteks pernyataan Prabowo tersebut.
Berbagai studi telah mengimplementasikan penilaian sentimen terkait isu sosial melalui metode Nayve Bayes dan SVM Raniya dan Nuri .
Dalam penelitiannya terhadap opini publik mengenai kinerja pemerintahan memakai model pembelajaran mesin Nayve Bayes dan SVM menunjukkan bahwa tingkat akurasi mencapai 82% dimiliki oleh SVM yang merupakan akurasi tertinggi.
Sedangkan Naive Bayes memperoleh akurasi sebesar 80%.
Studi serupa oleh Rima et al .
terkait dengan isu vaksinasi COVID-19 di Twitter, hasil penelitian juga Menandakan bahwa algoritma SVM memberikan hasil terbaik dari segi akurasi 83,33% jika dibandingkan dengan Nayve Bayes yang memiliki akurasi 70,00%.
Penelitian oleh Muhammet et al.
juga menyimpulkan bahwa SVM menghasilkan akurasi lebih tinggi dalam analisis sentimen media sosial secara real-time.
Sementara itu, studi oleh Indraet al.
pada data Twitter Marketplace menemukan bahwa SVM lebih efektif daripada Nayve Bayes, khususnya terkait menyelesaikan penyaluran kelas yang mana belum Meskipun demikian, masih sangat sedikit penelitian yang menerapkan kedua algoritma ini dalam konteks isu yang memiliki dimensi etis serta moral yang kompleks, seperti penyitaan aset koruptor.
Berdasarkan kesenjangan penelitian sebelumya, tujuan dari studi ini bagi mengevaluasi sentimen .
ositif, negatif, netra.
terhadap pernyataan Prabowo terkait penyitaan aset koruptor serta dampaknya terhadap keluarga koruptor, memanfaatkan algoritma Nayve Bayes serta SVM sebagai Algoritma klasifikasi .
Dalam Riset ini, informasi dikumpulkan dari media sosial Twitter memakai kata kunci seperti "aset koruptor", "anak koruptor", serta "penyitaan aset", dalam rentang waktu 9 April 2025 hingga 25 April 2025.
Data ini mencerminkan opini masyarakat terhadap pernyataan Prabowo serta memungkinkan analisis sentimen dilakukan secara sistematis.
Penelitian ini diarahkan bagi mendalami aspek-aspek terkait perasan masyarakat terkait politik di platform Twitter, dengan memperhatikan aspek-aspek seperti accuracy, precision, recall.
F1-Score serta confusion matrix, kajian ini diharapkan sanggup memjadi bantuan bagi penelitian selanjutnya dalam memilih klasifikasi yang paling efektif antara Nayve Bayes serta SVM Setiap algoritma juga dioptimalkan melalui SMOTE serta hyperparameter tuning bagi mencapai performa yang terbaik.
Hasil studi ini dapat berfungsi sebagai referensi bagi pemilihan algoritma yang paling sesuai bagi menganalisis opini publik dalam konteks kebijakan politik yang bersifat sensitif secara sosial serta moral.
BAHAN DAN METODOLOGI PENELITIAN
Penelitian ini memakai metode analisis sentimen berbasis machine learning bagi menganalisis sentimen publik terhadap pernyataan Presiden Prabowo Subianto terkait penyitaan aset koruptor melalui penggunaan proses komputasi Nayve Bayes serta SVM.
Strategi ini diambil sebab kecakapannya terkait melakukan analisis basis data teks dalam skala besar dengan cara yang objektif serta terukur.
Data dikumpulkan melalui API Twitter memakai pustaka Python Tweepy, dengan pencarian berdasarkan kata kunci seperti Auaset koruptorAy.
Auanak koruptorAy, serta Aupenyitaan asetAy.
Dalam rentang waktu pengambilan data ditetapkan dari tanggal 9 April hingga 25 April 2025.
Gambar 1.
Langkah-langkah Analisis Sentiment Perbandingan Nayve Bayes dan Support Vector Machine.
(Sholekhah and Muntahanah, 2.
ISSN(P): 2797-2313 | ISSN(E): 2775-8575 Pada Gambar 1 proses penelitian ini melibatkan beberapa fase utama, dimulai dengan pengumpulan dataset melalui Twitter API memakai pustaka Python Tweepy, dengan memakai pencarian kata kunci yang Data yang diperoleh akan melewati prapemrosesan, mencakup case folding, cleansing, tokenizing, stopword removal, serta stemming bagi meningkatkan kualitas teks bagi analisis .
Selanjutnya, teks yang telah disempurnakan diubah menjadi format numerik memakai pendekatan Term Frequency-Inverse Document Frequency (TF-IDF), yang menelaah ukuran kontribusi frasa terkait salah satu teks .
Setelah itu, data dikategorikan memakai dua machine learning yakni Nayve Bayes serta SVM, yang keduanya telah Menyatakan keefektifannya dalam analisis sentiment .
Hasil dari klasifikasi masing-masing model kemudian divisualisasikan melalui grafik bagi menggambarkan distribusi sentimen serta kinerja masing-masing algoritma.
Fase terakhir melibatkan analisis hasil, membandingkan performa kedua model berdasarkan ukuran penilaian seperti accuracy, precision, recall.
F1-score, serta confusion matrix, yang berujung pada suatu kesimpulan.
Pengambilan Data/Crawling Data Tweepy Python digunakan sebagai modul, data dikumpulkan dari platform Twitter melalui Twitter API.
Dataset dikumpulkan dengan memanfaatkan kata kunci yang terkait dengan pernyataan Presiden Prabowo Subianto, termasuk Auaset koruptorAy.
Auanak koruptorAy, serta Aupenyitaan asetAy.
Sebanyak 1.
561 tweet berhasil dikumpulkan selama proses pengambilan data, yang berlangsung antara 9 April serta 25 April 2025.
Tweet-tweet ini menjadi sumber informasi utama bagi prosedur analisis sentiment yang dilakukan pada penelitian ini.
Preprocessing Data Setelah semua dataset terkumpul, tahap selanjutnya melakukan pengolahan terhadap data yang telah Tahap ini bertujuan untuk menata serta memperjelas informasi agar dapat diolah oleh algoritma machine learning secara lebih efisien dan akurat.
Dataset awal terdiri dari 1.
584 tweet yang dikumpulkan melalui API Twitter.
Setelah melalui proses preprocessing, sebanyak 1.
561 tweet berhasil dipertahankan dan siap digunakan untuk proses klasifikasi.
Proses pengolahan awal mencakup cleansing, case folding, stopword removal, stemming serta normalization .
Dengan proses ini, dimensi data menjadi lebih terstruktur serta kata-kata yang mempunyai arti yang sama dapat dikelompokkan bersama, maka dapat meningkatkan efektivitas dalam proses klasifikasi.
TF-IDF
Teknik ekstraksi fitur TF-IDF digunakan bagi Menilai setiap kata Frekuensinya pada arsip dan seluruh korpus.
Kata yang dominan terkait sebuah berkas namun minim terlihat pada berkas lainnya cenderung memperoleh bobot lebih besar karena merepresentasikan kekhasan isi dokumen .
Proses ini diperlukan karena istilah dapat berupa kata atau frasa.
Agar dokumen atau teks dapat dikenali dalam konteks sistem, maka dokumen atau teks tersebut harus diberi bobot dalam bentuk nilai biner.
Pembobotan TF-IDF dapat diterapkan secara efektif melalui kelas TfidfVectorizer yang tersedia dalam pustaka Sklearn di Python.
Wij=tfij y log ( ) yccyce Wij merupakan bobot TF-IDF bagi term ke-I terkait berkas ke-j, sedangkan tfij menyatakan Frekuensi term i dalam arsip j.
Nilai n mempresentasikan jumlah total serta dfi ialah jumlah dokumen yang memuat term i.
Nayve Bayes Modeling yang pertama kali dilakukan dengan memakai algoritma Nayve Bayes dengan pendekatan Multinomial Nayve Bayes, yang paling umum dimanfaatkan dalam klasifikasi teks.
Dasar dari algoritma ini ialah Teorema Bayes, yang memakai distribusi frekuensi dari atribut bagi menentukan kemungkinan data termasuk dalam kelas tertentu.
Multinomial Nayve Bayes akan menentukan kemungkinan sebuah tweet Terhitung dalam salah satu dari tiga kategori sentimen seperti positif, negatif, serta netral berdasarkan distribusi kata pada dokumen pelatihan ketika berhadapan dengan data teks yang telah direpresentasikan dengan TF-IDF.
Kemudahan penggunaan model, waktu pelatihan yang cepat, serta kinerja kategorisasi teks yang kuat menyebabkan model ini dipilih .
Agar menangani ketimpangan kelas pada dataset.
Teknik Synthetic Minority Over-sampling Technique (SMOTE) ini diimplementasikan pada data pelatihan.
SMOTE beroperasi bersama mendistribusikan data kelas minoritas agar menjadi lebih seimbang .
MALCOM - Vol.
5 Iss.
3 July 2025, pp: 981-989 MALCOM-05.
: 981-989
aycn | yc.
= ycE.
Di mana P.
aycn | yc.
adalah probabilitas jika dokumen ycu bagian dari pada kelas yaycn.
Nilai P.
aycn | yc.
merupakan probabilitas dokumen ycu muncul dalam kelas yaycn, sedangkan P.
menunjukkan probabilitas awal .
berdasarkan kelas yaycn yaitu seberapa besar kemungkinan suatu dokumen berasal dari kelas tersebut sebelum melihat fitur pada dokumen.
Sementara itu, ycE.
ialah probabilitas keseluruhan berdasarkan dokumen ycu muncul pada seluruh data.
Persamaan ini menjadi dasar dalam menentukan kelas paling mungkin bagi suatu dokumen teks berdasarkan distribusi data pelatihan yang tersedia.
Support Vector Machine (SVM) Dilakukan pemodelan pada metode tersebut memakai metode SVM melalui karnel linear yang dianggap paling sesuai bagi data berdimensi tinggi seperti representasi teks dari TF-IDF .
SVM
menentukan bidang pemisah efektif demi mengelompokkan data menuju kategori jenis kelas yang variatif secara maksimal.
Pemodelan ini dipilih karena kemampuannya mengatasi data kompleks serta memberikan akurasi tinggi dalam klasifikasi teks.
Tujuan utama SVM ialah memaksimalkan margin antara kelas yang berbeda agar prediksi lebih optimal.
Pada metode ini hyperparameter tuning diterapkan bagi mengoptimalkan performa model.
=sign.
umycuycn =1ye iaiK.
cu i, yc.
adalah fungsi prediksi yang menentukan kelas positif, negatif atau netral berdasarkan hasil Variabel ye i merupakan label kelas dari data latih ke-i, ai merupakan bobot hasil optimasi K.
cu i, yc.
adalah peran kernel yang mengkalkulasi kemiripan pada kedua data latih serta data uji, serta b adalah bias.
Hasil dari fungsi ini menentukan apakah data diklasifikasikan ke dalam kelas positif atau negatif berdasarkan tanda dari outputnya.
Penggunaan kernel linear dipilih lantaran sejalan melalui karakter data teks berdimensi signifikan serta representasi sparse seperti hasil ekstraksi fitur dari TF-IDF.
Confusion Matrix Dalam penilaian model dilakukan bagi menilai kinerja algoritma klasifikasi terhadap data uji dan data Evaluasi confusion matrix dimanfaatkan dalam penelitian ini, tabel yang menyajikan perbandingan antara hasil prediksi model dan label aktual dari data.
Confusion matrix menyajikan pemahaman komprehensif seputar keseluruhan perkiraan yang akurat serta keliru dari masing-masing kelas .
Pada klasifikasi multikelas dengan tiga kelas, yaitu 1 .
, 0 .
, dan 2 .
, confusion matrix berbentuk matriks 3y3 yang memetakan jumlah prediksi benar dan salah antar kelas.
Elemen diagonal dari matriks merepresentasikan prediksi yang akurat untuk masing-masing kelas, sedangkan elemen nondiagonal menunjukkan kesalahan dalam pengelompokan.
Secara umum.
True Positive (TP) adalah jumlah data dari suatu kelas yang diprediksi dengan benar.
False Positive (FP) adalah jumlah data dari kelas lain yang salah diprediksi sebagai kelas tersebut.
False Negative (FN) adalah jumlah data dari kelas tersebut yang salah diprediksi sebagai kelas lain, dan True Negative (TN) adalah jumlah data dari kelas lain yang diprediksi dengan benar bukan sebagai kelas tersebut.
Berdasarkan nilai-nilai confusion matrix tersebut, berikut formula matrix accuracy, precision, recall, dan F1-score dihitung berikut ini:
1 Accuracy Menghitung proporsi total prediksi yang benar terhadap semua dataset.
Metrik ini memberikan gambaran umum kinerja model, namun bisa menjadi kurang representatif jika data tidak seimbang.
Accuracy = ycNycE ycNycA ycNycE yaycE yaycA ycNycA 2 Precision Mengukur proporsi data yang diprediksi positif dan yakni seberapa banyak dari data yang diprediksi positif ternyata benar-benar progresif.
Precision = ycNycE ycNycE yaycE 3 Recall Atau sensitivitas menunjukkan kapasitas model saat mengidentifikasi seluruh data aktual positif.
Perbandingan Nayve Bayes dan Support Vector Machine.
(Sholekhah and Muntahanah, 2.
ISSN(P): 2797-2313 | ISSN(E): 2775-8575
Recall = ycNycE ycNycE yaycA 4 F1-Score Ukuran kinerja yang menyatukan precision dan recall dalam satu metrik harmonis, yang memberikan penilaian seimbang antara keduanya.
Cocok digunakan ketika distribusi data tidak seimbang.
F1-Score =2 ycEycyceycaycnycycnycuycu y ycIyceycaycaycoyco
ycEycyceycaycnycycnycuycu ycIyceycaycaycoyco
HASIL DAN PEMBAHASAN
Pengumpulan Dataset Pendataan terkait isu penyitaan aset koruptor dilakukan melalui media sosial Twitter dengan memanfaatkan API resmi dari platform tersebut.
Proses ini dijalankan memakai pustaka Python Tweepy di lingkungan Google Colab guna mempermudah proses akses data serta penyimpanan secara otomatis.
Potongan kode pada Gambar 2 menunjukkan proses autentikasi ke Twitter API serta pengambilan tweet berdasarkan kata kunci tertentu:
Gambar 2.
Potongan Source Code Pengambilan Dataset Yang kemudian dataset tersebut dikumpulkan serta disimpan dalam file prabowo.
csv agar mempermudah proses pengolahan lebih lanjut.
Data yang tersimpan kemudian digunakan sebagai dasar bagi tahap preprocessing dan analisis sentimen.
Hasil dari potongan source code dapat dilihat pada Tabel 1 yang merupakan tampilan Excel dengan format CSV.
Tabel 1.
Tampilan Dataset Twitter Tanggal Apr 12 Apr 12 Apr 12 Username Kyoutachibana kakakUly Apr 12 LennaLenno Apr 12 LennaLenno Apr 12 LennaLenno Full Text @txtdrimedia Gemes banget dah.
Tulil ny di batasin bisa? tulil mulu perasaan @txtdrimedia Weleehh.
pertimbantidakn macam apaan ini.
@txtdrimedia Memang kehidupan anak para koruptor bakalan lebih miris daripada kehidupan orang fakir miskin.
@udamandi @txtdrimedia Karena lo bukan ahli hukum dan bukan bagian dari org yang terlibat makanya lu tidakmpang ngomong gt.
Lu kira hukum itu sesimple emosi lu yang dangkal? Lu kira ah gua marah nih hukum mati dia! Gt doang bikin UU? Tolol ih @BukanKaumMuna @txtdrimedia Ini pola pikir yang harus diciptakan yang belum korupsi nah yang udah korup? Ini kan lg ngomongin yang udh korup.
Ginana sih lu @Yudhamaru @txtdrimedia Klo sudut pandang ini setuju.
PR nya ahli2 hukum buat merumuskan UU nya dan mentidaktur sistem perampasan asetnya ntidaktur penyelidikannya jutidak.
PR besar bgt ini.
Klo mau tidakmpang emg dihukum mati aja tapi kan apa yakin dia b MALCOM - Vol.
5 Iss.
3 July 2025, pp: 981-989 MALCOM-05.
: 981-989
Tanggal Apr 12 Username LennaLenno Apr 12 Apr 12 LennaLenno LennaLenno Apr 12 PrakosoEdi17795 Apr 9 LovingRetidakl Full Text @geminta03254661 @txtdrimedia Itulah PR Besarnya ahli2 HUKUM untuk merumuskan UU Perampasan aset ini.
Emang tidakk mudah bikin UU yang bisa adil ke semua pihak.
Makanya korupsi tuh kejahatan yang ribet bgt diHukum gue bukan bela koruptor.
Tapi ini realita @al_khalid212 @txtdrimedia Kalimat lo framing bgt bego @OBlank31599 @txtdrimedia Aduhh RIP literasi wakakkak Perampasan aset yang dimaksud itu adalah aset yang didapat hasil korupsi.
Tapi gmna kalo kecampur? Itulah yang jadi PR para ahli hukum untuk merumuskan nya supaya adil.
Paham tidaklk?? @txtdrimedia Bapake presiden kepiye iki.
Klo orang tuane urung ketauan koripsi anak anakke hidup mewah orang lain menderita iku ana filme dari @Gelaper125866 .
Sita bae hasil korupsi kasi ke orang2 yang membutuhkan.
@txtdrimedia enaknya jad anak koruptor Preprocessing Data yang telah dikumpulkan dari Twitter melalui file Prabowo.
csv selanjutnya melewati beberapa Langkah preprocessing agar membersihkan serta menyederhanakan dataset sebelum memulai klasifikasi.
Langkah pertama adalah cleaning text, artinya menghilangkan simnol tidak berkaitan misalnya angka, tanda baca, simbol.
URL, mention, serta hashtag untuk menghilangkan noise dalam data .
Setelah tahap pembersihan teks, proses selanjutnya ialah mengonversi seluruh huruf kapital menjadi huruf kecil .
Tujuan dari langkah ini ialah supaya mencegah terjadinya penggandaan kata yang memiliki makna sama namun berbeda dalam penulisan kapital, seperti AuAsetAy dan AuasetAy .
, kemudian dilakukan stopword removal, yaitu menyingkirkan kata yang sering muncul seperti AuyangAy.
AudanAy.
AudiAy, atau AuituAy yang tidak memiliki nilai informasi signifikan terhadap sentimen teks .
Selanjutnya dilakukan tahapan membagi teks dipecah ke dalam satuan kata yang berskala kecil yang disebut token.
Proses ini menjadi dasar dalam pembobotan kata dan ekstraksi fitur karena token merupakan input utama dalam representasi teks .
Dalam penelitian ini, tokenisasi dilakukan memakai metode berbasis spasi dan tanda baca, dibantu oleh library pemrosesan bahasa Python seperti nltk.
Setelah itu dilakukan stemming, yaitu mengubah kata ke bentuk dasar menggunakan algoritma Sastrawi, misalnya kata AumenderitaAy menjadi AuderitaAy .
Proses terakhir yaitu mengubah kata tidak baku atau kata slang ke dalam bentuk baku yang sesuai dengan kamus besar bahsa Indonesia (KBBI).
Seperti kata AuduitAy menjadi AuuangAy .
Tahapan preprocessing dapat dilihat pada Tabel 2.
Tabel 2.
Tahapan Preprocessing Tahapan Data Awal Cleaning Text Case Folding Stopword Removal Tokenizing Stemming Normalization Hasil 1909890000000000000Fri Apr 11 13:06:58 0000 20250@txtdrimedia @txtdrimedia Adil pak @prabowo selama mreka bahagia makan duit korup bapaknya dan banyak tidakya anakyCA indonesia banyak yang menderita.
Jd sdh selayaknya kekayaan hasil korupsi itu d sita https://x.
com/ksatria_17/status/ 00000ksatria_17 Adil pak selama mreka bahagia makan duit korup bapaknya dan banyak tidakya anak indonesia banyak yang menderita.
Jd sdh selayaknya kekayaan hasil korupsi itu d sita adil pak selama mreka bahagia makan duit korup bapaknya dan banyak tidakya anak indonesia banyak yang menderita.
Jd sdh selayaknya kekayaan hasil korupsi itu d sita adil mreka bahagia makan duit korup bapaknya banyak anak indonesia banyak menderita jd sdh selayaknya kekayaan hasil korupsi sita netidakra [AoadilAo.
AomrekaAo.
AobahagiaAo.
AomakanAo.
AoduitAo.
AokorupAo.
AobapaknyaAo.
AobanyakAo.
AogayaAo.
AoanakAo.
AoindonesiaAo.
AobanyakAo.
AomenderitaAo.
AojdAo.
AosdhAo.
AoselayaknyaAo.
AokekayaanAo.
AohasilAo.
AokorupsiAo.
AositaAo.
AonetidakraA.
adil mreka bahagia makan duit korup bapak banyak gaya anak indonesia banyak derita jadi sudah layak kaya hasil korup sita netidakra adil mereka bahagia makan uang korupsi bapak banyak gaya anak indonesia banyak derita jadi sudah layak kekayaan hasil korupsi sita negara Nayve Bayes Model Nayve Bayes diuji pada data uji yang telah direpresentasikan dalam bentuk vektor TF-IDF.
Data yang digunakan terdiri dari 1.
561 komentar, ada 1.
247 data latih serta 312 data uji yang telah melalui pembagian dataset rasio 80:20 antara pelatihan dan pengujian.
Perbandingan Nayve Bayes dan Support Vector Machine.
(Sholekhah and Muntahanah, 2.
ISSN(P): 2797-2313 | ISSN(E): 2775-8575 Supaya mengatasi permasalahan data imbalance kelas dalam data latih, diterapkan SMOTE diterapkan untuk menyeimbangkan distribusi data dengan menambahkan sampel pada kelas minoritas.
Jumlah data sebelum penerapan SMOTE adalah 1.
247, kemudian meningkat menjadi 1.
668 setelah proses Model kemudian diuji terhadap 313 data uji, menghasilkan performa seperti pada Tabel 3.
Tabel 3.
Hasil Evaluasi Nayve Bayes Kelas Accuraacy Precision Recall F1-Score Berdasarkan hasil pengujian yang ditampilkan pada tabel 3, diperoleh akurasi sebesar 66,34%.
Dari classification report, nilai precision tertinggi diperoleh pada kelas 1 .
dengan skor 0,77, diikuti oleh kelas 0 .
sebesar 0,63, dan kelas 2 .
sebesar 0,42.
Hal ini mengindikasikan bahwa model lebih mampu mengenali kelas yang masuk ke dalam kategori kelas positif, yang merupakan kelas mayoritas dalam distribusi data.
Confusion matrix menunjukkan adanya kesalahan klasifikasi antar kelas, khususnya pada komentar negatif yang banyak diprediksi sebagai positif.
Fenomena ini dapat disebabkan oleh kemiripan kata atau frasa yang digunakan dalam komentar yang secara konteks bisa bermakna netral maupun positif, tergantung pada interpretasi kalimat secara keseluruhan.
Berdasarkan hasil ini, memperoleh kesimpulan bahwa model Naive Bayes cukup efektif digunakan sebagai model dasar .
bagi klasifikasi komentar berbasis teks, terutama pada kelas mayoritas.
Namun, performanya masih terbatas untuk kelas minoritas yang cenderung lebih sulit dikenali.
Supaya mengatasi keterbatasan tersebut.
Penelitian ini turut menerapkan algoritma SVM sebagai salah satu metode klasifikasi yang digunakan.
sebagai pendekatan alternatif untuk melihat potensi peningkatan performa klasifikasi secara menyeluruh.
Support Vector Machine (SVM) Pemodelan SVM digunakan bagi memproses data yang sebelumnya telah melewati tahapan preprocessing serta transformasi menjadi vektor melalui metode TF-IDF.
Berdasarkan hasil tuning hyperparameter, diperoleh kombinasi terbaik dengan parameter C = 1, gamma = 'scale', dan kernel linear.
SVM menghasilkan akurasi sebesar 70,51%, lmelampaui capaian dari Nayve Bayes yang hanya memperoleh 66,34%.
Tabel 4.
Hasil Evaluasi SVM Accuracy Precision Recall F1-Score Lihat Tabel 4 jika dibandingkan, performa algoritma SVM secara keseluruhan menunjukkan hasil yang lebih baik dibandingkan Nayve Bayes, dengan selisih akurasi sebesar 4,17% dan peningkatan F1-score pada kelas positif dari 0,81 menjadi 0,83.
Hal ini menunjukkan bahwa SVM mampu membedakan opini dengan polaritas positif secara lebih konsisten.
Selain itu, model SVM memiliki keunggulan dalam mengenali kelas negatif dengan recall 0,72 dibandingkan dengan Nayve Bayes yang hanya mencapai 0,60.
Namun demikian, kedua model masih menghadapi tantangan dalam klasifikasi kelas netral, dengan F1-score masing-masing hanya 0,39 (Nayve Baye.
dan 0,40 (SVM), yang mengindikasikan bahwa komentar bersentimen netral lebih sulit diidentifikasi karena cenderung ambigu secara konteks dan struktur bahasa.
Keunggulan SVM dapat dijelaskan melalui pendekatannya yang tidak mengasumsikan independensi fitur seperti pada Nayve Bayes, serta kemampuannya dalam memisahkan kelas melalui margin optimal pada data berdimensi tinggi seperti representasi TF-IDF.
Berdasarkan evaluasi ini, dapat disimpulkan bahwa SVM merupakan model yang lebih handal untuk klasifikasi sentimen pada isu penyitaan aset koruptor.
Hasil Analisis Gambar 3 SVM menunjukkan keunggulan dalam akurasi dengan perolehan 70,51%, mengungguli Nayve Bayes yang mencatat 66,34%.
Performa SVM ini menunjukkan konsistensinya yang lebih ideal guna mengklasifikasikan kelas positif dan negatif secara lebih akurat.
Hal ini menunjukkan bahwa pendekatan SVM lebih mampu menangani variabilitas data teks di media sosial yang kompleks dan kontekstual.
Sejalan MALCOM - Vol.
5 Iss.
3 July 2025, pp: 981-989 MALCOM-05.
: 981-989
dengan temuan Rima et al.
SVM juga terbukti unggul dalam mengklasifikasikan isu-isu sensitif seperti opini publik terhadap vaksinasi COVID-19, yang menunjukkan tingkat akurasi lebih tinggi dibandingkan Nayve Bayes.
Gambar 3.
Hasil Analisa Nayve Bayes dan SVM Berdasarkan distribusi sentiment, kelas 1 .
berhasil diklasifikasikan oleh kedua model dengan jumlah data tertinggi.
Hal ini menunjukkan mayoritas opini masyarakat cenderung setuju bahwa anak koruptor turut menanggung dampak sosial dari perbuatan orang tuanya.
Sebaliknya, kelas 0 .
memiliki pandangan berbeda dan menolak bahwa anak tidak pantas dipersalahkan atas kesalahan orang Serta pada kelas 2 .
memilih supaya bersikap objektif atau tidak berpihak dalam meanggapi isu Analisis ini menunjukkan bahwa algoritma klasifikasi tidak hanya mampu mengukur performa teknis model, tetapi juga dapat menangkap kecendrungan opini public terhadap isu sosial dan politik.
SVM terbukti memberikan hasil yang lebih stabil dalam konteks data media sosial, meskipun selisih performa dengan Nayve Bayes tidak terlalu besar.
KESIMPULAN
Penelitian ini membuktikan Algoritma SVM menunjukkan performa yang lebih optimal dibandingkan Nayve Bayes dalam melakukan klasifikasi sentimen terhadap komentar Twitter terkait isu penyitaan aset koruptor, dengan akurasi sebesar 70,51% serta F1-score 0,69.
Keluaran ini mendukung hipotesis bahwa pemilihan algoritma berpengaruh signifikan terhadap akurasi klasifikasi teks.
Nayve Bayes tetap efektif sebagai model dasar dengan keunggulan dalam efisiensi, namun kurang optimal pada kelas minoritas.
Kekurangan dalam penelitian ini meliputi keterbatasan topik, periode pengambilan data yang relatif singkat, dan belum digunakannya pendekatan berbasis deep learning.
Potensi pengembangan ke depan mencakup perluasan isu, memperpanjang periode pengambilan data, penggunaan model seperti BERT serta LSTM.
Penelitian ini memperkuat efektivitas metode klasifikasi dalam analisis opini publik, serta secara praktis dapat menjadi dasar bagi pengembangan sistem monitoring sentimen kebijakan publik di media sosial sehingga berguna memperkuat dasar dalam menentukan keputusan yang lebih responsif serta berbasis data.
REFERENSI