JURNAL MULTI MEDIA DAN IT VOL. 09 NO. PP. P-ISSN : 2548-9534 | E-ISSN : 2548-9550 Metode Nayve Bayes untuk Analisis Sentimen Kenaikan PPN 12% di Media Sosial Tiktok Lela Budiarti a. Alwendi b. Muhamad Rafi Akbar c Universitas Muhammadiyah Tapanuli Selatan b Universitas Graha Nusantara Padang Sidimpuan c STMIK Indragiri. Pekanbaru INFORMASI ARTIKEL Sejarah Artikel: Diterima Redaksi: 20 Oktober 2025 Revisi Akhir: 1 Januari 2026 Diterbitkan Online: 6 Januari 2026 KATA KUNCI Analisis Sentimen. Nayve Bayes Classifier. Pajak. Pajak Pertambahan Nilai (PPN). Tiktok KORESPONDENSI Lela Budiarti Teknologi Informasi lelabudiarti1@gmail. ABSTRAK Pajak merupakan salah satu sumber utama pendapatan negara, termasuk di Indonesia. Pajak telah menjadi sumber penerimaan terbesar bagi negara sejak dahulu dan berperan penting dalam mendukung pembangunan Salah satu sumber pendapatan terbesar berasal dari pajak, termasuk Pajak Pertambahan Nilai (PPN). Kenaikan PPN dapat menimbulkan beberapa masalah, termasuk potensi berbelanja di luar negeri seiring dengan kenaikan harga barang dan jasa di Indonesia. Dengan kenaikan PPN ini, maka harga barang akan mengalami kenaikan dan penjualan akan mengalami penurunan sehingga berdampak pada turunnya sektor barang dan jasa. Rencana kenaikan PPN ini kemudian viral di perbincangkan di media sosial salah satunya yaitu Tiktok. Banyak masyarakat memperdebatkan rencana kenaikan sehingga terjadinnya pro dan kontra terhadap rencana kenaikan PPN ini. Oleh sebab itu penelitian ini bertujuan untuk melakukan klasifikasi komentar dari Tiktok mengenai PPN 12% dengan menggunakan metode naive bayes classifier. Beberapa tahap yang dilakukan yaitu crawling data, pelabelan data, preprocessing, ekstraksi fitur, klasifikasi dengan naive bayes classifier dan pengujian dengan confusion matrix. Dataset yang didapat merupakan hasil crawling data dari komentar yang ada di media sosial Tiktok mulai tanggal 1 Desember sampai dengan 15 Januari 2025. Dari 900 data komentar, hasil pengujian mendapatkan akurasi 96%, presisi 98%, recall 96%, dan fi-score 97%. DOI: https://10. 46961/jommit. PENDAHULUAN Knowledge Discovery in Database (KDD) atau yang dikenal dengan Data Mining adalah proses pengumpulan data yang bertujuan untuk menemukan pola, pengetahuan, dan juga Namun, pasti ada algoitma atau teknik yang digunakan untuk menemukan pola tersebut. Output yang dapat dihasilkan dari proses Data Mining digunakan sebagai pilihan untuk pengambilan keptusan . Tujuan dari Knowledge Discovery in Database (KDD) dan Data Mining adalah untuk menerapkan metode saintifik pada data mining. Data Mining (DM) adalah inti dari proses KDD, melibatkan kesimpulan dari algoritma yang mengeksplorasi data, mengembangkan model dan menemukan pola yang sebelumnya tidak diketahui. Tujuan KDD dan data mining adalah untuk menggali informasi tersembunyi dari sebuah basis data yang sangat besar . Text Mining adalah proses inovasi akan informasi atau isu terkini yang sebelumnya tidak terungkap menggunakan mekanisme dan menganalisa data pada jumlah besar. Dalam https://10. 46961/jommit. JOURNAL OF MULTIMEDIA AND INFORMATION TECHNOLOGY - VOL. 09 NO. menganalisa keseluruhan atau sebagian unstructured text, text mining membuat asosiasi satu bagian text dengan lainnya berdasarkan aturan tertentu. Hasil yang diharapkan adalah kata baru yang tidak terungkap jelas sebelumnya . Klasifikasi adalah teknik untuk mendapatkan fungsi untuk membedakan jenis kategori atau kelas data. Banyak teknik yang tersedia dalam bidang data mining yang dapat digunakan untuk mengolah sejumlah besar data menjadi informasi bermanfaat . Tujuan klasifikasi adalah untuk memprediksi atau memperkirakan kelas dari data baru yang belum memiliki merek. Untuk mencapai tujuan ini, perlu dibuat cara untuk membedakan kelas data dengan metode tertentu . Salah satu metode yaitu menggunakan Naive Bayes adalah metode klasifikasi statistik yang digunakan untuk memprediksi kemungkinan keanggotaan kelas tertentu, menghitung kemungkinan untuk suatu hipotesis, dan menghitung kemungkinan kelas dari setiap kelompok atribut yang ada, serta menentukan kelas mana yang paling optimal . Pada penelitian Joshua Muliawan dan Erick Dazki di dapat hasil penelitian analisis sentimen pemindahan Ibu Kota Negara Indonesia menggunakan tiga algoritma: nayve bayes, knn, dan random forest dan didapatkan nilai akurasi metode Algoritma Nayve Bayes Classifier yang didapati nilai keakuratan sebesar 26%. Algoritma K-Nearest Neighbor sebesar 58. 25%, serta Algoritma Random Forest sebesar 45. 05% . Penelitian selanjutnya dilakukan oleh Subarkah dkk, membahas tentang Sentiment Analysis On Reviews Of Wom-en's Tops On Shopee Marketplace Using Naive Bayes Algorithm dapat disimpulkan hasil pengujian menggunakan nayve bayes menunjukkan nilai akurasi sebesar 89% . Terdapat pula penelitian lain yang dilakukan oleh Rafi dkk, mengenai Metode Support Vector Machine dan Nayve Bayes untuk Analisis Santimen Ibu Kota Nusantara, yaitu Nayve Bayes, dan Support Vector Machine. Dari pengujian ini, algoritma Nayve Bayes memiliki skor akurasi 92% dan algoritma Support Vector Machine mendapatkan skor akurasi sebesar 98% . Penelitian lainnya oleh Sarimole dan Septian juga meneliti tentang Analisis Sentimen Masyarakat Terhadap Isu Penundaan Pemilu 2024 pada Twitter dengan Metode Naive Bayes dan Support Vector Machine. Didapati hasil pengujian model SVM menunjukkan akurasi sebesar 91. 61%, sedangkan model Naive Bayes menunjukkan akurasi sebesar 98. 80%, yang berarti model Nayve Bayes lebih akurat dibanding model Support Vector Machine . Melalui pelaksanaan penelitian ini diharapkan dapat mengungkap pemahaman tentang respons masyarakat terhadap kenaikan PPN 12% yang ada di Indonesia apakah cenderung bersifat positif, negatif, atau netral. Selain itu, tujuan penelitian ini adalah untuk menemukan kata-kata yang sering muncul. TINJAUAN PUSTAKA Knowledge Discovery in Databases data yang besar atau dikenal dengan tambang data yang disimpan dalam basis data yang awalnya belum diketahui dan menghasilkan suatu data yang potensial bermanfaat . Natural Language Processing Natural Language Processing (NLP) adalah bidang kecerdasan buatan yang mempelajari interaksi manusia dan komputer menggunakan bahasa alami. Model komputer seperti ini berguna untuk memudahkan komunikasi antara manusia dan komputer yang mencari informasi sehingga keduanya dapat berkomunikasi dalam bahasa alami . Text Mining Text Mining adalah proses inovasi akan informasi atau isu terkini yang sebelumnya tidak terungkap menggunakan mekanisme dan menganalisa data pada jumlah besar. Dalam menganalisa keseluruhan atau sebagian unstructured text, text mining membuat asosiasikan satu bagian text dengan lainnya berdasarkan aturan tertentu. Hasil yang diharapkan adalah kata baru yang tidak terungkap jelas sebelumnya . Pre-Processing Pengolahan . re-processin. mempersiapkan data mentah sebelum akan melakukan proses Tahapan ini memiliki tujuan untuk dapat menyeragamkan kata dan mengurangi volume kata dari sekumpulan dataset serta memudahkan penelitian karena akan membuat data lebih terstruktur. Proses pengolahan data ini akan melewati 6 . tahapan, yaitu: Cleaning. Case folding. Normalization. Stemming. Tokenization, dan Stopword Removal . Nayve Bayes Classifier Nayve Bayes Classifier adalah metoda klasifikasi berdasarkan teori Bayes. Metode ini berdasarkan probabilitas yang dipresentasikan oleh ilmuwan Inggris Thomas Bayes. Peluang dari prediksi masa depan berdasarkan pengalaman di masa sebelumnya. Asumsi yang kuat (Naiv. terhadap independensi parameter merupakan ciri-ciri dari metode Naive Bayes. Salah satu kelebihan dari naive, tidak membutuhkan dataset yang besar, mudah dipahami dan masih banyak kelebihan Ae kelebihan teori Naive Bayes . KONSEP PERANCANGAN Metodologi yang diterapkan dalam penelitian ini mengikuti tahapan yang umum dalam data mining yang dikenal sebagai proses Knowledge Discovery in Database (KDD). Dalam melakukan penelitian ini terdapat beberapa tahapan proses yang perlu dilakukan. Tujuan dibuat tahapan proses tersebut agar penelitian ini dapat berjalan sesuai dengan yang direncanakan. Tahapan proses penelitian dapat dilihat pada Gambar 1. KDD merupakan metode yang digunakan untuk mendapat pengetahuan yang berasal dari database yang ada. Hasil pengetahuan yang diterima dapat dimanfaatkan untuk basis pengetahuan . nowledge bas. yang dipergunakan dalam keperluan mengambil keputusan. Knowledge Discovery in Database (KDD) adalah suatu teknik pembentukan pola atau rule dalam informasi. Informasi yang dihasilkan didapatkan dari suatu https://10. 46961/jommit. JURNAL MULTI MEDIA DAN IT - VOL. 09 NO. memotong teks menjadi kata, simbol, karakter atau tanda baca, shingga menjadi token yang dapat dianalisis. Tahap TF-IDF TF-IDF adalah proses pembobotan pada masing-masing kata. Pembobotan TF-IDF dinilai penting, hal ini dikarenakan apabila suatu kata lebih sering muncul dalam suatu dokumen maka nilai kontribusinya akan semakin besar akan tetapi jika hal tersebut terjadi pada beberapa dokumen maka kontribusi yang dimiliki akan lebih kecil. TF-IDF menggunakan rumus menghitung nilai bobot dokumen : Wat = TFat x IDFft Keterangan: Wat = Nilai dokumen ke-d pada kata ke-t Tfat = Jumlah kata yang dicari dalam dokumen ya IDFft = Inverse document frequency . og ( )) yccyce = Jumlah dokumen = Jumlah dokumen yang mengandung kata Gambar 1. Kerangka Kerja Penelitian Tahap Analisa Sentimen Tahap Pengambilan Data Proses crawling data komentar dari media sosial Tiktok dari unggahan pengguna Tiktok dengan menggunakan Scraper dengan kata kunci Aukenaikan ppn 12%Ay dilakukan menggunakan bahasa pemrograman Python yang selanjutnya disimpan dalam csv, dari data yang didapat akan dilanjutkan ke tahap Pada tahapan ini penggunaan metode untuk melakukan analisis sentimen dilakukan. Metode yang digunakan adalah Nayve Bayes. Penggunaan metode nayve bayes selain untuk melihat opini public terhadap kenaikan ppn 12 % adalah untuk menguji seberapa akurat metode nayve bayes dalam melakukan analisis sentimen publik dengan topik tersebut. Tahap Evalusi Model Pelabelan Data Labelling data dilakukan program lexicon based dengan menggunakan kamus setimen. Tujuan dari pelabelan data untuk mengklasifikasikan data berdasarkan karakteristrik dari isi komentar atau kalimat. Pelabelan ini dibagi menjadi tiga klasifikasi, yaitu positif, negatif, dan netral. Preprocessing Dalam tahapan preprocessing dalam penelitian ini adalah : Case folding adalah proses menyamakan huruf pada teks menjadi huruf kecil dimana tidak setiap teks akan konsisten dalam menggunakan huruf kapital. Cleansing merupakan proses menganalisa kualitas data dengan cara mengubah, memodifikasi, atau menghapus datadata yang dianggap tidak lengkap. Normalisasi adalah proses menghilangkan tanda baca, angka, simbol, link URL dan username di dalam teks. Stopword Removal adalah langkah dimana frasa yang tidak penting dalam penambangan teks untuk divisi apa pun Stemming adalah tahapan yang digunakan dalam pemotongan awal atau akhir kata dengan memperhatikan awalan umum dan sufiks, yang dapat ditemukan dalam kata. Langkah selanjutnya yaitu tokenisasi dimana pada tahapan ini akan menghilangkan tanda baca yang tidak diperlukan dan Setelah proses klasifikasi yang dilakukan di atas maka tahap selanjutnya yaitu tahap evaluasi klasifikasi di mana pada tahap ini akan dilakukan pengujian menggunakan confusion matrix dengan matrik ukuran 3x3. Tahap Visualisasi Setelah setiap tahap dan proses dilakukan maka selanjutnya adalah tahap visualisasi. Pada penelitian ini, untuk tahap visualisasi dilakukan dengan menggunakan library Matplotlib dan Wordcloud. Output dari visualisasi ini adalah berupa gambar histogram yang juga akan menampilkan hasil akurasi persentase dari polaritas setiap sentimen yang dihasilkan. Sedangkan untuk visualisasi wordcloud menampilkan kata yang sering muncul pada setiap sentimennya. HASIL DAN PEMBAHASAN Pada penelitian analisis sentimen ini, data komentar diambil dari media sosial Tiktok melalui web scraping menggunakan Apify. com, dengan total 900 data. Metode klasifikasi yang digunakan adalah Naive Bayes Classifier dengan fokus pada topik kenaikan PPN 12% di Indonesia. Tujuannya adalah untuk menganalisis perbandingan keberhasilan dalam hal akurasi, presisi, dan recall. Proses mencakup beberapa langkah preprocessing, validasi, dan evaluasi, serta penandaan sentimen untuk data komentar yang dikategorikan menjadi sentimen https://10. 46961/jommit. JOURNAL OF MULTIMEDIA AND INFORMATION TECHNOLOGY - VOL. 09 NO. positif, negatif, dan netral. Gambar 2 menggambarkan proses pengambilan data komentar Tiktok. Gambar 5. Hasil Preprocessing Pembobotan TF-IDF Gambar 2. Crawling Data dengan APIFY Langkah pembobotan TF-IDF yaitu mekanisme yang mengganti data teks ke bentuk data numerik untuk menghitung jenis setiap kata atau fitur. Untuk simulasi Pembobotan TF-IDF adalah dapat dilihat pada Gambar 6. Pelabelan Data Data perlu dilabeli dan dikategorikan ke dalam 3 kelas sentimen, yakni kelas sentimen positif, negatif, dan netral berdasarkan kata-kata yang terdapat dalam komentar Tiktok dimana polarity 1 diberi label positif, polarity -1 diberi label negatif, dan polarity 0 diberi label netral. Contoh data yang telah dilabeli dapat dilihat pada Gambar 3. Gambar 6. Pembobotan TF-IDF Kode pada Gambar 6 dimaksudkan untuk mengubah teks menjadi representasi TF-IDF dan melakukan transformasi pada data latih dan data uji yang akan diuji. Pemisahan Data Latih dan Data Uji Gambar 3. Pelabelan Data Preprocessing Data Setelah diperoleh data maka data tersebut dipecah menjadi 2 kelompok yaitu untuk data uji dan data latihan. Pada langkah analisis ini banyaknya data uji 20% sedangkan banyaknya data latih 80% dari total data. Perbandingan data latih dan data uji dapat dilihat pada Gambar 7. Tahapan preprocessing data merupakan langkah penting dalam proses analisis sentimen. Tahap ini dilakukan untuk memastikan data tersusun secara terstruktur sehingga dapat digunakan dalam analisis sentimen. Sesuai dengan yang dijelaskan dalam metodologi penelitian, proses pre-processing data mencakup beberapa langkah yaitu Cleaning. Case Folding. Normalisasi. Stopword Removal. Stemming, dan Tokenisasi dapat dilihat pada gambar 4. Gambar 7. Perbandingan Data Latih dan Data Uji Klasifikasi dengan Nayve Bayes Gambar 4. Preprocessing Hasil preprocessing sesudah dilakukannya proses stemming dan tokenized dapat dilihat pada Gambar 5. Pada klasifikasi Naive Bayes (NB) digunakan algoritma MultinomialNB. Algoritma ini berfungsi untuk melakukan klasifikasi Nayve Bayes dan mampu mengelola data dalam bentuk Setelah dilakukan pengujian presisi berdasarkan perhitungan akurasi yang telah dilakukan, diperoleh hasil bahwa model mampu melakukan prediksi dengan tingkat akurasi sebesar 96,36%. Hasil keputusan dapat dilihat pada Gambar 8. https://10. 46961/jommit. JURNAL MULTI MEDIA DAN IT - VOL. 09 NO. Hasil Data dalam Histogram Pada tahap ini menampilkan hasil gambar dengan bentuk histogram dapat dilihat pada Gambar 11. Gambar 8. Akurasi Nayve Bayes Evaluasi Confusion Matrix Confusion matrix adalah alat ukur dalam bentuk matriks yang digunakan untuk menentukan tingkat akuratan klasifikasi berbagai kelas berdasarkan algoritma yang diterapkan. Kesimpulan hasil akurasi dari metode nayve bayes dapat dilihat pada Gambar 9. Gambar 11. Hasil Histogram Gambar 9. Hasil Evaluasi Nayve Bayes Visualisasi WordCloud WordCloud adalah representasi visual dari sekumpulan kata yang sering muncul dalam sebuah teks. Hasil visualisasi kata yang sering muncul pada dataset dapat dilihat pada Gambar 10. Pada gambar 11 menampilkan histogram dari total 900 data komentar media sosial Tiktok yang menunjukkan bahwa persentase opini masyarakat untuk kelas pada sentimen positif sebesar 240 komentar data aktual dan 234 komentar data Nayve Bayes, untuk sentimen negatif sebesar 173 komentar data aktual dan 167 komentar data Nayve Bayes, sedangkan untuk sentimen netral sebesar 275 komentar data aktual dan 287 komentar data Nayve Bayes. Jadi hasilnya mayoritas opini masyarakat di media sosial Tiktok bernilai netral. KESIMPULAN DAN SARAN Gambar 10. Hasil Visualisasi dengan WordCloud Kata-kata yang lebih sering muncul akan ditampilkan dalam ukuran yang lebih besar dan warna yang lebih mencolok sedangkan kata-kata yang jarang muncul akan memiliki ukuran yang lebih kecil. Berdasarkan word cloud yang ditampilkan: Kata yang paling dominan . erukuran besa. adalah "pajak," "barang," "ppn," "mewah," dan "rakyat. " Ini menunjukkan bahwa topik utama dalam teks berkaitan dengan isu pajak (PPN), barang, dan kemewahan yang mungkin sedang menjadi perhatian Kata lain yang cukup menonjol meliputi "harga," "persen," "kena," dan "negara," yang menunjukkan adanya diskusi terkait kebijakan harga dan dampaknya terhadap masyarakat. Beberapa kata seperti "gaji," "beli," "kerja," dan "butuh" menunjukkan adanya kekhawatiran publik mengenai pengeluaran dan kebutuhan sehari-hari. Kata-kata seperti "internet," "beras," dan "minyak" juga muncul, yang mengindikasikan bahwa topik terkait kebutuhan pokok juga banyak diperbincangkan. Metode Nayve Bayes yang telah diimplementasikan menggunakan bahasa pemograman Python berhasil diterapkan untuk menganalisis sentimen masyarakat di media sosial Tiktok terhadap kenaikan PPN 12% dengan mengklasifikasikan sebanyak 900 data komentar ke kelas sentimen positif, negatif, dan netral. Teknik pembobotan TF-IDF digunakan untuk meningkatkan akurasi analisis dan hasilnya, menunjukkan bahwa sentimen masyarakat di tiktok cenderung Netral. Metode klasifikasi Nayve Bayes terbukti cukup akurat dalam mengklasifikasikan sentimen masyarakat di Tiktok. Hal ini terlihat dari tingkat akurasi klasifikasi yang dihasilkan yaitu 96%. Kata Ae kata populer yang muncul dalam topik kenaikan PPN 12% di Tiktok antara lain adalah "pajak," "barang," "ppn," "mewah," dan "rakyat", yang tercermin dalam wordcloud dari analisis DAFTAR PUSTAKA