JUKI : Jurnal Komputer dan Informatika Volume 6 Nomor 1 Mei 2024 e-ISSN : 2722-4368 Penerapan Nayve Bayes Classifier dalam Klasifikasi Sentimen Publik di Twitter terhadap Puan Maharani Rizki Hidayat1.
Muhammad Fikry2.
Yusra3*.
Febi Yanto4.
Eka Pandu Cynthia5 Universitas Islam Negeri Sultan Syarif Kasim Riau.
Jl.
HR.
Soebrantas No.
Km.
RW.
Simpang Baru.
Pekanbaru.
Indonesia.
11950115210@students.
uin-suska.
id, 2muhammad.
fikry@uin-suska.
id, 3*yusra@uin-suska.
febiyanto@uin-suska.
id, 5 eka.
cynthia@uin-suska.
Abstrak.
Twitter adalah salah satu jejaring sosial terpopuler di Indonesia, dengan 18,45 juta pengguna aktif pada tahun 2022.
Politisi berpengaruh Puan Maharani menjadi topik hangat di pesta ulang tahunnya di tengah protes harga bahan bakar.
Analisis sentimen dapat membantu memahami keseluruhan sentimen yang diungkapkan di Twitter tentang Puan Maharani.
Dua jenis dataset yang digunakan dalam penelitian ini, yaitu dataset tidak seimbang .
0 tweet: 7800 positif, 1200 negati.
dan dataset seimbang .
0 tweet: 1200 positif, 1200 negati.
Metode Naive Bayes classifier digunakan untuk klasifikasi sentimen, meliputi pengumpulan data, pelabelan, preprocessing, pembobotan TF-IDF, seleksi fitur, pembagian data, klasifikasi Naive Bayes, dan evaluasi dengan confusion matrix.
Data dibagi dengan rasio 70:30, 80:20 dan 90:10 untuk data latih serta data uji.
Feature selection menggunakan threshold 0,001.
Merujuk hasil penelitian yang dilaksanakan, bisa disimpulkan bahwsanya analisis sentimen dapat menjadi alat yang efektif untuk memahami pendapat masyarakat khususnya netizen di platform Twitter terkait dengan persepsi terhadap Puan Maharani.
Nilai akurasi tertinggi dari dataset tidak seimbang didapatkan yaitu sebesar 88.
89% pada rasio pembagian data latih dan data uji 90:10 serta akurasi tertinggi dari dataset seimbang sebesar 81.
0% pada rasio pembagian data 90:10.
Kata Kunci: Puan Maharani.
Klasifikasi Sentimen.
Naive Bayes Classifier.
Twitter.
Abstract.
Twitter is one of the most popular social networks in Indonesia, with 18.
45 million active users by Influential politician Puan Maharani became a hot topic at her birthday party amidst fuel price protests.
Sentiment analysis can help understand the overall sentiment expressed on Twitter about Puan Maharani.
Two types of datasets were used in this study, namely an unbalanced dataset .
0 tweets: 7800 positive, 1200 negativ.
and a balanced dataset .
0 tweets: 1200 positive, 1200 negativ.
Naive Bayes classifier method is used for sentiment classification, including data collection, labeling, preprocessing.
TF-IDF weighting, feature selection, data division.
Naive Bayes classification, and evaluation with confusion matrix.
The data is divided into 70:30, 80:20 and 90:10 ratios for training and test data.
Feature selection uses a threshold of Based on the results of the research conducted, it can be inferred that sentiment analysis can be an effective tool to understand the opinions of the public, especially netizens on the Twitter platform related to the perception of Puan Maharani.
The highest accuracy value of the unbalanced dataset was obtained, which 89% at a training and test data division ratio of 90:10 with the highest accuracy of the balanced dataset 0% at a data division ratio of 90:10.
Keywords: Puan Maharani.
Sentiment Classification.
Naive Bayes Classifier.
Twitter
PENDAHULUAN
Puan Maharani ialah politisi yang sangat berpengaruh di Indonesia, khususnya di partainya.
PDI Perjuangan.
Selama karir politiknya.
Puan telah menduduki sejumlah jabatan penting, seperti Ketua Dewan Perwakilan Rakyat (DPR) dan ketua Fraksi PDI Perjuangan.
Selama masa jabatannya, ia sering diperhatikan oleh media dan masyarakat, terutama terkait dengan keputusan yang dibuatnya.
Pemilihan Puan Maharani sebagai subjek penelitian ini dilatarbelakangi oleh peristiwa menarik saat anggota DPR merayakan ulang tahunnya di tengah demo kenaikan harga BBM, yang menjadi topik hangat dan menarik perhatian masyarakat, sebagaimana dilaporkan oleh CNN Indonesia.
Twitter adalah salah satu jejaring sosial terpopuler di Indonesia, dengan 18,45 juta pengguna aktif pada 2022 menggunakan platform tersebut untuk beragam informasi, berdiskusi, serta menyampaikan Penerapan Nayve Bayes Classifier dalam Klasifikasi Sentimen Publik di Twitter terhadap Puan Maharani Oleh: Rizki Hidayat.
Muhammad Fikry.
Yusra.
Febi Yanto.
Eka Pandu Cynthia JUKI : Jurnal Komputer dan Informatika Volume 6 Nomor 1 Mei 2024 e-ISSN : 2722-4368 pendapat mereka mengenai topik lain, termasuk politik.
Twitter memiliki tingkat pembaruan yang tinggi.
Hal ini menyebabkan ketersediaan informasi yang tinggi di Twitter, menjadikan Twitter tempat yang baik untuk analisis sentimen.
Gudang data Twitter sangat efektif untuk penelitian di bidang politik, pemasaran, dan sosial .
Analisis sentimen ialah teknik mengekstrak data pendapat, memahami, serta secara otomatis memproses data teks guna melihat perasaan dalam pendapat .
Analisis sentimen dapat menjadi alat yang efektif untuk memahami opini dan pendapat publik tentang Puan Maharani di Twitter.
Analisis sentimen dapat memberikan gambaran apakah tweet terkait Puan Maharani memiliki sentimen positif ataupun negatif.
Hal ini dapat memberikan lebih banyak wawasan tentang bagaimana masyarakat bereaksi terhadap tindakan dan keputusan politik Puan Maharani.
Terdapat dua jenis pendekatan pada klasifikasi yakni Supervised Learning dan Unsupervised Learning.
Penelitian ini menggunakan Supervised Learning, yang menggunakan algoritma yang menciptakan fungsi yang memetakan input ke output yang dikehendaki.
Pendekatan ini memiliki kemampuan untuk mengadaptasi dan mempraktikkan data pemodelan untuk tujuan serta konteks tertentu, namun membutuhkan data berlabel yang berpotensi mahal.
Pada penelitian ini akan menerapkankan satu diantara sejumlah metode analisis sentimen masyarakat di Twitter yaitu Nayve Bayes Classifier.
Metode Naive Bayes Classifier ialah metode klasifikasi yang cukup sederhana namun cukup akurat untuk memprediksi kelas .
alam hal ini sentime.
suatu dokumen berdasarkan kemunculan kata tertentu dalam suatu dokumen .
Terbukti dalam sudi yang dilaksanakan .
yang membandingakan metode Nayve Bayes Classifier dengan Support Vector Machine (SVM) dalam mengklasifikasikan opini masyarakat di Twitter perihal kondisi New Normal di Indonesia, didapatkan nilai akurasi dari Nayve Bayes Classifier jumlah 94,55% dan akurasi dari Support Vector Machine sebesar 76,50% pada rasio perbadingan 70:30 dan juga pada penelitian analisis sentimen yang dilakukan oleh .
perihal opini terhadap PT PAL Indonesia di Twitter dengan metode K-NN.
Nayve Bayes.
Decision Tree dan didapatkan nilai akurasi dari metode Nayve Bayes melebihi metode lain sebesar 84,04%.
Dengan menggunakan teknik klasifikasi sentimen Naive Bayes Classifier, dapat dilakukan analisis sentimen masyarakat di Twitter terkait Puan Maharani, baik terkait dengan kebijakan politik yang dilakukannya maupun terkait isu-isu dirinya sebagai seorang politikus.
METODOLOGI PENELITIAN
Dalam penelitian ini, melibatkan 9000 data dengan menerapkan metode Naive Bayes Classifier, yang mencakup proses pengumpulan data, pelabelan data, preprocessing, pembobotan TFIDF, seleksi fitur, pembagian data, klasifikasi Naive Bayes, serta evaluasi dengan confusion matrix.
Tujuan dari penelitian ini ialah memberikan pemahaman yang lebih komprehensif mengenai persepsi masyarakat terhadap Puan Maharani serta membantu dalam menganalisis sentimen yang berkembang terhadap Puan Maharani.
Berikut adalah gambar tahapan penelitian:
Gambar 1.
Diagram Alur Penelitian Penerapan Nayve Bayes Classifier dalam Klasifikasi Sentimen Publik di Twitter terhadap Puan Maharani Oleh: Rizki Hidayat.
Muhammad Fikry.
Yusra.
Febi Yanto.
Eka Pandu Cynthia JUKI : Jurnal Komputer dan Informatika Volume 6 Nomor 1 Mei 2024 e-ISSN : 2722-4368 Pada gambar 1, terdapat alur atau tahap penelitian yang hendak dilaksanakan pada penelitian ini yakni klasifikasi sentiment dengan menerapkan metode Nayve Bayes Classifier.
Pengumpulan Data Dalam rangka analisis ini, digunakan dataset yang terdiri dari 9000 data tweet yang diperoleh dari platform Twitter.
Pengumpulan data dilaksanakan dengan memakai bahasa pemrograman Python dan eksekusi dilakukan melalui Google Colab.
Data diambil mulai tanggal 30 April 2023 hingga 30 Oktober 2023.
Pelabelan Data Proses pelabelan dilaksanakan secara manual dengan membaca tweet satu persatu lalu diberikan label positif atau negatif yang digunakan untuk melatih dan mengklasifikasikan data.
Preprocessing Preprocessing adalah serangkaian langkah yang dilakukan pada teks mentah .
okumen, kalimat, atau kata-kat.
untuk membersihkan, memformat, dan mengubah teks menjadi bentuk yang lebih terstruktur.
Dengan Text Preprocessing, dapat menghilangkan noise dan meningkatkan kualitas data teks, memungkinkan model dan algoritma bekerja lebih baik serta menghasilkan output yang lebih akurat .
Berikut adalah beberapa langkah umum dalam Text Preprocessing:
Cleaning Cleaning berfungsi untuk menghapus karakter khusus, tanda baca, serta simbol yang tidak perlu atau mengganggu dari teks, seperti tanda baca, emoji.
URL, tag HTML, dan lainnya.
Data cleaning bermanfaat untuk menghilangkan noise serta data yang tidak konsisten .
Case Folding Case Folding ialah langkah preprocessing teks yang bertujuan untuk menjadikan semua huruf menjadi huruf kecil dalam suatu dokumen.
Tujuan dari proses ini adalah untuk memudahkan pencarian dan pemrosesan teks serta mengurangi kompleksitas analisis .
Tokenizing Tokenization ialah proses memisahkan data teks menjadi sejumlah bagian atau token .
Token dapat berupa kata, frasa, atau karakter tergantung pada tujuan analisis.
Normalization Normalisasi ialah memperbaiki kata-kata yang yang salah pada teks merujuk korpus yang dibuat .
Normalisasi dilakukan untuk mengubah variasi kata menjadi bentuk standar.
Negation Handling Negasi kata sendiri merupakan salah satu bentuk negasi atau negasi terhadap suatu pernyataan kata tertentu.
Jika kata AuantusiasAy digolongkan ke dalam kelas positif, maka kata-kata yang mengandung kata negatif seperti Autidak antusiasAy akan digolongkan ke dalam kelas negatif.
Oleh karena itu, penting agar proses analisis sentimen dapat menangani negasi untuk menghindari kesalahan bias .
Stopword Removal Stopword Removal adalah salah satu metode dapat diterapkan pada langkah prapemrosesan teks, di mana kata-kata itu akan dihapus dianggap sering muncul tetapi tidak bermakna dan mempunyai pengaruh yang signifikan terhadap makna suatu kalimat atau teks seperti "dan", "atau", "dalam", dan sebagainya .
Stemming Pada tahap stemming, dilakukan perubahan kata sesuai dengan aturan yang berlaku dengan cara menghapus awalan, akhiran, dan sisipan pada dokumen atau mengubah kata-kata tersebut menjadi kata dasar .
Penerapan Nayve Bayes Classifier dalam Klasifikasi Sentimen Publik di Twitter terhadap Puan Maharani Oleh: Rizki Hidayat.
Muhammad Fikry.
Yusra.
Febi Yanto.
Eka Pandu Cynthia JUKI : Jurnal Komputer dan Informatika Volume 6 Nomor 1 Mei 2024 e-ISSN : 2722-4368 Pembobotan TF-IDF TF-IDF ialah kalkulasi untuk mengukur seberapa penting kata .
pada dokumen beserta korpus .
TF-IDF terdiri dari dua komponen yaitu:
Term Frequency (TF) Term Frequency adalah seberapa sering sebuah kata muncul pada sebuah dokumen.
Semakin besar frekuensi kemunculannya, semakin besar bobotnya.
Inverse Document Frequency (IDF) Inverse Document Frequency mengukur pentingnya sebuah kata di seluruh teks Kata-kata yang muncul pada dokumen yang lebih sedikit cenderung lebih berbobot karena dianggap lebih informatif.
Inverse Document Frequency dapat dihitung dengan menggunakan rumus berikut:
ya yayaya = log ya Keterangan:
D = jumlah dokumen dalam korpus F = jumlah dokumen yang mengandung term Setelah menghitung term frequency dan inverse document frequency, bobot TF-IDF kata-kata tertentu dalam dokumen diperoleh dengan mengalikan nilai TF dengan nilai IDF:
ycNya Oe yayaya = ycNya y yayaya Keterangan:
TF = Term Frequency IDF = Inverse Document Frequency Feature Selection Feature selection dalam klasifikasi sentimen merujuk pada proses pemilihan fitur atau atribut yang paling relevan dari dataset untuk digunakan dalam membangun model klasifikasi sentimen.
Tujuannya adalah untuk mengurangi atribut yang kurang relevan dan meningkatkan akurasi serta kinerja model klasifikasi .
Pembagian Data Data dalam klasifikasi sentiment dibagi menjadi dua bagian: data pelatihan serta data tes.
Data pelatihan diterapkan guna mengembangkan model klasifikasi, sementara data tes diterapkan untuk menilai kinerja model.
Data pelatihan dan tes dapat dibagi menjadi berbagai rasio, seperti 80:20 atau 70:30 .
Naive Bayes Classifier Naive Bayes classifier ialah pendekatan klasifikasi probabilitas dasar dengan ketergantungan .
tinggi yang menggunakan teorema Bayes .
Naive Bayes Classifier bekerja dengan menghitung probabilitas setiap fitur dalam data untuk setiap kemungkinan kelas.
Kemudian, dengan menggunakan teorema Bayes, algoritma ini menghitung probabilitas kelas untuk data berdasarkan probabilitas fitur dalam data.
Berikut tahapan algoritma Nayve Bayes Classifier:
Menghitung probabilitas bersyarat/likelihood:
ycE .
= ycE.
cu1, ycu2.
A , ycuyc.
Keterangan :
C = Class P.
C) = proporsi dokumen dari class C yang mengandung nilai atribut xi Menghitung probabilitas prior untuk setiap kelas Penerapan Nayve Bayes Classifier dalam Klasifikasi Sentimen Publik di Twitter terhadap Puan Maharani Oleh: Rizki Hidayat.
Muhammad Fikry.
Yusra.
Febi Yanto.
Eka Pandu Cynthia JUKI : Jurnal Komputer dan Informatika Volume 6 Nomor 1 Mei 2024 e-ISSN : 2722-4368 ycE.
= ycAyc ycA Keterangan:
Nj = jumlah dokumen pada suatu class N = jumlah total dokumen Menghitung probabilitas posterior dengan rumus:
= ycy.
Evaluasi Evaluasi model digunakan dalam klasifikasi sentimen untuk menentukan jumlah akurasi dalam data klasifikasinya.
Untuk mengukur keakuratan atau ketidaktepatan data yang diklasifikasikan, teknik evaluasi model biasanya menggunakan confusion matrix yang dapat menghasilkan akurasi, recall, precision, serta f1 score .
Pengujian confusion matrix ditunjukkan pada tabel berikut:
Table 1.
Confusion Matrix Dari tabel 1 bisa didapatkan nilai Accuracy, reccal, precision dan f1 score dengan rumus sebagai .
Accuracy (Akuras.
: Rasio dari total prediksi yang benar dengan total data.
ycNycE ycNycA yaycaycaycycycaycayc = ycNycE ycNycA yaycE yaycA Actual Positive Actual Negative Predicted Positive True Positive False Negative Predicted Negative False Positive True Negative .
Precision (Presis.
: Rasio dari kasus positif yang terprediksi benar dengan total prediksi ycNycE ycEycyceycaycnycycnycuycu = ycNycE yaycE .
Recall (Sensitivit.
: Rasio dari kasus positif yang terprediksi benar dengan total kasus positif ycNycE ycIyceycaycaycoyco = ycNycE yaycA .
F1 Score: Rata-rata harmonik antara precision dan recall.
2 y ycIyceycaycaycoyco y ycEycyceycaycnycycnycuycu
ya1 ycIycaycuycyce = ycIyceycaycaycoyco ycEycyceycaycnycycnycuycu
HASIL DAN PEMBAHASAN
Pengumpulan Data Proses pengumpulan data tweet Twitter tentang Puan Maharani dilakukan dengan memakai Bahasa pemrograman python yang dijalankan di google colab yang.
Berikut contoh dari tweet yang Table 2.
Contoh Tweet Tweet @mariookam395 @puanmaharani_ri Pastinya Ibu Puan layak jadi presiden RI @puanmaharani_ri Selalu bekerja untuk memudahkan dan menguntungkan Terimakasih Bu Puan! BellaB6225355 AdrianSitorus95 Penerapan Nayve Bayes Classifier dalam Klasifikasi Sentimen Publik di Twitter terhadap Puan Maharani Oleh: Rizki Hidayat.
Muhammad Fikry.
Yusra.
Febi Yanto.
Eka Pandu Cynthia JUKI : Jurnal Komputer dan Informatika Volume 6 Nomor 1 Mei 2024 e-ISSN : 2722-4368 Pelabelan Data Pada fase ini, data tweet yang didapatkan akan diberikan label positif atau negatif secara manual.
Proses Pelabelan dilakukan seorang ahli Bahasa Indonesia yaitu Gadis Sari Elin S.
Pd.
Setelah dilakukan pelabelan didapatkan 7800 data tweet positif dan 1200 data tweet negatif.
Text Preprocessing Berikut adalah contoh hasil dari tahapan text preprocessing.
Table 3.
Contoh Tahapan Text Preprocessing Tahapan Cleaning Case Folding Tokenizing Normalization Negation Handling Stopword Removal Stemming Sebelum @puan_maharani Kedekatan hubungan Indonesia-Aljazair sdh tdk diragukan lagi sejak zaman Bung Karno dan kini diteruskan oleh Ibu Puan Kedekatan hubungan Indonesia Aljazair sdh tdk diragukan lagi sejak zaman Bung Karno dan kini diteruskan oleh Ibu Puan kedekatan hubungan indonesia aljazair sdh tdk diragukan lagi sejak zaman bung karno dan kini diteruskan oleh ibu puan .
edekatan,hubungan,indonesia, aljazair,sdh,tdk,diragukan,lagi, sejak,zaman,bung,karno,dan,kini, diteruskan,oleh,ibu ,pua.
edekatan,hubungan,indonesia, aljazair,sudah,tidak,diragukan,lagi ,sejak,zaman,bung,karno,dan,kini, diteruskan,oleh,ibu ,pua.
edekatan,hubungan,indonesia, aljazair,sudah,percaya,lagi, sejak,zaman,bung,karno,dan,kini, diteruskan,oleh,ibu ,pua.
kedekatan,hubungan,indonesia,alj azair,percaya,lagi,sejak,zaman,bun g,karno,kini,diteruskan,ibu,pua.
Sesudah Kedekatan hubungan Indonesia Aljazair sdh tdk diragukan lagi sejak zaman Bung Karno dan kini diteruskan oleh Ibu Puan kedekatan hubungan indonesia aljazair sdh tdk diragukan lagi sejak zaman bung karno dan kini diteruskan oleh ibu puan .
edekatan,hubungan,indonesia,aljazair, sdh,tdk,diragukan,lagi,sejak,zaman, bung,karno,dan,kini,diteruskan,oleh,ibu ,pua.
edekatan,hubungan,indonesia,aljazair, sudah,tidak,diragukan,lagi,sejak,zaman, bung,karno,dan,kini,diteruskan,oleh,ibu ,pua.
edekatan,hubungan,indonesia,aljazair, sudah,percaya,lagi,sejak,zaman,bung, karno,dan,kini,diteruskan,oleh,ibu ,pua.
edekatan,hubungan,indonesia,aljazair, percaya,lagi,sejak,zaman,bung,karno,kini ,diteruskan,ibu,pua.
dekat,hubung,indonesia,aljazair,percaya ,lagi,sejak,zaman,bung,karno,kini,terus, ibu,pua.
Pembobotan TF-IDF Pada tahap TF-IDF, digunakan library scikit-learn.
dengan modul TfidfVectorizer.
Feature Selection Setelah dilaksanakan pembobotan dengan TF-IDF, dilakukan pemilihan fitur.
Pada penelitian ini pemilihan fitur menggunakan threshold 0,001.
Pembagian Data Pada fase pembagian data, data tweet yang ada akan dibagi menjadi data latih dan data uji berdasarkan rasio yakni 70:30, 80:20 dan 90:10.
Penerapan Nayve Bayes Classifier dalam Klasifikasi Sentimen Publik di Twitter terhadap Puan Maharani Oleh: Rizki Hidayat.
Muhammad Fikry.
Yusra.
Febi Yanto.
Eka Pandu Cynthia JUKI : Jurnal Komputer dan Informatika Volume 6 Nomor 1 Mei 2024 e-ISSN : 2722-4368 Nayve Bayes Classifier Setelah dilakukan feature selection, dilaksanakan proses klasifikasi dengan menerapkan metode Naive Bayes Classifier dengan rasio data latih serta data uji 70:30, 80:20, dan 90:10.
Terdapat 2 jenis dataset yang digunakan dalam penelitian ini ialah data tidak seimbang (Unbalanc.
serta data seimbang .
Data tidak seimbang yang dimaksud ialah data yang jumlah tweet yang berlabel positif dan negatif tidak seimbang sedangkan data seimbang sebaliknya.
Terdapat 9000 tweet pada data tidak seimbang serta 2000 tweet untuk data yang seimbang yang sudah diberi label positif dan Evaluasi Selanjutnya dilakukan evaluasi dari hasil klasifikasi sentimen dari setiap rasio pembagian data dan didapatkan confusion matrix sebagai berikut.
Table 4.
Hasil Confusion Matrix Confusion Matrix Data tidak Seimbang 70:30 80:20 90:10 70:30 Data Balance 80:20 90:10 Dari tabel confusion matrix diatas, didapatkan nilai accuracy, precision, recall serta f1-score untuk setiap pengujian sebagai berikut:
Table 5.
Nilai Accuracy Data Tidak Seimbang Precision Recall F1-Score Accuracy 70:30 87,93% 87,93% 87,93% 87,93% 80:20 88,3% 88,3% 88,3% 88,3% 90:10 88,89% 88,89% 88,89% 88,89% Data Balance 70:30 79,0% 79,0% 79,0% 79,0% 80:20 80,4% 80,4% 80,4% 80,4% 90:10 81,0% 81,0% 81,0% 81,0% Dari tabel 5, nilai akurasi yang tertinggi dari data unbalance sebesar 88,89% pada rasio pembagian data 90:10 dan nilai akurasi tertinggi dari data balance sebesar 81,0 pada rasio pembagian data 90:10.
Akurasi dan metrik lainnya cenderung lebih tinggi pada data yang tidak seimbang .
ekitar 87Ae88%) dibandingkan dengan data yang seimbang .
ekitar 79Ae81%).
Ini menunjukkan bahwa model mungkin memberikan hasil yang lebih baik pada data yang tidak seimbang, mungkin karena dominasi kelas mayoritas yang mempengaruhi hasil klasifikasi.
Namun, meskipun akurasi lebih tinggi, menggunakan data yang seimbang tetap penting untuk memastikan bahwa model tidak bias.
Wordcloud Wordcloud adalah alat visualisasi data teks yang biasa digunakan untuk menampilkan kata-kata yang paling sering muncul dalam teks .
Wordcloud menunjukkan frekuensi dan warna kata yang bisa digunakan untuk menunjukkan sentimen positif, negatif, atau netral.
Berikut hasil wordcloud dari sentimen terhadap Puan Maharani setelah preprocessing Penerapan Nayve Bayes Classifier dalam Klasifikasi Sentimen Publik di Twitter terhadap Puan Maharani Oleh: Rizki Hidayat.
Muhammad Fikry.
Yusra.
Febi Yanto.
Eka Pandu Cynthia JUKI : Jurnal Komputer dan Informatika Volume 6 Nomor 1 Mei 2024 e-ISSN : 2722-4368 Gambar 2.
Wordcloud data tidak Gambar 3.
Wordcloud data seimbang KESIMPULAN Berdasarkan hasil penelitian yang dilaksanakan, dapat disimpulkan bahwa analisis sentimen dapat menjadi alat yang efektif untuk memahami pendapat masyarakat khususnya masyarakat di platform Twitter terkait dengan persepsi terhadap Puan Maharani.
Nilai akurasi tertinggi dari proses pengujian data unbalance didapatkan yaitu sebesar 88.
89% pada rasio pembagian data latih serta data uji 90:10 dan nilai akurasi dari pengujian data balance sebesar 81,0% pada rasio pembagian data 90:10.
Namun ditemukan bahwa ketika menguji data yang tidak seimbang, pengklasifikasi Naive Bayes cenderung memihak pada kelas mayoritas .
, sehingga dapat menyebabkan kesalahan dalam mengklasifikasikan tweet negatif.
Untuk penelitian selanjutnya, teknik untuk mengatasi bias
ini harus dipertimbangkan, seperti menggunakan metode keseimbangan kelas atau model yang lebih DAFTAR PUSTAKA