Journal of Computer System and Informatics (JoSYC) ISSN 2714-8912 .
edia onlin.
ISSN 2714-7150 .
edia ceta.
Volume 5.
No.
May 2024.
Page 690-700 https://ejurnal.
seminar-id.
com/index.
php/josyc DOI 10.
47065/josyc.
Analisis Sentimen Hasil Pemilu (Quick Coun.
Calon Presiden dan Wakil Presiden 2024 di Media Sosial Media X Menggunakan Metode Bidirectional Long Short-Term Memory (BiLSTM) Qurrotu Aini*.
M Noer Fadli Hidayat.
Abu Tholib Fakultas Teknik.
Universitas Nurul Jadid.
Jawa Timur.
Indonesia Email: 1,*qurrotuaini724@gmail.
com, 2fadli@unuja.
id, 3ebuenje@gmail.
Email Penulis Korespondensi: qurrotuaini724@gmail.
Submitted: 24/05/2024.
Accepted: 31/05/2024.
Published: 31/05/2024 AbstrakOePentingnya memahami opini, sikap, dan sentimen publik terkait dengan calon presiden dan wakil presiden dalam konteks pemilihan umum di Indonesia.
Hasil quick count yang menjadi perbincangan utama di media sosial, terutama di platform seperti Twitter, menunjukkan betapa pentingnya memantau pandangan masyarakat terhadap hasil pemilu.
Namun, tweet yang bersifat bebas dan menggunakan bahasa digital seringkali sulit dipahami oleh yang tidak terbiasa, yang bisa menyebabkan penyebaran informasi yang salah atau pandangan yang tidak akurat.
Oleh karena itu, analisis sentimen menjadi kunci dalam memahami pandangan masyarakat terhadap hasil pemilu.
Penelitian ini mengusulkan penggunaan metode Bidirectional Long Short Term-Memory (BiLSTM) untuk menganalisis sentimen terkait hasil quick count pemilihan presiden dan wakil presiden 2024 di media sosial X.
Analisis sentimen ini bertujuan untuk mengklasifikasikan teks menjadi kategori positif, negatif, atau netral.
Tujuan penelitian ini adalah untuk mengukur nilai sentimen dan akurasi metode BiLSTM dalam analisis sentimen hasil pemilu.
Data dikumpulkan dengan scraping media sosial X menggunakan kata kunci "hasil quick count pilpres 2024" dan "hasil pilpres 2024", menghasilkan 1348 tweet.
Proses preprocessing mencakup cleaning, case folding, normalisasi, tokenisasi, penghapusan stopword, dan stemming.
Sentimen dilabeli menggunakan kamus Vader Pemodelan BiLSTM dilakukan dengan membagi data menjadi 70% untuk pelatihan dan 30% untuk pengujian.
Hasil penelitian menunjukkan bahwa sentimen netral memiliki persentase tertinggi sebesar 92,86%, diikuti oleh sentimen positif sebesar 3,83% dan negatif sebesar 3,31%.
Model BiLSTM mencapai akurasi sebesar 86,89% dengan akurasi keseluruhan sebesar 97%.
Nilai precision, recall, dan F1-score tertinggi terdapat pada kelas netral, masing-masing sebesar 98%, 99%, dan Penelitian ini membuktikan bahwa BiLSTM merupakan metode yang efektif untuk analisis sentimen teks yang kompleks seperti hasil pemilu.
Kata Kunci: Analisis Sentimen.
Bidirectional LSTM.
Pemilu.
Quick Count.
Media Sosial AbstractOeIt is important to understand public opinions, attitudes and sentiments in relation to presidential and vice presidential candidates in the context of Indonesia's general elections.
The fact that quick count results have become a major topic of conversation on social media, especially on platforms such as Twitter, shows how important it is to monitor people's views on election results.
However, tweets that are free-form and use digital language are often difficult for the unfamiliar to understand, which can lead to the spread of misinformation or inaccurate views.
Sentiment analysis is therefore key in understanding people's views on election results.
This research proposes the use of the Bidirectional Long Short TermMemory (BiLSTM) method to analyse sentiment related to the quick count results of the 2024 presidential and vice presidential elections on X social media.
This sentiment analysis aims to classify texts into positive, negative, or neutral The purpose of this study is to measure the sentiment value and accuracy of the BiLSTM method in sentiment analysis of election results.
Data was collected by scraping X social media using the keywords "quick count results of 2024 presidential election" and "results of 2024 presidential election", resulting in 1348 tweets.
Preprocessing included cleaning, case folding, normalisation, tokenisation, stopword removal, and stemming.
Sentiments were labelled using the Vader lexicon dictionary.
BiLSTM modelling was performed by dividing the data into 70% for training and 30% for testing.
The results showed that neutral sentiment had the highest percentage at 92.
86%, followed by positive sentiment at 3.
83% and negative at 3.
The BiLSTM model achieved an accuracy of 86.
89% with an overall accuracy of 97%.
The highest precision, recall, and F1-score values were found in the neutral class, at 98%, 99%, and 99% respectively.
This research proves that BiLSTM is an effective method for sentiment analysis of complex texts such as election results.
Keywords: Sentiment Analysis.
Bidirectional LSTM.
Election.
Quick Count.
Social Media PENDAHULUAN Indonesia adalah negara kepulauan terbesar yang menganut sistem demokrasi, yang mana sebuah sistem pemerintahan berasal dari rakyat, atau melalui wakil wakil terpilih.
Pemilu merupakan kontestasi pemilihan pemimpin yang berlangsung secara 5 tahun sekali.
Pemilu dijadwalkan tahun 2024 tanggal 14 februari warga Indonesia telah menentukan pilihan calon presiden dan wakil presiden.
Banyak kelompok politik menggunakan komunitas online untuk membangun dukungan bagi kandidat mereka menjelang pemilu.
Kandidat-kandidat yang di maksud adalah kandidat pertama yaitu.
Anis Baswedan berpasangan dengan Muhaimin Iskandar, kandidat kedua Prabowo Subianto berpasangan dengan Gibran Raka Buming Raka, lalu kandidat yang ketiga Ganjar Pranowo berpasangan dengan Mahfud MD.
Hasil quick count atau hasil sementara sudah keluar pada tanggal 15 februari, informasi tentang quick count ramai menjadi perbincangan semua masyarakat indonesia ditambah dengan adanya media sosial.
Salah satu platfrom media sosial yang sedang tranding saat ini adalah Twitter yang berganti nama menjadi X sejak 23 juli 2023.
X sebagai platfrom aktif dengan pertumbuhan pengguna yang sangat pesat.
Pendapat masyarakat yang disampaikan melalui media sosial bisa mencerminkan Copyright A 2024 Author.
Page 690 This Journal is licensed under a Creative Commons Attribution 4.
0 International License Journal of Computer System and Informatics (JoSYC) ISSN 2714-8912 .
edia onlin.
ISSN 2714-7150 .
edia ceta.
Volume 5.
No.
May 2024.
Page 690-700 https://ejurnal.
seminar-id.
com/index.
php/josyc DOI 10.
47065/josyc.
kecenderungan politik dan preferensi mereka.
Namun, karena tweet bersifat bebas, hal ini dapat menjadi sulit dipahami bagi yang tidak terbiasa dengan bahasa digital Ini bisa menghasilkan penyebaran informasi yang salah atau pandangan yang tidak akurat, yang pada gilirannya dapat berdampak merugikan banyak orang.
Oleh karena itu, memahami opini, sikap, dan sentimen publik terkait dengan calon presiden dan wakil presiden menjadi sangat penting.
Analisis sentimen bertujuan untuk memantau dan mengelompokkan pandangan masyarakat terhadap kandidat pemilu.
Dengan mengenali apakah sentimen tersebut positif, negatif, atau netral, kita dapat memperoleh wawasan yang lebih baik tentang bagaimana masyarakat melihat para kandidat.
Hal ini tidak hanya berguna untuk mengukur tingkat kepopuleran kandidat, tetapi juga untuk mengidentifikasi masalah-masalah utama yang perlu diperhatikan oleh mereka Analisis sentimen sangat diperlukan dalam memantau media sosial, terlebih lagi memantau sentimen masyarakat mengenai hasil pilpres 2024.
Analisis sentimen adalah proses teknik komputasional untuk mengklasifkasikan sentimen terhadap suatu data yang dapat dikelompokkan menjadi nilai positif, negatif, dan Analisis sentimen dilakukan untuk mendeteksi opini terhadap suatu subjek dan objek .
isalnya individu, organisasi ataupun produ.
dalam sebuah kumpulan data.
Data opini bisa menjadi informasi yang bermanfaat jika data tersebut dikumpulkan dan diolah, dengan dilakukannya analisis sentimen.
Besarnya pengaruh dan manfaat dari analisis sentimen menyebabkan penelitian ataupun aplikasi mengenai analisis sentimen berkembang pesat.
Dalam konteks pemilihan umum, analisis sentimen memegang peranan penting dalam memonitor media sosial serta memahami pandangan masyarakat terhadap hasil pilpres 2024.
Ini membantu kandidat dan tim kampanye mereka untuk menyesuaikan strategi mereka berdasarkan opini publik, mengatasi kekhawatiran yang mungkin dimiliki pemilih, dan memanfaatkan dukungan positif yang ada.
Salah satu metode yang efektif untuk analisis sentimen yaitu BiLSTM.
Metode Bidirectional long Short Term-Memory (BiLSTM) adalah jenis saraf tiruan (JST) yang unggul dalam memahami sentimen dan konteks data sekuensial, khususnya teks yang panjang dan kompleks dengan mempertimbangkan konteks kata-kata sebelumnya dan sesudahnya.
Bidirectional Long Short Term-Memory (BiLSTM) adalah pengembangan dari LSTM yang mampu mengatasi kelemahan LSTM dengan memproses kata dalam dua arah.
Didapat beberapa penelitian terkait yang nantinya akan menjadi perbandingan dengan penelitian yang penulis buat dari tingkat kelemahan dan kekurangan masing Ae masing.
Beberapa peneliti banyak membahas tentang analisis sentimen, penelitian yang dilakukan oleh Zairy Cindy.
Didapat polaritas tertinggi dari klasifikasi ketiga algoritma terdapat pada kelas positif.
Hal ini menandakan bahwa algoritma Logistic Regression memberikan kinerja lebih baik dalam mengklasifikasikan sentiment Twitter terkait pasangan calon presiden dan wakil presiden 2024.
Peneliti lainnya oleh M.
Fais SyaAo bani.
Performa pengujian Algoritma Naive Bayes terbaik terdapat pada pengujian dataset untuk calon presiden Ganjar Pranowo dengan nilai f1-score sebesar 0,88 untuk kelas positif.
Peneliti lainnya oleh Haekal Hilmi Zain.
Dalam konteks sentimen publik terhadap tiga kandidat presiden Anies.
Prabowo, dan Ganjar meraih persentase komentar positif tertinggi dan persentase komentar negatif terendah, sedangkan Anies memiliki persentase komentar negatif tertinggi.
Oleh karena itu, penelitian ini merekomendasikan penggunaan algoritma SVM dalam analisis sentimen data Twitter, khususnya dalam konteks politik dan pemilihan presiden.
Penelitian lainnya oleh Arfina Handayani.
Data sentimen yang dianalisis berasal dari 1719 tweet pengguna Twitter, dengan distribusi sekitar 597 data untuk aniesbaswedan, 627 data untuk ganjar pranowo, dan 495 data untuk prabowo subianto.
Penelitian ini memberikan wawasan tentang bagaimana masyarakat Indonesia menyampaikan sentimen mereka terkait bakal calon presiden 2024 melalui media sosial.
Analisis sentimen ini dapat menjadi referensi penting dalam memahami preferensi politik publik menjelang pemilihan umum yang akan datang.
Penelitian lainnya oleh Panji Al Muqsith Prasetyo.
algoritma naive bayes dengan tipe multinomialNB.
Penelitian ini menghasilkan nilai akurasi sebesar 85% dengan precision 86.
54%, recall 85%, dan f1-score sebesar 85% dimana hasil ini menggunakan skenario test_size sebesar 0.
2 yang menjadi skenario paling baik dalam pembangunan model.
Penelitian lainnya juga oleh Fakhris Khusnu.
Data diperoleh sebanyak sebanyak 2298 tweet, yang dibagi menjadi 80% data latih dan 20% data uji.
Pada tahapan pengolahan data penelitian ini menggunakan klasifikasi Nayve Bayes untuk membentuk model klasifikasi, berdasarkan model tersebut diperoleh nilai akurasi 83%, presisi 84%, dan recall 83%.
Berdasarkan permasalah yang telah diidentifikasikan dan berbagai penelitian yang telah disajikan terdapat beberapa kelemahan yang perlu diperhatikan atau diatasi dalam penelitian ini seperti.
Ragam metode.
Keterbatasan data, dan Perbedaan Kampanye Pemilu.
Mengingat kekurangan-kekurangan tersebut, penelitian ini memiliki potensi untuk memberikan kontribusi yang lebih besar dalam pemahaman analisis sentimen dalam konteks politik dan pemilihan umum.
Penelitian ini mengusulkan penggunaan metode Bidirectional Long Short Term-Memory (BiLSTM) untuk melakukan analisis sentimen hasil pemilu quick count di media sosial X yang bertujuan untuk mengetahui nilai positif, negatif, netral menggunakan kamus Vader lexicon.
serta akurasi yang diperoleh oleh BiLSTM.
Penelitian ini menunjukkan bahwa metode BiLSTM adalah salah satu metode yang paling berhasil dalam konteks klasifikasi teks.
Dengan dilakukannya penelitian ini, penulis berharap penelitian ini dapat bermanfaat bagi pihak yang membutuhkan informasi tentang hasil dari analisis sentimen ini.
Copyright A 2024 Author.
Page 691 This Journal is licensed under a Creative Commons Attribution 4.
0 International License Journal of Computer System and Informatics (JoSYC) ISSN 2714-8912 .
edia onlin.
ISSN 2714-7150 .
edia ceta.
Volume 5.
No.
May 2024.
Page 690-700 https://ejurnal.
seminar-id.
com/index.
php/josyc DOI 10.
47065/josyc.
METODOLOGI PENELITIAN
Penelitian ini dilaksanakan melalui beberapa tahap, yaitu pengumpulan dataset, pemrosesan data, pelatihan model, dan evaluasi hasil.
Metode penelitian secara rinci dapat dilihat pada Gambar 1.
Gambar 1.
Metode Penelitian 1 Pengumpulan Data Pengumpulan data dilakukan dengan cara scraping di situs web X melalui Google Colab menggunakan bahas Python.
Scraping adalah mendapatkan data untuk kemudian melakukan ekstraksi informasi yang dimiliki oleh data tersebut.
Cara kerja web scraping adalah dengan mengakses halaman web, memiliki elemen data yang ada halaman tersebut, melakukan ekstraksi dan transformasi bila diperlukan, dan terakhir penyimpanan data tersebut menjadi dataset terstruktur.
Data yang dikumpulkan dari tanggal 14 Februari hingga tanggal 09 April 2024 dan memasukkan search keyword atau kata kunci yang dibutuhkan berupa Au hasil quick count pilpres 2024 lang:id, hasil pilpres 2024 lang:id Ay menggunakan 2 kata kunci agar dataset yang didapatkan lebih maksimal, serta memberi acces token yang bersifat rahasia.
Data yang diambil adalah tweet yang terdapat pada media sosial X yang berisi teks komentar-komentar masyarakat.
Data yang didapatkan berjumlah 1348 kemudian data disimpan dalam bentuk file dengan format CSV.
Contoh data yang didapatkan dari hasil scraping pada penelitian ini dapat dilihat pada Gambar 2.
Gambar 2.
Dataset Quick Count 2 Processing Data Karena bahasa Twitter memiliki banyak item teks yang unik, maka item teks tersebut dihilangkan untuk mengurangi ruang fitur.
Item tersebut harus dihapus karena tidak memiliki nilai informasi dalam konteks analisis sentimen.
Untuk menghapus item tersebut dibutuhkannya processing data pada suatu dataset.
Processing data adalah tahap untuk melakukan transformasi data agar sesuai dengan format seharusnya dan dapat diproses.
Tahap pembersihan dilakukan untuk mengubah data mentah menjadi bentuk yang lebih mudah dipahami dan dapat diolah dengan algoritma data serta menormalkan data.
Tahapan pada processing data dapat dilihat pada Gambar 3.
Gambar 3.
Tahapan Processing Data Pada gambar 3 diatas ada beberapa tahap processing data yaitu.
Cleaning.
Case Folding.
Normalisasi.
Tokenization.
StopWord Removal.
Stemming.
Sebelum tahap processing data dimulai teks masukan yang digunakan adalah teks komentar pada media sosial X.
Langkah Ae langkah processing data adalah sebagai berikut.
Copyright A 2024 Author.
Page 692 This Journal is licensed under a Creative Commons Attribution 4.
0 International License Journal of Computer System and Informatics (JoSYC) ISSN 2714-8912 .
edia onlin.
ISSN 2714-7150 .
edia ceta.
Volume 5.
No.
May 2024.
Page 690-700 https://ejurnal.
seminar-id.
com/index.
php/josyc DOI 10.
47065/josyc.
Cleaning adalah kegiatan penghapusan karakter-karakter yang tidak sesuai ketentuan yang dibuat seperti huruf atau karakter diluar alphabet a-z .
ermasuk tanda bac.
, menghapus link atau URL , hashtag, username.
Case Folding adalah proses mengonversi semua huruf dalam teks menjadi huruf .
atau huruf besar .
Ini dilakukan untuk menyeragamkan bentuk kata dan menghindari perbedaan antara huruf besar dan kecil yang dapat mempengaruhi proses pengolahan data teks selanjutnya.
Normalisasi adalah menyeragamkan representasi teks dengan mengganti bentuk-bentuk yang tidak konsisten dengan bentuk standar.
Tokenization adalah proses memecah teks menjadi satuan-satuan yang lebih kecil, seperti kata, kalimat, atau Ini dilakukan untuk memudahkan proses analisis dan pemodelan data teks.
StopWord Removal adalah proses menghapus kata-kata yang sering muncul dalam teks tetapi tidak memberikan informasi yang signifikan.
Stemming adalah tahap perubahan kata ke dalam bentuk kata dasar.
3 Pelatihan Model Pada tahapan membangun model machine learning, data yang telah di preprocessing akan digunakan untuk pemodelan.
Metode yang digunakan adalah BiLSTM (Bidirectional Long Short Term-Memor.
Bidirectional LSTM merupakan salah satu variasi dari LSTM.
Pada varian LSTM ini, menggunakan dua unit LSTM pada prosesnya, satu unit untuk proses dari kiri-kanan dan satu unit lagi untuk proses dari kanan-kiri ketika proses inputnya berlangsung.
LSTM atau Long Short-Term Memory adalah metode RNN yang dikembangkan dengan menambahkan interaksi tambahan pada setiap modulnya.
LSTM menggunakan blok memory-cell yang terdiri dari input gate, forget gate, dan output gate untuk menggantikan lapisan RNN, sehingga mampu mengatasi masalah vanishing gradient pada RNN.
Arsitektur BiLSTM (Bidirectional Long Short Term-Memor.
dapat dilihat pada Gambar 4.
Gambar 4.
Arsitektur Bidirectional Long Short Term-Memory (BiLSTM).
Dalam arsitektur BiLSTM, proses pada forward LSTM dapat ditulis sebagai e = LSTM .
EaycOe1 ) sedangkan untuk proses backward LSTM ditulis sebagai Ene = LSTM .
cuyc ,Eayc 1 ).
Output akhir dari BiLSTM adalah penggabungan dari forward dan backward yang ditulis sebagai .
Ene ] .
4 Evaluasi Hasil Evaluasi hasil digunakan untuk menilai kinerja model yang telah dibuat.
Setelah model dilatih, lakukanlah validasi untuk mengevaluasi kinerja model.
Gunakan data validasi yang terpisah untuk mengukur akurasi, presisi, recall dan F1 score dengan menampilkan confusion matrix model dalam memprediksi sentimen dari teks.
Confusion matrix adalah alat yang berguna untuk mengevaluasi kinerja model klasifikasi secara lebih rinci dan membantu mengidentifikasi area-area yang perlu ditingkatkan dalam model.
Accuracy = .
Precision = .
Recall = .
F1 score = .
HASIL DAN PEMBAHASAN Pada bagian ini akan dibahas terkait hasil penelitian yang telah dilakukan.
Sebelum dilakukannya pemodelan dan pengujian, dataset akan dilakukan processing data terlebih dahulu.
Peneliti menampilkan stopwords yang mana Copyright A 2024 Author.
Page 693 This Journal is licensed under a Creative Commons Attribution 4.
0 International License Journal of Computer System and Informatics (JoSYC) ISSN 2714-8912 .
edia onlin.
ISSN 2714-7150 .
edia ceta.
Volume 5.
No.
May 2024.
Page 690-700 https://ejurnal.
seminar-id.
com/index.
php/josyc DOI 10.
47065/josyc.
hanya untuk sekedar menampilkan kata-kata dalam suatu teks yang sering muncul.
Bisa dilihat pada Gambar 5 dibawah ini.
Gambar 5.
Menampilkan Stopwords 1 Processing Data Selanjutnya penelitian ini dilakukan processing data atau pembersihan terhadap data mentah yang berjumlah 1348 menjadi 1331 dengan beberapa tahapan yaitu, cleaning, case folding, normalisasi, tokenization, stopword removal , dan stemming data.
Contoh hasil processing, pertama yaitu cleaning dapat dilihat pada Tabel 1.
Tabel 1.
Contoh Hasil Cleaning Full_text @kumparan Gak jawab tp nge-pin komen.
@kumparan pernah dengar kata CURANG nggaA @kumparan Menteri PU ya @ridwankamil? Klo masA @kumparan Kunci @kumparan Heleh curang aj bangga sok playing vA Cleaning Gak jawab tp ngepin komen pernah dengar kata CURANG ngga kang Menteri PU yak Klo masuk tim transisi nantiA Kunci Heleh curang aj bangga sok playing victim Cleaning adalah kegiatan penghapusan karakter-karakter yang tidak sesuai ketentuan yang dibuat seperti huruf atau karakter diluar alphabet a-z .
ermasuk tanda bac.
, menghapus link atau URL , hashtag, username.
Langkah berikutnya processing kedua yaitu case folding.
Contoh hasil case folding dapat dilihat pada Tabel 2.
Tabel 2.
Contoh Hasil Case Folding Cleaning Gak jawab tp ngepin komen pernah dengar kata CURANG ngga kang Menteri PU yak Klo masuk tim transisi nantiA Kunci Heleh curang aj bangga sok playing victim Case folding gak jawab tp ngepin komen pernah dengar kata c u r a n g ngga kang menteri pu ya klo sama tim transisi nantiA Kunci Heleh curang aj bangga sok playing victim Case folding, yang bertujuan untuk mengubah semua huruf dalam teks menjadi huruf kecil.
atau huruf besar .
Tahap selanjutnya dalam processing ketiga yaitu, normalisasi.
Contoh hasil normalisasi bisa dilihat pada Tabel 3.
Tabel 3.
Contoh Hasil Normalisasi Case folding gak jawab tp ngepin komen pernah dengar kata c u r a n g ngga kang menteri pu ya klo sama tim transisi nantiA Kunci Heleh curang aj bangga sok playing victim Normalisasi enggak jawab tapi ngepin komen pernah dengar kata sih lu r a n enggak enggak A menteri punya ya kalua masuk tim transisi nantA heleh curang saja bangga sok playing Normalisasi bertujuan untuk menyeragamkan representasi teks dengan mengganti bentuk-bentuk yang tidak konsisten dengan bentuk standar.
Tahap processing keempat, yaitu tokenization.
Contoh tokenization bisa dilihat pada Tabel 4.
Copyright A 2024 Author.
Page 694 This Journal is licensed under a Creative Commons Attribution 4.
0 International License Journal of Computer System and Informatics (JoSYC) ISSN 2714-8912 .
edia onlin.
ISSN 2714-7150 .
edia ceta.
Volume 5.
No.
May 2024.
Page 690-700 https://ejurnal.
seminar-id.
com/index.
php/josyc DOI 10.
47065/josyc.
Tabel 4.
Contoh Hasil Tokenization Normalisasi enggak jawab tapi ngepin komen pernah dengar kata sih lu r a n enggak enggak A menteri punya ya kalua masuk tim transisi nantA Kunci heleh curang saja bangga sok playing victim Tokenization .
nggak, jawab, tapi, ngepin, kome.
ernah, dengar, kata, sih, lu, r,a,n, engga.
enteri, punya, ya, kalau, masuk, tim, transiA] .
eleh, curang, saja, bangga, sok, playing, viA] Tpkenization bertujuan untuk memecah teks menjadi satuan-satuan yang lebih kecil, seperti kata, kalimat, atau kalimat.
Selanjutnya dari tahap processing kelima yaitu, stopword removal.
Contoh hasil stopword removal bisa dilihat pada Tabel 5.
Tabel 5.
Contoh Hasil StopWord Removal .
nggak, jawab, tapi, ngepin, kome.
ernah, dengar, kata, sih, lu, r,a,n, engga.
enteri, punya, ya, kalau, masuk, tim, transiA] .
eleh, curang, saja, bangga, sok, playing, viA] stopword removal .
gepin, kome.
engar, sih, lu, r,a,n, kan.
enteri, ya, masuk, tim, transisi, pakai, fedA] .
eleh, curang, bangga, sok, playing, victi.
Stowpord Removal bertujuan untuk menghilangkan kata-kata yang sering muncul dalam teks tetapi tidak memberikan informasi yang signifikan.
Tahap yang terakhir pada processing, yaitu steming Contoh hasil steming bisa dilihat pada Tabel 6.
Tabel 6.
Contoh Hasil Steming stopword removal .
gepin, kome.
engar, sih, lu, r,a,n, kan.
enteri, ya, masuk, tim, transisi, pakai, fedA] .
eleh, curang, bangga, sok, playing, victi.
ngepin komen dengar sih lu r a n kang menteri ya masuk tim transisi pakai fedora hatA heleh curang bangga sok playing victim Steming adalah menghapus infleksi atau kata Ae kata untuk mencapai bentuk dasar yang konsisten, sehingga berbagai varian dari sebuah kata dapat dikenali sebagai entitas yang sama.
2 Pelatihan Model Seluruh uji coba dalam penelitian ini dilakukan menggunakan laptop ASUS yang dilengkapi dengan RAM 4GB core i3.
Dalam pengaplikasiannya menggunakan menggunakan library Python yaitu Google Colaboratory.
Setelah dataset melalui tahap processing data, selanjutnya dataset dibagi menjadi dua X_train dan X_test, yaitu 70% sebagai data training dan 30% sebagai data testing pemisahan ini menghindari overfitting, dimana model hanya belajar dari data latih dengan sangat baik.
Selanjutnya pengujian terhadap algoritma yang diusulkan yaitu BiLSTM (Bidirectional Long Short Term-Memor.
Pemodelan dilakukan dengan menampilkan hasil dari struktur BILSTM yaitu, lapisan embedding, lapisan bilstm dan lapisan output untuk mengetahui nilai positif, negatif, dan netral menggunakan kamus vader lexicon.
Tabel 7 menunjukkan hasil lapisan embedding.
Tabel 7.
Hasil lapisan Embedding Embedding 100, 100 Tabel 7 ini menunjukkan shape, dari output embedding layer 100, mengacu pada panjang maksimum sequence .
eperti jumlah kata dalam kalima.
yang dapat diterima oleh layer.
100, mengacu pada dimensi embedding vector, yang berarti setiap token dalam sequence akan direpresentasikan dengan vektor embedding Hasil lapisan Bilstm bisa dilihat pada Tabel 8.
Tabel 8.
Hasil lapisan Bilstm Bidirectional Tabel 8 menunjukkan hasil dari Layer Bidirectional memungkinkan model untuk membaca input sequence .
eperti kalimat atau dokume.
dari dua arah, yaitu maju .
ari kiri ke kana.
dan mundur .
ari kanan ke kir.
256, mengacu pada dimensi output vektor yang dihasilkan oleh layer Bidirectional untuk setiap timestep Copyright A 2024 Author.
Page 695 This Journal is licensed under a Creative Commons Attribution 4.
0 International License Journal of Computer System and Informatics (JoSYC) ISSN 2714-8912 .
edia onlin.
ISSN 2714-7150 .
edia ceta.
Volume 5.
No.
May 2024.
Page 690-700 https://ejurnal.
seminar-id.
com/index.
php/josyc DOI 10.
47065/josyc.
dalam input sequence.
Menentukan lapisan Output yaitu untuk mengetahui nilai positif, negatif, dan netral menggunakan kamus vader lexicon.
Code bisa dilihat pada Gambar 5.
Gambar 5.
Library Vader Lexicon.
Tujuan utama dari code diatas adalah untuk menyiapkan lingkungan Python.
Mengunduh sumber daya vader_lexicon dari NLTK.
Sumber daya ini berisi kamus leksikal yang digunakan oleh metode VADER untuk menganalisis sentimen.
VADER sangat efektif dalam menganalisis teks dari media sosial karena mampu mengenali sentimen positif, negatif, netral, serta mengukur intensitas sentimen dalam teks.
Jika nilai sentimen > 0: maka hasilnya positif, nilai sentimen < 0: maka hasilnya negatif dan netral tidak mempunyai nilai atau sama dengan 0.
Bisa dilihat dari Tabel 9.
Tabel 9.
Hasil Dari Pelabelan Sentimen gak jawab tapi ngepin komen pernah dengar kata curang tidak kang menteri pu ya kalau masuk tim transisi nantiA heleh curang aja bangga sok playing victim sentiment_score Tabel 9 memberikan gambaran tentang bagamana kalimat Ae kalimat yang telah dibersihkan dianalisis dan di labeli sesuai dengan sentimen yang terdeteksi oleh algoritma.
Jumlah total keseluruhan ditampilkan pada memvisualisasikan jumlah atau frekuensi dari setiap kelas sentimen .
ositif, negatif, dan netra.
dalam dataset menggunakan diagram batang dengan library Seaborn.
Bisa dilihat pada Gambar 6.
Gambar 6.
Hasil Analisis Sentimen Gambar 6 menunjukkan hasil analisis sentimen dari sejumlah tweet, yang dikategorikan menjadi tiga kelas sentimen yaitu, netral, positif, negatif.
Batang dalam grafik diberi warna yang berbeda agar mempermudah Warna biru menunjukkan tweet yang memiliki sentimen netral.
Warna oranye menunjukkan tweet yang memiliki sentimen positif, dan Warna hijau menunnjukkan tweet yang memiliki sentimen negatif.
Sebagian besar tweet yang dianalisis memiliki sentimen netral, yaitu 92.
86% dari total tweet, hanya sedikit yang menunjukkan sentimen positif yaitu, 3.
83% dan negatif 3.
3 Evaluasi Hasil Langkah terakhir yaitu, pengujian dari evaluasi hasil dimana sebelum menampilkan hasil akurasi, presisi, recall dan F1 score dengan menampilkan confusion matrix model dalam memprediksi sentimen dari teks.
Copyright A 2024 Author.
Page 696 This Journal is licensed under a Creative Commons Attribution 4.
0 International License Journal of Computer System and Informatics (JoSYC) ISSN 2714-8912 .
edia onlin.
ISSN 2714-7150 .
edia ceta.
Volume 5.
No.
May 2024.
Page 690-700 https://ejurnal.
seminar-id.
com/index.
php/josyc DOI 10.
47065/josyc.
Dilakukannya data split yaitu membagi data y_train, y_test akan berisi label atau target yang sesuai berarti 5% dari data akan digunakan sebagai data testing, dan sisanya .
%) akan digunakan sebagai data training.
Model dilatih dengan data teks dan label sentimen, jumlah epoch diatur menjadi 10 untuk mencari nilai akurasi terbaik dari model yang digunakan.
Bisa dilihat pada Gambar 7.
Gambar 7.
Hasil Accuracy Epoch Dapat dilihat pada tabel 7 bahwa nilai akurasi pada data validasi cenderung meningkat seiring bertambahnya epoch, epoch terakhir akurasi yang didapatkan yaitu sebesar 0.
8689 atau 86.
Pada Gambar 8.
Confusion matrix digunakan untuk mengevaluasi kinerja model dengan melihat jumlah prediksi yang akurat dan tidak akurat untuk setiap kategori.
Label kelas ditampilkan pada sumbu x dan sumbu y.
Gambar 8.
Hasil Confusion Matrix Berikut penjelasan untuk setiap nilai dalam konfusion matrix :
Nilai 1220 pojok kiri atas menunjukkan jumlah teks yang diklasifikasikan dengan benar sebagai sentimen netral oleh model Nilai 12 dibaris AunetralAy dan kolom AupositifAy menunjukkan jumlah teks yang sebenarnya netral tetapi salah diklasifikasikan sebagai positif oleh model.
Nilai 4 dibaris AunetralAy dan kolom AunegatifAy menunjukkan jumlah teks yang sebenarnya netral tetapi salah diklasifikasikan sebagai negatif oleh model.
Nilai 13 dibaris AupositifAy dan kolom AunetralAy menunjukkan jumlah teks yang sebenarnya positif tetapi salah diklasifikasikan sebegai netral oleh model.
Nilai 38 di diagonal utama pada baris AupositifAy dan kolom AupositifAy menunjukkan jumlah teks yang diklasifikasikan dengan benar sebagai positif oleh model.
Nilai 6 di baris AunegatifAy dalam kolom AunetralAy menunjukkan jumlah teks yang sebenarnya negatif tetapi salah diklasifikasikan sebagai netral oleh model.
Nilai 38 di diagonal utama pada baris AunegatifAy dan kolom AunegatifAy menunjukkan jumlah teks yang diklasifikasikan dengan benar sebagai negatif oleh model.
Peneliti telah melakukan yang terbaik disetiap prosesnya, namun nilai-nilai di sepanjang diagonal utama .
0, 38, .
menunjukkan prediksi yang benar oleh model, sedangkan nilai-nilai di luar diagonal utama menunjukkan kesalahan prediksi.
Dari confusion matrix ini, kita dapat melihat bahwa model memiliki kinerja yang cukup baik dalam mengklasifikasikan sentimen netral dengan akurasi tertinggi dari ketiga kelas.
Pada Gambar 9.
Menampilkan grafik dari model BiLSTM (Bidirectional Long Short-Term Memor.
Copyright A 2024 Author.
Page 697 This Journal is licensed under a Creative Commons Attribution 4.
0 International License Journal of Computer System and Informatics (JoSYC) ISSN 2714-8912 .
edia onlin.
ISSN 2714-7150 .
edia ceta.
Volume 5.
No.
May 2024.
Page 690-700 https://ejurnal.
seminar-id.
com/index.
php/josyc DOI 10.
47065/josyc.
Gambar 9.
Grafik Hasil BiLSTM Pada gambar 9.
akurasi pelatihan meningkat hingga mencapai nilai 1.
0 atau 100% sempurna, yang berarti model mampu memprediksi seluruh data pelatihan dengan benar.
Namun, akurasi validasi hanya meningkat sedikit di sekitar 0.
89 atau 88-89% dan cenderung mendatar, jauh lebih rendah dibandingkan akurasi pelatihan.
Sedangkah gambar 9.
loss pelatihan terus menurun mendekati 0, selaras dengan akurasi pelatihan yang sempurna.
Namun, loss validasi justru meningkat setelah beberapa epoch pelatihan, bertolak belakang dengan penurunan loss pelatihan.
Setelah selesai dilakukan klasifikasi menggunakan algoritma BiLSTM, proses selanjutnya melihat hasil prediksi sentimen dengan menghitung akurasi, presisi, recall dan F1 score menggunakan kode fungsi classification report.
Bisa dilihat pada Gambar 10.
Gambar 10.
Kode Classification Report Kode ini berguna untuk mengevaluasi dan memvisualisasi kinerja model klasifikasi dengan menghasilkan laporan yang komprehensif.
Komprehensif mencangkup berbagai hasil metrik yang bisa dilihat pada Gambar 11.
Gambar 11.
Hasil Classification Report Dalam analisis sentimen hasil pemilu .
uick coun.
Berdasarkan hasil dari classification report di atas, menunjukkan kelas AunetralAy memiliki precision 98%, recall 99%, f1-score 99%, dan support berjumlah 1236.
Untuk kelas AupositifAy memiliki precision 79%, recall 75%, f1-score 77% dan support berjumlah 51.
Dan untuk kelas AunegatiAy memiliki precision 88%, recall 86%, f1-score 87% dan support berjumlah 44.
Akurasi keseluruhan model adalah 0,97% dari total 1331 instance, yang menunjukkan kinerja klasifikasi yang sangat baik secara keseluruhan.
KESIMPULAN
Analisis sentimen hasil pemilu .
uick coun.
calon presiden & wakil presiden 2024 dengan metode Bidirectional Long Shor-Term Memory menggunakan dataset bersih yang berjumlah 1331 dengan menggunakan library Python yaitu Google Colaboratory, hasil dari analisis tersebut dapat disimpulkan bahwa sentimen netral paling tinggi yaitu 92,86% , nilai sentimen positif 3,83%, dan nilai sentimen negatif 3.
Akurasi yang didapat dari epoch sebesar 86.
Sedangkan akurasi keseluruhan model adalah 0,97% .
Penulis menyadari masih banyak kekurangan dalam penelitian ini, oleh karena itu untuk pengembangan selanjutnya diharapkan dilakukan Copyright A 2024 Author.
Page 698 This Journal is licensed under a Creative Commons Attribution 4.
0 International License Journal of Computer System and Informatics (JoSYC) ISSN 2714-8912 .
edia onlin.
ISSN 2714-7150 .
edia ceta.
Volume 5.
No.
May 2024.
Page 690-700 https://ejurnal.
seminar-id.
com/index.
php/josyc DOI 10.
47065/josyc.
perbandingan antara algoritma BiLSTM dengan algoritma klasifikasi lainnya menggunakan dataset yang sudah translate ke dalam bahasa inggris atau gunakan lexicon lainnya juga untuk mendapatkan nilai sentimen yang tepat dan nilai akurasi yang tinggi guna mendapatkan perbandingan tingkat akurasi dan presisi yang lebih REFERENCES