Sci-Tech Journal Volume 3 Nomor 2 .
179 Ae 192 E-ISSN 2830-6759 DOI: 10.
56709/stj.
Analisis Sentimen Twitter Atas Isu Hak Angket Menggunakan Pembobotan TF-IDF dan Algoritma SVM Irqi Anbi Fahrezi1.
Rudiman2.
Nauval Azmi Verdikha3 1,2,3 Universitas Muhammadiyah Kalimantan Timur 2011102441036@umkt.
id1, rudiman@umkt.
id2, nav651@umkt.
ABSTRACT
Social media has become an important platform for voicing public opinion.
One of the most popular and frequently used social media is Twitter.
Twitter is a popular social media in Indonesia for discussions on political issues.
The topic that is being discussed is the "inquiry right" because of the alleged fraud that occurred in the 2024 elections.
The alleged fraud in the 2024 elections raised issues related to the rolling of the right of inquiry aimed at finding out the oddity or fraud.
Therefore, a method is needed to classify the opinion whether it is classified as a positive or negative sentiment.
This research uses 1113 data obtained from Twitter social media by applying crawling techniques.
The data goes through several preprocessing stages then feature extraction using Term Frequency-Inverse Document Frequency, split data, and Support Vector Machine algorithms.
The test results using these stages obtained an accuracy of 75%, indicating that the applied method is effective in classifying public sentiment related to the inquiry right issue.
Keywords : Accuracy.
Inquiry Rights.
Support Vector Machine.
TF-IDF.
Twitter
ABSTRAK
Media sosial menjadi platform penting dalam menyuarakan opini publik.
Salah satu media sosial yang sering digunakan dan paling populer adalah Twitter.
Twitter menjadi media sosial yang populer di Indonesia digunakan untuk berdiskusi termasuk isu politik.
Topik yang ramai diperbincangkan adalah Auhak angketAy karena adanya dugaan kecurangan yang terjadi pada pemilu Adanya dugaan kecurangan yang terjadi pada pemilu tahun 2024 memunculkan isu terkait bergulirnya hak angket yang ditujukan untuk mengetahui adanya keganjilan atau kecurangan Oleh karena itu diperlukan sebuah metode untuk mengklasifikasikan opini tersebut apakah tergolong sentimen positif atau negatif.
Penelitian ini menggunakan sebanyak 1113 data yang telah yang didapatkan dari media sosial Twitter dengan menerapkan teknik crawling.
Data melewati beberapa tahapan preprocessing kemudian ekstraksi fitur menggunakan Term Frequency-Invers Document Frequency, split data dan algoritma Support Vector Machine.
Hasil pengujian menggunakan tahapan tersebut memperoleh hasil akurasi sebesar 75%, menunjukkan bahwa metode yang diterapkan efektif dalam mengklasifikasikan sentimen publik terkait isu hak angket.
Kata kunci : Akurasi.
Hak Angket.
Support Vector Machine.
TF-IDF.
Twitter.
PENDAHULUAN
Melihat polemik yang terjadi di dunia politik belakangan ini adanya indikasi terjadinya kecurangan pada pemilihan umum tahun 2024 sehingga memunculkan isu terkait bergulirnya hak angket oleh Dewan Perwakilan Rakyat (DPR) untuk menuntaskan adanya dugaan keganjilan dan kecurangan (Aryanti et al.
, 2.
Kekacauan ini terjadi sebab adanya dugaan ketidaknetralan ASN, politik uang dan lainnya yang mana hal ini sudah semestinya dengan bergulirnya hak hak angket dapat menjadi pembenahan sistem pemilu dan pemerintahan (Supryadi, 2.
Hal ini didasari oleh salah satu hak yang dimiliki oleh DPR sebagaimana tercantum pada Undang-Undang Republik Indonesia Nomor 179 | Volume 3 Nomor 2 2024 Sci-Tech Journal Volume 3 Nomor 2 .
179 Ae 192 E-ISSN 2830-6759 DOI: 10.
56709/stj.
27 Tahun 2009 Pasal 77 ayat 3 tentang MPR.
DPD.
DPD, dan DPRD.
Hal ini pun akhirnya mengundang berbagai macam respon yang diberikan oleh masyarakat.
Salah satu media dimana masyarakat dapat memberikan komentarnya terhadap suatu isu adalah Twitter.
Twitter adalah media sosial yang digunakan untuk mengirimkan pesan singkat atau tweet (Krisdiyanto, 2.
Indonesia dengan jumlah pengguna Twitter yang berkisar 19,5 juta pengguna dengan menduduki peringkat ke-5 media sosial yang sering digunakan pada tahun 2020 (Amelia et al.
, 2.
Dengan banyaknya pengguna serta kebebasan yang diberikan dalam platform media sosial ini maka penting untuk melakukan analisis sentimen terhadap opini-opini atau pandangan masyarakat terhadap isu-isu tertentu yang di ungkapkan di media sosial Twitter.
Analisis sentimen merupakan sebuah metode dalam melakukan ekstraksi data opini, mengolah dan memahami data yang memiliki basis tekstual secara otomatis untuk melihat sentimen yang tercantum pada sebuah pendapat (Hendra & Fitriyani, 2.
metode analisis ini menerapkan teknik Natural Language Preprocessing (NLP) untuk mengidentifikasi kata dan frasa yang menunjukkan emosi tertentu (Munawaroh et al.
Untuk mengatasi pencarian dokumen yang relevan dan mengurangi kesalahan pengambilan, digunakan metode pembobotan Term Frequency-Inverse Document Frequency (TF-IDF) untuk pencarian keterkaitan antar beberapa dokumen.
merupakan jenis pembobotan yang kerap kali digunakan dalam information retrival (Yutika et al.
, 2.
TFIDF merupakan sebuah metode menghitung atau membobotkan kata melalui teknik tokenisasi, stopwords, stemming dan frekuensi terhadap munculnya kata dalam sebuah dokumen yang menunjukan tingkat kepentingan sebuah kata dalam sebuah dokumen (Rofiqi et al.
, 2.
Untuk melakukan analisi sentimen menggunakan teknik Text Mining diperlukan metode klasifikasi yang tepat.
Salah satu model algoritma yang kerapkali digunakan dalam klasifikasi yaitu algoritma Support Vector Machine (SVM).
SVM memiliki konsep utama dalam klasifikasi data, yaitu menentukan hyperlane optimal yang memaksimalkan jarak antara dua kelas yang sudah ada (Tineges et al.
, 2.
Hyperlane merupakan fungsi yang dapat digunakan untuk memisahkan antar kelas pada data (Pratiwi et al.
, 2.
Merujuk pada penelitian sebelumnya yang berjudul AuPenerapan Algoritma SVM Untuk Analisis Sentimen Pada Data Twitter Komisi Pemberantasan Korupsi Republik IndonesiaAy Dengan mengadopsi algoritma SVM dan TF-IDF untuk melakukan analisis sentimen dari data hasil crawling Twitter terhadap opini publik terhadap KPK, dari pengujian didapatkan hasil akurasi sebesar 82% serta dihasilkan sentimen label negatif 77%, positif 8%, dan netral 25% (Darwis et al.
, 2.
Penelitian kedua pada analisis sentimen layanan indihome menggunakan SVM didapatkan hasil akurasi 87% (Tineges et , 2.
Berdasarkan penjelasan pada paragraf sebelumnya, penelitian ini memiliki urgensi penelitian yang terletak pada pentingnya menganalisis sentimen masyarakat yang ada di media sosial terkait isu hak angket dalam konteks pemilihan umum di Indonesia tahun Proses analisis sentimen dalam penelitian ini akan menerapkan pembobotan atau ekstraksi fitur Term Frequency-Inverse Document Frequency (TF-IDF) dan model klasifikasi Support Vector Machine (SVM).
Hasil akhir yang didapatkan dari penerapan metode tersebut adalah akurasi yang digunakan melakukan evaluasi.
Dengan adanya penelitian ini 180 | Volume 3 Nomor 2 2024 Sci-Tech Journal Volume 3 Nomor 2 .
179 Ae 192 E-ISSN 2830-6759 DOI: 10.
56709/stj.
juga diharapkan dapat berguna bagi lembaga legislatif dalam memahami sentimen terhadap penggunaan hak angket yang dimiliki dalam menjalankan tugas dan kewajiban.
METODE PENELITIAN
Terdapat beberapa tahapan penelitian yang dilakukan yanng digambarkan pada Penelitian diawali dengan pengumpulan data, labeling, preprocessing, ektraksi fitur, split data, classification, dan evaluasi.
Keseluruhan tahapan dilakukan memanfaatkan bahasa pemrograman Python dan fungsi serta library yang dimilikinya seperti library pandas, library NLTK, library sastrawi, library matplotlib, library sckit-learn.
Untuk menuliskan program digunakan google colaboratory sebagai text editor.
Gambar 1.
Alur Penelitian 1 Pengumpulan Data Metode yang digunakan untuk mengumpulkan data adalah metode crawling pada platform Twitter dengan menerapkan kata kunci Auhak angketAy dalam konteks pemilihan umum Indonesia tahun 2024.
Crawling dilakukan dengan memanfaatkan tools tweetharvest yang dikembangkan dengan Node.
Tweet harvest adalah tools untuk pengambilan data di Twitter dengan memanfaatkan auth_token Twitter (Yuniarossy et al.
, 2.
2 Labeling Data yang telah diekstrak kemudian masuk kedalam tahap labeling.
Tujuannya adalah memberikan label pada dataset berdasarkan keadaan emosi dan bahasa pengguna yang ada pada setiap tweet (Aldisa & Maulana, 2.
Pemberian label sentimen dilakukan dengan memberikan label positif ataupun negatif pada komentar berdasarkan acuan dasar Oleh sebab itu pada penelitian ini labeling dilakukan oleh expert dalam di dalam bidangnya dengan memanfaatkan website projects.
id, tempat transaksi antara pengguna jasa dan tenaga ahli.
181 | Volume 3 Nomor 2 2024 Sci-Tech Journal Volume 3 Nomor 2 .
179 Ae 192 E-ISSN 2830-6759 DOI: 10.
56709/stj.
3 Preprocesing Tahap preprocessing bertujuan untuk mengubah bentuk dokumen yang memiliki data tidak terstruktur menjadi terstruktur agar dapat diolah lebih lanjut (Ridwansyah.
Dalam arti lain preprocessing berfungsi untuk mengurangi volume kosa kata dengan menghapus noise dan menyeragamkan bentuk kata pada data (Normawati & Prayogi.
Tahap ini juga menggunakan library sastrawi untuk melakukan pemrosesan teks berbasis bahasa Indonesia.
Adapun proses preprocessing yang diterapkan adalah case folding, cleaning, tokenizing, stopword, stemming, dan delete duplicate (Supriyadi & Sibaroni, (Fitriyah & Kartikasari, 2.
1 Case Folding Data berbasis teks seringkali terjadi inkonsistensi dalam penggunaan huruf kapital.
Dengan menerapkan fugsi Aolower()Ao yang dimiliki python seluruh kata didalam dokumen akan diubah menjadi huruf kecil .
2 Cleaning Cleaning merupakan fungsi guna menghilangkan noise dari kata-kata yang tidak dibutuhkan dalam proses klasifikasi.
Kata-kata yang merupakan karakter pada teks yang tidak penting dan tidak mempengaruhi sentimen seperti hashtag, url, mention, simbol ataupun karakter non-alfanumerik.
3 Tokenizing Tokenizing adalah proses pemisahan teks panjang dapat berupa kalimat, paragraf ataupun dokumen menjadi potongan-potongan yang disebut juga dengan token .
Contohnya pada kalimat Aupython memiliki banyak libraryAy setelah ditokenisasi menjadi Aupython, memiliki, banyak, libraryAy.
Stopword Stopword atau stopword removal adalah proses mengambil kata kata penting dalam Kata-kata yang bersifat umum, konjungsi, dan tidak memiliki makna akan dihapus, untuk menjalankan tahap ini digunakan library sastrawi untuk pemrosesan data teks berbasis bahasa indonesia.
5 Stemming Stemming adalah tahapan yang bertujuan untuk menghapus awalan, akhiran, ataupun gabungan dari keduanya dan merubahnya menjadi kata dasar atau root word.
Tahap ini memanfaatkan AoStemmerFactoryAo dari library sastrawi.
6 Delete Duplicate Penerapan delete duplicate dapat mencegah adanya data berulang yang memiliki makna yang sama.
Dengan menjaga kebersihan data dapat menghemat sumber daya dan menghemat waktu pemrosesan.
4 Ekstraksi Fitur Proses selanjutnya, dilakukan pembobotan kata menggunakan Term Frequency Ae Inverse Document Frequency (TF-IDF) adalah proses mentransformasi data yang memiliki basis tekstual menjadi data numerik untuk memeberi bobot pada setiap kata atau fitur dengan mengabungkan perhitungan frekuensi kemunculan sebuah kata dan inverse frekuensi dokumen yang mengandung kata tersebut (Mahendra.
, 2019.
Septian et al.
, 2.
182 | Volume 3 Nomor 2 2024 Sci-Tech Journal Volume 3 Nomor 2 .
179 Ae 192 E-ISSN 2830-6759 DOI: 10.
56709/stj.
Tujuan TF-IDF adalah melakukan identifikasi kata penting yang ada didalam dokumen atau kata kunci dalam sebuah dokumen atau kumpulan dokumen (Wati et al.
, 2.
Nilai Term Frequency (TF) merupakan teknik dalam mencari bobot dari dokumen dengan mencari banyaknya kemunculan term pada dokumen.
Semakin sering sebuah term muncul maka akan mempengaruhi nilai pembobotan (Mahendra.
, 2.
Untuk menghitung term frequency suatu dokumen dapat dihitung dengan persamaan .
sebagai berikut (Ananda & Suryono, 2.
ycycycycycyc,yccycc = yayayayayayayayayayaEa ycoycoycoycoycoycoycoycoycoycoycoycoycoycoycoycoycoycoycoyco ycycycycycycycyc ycyc yccyccyccyccyccyccyccyccyccycc yccyccyccyccyccyccyccyccyccyccyccyccyccycc yccycc ycNycNycNycNycNycNycNycNycNycN ycycycycycycycycycycEa ycycycycycycycyc yccyccyccyccyccyccyccyccyccycc yccyccyccyccyccyccyccyccyccyccyccyccyccyccyccycc TF memberikan nilai frekuensinya dari kemunculan suatu term dalam sebuah Sedangkan Inverse Document Frequency adalah metode untuk menghitung penyebaran term pada keseluruhan dokumen (Mahendra.
, 2.
IDF dapat dihitung menggunakan persamaan .
(Yutika et al.
, 2.
ycnycnycnycnycnycnycyc = log ( ycAycA Dimana N adalah total jumlah dokumen dalam kumpulan dokumen tersebut.
Setelah didapatkan nilai TF dan IDF maka langkah selanjutnya adalah menghitung nilai TFIDF dengan mengalikan kedua nilai TF dan nilai IDF.
Dari kedua persamaan diatas maka nilai TF-IDF dapat dihitung menggunakan persamaan .
(Yutika et al.
, 2.
ycycycycycycycycycycycyc,yccycc = ycycycycycyc,yccycc O ycnycnycnycnycnycnycyc 5 Split Data Merupakan metode yang dapat diterapkan untuk membagi dataset dan merupakan salah satu dari banyak aspek dapat menyebabkan pengaruh dari kinerja optimal suatu model dapat bekerja pada algoritma machine learning (Oktafiani et al.
, 2.
Data latih berfungsi untuk mentraining algoritma, sedangkan data uji berfungsi untuk memeriksa kinerja algoritma (Putri et al.
, 2.
Rasio pembagian data yang diterapkan pada penelitian ini yaitu sebesar 80% data akan digunakan sebagai data latih dan 20% sebagai data uji.
Rasio ini mengacu pada penelitian sebelumnya dengan rasio 80:20 digunakan dapat menghasilkan performa yang baik dalam model klasifikasi sentimen dengan akurasi sebesar 87% (Pratiwi et al.
, 2.
Tahap split data memanfaatkan library Aotrain_test_splitAo dari library sklearn.
6 Classification SVM adalah metode klasifikasi yang memungkinkan data dipisahkan kedalam kelas yang berbeda dengan mencari hyperplane optimal yang memaksimalkan jarak antar kelaskelas tersebut (Ananda & Suryono, 2.
Tujuannya adalah untuk menemukan batasan keputusan optimal yang memisahkan data sebaik mungkin.
Penerapan SVM memiliki tujuan untuk menemukan hyperlane optimal melalui cara memaksimalkan jarak antar kelas.
Hyperplane adalah fungsi yang dapat digunakan untuk memisahkan beberapa kelas (Pratiwi et al.
, 2.
SVM sangat efektif dalam memproses data yang kompleks dan cocok untuk ruang fitur yang luas.
Pada dasarnya.
SVM merupakan suatu linear classifier, namun SVM dapat dikembangkan menjadi nonlinear classifier (Ade Dwi Dayani et al.
, 2.
Berikut adalah persamaan .
merupakan rumus kernel linear pada SVM (Rahayu et al.
, 2.
183 | Volume 3 Nomor 2 2024 Sci-Tech Journal Volume 3 Nomor 2 .
179 Ae 192 E-ISSN 2830-6759 DOI: 10.
56709/stj.
cuycuycnycn , ycuyc.
= ycuycu ycyc ycuycu Secara default dari penerapan Aosckit-learnAo untuk memodelkan klasifikasi menggunakan kernel Radial Basis Function (RBF), tetapi dengan menambahkan parameter .
ernel='linear') pada program maka kernel linear dapat digunakan dalam proses Kernel linear menghitung produk titik .
ot produc.
dari dua vektor input di ruang asli tanpa mentransformasikannya ke ruang fitur yang lebih tinggi (Rabbani et al.
Berikut adalah persamaan .
merupakan persamaan support vector machine (Oktavia et al.
, 2.
= OcO ycnycn=1 ycaycaycayca ycycycyc yayaycuycu.
ycuycu ycayca Keterangan:
ai = alfa ke-i yi = kelas data latih ke-i Oc = jumlah data K.
= fungsi kernel yang digunakan, dengan x = data uji xi = data latih ke-i b = bias Hasil permodelan dapat dituangkan dalam bentuk tabel confusion matrix.
Confusion matrix adalah tabel yang menunjukan Jumlah data hasil pengujian klasifikasi yang benar dan jumlah data pengujian yang salah (Normawati & Prayogi, 2.
Berikut adalah tabel 1 merupakan confusion matrix:
Tabel 1.
Confusion Matrix Prediksi Negative Positive Negative TN (True Negativ.
FP (False Positiv.
Aktual Positive FN (False Negativ.
TP (True Positiv.
Keterangan:
True Positive (TP), adalah nilai dari kelas positif yang diprediksi dengan benar.
True Negative (TN), adalah nilai dari kelas negatif yang diprediksi dengan benar.
False Positive (FP), adalah nilai dari kelas negatif yang diprediksi sebagai label False Negative (FN), adalah nilai dari kelas positif yang diprediksi sebagai label 6 Evaluasi Pada penelitian ini penilaian kinerja algoritma hanya menentukan nilai akurasi untuk mengevaluasi kinerja yang diberikan dari algoritma.
Akurasi merupakan nilai rasio data tweet yang benar terdeteksi di dalam data pengujian.
Dalam arti lain akurasi adalah ukuran yang menunjukkan seberapa dekat hasil atau nilai prediksi yang diberikan sistem dengan nilai hasil prediksi manusia (Azhari et al.
, 2.
berikut persamaan rumus untuk menghitung nilai akurasi:
184 | Volume 3 Nomor 2 2024 Sci-Tech Journal Volume 3 Nomor 2 .
179 Ae 192 E-ISSN 2830-6759 DOI: 10.
56709/stj.
yayayayayayayayayayayayayayayaya = ycNycNycNycN ycNycNycNycN
ycNycNycNycN yayayaya yayayaya ycNycNycNycN
HASIL DAN PEMBAHASAN
1 Pengumpulan Data Pengambilan data dilakukan dengan rentang waktu pencarian 14 November 2023 10 Mei 2024 agar data yang diambil merupakan data yang relevan dalam masa pemilu Indonesia tahun 2024.
Dari proses pengambilan data tersebut didapatkan total data mentah sebanyak 1113 data, kemudian data disimpan dalam format file Auhakangket.
csvAy yang akan digunakan pada proses selanjutnya.
Hasil crawling terdiri dari 15 kolom namun untuk mempermudah proses analisis data pada tahapan selanjutnya, maka hanya kolom full_text saja yang digunakan.
Berikut adalah gambar 2 menampilkan data yang berhasil Gambar 2.
Data hasil Crawling 2 Labeling Sebanyak 1113 data diberi label sentimen positif dan negatif oleh expert yang hasilnya ditampilkan pada tabel 2 dibawah ini.
Tabel 2.
Dataset Terlabeli Full_text Label @democrazymedia Njirr katanya hak angket? Mana ?? Penipu lu Negatif @gorunbiraz3 @jokowi @prabowo @gibran_tweet @AgusYudhoyono 1113 @bengkeldodo @cocolatetwo @KangayamLombok Padahal tinggal lakuin Positif hak angket Hasil pemberian label dapat divisualisasikan dalam bentuk grafik lingkaran untuk menampilkan persentase kelas.
Gambar 3 dibawah ini menunjukan bahwa dalam dataset terdapat 64,3% data tergolong kelas negatif dan 35,7% data adalah kelas positif, apabila dinyatakan dalam angka yaitu 397 merupakan kelas positif dan 716 adalah kelas negatif.
Artinya banyak pengguna Twitter yang condong memberikan respon negatif dalam mengomentari isu hak angket yang ramai diperbincangkan.
185 | Volume 3 Nomor 2 2024 Sci-Tech Journal Volume 3 Nomor 2 .
179 Ae 192 E-ISSN 2830-6759 DOI: 10.
56709/stj.
Gambar 3.
Persentase Kelas Positif dan Negatif 3 Preprocessing Data yang belum diolah dapat ditampilkan dalam bentuk wordcloud untuk melihat pola kata yang sering muncul.
Gambar 4 adalah wordcloud sebelum dataset melalui proses Gambar 4.
Wordcloud Sebelum Preprocessing Dari gambar diatas menunjukan kata-kata yang yang paling sering muncul dalam dataset yang berkaitan dengan topik Hak Angket seperti AuhttpsAy.
AudanAy.
AuygAy.
AuPDIPAy,AycoAy.
AuituAy.
AuPuan MaharaniAy.
AuJokowiAy dan kata-kata lainnya juga muncul dalam wordcloud menunjukkan bahwa didalam dataset terdapat kata-kata bersifat umum, tidak baku, bahkan url yang tidak memiliki pengaruh apapun.
Kata-kata ini perlu dihilangkan agar tidak menjadi noise dan mempengaruhi hasil akhir yang didapatkan.
Keberadaan kata yang tidak memiliki makna ini menunjukan bahwa pentingnya tahapan preprocessing untuk membuat dataset yang digunakan menjadi lebih terstruktur.
Sebanyak 1113 data mentah yang telah diberi label positif dan negatif diproses melewati tahap case folding, cleaning, tokenizing, stopword, stemming, dan delete duplicate untuk menciptakan data yang terstruktur.
Hasil dari tahapan preprocessing ditampilkan dalam bentuk wordcloud gambar 5.
Gambar 5.
Wordcloud Sebelum Preprocessing Setelah dilakukannya preprocessing menyisakan 939 data bersih yang akan digunakan dalam tahapan selanjutnya.
Data-data ini dapat divisualisasikan dalam bentuk 186 | Volume 3 Nomor 2 2024 Sci-Tech Journal Volume 3 Nomor 2 .
179 Ae 192 E-ISSN 2830-6759 DOI: 10.
56709/stj.
wordcloud untuk melihat kata kata apa saja yang sering muncul pada dataset baik sebelum ataupun sesudah proses preprocesing.
Gambar wordcloud diatas memberikan informasi adanya perbedaan pola pada kata-kata yang sering muncul dalam dataset selain itu perubahan juga lain juga terdapat pada berubahnya setiap kata yang memiliki awalan.
Namun secara keseluruhan proses preprocessing masih memiliki kekurangan.
Kekurangan tersebut terdapat pada tahap tahap stopword, dimana masih terdapat kata-kata yang tidak memiliki arti belum terhapus secara menyeluruh contohnya adalah kata AuygAy.
AugakAy.
AuyaAy.
AunyaAy.
AusdhAy.
AugaAy, dan sebagainya.
Hal ini dikarenakan dari library sastrawi yang digunakan untuk memproses data teks berbasis bahasa Indonesia tidak sepenuhnya mencakup katakata istilah, bahasa gaul, atau singkatan yang digunakan oleh masyarakat dalam memberikan opininya.
Permasalahan ini dapat menyebabkan pengaruh pada hasil dari pembobotan TF-IDF serta penerapannya pada algoritma SVM.
4 Ektraksi Fitur Setiap kata dalam dataset diproses dan dikonversi menjadi nilai vektor numerik.
Hasil dari penerapan fungsi TF-IDF menggunakan persamaan rumus 3.
output yang diberikan pada baris pertama menghasilkan .
, 2.
menunjukkan bahwa kata dalam dokumen indeks ke-0 dan indeks term dalam vocabulary ke-2636 memiliki nilai TF-IDF 0,4142567525057198.
Untuk output .
, .
yaitu kata dalam dokumen indeks ke-938 dan indeks term ke-151 dalam vocabulary memiliki nilai TF-IDF 0,11694591337534087.
Proses TF-IDF menghasilkan hasil akhir jumlah baris data sebanyak 939 baris dengan jumlah 2846 term.
Hasil perhitungan TF-IDF ditampilkan pada gambar 6.
187 | Volume 3 Nomor 2 2024 Sci-Tech Journal Volume 3 Nomor 2 .
179 Ae 192 E-ISSN 2830-6759 DOI: 10.
56709/stj.
Gambar 6.
Hasil TF-IDF 5 Split Data Penelitian ini melakukan split data dengan porsi dari data latih dan data uji yaitu 80:20 dengan 80% data latih dan 20% data uji dengan mengambil data hasil dari pembobotan TF-IDF.
Gambar 7 menampilkan hasil pembagian data dengan output dari proses split data, dari 939 data 751 data adalah data latih dan 188 data merupakan data uji.
Gambar 7.
Hasil Split Data 188 | Volume 3 Nomor 2 2024 Sci-Tech Journal Volume 3 Nomor 2 .
179 Ae 192 E-ISSN 2830-6759 DOI: 10.
56709/stj.
6 Klasifikasi Pada tahap klasifikasi 188 data diuji menggunakan model Support Vector Machine menghasilkan prediksi yang dapat disajikan dalam bentuk confusion matrix.
Gambar 8 menampilkan confusion matrix.
Gambar 8.
Confusion Matrix Berdasarkan gambar dapat diketahui bahwa dari penerapan model algoritma didapatkan confusion matrix yaitu True Positive 21 .
data yang diklasifikasikan kelas positif dan benar kelas positi.
True Negative 120 .
data yang diklasifikasikan kelas negatif dan benar kelas negati.
False Positive 7 .
data yang sebenarnya kelas negatif, tetapi salah diklasaifikasikan sebagai kelas positi.
False Negative (FN) 40 .
data yang sebenarnya adalah kelas positif, tetapi salah diklasifikasikan sebagai kelas negati.
7 Evaluasi Berdasarkan confusion matrix yang dihasilkan, maka dapat dihitung nilai akurasi dari hasil permodelan dengan menggunakan persamaan rumus 6 yang dapat dijabarkan dalam bentuk perhitungan sebagai berikut.
yayayayayayayayayayayayayayayaya = = 0,75 21 7 40 120 Dari penerapan persamaan rumus diatas dapat dijelaskan secara rinci dari perhitungan yang ada.
Nilai penjumlahan 21 (TP) 120 (TN) adalah 141 merupakan jumlah prediksi benar kemudian dibagi dengan total keseluruhan prediksi 21(TP) 7 (FP) 40 (FN) 120 (TN) adalah 188.
Jumlah data tersebut kemudian dibagi sehingga didapatkan nilai akhir yaitu 0,75.
Menunjukkan bahwa model yang digunakan mampu melakukan prediksi yang benar sebesar 75% dari keseluruhan data yang diuji.
KESIMPULAN DAN SARAN
Berdasarkan penelitian yang telah berhasil dilakukan maka dapat disimpulkan penelitian ini menggunakan data yang diambil dari media sosial Twitter mengenai topik Hak Angket menggunakan teknik crawling.
Didapatkan 1113 kemudian diberikan label sentimen yang menghasilkan 397 positif dan 716 negatif.
Data kemudian diproses pada tahap preprocessing, tahap ini menghasilkan data bersih siap olah sebanyak 939 data.
Selanjutnya data dibobotkan menggunakan TF-IDF untuk dibobotkan dengan merubah data menjadi nilai vektor numerik, yang menghasilkan 939 baris dan 2846 kata unik.
189 | Volume 3 Nomor 2 2024 Sci-Tech Journal Volume 3 Nomor 2 .
179 Ae 192 E-ISSN 2830-6759 DOI: 10.
56709/stj.
Selanjutnya dengan mengimplementasikan metode Support Vector Machine dengan distribusi data latih 80% dan data uji 20% didapatkan akurasi sebesar 75%.
Dengan hasil confusion matrix true positif 21, true negatif 120, false positif 7, dan false negatif 40.
Namun pada penelitian ini terdapat kekurangan yaitu tidak optimalnya hasil yang diberikan pada tahap preprocessing sebab masih adanya kata-kata yang tidak memiliki makna belum terhapus secara menyeluruh pada tahap stopword.
Hal ini dapat menyebabkan kata-kata yang tidak penting mendapatkan bobot yang tidak seharusnya dalam model TF-IDF, sehingga mengaburkan kata-kata yang benar-benar penting.
Selain itu hasil stopword yang tidak optimal ini juga dapat menyebabkan dimensionalitas fitur, sehingga membuat model lebih kompleks dan adanya potensi overfitting pada algoritma.
DAFTAR PUSTAKA