IJCSR: The Indonesian Journal of Computer Science Research E-ISSN 2963-9174 DOI prefix 10.
Volume 4.
No.
2 Juli 2025 https://subset.
id/index.
php/IJCSR Perbandingan Algoritma Machine Learning Dalam Analisis Sentimen Isu Gempa Megathrust Ewanda Herdika Septa Aulia1,.
Erna Daniati*2,.
Muhammad Najibulloh Muzaki3,.
Sistem Informasi Fakultas Teknik dan Ilmu Komputer Universitas Nusantara PGRI Kediri Author Emails Corresponding author: ernadaniati@unpkediri.
ewandaherdika@gmail.
muzaki@gmail.
Abstract.
The issue of megathrust earthquakes has become a significant public concern considering its potential for major impacts in the Indonesian region.
The increasing public awareness and concern about this issue is reflected in the many discussions on various social media platforms, especially YouTube.
Seeing this phenomenon, this study was conducted to analyze and classify public sentiment towards videos with the theme of megathrust earthquakes.
The main objective of this study is to examine public perception through comments on YouTube using a machine learning approach.
This study uses three main algorithms, namely Support Vector Machine with three types of kernels, namely linear.
RBF, and polynomial.
Naive Bayes with Bernoulli and Multinomial.
and Decision Tree.
Data were collected through scraping techniques in the comments column of relevant YouTube videos, with a total data of 4337 comments.
The analysis process was carried out through nine stages, namely data collection, text preprocessing, sentiment labeling using the VADER lexicon, word weighting using TF-IDF, data balancing with SMOTE, feature selection with mutual information, classification model creation, model performance evaluation, and result analysis.
Model performance evaluation was carried out using accuracy, precision, recall, and F1-score metrics.
The results show that the SVM algorithm with a linear kernel provides the best performance with an accuracy of 87%.
This finding confirms that the machine learning approach is effective in analyzing public opinion on disaster issues, and can be a basis for making disaster risk mitigation policies based on public perception.
Keywords: Classification.
Megathrust Earthquake .
Machine Learning.
Sentiment Analysis.
Social Media YouTube Abstraksi.
Isu gempa megathrust menjadi perhatian publik yang signifikan mengingat potensi dampaknya yang besar di wilayah Indonesia.
Meningkatnya kesadaran dan kekhawatiran masyarakat terhadap isu ini tercermin dari banyaknya diskusi di berbagai platform media sosial, khususnya YouTube.
Melihat fenomena tersebut, penelitian ini dilakukan untuk menganalisis dan mengklasifikasikan sentimen publik terhadap video bertema gempa megathrust.
Tujuan utama dari penelitian ini adalah untuk mengkaji persepsi masyarakat melalui komentar di YouTube menggunakan pendekatan machine Penelitian ini menggunakan tiga algoritma utama, yaitu Support Vector Machine dengan tiga jenis kernel yaitu linear.
RBF, dan polynomial.
Naive Bayes dengan Bernoulli dan Multinomial.
serta Decision Tree.
Data dikumpulkan melalui teknik scraping pada kolom komentar video YouTube yang relevan, dengan total data sebanyak 4337 komentar.
Proses analisis dilakukan melalui sembilan tahap, yaitu pengumpulan data, preprocessing teks, pelabelan sentimen menggunakan lexicon VADER, pembobotan kata menggunakan TF-IDF, penyeimbangan data dengan SMOTE, seleksi fitur dengan mutual information, pembuatan model klasifikasi, evaluasi kinerja model, dan analisis hasil.
Evaluasi performa model dilakukan menggunakan metrik accuracy, precision, recall, dan F1-score.
Hasil menunjukkan bahwa algoritma SVM dengan kernel linear memberikan performa terbaik dengan akurasi mencapai 87%.
Temuan ini mengonfirmasi bahwa IJCSR: The Indonesian Journal of Computer Science Research E-ISSN 2963-9174 DOI prefix 10.
Volume 4.
No.
2 Juli 2025 https://subset.
id/index.
php/IJCSR pendekatan machine learning efektif untuk menganalisis opini publik terhadap isu kebencanaan, serta dapat menjadi landasan dalam pengambilan kebijakan mitigasi risiko bencana berbasis persepsi masyarakat.
Kata Kunci : Analisis Sentimen.
Gempa Megathrust.
Klasifikasi.
Machine Learning.
Media Sosial YouTube PENDAHULUAN Penyebab Indonesia rentan terhadap bencana geologis adalah karena wilayahnya terletak di pertemuan tiga lempeng aktif yang berdampak sering terjadinya bencana alam gempa bumi dan tsunami .
Salah satu jenis gempa yang berpotensi menimbulkan dampak besar adalah gempa megathrust, yaitu gempa yang terjadi akibat subduksi lempeng tektonik dengan kekuatan sangat besar dan berisiko menimbulkan tsunami.
Berdasarkan website detik.
gempa megathrust merupakan zona subduksi lempeng yang sangat luas dan memanjang dengan bagian dangkal yang memiliki sudut kemiringan landai, terdiri atas segmen-segmen aktif yang pergerakannya dapat memicu gempa bumi.
Isu mengenai potensi gempa megathrust, terutama di wilayah selatan Jawa dan Sumatra sering menjadi perbincangan hangat di masyarakat.
Keberadaan internet memungkinkan pengguna untuk memperoleh informasi, mengakses berbagai layanan, dan menikmati hiburan dengan mudah hanya dalam beberapa klik .
Khususnya pada media sosial YouTube, menjadi salah satu sarana utama masyarakat dalam memperoleh informasi dan menyampaikan opini terkait isu gempa YouTube menyediakan kolom komentar sebagai wadah bagi pengguna untuk memberikan opini, yang dapat dianalisis sebagai sentimen positif, negatif, maupun netral terhadap suatu tayangan.
Oleh karena itu, analisis sentimen terhadap tersebut dapat memberikan informasi serta wawasan penting bagi pemerintah dan lembaga terkait dalam memahami respons publik.
Analisis sentimen adalah metode yang digunakan untuk secara otomatis mengekstrak, memahami, dan mengolah data opini dalam teks guna menilai pandangan dari ulasan, komentar, atau tanggapan .
Tantangan dalam analisis sentimen adalah penyebaran pendapat yang sangat cepat dan beragamnya opini masyarakat, sehingga menjadikan analisis sentimen pada topik ini semakin penting.
Tantangan dalam analisis sentimen, seperti penyebaran pendapat yang sangat cepat dan beragamnya opini juga terjadi pada isu penting seperti gempa megathrust.
Banyaknya komentar yang dihasilkan pada media sosial Youtube sering kali menggunakan bahasa non formal, sehingga sulit diolah secara manual.
Kondisi ini menunjukkan pentingnya pendekatan analisis sentimen yang sistematis dan otomatis untuk mengungkap informasi berharga dari data tidak terstruktur yang menjadi dasar dilakukannya penelitian ini.
Tahapan-tahapan yang akan dilakukan meliputi, pengumpulan data, preprocessing data, labelling data menggunakan labelling Lexicon Valence Aware Dictionary and sEntiment Reasoner (VADER) dengan Algoritma Suport Vector Machine (SVM).
Naive Bayes, dan Decision Tree.
Tujuan dilakukanya penelitian ini untuk memahami pola sentimen masyarakat terkait isu gempa megathrust melalui analisis komentar di media sosial YouTube.
Dengan menerapkan metode pelabelan data menggunakan lexicon VADER serta memanfaatkan metode machine learning.
Diharapkan penelitian ini dapat menambah wawasan mengenai persepsi publik terhadap isu gempa megathrust serta mengidentifikasi algoritma dengan performa terbaik dalam analisis sentimen.
TINJAUAN PUSTAKA
Gempa Megathrust Mengutip sumber dari Kompas.
com Megathrust merupakan proses geologi yang terjadi ketika dua lempeng tektonik bertemu, menyebabkan salah satu lempeng bergerak secara gradual ke bawah lempeng lainnya dan menghasilkan gesekan serta tumbukan signifikan yang berpotensi memicu aktivitas tektonik yang intens.
Di wilayah ini, gempa bumi dengan magnitudo mencapai 9,0 Skala Richter berpotensi terjadi dan kekuatan besar dari gempa di zona megathrust dapat memicu tsunami dahsyat, sebagaimana yang pernah terjadi di Aceh pada tahun 2004.
IJCSR: The Indonesian Journal of Computer Science Research E-ISSN 2963-9174 DOI prefix 10.
Volume 4.
No.
2 Juli 2025 https://subset.
id/index.
php/IJCSR Natural Language Processing NLP adalah bagian ilmu dari kecerdasan buatan.
NLP telah mengubah secara signifikan metode analisis data tekstual, memungkinkan peneliti mengidentifikasi pola dan hubungan yang sebelumnya sulit terungkap .
Analisis sentimen merupakan metode yang digunakan untuk mengolah teks secara otomatis guna mengidentifikasi dan mengelompokkan opini dari berbagai sumber .
Tahapan analisis sentimen meliputi pengumpulan data, preprocessing, labelling, pembobotan kata, balancing data, ekstrasi fitur, pembuatan model dan evaluasi .
Support Vector Machine SVM merupakan metode yang efektif untuk klasifikasi data terutama saat menangani data dalam jumlah besar dan non-linear, keunggulannya terletak pada kemampuannya mengidentifikasi pola kompleks yang sulit ditemukan oleh metode lain .
SVM mampu menangani dataset non-linear secara efektif dengan menerapkan teknik kernel seperti RBF, linear kernel dan polynomial untuk mengoptimalkan proses klasifikasi data.
Selain itu.
SVM juga dikenal memiliki generalisasi yang baik terhadap data baru, serta tahan terhadap overfitting terutama pada ruang fitur berdimensi tinggi.
Naive Bayes Naive Bayes merupakan metode klasifikasi yang memanfaatkan teorema Bayes untuk memperkirakan kategori data secara probabilistik .
Dalam penerapannya, terdapat 4 jenis Naive Bayes yang digunakan dalam penelitian yaitu compliment, multinomial, gaussian, dan Bernoulli.
Setiap jenis memiliki karakteristik yang berbeda.
Multinomial digunakan untuk data berbasis frekuensi kata.
Bernoulli cocok untuk data biner.
Gaussian diterapkan pada data kontinu yang mengikuti distribusi normal, sedangkan Complement dirancang untuk meningkatkan kinerja klasifikasi pada data yang tidak seimbang, khususnya dalam konteks teks.
Decision Tree Decision Tree yaitu metode klasifikasi yang populer dan efektif dan sering digunakan dalam penelitian berbasis Metode ini mengonversi kumpulan data menjadi struktur pohon keputusan yang menggambarkan aturan, sehingga memperjelas pemahaman dalam sebuah klasifikasi .
Setiap node dalam pohon mewakili atribut, cabang merepresentasikan kondisi atau nilai atribut, dan daun menunjukkan hasil klasifikasi.
Keunggulan utama dari Decision Tree adalah kemampuannya dalam menangani data kategorikal maupun numerik, serta menghasilkan model yang mudah diinterpretasikan tanpa memerlukan asumsi statistik yang kompleks.
METODE PENELITIAN
Pendekatan ini bertujuan untuk mengidentifikasi dan mengklasifikasikan opini publik berdasarkan komentar yang diperoleh dari media sosial, khususnya YouTube.
Proses penelitian terdiri dari beberapa tahapan sistematis, dimulai dari pengumpulan data, pembersihan teks .
, pelabelan sentimen, hingga pembuatan dan evaluasi model.
Setiap tahapan dirancang untuk memastikan bahwa data yang digunakan relevan, bersih, dan siap diolah secara akurat oleh algoritma.
Metode penelitian menggunakan pendekatan analisis sentimen berbasis machine learning, dengan tahapan yang dijelaskan pada Gambar 1:
IJCSR: The Indonesian Journal of Computer Science Research E-ISSN 2963-9174 DOI prefix 10.
Volume 4.
No.
2 Juli 2025 https://subset.
id/index.
php/IJCSR GAMBAR 1.
Alur Metode Penelitian Pengumpulan Data Data dikumpulkan melalui proses scraping.
Scraping data adalah metode pengumpulan informasi secara otomatis dari situs web, di mana data diperoleh melalui proses ekstraksi .
Pengumplan data diperoleh dari sosial media YouTube dengan keyword AuGempa MegathrustAy.
Komentar-komentar yang diperoleh dari video terkait kemudian disimpan dan dijadikan sebagai dataset untuk dianalisis.
Proses ini memungkinkan pengambilan data dalam jumlah besar secara efisien, serta memberikan gambaran langsung mengenai opini dan persepsi masyarakat terhadap isu kebencanaan yang sedang berkembang.
Preprocessing Teks Preprocessing adalah teknik untuk mempermudah pengolahan data, sehingga dapat meningkatkan kualitas hasil Pre-processing bertujuan untuk menghilangkan noise guna memperoleh sebanyak mungkin informasi yang akurat dari teks .
Tahapan yang dilakukan di dalam preprocessing data dapat dilihat sebagai berikut :
Data cleaning, metode ini digunakan untuk menghapus atau menghilangkan elemen dalam suatu kalimat yang mengandung simbol atau kata yang tidak diperlukan, seperti username (@usernam.
, hashtag (#), emoji.
URL, email, serta kata kunci tertentu.
Case folding, adalah metode yang digunakan untuk mengubah huruf kapital dalam teks ulasan menjadi lower case agar dokumen teks memiliki format yang seragam .
Translated text, yaitu proses proses perubahan text dari Bahasa satu ke Bahasa yang lain.
Tokenize, tahap memisahkan teks dalam kalimat menjadi setiap kata.
Stopword removal, merupakan tahapan menghilangkan kata-kata umum seperti AuandAy.
AuwhichAy, atau AuthatAy yang tidak memiliki makna penting dalam analisis .
Stemming, proses penghilangan imbuhan, akhiran, dan sisipan.
Penanganan data duplikat, proses penghapusan data berulang yang ada pada datasetPenanganan data kosong, proses untuk mengidentifikasi dan menghapus baris komentar yang tidak memiliki isi atau nilai pada kolom Pelabelan Data Labelling merupakan proses menambahkan label pada data komentar YouTube.
Data komentar diberi label dengan menggunakan lexicon VADER.
Lexicon VADER adalah Sistem analisis sentimen berbasis leksikon dan aturan yang dirancang khusus untuk mengidentifikasi sentimen yang diekspresikan dalam media sosial .
Lexicon VADER dirancang khusus untuk menganalisis sentimen dalam microblog di mana penentuan sentimen didasarkan pada bobot suatu kalimat.
Jika bobot lebih dari 0, kalimat dikategorikan sebagai sentimen positif, sedangkan jika kurang dari 0, termasuk dalam sentimen negatif.
Sementara itu, jika bobot kalimat 0 sentimen diklasifikasikan sebagai netral .
IJCSR: The Indonesian Journal of Computer Science Research E-ISSN 2963-9174 DOI prefix 10.
Volume 4.
No.
2 Juli 2025 https://subset.
id/index.
php/IJCSR Pembobotan Kata Setiap kata dalam komentar dikonversi menjadi bobot numerik menggunakan metode Term Frequency-Inverse Document Frequency (TF-IDF).
IDF).
Proses ini melibatkan dua langkah utama, yaitu menghitung seberapa sering sebuah kata muncul dalam satu dokumen untuk menilai tingkat kepentingannya, serta menilai seberapa langka kata tersebut di seluruh koleksi dokumen, di mana kata yang jarang ditemukan akan memiliki bobot yang lebih tinggi .
Dengan demikian.
TF-IDF memungkinkan pemodelan teks yang lebih informatif dan diskriminatif dalam tahap machine learning, karena mampu menekankan kata-kata yang relevan dan mengurangi pengaruh kata-kata umum.
Balancing Data Untuk mengatasi ketidakseimbangan jumlah data antar kelas sentimen, dilakukan teknik balancing menggunakan metode SMOTE.
SMOTE adalah teknik yang digunakan dalam melakukan penyeimbangan distribusi data, jumlah sampel pada kelas tertentu yang berjumlah minoritas hingga setara dengan jumlah sampel di kelas mayoritas .
Dengan demikian, teknik ini tidak hanya mengurangi risiko overfitting, tetapi juga meningkatkan kemampuan model dalam mengenali pola dari kelas yang sebelumnya kurang terwakili, terutama dalam meningkatkan performa metrik evaluasi seperti recall dan F1-score.
Ekstrasi Fitur Ekstrasi fitur merupakan proses menemukan dan menampilkan fitur tertentu yang menarik dari teks untuk analisis lebih lanjut.
Fitur relevan diekstraksi menggunakan metode Mutual Information untuk memilih kata-kata paling informatif terhadap kelas sentimen.
Mutual Information adalah Metode dengan menghitung kemunculan suatu term dalam setiap kelas yang tersedia, lalu membandingkan nilai term tersebut antar kelas.
Semakin tinggi nilai mutual information suatu kata, maka semakin besar pula perannya dalam membedakan suatu kelas sentimen dari yang lain.
Pembuatan Model Penelitian ini membangun model klasifikasi menggunakan tiga algoritma yaitu SVM.
Naive Bayes, dan decision SVM diterapkan dengan tiga jenis kernel yaitu linear.
RBF, dan polynomial untuk mengevaluasi performanya dalam klasifikasi sentimen.
Sementara itu.
Naive Bayes digunakan dalam dua jenis yaitu Multinomial dan Bernoulli, yang masing-masing disesuaikan dengan karakteristik data teks.
Selain itu algoritma Decision Tree juga digunakan sebagai pembanding karena sifatnya yang mudah dipahami.
Tujuan penggunaan ketiga algoritma ini adalah untuk mengevaluasi dan membandingkan performa masing-masing model dalam melakukan klasifikasi sentimen pada data yang berkaitan dengan gempa megathrust.
Evaluasi Model Evaluasi model pada tahap ini pengujian model dilakukan menggunakan confusion matrix, yang dapat digunakan dalam evaluasi model, untuk menilai kinerja suatu metode machine learning .
Metode ini menyediakan kerangka kerja untuk menentukan presentase accuracy, precision dan recall dan F1-Score dengan membandingkan data aktual dan hasil klasifikasi yang dihasilkan oleh system.
Berikut merupakan contoh tabel confusion matrix disajikan pada TABEL 1.
Confusion Matrix Class Positive Negative Classified as Positive True Positive (TP) False Positive(FP) Classified as Negative False Negative(FN) True Negative (TN) IJCSR: The Indonesian Journal of Computer Science Research E-ISSN 2963-9174 DOI prefix 10.
Volume 4.
No.
2 Juli 2025 https://subset.
id/index.
php/IJCSR Rumus classification report untuk menghitung accuracy, precision, recall dan f1-score disajikan pada tabel 2 TABEL 2.
Rumus Classification Report Measurement Formula ycyc ycycA Accuracy (A) yc= yea ycyc Precision (P) yc= ycyc ycyc ycyc Recall (R) yc= ycyc ycycA yc yyc F1-Score (F) yc = ya y yc yc Accuracy menunjukkan proporsi keseluruhan prediksi yang benar, mencakup prediksi terhadap seluruh kelas yang ada, sehingga memberikan gambaran umum kinerja model.
Precision mengukur tingkat ketepatan model dalam mengidentifikasi data positif, yaitu seberapa banyak dari data yang diprediksi positif benar-benar merupakan data Recall menilai kemampuan model dalam mengenali dan menangkap data positif dengan baik, atau seberapa besar proporsi data positif yang berhasil terdeteksi dari seluruh data positif yang tersedia.
Sementara itu.
F1-score merupakan ukuran kombinasi antara precision dan recall yang memberikan evaluasi seimbang terhadap performa model klasifikasi, terutama ketika terdapat ketidakseimbangan distribusi kelas pada data.
HASIL DAN PEMBAHASAN
Pengumpulan Data Sumber data yang digunakan dalam penelitian ini berasal dari video yang tersedia di platform media sosial YouTube dengan pembahasan terkait isu gempa megatrust.
Teknik yang diterapkan dalam pengumpulan data adalah scraping, dalam proses scraping, data dari YouTube diambil dengan memanfaatkan YouTube Data API.
Video yang dipilih sebagai sumber data adalah CNNindonesiaOfficial, kompastv.
BBCNews, metrotvnews dan NessieJudge.
Dari proses tersebut memperoleh sebanyak 4337 data Preprocessing Teks Setelah pengumpulan dataset berhasil.
Langkah selanjutnya yang dilakukan yaitu preprocesing.
Pada tahap proses preprocesing mencakup data cleaning, case folding, translated, tokenize, stopword removal, stemming, penanganan data duplikat dan data kosong.
Setelah data duplikat dan data kosong dihapus, jumlah baris dataset berkurang menjadi 4013 hal ini menunjukkan adanya komentar yang sebelumnya tidak memiliki nilai.
Hasil preprocessing disajikan pada tabel 3:
Preprocessing Cleaning Case Folding Translated TABEL 3.
Contoh Data Setelah Preprocessing Input Output Ayo berbondong bondong pindah ke IKN aja Ayo berbondong bondong pindah ke IKN aja biar aman biar aman Ayo berbondong bondong pindah ke IKN aja biar aman ayo berbondong bondong pindah ke ikn aja biar ayo berbondong bondong pindah ke ikn aja biar aman come on, let's move to ikn in droves to be safe IJCSR: The Indonesian Journal of Computer Science Research E-ISSN 2963-9174 DOI prefix 10.
Volume 4.
No.
2 Juli 2025 https://subset.
id/index.
php/IJCSR Tokenize come on, let's move to ikn in droves to be safe Stopword Removal Stemming .
ome, on, letAos, move, to, ikn, in, droves, to, be, saf.
ome, let 's, move, ikn, droves, saf.
ome, on, letAos, move, to, ikn, in, droves, to, be, saf.
ome, let 's, move, ikn, droves, .
ome, let 's, move, ikn, drove.
Pelabelan Data Pada proses ini dilakukan pelabelan data menggunakan kamus lexicon VADER, yaitu metode berbasis leksikal yang mampu mengidentifikasi polaritas sentimen dalam teks secara otomatis.
VADER menghitung skor sentimen dari setiap komentar dan mengklasifikasikannya ke dalam tiga kategori, yaitu positif, netral, dan negatif.
Hasil pelabelan ini memberikan gambaran awal mengenai persebaran opini publik terkait isu gempa megathrust.
Distribusi dari ketiga kategori sentimen tersebut ditampilkan pada Gambar 2.
GAMBAR 2.
Visualisasi Distribusi Label Sentimen Pembobotan Kata Pada tahap ini digunakan metode TF-IDF Vectorizer untuk mengubah data komentar menjadi bentuk numerik.
Tabel ini menyajikan representasi bobot kata, di mana setiap angka menunjukkan tingkat signifikansi suatu kata dalam sebuah komentar dibandingkan dengan seluruh korpus data yang dianalisis.
Semakin tinggi nilai TF-IDF, maka semakin penting kata tersebut dalam konteks komentar tertentu.
Hasil transformasi TF-IDF ditampilkan pada Tabel 4 TABEL 4.
Hasil TF-IDF Kata Bobot TF-IDF Peopl God Disast Allah Hope Like Move IJCSR: The Indonesian Journal of Computer Science Research E-ISSN 2963-9174 DOI prefix 10.
Volume 4.
No.
2 Juli 2025 https://subset.
id/index.
php/IJCSR Time Balancing Data Selanjutnya dataset yang telah diproses kemudian diseimbangkan dengan metode SMOTE.
Diagram tersebut menggambarkan distribusi data pada setiap kelas sentimen setelah proses penyeimbangan, menunjukkan bahwa jumlah data dalam kategori positif, netral, dan negatif telah disesuaikan sehingga relatif seimbang.
Proses ini menjadi salah satu langkah penting dalam memastikan keandalan dan validitas hasil analisis.
Hasil SMOTE disajikan pada gambar 3 :
GAMBAR 3.
Visualisasi Distribusi Label Setelah SMOTE Gambar di atas menunjukkan distribusi data sentimen setelah dilakukan penyeimbangan menggunakan metode SMOTE.
Terdapat tiga kategori sentimen, yaitu positif, netral, dan negatif, yang masing-masing memiliki jumlah sampel yang relatif seimbang, yaitu 1600 data per kategori.
Hal ini menunjukkan bahwa proses balancing berhasil menyamakan jumlah data di setiap kelas sentimen, yang sebelumnya tidak merata, penyamaan distribusi ini penting agar model klasifikasi tidak bias terhadap kelas mayoritas.
Ekstrasi Fitur Dalam penelitian ini dengan menggunakan metode Mutual Information, dengan memilih 5000 fitur yang paling signifikan dari data.
Pemilihan 5000 fitur ini bertujuan untuk meningkatkan efisiensi proses pelatihan model serta mempertahankan fitur yang paling relevan terhadap klasifikasi.
Dengan menyaring kata-kata yang informatif, model diharapkan dapat bekerja lebih optimal dalam mengenali pola sentimen dalam data komentar.
Hasil mutual information disajikan pada gambar 4:
GAMBAR 4.
Hasil Mutual Information IJCSR: The Indonesian Journal of Computer Science Research E-ISSN 2963-9174 DOI prefix 10.
Volume 4.
No.
2 Juli 2025 https://subset.
id/index.
php/IJCSR Gambar tersebut menunjukkan hasil perhitungan Mutual Information terhadap fitur-fitur dalam data teks.
Nilai Mutual Information menunjukkan seberapa besar kontribusi suatu fitur .
terhadap klasifikasi sentimen.
Fitur dengan nilai lebih tinggi .
isalnya 1356 = 0.
dianggap lebih informatif, sedangkan fitur dengan nilai 0.
tidak memberikan informasi signifikan dalam membedakan kelas sentimen dan dapat diabaikan.
Dengan demikian, pemilihan 5000 fitur terbaik berdasarkan Mutual Information menjadi langkah krusial dalam membangun model yang lebih optimal dan tepat sasaran.
Pembuatan Model Penelitian ini menerapkan berbagai model machine learning untuk mengklasifikasikan sentimen pada data komentar yang telah melalui beberapa tahap.
Model yang digunakan mencakup algoritma SVM dengan tiga jenis kernel yaitu linear.
RBF, polynomial.
Naive Bayes dengan 2 jenis Multinomial dan Bernoulli.
serta Decision Tree untuk klasifikasi berbentuk struktur pohon.
Dataset dibagi menjadi 85% data training dan 15% data testing, yang digunakan masing-masing untuk melatih model dan menguji kinerjanya.
Pembagian data dilakukan secara acak agar tetap representatif terhadap keseluruhan dataset.
Proporsi tersebut dipilih agar model memperoleh data yang memadai untuk proses pembelajaran sekaligus memungkinkan evaluasi yang objektif.
Evaluasi Evaluasi Model Setelah proses pengujian model, tahap selanjutnya yaitu evaluasi untuk menilai performa model yang telah Dalam melakukan evaluasi akan digunakan confusion matrix untuk menghitung sejumlah metrik evaluasi penting, yaitu accuracy, precision, recall, dan F1-score yang akan menjadi ukuran kinerja sebuah model Metrik-metrik ini digunakan untuk mengukur tingkat ketepatan, sensitivitas, dan keseimbangan antara keduanya dalam proses klasifikasi.
Evaluasi dilakukan pada setiap algoritma yang diterapkan guna mengetahui model mana yang memberikan hasil paling optimal terhadap data sentimen.
Melalui evaluasi ini, dapat ditentukan sejauh mana kemampuan model dalam mengenali pola data dan mengklasifikasikan komentar secara tepat sesuai dengan label sentimen yang sebenarnya.
Analisis Berdasarkan perhitungan tersebut dapat disimpulkan bahwa SVM kernel linear merupakan algoritma terbaik dalam klasifikasi sentimen pada penelitian ini, menghasilkan akurasi sebesar 87% dengan kinerja paling seimbang dan akurat di seluruh kelas.
SVM kernel RBF dan Decision Tree juga memiliki performa yang cukup baik, namun tidak mampu menyaingi stabilitas model linear.
Sementara itu.
Naive Bayes Multinomial lebih unggul dibandingkan Bernoulli, namun tetap berada di bawah performa SVM.
Bernoulli Naive Bayes menunjukkan performa paling rendah dan kurang cocok untuk dataset dengan representasi frekuensi kata seperti dalam penelitian ini.
Hasil evaluasi kinerja model klasifikasi sentimen ditunjukkan pada Tabel 5.
Algoritma TABEL 5.
Tabel Evaluasi Kinerja Model Klasifikasi Sentimen
Presisi
Recall F1-Score
Akurasi
Neg
Net Pos
Neg
Net Pos
Neg
Net Pos
SVM linear
86,9%
84,5%
90,4%
87,3%
96,3%
77,5%
87,1%
83,5%
85,2%
90,1%
79,2%
88,6%
85,7%
96,7%
73,4%
87,9%
80,3%
79,5%
92,9%
70,3%
81,1%
86,5%
70,9%
86,6%
77,5%
74,7%
SVM RBF
SVM Polynomial IJCSR: The Indonesian Journal of Computer Science Research E-ISSN 2963-9174 DOI prefix 10.
Volume 4.
No.
2 Juli 2025 https://subset.
id/index.
php/IJCSR Algoritma
Akurasi
Presisi
Recall F1-Score
Neg
Net Pos
Neg
Net Pos
Neg
Net Pos
75,7%
72,4%
91,7%
71,1%
90,2%
54,1%
82,8%
80,3%
68,2%
76,5%
86,1%
60,4%
58,6%
95,5%
69,8%
73,7%
67,7%
81,8%
87,2%
81,1%
78,3%
91,8%
75,4%
77,6%
89,4%
78,1%
Multinomial Naive Bayes Bernoulli Naive Bayes Decision Tree
KESIMPULAN
Penelitian ini menganalisis kinerja tiga algoritma klasifikasi sentimen yaitu SVM dengan kernel linear.
RBF, dan Naive Bayes Multinomial dan Bernoulli.
serta Decision Tree dengan menggunakan metrik accuracy, precision, recall, dan F1-score pada kategori sentimen negatif, netral, dan positif.
Berdasarkan hasil pelabelan dengan lexicon VADER opini positif mendominasi isu gempa megathrust.
SVM dengan kernel linear menunjukkan kinerja terbaik dengan akurasi 0,870 serta keseimbangan F1-score di semua kelas.
SVM RBF memiliki akurasi tinggi, tetapi recall pada kelas positif lebih rendah.
Sementara SVM polynomial unggul dalam presisi tetapi lemah dalam recall dan F1-score.
Naive Bayes Multinomial lebih sesuai untuk data berbasis frekuensi kata tetapi kurang optimal pada kelas netral, sedangkan Bernoulli memiliki performa terendah.
Decision Tree cukup baik dalam mengklasifikasikan sentimen netral namun kurang stabil pada kategori lainnya.
Dengan demikian.
SVM kernel linear direkomendasikan sebagai algoritma terbaik karena memberikan hasil paling akurat dan seimbang.
TINJAUAN PUSTAKA
Damayanti.
Yamko.
Souisa.
Barends, and I.
Naroly.
AuPemodelan Segmentasi Mentawai-Pagai: Studi Kasus Gempa Megathrust di Indonesia,Ay J.
Geosains dan Remote Sens.
, vol.
1, no.
105Ae110, 2020, doi: 10.
23960/jgrs.
Muzaki.
Firliana.
Indriati.
Wardani, and E.
Daniati.
AuJurnal Qua Teknika Vol .
14 No .
Bulan Maret Tahun 2024 ISSN 2088-2424 ( Cetak ) : ISSN 2527-3892 ( Elektronik ) Fakultas Teknik Universitas Islam Balitar .
Blitar Https :// ejournal .
id / index .
php / qua .
Jurnal Qua Teknika Vol,Ay vol.
15, no.
01, pp.
18Ae28, 2025.
Daniati and H.
Utama.
AuAnalisis Sentimen Dengan Pendekatan Ensemble Learning Dan Word Embedding Pada Twitter,Ay J.
Inf.
Syst.
Manag.
, vol.
4, no.
2, pp.
125Ae131, 2023, doi: 10.
24076/joism.
Daniati.
Prasetya.
Sakti.
Irianto, and A.
Ghosh.
AuAnalyzing event relationships in Andersen Ao s Fairy Tales with BERT and Graph Convolutional Network ( GCN ),Ay vol.
5, no.
1, pp.
40Ae59, 2024.
Daniati and H.
Utama.
AuDecision Making Framework Based on Sentiment Analysis in Twitter Using SAW and Machine Learning Approach,Ay 2020 3rd Int.
Conf.
Inf.
Commun.
Technol.
ICOIACT 2020, pp.
218Ae222, 2020, doi: 10.
1109/ICOIACT50329.
Eldo.
Ayuliana.
Suryadi.
Chrisnawati, and L.
Judijanto.
AuPenggunaan Algoritma Support Vector Machine ( SVM ) Untuk Deteksi Penipuan pada Transaksi Online,Ay vol.
13, pp.
1627Ae1632, 2024.
Rayuwati.
Husna Gemasih, and Irma Nizar.
AuIMPLEMENTASI AlGORITMA NAIVE BAYES UNTUK MEMPREDIKSI TINGKAT PENYEBARAN COVID,Ay Jural Ris.
Rumpun Ilmu Tek.
, vol.
1, no.
1, pp.
38Ae 46, 2022, doi: 10.
55606/jurritek.
Muzakir and R.
Wulandari.
AuModel Data Mining sebagai Prediksi Penyakit Hipertensi Kehamilan dengan Teknik Decision Tree,Ay Sci.
Informatics, vol.
3, no.
1, pp.
19Ae26, 2016, doi: 10.
15294/sji.
Rizaldi.
Alam, and I.
Kurniawan.
AuAnalisis Sentimen Pengguna Aplikasi JMO (Jamsostek Mobil.
Pada Google Play Store Menggunakan Metode Naive Bayes,Ay STORAGE J.
Ilm.
Tek.
dan Ilmu Komput.
, vol.
IJCSR: The Indonesian Journal of Computer Science Research E-ISSN 2963-9174 DOI prefix 10.
Volume 4.
No.
2 Juli 2025 https://subset.
id/index.
php/IJCSR .
2, no.
3, pp.
109Ae117, 2023, doi: 10.
55123/storage.
Hasibuan and E.
Heriyanto.
AuAnalisis Sentimen Pada Ulasan Aplikasi Amazon Shopping Di Google Play Store Menggunakan Naive Bayes Classifier,Ay J.
Tek.
dan Sci.
, vol.
1, no.
3, pp.
13Ae24, 2022, doi:
56127/jts.
Wijaya.
Indriati, and M.
Muzaki.
AuAnalisis Sentimen Opini Publik Tentang Undang-Undang Cipta Kerja Pada Twitter,Ay Jambura J.
Electr.
Electron.
Eng.
, vol.
3, no.
2, pp.
78Ae83, 2021, doi:
37905/jje.
Utama.
Daniati, and A.
Masruro.
AuWeak Supervision Dengan Pendekatan Labeling Function Untuk Analisis Sentimen Pada Twitter,Ay Indones.
Comput.
Sci.
Res.
, vol.
3, no.
1, pp.
49Ae57, 2024, doi:
59095/ijcsr.
Ernawati and R.
Wati.
AuEvaluasi Performa Kernel SVM dalam Analisis Sentimen Review Aplikasi ChatGPT Menggunakan Hyperparameter dan VADER Lexicon,Ay J.
Buana Inform.
, vol.
15, no.
01, pp.
40Ae 49, 2024, doi: 10.
24002/jbi.
Ikhsan.
AuAnalisis Sentimen Terhadap Kenaikan Harga Bahan Bakar Minyak Menggunakan Long ShortTerm Memory,Ay Indones.
Comput.
Sci.
Res.
, vol.
2, no.
1, pp.
31Ae41, 2023, doi: 10.
59095/ijcsr.
Septian.
Fachrudin, and A.
Nugroho.
AuAnalisis Sentimen Pengguna Twitter Terhadap Polemik Persepakbolaan Indonesia Menggunakan Pembobotan TF-IDF dan K-Nearest Neighbor,Ay J.
Intell.
Syst.
Comput.
, vol.
1, no.
1, pp.
43Ae49, 2019, doi: 10.
52985/insyst.
Faruqziddan.
Herdika.
Aulia.
Azzahra, and P.
Utomo.
AuPerbandingan Skenario Balancing Oversampling dan Undersampling dalam Klasifikasi Resiko Kambuh Kanker Tiroid menggunakan Algoritma SVM Linear,Ay vol.
5, no.
December, pp.
172Ae182, 2024.
Normawati and S.
Prayogi.
AuImplementasi Nayve Bayes Classifier Dan Confusion Matrix Pada Analisis Sentimen Berbasis Teks Pada Twitter,Ay J.
Sains Komput.
Inform.
(J-SAKTI, vol.
5, no.
2, pp.
697Ae711, 2021.