Jurnal Ilmu Komputer dan Sistem Informasi (JIRSI) Volume: 4.
Nomor: 2.
Mei 2025: 202-217 https://jurnal.
unity-academy.
id/index.
php/jirsi/index e-ISSN 2830-3954 p-ISSN 2830-6031 Optimalisasi Random Forest untuk Sentimen Bahasa Indonesia dengan GridSearch dan SMOTE Random Forest Optimization for Indonesian Sentiment with GridSearch and SMOTE Ahmad Fauzi1*.
Agus Heri Yunial2.
Dede Eko Saputro3.
Reza Saputra4 1,2,3,4Teknik Informatika.
Universitas Pamulang Tangerang Selatan.
Indonesia E-mail: 1*dosen02621@unpam.
id, 2dosen02525@unpam.
3dosen02627@unpam.
id, 4dosen02620@unpam.
Abstrak Penelitian ini berfokus pada optimasi algoritma Random Forest untuk analisis sentimen media sosial x berbahasa Indonesia dengan menggunakan TextBlob sebagai alat labeling, diikuti oleh teknik balancing data SMOTE dan optimasi hyperparameter dengan GridSearch.
Data yang digunakan diambil dari 611 tweet dengan keyword ukt .
ang kuliah tungga.
Labeling sentimen menggunakan TextBlob menghasilkan 438 sentimen negatif dan 173 sentimen positif.
Metode SMOTE digunakan untuk menyeimbangkan data dengan terlebih dahulu membagi data menjadi 75% data latih dan 25% data uji.
Vektorisasi data menggunakan tf-idf.
Model algoritma Random Forest dievaluasi dengan akurasi awal menggunakan split data sebesar 73%, dan evaluasi cross validation dengan 10 k-fold menghasilkan nilai akurasi 75%.
Optimasi yang dilakukan dengan hyperparameter GridSearch berhasil meningkatkan nilai akurasi menjadi 74%, sementara evaluasi cross validation menggunakan 10 k-fold akurasinya menjadi 89%.
Dalam penelitian ini metode SMOTE efektif dalam menyeimbangkan data yang tidak seimbang, dan optimasi hyperparameter gridsearch berhasil meningkatkan nilai akurasi algoritma Random Forest dalam klasifikasi sentimen media sosial x berbahasa Indonesia dengan labeling otomatis Kata kunci: Analisis sentimen.
Hyperparameter Gridsearch.
Random forest.
TextBlob Abstract This research focuses on optimizing the Random Forest algorithm for sentiment analysis of social media x in Indonesian using TextBlob as a labeling tool, followed by the SMOTE data balancing technique and hyperparameter optimization with GridSearch.
The data used was taken from 611 tweets with the keyword ukt .
ingle tuitio.
Sentiment labeling using TextBlob produces 438 negative sentiments and 173 positive sentiments.
The SMOTE method is used to balance the data by first dividing the data into 75% training data and 25% test data.
Data vectorization using tf-idf.
The Random Forest algorithm model was evaluated with an initial accuracy using split data of 73%, and cross validation evaluation with 10 k-folds produced an accuracy value of 75%.
Optimization carried out with GridSearch hyperparameters succeeded in increasing the accuracy value to 74%, while cross validation evaluation using 10 k-fold accuracy was 89%.
In this research, the SMOTE method was effective in balancing unbalanced data, and gridsearch hyperparameter optimization succeeded in increasing the accuracy value of the Random Forest algorithm in classifying social media sentiment x in Indonesian with automatic texblob labeling.
Keywords: Sentiment analysis.
Gridsearch Hyperparameters.
Random forest.
TextBlob.
A 2025 The Author.
Published by UNITY ACADEMY .
This is an open access article under the CC BY-SA license .
ttp://creativecommons.
org/licenses/by-sa/4.
Jurnal Ilmu Komputer dan Sistem Informasi (JIRSI) Volume: 4.
Nomor: 2.
Mei 2025: 202-217 https://jurnal.
unity-academy.
id/index.
php/jirsi/index e-ISSN 2830-3954
p-ISSN 2830-6031
PENDAHULUAN
Analisis sentimen merupakan salah satu bidang penting dalam pengolahan bahasa alami (NLP) yang bertujuan untuk memahami opini publik terhadap berbagai isu, produk, atau layanan.
Dalam konteks akademik dan kebijakan pendidikan.
Uang Kuliah Tunggal (UKT) menjadi topik yang banyak dibicarakan di media sosial, terutama di Twitter.
Oleh karena itu, analisis sentimen terhadap tweet dengan keyword "UKT" dapat memberikan wawasan berharga mengenai persepsi dan pendapat mahasiswa serta masyarakat umum terhadap kebijakan ini .
Salah satu tantangan utama dalam analisis sentimen adalah mengatasi masalah ketidakseimbangan data, di mana jumlah tweet dengan sentimen negatif dan positif seringkali tidak seimbang .
, .
Hal ini dapat mempengaruhi kinerja model klasifikasi, menyebabkan bias terhadap kelas yang dominan .
Oleh karena itu, diperlukan teknik khusus untuk mengatasi ketidakseimbangan ini dan meningkatkan akurasi model .
Penelitian sebelumnya memperkenalkan SMOTE sebagai solusi efektif untuk masalah ini, dan penelitian lain menunjukkan keberhasilan SMOTE dalam meningkatkan kinerja model klasifikasi pada dataset tidak seimbang .
Penelitian ini bertujuan untuk mengoptimalkan algoritma Random Forest dalam analisis sentimen tweet berbahasa Indonesia .
Dengan memanfaatkan teknik pra-pemrosesan data yang tepat, metode balancing data seperti SMOTE, dan optimasi hyperparameter menggunakan GridSearch, diharapkan dapat meningkatkan kinerja model dalam klasifikasi sentimen .
Penggunaan TextBlob sebagai alat labeling juga dieksplorasi untuk menentukan sentimen tweet setelah diterjemahkan ke dalam bahasa Inggris .
Penelitian membuktikan efektivitas TextBlob dalam analisis sentimen berbagai bahasa , sementara studi oleh Purnomo dan Sutopo menunjukkan bahwa GridSearch dapat meningkatkan akurasi model secara signifikan .
, .
Metodologi yang digunakan dalam penelitian ini mencakup beberapa tahap, mulai dari pengumpulan data tweet, pembersihan data, pra-pemrosesan teks, labeling sentimen, hingga pembangunan dan evaluasi model klasifikasi .
Data yang diambil dari Twitter dengan keyword "UKT" mengalami serangkaian proses pembersihan dan normalisasi untuk menghilangkan noise dan meningkatkan kualitas data .
Selanjutnya, data yang tidak seimbang diatasi dengan metode SMOTE sebelum dibagi menjadi data pelatihan dan pengujian .
Vektorisasi teks dilakukan menggunakan TF-IDF, dan model Random Forest dioptimalkan dengan GridSearch untuk mendapatkan kinerja terbaik .
Penelitian lain menunjukkan bahwa kombinasi TF-IDF dengan Random Forest dapat memberikan hasil yang kuat dalam klasifikasi teks .
Hasil dari penelitian ini diharapkan dapat memberikan kontribusi signifikan dalam bidang analisis sentimen, khususnya untuk data berbahasa Indonesia .
Dengan mengatasi masalah ketidakseimbangan data dan melakukan optimasi model, penelitian ini dapat menjadi acuan bagi penelitian serupa di masa depan .
Selain itu, temuan ini juga bermanfaat bagi para pengambil kebijakan di bidang pendidikan untuk memahami lebih baik persepsi dan opini mahasiswa terkait kebijakan UKT, sehingga dapat membuat keputusan yang lebih tepat dan responsif terhadap kebutuhan dan aspirasi mahasiswa .
Penelitian lain menggarisbawahi pentingnya analisis sentimen untuk pengambilan keputusan yang lebih baik dalam kebijakan publik .
A 2025 The Author.
Published by UNITY ACADEMY .
This is an open access article under the CC BY-SA license .
ttp://creativecommons.
org/licenses/by-sa/4.
Jurnal Ilmu Komputer dan Sistem Informasi (JIRSI) Volume: 4.
Nomor: 2.
Mei 2025: 202-217 https://jurnal.
unity-academy.
id/index.
php/jirsi/index e-ISSN 2830-3954
p-ISSN 2830-6031
METODE PENELITIAN
1 Analisis Data Media Sosial X (Twitte.
Proses crawling data dimulai dengan menggunakan Tweet Harvest, sebuah alat khusus untuk mengumpulkan tweet berdasarkan kata kunci.
Untuk penelitian ini, kata kunci yang digunakan adalah "ukt" (Uang Kuliah Tungga.
karena relevansinya dengan topik penelitian.
Menggunakan API Twitter melalui Tweet Harvest, melakukan autentikasi dan mengatur parameter pencarian untuk memastikan hanya tweet berbahasa Indonesia yang diambil.
Parameter lain yang diatur termasuk batas waktu pengumpulan dan jumlah maksimal tweet yang diambil .
Setelah parameter ditetapkan.
Tweet Harvest menjalankan pencarian dan mengumpulkan tweet beserta metadata yang terkait, seperti tanggal posting, jumlah retweet, dan jumlah like.
Data yang terkumpul kemudian disimpan dalam format terstruktur, seperti CSV atau JSON.
berikut gambar 1 crawling data twitter dengan tweet harvest:
Gambar 1.
Sourcode Crawling Tweet Harvest Dari proses ini, jumlah data yang diminta adalah 1.
000 data namun hanya berhasil mengumpulkan 611 tweet yang relevan dengan kata kunci "ukt", hal ini karena tweet ukt pada media sosial x .
hanya berjumlah 611 dari tahun 2019 sampai 28 Mei 2024.
Data ini kemudian siap untuk tahap selanjutnya dalam penelitian, yaitu pembersihan dan pra-pemrosesan sebelum dilabeli dan dianalisis lebih lanjut.
Tahap selanjutnya adalah pembersihan dan pra-pemrosesan data.
Pembersihan data adalah langkah awal yang sangat penting dalam analisis sentimen untuk menghilangkan noise dan memastikan data berkualitas tinggi .
, .
Dalam penelitian ini, pembersihan data mencakup penghapusan karakter khusus.
URL, dan tanda baca yang tidak diperlukan.
Selanjutnya, pra-pemrosesan data dilakukan dengan beberapa langkah penting: penghapusan stopword menggunakan NLTK stopword bahasa Indonesia, stemming menggunakan library Sastrawi, dan normalisasi menggunakan kamus slang Indonesia dari Kaggle.
Penggunaan teknik pra-pemrosesan ini dapat secara signifikan meningkatkan kualitas data untuk analisis lebih lanjut .
, .
Setelah pra-pemrosesan, langkah berikutnya adalah labeling data.
Dalam penelitian ini.
TextBlob digunakan untuk menentukan sentimen positif atau negatif setelah mentranslate tweet ke bahasa Inggris.
Hasil labeling menunjukkan adanya ketidakseimbangan data dengan 438 sentimen negatif dan 173 sentimen positif.
Untuk menangani masalah ini, digunakan metode SMOTE (Synthetic Minority Oversampling Techniqu.
Metode ini terbukti efektif dalam menangani ketidakseimbangan data yang menunjukkan peningkatan kinerja model klasifikasi setelah menerapkan SMOTE.
A 2025 The Author.
Published by UNITY ACADEMY .
This is an open access article under the CC BY-SA license .
ttp://creativecommons.
org/licenses/by-sa/4.
Jurnal Ilmu Komputer dan Sistem Informasi (JIRSI) Volume: 4.
Nomor: 2.
Mei 2025: 202-217 https://jurnal.
unity-academy.
id/index.
php/jirsi/index e-ISSN 2830-3954 p-ISSN 2830-6031 Setelah penanganan data tidak seimbang, data dibagi menjadi 75% untuk data training dan 25% untuk data testing untuk memastikan bahwa model dapat diuji dengan data yang belum pernah dilihat sebelumnya.
Vektorisasi data dilakukan menggunakan TF-IDF (Term Frequency-Inverse Document Frequenc.
untuk mengubah teks menjadi representasi numerik yang dapat diproses oleh algoritma machine learning.
Modeling dalam penelitian ini dilakukan dengan menggunakan algoritma Random Forest, yang dikenal karena kemampuannya dalam menangani dataset yang kompleks dan tidak seimbang.
Setelah data divisualisasikan menggunakan TF-IDF, model Random Forest dibangun dan dioptimalkan menggunakan GridSearch untuk menemukan kombinasi hyperparameter terbaik.
Evaluasi model dilakukan dengan membagi dataset menjadi 75% data training dan 25% data testing, kemudian mengukur kinerja model menggunakan metrik akurasi.
Hasil awal menunjukkan akurasi sebesar 73%, yang kemudian meningkat menjadi 74% setelah optimasi.
Gambar 2.
Proses Penelitian Sentimen Analisis Media Sosial X (Twitte.
2 Synthetic Minority Over-sampling Technique (SMOTE) SMOTE (Synthetic Minority Over-sampling Techniqu.
adalah teknik yang digunakan untuk menyeimbangkan kelas minoritas dalam dataset klasifikasi dengan menciptakan sampel sintetis berdasarkan tetangga terdekat dari kelas minoritas .
Misalkan ycuycn adalah sampel minoritas, ycuyci adalah salah satu tetangganya, dan ycuycuyceyc adalah sampel sintetis yang dibuat, maka rumus SMOTE untuk menciptakan sampel sintetis adalah sebagai berikut:
ycUycuyceyc = ycUycn yu.
cUycycn Oe ycUycn ) A 2025 The Author.
Published by UNITY ACADEMY .
This is an open access article under the CC BY-SA license .
ttp://creativecommons.
org/licenses/by-sa/4.
Jurnal Ilmu Komputer dan Sistem Informasi (JIRSI) Volume: 4.
Nomor: 2.
Mei 2025: 202-217 https://jurnal.
unity-academy.
id/index.
php/jirsi/index e-ISSN 2830-3954 p-ISSN 2830-6031 Di mana yu adalah angka acak antara 0 dan 1, ycuycn adalah sampel minoritas, dan ycuycycn adalah salah satu tetangganya dari ycuycn.
SMOTE menghasilkan sampel baru yang serupa dengan sampel minoritas asli namun dengan variasi yang cukup untuk mewakili variasi yang mungkin ada dalam kelas tersebut.
Hal ini membantu meningkatkan performa model klasifikasi terutama pada kelas minoritas dengan memperluas ruang sampel yang ada.
3 Random Forest Random Forest merupakan algoritma klasifikasi dalam data mining yang efektif dan Algoritma ini bekerja dengan cara menggabungkan prediksi dari beberapa pohon keputusan .
ecision tree.
yang dibangun secara acak.
Setiap pohon dalam Random Forest dibangun menggunakan subset acak dari fitur-fitur dalam dataset dan juga menggunakan teknik bootstraping untuk menghasilkan variasi yang lebih Proses penggabungan prediksi dari pohon-pohon ini dilakukan melalui voting atau averaging, sehingga menghasilkan prediksi akhir yang lebih stabil dan Kelebihan utama dari Random Forest adalah kemampuannya dalam mengatasi overfitting, memproses dataset yang besar dengan cepat, dan memberikan estimasi kelas yang baik bahkan untuk data yang belum pernah dilihat langkah-langkah klasifikasi dalam menggunakan algoritma Random Forest dimulai dengan membagi dataset menjadi data latih dan data uji.
Selanjutnya.
Random Forest membangun beberapa pohon keputusan secara acak dengan memilih subset acak dari fitur-fitur dalam data latih dan menggunakan teknik bootstraping untuk sampel data.
Setiap pohon dilatih secara independen untuk membuat prediksi berdasarkan fitur-fitur yang dipilih.
Setelah semua pohon selesai dibangun, prediksi dari setiap pohon dijadikan sebagai pemilih untuk menentukan prediksi akhir dengan menggunakan metode voting atau averaging.
Prediksi akhir inilah yang digunakan untuk mengevaluasi performa model Random Forest pada data uji, yang dapat memberikan informasi tentang seberapa baik model dapat mengklasifikasikan data yang belum pernah dilihat sebelumnya.
4 Hyperparameter GridSearch Optimasi hyperparameter dengan GridSearch adalah teknik yang digunakan untuk mencari kombinasi hyperparameter terbaik untuk sebuah model machine learning.
Dalam GridSearch, kita mendefinisikan kumpulan nilai yang mungkin untuk setiap hyperparameter yang ingin dioptimalkan, kemudian sistem secara sistematis mencoba semua kombinasi nilai tersebut dan memilih kombinasi yang memberikan kinerja terbaik berdasarkan metrik evaluasi yang ditentukan.
Dalam analisis sentimen menunjukkan bahwa GridSearch mampu meningkatkan kinerja model dengan menemukan kombinasi hyperparameter yang optimal.
Rumus umum GridSearch adalah sebagai berikut:
yaycycnyccycyceycaycycaEa = arg ycoycaycuyuE ycycaycuycyce.
uE) Di mana yuE adalah kombinasi hyperparameter yang ingin dioptimalkan .
isalnya, jumlah pohon dalam Random Forest, kedalaman maksimum pohon, dll.
A 2025 The Author.
Published by UNITY ACADEMY .
This is an open access article under the CC BY-SA license .
ttp://creativecommons.
org/licenses/by-sa/4.
Jurnal Ilmu Komputer dan Sistem Informasi (JIRSI) Volume: 4.
Nomor: 2.
Mei 2025: 202-217 https://jurnal.
unity-academy.
id/index.
php/jirsi/index e-ISSN 2830-3954 p-ISSN 2830-6031 dan Score .
uE) adalah metrik evaluasi yang digunakan .
isalnya, akurasi, presisi, recall, dll.
Selain itu, dalam penelitian menggambarkan bahwa GridSearch dapat digunakan secara efektif dalam mengoptimalkan model machine learning pada dataset dengan kompleksitas yang beragam, memastikan bahwa model yang dihasilkan memiliki kinerja yang maksimal .
5 Confusion Matrix Confusion matrix adalah alat evaluasi yang penting dalam pemodelan Ini memberikan gambaran yang jelas tentang seberapa baik model klasifikasi dapat memprediksi kelas-kelas yang berbeda dalam dataset.
Confusion matrix terdiri dari empat sel, yaitu True Positive (TP) yang menunjukkan jumlah data yang benar diprediksi sebagai positif.
True Negative (TN) yang menunjukkan jumlah data yang benar diprediksi sebagai negatif.
False Positive (FP) yang menunjukkan jumlah data yang salah diprediksi sebagai positif, dan False Negative (FN) yang menunjukkan jumlah data yang salah diprediksi sebagai negatif.
Rumus umum confusion matrix dan tabel sebagai berikut:
ycNycE ycNycA yaycaycaycycycaycayc = ycNycE ycNycA yaycE yaycA Accuracy merupakan pengukuran seberapa sering model klasifikasi benarbenar memprediksi kelas dengan benar.
di mana TP adalah True Positive.
TN adalah True Negative.
FP adalah False Positive, dan FN adalah False Negative.
ycNycE ycEycyceycaycnycycnycuycu = ycNycE yaycE Precision digunakan untuk mengukur seberapa banyak dari semua prediksi positif yang sebenarnya benar.
Di mana TP adalah True Positive dan FP adalah False Positive.
ycNycE ycIyceycaycaycoyco = ycNycE yaycA Recall (Sensitivit.
digunakan untuk mengukur seberapa banyak dari semua kelas positif yang berhasil diprediksi oleh model.
Di mana TP adalah True Positive dan FN adalah False Negative.
ya1 Oe ycIycaycuycyce = 2 ycu ycEycyceycaycnycycnycuycu ycu ycIyceycaycaycoyco ycEycyceycaycnycycnycuycu ycIyceycaycaycoyco F1-Score merupakan harmonic mean dari precision dan recall, memberikan gambaran yang seimbang antara keduanya.
F1-Score berguna ketika kelas-kelas yang diprediksi positif dan negatif tidak seimbang.
Tabel 1.
Confusion Matrix Prediksi Positif Prediksi Negatif Aktual Positif A 2025 The Author.
Published by UNITY ACADEMY .
This is an open access article under the CC BY-SA license .
ttp://creativecommons.
org/licenses/by-sa/4.
Jurnal Ilmu Komputer dan Sistem Informasi (JIRSI) Volume: 4.
Nomor: 2.
Mei 2025: 202-217 https://jurnal.
unity-academy.
id/index.
php/jirsi/index Aktual Negatif
e-ISSN 2830-3954
p-ISSN 2830-6031
HASIL DAN PEMBAHASAN
1 Pembesihan dan Pra-Pemrosesan Data Hasil pembersihan data merupakan tahap yang krusial dalam proses analisis data yang bertujuan untuk meningkatkan kualitas dan kebersihan dataset.
Setelah melalui langkah-langkah seperti penghapusan karakter khusus.
URL, dan tanda baca yang tidak diperlukan, serta penggunaan teknik seperti penghapusan stopword, stemming, dan normalisasi, dataset yang dihasilkan menjadi lebih bersih, terstruktur, dan siap untuk digunakan dalam analisis lebih lanjut.
Proses ini membantu menghilangkan noise dan informasi yang tidak relevan, sehingga memungkinkan model machine learning untuk mempelajari pola yang lebih bermakna dan menghasilkan hasil yang lebih akurat dan dapat diandalkan.
Berikut gambar merupakan sourcode pembersihan pada data twitter:
Gambar 3.
Sourcode Pembersihan Data Twitter Dari Gambar 3 merupakan sourcode pembersihan data untuk menghilangkan karakter khusus.
URL, dan tanda baca yang tidak diperlukan, kemudian data yang sudah dibersihkan akan disimpan kembali dalam atribut atau kolom full_text yang berisi kumpulan komentar pada media sosial x atau twitter dalam persoalan kenaikan ukt.
selanjutnya dilakukan pembersihan dengan merubah teks komentar dalam kolom full_text menjadi huruf kecil dengan library lower pada python.
selanjutnya setelah dilakukan pembersihan data twitter yaitu pra-pemprosesan data, dalam pra-pemprosesan data akan dilakukan penghapusan kata yang tidak baku menjadi kata baku dalam bahasa Indonesia seperti kata yg akan diganti dengan yang, adapun caranya dengan melakukan normalisasi kata menggunakan kamus slang indonesia yang diambil dari situs kaggle respository.
Dalam pra-pemrosesan data adalah melakukan penghapusan kata yang tidak memiliki arti dalam bahasa Indonesia seperti kata dan, atau, menggunakan library nltk yaitu stopword berbahasa indonesia.
A 2025 The Author.
Published by UNITY ACADEMY .
This is an open access article under the CC BY-SA license .
ttp://creativecommons.
org/licenses/by-sa/4.
Jurnal Ilmu Komputer dan Sistem Informasi (JIRSI) Volume: 4.
Nomor: 2.
Mei 2025: 202-217 https://jurnal.
unity-academy.
id/index.
php/jirsi/index e-ISSN 2830-3954 p-ISSN 2830-6031 Langkah selanjutnya dalam pra-pemrosesan adalah melakukan stemming kata dalam bahasa Indonesia menggunakan library sastrawi, stemming merupakan proses penghapusan kata menjadi kata dasar seperti pengumuman menjadi umum.
Setelah proses pembersihan dan tahapan pra-pemrosesan selesai, maka akan di dapati data yang lebih bersih dari data sebelumnya.
Berikut gambar 3 hasil pembersihan dan pra-pemrosesan data.
Gambar 4.
Hasil stemming dengan satrawi 2 Labeling data dengan TextBlob Dalam melakukan labeling data twitter bahasa Indonesia terdapat banyak cara yaitu dengan melakukan labeling secara manual, otomatis dan semi otomatis.
Pada penelitian ini labeling dilakukan secara otomatis dengan library textblob, akan tetapi karena pada textblob belum dapat melabeli langsung kata berbahasa Indonesia maka akan dilakukan penerjamahan kata twitter bahasa Indonesia kedalam bahasa inggris.
Setelah proses penerjemahan kata selesai selanjutnya dilakukan labeling data twitter menggunakan textblob, untuk labeling sentimen pada penelitian ini hanya sentimen positif dan negatif.
Berikut merupakan tabel 2 hasil terjemahan teks kedalam bahasa inggris, dan hasil klasifikasi sentimen positif dan negatif menggunakan texblob.
Tabel 2.
Hasil Terjemahan Teks Text sebelum Translated umum kait ukt kemendikbudristek putus batal naik ukt bpjs sesuai kelas hapus ppn ukt publik protes keras tunda tahun pertalite hapus tdl lpg Text setelah Translated ['announcement', 'related', 'to', 'ukt'] ['breaking', 'kemendikbudristek', 'decided', 'to', 'cancel', 'the', 'increase', 'in', 'ukt'] ['bpjs', 'is', 'adjusted', 'for', 'the', 'class', 'to', 'be', 'deleted', 'by', 'the', 'ppn', 'ukt', 'public', 'protest', 'protest', 'postponed', 'a'.
Sentiment A 2025 The Author.
Published by UNITY ACADEMY .
This is an open access article under the CC BY-SA license .
ttp://creativecommons.
org/licenses/by-sa/4.
Jurnal Ilmu Komputer dan Sistem Informasi (JIRSI) Volume: 4.
Nomor: 2.
Mei 2025: 202-217 https://jurnal.
unity-academy.
id/index.
php/jirsi/index e-ISSN 2830-3954 p-ISSN 2830-6031 sembako rakyat bayar tapera gaji utang nalar A.
'year', 'of', 'pertalite', 'deleted', 'tdl', 'lpg', 'sembako', 'people', 'pay', 'tapera', 'salary', 'payable', 'payable'] ukt terbit tapera indonesia ['ukt', 'is', 'published', 'by', negara bu gimana sih 'tapera', 'indonesia', ',', 'how', biaya sejahtera 'about', 'the', 'cost', 'of', 'prosperity'] A.
dips mama ayah jual ['what', 'is', 'the', 'name', 'of', bakpau keliling kuliahin 'the', 'father', 'of', 'the', ukt atas gol kos aman jajan 'seller', 'of', 'buns', 'around', aman kip kipk bantu apa 'college', 'ukt', 'on', 'a', 'safe', sekolah detik sma biayain 'boarding', 'house', 'for', swasta yaallah cont 'safe', 'snacks', 'kip', 'kipk', 'aid', 'whatever', 'school', 'seconds', 'high', 'school', 'costs', 'private'] A.
3 Hasil Klasifikasi Sentimen Media Sosial X Setelah data selesai dilakukan pembersihan, pra-prosesing dan sudah memilki labael sentiment langkah selanjutnya adalah melakukan klasifikasi data untuk diketahui tingkat akurasinya.
Kalsifikasi dilakukan dengan menggunakan metode random forest, tahap awal dalam klasifikasi terlebih dahulu melihat jumlah Sentimen positif dan negatif pada data.
Berikut merupakan gambar 5 jumlah sentimen positif dan negatif pada data media sosial x mengenai ukt.
Gambar 5.
Jumlah data sentimen Dari gambar 5 dapat dilihat jumlah data sentimen positif sebanyak 173 dan jumlah sentiment negatif 438 dari total data 611.
Jika dilihat persebaran data sentimen tidak seimbang, untuk melakukan ketidak seimbangan data dapat menggunakan salah satu metode imbalance data yaitu smote.
Namun dalam melakukan imbalance data terlebih dahulu dilakukan pemisahan data dengan membagi data latih dan data uji serta merubah label data menjadi numerik dengan encoder.
Pembagian data latih sebesar 75% dan data uji 25%.
Sementara label sentiment positif dan negatif akan dirubah mejadi 0 dan 1, dimana 0 untuk sentiment negatif dan 1 untuk sentiment A 2025 The Author.
Published by UNITY ACADEMY .
This is an open access article under the CC BY-SA license .
ttp://creativecommons.
org/licenses/by-sa/4.
Jurnal Ilmu Komputer dan Sistem Informasi (JIRSI) Volume: 4.
Nomor: 2.
Mei 2025: 202-217 https://jurnal.
unity-academy.
id/index.
php/jirsi/index e-ISSN 2830-3954 p-ISSN 2830-6031 Selanjutnya data yang sudah dibagi menjadi data latih dan data uji, kemudian dilakukan vektorisasi data untuk memecah kata berdasarkan jumlah Vektorisasi yang digunakan pada penelitian ini adalah tf-idf.
4 Hasil Imbalance Metode SMOTE Setelah dilakukan pembagian data dan vektorisasi pada data teks, tahap selanjutnya mengatasi ketidak seimbangan data dengan metode smote, jumlah sentimen positif dan negatif akan di seimbangkan untuk memperoleh data yang lebih baik.
Adapun data yang di seimbangkan adalah data latih dari hasil pembagian data.
Berikut gambar 6 hasil imbalance data metode smote.
Gambar 6.
Hasil Imbalance Metode Smote 5 Hasil Evaluasi Algoritma Random Forest.
Data sentimen pada media sosial x mengenai ukt, selanjutnya akan di klasifikasin dengan algoritma random forest.
Pada penghitungan algoritma random forest hasil akurasi yang diperoleh sebesar 73% dari pembagian data latih sebesar 75% dan data uji 25% dengan imbalance smote.
Hasil akurasi algoritma random forest dapat dilihat dengan confusion matrix.
Gambar 7 merupakan confusion matrix algoritma random forest.
Gambar 7.
Confusion Matrix Algoritma Random Forest Dari gambar 7 dapat dilihat akurasi algoritma yang dihasil oleh algoritma random forest sebesar 73%.
Untuk mengetahui hasil prediksi yang dihasilkan dari algoritma random forest dapat dilakukan dengan visualisasi confusion matrix.
Gambar 8 merupakan visualisasi confusion matrix algoritma random forest.
A 2025 The Author.
Published by UNITY ACADEMY .
This is an open access article under the CC BY-SA license .
ttp://creativecommons.
org/licenses/by-sa/4.
Jurnal Ilmu Komputer dan Sistem Informasi (JIRSI) Volume: 4.
Nomor: 2.
Mei 2025: 202-217 https://jurnal.
unity-academy.
id/index.
php/jirsi/index e-ISSN 2830-3954 p-ISSN 2830-6031 Gambar 8.
Visualisasi Confusion Matrix Algoritma Random Forest Dari gambar 8 dapat diketahui untuk sentimen negatif yang sesuai dengan prediksi sebanyak 96 adapun sebanyak 10 data yang bermula sentimen negatif diprediksi menjadi positif.
Untuk sentimen positif terdapat 32 data sentimen yang diprediksi negatif dan 15 data yang diprediksi sesuai dari data aktualnya.
Untuk melihat konsistensi akurasi dari algoritma random forest dapat dilakukan penghitungan dengan cross validation dengan 10 k-fold.
Dapat diketahui hasil penghitungan cross validation dengan 10 k-fold akurasi yang diperoleh sebesar 75%, cross validation sendiri melakukan pengujian dengan membagi 10 k-fold dari data latih.
6 Hasil Hyperparameter Gridsearch Setelah diketahui hasil akurasi algoritma random forest untuk analisis sentimen pada media sosial x, dimana hasilnya adalah 73% hasil akurasi yang diperoleh akan ditingkatkan menggunakan hyperparameter gridsearch dengan melakukan n_estimators, max_depth, min_samples_split, min_samples_leaf, dan bootstrap.
Penambahan parameter ini bertujuan untuk mencari nilai parameter terbaik dari algoritma random forest.
Untuk hasil parameter terbaik dapat dilihat pada tabel 3 berikut.
Tabel 3.
Parameter gridsearch Parameter gridsearch n_estimators max_depth min_samples_split min_samples_leaf Nilai Parameter .
, 100, .
[None, 10, 20, .
, 5, .
, 2, .
[True.
Fals.
Hasil Best Parameter None True A 2025 The Author.
Published by UNITY ACADEMY .
This is an open access article under the CC BY-SA license .
ttp://creativecommons.
org/licenses/by-sa/4.
Jurnal Ilmu Komputer dan Sistem Informasi (JIRSI) Volume: 4.
Nomor: 2.
Mei 2025: 202-217 https://jurnal.
unity-academy.
id/index.
php/jirsi/index e-ISSN 2830-3954 p-ISSN 2830-6031 Setelah mendapat parameter terbaik dari hasil hyperparameter gridsearch, selanjutnya melakukan penghitungan algoritma random forest dengan menambahkan hyperparameter gridsearch untuk meningkatkan hasil akurasi yang diperoleh sebelumnya.
Algoritma random forest di optimasi dengan hasil hyperparameter gridsearch terbaik untuk meningkatkan nilai akurasi dalam analisis sentimen media sosial x mengenai ukt, adapun nilai optimasi yang berhasil diperoleh sebesar 74%, nilai tersebut lebih besar dari hasil akurasi sebelum dilakukan hyperparameter gridsearch.
Nilai akurasi yang dihasilkan dapat dilihat dengan confusion matrix, sehingga prediksi dari analisis sentimen data media sosial x dapat diketahui.
Berikut gambar 9 hasil evaluasi dan confusion matrix algoritma random forest dengan hyperparameter gridsearch.
Gambar 9.
Hasil evaluasi dan confusion matrix algoritma random forest dengan hyperparameter gridsearch Berdasarkan gambar 9 diketahui jumlah sentimen negatif yang berhasil diprediksi negatif sebanyak 105 dan 1 sentimen negatif yang diprediksi menjadi sentimen Sementara untuk sentimen positif terdapat 38 yang diprediksi menjadi sentimen negatif, dan terdapat 9 data yang sesuai dengan prediksi sentimen positif.
Dari hasil akurasi dengan hyperparameter gridsearch, dapat dilakukan penghitungan cross validation dengan 10 k-fold untuk melihat konsistensi dari nilai akurasinya, adapun hasil akurasi yang diperoleh adalah sebesar 89%.
Berikut gambar 10 hasil akurasi cross validation optimasi algoritma random forest dengan hyperparameter gridsearch.
Gambar 10.
Hasil akurasi cross validation optimasi algoritma random forest dengan hyperparameter gridsearch A 2025 The Author.
Published by UNITY ACADEMY .
This is an open access article under the CC BY-SA license .
ttp://creativecommons.
org/licenses/by-sa/4.
Jurnal Ilmu Komputer dan Sistem Informasi (JIRSI) Volume: 4.
Nomor: 2.
Mei 2025: 202-217 https://jurnal.
unity-academy.
id/index.
php/jirsi/index e-ISSN 2830-3954 p-ISSN 2830-6031 Dari gambar 10 dapat dilakukan visualisasi confusion matrix hasil akurasi cross validation algoritma random forest dengan hyperparameter gridsearch, visualisasi dilakukan untuk mengetahui jumlah prediksi data sentimen positif dan sentimen Berikut gambar 10 Visualisasi confusion matrix cross validation algoritma random forest dengan hyperparameter gridsearch.
Gambar 11.
Visualisasi confusion matrix cross validation algoritma random forest dengan hyperparameter gridsearch Hasil visualisasi gambar 11 menunjukkan bahwa dari hasil akurasi 89% terdapat 329 data sentimen negatif pada data latih yang diprediksi sesuai dengan data aktualnya, sedangkan 3 data sentimen negatif yang diprediksi menjadi sentimen Sementara untuk sentimen positif terdapat 67 data yang diprediksi menjadi negatif, dan sebanyak 265 data diprediksi sesuai dengan sentimen positif.
Hasil nilai dari gambar 10 dapat juga dilakukan penghitungan secara manual untuk mengetahui nilai akurasi.
Precision, recall, f1-score, berikut penghitungannya.
ycNycE ycNycA yaycaycaycycycaycayc = ycNycE ycNycA yaycE yaycA yaycaycaycycycaycayc = 265 329 = 0.
265 329 67 3 664
ycEycyceycaycnycycnycuycu = ycNycE = 0.
ycNycE yaycE 265 67 ycIyceycaycaycoyco = ycNycE = 0.
ycNycE yaycA 265 3 ya1 Oe ycIycaycuycyce = 2 ycu ycEycyceycaycnycycnycuycu ycu ycIyceycaycaycoyco ycEycyceycaycnycycnycuycu ycIyceycaycaycoyco ya1 Oe ycIycaycuycyce = 2 ycu 79ycu0.
=2ycu = 2 ycu 0.
437 = 0.
A 2025 The Author.
Published by UNITY ACADEMY .
This is an open access article under the CC BY-SA license .
ttp://creativecommons.
org/licenses/by-sa/4.
Jurnal Ilmu Komputer dan Sistem Informasi (JIRSI) Volume: 4.
Nomor: 2.
Mei 2025: 202-217 https://jurnal.
unity-academy.
id/index.
php/jirsi/index e-ISSN 2830-3954 p-ISSN 2830-6031 Dari hasil penghitungan dapat diketahui nilai akurasi sebesar 89%, precision 79%, recall 98%, dan F1-scoresebesar 87%.
Hasil tersebut memberikan pengetahuan bahwa data analisa sentimen media sosial x dengan bahasa Indonesia mengenai ukt memilki hasil prediksi yang cukup baik.
7 Perbandingan Hasil Evaluasi Algortima Randon Forest Setelah dilakukan penghitungan untuk melakukan evaluasi terhadap data sentimen media sosial x bahasa Indonesia mengenai ukt, dapat dilihat hasil masing-masing nilai akurasi yang diperoleh dari algoritma random forest, baik yang sebelum dioptimasi ataupun yang sudah dioptimasi.
Berikut tabel 4 perbandingan hasil
Algoritma Data Mining Random Forest
Random Forest
Hyperparameter Gridsearch
Split Data
% : 25%)
Cross Validation K-fold = 10 evaluasi nilai akurasi data sentimen media sosial x bahasa Indonesia mengenai ukt menggunakan algoritma random forest.
Tabel 4.
Parameter gridsearch Dari hasil perbandingan tabel 4 diketahui untuk akurasi data analisis sentimen menggunakan algoritma random forest dengan pengujian split data sebesar 73%, dan hasil akurasi menggunakan cross validation dengan 10 k-fold sebesar 75%.
Adapaun optimasi algoritma random forest dengan hyperparameter gridsearch berhasil meningkatkan nilai akurasi yaitu untuk evaluasi dengan split data meningkat menjadi 74%, dan evaluasi menggunakan cross validation dengan 10 kfold meningkat cukup besar menjadi 89%.
KESIMPULAN
Analisis sentimen media sosial x dengan bahasa Indonesia dalam mengklasifikasikan sentimen positif dan negatif dari hasil lebeling otomatis mengunakan textblob, memiliki nilai akurasi 73% dari hasil penghitungan algoritma random forest dengan pembagian data latih 75% dan data uji 25%, semtara hasil cross validation menggunakan 10 k-fold adalah sebesar 75%, vektorisasi data yang digunakan yaitu tf-idf dangan melakukan imbalance data menggunakan metode smote.
Adapun hasil akurasi algoritma random forest menggunakan hyperparameter gridsearch berhasil meningkatkan nilai akurasi sebesar 1% menjadi 74%, sementara evaluasi dengan cross validation menggunakan 10 k-fold mengalami peningkatan sebesar 14% sehingga nilai akurasi datanya menjadi 89%.
Selanjutnya penelitian ini dapat dilakukan dengan vektorisasi lain seperti BOW dengan algoritma klasifikasi seperti SVM.
Decision Tree dan lain sebagainya, serta dilakukan labeling otomatis dengan menggunkan Lexicon base bahasa Indonesia untuk mendapatkan hasil akurasi yang lebih baik lagi.
A 2025 The Author.
Published by UNITY ACADEMY .
This is an open access article under the CC BY-SA license .
ttp://creativecommons.
org/licenses/by-sa/4.
Jurnal Ilmu Komputer dan Sistem Informasi (JIRSI) Volume: 4.
Nomor: 2.
Mei 2025: 202-217 https://jurnal.
unity-academy.
id/index.
php/jirsi/index e-ISSN 2830-3954
p-ISSN 2830-6031
DAFTAR PUSTAKA