Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK) Vol. No. Desember 2025, hlm. p-ISSN: 2355-7699 e-ISSN: 2528-6579 ANALISIS SENTIMEN TERHADAP KEBIJAKAN SUBSIDIPEMBELIAN KENDARAAN BERTENAGA LISTRIK DI INDONESIA MENGGUNAKAN PENDEKATAN INSET LEXICON DAN METODE SUPPORT VECTOR MACHINE Dian Pratiwi1*. Nurizka Khoerani2. Syandra Sari3 1,2,3 Universitas Trisakti. Jakarta Barat Email: 1dian. pratiwi@trisakti. id, 2064002104003@std. id, 3syandra_sari@trisakti. Penulis Korespondensi (Naskah masuk: 22 Mei 2025, diterima untuk diterbitkan: 24 Agustus 2. Abstrak Analisis sentimen berbasis leksikon merupakan metode yang umum digunakan untuk mengidentifikasi opini masyarakat terhadap isu-isu publik melalui media sosial. Penelitian ini membandingkan performa dua pendekatan leksikal, yaitu InSet lexicon dan Vader lexicon, dalam klasifikasi sentimen terhadap opini masyarakat mengenai kebijakan subsidi kendaraan listrik di Indonesia. Proses pelabelan sentimen dilakukan secara otomatis menggunakan masing-masing leksikon, kemudian diklasifikasikan menggunakan algoritma Support Vector Machine (SVM) dengan dua pendekatan representasi fitur, yaitu TF-IDF dan Word2Vec. Hasil klasifikasi menunjukkan bahwa InSet lexicon menghasilkan distribusi sentimen negatif yang dominan dengan akurasi klasifikasi sebesar 71%, sedangkan Vader lexicon lebih banyak mengidentifikasi sentimen positif dengan akurasi sebesar 64%. Evaluasi performa dilakukan menggunakan metrik akurasi, precision, recall, dan F1-score. Selain itu, visualisasi wordcloud digunakan untuk mengidentifikasi kata-kata kunci yang paling sering muncul dalam opini masyarakat, seperti AupemerintahAy. AuBBMAy, dan AusubsidiAy, yang secara leksikal bersifat netral namun dapat membentuk arah sentimen tergantung konteks kalimat. Penelitian ini menunjukkan bahwa pemilihan leksikon dan representasi fitur berpengaruh signifikan terhadap hasil klasifikasi, serta menegaskan pentingnya validasi pelabelan dan pengembangan leksikon berbasis domain dalam analisis sentimen kebijakan publik. Kata kunci: analisis sentimen. InSet. Vader. SVM, subsidi kendaraan listrik SENTIMENT ANALYSIS OF ELECTRIC VEHICLE PURCHASE SUBSIDY POLICY IN INDONESIA USING THE INSET LEXICON APPROACH AND SUPPORT VECTOR MACHINE METHOD Abstract Lexicon-based sentiment analysis is a commonly used method to identify public opinion on policy issues through social media. This study compares the performance of two lexical approaches, namely InSet lexicon and Vader lexicon, in classifying sentiment toward public responses to IndonesiaAos electric vehicle subsidy policy. Sentiment labeling was performed automatically using each lexicon, followed by classification using the Support Vector Machine (SVM) algorithm with two feature representation techniques: TF-IDF and Word2Vec. The results show that InSet lexicon yielded a dominant distribution of negative sentiment with a classification accuracy of 71%, while Vader lexicon identified more positive sentiments with an accuracy of 64%. Performance evaluation was carried out using accuracy, precision, recall, and F1-score metrics. In addition, wordcloud visualization was used to identify the most frequently appearing keywords in public opinion, such as AupemerintahAy . AuBBMAy . , and AusubsidiAy . , which are lexically neutral but may carry sentiment depending on contextual use. This study highlights the significant impact of lexicon choice and feature representation on classification performance and emphasizes the importance of label validation and domain-specific lexicon development in sentiment analysis for public policy evaluation. Keywords: sentiment analysis. InSet. Vader. SVM. EV subsidy policy emosi dalam suatu teks menjadi sentimen positif, negatif, atau netral (Bourequat & Mourad, 2. Dalam konteks media sosial, analisis sentimen memiliki peran penting dalam memahami persepsi masyarakat secara real-time terhadap suatu isu publik, termasuk kebijakan pemerintah. Dua PENDAHULUAN Analisis sentimen merupakan salah satu cabang dari pemrosesan bahasa alami (Natural Language Processing/NLP) mengidentifikasi dan mengklasifikasikan opini atau 1304 Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK). Vol. No. Desember 2025, hlm. pendekatan yang umum digunakan dalam analisis sentimen adalah pendekatan leksikal dan Pendekatan memanfaatkan kamus kata berlabel sentimen seperti InSet lexicon untuk Bahasa Indonesia dan Vader lexicon untuk Bahasa Inggris. Kata-kata dalam teks dicocokkan dengan daftar kosakata tersebut untuk menentukan polaritas sentimennya. Setelah pelabelan dilakukan, klasifikasi lebih lanjut terhadap data dilakukan menggunakan algoritma pembelajaran mesin, salah satunya Support Vector Machine (SVM). SVM bekerja dengan mencari hyperplane optimal yang dapat memisahkan kelas-kelas data secara maksimal, dan terbukti efektif dalam menangani data berdimensi tinggi seperti teks (Aini et al. , 2. Pendekatan ini diperkuat dengan teknik representasi fitur seperti TF-IDF dan Word2Vec yang berfungsi untuk mengubah teks menjadi bentuk numerik agar dapat diproses oleh algoritma klasifikasi. Subsidi kendaraan listrik telah resmi diberikan oleh pemerintah Indonesia untuk masyarakat, dilansir dari Kompas. com bahwa Pemerintah mengumumkan pemberian subsidi mobil listrik berlaku mulai 1 April Hal ini disampaikan Menteri Koordinator Bidang Kemaritiman dan Investasi. Luhut Binsar Pandjaitan. Sedangkan subsidi motor listrik dan konversinya berlaku mulai 20 Maret 2023 (Kompas. com, 2. Menurut Milton H. Spencer dan Orley M. Amos. Jr. dalam bukunya yang berjudul Contemporary Economics, subsidi adalah suatu pembayaran yang dilakukan oleh pihak pemerintah . embayaran dalam bentuk apapu. dalam suatu perusahaan ataupun rumah tangga agar mencapai suatu tujuan tertentu yang dapat meringankan beban penerima (Soen et al. , 2. Secara Singkatnya, pengertian subsidi adalah bantuan atau insentif keuangan, subsidi pembelian kendaraan listrik diharapkan dapat memberikan manfaat jangka panjang bagi masyarakat dan lingkungan (Pratama et , 2. Subsidi merupakan bantuan dari Pemerintah, mendapatkan respon positif dari masyarakat. Namun, ternyata masih terdapat pro dan kontra dari Salah satunya dari Youtuber otomotif Indonesia. Om Mobi mengatakan dengan menggunakan kendaraan listrik, masyarakat dapat turut berkontribusi dalam menjaga lingkungan serta mengurangi ketergantungan pada bahan bakar fosil (Listrik Indonesia, 2. Pendapat lainnya disampaikan oleh Pengamat Transportasi. Ki Darmaningtyas mengatakan bahwa pemerintah dapat memberikan subsidi kepada para pengusaha angkutan umum untuk membeli bus listrik yang dapat dioperasikan secara komersial (DetikOto, 2. Pemberian subsidi kepada perusahaan angkutan umum akan mendorong pengembangan industri kendaraan listrik, juga dapat memperbaiki layanan angkutan umum dengan sarana transportasi yang lebih ramah lingkungan, dan dapat mengurangi kemacetan (Prayudyanto, 2. Opini lain yang diberikan oleh masyarakat dapat dilihat dari media Saat ini, banyak sekali media sosial yang digunakan oleh masyarakat Indonesia, salah satunya Twitter. Twitter adalah platform media sosial yang memungkinkan pengguna mengirim teks pendek yang dikenal sebagai twit untuk mengekspresikan pikiran dan opini mereka secara publik tentang subjek apa pun. Fernanda dan Fathoni . menggunakan twit AurohingnyaAy membandingkan performa antara Vader dan InSet Berdasarkan hasil analisis. InSet lexicon mengklasifikasikan lebih banyak sentimen negatif 241 dibandingkan sentimen positif 369 dan netral sebanyak 521. Sebaliknya. Vader lexicon lebih cenderung mengidentifikasi sentimen positif dengan jumlah 2. 749 dibandingkan negatif sebanyak 2. 523 dan netral sebanyak 1. Setelah data dilatih menggunakan metode SVM. InSet lexicon menunjukkan akurasi rata-rata sebesar 87,83%, sedikit lebih tinggi dibandingkan Vader lexicon yang mencapai 87,66%. Selain itu. InSet lexicon juga digunakan oleh Firdaus et al. dalam analisis sentimen terhadap umpan balik mahasiswa menggunakan data Evaluasi Dosen oleh Mahasiswa (EDOM), yang menunjukkan akurasi hingga 90,9% di tingkat dokumen. Di sisi lain. Asri et . menggunakan Vader lexicon dalam klasifikasi ulasan aplikasi PLN Mobile dan mencatat bahwa 49% ulasan dikategorikan positif, dengan akurasi prediksi keseluruhan mencapai 70% menggunakan nayve bayes. Dari sejumlah penelitian sebelumnya, terbukti bahwa pemilihan leksikon berpengaruh signifikan terhadap hasil klasifikasi sentimen. Namun, sebagian besar studi tersebut hanya menyajikan hasil berupa distribusi sentimen dan nilai akurasi secara umum, serta belum banyak melakukan evaluasi performa klasifikasi secara menyeluruh. Penelitian ini mengisi celah tersebut dengan melakukan perbandingan performa antara InSet dan Vader lexicon terhadap sentimen masyarakat atas kebijakan subsidi Indonesia. Sentimen diklasifikasikan ke dalam tiga kategori, yaitu positif, negatif, dan netral, dengan menggunakan algoritma SVM. Penelitian ini tidak hanya mengukur akurasi, tetapi juga mengevaluasi metrik precision, recall, dan F1-score secara rinci untuk setiap kombinasi leksikon dan teknik representasi fitur (TF-IDF dan Word2Ve. , yang belum dilakukan pada studi Di samping itu, visualisasi wordcloud digunakan untuk menampilkan kata-kata yang paling sering muncul dalam opini masyarakat, sehingga memberikan interpretasi tematik terhadap sentimen yang diklasifikasikan. Dengan pendekatan tersebut, penelitian ini berkontribusi pada pengembangan analisis sentimen berbasis leksikon yang lebih menyeluruh, baik dari Pratiwi, dkk. Analisis Sentimen TerhadapA 1305 segi teknis maupun aplikatif, serta memperkuat relevansinya dalam konteks evaluasi kebijakan Oleh karena itu, fokus utama artikel ini secara lebih tepat terletak pada perbandingan performa metode klasifikasi berdasarkan variasi leksikon dan teknik representasi, bukan semata pada topik kebijakan itu sendiri. METODE PENELITIAN Metode penelitian yang digunakan adalah pendekatan eksperimen komparatif. Hasil crawling data twitter akan diberi label sentimen menggunakan InSet dan Vader lexicon, selanjutnya hasil klasifikasi keduanya dibandingkan. Selain membandingkan jumlah klasifikasi, dibandingkan juga metrik evaluasi seperti akurasi, presisi, recall, dan F1-score dari penggunaan topic modeling antara Word2Vec dan TF-IDF dengan metode SVM. Kemudian, kata kunci yang sering muncul pada respon dan opini dari data twitter akan ditampilkan. Berikut ini adalah flowchart tahapan penelitian: Gambar 1. Flowchart Penelitian 1306 Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK). Vol. No. Desember 2025, hlm. Gambar 1 menyajikan penjelasan mengenai flowchart diagram penelitian yang akan dijalankan pada penelitian ini, diuraikan sebagai berikut: 1 Crawling Data Twitter Crawling adalah suatu teknik yang digunakan untuk mengumpulkan informasi yang ada dalam web (Saputra, 2. Pada penelitian ini, dilakukan dengan crawling data twitter menggunakan tweetharvest, sebuah alat baris perintah yang memanfaatkan playwright untuk mengekstraksi twit berdasarkan kata kunci dan rentang tanggal tertentu, lalu menyimpannya dalam format CSV untuk analisis lebih lanjut. Data yang digunakan berasal dari platform Twitter, dengan kata kunci AuSubsidi Kendaraan ListrikAy data diambil mulai tanggal 1 Januari s. 31 Desember 2023, dengan total 633 data. Tahap terakhir dalam proses ini adalah menyimpan data crawling ke format CSV. 2 Text Preprocessing Tahapan text preprocessing bertujuan untuk membersihkan dan menyiapkan data teks agar dapat dianalisis secara efektif dalam proses klasifikasi Proses text preprocessing dilakukan menggunakan pendekatan berbasis library Python, bukan dari awal . rom scratc. , guna meningkatkan efisiensi, akurasi, dan keandalan dalam pemrosesan data teks. Adapun tahapan preprocessing yang dilakukan Remove User Tahapan pertama dari proses text preprocessing adalah remove user atau menghapus mention akun pengguna Twitter dari setiap twit menggunakan fungsi re. sub() dari library re . egular expressio. Tabel 1. Hasil Remove User Sebelum @kompascom Solusi : subsidi kendaraan pribadi bertenaga listrik. Sesudah Solusi : subsidi kendaraan pribadi bertenaga listrik. Cleaning Tahap berikutnya yaitu menghapus tanda baca, angka, simbol, dan tautan yang tidak relevan, tujuannya untuk mengurangi noise, meningkatkan kualitas data, meningkatkan kinerja model, dan mempersiapkan data untuk pemrosesan lebih lanjut. Sehingga data yang digunakan dalam analisis memiliki kualitas yang baik dan relevan untuk mencapai hasil yang akurat dan bermakna dengan menggunakan kombinasi library re dan fungsi pembersih dari pandas untuk menghapus karakter yang tidak relevan seperti tanda baca, angka, dan tautan/uniform resource locator (URL). Tabel 2. Hasil Cleaning Sebelum Sesudah Jangan lupa mudahnya kepemilikan kendaraan . aik KR 2 maupun KR . dengan kredit jg menjadi pemicunya jika ditarik panjang ke Baru2 ini jg ditambah dengan munculnya kendaraan listrik dan dispesialkan" dr ganjil genap serta subsidi kepemilikan KR Jangan lupa mudahnya kepemilikan kendaraan baik maupun dengan kredit menjadi pemicunya jika ditarik panjang belakang Baru ini ditambah dengan munculnya kendaraan listrik dan dispesialkan ganjil genap serta subsidi kepemilikan Case Folding Case folding dilakukan untuk mengubah semua huruf kapital dalam dataset menjadi huruf kecil. Tahapan ini bertujuan untuk memastikan konsistensi penulisan teks, sehingga kata-kata yang sama dengan perbedaan kapitalisasi tidak dianggap sebagai entitas berbeda (Septiani dan Isabela, 2. Dengan membuat seluruh karakter menjadi huruf kecil, proses generalisasi teks menjadi lebih optimal. Dalam tahap ini, hanya huruf AoaAo sampai AozAo yang diterima, sementara karakter selain huruf dihilangkan dan dianggap sebagai pemisah. Proses ini dilakukan menggunakan fungsi . lower() bawaan Python, dan didukung oleh fungsi manipulasi teks dari pustaka Tabel 3. Hasil Case Folding Sebelum Sesudah Usul sih daripada subsidi kendaraan listrik mending subsidi sepeda aja Program mikrotrans dari rumah shelter bisa pake sepeda Yaa efeknya produsen motor mobil sih tapi itu resiko harus diambil usul sih daripada subsidi kendaraan listrik mending subsidi sepeda aja program mikrotrans dari rumah shelter bisa pake sepeda yaa efeknya produsen motor mobil sih tapi itu resiko harus Tokenisasi Tokenisasi dilakukan untuk memecah kalimat menjadi potongan-potongan kata, tanda baca, dan ungkapan bermakna lainnya sesuai dengan ketentuan bahasa yang digunakan (Bourequat dan Mourad. Tahapan ini bertujuan untuk mengubah teks utuh menjadi satuan yang lebih kecil berupa token, sehingga memudahkan analisis selanjutnya. Dalam implementasinya, angka, simbol, dan tanda baca yang tidak relevan dihilangkan untuk menjaga fokus pada kata utama. Proses ini dilakukan menggunakan modul tokenize untuk memecah kalimat menjadi katakata secara sistematis. Tabel 4. Hasil Tokenisasi Sebelum subsidi kendaraan listrik hanya menguntungkan segelintir orang Sesudah . ubsidi, kendaraan, listrik, hanya, segelintir, oran. Pratiwi, dkk. Analisis Sentimen TerhadapA 1307 Normalisasi Normalisasi berfungsi untuk membersihkan teks dari kata-kata yang tidak standar. Proses ini mengubah kata-kata tidak baku, singkatan, dan kata daerah menjadi bentuk baku yang sesuai dengan Kamus Besar Bahasa Indonesia (KBBI) (Septian et , 2. Contohnya, singkatan AosdhAo akan diubah menjadi AosudahAo, kata daerah AoapikAo menjadi AobaikAo, dan kata salah eja AoendonesahAo menjadi AoIndonesiaAo. Langkah ini penting agar data teks dapat diproses secara akurat dalam tahap-tahap selanjutnya. Pada penelitian ini, proses normalisasi dilakukan dengan menggunakan kamus pasangan kata tidak baku dan kata baku dalam format CSV. File tersebut dibaca menggunakan pustaka pandas, kemudian disusun menjadi struktur kamus dalam Python. Setiap kata dari hasil tokenisasi akan dicocokkan dengan kamus Jika ditemukan padanannya, kata akan diganti dengan bentuk bakunya. Jika tidak, kata tetap Dengan cara ini, proses normalisasi dapat dilakukan secara otomatis, cepat, dan konsisten terhadap seluruh data teks. Tabel 5. Hasil Normalisasi Sebelum Sesudah . aya,sdh,pakai,molis,sej ak,tahun,jgn,sokan,anda, paling,paham,saya,koreks i,bkn,keberadaan,kendara an,listrik,subsidinya,men yentuh,angka,perunit,piki r,negara,kita,sekaya,apa,n yampe,subsidi,org,utk,bel i,mobil,sebesa. aya,sudah,pakai,molis,s ejak,tahun,jangan,sokan,a nda,paling,paham,saya,ko reksi,bukan,keberadaan,k endaraan,listrik,subsidiny a,menyentuh,angka,perun it,pikir,negara,kita,sekaya ,apa,sampai,subsidi,orang ,untuk,beli,mobil,sebesa. Stopword Removal Stopwords adalah kata-kata umum seperti AudiAy. AukeAy, dan AuyangAy yang sering muncul dalam teks, namun memiliki nilai informasi yang rendah sehingga sering dianggap sebagai noise (Sarica dan Luo, 2. Dalam penelitian ini, penghapusan stopwords dilakukan menggunakan library NLTK, dengan daftar stopwords bahasa Indonesia dari stopwords yang kemudian diperluas dengan kata-kata tidak baku dan slang umum di media sosial seperti AugakAy. AuajaAy, dan AuwkwkAy agar lebih sesuai dengan konteks percakapan di Twitter. Tabel 6. Hasil Stopword Removal Sebelum Sesudah . ak,jakarta,macet,bahka n,hampir,semua,kota,bes ar,macet,krn,kebijakan,p emerintah,salah,seharusn ya,subsidi,diarahkan,unt uk,angkutan,masal,umu m,bukan,untuk,kendaraa n,lcgc,ataupun,kendaraa n,listrik,shg,ongkos,angk utan,umum,jadi,murah,a mp,masyarakat,tertarik, . akarta,macet,kota,mace t,kebijakan,pemerintah,s alah,subsidi,diarahkan,a ngkutan,masal,kendaraa n,lcgc,kendaraan,listrik, ongkos,angkutan,murah, masyarakat,tertarik,men Stemming Stemming adalah proses untuk mengembalikan kata turunan ke bentuk dasarnya dengan menghilangkan imbuhan (Wahyudi et al. , 2. Proses ini penting untuk menyamakan bentuk kata yang memiliki arti serupa, seperti kata AuberlariAy yang akan dikembalikan menjadi AulariAy. Dalam penelitian ini, proses stemming dilakukan menggunakan library Sastrawi, yaitu pustaka Python yang dirancang khusus untuk bahasa Indonesia. Library ini menyediakan algoritma stemming yang mampu mengenali imbuhan awalan, sisipan, dan akhiran pada kata berbahasa Indonesia. Stemming diterapkan StemmerFactory, kemudian diterapkan ke setiap kata yang telah melewati tahap stopword removal menggunakan fungsi apply dari library swifter untuk mempercepat pemrosesan. Tabel 7. Hasil Stemming Sebelum . iliran, subsidi, kendaraan, listrik. Sesudah gilir subsidi kendara listrik duit Klasifikasi Sentimen menggunakan InSet lexicon Indonesia Sentiment (InSe. lexicon merupakan leksikon yang berisi kumpulan kata dalam bahasa Indonesia beserta bobot sentimennya. Bobot sentimen berkisar antara -5 . angat negati. hingga 5 . angat positi. Sistem akan menghitung total bobot sentimen dari semua kata dalam sebuah twit untuk menentukan apakah twit tersebut bermuatan positif, negatif, atau netral. Berikut algoritma dari penentuan sentimen setiap twit, . Jika skor sentimen > 0: Positif . Jika skor sentimen < 0: Negatif . Jika skor sentimen = 0: Netral Klasifikasi sentimen suatu twit ditentukan oleh total polarity score. Jika polarity score lebih besar dari nol, maka twit diklasifikasikan sebagai positif. Sebaliknya, jika kurang dari nol, maka negatif. Twit dengan polarity score nol dianggap netral. Pelabelan sentimen menggunakan InSet lexicon menghasilkan klasifikasi sentiment Tabel 8. Klasifikasi Sentimen Menggunakan InSet lexicon Klasifikasi Jumlah Positif Netral Negatif Pelabelan sentimen menggunakan InSet lexicon menghasilkan jumlah klasifikasi sebagai berikut, klasifikasi sentimen positif sebanyak 1. 039, netral sebanyak 768, dan negatif paling banyak 1. 826 twit. Sentimen negatif jumlahnya paling banyak dibandingkan dengan sentimen lainnya. 1308 Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK). Vol. No. Desember 2025, hlm. Machine Translation Hasil crawling data twitter merupakan twit berbahasa Indonesia sehingga perlu dilakukan proses alih bahasa ke dalam Bahasa Inggris untuk selanjutnya dapat dilakukan proses perlabelan sentimen menggunakan Vader lexicon. Tabel 9. Hasil Machine Translation Sebelum subsidi bbm berhasil dialihkan kendaraan listrik oligarki juga untung dari subsidi harusnya dinikmati Sesudah Fuel subsidies have been successfully diverted to electric vehicles by oligarchs and the profits from subsidies should be enjoyed by the people Klasifikasi Sentimen menggunakan Vader lexicon Valence Aware Dictionary and Sentiment Reasoner (Vade. merupakan metode yang memungkinkan klasifikasi sentimen informasi teks ke dalam kategori negatif, positif, dan netral. Proses klasifikasi dilakukan dengan memberikan nilai pada setiap kata dalam teks, nilai ini didasarkan pada angka yang telah dihasilkan oleh Hutto dan Gilbert melalui penelitian yang melibatkan manusia sebagai penilai. Vader lexicon dipilih karena setiap nilai kata dalam teks berasal dari penilaian manusia, bahkan kemampuan Vader dapat menangkap makna tersirat dari tanda baca yang digunakan dalam teks. Tabel 10. Klasifikasi Sentimen Menggunakan Vader lexicon Klasifikasi Jumlah Positif Netral Negatif Word2Vec Word2Vec direkomendasikan oleh Mikolov. Corrado. Chen, & Dean (Deolika et al. , 2. Proses pelatihan Word2Vec membantu membuat sistem mempelajari representasi vektor kata-kata dengan menggunakan kerangka jaringan saraf. Proses awal selama perumusan model Word2Vec terdiri dari pengembangan kosakata menggunakan data Selanjutnya, representasi vektor dari kata tersebut dipelajari. TF-IDF Metode Term Frequency-Inverse Document Frequency (TF-IDF) memberikan skor pada setiap kata dalam teks berdasarkan seberapa sering kata tersebut muncul dalam teks serta seberapa besar kemungkinan kata tersebut muncul dalam teks yang termasuk dalam kategori lain. Ini berarti bahwa, terlepas dari klasifikasinya, kata-kata yang sering muncul dalam teks diberi skor yang lebih rendah. Vektor fitur ini sekarang dapat digunakan untuk melatih berbagai model klasifikasi. TF adalah singkatan dari Term Frequency dan IDF adalah singkatan dari Inverse Document Frequency. Vectorizer TF-IDF adalah singkatan dari term frequency (TF) inverse document frequency (IDF) (Septiani dan Isabela, 2. Support Vector Machine (SVM) SVM merupakan algoritma machine learning untuk klasifikasi data dengan mencari hyperplane optimal guna memisahkan satu kelas dengan kelas lainnya berdasarkan jarak antarkelas atau batasan Misalnya, hyperplane pada SVM mampu memisahkan dua kelas pada SVM linier dan beberapa kelas pada SVM non-linier (Aini et al. , 2. Prinsip dasar SVM adalah linear classifier, sehingga SVM dapat mengklasifikasikan data yang dipisahkan secara linier. Namun. SVM juga dikembangkan untuk non-linier menerapkan konsep kernel trick pada ruang fitur berdimensi lebih tinggi. Kelebihan metode ini adalah kecepatan, efektivitas dalam permasalahan klasifikasi teks, dan kemampuannya dalam menangani data berukuran relatif kecil. Pada tahapan klasifikasi, data yang telah melalui proses pelabelan dan preprocessing kemudian dibagi menjadi dua kelompok, yaitu data latih dan data uji. Pembagian ini dilakukan dengan rasio 60:40, di mana 60% data digunakan sebagai data latih . raining dat. untuk membentuk model klasifikasi, sedangkan 40% sisanya digunakan sebagai data uji . esting dat. untuk mengevaluasi kinerja model. Proses ini bertujuan untuk mengukur seberapa baik model SVM yang dibangun mampu menggeneralisasi pola dari data baru yang belum pernah dilatih sebelumnya. Evaluasi Performa Pada proses evaluasi performa menggunakan confusion matrix. Confusion matrix merupakan tabel yang digunakan untuk menggambarkan kinerja model klasifikasi dengan menunjukkan jumlah prediksi yang benar dan salah berdasarkan kategori aktual dan prediksi model (Ali et al. , 2. Matriks ini terdiri dari empat komponen utama, yaitu: ue True Positive (TP), yaitu kondisi ketika label benar dan berhasil diprediksi dengan tepat, ue False Positive (FP), ketika label sebenarnya tidak termasuk dalam kelas tertentu namun diprediksi sebagai positif, ue True Negative (TN), ketika label tidak termasuk dalam kelas tertentu dan diprediksi secara tepat, ue serta False Negative (FN), yaitu kondisi ketika label seharusnya termasuk dalam kelas tertentu, tetapi diprediksi sebagai negatif. Penggunaan confusion matrix memungkinkan evaluasi kinerja model secara lebih terperinci melalui empat metrik utama, yaitu presisi, recall. F1-score, dan akurasi. Presisi dihitung berdasarkan Persamaan . , recall pada Persamaan . F1-score pada Persamaan . , dan akurasi pada Persamaan . Keempat metrik ini digunakan untuk menilai Pratiwi, dkk. Analisis Sentimen TerhadapA 1309 mengklasifikasikan data, khususnya pada kondisi distribusi kelas yang tidak seimbang. ycNycE ycyycyceycaycnycycnycuycu = ycNycE yaycE ycNycE ycyceycaycaycoyco = ycNycE yaycA yce Oe ycoyceycaycycycyce = 2yycyceycaycaycoycoyycyycyceycaycnycycnycuycu ycyceycaycaycoyco ycyycyceycaycnycycnycuycu ycNycE ycNycA ycaycaycaycycycaycayc = ycNycE yaycE ycNycA yaycA Visualisasi Wordcloud Wordcloud merupakan sebuah sistem yang memunculkan susunan kata sebagai citra visual terkait frekuensi kemunculan kata dalam suatu teks McNaught dan Lam berpendapat bahwa representasi visual menggunakan wordcloud dari sebuah teks dapat membantu pengamat dalam memahami ide dan pandangan penulis, sehingga menjadi alat bantu penting dalam menganalisis wacana tertulis (Qeis, 2. Gambar 2. Tampilan Hasil Visualisasi Wordcloud Tabel 11. Sepuluh kata yang paling sering muncul dan Kata Jumlah Pemerintah Mobil BBM Motor Orang Rakyat Pribadi Beli Transportasi Pembelian HASIL DAN PEMBAHASAN Penelitian ini menggunakan leksikon sebagai klasifikasi sentimen data twitter. Klasifikasi sentimen menggunakan dua jenis leksikon yaitu InSet dan Vader, hasil sentimen dapat dilihat pada Tabel 12 Tabel 12. Klasifikasi sentimen menggunakan InSet dan Vader Sentimen InSet lexicon Vader lexicon Positif Netral Negatif Hasil analisis sentimen menunjukkan adanya perbedaan distribusi sentimen yang signifikan antara penggunaan InSet lexicon dan Vader lexicon. Berdasarkan hasil pelabelan. InSet lexicon menghasilkan sentimen negatif sebanyak 1. sentimen positif sebanyak 1. 039, dan sentimen netral Sementara itu. Vader lexicon mengidentifikasi lebih banyak sentimen positif yaitu 758, diikuti oleh 1. 002 sentimen negatif, dan 873 sentimen netral. Perbedaan ini mencerminkan karakteristik masing-masing leksikon dalam mengklasifikasikan opini publik. InSet lexicon cenderung lebih sensitif terhadap kata-kata bernuansa negatif, sehingga menghasilkan jumlah sentimen negatif yang lebih Sebaliknya. Vader lexicon menunjukkan kecenderungan untuk mengidentifikasi lebih banyak opini sebagai sentimen positif. Hal ini memberikan gambaran bahwa pemilihan leksikon dapat memengaruhi arah dan intensitas hasil analisis Selanjutnya, klasifikasi, dilakukan pengujian menggunakan algoritma SVM dengan dua pendekatan representasi fitur, yaitu Word2Vec dan TF-IDF. Evaluasi dilakukan menggunakan metrik precision, recall. F1score, dan akurasi yang dihitung berdasarkan confusion matrix. Pada Word2Vec, menggunakan InSet lexicon menunjukkan akurasi sebesar 71%, dengan nilai F1-score tertinggi pada kelas negatif sebesar 0,81. Sementara itu, klasifikasi menggunakan Vader lexicon menunjukkan akurasi sebesar 65%, dengan nilai F1-score tertinggi pada kelas positif sebesar 0,73. Hal ini menunjukkan bahwa meskipun Vader lebih kuat dalam mengidentifikasi opini positif, secara keseluruhan model dengan InSet lexicon menghasilkan akurasi dan F1-score yang lebih seimbang. Pengujian dengan model TF-IDF menghasilkan hasil yang relatif konsisten. InSet lexicon tetap menghasilkan akurasi sebesar 71%, sedangkan Vader lexicon menghasilkan akurasi sebesar 64%. Pola distribusi F1-score menunjukkan bahwa InSet lexicon tetap unggul pada kategori negatif, sementara Vader lexicon memiliki keunggulan pada kategori positif, khususnya dalam hal recall. Berdasarkan hasil tersebut, dapat disimpulkan bahwa masing-masing leksikon memiliki keunggulan dalam mengklasifikasikan jenis sentimen tertentu. Pemilihan leksikon yang tepat bergantung pada konteks dan tujuan analisis yang dilakukan. Dalam konteks kebijakan publik, keberimbangan antara deteksi sentimen positif dan negatif menjadi penting untuk memberikan gambaran menyeluruh terhadap opini masyarakat. Oleh karena itu, hasil penelitian ini menegaskan bahwa pemilihan leksikon dan pendekatan fitur memiliki pengaruh besar terhadap kualitas klasifikasi dalam analisis sentimen berbasis media sosial. Penggunaan leksikon yang berbeda antara InSet dan Vader lexicon ternyata memengaruhi nilai precision, recall. F1-score, dan akurasi dari metode SVM. Selanjutnya untuk dapat mengetahui 1310 Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK). Vol. No. Desember 2025, hlm. nilai-nilai evaluasi metrik di atas, akan dilakukan perhitungan yang berasal dari hasil confuscion Tabel 13 menyajikan tabulasi confusion matrix hasil klasifikasi menggunakan InSet lexicon dengan pendekatan topic modeling berbasis Word2Vec. Tabel 13. Tabulasi confusion matrix InSet dengan model Word2Vec Prediction Actual Negativ Neutra Positiv Negativ Neutral Positive Penerapan rumus perhitungan sentimen positif, ycyycyceycaycnycycnycuycu = 222 . = 0,78 . ycyceycaycaycoyco = 222 . = 0,55 yce Oe ycoyceycaycycycyce = 2y0,55y0,78 0,55 0,78 = 0,64 . ycaycaycaycycycaycayc = 222 122 684 35 19 . = 0,707 . Perhitungan yang sama digunakan untuk sentimen Selanjutnya. Tabel 14 merupakan tabulasi hasil confusion matrix Vader lexicon dengan topic modeling Word2Vec. Tabel 14. Tabulasi confusion matrix Vader dengan model Word2Vec Prediction Actual Negative Neutral Positive Negative Neutral Positive Tabel 15 merupakan perbandingan nilai metrik evaluasi untuk InSet dan Vader lexicon dengan topic modeling Word2vec. Tabel 15. Evaluasi metrik leksikon Inset dan Vader menggunakan Word2vec dan SVM InSet lexicon Vader lexicon Metric Neg Neut Pos Neg Neut Pos Precision 0,72 0,55 0,78 0,75 0,59 0,66 Recall 0,93 0,39 0,55 0,32 0,65 0,82 f1-score 0,81 0,55 0,64 0,45 0,62 0,73 Accuracy 0,71 0,65 berdasarkan evaluasi metrik yang ditampilkan pada Tabel 15. InSet lexicon cenderung memiliki nilai precision yang lebih tinggi, terutama pada sentimen Ini menunjukkan bahwa model yang InSet mengklasifikasikan data positif sebagai kelas lain. Nilai recall Vader lexicon cenderung memiliki nilai yang lebih tinggi, terutama pada kelas negatif. Ini menunjukkan bahwa model yang menggunakan Vader lexicon lebih baik dalam mengidentifikasi data Berikutnya nilai F1-score memberikan gambaran yang lebih seimbang antara precision dan Hasilnya menunjukkan bahwa kedua leksikon memiliki kelebihan dan kekurangan pada kelas yang Secara keseluruhan. InSet lexicon memiliki akurasi yang lebih tinggi dibandingkan Vader Perbandingan dilakukan juga untuk model yang digunakan, untuk analisis selanjutnya menggunakan TF-IDF. Tabel 16. Tabulasi confusion matrix InSet dengan model TF-IDF Prediction Actual Negative Neutral Positive Negative Neutral Positive Langkah berikutnya adalah membandingkan performa InSet dan Vader lexicon dengan model TFIDF, untuk rumus perhitungan masih sama seperti proses sebelumnya. Kemudian secara tabulasi sebagai berikut. Tabel 17. Tabulasi confusion matrix Vader lexicon dengan model TF-IDF Prediction Actual Negative Neutral Positive Negative Neutral Positive Perbandingan nilai evaluasi metrik antara InSet lexicon dan Vader lexicon dengan pendekatan topic modeling berbasis TF-IDF disajikan pada Tabel 18. Tabel 18. Klasifikasi SVM Inset dan Vader lexicon dengan model TF-IDF InSet lexicon Vader lexicon Metric Neg Neut Pos Neg Neut Pos Precision 0,72 0,55 0,78 0,75 0,59 0,66 Recall 0,93 0,39 0,55 0,32 0,65 0,82 f1-score 0,81 0,55 0,64 0,45 0,62 0,73 Accuracy 0,71 0,65 Berdasarkan hasil evaluasi. InSet lexicon memiliki nilai precision yang lebih tinggi pada kelas positif, yang menunjukkan bahwa model mampu mengklasifikasikan data positif dengan tingkat ketepatan yang baik. Namun demikian, nilai recall pada kelas netral tergolong rendah, mengindikasikan bahwa model kurang optimal dalam mengenali seluruh data yang sebenarnya termasuk dalam kategori netral. Sebaliknya. Vader lexicon menunjukkan performa recall yang lebih tinggi pada kelas positif, yang berarti lebih baik dalam menangkap seluruh opini positif. Meski demikian, nilai precision pada kelas negatif tergolong rendah, yang menunjukkan bahwa model lebih sering salah mengklasifikasikan data negatif ke dalam kategori Pratiwi, dkk. Analisis Sentimen TerhadapA 1311 Secara umum. InSet lexicon menghasilkan akurasi yang lebih tinggi dibandingkan dengan Vader lexicon, baik pada pendekatan Word2Vec maupun TF-IDF. Namun, pembahasan sejauh ini masih bersifat kuantitatif dan belum mengevaluasi secara faktor-faktor memengaruhi hasil klasifikasi tersebut. Salah satu ketidakseimbangan data . mbalanced dat. yang dihasilkan dari proses pelabelan otomatis. Berdasarkan distribusi sentimen yang diperoleh, terlihat bahwa InSet lexicon menghasilkan proporsi data negatif yang jauh lebih besar, sedangkan Vader lexicon menghasilkan lebih banyak data positif. Ketidakseimbangan ini dapat memengaruhi performa model klasifikasi, khususnya dalam metrik recall dan F1-score pada kelas minoritas. Selain itu, perlu dicermati bahwa penggunaan pelabelan otomatis berdasarkan leksikon belum divalidasi menggunakan label manual . round trut. sebagai pembanding. Tidak adanya data acuan yang dilabeli secara manual membatasi kemampuan untuk menilai akurasi dari proses pelabelan itu sendiri. Hal ini juga berdampak pada validitas hasil klasifikasi yang dibangun di atas data pelabelan tersebut. Oleh karena itu, ke depan diperlukan tahapan validasi atau evaluasi kualitatif terhadap hasil pelabelan, baik melalui anotasi manual sebagian data maupun pengujian antar-leksikon dalam domain tertentu, agar hasil klasifikasi dapat diinterpretasikan secara lebih akurat dan aplikatif. KESIMPULAN Berdasarkan hasil penelitian, diketahui bahwa pelabelan sentimen menggunakan InSet lexicon menghasilkan distribusi sentimen negatif yang lebih dominan dengan akurasi klasifikasi sebesar 71%. Vader mengklasifikasikan lebih banyak sentimen positif dengan akurasi 64%. Hasil ini menunjukkan bahwa pemilihan leksikon memiliki pengaruh signifikan terhadap distribusi sentimen dan performa klasifikasi. Penelitian ini juga menunjukkan bahwa kombinasi Support Vector Machine dengan representasi fitur TF-IDF dan Word2Vec mampu mengidentifikasi opini publik dari data media sosial secara cukup Untuk pengembangan selanjutnya, disarankan dilakukan validasi pelabelan otomatis menggunakan data berlabel manual untuk mengukur akurasi anotasi secara objektif. Selain itu, pengembangan leksikon berbasis domain kebijakan publik perlu dilakukan agar kosakata seperti AusubsidiAy. AuemisiAy, dan AuinsentifAy dapat dikenali secara lebih baik. Penelitian mendatang juga dapat mengeksplorasi pendekatan deep learning seperti BERT atau Bi-LSTM yang mampu menangkap konteks kalimat secara lebih kompleks, serta menerapkan teknik penanganan data tidak seimbang agar prediksi terhadap seluruh kelas sentimen menjadi lebih seimbang dan adil. Dengan pendekatan yang lebih mendalam tersebut, analisis sentimen terhadap opini masyarakat di media sosial diharapkan dapat semakin akurat dan aplikatif dalam mendukung perumusan kebijakan publik berbasis Terdapat sepuluh kata kunci yang sering muncul pada respon dan opini masyarakat terhadap kebijakan subsidi pembelian kendaraan bertenaga listrik di Indonesia berdasarkan media sosial Twitter, sebagaimana ditampilkan dalam Tabel 19. Sepuluh kata tersebut antara lain: AupemerintahAy. AumobilAy. AuBBMAy. AumotorAy. AuorangAy. AurakyatAy. AupribadiAy. AubeliAy. AutransportasiAy, dan AupembelianAy. Hasil visualisasi wordcloud memperlihatkan bahwa kata AupemerintahAy memiliki frekuensi tertinggi, yang menunjukkan bahwa masyarakat memusatkan perhatian pada peran pemerintah sebagai pelaksana kebijakan subsidi. Jika dikaitkan dengan hasil analisis sentimen, kata AupemerintahAy sering muncul dalam kalimat yang mengandung kritik atau harapan, sehingga konteksnya bisa bersifat negatif maupun positif tergantung pada penggunaan kata-kata di sekitarnya. Namun, secara leksikal dalam InSet lexicon, kata AupemerintahAy dikategorikan sebagai kata netral karena tidak memiliki skor sentimen langsung. Hal yang sama berlaku untuk kata-kata lain seperti AusubsidiAy. AuBBMAy. AutransportasiAy, dan AupembelianAy, yang secara mandiri bersifat netral dalam leksikon, tetapi dapat berkontribusi terhadap arah sentimen tergantung konteks kalimat. Misalnya, kata AumobilAy atau AupribadiAy bisa muncul dalam twit bernada negatif apabila dikaitkan dengan anggapan bahwa subsidi hanya menguntungkan pemilik kendaraan pribadi. Sebaliknya, kata AubeliAy atau AurakyatAy dapat muncul dalam sentimen positif apabila dibicarakan dalam konteks kemudahan akses masyarakat terhadap kendaraan listrik. Dengan demikian, wordcloud tidak hanya berfungsi sebagai alat visualisasi frekuensi kata, tetapi juga sebagai penunjang interpretasi kualitatif terhadap arah opini publik yang diklasifikasikan melalui analisis Interpretasi ini memperkuat pemahaman bahwa sentimen tidak dapat ditentukan hanya berdasarkan satu kata kunci, tetapi sangat bergantung pada struktur kalimat dan konteks penggunaan. Tabel 19. Sepuluh kata yang paling sering muncul dan Kata Jumlah Pemerintah Mobil BBM Motor Orang Rakyat Pribadi Beli Transportasi Pembelian 1312 Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK). Vol. No. Desember 2025, hlm. DAFTAR PUSTAKA