Institut Riset dan Publikasi Indonesia (IRPI) MALCOM: Indonesian Journal of Machine Learning and Computer Science Journal Homepage: https://journal. id/index. php/malcom Vol. 5 Iss. 3 July 2025, pp: 1037-1048 ISSN(P): 2797-2313 | ISSN(E): 2775-8575 Sentiment Analysis of Coretax: A Comparison of Manual. TransformersBased, and Lexicon-Based Data Labeling on IndoBERT Performance Analisis Sentimen Coretax: Perbandingan Pelabelan Data Manual. Transformers-Based, dan Lexicon-Based pada Performa IndoBERT Agnia Suci Rizkia1*. Wufron2. Fikri Fahru Roji3 Program Studi Bisnis Digital. Fakultas Ekonomi. Universitas Garut. Jawa Barat. Indonesia Program Studi Manajemen. Fakultas Ekonomi. Universitas Garut. Jawa Barat. Indonesia E-Mail: 1agniasucirizkia822@gmail. com, 2wufron@uniga. id, 3fikri@uniga. Received Jun 2nd 2025. Revised Jul 12th 2025. Accepted Jul 21th 2025. Available Online Jul 31th 2025. Published Aug 15th 2025 Corresponding Author: Agnia Suci Rizkia Copyright A 2025 by Authors. Published by Institut Riset dan Publikasi Indonesia (IRPI) Abstract Sentiment analysis of public opinion on social media presents significant challenges due to informal language and large data volume. This study aims to evaluate the impact of five labeling approaches manual. IndoBERT . IndoBERT weet. RoBERTa , and InSet Lexicon on the performance of the Indonesian Bidirectional Encoder Representations from Transformers (IndoBERT) model in classifying sentiments related to the Coretax issue. A total of 8. 035 tweets were collected, processed, and labeled using each method. The labeled datasets were then used to retrain the IndoBERT model and evaluated using accuracy. F1-Score, confusion matrix, and Receiver Operating Characteristic-Area Under the Curve (ROC-AUC) curve. Results show that Indonesian Bidirectional Encoder Representations from Transformers for Tweet (IndoBERTwee. achieved the highest metric performance F1-Score . but suffered from a strong dominance of the neutral class, indicating a potential model bias towards that class or significant data imbalance. Manual labeling produced a more balanced class distribution despite lower performance F1-Score . , while Robustly Optimized BERT Pretraining Approach (RoBERT. demonstrated the best balance between metric performance and label distribution. In contrast. InSet Lexicon and IndoBERT tended to overpredict specific sentiment classes. The study concludes that labeling effectiveness should not be assessed solely by metric scores, but also by the fairness and balance of class distribution to produce reliable and generalizable models. Keyword: Coretax. Data Labeling. Indobert. Sentiment Analysis. Transformers Abstrak Analisis sentimen terhadap opini publik di media sosial menjadi tantangan signifikan karena kompleksitas bahasa informal dan volume data yang besar. Penelitian ini bertujuan untuk mengevaluasi pengaruh lima pendekatan pelabelan data manual. IndoBERT . IndoBERT weet. RoBERTa , dan InSet Lexicon terhadap performa model Indonesian Bidirectional Encoder Representations from Transformers (IndoBERT) dalam klasifikasi sentimen terkait isu Coretax. Sebanyak 8. 035 tweet dikumpulkan, diproses, dan dilabeli menggunakan masing-masing pendekatan. Dataset hasil pelabelan kemudian digunakan untuk melatih ulang model IndoBERT, yang dievaluasi menggunakan metrik akurasi. F1score, confusion matrix, dan kurva Receiver Operating Characteristic-Area Under the Curve (ROC-AUC). Hasil menunjukkan bahwa pelabelan otomatis menggunakan Indonesian Bidirectional Encoder Representations from Transformers for Tweet (IndoBERTwee. menghasilkan metrik tertinggi F1-Score . ,9. , tetapi mengalami dominasi kelas netral yang menunjukkan overfitting. Pelabelan manual menghasilkan distribusi kelas yang lebih merata meskipun dengan metrik lebih rendah F1-Score . ,8. , sedangkan Robustly Optimized BERT Pretraining Approach (RoBERT. menunjukkan keseimbangan terbaik antara performa metrik dan distribusi label. InSet Lexicon dan IndoBERT menunjukkan kecenderungan bias terhadap kelas tertentu. Simpulan dari penelitian ini menegaskan bahwa efektivitas pelabelan tidak hanya ditentukan oleh skor metrik, tetapi juga oleh distribusi kelas yang seimbang untuk menghasilkan model yang adil dan dapat digeneralisasi. Kata Kunci: Analisis Sentiment. Coretax. Indobert. Pelabelan Data. Transformer DOI: https://doi. org/10. 57152/malcom. MALCOM-05. : 1037-1048 PENDAHULUAN Perkembangan teknologi digital telah mendorong perubahan besar dalam cara masyarakat berpartisipasi serta berinteraksi dalam diskusi kebijakan publik . , . Media sosial, sebagai salah satu manifestasi utama dari transformasi ini, telah menjadi arena terbuka bagi masyarakat untuk menyampaikan opini secara langsung dan spontan. Di Indonesia, salah satu kebijakan yang menuai perhatian besar adalah Coretax, sebuah sistem administrasi perpajakan terintegrasi yang dirancang untuk meningkatkan efisiensi, transparansi, dan kepatuhan wajib pajak . , . , . , . , . , . Sejak wacana peluncurannya. Coretax telah menjadi topik perbincangan luas di berbagai platform media sosial, khususnya Twitter/X, yang dikenal dengan dinamika opini publiknya yang tinggi dan kemampuannya merekam beragam tanggapan, mulai dari apresiasi hingga kritik tajam . Karakteristik unik dari komunikasi di media sosial, seperti penggunaan bahasa informal, slang, sarkasme, dan singkatan, menjadi tantangan tersendiri dalam upaya memahami sentimen publik secara akurat . Untuk mengatasi tantangan ini, analisis sentimenAisebuah metode komputasional untuk mengidentifikasi dan mengkategorikan opini yang diekspresikan dalam teksAitelah menjadi pendekatan yang populer . Salah satu tahapan paling krusial dan fundamental dalam analisis sentimen adalah pelabelan data, yaitu proses pemberian label sentimen . isalnya, positif, negatif, atau netra. pada data teks yang akan digunakan untuk melatih model klasifikasi . Secara tradisional, pelabelan data dilakukan secara manual oleh anotator manusia. Metode ini dianggap sebagai standar emas . old standar. karena kemampuannya dalam memahami konteks, nuansa, dan sarkasme yang seringkali sulit ditangkap oleh mesin. Namun, pelabelan manual membutuhkan sumber daya yang besar, baik dari segi waktu maupun biaya, sehingga menjadi tidak praktis untuk dataset berskala besar yang umum dijumpai dalam analisis media sosial . , . Sebagai alternatif, berbagai metode pelabelan otomatis telah dikembangkan. Salah satu pendekatan yang populer adalah metode berbasis leksikon . exicon-base. , yang menggunakan kamus kata-kata dengan skor polaritas sentimen yang telah ditentukan sebelumnya. Di Indonesia. InSet Lexicon adalah salah satu sumber daya leksikon yang sering digunakan dan terbukti cukup efektif untuk tugas-tugas analisis sentimen dasar . , . Meskipun mudah diimplementasikan, pendekatan ini memiliki keterbatasan dalam menangani kata-kata yang maknanya bergantung pada konteks kalimat. Dalam beberapa tahun terakhir, model berbasis transformer, seperti Bidirectional Encoder Representations from Transformers (BERT), telah merevolusi bidang Natural Language Processing (NLP) dengan menunjukkan performa canggih dalam memahami konteks bahasa. Untuk Bahasa Indonesia, model seperti IndoBERT dan IndoBERT weet telah dikembangkan secara khusus dan menunjukkan keunggulan dalam berbagai tugas, termasuk analisis sentimen pada teks media sosial yang kompleks . , . , . Model lain seperti Robustly Optimized BERT Pretraining Approach (RoBERT. juga telah menunjukkan performa yang kuat dalam berbagai bahasa dan domain . Kemampuan model-model ini untuk melakukan pelabelan zero-shot . elabeli data tanpa pelatihan spesifik pada domain targe. menawarkan solusi yang efisien dan canggih. Meskipun berbagai penelitian telah membandingkan metode pelabelan manual dengan otomatis . , atau membandingkan berbagai algoritma klasifikasi . , perbandingan yang komprehensif antara efektivitas pelabelan manual, berbasis leksikon, dan berbagai model transformer (IndoBERT . IndoBERTweet. RoBERT. dalam satu kerangka penelitian yang sama untuk konteks kebijakan publik di Indonesia masih sangat terbatas. Kesenjangan ini menjadi krusial karena pilihan metode pelabelan secara langsung mempengaruhi kualitas dataset pelatihan, yang pada gilirannya akan menentukan performa, keadilan . , dan kemampuan generalisasi dari model sentimen yang dihasilkan. Tanpa pemahaman yang jelas mengenai kelebihan dan kekurangan masing-masing pendekatan pada domain spesifik seperti opini kebijakan publik, praktisi dan peneliti berisiko memilih metode yang kurang optimal, yang dapat mengarah pada kesimpulan yang bias atau tidak akurat mengenai sentimen publik. Oleh karena itu, penelitian ini bertujuan untuk mengisi kesenjangan tersebut dengan mengevaluasi dan membandingkan secara sistematis lima pendekatan pelabelan data sentimen yang berbeda terkait isu Coretax. Kelima pendekatan tersebut adalah pelabelan manual, pelabelan berbasis leksikon menggunakan InSet Lexicon, serta pelabelan zero-shot menggunakan tiga model transformer: IndoBERT . IndoBERTweet, dan RoBERTa . Dataset yang dihasilkan dari masing-masing pendekatan pelabelan ini kemudian digunakan untuk melatih ulang . ine-tunin. model IndoBERT yang sama. Performa model dievaluasi secara komprehensif menggunakan metrik akurasi. F1-score, confusion matrix, dan kurva ROC-AUC. Penelitian ini diharapkan dapat memberikan wawasan mendalam mengenai strategi pelabelan data yang paling efektif dan efisien untuk menganalisis opini publik berbahasa Indonesia di media sosial, khususnya dalam konteks isu kebijakan nasional yang dinamis. METODE PENELITIAN Penelitian ini mengadopsi pendekatan eksperimental untuk membandingkan dampak berbagai strategi pelabelan data terhadap performa model analisis sentimen IndoBERT dalam konteks opini publik mengenai Analisis Sentimen Coretax: Perbandingan Pelabelan Data. (Rizkia et al, 2. ISSN(P): 2797-2313 | ISSN(E): 2775-8575 Coretax. Fokus utama adalah pada klasifikasi sentimen ke dalam tiga kategori: positif, negatif, dan netral. Metodologi penelitian ini dirancang untuk secara sistematis mengevaluasi bagaimana perbedaan dalam proses pelabelan data memengaruhi kemampuan model IndoBERT dalam mengidentifikasi sentimen pada teks berbahasa Indonesia yang informal dan bervariasi. Tahapan penelitian ini disusun mengikuti alur visual dalam Gambar 1, dengan langkah-langkah utama meliputi pengumpulan data, pra-pemrosesan data, implementasi berbagai metode pelabelan data, fine-tuning model IndoBERT, dan evaluasi komparatif. Gambar 1. Diagram Alur Tahapan Penelitian Pengumpulan dan Pra-pemrosesan Data Data opini publik dikumpulkan dari platform media sosial Twitter/ X, yang dikenal sebagai repositori kaya akan ekspresi sentimen spontan dan real-time terhadap isu-isu kontemporer . Pengambilan data . ata crawlin. dilakukan menggunakan tool Tweet Harvest yang terhubung dengan API Twitter, dengan fokus pada kata kunci "coretax" atau "core_tax" dalam rentang waktu Oktober 2024 hingga Maret 2025. Pembatasan pada tweet berbahasa Indonesia diterapkan untuk memastikan relevansi linguistik. Proses ini 571 tweet yang kemudian disimpan dalam format CSV untuk diproses lebih lanjut. Teknik crawling ini telah terbukti efektif dalam studi serupa pada analisis sentimen isu nasional di media sosial . , . , . serta pada pengambilan data Twitter atribut lengkap melalui API dan tools terkait . , . Preprocessing Data Setelah tahap pengumpulan, dilakukan pemilahan dan pembersihan data, menghasilkan tweet yang memenuhi kriteria untuk analisis lebih lanjut. Pemilahan ini mempertimbangkan relevansi konten, kejelasan bahasa, dan keberhasilan dalam tahap pra-pemrosesan. Tahap preprocessing data bertujuan untuk membersihkan dan menormalisasi teks, menjadikannya siap untuk analisis sentimen. Tahapan yang diterapkan meliputi: Case Folding: Mengubah seluruh teks menjadi huruf kecil untuk menyeragamkan data. Data Cleaning: Menghapus elemen-elemen tidak relevan seperti URL, mention (@usernam. , hashtag (#), tanda baca, emoji, dan spasi berlebih. Duplikasi tweet juga dieliminasi. Normalisasi: Mengganti kata-kata tidak baku atau slang ke bentuk standar Bahasa Indonesia. Proses ini krusial mengingat karakteristik bahasa di media sosial. Penelitian ini tidak menerapkan stemming dan tokenisasi pada tahap pra-pemrosesan, sejalan dengan temuan . yang menunjukkan bahwa model IndoBERT dapat memberikan hasil yang lebih optimal tanpa tahapan tersebut, karena model transformer mampu menangani variasi leksikal secara internal . Dengan MALCOM - Vol. 5 Iss. 3 July 2025, pp: 1037-1048 MALCOM-05. : 1037-1048 melakukan tahapan preprocessing ini, data yang dihasilkan menjadi lebih bersih, terstruktur, dan siap digunakan dalam analisis sentimen yang lebih baik . Pelabelan Data Untuk mengeksplorasi dampak metode pelabelan terhadap performa model, penelitian ini mengimplementasikan lima pendekatan pelabelan data yang berbeda pada dataset Coretax. Setiap pendekatan menghasilkan dataset berlabel yang kemudian akan digunakan secara independen untuk melatih model IndoBERT . Kelima pendekatan tersebut adalah: Pelabelan Manual: Sebanyak 8. 035 dataset dilabeli secara manual oleh anotator manusia yang terlatih. Anotator mengklasifikasikan setiap tweet ke dalam kategori positif, negatif, atau netral berdasarkan pemahaman kontekstual . Proses ini melibatkan pedoman pelabelan yang ketat untuk memastikan konsistensi dan kualitas gold standard. Dataset berlabel manual ini berfungsi sebagai tolak ukur utama untuk memvalidasi akurasi metode otomatis. Pelabelan Berbasis Lexicon (InSet Lexico. : Pendekatan ini memanfaatkan InSet Lexicon, sebuah kamus sentimen berbahasa Indonesia yang telah dikembangkan sebelumnya . Setiap kata dalam teks dicocokkan dengan entri dalam leksikon, dan skor sentimen agregat dihitung untuk setiap tweet . Ambang batas tertentu digunakan untuk mengklasifikasikan tweet sebagai positif, negatif, atau Metode ini cepat dan tidak memerlukan pelatihan, namun memiliki keterbatasan dalam menangani nuansa kontekstual dan ekspresi non-literal . Pelabelan Zero-shot Berbasis Transformer (IndoBERT . IndoBERTweet. RoBERT. : Tiga model transformer yang telah dilatih sebelumnya . re-traine. untuk bahasa Indonesia digunakan dalam mode zero-shot classification . , . , . Ini berarti model model tersebut langsung digunakan untuk memprediksi sentimen tanpa fine-tuning tambahan pada dataset Coretax. Model yang digunakan adalah: IndoBERT : Model BERT yang dilatih pada korpus teks umum berbahasa Indonesia . IndoBERTweet: Varian IndoBERT yang secara khusus dilatih pada data Twitter berbahasa Indonesia, sehingga lebih adaptif terhadap karakteristik bahasa media sosial. RoBERTa : Model Transformer yang dioptimalkan dari BERT, dikenal karena performanya yang kuat dalam berbagai tugas NLP. Meskipun RoBERTa asli dilatih pada bahasa Inggris, terdapat versi yang telah diadaptasi atau dilatih pada bahasa Indonesia yang dapat digunakan untuk tujuan ini . Masing-masing model ini menerima teks tweet sebagai input dan menghasilkan probabilitas untuk setiap kelas sentimen . ositif, negatif, netra. Kelas dengan probabilitas tertinggi kemudian ditetapkan sebagai label sentimen untuk tweet tersebut. Pendekatan zero-shot ini mengevaluasi kemampuan intrinsik model transformer dalam memahami sentimen tanpa paparan data spesifik domain Fine Tuning Model IndoBERT Setelah dataset Coretax dilabeli menggunakan kelima pendekatan di atas, setiap dataset berlabel digunakan secara terpisah untuk melatih ulang . ine-tun. model IndoBERT yang sama. Ini merupakan aspek krusial dari penelitian ini untuk mengisolasi dan membandingkan dampak langsung dari kualitas dan karakteristik pelabelan data terhadap performa model akhir. Model IndoBERT dipilih sebagai model target karena kemampuannya yang telah terbukti dalam memahami konteks linguistik Bahasa Indonesia secara mendalam dan unggul dalam berbagai tugas NLP, termasuk klasifikasi sentimen sosial-politik . , . , . Setiap dataset dibagi menggunakan rasio 80% untuk pelatihan dan 20% untuk pengujian . , . Proses fine-tuning dilakukan pada lingkungan Google Colab, memanfaatkan pustaka Transformers dari Hugging Face . Parameter hyperparameter seperti learning rate, ukuran batch, dan jumlah epoch dioptimalkan untuk setiap dataset untuk memastikan performa terbaik dari model yang dilatih . Evaluasi Model Tahap akhir adalah evaluasi model, evaluasi menyeluruh dilakukan menggunakan dataset uji untuk mengukur kinerjanya . Evaluasi dilakukan dengan menghitung metrik performa standar dalam klasifikasi teks, yaitu: Akurasi Akurasi mengacu pada rasio instansi yang diprediksi dengan benar terhadap jumlah total observasi dalam dataset. Accuracy = ycNycE ycNycA ycNycE ycNycA yaycE yaycA Analisis Sentimen Coretax: Perbandingan Pelabelan Data. (Rizkia et al, 2. ISSN(P): 2797-2313 | ISSN(E): 2775-8575 Dalam evaluasi model klasifikasi. True Positive (TP) adalah instansi positif yang teridentifikasi benar oleh model. True Negative (TN) adalah instansi negatif yang diprediksi benar. Kesalahan terjadi pada False Positive (FP), yaitu instansi negatif yang salah diklasifikasikan sebagai positif, dan False Negative (FN), yaitu instansi positif yang gagal diidentifikasi oleh model. Pemahaman keempat metrik ini penting untuk menilai kinerja model secara komprehensif. Presisi Presisi mengukur proporsi observasi positif yang diprediksi dengan benar terhadap total prediksi Precision = ycNycE ycNycE yaycE Presisi yang tinggi menunjukkan tingkat False Positive (FP) yang lebih rendah, menjadikannya metrik penting untuk kasus di mana False Positives (FP) harus diminimalkan . Recall (Sensitivita. Recall = ycNycE ycNycE yaycA Recall mengacu pada efektivitas model dalam mengambil semua sampel positif aktual dalam data uji. Nilai Recall yang tinggi menunjukkan bahwa model menangkap sebagian besar instansi positif, mengurangi False Negatives (FN) . F1-Score F1-Score menangkap keseimbangan antara presisi dan Recall, menjadikannya indikator komprehensif kinerja klasifikasi. F1-Score = 2ycu PresisiyRecall . Presisi Recall Metrik ini sangat berguna ketika dataset tidak seimbang . Kurva ROC-AUC Dengan memplot True Positive (TP) Rate terhadap False Positive (FP) Rate di berbagai ambang batas, kurva ROC menawarkan wawasan tentang kinerja diskriminatif model. Kurva ROC menunjukkan akurasi dan membandingkan klasifikasi secara visual. ROC adalah grafik dua dimensi dengan false positif sebagai garis horizontal dan true positif sebagai garis vertikal. Pedoman umum untuk mengklasifikasikan keakuratan pengujian menggunakan AUC . TPR = ycNycE ycNycE yaycA FPR = yaycE ycNycA Kurva ROC yang lebih tinggi menunjukkan kinerja model yang lebih baik dalam membedakan antara kelas . TINJAUAN PUSTAKA Analisis sentimen dalam konteks bahasa Indonesia, khususnya pada data media sosial yang informal, menghadapi tantangan signifikan akibat penggunaan bahasa gaul, singkatan, dan sarkasme . Ketersediaan dan kualitas data berlabel menjadi fondasi krusial untuk membangun model analisis sentimen yang efektif . Secara tradisional, pelabelan manual oleh anotator manusia dianggap sebagai standar emas karena kemampuannya menangkap nuansa dan konteks yang kompleks. Namun, metode ini sangat tidak efisien dan memakan biaya serta waktu yang besar untuk dataset berskala besar . , . Alternatifnya, pendekatan berbasis leksikon, seperti InSet Lexicon, menawarkan efisiensi tetapi seringkali gagal memahami ambiguitas dan sarkasme, menghasilkan label yang tidak akurat dan bias . , . Kesenjangan antara akurasi manual dan efisiensi otomatis ini mendorong eksplorasi strategi pelabelan yang lebih canggih, terutama dengan munculnya model bahasa berbasis transformer. Revolusi transformer telah mengubah lanskap Pemrosesan Bahasa Alami (NLP) secara fundamental. Model Bidirectional Encoder Representations from Transformers (BERT) menjadi terobosan karena kemampuannya memahami konteks kata secara dua arah, menghasilkan representasi bahasa yang kaya dan kontekstual . Kemampuan ini telah mendorong kinerja state-of-the-art dalam berbagai tugas NLP, termasuk analisis sentimen. Untuk mengatasi kekhasan linguistik Bahasa Indonesia, model transformer MALCOM - Vol. 5 Iss. 3 July 2025, pp: 1037-1048 MALCOM-05. : 1037-1048 spesifik seperti IndoBERT telah dikembangkan, dilatih pada korpus data lokal yang masif untuk menangkap struktur gramatikal dan semantik yang relevan . Penelitian terbaru secara konsisten menunjukkan bahwa IndoBERT dan variannya, seperti IndoBERTweet yang dioptimalkan untuk media sosial, mencapai kinerja canggih dalam analisis sentimen berbahasa Indonesia, melampaui metode tradisional . , . Model lain seperti RoBERTa juga menunjukkan kinerja kuat dalam berbagai bahasa dan domain . Model-model transformer ini tidak hanya berfungsi sebagai alat, melainkan menjadi subjek utama dalam pengembangan dan perbandingan pendekatan pelabelan data otomatis yang inovatif. Penelitian ini secara khusus mengevaluasi lima pendekatan pelabelan data yang berbeda: pelabelan manual, pelabelan berbasis leksikon, dan tiga metode pelabelan zero-shot yang memanfaatkan kekuatan model transformer (IndoBERT. IndoBERTweet, dan RoBERT. Pelabelan manual menjadi tolak ukur kualitas dan keakuratan kontekstual . , . Pelabelan berbasis leksikon menawarkan kecepatan namun terbatas dalam menangani konteks dan ambiguitas . , . , . Sementara itu, pelabelan zero-shot dengan model transformer menawarkan solusi efisien dan canggih, memanfaatkan pengetahuan pra-pelatihan untuk mengklasifikasikan teks tanpa pelatihan eksplisit pada domain target . Meskipun banyak penelitian telah membandingkan model transformer dengan metode lain . , . , masih terdapat kesenjangan literatur yang signifikan terkait perbandingan sistematis dari berbagai strategi pelabelan dataAikhususnya manual, leksikon, dan berbagai model transformer dalam mode zero-shotAi dalam satu kerangka penelitian yang koheren untuk bahasa Indonesia. Studi yang ada seringkali hanya membandingkan dua metode pelabelan atau berfokus pada performa model akhir tanpa menganalisis secara mendalam bagaimana kualitas dataset yang dilabeli secara berbeda memengaruhi hasil tersebut. Kesenjangan ini sangat penting karena pilihan metode pelabelan secara langsung berdampak pada kualitas, bias, dan keandalan dataset pelatihan, yang pada akhirnya menentukan performa dan kemampuan generalisasi model sentimen . Oleh karena itu, penelitian ini secara eksplisit mengisi kesenjangan ini dengan menyoroti peran krusial dari metode pelabelan data dan dampaknya terhadap hasil analisis sentimen, khususnya dalam konteks bahasa Indonesia dan isu kebijakan publik. Dengan demikian, penelitian ini secara eksplisit bertujuan untuk mengisi kesenjangan tersebut dengan secara sistematis mengevaluasi lima pendekatan pelabelan data yang berbeda pada isu kebijakan publik Coretax. Dengan melatih model IndoBERT yang sama pada dataset yang dihasilkan oleh setiap metode pelabelan, kami dapat mengisolasi dan menganalisis dampak dari strategi pelabelan itu sendiri. Kontribusi penelitian ini terletak pada penyediaan analisis komparatif yang mendalam, tidak hanya pada metrik performa akhir, tetapi juga pada distribusi kelas dan potensi bias yang diperkenalkan oleh setiap metode Wawasan ini diharapkan dapat memberikan panduan praktis bagi para peneliti dan praktisi dalam memilih strategi pelabelan yang paling efektif untuk analisis sentimen pada domain spesifik berbahasa Indonesia. HASIL DAN PEMBAHASAN Pengumpulan Data Penelitian ini mengumpulkan tweet dari Twitter/X dengan kata kunci AucoretaxAy dan Aucore_taxAy pada rentang 1 Oktober 2024 hingga 31 Maret 2025. Rentang ini mencakup masa pra-peluncuran (OktoberNovember 2. , peluncuran dan reaksi awal (Desember 2024 - Januari 2. , evaluasi awal dampak (Februari 2. , serta periode kritis pelaporan SPT Tahunan (Maret 2. Dari proses ini berhasil dikumpulkan sebanyak 8. 571 tweet berbahasa Indonesia. Namun, setelah dilakukan proses pemilahan dan pembersihan data, hanya 8. 035 tweet yang memenuhi kriteria dan digunakan dalam penelitian ini. Pemilahan ini mempertimbangkan aspek relevansi konten, kejelasan bahasa, dan keberhasilan dalam tahap Hasil pengumpulan data dapat dilihat pada Tabel 1. Tabel 1. Hasil Pengumpulan Data Full_Text #KawanPajak Coretax akan segera hadir untuk mempermudah pelayanan pajak! Berbekal sistem yang modern dan terintegrasi Coretax akan memberikan pengalaman baru yang lebih cepat mudah dan efisien dalam menjalankan kewajiban perpajakan. https://t. co/MfoGPvq1Bg Halo #KawanPajak Edukasi Coretax Tahap II telah dibuka. Kelas pajak akan dilaksanakan 2 kali dalam seminggu pada hari Rabu dan Kamis. Buruan daftar jangan sampai ketinggalan. Kelas Pajak ini tidak dipungut biaya. #coretax #taxreform #PajakKitaUntukKita #PajakKuatAPBNSehat https://t. co/cfS5kGITcz A coretax sialan sialan Preprocessing Data Tahapan preprocessing meliputi case folding, pembersihan simbol dan URL . , serta normalisasi bahasa informal . ke dalam bentuk baku. Tabel 2 berikut menyajikan hasil preprocessing. Analisis Sentimen Coretax: Perbandingan Pelabelan Data. (Rizkia et al, 2. ISSN(P): 2797-2313 | ISSN(E): 2775-8575 Tabel 2. Hasil Preprocessing Tahapan Original Text Cleaned Text Lowercased Text Normalized Text Hasil #KawanPajak Coretax akan segera hadir untuk mempermudah pelayanan pajak! Berbekal sistem yang modern dan terintegrasi Coretax akan memberikan pengalaman baru yang lebih cepat mudah dan efisien dalam menjalankan kewajiban perpajakan. https://t. co/MfoGPvq1Bg Coretax akan segera hadir untuk mempermudah pelayanan pajak Berbekal sistem yang modern dan terintegrasi Coretax akan memberikan pengalaman baru yang lebih cepat mudah dan efisien dalam menjalankan kewajiban perpajakan Coretax akan segera hadir untuk mempermudah pelayanan pajak berbekal sistem yang modern dan terintegrasi Coretax akan memberikan pengalaman baru yang lebih cepat mudah dan efisien dalam menjalankan kewajiban perpajakan Coretax akan segera hadir untuk mempermudah pelayanan pajak berbekal sistem yang modern dan terintegrasi Coretax akan memberikan pengalaman baru yang lebih cepat mudah dan efisien dalam menjalankan kewajiban perpajakan Pelabelan Data Setelah tahap preprocessing, data diberi label sentimen menggunakan lima pendekatan berbeda, yaitu pelabelan manual, tiga model berbasis transformer (IndoBERT . IndoBERTweet, dan RoBERT. , serta pendekatan berbasis Lexicon yang menggunakan InSet Lexicon. Tabel 3 berikut menunjukkan distribusi kelas sentimen yang dihasilkan dari setiap metode pelabelan, yang selanjutnya dievaluasi untuk menilai keakuratan dan efektivitas masing-masing pendekatan dalam mengklasifikasikan sentimen data. Tabel 3. Distribusi Kelas Sentimen Metode Pelabelan Manual IndoBERT IndoBERTweet RoBERTa InSet Lexicon Positif Netral Negatif Dari Tabel 3, terlihat bahwa pelabelan manual menghasilkan distribusi yang relatif seimbang antara kelas netral dan negatif, dengan sentimen positif sebagai kelas minoritas. Sebaliknya, model IndoBERT dan IndoBERT weet menunjukkan dominasi kelas netral yang sangat kuat, dengan IndoBERT weet bahkan tidak mengklasifikasikan satu pun tweet sebagai positif. RoBERTa memberikan distribusi yang lebih seimbang dibandingkan dua model transformer lainnya, meskipun masih cenderung pada kelas netral dan negatif. Pendekatan berbasis leksikon (InSet Lexico. menunjukkan bias yang kuat terhadap kelas negatif, yang mengindikasikan sensitivitas tinggi terhadap kata-kata bernuansa negatif dalam kamus yang digunakan. Fine-Tuning dan Evaluasi Model Untuk mengevaluasi dampak metode pelabelan, model IndoBERT dilatih ulang . ine-tune. pada masing-masing dari lima dataset berlabel. Performa model dievaluasi menggunakan metrik akurasi, presisi. Recall, dan F1-score. Tabel 4 merangkum hasil evaluasi performa model IndoBERT pada kelima dataset Tabel 4. Evaluasi Perform Model IndoBERT Dataset Manual IndoBERT IndoBERT weet RoBERTa InSet Lexicon Accuracy Precision Recall F1-Score Training Time Hasil pada Tabel 4 menunjukkan bahwa model yang dilatih pada dataset berlabel IndoBERT weet mencapai metrik performa tertinggi (F1-Score, 0. , diikuti oleh InSet Lexicon . , dan RoBERTa . Model yang dilatih pada dataset berlabel manual menunjukkan performa yang lebih rendah . , sementara model yang dilatih pada dataset berlabel IndoBERT memiliki performa terendah . Namun, metrik performa yang tinggi tidak selalu mencerminkan kualitas model yang baik, terutama jika distribusi kelas sangat tidak seimbang, seperti yang terlihat pada kasus IndoBERTweet. Untuk analisis yang lebih mendalam, confusion matrix dan kurva ROC-AUC digunakan untuk mengevaluasi kemampuan model dalam membedakan antar kelas sentimen. Gambar 2 menyajikan confusion matrix untuk masing-masing model yang dilatih. MALCOM - Vol. 5 Iss. 3 July 2025, pp: 1037-1048 MALCOM-05. : 1037-1048 Gambar 2. Confusion Matrix antar Dataset Confusion matrix menunjukkan bahwa model yang dilatih pada dataset berlabel IndoBERT weet sangat cenderung memprediksi kelas netral, yang mengindikasikan overfitting pada kelas mayoritas. Sebaliknya, model yang dilatih pada dataset berlabel manual dan RoBERTa menunjukkan kemampuan yang lebih baik dalam membedakan antara kelas negatif dan netral, meskipun masih kesulitan dengan kelas positif yang minoritas. Model yang dilatih pada dataset berlabel InSet Lexicon menunjukkan bias yang kuat terhadap kelas negatif, sejalan dengan distribusi label pada Tabel 3. Kurva ROC-AUC pada Gambar 3 memberikan gambaran lebih lanjut tentang kemampuan diskriminatif model. Model yang dilatih pada dataset berlabel RoBERTa menunjukkan nilai AUC yang tinggi dan seimbang di ketiga kelas, mengindikasikan kemampuan generalisasi yang baik. Model yang dilatih pada dataset berlabel manual juga menunjukkan performa yang baik, meskipun sedikit di bawah RoBERTa . Model yang dilatih pada dataset berlabel IndoBERTweet, meskipun memiliki akurasi tinggi, menunjukkan kurva ROC yang kurang ideal karena dominasi kelas netral. Secara keseluruhan, hasil ini menunjukkan bahwa meskipun pelabelan otomatis dengan IndoBERTweet menghasilkan metrik performa tertinggi, model yang dihasilkan sangat tidak seimbang dan cenderung overfit. Pelabelan dengan RoBERTa , di sisi lain, menghasilkan model dengan keseimbangan terbaik antara performa metrik dan kemampuan generalisasi, menjadikannya pendekatan pelabelan otomatis Analisis Sentimen Coretax: Perbandingan Pelabelan Data. (Rizkia et al, 2. ISSN(P): 2797-2313 | ISSN(E): 2775-8575 yang paling menjanjikan dalam penelitian ini. Pelabelan manual, meskipun menghasilkan metrik yang lebih rendah, tetap menjadi gold standard dalam hal distribusi kelas yang realistis dan interpretasi kontekstual. Gambar 3. Kurva ROC Word Cloud Untuk memberikan gambaran visual mengenai karakteristik sentimen, dibuat word cloud menggunakan data pelabelan RoBERTa karena performa dan distribusi kelas yang seimbang. Word cloud ini mewakili opini publik tentang Coretax berdasarkan sentimen netral, positif, dan negatif. Lihat Gambar 4. Gambar 4. Word cloud sentiment Neutral. Positive, dan Negative Visualisasi word cloud dari dataset pelabelan RoBERTa memberikan gambaran komprehensif tentang persepsi publik terhadap Coretax. Pada sentimen Netral, kata-kata dominan seperti "wajib pajak", "coretax", "pajak", "faktur", dan "mohon" menyoroti fokus pada aspek administratif, kewajiban, dan permintaan klarifikasi terkait sistem perpajakan. Sementara itu, sentimen Positif didominasi oleh kata-kata seperti "coretax", "fitur-fitur", "simulator", "terpandu", dan "lebih baik", yang mencerminkan apresiasi terhadap inovasi, kemudahan penggunaan, dan potensi perbaikan sistem. Sebaliknya, sentimen Negatif menampilkan kata-kata seperti "coretax", "tidak", "tapi", "kalau", "bikin", dan "pajak", yang mengindikasikan keluhan, kritik, ketidakpuasan, atau masalah teknis yang dirasakan pengguna. Secara keseluruhan, temuan ini menegaskan bahwa evaluasi performa model tidak cukup hanya berdasarkan metrik agregat, melainkan harus mempertimbangkan distribusi label, keseimbangan klasifikasi, dan konteks penggunaan yang tercermin dalam kata-kata kunci. Meskipun pelabelan manual tetap menjadi tolok ukur kualitas data, pendekatan otomatis seperti RoBERTa menunjukkan potensi besar sebagai solusi efisien dengan hasil yang kompetitif dan stabil, sangat relevan untuk analisis sentimen yang akurat dalam konteks kebijakan dan ekonomi. MALCOM - Vol. 5 Iss. 3 July 2025, pp: 1037-1048 MALCOM-05. : 1037-1048 KESIMPULAN Penelitian ini menunjukkan bahwa metode pelabelan data memiliki pengaruh signifikan terhadap performa model klasifikasi sentimen berbasis IndoBERT dalam menganalisis opini publik terkait implementasi sistem perpajakan Coretax. Pelabelan otomatis menggunakan IndoBERTweet memberikan metrik evaluasi tertinggi, namun distribusi kelas yang sangat tidak seimbang menyebabkan risiko overfitting dan mengurangi kemampuan model mengenali sentimen positif dan negatif secara proporsional. Sebaliknya, pelabelan manual menghasilkan distribusi sentimen yang lebih seimbang dan representatif meskipun metriknya lebih rendah, sedangkan metode RoBERTa menjadi alternatif pelabelan otomatis yang optimal dengan keseimbangan terbaik antara akurasi dan distribusi kelas. Selain itu, analisis sentimen melalui visualisasi word cloud memperlihatkan pola persepsi masyarakat yang beragam, mulai dari permintaan informasi hingga kritik terhadap aspek teknis dan aksesibilitas Coretax. Temuan ini memberikan wawasan tambahan untuk mendukung pengembangan kebijakan dan layanan perpajakan digital. Secara keseluruhan, studi ini menegaskan pentingnya pemilihan metode pelabelan yang tepat guna meningkatkan akurasi analisis sentimen sekaligus memberikan kontribusi pemahaman yang lebih baik mengenai opini publik terhadap Coretax. Implikasi praktis dari penelitian ini adalah bahwa dalam pengembangan sistem analisis sentimen untuk isu-isu kebijakan publik, tidak cukup hanya berfokus pada metrik performa agregat. Keseimbangan distribusi kelas dan kemampuan model untuk menggeneralisasi sentimen di seluruh kategori harus menjadi pertimbangan utama. Pelabelan manual, meskipun memakan waktu, tetap menjadi tolok ukur untuk kualitas data yang seimbang, sementara RoBERTa menawarkan solusi otomatis yang menjanjikan untuk mencapai keseimbangan tersebut. REFERENSI