v4i1.
https://pub.
id/sainsdata Sains Data Jurnal Studi Matematika dan Teknologi ISSN 2986-903X Dampak Pra-pemrosesan Teks pada Akurasi Analisis Sentimen Multi-Aspek Menggunakan IndoBERT Muhammad Akmal Nabil Hibrizi1.
Doni Abdul Fatah.
1,2 Program Studi Sistem Informasi.
Fakultas Teknik.
Universitas Trunojoyo Madura.
Bangkalan.
Indonesia Email: 1220441100068@student.
id, 2 doni.
fatah@trunojoyo.
DOI : https://doi.
org/10.
52620/sainsdata.
ABSTRAK
Ulasan daring mengenai destinasi wisata pantai di Kabupaten Sumenep merupakan sumber data krusial, namun analisisnya terhambat oleh data yang tidak terstruktur, terutama kesalahan ketik .
yang signifikan menurunkan akurasi model.
Penelitian ini berhasil mengatasi tantangan tersebut dengan membangun dan mengevaluasi beberapa skenario model analisis sentimen multi-aspek yang akurat menggunakan IndoBERT.
Untuk memaksimalkan performa, penelitian ini menguji dampak dari dua inovasi utama yaitu sebuah modul koreksi ejaan cerdas yang mengkombinasikan Damerau-Levenshtein Distance dengan N-Gram, serta teknik teks Dengan kerangka kerja Cross-Industry Standard Process for Data Mining (CRISP-DM), penelitian menerapkan alur kerja sistematis mulai dari pra-pemrosesan hingga fine-tuning model.
Hasil evaluasi perbandingan menunjukkan temuan yang menarik, model baseline .
anpa perlakuan pra-pemrosesan lanjuta.
justru mencapai kinerja tertinggi dengan akurasi 96.
Sementara itu, model yang menggunakan koreksi ejaan dan augmentasi teks menunjukkan performa yang sedikit lebih rendah.
Penelitian ini menghasilkan sebuah model yang sangat akurat dari data asli dan memberikan wawasan penting bahwa pada dataset tertentu, peforma model Transformer seperti IndoBERT sudah mampu menangani noise bahasa informal tanpa memerlukan prapemrosesan yang kompleks.
Kata Kunci: Analisis Sentimen Multi-Aspek.
IndoBERT.
Damerau-Levenshtein Distance.
Pra-pemrosesan Teks.
Augmentasi Teks.
This work is licensed under a Creative Commons Attribution 4.
0 International License AAuthor .
PENDAHULUAN Sektor pariwisata merupakan salah satu pilar fundamental dalam perekonomian Indonesia yang memiliki potensi besar untuk mendorong pertumbuhan regional.
Kabupaten Sumenep, yang terletak di ujung timur Pulau Madura, dikenal dengan potensi wisata bahari yang melimpah, khususnya wisata pantai yang menjadi daya tarik utama bagi wisatawan lokal maupun mancanegara.
Di era digital saat ini, di mana lebih dari 78% penduduk Indonesia terhubung dengan internet, proses pengambilan keputusan wisatawan sangat dipengaruhi oleh ulasan daring .
nline review.
yang tersedia di berbagai platform digital seperti Google Maps.
Ulasan-ulasan ini menjadi sumber data yang masif dan krusial (User-Generated Conten.
untuk memahami persepsi publik serta menjadi landasan evaluasi dan pengembangan strategis bagi para pengelola destinasi wisata (AfAoidah et al.
, 2.
Namun, pemanfaatan data ulasan ini dihadapkan pada tantangan yang signifikan.
Data ulasan yang bersifat tidak terstruktur sering kali mengandung bahasa informal, singkatan, bahasa gaul, dan terutama kesalahan ketik .
yang unik untuk konteks Indonesia.
Keberadaan noise kebahasaan ini secara drastis menurunkan akurasi model analisis sentimen otomatis (Rahman et al.
, 2.
, karena model kecerdasan buatan gagal mengenali makna dan sentimen yang terkandung di dalamnya.
Analisis manual untuk mengatasi masalah ini terbukti tidak efisien, memakan waktu, dan rentan terhadap bias.
Untuk mengatasi kompleksitas bahasa tersebut, bidang Natural Language Processing (NLP) telah mengembangkan model berbasis Transformer seperti IndoBERT, yang telah menunjukkan performa superior untuk berbagai tugas pemrosesan teks berbahasa Indonesia, termasuk analisis sentimen di domain pariwisata (Cahyaningtyas et al.
, 2.
(Jayadianti et al.
, 2.
Meskipun demikian, efektivitas model canggih seperti IndoBERT sangat bergantung pada dua faktor utama: kualitas dan kuantitas data pelatihan.
Di sinilah letak celah penelitian .
esearch ga.
yang utama yaitu ketersediaan dataset ulasan wisata yang bersih, berlabel, dan bervolume besar untuk konteks lokal seperti wisata pantai di Sumenep masih sangat terbatas.
Melatih model dengan data yang "kotor" dan terbatas berisiko tinggi menyebabkan overfitting, di mana model hanya mampu v4i1.
https://pub.
id/sainsdata Sains Data Jurnal Studi Matematika dan Teknologi ISSN 2986-903X menghafal data latih dan gagal melakukan generalisasi pada data baru, sehingga menghasilkan analisis yang tidak akurat dan tidak dapat diandalkan (Feng et al.
, 2.
Untuk menjawab permasalahan ganda tersebut, penelitian ini bertujuan untuk meneliti dan mengevaluasi secara empiris dampak dari dua pendekatan pra-pemrosesan cerdas dengan mengintegrasikan model IndoBERT dengan dua pendekatan pra-pemrosesan cerdas.
Pertama, untuk mengatasi masalah kualitas data, penelitian ini mengimplementasikan modul koreksi ejaan yang mengkombinasikan Damerau-Levenshtein Distance untuk mengidentifikasi kandidat kata yang benar dan model N-Gram untuk memvalidasi dan memilih kata yang paling sesuai secara kontekstual (Damerau, 1.
Kombinasi ini terbukti efektif untuk menangani kesalahan ketik yang umum dilakukan manusia, termasuk transposisi karakter.
Kedua, untuk mengatasi keterbatasan kuantitas data, penelitian ini menerapkan teknik augmentasi teks seperti Synonym Replacement dan Back Translation untuk memperbanyak dan memperkaya variasi data pelatihan secara sintetis (Wei & Zou, 2.
Dengan mengintegrasikan kedua metode ini dalam satu alur kerja analisis sentimen multi-aspek.
Dengan mengintegrasikan kedua metode ini dalam satu alur kerja analisis sentimen multi-aspek, penelitian ini akan menguji apakah pendekatan menyeluruh ini mampu membangun sebuah model yang lebih akurat dan tangguh dalam menghadapi data ulasan dunia nyata yang beragam dan tidak terstruktur.
TINJAUAN PUSTAKA
Analisis Sentimen Berbasis Aspek (ABSA) Analisis sentimen level dokumen seringkali gagal menangkap nuansa dalam ulasan yang mengandung sentimen berlawanan terhadap aspek berbeda .
isal: Aupantainya indah, tapi toiletnya kotorA.
ABSA bertujuan mengidentifikasi opini terhadap aspek spesifik ('keindahan', 'fasilitas'), sehingga memberikan wawasan yang lebih mendalam (AfAoidah et al.
, 2.
, dan dapat ditindaklanjuti (Azzahra & Wibowo, 2.
Model Transformer dan IndoBERT Arsitektur Transformer merevolusi NLP dengan mekanisme self-attention yang memungkinkannya memahami konteks secara bidireksional (Devlin et al.
, 2.
IndoBERT adalah varian BERT yang secara khusus di-pre-trained pada korpus masif Bahasa Indonesia, menunjukkan kinerja unggul untuk berbagai tugas NLP di Indonesia (Cahyawijaya et al.
, 2.
(Jayadianti et al.
, 2.
(Widansyah et al.
, 2.
Koreksi Ejaan dan Teks Augmentasi Untuk menangani noise, dua teknik diuji.
Pertama, koreksi ejaan cerdas menggunakan DamerauLevenshtein Distance yang efektif menangani transposisi karakter (Damerau, 1.
, dikombinasikan dengan NGram untuk validasi kontekstual (Santoso et al.
, 2.
(Kokong et al.
, 2.
Kedua.
Augmentasi Teks seperti Synonym Replacement dan Back Translation digunakan untuk memperbanyak data latih dan mengatasi ketidakseimbangan kelas (Wei & Zou, 2.
(Rahma & Suadaa, 2.
METODE PENELITIAN
Penelitian ini menggunakan pendekatan terukur dengan desain penelitian.
Alur kerja penelitian mengadopsi kerangka Cross-Industry Standard Process for Data Mining (CRISP-DM) yang terstruktur.
Alur Penelitian Penelitian ini mengadopsi kerangka Cross-Industry Standard Process for Data Mining (CRISP-DM) yang terstruktur (Wirth & Hipp, 2.
Alur kerja sistematis diilustrasikan pada Gambar 1.
Pada Gambar 1 mengilustrasikan alur kerja penelitian yang mengadopsi kerangka Cross-Industry Standard Process for Data Mining (CRISP-DM).
Proses ini dimulai dari pemahaman masalah (Business Understandin.
dan pengumpulan data ulasan (Data Understandin.
Data mentah kemudian melewati fase Persiapan Data yang mendalam, mencakup pembersihan, koreksi ejaan cerdas, ekstraksi multi-aspek, pelabelan, dan augmentasi teks.
Dataset yang telah siap selanjutnya digunakan untuk melatih beberapa skenario model IndoBERT pada fase Pemodelan.
Kinerja setiap model dievaluasi secara terukur (Evaluatio.
untuk menemukan pendekatan terbaik, yang kemudian direncanakan untuk diimplementasikan dalam sebuah aplikasi prototipe (Deploymen.
Kerangka kerja ini memastikan proses penelitian berjalan secara terstruktur dari awal hingga akhir.
https://pub.
id/sainsdata Sains Data Jurnal Studi Matematika dan Teknologi ISSN 2986-903X Gambar 1 Diagram Alur CRISP-DM Dataset Data dikumpulkan melalui teknik web scraping dari ulasan publik di Google Maps untuk destinasi wisata pantai di Kabupaten Sumenep.
Setelah melalui pra-pemrosesan .
ermasuk penghapusan duplika.
, diperoleh 935 ulasan unik.
Dari ulasan ini, diekstraksi 2.
570 data poin berbasis aspek yang kemudian dilabeli secara semiotomatis dan manual (Positif/Negati.
Aspek yang dianalisis adalah ancillary .
ayanan/harg.
, attraction .
aya tari.
, amenities .
, dan accessibility .
Dataset kemudian dibagi menjadi 80% data latih dan 20% data uji .
Desain Eksperimen Empat skenario model dievaluasi untuk mengukur dampak setiap perlakuan:
Model A (Baselin.
IndoBERT dilatih pada data asli yang hanya melalui pra-pemrosesan dasar.
Tanpa menggunakan DamerauLevenshtein Distance dengan N-Gram dan Teks Augmentasi.
Model B (Koreksi Ejaa.
Data latih diperbaiki menggunakan modul koreksi ejaan cerdas berbasis Damerau-Levenshtein (Damerau, 1.
dan N-Gram (Santoso et al.
, 2.
sebelum pelatihan.
Model C (Lengka.
Data latih melalui kedua perlakuan yaitu Damerau-Levenshtein Distance dengan N-Gram dan Teks Augmentasi menggunakan teknik seperti Back Translation dan Synonym Replacement (Wei & Zou, 2.
Evaluasi Kinerja semua model dievaluasi pada data uji yang sama menggunakan metrik yaitu Akurasi.
Presisi.
Recall, dan F1-Score (Macro Averag.
(Powers, 2.
HASIL
Hasil Pra-pemrosesan dan Ekstraksi Aspek Dari 3.
211 ulasan mentah, proses pra-pemrosesan menghasilkan 2.
935 ulasan bersih dilanjutkan ke tahap ekstraksi multi-aspek.
Pada tahap ini, setiap ulasan dianalisis untuk mengidentifikasi kalimat atau frasa yang merujuk pada empat kategori aspek utama yaitu ancillary .
ayanan pendukun.
, attraction .
aya v4i1.
https://pub.
id/sainsdata Sains Data Jurnal Studi Matematika dan Teknologi ISSN 2986-903X tari.
, amenities .
, dan accessibility .
Proses ekstraksi ini berhasil menghasilkan 570 data poin yang relevan dengan keempat aspek tersebut, setelah 364 data poin yang dikategorikan sebagai general .
idak spesifi.
disaring dan dihapus.
Seperti yang ditunjukkan pada Gambar 2, aspek yang paling sering dibicarakan oleh pengunjung adalah aspek ancillary dengan hasil 956 kemunculan.
Distribusi ini memberikan gambaran awal mengenai fokus utama dari ulasan pengunjung wisata pantai di Kabupaten Sumenep.
Gambar 2 Distribusi Jumlah Kalimat per Aspek Hasil Pelabelan Sentimen dan Teks Augmentasi Sebanyak 2.
570 data poin berbasis aspek yang telah diekstraksi kemudian dilanjutkan ke tahap pelabelan Proses ini dilakukan secara semi-otomatis, yang diawali dengan pelabelan otomatis menggunakan model zero-shot classification .
oeddav/xlm-roberta-large-xnl.
, diikuti dengan verifikasi dan koreksi manual untuk memastikan akurasi dan kualitas setiap label (Positif/Negati.
Hasil pelabelan pada keseluruhan dataset menunjukkan adanya ketidakseimbangan kelas sentimen yang signifikan pada beberapa aspek, seperti yang divisualisasikan pada Gambar 3.
Terlihat bahwa ulasan untuk aspek attraction cenderung sangat positif, sementara ulasan untuk aspek lain memiliki distribusi yang lebih bervariasi.
Gambar 3 Distribusi Sentimen Positif dan Negatif per Aspek Untuk mempersiapkan pemodelan, data kemudian dibagi menjadi data latih .
056 bari.
dan data uji .
Ketidakseimbangan ini menjadi lebih jelas di dalam data latih, yang berisiko membuat model menjadi v4i1.
https://pub.
id/sainsdata Sains Data Jurnal Studi Matematika dan Teknologi ISSN 2986-903X Sebagai contoh, pada data latih untuk aspek Accessibility, hanya terdapat 90 sampel bersentimen Positif dibandingkan dengan 235 sampel Negatif.
Untuk mengatasi masalah ini, teknik augmentasi teks meliputi Synonym Replacement dan Back Translation diterapkan secara strategis hanya pada kelas minoritas di dalam data latih.
Tujuannya adalah untuk menyeimbangkan distribusi sentimen pada setiap aspek tanpa mengubah data uji.
Proses ini berhasil menyeimbangkan data secara efektif.
Gambar 4 menunjukkan perbandingan distribusi sentimen untuk aspek Accessibility sebelum dan sesudah augmentasi, di mana jumlah data untuk kelas Positif berhasil ditingkatkan dari 90 menjadi 235, setara dengan kelas Negatif.
Gambar 4.
Distribusi Sentimen Aspek Accessibility Sebelum dan Sesudah Augmentasi Melalui proses augmentasi yang ditargetkan pada setiap aspek, total data latih meningkat dari 2.
426 baris, sementara 514 baris data uji tetap dipertahankan dalam kondisi aslinya untuk memastikan proses evaluasi yang objektif dan andal.
Hasil Evaluasi Model Evaluasi perbandingan dari keempat model pada 515 data uji menghasilkan temuan yang disajikan pada Tabel 1.
Tabel 1 Hasil Evaluasi Komparatif Model (Keseluruha.
Presisi (Macr.
Recall (Macr.
F1-Score (Macr.
Model Skenario Akurasi Model Baseline .
anpa DamerauLevenshtein Distance dengan NGram dan teknik teks augmentas.
Modul Koreksi Ejaan Cerdas Model Koreksi Ejaan Cerdas dan Teks Augmentasi Secara tak terduga.
Model A (Baselin.
menunjukkan kinerja tertinggi di semua metrik.
Analisis lebih dalam pada confusion matrix Model A (Gambar .
menunjukkan kemampuannya yang seimbang dalam mengklasifikasikan kedua kelas sentimen.
Performa Model A juga sangat kuat ketika dianalisis per aspek, dengan F1-Score tertinggi pada aspek Amenities .
dan terendah pada aspek Accessibility .
, namun tetap menunjukkan tingkat akurasi yang tinggi secara keseluruhan.
https://pub.
id/sainsdata Sains Data Jurnal Studi Matematika dan Teknologi ISSN 2986-903X Gambar 5.
Confusion Matrix - Model A (Baselin.
PEMBAHASAN Temuan utama penelitian ini bahwa model baseline mengungguli model-model dengan pra-pemrosesan lanjutan berlawanan dengan hipotesis awal.
Hasil ini mengindikasikan beberapa analisis penting.
Pertama, peforma bawaan dari IndoBERT kemungkinan besar menjadi faktor utama.
Sebagai model Transformer (Devlin et al.
, 2.
yang telah di-pre-trained pada korpus data internet Indonesia yang sangat besar dan beragam .
ermasuk bahasa non-standa.
IndoBERT telah mengembangkan kemampuan bawaan untuk memahami konteks kalimat bahkan ketika terdapat noise seperti typo atau singkatan(Pratama et al.
, 2.
Hal ini menunjukkan bahwa untuk model yang sudah sangat tangguh, kombinasi pra-pemrosesan yang mendalam mungkin tidak diperlukan.
Kedua, pra-pemrosesan lanjutan justru berpotensi memberikan dampak negatif kecil.
Modul koreksi ejaan, meskipun akurat, dapat mengalami over-correction, yaitu mengubah istilah lokal atau slang yang memiliki makna kontekstual penting (Nur, 2.
Demikian pula, kalimat hasil augmentasi, meskipun menyeimbangkan dataset, mungkin terdengar kurang alami dan tidak menambah informasi makna baru yang signifikan bagi model yang sudah canggih (Feng et al.
, 2.
, sehingga tidak memberikan manfaat tambahan.
Terakhir, hasil ini menggarisbawahi pentingnya validasi.
Asumsi teori bahwa Aulebih banyak prapemrosesan pasti lebih baikAy terbukti tidak berlaku untuk kasus ini.
Pendekatan yang lebih sederhana dengan mengandalkan kekuatan model pre-trained secara langsung ternyata menjadi strategi yang paling efektif.
KESIMPULAN
Penelitian ini menyimpulkan bahwa model IndoBERT menunjukkan ketangguhan yang sangat tinggi dalam menangani teks ulasan pariwisata berbahasa Indonesia yang informal, di mana model baseline .
anpa prapemrosesan Damerau-Levenshtein Distance dengan N-Gra.
berhasil mencapai akurasi tertinggi sebesar Penerapan modul koreksi ejaan dan augmentasi teks tidak memberikan peningkatan performa pada kasus ini, mengindikasikan bahwa untuk model Transformer yang sudah tangguh, pra-pemrosesan yang kompleks tidak selalu menjamin hasil yang lebih baik.
Pendekatan yang paling unggul adalah dengan langsung melakukan fine-tuning pada model IndoBERT setelah pra-pemrosesan dasar, membuktikan bahwa kekuatan arsitektur Transformer sudah memadai untuk memahami nuansa dan noise dalam data teks dunia nyata.
UCAPAN TERIMA KASIH
Penelitian ini terlaksana berkat bimbingan dari Bapak Doni Abdul Fatah.
Kom.
Kom.
, serta dukungan dari LPPM Universitas Trunojoyo Madura melalui program MBKM Penelitian.
https://pub.
id/sainsdata Sains Data Jurnal Studi Matematika dan Teknologi ISSN 2986-903X
DAFTAR PUSTAKA