METHOMIKA: Jurnal Manajemen Informatika & Komputerisasi Akuntansi Vol. 9 No. 1 (April 2. ISSN: 2598-8565 . edia ceta. ISSN: 2620-4339 . edia onlin. MENINGKATKAN PERFORMA ULASAN BERBAHASA INDONESIA DENGAN SPELLING CORRECTOR PETER NORVIG DAN PELABELAN SENTISTRENGTH_ID Yessy Asri*. Dwina Kuswardani. Josephine Ferdinanda Purba TS Fakultas Telematika Energi. Institut Teknologi PLN. Jakarta. Indonesia Email: yessyasri@itpln. DOI: https://doi. org/10. 46880/jmika. Vol9No1. ABSTRACT The development of information technology drives digital transformation in various sectors, including public Evaluating the quality of mobile-based applications often relies on user reviews and ratings. However, the mismatch between the two can affect the understanding of user satisfaction. This research analyzes the sentiment of PLN Mobile application reviews using an approach that combines the lexicon-based SentiStrength_id method and the Support Vector Machine (SVM) model. Data was collected through web scraping from the Google Play Store and then processed through preprocessing stages, including spelling correction using the Peter Norvig The next process involved tokenization, stopword removal, and sentiment labeling using SentiStrength_id. The analysis results showed that the SVM model with a training and test data ratio of 90:10 achieved the highest accuracy of 82%. From 11,004 review data, the sentiment labeling results showed 67. 4% positive, 16. 5% negative, 1% neutral. Compared to the users' initial ratings, a mismatch of 5% was found for the positive class . , 6. 6% for the negative . , and 11. 6% for the neutral . ,273 dat. Word cloud analysis showed that positive sentiments were dominated by words such as Auhelpful,Ay Aueasy,Ay and Aufast,Ay while negative sentiments were related to Auno,Ay Auproblem,Ay and Auinterference,Ay reflecting the app's technical issues. Neutral sentiments contain words related to questions about services and electricity tokens. This research shows that the combination of Peter Norvig's method and SentiStrength_id successfully improves the quality of sentiment analysis. These results confirm the importance of optimal preprocessing in improving the accuracy of machine learning-based sentiment modeling. Keyword: Sentiment Analysis. PLN Mobile. SentiStrength_id. Support Vector Machine. Web Scraping. Peter Norvig. ABSTRAK Perkembangan teknologi informasi mendorong transformasi digital di berbagai sektor, termasuk layanan publik. Evaluasi kualitas aplikasi berbasis mobile sering kali bergantung pada ulasan dan rating pengguna. Namun, ketidaksesuaian antara keduanya dapat mempengaruhi pemahaman terhadap kepuasan pelanggan. Penelitian ini menganalisis sentimen ulasan aplikasi PLN Mobile dengan menggunakan pendekatan yang menggabungkan metode SentiStrength_id berbasis leksikon dan model Support Vector Machine (SVM). Data dikumpulkan melalui teknik web scraping dari Google Play Store dan kemudian diproses melalui tahapan preprocessing, termasuk koreksi ejaan dengan metode Peter Norvig. Proses selanjutnya adalah tokenisasi, penghilangan stopword, dan pelabelan sentimen menggunakan SentiStrength_id. Hasil analisis menunjukkan bahwa model SVM dengan rasio data latih dan data uji sebesar 90:10 mencapai akurasi tertinggi sebesar 82%. Dari 11. 004 data ulasan, hasil pelabelan sentimen menunjukkan 67,4% positif, 16,5% negatif, dan 16,1% netral. Dibandingkan dengan penilaian awal pengguna, ditemukan ketidaksesuaian sebesar 5% untuk kelas positif . , 6,6% untuk kelas negatif . , dan 11,6% untuk kelas netral . 273 dat. Analisis word cloud menunjukkan bahwa sentimen positif didominasi oleh kata-kata seperti AumembantuAy. AumudahAy, dan AucepatAy, sedangkan sentimen negatif terkait dengan AutidakAy. AumasalahAy, dan AugangguanAy, yang mencerminkan masalah teknis aplikasi. Sentimen netral berisi kata-kata yang berkaitan dengan pertanyaan tentang layanan dan token listrik. Penelitian ini menunjukkan bahwa kombinasi metode Peter Norvig dan SentiStrength_id berhasil meningkatkan kualitas analisis sentimen. Hasil ini menegaskan pentingnya preprocessing yang optimal dalam meningkatkan akurasi pemodelan sentimen berbasis machine learning. Halaman 92 METHOMIKA: Jurnal Manajemen Informatika & Komputerisasi Akuntansi Vol. 9 No. 1 (April 2. ISSN: 2598-8565 . edia ceta. ISSN: 2620-4339 . edia onlin. Kata Kunci: Analisis Sentimen. PLN Mobile. SentiStrength_id. Support Vector Machine. Web Scraping. Peter Norvig. PENDAHULUAN Perkembangan teknologi informasi telah mendorong peningkatan penggunaan internet dan ponsel seluler secara global, termasuk di Indonesia. Berdasarkan data dari Badan Pusat Statistik (BPS) tahun 2022, sebanyak 67,88% penduduk Indonesia menggunakan ponsel, sementara tingkat penggunaan internet mencapai 98,3% pada Januari 2023 (Ahdiat, 2. (Annur, 2. Peningkatan ini mendorong berbagai sektor terutama bidang pelayanan publik, untuk beralih dari sistem konvensional menuju digital. Salah satu bentuk transformasi tersebut dapat dilihat dari peningkatan pengguna aplikasi mobile yang dirancang untuk memperbaiki efisiensi dan produktivitas (Saefillah, 2. Aplikasi mobile dapat diakses menggunakan ponsel atau tablet dan dapat diunduh dari platform seperti Google Play Store. Evaluasi kualitas dari aplikasi tersebut bergantung pada ulasan dan penilaian pengguna yang memberikan masukan untuk perbaikan. Ulasan biasanya berupa komentar terkait pengalaman pengguna, sementara penilaian dalam bentuk rating menunjukkan persepsi umum terhadap aplikasi (Sasmoko, 2. Namun, terdapat ketidaksesuaian yang kerap muncul antara ulasan dengan rating yang diberikan oleh pengguna. Beberapa ulasan dapat berisi kritik teknis namun tetap diiringi dengan rating tinggi, atau Ketidaksesuaian ini dapat mempengaruhi evaluasi objektif kualitas aplikasi dan pada akhirnya berdampak pada pengembangan dan perbaikan Sebagai contoh, aplikasi PLN Mobile, yang dikembangkan oleh PT PLN (Perser. yang merupakan perusahaan kedua terbesar di Indonesia (AuFortune Indonesia 100,Ay 2. , telah diunduh lebih dari 000 kali dan menerima lebih dari 807. ulasan dengan rating 4,8 . er Maret 2. Aplikasi ini memiliki basis pengguna yang besar dan aktif, sehingga sangat relevan untuk dijadikan objek untuk menganalisis kepuasan dan kebutuhan pengguna. Oleh karena itu, mendapatkan gambaran yang jelas tentang ketidaksesuaian tersebut, analisis sentimen yang akurat sangat penting (Liu, 2. Analisis sentimen menjadi krusial dalam mengevaluasi opini pengguna, yang dapat dilakukan menggunakan tiga pendekatan utama yaitu Machine Learning Approach. Knowledge Approach, dan Hybrid Approach yang menggabungkan kedua metode tersebut (M Isa, 2. Pada penelitian menggabungkan metode lexicon based menggunakan SentiStrength_id dan model Support Vector Machine (SVM). Pemilihan model SVM didasarkan pada keunggulan akurasinya dibandingkan metode lain seperti Nayve Bayes. SVM memiliki akurasi sebesar 81,46% lebih tinggi dibandingkan Nayve Bayes yang hanya mencapai 75,41% (Ilmawan & Mude, 2. Pada proses analisis sentimen diperlukan proses pembobotan atau proses perubahan menjadi vector seperti TF-IDF yang dapat meningkatkan akurasi (Thomas & Rumaisa, 2. (Handayani et al. , 2. Selain itu jumlah dataset juga mempengaruhi akurasi (Fatihah Rahmadayana & Yuliant Sibaroni, 2. Penelitian terkait pelabelan berbahasa Indonesia yang menggunakan SentiStrength_id. Penelitian pertama implementasi labelling SentiStrength terhadap teks berbahasa Indonesia yang menghasilkan akurasi sebesar 57,53% (Sianipar & Setiawan, 2. Penelitian yang pertama kali mengadaptasi SentiStrength_id (Haryalesmana Wahid, 2. Penerapan SentiStrength_id (Aulia et al. , 2. (Sari et , 2. (Khaira et al. , 2. Penelitian yang melakukan perbandingan, menyatakan bahwa SentiStrength_id dipilih karena akurasinya lebih tinggi dibandingkan InSet. SentiStrength_id memiliki akurasi sebesar 64,46%, sementara InSet hanya mencapai 62,25% (Abdillah et al. , 2. Penelitian lain menyatakan SentiStrength_id unggul 82% (Ependi et , 2. Selain hal tersebut, tantangan yang sering dihadapi dalam analisis sentimen adalah kesalahan pengetikan dalam ulasan yang dapat menurunkan ketepatan pelabelan sentimen. Oleh karena itu, penelitian ini menggunakan teknik spelling corrector, terdapat beberapa jenis dari spelling corrector (Simanjuntak et al. , 2. (Mutammiah et al. , 2. Selain itu terdapat perbandingan beberapa spelling corrector (Kusuma & Ratnasari, 2. (Alfred & Teoh. Dari antara spelling corrector tersebut digunakan Peter Norvig pada tahap preprocessing untuk memperbaiki kesalahan ejaan yang sering Teknik ini sebelumnya terbukti efektif meningkatkan akurasi analisis sentimen hingga 90,03% (Malik Iryana & Pandu Adikara, 2. Penelitian terkait PLN Mobile juga telah dilakukan menggunakan metode lexicon-based Vader dan Nayve Bayes dalam menganalisis ulasan aplikasi PLN Mobile dengan akurasi 70% (Asri et al. , 2. Namun penelitian tersebut menggunakan pelabelan dalam bahasa Inggris. Berbeda dengan penelitian tersebut, penelitian ini Halaman 93 METHOMIKA: Jurnal Manajemen Informatika & Komputerisasi Akuntansi Vol. 9 No. 1 (April 2. menggunakan pelabelan berbahasan Indonesia menggunakan SentiStrength_id, serta menambahkan spelling corrector untuk meningkatkan ketepatan pelabelan dan menggunakan model Support Vector Machine untuk meningkatkan akurasi analisis sentimen ulasan pengguna aplikasi PLN Mobile. METODE PENELITIAN Metode penelitian ini terdiri dari beberapa tahapan, yaitu. Alur Penelitian Pada penelitian ini ditambahkan proses spelling corrector pada preprocessing menggunakan Peter Norvig, lalu dilakukan proses labelling menggunakan SentiStrength_id dan hasil pelabelan menggunakan SVM. Adapun alur penelitian ditunjukkan pada gambar 1 dibawah ini. Data Hasil Web Scrapping Preprocessing Labelling SentiStrength_Id TF-IDF Modelling (SVM) Confusion Matrix ISSN: 2598-8565 . edia ceta. ISSN: 2620-4339 . edia onlin. merupakan proses untuk mengembalikan ulasan yang sudah dibagi per kata menjadi kalimat, dikarenakan pelabelan sentistrength_id memiliki fungsi yang berkerja dalam bentuk string. Pada penelitian ini, dilakukan penambahan Spelling Corrector menggunakan Peter Norvig dengan tujuan untuk memperbaiki kata yang mengalami kesalahan ejaan agar mendapatkan hasil sentimen yang Berikut adalah alur dari Peter Norvig: Spelling Corrector Dataset Normalisasi (Slang Word. Delete Membandingkan word dengan baris di kamus Replace res = new ArrayList<>(). Insert Gambar 1. Alur Penelitian Kata add. Dataset Perolehan data yang akan digunakan pada penelitian ini menggunakan teknik web scrapping dari aplikasi PLN Mobile yang terdapat di platform Google Plays Store. Dari keseluruhan data yaitu 841. 000 (Per 23 April 2. , peneliti melakukan scrapping dengan sample sebanyak 50. 000 data ulasan terbaru. Lalu menyaring data untuk rentang waktu Januari 2022 hingga Desember 2023 dan diperoleh sebanyak 11. Preprocessing Setelah melakukan proses web scrapping, selanjutnya dilakukan proses pembersihan data yang nantinya akan dilabelkan (Kulkarni & Shivananda. Adapun proses preprocessing sebagai berikut: Case Folding Cleaning Normalisasi (Slang Wor. Spelling Corrector Tokenizing Stopword Detokenize Gambar 2. Preprocessing Proses case folding, cleaning (Handayani et al. Spelling Corrector digunakan untuk proses memperbaiki kata dengan mendeteksi kesalahan ketik dan memberikan rekomendasi kata yang benar (Martin et al. , 2. Tokenizing (Handayani et al. , 2. Stopword (Fatihah Rahmadayana & Yuliant Sibaroni. Pada proses stopword ini akan diterapkan fungsi untuk tidak menghapus beberapa kata sesuai dengan kamus yang terdapat pada SentiStrength_id agar menghasilkan pelabelan yang maksimal. Detokenize Transpose Dataset Spelling Corrector Split Return Gambar 3. Proses Spelling Corrector Peter Norvig PN = argmax !(#) Keterangan: NC: Banyaknya kemungkinan kata ke Ae c pada corpus N : Banyaknya kata pada corpus Jika suatu kata tidak ditemukan dalam korpus, maka akan dilakukan operasi edit distance dengan perubahan satu huruf. Jika kata tersebut masih tidak ditemukan, maka operasi edit distance dengan perubahan dua huruf akan diterapkan. Proses edit distance dengan perubahan dua huruf ini mirip dengan perubahan satu huruf, tetapi menggunakan kata hasil kemungkinan dari perubahan satu huruf. Jika kata tersebut tetap tidak ditemukan, maka kata tersebut akan dikembalikan seperti semula, meskipun terdeteksi Namun, jika kata ditemukan dalam korpus, maka akan dilakukan pemeriksaan kembali terhadap semua kemungkinan kata dalam korpus dan dihitung peluang dari setiap kata yang ada. Rumus perhitungan probabilitas kata menurut Peter Norvig (Malik Iryana & Pandu Adikara, 2. pada formula 1. Halaman 94 METHOMIKA: Jurnal Manajemen Informatika & Komputerisasi Akuntansi Vol. 9 No. 1 (April 2. Labelling Setelah melakukan preprocessing selanjutnya SentiStrength_id. Adapun alurnya adalah sebagai ISSN: 2598-8565 . edia ceta. ISSN: 2620-4339 . edia onlin. Gaussian (Radial Basis Function (RBF)) eo, yeoyeU ) = yeIyeoyec 1 &|. eoyeO yeoyeU |. a yayyOya HASIL DAN PEMBAHASAN Pada proses awal dilakukan perolehan dataset dengan menggunakan web scrapping dilanjutkan dengan preprocessing. Adapun hasilnya sebagai Tabel 1. Hasil Web Scrapping dan Preprocessing Gambar 4. Labelling SentiStrength_id If positive value > negative value then positive If positive value < negative value then negative If positive value = negative value then neutral Pada proses labelling ini digunakan metode SentiStrength_id. Tahapan pada penerapan model ini diawali dengan menginput dataset yang sudah dilakukan pembersihan atau preprocessing, dilanjutkan dengan menginput enam kamus sentimen dari SentiStrength_id yaitu kamus sentimen, emosikon, idiom, boosterwords, negasi, dan kata tanya. Setelah itu akan dilakukan proses pengecekan pada setiap kata pada ulasan dengan kamus yang tersedia. Pemberian skor akan disesuaikan dengan kamus dan aturan ekstraksi fitur SentiStrength_id. Setelah diberi skor atau nilai, akan dilakukan pengambilan nilai untuk max positive dan max negative yang nantinya akan dibandingkan untuk menarik kesimpulan sentimen positif, atau negatif, atau netral. (Haryalesmana Wahid. Modelling Setelah dilakukan proses labelling dan pembobotan kata dengan TF-IDF, selanjutnya adalah proses pemodelan, dimana menggunakan SVM dengan kernel RBF dan metode multiclass One Againt All (Suyanto, 2. Pada proses spelling corrector terdapat beberapa kata salah eja yang tidak mengalami proses perbaikan sebagai contoh pada kata AokalijAo yang seharusnya AokaliAo. Setelah dilakukannya proses di atas selanjutnya adalah proses labelling yaitu sebagai berikut: Tabel 2. Proses Pembobotan SentiStrength_id Tabel 3. Hasil Sentimen Setelah dilakukan proses labelling dilanjutkan dengan TF-IDF dan dilanjutkan dengan pemodelan menggunakan SVM, yaitu sebagai berikut: Gambar 5. Modelling SVM Halaman 95 METHOMIKA: Jurnal Manajemen Informatika & Komputerisasi Akuntansi Vol. 9 No. 1 (April 2. Setelah dilakukan pemodelan selanjutnya dilakukan evaluasi menggunakan confusion matrix yaitu sebagai berikut: ISSN: 2598-8565 . edia ceta. ISSN: 2620-4339 . edia onlin. Untuk membandingkan hasil terhadap sentimen sebelum dilabelkan, peneliti juga melakukan pengelompokan terhadap rating data ulasan dari Google Play Store sebelum dilakukan proses preprocessing dan labelling. Dimana untuk rating 5 dan 4 dilabelkan sebagai kelas positif, rating 3 sebagai netral, dan rating 2 dan 1 sebagai kelas negatif. Diperoleh hasil untuk kelas positif sebanyak 7. data, negatif 2. 538 data, dan netral sebanyak 499 data dengan persentase untuk sentimen positif adalah 72,49%, negatif 23,1%, dan netral 4,5%. Dari persentase di atas dapat dilakukan perbandingan dengan hasil pelabelan dan diambil kesimpulan, bahwasannya persentase ketidaksesuaian pengguna dalam memberikan rating dengan ulasan diperoleh yaitu kelas positif sebesar 5% . , kelas negatif 6,6% . , dan kelas netral sebesar 11,6% . Gambar 6. Confusion Matrix dan Hasil Selanjutnya setelah proses pelabelan adalah melakukan pemodelan. Setelah hasil prediksi dari pemodelan menggunakan Support Vector Machine (SVM) diperoleh, dilakukan evaluasi dengan menggunakan confusion matrix. Evaluasi dengan confusion matrix ini digunakan untuk mengetahui nilai akurasi pada analisis sentimen yang sudah dilakukan. Adapun diperoleh hasil setelah melakukan beberapa percobaan menggunakan pembagian split data, diperoleh hasil akurasi tertinggi dengan rasio 90:10 yaitu sebesar 82%. Dari hasil proses analisi sentimen diperoleh juga hasil persentase sentimen menggunakan metode SentiStrength_id dan diperoleh hasil persentase jumlah pelabelan kelas yaitu 67,4% positif dengan 7. 414 data, 16,5% negatif dengan 1. 818 data, dan 16,1% netral 772 data Gambar 7. Hasil Persentase Pelabelan dan Berdasarkan Rating Gambar 8. Word Cloud Positif dan Negatif Gambar 9. Word Cloud Netral Dari word cloud pada Gambar 8 bagian kiri, terdapat kata Ae kata yang mempengaruhi sentimen positif seperti AomembantuAo. AomudahAo. AocepatAo, dari hasil tersebut menujukkan bahwa ulasan positif berpusat pada efisiensi aplikasi, kemudahan penggunaan, dan kualitas layanan yang diberikan oleh PLN melalui aplikasi PLN Mobile. Pada Gambar 8 bagian kanan mengandung kata Ae kata yang sering muncul pada sentimen negatif seperti AotidakAo. AomasalahAo. AogangguanAo. AolambatAo, dari kata-kata tersebut menujukkan bahwa ulasan negatif berpusat pada bagian masalah teknis, kegagalan fungsi, lambatnya aplikasi, serta ketidakpuasan respon dan pelayanan yang diberikan oleh aplikasi terkait layanan listrik. Pada Gambar 9 terdapat kata Ae kata yang sering muncul seperti kata AotidakAo. AoaplikasiAo. AoplnAo. AotokenAo. Aolistrik. AopembayaranAo. AolebihAo. AobeliAo. AopetugasAo. AotolongAo. AokenapaAo, dan Kata Ae kata ini berdampak terhadap sentimen netral karna tidak memiliki pengaruh yang Halaman 96 METHOMIKA: Jurnal Manajemen Informatika & Komputerisasi Akuntansi Vol. 9 No. 1 (April 2. signifikan terhadap sentimen positif dan negatif. Hal ini terkait pertanyaan mengenai aplikasi token dan listrik. KESIMPULAN Proses implementasi Peter Norvig sebagai spelling corrector terdapat pada tahapan preprocessing. Diawali dengan tahapan cleaning, case folding, normalisasi . lang wor. , spelling corrector, setelah itu dilanjutkan proses tokenizing, stopword, dan Proses selanjutnya adalah labelling dengan SentiStrength_id menggunakan kamus-kamus yaitu sentimen, boosterwords, emoticon, idioms, negasi dan kata tanya yang sudah dibobotkan. Proses implementasi peter norvig dan sentistrength_id berhasil meningkatkan kualitas akurasi, dengan akurasi akhir sebesar 82% dengan rasio 90:10. Diperoleh dari hasil perbandingan kelas positif, netral, dan negatif terhadap 004 data hasil SentiStrength_id dengan ulasan berdasarkan rating, ketidaksesuaian pengguna memberikan rating dengan ulasannya adalah 5% untuk kelas pos itif dengan 553 data, 6,6%, untuk kelas negatif dengan 720 data, dan 11,6% untuk kelas netral 273 data. DISEMINASI Artikel ini telah diseminasikan pada Seminar Nasional Teknologi Informasi dan Komunikasi (SEMNASTIK) APTIKOM Tahun 2024 yang diselenggarakan oleh Universitas Methodist Indonesia pada tanggal 24-26 Oktober 2024. DAFTAR PUSTAKA