BULLETIN OF COMPUTER SCIENCE RESEARCH ISSN 2774-3659 (Media Onlin. Vol 5. No 6. October 2025 | Hal 1387-1394 https://hostjournals. com/bulletincsr DOI: 10. 47065/bulletincsr. Analisis Sentimen Keluhan Pelanggan ISP menggunakan Support Vector Machine (SVM) dan TF-IDF Dini Fakta Sari1. Deborah Kurniawati2,*. Endang Wahyuningsih3. Tediyan Rahmat Wibowo4 1,4 Fakultas Teknologi Informasi. Program Studi Informatika. Universitas Teknologi Digital Indonesia. Yogyakarta. Indonesia Fakultas Teknologi Informasi. Program Studi Sistem Informasi. Universitas Teknologi Digital Indonesia. Yogyakarta. Indonesia 3 Fakultas Teknologi Informasi. Program Studi Sistem Informasi Akuntansi. Universitas Teknologi Digital Indonesia. Yogyakarta. Indonesia Email: 1dini@utdi. id, 2,*debbie@utdi. id, 3ayuning@utdi. id, 4tediyan. rahmat@students. Email Penulis Korespondensi: debbie@utdi. AbstrakOePenelitian ini bertujuan untuk menganalisis sentimen keluhan pelanggan terhadap layanan Internet Service Provider (ISP) di Indonesia, di mana masalah utama yang sering muncul meliputi gangguan koneksi, kecepatan internet yang lambat, sinyal lemah, serta penanganan keluhan yang tidak responsif dan tidak informatif, sebagaimana tercermin dari berbagai laporan konsumen di media sosial. Masalah ini berdampak pada ketidakpuasan pelanggan dan menuntut solusi analisis data untuk memahami opini publik secara mendalam. Data dikumpulkan melalui API dari salah satu platform media sosial menggunakan kata kunci terkait layanan internet, seperti "gangguan internet" dan "keluhan internet". Data melalui tahapan prapemrosesan teks, meliputi pembersihan, case folding, tokenisasi, penghapusan stopword, dan stemming untuk menghasilkan teks yang konsisten. Fitur teks diekstraksi menggunakan Term FrequencyAeInverse Document Frequency (TF-IDF), yang kemudian diklasifikasikan dengan algoritma Support Vector Machine (SVM). Evaluasi model menggunakan 10-Fold Cross Validation menghasilkan akurasi rata-rata 91,47%, presisi 94,27%, recall 99,20%, dan F1-score 96,67%. Frekuensi kemunculan kata menunjukkan kata dominan seperti AulambatAy. AugangguanAy, dan AusinyalAy sebagai isu utama keluhan pelanggan. Kombinasi SVM dan TF-IDF terbukti efektif untuk analisis sentimen berbahasa Indonesia, memberikan kontribusi akademik dan praktis bagi ISP untuk memantau opini pelanggan dan meningkatkan kualitas layanan. Penelitian selanjutnya disarankan menggunakan model deep learning seperti BERT dan data yang lebih beragam. Kata Kunci: Analisis Sentimen. Internet Service Provider. Media Sosial. Support Vectoe Machine. TF-IDF AbstractOeThis study aims to analyze the sentiment of customer complaints regarding Internet Service Provider (ISP) services in Indonesia, where the primary issues frequently reported include connection disruptions, slow internet speeds, weak signals, and unresponsive or uninformative complaint handling, as reflected in various consumer reports on social media. These issues contribute to customer dissatisfaction and necessitate data analysis solutions to deeply understand public opinions. Data was collected via API from a social media platform using keywords related to internet services, such as "internet disruption" and "internet complaints. " The data underwent text preprocessing stages, including cleaning, case folding, tokenization, stopword removal, and stemming to produce consistent text. Text features were extracted using Term FrequencyAeInverse Document Frequency (TF-IDF), which were then classified using the Support Vector Machine (SVM) algorithm. Model evaluation using 10-Fold Cross Validation yielded an average accuracy 47%, precision of 94. 27%, recall of 99. 20%, and F1-score of 96. Word frequency analysis revealed dominant words such as Auslow,Ay Audisruption,Ay and AusignalAy as the main issues in customer complaints. The combination of SVM and TF-IDF proved effective for sentiment analysis in Indonesian, providing academic and practical contributions for ISPs to monitor customer opinions and improve service quality. Future research is recommended to employ deep learning models like BERT and more diverse data. Keywords: Sentiment Analysis. Internet Service Provider. Social Media. Support Vector Machine. TF-IDF PENDAHULUAN Perkembangan teknologi informasi dan komunikasi telah mengubah cara masyarakat berinteraksi, bekerja, dan mengakses informasi. Dengan dukungan ketersediaan peralatan dan infrastuktur jaringan, internet kini menjadi kebutuhan primer di berbagai sektor, termasuk pendidikan, bisnis, pemerintahan, dan hiburan. Menurut survei Asosiasi Penyelenggara Jasa Internet Indonesia (APJII) tahun 2025, pengguna internet di Indonesia mencapai 229,4 juta jiwa, atau sekitar 80,66% dari total populasi . Angka ini menunjukkan peningkatan signifikan dibandingkan tahun sebelumnya, di mana penetrasi internet hanya 79,50% atau sekitar 225 juta jiwa. Tingginya ketergantungan masyarakat terhadap konektivitas internet membuat kualitas layanan Internet Service Provider (ISP) menjadi isu krusial. Keluhan pelanggan terkait kecepatan internet, stabilitas jaringan, dan pelayanan pelanggan sering kali muncul, terutama di platform media sosial . , . Media sosial telah menjadi wadah utama bagi pengguna untuk menyampaikan opini, baik berupa pujian maupun keluhan, secara real-time. Data dari media sosial bersifat publik dan kaya akan informasi subjektif, menjadikannya sumber yang ideal untuk analisis sentimen . Analisis sentimen, sebagai bagian dari Natural Language Processing (NLP), memungkinkan ekstraksi dan klasifikasi opini menjadi kategori positif, negatif, atau netral . Dalam konteks layanan ISP, analisis ini dapat membantu penyedia layanan memahami persepsi pelanggan, mengidentifikasi masalah utama, dan merancang strategi perbaikan layanan . Selain itu, dengan maraknya penggunaan media sosial di Indonesia analisis sentimen dapat memberikan wawasan waktu nyata tentang tren keluhan pelanggan. Penelitian sebelumnya telah menunjukkan bahwa analisis sentimen berbasis pembelajaran mesin . achine learnin. efektif untuk mengevaluasi opini pelanggan di media sosial. Misalnya, menggunakan metode Decision Tree dan Term FrequencyAeInverse Document Frequency (TF-IDF) untuk menganalisis sentimen pelanggan ISP, menghasilkan akurasi yang memadai . Demikian pula, menggunakan Support Vector Machine (SVM) untuk analisis sentimen ISP, dengan akurasi masing-masing 85,7% dan 86,1% . , . Namun, tantangan utama dalam analisis sentimen berbahasa Copyright A 2025 The Author. Page 1387 This Journal is licensed under a Creative Commons Attribution 4. 0 International License BULLETIN OF COMPUTER SCIENCE RESEARCH ISSN 2774-3659 (Media Onlin. Vol 5. No 6. October 2025 | Hal 1387-1394 https://hostjournals. com/bulletincsr DOI: 10. 47065/bulletincsr. Indonesia adalah kompleksitas bahasa, seperti penggunaan bentuk informal, singkatan, dan campuran bahasa . , yang memerlukan strategi prapemrosesan teks yang kuat . , . Di antara algoritma pembelajaran mesin. SVM menonjol karena kemampuannya menangani data berdimensi tinggi dan menghasilkan pemisahan kelas yang optimal . SVM bekerja dengan mencari hyperplane yang memaksimalkan margin antar kelas, menjadikannya pilihan ideal untuk klasifikasi teks seperti tweet . Kombinasi SVM dengan TFIDF, sebuah metode pembobotan fitur yang menekankan kata-kata penting dalam teks, telah terbukti meningkatkan akurasi klasifikasi . Integrasi TF-IDF dengan SVM menghasilkan performa yang lebih baik dibandingkan metode berbasis kamus atau pendekatan tradisional lainnya . Penelitian terkini juga menunjukkan bahwa penggunaan bigram atau trigram dalam TF-IDF dapat menangkap konteks lebih baik, terutama dalam bahasa Indonesia yang kaya akan afiks dan reduplikasi. Di Indonesia, penelitian analisis sentimen terhadap layanan ISP masih memiliki keterbatasan. Sebagian besar studi berfokus pada penyedia layanan tertentu dengan dataset yang relatif kecil (<10. 000 twee. Selain itu, banyak penelitian belum sepenuhnya mengatasi tantangan bahasa informal dan variasi gaya penulisan di media sosial Indonesia . Oleh karena itu, penelitian ini bertujuan untuk mengembangkan model analisis sentimen yang lebih komprehensif dengan menggunakan SVM dan TF-IDF, menargetkan data dari salah satu media sosial dari salah satu penyedia ISP di Indonesia. Pendekatan ini tidak hanya meningkatkan akurasi klasifikasi sentimen, tetapi juga memperhitungkan implikasi ekonomi, di mana ketidakpuasan pelanggan dapat meningkatkan tingkat pergantian pelanggan hingga 20-30% per tahun, yang berdampak signifikan pada pendapatan ISP. Selain itu, dengan memanfaatkan data real-time dari media sosial, model ini dapat mendukung pengembangan kebijakan publik untuk memperkuat kualitas infrastruktur digital nasional. Penelitian ini memiliki tiga tujuan utama. Pertama, mengidentifikasi pola sentimen pelanggan terhadap layanan Internet Service Provider (ISP) di Indonesia berdasarkan data dari salah satu platform media sosial. Kedua, mengevaluasi kinerja algoritma Support Vector Machine (SVM) dalam mengklasifikasikan teks berbahasa Indonesia. Ketiga, memberikan rekomendasi praktis bagi ISP untuk meningkatkan kualitas layanan berdasarkan hasil analisis. Pendekatan ini diharapkan memperkaya literatur analisis sentimen berbahasa Indonesia dan memberikan wawasan praktis bagi industri telekomunikasi. Dengan memanfaatkan data di salah satu media sosial yang real-time, penelitian ini juga mendukung pengembangan sistem pemantauan pengalaman pelanggan berbasis data. Selain itu, penelitian ini membuka peluang untuk eksplorasi model pembelajaran mendalam, seperti BERT, untuk meningkatkan akurasi di masa depan. Integrasi dengan teknik lain, seperti topic modeling menggunakan LDA, dapat memberikan pemahaman lebih dalam tentang kluster keluhan, seperti isu teknis versus administratif. Akhirnya, di tengah transformasi digital Indonesia menuju 0, penelitian ini berkontribusi pada pembangunan ekosistem digital yang lebih responsif dan inklusif, mengurangi kesenjangan akses di wilayah tertinggal. METODOLOGI PENELITIAN Penelitian ini menggunakan pendekatan kuantitatif eksperimental untuk mengembangkan model analisis sentimen berbasis pembelajaran mesin. Algoritma Support Vector Machine (SVM) dipilih karena kemampuannya menangani data berdimensi tinggi dan menghasilkan pemisahan kelas yang optimal melalui hyperplane . , . Term FrequencyAe Inverse Document Frequency (TF-IDF) digunakan untuk ekstraksi fitur teks karena efektivitasnya dalam menangkap kata-kata penting dalam korpus . , . Proses penelitian terdiri dari tujuh tahap utama: pengumpulan data, prapemrosesan teks, pelabelan sentimen, pembobotan fitur, pelatihan model, evaluasi model, dan analisis hasil. 1 Pengumpulan Data dan Prapemrosesan Teks Data dikumpulkan dari salah satu media sosial menggunakan API dengan kata kunci relevan seperti Augangguan internetAy. Aukeluhan internetAy. AulambatAy. Ausinyal. Pencarian difokuskan pada komentar berbahasa Indonesia yang diposting diperiode tertentu, menghasilkan dataset awal sebanyak 15. 000 tweet mentah. Data disimpan dalam format CSV, berisi kolom teks komentar, tanggal unggahan, dan metadata seperti lokasi . ika tersedi. dan nama pengguna . isamarkan untuk menjaga privasi sesuai pedoman etika penelitia. Dataset ini difilter untuk menghapus komentar duplikat, iklan, dan konten tidak relevan, menghasilkan 12. 000 komentar yang digunakan untuk analisis. Data yang diperoleh diproses melalui tahapan berikut untuk memastikan konsistensi dan kualitas data: Mengubah semua teks menjadi huruf kecil untuk menghindari perbedaan huruf kapital. Menghapus elemen non-teks seperti URL, mention (@usernam. , hashtag (#), angka, tanda baca, dan emotikon menggunakan regex di Python. Memecah teks menjadi unit kata . menggunakan pustaka NLTK untuk mempermudah analisis. Menghapus kata umum dan tidak bermakna seperti AudanAy. AudiAy, serta kata informal seperti AugakAy dan AunggakAy menggunakan daftar stopword khusus bahasa Indonesia yang dikembangkan berdasarkan penelitian sebelumnya. Mengembalikan kata ke bentuk dasar . AumelambatAy menjadi AulambatA. menggunakan pustaka Sastrawi, yang dirancang untuk menangani morfologi bahasa Indonesia. Prapemrosesan dilakukan menggunakan Python dengan pustaka NLTK untuk tokenisasi dan Sastrawi untuk stemming, memastikan teks bersih dari noise dan konsisten untuk analisis lebih lanjut . Tahapan ini krusial untuk mengatasi kompleksitas bahasa Indonesia, seperti variasi dialek dan penggunaan bahasa informal di media sosial. Copyright A 2025 The Author. Page 1388 This Journal is licensed under a Creative Commons Attribution 4. 0 International License BULLETIN OF COMPUTER SCIENCE RESEARCH ISSN 2774-3659 (Media Onlin. Vol 5. No 6. October 2025 | Hal 1387-1394 https://hostjournals. com/bulletincsr DOI: 10. 47065/bulletincsr. 2 Pelabelan Data dan Pembobotan Fitur dengan TF-IDF Langkah selanjutnya adalah memberi label positif, negatif, atau netral pada data melalui pendekatan dua tahap: Pelabelan otomatis menggunakan metode berbasis kamus dengan daftar kata sentimen berbahasa Indonesia . AubagusAy. AucepatAy untuk positif. AulambatAy. AugangguanAy untuk negati. yang diadaptasi dari penelitian sebelumnya. Skor sentimen dihitung berdasarkan frekuensi kata positif dan negatif dalam setiap tweet. Verifikasi manual, dengan cara dua penelaah independen memeriksa label otomatis untuk memastikan akurasi konteks, terutama pada komentar dengan sarkasme atau ambiguitas. Konsensus digunakan untuk menyelesaikan perbedaan, dengan tingkat kesepakatan antar-penelaah . nter-annotator agreemen. mencapai 92% menggunakan koefisien Kappa. Dari 12. 000 tweet, 60% diberi label negatif, 25% netral, dan 15% positif, mencerminkan dominasi keluhan dalam Teks yang telah diproses diubah menjadi representasi numerik menggunakan TF-IDF, yang mengukur frekuensi kata . erm frequenc. dan keunikan kata dalam korpus (Inverse Document Frequenc. TF-IDF diterapkan dalam bentuk unigram dan bigram untuk menangkap konteks antar kata, seperti Aujaringan lambatAy atau Ausinyal burukAy. Proses ini dilakukan menggunakan pustaka scikit-learn di Python, dengan parameter minimum document frequency . in_d. diatur ke 5 untuk mengabaikan kata yang terlalu jarang dan mengurangi noise. 3 Pelatihan. Evaluasi Model dan Visualisai Model SVM dengan linear kernel dilatih menggunakan pustaka scikit-learn di Python, dipilih karena kemampuannya menangani data berdimensi tinggi dari TF-IDF . Parameter C . egularization paramete. dioptimalkan melalui grid search dalam rentang . 1, 1, . , dengan nilai terbaik C=1 untuk keseimbangan antara margin maksimal dan tingkat Dataset dibagi menjadi 80% data pelatihan dan 20% data pengujian, dengan evaluasi performa menggunakan 10-Fold Cross Validation untuk memastikan robustitas model. Metrik evaluasi meliputi akurasi, presisi, recall, dan F1score, yang dihitung untuk mengevaluasi kemampuan model dalam mengklasifikasikan sentimen. Hasil klasifikasi dianalisis untuk mengidentifikasi pola sentimen dan keluhan utama. Selain itu, grafik akurasi per fold dibuat menggunakan Matplotlib untuk mengevaluasi stabilitas model. Analisis frekuensi kata juga dilakukan untuk mengidentifikasi tema keluhan, seperti kecepatan jaringan atau layanan pelanggan, yang mendukung rekomendasi praktis bagi ISP. HASIL DAN PEMBAHASAN 1 Hasil Evaluasi Model Pengujian model dilakukan menggunakan 10-Fold Cross Validation untuk memastikan hasil yang objektif dan stabil. Setiap fold terdiri dari 20 data uji, dengan sembilan subset lainnya digunakan untuk pelatihan, sesuai dengan jumlah data yang diberikan dalam penelitian. Pendekatan ini dipilih karena memungkinkan evaluasi yang robust terhadap performa model di berbagai subset data, mengurangi risiko overfitting, dan memberikan gambaran yang lebih representatif tentang kemampuan generalisasi model . Hasil pengujian ditunjukkan pada Tabel 1, yang mencakup metrik akurasi, presisi, recall dan F1-score untuk setiap fold Tabel 1. Hasil Pengujian Model Fold Rata-rata Akurasi (%) 91,47 Presisi(%) 94,27 Recall (%) F1-Score (%) 96,95 96,75 96,55 96,55 96,55 96,85 96,85 96,85 96,45 96,65 96,67 Rata-rata akurasi model mencapai 91,47%, dengan presisi 94,27%, recall 99,20%, dan F1-score 96,67%. Akurasi tertinggi tercatat pada fold pertama . ,45%), sedangkan akurasi terendah pada fold kesembilan . ,48%). Variasi akurasi antar-fold hanya sekitar 1,97%, menunjukkan stabilitas model yang tinggi dan konsistensi dalam menangani data uji yang Tingkat kesalahan rata-rata sebesar 8,53% lebih rendah dibandingkan penelitian sebelumnya yang melaporkan akurasi antara 85Ae88%. Recall yang sangat tinggi . ,20%) menunjukkan bahwa model sangat efektif dalam mendeteksi keluhan negatif, yang merupakan mayoritas dalam dataset . % negati. , sehingga sangat relevan untuk tujuan penelitian yang berfokus pada identifikasi keluhan pelanggan. Namun, presisi yang sedikit lebih rendah . ,27%) mengindikasikan Copyright A 2025 The Author. Page 1389 This Journal is licensed under a Creative Commons Attribution 4. 0 International License BULLETIN OF COMPUTER SCIENCE RESEARCH ISSN 2774-3659 (Media Onlin. Vol 5. No 6. October 2025 | Hal 1387-1394 https://hostjournals. com/bulletincsr DOI: 10. 47065/bulletincsr. adanya sejumlah kecil false positive, kemungkinan akibat kesulitan model dalam menangani tweet dengan nuansa sarkasme atau konteks ambigu. Untuk memberikan gambaran visual tentang stabilitas model, sebuah grafik garis dibuat untuk menampilkan akurasi model pada setiap fold dari proses 10-Fold Cross Validation. Grafik ini memungkinkan evaluasi langsung terhadap fluktuasi performa model di berbagai subset data, dengan garis referensi akurasi rata-rata . ,47%) untuk menilai konsistensi model. Gambar 1 memperlihatkan visualisasi grafik akurasi per fold. Gambar 1. Akurasi Model per Fold dengan 10-Fod Cross Validation Grafik garis pada Gambar 1 menunjukkan akurasi model (%) untuk setiap fold dari 10-Fold Cross Validation, dengan sumbu X menunjukkan nomor fold . dan sumbu Y menunjukkan akurasi (%). Garis biru mewakili akurasi per fold, sementara garis oranye putus-putus menunjukkan akurasi rata-rata . ,47%) sebagai referensi. Rentang sumbu Y diatur dari 88% hingga 94% untuk memastikan semua nilai akurasi terlihat jelas. Grafik ini menunjukkan variasi akurasi sebesar 1,97% . ari 90,48% pada fold 9 hingga 92,45% pada fold . , yang mengindikasikan stabilitas model yang Puncak akurasi pada fold 1, 6, 7, dan 8 menunjukkan performa optimal pada subset tertentu, sementara penurunan kecil pada fold 9 mungkin disebabkan oleh data dengan karakteristik lebih kompleks, seperti bahasa informal atau konteks Visualisasi ini memperkuat temuan bahwa model SVM dengan TF-IDF memiliki konsistensi yang baik dalam mengklasifikasikan sentimen keluhan pelanggan. Keberhasilan model ini didukung oleh prapemrosesan teks yang ketat. Penggunaan pustaka Sastrawi untuk stemming mengurangi variasi morfologi, seperti mengubah AumelambatAy menjadi AulambatAy atau AuterputusAy menjadi AuputusAy, sehingga meningkatkan konsistensi data. Pemilihan linear kernel pada SVM juga tepat, mengingat data TF-IDF bersifat linier dan berdimensi tinggi, memungkinkan pemisahan kelas yang optimal melalui hyperplane yang memaksimalkan margin antar kelas . Selain itu, analisis menggunakan Receiver Operating Characteristic (ROC) curve menunjukkan Area Under Curve (AUC) rata-rata 0. 98, yang mengindikasikan kemampuan model yang sangat baik dalam membedakan kelas positif dan negatif, terutama dalam dataset yang tidak seimbang dengan dominasi keluhan Stabilitas model ini juga didukung oleh optimasi parameter C melalui grid search (C=. , yang mencapai keseimbangan antara margin maksimal dan minimisasi kesalahan klasifikasi . Untuk memperkuat analisis, confusion matrix menunjukkan bahwa model memiliki tingkat true positive yang tinggi untuk sentimen negatif, dengan hanya 23% false positive, yang kemungkinan besar disebabkan oleh tweet dengan bahasa informal atau konteks emosional yang kompleks, seperti sarkasme atau ironi. Perbandingan dengan penelitian sebelumnya menunjukkan keunggulan model ini. Misalnya, studi . yang menggunakan Logistic Regression untuk analisis sentimen ISP hanya mencapai akurasi 85,7%, sementara dengan SVM mencapai 86,1%. Peningkatan akurasi dalam penelitian ini . ,47%) dapat dikaitkan dengan penggunaan dataset yang lebih besar . 000 tweet setelah filterin. dan prapemrosesan teks yang lebih cermat, termasuk penanganan bahasa informal melalui daftar stopword khusus dan stemming dengan Sastrawi . Selain itu, penggunaan bigram dalam TFIDF memungkinkan model untuk menangkap konteks frasa seperti Aujaringan lambatAy atau Ausinyal burukAy, yang sering muncul dalam keluhan pelanggan, sehingga meningkatkan sensitivitas model terhadap pola bahasa spesifik. 2 Analisis Frekuensi Kata Analisis frekuensi kata dilakukan untuk mengidentifikasi tema keluhan utama yang disampaikan pelanggan terhadap layanan Internet Service Provider (ISP) di Indonesia. Hasil analisis yang dimaksud dapat dilihat pada Tabel 2. Hasil analisis, yang ditunjukkan pada Tabel 2, mengungkapkan bahwa kata AulambatAy . ,5%). AugangguanAy . ,1%), dan AusinyalAy . ,9%) menjadi tiga kata yang paling sering muncul, menegaskan bahwa masalah kecepatan dan stabilitas jaringan merupakan keluhan utama pelanggan. Kata-kata ini mencerminkan isu teknis yang signifikan, seperti latensi tinggi dan koneksi yang tidak stabil, yang berdampak pada pengalaman pengguna, terutama dalam aktivitas seperti bekerja dari rumah, belajar online, atau streaming, yang semakin penting di era digital pasca-pandemi. Kata AulemotAy . ,0%), sebuah istilah slang yang sinonim dengan AulambatAy, dan AuputusAy . ,5%) juga menunjukkan frekuensi yang signifikan, menggarisbawahi permasalahan koneksi yang sering terputus. Isu ini kemungkinan besar disebabkan oleh faktor eksternal seperti kondisi cuaca, kepadatan jaringan, atau keterbatasan infrastruktur seperti kurangnya penetrasi teknologi fiber optic atau 5G di wilayah tertentu di Indonesia, terutama di daerah pedesaan atau kepulauan. Copyright A 2025 The Author. Page 1390 This Journal is licensed under a Creative Commons Attribution 4. 0 International License BULLETIN OF COMPUTER SCIENCE RESEARCH ISSN 2774-3659 (Media Onlin. Vol 5. No 6. October 2025 | Hal 1387-1394 https://hostjournals. com/bulletincsr DOI: 10. 47065/bulletincsr. Tabel 2. Frekuensi Kemunculan Kata pada Dataset Kata Lambat Gangguan Sinyal Lemot Modem Putus Billing Tagihan Frekuensi Persentase (%) Sementara itu, kata AucsAy . ,4%) singkatan dari customer service bersama AubillingAy . ,3%) dan AutagihanAy . ,6%) mencerminkan ketidakpuasan pelanggan terhadap aspek non-teknis, seperti responsivitas layanan pelanggan dan proses Interpretasi mendalam menunjukkan bahwa keluhan ini tidak hanya terkait dengan performa teknis jaringan, tetapi juga pengalaman holistik pengguna. Penanganan keluhan yang lambat, seperti waktu tunggu yang lama atau jawaban generik dari staf layanan pelanggan, serta prosedur penagihan yang rumit, seperti tagihan yang tidak akurat atau kurangnya transparansi dalam biaya, dapat memperburuk persepsi negatif pelanggan terhadap ISP. Hal ini berpotensi meningkatkan tingkat pergantian pelanggan . hurn rat. hingga 20-30% per tahun, yang berdampak signifikan pada pendapatan ISP, mengingat industri telekomunikasi di Indonesia bernilai triliunan rupiah. Kata AumodemAy . ,6%) yang muncul sebagai jembatan antara isu teknis dan administratif menunjukkan adanya masalah perangkat keras, seperti instalasi yang lambat, kerusakan modem, atau keterlambatan penggantian perangkat oleh ISP, yang sering dikaitkan dengan kurangnya efisiensi dalam proses layanan. Kata AulambatAy dan AugangguanAy merupakan dua kata dengan frekuensi kemunculan yang tinggi dalam dataset. Temuan ini konsisten dengan penelitian sebelumnya, yang juga menyoroti masalah kecepatan dan stabilitas sebagai keluhan utama pelanggan ISP. Studi lain menunjukkan bahwa keluhan yang tidak ditangani di media sosial dapat memprediksi penurunan loyalitas pelanggan hingga 20-30%, yang berdampak signifikan pada pendapatan ISP. Secara mendalam, hasil ini menunjukkan perlunya ISP untuk memprioritaskan perbaikan infrastruktur jaringan, seperti peningkatan kapasitas bandwidth atau implementasi teknologi edge computing untuk mengurangi latensi, terutama di wilayah dengan keluhan tinggi seperti Jawa Timur dan Sumatera. Selain itu, peningkatan sistem layanan pelanggan melalui pelatihan berbasis AI atau otomatisasi proses billing dapat mengurangi keluhan terkait AucsAy dan AutagihanAy, sehingga meningkatkan kepuasan pelanggan. Untuk memperdalam analisis, korelasi Pearson dihitung antara frekuensi kata negatif . eperti AulambatAy. AugangguanAy. AusinyalA. dan sentimen negatif dalam dataset, menghasilkan nilai korelasi 0. Ini menunjukkan hubungan kuat antara keluhan spesifik dan persepsi negatif pelanggan, yang konsisten dengan temuan . bahwa analisis sentimen dapat mengidentifikasi aspek layanan yang perlu diperbaiki. Selain itu, distribusi geografis keluhan . erdasarkan metadata lokasi dalam datase. menunjukkan bahwa wilayah dengan infrastruktur digital yang kurang berkembang, seperti Sumatera dan Kalimantan, memiliki frekuensi keluhan AusinyalAy dan AugangguanAy yang lebih tinggi dibandingkan wilayah urban seperti Jakarta. Hal ini mengindikasikan adanya kesenjangan digital . igital divid. yang perlu diatasi melalui investasi infrastruktur yang lebih merata. 3 Pembahasan Performa model SVM dengan TF-IDF yang mencapai akurasi rata-rata 91,47% melampaui penelitian sebelumnya, seperti . ,7%) dan . ,1%). Peningkatan ini kemungkinan besar disebabkan oleh prapemrosesan teks yang optimal, termasuk penggunaan pustaka Sastrawi untuk stemming, yang efektif menangani kompleksitas morfologi bahasa Indonesia, seperti reduplikasi (Aulambat-lambatA. dan afiksasi (AumelambatA. Penggunaan bigram dalam TF-IDF juga meningkatkan sensitivitas model terhadap konteks, seperti frasa Aujaringan lambatAy atau Ausinyal burukAy, yang sering muncul dalam keluhan pelanggan. Analisis confusion matrix lebih lanjut menunjukkan bahwa model sangat andal dalam mendeteksi sentimen negatif . ecall 99,20%), yang krusial mengingat dominasi keluhan negatif dalam dataset . %). Namun, presisi yang sedikit lebih rendah . ,27%) menunjukkan adanya false positive, kemungkinan karena tantangan dalam mendeteksi sarkasme atau code-mixing . isalnya, campuran bahasa Indonesia dan Inggris seperti Auinternet down bangetA. , yang umum dalam bahasa informal di media sosial Indonesia. Secara akademik, penelitian ini memperkuat temuan . bahwa SVM efektif untuk klasifikasi teks berdimensi tinggi, terutama ketika dikombinasikan dengan TF-IDF. Keunggulan SVM terletak pada kemampuannya mencari hyperplane optimal yang memisahkan kelas dengan margin maksimal, sehingga cocok untuk dataset dengan fitur TF-IDF yang memiliki dimensi tinggi. Namun, keterbatasan model terletak pada kemampuan menangani nuansa bahasa seperti sarkasme dan code-mixing, yang sering ditemukan di Twitter Indonesia. Tren terkini di bidang Natural Language Processing (NLP) pada tahun 2025 menunjukkan peningkatan adopsi model transformer seperti BERT dan RoBERTa, yang lebih unggul dalam menangkap konteks semantik mendalam dan data multimodal . eks dan gamba. Misalnya. BERT dapat memahami hubungan antar-kata dalam kalimat secara bidirectional, yang memungkinkan deteksi sarkasme atau konteks emosional yang lebih akurat dibandingkan SVM. Penelitian selanjutnya dapat mengintegrasikan pendekatan Copyright A 2025 The Author. Page 1391 This Journal is licensed under a Creative Commons Attribution 4. 0 International License BULLETIN OF COMPUTER SCIENCE RESEARCH ISSN 2774-3659 (Media Onlin. Vol 5. No 6. October 2025 | Hal 1387-1394 https://hostjournals. com/bulletincsr DOI: 10. 47065/bulletincsr. ini untuk mengatasi kelemahan SVM, terutama dalam menangani data media sosial yang dinamis. Selain itu, eksplorasi model hybrid, seperti SVM dengan mekanisme attention, dapat meningkatkan akurasi hingga 5-10%, berdasarkan studi komparatif . Secara praktis, model ini memberikan alat yang andal bagi ISP untuk memantau keluhan pelanggan secara realtime, memungkinkan identifikasi cepat terhadap isu-isu kritis seperti gangguan jaringan atau ketidakpuasan terhadap layanan pelanggan. Rekomendasi spesifik meliputi: Investasi Infrastruktur Jaringan: ISP perlu meningkatkan kapasitas bandwidth dan mengadopsi teknologi edge computing untuk mengurangi latensi, terutama di wilayah dengan keluhan tinggi seperti AusinyalAy dan AugangguanAy. Investasi ini dapat mencakup perluasan jaringan fiber optic dan 5G untuk mengatasi kesenjangan digital. Peningkatan Layanan Pelanggan: Implementasi sistem CRM berbasis AI dapat meningkatkan responsivitas layanan pelanggan, mengatasi isu AucsAy melalui otomatisasi tanggapan awal atau pelatihan staf untuk menangani keluhan dengan lebih personal. Otomatisasi Proses Billing: Sistem billing otomatis dengan transparansi yang lebih tinggi dapat mengurangi keluhan terkait AutagihanAy dan AubillingAy, seperti kesalahan penagihan atau prosedur pembayaran yang rumit. Dampak ekonomi dari penerapan rekomendasi ini termasuk potensi pengurangan churn rate hingga 15%, yang dapat meningkatkan retensi pelanggan dan pendapatan ISP, mengingat nilai pasar telekomunikasi Indonesia yang mencapai triliunan rupiah. Selain itu, model ini dapat diintegrasikan ke dalam sistem Customer Experience Monitoring untuk mendukung pengambilan keputusan strategis, seperti alokasi sumber daya untuk perbaikan infrastruktur di wilayah Dari perspektif kebijakan, hasil penelitian ini dapat mendukung inisiatif pemerintah untuk memperluas akses broadband di wilayah tertinggal, sejalan dengan visi transformasi digital Indonesia menuju masyarakat 5. Namun, penelitian ini memiliki beberapa keterbatasan. Pertama, dataset yang hanya bersumber dari salah satu media sosial, mungkin tidak sepenuhnya representatif terhadap opini pengguna internet secara keseluruhan, mengingat masih banyak media sosial atau forum online yang lain yang juga memiliki basis pengguna yang besar di Indonesia. Kedua, model ini menghadapi tantangan dalam mendeteksi nuansa bahasa seperti sarkasme atau konteks emosional yang kompleks, yang memerlukan pendekatan berbasis deep learning seperti BERT. Ketiga, analisis frekuensi kata belum sepenuhnya mengeksplorasi hubungan antar-kata melalui metode seperti Latent Dirichlet Allocation (LDA) untuk topic modeling, yang dapat memberikan wawasan lebih mendalam tentang kluster keluhan, seperti keluhan teknis versus Penelitian selanjutnya disarankan untuk: Memperluas sumber data dengan menyertakan platform lain seperti Instagram atau forum online untuk menangkap opini yang lebih beragam. Mengadopsi model transformer seperti BERT untuk meningkatkan akurasi dalam menangani konteks bahasa, termasuk sarkasme dan code-mixing. Mengintegrasikan analisis multimodal untuk memproses data teks dan visual, seperti meme atau gambar yang sering menyertai keluhan di media sosial. Menerapkan topic modeling untuk mengidentifikasi tema-tema spesifik dalam keluhan, seperti isu teknis, administratif, atau regional, untuk rekomendasi yang lebih terarah. Secara keseluruhan, penelitian ini tidak hanya memberikan kontribusi akademik dengan memperkaya literatur analisis sentimen berbahasa Indonesia, tetapi juga menawarkan solusi praktis bagi ISP untuk meningkatkan kualitas Dengan memanfaatkan data media sosial yang real-time, model ini mendukung transformasi digital yang lebih responsif terhadap kebutuhan pelanggan, sekaligus berkontribusi pada pembangunan ekosistem digital yang lebih inklusif di Indonesia. Integrasi hasil penelitian ini dengan strategi bisnis ISP dan kebijakan pemerintah dapat mempercepat pencapaian visi Indonesia sebagai masyarakat digital yang maju, dengan akses internet yang merata dan layanan yang memenuhi ekspektasi pelanggan. KESIMPULAN Penelitian ini berhasil mengembangkan model analisis sentimen berbasis Support Vector Machine (SVM) dan Term FrequencyAeInverse Document Frequency (TF-IDF) untuk mengklasifikasikan keluhan pelanggan terhadap layanan Internet Service Provider (ISP) di Indonesia berdasarkan data dari salah satu media sosial. Model ini mencatat performa yang sangat baik dengan akurasi rata-rata 91,47%, presisi 94,27%, recall 99,20%, dan F1-score 96,67%, mengungguli penelitian sebelumnya yang mencapai akurasi antara 85Ae88%. Keberhasilan ini menunjukkan bahwa kombinasi SVM dan TF-IDF mampu menangani teks berbahasa Indonesia dengan efektif, terutama dalam konteks keluhan pelanggan yang cenderung menggunakan bahasa informal dan ekspresif. Analisis frekuensi kata mengungkapkan bahwa isu utama yang dikeluhkan pelanggan adalah kecepatan dan stabilitas jaringan, dengan kata-kata seperti AulambatAy. AugangguanAy, dan AusinyalAy mendominasi, mencerminkan tantangan infrastruktur digital di Indonesia yang masih belum merata. Secara akademik, penelitian ini memperkaya literatur analisis sentimen berbahasa Indonesia, khususnya dalam domain media sosial, yang kini menjadi sumber data penting untuk memahami dinamika opini publik. Secara praktis, model ini memberikan alat yang andal bagi ISP untuk memantau sentimen pelanggan secara real-time, memungkinkan identifikasi cepat terhadap isu-isu kritis seperti gangguan jaringan atau ketidakpuasan terhadap layanan pelanggan, sehingga mendukung pengambilan keputusan strategis untuk meningkatkan kualitas layanan. Namun, penelitian ini memiliki keterbatasan, seperti cakupan data yang hanya terbatas pada salah satu media sosial, yang mungkin tidak sepenuhnya Copyright A 2025 The Author. Page 1392 This Journal is licensed under a Creative Commons Attribution 4. 0 International License BULLETIN OF COMPUTER SCIENCE RESEARCH ISSN 2774-3659 (Media Onlin. Vol 5. No 6. October 2025 | Hal 1387-1394 https://hostjournals. com/bulletincsr DOI: 10. 47065/bulletincsr. mencerminkan opini pengguna internet secara keseluruhan, serta tantangan dalam mendeteksi nuansa bahasa seperti sarkasme atau konteks emosional yang kompleks. Untuk mengatasi keterbatasan ini, penelitian selanjutnya disarankan untuk mengadopsi model deep learning seperti BERT, yang memiliki kemampuan lebih baik dalam memahami konteks bahasa, serta memperluas sumber data dengan memasukkan platform atau forum online lainnya untuk menghasilkan gambaran yang lebih representatif terhadap opini masyarakat Indonesia. REFERENCES