Jurnal Pelita Teknologi. Vol. 2025, pp. PELITA TEKNOLOGI Journal homepage: jurnal. id,p-ISSN: 2301-475X, e-ISSN: 2656-7059 Analisis Sentimen Ulasan Aplikasi Tokopedia Pada Google Play Store Menggunakan Natural Language Processing (NLP) Dengan Algoritma Logistic Regression Irfan Afriantoro1. Fauzi Farhansyah2 1,2Program Studi Teknik Informatika. Fakultas Teknik. Universitas Pelita Bangsa Bekasi. Indonesia Korespondensi email: irfanafriantoro@pelitabangsa. Abstrak Informasi Artikel Pertumbuhan e-commerce di Indonesia yang Diterima: 8 Desember 2024 semakin pesat, khususnya pada platform Direvisi: 6 Februari 2025 Tokopedia, menghasilkan volume ulasan Dipublikasikan: 30 Maret 2025 pengguna yang besar di Google Play Store dan berpotensi dimanfaatkan sebagai sumber data untuk evaluasi layanan. Penelitian ini bertujuan mengembangkan sistem analisis sentimen otomatis berbasis Natural Language Processing (NLP) terhadap ulasan pengguna dengan memanfaatkan algoritma Logistic Regression dan antarmuka bot pada platform Telegram. Ekstraksi fitur teks dilakukan menggunakan metode TF- Keywords IDF, sedangkan proses klasifikasi sentimen Analisis Sentimen. NLP. Logistic, menggunakan Logistic Regression. Hasil Reggression. TF-IDF. Bot Telegram pengujian menunjukkan model mencapai akurasi rata-rata sebesar 75,89% dengan nilai precision, recall, dan F1-score masing-masing sebesar 0,75. Sistem mengintegrasikan model BERT lokal dari Hugging Face dan model sentimen hasil pelatihan lokal untuk mendukung klasifikasi sentimen secara real-time melalui bot. Penelitian ini memberikan kontribusi berupa solusi praktis analisis sentimen berbasis bot yang mudah diakses serta menawarkan pendekatan integratif antara metode NLP konvensional dan model AI generatif modern. Pendahuluan Transformasi digital mendorong pertumbuhan e-commerce Indonesia menjadikannya pilar penting ekonomi modern . Tokopedia sebagai salah satu platform terkemuka berperan dalam memfasilitasi transaksi daring sekaligus menghubungkan konsumen dengan pelaku UMKM . Dengan jutaan pengguna aktif, platform ini menyediakan ISSN: p. 2301-475X e. beragam kategori produk dan layanan untuk memudahkan proses jual beli online . , . Peningkatan penggunaan aplikasi diikuti banyaknya ulasan pada Google Play Store yang pengguna . Walaupun bersifat subjektif, ulasan mengandung informasi penting . , namun pengolahan data dalam jumlah besar masih menjadi tantangan untuk menghasilkan wawasan strategis bagi peningkatan layanan . Analisis sentimen berbasis Natural Language Processing (NLP) menjadi pendekatan yang relevan untuk mengekstraksi pola opini dari data teks . Penelitian ini menggunakan metode kuantitatif dengan dukungan teknik NLP dan pembelajaran mesin. Representasi fitur dilakukan menggunakan TF-IDF . dan klasifikasi menggunakan Logistic Regression . untuk menghasilkan data sentimen yang terstruktur. NLP memungkinkan pemrosesan variasi bahasa dan ekspresi emosional . , sementara Logistic Regression terbukti kompetitif pada tugas klasifikasi teks dan sentimen . , . , . , terutama bila dipadukan dengan TF-IDF . Penerapan analisis sentimen pada ulasan Tokopedia mengidentifikasi kelebihan dan kelemahan layanan . , . , mendukung strategi pemasaran . , meningkatkan pengalaman pengguna . , serta memperkaya kajian NLP di domain e-commerce Indonesia . Oleh karena itu, penelitian ini bertujuan menganalisis dan mengklasifikasikan sentimen ulasan pengguna Tokopedia, mengidentifikasi faktor yang memengaruhi persepsi pengguna, menguji efektivitas Logistic Regression berbasis TF-IDF, serta mengembangkan integrasi model NLP dengan bot Telegram sebagai media interaktif klasifikasi sentimen . , . , . , . Metodologi Penelitian kuantitatif dengan analisis data teks berbasis Natural Language Processing (NLP). Data ulasan pengguna dianalisis secara terstruktur melalui proses ekstraksi fitur TF-IDF dan klasifikasi sentimen menggunakan algoritma Logistic Regression. Pendekatan pengolahan data numerik hasil transformasi teks serta evaluasi kinerja model menggunakan metrik Objek penelitian ini adalah aplikasi Tokopedia yang tersedia pada Google Play Store sebagai salah satu platform e-commerce terbesar di Indonesia yang memfasilitasi transaksi daring antara penjual dan pembeli. Data yang dianalisis berupa ulasan pengguna dengan atribut username sebagai identitas pemberi ulasan, rating numerik skala 1Ae5, tanggal ulasan, dan teks ulasan. Dataset penelitian terdiri dari 14. 999 ulasan yang dipilih secara acak untuk merepresentasikan variasi sentimen positif dan negatif. Data ulasan dikumpulkan melalui teknik scraping menggunakan library Python Google-PlayScraper. Tahapan pengumpulan meliputi persiapan lingkungan kerja dan dependensi library, penentuan parameter scraping seperti jumlah data dan filter ulasan, ekstraksi data menggunakan fungsi reviews yang menghasilkan keluaran berbentuk dictionary, kemudian dikonversi menjadi dataframe dengan Pandas, serta pembersihan, pengurutan berdasarkan tanggal terbaru, dan penyimpanan data untuk tahap analisis selanjutnya. Dataset yang telah melalui tahap praproses dibagi menjadi dua subset, yaitu data latih sebesar 80% dan data uji sebesar 20%. Data latih digunakan untuk membangun model, sedangkan data uji digunakan untuk mengukur kinerja model terhadap data yang tidak terlibat dalam proses Teks ulasan ditransformasikan ke dalam representasi numerik menggunakan metode TFAe IDF (Term FrequencyAeInverse Document Frequenc. Teknik ini memberikan bobot pada setiap kata berdasarkan tingkat kemunculan dalam dokumen dan keseluruhan korpus, sehingga fitur yang dihasilkan merepresentasikan tingkat kepentingan kata dalam konteks ulasan. Proses menggunakan algoritma Logistic Regression. Model ini digunakan untuk memprediksi probabilitas kelas sentimen . ositif, negatif, atau netra. berdasarkan fitur numerik hasil ekstraksi TFAeIDF. Kinerja model dievaluasi menggunakan beberapa metrik, yaitu accuracy untuk mengukur proporsi prediksi benar, precision untuk menilai ketepatan prediksi per kelas, recall untuk mengukur kemampuan menemukan data relevan. F1-score sebagai rata-rata harmonik precision dan recall, serta confusion matrix untuk menggambarkan distribusi hasil klasifikasi. Model yang telah dilatih diintegrasikan ke dalam antarmuka bot Telegram untuk mendukung klasifikasi sentimen secara interaktif. Sistem ini menggabungkan model klasifikasi lokal dan model BERT multilingual dari Hugging Face . ert-base-multilingual-uncased-sentimen. Melalui bot, pengguna dapat mengirim teks ISSN: p. 2301-475X e. ulasan dan memperoleh hasil prediksi sentimen secara langsung. II. Hasil dan Pembahasan Penelitian ini menggunakan 14. 999 ulasan pengguna aplikasi Tokopedia yang dikumpulkan dari Google Play Store melalui scraping dengan library google-play-scraper. Data mencakup atribut username, score . ating 1Ae. , tanggal, dan teks ulasan, yang kemudian dilabeli menjadi tiga kelas sentimen: negatif, netral, dan positif. Distribusi ulasan menunjukkan dominasi skor ekstrem . , menandakan banyak sentimen positif maupun negatif. %) untuk pemodelan. Fitur teks diubah menjadi representasi numerik menggunakan TFAe IDF, kemudian diklasifikasikan dengan Logistic Regression. Evaluasi model menunjukkan akurasi 0,75, precision 0,83, recall 0,77, dan F1-score 0,78. Model Logistic Regression menunjukkan performa baik dalam membedakan sentimen positif dan negatif. Pada kelas negatif, 971 ulasan diklasifikasikan dengan benar, meski 154 salah ke netral dan 66 ke positif, menunjukkan sedikit Kelas netral memiliki akurasi terendah, dengan hanya 53 prediksi benar, karena ekspresi netral sering mirip dengan opini lemah dari positif atau negatif. Kelas positif menunjukkan kinerja tinggi, dengan 1. 249 prediksi tepat, meski terdapat 129 kesalahan ke negatif dan 254 ke Secara keseluruhan, model efektif dalam sensitifitas terhadap netralitas masih terbatas. Gambar 1. Distribusi Skor Tahap praproses teks menggunakan NLTK dan Sastrawi mencakup lowercasing, tokenisasi, penghapusan stopword, dan stemming untuk menstandarkan teks. Gambar 2. Confusion Matrix Gambar 3. Distribusi Label Sentimen Visualisasi tambahan berupa distribusi label dan wordcloud menunjukkan kata dominan per kelas Model kemudian diintegrasikan dengan bot Telegram, yang mendukung dua mode analisis: TFAeIDF Logistic Regression dan BERT . lptown/bert-basemultilingual-uncased-sentimen. Bot memungkinkan pengguna mengirim teks ulasan secara langsung dan menerima hasil klasifikasi sentimen secara real-time. Pendekatan ini menunjukkan Logistic Regression cukup efisien dan mudah diinterpretasikan, meski keterbatasan tetap ada dalam mendeteksi konteks implisit atau Dataset dibagi menjadi data latih sebanyak 999 data . %) dan data uji sebanyak 3000 Jurnal Pelita Teknologi. Vol. 2025, pp. PELITA TEKNOLOGI Journal homepage: jurnal. id,p-ISSN: 2301-475X, e-ISSN: 2656-7059 . Gambar 4. Wordcloud . sentimen negatif . sentimen positif . sentimen netral Algoritma K-Nearest Neighbor,Ay vol. 3, 2023. Kesimpulan . SyaAobani Wardana. Prima Aditiawan, and A. Sari. AuVISA: Journal of Visions Penelitian ini menunjukkan bahwa analisis Ideas Logistic Regression sentimen pada ulasan pengguna Tokopedia di Classification TF-IDF FastText Google Play Store dapat dilakukan secara efektif for Sentiment Analysis of LinkedIn menggunakan kombinasi TFAeIDF dan Logistic ReviewsAy. Regression. Model berhasil membedakan sentimen positif dan negatif dengan akurasi 0,75 . Putri and I. Kharisudin. AuPenerapan dan F1-score 0,78, meskipun performa pada kelas Synthetic Minority Oversampling netral lebih rendah akibat ekspresi yang ambigu. Technique (SMOTE) Terhadap Analisis Integrasi model ke dalam bot Telegram Sentimen Data Review Pengguna Aplikasi memungkinkan klasifikasi sentimen secara realMarketplace Tokopedia,Ay PRISMA, time, memudahkan interaksi pengguna, dan Prosiding Seminar Nasional Matematika, mendukung pengambilan keputusan berbasis 5, pp. 759Ae766, 2022, [Onlin. Pendekatan ini menunjukkan bahwa metode Available: machine learning ringan dapat diaplikasikan https://journal. id/sju/index. php/pr secara efisien pada data ulasan e-commerce, sekaligus membuka peluang pengembangan model lebih lanjut dengan penyesuaian data dan . Hagi and D. Rarasati. AuSentiment Analysis of Sirekap Application Review teknik NLP yang lebih kompleks. Using Logistic Regression Algorithm,Ay Jurnal Informatika, vol. 11, no. 2, pp. Daftar Pustaka