e-ISSN : 2597-3673 (Onlin. , p-ISSN : 2579-5201 (Printe. Vol. 9 No. 1 (June 2. Journal of Information System. Informatics and Computing Website/URL: http://journal. id/index. php/jisicom Email: jisicom@stmikjayakarta. id , jisicom2017@gmail. PENERAPAN HADOOP DALAM ANALISIS SENTIMEN ULASAN PENGGUNA DI PLATFROM ECCOMERCE (Application Of Hadoop In Sentiment Analysis Of User Reviews On The Eccomerce Platfro. Nurdian Kasim 1. Ni Luh Ica Ardini2. Alfi Zahrah Muharramah3. Hikma4. Muhammad Vannes Al Qadri5. Rosalina6. Wa Ode Asriyani7. Eviriawan8. Adha Mashur Sajiah9 Program Studi Teknik Informatika. Universitas Halu Oleo. Kendari Jl. A Mokodompit Kampus Baru Tridharma Anduonohu,Kendari 92131 Indonesia nurdiankasim1948@gmail. com, niluhicaardini@gmail. alfizahramuharramah@gmail. com, hikma36@gmail. muhammadvannesalqadri@gmail. rosalina29042004@gmail. e1e122034@gmail. eviriawan052004@gmail. com, adha. sajiah@uho. Received: February 12, 2025. Revised: March 3, 2025. Accepted: March 5, 2025. Issue Period: Vol. 9 No. Pp. Abstrak: Studi ini menyelidiki penggunaan teknologi Hadoop dan algoritma Naive Bayes untuk menganalisis sentimen ulasan pengguna di platform e-commerce. Data yang digunakan berasal dari 391. 500 ulasan dari aplikasi Shopee yang dikumpulkan melalui scraping Google Play Store. Implementasi model klasifikasi sentimen, pengumpulan data melalui web scraping, dan pra-pemrosesan data menggunakan PySpark adalah metodologi penelitian. Hasil penelitian menunjukkan bahwa model Naive Bayes dapat mengklasifikasikan perasaan pengguna dengan akurasi 87%. Menurut analisis word cloud, elemen seperti gratis ongkir dan kemudahan penggunaan menjadi pendorong utama sentimen positif. Sementara itu, sentimen negatif didominasi oleh masalah teknis aplikasi dan layanan pelanggan. Penelitian ini menunjukkan bahwa penggunaan Hadoop dan Naive Bayes dalam analisis data ulasan berskala besar saat mengembangkan platform e-commerce adalah efektif. Kata kunci: Analisis Sentimen, . Big Data. E-commerce. Hadoop. Naive Bayes. PySpark Abstract: This study examines the use of Hadoop technology and the Naive Bayes algorithm to analyze user sentiment on e-commerce platforms. The data used comes 500 ulasan from the Shopee application, which was obtained via scraping the Google Play Store. The implementation of the classification model, data collection by web scraping, and data preparation using PySpark are research The study's findings indicate that the Naive Bayes model can classify user behavior with an accuracy of 87%. According to word cloud analysis, features DOI: 10. 52362/jisicom. Ciptaan disebarluaskan di bawah Lisensi Creative Commons Atribusi 4. 0 Internasional. e-ISSN : 2597-3673 (Onlin. , p-ISSN : 2579-5201 (Printe. Vol. 9 No. 1 (June 2. Journal of Information System. Informatics and Computing Website/URL: http://journal. id/index. php/jisicom Email: jisicom@stmikjayakarta. id , jisicom2017@gmail. like free ongkir and ease of use are the most positive indicators. On the other hand, negative sentiment was caused by issues with application technology and customer This study shows that using Hadoop and Naive Bayes to analyze large-scale data while developing an e-commerce platform is effective. Keywords: Big Data. E-commerce. Hadoop. Naive Bayes. PySpark. Sentiment Analysis PENDAHULUAN Perilaku masyarakat telah berubah secara signifikan sebagai akibat dari meningkatnya pengguna internet dan perkembangan teknologi digital, khususnya di bidang ekonomi. Saat ini, salah satu media utama untuk belanja online adalah platform dan pasar e-commerce. Dengan sekitar 21 juta orang terlibat dalam transaksi ecommerce. Indonesia mengalami peningkatan transaksi pembelian online sebesar 14,9% pada tahun 2022, menunjukkan perkembangan penting dalam adopsi teknologi digital secara masyarakat di negara ini . Pertumbuhan ekonomi yang berkelanjutan di tingkat nasional dan internasional juga sangat dipengaruhi oleh teknologi digital. Hal ini konsisten dengan penelitian Badan Pusat Statistik, yang mengklaim bahwa penggunaan teknologi informasi dan internet secara signifikan meningkatkan penjualan produk dan efisiensi perusahaan . E-commerce telah berkembang pesat, tetapi juga memunculkan kesulitan baru yang harus diselesaikan, terutama di bidang pengalaman pelanggan . Ketidakcocokan antara deskripsi produk dan kondisi aktual dari barang yang diperoleh, kualitas produk yang buruk, pembatasan pembayaran, dan masalah pengiriman adalah beberapa masalah utama yang sering ditemui pelanggan di platform e-commerce. Pelanggan sering menyuarakan semua masalah ini dalam evaluasi yang diposting di situs web e-commerce. Mengingat kuantitas evaluasi yang terus meningkat, sangat penting bagi bisnis untuk memahami bagaimana perasaan pelanggan tentang barang atau jasa yang mereka sediakan . Analisis sentimen, yang mencoba mengklasifikasikan teks yang disediakan pengguna ke dalam tiga kategori utama positif, negatif, atau netral sangat penting untuk memahami opini konsumen. Bisnis dapat meningkatkan barang, layanan, dan pengalaman pengguna mereka dengan mengambil langkah yang tepat berdasarkan pemahaman mereka tentang sentimen pelanggan. Analisis sentimen juga berguna untuk merencanakan dan melihat tren pasar. Namun, teknologi yang dapat menangani data dalam jumlah besar juga disebut sebagai Big Data diperlukan untuk melakukan analisis sentimen pada ulasan pengguna ini. Kumpulan data yang sangat besar, rumit, dan tidak terstruktur yang tidak dapat dipahami oleh sistem atau aplikasi database tradisional disebut sebagai "Big Data" . Akibatnya, kerangka kerja open source seperti Hadoop sangat penting untuk menangani dan menganalisis data dalam jumlah besar. Dengan kapasitas ini. Hadoop dapat mempercepat analisis sentimen evaluasi pengguna, memungkinkan bisnis untuk membuat keputusan berdasarkan data lebih cepat . Selain itu, telah ditunjukkan bahwa teknik pembelajaran mesin seperti Naive Bayes berhasil mengkategorikan sentimen ulasan pengguna. Teorema Bayes, yang merupakan dasar dari algoritma probabilistik Naive Bayes, membuat asumsi bahwa setiap fitur data adalah unik . Naive Bayes tetap dapat menghasilkan hasil yang luar biasa dalam klasifikasi teks, terutama dalam analisis sentimen, meskipun asumsi ini tidak umum dalam kehidupan nyata. Menurut sebuah studi oleh . Naive Bayes masih dapat menghasilkan hasil yang akurat ketika berhadapan dengan berbagai macam input teks. Naive Bayes, di sisi lain, sangat sukses dalam mengevaluasi ulasan produk di platform e-commerce Indonesia dan dapat membedakan dengan tepat antara sentimen positif dan negatif, menurut penelitian oleh . Terlepas dari akurasi tinggi Naive Bayes dalam klasifikasi sentimen, pemrosesan big data memerlukan teknologi yang mampu menangani data dalam jumlah besar. Sementara Naive Bayes dapat secara akurat mengklasifikasikan sentimen. Hadoop memungkinkan pemrosesan data yang efektif dalam skala besar. Bahkan ketika data tinjauan yang dipelajari mencapai jutaan entri, kombinasi Hadoop dan Naive Bayes meningkatkan akurasi analisis sentimen dan mempercepat waktu pemrosesan, menurut studi oleh . Analisis sentimen yang didukung Hadoop pada platform e-commerce membantu bisnis lebih memahami preferensi dan keluhan pelanggan sekaligus meningkatkan efisiensi pemrosesan data besar. Temuan analisis dapat diterapkan untuk meningkatkan layanan pelanggan, kualitas produk, dan pembuatan strategi pemasaran. Dengan memanfaatkan Hadoop, strategi ini juga memungkinkan bisnis untuk menyesuaikan diri dengan perubahan di pasar. DOI: 10. 52362/jisicom. Ciptaan disebarluaskan di bawah Lisensi Creative Commons Atribusi 4. 0 Internasional. e-ISSN : 2597-3673 (Onlin. , p-ISSN : 2579-5201 (Printe. Vol. 9 No. 1 (June 2. Journal of Information System. Informatics and Computing Website/URL: http://journal. id/index. php/jisicom Email: jisicom@stmikjayakarta. id , jisicom2017@gmail. Oleh karena itu, tujuan dari penelitian ini adalah untuk menyelidiki bagaimana Hadoop dapat digunakan untuk menganalisis ulasan pelanggan pada platform e-commerce menggunakan algoritma Naive Bayes untuk analisis sentimen. Penelitian ini bertujuan untuk memberikan wawasan yang lebih baik kepada bisnis melalui pemrosesan Big Data sehingga mereka dapat meningkatkan pengalaman pelanggan dan bereaksi terhadap perkembangan pasar dengan lebih efektif. II. TINJAUAN PUSTAKA Analisis Sentimen Tujuan dari analisis sentimen, subbidang pemrosesan bahasa alami, adalah untuk mengenali dan mengkategorikan perasaan atau pandangan yang diungkapkan dalam teks . Karena penelitian sentimen dapat mengungkapkan bagaimana konsumen melihat dan terlibat dengan produk atau layanan tertentu, sangat penting untuk platform e-commerce. Analisis sentimen, misalnya, dapat digunakan untuk memprediksi apakah ulasan produk akan netral, menguntungkan, atau negatif. Temuan analisis dapat digunakan oleh bisnis untuk meningkatkan pengalaman pengguna, memodifikasi taktik pemasaran, dan menghasilkan produk berkualitas lebih tinggi. Analisis sentimen untuk platform e-commerce telah banyak digunakan dalam penelitian sebelumnya. Sebuah studi oleh . yang menggunakan teknik klasifikasi sentimen untuk memeriksa ulasan pengguna di pasar dan e-commerce berfungsi sebagai salah satu contoh. Analisis sentimen dapat digunakan untuk mengontrol sentimen pelanggan dan menawarkan wawasan berharga tentang produk yang berkinerja baik atau sedang berjuang. Studi lain oleh . pada platform e-commerce Indonesia mengklaim bahwa analisis sentimen yang tepat dapat mempercepat kemampuan perusahaan untuk menyesuaikan diri dengan perubahan pasar. Big Data dan Hadoop Volume besar ulasan produk, berbagai format, dan seringkali data tidak terstruktur yang tidak dapat ditangani oleh perangkat lunak pemrosesan data tradisional atau sistem basis data adalah contoh Big Data di industri e-commerce. Ini menghadirkan kesulitan manajemen unik yang dapat diselesaikan dengan bantuan teknologi seperti Hadoop. Platform Hadoop sumber terbuka dibuat untuk menangani volume data yang sangat besar dengan cepat. Dengan bantuan MapReduce dan Hadoop distributed file systems (HDFS), ia dapat menyimpan dan memproses data dalam jumlah besar sekaligus . Melalui penyebaran pemrosesan data di berbagai node dalam sebuah kluster. Hadoop memungkinkan pengolahan jumlah data yang sangat besar. Dalam penelitian yang dilakukan oleh . Hadoop digunakan untuk mengelola dan menganalisis ulasan pengguna di platform e-commerce. Penelitian tersebut menunjukkan bahwa Hadoop sangat efektif dalam mengelola volume data yang signifikan, meningkatkan efisiensi pengolahan data, dan menghasilkan wawasan yang lebih cepat dan akurat. Dengan menggunakan Hadoop, perusahaan dapat menemukan tren dan pola dalam ulasan pengguna dengan lebih mudah dan lebih cepat. Analisis sentimen dengan Nayve Bayes Salah satu metode pembelajaran mesin paling populer untuk analisis sentimen, terutama dalam klasifikasi teks, adalah Naive Bayes. Pendekatan ini bergantung pada teorema Bayes, yang menentukan probabilitas kelas berdasarkan fitur yang ditemukan dalam data. Asumsi bahwa setiap karakteristik dalam data bersifat independen digunakan oleh Naive Bayes, namun ini tidak selalu terjadi. Namun. Naive Bayes telah menunjukkan janji dalam sejumlah aplikasi . Ulasan produk di situs e-commerce berhasil diklasifikasikan menggunakan Naive Bayes dalam sebuah penelitian oleh . Studi ini menunjukkan bahwa bahkan dengan kumpulan data yang besar dan beragam. Naive Bayes masih dapat menghasilkan klasifikasi yang benar. Selanjutnya, . menemukan bahwa analisis sentimen ulasan produk di e-commerce Indonesia dapat dilakukan dengan menggunakan Naive Bayes. Temuan studi ini menunjukkan seberapa baik algoritma Naive Bayes mengklasifikasikan sentimen pengguna sebagai netral, negatif, atau negatif. Dalam teks yang tidak terstruktur, seperti evaluasi produk, yang sering menggunakan bahasa santai dan beragam. Naive Bayes juga telah menunjukkan janji dalam mendeteksi sentimen. Penelitian oleh . menunjukkan bahwa analisis sentimen Naive Bayesian mengungguli teknik lain, seperti Support Vector Machine (SVM), dalam hal kecepatan dan akurasi. DOI: 10. 52362/jisicom. Ciptaan disebarluaskan di bawah Lisensi Creative Commons Atribusi 4. 0 Internasional. e-ISSN : 2597-3673 (Onlin. , p-ISSN : 2579-5201 (Printe. Vol. 9 No. 1 (June 2. Journal of Information System. Informatics and Computing Website/URL: http://journal. id/index. php/jisicom Email: jisicom@stmikjayakarta. id , jisicom2017@gmail. Integrasi Hadoop dan Nayve Bayes Meskipun merupakan algoritma yang bagus untuk kategorisasi teks. Naive Bayes masih memiliki masalah dengan memproses data dalam jumlah besar, terutama ketika berhadapan dengan data yang sangat besar seperti yang terlihat dalam analisis ulasan e-commerce. Kombinasi Hadoop dan Naive Bayes, bagaimanapun, memberikan solusi: Hadoop dapat digunakan untuk pemrosesan terdistribusi dan penyimpanan data besar, sedangkan Naive Bayes dapat digunakan untuk klasifikasi dan analisis data besar . Penelitian yang dilakukan oleh . menemukan bahwa penggabungan Hadoop dan Naive Bayes meningkatkan efisiensi pengolahan data besar. Dalam penelitian ini. Hadoop digunakan untuk melakukan pemrosesan data secara bersamaan, sedangkan Naive Bayes digunakan untuk melakukan klasifikasi sentimen terhadap ulasan produk. Hasil penelitian menunjukkan bahwa kombinasi keduanya dapat menghasilkan analisis sentimen yang lebih cepat dan lebih akurat daripada analisis Penggabungan ini juga memungkinkan perusahaan untuk membuat keputusan yang lebih berbasis data dan beradaptasi dengan perubahan pasar. Perusahaan e-commerce dapat memperoleh pemahaman yang lebih baik tentang sentimen konsumen dan meresponsnya dengan lebih tepat waktu dengan integrasi pengolahan data besar yang efektif menggunakan Hadoop dan klasifikasi sentimen yang akurat menggunakan Naive Bayes. Kombinasi ini meningkatkan kinerja analisis sentimen dan memberikan perusahaan keuntungan kompetitif dalam pasar yang semakin kompetitif. METODOLOGI PENELITIAN Tujuan penelitian ini adalah untuk menggunakan teknologi Hadoop dan pendekatan Naive Bayes untuk mengelola data besar untuk menganalisis sentimen ulasan pelanggan di situs e-commerce. Metodologi penelitian ini dibagi menjadi beberapa fase utama, termasuk pengumpulan data, persiapan, pemrosesan data berbasis Hadoop, dan analisis sentimen menggunakan algoritma Naive Bayes. Berikut adalah rincian menyeluruh dari : Pengumpulan Data Data yang digunakan dalam penelitian ini berasal dari 391. 500 ulasan Shopee yang diperoleh dengan menggunakan pengikisan Google Play Store. Data ulasan pengguna dikumpulkan dari platform e-commerce dengan pengikisan web menggunakan paket Python seperti BeautifulSoup atau Scrapy. Peringkat, konten ulasan, dan detail tambahan seperti tanggal ulasan atau kategori produk semuanya disertakan dalam data ini. Data ini disimpan dalam Hadoop Distributed File System (HDFS) untuk memfasilitasi pemrosesan data skala Pra-Pemrosesan Data DOI: 10. 52362/jisicom. Ciptaan disebarluaskan di bawah Lisensi Creative Commons Atribusi 4. 0 Internasional. e-ISSN : 2597-3673 (Onlin. , p-ISSN : 2579-5201 (Printe. Vol. 9 No. 1 (June 2. Journal of Information System. Informatics and Computing Website/URL: http://journal. id/index. php/jisicom Email: jisicom@stmikjayakarta. id , jisicom2017@gmail. Gambar 3. 1 Pra-Pemrosesan Data Implementasi Hadoop Teknologi Apache Spark digunakan untuk mengelola dan memproses volume data ulasan yang sangat besar. Dalam penelitian ini. Hadoop Distributed File System (HDFS) masih digunakan untuk penyimpanan data ulasan terdistribusi, tetapi PySpark digunakan untuk pemrosesan data. Tahapan yang dilakukan dengan Spark adalah sebagai berikut: Penyimpanan Data di HDFS: Data yang telah diproses disimpan dalam HDFS, yang memungkinkan data didistribusikan ke berbagai node dalam kluster Hadoop. Pemrosesan Data dengan PySpark: Data diproses menggunakan PySpark, yang memungkinkan data untuk didistribusikan ke berbagai node Penerapan Naive Bayes untuk Analisis Sentimen Setelah pemrosesan data PySpark, sentimen dari teks ulasan diklasifikasikan menggunakan metode Naive Bayes. Ada beberapa langkah yang terlibat dalam proses klasifikasi: Distribusi Dataset: Data pelatihan dan data pengujian adalah dua komponen dari dataset tersebut. Data pengujian digunakan untuk mengevaluasi keakuratan model yang dilatih, sedangkan data pelatihan digunakan untuk melatih model Naive Bayes. Ekstraksi Fitur: Model Naive Bayes menggunakan kata-kata dalam ulasan sebagai fitur. Setiap kata dianggap sebagai elemen yang berbeda dalam perhitungan perasaan potensial. Untuk menyiapkan vektor fitur untuk digunakan dalam model, operasi ekstraksi fitur dijalankan menggunakan Spark MLlib. Pelatihan Model: Untuk menentukan kemungkinan sentimen berdasarkan kata-kata dalam ulasan, model Naive Bayes dilatih menggunakan kumpulan data pelatihan. Berdasarkan fitur . dalam teks, algoritma Naive Bayes menggunakan PySpark MLlib untuk menentukan kemungkinan sentimen positif, negatif, atau netral. Klasifikasi Sentimen: Setelah model dilatih, model Naive Bayes digunakan untuk mengklasifikasikan ulasan dalam dataset uji. Hasil klasifikasi akan menentukan sentimen dari ulasan, apakah positif, negatif, atau netral. Evaluasi Model Digunakan metrik evaluasi berikut untuk mengukur kemampuan model Naive Bayes untuk menganalisis Akurasi: Mengukur seberapa baik model mengklasifikasikan sentimen dengan benar. DOI: 10. 52362/jisicom. Ciptaan disebarluaskan di bawah Lisensi Creative Commons Atribusi 4. 0 Internasional. e-ISSN : 2597-3673 (Onlin. , p-ISSN : 2579-5201 (Printe. Vol. 9 No. 1 (June 2. Journal of Information System. Informatics and Computing Website/URL: http://journal. id/index. php/jisicom Email: jisicom@stmikjayakarta. id , jisicom2017@gmail. Presisi: Mengukur seberapa banyak ulasan yang diklasifikasikan sebagai positif, negatif, atau netral yang benar-benar sesuai dengan label yang seharusnya. Recall: Mengukur seberapa banyak ulasan yang seharusnya diklasifikasikan dalam kategori tertentu benar-benar teridentifikasi. F1-Score: Menunjukkan kinerja model secara keseluruhan melalui kombinasi recall dan presisi. IV. PEMBAHASA DAN HASIL Langkah pertama dalam menggunakan Hadoop untuk analisis data adalah menginstal Apache Hadoop. Peneliti Hadoop Perintah "sudo https://archive. org/dist/hadoop/common/hadoop3. 1/hadoop-3. gz" dapat digunakan untuk menginstal Apache Hadoop di komputer Linux. Tunggu hingga unduhan selesai. Menyiapkan Data Data ulasan aplikasi Shopee yang diperoleh dari hasil scraping di Play Store disiapkan dengan bantuan Hadoop dan PySpark. Langkah pertama dalam menyiapkan data adalah mengunggah data ke Hadoop. Kode editor yang digunakan adalah Jupyter Notebook. Gambar 4. 1 Proses Pengunggahan Data ke Hadoop Gambar 4. 2 Mengunggah Data ke Hadoop Data dibersihkan dengan mengubah karakteristik dan tipe data setelah data diunggah ke Hadoop. Gambar 4. 3 Tampilan data setelah disesuaikan atribut tipe datanya DOI: 10. 52362/jisicom. Ciptaan disebarluaskan di bawah Lisensi Creative Commons Atribusi 4. 0 Internasional. e-ISSN : 2597-3673 (Onlin. , p-ISSN : 2579-5201 (Printe. Vol. 9 No. 1 (June 2. Journal of Information System. Informatics and Computing Website/URL: http://journal. id/index. php/jisicom Email: jisicom@stmikjayakarta. id , jisicom2017@gmail. Preprocessing Data Langkah pertama dalam proses ini adalah menghapus item yang tidak perlu dari data. Misalnya, dengan menghilangkan tagar, sebutan, dan URL. Selain itu, karakter non-alfanumerik asing seperti simbol atau tanda baca tertentu juga ditinggalkan. Untuk membuat format data lebih rapi, spasi tambahan apa pun yang mungkin ada dalam data seperti di awal dan akhir teks juga dihilangkan. Gambar 4. 4 Tahap Preprocessing data Setelah tahap preprocessing data, proses selanjutnya adalah mengganti kata-kata dengan ejaan atau makna yang tidak sesuai menggunakan kamus normalisasi . ormalization dictionar. Kamus ini berisi pasangan kata yang sering salah eja atau tidak baku . isalnya kata slang atau singkata. , yang kemudian diganti dengan kata yang benar dan sesuai konteks. Langkah ini dilakukan untuk meningkatkan kualitas teks ulasan sehingga lebih terstruktur dan mudah dianalisis. Dalam implementasi ini, setiap kata dalam kolom review yang sesuai dengan entri di kamus akan digantikan dengan kata yang lebih formal atau standar. Gambar 4. 5 Normalisasi Data DOI: 10. 52362/jisicom. Ciptaan disebarluaskan di bawah Lisensi Creative Commons Atribusi 4. 0 Internasional. e-ISSN : 2597-3673 (Onlin. , p-ISSN : 2579-5201 (Printe. Vol. 9 No. 1 (June 2. Journal of Information System. Informatics and Computing Website/URL: http://journal. id/index. php/jisicom Email: jisicom@stmikjayakarta. id , jisicom2017@gmail. Setelah proses normalisasi selesai, langkah selanjutnya adalah tokenisasi. Tokenisasi adalah proses memecah teks dalam kolom review menjadi unit-unit kata atau token. Proses ini bertujuan agar setiap kata dalam ulasan dapat dianalisis secara individu, memungkinkan analisis lebih mendalam pada setiap komponen Gambar 4. 6 Tokenisasi data Menghilangkan stopwords adalah langkah penting dalam pemrosesan teks yang bertujuan untuk meningkatkan kualitas analisis data. Stopwords adalah kata-kata umum seperti "dan," "di," "yang," dan sejenisnya, yang sering muncul dalam teks tetapi memiliki kontribusi makna yang kecil dalam analisis. Dengan menghapus stopwords, fokus analisis dapat diarahkan pada kata-kata yang lebih relevan dan bermakna. Sebagai contoh, kalimat "saya suka makan di restoran" setelah dihapus stopwords menjadi "suka makan restoran. Langkah ini dilakukan menggunakan fungsi StopWordsRemover, di mana kolom yang berisi token akan diproses untuk menghasilkan kolom baru dengan token yang telah disaring. Proses ini membantu mempermudah analisis lebih lanjut seperti penghitungan frekuensi kata atau penerapan model pembelajaran mesin. Gambar 4. 7 Menghapus stopwords Setelah proses pembersihan data selesai, langkah selanjutnya adalah memilih kolom yang relevan untuk analisis sentimen. Dalam kasus ini, kolom yang dipilih mencakup rating, tanggal ulasan . , dan filtered_tokens_string. Kolom rating digunakan sebagai label sentimen yang akan dianalisis, sementara filtered_tokens_string berisi token teks ulasan yang telah difilter dan siap untuk diproses lebih lanjut. Pemilihan kolom ini bertujuan untuk menyederhanakan dataset sehingga hanya memuat informasi yang benar-benar diperlukan untuk analisis. Dengan langkah ini, data menjadi lebih terfokus dan siap untuk digunakan pada tahap DOI: 10. 52362/jisicom. Ciptaan disebarluaskan di bawah Lisensi Creative Commons Atribusi 4. 0 Internasional. e-ISSN : 2597-3673 (Onlin. , p-ISSN : 2579-5201 (Printe. Vol. 9 No. 1 (June 2. Journal of Information System. Informatics and Computing Website/URL: http://journal. id/index. php/jisicom Email: jisicom@stmikjayakarta. id , jisicom2017@gmail. analisis sentimen atau pelatihan model pembelajaran mesin. Langkah terakhir dalam proses ini adalah menampilkan dataset yang sudah disederhanakan untuk memastikan bahwa kolom yang dipilih sudah sesuai dengan kebutuhan analisis. Gambar 4. 8 Memilih kolom yang relevan Pelabelan Data Langkah berikutnya adalah menambahkan kolom baru bernama label untuk mengkategorikan sentimen berdasarkan nilai rating. Proses ini dilakukan menggunakan fungsi kondisional untuk menentukan label Aturannya adalah sebagai berikut: Jika nilai score adalah 5, maka label sentimen diberi nilai 1 . Jika nilai score tidak sama dengan 5 . isalnya, 1, 2, 3, atau . , maka label sentimen diberi nilai 0 . Dengan menambahkan kolom label, setiap ulasan akan diberi kategori sentimen yang dapat digunakan untuk analisis lebih lanjut, seperti eksplorasi data atau pelatihan model klasifikasi. Setelah kolom ini ditambahkan, dataset ditampilkan kembali untuk memastikan bahwa penambahan kolom label sudah dilakukan dengan benar sesuai dengan logika yang diimplementasikan. Gambar 4. 9 Pelabelan data Pemodelan Sentimen Dalam penelitian ini, model kategorisasi sentimen dibangun dengan menggunakan teknik Naive Bayes. Dua subset data dibuat: 20% untuk data uji dan 80% untuk data pelatihan. Untuk menjamin distribusi data yang DOI: 10. 52362/jisicom. Ciptaan disebarluaskan di bawah Lisensi Creative Commons Atribusi 4. 0 Internasional. e-ISSN : 2597-3673 (Onlin. , p-ISSN : 2579-5201 (Printe. Vol. 9 No. 1 (June 2. Journal of Information System. Informatics and Computing Website/URL: http://journal. id/index. php/jisicom Email: jisicom@stmikjayakarta. id , jisicom2017@gmail. seimbang, fungsi randomSplit pustaka PySpark digunakan selama proses berbagi data. Menggunakan parameter featuresCol sebagai representasi fitur, labelCol sebagai label sentimen, dan jenis model multinomial yang tepat untuk distribusi data teks, model Naive Bayes dilatih. Gambar 4. 10 Pemodelan sentimen Gambar 10 menunjukkan alur proses pembentukan model, mulai dari pembagian data hingga penyimpanan model ke dalam sistem file terdistribusi Hadoop (HDFS). Penyimpanan model dilakukan di direktori hdfs://localhost:9000/olahdata/naive_bayes_model, yang mempermudah pengelolaan dan implementasi ulang model pada skala data besar. Langkah ini bertujuan untuk mengoptimalkan efisiensi dalam pengolahan data besar menggunakan Hadoop dan PySpark. Pada tahap evaluasi, model ini akan dianalisis lebih lanjut untuk mengukur performa klasifikasinya. Evaluasi tersebut mencakup metrik seperti akurasi, presisi, dan recall, yang akan dijelaskan pada bagian berikutnya. Data terlatih yang telah diproses digunakan untuk melatih model Naive Bayes setelah data dibagi menjadi 80% data pelatihan dan 20% data uji. Dengan menggunakan data pengujian yang tidak digunakan untuk pelatihan, kinerja model kemudian dievaluasi. Tujuan dari pengujian ini adalah untuk mengevaluasi kapasitas model untuk menggeneralisasi ke data baru. Metrik akurasi digunakan untuk mengukur kebenaran model sebagai bagian dari proses evaluasi. Dengan membandingkan temuan prediksi model dengan label asli data pengujian . , akurasi ditentukan. Tingkat akurasi . dihasilkan oleh model Naive Bayes berdasarkan evaluasi yang dilakukan Gambar 4. 11 Hasil akurasi Gambar 11 memberikan ilustrasi proses evaluasi model, mulai dari pembagian data, pelatihan model, hingga pengujian dan perhitungan metrik akurasi. Temuan evaluasi menunjukkan bahwa, mengingat data yang ada, model berkinerja baik dalam klasifikasi sentimen. Metrik tambahan seperti presisi, penarikan, dan skor F1 harus dihitung, khususnya untuk memahami performa model pada setiap kategori sentimen, untuk mendapatkan gambaran yang lebih menyeluruh tentang performa model. DOI: 10. 52362/jisicom. Ciptaan disebarluaskan di bawah Lisensi Creative Commons Atribusi 4. 0 Internasional. e-ISSN : 2597-3673 (Onlin. , p-ISSN : 2579-5201 (Printe. Vol. 9 No. 1 (June 2. Journal of Information System. Informatics and Computing Website/URL: http://journal. id/index. php/jisicom Email: jisicom@stmikjayakarta. id , jisicom2017@gmail. Gambar 4. 12 Confusion matrix Gambar 12 menunjukkan matriks kebingungan . onfusion matri. yang digunakan untuk mengevaluasi hasil klasifikasi model Naive Bayes pada data uji. Matriks ini menggambarkan performa model dalam mengklasifikasikan sentimen, dengan rincian sebagai berikut: sebanyak 16. 334 data sentimen negatif berhasil diklasifikasikan dengan benar sebagai negatif (True Negative. , sementara 6. 135 data sentimen negatif salah diklasifikasikan sebagai positif (False Positive. Di sisi lain, model berhasil mengklasifikasikan 52. 060 data sentimen positif dengan benar sebagai positif (True Positive. , namun terdapat 3. 775 data sentimen positif yang salah diklasifikasikan sebagai negatif (False Negative. Hasil ini menunjukkan bahwa model memiliki kinerja yang lebih baik dalam mengklasifikasikan sentimen positif dibandingkan dengan sentimen negatif, yang terlihat dari jumlah True Positives yang jauh lebih tinggi dibandingkan True Negatives. Tabel 4. 1 Classification report Negatif Positif Recall F1-socre Support Macro avg Weighted avg Pada Tabel 4. 1 ditampilkan laporan evaluasi kinerja model berdasarkan metrik utama seperti precision, recall, dan F1-score. Precision untuk sentimen negatif adalah 0,81, yang berarti 81% prediksi negatif benar, sementara precision untuk sentimen positif mencapai 0,89, menunjukkan 89% prediksi positif sesuai. Recall untuk sentimen negatif sebesar 0,73 mengindikasikan 73% data negatif berhasil diklasifikasikan dengan benar sebagai negatif, sedangkan recall untuk sentimen positif mencapai 0,93, menunjukkan kemampuan model yang sangat baik dalam mengenali data positif. F1-score, yang menggabungkan precision dan recall untuk memberikan metrik kinerja yang seimbang, tercatat pada nilai 0,77 untuk sentimen negatif dan 0,91 untuk sentimen positif. Selain itu, akurasi keseluruhan model mencapai 87%, menunjukkan bahwa model berhasil mengklasifikasikan 87% data uji dengan benar. Rata-rata makro menunjukkan nilai precision 0,85, recall 0,83, dan F1-score 0,84, yang menggambarkan performa rata-rata model tanpa memperhatikan distribusi data. Sementara itu, rata-rata tertimbang untuk precision, recall, dan F1-score masing-masing bernilai 0,87, yang mencerminkan performa model dengan mempertimbangkan distribusi data pada setiap kelas. Hasil ini menunjukkan bahwa model memiliki kinerja yang baik dalam mengklasifikasikan sentimen, terutama pada data sentimen positif. Visualisasi Metode ini membantu mengidentifikasi kata-kata yang lebih relevan untuk analisis sentimen. Kata-kata yang memiliki bobot lebih tinggi dalam perhitungan TF-IDF sering kali mencerminkan opini atau sentimen DOI: 10. 52362/jisicom. Ciptaan disebarluaskan di bawah Lisensi Creative Commons Atribusi 4. 0 Internasional. e-ISSN : 2597-3673 (Onlin. , p-ISSN : 2579-5201 (Printe. Vol. 9 No. 1 (June 2. Journal of Information System. Informatics and Computing Website/URL: http://journal. id/index. php/jisicom Email: jisicom@stmikjayakarta. id , jisicom2017@gmail. pengguna yang lebih signifikan, sehingga memberikan informasi tambahan yang berguna pada proses analisis. Setelah data dikonversi ke dalam bentuk numerik. Langkah selanjutnya adalah membuat visualisasi berupa Visualisasi ini dilakukan untuk memberikan gambaran mengenai kata-kata yang lebih sering muncul dalam data ulasan. Gambar 4. 13 Wordcloud Ulasan Positif Pada Gambar 13 menampilkan Word Cloud yang menggambarkan distribusi kata-kata dominan pada data sentimen positif. Kata-kata seperti "sangat membantu," "di shopee," "belanja di," dan "gratis ongkir" muncul dengan ukuran font yang lebih besar, menunjukkan frekuensi kemunculannya yang tinggi dalam ulasan Hal ini mengindikasikan bahwa aspek kemudahan belanja, ketersediaan promo seperti gratis ongkir, serta kualitas layanan menjadi faktor utama yang mendorong sentimen positif dari pengguna. Selain itu, katakata seperti "puas," "mudah," dan "sangat baik" mencerminkan apresiasi pengguna terhadap pengalaman belanja online yang efisien dan memuaskan melalui aplikasi Shopee. Word Cloud ini memberikan wawasan visual yang berguna dalam mengidentifikasi faktor-faktor penting yang berkontribusi pada pengalaman positif pengguna. Dengan informasi ini, pihak pengelola dapat memprioritaskan aspek-aspek yang dihargai pelanggan, seperti mempertahankan program promo dan meningkatkan fitur aplikasi yang mendukung kemudahan penggunaan, untuk memastikan tingkat kepuasan yang tinggi tetap terjaga. Gambar 4. 14 Wordcloud Ulasan Negatif DOI: 10. 52362/jisicom. Ciptaan disebarluaskan di bawah Lisensi Creative Commons Atribusi 4. 0 Internasional. e-ISSN : 2597-3673 (Onlin. , p-ISSN : 2579-5201 (Printe. Vol. 9 No. 1 (June 2. Journal of Information System. Informatics and Computing Website/URL: http://journal. id/index. php/jisicom Email: jisicom@stmikjayakarta. id , jisicom2017@gmail. Pada Gambar 14 menampilkan wordcloud sentimen negatif, keluhan pengguna terhadap layanan Shopee menunjukkan berbagai persoalan yang mendesak untuk diatasi, terutama terkait performa aplikasi, sistem pembayaran, dan layanan pelanggan. Kata-kata seperti "tidak bisa" dan "gak bisa" muncul dengan sangat menonjol, mencerminkan adanya masalah signifikan yang membuat pengguna merasa terhambat dalam menggunakan layanan. Masalah-masalah ini kemungkinan besar berkaitan dengan fitur yang tidak berfungsi sebagaimana mestinya, seperti proses pembayaran, pengiriman barang, atau pengelolaan saldo pada akun Selain itu, kata "lagi" yang sering muncul mengindikasikan adanya keluhan berulang dari pengguna, yang mungkin merasa frustrasi karena masalah yang sama terus terjadi tanpa penyelesaian yang memuaskan. Kata "juga" dan "aja" menggarisbawahi kesan bahwa pengguna merasa terbatas dalam pilihan atau solusi yang tersedia, sehingga menciptakan pengalaman negatif secara keseluruhan. Penggunaan kata "tolong" dalam ulasan ini menunjukkan adanya tingginya permintaan akan bantuan atau dukungan dari pihak Shopee. Ini bisa menjadi cerminan dari sistem layanan pelanggan yang dirasa kurang responsif atau tidak mampu memberikan solusi yang memadai terhadap permasalahan pengguna. Kata "saya" juga sering muncul, menandakan bahwa pengguna seringkali berbicara dari perspektif pribadi dan menyuarakan kekecewaan mereka secara langsung. Kata-kata seperti "itu" dan "karena" memberikan konteks tambahan pada keluhan, menunjukkan bahwa pengguna mencoba memberikan penjelasan terkait permasalahan yang mereka Sementara itu, kehadiran kata "masih" dapat menjadi indikasi adanya persoalan yang belum terselesaikan atau dirasakan terus berlanjut meskipun telah dilaporkan. Semua hal dipertimbangkan, evaluasi yang tidak menguntungkan ini menunjukkan berapa banyak area penawaran Shopee yang memerlukan peningkatan serius. Memulihkan kepercayaan dan kebahagiaan pengguna membutuhkan sejumlah tindakan penting, termasuk meningkatkan kinerja aplikasi untuk mengurangi bug atau masalah teknis, meningkatkan transparansi dalam sistem pembayaran dan manajemen transaksi, serta memberikan dukungan pelanggan yang lebih cepat dan efektif. Mengingat persaingan yang semakin ketat di industri e-commerce, shopee harus melihat keluhan ini sebagai umpan balik yang berguna untuk meningkatkan KESIMPULAN Informasi yang digunakan dalam penelitian ini diperoleh dengan memanen 391. 500 ulasan dari aplikasi Shopee dari Google Play Store. Temuan penelitian menunjukkan bahwa, dengan tingkat akurasi 87%, penggunaan algoritma Naive Bayes oleh Hadoop telah berhasil menilai nada ulasan pengguna di situs e-commerce. Dengan skor F1 0,91 untuk sentimen positif dan 0,77 untuk sentimen negatif, model klasifikasi berkinerja berbeda untuk setiap sentimen. Studi ini menggunakan analisis word cloud untuk menunjukkan bahwa pendorong utama sentimen positif di antara konsumen Shopee adalah hal-hal seperti pengiriman gratis, keramahan pengguna, dan penawaran khusus. Sementara itu, masalah teknis dengan aplikasi, sistem pembayaran, dan responsivitas dukungan pelanggan adalah kekhawatiran utama pengguna yang ditemukan melalui penelitian sentimen negatif. Temuan studi ini menunjukkan nilai penerapan teknologi big data untuk analisis sentimen di industri e-commerce dan menawarkan dasar untuk penelitian masa depan semacam ini. Hasil ini dapat berfungsi sebagai dasar untuk pengembangan fitur dan layanan platform e-commerce, dengan penekanan pada area di mana pengguna sering mengungkapkan ketidakpuasan. Anda menjelaskan hasil yang diukur atau diuji dalam diskusi artikel penelitian, serta apa yang dicapai dan bagaimana hal itu memajukan sains dan mempersiapkan jalan untuk studi di masa depan. REFERENASI Fatimah Az-Zahrah. Putra Dwitama. Suryaputra. Rahma, and J. Informatika. AuDampak Ecommerce Terhadap Bidang Ekonomi. Bisnis, dan Pembelajaran: Tinjauan Literatur,Ay Jurnal Teknologi Informasi, vol. 4, no. 2, 2023, doi: 10. 46576/djtechno. Rehatalanit. AuPeran E-commerce dalam Pengembangan Bisnis,Ay 2020. Aula and S. Suharto. AuPengaruh e-commerce terhadap Produk Domestik Bruto Indonesia,Ay Jurnal Kebijakan Ekonomi dan Keuangan, vol. 1, no. 1, pp. 39Ae48. Jun. 2021, doi: 10. 20885/jkek. DOI: 10. 52362/jisicom. Ciptaan disebarluaskan di bawah Lisensi Creative Commons Atribusi 4. 0 Internasional. e-ISSN : 2597-3673 (Onlin. , p-ISSN : 2579-5201 (Printe. Vol. 9 No. 1 (June 2. Journal of Information System. Informatics and Computing Website/URL: http://journal. id/index. php/jisicom Email: jisicom@stmikjayakarta. id , jisicom2017@gmail. Rahel Lina Simanjuntak. Theresia Romauli Siagian. Vina Anggriani, and Arnita Arnita. AuAnalisis Sentimen Ulasan Pada Aplikasi E-Commerce Shopee Dengan Menggunakan Algoritma Nayve Bayes,Ay Jurnal Teknik Mesin. Elektro dan Ilmu Komputer, vol. 3, no. 3, pp. 23Ae39. Nov. 2023, doi: 10. 55606/teknik. Muzaki et al. AuAnalisis Sentimen pada Ulasan Produk di E-Commerce dengan Metode Naive Bayes,Ay Jurnal Riset dan Aplikasi Mahasiswa Informatika (JRAMI), vol. 05, no. 04, 2024. Hasugian. Fakhriza, and D. Zukhoiriyah. AuAnalisis Sentimen pada Review Pengguna E-Commerce Menggunakan Algoritma Naive Bayes,Ay Januari, no. 1, pp. 98Ae107, 2023, [Onlin. Available: https://ojs. id/index. php/jsk/index . Arif Maulana and Z. Fatah. AuPenerapan Metode Naive Bayes untuk Analisis Sentimen Ulasan Produk di Platfrom E-Commerce,Ay Gudang Jurnal Multidisiplin Ilmu, vol. 2, pp. 433Ae439, 2024, doi: 59435/gjmi. Yang. AuPERNYATAAN BEBAS PLAGIARISME. Hasugian. Fakhriza, and D. Zukhoiriyah. AuVolume 6 . Nomor 1,Ay Januari, 2023, [Onlin. Available: https://ojs. id/index. php/jsk/index . Ni Made Yulia Dewati Ayu and Jakaria. AuPenngaruh E-commerce Terhadap Pertumbuhan Ekonomi Indonesia,Ay Jurnal Ekonomi Trisakti, vol. 3, no. 2, pp. 2891Ae2900. Aug. 2023, doi: 25105/jet. Firmansyah. AuKajian Kendala Implementasi E-commerce di Indonesia,Ay 2020. Atika. Atika, and S. Suhadi. AuImplementasi Algoritma Nayve Bayes Classifier untuk Analisis Sentimen Customer pada Toko Online,Ay Faktor Exacta, vol. 12, no. 4, p. Feb. 2020, doi: 30998/faktorexacta. Pradana. AuKlasifikasi Bisnis E-commerce di Indonesia,Ay 163 MODUS, vol. 27, no. 2, p. 2, 2020. DOI: 10. 52362/jisicom. Ciptaan disebarluaskan di bawah Lisensi Creative Commons Atribusi 4. 0 Internasional.