Jurnal TRANSFORMATIKA Vol. No. Januari 2026, pp. 193 - 201 P-ISSN: 1693-3656. E-ISSN: 2460-6731 https://journals. id/index. php/transformatika/ n page 193 Analisis Sentimen Terhadap Aplikasi Whatsapp Menggunakan Nayve Bayes Berdasarkan Seleksi Fitur Chi-Square Daniel Johan Kristian1*. Dewi Nurdiyah2 1Universitas Semarang Jl. Soekarno Hatta. Semarang, . 6702757, e-mail: danieljohan938@gmail. 2Universitas Semarang Jl. Soekarno Hatta. Semarang, . 6702757, e-mail: nurdiyah@usm. ARTICLE INFO History of the article: Received 3 Juli 2025 Received in revised form 31 Juli 2025 Accepted 19 Januari 2026 Available online 31 Januari 2026 Keywords: Whatsapp. TF-IDF. Chi-Square. Nayve Bayes * Correspondece: Telepon: E-mail: danieljohan938@gmail. ABSTRACT Penelitian ini bertujuan untuk menganalisis sentimen terhadap pengguna aplikasi Whatsapp di Indonesia pada Google Play Store, dataset dikategorikan menjadi 3 peleban sentimen yaitu positif, netral, dan negatif. Dengan menggunakan klasifikasi Nayve Bayes, untuk meningkatkan kinerja maka menggunakan ekstraksi fitur TF-IDF yang berjumlah 1935 fitur, namun setelah melakukan pengujian hasil kurang maksimal. Dengan itu ditambahan seleksi fitur untuk memilih fitur - fitur tertentu menggunakan seleksi fitur ChiSquare yang terpilih sebanyak 85% fitur, dan untuk pembagian data training dan testing hasil terbaik di 80 untuk data training dan 20 untuk data testing. Hasil evaluasi sebelum menggunakan seleksi fitur mendapatkan nilai akurasi sebesar 74,5%, nilai presisi sebesar 70%, dan nilai recall sebesar 74,5%. Namun setelah menggunakan seleksi fitur hasil meningkat cukup tinggi mencapai 5,6% untuk nilai akurasi, 5,94% untuk nilai presisi, dan 1,51% untuk nilai recall. Dengan penelitian ini penggunaan seleksi fitur Chi-Square dapat berpengaruh hasil evaluasi data ulasan pengguna aplikasi Whatsapp. INTRODUCTION Google Play Store adalah layanan milik Google yang menyediakan berbagai macam konten digital, seperti aplikasi, permainan, dan lainnya. Anda dapat mengaksesnya melalui Android, situs web Google, dan Google TV . Berdasarkan data di Mobile Operating System Market Share Indonesia sampai tahun 2025 terdapat 89,49% pengguna Android dan 10,41% iOS . , dengan ini pengguna aplikasi Play Store lebih banyak digunakan dibandingkan dengan App Store. Analisis sentimen adalah metode yang diukur dan dianalisis pada kasus atau objek tertentu, dan sentimen analisis didasarkan pada kesimpulan dan keputusan berdasarkan teks kalimat atau TRANSFORMATIKA. Vol. No. Januari 2026, pp. 193 - 201 Melalui analisis sentimen, hal ini dapat membantu dalam mengidentifikasikan masalah yang sering keluhkan para pengguna, fitur yang disukai, dan saran-saran untuk developer aplikasi Whatsapp. WhatsApp adalah salah satu aplikasi paling populer di dunia untuk komunikasi instan, termasuk di Indonesia. Yang banyak digunakan untuk kirim pesan individu dan sekelompok pekerjaan, sekolah, dan bisnis. Dengan tingginya jumlah pengguna aplikasi WhatsApp, sangat penting untuk menganalisis kepuasan serta pendapat mereka. Di Play Store terdapat banyak ulasan dari pengguna WhatsApp yang mengandung berbagai sentimen, mulai dari pujian, kritik, hingga saran terkait fitur dalam aplikasi. Nayve Bayes merupakan pendekatan yang sederhana namun untuk hasil lebih efektif atau efisien dalam menangani data yang mungkin sangat besar dan berat, dengan itu pemilihan Nayve Bayes dinilai tept untuk mengklasifikasi ulasan sentimen . Salah satu algoritma yang digunakan sebagai klasifikasi adalah Multinominal Nayve Bayes . Multinominal Nayve Bayes adalah algoritma yang pada konsep kerjanya yaitu term frequency yang sering kali bermunculan dalam satu dokumen . Seleksi fitur sangat digunakan setelah pemrosesan ekstraksi fitur agar mendapatkan hasil yang lebih akurat. Prinsip kerja seleksi fitur ini adalah menghapus fitur yang kurang relevan pada data. Seleksi fitur yang digunakan dalam penelitian ini yaitu Chi-Square, menggunakan Chi-Square dikarenakan bersifat sederhana, efektif namun hasil lebih akurat. Terdapat penelitian sebelumnya yang Yang dilakukan oleh Acep Saepulrohman . menggunakan algoritma Nayve Bayes dan Support Vector Machine, mengambil dataset sebesar 1500 data dengan pelabelan menjadi 2 kategori yaitu positive dan negative, menggunakan pembobotan fitur dengan TF-IDF, dan melakukan pegujian dengan pembagian data training dan data testing yaitu 3:1. Yang menghasil terbaik dengan algoritma nayve bayes memperoleh nilai akurasi sebesar 70,40%, nilai presisi sebesar 66,06%, dan nilai recall sebesar 74,49% dan untuk algoritma Support Vector Machine niali akurasi sebesar 77,00%. Pada penelitian sebelumnya memiliki kekurangan yaitu kurang/tidak menggunakan fitur selection. Selanjutnya penelitian yang dilakukan oleh Syamrilla Dewi . dan rekan Ae rekan dengan judul Analisis Sentimen Aplikasi WhatsApp Berdasarkan Ulasan Di PlayStore Berbasis Natural Languange Processing, dengan menggunakan 2750 data dengan 3 pelabelan, ekstraksi fitur menggunakan TF-IDF, dan rasio yang digunakan 80 untuk training serta 20 untuk testing. Klasifikasi yang digunakan nayve bayes classifer menghasilkan nilai akurasi sebersar 85%, nilai presisi sebesar 87%, dan nilai recall 85%, selanjutnya penelitian yang dilakukan oleh Okta Ihza Gifari . dan rekan Ae rekan dengan judul Analisis Sentimen Review Film Menggunakan TF-IDF dan Support Vector Machine dengan pengambilan data sebanyak 200 dokumen dan menggunakan 2 pelabelan yaitu positif dan negatif yang menunjukkan hasil nilai akurasi sebesar 85%, nilai presisi sebesar 100%, nilai recall sebesar 70%, selanjutnya penelitian terdahulu keempat dilakukan oleh Muhammad Thaariq Razaq . dan rekan Ae rekan dengan judul Analisis Sentimen Review Film Menggunakan Nayve Bayes Classifer Dengan Fitur TF-IDF yang menggunakan 50. 000 data review dan menggunakan 2 pelabelan yaitu positif dan negatif untuk pengujian mendapatkan nilai akurasi sebesar 86,48%, selanjutnya penelitian yang dilakukan oleh Moh Khoirul Insan . dan rekan Ae rekan dengan judul Analisis Sentimen Aplikasi Brimo Pada Ulasan Pengguna Di Google Play Menggunakan Algoritma Nayve Bayes, yang memiliki dataset 1550 data dan menggunakan 2 pelabelan yaitu positif dan negatif, dengan nilai akurasi sebesar 84,52%, nilai presisi sebesar 82,51%, dan nilai recall sebesar 87,62%, selanjutnya penelitian yang dilakukan oleh Pualam Wahyu Ratiasasandra . dan rekan Ae rekan dengan judul Analisis Sentimen Penerapan PPKM Pada Twitter Menggunakan Nayve Bayes Classifer Dengan Seleksi Fitur Chi-Square, dengan 556 fitur yang memenuhi syarat uji Chi-Square dengan penyeleksian fitur Chi-Square yang pasti menjadi 136 fitur dengan menggunakan DOI : https://doi. org/10. 26623/transformatika. Analisis Sentimen Terhadap Aplikasi Whatsapp Menggunakan Nayve Bayes Berdasarkan Seleksi Fitur Chi-Square (Daniel Johan Kristia. klasifikasi algoritma Multinomial Nayve Bayes mendapatkan nilai akurasi sebanyak 83%. Dan Penggunaan seleksi fitur Chi-Square untuk model klasifikasi Nayve Bayes sangat cukup efektif. Dari hasil penelitian sebelumnya hasil bisa lebih maksimal, oleh karena itu, penelitian ini membandingkan dengan menggunakan 3 pelabelan yaitu positif, netral, negatif. Lalu untuk ekstraksi fitur menggunakan TF-IDF dan pengambilan fitur terbaik menggunakan seleksi fitur ChiSquare untuk mendapatkan nilai yang lebih bagus dan akurat. Diharapkan hasil ini menambah wawasan baru menganalisa data ulasan pada aplikasi WhatsApp. RESEARCH METHODS Pada Gambar 1 adalah bagian tahapan penelitian, yang dimulai data melalui pengambilan ulasan aplikasi WhatsApp di Google Play Store, pelabelan, preprocesing, dan word cloud. Untuk ekstraksi fitur dengan menggunakan TF-IDF, dengan tahap selanjutnya pemilihan fitur terbaik menggunakan seleksi fitur menggunakan Chi-Square. Setelah itu pembagian data training dan data testing menggunakan 3 rasio, selanjutnya klasifikasi menggunakan Algoritma Nayve Bayes. Dan tahap terakhir ada evaluasi untuk menghasilkan nilai akurasi, presisi, recall, dan confusion matrix. Gambar 1. Diagram Penelitian. Akuisisi Data Pengambilan data dengan dilakukan scraping menggunakan ID link Whatsapp yang ada pada Google Play Store berikut link yang https://play. com/store/apps/details?id=com. whatsapp, dengan ulasan menggunakan bahasa Indonesia dan negara yang dipilih adalah negara Indonesia. Pada pengambilan ulasan sebanyak 1000 data ulasan dan sentimen, selanjutnya melakukan pelabelan yang dibagi menjadi 3 kategori yaitu: positif, netral, negatif. Untuk menentukan dari 3 kategori tersebut memerlukan input rating ulasan, jika rating yang diberikan bintang 1 Ae 2 maka termasuk kategori negatif, jika rating yang diberikan bintang 3 maka termasuk kategori netral, dan jika TRANSFORMATIKA. Vol. No. Januari 2026, pp. 193 - 201 rating yang diberikan bintang 4 - 5 maka termasuk kategori positif. Jika sudah melakukan palebelan tahap selanjutnya adalah preprocessing yang merupakan proese membersihkan dan menyiapkan data teks sebelum dimasukan ke tahap selanjutnya. Tanpa preprocessing, model bisa kebingungan untuk membaca teks. Pada preprocessing ini menggunakan lowercse untuk mengubah huruf yang sebelumnya menggunakan kapital menjadi huruf kecil, dan menghapus simbol, tanda baca, emoji, angka, karakter asing pada teks ulasan. Dalam Data, juga menampilkan Word Cloud yang merupakan hasil dari data teks yang kata Ae kata sering Jika kata yang besar merupakan kata yang sering digunakan pada ulasan WhatsApp dengan pelabelan positif, netral, negatif. Yang tertera pada Gambar 2. Gambar 3, dan Gambar 4. Pada Gambar 2 ini menampilkan hasil dari Data melalui proses sebelumnya dengan hasil kata yang sering muncul berupa word cloud ulasan positif dari ulasan pengguna. Gambar 2. Word Cloud Positif Pada Ulasan Aplikasi Whatsapp. Pada Gambar 3 ini menampilkan hasil dari Data melalui proses sebelumnya dengan hasil kata yang sering muncul berupa word cloud ulasan netral dari ulasan pengguna. Gambar 3. Word Cloud Netral Pada Ulasan Aplikasi Whatsapp. Pada Gambar 4 ini menampilkan hasil dari Data melalui proses sebelumnya dengan hasil kata yang sering muncul berupa word cloud ulasan negatif dari ulasan pengguna. DOI : https://doi. org/10. 26623/transformatika. Analisis Sentimen Terhadap Aplikasi Whatsapp Menggunakan Nayve Bayes Berdasarkan Seleksi Fitur Chi-Square (Daniel Johan Kristia. Gambar 4. Word Cloud Negatif Pada Ulasan Aplikasi Whatsapp. Ekstraksi Fitur TF-IDF Pada ekstraksi fitur TF-IDF merupakan proses merubah teks menjadi vector numerik dengan mempertimbangkan bobot TF-IDF dari setiap kata. Pada penelitian ini mendapatkan hasil 1935 Pada ekstraksi fitur TF-IDF memiliki persamaan rumus seperti pada nomor 1 - 3. TF (Term Frequenc. adalah mengukur seberapa sering kata t muncul dalam dokumen d: ycNya. c, yc. = yceyc,ycc/ Ocyco yceyco,ycc . IDF (Inverse Document Frequenc. adalah mengukur seberapa penting kata t dalam keseluruhan korpus. = log. cA/1 ycuy. ycA adalah sebagai total jumlah dokumen, ycuyc sebagai jumlah dokumen yang mengandung kata t, dan tambahkan 1 untuk mencegah pembagian nol. TF-IDF adalah penggabungan antara TD dan IDF. ycNya Oe yayaya. c, yc. = ycNya. c, yc. ycu yayaya. Seleksi Fitur Chi-Square Seleksi fitur cara teknik pemilihan fitur-fitur data yang paling relevan dan mengurangi yang tidak relevan . SelectKBest merupakan metode seleksi fitur yang dapat digunakan untuk clasification atau regression tergantung fungsinya, namun untuk penelitian ini menggunakan clasification dikarenakan menggunakan chi-square (Chi. Chi-square merupakan perbandingan fitur yang diamati dengan fitur yang diinginkan, ini dapat membantu mengidentifikasi fitu mana yang paling relevan dalam model machine learning. Dengan ini chi-squared memiliki persamaan rumus seperti pada nomor 4. N2. , . = N UI (AD Oe BC)2 / (A B)(C D)(A C)(B D) . t merupakan term/kata yang diuji, c merupakan kelas tertentu, ya & B merupakan jumlah dokumen kata muncul dan dokumen kelas c. C merupakan jumlah dokumen kata tidak muncul dan berlabel kelas c. D merupakan jumlah dokumen kata tidak muncul dan bukan kelas c. Dan N merupakan total dokumen. Pembagian Data Training dan Data Testing Peneliti melakukan pembagian data training dan data testing menjadi 3 rasio 70:30, 80:20, dan 90:10. Dengan dibagi menjadi 3 rasio maka peneliti bisa mengetahui hasil mana yang terbaik dan nilai evaluasi lebih tinggi/besar. DOI : https://doi. org/ 10. 26623/transformatika. TRANSFORMATIKA. Vol. No. Januari 2026, pp. 193 - 201 Klasifikasi Naive Bayes Nayve Bayes adalah metode klasifikasi yang didasarkan pada probabilitas dasar dan dirancang untuk digunakan dengan asumsi bahwa variabel penjelasan saling independen. Pada nayve bayes memiliki persamaan rumus seperti pada nomor 5. ycn = 1 ycE. = . ycu ycE. Oa ycE. merupakan probabilitas a pada kelas C, dan ycE. merupakan kata ke-I muncul dalam kelas C. Evaluasi Setelah klasifikasi, kinerja algoritma Nayve Bayes dinilai dengan menggunakan metrik evaluasi yaitu: akurasi, presisi, recall dan mencari nilai confusion matrix. Berikut adalah persamaan rumus dari setiap metrik evaluasi: Akurasi: Memiliki persamaan rumus seperti pada nomor 6. ycNycE ycNycA ycNycE ycNycA yaycE yaycA ycNycE merupakan sebagai nilai positif diprediksi positif. TN merupakan sebagai nilai negatif diprediksi negatif. FP merupakan sebagai nilai negatif diprediksi positif, dan FN merupakan sebagai nilai positf diprediksi negatif. Presisi: Memiliki persamaan rumus seperti pada nomor 7. ycEycyceycycnycycn = . ycNycE yaycE Recall: Memiliki persamaan rumus seperti pada nomor 8. ycIyceycaycaycoyco = . ycNycE yaN RESULTS DAN DISCUSSION Pada data yang terkumpul yang berjumlah 1000 data ulasan pada aplikasi WhatsApp di Google Play Store yang sudah dilabeling dan di preprocessing untuk menjadi huruf kecil, menghapus simbol, tanda baca, emoji, angka, karakter asing pada teks ulasan yang terdapat pada Gambar 2. Gambar 5. Akuisisi Data. DOI : https://doi. org/10. 26623/transformatika. Analisis Sentimen Terhadap Aplikasi Whatsapp Menggunakan Nayve Bayes Berdasarkan Seleksi Fitur Chi-Square (Daniel Johan Kristia. Pada tahap selanjutnya ektraksi fitur yang menggunakan TF-IDF menghasilkan 1935 fitur. Dan selanjutnya melakukan pengambilan fitur terbaik menggukan seleksi fitur Chi-Square dengan fitur terbaik, pada tahap selanjutnya membagi data menjadi data training dan data testing yang dilakukan dengan 3 rasio yaitu 70:30, 80:20. dan 90:10. Selanjut melakukan evaluasi yang dianalisis menggukan K-Nearest Neighbor untuk mendapatkan nilai accuracy, precission, recall, dan confusion matrix. Tabel 1. Hasil Perbandingan Evaluasi Tanpa Menggunakan Seleksi Fitur. Akurasi Presisi Recall Data Training : Data Testing 70:30 80:20 74,5% 74,5% 90:10 Pada Tabel 1 ini hasil uji evaluasi dengan 3 rasio data training dan data testing dengan hasil yang lumayan bagus dengan hasil tertinggi di rasio 80 sebagai data training dan 20 sebagai data testing, hasil nilai accuracy mencapai 74,5%, nilai precision mencapai 70%, nilai recall mencapai 74,5%. Tetapi penulis merasa kurang maksimal untuk hasil evaluasi tersebut, maka penulis melakukan penambahan fitur selection pada Tabel 2. Tabel 2. Perbandingan Pemilihan Jumlah Seleksi Fitur Dengan Menggunakan Rasio 80:20. Jumlah Fitur Terpilih Akurasi 75,5% 73,5% 71,5% 70,5% Presisi Recall 75,5% 73,5% 71,5% 70,5% Pada Tabel 2 ini dilakuan pengujian pengambilan fitur terbaik menggunakan seleksi fitur ChiSquare dengan menggunakan rasio 80:20. Pada pemilihan fitur sebanyak 80% mendapatkan hasil yang paling tinggi dengan mencapai 76% untuk nilai akurasi, 72% untuk nilai presisi, dan 76% untuk nilai Recall. Dengan menggunakan seleksi fitur Chi-Square mendapatkan nilai yang lebih tinggi dibandingkan tidak menggunakan seleksi fitur. Gambar 6. Hasil Confusion Matrix Menggunakan Chi-Square Dengan Rasio 80:20. TRANSFORMATIKA. Vol. No. Januari 2026, pp. 193 - 201 Tabel 3. Perbandingan Kinerja Penelitian Ini Dengan Penelitian Sebelumnya. Metode Referensi Akurasi TF-IDF Nayve Bayes . 74,5% TF-IDF Chi-Square Nayve Beyes (Penelit. TF-IDF SVM . 70,5% TF-IDF Seleksi Fitur SVM . TF-IDF KNN . Presisi Recall 74,5% 70,5% Pada Tabel 3 ini adalah hasil perbandingan kinerja penelitian ini dengan penelitian sebelumnya namun untuk ekstraksi fitur dan klasifikasi menggunakan referesi peneliti sebelumnya yang sama melakukan anlisis sentimen aplikasi whatsapp dan pembagian data training dan data test yang sama yaitu 80 sebagai data training dan 20 sebagai data test. Dari pengujian metode para referensi dan menggunakan metode peneliti yang mengalami peningkatan menggunakan metode ekstraksi fitur TF-IDF dan klasifikasi menggunakan Nayve bayes sebanyak 4,6% untuk nilai accuracy, 4,94% untuk nilai precision, dan 0,51% untuk nilai Peneliti menambahkan seleksi fitur menggunakan Chi-Square mendapatkan nilai yang lebih tinggi mencapai 5,6% untuk nilai akurasi, 5,94% untuk nilai presisi, dan 1,51% untuk nilai recall. CONCLUSIONS AND RECOMMENDATIONS Berdasarkan dari beberapa hasil penelitian yang ada sebelumnya memiliki beberapa macam penggunaan metode, namun dari hasil pengujian sendiri yang menggunakan pelabelan 3 sentimen . ositive, netral, negati. , mengunakan ekstraksi fitur dengan TF-IDF dan melakukan seleksi fitur Chi-Square. Proses klasifikasi Nayve Bayes dengam nilai akurasi, presisi, recall, dan confusion matrix tertinggi memakai rasio 80:20 mencapai nilai accuracy sebesar 76%, nilai precision sebesar 72%, nilai recall sebesar 76%. Dengan ini dari penelitian ini hasil lebih tinggi dari penelitian sebelumnya dengan mencapai 5,6% untuk nilai accuracy, untuk nilai precision mencapai 5,94%, dan nilai recall mencapai 1,51%. Adapun saran untuk penelitian selanjutnya dengan memperluas dataset, menggunakan ekstraksi fitur yang lagi, pemilihan seleksi fitur yang berbeda, dan memperbanyak pelabelan menjadi 5 yaitu: sangat baik, baik, cukup, buruk, sangat buruk. Untuk melihat apakah nilai akursi, presisi, recall, dan confusion matrix meningkat atau menurun. REFERENCES