PROCESSOR AeVOL. No. April 2024. Laman web jurnal: https://ejournal. id/index. php/processor Processor: Jurnal Ilmiah Sistem Informasi. Teknologi Informasi dan Sistem Komputer P-ISSN: 1907-6738 | E-ISSN: 2528-0082 Komparasi Metode Naive Bayes dan K-Nearest Neighbors Terhadap Analisis Sentimen Pengguna Aplikasi Zenius Tegar Abdillah1. Ulfa Khaira2. Benedika Ferdian Hutabarat3 1,2,3 Program Studi Sistem Informasi. Fakultas Sains dan Teknologi. Universitas Jambi. Jl. Jambi Ae Muara Bulian No. KM 15. Jambi. Indonesia AbstrakOeTujuan dari penelitian ini adalah untuk membandingkan kinerja metode Naive Bayes dan K-Nearest Neighbors (KNN) dalam menganalisis sentimen pengguna pada aplikasi Zenius. Aplikasi Zenius merupakan sebuah platform belajar online yang populer di Indonesia yang menyediakan berbagai materi pelajaran mulai dari tingkat SD hingga SMA. Dalam konteks pembelajaran online, pengguna Zenius mungkin meninggalkan ulasan atau feedback terkait pengalaman mereka dengan platform tersebut. Evaluasi dilakukan dengan memeriksa skor presisi, recall, dan F1-Score kedua metode serta memvisualisasikan hasil analisis sentimen dengan salah satu metode yang digunakan. Adapun tujuan dari penelitian ini yaitu untuk mengevaluasi hasil kinerja dua metode, yaitu Naive Bayes dan KNN, dalam analisis sentimen. Dari hasil pengujian skenario split data menggunakan Split Validation dengan data training dan testing data 90:10. Akurasi Naive Bayes mencapai 88,41%, sedangkan KNN mencapai 100%. Pada penelitian ini. KNN mengungguli Naive Bayes dalam hal nilai presisi, recall, dan F1-Score. Merujuk hasil visualisasi data menggunakan metode KNN menunjukkan arah sentimen yang dihasilkan cenderung Studi ini tidak hanya memberikan pemahaman lebih dalam tentang kinerja teknik Naive Bayes dan KNN dalam analisis sentimen untuk aplikasi Zenius, namun juga memberikan evaluasi komprehensif terhadap kinerjanya. Penelitian ini diharapkan dapat menjadi panduan untuk mengembangkan metode analisis sentimen yang lebih efektif untuk aplikasi serupa di masa depan. Kata Kunci: Nayve Bayes. K-Nearest Neighbors. Analisis Sentimen. Zenius. Evaluasi Kinerja. AbstractOeThe aim of this research is to compare the performance of the Naive Bayes and K-Nearest Neighbors (KNN) methods in analyzing user sentiment on the Zenius application. The Zenius application is a popular online learning platform in Indonesia that provides various study materials from elementary to high school levels. In the context of online learning. Zenius users may leave reviews or feedback regarding their experience with the platform. Evaluation is carried out by checking the precision, recall and F1-Score scores of both methods and visualizing the results of sentiment analysis with one of the methods used. The aim of this research is to evaluate the performance results of two methods, namely Naive Bayes and KNN, in sentiment analysis. From the results of split data scenario testing using Split Validation with training data and testing data 90:10. Naive Bayes accuracy reached 88. 41%, while KNN reached 100%. In this research. KNN outperformed Naive Bayes in terms of precision, recall and F1-Score values. The results of data visualization using the KNN method show that the resulting sentiment tends to be positive. This study not only provides a deeper understanding of the performance of Naive Bayes and KNN techniques in sentiment analysis for Zenius applications, but also provides a comprehensive evaluation of their performance. It is hoped that this research can be a guide for developing more effective sentiment analysis methods for similar applications in the future. Keywords: Nayve Bayes. K-Nearest Neighbors. Sentiment Analysis. Zenius. Performance Evaluation. PENDAHULUAN pesat menjadi faktor penting dalam dunia pendidikan . Pemanfaatan internet sebagai sumber belajar menjadi semakin populer dan banyak digunakan, dan model pembelajaran online khususnya membawa manfaat dalam berbagai pengajaran, pelatihan, dan pendidikan. Saat ini perangkat teknologi informasi dan komunikasi sudah semakin canggih, seperti smartphone, komputer tablet, dan berbagai teknologi lainnya, yang kini dapat digunakan untuk menunjang proses pembelajaran yang dapat dilakukan melalui perangkat mobile . Proses pembelajaran yang menggunakan perangkat mobile disebut juga sebagai mobile learning atau E-Learning. Elearning merupakan singkatan dari electronic learning yang artinya pembelajaran berlangsung dengan menggunakan elektronik, adapun pengertian dari elektronik adalah computer atau internet. Pada dasarnya pengertian e-learning sangat luas, namun persepsinya berbeda-beda . E-learning merupakan suatu inovasi yang dapat digunakan dalam proses pembelajaran, yang tidak hanya menyediakan materi pembelajaran tetapi juga membantu dalam mengubah keterampilan siswa untuk berbagai kemampuan. Melalui e-learning, siswa tidak hanya dapat mendengarkan pengajar menjelaskan materi, namun juga secara aktif mengamati, memutar https://doi. org/10. 33998/processor. Submitted: 18 Januari 2023. Reviewed: 09 Februari 2024. Accepted. 13 Maret 2024. Published: 30 April 2024 ulang, dan mendemonstrasikannya. Materi pembelajaran dapat divirtualisasikan dalam format yang berbedabeda, menjadikannya lebih menarik dan dinamis serta memotivasi siswa untuk maju lebih jauh. dalam proses pembelajaran . E-learning atau pembelajaran online sering digunakan dalam pengembangan aplikasi pembelajaran online. Aplikasi pembelajaran online memungkinkan penggunanya mengakses materi pembelajaran secara fleksibel dan interaktif melalui perangkat teknologi seperti komputer, laptop, dan Dengan banyaknya aplikasi pembelajaran online yang tersedia dan digunakan saat ini, pengguna menjadi lebih selektif dalam memilih aplikasi yang tepat dan nyaman. Salah satu faktor yang mempengaruhi keputusan pengguna dalam memilih aplikasi pembelajaran terbaik adalah dengan mengecek review yang tersedia di Google Play Store. Ulasan pengguna ini merupakan faktor penting dalam menentukan apakah suatu aplikasi layak diunduh dan digunakan. Mengumpulkan dan menganalisis ulasan tersebut dapat memberikan wawasan dan menarik kesimpulan tentang sikap positif atau negatif terhadap aplikasi pembelajaran online yang digunakan. Oleh karena itu, teknik analisis sentimen digunakan untuk mengetahui kesimpulan sentimen dari review pengguna suatu aplikasi. Analisis sentimen merupakan salah satu bidang studi dalam text mining yang cocok untuk mengklasifikasikan dokumen teks berupa opini berdasarkan sentimen. Text Mining memiliki nilai komersial yang potensial. Analisis sentimen adalah studi komputasi atas opini, perasaan, dan emosi seseorang dengan menggunakan entitas dan atributnya sendiri yang diungkapkan dalam bentuk teks . Analisis sentimen biasanya menggunakan berbagai jenis algoritma klasifikasi, seperti Naive Bayes. K-Nearest Neighbors (KNN), dan berbagai algoritma klasifikasi lainnya. Algoritma klasifikasi adalah bagian dari supervised learning karena algoritma tersebut menggunakan kumpulan data, menganalisisnya, dan kemudian menggunakan pola yang dihasilkan dari analisis tersebut untuk mengklasifikasikan data pengujian. Proses klasifikasi data terdiri dari pembelajaran dan klasifikasi. Pembelajaran melibatkan analisis data training menggunakan algoritma klasifikasi. Klasifikasi kemudian menggunakan data uji untuk memeriksa tingkat keakuratan aturan klasifikasi yang digunakan . Namun terdapat perbedaan proses klasifikasi data antara algoritma Naive Bayes dan KNN, yaitu terletak pada cara mereka memprediksi kelas instance data baru. Algoritma Nayve Bayes menggunakan probabilitas untuk memprediksi kelas, sedangkan algoritma KNN menggunakan jarak tetangga terdekat dan kelas mayoritas . Menurut penelitian terdahulu yang membahas tentang AuAnalisis Sentimen Pada Ulasan Pengguna Aplikasi Bibit Dan Bareksa Dengan Algoritma KNNAy . , dilakukan proses analisis otomatis terhadap review produk online di Indonesia, dan diperoleh beberapa informasi review online yang mengandung informasi emosional tertentu. Data tersebut diklasifikasikan menggunakan algoritma Naive Bayes. Data yang ada diklasifikasikan menjadi lima kelas: sangat negatif, negatif, netral, positif, dan sangat positif. Data tersebut kemudian dievaluasi menggunakan uji matriks konfusi dengan parameter presisi, recall, dan presisi. Hasil pengujian menunjukkan bahwa pada pengujian tiga kelas . egatif, netral, positi. diperoleh hasil terbaik dengan 90% pelatihan dan 10% pengujian, dengan skor presisi 77,78%, skor recall 93,33, dan presisi 77,78 % Ini menunjukkan apa yang telah dicapai. Pada pengujian 5 kelas diperoleh hasil dengan data training 90% dan data uji 10%, dengan nilai presisi sebesar 59,33%, recall sebesar 58,33%, dan presisi sebesar 59,33%. Kemudian dalam penelitian terdahulu yang berjudul AuSistem Analisis Sentimen pada Ulasan Produk Menggunakan Metode Naive BayesAy . , dilakukan proses analisis otomatis pada ulasan produk online bahasa Indonesia untuk memperoleh informasi meliputi informasi sentimen yang merupakan bagian dari ulasan online. Data tersebut diklasifikasikan menggunakan algoritma Naive Bayes. Data yang ada diklasifikasikan ke dalam 5 . kelas, yaitu sangat negatif, negatif, netral, positif dan sangat positif. Data tersebut kemudian dievaluasi menggunakan pengujian confusion matrix dengan parameter akurasi, recall, dan precision. Hasil pengujian menunjukkan pada pengujian 3 kelas . egatif, netral dan positi. , hasil terbaik didapatkan pada 90% data latih dan 10% data uji dengan nilai akurasi 77. 78%, recall 93. 33 dan precision 77. 78% dan pada pengujian 5 kelas hasil terbaik didapatkan pada 90% data latih dan 10% data uji dengan nilai akurasi 59. 33 %, recall 58. 33 % dan Kemudian dalam penelitian dengan judul Komparasi Algoritma Klasifikasi Text Mining Pada Review Restoran . , menyelidiki algoritma mana yang lebih cocok untuk mencapai akurasi tertinggi ketika menganalisis sentimen dalam ulasan restoran. Teknik yang digunakan adalah Naive Bayes (NB) dan K-Nearest Neighbors. Hasil yang didapatkan menggunakan akurasi Nayve Bayes adalah 75,50% dengan nilai Kappa adalah 0,510, dan algoritma K-Nearest Neighbors adalah 89,50% dengan nilai AUC adalah 0,790. Pada penelitian ini penggunaan algoritma K-Nearest Neighbors dapat membantu menentukan rating hotel yang lebih akurat saat ini, karena akurasi yang dihasilkan lebih tinggi dibandingkan dengan algoritma Naive Bayes. Berdasarkan penelitianpenelitian sebelumnya yang disebutkan di atas, nilai akurasi yang dihasilkan kedua algoritma tersebut memiliki nilai akurasi yang berbeda dalam pembangkitan emosi. Oleh karena itu, kami ingin membandingkan penggunaan dua metode dalam penelitian ini, yaitu metode Nayve Bayes dan metode KNN, berdasarkan penelitian sebelumnya yang telah disebutkan oleh penulis. Penulis membandingkan kedua metode ini karena ingin mengetahui arah emosi serta akurasi, presisi, dan recall terbaik dari kedua metode dalam penelitian ini. https://doi. org/10. 33998/processor. Submitted: 18 Januari 2023. Reviewed: 09 Februari 2024. Accepted. 13 Maret 2024. Published: 30 April 2024 METODOLOGI PENELITIAN Dalam penelitian ini, tahapan penelitian yang telah disusun diilustrasikan secara detail melalui Gambar 1. Representasi gambaran tersebut mencakup berbagai langkah dan proses yang dijalankan dalam penelitian. Gambar 1. Tahapan Penelitian Pengumpulan Data Langkah pengumpulan datanya adalah dengan menggunakan teknik scraping data menggunakan bahasa pemrograman Python di Google Colab. Hal ini dapat dilakukan dengan mengekstrak data dari URL situs aplikasi Zenius di Google Colab. Scraping data memiliki sejumlah langkah . , sebagai berikut: Create Scraping Template: Penulis program memeriksa dokumen HTML situs web tempat informasi akan diambil dan membuat file HTML di sekitar informasi yang diambil. Explore Site Navigation: Pembuat Program ini mengeksplorasi teknik navigasi di situs web yang informasinya ditangkap untuk ditiru dalam aplikasi web scraper yang Anda buat. Automate Navigation and Extraction: Berdasarkan informasi yang diperoleh pada langkah 1 dan 2 di atas, web scraper dibuat yang mengotomatiskan pengambilan informasi dari situs web yang ditentukan. Extracted Data and Package History: Informasi yang diperoleh pada langkah 3 disimpan dalam tabel atau tabel database tabel. Pelabelan Data Pelabelan data pada peneltian ini berdasarkan nilai skor bintang yang ada pada ulasan dalam menentukan sentimen positif dan negatif. Jika skor bintang yang dimiliki sebuah ulasan bernilai diatas 3 maka nilai sentimen tersebut adalah positif, sedangkan jika dibawah 3 maka nilai sentimen pada ulasan tersebut bersifat negatif. Preprocessing data Pada tahapan preprocessing data ini, dilakukan untuk mengubah informasi data dari sumber data yang telah di scraping sebelumnya diubah ke dalam bentuk format baku atau data yang lebih terstruktur, karena pada dasarnya data hasil scraping merupakan data yang masih tidak terstruktur seperti yang telah dijelaskan sebelumnya. Beberapa tahapan dalam preprocessing data antara lain cleaning, tokenizing, filtering dan stemming . Setelah dilakukannya preprocessing data, didapatkanlah data bersih yang nantinya akan memudahkan proses klasifikasi nantinya. Gambar 2. Tahapan Preprocessing data https://doi. org/10. 33998/processor. Submitted: 18 Januari 2023. Reviewed: 09 Februari 2024. Accepted. 13 Maret 2024. Published: 30 April 2024 Pembobotan Data Penelitian ini menggunakan TF-IDF untuk pembobotan kata. Term Frequency-inverse Document Frequency adalah alat vektoriasi teks yang mengubah teks menjadi vektor yang dapat digunakan. Ini menggabungkan dua konsep. Term Frequency (TF) dan Document Frequency (DF). Frekuensi istilah (Term Frequenc. adalah jumlah kemunculan istilah tertentu dalam suatu dokumen. Frekuensi istilah menunjukkan seberapa penting istilah tertentu dalam sebuah dokumen. Frekuensi istilah mewakili setiap teks data sebagai matriks, yang barisnya menunjukkan jumlah dokumen dan kolom menunjukkan jumlah istilah berbeda dalam dokumen. Frekuensi dokumen (Document Frequenc. adalah banyaknya dokumen yang mengandung istilah tertentu. Frekuensi dokumen menunjukkan seberapa sering istilah tersebut muncul . Tabel 1. Hasil TF-IDF Kata Nama Atribut Total Kemunculan Kemunculan Dokumen Positif Negatif Sebagai contoh perhitungan manual TF-IDF digunakan 3 ulasan yang telah dilakukan preprocessing data. Comment 1: Aubagus ngerti dasar materi pelajaran ngebantu pahamin materiAy Comment 2: Aykeren penjelasannya sistematis langsung ngajarin konsep belajarAy Comment 3: Aypembahasan zenius bagus tutornya penuh ketulusanAy Contoh perhitungan Manual TF-IDF C1 : Ay bagus ngerti dasar materi pelajaran ngebantu pahamin materiAy :[AobagusAo. AongertiAo. AodasarAo. AomateriAo. AopelajaranAo. AongebantuAo. AopahaminAo. AomateriA. A = 0. = 0. https://doi. org/10. 33998/processor. Submitted: 18 Januari 2023. Reviewed: 09 Februari 2024. Accepted. 13 Maret 2024. Published: 30 April 2024 Implementasi Algoritma Klasifikasi Setelah mendapatkan bobot dari setiap term, selanjutnya data akan dibagi menjadi data training dan juga data Pada kasus ini akan dibagi menjadi 90% data training dan 10% data uji. Data training digunakan untuk pembuatan model klasifikasi dari metode Nayve Bayes dan KNN : Nayve Bayes Nayve Bayes merupakan machine learning yang menggunakan penghitungan probabilitas menggunakan konsep dari pendekatan Bayesian. Penggunaan teorema Bayes pada algoritma Nayve Bayes adalah dengan menggabungkan prior probability dan conditional probability dalam suatu rumus matematika yang dapat digunakan untuk menghitung probabilitas dari setiap kemungkinan klasifikasi . Adapun tahap di dalam Nayve Bayes adalah : Proses Penanganan Imbalance Data dan Pembobotan TF-IDF Sebelum dilakukannya pengklasifikasian, dilakukan proses penanganan imbalance data, word vector dan pembobotan TF-IDF agar dataset yang dihasilkan baik untuk tahapan permodelan Pembagian Data Setelah didapatkan dataset yang telah berlabel, dilakukan 2 pembagian data yaitu data trainng dan data testing dengan perbandingan 90:10 dari keseluruhan dataset yang telah dilabeli. Membangun Model Klasifikasi Nayve Bayes Setelah dilakukan pembagian data trainng dan data testing, data training digunakan untuk pembuatan model klasifikasi nayve bayes dengan persamaan : Model Klasifikasi Nayve Bayes Selanjutnya, data testing digunakan untuk menguji model klasifikasi yang telah dibuat dilanjutkan proses klasifikasi dengan dilakukan perhitungan probabilitas kata setiap kelas agar dapat menghasilkan prediksi data. K-Nearest Neighbors K-Nearest Neighbors memiliki prinsip sederhana, bekerja berdasarkan jarak terpendek dari sampel uji ke sampel latih . Algoritma KNN menghitung jarak antara setiap titik pada data uji dan data latih untuk setiap kelas. Jarak antara data tes dan data latih kemudian diurutkan berdasarkan k dan diurutkan dari jarak terpendek hingga jarak terjauh. Lalu, diurutkan dari jarak terdekat ke jarak terjauh dan akan dipilih jarak terdekat antara data tes dengan data latihan sejumlah k. Kelas yang memiliki jarak terdekat dengan data tes akan menjadi kelas data tes tersebut, dan tahapan yang dilakukan di dalam KNN : Hitung jarak antara sampel yang tidak diketahui dengan semua sampel pada set data pelatihan menggunakan rumus jarak yang dipilih, misalnya jarak Euclidean atau jarak Manhattan. Pilih k tetangga terdekat dari sampel yang tidak diketahui berdasarkan jarak yang telah Hitung label kelas mayoritas dari k tetangga terdekat. Dalam kasus klasifikasi biner, label mayoritas dapat dihitung dengan menghitung frekuensi masing-masing kelas pada k tetangga terdekat dan memilih kelas dengan frekuensi yang paling tinggi. Dalam kasus klasifikasi multikelas, label mayoritas dihitung dengan metode voting, yaitu dengan menghitung jumlah suara setiap kelas pada k tetangga terdekat dan memilih kelas dengan jumlah suara terbanyak. Kembalikan label kelas mayoritas sebagai hasil klasifikasi untuk sampel yang tidak diketahui. https://doi. org/10. 33998/processor. Submitted: 18 Januari 2023. Reviewed: 09 Februari 2024. Accepted. 13 Maret 2024. Published: 30 April 2024 Evaluasi Model Klasifikasi Pengukuran terhadap kinerja suatu proses pengklasifikasian merupakan hal yang penting. Kinerja proses klasifikasi menggambarkan seberapa baik sistem dalam mengklasifikasikan data. Pengukuran kinerja proses tersebut dapat menggunakan confusion matrix. Confusion matrix adalah sebuah matriks yang memuat data klasifikasi yang dilakukan oleh sistem klasifikasi baik secara aktual maupun prediktif . Untuk menghitung performa hasil klasifikasi dari metode yang digunakan sistem dalam mengklasifikasikan dataset, dapat dinilai dan dievaluasi berdasarkan perhitungan nilai accuracy, precision, recall dan f1-score. Berikut penjelasannya : Tabel 2. Confussion Matrix Actual Data Predicted Data Actual Positive Actual Negative Predicted Positive True Positive (TP) False Positive (FP) Predicted Negative False Negative (FN) True Negative (TN)) Dari confussion matrix diatas, cara perhitungan accuracy, precision, recall, dan f1-score nya adalah sebagai . Visualisasi Data Langkah terakhir dalam analisis sentimen adalah visualisasi data. Visualisasi data dilakukan untuk memudahkan penarikan kesimpulan dan menjelaskan sifat dan hubungan data. Wordcloud adalah gambar yang terdiri dari kumpulan kata-kata, yang mana ukuran sebuah kata mewakili kemunculan atau pentingnya kata tersebut. Semakin sering sebuah kata muncul, semakin sering pula kata tersebut disebutkan dalam dokumen teks . Gambar 3. Contoh Wordcloud https://doi. org/10. 33998/processor. Submitted: 18 Januari 2023. Reviewed: 09 Februari 2024. Accepted. 13 Maret 2024. Published: 30 April 2024 HASIL DAN PEMBAHASAN 1 Pengumpulan Data Tahapan yang dilakukan dalam pengumpulan data yaitu melakukan scraping pada website Google Play Store dan mengambil review ulasan aplikasi Zenius menggunakan Google Colab. Hasil scraping data dilakukan didapatkan data sebanyak 21. 752 ulasan yang diambil dari tahun 2019 hingga 2023. 2 Pelabelan Data Pelabelan data pada penelitian ini dilakukan dengan menggunakan bahasa pemrograman Python berdasarkan rating bintang review untuk mengidentifikasi sentimen positif dan negatif. Jika nilai bintang ulasan lebih besar dari 3, maka nilai sentimennya positif, dan jika kurang dari 3, ulasan tersebut memiliki nilai sentimen negatif. Berikut contoh hasil dari pelabelan datanya: Tabel 3. Contoh Hasil Pelabelan Data Kelas Ulasan Positif simpel tapi keren Negatif aplikasi rusak mau registrasi aja error terus Preprocessing data Tabel 4. Tahapan Cleaning (Case Foldin. Contoh Data Dataset Mentah Tahapan Cleaning (Inpu. (Outpu. Aplikasi bimbel online ini sangat bagus, materi yang diberikan sangatlah lengkap, penyampaiannya juga mudah dipahami. Gratis lagi tanpa bayar. aplikasi bimbel online ini sangat bagus materi yang diberikan sangat lengkap penyampaiannya juga mudah dipahami gratis lagi tanpa bayar Tabel 5. Tahapan Tokenizing Contoh Data Tahapan Cleaning Tahapan Tokenizing (Inpu. (Outpu. aplikasi bimbel online ini sangat bagus materi yang diberikan sangat lengkap penyampaiannya juga mudah dipahami gratis lagi tanpa bayar [AoaplikasiAo,AobimbelAo,AoonlineAo,AoiniAo. AosangatAo,AobagusAo,AomateriAo,AoyangAo. AodiberikanAo,AosangatAo,Aolengkap. AopenyampaiannyaAo,AojugaAo,AomudahAo. AodipahamiAo,AogratisAo,AolagiAo,AotanpaAo,AobayarA. https://doi. org/10. 33998/processor. Submitted: 18 Januari 2023. Reviewed: 09 Februari 2024. Accepted. 13 Maret 2024. Published: 30 April 2024 Tabel 6. Tahapan Filtering Contoh Data Tahapan Tokenizing Tahapan Filtering (Inpu. (Outpu. [AoaplikasiAo,AobimbelAo,AoonlineAo,AoiniAo. AoaplikasiAo,AobimbelAo,AoonlineAo. AosangatAo,AobagusAo,AomateriAo,AoyangAo. AobagusAo,AomateriAo,AodiberikanAo,Aolengkap. AodiberikanAo,AosangatAo,Aolengkap. AopenyampaiannyaAo,AomudahAo. AopenyampaiannyaAo,AojugaAo,AomudahAo. AodipahamiAo,AogratisAo,AotanpaAo,AobayarAo AodipahamiAo,AogratisAo,AolagiAo,AotanpaAo,AobayarA. Tabel 7. Tahapan Stemming Contoh Data Tahapan Filtering Tahapan Stemming (Inpu. (Outpu. AoaplikasiAo,AobimbelAo,AoonlineAo. AoaplikasiAo,AobimbelAo,AoonlineAo. AobagusAo,AomateriAo,AodiberikanAo,Aolengkap. AobagusAo,AomateriAo,AoberiAo,Aolengkap. AopenyampaiannyaAo,AomudahAo. AosampaiAo,AomudahAo. AodipahamiAo,AogratisAo,AotanpaAo,AobayarAo AopahamAo,AogratisAo,AotanpaAo,AobayarAo SMOTE (Synthetic Minority Over-sampling Techniqu. SMOTE (Synthetic Minority Over-sampling Techniqu. adalah metode oversampling yang digunakan dalam machine learning untuk menangani ketidakseimbangan kelas dalam dataset, khususnya pada masalah klasifikasi di mana kelas minoritas memiliki frekuensi yang rendah dibandingkan dengan kelas mayoritas. Proses SMOTE melibatkan pembuatan sampel sintetis dari kelas minoritas dengan cara menggabungkan instans minoritas yang sudah ada. Gambar 4. Data Sebelum SMOTE https://doi. org/10. 33998/processor. Submitted: 18 Januari 2023. Reviewed: 09 Februari 2024. Accepted. 13 Maret 2024. Published: 30 April 2024 Gambar 5. Data Setelah SMOTE Implementasi Algoritma Klasifikasi Setelah dilakukan proses SMOTE, proses selanjutnya adalah melakukan proses Split Validation diiringi dengan pengujian model yang telah dilatih beserta menguji data uji. Sehingga hasil akurasi yang didapatkan yaitu sebagai berikut: Tabel 8. Akurasi dari Hasil Skenario Split Validation Data Train Data Testing Nayve Bayes KNN 88,41% 85,87% 84,71% 84,36% Gambar 6. Diagram Perbandingan Hasil Akurasi Tiap Algoritma https://doi. org/10. 33998/processor. Submitted: 18 Januari 2023. Reviewed: 09 Februari 2024. Accepted. 13 Maret 2024. Published: 30 April 2024 Confusion matrix Nayve Bayes Pred Class Tabel 9. Confussion Matrix Naive Bayes Actual Class Positif Positif Negatif Negatif Tabel 8 memperlihatkan Confusion matrix barupa matriks dengan ukuran 2 x 2 yang mewakili kelas klasifikasi positif dan negatif. Dari confusion matrix dapat dijelaskan bahwa dalam pengklasifikasian data secara benar sebesar 53 data sebagai positif dan 69 data sebagai negatif. Selain itu model salah dalam memprediksi 16 data ke dalam kelas positif yang seharusnya negative (False Negativ. Accuracy = 88,41% Precision = 100% Recall = 76,81% F1-Score = 2 * 0,4344 x 100% 0,7681:1,7687 = 86,85% Confusion matrix K-Nearest Neighbors Pred Class Tabel 10. Confussion Matrix KNN Actual Class Positif Positif Negatif Negatif Dari confusion matrix diatas dapat dijelaskan bahwa dalam pengklasifikasian data secara benar sebesar 69 data sebagai positif dan 69 data sebagai negatif. Berikut perhitungan manual dari Accuracy. Precision. Recall, dan F1-Score dari klasifikasi menggunakan KNN : Accuracy https://doi. org/10. 33998/processor. Submitted: 18 Januari 2023. Reviewed: 09 Februari 2024. Accepted. 13 Maret 2024. Published: 30 April 2024 = 100% Precision = 100% Recall = 100% F1-Score = 2 * 0,5 x 100% = 100% Rangkuman Dari hasil confusion matrix kedua metode, maka bisa bisa disimpulkan sebagai berikut : Evaluasi Nayve Bayes KNN Accuracy 88,41% Precision Recall 76,81% F1-Score 86,85% Visualisasi Data Gambar 7. Visualisasi Menggunakan Wordcloud https://doi. org/10. 33998/processor. Submitted: 18 Januari 2023. Reviewed: 09 Februari 2024. Accepted. 13 Maret 2024. Published: 30 April 2024 Visualisasi wordcloud diatas menggunakan aplikasi Rapidminer dan adapun beberapa contoh dataset yang mewakili wordcloud diatas sebagai berikut : membantu anak belajar mandiri tutornya enak cepat paham mengerti latihan membantu anak enjoy membantu belajar membantu sayaa belajar membantu gratis mantapp terimakasih zenius membantu memahami materi pembelajaran keren diajarin dasarnya simple gitu gratis zenius makasih membantu aku KESIMPULAN Berdasarkan pada penelitian yang dilakukan, maka dapat diperoleh kesimpulan dari penelitian AuKomparasi Metode Nayve Bayes Dan K-Nearest Neighbors Terhadap Analisis Sentimen Pengguna Aplikasi ZeniusAy yaitu : Dari beberapa pengujian skenario Split Data yang telah dilakukan, dapat disimpulkan bahwa akurasi yang dihasilkan oleh Nayve Bayes lebih baik daripada K-Nearest Neighborsdengan split data yang digunakan yaitu sebesar 90:10. Akurasi yang dihasilkan dari Nayve Bayes yaitu sebesar 88,41%, sedangkan KNN yaitu sebesar 100%. Berdasarkan hasil evaluasi yang telah dilakukan. K-Nearest Neighbors mengungguli Nayve Bayes dalam nilai Precision. Recall, dan F1-Score. Dari hasil visualisasi data yang telah dilakukan, diketahui bahwa arah sentimen yang dihasilkan dalam penelitian ini cenderung bernilai positif. Adapun saran yang untuk peneltian selanjutnya yaitu : Penelitian selanjutnya diharapkan mampu mengatasi sentimen yang memiliki ambigu pada teks kalimat karena sebuah kata . dapat memiliki beberapa skor sentimen, bergantung pada konteks kata dalam sebuah kalimat. Meningkatkan kualitas hasil dari tahapan preprocessing data sehingga tidak ada lagi data yang masih UCAPAN TERIMAKASIH Saya mengucapkan terimakasih terlebih kepada pembimbing saya yaitu Ibu Ulfa Khaira. Komp. Kom sebagai pembimbing utama dan Pak Benedika Ferdian Hutabarat. Komp. Kom selaku pembimbing pendamping skripsi yang telah memberikan banyak ilmu serta motivasi kepada saya agar terus melanjutkan penulisan skripsi ini hingga selesai dan juga kepada pihak lain yang terlibat yang tidak bisa penulis sebutkan satu-persatu. REFERENCES