IMPLEMENTASI NAyaVE BAYES DAN SUPPORT VECTOR MACHINE UNTUK ANALISIS SENTIMEN ULASAN PADA GOOGLE PLAY Yoke Lucia Renica Rehatalanit1.
Marcelino Paul Edwil Longdong2.
Achmad Ramadhany3
1,2,3
Universitas Dirgantara Marsekal Suryadarma ylrrehatalanit@gmail.
com , 2edwillongdong@gmail.
com, 3 aramadhany03@gmail.
ABSTRACT
Reviews on Google Play describes user sentiment towards the application according to the ratings and comments are given.
In practice, there is often a discrepancy between the rating and the comments given, resulting in a biased sentiment, so it is necessary to analyze the review to find out the sentiment contained therein.
In collecting data from the Google Play site using the Web Scraping technique with the google-play-scraper package from Python.
Reviews that are successfully scraped then go through the preprocessing stage so that the data set is more In the next stage, the data set is labeled based on the rating, and given a weight using TF-IDF.
After classifying using the Nayve Bayes and Support Vector Machine methods, then evaluating using the confusion matrix, and validating using K-Fold Cross Validation.
Research results using the Nayve Bayes method and Support Vector Machine for sentiment analysis on the Google Play website, the Nayve Bayes method produces 87.
82% accuracy, 90% precision, 60.
08% recall, while the Support Vector Machine method produces 90% 01% , precision 61.
89%, recall 60.
Keywords: Sentiment Analysis.
Nayve Bayes.
Support Vector Machine.
Google Play.
Web Scraping.
TF-IDF.
Confusion Matrix.
ABSTRAK
Data Ulasan pada Google Play menggambarkan sentimen pengguna kepada aplikasi sesuai rating dan komentar yang diberikan.
Dalam prakteknya sering kali terjadi ketidaksesuain antara rating dan komentar yang diberikan sehingga terjadi bias sentimen, sehingga perlu dilakukan analisis tehadap ulasan tersebut untuk mengetahui sentimen yang terkandung didalamnya.
Dalam pengambilan data dari situs Google Play menggunakan teknik Web Scraping dengan package google-play-scraper dari Python.
Ulasan yang berhasil di-scraping kemudian melalui tahap preprocessing agar data set lebih terstruktur.
Tahp selanjutnya data set diberikan label berdasarkan rating, serta diberikan bobot menggunakan TF-IDF.
Setelah dilakukan klasifikasi menggunakan metode Nayve Bayes dan Support Vector Machine, kemudian dilakukan evaluasi menggunakan Confusion Matrix, dan divalidasi menggunakan K-Fold Cross Validation.
Hasil Penelitian menggunakan metode Nayve Bayes dan Support Vector Machine untuk analisis sentimen pada situs Google Play, pada metode Nayve Bayes menghasilkan accuracy 87,82%, precision 58,90%, recall 60,08%, sementara pada metode Support Vector Machine menghasilkan accuracy 90,01%, precision 61,89%, recall 60,18%.
Kata Kunci : Analisis Sentimen.
Nayve Bayes.
Support Vector Machine.
Google Play.
Web Scraping.
TF-IDF.
Confusion Matrix.
PENDAHULUAN
Sentimen atau opini publik sangat berpengaruh terhadap citra suatu perusahaan maupun produk (Bahtera.
Vidyarini, & .
, 2.
Pada Google Play pengguna dapat memberikan opini atau penilaiannya terhadap suatu aplikasi melalui ulasan atau review.
Ulasan atau review pada Google Play, umumnya berisi rating bintang 1 sampai 5 dan juga komentar yang didalamnya terdapat masukkan, serta keluhan terhadap sebuah aplikasi, baik bersifat positif, netral, maupun negatif.
Rating dan komentar yang diberikan oleh pengguna secara tidak langsung dapat mempengaruhi calon pengguna baru untuk menggunakan aplikasi tersebut.
Rating merupakan gambaran umum sentimen pengguna terhadap sebuah aplikasi, sehingga rating sangat berpengaruh terhadap citra sebuah aplikasi (Masturoh, 2.
Namun, ada kalanya pemberian rating tidak sesuai dengan komentar yang diberikan, sehingga belum dapat menggambarkan tanggapan dari pengguna secara utuh sehingga diperlukan analisis sentimen terhadap teks ulasan (Faadilah, 2.
melakukan implementasi dan perbandingan algoritma Nayve Bayes dan Support Vector Machine, serta bagaimana menggunakan beberapa parameter yaitu akurasi, presisi dan recall.
Penelitian ini berfokus untuk mengimplementasikan dan membandingkan performansi kedua metode tersebut dalam klasifikasi teks, guna mendapatkan algoritma yang tingkat akurasinya lebih tinggi dari algoritma lainnya dalam analisis sentimen data ulasan pada situs Google Play, dengan data set yang digunakan.
Metode Nayve Bayes adalah algoritma klasifikasi data yang berdasar pada teorema bayes.
Metode ini dapat digunakan untuk klasifikasi data kualitatif maupun kuantitatif (Awaludin.
Yasin, & Risyda, 2.
Selain itu metode ini tidak memerlukan data training dalam jumlah besar serta dapat digunakan untuk klasifikasi masalah biner dan juga klasifikasi multi kelas (Litbang, 2.
Metode ini juga dapat melakukan perhitungan yang relatif cepat dan efisien, terbukti dari penelitian Ahmad .
pada evaluasi confusion matrix dengan pembobotan TF-IDF 1,43 detik dan TF 3 Sedangkan pada K-Fold Cross Validation rata-rata waktu dengan pembobotan TF 3,5 detik sementara TFIDF 0,8 detik.
Analisis metode pengolahan bahasa alami atau natural language processing (NLP) untuk memilah emosi menjadi positif, negatif dan netral yang terdapat didalam tulisan tertentu (Awaludin & Ridyustia Raveena, 2.
Analisis sentimen bertujuan untuk mengetahui sentimen yang terdapat dalam opini seseorang dan mengklasifikasikan berdasarkan emosi yang terkandung didalamnya.
Dari manfaat dan efek yang diberikan analisis sentimen, banyak penelitian dan pengembangan aplikasi yang mengangkat topik ini (Masturoh, 2.
Untuk melakukan analisis terhadap sentimen pada ulasan pengguna bukanlah hal yang mudah jika dilakukan secara manual dengan jumlah data set yang Karena itu diperlukan algoritma Nayve Bayes dan Support Vector Machine sebagai sebagai metode pengklasifikasian teks dengan pendekatan supervised learning untuk melihat dan mengklasifikasikan sentimen pada ulasan yang diberikan oleh pengguna (Anjasmoros.
Marisa, & Istiadi, 2.
Pada penelitian ini, metode klasifikasi text yang gunakan adalah Nayve Bayes dan Support Vector Machine.
Selanjutnya, akan dijabarkan tahap-tahap yang akan dilewati untuk Support Vector Machine merupakan metode dalam machine learning .
upervised learnin.
yang dimanfaatkan untuk klasifikasi dan regresi (Awaludin.
Metode ini umum digunakan karna, sangat efektif pada data-data dengan batas kelas yang jelas serta kondisi saat fitur yang ada berjumlah lebih besar dari jumlah titik data yang Selain itu Support Vector Machine mampu mendeteksi asosiasi kompleks terhadap data meski sedikit transformasi yang dilakukan (Hussein, 2.
Machine Untuk Analisis Sentimen (Studi Kasus: Tweet Berbahasa Indonesia Tentang Covid-.
, dengan pembobotan TF-IDF pada metode Support Vector Machine nilai akurasi sebesar 83%.
Sedangkan pada metode Nayve Bayes Classifier memiliki nilai akurasi 82,3%.
Pada evaluasi dengan K-Fold Cross Validation dan pembobotan TF-IDF.
Support Vector Machine memiliki akurasi 82,6% dan metode Nayve Bayes memiliki akurasi 82%.
Hasil penelitian diatas menunjukan bahwa metode Support Vector Machine memiliki nilai akurasi yang lebih baik dari algoritma Nayve Bayes Classifier, pada TF-IDF ditambahkan K-Fold Cross Validation.
Karena itu penelitian ini menggunakan Nayve Bayes dan Support Vector Machine ulasan pada Google Play .
Data ulasan yang ada pada Google Play akan terus bertambah seiring pertumbuhan pengguna, oleh karena itu pengumpulan data dalam penelitian ini menggunakan teknik web scaping.
Teknik web scraping merupakan metode yang tepat untuk mengumpulkan data dalam jumlah besar secara otomatis sesuai kebutuhan (Flores et al.
, 2.
Penelitian Kurniawan .
berjudul Implementasi Text Mining Pada Analisis Sentimen Pengguna Twitter Terhadap Media Mainstream Menggunakan Nayve Bayes Classifier Dan Support Vector Machine.
Pada Metode Nayve Bayes didapatkan nilai akurasi 95,8% pada TV One, 97,8% pada Kompas TV dan 91% pada Metro TV.
Sedangkan pada metode Support Vector Machine didapatkan nilai akurasi 97,9% pada TV One, 99,3% pada Kompas TV dan 99,1% pada Metro TV.
Dari segi akurasi dapat disimpulkan bahwa performa metode Support Vector Machine lebih baik dalam mengklasifikasi METODE PENELITIAN Dalam sebuah penelitian diperlukan metode agar dapat terlaksana secara Metode yang digunakan penulis adalah metode eksperimen.
Berikut merupakan tahap-tahap yang dilakukan antara lain:
Pengumpulan Data Pada penelitian ini data bersumber dari website Google Play dengan alamat https://play.
com/store/apps/deta ils?id=id.
Data yang didapat berupa review atau ulasan pengguna aplikasi mobile banking yang dikumpulkan mulai tanggal 1 Januari 2022 Ae 27 Juni 2022.
Data dikumpulkan menggunakan teknik web scraping.
Data di-scraping menggunakan bahasa pemrograman Python dengan package google-play-scraper (Python Software Foundation, 2.
Berikutnya data disimpan menggunakan format (.
Pengolahan Data Awal Penelitian lain dilakukan oleh Ilmawan dan Mude .
dengan judul Perbandingan Metode Klasifikasi Support Vector Machine dan Nayve Bayes untuk Analisis Sentimen pada Ulasan Tekstual di Google Play Store.
Dari penelitian tersebut disimpulkan bahwa Support Vector Machine memiliki nilai akurasi lebih baik dibanding Nayve Bayes untuk berbahasa Indonesia pada Google Play Store.
Nilai akurasi yang diperoleh pada metode Support Vector Machine sebesar 81,46% dan Nayve Bayes sebesar 75,41%.
Ahmad (Ahmad, 2.
Dalam Studi Perbandingan Metode Analisis Nayve Bayes Classifier Dengan Support Vector Pada tahap ini akan dilakukan beberapa proses yaitu :
Text Preprocessing Tahap ini merupakan tahap untuk mengubah data yang belum terstruktur menjadi data terstruktur.
Tahap text preprocessing memiliki beberapa proses yang umum dilakukan, yaitu case folding, cleansing, tokenize, normalization, stopword removal, dan stemming.
Pelabelan Pada tahap ini dilakukan pemberian label kepada data set berdasarkan rating pada ulasan.
Label terbagi menjadi tiga kelas, yaitu positif, netral, dan negatif.
Ulasan yang memiliki rating 4 dan 5 diberikan label positif, ulasan yang memiliki rating 3 diberikan label netral, sedangkan ulasan yang memiliki rating 1 dan 2 diberikan label Data set yang sudah diberikan label, kemudian disajikan visualisasi wordcloud berdasarkan masing-masing kelas.
Pembobotan Pada tahap ini data set yang masih berbentuk teks ditransformasikan kedalam bentuk numerik atau angka, agar dapat dibaca oleh program komputer.
Tahap ini menggunakan metode pembobotan term frequency - inverse document frequency (TF-IDF), dimana nilai bobot akan sesuai dengan jumlah kata dalam teks.
Pada tahap ini data set yang sudah diberikan bobot, kemudian akan dibagi kedalam data training dan data testing.
Dalam penelitian ini, data training dan data testing dibagi kedalam tiga rasio perbandingan, yaitu 90% : 10%, 80% :
20%, dan 70% : 30%.
Hal ini dilakukan agar mendapatkan rasio dengan tingkat akurasi terbaik.
Setelah data training dan data testing dibagi kemudian dilakukan implementasi algoritma Nayve Bayes dan Support Vector Machine untuk klasifikasi data uji berdasarkan data latih.
Evaluasi dan Validasi Hasil Pada tahap ini, hasil pengujian dengan nilai akurasi terbaik dari rasio data training dan data testing masingmasing metode akan dievaluasi menggunakan confusion matrix, untuk dan divalidasi menggunakan K-Fold Cross Validation, untuk mengetahui nilai maksimal accuracy, recall, dan precision dari data yang telah diuji.
PEMBAHASAN
Pengumpulan Data Data ulasan yang digunakan pada penelitian ini bersumber dari situs Google Play https://play.
com/store/apps/details? id=id.
Data ulasan discraping menggunakan software google Scraping data ulasan ini juga memanfaatkan library pandas, numpy, dan package google-play-scraper dari bahasa pemrograman Python.
Code untuk proses scraping data pada Gambar 1 dibawah ini.
Metode Yang Diusulkan Berdasarkan penelitan terdahulu yang sejenis maka, penulis mengusulkan metode Nayve Bayes dan Support Vector Machine untuk melakukan analisis sentimen pada penelitian ini.
Eksperimen dan Pengujian Metode Gambar 1 Implementasi Scraping Data Ulasan Case Folding Tahap yang pertama dijalankan dalam text preprocessing adalah case folding.
Case Folding bertujuan untuk membuat seluruh huruf yang terdapat pada data set bagian ulasan menjadi lower text atau huruf kecil.
Code dari tahap ini dapat dilihat pada Tabel 2 merupakan contoh hasil penerapan dari tahap case folding.
Tabel 2 Hasil Case Folding Dari data yang berhasil di-scraping, dipilih 3 variabel yang akan digunakan untuk penelitian ini yaitu content, score, dan at.
Data tersebut disimpan kedalam CSV csv dan diurutkan berdasarkan kolom AoatAo secara ascending.
Proses tersebut menghasilkan data berjumlah 8996 ulasan, seperti Gambar 2 dibawah ini.
Sebelum Sesudah Mantap segala sesuatu jadi gampang , mantap segala sesuatu jadi gampang .
Cleansing Tahap berikutnya ialah Cleansing, pada tahap ini dilakukan pembersihan pada data set terhadap elemen-elemen yang tidak dibutuhkan, seperti ascii, angka.
URL, hastag, tab, new line, dan back slice.
Hasil dari tahap cleansing dapat dilihat pada Tabel 3 dibawah ini.
Tabel 3 Hasil Cleansing Gambar 2 Hasil Scraping Data Ulasan Sebelum Sesudah Tabel 1 merupakan deskripsi dari variabel pada proses pengumpulan data menggunakan metode scraping :
Mantap segala sesuatu jadi gampang , mantap segala sesuatu jadi Tabel 1 Deskripsi Variabel Scraping Data Ulasan Variabel Tokenizing Tahap tokenizing diaplikasikan untuk memecah menjadi token-token atau penggalan kata.
Tahap tokenizing ini memanfaat package NLTK tokenize dengan library word_tokenize.
Hasil implementasi dari tahap tokenizing dapat dilihat pada Tabel 4 dibawah ini.
Deskripsi Pendapat atau opini pengguna Nilai atau rating pengguna Tanggal dan jam ulasan diberikan Pengolahan Data Awal Text Preprocessing Dalam Text Preprocessing terdapat beberapa langkah yang umum dilakukan yaitu case folding, tokenizing, stopword removal, normalization dan stemming.
Tabel 4 Hasil Tokenizing Sebelum Sesudah mantap segala sesuatu jadi Stemming merupakan tahap untuk menghilangkan imbuhan pada suatu kata sehingga menjadi kata dasar dengan tujuan untuk menyamakan kata-kata yang ada pada dokumen data set agar menjadi kata dasar.
Stemming pada data set berbahasa Indonesia dilakukan dengan memanfaatkan library Sastrawi pada bahasa pemrograman Python.
Tabel 7 adalah contoh hasil stemming pada data set.
['mantap', 'segala', 'sesuatu', 'jadi', 'gampang'] Normalization Normalization dilakukan untuk memperbaiki kata yang memiliki penulisan yang salah .
atau kata yang penulisannya disingkat.
Normalization berguna untuk menyeragamkan kata yang mempunyai makna yang sama namun berbeda penulisannya.
Pada penelitian ini digunakan kamus normalisasi yang bersumber dari Kamus NLP (Natural Language Processin.
Bahasa Indonesia Resource di Github (Owen, 2.
Tabel 5 merupakan hasil dari tahap Tabel 7 Hasil Stemming Sesudah ['knp', 'tidak', 'bisa', 'daftar'] ['kenapa', 'tidak', 'bisa', 'daftar'] Stopword Removal Tahap stopword removal bertujuan untuk menghapus kata-kata umum yang banyak digunakan tapi tidak memberikan pengaruh sentimen pada suatu kalimat.
Proses stopword yang memanfaatkan library Sastrawi yang terdapat corpus stopword bahasa Indonesia.
Tabel 6 Berikut merupakan hasil stopword removal pada data set dalam penelitian ini.
Sesudah ['sangat', 'bagus', 'dan', 'membantu'] ['bagus', 'membantu'] ['bagus', 'membantu'] ['bagus', 'bantu'] Tabel 8 Hasil Pelabelan Label Jumlah Positif Netral Negatif Tabel 9 Merupakan hasil pelabelan 644 data set bersih sehingga dapat diketahui bahwa 48.
178 data set data dengan label positif, 2.
179 data dengan label netral, dan 13.
288 data dengan label Berdasarkan hasil pemberian label berdasarkan, diketahui bahwa sentimen pada review aplikasi mobile banking bank x dari tanggal 1 Januari Ae 27 Juni 2022 adalah positif.
Tabel 6 Hasil Stopword Removal Sebelum Sesudah Pelabelan Data Data set pada penelitian ini diberi label berdasarkan rating pada Google Play yang dibagi menjadi tiga kelas label yaitu positif, netral, dan negatif.
Review dengan rating 4 dan 5 diberikan label positif, rating 3 berlabel netral, sementara itu rating 2 dan 1 diberikan label negatif.
Tabel 5 Hasil Normalization Sebelum Sebelum Stemming Setelah data set diklasifikasikan menjadi kelas positif, netral, dan negatif, kemudian divisualisasi ke dalam bentuk Gambar 3 adalah grafik kemunculan kata dalam kelas positif, sementara Gambar 4 ialah visualisasi wordcloud dari kelas positif dengan kata mudah, bantu, transaksi, bagus, cepat, mantap, lancar, aman merupakan kata yang paling sering muncul.
Gambar 5 Grafik Kemunculan Kata Kelas Netral Gambar 3 Grafik Kemunculan Kata Kelas Positif Gambar 6 Wordcloud Kelas Netral Gambar 7 adalah grafik kemunculan kata dalam kelas negatif, sementara Gambar 8 ialah visualisasi wordcloud dari kelas negatif dengan kata tidak, daftar, susah, blokir, tolong, verifikasi merupakan kata yang paling sering Gambar 7 Grafik Kemunculan Kata Kelas Negatif Gambar 4 Wordcloud Kelas Positif Gambar kemunculan kata dalam kelas netral, sementara Gambar 6 ialah visualisasi wordcloud dari kelas netral dengan kata tidak, masuk, daftar, gagal, mohon, tolong, susah, bantu merupakan kata yang paling sering muncul.
Gambar 8 Wordcloud Kelas Negatif Setelah pembagian data set menjadi data latih dan data uji, dilakukan implementasi algoritma untuk klasifikasi data uji berdasarkan data latih.
Tahap ini dilakukan tiga kali dengan masingmasing rasio data latih dan data uji.
Hasil akurasi dengan pembagian data set 90% :
10% adalah 87,82% untuk pembagian data 80% : 20% akurasinya adalah 86,87% dan untuk pembagian data 70% :
30% menghasilkan akurasi sebesar 86,88%.
Tingkat akurasi terbaik pada algoritma Nayve Bayes yaitu pada rasio data latih 90% : 10% data uji.
Tabel 12 adalah kinerja algoritma Nayve Bayes dengan perbedaan data latih dan data uji.
Pembobotan TF-IDF Pada tahap ini, dilakukan transformasi data set yang masih berbentuk teks menjadi bentuk numerik atau angka menggunakan metode pembobotan TFIDF.
Tabel 10 merupakan hasil dari pembobotan dengan metode TF-IDF.
Tabel 9 Hasil TF-IDF Term Weight Tabel 11 Klasifikasi Nayve Bayes Data Latih :
Data Uji
90% : 10%
87,82%
58,90%
60,08%
80% : 20%
86,87%
58,66%
60,30%
70% : 30%
86,88%
58,66%
60,30%
Eksperimen dan Pengujian Metode Data Latih dan Data Uji Tahap selanjutnya adalah membagi data set menjadi data latih dan data uji.
Data latih digunakan untuk melatih algoritma klasifikasi berdasarkan data set dalam penelitian ini.
Data uji merupakan data yang digunakan untuk menguji kinerja dari algoritma klasifikasi dimana kinerja tersebut dihitung berdasarkan data benar yang diklasifikasi.
Tabel 11 adalah perbandingan data latih dan data uji yang digunakan dalam penelitian.
Data
Data
Uji
90% : 10%
80% : 20%
70% : 30%
Presisi Recall Hasil confusion matrix pada metode Nayve Bayes dengan rasio 90% : 10% didapatkan bahwa bahwa prediksi benar pada sentimen positif atau true positive sebanyak 4482, prediksi benar pada sentimen netral atau true netral sebanyak 12, dan prediksi benar pada sentimen negatif atau true negative sebanyak 1096.
Tabel 13 adalah confusion matrix pada metode Nayve Bayes.
Tabel 10 Perbandingan Data Latih dan Data Uji Data Latih: Data Uji Akurasi Klasifikasi Nayve Bayes Tabel 12 Hasil Confusion matrix Metode Nayve Bayes Nilai Prediksi Hasil Aktual Negatif Netral Positif Negatif Netral Positif Persamaan 1 adalah perhitungan nilai akurasi dari metode Nayve Bayes hasil akurasi terbaik pada iterasi ke-3 sejumlah 94%, yang memiliki nilai presisi serta recall sebesar 48% dan 58%.
Akurasi = = 87,82% .
Tabel 14 adalah hasil dari 10-folds cross Persamaan 2, 3, dan 4 adalah perhitungan presisi kelas positif, netral Tabel 13 Hasil 10-Folds Cross dan negatif dari metode Nayve Bayes Validation Metode Nayve Bayes Akurasi Presisi Recall Presisi kelas positif = = 94,68% .
Presisi kelas netral = = 8,28% .
Presisi kelas negatif = = 73,76% .
Persamaan 5, 6, dan 7 adalah perhitungan recall kelas positif, netral dan negatif dari metode Nayve Bayes Klasifikasi Support Vector Machine Dilakukan implementasi algoritma Support Vector Machine untuk klasifikasi = 93,28% .
pada data uji berdasarkan data latih.
Tahap ini dilakukan tiga kali dengan rasio Recall kelas netral = data latih dan data uji yang berbeda.
Hasil akurasi dengan pembagian data set 90% :
= 5,66% .
10% adalah 90,01% untuk pembagian data 80% : 20% akurasinya adalah 89,56% dan untuk pembagian data 70% :
Recall kelas negatif = 30% menghasilkan akurasi sebesar 89,35%.
Tingkat Akurasi terbesar pada = 81,31% .
algoritma Support Vector Machine yaitu pada rasio data latih 90% : 10% data uji.
Tabel 15 adalah kinerja algoritma Setelah rasio dengan nilai akurasi Support Vector Machine dengan perterbaik diketahui, tahap selanjutnya bedaan data latih dan data uji.
dilakukan cross validation untuk mendapatkan nilai akurasi, presisi, dan recall yang maksimal.
Pada penelitian ini digunakan K-folds cross validation dengan nilai K =10, dan mendapatkan Recall kelas positif = Tabel 14 Klasifikasi Support Vector
Machine Data Latih : Akurasi Presisi
Recall Data Uji
90% : 10%
90,01%
61,89%
60, 18%
80% : 20%
89,56%
59,82%
59,68%
70% : 30%
89,35%
66,10%
59,78%
Presisi kelas netral = Presisi kelas negatif = Recall kelas positif = = 93,28% .
Recall kelas netral = Tabel 15 Hasil Confusion matrix Metode Support Vector Machine Nilai Prediksi Hasil Aktual Negatif Netral Positif = 77,50% .
Persamaan 12, 13, dan 14 adalah perhitungan recall kelas positif, netral dan negatif dari metode Support Vector Machine Hasil confusion matrix pada metode Support Vector Machine dengan rasio 90% : 10% didapatkan bahwa bahwa prediksi benar pada sentimen positif atau true positive sebanyak 4588, prediksi benar pada sentimen netral atau true netral sebanyak 1, dan prediksi benar pada sentimen negatif atau true negative Tabel 16 adalah confusion matrix pada metode Support Vector Machine.
Negatif = 14,29% .
= 0,47% .
Recall kelas negatif = = 84,57% .
Setelah rasio dengan nilai akurasi terbaik diketahui, tahap selanjutnya Positif dilakukan cross validation untuk mendapatkan nilai akurasi, presisi, dan recall yang maksimal.
Pada penelitian ini Persamaan 8 adalah perhitungan digunakan K-folds cross validation nilai akurasi dari metode Support Vector dengan nilai K =10, dan mendapatkan Machine.
hasil akurasi terbaik pada iterasi ke-3 Akurasi = = 90,01% .
sejumlah 96%, dan memiliki nilai presisi serta recall sebesar 50% dan 58%.
Tabel 17 adalah hasil dari 10-folds cross Persamaan 9, 10, dan 11 adalah perhitungan presisi kelas positif, netral dan negatif dari metode Support Vector Machine Netral Presisi kelas positif = = 93,88% .
Tabel 16 Hasil 10-Folds Cross Validation Metode Support Vector Machine n Akurasi Presisi Recall Gambar 9 Grafik Ulasan Tiap Kelas Per Bulan Berdasarkan proses pengujian klasifikasi menggunakan metode Nayve Bayes dan Support Vector Machine pada data ulasan didapatkan hasil akurasi dari masing-masing metode tersebut pada Tabel 18.
Hasil dari penelitian klasifikasi teks data ulasan aplikasi mobile banking pada situs Google Play menggunakan metode Nayve Bayes mendapatkan akurasi 87,82%, sedangkan metode Support Vector Machine mendapatkan akurasi 90,01% dengan rasio pembagian data latih dan data uji 90%:10%.
Interpretasi Hasil Penelitian ini melakukan klasifikasi sentimen data ulasan Google Play dengan menggunakan algoritma Nayve Bayes dan Support Vector Machine dengan tiga rasio pembagian data latih dan data uji yang berbeda.
Pengambilan data menggunakan teknik scraping menghasilkan 8996 data mentah.
Kemudian dilakukan text preprocessing menjadi 63.
645 data Setelah itu dilakukan pelabelan 645 data set menggunakan rating dengan tiga kelas label, dimana rating 1 dan 2 berlabel negatif, 3 berlabel netral, sedangkan rating 4 dan 5 berlabel positif.
Berdasarkan hasil pelabelan tersebut didapatkan total sebanyak 48.
178 ulasan positif, 2.
179 ulasan netral, dan 13.
ulasan negatif.
Gambar 9 merupakan grafik ulasan masing-maing kelas per bulan, dimana bulan April memiliki jumlah ulasan positif, netral, dan negatif terbanyak yaitu sejumlah 17.
889 ulasan positif, 626 ulasan netral, dan 2721 ulasan negatif.
Tabel 17 Kinerja Nayve Bayes dan Support Vector Machine Support Vector Machine Nayve Bayes Rasio Akura Pres Rec Akur Pres Rec 90% :
87,82
90,01
80% :
86,87
89,56
70% :
86,88
89,35
Pada penelitian T.
Kurniawan (Kurniawan, 2.
dalam analisis sentimen berjumlah 1.
000 data set dengan metode Nayve Bayes dan Support Vector Machine mendapatkan tingkat akurasi 97,8% dan 99,3%.
Penelitian Ilmawan dan Mude (Ilmawan & Mude, 2.
menggunakan metode Nayve Bayes dan Support Vector Machine dengan 1818 komentar review, menghasilkan akurasi sebesar 75,41% dan 81,46%.
Penelitian lain oleh Ahmad (Ahmad, 2.
untuk analisis sentimen menggunakan metode Nayve Bayes dan Support Vector Machine berjumlah 9015 data tweet terkait COVID-19 dengan kata kunci Aulockdown, psbb, karantinaAy menghasilkan akurasi 82,3% dan 83%.
PENUTUP
KESIMPULAN
Berdasarkan pembahasan diatas maka penulis menrik kesimpulan sebagai Dari hasil pelabelan berdasarkan rating pada data set bersih sejumlah Penelitian ini dilakukan pengujian 8996 ulasan aplikasi mobile banking pada situs Google Play.
Data set yang berhasil di-scraping merupakan data mentah yang tidak terstruktur sehingga pelu dilakukan pembersihan atau tahap preprocessing agar lebih mudah dikenali bentuknya oleh Tahap selajutnya adalah proses pelabelan dimana data set dibagi menjadi kelas positif, netral, dan negatif berdasarkan rating ulasan pengguna.
Implementasi metode klasifikasi diterapkan pada data set dimana hasil akurasi maksimal metode Nayve Bayes adalah 87,82% dan akurasi maksimal metode Support Vector Machine adalah 90,01%.
Perbandingan kinerja antara penelitian ini dengan penelitian lain dapat dilihat pada Tabel 19.
645 data ulasan, didapati total sebanyak 48.
178 ulasan positif, 2.
ulasan netral, dan 13.
288 ulasan negatif.
Hal ini menggambarkan bahwa sentimen pengguna aplikasi mobile dominan positif.
Implementasi metode Nayve Bayes dan Support Vector Machine pada penelitian ini mendapatkan hasil akurasi maksimal pada metode Nayve Bayes dan Support Vector Machine sebesar 87,82% dan 90,01% seperti tertuang Tabel 18 Perbandingan kinerja NB dan SVM Terhadap Penelitian Lain Metode Peneliti SVM (Kurniawan, (Ilmawan Mude, 2.
97,8% pada Tabel 18.
Berdasarkan hasil akurasi tersebut dapat diketahui bahwa metode Support Vector Machine memiliki tingkat performansi yang lebih 99,3% tinggi dari metode Nayve Bayes untuk 75,41% 81,46% (Ahmad, 2.
82,3% (Longdong, 87,82% 90,01% analisis sentimen data ulasan aplikasi penelitian ini.
SARAN