Jurnal Informatika Universitas Pamulang Penerbit: Program Studi Teknik Informatika Universitas Pamulang Vol.
No.
September 2020 .
ISSN: 2541-1004 e-ISSN: 2622-4615 32493/informatika.
Sentimen Analisis Komentar Toxic pada Grup Facebook Game Online Menggunakan Klasifikasi Nayve Bayes Renaldy Permana Sidiq1.
Budi Arif Dermawan2.
Yuyun Umaidah3 Program Studi Teknik Informatika.
Fakultas Ilmu Komputer.
Universitas Singaperbangsa Karawang.
Jl.
HS.
Ronggo Waluyo.
Kec.
Telukjambe Timur.
Karawang.
Indonesia, 41361 e-mail: 1renaldy.
16173@student.
id, 2budi.
arif@staff.
umaidah@staff.
Submitted Date: August 22nd, 2020 Revised Date: September 24th, 2020 Reviewed Date: September 22nd, 2020 Accepted Date: September 30th, 2020 Abstract Toxic comments are comments made by social media users that contain expressions of hatred, condescension, threatening, and insulting.
Social media users who are on average still teenagers with a nature that still cannot be controlled completely becomes a matter of great concern when they comment, their comments can be studied as text processing.
Sentiment analysis can be used as a solution to identifying toxic comments by dividing them into two classifications.
Where the data used amounted to 1,500 taken from social media Facebook in the private group Arena of Valor community.
The dataset is divided into 2 classes: toxic and non-toxic.
This research uses Naive Bayes with TF-IDF transformation and Information Gain feature selection and use distribution ratio 80:20.
It will be compared the results of the evaluation where Naive Bayes without transformation, using TF-IDF transformation, and TF-IDF using Information Gain feature selection.
The results of the comparison of evaluations from confusion matrix that have been carried out obtained the best classification model is to use the ratio of training and testing data 80:20 with TF-IDF transformation resulting in an accuracy of 75%, precision of 63%, recall of 67%, and F-measure of 64%.
Keywords: Toxic comments.
TF-IDF.
Information Gain.
Sentiment Analysis.
Naive Bayes Abstrak Komentar Toxic adalah komentar yang dilontarkan oleh pengguna media sosial yang berisi ungkapan kebencian, merendahkan, mengancam, dan menghina.
Pengguna media sosial yang rata-rata masih remaja dengan sifat yang masih belum dapat dikontrol sepenuhnya menjadi hal yang sangat perlu diperhatikan ketika mereka berkomentar, komentar mereka dapat dikaji sebagai pemrosesan teks.
Sentimen analisis dapat digunakan sebagai solusi mengidentifikasi komentar toxic dengan membaginya menjadi dua kelas Dimana data yang digunakan berjumlah 1.
500 yang diambil dari media sosial Facebook di grup private komunitas Arena of Valor.
Dataset tersebut dibagi menjadi 2 kelas yaitu kelas toxic, dan non-toxic.
Penelitian ini menggunakan Naive Bayes dengan transformasi TF-IDF dan seleksi fitur Information Gain serta penggunaan rasio pembagian data 80:20.
Akan dibandingkan hasil dari evaluasi dimana Naive Bayes tanpa transformasi, menggunakan transformasi TF-IDF, dan TF-IDF menggunakan seleksi fitur Information Gain.
Hasil perbandingan dari evaluasi yang telah dilakukan dengan confusion matrix didapatkan model klasifikasi terbaik ialah menggunakan rasio pembagian data training dan data testing 80:20 dengan transformasi TF-IDF menghasilkan akurasi sebesar sebesar 75%, precision sebesar 63%, recall sebesar 67%, dan F-measure sebesar 64%.
Kata kunci: Komentar toxic.
TF-IDF.
Information Gain.
Sentimen Analisis.
Naive Bayes http://openjournal.
id/index.
php/informatika Jurnal Informatika Universitas Pamulang Penerbit: Program Studi Teknik Informatika Universitas Pamulang Vol.
No.
September 2020 .
Pendahuluan Penggunaan telepon genggam .
merupakan barang yang umum digunakan oleh umat manusia di seluruh dunia.
Smartphone memiliki sistem operasi mobile yang lebih baik dari telepon genggam generasi sebelumnya, kemampuan komputasi yang lebih cepat, dan resolusi kamera yang lebih tinggi (Daeng et al.
Perkembangan smartphone diiringi dengan penggunaan internet yang berkembang setiap Internet memberikan fasilitas yang memudahkan masyarakat dalam memperoleh informasi dari dalam maupun luar negeri dengan sangat cepat hingga hitungan detik dan biaya yang murah (Novianti & Riyanto, 2.
Berdasarkan hasil survei yang dilakukan oleh Asosiasi Penyelenggara Jasa Internet Indonesia (APJII), pengguna internet di Indonesia bertambah 10,12% pada tahun 2018 dibandingkan tahun 2017 dengan total mencapai 171,17 juta pengguna dari total populasi sebanyak 264,16 juta jiwa (RifAoan, 2.
Berkaitan dengan pengguna internet yang semakin meningkat, diikuti oleh pengguna media sosial yang berkembang pula.
Media sosial merupakan layanan dengan cakupan yang luas dimana didalamnya terdapat pertukaran informasi dan topik secara berkelanjutan (Schrape, 2.
Rentang usia remaja erdasarkan Badan Kependudukan dan Keluarga Berencana (BKKBN) ialah 10-24 tahun dan belum menikah.
Analisis menunjukkan remaja yang menggunakan Facebook di Indonesia dengan rentang umur 13-17 tahun sebanyak 12,7% dan rentang umur 18-24 tahun sebanyak 30,7% (NapoleonCat.
com, 2.
Dalam komentar pada sosial media, seringkali ditemukan sekelompok orang jahat dimana ia menghalangi diskusi yang saling menghormati dengan komentarnya yang beracun .
oxic commen.
yang didominasi oleh remaja.
Komentar beracun .
oxic commen.
didefinisikan sebagai komentar yang kasar, tidak sopan, tidak masuk akal, atau bahkan sampai mempermalukan seseorang di media sosial yang cenderung membuat pengguna lain merasa tidak nyaman (Risch & Krestel, 2.
Dalam pendeteksian komentar dapat menggunakan pendekatan machine learning yaitu analisis sentimen yang sangat diperlukan dalam menyaring komentar di media sosial.
Fauzi.
Akbar & Asmawan .
menyebutkan bahwa dalam mengukur suatu sentimen komentar dari suatu media sosial memiliki kendala berupa dibutuhkan analisis yang dalam agar opini dapat diartikan.
Sehingga diperlukan pendekatan machine learning http://openjournal.
id/index.
php/informatika ISSN: 2541-1004 e-ISSN: 2622-4615 32493/informatika.
yang dapat memisahkan komentar yang mengandung toxic dan tidak mengandung toxic.
Penelitian sebelumnya yang dilakukan oleh Sharma & Patel .
adalah melakukan analisis sentimen komentar beracun .
oxic commen.
Penelitian yang dilakukan untuk klasifikasi keberadaan berbagai komentar beracun pada platform online, seperti media sosial.
Kekurangan dari penelitian tersebut ialah tidak adanya pembersihan komentar pada dataset sehingga menghasilkan klasifikasi yang kurang akurat dan kurang menjanjikan.
Pembersihan dataset merupakan proses mengurangi atribut yang tidak cukup berpengaruh dalam proses klasifikasi.
Berdasarkan penelitian yang dilakukan oleh Hakimi .
, pembersihan dataset memang diperlukan sebelum proses klasifikasi agar informasi di dalam dataset dapat diproses.
Proses pembersihan dataset dikenal dengan preprocessing, selain preprocessing dalam klasifikasi komentar dibutuhkan pula pembobotan kata dan algoritme Dalam penelitian ini digunakan pembobotan kata TF-IDF dan algoritme Naive Bayes karena keduanya memiliki metode yang dalam implementasinya sederhana, memiiki performa cepat, dan efektif.
Namun algoritme Naive Bayes memiliki permasalahan pada dimensi tinggi dari fitur, maka diperlukan seleksi fitur dimana akan menyeleksi fitur yang diperlukan untuk proses klasifikasi.
Penelitian yang dilakukan oleh Negara.
Muhardi, & Putri .
, mengatasi dimensi yang tinggi dari fitur pada algoritme Naive Bayes dimana digunakan seleksi fitur Information Gain yang dapat digunakan untuk klasifikasi sentimen analisis.
Berdasarkan hasil penelitian sebelumnya, penelitian ini akan melakukan sentimen analisis pada komentar beracun .
oxic commen.
pada grup komunitas di Facebook menggunakan algoritme Naive Bayes dengan menggunakan seleksi fitur TF-IDF dan Information Gain.
Jurnal Informatika Universitas Pamulang Penerbit: Program Studi Teknik Informatika Universitas Pamulang Vol.
No.
September 2020 .
ISSN: 2541-1004 e-ISSN: 2622-4615 32493/informatika.
Metodologi Penelitian Hasil dan Pembahasan Hasil penelitian yang telah dilakukan ialah bagaimana melakukan sentimen analisis yang merupakan klasifikasi dari komentar beracun .
oxic commen.
di grup Facebook komunitas Arena of Valor (AOV).
Sentimen analisis tersebut menggunakan algoritme Naive Bayes serta seleksi fitur TF-IDF dan Information Gain.
Gambar 1 Metode KDD Metode penelitian yang digunakan dalam penelitian ini adalah dengan Knowledge Discovery in Database (KDD).
Terdapat 5 tahap dalam proses KDD, yaitu:
Data Selection Data selection atau seleksi data merupakan proses untuk menyeleksi data yang ada agar dapat digunakan sebelum tahap penggalian informasi dalam Knowledge Discovery in Database (KDD) dimulai.
Preprocessing Proses preprocessing merupakan proses dimana data yang memiliki duplikasi akan dihapus, selain itu proses ini akan memeriksa data yang inkonsisten dan data yang ada akan diperbaiki apabila memiliki kesalahan tulisan.
Transformation Selanjutnya transformasi dimana dilakukan proses tranformasi pada data yang telah dipilih menjadi bentuk vector agar dapat dlilakukan proses data mining.
Data Mining Data mining merupakan proses untuk mencari informasi yang menarik didalam data terpilih dengan menggunakan algoritme tertentu.
Pemilihan algoritme yang tepat akan sangat bergantung pada tujuan dan proses dari metodologi penelitian secara keseluruhan.
Evalution Evalution atau evaluasi merupakan proses untuk menampilkan pengetahuan atau informasi yang dihasilkan dari proses klasifikasi yang ada pada data mining, dimana dalam menampilkan pengetahuan tersebut perlunya penyajian yang sederhana, menarik, namun mudah untuk http://openjournal.
id/index.
php/informatika 1 Data selection .
emilihan dat.
Data komentar dari Facebook pada grup komunitas AOV telah diambil melalui proses scrape maka selanjutnya masuk ke tahap data Tahap data selection adalah tahap dimana dilakukannya pelabelan secara manual lalu dilakukan verifikasi oleh seorang ahli bahasa yang merupakan dosen Bahasa Indonesia.
Tabel 1 menunjukkan rincian dari komentar Facebook yang telah diverifikasi oleh ahli bahasa.
Tabel 1 Jumlah Komentar yang Telah Diverifikasi Jenis Komentar Jumah Komentar Non-toxic Toxic Total Tabel 1 menunjukkan jumlah komentar Facebook yang telah diseleksi oleh ahli bahasa yaitu 1500 komentar, terdiri dari 1237 komentar non-toxic dan 263 komentar toxic.
2 Preprocessing Setelah dilakukan seleksi data dan verifikasi oleh ahli bahasa maka selanjutnya akan dilakukan Processing merupakan tahapan yang digunakan untuk menghilangkan kata yang tidak diperlukan atau dianggap tidak penting dalam proses klasifikasi.
Terdapat 5 tahap dalam proses preprocessing, yaitu:
Case Folding Gambar 1 Hasil Case Folding Jurnal Informatika Universitas Pamulang Penerbit: Program Studi Teknik Informatika Universitas Pamulang Vol.
No.
September 2020 .
Berdasarkan Gambar 1 seluruh huruf kapital di data komentar sudah tidak ada.
Huruf kapital tersebut diubah menjadi huruf kecil, hal tersebut dilakukan agar dalam proses pembacaan dalam mesin terhadap corpus akan lebih mudah serta tidak memakan waktu yang banyak.
Tokenisasi Telah dilakukan tokenisasi seperti yang ditunjukkan di Gambar 2.
Data komentar yang sebelumnya berbentuk kalimat sekarang dipecah menjadi bentuk kata perkata.
Tokenisasi ini dilakukan agar memudahkan dalam tahap transformasi sehingga dalam prosesnya tidak memproses berdasarkan kalimat tapi memproses kata demi kata.
Gambar 2 Hasil Tokenisasi
Normalisasi
ISSN: 2541-1004
e-ISSN: 2622-4615 32493/informatika.
Stopword Gambar 4 Hasil Stopword Kata sambung seperti AuyangAy.
AudanAy.
AudiAy.
AudariAy sudah tidak ada ketika proses stopword dilakukan, terlihat di Gambar 4 kata-kata tersebut tidak ada disana.
Proses stopword ini merupakan proses untuk menyaring kata-kata yang tidak diperlukan dalam klasifikasi, seperti kata penghubung AuyangAy.
AudanAy.
AudiAy, dan lain Dalam proses stopword ini menggunakan bantuan library Sastrawi yang ada pada bahasa pemogramman Python.
Stemming Gambar 5 menunjukkan hasil dari stemming telah berhasil menghilangkan imbuhan pada kata.
Stemming merupakan tahapan akhir dalam preprocessing yang akan menghilangkan semua imbuhan yang ada pada awal, akhir, dan kombinasi dari keduanya pada kata atau kalimat.
Proses stemming ini juga menggunakan bantuan library Sastrawi.
Gambar 3 Hasil Normalisasi Data komentar sudah diubah menjadi kata baku berdasarkan KBBI (Kamus Besar Bahasa Indonesi.
seperti yang ditunjukkan pada Gambar Pengubahan kata tidak baku menjadi kata baku tersebut bertujuan agar kata yang diproses memiliki makna seperti yang ada dalam KBBI.
http://openjournal.
id/index.
php/informatika Gambar 5 Hasil Stemming Jurnal Informatika Universitas Pamulang Penerbit: Program Studi Teknik Informatika Universitas Pamulang Vol.
No.
September 2020 .
3 Transformation (Transformas.
Gambar 6 Hasil Penerapan TF-IDF Seperti yang ditunjukkan Gambar 6 terlihat kalimat nilai dari TF-IDF pada kalimat tersebut pada setiap term atau kata.
Pada Gambar 6 dilakukan penentuan nilai dari TF (Term Frequenc.
terlebih dahulu, lalu dilakukan penentuan nilai dari IDF (Inverse Document Frequenc.
, dan terakhir mengalikan hasil dari nilai TF dan IDF.
Gambar 7 Hasil Penerapan TF-IDF_IG Terlihat di Gambar 7 terdapat hasil dari penerapan seleksi fitur Information Gain ke TFIDF dimana penerapan tersebut mereduksi fitur atau tidak memberikan bobot terhadap kata-kata yang tidak saling terhubung, terlihat pada Gambar 7 adanya kata yang tidak memiliki bobot.
Hasil dari seleksi fitur ini pun dapat terlihat jumlah fitur yang telah tereduksi yang ditunjukkan pada grafik di Gambar 8.
ISSN: 2541-1004
e-ISSN: 2622-4615 32493/informatika.
Grafik di Gambar 8 menunjukkan jumlah reduksi fitur dari penerapan Information Gain pada TF-IDF.
Pada penerapan tersebut dapat terlihat di Gambar 8 yang sebelumnya fitur berjumlah 1000 lalu ketika diterapkan Information Gain jumlahnya menjadi 459, hal tersebut menunjukkan sebanyak 541 fitur telah direduksi oleh Information Gain.
4 Data Mining Transformasi telah dilakukan ditahap sebelumnya, lalu kini akan dilakukan tahap data Tahap data mining merupakan tahap klasifikasi data menggunakan Naive Bayes akan ditampilkan dalam bentuk tabel Confusion Matrix.
Penelitian ini akan menggunakan rasio pembagian data 80:20 yang merupakan implementasi dari hokum pareto, lalu akan dibandingkan model yang tidak menerapkan TF-IDF, menerapkan TF-IDF, dan menerapkan Information Gain pada TF-IDF.
Tabel 2 Hasil Klasifikasi Rasio 80:20 tanpa TF-IDF Actual Prediksi Toxic Non-toxic Toxic Non-toxic Berdasarkan Tabel 2 terlihat terdapat 35 data dalam kelas toxic diprediksi benar sebagai kelas toxic, sedangkan 61 data kelas toxic diprediksi bukan kelas toxic.
Lalu sebanyak 184 data kelas non-toxic benar diprediksi sebagai kelas non-toxic, sedangkan 20 data kelas non-toxic diprediksi sebagai kelas toxic.
Tabel 3 Hasil Klasifikasi Rasio 80:20 dengan TF-IDF Actual Prediksi Toxic Non-toxic Toxic Non-toxic Berdasarkan Tabel 3 terlihat terdapat 30 data dalam kelas toxic diprediksi benar sebagai kelas toxic, sedangkan 50 data kelas toxic diprediksi bukan kelas toxic.
Lalu sebanyak 195 data kelas non-toxic benar diprediksi sebagai kelas non-toxic, sedangkan 25 data kelas non-toxic diprediksi sebagai kelas toxic.
Gambar 8 Grafik Pengurangan Fitur TF-IDF-IG http://openjournal.
id/index.
php/informatika Jurnal Informatika Universitas Pamulang Penerbit: Program Studi Teknik Informatika Universitas Pamulang Vol.
No.
September 2020 .
Tabel 4 Hasil Klasifikasi Rasio 80:20 dengan TF-IDF dan Information Gain Actual Prediksi Toxic Non-toxic Toxic Non-toxic Berdasarkan Tabel 4 terlihat terdapat 32 data dalam kelas toxic diprediksi benar sebagai kelas toxic, sedangkan 114 data kelas toxic diprediksi bukan kelas toxic.
Lalu sebanyak 131 data kelas non-toxic benar diprediksi sebagai kelas non-toxic, sedangkan 23 data kelas non-toxic diprediksi sebagai kelas toxic.
3 Evaluation (Evaluas.
Setelah dilakukan seluruh pengujian maka akan dilakukan perbandingan untuk mencari model terbaik dalam proses klasifikasi.
Gambar 9 menunjukkan hasil dari evaluasi dengan rasio 80:20 tanpa TF-IDF.
Gambar 9 Evaluasi Klasifikasi Rasio 80:20 tanpa TFIDF Telah ditunjukkan di Gambar 9 bahwa hasil akurasi menggunakan Naive Bayes tanpa menerapkan TF-IDF menghasilkan akurasi sebesar 73%, precision sebesar 63%, recall sebesar 69%, dan F-measure sebesar 64%.
Berdasarkan Gambar 9 terlihat terdapat 35 data dalam kelas toxic diprediksi benar sebagai kelas toxic, sedangkan 61 data kelas toxic diprediksi bukan kelas toxic.
Lalu sebanyak 184 data kelas non-toxic benar diprediksi sebagai kelas non-toxic, sedangkan 20 data kelas non-toxic diprediksi sebagai kelas toxic.
Hasil akurasi dengan menerapkan TF-IDF ditunjukkan di Gambar 10.
Gambar 10 Evaluasi Klasifikasi Rasio 80:20 dengan TF-IDF Gambar 10 telah menampilkan hasil akurasi dengan menerapkan TF-IDF dengan akurasi http://openjournal.
id/index.
php/informatika ISSN: 2541-1004 e-ISSN: 2622-4615 32493/informatika.
sebesar 75%, precision sebesar 63%, recall sebesar 67%, dan F-measure sebesar 64%.
Berdasarkan Gambar 10 terlihat terdapat 30 data dalam kelas toxic diprediksi benar sebagai kelas toxic, sedangkan 50 data kelas toxic diprediksi bukan kelas toxic.
Lalu sebanyak 195 data kelas non-toxic benar diprediksi sebagai kelas non-toxic, sedangkan 25 data kelas non-toxic diprediksi sebagai kelas toxic.
Gambar 11 Evaluasi Klasifikasi Rasio 80:20 dengan TF-IDF dan Information Gain Sedangkan untuk hasil akurasi penerapan TF-IDF dan Information Gain terdapat pada Gambar 11 dengan menghasilkan akurasi 54,3%, precision sebesar 53%, recall sebesar 55,8%, dan F-measure sebesar 48,7%.
Gambar 11 terlihat terdapat terdapat 32 data dalam kelas toxic diprediksi benar sebagai kelas toxic, sedangkan 114 data kelas toxic diprediksi bukan kelas toxic.
Lalu sebanyak 131 data kelas non-toxic benar diprediksi sebagai kelas non-toxic, sedangkan 23 data kelas non-toxic diprediksi sebagai kelas toxic.
4 Visualisasi Wordcloud Gambar 12 Wordcloud Kata Sering Muncul Terlihat di Gambar 12 masih terdapat kata toxic seperti kata AungentotAy yang berukuran ukuran teksnya medium dan kata AuanjingAy yang ukuran teksnya kecil, hal tersebut dapat berarti masih munculnya beberapa komentar/kata yang bersifat Namun sentimen lebih cenderung ke arah non-toxic dikarenakan jumlah kata pada sentimen non-toxic yang muncul pada wordcloud di Gambar 12 lebih banyak dibandingkan sentimen toxic serta ukuran teksnya lebih besar.
Jurnal Informatika Universitas Pamulang Penerbit: Program Studi Teknik Informatika Universitas Pamulang Vol.
No.
September 2020 .
Hasil pengujian yang telah dilakukan dalam menghasilkan hasil evaluasi yang akan dilihat perbandingannya agar mendapatkan model klasifikasi yang terbaik, perbandingan tersebut ditampilkan dengan grafik di Gambar 13.
Gambar 13 Grafik Perbandingan Hasil Evaluasi Grafik di Gambar 13 menampilkan presentase dari keseluruhan hasil evaluasi terhadap hasil pengujian, dimana pada TF-IDF-IG memiliki presentase akurasi yang paling rendah sebesar Sedangkan presentase antara penggunaan TFIDF dan tanpa TF-IDF berbeda sedikit, dimana dengan tanpa TF-IDF memiliki presentase akurasi sebesar 73% dan dengan menggunakan TF-IDF memiliki presentase akurasi sebesar 75%.
Presentase terbesar dimiliki oleh penggunaan TFIDF dengan akurasi sebesar 75%, didapatkan 30 kelas toxic yang diprediksi dengan benar dan 195 kelas non-toxic yang diprediksi dengan benar dari 300 data testing.
Selain akurasi dapat dilihat pula pada grafik di Gambar 4.
19 terdapat nilai presentase precision, recall, dan F-Measure.
Precision antara tanpa TFIDF dan dengan TF-IDF memiliki persamaan, yaitu sebesar 63% sedangkan precision yang terendah berada di TF-IDF-IG sebesar 53%.
Berdasarkan nilai precision dengan menggunakan TF-IDF didapatkan 30 kelas toxic yang diprediksi dengan benar dari 300 data testing.
Berbeda dari precision dimana nilai presentase recall tidak memiliki persamaan antara tanpa TF-IDF dan menggunakan TF-IDF.
Dengan nilai precision tertinggi sebesar 69% pada tanpa TF-IDF, lalu nilai presentase precision menggunakan TF-IDF sebesar 67%, dan nilai presentase precision terendah berada di TFIDF-IG sebesar 55%.
Berdasarkan nilai recall tertinggi dimana tanpa menggunakan TF-IDF didapatkan 35 kelas toxic yang diprediksi dengan benar dari 300 data testing.
F-measure memiliki persamaan nilai presentase pada tanpa TF-IDF dan menggunakan TF-IDF sebesar 64%, sedangkan http://openjournal.
id/index.
php/informatika ISSN: 2541-1004 e-ISSN: 2622-4615 32493/informatika.
nilai presentasi F-measure terendah berada pada TF-IDF-IG sebesar 48%.
Dapat disimpulkan berdasarkan hasil perbandingan tersebut model yang terbaik untuk model klasifikasi Nayve Bayes pada rasio pembagian data 80:20 berada apada TF-IDF dengan tingkat presentase akurasi tertinggi sebesar 75% dengan precision sebesar 63%, recall sebesar 67%, dan F-measure sebesar 64%.
Pemilihan model tersebut bukan hanya dilihat dari nilai akurasi yang tertinggi namun presentase dari precision, recall, dan F-measure yang baik dibandingkan model yang lainnya.
TF-IDF pun tidak hanya menghitung bobot dari seringnya term/kata muncul namun juga menghitung bobot dari kata yang unik atau tidak sering muncul, hal tersebut yang membuat TF-IDF dalam pembobotannya balance atau seimbang dengan menghitung setiap term/kata pada dataset tidak Berbeda dengan pembobotan tanpa TFIDF yang hanya memberikan bobot term/kata yang sering muncul dan pembobotan TF-IDF-IG yang hanya memberikan bobot untuk kata-kata tertentu Kesimpulan Berdasarkan dari penelitian yang telah dilakukan kini dapat disimpulkan proses dari klasifikasi sentimen komentar toxic di grup komunitas AOV dari komentar yang divalidasi sejumlah 1500 dengan sentimen non-toxic sejumlah 1237 komentar, dan 263 sentimen toxic.
Menghasilkan sentimen cenderung ke non-toxic dikarenakan jumlah kata non-toxic yang sering muncul pada wordcloud serta ukuran kata nontoxic yang lebih besar dibandingkan kata toxic.
Pengujian terhadap model klasifikasi dengan rasio pembagian data 80:20 dimana model tanpa TFIDF, menggunakan TF-IDF, dan penggunaan Information Gain pada TF-IDF menghasilkan nilai akurasi tertinggi berada pada penggunaan TF-IDF dengan akurasi sebesar 75%, precision sebesar 63%, recall sebesar 67%, dan F-measure sebesar Hasil tersebut dikarenakan pada TF-IDF tidak hanya memberikan bobot pada kata yang sering muncul namun kata yang unik atau tidak sering muncul pada dataset, hal inilah yang membuat pembobotan TF-IDF menjadi balance atau seimbang.
Dengan hasil tersebut dapat disimpulkan penggunaan seleksi fitur belum tentu dapat mempengaruhi kenaikan akurasi klasifikasi.
Tidak hanya memilih seleksi fitur saja namun jumlah dataset yang lebih banyak dan proses Jurnal Informatika Universitas Pamulang Penerbit: Program Studi Teknik Informatika Universitas Pamulang Vol.
No.
September 2020 .
preprocessing yang baik dapat membantu kenaikan akurasi klasifikasi.
Saran Berdasarkan hasil penelitian kesimpulan yang diperoleh dalam penelitian ini masih dapat dikembangkan dalam segi model klasifikasi, maka peneliti menyarankan, yaitu sebagai berikut:
Penelitian menambahkan jumlah dataset yang lebih banyak dibandingkan penelitian ini.
Penelitian selanjutnya dapat menerapkan pembobotan dan seleksi fitur yang lain, seperti Chi-Square.
Particle Swarm Optimazion.
Stable Mutation Jump Strategy, dan lain sebagainya.
Referensi