Analisis sentimen ujaran kebencian pemilihan presiden 2019 menggunakan algoritma Nayve Bayes Muftia Chalida1 dan M. Didik R. WahyudiO2 Teknik Informatika UIN Sunan Kalijaga Jl. Marsda Adisucipto Yogyakarta muftiachalida97@gmail. Teknik Informatika UIN Sunan Kalijaga Jl. Marsda Adisucipto Yogyakarta didik@uin-suka. Abstrak Media sosial dapat memberikan gambaran secara umum opini yang terjadi didalam masyarakat, termasuk dalam pemilihan presiden 2019. Hal ini mengakibatkan bahwa data yang terkumpul dari media sosial sangat menarik untuk dianalisa guna mengetahui bagaimana suatu opini yang terjadi di masyarakat. Pengumpulan data harus memakai metode tertentu agar menghasilkan keakuratan opini yang terjadi di masyarakt. Penelitian ini mempergunakan teknik pengumpulan data dengan metode multistage random, berdasarkan data dari situs semiocast terhadap keaktifan postingan twitter di beberapa kota besar di Indonesia, yaitu Jakarta. Bandung. Semarang. Surabaya. Yogyakarta. Pengambilan data berdasarkan kata kunci pilpres 2019 yang dilakukan dibeberapa kota di Indonesia diperoleh sebanyak 5055 data. Data ini kemudian di klasifikasi berdasarkan kategori ujaran kebencian dengan mempergunakan algoritma Naive Bayes Classifier dan pembobotan TF-IDF. Hasil yang diperoleh dari klasifikasi ini menunjukkan bahwa sentimen irrelevant sebanyak 11,3% dengan 573 data, sentimen negatif sebanyak 35,4% dengan 1786 data, sentimen netral sebanyak 26,7% sebanyak 1350 data dan sentimen positif sebanyak 26,6% sebanyak 1343 data. Sentimen negatif pada lima kota tersebut, memperoleh skor tertinggi dengan nilai sebesar 35,4%. Distribusi sentimen negatif pada lima kota yang dijadikan sampel menunjukkan bahwa di Jakarta memiliki sentimen negatif sebesar 33,8%. Bandung sentimen negatif sebesar 65,4%. Surabaya sentimen positif sebesar 37,2 %. Yogyakarta dengan sentimen negatif sejumlah 51,8% dan Semarang dengan sentimen negatif 61,7%. Kata Kunci analisis sentimen, nayve bayes classifier, multistage random, ujaran kebencian, pilpres 2019 Pendahuluan Bercermin pada pelaksanaan pemilihan presiden tahun 2014, maraknya penyebaran isu yang berbau suku agama dan ras (SARA) dan ujaran kebencian diprediksi akan kembali terjadi pada pemilihan presiden tahun 2019. Penyebaran isu tersebut merupakan salah satu bentuk black campaign untuk menjatuhkan kredibilitas lawan politik di mata pemilih. Isu yang paling potensial untuk menyerang adalah sentimen agama. Penyebaran isu SARA dan ujaran kebencian merupakan salah satu strategi yang digunakan kelompok kepentingan tertentu untuk mencapai target yang diinginkan. Kegiatan ini ditujukan terutama untuk menurunkan O Corresponding author. A Muftia Chalida dan M. Didik R. Wahyudi . licensed under Creative Commons License CC-BY Jurnal Open Access Yayasan Lentera Dua Indonesia Analisis sentimen ujaran kebencian pemilihan presiden 2019 kredibilitas guna mengurangi jumlah dukungan pihak lawan. Penyebaran isu dan ujaran kebencian tersebut, merupakan tindakan yang melanggar Undang-Undang Nomor 11 Tahun 2008 tentang Informasi dan Transaksi Elektronik serta Undang-Undang Nomor 40 Tahun 2008 tentang Penghapusan Diskriminasi Ras dan Etnis. Sejalan dengan kemajuan zaman, penyebaran ujaran kebencian berupa black campaign di atas tidak hanya dapat dijumpai di dunia nyata, akan tetapi lebih terfokuskan di dunia maya, utamanya di media sosial, tidak terkecuali di twitter. Saat ini, media sosial tidak dapat dipungkiri memiliki pengaruh yang sangat besar dalam kehidupan. Di Indonesia. Twitter merupakan salah satu media sosial yang banyak digemari oleh masyarakat. Terlebih lagi, kemudahan yang disediakan oleh telepon seluler yang ada serta aplikasi yang mendukung. Hal ini membuat Indonesia menduduki peringkat ke enam sebagai negara dengan pengguna Twitter terbanyak, meski Amerika masih masih menjadi negara nomor satu untuk urusan Twitter. Twitter banayk digunakan untuk membahas mengenai kehidupan mereka, berbagi opini tentang berbagai topik dan membahas isu-isu yang tejadi pada saat ini. Format pesan yang bebas dan aksesibilitas dari berbagai platform yang mudah menjadikan pengguna internet cenderung untuk beralih dari blog atau milis ke layanan microblogging . Hal tersebut menyebabkan semakin banyak pengguna yang melakukan posting tentang suatu produk dan layanan yang mereka gunakan, atau mengekspresikan pandangan mereka tentang politik maupun agama. Twitter sebagai salah satu situs microblogging dengan pengguna lebih dari 500 juta dan 400 juta tweet perhari . Twitter dapat menjadi sumber data pendapat dan sentimen masyarakat dan tersebut dapat digunakan secara efisien untuk pemasaran atau studi sosial . Oleh karena itu marak adanya tweet yang berhubungan dengan politik di tahun 2019 ini yang menjurus ke ujaran kebencian dapat digunakan untuk melakukan sosial media analitik (SMA). Analisis yang memuat mengenai kecenderungan informasi mengenai suatu topik apakah cenderung positif, negatif ,netral ataukah irrelevant bisa dilalukan terhadap data tersebut Di Indonesia. Jakarta berdasarkan data dari Semiocast menempati urutan teratas dari 20 kota teraktif berdasarkan jumlah kicauan atau tweet. Sebanyak 1. 058 miliar pada Juni lalu, kemudian diikuti dengan kota Bandung. Jawa Barat yang secara mengejutkan masuk dalam urutan keenam . Metodologi Penelitian ini akan melakukan analisis terhadap kecenderungan opini tweet mengenai ujaran kebencian di Pemilihan Presiden 2019. Metode pengumpulan data multistage random digunakan dalam penelitian ini. Data sampling didasarkan pada semiocast, dengan mengambil area meliputi Jakarta. Bandung. Semarang. Surabaya dan Yogyakarta. Data yang dianalisis adalah postingan tweet hasil dari pencarian dengan kata kunci pilpres2019. Data tersebut kemudian diklasifikasi menjadi empat kelas sentimen, yakni positif, negatif, netral, serta Metode yang akan digunakan untuk melakukan kalsifikasi adalah Nayve Bayes Classifier (NBC). NBC melakukan klasifikasi dan memprediksi probabilitas keanggotaan kelas suatu data tuple yang akan masuk ke kelas tertentu, sesuai dengan perhitungan probabilitas. NBC didasarkan pada teorema Bayes yang ditemukan oleh Thomas Bayes pada abad ke-18. Dalam suatu studi perbandingan, algoritma klasifikasi telah ditemukan sebagai bayesian sederhana atau yang biasa dikenal denganNBC . Fitur utama NBC adalah asumsi yang sangat kuat tentang independensi setiap kondisi atau peristiwa . Algoritma NBC menggunakan metode pembelajaran mesin yang memanfaatkan probabilitas dan statistik yang disajikan oleh ilmuwan Inggris Thomas Bayes . Perhitungan algoritma NBC dibandingkan Chalida. dan M. Didik R. Wahyudi dengan algoritma klasifikasi lainnya lebih cepat karena hanya menguji probabilitas dengan menemukan kelas data pelatihan yang sama . Selain itu, penggunaan metode Naive Bayes dianggap memiliki hasil akurasi yang cukup baik untuk klasifikasi tweet . Tahapan penelitian yang dilakukan adalah diperlihatkan dalam Gambar 1. Gambar 1 Alur penelitian Pengambilan data Pengambilan data yang dipergunakan pada penelitian ini menggunakan metode multistage random, yaitu daerah sampling berupa 5 wilayah kota besar pulau jawa berdasarkan rujukan informasi kota dengan jumlah tweet terbanyak di Indonesia berdasarkan situs Semiocast, yaitu Jakarta. Bandung. Semarang. Surabaya, dan Yogyakarta. Data yang diambil merupakan postingan Twitter yang berasal dari hasil pencarian dengan kata kunci AuPilpres 2019Ay. Pengambilan data dengan cara crawling yang memanfaatkan fasilitas API Twitter. Metode yang digunakan adalah extended . ull tex. dengan library tweepy dan tanpa menggunakan Data yang terkumpul berjumlah 5055 yang merupakan gabungan data tweet dengan kata kunci AuPilpres 2019Ay dan yang berhubungan dengan hal tersebut. Seleksi, pelabelan data dan prepocessing Berdasarkan pendekatan eksperimental dalam penelitian ini, dalam proses seleksi diambil 3216 data latih dan data sejumlah 5055 sebagai data uji. Proses seleksi ini hanya dilakukan pada data yang akan digunakan dalam proses pembelajaran. Pemberian label dilakukan secara manual berdasarkan pada definisi dari pakar komunikasi. Setiap postingan tweet yang sudah diambil akan dikelompokkan ke dalam empat kelas yaitu positif . , negatif (-. , netral . , serta irrelevant . Pada tahap preprocessing dilakukan proses pembersihan terhadap data tweet. Langkah-langkah dalam pembersihan datanya meliputi : cleansing, case folding, tokenizing, convert slangword, stopword removal dan stemming. Semua proses ini dilakukan dengan tujuan agar kualitas klasifikasi yang dilakukan menjadi lebih baik . Analisis sentimen ujaran kebencian pemilihan presiden 2019 Hasil dan pembahasan Data latih yang diambil sebanyak 3216 data yang telah melalui preprocessing dan diberi label secara manual akan dilakukan ekstraksi fitur. Ekstraksi fitur ini digunakan untuk mencari Term Frequency (TF) dan Term Frequency-Inverse Document Frequency (TF-IDF). Ekstraksi fitur ini digunakan dalam perhitungan probabilitas menggunakan NBC sebagai metode Setelah melalui proses klasifikasi, maka diperlukan penilaian tingkat akurasi dari proses klasifikasi yang sudah dilakukan. Evaluasi yang dilakukan dengan mengunakan metode K-Fold Cross validation yang berguna untuk mengetahui rata-rata keberhasilan dari suatu sistem dengan cara melakukan perulangan dengan mengacak atribut masukan sehingga sistem tersebut teruji untuk beberapa atribut input yang acak . Fold yang digunakan adalah 10-fold, yaitu membagi data latih menjadi sepuluh bagian. K-fold cross validation pada iterasi k-1 menjadikan 1-300 data pertama menjadi data uji, sedangkan data ke 301-3000 menjadi data training. Setelah semua iterasi dilakukan maka didapatkan rata-rata akurasi dari klasifikasi sentimen. Untuk penggunaan jumlah fold terbaik sebagai uji validitas, dianjurkan menggunakan 10-fold cross validation dalam model . Rata-rata akurasi analisis sentimen yang dihasilkan denhan menggunakan metode NBC dan pembobotan TF pada data latih tweet ujaran kebencian sebesar 92,7%. Sedangkan ratarata akurasi sentimen menggunakan metode NBC dan pembobotan TF-IDF pada data latih tweet ujaran kebencian sebesar 91,3%. Hal ini menunjukkan bahwa klasifikasi multinomial Naive Bayes menggunakan nilai TF dalam perhitungan nilai peluang frekuensi kata dari setiap kelas bekerja dengan baik, dimana nilai peluang frekuensi kata tersebut disimpan dalam tabel naive bayes yang menyimpan nilai peluang frekuensi kata dalam data latih dan term atau kata. Data uji dilakukan pengecekan kata dalam daftar data latih, apabila kata dalam data uji tidak ada dalam daftar data latih maka akan diabaikan . Hasil perhitungan peluang data uji terhadap data latih dilihat besarannya, semakin besar nilai peluangnya maka semakin tinggi tingkat peluang data uji masuk dalam kelas tersebut. Perbandingan tingkat akurasi ditunjukan pada gambar 2 dan 3. Gambar 2 Grafik akurasi K-fold cross validation TF Proses berikutnya adalah melakukan klasifikasi pada data uji berdasarkan model klasifikasi dari data latih yang telah diolah sebelumnya dengan menggunakan NBC dan pembobotan Chalida. dan M. Didik R. Wahyudi Gambar 3 Grafik akurasi K-fold cross validation TF-IDF TF-IDF. Data uji ini berjumlah 5055 data tweet. Setelah dilabeli secara otomatis kemudian didapatkan hasil klasifikasi sentimen irrelevant sebanyak 11,3% dengan jumlah data 573, sentimen negatif sebanyak 35,4% dengan jumlah data 1786, sentimen netral sebanyak 26,7% dengan jumlah data 1350 dan sentimen positif sebanyak 26,6% dengan jumlah data 1343 seperti yang ditunjukan pada Gambar 4. Gambar 4 Ujaran kebencian #pilpres2019 Hasil klasifikasi ini kemudian dipilah-pilah berdasarkan sentimen analisis di beberapa kota besar di Indonesia. Kota Jakarta memperoleh hasil kecenderungan sentimen negatif yang paling dominan diantara yang lain yaitu sejumlah 33,8%, dan diikuti sentimen netral sejumlah 27,3%, positif sejumlah 26,2% dan irrelevant sejumlah 12,7%. Sehingga dapat disimpulkan bahwa sentimen ujaran kebencian di kota Jakarta yang paling besar adalah sentimen negatif yaitu dengan nilai presentase 33,8%. Gambar 5 memperlihatkan sebaran Analisis sentimen ujaran kebencian pemilihan presiden 2019 ujaran kebencian di kota Jakarta. Gambar 5 Ujaran Kebencian #pilpres2019 di kota Jakarta Kota Bandung memperoleh hasil kecenderungan sentimen negatif yang paling dominan diantara yang lain yaitu sejumlah 65,4%, irrelevant sejumlah 14,2%. positif sejumlah 11,4% dan sentimen netral sejumlah 8,9 %. Sehingga dapat disimpulkan bahwa sentimen ujaran kebencian di kota Bandung yang paling besar adalah sentimen negatif yaitu dengan nilai presentase 65,4% seperti yang ditunjukan dalam Gambar 6. Gambar 6 Ujaran kebencian #pilpres2019 di kota Bandung Kota Surabaya memperoleh hasil kecenderungan sentimen positif yang paling dominan yaitu 37,2 %, sentimen netral sejumlah 32,9%, negatif sejumlah 29,0% dan irrelevant sejumlah 0,9%. Sehingga dapat disimpulkan bahwa sentimen ujaran kebencian di kota Surabaya yang Chalida. dan M. Didik R. Wahyudi paling besar adalah sentimen positif yaitu dengan nilai presentase 37,2 %. Gambar 7 menunjukkan sebaran sentimen di Kota Surabaya. Kota Yogyakarta, yang memperoleh hasil Gambar 7 Ujaran kebencian #pilpres2019 di kota Surabaya kecenderungan sentimen negatif paling dominan diantara yang lain yaitu sejumlah 51,8%, dan diikuti sentimen positif sejumlah 26,2%, netral sejumlah 22,0% dan irrelevant sejumlah Sehingga dapat disimpulkan bahwa sentimen ujaran kebencian di kota Yogyakarta yang paling besar adalah sentimen negatif yaitu dengan nilai presentase 51,8%, seperti yang diperlihatkan dalam Gambar 8 Gambar 8 Ujaran kebencian #pilpres2019 di kota Yogyakarta Kota Semarang memperoleh hasil kecenderungan sentimen negatif yang paling dominan diantara yang lain yaitu sejumlah 61,7%, dan diikuti sentimen positif sejumlah 23,3%, netral Analisis sentimen ujaran kebencian pemilihan presiden 2019 sejumlah 11,4% dan irrelevant sejumlah 3,6%. Sehingga dapat disimpulkan bahwa sentimen ujaran kebencian 63 pada pilpres 2019 di kota Seamarang yang paling besar adalah sentimen negatif yaitu dengan nilai presentase 61,7% (Gambar . Gambar 9 Ujaran kebencian #pilpres2019 di kota Semarang Kesimpulan dan saran Analisis sentimen dengan metode NBC dapat digunakan untuk mengklasifikasi ujaran kebencian dalam tweet dengan hastag pilpres 2019 . Hasil akurasi yang lebih baik didapatkan dengan menggunakan pembobotan TF yaitu 92,7% dibandingkan dengan pembobotan TFIDF yaitu 91,3%. Akurasi sebesar 92,7% dan 91,3% ini merupakan rata-rata akurasi dari evaluasi model klasifikasi menggunakan k-fold cross validation pada 3216 data latih. Hasil analisis sentimen ujaran kebencian pada data uji sejumlah 5055 data tweet dengan hastag pilpres2019 di kota Jakarta. Bandung. Semarang. Surabaya. Yogyakarta dengan memanfaatkan model klasifikasi dari data latih menggunakan NBC dan Pembobotan TF-IDF didapatkan hasil klasifikasi sentimen irrelevant sebanyak 11,3% dengan 573 data, sentimen negatif sebanyak 35,4% dengan 1786 data, sentimen netral sebanyak 26,7% sebanyak 1350 data dan sentimen positif sebanyak 26,6% sebanyak 1343 data. Dengan kecenderungan pada sentimen negatif dengan nilai terbesar yaitu 35,4% di lima kota tersebut 17 3. Sedangkan hasil sentimen ujaran kebencian yang paling besar pada masing-masing kota yaitu: Jakarta dengan sentimen negatif sebesar 33,8%. Bandung dengan sentimen negatif sebesar 65,4%. Surabaya dengan sentimen positif sebesar 37,2 %,Yogyakarta dengan sentimen negatif sejumlah 51,8%. dan Semarang dengan sentimen negatif 61,7%. Tidak bisa dipungkiri bahwa pembentukan opini di Twitter banyak dilakukan oleh tim sukses masing-masing kandidat dengan berbagai tujuan. Sehingga perlu dilakukan pengamatan lebih dalam apakah postingan-postingan tersebut dilakukan oleh akun-akun tertentu untuk tujuan kampanye hitam menjatuhkan masing-masing kandidat. Hal ini dapat dilakukan agar penarikan kesimpulan lebih bisa menunjukkan apa yang sedang terjadi. PUSTAKA Pustaka