JURTEKSI (Jurnal Teknologi dan Sistem Informas. Vol. VII No. Dec 2020, hlm. 99 Ae 104 DOI: https://doi. org/10. 33330/jurteksi. Available online at http://jurnal. id/index. php/jurteksi ISSN 2407-1811 (Prin. ISSN 2550-0201 (Onlin. ANALISIS SENTIMEN PADA PEMERINTAHAN TERPILIH PADA PILPRES 2019 DITWITTER MENGGUNAKAN ALGORITME NAyaVEBAYES Febby Apri Wenando1*. Regiolina Hayami1. Agung Jefrianto Anggrawan1 Teknik Informatika. Universitas Muhammadiyah Riau email: *febbyapri@umri. Abstract: The Presidential general election on 2019 became one of the most popular topics on twitter nowdays. The society give their opinion about the pair of candidates that they are support through the social media. This research was predicts about the society sentimens toward the candidates of President and Vice President of Republic of Indonesia. The data was used based on the tweet on the @jokowi twitter account. The retrieval of data by using the Tweepy library with the Python 2. 7 programming language. This research was classified became of two of society sentiments classes, namely positive and negative. The modeling was used of the weighting method Unigram. Bigram. Trigram. N-Gram . and N-Gram . that used the Nayve Bayes Algorithm on the Weka Application. The modeling data was used by the dataset of 646 sentences. The highest results of this reseach were obtained by Unigram Weighting, namely: 81. accuracy, 81. 5% precision, 81. 3% recall with a time of 0. 3 s. Keywords: classification, nayve bayes, 2019 presidential election, twitter, unigram Abstrak: Pemilihan Umum tentang Pilpres 2019 menjadi salah satu topik yang ramai diperbincangkan di Twitter. Adu pendapat di sosial media oleh masyarakat mengandung opini terhadap pasangan calon yang didukungnya. Penelitian ini memprediksi sentimen masyarakat kepada pasangan calon Presiden dan Wakil Presiden Republik Indonesia. Data yang digunakan adalah tweet yang ada pada akun Twitter @jokowi. Pengambilan data menggunakan library Tweepy dengan bahasa pemrograman Python 2. Penelitian ini mengklasifikasi sentimen masyarakat menjadi 2 kelas, yaitu positif dan negatif. Kemudian dilakukan pemodelan dengan metode pembobotan Unigram. Bigram. Trigram. N-Gram . Dan N-Gram . menggunakan Algoritme Nayve Bayes pada Aplikasi Weka. Pembuatan model menggunakan dataset yang berjumlah 646 kalimat. Hasil tertinggi yang diperoleh pada penelitian ini adalah dengan menggunakan Pembobotan Unigram, yaitu : akurasi 81,4%, presisi 81,5 % , recall 81,3 % dengan catatan waktu 0,3s. Kata kunci: klasifikasi, nayve bayes, pilpres 2019, twitter, unigram. hangat diakalangan masya-rakat, berbagai pikiran dan padangan politik dalam PILPRES baik yang pro maupun kontra sudah semakin banyak bermunculan, #gantipresiden dan lain sebagainya. Twitter termasuk media sosial yang ramai digunakan masyarakat saat ini untuk saling berbagi dan bertukar PENDAHULUAN Indonesia merupakan negara yang menganut sistem demokrasi. Hal tersebut diada-kannya pemilihan umum dalam pemerintah baik Pemilu diselenggarakan dalam 5 tahun sekali. Perbincangan terkait Pemilu ini menjadi JURTEKSI (Jurnal Teknologi dan Sistem Informas. Vol. VII No. Dec 2020, hlm. 99 Ae 104 DOI: https://doi. org/10. 33330/jurteksi. Available online at http://jurnal. id/index. php/jurteksi Saat ini Twitter banyak digunakan untuk berbagai kepentingan, seperti media sosial untuk membangun pertemanan dalam skala luas dan untuk saling bertukar fikiran dan menyampaikan Selain itu. Twitter juga dapat digunakan untuk alat promosi dan kampanye dalam hal kepentingan politik. Data di media sosial twitter yang berupa teks, maka data ini dapat di olah menjadi sebuah informasi dan pengetahuan yang berkembang. Text mining merupakan teknik penambangan data teks yang bertujuan untuk mendapatkan kembali informasi yang ada pada data teks, yang diekstrak secara otomatis dari sumber-sumber data teks yang digunakan sebagai dataset. Pada penelitian terkait analisis sentimen, digunakan dataset dari pendapat atau opini masyarakat. Selanjutnya masyarakat tersebut dibagi menjadi 5. Untuk dapat meng-hasilkan menggunakan salahsatu jenis metode Nayve Bayes Classifier(NBC). Dataset yang digunakana adalah data teks bahasa Indonesia berupa tweet dari Twitter tentang Calon Presiden Indonesia tahun 2014. Hasil yang diperoleh dari penggunaan 900 dataset pada penelitian tersebut yaitu nilai akurasi sebesar 71,9%, nilai presisi sebesar 71,6%, dan nilai recall sebesar 71,9%. Sebuah model dibangun untuk melakukan analisis pada Pemilihan Gubernur dan Wakil Gubernur DKI Jakarta tahun 2017 masyarakat di Twitter terhadap pasangan calon Gubernur dan Wakil Gubernur. Data yang digunakan diperoleh dengan kunci. @AhokDjarot dan @JktMajubersama. Hasil penelitian tersebut adalah prediksi ISSN 2407-1811 (Prin. ISSN 2550-0201 (Onlin. data uji menggunakan algoritme Nayve Bayes, dengan tingkat akurasi mencapai 60,60%. METODE Tahapan dalam menyelesaikan penelitian ini dapat dilihat pada Gambar 1. MULAI PENGUMPULAN DATA PREPROCESSING KLASIFIKASI PENGUJIAN HASIL Gambar 1 Metodologi Penelitian Pengumpulan Data Penelitian ini menggunakan dataset Sentimen masyarakat PILPRES yang akan diambil dari data berisi tweet yang telah dianotasikan untuk PILPRES, khususnya dalam kategori pro dan kontra pada akun @jokowi. Kemudian data dibagi menjadi 2 kelas yaitu kelas positif dan kelas Preprocessing Preprocessing . ra-prose. pada penelitian ini bertujuan untuk menghapus data-data tweet error pada saat pengambilan data dan menyeleksi fitur berupa kata-kata atau term. Praproses penelitian ini menggunakan aplikasi Python ver. Tahapan preprocessing, karakter. , stemming. Klasifikasi Data teks yang telah dilakukan pembersihan pada tahap preprocesing. Data teks tersebut akan diberikan bobot JURTEKSI (Jurnal Teknologi dan Sistem Informas. Vol. VII No. Dec 2020, hlm. 99 Ae 104 DOI: https://doi. org/10. 33330/jurteksi. Available online at http://jurnal. id/index. php/jurteksi menggunakan Metode Pembobotan Kata TF-IDF N-Gram . dan N-Gram . yang bertujuan untuk mempresentasikan seberapa besar pengaruh bobot tersebut pada suatu dokumen. Cara kerja pembobotan kata pada metode TF-IDF yaitu dengan menggunakan 2 parameter pembo-botan yaitu pembobotan lokal tfi. adalah bobot yang didapat dari frekuensi kemunculan kata i dalam dukumen j dan pembobotan global dengan menggunakan idfi adalah bobot yang didapat dengan memper-timbangkan jumlah kemunculan kata i (DF. pada keseluruhan dukumen N. Dan selanjutnya, nilai dari bobot lokal dikalikan dengan nilai dari bobot global maka didapat. Cara menghitung bobotnya dengan persamaan. ISSN 2407-1811 (Prin. ISSN 2550-0201 (Onlin. mentasikan pada suatu sistem data mining yang disebut WEKA. Sistem ini berisikan algoritme data mining. WEKA digunakan untuk pra-pengolahan data . , klasi-fikasi data, regresi, klasterisasi . , aturan asosiasi dan visualisasi data. HASIL DAN PEMBAHASAN Pengumpulan data Proses menggunakan Python 2. 7, data yang digunakan adalah berupa teks berisikan sentimen masyarakat pada akun twitter @jokowi dengan format CSV yang berbentuk data tidak terstruktur. , klasifikasi, peneliti memberikan label yang berfungsi untuk menyimpan nilai sentimen yang akan diklasifikasikan . Data yang dikumpulkan dalam penelitian ini berjumlah 646 tweet, 476 teks yang bersifat positif dan 170 yang bersifat Dataset ini dikategorikan kepada unbalanced class. Setelah menggunakan algoritme Nayve Bayes. Algoritme Nayve Bayes menggunakan pendekatan Bayes dalam melakukan proses klasisfikasi. Untuk mencari nilai probabalitias/ peluang tertinggi (Vma. digunakan rumus. berikut: . Keterangan: Vmap=Probabilitas/ peluang tertinggi a1, a2, a3, . , an =atribut data masukan Persamaan diatas dapat ditulis menjadi rumus . : . Preprocessing Preprocessing ini dilakukan dengan tiga tahap, yaitu: Pembersihan menghilangkan karakter yang bisa mengurangi kualitas dataset yang akan Seperti tanda hastag (#), at (@) dan simbol karakter lainnya yang tercantum pada Tabel 1 . Stemming adalah proses suatu kata menjadi kata dasar. Pada tahap ini akan dilakukan penghilangan semua imbuhan . yang terdiri dari awalan . , sisipan . , akhiran . dan duplikasi. Tujuan dari proses ini adalah untuk . Keterangan: Vmap = Probabilitas P(V. = Probabilitas kelas ke j P. 1,a2,A,a. = Probabilitas atribut input P. 1,a2,. ,a. = Probabilitas atribut input jika diketahui keadaan Vj ke j Pada penelitian yang dilakukan, algoritme Nayve Bayes akan diimple- JURTEKSI (Jurnal Teknologi dan Sistem Informas. Vol. VII No. Dec 2020, hlm. 99 Ae 104 DOI: https://doi. org/10. 33330/jurteksi. Available online at http://jurnal. id/index. php/jurteksi mendapatkan kata dasar dari kata Stopword, pembuangan kata-kata yang memiliki arti atau tidak relevan. Katakata yang diperoleh dari tahap daftar stopword, apabila sebuah kata stopword maka kata tersebut akan dihilangkan dan tidak akan diproses lebih lanjut. Sebaliknya apabila sebuah kata tidak termasuk dalam daftar stopword maka kata tersebut akan masuk ke proses berikutnya. Tabel 2 dan 3 merupakan contoh penerapan tahap 2 dan 3 dari preprocessing terhadap dataset. Hasil dari pemisahan tersebut selanjutnya dibobotkan dan diklasifikasi menggunakan algoritme Nayve Bayes. Pengujian Pada tahapan pengujian hasil klasifikasi yang diperoleh selanjutya diuji. Pengujian hasil klasifikasi menggunakn teknik K-Fold Cross Validation, yaitu dengan jumlah percobaan . sebanyak 10 Pengujian dilakukan dengan membagi dataset mejadi 10 bagian. Sebanyak 9(Sembila. bagian dataset digunakan untuk proses pelatihan. Sisanya digunakan untuk proses pengujian. Iterasi atau perulangan terjadi sebanyak 10. kali dengan kombinasi data sebanyak 10. bagian pada dataset untuk training maupun testing. Tahapan pengujian dilakukan untuk menganalisa hasil dari pembelajaran mesin yang telah dilakukan, sehingga mendapatkan hasil akurasi, presisi, recall, dan waktu klasifikasi. Klasifikasi Data bersih yang didapat setelah tahap preprocessing, kemudian dilakukan pemisahan tiap kata dengan menggunakan Aplikasi WEKA. Pada proses klasifikasi data masukan yang digunakan adalah dokumen dengan tipe Atribut-Relation File Format(ARFF). Tabel 1 Label Positif Positif Negatif ISSN 2407-1811 (Prin. ISSN 2550-0201 (Onlin. Pembersihan Karakter Teks Awal RT @jokowi: telah berjuang untuk Indonesia di mata dunia RT @roninpribumi: Kata @jokowi demokrasi ada batasnya itu betul. Batasnya adalah HUKUM. Kalau tagar #2019GantiPresiden dianggap melanggarA RT @eae18: Saya bingung deh. Kan ada Yai Ma'ruf. Kan ada @imam_nahrawi Mosok Pak @jokowi kutip hadis yang salah konteks didiamkan. Setelah Proses Pembersihan RT jokowi telah berjuang untuk Indonesia di mata dunia RT roninpribumi Kata jokowi demokrasi ada batasnya itu betul Batasnya adalah HUKUM Kalau GantiPresiden melanggarA RT eae Saya bingung deh Kan ada Yai Maruf Kan ada imam nahrawi Mosok Pak jokowi kutip hadis yang salah konteks didiamkan JURTEKSI (Jurnal Teknologi dan Sistem Informas. Vol. VII No. Dec 2020, hlm. 99 Ae 104 DOI: https://doi. org/10. 33330/jurteksi. Available online at http://jurnal. id/index. php/jurteksi Tabel 2 Label Positif Positif Negatif Label Positif Positif Negatif Stemming Teks Awal RT @jokowi: telah berjuang untuk Indonesia di mata dunia RT @roninpribumi: Kata @jokowi demokrasi ada batasnya itu betul. Batasnya adalah HUKUM. Kalau tagar #2019GantiPresiden melanggarA RT @eae18: Saya bingung deh. Kan Yai Ma'ruf. Kan @imam_nahrawi Mosok Pak @jokowi kutip hadis yang salah konteks Tabel 3 ISSN 2407-1811 (Prin. ISSN 2550-0201 (Onlin. Setelah Proses Stemming jokowi telah juang untuk harum nama bangsa Indonesia di mata demokrasi ada batas itu betul batas gantipresiden anggap langgar eae saya bingung deh kan ada yai maruf kan ada imam nahrawi mosok pak jokowi kutip hadis yang salah konteks diam Stopword Teks Awal RT @jokowi: telah berjuang untuk Indonesia di mata dunia RT @roninpribumi: Kata @jokowi demokrasi ada batasnya itu betul. Batasnya adalah HUKUM. Kalau tagar #2019GantiPresiden dianggap melanggarA RT @eae18: Saya bingung deh. Kan Yai Ma'ruf. Kan @imam_nahrawi Mosok Pak @jokowi kutip hadis yang salah konteks didiamkan. Setelah Proses Stopword Jokowi berjuang harum nama bangsa Indonesia mata dunia demokrasi batas betul batas hukum kalau tagar gantipresiden anggap eae bingung deh kan yai ma ruf kan imam nahrawi mosok pak jokowi kutip hadis salah konteks diam SIMPULAN Berdasarkan Tabel 4 dapat dilihat akurasi. , presisi. , recall serta waktu. Dari hasil penggujian dapat dilihat bahwa algoritme Nayve Bayes dengan TF-IDF berbasis NGram . menunjukkan hasil yang akurasi. , presisi. , recall serta waktu. Dengan nilai akurasi. sebesar 80,5%, presisi. sebesar 80,7%, recall sebesar 80,3% dengan catatan waktu. selama 0,42s. Namun, hasil Pada Klasifikasi ini peneliti menggunakan Algoritme Naive Bayes dengam pembobotan N-gram . dan Ngram. Hasilnya dapat dilihat pada tabel 4: Tabel 4. Hasil Klasifikasi NN-gram Nayve Bayes . Accuracy (%) Precision (%) Recall (%) Time . 0,42 0,43 JURTEKSI (Jurnal Teknologi dan Sistem Informas. Vol. VII No. Dec 2020, hlm. 99 Ae 104 DOI: https://doi. org/10. 33330/jurteksi. Available online at http://jurnal. id/index. php/jurteksi tersebut tidak jauh berbeda dengan NGram . Melalui penelitian ini juga diketahui bahwa Metode Pembobotan Kata N-Gram . hasilnya sama baik dan tidak jauh berbeda ketika ISSN 2407-1811 (Prin. ISSN 2550-0201 (Onlin. on Inventive Systems and Control (ICISC). Jan. 2018, pp. 1259Ae1262, doi: 10. 1109/ICISC. Tala. AuA Study of Stemming Effects on Information Retrieval in Bahasa Indonesia,Ay Inst. Log Lang. Comput. Univ. Van Amst. Neth. Wenando. Adji, and Ardiyanto. AuText Classification to Detect Student Level Understanding in Prior Knowledge Activation Process,Ay Adv. Sci. Lett. 23, no. 3, pp. 2285Ae2287, 2017. Wenando and E. Fuad. AuDetection of Hate Speech in Indonesian Language on Twitter Using Machine Learning Algorithm,Ay Pros. CELSciTech, vol. 4, pp. 6Ae8, 2019. Aksenova. Mechine Learning with WEKA Ae WEKA Tutorial Ae Explore Tutorial for WEKA Version California, 2004. Normah, and U. AuPrediction of Indonesia Presidential Election Results for the 2019-2024 Period Using Twitter Sentiment Analysis,Ay 2019 5th Int. Conf. New Media Stud. , pp. 36Ae42, 2019. UCAPAN TERIMA KASIH Terima kasih kepada Kementerian Riset. Teknologi dan Pendidikan Tinggi(Kemenristek-Dikt. atas dukungan pendanaan dalam penelitian ini. DAFTAR PUSTAKA