Jurnal informasi dan Komputer Vol: 10 No:2.
P-ISSN: 2337-8344
E-ISSN: 2623-1247
ANALISIS SENTIMEN PROGRAM MIGRASI TV DIGITAL MENGGUNAKAN
ALGORITMA NAIVE BAYES DENGAN CHI SQUARE
Virgaria Zuliana1.
Garno2.
Iqbal Maulana3 Universitas Singaperbangsa Karawang123 Jl.
HS.
Ronggo Waluyo.
Puseurjaya.
Kec.
Telukjambe Timur.
Kab.
Karawang 123 Email : virgaria.
zuliana18128@student.
id1, garno@staff.
maulana@staff.
ABSTRAK
Saat ini televisi menempati posisi nomor 2 sebagai sumber informasi setelah media sosial.
Sistem siaran TV analog akan diganti dengan TV digital berdasarkan rencana yang dikeluarkan oleh Kementerian Komunikasi dan Informatika di Indonesia.
Media sosial berguna untuk berbagi pemikiran dan opini tentang peristiwa, produk dan lainnya, contohnya terhadap migrasi TV digital yang sedang berlangsung.
Keunggulan TV digital termasuk teknologi yang unggul dan kejernihan gambar yang jernih dan tajam.
Beberapa orang berpendapat bahwa mereka puas dengan transisi ke TV digital, sementara yang lain Sehingga peneliti menjadi tertarik dengan dua opini tersebut dan tertarik untuk melakukan analisis sentimen masyarakat yang mengenai program migrasi siaran TV digital di media sosial Twitter karena adanya dua tanggapan tersebut.
Penelitian menggunakan algoritma Naive Bayes dan melakukan seleksi fitur dengan Chi Square pada proses penelitian untuk mengkaji perbedaan opini publik tentang migrasi ke siaran TV digital.
Hasil klasifikasi dengan 191 data sentimen positif dan 185 data sentimen negatif menghasilkan tingkat akurasi 96%, precision 93% dan recall 100%.
Kata kunci : text mining, siaran tv digital, naive bayes, chi square ABSTRACTS Currently, television occupies the number 2 position as a source of information after social media.
The analog TV broadcast system will be replaced with digital TV based on a plan issued by the Ministry of Communication and Information Indonesia.
Social media is useful for sharing thoughts and opinions about events, products and more, for example on the ongoing digital TV migration.
The advantages of digital TV include superior technology and clear, crisp picture clarity.
Some people argue that they are satisfied with the transition to digital TV, while others are the opposite.
So that researchers are interested in these two opinions and are interested in analyzing public sentiment regarding the migration program for digital TV broadcasts on Twitter social media because of these two responses.
The research uses the Naive Bayes algorithm and performs feature selection with Chi Square in the research process to examine differences in public opinion about migration to digital TV broadcasts.
The results of the classification with 191 positive sentiment data and 185 negative sentiment data resulted in 96% accuracy, 93% precision and 100% recall.
Keywords: text mining, digital tv broadcast, naive bayes, chi square PENDAHULUAN Televisi merupakan media informasi umum yang berguna karena disampaikan secara efektif dan cepat.
Katadata Insight Center (KIC) dan Kementerian Komunikasi dan Informatika (Kominf.
melakukan survei mengenai AuRagam Sumber Informasi yang Paling Banyak Diakses MasyarakatAy hasil dari survei menunjukkan bahwa, setelah media sosial, televisi berada pada posisi 2 sebagai media sumber informasi di 90 | S T M I K D i a n C i p t a C e n d i k i a K o t a b u m i Jurnal informasi dan Komputer Vol: 10 No:2.
masyarakat Indonesia dengan minat tertinggi .
Sistem siaran televisi yang diterapkan di Indonesia saat ini menggunakan sistem siaran TV analog dan sistem siaran TV digital.
Namun dengan perkembangan teknologi, penggunaan TV analog di Indonesia dinilai tertinggal .
Maka Kementerian Komunikasi Informatika (Kemkominf.
telah merilis program migrasi TV analog ke TV digital serta penghentian sistem TV analog.
TV digital memberikan kualitas gambar yang lebih baik daripada TV analog, dengan suara yang lebih jernih dan teknologi yang lebih Ada beberapa masyarakat yang mengungkapkan tanggapan dan opini positif di media sosial, salah satunya pada Twitter yang mendukung dan puas setelah melakukan migrasi ke TV digital.
Selain itu ada pula masyarakat yang memberikan tanggapan dan opini negatif yang mengeluhkan di media sosial Twitter terkait hilangnya siaran dan sedikitnya siaran pada TV digital.
Twitter adalah media sosial tempat membagikan ide, gagasan, ekspresi dan memberikan pendapat berbentuk teks singkat, foto atau video yang disebut tweet terhadap suatu produk, layanan, isu politik, ataupun halhal viral dan lainnya .
Adanya opini positif dan negatif yang diberikan oleh masyarakat di media sosial Twitter membuat peneliti tertarik untuk melakukan analisis sentimen mengenai program migrasi TV analog ke TV digital untuk dilakukan Analisis sentimen menurut Berry dalam Rahutomo et al.
, .
yaitu proses yang dilakukan secara otomatis dalam mempelajari, mengambil, dan mengolah data tekstual untuk memperoleh informasi dan melihat tanggapan atau opini mengenai sebuah masalah atau objek menuju opini positif atau negatif.
Pattiiha Hendry, dalam penelitian perbandingan metode KNN.
Naive Bayes, dan Decision Tree untuk melakukan analisis sentimen dari data tweet terkait opini pada PT PAL Indonesia, menggunakan metode Naive Bayes memiliki tingkat akurasi tertinggi sebesar 84,08%, sedangkan untuk metode K-NN adalah 83,38% dan Decision Tree adalah 81,09 .
Pada P-ISSN: 2337-8344
E-ISSN: 2623-1247
penelitian lainnya menerapkan algoritma Naive Bayes dan penggunaan seleksi atribut Chi Square dalam mengklasifikasi loyalitas terhadap pelanggan GRAB menghasilkan akurasi dengan hanya menggunakan Naive Bayes sebesar 92,73% menggunakan Naive Bayes dengan ditambah fitur seleksi Chi Square hasil akurasinya menjadi 99,51% .
Dari hasil penelitian sebelumnya algoritma Naive Bayes lebih unggul dibandingkan Decision Tree dan KNN, serta penggunaan seleksi fitur Chi Square pada algoritma Naive Bayes menghasilkan akurasi yang meningkat.
Penelitian ini memiliki tujuan untuk melakukan analisis sentimen untuk mengkalsifikasikan dengan menggunakan algoritma Nayve Bayes dengan Chi Square sebagai seleksi fiturnya.
Algoritma Naive Bayes menurut Hozairi et al.
yaitu algoritma sudah teruji memiliki nilai menggunakannya ke database yang memiliki informasi besar.
Seleksi fitur dengan Chi Square diimplementasikan dengan Select Kbest pada menghitung nilai pada masing-masing fitur lalu menerapkan fungsi Chi Square dan kemudian dilakukan pengurutan nilai fitur teratas berdasarkan pada nilai k yang ditentukan .
METODE PENELITIAN
Beberapa tahapan dalam penelitian ini dilakukan untuk melakukan klasifikasi terhadap program migrasi siaran TV digital, beberapa tahapan tersebut dapat dilihat pada Gambar 1 yang merupakan alur penelitian.
Gambar 1.
Alur Penelitian 91 | S T M I K D i a n C i p t a C e n d i k i a K o t a b u m i Jurnal informasi dan Komputer Vol: 10 No:2.
Penelitian dimulai dengan melakukan proses data selection kemudian dilakukan tahap preprocessing, tahap transformation, dan data mining serta tahap terakhir yaitu evaluation.
Pada tahap preprocessing juga meliputi beberapa tahap anatara lain cleaning, case stemming dan normalization.
Berikut penjelasan mengenai tahapan pada penelitian ini .
1 Data Selection Penelitian ini melakukan data selection dimulai menggunakan teknik tertentu seperti teknik crawling dan dengan kata kunci tertentu, setelah data didapatkan maka dilanjutkan dengan melakukan seleksi dan pelabelan data.
2 Preprocessing Tahap preprocessing melakukan proses pembersihan data dan membentuk data yang telah dikumpulkan agar data memiliki struktur yang efektif untuk digunakan pada tahap Tahap preprocessing meliputi beberapa tahapan lain yaitu:
Cleaning Membersihkan data untuk menghapus angka, emoticon, hastag, url, username, ataupun simbol karena tidak memiliki keperluan.
Tokenizing Mengubah teks kalimat dalam data menjadi kata per kata untuk proses yang lebih mudah pada proses transformasi.
Stopword Removal Membersihkan data untuk menghapus kata yang tidak memiliki pengaruh sehingga pada proses klasifikasi menjadi optimal.
Stemming Melakukan perubahan data teks menjadi teks dengan huruf kecil.
Normalization Proses memperbaiki kata pada data yang memiliki kesalahan dalam penulisan.
3 Transformation Proses mengubah struktur pada data awal menjadi yang sesuai dengan kriteria metode data mining yang digunakan pada tahap Seperti mengubah data teks menjadi data numerik dengan pembobotan menggunakan TF-IDF agar dapat melakukan proses selanjutnya dengan algoritma lain.
Setelah itu pada tahap ini dapat dilakukan proses pemilihan data seperti seleksi fitur, salah satunya dengan menggunakan Chi Square.
4 Data Mining Tahap data mining melakukan proses melakukan perubahan data mentah sehingga jadi informasi yang berguna.
Pada penelitian ini dilakukan klasifikasi dengan menggunakan algoritma tertentu dengan kalimat sentimen dikelompokkan pada kelas positif dan negatif.
Salah satu algoritma yang dapat digunakan dalam proses klasifikasi yaitu Naive Bayes.
5 Evaluation Melakukan evaluasi pada performa dari algoritma yang digunakan, seperti dengan implementasi menggunakan Confusion Matrix maka hasil evaluasi akan berupa nilai akurasi, presisi dan recall.
Berdasarkan nilai tersebut maka akan mudah dipahami pengetahuan atau informasi yang sebelumnya telah dilakukan.
HASIL DAN PEMBAHASAN
Data Selection Proses menghapus kata imbuhan yang ada pada awla dan akhir kata pada data yan digunakan.
P-ISSN: 2337-8344
E-ISSN: 2623-1247
Case Folding Penelitian analisis sentimen mengenai opini publik terhadap migrasi siaran TV digital menggunakan data tweet dari pengguna twitter.
Kata kunci yang digunakan yaitu Ausiaran tv digitalAy.
Data dikumpulkan dalam kurun waktu 1 Februari 2022 sampai 31 Juli 2022.
92 | S T M I K D i a n C i p t a C e n d i k i a K o t a b u m i Jurnal informasi dan Komputer Vol: 10 No:2.
Menghasilkan data asli sebanyak 3543 data tweet dan dilakukan seleksi guna menghapus data duplikat sehingga data menjadi 1815.
Data kemudian dilakukan seleksi dengan bantuan pakar bahasa indonesia sehingga menghasilkan 376 data dengan 191 data sentimen positif dan 185 data sentimen negatif.
P-ISSN: 2337-8344
E-ISSN: 2623-1247
stemming menggunakan library Sastrawi.
Berikut pada Gambar 4 merupakan hasil dari Gambar 4.
Hasil Case Folding.
Tokenizing.
Stopword Removal, & Stemming Gambar 2.
Data Setelah Proses Data Selection Preprocessing Tahapan preprocessing melewati beberapa tahap dalam membentuk data sehingga siap digunakan pada tahap data mining.
Cleaning Pada proses ini melakukan proses menghapus tag username, angka, hastag, url dan tanda tanya pada atribut tweet.
Hasil dari proses cleaning disimpan pada kolom baru dengan nama remove_http.
Pada Gambar 3 berikut menunjukan hasil pada proses cleaning.
Normalization Tahap selanjutnya dilakukan normalisasi guna memperbaiki kata salah ketik atau singkatan dengan menggunakan kamus normalisasi.
Pada Tabel 1 berikut merupakan contoh pada kamus Tabel 1.
Contoh Kamus Normalisasi Before After Hasil pada proses tersebut terdapat dikolom baru dengan nama normalized, seperti yang tertera pada Gambar 4 berikut.
Gambar 3 Hasil Proses Cleaning Case Folding.
Tokenizing.
Removal.
Stemming Stopword Tahap case folding, tokenizing, stopword removal dan stemming dilakukan bersamaan dengan mengubah semua kasta menjadi huruf kecil, memisahkan kata perkata, menghapus menghilangkan imbuhan pada kata.
Proses ini dilakukan dengan bantuan library nltk, menggunakan stopwords, tokenize, dan Gambar 5.
Hasil Normalization 93 | S T M I K D i a n C i p t a C e n d i k i a K o t a b u m i Jurnal informasi dan Komputer Vol: 10 No:2.
Setelah dilakukan tahap preprocessing maka hasil dari proses tersebut menggunakan data akhir dengan atribut value dan normalized.
Atribut normalized dilakukan penggantian nama manjadi tweet.
Lalu terakhir dilakukan cleaning ke dua guna menghapus punc, data yang mempunya spasi lebih dari satu, dan data tweet yang kosong.
Sehingga data akhir yang siap digunakan menjadi 373 data, dengan 188 data positif dan 185 data negatif.
Berikut pada Gambar 6 hasil data tahap preprocessing yang siap digunakan untuk tahap selanjutnya.
P-ISSN: 2337-8344
E-ISSN: 2623-1247
Gambar 8 merupakan hasil dari penggunaan Chi Square sebagai seleksi fitur.
Gambar 8.
Hasil Seleksi Fitur Chi Square Data Mining Tahap data mining untuk melakukan klasifikasi sentimen terhadap program migrasi TV digital pada penelitian ini menggunakan algoritma Naive Bayes menghasilkan 12 kelas negatif dengan benar dan 1 kelas negatif yang diprediksi kelas positif.
Kemudian kelas positif berhasil diprediksi benar dengan jumlah 14 data dan tidak ada yang diprediksi sebagai negatif.
Hasil prediksi yang dilakukan dapat dilihat pada Tabel 2.
Tabel 2.
Hasil Data Mining Prediction Hasil Klasifikasi
70 : 30
Gambar 6.
Hasil Data Preprocessing Transformation Tahap transformation dilakukan menggunakan algoritma TF-IDF untuk mengubah struktur Data dilakukan splitting data dengan presentase 70% data training dengan jumlah 261 data dan 30% data testing dengan jumlah 112 data.
Actual Positif Negatif Positif Negatif Evaluation Tahap evaluation dilakukan menggunakan Confusion Matrix untuk mengetahui akurasi, precision dan recall.
Hasil klasifikasi dari algoritma Naive Bayes dengan Chi Square tertera pada Gambar 9 berikut.
Gambar 7.
Hasil Transformation Setelah dilakukan pembobotan dengan TF-IDF menggunakan Chi Square dengan mengurutkan nilai fitur yang dihitung dengan menerapkan fungsi Chi Square dan menyeleksi nilai fitur berdasarkan nilai k teratas yang ditentukan.
Pada proses ini menggunakan k sebesar 200.
Gambar 9.
Hasil Evaluation Hasil evaluasi dari penelitian yang telah dilakukan menghasilkan akurasi sebesar 96%, precision 93% dan recall 100%.
94 | S T M I K D i a n C i p t a C e n d i k i a K o t a b u m i Jurnal informasi dan Komputer Vol: 10 No:2.
KESIMPULAN
P-ISSN: 2337-8344
E-ISSN: 2623-1247
Eng Appl.
:69Ae075.
Hasil pada pengujian yang telah melakukan kalsifikasi sentimen menggunakan algoritma Nayve Bayes dengan Chi Square menghasilkan nilai akurasi sebesar 96%, precision 93% dan recall 100% dengan 12 data kelas negatif diprediksi dengan benar dan 1 data kelas negatif diprediksi sebagai kelas positif.
Sedangkan kelas positif telah berhasil diprediksi dengan jumlah 14 data dan tidak ada kelas positif yang diprediksi negatif.
Hozairi.
Anwari.
Alim S.
Implementasi Orange Data Mining untuk Klasifikasi Kelulusan Mahasiswa dengan Model KNearest Neighbor.
Decision Tree serta Naive Bayes.
Ilm NERO.
:133Ae44.
DAFTAR PUSTAKA