Jurnal Ipsikom Vol 13 no. 1 - Juni 2025 e-ISSN : 2686-6382 ANALISIS SENTIMEN PADA MEDIA SOSIAL TWITTER(X) TERHADAP PEMAIN DIASPORA DI TIM NASIONAL SEPAK BOLA INDONESIA STUDI KASUS PESEPAKBOLA MEES HILGERS DAN ELIANO REINJDERS MENGGUNAKAN METODE NAyaVE BAYES DAN SUPPORT VECTOR MACHINE (SVM) Ade Bagus Ferdiyawan, 2Nurasiah, 3Imam Fauzy, 4Winanti, 5Sucipto Basuki Mahasiswa Prodi Sistem Informasi. Universitas Insan Pembangunan Indonesia 2, 3, 4, 5 Dosen Tetap Prodi Sistem Informasi. Universitas Insan Pembangunan Indonesia ferdytayu@gmail. com, 2nurash_ip@yahoo. com, 3imamipb42@gmail. win_anti@yahoo. id, 5ciptainsan@yahoo. ABSTRAK Pemain diaspora semakin memegang peranan penting dalam skuad tim nasional sepak bola Indonesia. Penelitian ini bertujuan untuk menganalisis sentimen publik di twitter (X) terkait dua pemain diaspora. Mees Hilgers dan Elliano Reindjs, dengan memanfaatkan algoritma Nayve Bayes dan Support Vector Machine serta membaginya menjadi kelas positif, negatif dan netral. Hasil penelitian ini menunjukkan bahwa sentimen masyarakat terhadap pemain diaspora di tim nasional sepak bola Indonesia cenderung positif dengan nilai presentase sebesar 71,2% atau 640 tweet positif, kemudian 25,5% atau 229 tweet negatif dan 3,3% atau 30 tweet netral. Penelitian ini menggunakan metode SEMMA (Sample. Explore. Modify. Model. Asses. sebagai acuan metodologi penelitian. Pada metode Support Vector Machine berasio 90:10 dengan parameter C: 100, gamma: 0,1 dan kernel: rbf memiliki hasil accuray lebih baik dibandingkan dengan metode Nayve Bayes pada rasio yang sama, dengan presentase perbandingan 86% : 74%. Melalui kajian ini, peneliti ingin memahami persepsi publik terhadap pemain diaspora setra kontribusinya dalam perkembangan sepak bola Indonesia. Diharapkan, hasil penelitian ini dapat memberikan wawasan yang lebih mendalam tentang dinamika opini publik di media sosial terkait isu-isu sepak bola nasional. Kata Kunci : Analisis. Sentimen. Diaspora. Naturalisasi. Tim Nasional. Sepak Bola. Indonesia. Nayve Bayes. Support Vector Machine. PENDAHULUAN Sepak bola merupakan salah satu olahraga yang paling popular hampir diseluruh dunia, termasuk di Indonesia. Bahkan di Indonesia, sepak bola mempunyai basis penggemar terbesar diantara olahraga lainnya. Segala perkembangan dunia sepak bola, khususnya yang terkait dengan tim nasional (Timna. Indonesia selalu ramai diperbincangkan di berbagai media, baik tradisional maupun Salah satu isu yang menarik perhatian publik akhir-akhir ini adalah penggunaan atlet diaspora, atau atlet keturunan Indonesia yang lahir dan besar di luar negeri. Disatu sisi para pemain diaspora ini kerap dianggap memiliki kualitas yang bisa meningkatkan performa timnas Indonesia, dikarenakan mereka bermain dan dibesarkan di daerah yang kualitas serta lingkungan sepak bolanya lebih baik daripada di Indonesia. Namun disisi lain dianggap dapat menghambat perkembangan talenta-talenta asli Indonesia dan dapat pula menimbulkan ketergantungan jangka panjang sehingga kualitas pembibitan dan liga tidak akan berjalan dengan maksimal karena terus bergantung kepada pemain keturunan. Dalam perkembangan teknologi informasi dan komunikasi berkembang sangatlah pesat. Hal ini tentu membawa banyak perubahan dalam berbagai aspek kehidupan, termasuk cara orang-orang berkomunikasi dan mencari Sejak adanya handphone, ponsel pintar atau tablet. Semua orang dapat mengakses informasi dari mana saja dan kapan Salah perkembangan teknologi yang semakin canggih adalah terciptanya berbagai media sosial yang memiliki berbagai jenis dan ragam Jumlah pengguna media sosial di seluruh dunia telah mencapai 63,8% dari total populasi global. ini menunjukkan bahwa lebih dari setengah penduduk dunia memanfaatkan berbagai bentuk media sosial . Salah satu platform media sosial yang banyak penggunanya adalah twitter(X). Twitter merupakan salah satu media sosial yang sangat populer di Indonesia sebagai platform untuk menyuarakan aspirasi melalui tweet atau cuitan . Penulis memilih twitter(X) sebagai tempat penelitian karena twitter(X) memiliki jumlah cakupan data yang sangat besar serta datanya mudah diakses, selain itu platform ini memungkinkan orangorang untuk bertukar komentar atau tweet secara langsung atau real-time ditambah dengan adanya fitur hastag dan trending topik memudahkan dalam penyeleksian data yang akan digunakan dalam penelitian secara lebih Sentimen analisis atau opinion mining dapat diartikan sebagai bidang ilmu yang meneliti bagaimana klasifikasi sentimen. Topik pengelompokan sentimen berlandaskan teks opini terhadap pembahasan masalah yang menarik . Sentimen biasanya akan apakah positif atau negatif dengan menggunakan teknik Natural Language Processing (NLP) . Dalam analisis sentimen memiliki berbagai metode klasifikasi yang dapat digunakan. Pada penelitian ini penulis menggunakan metode nayve bayes dan siupport vector machine karena keduanya merupakan algoritma yang biasa digunakan untuk klasifikasi dan prediksi alasan lain adalah karena keduanya merupakan salah dua metode yang paling popular yang digunakan untuk analisis sentimen di media sosial. Studi kasus yang dipakai untuk bahan penelitian ini adalah bergabungnya 2 . pemain timnas Indonesia, yaitu Mees Hilgers dan Eliano Reinjders. Tujuan Penelitian: Guna mengetahui sentimen publik di media sosial twitter(X) terhadap proses naturalisasi Mees Hilgers dan Eliano Reinjders sebagai pemain diaspora di timnas Indonesia. Guna mengetahui perbandingan performa metode klasifikasi Nayve Bayes dan Support Vector Machine (SVM) dalam menganalisis sentimen publik terkait pemain diaspora di twitter(X). Guna mengetahui kata yang paling banyak muncul dalam tweet terkait naturalisasi pesepakbola Mees Hilgers dan Eliano Reijders. Analisis Sentimen Analisis sentimen termasuk ke dalam salah satu bidang dari Natural Language Processing (NLP) dan merupakan suatu proses yang digunakan untuk membantu mengidentifikasi isi dari dataset yang berupa opini atau pandangan . berbentuk teks terhadap suatu isu atau kejadian bersifat positif, negatif atau netral . Dalam analisis sentimen terdapat proses penambangan data yang disebut text mining. Text mining adalah ekstraksi informasi dari data sumber yang belum terstruktur yang mengacu pada teknik penambangan data untuk menganalisis dan memproses data . Media Sosial Media sosial adalah seperangkat alat komunikasi dan kolaborasi baru yang memungkinkan terjadinya berbagai jenis interaksi yang sebelumnya tidak tersedia bagi orang awam . Twitter(X) Merupakan salah satu media sosial yang paling populer didunia dan di Indonesia. satu layanan yang disediakan oleh twitter(X) kepada penggunanya adalah pembuatan pesan status . isebut AutweetA. yang dapat dibaca oleh pengguna twitter(X) lainnya dan biasanya berisi ungkapan pendapat pengguna dalam berbagai topik dengan batasan sebanyak 140 karakter, sehingga twitter(X) menjadi salah satu situs yang menyediakan kumpulan data opini dari masyarakat di seluruh dunia . Metode SEMMA SEMMA adalah singkatan dari (Sample. Explore. Modify. Model, and Acces. merupakan teknik penggalian data yang dikembangkan oleh SAS Institut . Metode ini digunakan untuk metodologi penambangan data untuk memecahkan berbagai masalah bisnis, termasuk identifikasi penipuan, retensi, pergantian pelanggan, pemasaran basis data, loyalitas pelanggan dan lain sebagainya . Nayve Bayes Merupakan suatu metode klasifikasi yang berasal dari teorema bayes yang menggunakan probabilitas dan statistik untuk memprediksi peluang berdasarkan pengalaman masa sebelumnya, dengan asumsi yang sangat sederhana tentang ketergantungan antara kondisi atau kejadian . Mining Process. Penelitian menggabungkan pendekatan kualitatif dan kuantitatif dengan menerapkan metode SEMMA adapun alurnya terdapat pada Gambar 1. Support Vector Machine Support Vector Machine atau SVM adalah salah satu algoritma dari Machine Learning yang berasal dari teori pembelajaran statistik yang biasa digunakan untuk tugas klasifikasi dan regresi . Gambar 1. SEMMA data mining process (Hendarta 2. Lexicon Based lexicon-based pembobotan kata dengan menggunakan kamus sentimen yang berisi kata-kata opini dan membandingkannya dengan data untuk mengidentifikasikan nilai suatu kata . Sample Tahap ini dilakukan dengan mencari teoriteori yang berkaitan dengan penelitian dari jurnal, buku atau website yang relevan. Data diambil dari twitter(X) dengan bantuan tweetharvest dan node. js yang ada di google Data yang didapat kemudian disimpan dengan format csv dan dikumpulkan dalam satu folder. Term Frequency-Invers Document Frequency Merupakan metode pembobotan kata dengan menentukan frekuensi kemunculan kata dalam sebuah dokumen dengan cara memperhatikan frekuensi atau seringnya kata tersebut muncul dalam sebuah dokumen . Explore Setelah terkumpul semua dataset dengan nama dokumen adalah keyword dari masingmasing pencarian, kemudian dijadikan kedalam satu dokumen. Setelah itu dataset dieksplorasi untuk menghilangkan kolomkolom hasil crawling data yang tidak diperlukan dan memilih tweet yang relevan dengan topik yang dibahas. Menyisakan kolom teks yang berisi kumpulan tweet dan akan digunakan dalam tahap berikutnya. Confusion Matrix Confusion Matrix adalah sebuah tabel yang digunakan untuk mengevaluasi proses kinerja dari model klasifikasi, matrik ini dimungkinkan untuk menentukan kualitas performa model klasifikasi. K-fold Cross Validation Merupakan salah satu teknik pengujian cross-validation dimana data akan dibagi menjadi data training dan data testing yang akan diacak dan dibagi ke dalam k himpunan yang berbeda . Modify Pada tahap ini, data tweet yang belum diolah akan melalui proses pre-processing data, seperti cleaning, case folding, tokenizing, stopwords, normalisasi dan stamming agar data yang dihasilkan menjadi lebih terstruktur. Kemudian dilanjutkan dengan melakukan visualisasi kata-kata yang sering muncul dengan wordcloud. METODE Data yang digunakan dalam penelitian ini adalah data tweet dari berbagai postingan yang berkaitan dengan timnas sepak bola indonesia. Mees Hilgers dan Eliano Reinjders. Terhitung dati tanggal 1 Juni 2024 hingga 31 Oktober Metodologi yang diterapkan dalam penelitian ini merujuk pada SEMMA Data Model Pelabelan dan perhitungan sentimen dilakukan setiap barisnya, menggunakan metode lexicon based dan term frequencyinvers document frequency (TF-IDF). Perhitungan dan pelabelan skor sentimen adalah sebagai berikut: Skor =(Ockata positi. (Ockata negati. Perhitungan skor tf-idf adalah sebagai Skor = (Ockata setiap bari. Perhitungan kombinasi dilakukan dengan membagi bobot atau rasio lexicon : tf-idf = 60%:40% dengan rumus sebagai berikut: Skor gabungan = . obot lexicon * skor lexico. obot tfidf *skor tfidf ) Pemilihan besaran nilai sentimen akhir adalah positif > 0,7 untuk sentimen negatif adalah < 0,5 dan selain keduanya bernilai Langkah berikutnya adalah splitting data menejadi rasio 90:10, 80:20, dan 70:30. Kemudian dilakukan perhitungan dengan metode nayve bayes dan support vector machine (SVM) untuk mengetahui accuracy pelabelan yang telah dilakukan. Gambar 2. Data hasil crawling Diperoleh data tweet sebanyak 1254 data pada rentang waktu 1 Juni 2024 sampai 31 Oktober 2024 didalamnya terdapat 15 kolom tiap dokumennya, kemudian data disimpan dengan format csv. Explore Data yang diperoleh kemudian dirapikan dan dilakukan pemilihan tweet yang relevan dengan penelitian, menggabungkan dokumendokumen hasil crawling data dan membuang kolom yang tidak digunakan, hanya menyisakan kolom full_text saja dengan jumlah tweet yang siap diolah sebanyak 917 tweet dan disimpan dengan nama master. Assess Pada tahap ini, akan dilakukan evaluasi Evaluasi ini untuk membandingkan yang diperoleh dari model prediksi dengan data uji yang telah dilengkapi dengan label sentimen . Hasil evaluasi akan dihitung menggunakan metrik-metrik seperti precision, recall, f1-score, dan accuiracy menggunakan metode 10-fold cross validation dan confusion matrix untuk mendapatkan hasil yang optimal dari masing masing model klasifikasi. Gambar 3. Seleksi data Modify Setelah data diseleksi kemudian dilakukan tahap preprocessing meliputi tahap cleaning, case folding, tokenizing, stop words, normalisasi dan stemming menghasilkan data bersih sebanyak 899 tweet dan disimpan dengan nama hasil. Pengujian Akhir Tahap terakhir adalah pengujian dengan memasukkan komentar baru yang belum pernah diprediksi sebelumnya. HASIL DAN PEMBAHASAN Sample Pencarian data menggunakan tools google colab dengan memanfaatkan library node. dan tweet harvest dengan cara mengambil twitter auth token. Gambar 7. Hasil pelabelan dan perhitungan Sentimen akhir adalah kolom yang menjadi acuan untuk perhitungan presentase semua sentimen dengan batas sentimen positif > 0,7, sentimen negatif < 0,5 dan sisanya bersentimen netral. Gambar 4. Hasil preprocessing Kemudian divisualisasikan dengan word cloud dan plot bar. Gambar 5. Wordcloud hasil preprocessing Gambar diatas merepresentasikan kata-kata yang sering muncul dengan ukuran kata yang besar berbanding terbalik dengan kata yang jarang muncul berukuran kecil. Gambar 8. Presentase tweet berlabel Pada gambar diatas menunjukkan bahwa sentimen positif lebih dominan dibandingkan dengan sentimen lainnya, dengan presentase sebesar 71,2% atau 640 tweet, untuk sentimen negatif sebesar 25,5% atau 229 tweet dan untuk sentimen netral sebesar 3,3% atau 30 tweet saja, kemudian hasil_pembobotan. Setelah data diberi label, langkah selanjutnya adalah pembagian semua data menjadi data latih dan data uji. Dengan rasio sebagai berikut: Gambar 6. Kata yang sering muncul Pada gambar diatas menunjukkan kata yang sering muncul adalah kata mees dengan jumlah 442 kata, indonesia 341 kata dan tim 329 kata. Model Data yang sudah bersih kemudian dilakukan pelabelan dan perhitungan skor sentimen dengan metode lexicon based dan TF-IDF. Tabel 1. Rasio data latih dan data tes Rasio Data Latih Data Uji 90:10 80:20 70:30 Kemudian data uji dihitung dengan metode klasifikasi multinomial nayve bayes dan support vector machine (SVM) untuk mengetahui accurcy yang didapat. Untuk metode multinomial nayve bayes diperoleh nilai accuracy terbaik pada rasio data 90:10 dengan nilai sebesar 0,744 atau 74%/. Sedangkan pada metode support vector machine (SVM) diperoleh nilai accuracy terbaik pada rasio 90:10 dengan nilai sebesar 0,86 atau 86%. Sebelum perhitungan support vector machine (SVM) terlebih dahulu menentukan parameter yang digunakan dalam proses perhitungan dengan menggunakan teknik GridSearch, adapun parameter-nya adalah sebagai berikut : Gambar 11. Hasil confusion matrix metode support vector machine (SVM) Dari gambar diatas didapatkan data untuk prediksi benar pada 68able68ent netral atau true netral sebanyak 0, untuk prediksi benar pada 68able68ent 68able68en atau true 68able68en sebanyak 12 dan untuk prediksi benar pada 68able68ent positif atau true positif Kemudian dilakukan perhitungan 10-fold cross validation pada kedua metode yang Adapun hasilnya adalah sebagai Gambar 9. Parameter yang akan dicari Assess Evaluasi performa model dilakukan dengan menggunakan rasio terbaik masingmasing metode, dikarenakan rasio yang mendapat nilai terbaik sama yaitu 90:10 maka keduanya menggunakan rasio tersebut. Tabel 2. Perhitungan 10-fold cross validation dengan metode nayve bayes Akurasi Presisi Recall F1Score Gambar 10. Hasil confusion matrix metode multinomial nayve bayes Pada gambar diatas didapatkan data untuk prediksi benar pada 68able68ent positif atau true positif sebanyak 67, untuk prediksi benar pada 68able68ent 68able68en atau true 68able68en sebanyak 0 dan untuk prediksi benar pada 68able68ent netral atau true netral Pada 68able diatas menunjukkan bahwa nilai accuracy tertinggi dari 10-fold cross validation dengan metode multinomial nayve bayes adalah 80% yang terdapat pada fold ke 6. Tabel 3. Perhitungan 10-fold cross validation dengan metode support vector machine Akurasi Presisi Recall F1Score dibagi dengan rasio 90% untuk data training dan 10% untuk data testing. Metode suppot vector machine memiliki nilai accuray lebih baik dibandingkan metode nayve bayes dengan nilai accuray 0,86 menggunakan parameter terbaik yaitu C: 100, gamma: 0,1 dan kernel: rbf dibanding dengan metode nayve bayes yang hanya memiliki nilai accuray sebesar 0,74 atau Dan setelah dilakukan proses 10-fold cross validation diperoleh hasil accuracy yang maksimal untuk metode support vector machine pada fold ke 9 dengan nilai 88% dan untuk metode nayve bayes diperoleh hasil accuracy yang maksimal pada fold ke 6 dengan nilai 80%. Hasil penggabungan semua data baik positif, negatif dan netral diperoleh kata yang sering muncul yaitu kata mees muncul dengan frekuensi sebanyak 442 kata, indonesia 341 kata dan tim 329 kata. Pada sentimen netral didominasi oleh tweet yang berisi komentar tentang keseharian dua pemain timnas yang sedang diteliti, seperti contoh tweet tentang Mees Hilgers yang sedang menari poco-poco atau Eliano Reinjders yang sedang berfoto dengan buah Pada sentimen positif didominasi oleh tweet yang berisi dukungan kepada tim nasional sepak bola Indonesia, seperti adanya kata AusemangatAy. AuselamatAy. AudukungAy dan AumenangAy. Sedangkan pada sentimen negatif didominasi oleh tweet yang berisi kata-kata hinaan, ataupun makian dan juga kata yang mengandung makna ketidak sukaan kepada tim nasional sepak bola Indonesia, seperti kata AujelekAy. AutidakAy. AutololAy dan AuanjingAy. Disarankan dapat mencoba algoritma atau model state-of-the-art seperti BERT atau transformer lainnya untuk meningkatkan akurasi dan memahami konteks sentimen dengan lebih baik. Fokus pada analisis aspek tertentu Pada 69able diatas menunjukkan bahwa nilai accuracy tertinggi dari 10-fold cross validation dengan metode support vrctor machine adalah 88% yang terdapat pada fold Pengujian Akhir Dilakukan dengan membuat sebuah kolom masukkan atau tweet, kolom tersebut dapat diisi dengan tweet atau komentar secara bebas. Hasil komentar dan sentimennya akan ditampilkan dibawah dengan memuat jumlah komentar, presentase sentimen dan jumlah komentar berdasarkan sentimennya. Jika tidak ada data yang dimasukkan maka akan muncul tulisan AuTidak ada komentar yang diinputkanAy. Kemudian data disimpan dengan nama Laporan_input. Untuk menghentikan program dapat mengetikkan kata AuselesaiAy kemudian program akan berhenti dengan Gambar 12. Contoh komentar baru dan prediksi sentimennya KESIMPULAN Hasil pelabelan dengan metode lexiconbased dan TF-IDF menunjukkan bahwa sentimen positif memiliki nilai presentase lebih besar dari kedua sentimen lainnya yaitu sebesar 71,2% atau 640 tweet berlabel positif, untuk sentimen berlabel negatif memiliki presentase 25,5% atau 299 tweet dan sentimen berlabel netral memiliki presentase 3,3% atau 30 tweet. Hasil pencarian akurasi terbaik dari kedua metode menunjukkan bahwa keduanya mencapai nilai akurasi tertinggi ketika data DAFTAR PUSTAKA