Jurnal ICT : Information Communication & Technology Vol. N0. Desember 2025, pp. 206 - 212 p-ISSN: 2302-0261, e-ISSN: 2303-3363. DOI: https://doi. org/10. 36054/jict-ikmi. Tren NLP dalam Analisis Sentimen Media Sosial: Tinjauan Sistematis dan Bibliometrik Tri Wahyudi1*. Nani Purwati2. Noor Hasan3. Gunawan Budi Sulistyo4 Program Studi Sistem Informasi. Universitas Bina Sarana Informatika. Indonesia Email: 1tri. twi@bsi. id, 2nani. npi@bsi. id , 3noor. nhs@bsi. id , 4gunawan. gnw@bsi. 1,2,3,4 INFORMASI ARTIKEL ABSTRAK Histori artikel: Abstract- This study presents a systematic and bibliometric review of the application of Natural Language Processing (NLP) in social media sentiment analysis during the period 2020Ae2025. A total of 400 articles were retrieved from reputable academic databases, including Ie Xplore. Scopus. SpringerLink. ACM Digital Library. ScienceDirect, and Google Scholar. Through a structured screening process based on inclusion and exclusion criteria as well as quality assessment, 201 articles were identified as relevant for further analysis. The results indicate that research publication trends increased significantly from 2020 to 2024 and declined in 2025 due to partial data collection. Twitter emerged as the most frequently studied social media platform, followed by Facebook. Instagram, and e-commerce reviews. Classical methods such as Nayve Bayes and Support Vector Machine are still applied in simple sentiment analysis however, recent studies are dominated by deep learning and transformer-based models, particularly CNN. LSTM, and BERT, which consistently achieve accuracy levels above 90%. The main challenges identified include multilingual processing, the use of slang and sarcasm, code-mixing phenomena, and the limited availability of labeled datasets. Based on these findings, this study concludes that future research should focus on the development of multilingual NLP approaches, domain-specific sentiment analysis, and the adoption of pre-trained transformer models to improve accuracy and contextual understanding in social media sentiment analysis. Naskah masuk, 16 November 2025 Direvisi, 29 Desember 2025 Diiterima, 31 Desember 2025 Kata Kunci: Bibliometric Natural Language Processing Analisis Sentimen Media Sosial Deep Learning Abstrak-Penelitian ini menyajikan tinjauan sistematis dan bibliometrik terhadap penerapan Natural Language Processing (NLP) dalam analisis sentimen media sosial pada periode 2020 hingga 2025. Sebanyak 400 artikel diperoleh dari berbagai basis data bereputasi, termasuk Ie Xplore. Scopus. SpringerLink. ACM Digital Library. ScienceDirect, dan Google Scholar. Melalui proses penyaringan berdasarkan kriteria inklusi, eksklusi, serta penilaian kualitas, sebanyak 201 artikel dinyatakan relevan untuk dianalisis lebih lanjut. Hasil analisis menunjukkan bahwa tren publikasi penelitian meningkat secara signifikan dari tahun 2020 hingga 2024, kemudian menurun pada tahun 2025 karena keterbatasan data yang dihimpun. Twitter menjadi platform media sosial yang paling sering diteliti, diikuti oleh Facebook. Instagram, dan ulasan ecommerce. Metode klasik seperti Nayve Bayes dan Support Vector Machine masih digunakan untuk kasus analisis sederhana, namun penelitian terkini didominasi oleh pendekatan deep learning dan transformer-based models, khususnya CNN. LSTM, dan BERT, yang secara konsisten mencapai tingkat akurasi di atas 90%. Tantangan utama yang teridentifikasi meliputi pemrosesan multibahasa, penggunaan slang dan sarkasme, fenomena code-mixing, serta keterbatasan dataset berlabel. Berdasarkan temuan tersebut, penelitian ini menyimpulkan bahwa arah penelitian ke depan perlu difokuskan pada pengembangan NLP multibahasa, analisis sentimen berbasis domain tertentu, serta pemanfaatan pre-trained transformer models untuk meningkatkan akurasi dan pemahaman kontekstual dalam analisis sentimen media sosial. Copyright A 2019 LPPM - STMIK IKMI Cirebon This is an open access article under the CC-BY license Penulis Korespondensi: Tri Wahyudi Program Studi Sistem Informatika. Universitas Bina Sarana Informatika Jl. Ringroad Barat. Gamping Kidul. Ambarketawang. Kec. Gamping. Kabupaten Sleman. Daerah Istimewa Yogyakarta Email: tri. twi@bsi. https://ejournal. id/index. php/jict-ikmi Jurnal ICT : Information Communication & Technology Vol. N0. Juli 2019, pp. xx-xx Pendahuluan Perkembangan teknologi informasi dan komunikasi dalam dekade terakhir telah menghasilkan ledakan data teks yang sangat besar, khususnya dari media sosial seperti Twitter. Facebook. Instagram, dan YouTube. Media sosial tidak hanya berfungsi sebagai sarana komunikasi, tetapi juga menjadi ruang ekspresi opini publik terhadap isu-isu sosial, politik, ekonomi, hingga Data yang dihasilkan pengguna dalam jumlah masif tersebut memiliki potensi besar untuk dianalisis sebagai sumber informasi berharga bagi pemerintah, perusahaan, maupun peneliti. Salah satu pendekatan utama yang digunakan untuk mengolah data tersebut adalah analisis sentimen, mengklasifikasi opini atau emosi yang terkandung dalam teks. Natural Language Processing (NLP) telah menjadi fondasi penting dalam analisis sentimen karena mampu menjembatani bahasa alami dengan representasi komputasi melalui berbagai tahapan, mulai dari tokenisasi, stemming, hingga pemodelan berbasis pembelajaran mesin. Rajput menegaskan bahwa NLP memiliki peran signifikan dalam mendukung analisis sentimen di berbagai domain, termasuk kesehatan . Mathew dan Bindu meninjau berbagai teknik NLP yang digunakan dalam analisis sentimen pada media sosial, dan menyoroti perkembangan dari algoritma klasik menuju metode pembelajaran mesin yang lebih kompleks . Sejalan dengan itu. Hazarika et al. menunjukkan penerapan NLP pada data Twitter dengan algoritma pembelajaran mesin untuk mengukur sentimen publik secara real-time . Tidak hanya terbatas pada media sosial. NLP juga banyak diterapkan pada domain serupa yang berhubungan dengan teks ulasan. Rohman et al. meneliti pemanfaatan NLP pada marketplace untuk memahami preferensi konsumen . , sedangkan Gimenez et al. menyoroti bahwa pendekatan convolutional neural networks (CNN) dapat meningkatkan akurasi dibandingkan algoritma konvensional . Muktafin et al. lebih lanjut menerapkan analisis sentimen pada data kepuasan pelanggan di platform ecommerce, yang semakin menegaskan relevansi NLP dalam memahami opini konsumen . Selain itu, tantangan linguistik dalam NLP juga menjadi fokus penelitian terbaru. Song menekankan permasalahan dalam analisis sentimen teks berbahasa Jepang, yang relevan dengan isu multibahasa di media sosial global . Awatramani et al. membahas kesulitan pemrosesan teks dengan mixed-case language yang umum ditemui pada data https://ejournal. id/index. php/jict-ikmi p-ISSN: 2302-0261 e-ISSN: 2303-3363 tidak terstruktur di platform daring . Sanders et menunjukkan bahwa NLP mampu mengungkap dinamika percakapan publik mengenai penggunaan masker selama pandemi COVID-19 melalui data media sosial . Meskipun berbagai penelitian telah dilakukan, penerapan Natural Language Processing (NLP) untuk analisis sentimen media sosial masih menghadapi sejumlah tantangan, seperti variasi bahasa, penggunaan slang dan sarkasme, serta ambiguitas semantik yang dapat menurunkan performa model. Selain itu, dalam beberapa tahun terakhir terjadi transisi metodologi yang signifikan dari algoritma klasik, seperti Nayve Bayes, menuju pendekatan berbasis deep learning dan transformer Namun demikian, belum terdapat kajian yang secara komprehensif memetakan bagaimana pergeseran metodologi tersebut berkembang, metode apa yang paling dominan digunakan, serta bagaimana performa masing-masing pendekatan dilaporkan dalam penelitian terkini pada konteks media sosial. Untuk menjawab kebutuhan tersebut, diperlukan tinjauan sistematis dan bibliometrik yang mampu mensintesis hasil-hasil penelitian secara terstruktur. Pendekatan ini memungkinkan identifikasi tren publikasi, pemetaan metode NLP yang digunakan, serta analisis tantangan dan peluang penelitian di masa depan. Meskipun Mathew dan Bindu . telah menyajikan kajian literatur terkait NLP dan analisis sentimen, sintesis yang secara khusus mengintegrasikan analisis tren, perbandingan metode, dan karakteristik performa penelitian dalam lima tahun terakhir masih terbatas. Oleh karena itu, penelitian ini bertujuan untuk melakukan tinjauan sistematis dan analisis bibliometrik terhadap penerapan NLP dalam analisis sentimen media sosial guna memetakan tren penelitian, mengidentifikasi metode dominan, serta merumuskan arah penelitian selanjutnya. Metode Penelitian Systematic Literature Review (SLR) yang merupakan pendekatan untuk mengidentifikasi, mengevaluasi, dan menginterpretasikan penelitian yang relevan terhadap topik yang ditetapkan . SLR dipilih karena mampu memberikan pemetaan studi secara sistematis melalui identifikasi dan klasifikasi publikasi yang sesuai dengan pertanyaan Penelitian ini mengacu pada pedoman yang diberikan oleh Kitchenham . dengan membagi proses ke dalam tiga fase, yaitu planning the review phase, conducting the review phase, dan reporting the review phase. Alur penelitian bisa dilihat pada gambar 1. Jurnal ICT : Information Communication & Technology Vol. N0. Juli 2019, pp. xx-xx p-ISSN: 2302-0261 e-ISSN: 2303-3363 NLP) AND ("Sentiment Analysis") AND ("Social Media" OR Twitter OR Facebook OR Instagram OR YouTub. Selanjutnya ditetapkan kriteria inklusi dan eksklusi sebagaimana ditunjukkan pada Tabel 1. Gambar 1. Flowchart Alur Penelitian Planning the Review Phase Pada fase awal, peneliti merumuskan research questions (RQ) yang menjadi dasar proses SLR. Pertanyaan penelitian disusun dengan mengaitkan penelitian sebelumnya . , . , serta mengacu pada pedoman . Adapun research questions yang digunakan dalam penelitian ini adalah sebagai RQ1: Metode NLP apa yang dominan digunakan dalam analisis sentimen media RQ2: Platform media sosial apa yang paling banyak dianalisis? RQ3: Bagaimana performa metode yang digunakan . kurasi, precision, recall. F1scor. ? RQ4: Apa tantangan utama dalam penerapan NLP untuk analisis sentimen? RQ5: Bagaimana tren penelitian NLP untuk analisis sentimen pada periode 2020Ae2025? Conducting the Review Phase Fase ini dilakukan penelusuran literatur dilakukan melalui beberapa basis data akademik bereputasi untuk menjamin cakupan kajian yang komprehensif dan meminimalkan bias seleksi. Basis data yang digunakan meliputi Google Scholar. Ie Xplore. Scopus. SpringerLink. ACM Digital Library, dan ScienceDirect, sebagaimana telah disebutkan pada bagian abstrak. Google Scholar dimanfaatkan sebagai alat mengindeks berbagai sumber ilmiah lintas penerbit, termasuk jurnal internasional, prosiding konferensi, dan artikel open access. Selain itu, penelusuran juga diperkuat dengan database khusus seperti Ie Xplore dan ACM Digital Library yang relevan dengan bidang Natural Language Processing dan machine learning, serta Scopus dan ScienceDirect yang menyediakan jurnal bereputasi dengan proses peer-review yang ketat. Proses menggunakan perangkat lunak Publish or Perish (PoP) untuk mengelola metadata, sitasi, dan duplikasi artikel dari berbagai basis data tersebut. Strategi pencarian menggunakan operator Boolean, misalnya: ("Natural Language Processing" OR https://ejournal. id/index. php/jict-ikmi Tabel 1. Kriteria Inklusi dan Eksklusi Kriteria Inklusi Kriteria Eksklusi Artikel diterbitkan tahun Artikel diterbitkan 2020Ae2025 Membahas penerapan Tidak membahas NLP untuk analisis analisis sentimen Menggunakan data media Menggunakan sosial (Twitter. Facebook, pendekatan non-NLP Instagram. YouTube, . isalnya lexicon Artikel jurnal atau Artikel non-akademik, prosiding konferensi blog, whitepaper, atau Ditulis dalam bahasa Artikel berbayar Inggris atau Indonesia namun tidak dapat diakses penuh Untuk menilai kualitas artikel, digunakan quality assessment (QA) dengan lima indikator: (QA. kejelasan tujuan penelitian, (QA. kejelasan metode NLP, (QA. penjelasan tahap preprocessing, (QA. penjelasan proses klasifikasi, dan (QA. pelaporan hasil evaluasi akurasi. Skor diberikan dengan sistem poin: Ya . Sebagian . , dan Tidak . QA. Ae QA. Tabel 2. Penilaian Kualitas Jurnal Kriteria Ya Sebagian Tidak . Penjelasan tujuan, metode, klasifikasi, hasil 3 Reporting the Review Phase Berdasarkan hasil pencarian awal dari Excel, diperoleh 400 artikel pada rentang tahun 2020Ae Setelah dilakukan filtrasi berdasarkan QA. udul dan relevans. , jumlah artikel menyusut menjadi 201 artikel. Proses seleksi lanjutan berdasarkan QA. 2AeQA. bstrak, full text, kualitas metodologi, kontribus. menghasilkan 201 artikel akhir yang dianalisis lebih lanjut. Ringkasan proses filtrasi ditunjukkan pada Tabel 3. Tabel 3. Filtrasi Jurnal Temuan Deskripsi Hasil Temuan Jurnal Jurnal ICT : Information Communication & Technology Vol. N0. Juli 2019, pp. xx-xx Studi ditemukan tahun 2020Ae Filtrasi berdasarkan QA. udul & relevans. Filtrasi berdasarkan QA. 2Ae QA. bstrak, full text, kualitas, kontribus. p-ISSN: 2302-0261 e-ISSN: 2303-3363 Gambar 3. Top 10 Jurnal Berdasarkan Sitasi Gambar 3 menunjukkan 10 artikel dengan jumlah sitasi tertinggi pada penelitian terkait Natural Language Processing (NLP) untuk analisis Artikel AuNatural language processing: state of the art, current trends and challengesAy menempati peringkat pertama dengan lebih dari 500 sitasi, diikuti oleh artikel AuAn introduction to deep learning in natural language processing: Models, techniques, and toolsAy dan AuNatural language processing (NLP) in management research: A literature reviewAy yang masing-masing memperoleh lebih dari 700 sitasi. Temuan ini memperlihatkan bahwa artikel-artikel tinjauan . eview article. dan artikel yang memperkenalkan kerangka kerja NLP secara umum cenderung memiliki sitasi tinggi karena sering dijadikan rujukan dasar. Selain itu, artikel dengan fokus aplikasi spesifik, seperti Covid-Twitter-BERT, juga masuk dalam daftar teratas karena relevansinya dengan isu global pandemi COVID-19. Dengan demikian, dapat disimpulkan bahwa penelitian yang bersifat komprehensif dan metodologis, serta penelitian yang relevan dengan isu aktual, memiliki daya tarik akademik yang besar dan mendapatkan atensi luas dari komunitas riset internasional. Hasil penyaringan artikel dilakukan melalui beberapa tahap filtrasi, mulai dari pencarian awal hingga penilaian kualitas (QA). Ringkasan hasil filtrasi artikel ditunjukkan pada Tabel 4. Tahap akhir adalah ekstraksi data dari artikel yang lolos seleksi dengan menggunakan Microsoft Excel. Data yang diekstrak mencakup tahun publikasi, nama penulis, judul, penerbit. DOI, abstrak, kata kunci, metode NLP, platform media sosial, dan hasil evaluasi. Artikel yang terpilih kemudian dianalisis secara kuantitatif untuk melihat tren publikasi dan metode dominan, serta secara kualitatif untuk mengidentifikasi tantangan dan peluang pengembangan NLP dalam analisis sentimen media sosial. Hasil dan Pembahasan Hasil Berdasarkan hasil pencarian literatur dari berbagai database bereputasi, diperoleh 400 artikel terkait analisis sentimen yang diterbitkan pada periode tahun 2020 hingga 2025. Jumlah publikasi menunjukkan tren kenaikan di hampir setiap tahun, dengan puncak pada tahun 2024. Namun, pada tahun 2025 jumlah publikasi menurun karena data hanya dihimpun hingga pertengahan tahun. Distribusi jumlah artikel per tahun dapat dilihat pada Gambar 2. Gambar 2. Jumlah Jurnal Berdasarkan Tahun Publikasi Selain distribusi per tahun, artikel juga dianalisis berdasarkan 10 top jurnal berdasrkan sitasi di scholar. Tabel 4. Filtrasi Jurnal Temuan Deskripsi Hasil Temuan Jurnal Studi ditemukan tahun 2020Ae Filtrasi berdasarkan QA. udul & relevans. Filtrasi berdasarkan QA. 2Ae QA. bstrak, full text, kualitas, kontribus. Berdasarkan Tabel 3, dari 400 artikel awal, sejumlah 201 artikel relevan dengan topik penelitian setelah dilakukan penyaringan QA. udul dan relevans. Setelah itu dilakukan filtrasi lanjutan berdasarkan QA. 2 hingga QA. 5, jumlah artikel yang memenuhi kriteria tetap 201, yang kemudian menjadi basis analisis utama dalam penelitian ini. Pembahasan RQ1: Metode NLP yang Populer Digunakan https://ejournal. id/index. php/jict-ikmi Jurnal ICT : Information Communication & Technology Vol. N0. Juli 2019, pp. xx-xx Berdasarkan hasil kajian terhadap 201 artikel terpilih, metode NLP klasik seperti Nayve Bayes dan Support Vector Machine (SVM) masih digunakan terutama pada analisis sentimen sederhana dengan dataset berukuran kecil. Keunggulan metode klasik terletak pada kemudahan implementasi, efisiensi komputasi, dan interpretabilitas model, namun metode ini memiliki keterbatasan dalam menangkap konteks semantik yang kompleks, seperti slang, ironi, dan sarkasme yang umum ditemukan pada teks media sosial. Namun, sejak 2020 tren bergeser pada penggunaan metode berbasis deep learning, seperti CNN. LSTM, dan BERT . , . Selain itu, model transformer lanjutan seperti RoBERTa . dan XLNet . juga semakin sering digunakan karena performanya yang lebih stabil pada data besar. Model berbasis transformer, seperti BERT. RoBERTa, dan XLNet, menjadi pendekatan dominan dalam penelitian terkini karena kemampuannya menangkap konteks dua arah dan memanfaatkan pre-trained language models, sehingga secara konsisten mencapai performa terbaik dengan akurasi di atas 90% pada banyak Keunggulan utama model ini adalah fleksibilitas lintas domain dan ketahanan terhadap variasi bahasa, namun di sisi lain memiliki kebutuhan sumber daya komputasi yang besar, serta rendahnya interpretabilitas model. Temuan ini menunjukkan bahwa tidak ada satu metode yang unggul secara absolut. pemilihan metode NLP perlu mempertimbangkan keseimbangan antara akurasi, efisiensi, ketersediaan data, dan konteks penerapan, khususnya pada analisis sentimen media sosial yang multibahasa dan dinamis. RQ2: Platform Media Sosial yang Paling Banyak Digunakan Twitter menjadi platform yang paling dominan digunakan dalam penelitian analisis sentimen karena ketersediaan data publik dan kemudahan akses melalui API. Keunggulan Twitter sebagai sumber data adalah volume data yang besar dan real-time, namun keterbatasannya terletak pada panjang teks yang pendek, yang dapat membatasi konteks sentimen. Sebaliknya. Facebook. Instagram, dan ulasan e-commerce menyediakan teks yang lebih panjang dan kaya konteks, tetapi akses datanya lebih terbatas sehingga jumlah penelitian relatif lebih sedikit. RQ3: Performa Metode NLP yang Digunakan Dari hasil evaluasi, metode berbasis LSTM dan BERT menunjukkan performa terbaik dengan nilai akurasi di atas 90% . , . pada beberapa Model transformer cenderung memberikan performa paling stabil karena memanfaatkan pre- https://ejournal. id/index. php/jict-ikmi p-ISSN: 2302-0261 e-ISSN: 2303-3363 trained knowledge dari korpus besar. Namun, peningkatan akurasi sering kali diiringi dengan meningkatnya kompleksitas komputasi, sehingga trade-off antara performa dan efisiensi menjadi pertimbangan penting. Penelitian terbaru juga menegaskan peran pre-trained models dalam meningkatkan hasil analisis sentimen . , . Nayve Bayes dan SVM tetap dipakai karena kesederhanaannya, namun performanya cenderung lebih rendah. RQ4: Tantangan dalam Analisis Sentimen Tantangan utama yang dilaporkan peneliti meliputi variasi bahasa, penggunaan slang dan sarkasme, serta fenomena code-mixing . pada teks media sosial. Studi terbaru juga menekankan perlunya pendekatan khusus untuk data campuran bahasa . dan multibahasa . Tantangan lainnya adalah keterbatasan dataset berlabel, sehingga diperlukan upaya pelabelan manual atau pemanfaatan semi-supervised learning. RQ5: Tren Penelitian 2020Ae2025 Secara keseluruhan, tren penelitian dalam lima tahun terakhir menunjukkan transisi metodologi dari algoritma klasik menuju deep learning dan transformer models . , . , . Meskipun model berbasis attention diyakini akan terus menjadi fondasi pengembangan NLP . , hasil kajian ini menunjukkan bahwa pemilihan metode harus mempertimbangkan konteks data, tujuan penelitian, dan keterbatasan sumber daya, bukan semata-mata mengejar akurasi tertinggi. Dengan demikian, peluang penelitian ke depan terletak pada pengembangan model NLP yang lebih efisien, interpretable, dan adaptif terhadap konteks multibahasa serta domain spesifik. Kesimpulan Berdasarkan hasil Systematic Literature Review (SLR) terhadap 400 artikel yang diterbitkan 2020Ae2025, mengidentifikasi sebanyak 201 artikel yang relevan dengan penerapan Natural Language Processing (NLP) dalam analisis sentimen media sosial. Hasil kajian menunjukkan bahwa publikasi penelitian pada topik ini mengalami peningkatan yang konsisten sejak tahun 2020 dan mencapai puncaknya pada tahun 2024, yang mencerminkan pemanfaatan NLP untuk pengolahan opini publik berbasis data media sosial. Dari aspek metodologi, temuan menunjukkan bahwa metode klasik seperti Nayve Bayes dan Support Vector Machine (SVM) masih digunakan, khususnya pada penelitian dengan kompleksitas Jurnal ICT : Information Communication & Technology Vol. N0. Juli 2019, pp. xx-xx data yang relatif rendah. Namun demikian, sebagian besar penelitian terkini telah beralih pada pendekatan berbasis deep learning dan transformer models, seperti CNN. LSTM, dan BERT, yang secara umum dilaporkan mampu menghasilkan performa klasifikasi sentimen yang lebih tinggi. Pergeseran ini mengindikasikan adanya perubahan paradigma metodologis menuju pemodelan yang lebih kontekstual dalam analisis sentimen. Twitter menjadi platform media sosial yang paling banyak digunakan sebagai sumber data ketersediaan data publik. Sementara itu, platform lain seperti Facebook. Instagram, dan ulasan ecommerce juga dimanfaatkan, meskipun jumlah studinya relatif lebih terbatas akibat kendala akses Tantangan yang paling sering dilaporkan dalam penelitian meliputi keragaman bahasa, fenomena code-mixing, penggunaan slang dan sarkasme, serta keterbatasan ketersediaan dataset Implikasi dari hasil penelitian ini menunjukkan bahwa penerapan NLP untuk analisis sentimen media sosial perlu mempertimbangkan karakteristik data, tujuan analisis, serta keterbatasan sumber daya yang tersedia. Pemanfaatan pre-trained transformer models yang disesuaikan dengan konteks bahasa dan domain tertentu menjadi salah satu pendekatan yang banyak digunakan untuk meningkatkan performa model. Selain itu, pengembangan dataset multibahasa dan domain-spesifik serta penerapan strategi pembelajaran yang lebih adaptif dapat menjadi arah pengembangan selanjutnya. Daftar Pustaka