Jurnal Teknologi Informasi.
Komputer dan Aplikasinya (JTIKA) Vol.
No.
Maret 2026, (Terakreditasi Sinta-4.
SK No:164/E/KPT/2.
ISSN:2657-0327 SISTEM DETEKSI BERITA PALSU DUA BAHASA
MENGGUNAKAN TF-IDF DAN MULTINOMIAL NAIVE BAYES
(Bilingual Fake News Detection Using TF-IDF and Multinomial Naive Baye.
Rheno Septianto*.
Yan Rianto.
Computer Science Faculty.
Universitas Nusa Mandiri.
Indonesia Depok,Jawa Bara Indonesia Email: 114240011@nusamandiri.
id, 2yan.
yrt@nusamandiri.
Abstract The rapid spread of misinformation poses a major threat to public trust and digital literacy.
This study develops a bilingual fake news detection system capable of analyzing news content in English and Indonesian.
The system uses two separate monolingual models trained independently on the WELFake dataset (Englis.
and the Berita Hoax 2023 dataset (Indonesia.
Each model applies text preprocessing techniques such as tokenization, stopword removal, and normalization before transforming the text using TF-IDF.
The classification process utilizes the Multinomial Nayve Bayes algorithm, chosen for its efficiency in handling high-dimensional text data.
The bilingual system integrates an automatic language detection module that selects the appropriate model based on the detected language.
Evaluation results show that the English model achieves an accuracy of 86%, while the Indonesian model achieves an accuracy of 93%.
These results indicate that the two-model bilingual approach provides reliable performance for multilingual fake news detection.
This study contributes to practical solutions for misinformation mitigation, especially in multilingual environments like Indonesia.
Keywords: Fake News Detection.
Bilingual System.
TF-IDF.
NLP.
Multinomial Nayve Bayes *Corresponding Author
PENDAHULUAN
Penyebaran informasi palsu atau fake news semakin menjadi perhatian dunia karena dapat memengaruhi pandangan publik dan menurunkan kepercayaan masyarakat terhadap lembaga resmi.
Misinformasi mudah beredar melalui media sosial dan platform berita daring, sehingga opini masyarakat dapat terbentuk oleh informasi yang tidak akurat.
Kondisi ini semakin serius ketika konten yang bersifat emosional justru lebih cepat menyebar daripada informasi faktual, terlebih karena penyebarannya kini melampaui batas bahasa dan budaya .
Dalam kehidupan sehari-hari, masyarakat tidak hanya bergantung pada satu bahasa untuk memperoleh informasi.
Contohnya, pembaca berita di Indonesia sering kali mengakses informasi dari sumber lokal berbahasa Indonesia dan berita internasional berbahasa Inggris.
Kondisi ini menjadikan permasalahan misinformasi bersifat Istilah multilingual mengacu pada penggunaan banyak bahasa, sedangkan bilingual terbatas pada dua bahasa.
Walaupun lebih sempit, konteks bilingual tetap menghadirkan tantangan tersendiri karena masing-masing bahasa memiliki struktur kalimat, kosakata, dan gaya penulisan yang http://jtika.
id/index.
php/JTIKA/ Menangani misinformasi pada satu bahasa saja sudah cukup menantang, terutama karena variasi makna, gaya penulisan, dan struktur bahasa dapat memengaruhi pola teks dalam berita palsu.
Tantangan ini semakin besar ketika sistem harus mampu bekerja pada dua bahasa yang memiliki karakter linguistik berbeda.
Sebagian besar penelitian terdahulu lebih banyak berfokus pada deteksi berita palsu dalam bahasa Inggris, atau hanya menggunakan antarbahasa .
Penelitian sebelumnya juga menekankan pentingnya pemilihan fitur yang tepat dalam membedakan berita asli dan palsu.
Namun sebagian pendekatan masih cenderung mengandalkan dataset bahasa Inggris, sehingga variasi budaya dan linguistik pada bahasa lainAikhususnya bahasa IndonesiaAi belum sepenuhnya terakomodasi .
Padahal, pola linguistik yang khas pada setiap bahasa memiliki pengaruh besar terhadap keberhasilan deteksi Untuk menjawab kesenjangan tersebut, penelitian ini mengembangkan sistem deteksi berita palsu dua bahasa (Indonesia dan Inggri.
menggunakan pendekatan Artificial Intelligence (AI) dan Natural Language Processing (NLP).
Sistem Jurnal Teknologi Informasi.
Komputer dan Aplikasinya (JTIKA) Vol.
No.
Maret 2026, (Terakreditasi Sinta-4.
SK No:164/E/KPT/2.
ISSN:2657-0327 dibangun menggunakan dua model terpisah yang deteksi berita palsu yang lebih adaptif dan akurat masing-masing dilatih dengan dataset sesuai bahasa:
pada berbagai konteks.
WELFake untuk bahasa Inggris dan Berita Hoax 2023 Tabel I.
Tinjauan Pustaka untuk bahasa Indonesia.
Pendekatan ini dipilih agar Studi Teknik Akurasi Insight model dapat menangkap pola linguistik yang lebih Utama spesifik pada tiap bahasa.
Metode Multinomial Nayve PyrezAnalisis Menjadi Bayes dipilih karena efisien dan mampu bekerja Rosas et Fitur tolok ukur dengan baik pada data teks berdimensi tinggi.
Linguistik awal deteksi Sebelum proses klasifikasi, teks terlebih dahulu satu bahasa melalui tahapan praproses seperti tokenisasi, normalisasi huruf kecil, serta penghapusan stopword.
Teks yang telah dibersihkan kemudian diubah menjadi representasi numerik menggunakan TF-IDF.
Pada tahap implementasi, sistem dilengkapi deteksi bahasa otomatis untuk memilih model yang sesuai sebelum Shu et Rekayasa Tidak Fokus pada proses prediksi dilakukan.
Fitur dilapork profil Secara keseluruhan, penelitian ini berupaya menyediakan solusi yang dapat membantu tetapi tidak mendeteksi berita palsu dalam dua bahasa berbeda efektif untuk secara akurat.
Sistem ini diharapkan dapat mendukung upaya peningkatan literasi digital dan membantu masyarakat dalam mengidentifikasi informasi yang dapat dipercaya.
Kumar Nayve Nayve Bayes Sutradha Bayes, paling baik di TINJAUAN PUSTAKA r et al.
Logistic Penelitian mengenai deteksi berita palsu telah .
Regression berkembang pesat dalam beberapa tahun terakhir, terutama seiring meningkatnya penggunaan media sosial dan platform digital sebagai sumber informasi Berbagai pendekatan telah digunakan, mulai dari metode berbasis linguistik, algoritma machine learning klasik, hingga model deep learning dan Kurniaw CNNAeLSTM Lebih CNN lebih pendekatan multimodal.
Masing-masing metode unggul untuk memiliki keunggulan serta keterbatasan, khususnya Mustikas teks bahasa ketika diterapkan pada konteks multibahasa seperti ari .
CNN Indonesia, bahasa Indonesia dan Inggris.
Untuk memberikan gambaran menyeluruh n kekuatan mengenai perkembangan penelitian sebelumnya.
Tabel 1 berikut merangkum berbagai studi terkait deteksi berita palsu beserta teknik, akurasi, dan kontribusi utama yang dilaporkan.
Ringkasan ini membantu mengidentifikasi posisi penelitian ini, sekaligus menyoroti celah penelitian .
esearch ga.
Jiang et Multi-Task Tidak Mengusulka yang menjadi dasar pengembangan sistem deteksi Learning dilapork n model berita palsu dua bahasa.
(Sentimen Beberapa penelitian bahkan melaporkan akurasi & Stanc.
di atas 90% pada dataset seperti Twitter dan Weibo.
Perkembangan terbaru menunjukkan bahwa penelitian telah berkembang ke arah pendekatan lintas-modal .
ross-moda.
, yang menggabungkan mekanisme seperti self-attention, contrastive berita palsu.
learning, serta graph neural networks.
Untuk Alghamd Hybrid Tidak Efektif untuk i et al.
Summariza dilapork bahasa ketahanan model dalam menghadapi variasi topik dan .
bahasa, beberapa studi juga mengombinasikan fitur mBERT sumber data tekstual, visual, dan pola penyebaran informasi.
Pendekatan ini bertujuan menghasilkan model http://jtika.
id/index.
php/JTIKA/ Jurnal Teknologi Informasi.
Komputer dan Aplikasinya (JTIKA) Vol.
No.
Maret 2026, (Terakreditasi Sinta-4.
SK No:164/E/KPT/2.
ISSN:2657-0327 Studi
Teknik
Akurasi Insight
Studi
Teknik
Akurasi Insight
Utama Utama dan analisis dan model
Dhiman
GBERT
Tidak Menggabung et al.
(Hybrid tersedia kan Malik et Ensemble Tidak Menggabung .
GPTAeBERT) .
Graph dilapork kan pola GPT dan Neural BERT untuk Networks dan fitur yang lebih teks untuk deteksi lebih Wu et al.
Style Tidak Mengatasi .
Clustering dilapork perbedaan Bazmi et Transforme 72% Meningkatka Contrastive an kategori dan .
r Multin Learning Domain Berbasis model pada Entitas domain yang kan gaya.
Yan et MultiTidak Meningkatka Granularity dilapork n deteksi Fusion Yang et Dual>90% Memanfaatk Contrastive .
Stream Learning n fitur Fusion Selflearning dan Han et Multifacete 92.
Menggunaka Attention n graf Reasoning untuk hasil Network deteksi yang Wang et Miner-UVS Tidak Mengatasi .
PU dilapork konflik .
Learning pada fitur Yu et al.
Dual Menggabung .
Evidence kan bukti Shan et Cross91.
Menggabung Perception historis dan .
Modal (Twitter kan pesan Aggregatio ), 88.
7% multimodal n & Gated (Weib.
untuk Fusion rendah pada n ketepatan Chen et Contrastive Tidak Integrasi Dengan semakin mudahnya masyarakat Learning dilapork teks, mengakses informasi di era digital, berbagai Propagatio an gambar, dan penelitian telah dilakukan untuk meningkatkan n Network kemampuan sistem dalam mendeteksi berita palsu.
Penelitian-penelitian tersebut mencakup pendekatan monolingual, multilingual, serta penggunaan metode machine learning dan deep learning, yang secara umum menunjukkan hasil yang menjanjikan untuk berbagai bahasa dan teknik pemrosesan.
Pawlicka AI Analisis Tidak Mengkaji Sebagian besar metode deteksi berita palsu pada et al.
Linguistik dilapork sinergi penelitian terdahulu masih bersifat monolingual dan .
banyak berfokus pada dataset berbahasa Inggris.
model AI Pendekatan yang umum digunakan adalah analisis http://jtika.
id/index.
php/JTIKA/ Jurnal Teknologi Informasi.
Komputer dan Aplikasinya (JTIKA) Vol.
No.
Maret 2026, (Terakreditasi Sinta-4.
SK No:164/E/KPT/2.
ISSN:2657-0327 fitur linguistik, yang mencapai akurasi sekitar 78% lebih baik dan lebih stabil dibandingkan metode pada salah satu penelitian .
Pola sintaksis, analisis Studi menggunakan pendekatan ini sentimen, serta penggunaan kosakata tertentu menunjukkan peningkatan ketahanan model terbukti efektif dalam membedakan berita asli dan terhadap variasi bahasa dan jenis berita.
berita palsu, meskipun metode ini kurang dapat diterapkan pada bahasa lain yang memiliki struktur
METODE PENELITIAN
1 Deskripsi Modul Deteksi berita palsu dalam konteks multilingual Sistem deteksi berita palsu ini terdiri atas dan bilingual masih menghadapi tantangan karena beberapa modul yang saling mendukung dan dijalankan secara berurutan.
Modul pertama adalah Studi mengenai transfer pengetahuan Modul Pengelolaan Dataset, yang berisi dua dataset dari model bahasa Inggris ke model multibahasa juga monolingual: WELFake sebagai sumber data masih terbatas.
Meskipun model berbahasa Inggris berbahasa Inggris dan Berita Hoax 2023 sebagai telah berkembang pesat, model tersebut belum sumber data berbahasa Indonesia.
Kedua dataset mampu menangkap kerumitan deteksi berita palsu tersebut menjadi dasar dalam proses pelatihan pada lingkungan multilingual, sehingga sulit masing-masing model.
diterapkan secara cross-lingual .
Berikutnya.
Modul Deteksi Bahasa menggunakan Metode machine learning klasik seperti Nayve pustaka langdetect untuk mengenali bahasa dari teks Bayes dan Logistic Regression juga banyak digunakan yang dimasukkan pengguna.
Hasil identifikasi bahasa dalam penelitian deteksi berita palsu .
kemudian menentukan jalur praproses dan model Pendekatan ini umumnya memanfaatkan teknik mana yang akan digunakan.
Setelah bahasa diketahui, ekstraksi fitur seperti bag-of-words (BoW) dan TF-IDF.
Modul Praproses Teks melakukan tokenisasi, konversi Dalam sebuah studi.
Nayve Bayes mencatat akurasi huruf menjadi huruf kecil, serta penghapusan tertinggi sebesar 56%, namun hasil tersebut masih stopword sesuai bahasa agar teks dalam kondisi dianggap rendah karena berita palsu sering kali bersih dan seragam sebelum diekstraksi.
memiliki ciri fitur yang lebih halus dan kompleks.
Tahap selanjutnya adalah Modul Ekstraksi Fitur.
Meskipun mudah diterapkan, metode tradisional yang memanfaatkan TF-IDF untuk mengubah teks cenderung kurang mampu melakukan generalisasi menjadi vektor numerik yang mencerminkan tingkat dan tidak dapat menangkap informasi kontekstual kepentingan kata.
Hasil ekstraksi ini kemudian yang lebih mendalam.
digunakan oleh Modul Pembelajaran Mesin, yang Kemajuan teknologi deep learning membawa melatih dua model Multinomial Nayve Bayes secara peningkatan signifikan dalam performa deteksi berita terpisah untuk bahasa Indonesia dan bahasa Inggris.
Model seperti Convolutional Neural Networks Model serta vectorizer yang telah dilatih disimpan (CNN) dan Long Short-Term Memory (LSTM) terbukti dalam format .
pkl untuk dapat digunakan kembali mampu menangkap struktur dan pola teks yang lebih pada sistem web.
Melalui rangkaian modul ini, sistem Kombinasi TF-IDF dengan CNN atau DNN mampu mengklasifikasikan berita palsu dalam dua bahkan mampu mencapai akurasi sekitar 84,6%.
bahasa dengan cara yang efisien dan tetap Namun, model-model ini memerlukan sumber daya mempertahankan akurasi yang baik.
komputasi besar dan dataset berlabel yang lebih luas, 2 Data Set sehingga aplikasinya pada bahasa dengan sumber Penelitian ini memanfaatkan dua dataset utama data terbatas masih menjadi kendala.
untuk membangun sistem deteksi berita palsu dalam Pendekatan hibrida mulai dikembangkan untuk dua bahasa.
Untuk bahasa Inggris, digunakan dataset mengatasi kekurangan metode tradisional maupun WELFake yang berisi lebih dari 72.
000 artikel yang model deep learning murni.
Salah satu contohnya telah diklasifikasikan sebagai berita asli maupun adalah model CNN-LSTM yang digunakan dalam Dataset ini diperoleh dari berbagai sumber penelitian deteksi berita palsu berbahasa Indonesia.
seperti Kaggle.
McIntire.
Reuters, dan BuzzFeed, serta Penggabungan CNN dan LSTM memungkinkan model dikenal sebagai salah satu dataset paling besar dan mengekstraksi fitur lokal sekaligus memahami seimbang dalam kajian deteksi berita palsu karena hubungan sekuensial, sehingga memberikan proporsi antara berita asli dan palsu relatif merata.
performa lebih baik pada bahasa dengan sumber daya Kondisi tersebut menjadikannya dasar yang kuat rendah seperti Indonesia.
untuk melatih dan mengevaluasi model bahasa Pendekatan WELFake Inggris.
mengombinasikan word embeddings dengan fitur Sementara itu, untuk bahasa Indonesia linguistik tradisional untuk meningkatkan akurasi digunakan dataset Berita Hoax 2023 yang juga deteksi berita palsu.
Penggunaan embedding tersedia di Kaggle.
Dataset ini terdiri dari artikel berita memungkinkan model mempelajari pola bahasa yang yang telah diberi label asli atau palsu dan lebih halus, sehingga menghasilkan performa yang mencerminkan karakter bahasa Indonesia, termasuk http://jtika.
id/index.
php/JTIKA/ Jurnal Teknologi Informasi.
Komputer dan Aplikasinya (JTIKA) Vol.
No.
Maret 2026, (Terakreditasi Sinta-4.
SK No:164/E/KPT/2.
ISSN:2657-0327 pola hoaks yang umum ditemukan di lingkungan lokal.
AuProtesters vow Kombinasi kedua dataset ini memungkinkan pelatihan to continue dua model monolingual yang disesuaikan dengan #NoDAPL:
opposition to karakteristik masing-masing bahasa, sehingga sistem Native the Dakota dapat berfungsi secara efektif dalam mendeteksi American Access Inggris (Fake berita palsu pada teks berbahasa Inggris maupun Leaders PipelineA Indonesia.
Vow to Stay police response Dataset pada masing-masing bahasa kemudian All Winter criticized for dibagi menggunakan rasio 80% untuk data latih dan 20% untuk data uji.
Pembagian ini memastikan bahwa Ay proses evaluasi dilakukan menggunakan data yang Tabel i.
Dataset Bahasa Indonesia benar-benar baru dan tidak pernah digunakan dalam Bahas Judul Cuplikan Teks Label* proses pelatihan.
Berita Untuk memberikan gambaran mengenai karakter AuBMKG dataset.
Tabel X berikut menyajikan contoh cuplikan berita asli dan palsu dari kedua bahasa.
Gempa Tabel II.
Dataset Bahasa Inggris
M5,7
Magnitudo 5,7 Indon Guncang Label 0 (Asl.
Bahasa Judul Berita Cuplikan Teks Melong Melonguane.
AuAfter years of Sulawesi UtaraA Sulut tidak berpotensi Specter of politics.
Silicon Ay Trump Valley has leapt Perform Loosens into the frayA AuSimone Inzaghi Inggris Tongues in tech leaders (Rea.
memberi pujian Romelu Silicon warn TrumpAos kepada Romelu Lukaku Valley Ae NYT campaign Lukaku yang Kian promotes anger Indon Membai 0 (Asl.
and bigotry.
kian membaikA AuTim Tebow, a Simone former NFL Inzaghi Tim Tebow Beri Will Ay prepares for a Pujian Attempt career in Major Inggris Another AuPERJUANGAN League (Rea.
Indonesi Comeback.
INDONESIA TAK BaseballA a Ambil This Time in Indon SIA-SIA.
SUKSES
Alih 1 (Pals.
Baseball AMBIL ALIH
impressed by Wilayah
TIGA WILAYAH
his athleticism.
China CHINay AuRussian AuINNALILLAHIA aircraft prepare Ustadz Suasana rumah Russian to strike Maulan duka Ustadz Maulana ready to Inggris positions near (Fake Meningg Indon disebut ramai.
AleppoA new al Tadi 1 (Pals.
missile systems Sore
informasi ini near Aleppo
expected to be Pukul ternyata tidak Ay
16:21
memiliki dasar WIB Ay Contoh ini menunjukkan perbedaan pola bahasa antara berita asli dan palsu pada kedua bahasa, seperti penggunaan judul sensasional, klaim tanpa sumber, atau gaya penulisan emosional yang umum ditemukan pada berita hoaks.
http://jtika.
id/index.
php/JTIKA/ Jurnal Teknologi Informasi.
Komputer dan Aplikasinya (JTIKA) Vol.
No.
Maret 2026, (Terakreditasi Sinta-4.
SK No:164/E/KPT/2.
ISSN:2657-0327 3 Data Preprocessing Gambar 1 berikut menampilkan alur proses Setiap dataset diproses melalui serangkaian pelatihan model yang digunakan dalam penelitian ini.
tahapan praproses untuk memastikan teks berada Diagram ini memberikan gambaran umum mengenai dalam format yang konsisten sebelum digunakan tahapan pembentukan model sebelum diterapkan pada pelatihan model.
Tahapan pertama adalah pada sistem prediksi.
tokenisasi, yaitu memecah teks menjadi unit kata menggunakan pustaka NLTK.
Selanjutnya dilakukan penghapusan stopword dalam bahasa Inggris maupun Indonesia untuk mengurangi kata yang tidak memberikan informasi penting, seperti AutheAy.
AuandAy.
AudiAy, dan AudanAy.
Proses normalisasi dilakukan dengan mengonversi seluruh teks menjadi huruf kecil serta menghapus karakter khusus, tanda baca, dan angka yang tidak relevan.
Semua tahap ini diterapkan secara terpisah pada masing-masing dataset karena Gambar 1.
Flowchart Pelatihan Model dan keduanya memiliki struktur linguistik yang berbeda.
Pembuatan File .
Setelah praproses selesai, teks diubah menjadi Gambar 1 menunjukkan alur pelatihan model representasi numerik menggunakan TF-IDF, yang mulai dari proses ekstraksi fitur TF-IDF, pelatihan memberikan bobot lebih tinggi pada kata-kata yang menggunakan Multinomial Nayve Bayes, hingga dianggap informatif dalam dokumen.
Pendekatan ini penyimpanan model dan vectorizer ke dalam file .
terbukti lebih efektif dibanding bag-of-words dalam Flowchart ini merangkum tahapan utama dalam menangkap pola linguistik yang relevan untuk deteksi pembentukan model untuk kedua bahasa tanpa berita palsu.
mengulangi proses praproses dan pembagian dataset Setiap dataset diproses secara terpisah sesuai yang telah dijelaskan pada subbab sebelumnya.
bahasanya masing-masing, dimulai dari tahap 5 Pelatihan dan Pengujian Model praproses, ekstraksi fitur, hingga pelatihan model.
Proses pelatihan dilakukan secara terpisah untuk Model bahasa Inggris dilatih menggunakan dataset dua bahasa menggunakan dua dataset monolingual.
WELFake, sedangkan model bahasa Indonesia dilatih yaitu WELFake untuk bahasa Inggris dan Berita Hoax menggunakan dataset Berita Hoax 2023.
Pendekatan 2023 untuk bahasa Indonesia.
Setiap model dilatih pelatihan terpisah ini memberikan hasil yang lebih untuk mengenali pola linguistik sesuai karakteristik stabil dan sesuai dengan karakteristik linguistik bahasanya masing-masing.
masing-masing bahasa.
Teks yang telah melalui tahap praproses 4 Pengembangan Model kemudian dikonversi menjadi representasi numerik Sistem deteksi berita palsu dua bahasa ini menggunakan TF-IDF.
Representasi ini menjadi menggunakan algoritma Multinomial Nayve Bayes, masukan bagi algoritma Multinomial Nayve Bayes, yaitu sebuah klasifikator probabilistik yang sederhana yang mempelajari pola distribusi kata antara kelas namun efektif, terutama ketika digunakan pada data berita asli dan berita palsu.
Pengaturan nilai .
teks berdimensi tinggi.
Nayve Bayes bekerja dengan serta pembatasan fitur TF-IDF hingga 5000 fitur mengasumsikan independensi antarfitur, sebuah diterapkan guna menjaga efisiensi komputasi dan penyederhanaan yang terbukti akurat pada banyak meningkatkan kemampuan generalisasi model.
aplikasi pemrosesan bahasa alami.
Tahap pengujian dilakukan menggunakan data uji Untuk merepresentasikan fitur teks, penelitian ini yang telah dipisahkan dari dataset pelatihan.
Evaluasi menggunakan Term FrequencyAeInverse Document dilakukan menggunakan metrik akurasi, presisi, recall.
Frequency (TF-IDF), yang mengubah kata menjadi dan F1-score untuk menilai performa klasifikasi Selain itu, kurva ROC dan nilai AUC digunakan kemunculannya dalam suatu dokumen dibandingkan untuk menilai kestabilan model dalam membedakan keseluruhan korpus.
Jumlah fitur TF-IDF dibatasi dua kelas.
Pada model bahasa Indonesia, nilai AUC hingga 5000 fitur untuk menjaga efisiensi komputasi, yang tinggi mengindikasikan kecenderungan menghindari overfitting, serta memastikan model overfitting akibat ukuran dataset yang kecil dan tetap fokus pada kata-kata yang paling informatif variasi data yang terbatas dibandingkan dataset tanpa kehilangan konteks penting dari teks.
bahasa Inggris.
Implementasi gabungan TF-IDF dan Multinomial Gambar 2 berikut menyajikan alur lengkap proses Nayve Bayes ini terbukti mampu membedakan berita pelatihan dan pengujian model yang digunakan dalam palsu dan berita asli pada teks bahasa Inggris maupun penelitian ini.
Diagram tersebut merangkum tahapan Indonesia dengan tingkat akurasi yang baik.
http://jtika.
id/index.
php/JTIKA/ Jurnal Teknologi Informasi.
Komputer dan Aplikasinya (JTIKA) Vol.
No.
Maret 2026, (Terakreditasi Sinta-4.
SK No:164/E/KPT/2.
ISSN:2657-0327 utama mulai dari ekstraksi fitur hingga evaluasi bagi pengguna dalam melakukan prediksi berita palsu secara real time.
HASIL DAN PEMBAHASAN
1 Kinerja Model Bahasa Inggris Kinerja model pada berita berbahasa Inggris dievaluasi menggunakan metrik akurasi, presisi, recall, dan F1-score.
Hasil evaluasi ditampilkan pada tabel berikut.
Gambar 2.
Flowchart Pelatihan dan Pengujian Model Gambar 2 menunjukkan tahapan pelatihan mulai dari ekstraksi fitur TF-IDF, pelatihan model, hingga proses evaluasi performa dan penyimpanan model dalam bentuk file .
6 Alur Sistem dan Antarmuka Pengguna (UI/UX) Sistem web yang dikembangkan memiliki alur kerja mulai dari input pengguna hingga keluaran hasil Pengguna memasukkan teks atau URL berita, lalu sistem mendeteksi bahasa, melakukan praproses teks, mengekstraksi fitur menggunakan TF-IDF, dan menghasilkan prediksi menggunakan model yang sudah dilatih.
Alur lengkap sistem dapat dilihat pada Gambar 6.
Gambar 3.
Flowchart Sistem Prediksi Berita Palsu Antarmuka pengguna dirancang agar mudah dipahami oleh pengguna berbahasa Indonesia maupun Inggris.
Melalui halaman antarmuka, pengguna dapat memasukkan artikel berita atau URL untuk dianalisis, kemudian sistem akan menampilkan label prediksi beserta skor kepercayaan .
onfidence Desain halaman yang sederhana membantu pengguna dalam memahami hasil klasifikasi secara jelas dan informatif.
Tabel IV.
Kinerja Model Bahasa Inggris Kelas Precision Recall F1-score Support 0 (Real New.
1 (Fake New.
Akurasi Macro Avg Weighted Avg 0.
Model mencapai akurasi sebesar 86%, yang berarti 86% prediksi berhasil diklasifikasikan dengan Namun, akurasi saja tidak cukup merepresentasikan performa model pada dataset yang mungkin memiliki ketidakseimbangan kelas.
Oleh karena itu, presisi, recall, dan F1-score digunakan untuk memberikan gambaran yang lebih Presisi untuk kelas 0 .
erita asl.
berada pada 88, menunjukkan bahwa 88% prediksi Aureal newsAy adalah benar.
Sementara itu, presisi untuk kelas 1 .
erita pals.
Recall kelas 0 83, artinya model berhasil mengenali 83% berita asli.
Recall kelas 1 mencapai 0.
89, menunjukkan model lebih baik dalam mendeteksi berita palsu.
F1-score kedua kelas relatif seimbang .
86 dan .
, menunjukkan bahwa model memiliki keseimbangan yang baik antara presisi dan recall.
Secara keseluruhan, model mampu mengidentifikasi berita palsu maupun asli dengan performa yang stabil, dengan kinerja sedikit lebih unggul dalam mendeteksi berita palsu.
2 ROC Curve dan AUC untuk Model Bahasa Inggris ROC Curve digunakan untuk mengevaluasi kemampuan model dalam membedakan berita asli dan palsu pada berbagai nilai ambang .
Kurva ini menunjukkan hubungan antara True Positive Rate (Recal.
dan False Positive Rate.
Gambar 4.
Tampilan Antarmuka Prediksi Web Antarmuka ini merupakan bagian akhir dari alur sistem dan berfungsi sebagai media interaksi utama http://jtika.
id/index.
php/JTIKA/ Nilai AUC sebesar 0.
93 mengindikasikan bahwa terdapat probabilitas 93% bahwa sampel positif .
erita pals.
akan diberi skor lebih tinggi daripada sampel negatif .
erita asl.
Nilai ini menunjukkan bahwa model memiliki performa sangat baik dalam membedakan kedua kelas.
Jurnal Teknologi Informasi.
Komputer dan Aplikasinya (JTIKA) Vol.
No.
Maret 2026, (Terakreditasi Sinta-4.
SK No:164/E/KPT/2.
ISSN:2657-0327 cenderung AumenghafalAy pola data, sehingga hasilnya sangat baik pada data uji internal namun belum tentu mampu menangani data nyata yang lebih kompleks.
Gambar 5.
ROC Curve Model Bahasa Inggris 3 Confusion Matrix untuk Model Bahasa Inggris Confusion matrix menunjukkan bahwa model memiliki jumlah true positive (TP) dan true negative (TN) yang tinggi, serta angka false positive (FP) dan false negative (FN) yang relatif rendah.
Hal ini mengklasifikasikan kedua kelas secara akurat.
Gambar 6.
Confusion Matrix Model Bahasa Inggris 4 Kinerja Model Bahasa Indonesia Kinerja model pada dataset berbahasa Indonesia dirangkum pada tabel berikut.
Tabel V.
Kinerja Model Bahasa Indonesia Kelas Precision Recall F1-score Support 0 (Real New.
1 (Fake New.
Akurasi Macro Avg Weighted Avg 0.
Gambar 7.
ROC Curve Model Bahasa Indonesia Hasil evaluasi menunjukkan bahwa model bahasa Indonesia memiliki kecenderungan overfitting.
Hal ini terlihat dari nilai AUC yang sangat tinggi pada data uji internal, meskipun variasi data sebenarnya terbatas.
Overfitting terjadi karena model terlalu AumenghafalAy pola-pola spesifik pada dataset, seperti kemunculan kata-kata sensasional, penggunaan huruf kapital berlebihan, frasa provokatif yang muncul berulang pada banyak sampel hoaks, serta pola kalimat pendek yang umum pada berita palsu lokal.
Pola-pola ini sangat dominan di dataset Berita Hoax 2023, sehingga model mampu mengenalinya dengan mudah pada data uji internal, namun belum tentu mampu menggeneralisasi ke berita baru yang memiliki Nilai ROC dan AUC yang sangat tinggi membedakan kelas pada dataset terbatas tersebut, namun tidak menjamin performa serupa pada data nyata yang lebih bervariasi.
6 Confusion Matrix untuk Model Bahasa Indonesia Hasil confusion matrix menunjukkan jumlah TP dan TN yang tinggi, serta nilai FP dan FN yang rendah, sehingga mengonfirmasi kemampuan model dalam mengklasifikasikan berita asli dan berita palsu dengan tingkat kesalahan minimal.
5 ROC Curve dan AUC untuk Model Bahasa Indonesia Model bahasa Indonesia menghasilkan nilai AUC 00, yang pada dasarnya mencerminkan performa AusempurnaAy.
Namun, hal ini juga menjadi indikasi bahwa terjadi overfitting, karena dataset Indonesia relatif kecil dan tidak beragam.
Model http://jtika.
id/index.
php/JTIKA/ Jurnal Teknologi Informasi.
Komputer dan Aplikasinya (JTIKA) Vol.
No.
Maret 2026, (Terakreditasi Sinta-4.
SK No:164/E/KPT/2.
ISSN:2657-0327 USA: Association for Computational Linguistics, 2018, pp.
3528Ae3539.
doi: 10.
18653/v1/D181389.
Kumar Sutradhar.
Zonaid.
Jahan Ria.
Rashed Haider Noori, and A.
Affiliations.
AuMachine Learning Technique Based Fake News Detection.
Ay .
Kurniawan and M.
Mustikasari.
AuImplementasi Deep Learning Menggunakan Metode CNN dan LSTM untuk Menentukan Berita Palsu dalam Bahasa Indonesia,Ay Jurnal Informatika Universitas Pamulang, vol.
5, no.
4, p.
Dec.
32493/informatika.
Gambar 8.
Confusion Matrix Model Bahasa Indonesia .
Jiang.
Guo, and J.
Ouyang.
AuWhat makes KESIMPULAN DAN SARAN sentiment signals work? Sentiment and stance UCAPAN TERIMA KASIH multi-task learning for fake news detection,Ay Ucapan terima kasih dapat diberikan kepada Knowl Based Syst, vol.
303, p.
112395, 2024, doi:
Bapak Dosen saya Pak Ian serta dataset Welfake https://doi.
org/10.
1016/j.
https://w.
com/datasets/saurabhshahan .
Alghamdi.
Lin, and S.
Luo.
AuFake news
e/fake-news-classification dan Dataset Berita detection in low-resource languages: A novel
HOAX
Indonesia hybrid summarization approach,Ay Knowl Based https://w.
com/datasets/ainunnafiah/da Syst, vol.
296, p.
111884, 2024, doi:
https://doi.
org/10.
1016/j.
taset-berita-hoax-2023 .
Malik.
Behera.
Hota, and A.
Swain.
AuEnsemble graph neural networks for fake news
detection using user engagement and text
DAFTAR PUSTAKA