Jurnal TICOM: Technology of Information and Communication Hal: 102-107 Volume 12. Nomor 3. Mei 2024 E-ISSN: 2962-7982 Penerapan Metode SVM dan Random Forest untuk Mendeteksi Berita Hoaks pada PT. Global Arrow Rizky Purwanto Fernandes1. Rizky Tahara Shita2* Fakultas Teknologi Informasi. Teknik Informatika. Universitas Budi Luhur. Jakarta. Indonesia Jl. Raya Ciledug. Petukangan Utara. Pesanggrahan. Jakarta Selatan, 12260 E-mail: 1pfrizky40@gmail. com, 2*rizky. taharashita@budiluhur. (*: corresponding autho. AbstrakAiBerdasarkan statistik aduan konten yang tercatat di website kominfo yaitu https://w. id pada bulan Maret 2022, total laporan mencapai 16. 370 laporan dan sejak tanggal 29 Desember 2023, total laporan ada 1. 103 laporan isu Laporan isu hoaks dapat berupa fitnah, penipuan, kekerasan, perdagangan produk dengan aturan khusus, terorisme atau radikalisme, dan sebagainya. Beberapa karakteristik dan dampak berita hoaks atau palsu di Indonesia meliputi adanya peran media sosial seperti facebook, twitter, dan Pengaruhnya terhadap pemilihan umum terutama terkait pemilu pilpres 2024, serta adanya isu hoaks kesehatan terkait COVID-19 yang masih memiliki dampaknya pada tahun 2023 menuju 2024, walaupun tidak seburuk pada tahun 2020 yang Banyaknya berita hoaks telah membuat masyarakat menjadi enggan divaksinasi karena disebarkan informasi yang tidak akurat dan sejenisnya. Beberapa masalah yang timbul akibat berita hoaks antara lain ketidakpercayaan masyarakat, kekacauan sosial, ketidakstabilan politik, dampak ekonomi, diskriminasi dan perpecahan sosial. Berdasarkan permasalahan yang timbul, potensi dampak yang dapat terjadi, serta beberapa laporan mengenai isu-isu terkait berita hoaks, telah dikembangkan sebuah sistem yang mampu mendeteksi berita hoaks dengan menggunakan berbagai metode, termasuk di antaranya metode TF-IDF. Sebuah metode atau algoritma yang digunakan untuk menghitung kemunculan kata-kata tertentu pada berita asli, hoaks, dan lain sebaginya. Hasil evaluasi meggunakan algoritma Support Vector Machine (SVM) dan algoritma Random Forest menunjukkan tingkat akurasi di atas 90% pada pengujian pertama yang menunjukkan tingkat akurasi yang tinggi. Namun setelah dilakukan uji coba kedua, terjadi penurunan skor akurasi menjadi sekitar 55%. Meskipun demikian, hasil evaluasi tersebut menunjukkan bahwa model memeberikan prediksi yang cukup baik dengan performa sedang. Kata KunciAistatistik, algoritma, berita, laporan, skor, akurasi. AbstractAiBased on the content complaint statistics recorded on the Kominfo website at https://w. id, in March 2022, there were a total of 16,370 reports, and since December 29, 2023, the total number of reports regarding hoax issues reached 1,713,103. Hoax reports can involve defamation, fraud, violence, trade in products with specific regulations, terrorism, or radicalism, among Some characteristics and impacts of fake news or hoaxes in Indonesia include the role of social media platforms such as Facebook. Twitter, and others. Their influence on general elections, especially regarding the 2024 presidential election, and the existence of health-related hoaxes concerning COVID-19 still have effects from 2023 to 2024, although not as severe as in 2020. The abundance of hoax news has made people reluctant to get vaccinated due to the dissemination of inaccurate information and the like. Some problems arising from hoax news include public distrust, social unrest, political instability, economic impacts, discrimination, and social division. Based on the issues that arise, the potential impacts, and several reports regarding hoax-related issues, a system has been developed capable of detecting hoax news using various methods, including the TF-IDF method. TF-IDF is a method or algorithm used to calculate the frequency of occurrence of specific words in genuine news, hoaxes, and others. Evaluation results using the Support Vector Machine (SVM) algorithm and the Random Forest algorithm showed accuracy rates above 90% in the initial testing phase, indicating a high level of accuracy. However, after the second trial, there was a decrease in accuracy scores to around 55%. Nevertheless, these evaluation results indicate that the model provides predictions that are quite accurate with moderate KeywordAi statistics, algorithms, news, reports, scores, accuracy PENDAHULUAN Latar belakang penelitian ini adalah dipicu oleh meningkatnya jumlah berita yang tersebar setiap harinya, baik melalui situs web, sosial media, dan berbagai platform lainnya . , . , . Banyaknya berita tersebut terkadang membuat kita sulit untuk menentukan apakah berita terkait adalah berita terpercaya atau bisa dikatakan hoaks atau menyesatkan . Berdasarkan statistik bulan Maret 2022 di website Kominfo . , terdapat total laporan isu hoaks sejumlah 16. laporan sejak diperiksa kembali pada hari Jumat tanggal 29 Desember 2023 dan statistik keseluruhan berjumlah 1. laporan isu hoaks . Ini merupakan angka yang besar, dimana jika terdapat hanya satu berita hoaks yang tersebar itu bisa menyebabkan perubahan persepsi masyarakat terkait topik yang diangkat berita tersebut. Beberapa laporan isu berita hoaks di website Kominfo diklasifikasikan sebagai berikut, yaitu pornografi, perjudian, fitnah, penipuan, sara, kekerasan/kekerasan pada anak, perdagangan produk dengan aturan khusus, terorisme/radikalisme, separatisme/organisasi berbahaya. HKI, pelanggaran keamanan Informasi. Konten negatif yang direkomendasikan Instansi sektor . , . Konten yang meresahkan masyarakat, konten yang melanggar nilai sosial dan budaya, berita bohong / hoaks, pemerasan, konten yang memfasilitasi diaksesnya konten negatif, dan normalisasi . Berikut terdapat beberapa statistik dari website Kominfo terkait berita hoaks . , . , . , . Statistik keseluruhan dari Jurnal TICOM: Technology of Information and Communication Hal: 102-107 Volume 12. Nomor 3. Mei 2024 E-ISSN: 2962-7982 website Kominfo ditunjukkan Gambar 1, temuan isu hoaks dari website Kominfo pada Gambar 2, temuan isu hoaks per kategori dari website Kominfo di Gambar 3, rekapitulasi isu hoaks pemilu dari Website Kominfo pada Gambar 4, dan penanganan sebaran isu hoaks pemilu dari Website Kominfo dapat dilihat pada Gambar 5. Gambar 4. Rekapitulasi Isu Hoaks Pemilu dari Website Kominfo Gambar 5. Penanganan Sebaran Isu Hoaks Pemilu dari Website Kominfo Gambar 1. Statistik Keseluruhan dari Website Kominfo Gambar 2. Temuan Isu Hoaks dari Website Kominfo Tujuan Tujuan dari penelitian ini adalah mengembangkan sebuah sistem pendeteksi berita hoaks yang dapat membantu dalam memilih berita yang hoaks atau tidak hoaks . erita kredibel, terpercaya, dan bena. Sistem ini bertujuan untuk memudahkan proses verifikasi dan klarifikasi terhadap berita yang dipertanyakan kebenarannya. Meskipun tingkat akurasi sistem tidak mencapai 100, sistem ini diharapkan dapat memberikan kemudahan dalam memilah berita yang hoaks dan tidak hoaks di tengah jumlah berita yang sangat besar dan beragam yang tersebar di berbagai platfrom media informasi setiap harinya . Identifikasi Masalah Adapun rumusan masalah terkait topik penelitian ini yaitu bagaimana cara untuk melakukan pemilahan terhadap berita yang muncul dalam jumlah yang sangat besar setiap harinya berdasarkan kebenaran isi berita? Apa saja informasi yang dapat diperoleh dari berita yang dikumpulkan, sehingga dapat memberikan wawasan, pengetahuan, dan pemahaman yang relevan terkait dengan berita yang diperoleh dan muncul? Metode Penelitian Berbagai algoritma yang diujicoba sebelum dilakukannya pemilihan model algoritma yang sesuai diantaranya: Algoritma SVM (Support Vector Machin. : Algoritma SVM digunakan untuk klasifikasi dan juga dapat digunakan untuk regresi atau deteksi anomali. Memiliki prinsip kerja dengan mencari hyperlane terbaik yang memisahkan dua kelas Gambar 3. Temuan Isu Hoaks Per Kategori dari Website Kominfo Jurnal TICOM: Technology of Information and Communication Hal: 102-107 Volume 12. Nomor 3. Mei 2024 E-ISSN: 2962-7982 dalam ruang fitur. Hyperlane ini dipilih agar memiliki margin B. Pengumpulan Data dari titik-titik terdekat dari kedua kelas . , . , . , . Beberapa metode pengumpulan data yaitu: Web Crawler dan Web Scrapping: Pengumpulan data . Algoritma Random Forest Classification: Algoritma web vrawler dan web scrapping menggunakan bahasa Random Forest digunakan untuk klasifikasi dan regresi. Dalam pemrograman python dan hasil data yang dikumpulkan dan konteks klasifikasi, setiap pohon . di dalam hutan . dismpan dalam bentuk excel yaitu dengan format xlsx atau csv memberikan suara untuk kelas tertentu, dan kelas dengan suara dan dalam format JSON . , . Data juga disimpan dalam terbanyak menjadi predikis akhir. Algoritma Random Forest sistem basis data NoSQL (Not Only SQL) yaitu MongoDB. adalah ensemble learning yang terdiri dari banyak pohon . Data Berita Diperoleh Secara Manual dari Situs Web keputusan memiliki prinsip kerja. Setiap pohon . dihasilkan dari subset acak dari data dan fitur. Prediksi akhir dan Sebagainya: Metode ini merupakan cara untuk mengambil diambil berdasarkan mayoritas suara dari semua pohon . berita secara manual tanpa menggunakan web scrapping atau web crawler. Metode ini digunakan untuk uji coba atau evaluasi . , . , . , . Metode yamg digunakan pada topik ini adalah metode Pengambilan data dilakukan melalui command prompt TF-IDF (Term Frequency-Inverse Document Frequenc. TFatau serta melalui antarmuka pengguna grafis (GUI) IDF (Term Frequency-Inverse Document Frequenc. adalah sebuah metode dalam pengolahan bahasa alami dan yang telah disiapkan. Setiap web crawler menjalani proses pengelompokan dokumen yang digunakan untuk mengevaluasi pengambilan data yang telah ditentukan. Berikut adalah tautan seberapa penting suatu kata dalam suatu dokumen terhadap yang digunakan dalam proses tersebut, serta jumlah artikel dari sebuah koleksi dokumen. Metode ini umumnya digunakan setiap sumber berita . , . , . , . , . , . Tautan sumber berita ditampilkan pada Tabel 1, dan jumlah artikel dalam ekstraksi fitur dan pemodelan teks . setiap sumber berita pada Tabel 2. Penelitian Sebelumnya TABEL 1 Pada penelitian sebelumnya dilakukan web scrapping TAUTAN SUMBER BERITA menggunakan bahasa pemrograman python dengan library beautifulsoup dengan target website sumber berita Indonesia Sumber Berita Tautan Awal untuk mendapatkan artikel berita terkait jadwal dan hari besar https://w. com/tag/berita-hoax antara news https://w. com/tag/asli dan hari libur di Indonesia. Library beautifulsoup baik https://w. com/tag/hoax digunakan untuk melakukan metode web scrapping dimana https://w. com/tag/asli data yang diambil dalam bentuk HTML. JSON, atau XML. Jika https://w. website yang akan dilakukan metode web scrapping lebih https://w. com/tag/hoax https://w. com/tag/asli kompleks maka digunakan beberapa metode lainnya. https://w. com/tag/hoax https://w. com/tag/asli II. METODE PENELITIAN https://globalarrow. id/id/newst Analisis Kebutuhan . Langkah-langkah Analisis Kebutuhan: Identifikasi TABEL 2 tantangan dan risiko berdasarkan statistik aduan konten secara JUMLAH ARTIKEL SETIAP SUMBER BERITA keseluruhan, termasuk berita pornografi, perjudian, penipuan, dan hoaks, yang dapat menyebabkan keresahan pada Sumber Hoa Total Tanggal Asli Berita Dengan adanya pemilu pilpres 2024, perlu antara news 10 Januari 2024 dilakukan antisipasi terhadap dampak dari berita palsu, 10 Januari 2024 termasuk pengaruhnya pada keputusan dan stabilitas politik. Pemetaan Platform Media Sosial atau Informasi: 10 Januari 2024 10 Januari 2024 meliputi identifikasi platform sumber berita seperti situs web 12 Januari 2024 Kompas . Antara News . , dan berita dari instansi terkait seperti PT. Global Arrow . , yang akan digunakan sebagai Pemrosesan Data sampel untuk analisis berita palsu atau hoaks. Pada tahap ini pemrosesan data dilakukan saat melakukan . Analisis Data dan Konten Berita Hoaks: melibatkan web crawler atau web scrapping dan pada saat melakukan identifikasi karakteristik konten berita palsu atau hoaks dalam Pada saat melakukan web crawler atau web scrapping, bentuk teks, dengan menggunakan analisis data dan metode pemrosesan data dilakukan di bagian pipelines dan pada saat penambangan teks untuk memahami pola dan ciri khas berita melakukan analisis, dilakukannya pemrosesan data berupa data cleaning dan feature engineering untuk menyiapkannya saat . Pengumpulan Data Sumber Berita: melibatkan dilakukan analisis. Tahapan yang digunakan pada tahap ini pengumpulan data yang mencakup nama sumber berita, status, adalah sebagai berikut: dan tautan yang diperoleh dari berbagai sumber berita yang . Data Cleaning: Cara atau teknik pembersihan data telah diidentifikasi sebelumnya. seperti mengatasi missing value atau outliers. Beberapa hal seperti tokenisasi, penghapusan stop words dan stemming. Jurnal TICOM: Technology of Information and Communication Hal: 102-107 Volume 12. Nomor 3. Mei 2024 . Feature Engineering: Mengekstrak fitur-fitur yang relevan dengan data. Dalam hal ini fitur yang dipertimbangkan adalah artikel teks dan judul berita. Metode yang digunakan yaitu ETL (Extract. Transform. Loa. Mengimplementasikan proses ETL untuk memproses dan mempersiapkan data. Proses setelah data dibersihkan dan disiapkan, data disimpan ke dalam berbagai format dan sistem basis data. Pembagian Dataset Pembagian dataset dilakukan menjadi dua bagian, yaitu data pelatihan dan data pengujian. Sebanyak 70% dari total 1974 records data dialokasikan untuk data pelatihan, yang setara dengan 1381 records, sementara sisanya, sebanyak 30%, digunakan untuk data pengujian, yang mencakup 593 records. Pemilihan dan Pengembangan Model Pada tahap pemilihan dan pengembangan model atau algoritma, disesuaikan dengan algoritma yang memiliki dan menunjukkan tingkat akursai yang lebih tinggi. Berbagai algoritma yang diujicoba sebelum dilakukannya pemilihan model algoritma yang sesuai diantaranya: Algoritma SVM (Support Vector Machin. : Algortima SVM digunakan untuk klasifikasi dan juga dapat digunakan untuk regresi atau deteksi anomali . , . , . , . Algoritma Random Forest Classification: Algoritma Random Forest digunakan untuk klasifikasi dan regresi. Dalam konteks klasifikasi. Setiap pohon . di dalam hutan . memberikan suara untuk kelas tertentu, dan kelas dengan suara terbanyak menjadi predikis akhir . , . , . , . Evaluasi dan Optimisasi Model Evaluasi dan peningkatan pada model yang digunakan untuk memprediksi berita palsu yang dilakukan sebagai . Evaluasi Model Berdasarkan Akurasi Skor Algoritma. Menggunakan SVM dan Random Forest untuk Klasifikasi: Hasil evaluasi, model dievaluasi menggunakan metrik akurasi menggunakan algoritma SVM dan Random Forest untuk Saran untuk perbaikan. Pertimbangkan untuk melihat metrik evaluasi lainnya seperti presisi, recall, f1-score, dan area di bawah kurva ROC (AUC-ROC) untuk mendapatkan pemahaman yang lebih komprehensif tentang kinerja model. Evaluasi Input Artikel Berita Secara Manual: Hasil evaluasi, artikel berita dari berbagai sumber dikumpulkan dan diinputkan secara manual melalui form input GUI. Model dievaluasi terhadap artikel yang dimasukkan untuk memeriksa apakah model memberikan prediksi yang sesuai dengan label atau fakta sebenarnya. Saran untuk perbaikan, perlu memvalidasi dan menginterpretasikan hasil model secara lebih mendalam untuk memastikan prediksi yang lebih akurat dan . Visualisasi data: Hasil evaluasi, data dan hasil prediksi mempermudah pemahaman. Saran untuk perbaikan, memastikan visualisasi data dapat memberikan wawasan yang jelas dan mudah dimengerti. E-ISSN: 2962-7982 Pertimbangan untuk Menambahkan Fitur Judul: Hasil evaluasi, dipertimbangkan untuk menambah fitur judul untuk meningkatkan akurasi model prediksi. Saran untuk perbaikan, perlu dilakukan penelitian lebih lanjut untuk memastikan bahwa penambahan fitur judul dapat memberikan peningkatan yang signifikan dalam kinerja model. Optimisasi Model: Melakukan hyperparameter untuk memperbaiki kinerja model. Hasil evaluasi. Melakukan penyesuaian hyperparameter dan analisis fitur untuk meningkatkan kinerja model. Saran untuk perbaikan, selalu mempertimbangkan peningkatan data dengan meningkatkan jumlah data serta memperhatikan tuning parameter pada algoritma yang digunakan untuk meningkatkan kinerja model secara keseluruhan. Dengan memperhatikan evaluasi yang komprehensif dan saran untuk perbaikan tersebut, diharapkan dapat membangun model yang lebih baik, tangguh, akurat dan dapat diandalkan. Pengembangan Antarmuka Pengguna (GUI) GUI dibuat menggunakan tkinter yang merupakan bawaan dari python. Tkinter digunakan untuk membuat antarmuka pengguna grafis (GUI). Dengan menggunakan tkinter, bisa membuat jendela . , tombol, label, input teks dan elemen GUI lainnya. GUI ini digunakan untuk menampilkan notifikasi jika proses crawler selesai. Web GUI atau GUI berbasis web menggunakan streamlit yang merupakan sebuah perpustakaan . dalam Bahasa pemrograman python yang memungkinkan pengembang dengan cepat membuat antarmuka (UI) web sederhana untuk aplikasi data dan prototipe interaktif. Web GUI ini digunakan untuk proses uji coba dan validasi artikel berita . Visualisasi Data Visualisasi data menggunakan matplotlib yang merupakan perpustakaan . dalam bahasa pemrograman python yang digunakan untuk membuat visualisasi grafik dua dimensi dan tiga dimensi. Dengan matplotlib, dapat membuat berbagai jenis plot, grafik garis, scatter plot, histogram, bar chart, dan jenis visualisasi lainnya . Pengujian Sistem Pengujian sistem dilakukan dengan 30% dari total dataset yang sudah dilakukan pra-pemrosesan untuk dilakukan uji coba Uji coba yang lainnya adalah secara manual menguji apakah hasil yang ditampilkan sesuai yang diharapkan dalam hal ini apakah hasil yang muncul merupakan berita fakta atau berita palsu. Validasi dan Interpretasi Model Melakukan valuasi model dengan menggunakan dataset yang berbeda dalam hal ini adalah 30% dari total dataset yang sudah dilakukan pra-pemrosesan dan menggunakan metrik evaluasi lainnya seperti presisi, recall, f1-score, dan area di bawah kurva ROC (AUC-ROC) disesuaikan dengan kebutuhan spesifik pada topik ini. Jurnal TICOM: Technology of Information and Communication Hal: 102-107 Volume 12. Nomor 3. Mei 2024 Dokumentasi Untuk dokumentasi penggunaan sistem terdapat pada file readme salah satunya informasi dan penggunaan web crawler. HASIL DAN PEMBAHASAN Pengujian Prediksi Berita Jika Pengujian dilakukan dengan model yang sudah dilakukan tahap evaluasi, setiap artikel berita yang dimasukkan pengguna akan menghasilkan pesan yang berbeda. Jika pengguna tidak memasukkan artikel berita dan menekan tombol untuk melakukan prediksi maka akan muncul pesan AuMasukkan Artikel BeritaAy. Jika hasil prediksi dari model SVM (Support Vector Machin. adalah berita hoaks, maka akan muncul pesan AuPrediksi dengan model SVM adalah Berita Hoaks dengan skor akurasi: 55. Jika hasil prediksi dari model SVM (Support Vector Machin. adalah bukan berita hoaks makan akan muncul pesan AuPrediksi dengan model SVM adalah Bukan Berita Hoaks dengan skor akurasi: 55. Jika hasil prediksi dari model Random Forest adalah berita hoaks, maka akan muncul pesan AuPrediksi dengan model Random Forest adalah Berita Hoaks dengan skor akurasi: 55. Jika hasil prediksi dari model Random Forest adalah berita bukan hoaks maka akan muncul pesan AuPrediksi dengan model Random Forest adalah Bukan Berita Hoaks dengan skor akurasi: 55. Ay Gambar 6 adalah tampilan hasil prediksi pada aplikasi web deteksi berita hoaks berbasis machine learning. Gambar 6. Tampilan Hasil Prediksi Pada Aplikasi Web Prediksi Berita Hoaks Analisa Dalam Penjabatan Pengujian . Analisa Dalam Penjabaran Pengujian Pada Web Crawler: Dari data yang diperoleh, sumber berita dari AntaraNews dan Kominfo telah digunakan karena keduanya menawarkan jumlah artikel yang signifikan, termasuk artikel dengan status asli dan hoaks. AntaraNews memiliki total 1780 artikel, di mana 1393 di antaranya teridentifikasi sebagai artikel asli dan 387 di antaranya sebagai artikel hoaks. Sementara itu. Kompas menyediakan total 1479 artikel, dengan 901 artikel asli dan 578 artikel hoaks. Analisa Dalam Penjabaran Pengujian Pada Prediksi Berita: Pada pengujian pertama didapatkan skor akurasi untuk kedua lebih dari 90%, namun setelah diuji coba manual apa yang dihasilkan tidak sesuai dengan skor akurasi yang baik yaitu 90%. Sehingga perlu dilakukan evaluasi dan pada uji coba kedua dilakukan tahap pra-pemrosesan lagi pada artikel berita walaupun hasil skor akurasinya menurun menjadi kurang lebih E-ISSN: 2962-7982 Dari hasil pelatihan dan pengujian model yang kedua didapat hasil prediksi adalah 55. 14% menunjukkan prediksi cukup baik dalam memprediksi. Memiliki model dengan performa cukup baik. Walaupun model ini memiliki skor 14% dan memiliki prediksi yang cukup baik, perlu untuk dilakukan penyesuaian agar mendapatkan model prediksi dengan skor akurasi yang labih baik. Evaluasi Berikut merupakan evaluasi dari solusi dari program yang . Kelebihan: Memiliki tingkat akurasi tinggi. Kelebihan dari program ini adalah memiliki tingkat akurasi model yang cukup tinggi yaitu diatas 90%. Dengan tingkat akurasi yang tinggi diharapkan, hasil prediksi juga bisa memberikan hasil prediksi yang akurat. Program atau sistem prediksi berita bisa digunakan di web secara publik. Program ini bisa diakses secara publik dengan menuju ke tautan terkait. Dengan menuju ke tautan terkait, siapa saja bisa menggunakan program prediksi tersebut. Kekurangan: Dataset kurang banyak dan bervariasi. Salah satu kekurangan dari program ini mungkin kurangnya variasi dataset dari berbagai sumber berita. Dalam penelitian ini tidak digunakan seluruh data dari berbagai sumber berita karena adanya keterbatasan seperti tidak relevannya berita. Tidak adanya respon yang sesuai saat melakukan web scrapping atau web crawling, sehingga respon data yang diterima tidak bisa diproses dan disimpan di dalam dataset di dalam database maupun file lainnya dengan format csv atau json. Dataset tidak diperbarui secara otomatis dan realtime. Dataset diperbarui secara manual agar tetap relevan dengan berita terkini. Hasil prediksi terkadang tidak benar. IV. PENUTUP Secara keseluruhan, program prediksi berita palsu atau hoaks bertujuan untuk memilah dan mengidentifikasi berita yang dapat dipastikan sebagai hoaks atau tidak. Pada tahap pelatihan, pengujian, dan prediksi pertama, evaluasi dan klarifikasi terhadap hasil prediksi menjadi langkah penting setelah dilakukan prediksi terhadap kebenaran berita. Meskipun algoritma seperti SVM (Support Vector Machin. dan klasifikasi Random Forest mampu mencapai skor prediksi di atas 90%, masih terdapat sekitar 10% hasil prediksi yang mungkin salah. Pada uji coba model kedua, meskipun skor akurasi mencapai sekitar 55%, model prediksi menunjukkan performa yang cukup baik. Tahap pra-pemrosesan yang diperdalam pada fitur teks artikel berita merupakan salah satu upaya untuk meningkatkan akurasi model. Proses dimulai dengan melakukan crawling data berita dari berbagai sumber, seleksi sumber berita yang relevan, penyimpanan hasil crawling, dan penerapan metode seperti TF-IDF. Langkahlangkah ini kemudian diikuti dengan pemodelan menggunakan algoritma SVM dan Random Forest, evaluasi model, serta implementasi dalam sistem berbasis GUI berbasis web. Meskipun masih terdapat kekurangan seperti dataset yang tidak ter-update secara otomatis, diharapkan adanya masukan dan kritik membangun untuk pengembangan program atau sistem yang lebih baik di masa mendatang. Jurnal TICOM: Technology of Information and Communication Hal: 102-107 Volume 12. Nomor 3. Mei 2024 REFERENSI