JISKA: Jurnal Sistem Informasi Dan Informatika Vol. 3 No. 2 Juli 2025 Hal. http://jurnal. id/index. php/jiska E-ISSN : 2985-9735 P-ISSN : Analisis Efektivitas Algoritma Machine Learning dalam Deteksi Hoaks: Pada Berita Digital Berbahasa Indonesia M Dicky Desriansyaha. Intan Utna Sarib. Zulfahmic Sistem Informasi. Fakultas Farmasi. Sains dan Teknologi . Universitas Dharma Andalas, mdickyd16@gmail. Sistem Informasi. Fakultas Farmasi. Sains dan Teknologi . Universitas Dharma Andalas, intanutna88@gmail. Sistem Informasi. Fakultas Farmasi. Sains dan Teknologi . Universitas Dharma Andalas, zzulfahmi1@gmail. Abstract The rapid development of information technology has transformed how society accesses and disseminates information. Unfortunately, this phenomenon also creates opportunities for the massive spread of fake news or hoaxes through digital This research aims to analyze the effectiveness of several machine learning algorithms in detecting text-based hoaxes in Indonesian. The algorithms tested include Multilayer Perceptron (MLP). Nayve Bayes (NB). Support Vector Machine (SVM), and Random Forest (RF). The data used consists of online news articles that have undergone text preprocessing stages such as tokenizing, case folding, filtering, stopword removal, stemming, and weighting using the TFIDF method with a combination of unigram and bigram features. Performance evaluation was conducted using precision, recall. F1-score, and accuracy metrics. The results show that the SVM and MLP algorithms yielded the highest performance with evaluation values above 99. 8%, while RF demonstrated strong and stable performance, and NB showed decent performance with high efficiency. These findings provide insights into the effectiveness of text classification methods in hoax detection and serve as a reference for developing more efficient and accurate fake news detection systems. Keywords: Hoax detection, machine learning, text classification. TF-IDF. NLP, fake news. Abstrak Perkembangan teknologi informasi yang pesat telah mengubah cara masyarakat mengakses dan menyebarkan informasi. Sayangnya, fenomena ini juga membuka peluang bagi penyebaran berita palsu atau hoaks secara masif melalui platform Penelitian ini bertujuan untuk menganalisis efektivitas beberapa algoritma machine learning dalam mendeteksi berita hoax berbahasa Indonesia berbasis teks. Algoritma yang diuji meliputi Multilayer Perceptron (MLP). Nayve Bayes (NB). Support Vector Machine (SVM), dan Random Forest (RF). Data yang digunakan berupa artikel berita online yang telah melalui tahapan preprocessing teks seperti tokenizing, case folding, filtering, stopword removal, stemming, serta pembobotan menggunakan metode TF-IDF dengan kombinasi fitur unigram dan bigram. Evaluasi kinerja dilakukan dengan menggunakan metrik presisi, recall, skor F1, dan akurasi. Hasil menunjukkan bahwa algoritma SVM dan MLP memberikan performa tertinggi dengan nilai evaluasi di atas 99,8%, sementara RF menunjukkan performa kuat dan stabil, dan NB menunjukkan performa yang layak dengan efisiensi tinggi. Temuan ini memberikan wawasan mengenai efektivitas metode klasifikasi teks dalam mendeteksi hoaks dan menjadi acuan bagi pengembangan sistem deteksi berita hoax yang lebih efisien dan akurat. Kata Kunci: Deteksi hoax, machine learning, klasifikasi teks. TF-IDF. NLP, berita palsu. This work is licensed under Creative Commons Attribution License 4. 0 CC-BY International license PENDAHULUAN Penyebaran berita palsu . telah menjadi salah satu tantangan serius di era digitalisasi media yang semakin masif. Kemudahan dalam memproduksi dan menyebarkan informasi melalui berbagai platform digital telah disalahgunakan oleh pihak tidak bertanggung jawab untuk menyebarkan konten yang tidak dapat diverifikasi kebenarannya. Fenomena ini tidak hanya menimbulkan keresahan sosial dan erosi kepercayaan terhadap institusi resmi, tetapi juga berpotensi memicu konflik dan perpecahan di masyarakat. Oleh karena itu, pengembangan sistem deteksi berita hoaks yang efektif, efisien, dan akurat menjadi krusial untuk menjaga integritas informasi dan stabilitas sosial. Dalam ranah ilmu komputer, deteksi hoaks berbasis teks merupakan disiplin ilmu yang erat kaitannya dengan klasifikasi teks . ext classificatio. dan Pemrosesan Bahasa Alami (Natural Language Processing/NLP). Berbagai pendekatan machine learning telah diterapkan untuk mengidentifikasi hoaks, meliputi metode probabilistik seperti Nayve Bayes, algoritma margin-based seperti Support Vector Machine, hingga pendekatan ensemble learning dan deep learning. Banyak penelitian sebelumnya telah mengeksplorasi berbagai algoritma untuk tujuan ini (Kurniawan & Mustikasari, 2020. Hanum et al. , 2. Penelitian ini bertujuan untuk melakukan analisis komparatif terhadap empat algoritma machine learning yang populer dan efektif: Multilayer Perceptron (MLP). Nayve Bayes (NB). Support Vector Machine (SVM), dan Random Forest (RF). Kami juga menekankan pentingnya tahapan preprocessing teks yang komprehensif dan representasi fitur yang optimal dengan metode Term Frequency-Inverse Document Frequency (TF-IDF), yang Jurnal Sistem Informasi Dan InformatikaAe JISKA Vol. 3 No. 2 Juli 2025 JISKA: Jurnal Sistem Informasi Dan Informatika Vol. 3 No. 2 Juli 2025 Hal. http://jurnal. id/index. php/jiska E-ISSN : 2985-9735 P-ISSN : telah terbukti meningkatkan akurasi klasifikasi dalam berbagai studi (Weng et al. , 2020. Al-Maqaleh et al. METODOLOGI 1 Dataset dan Preprocessing Dataset yang digunakan dalam penelitian ini terdiri dari artikel berita online berbahasa Indonesia yang telah dikategorikan secara manual sebagai hoaks dan non-hoaks. Keseimbangan distribusi antara kedua kategori kelas . oaks dan non-hoak. dalam dataset sangat diperhatikan untuk mencegah bias model. Proses preprocessing teks dilakukan secara sistematis untuk mengubah data teks mentah menjadi representasi numerik yang siap diproses oleh algoritma machine learning. Tahapan preprocessing ini meliputi: Tokenizing Proses memecah rangkaian karakter teks menjadi unit-unit linguistik yang lebih kecil, seperti kata atau frasa, yang disebut token. Ini merupakan langkah awal krusial untuk analisis lebih lanjut. Case Folding Mengubah semua karakter huruf kapital menjadi huruf kecil. Langkah ini memastikan bahwa kata yang sama dengan kapitalisasi berbeda . isalnya, "Berita" dan "berita") diperlakukan sebagai entitas yang Filtering Menghapus karakter non-alfabetik, angka, tanda baca, simbol, dan karakter khusus lainnya yang tidak relevan untuk analisis teks. Ini membantu mengurangi "noise" dalam data. Stopword Removal Menghapus kata-kata umum yang sering muncul namun memiliki nilai informasi rendah atau tidak signifikan dalam menentukan kategori teks . isalnya, "yang", "dan", "adalah"). Daftar stopword bahasa Indonesia yang telah terdefinisi digunakan dalam tahap ini. Stemming Mengubah kata berimbuhan menjadi bentuk dasar atau akar katanya. Misalnya, "menyebarkan" menjadi "sebar". Ini membantu mengurangi variasi kata dan mengelompokkan kata-kata yang memiliki makna TF-IDF (Term Frequency-Inverse Document Frequenc. Setelah preprocessing, teks diubah menjadi representasi numerik menggunakan metode pembobotan TF-IDF. TF (Term Frequenc. mengukur seberapa sering sebuah kata muncul dalam sebuah dokumen, sementara IDF (Inverse Document Frequenc. mengukur seberapa penting sebuah kata di seluruh korpus dokumen. Kombinasi keduanya memberikan bobot yang tinggi pada kata-kata yang sering muncul dalam dokumen tertentu tetapi jarang di seluruh korpus, menunjukkan Dalam penelitian ini. TF-IDF digunakan dengan pengaturan kombinasi unigram dan bigram, serta membatasi maksimal 5000 fitur. Penggunaan unigram . ata tungga. dan bigram . asangan dua kata beruruta. mampu menangkap konteks linguistik yang lebih kaya, sementara pembatasan fitur membantu mencegah overfitting dan menjaga efisiensi komputasi (Guo et al. , 2. Rumus TF-IDF: Rumus TF-IDF untuk suatu term t dalam dokumen d dari korpus D adalah: TF-IDF. , d. D) = TF. , . y IDF. D) TF. , . = . umlah kemunculan t dalam . / . umlah total kata dalam . IDF. D) = log[. umlah total dokumen dalam D) / . umlah dokumen yang mengandung . ] Logaritma digunakan untuk meredam skala nilai IDF, dan basis logaritma . iasanya e atau . tidak terlalu signifikan asalkan konsisten. Jurnal Sistem Informasi Dan InformatikaAe JISKA Vol. 3 No. 2 Juli 2025 JISKA: Jurnal Sistem Informasi Dan Informatika Vol. 3 No. 2 Juli 2025 Hal. http://jurnal. id/index. php/jiska E-ISSN : 2985-9735 P-ISSN : 2 Algoritma Klasifikasi Empat algoritma klasifikasi teks yang dipilih untuk penelitian ini memiliki karakteristik dan prinsip kerja yang berbeda, sehingga memungkinkan analisis komparatif yang mendalam: 1 Multilayer Perceptron (MLP) Merupakan jenis jaringan saraf tiruan (Artificial Neural Network/ANN) feedforward. Model yang diimplementasikan dalam penelitian ini menggunakan dua lapisan tersembunyi . idden layer. dengan masingmasing 100 dan 50 neuron, serta fungsi aktivasi ReLU. MLP sangat cocok untuk menangkap hubungan nonlinear yang kompleks antar fitur dalam data teks, menjadikannya powerful dalam tugas klasifikasi (Kusuma et , 2. Cara Kerja MLP: MLP terdiri dari setidaknya tiga lapisan: lapisan input, satu atau lebih lapisan tersembunyi, dan lapisan Setiap neuron di satu lapisan terhubung ke setiap neuron di lapisan berikutnya. Propagasi Maju (Forward Propagatio. A Input . CA, xCC, . , xC. diterima oleh lapisan input A Untuk setiap neuron di lapisan tersembunyi . an selanjutnya di lapisan outpu. , input yang diterima dihitung sebagai jumlah berbobot dari output neuron di lapisan sebelumnya, ditambahkan bias: z = A wA xA b Output neuron dihitung dengan menerapkan fungsi aktivasi . isalnya ReLU. Sigmoid, atau Tan. ke z: a = f. A Proses ini berlanjut hingga lapisan output menghasilkan prediksi Propagasi Mundur (Backpropagatio. A Perbedaan antara prediksi output dan nilai aktual . dihitung A Error ini kemudian "dipropagasi mundur" melalui jaringan, dan bobot . A) serta bias . disesuaikan untuk meminimalkan error menggunakan algoritma optimasi seperti Gradient Descent A Penyesuaian bobot dihitung berdasarkan gradien fungsi kerugian terhadap bobot A Melalui iterasi proses ini . MLP belajar untuk mengenali pola dalam data dan 2 Nayve Bayes (NB) Merupakan pendekatan probabilistik yang didasarkan pada Teorema Bayes dengan asumsi kuat independensi antar fitur. Dalam penelitian ini. Multinomial Nayve Bayes digunakan, yang seringkali efektif untuk klasifikasi teks karena beroperasi dengan frekuensi kata. Meskipun asumsi independensinya seringkali tidak terpenuhi di dunia nyata. NB sering memberikan hasil yang surprisingly baik dan sangat efisien secara Cara Kerja Nayve Bayes: Nayve Bayes mengklasifikasikan dokumen berdasarkan probabilitas kemunculan fitur . dalam setiap Asumsi "nayve" adalah bahwa kemunculan suatu fitur dalam sebuah kelas tidak bergantung pada kemunculan fitur lainnya . ndependensi fitu. Fase Pelatihan: A Menghitung probabilitas prior untuk setiap kelas (P(CC. ) A Menghitung probabilitas likelihood untuk setiap fitur . diberikan setiap kelas (P. A|CC. Ini adalah probabilitas kemunculan kata xA dalam dokumen yang termasuk dalam kelas CCn Fase Klasifikasi (Prediks. A Untuk dokumen baru D_test yang terdiri dari kata-kata . CA, xCC, . , xC. , kelas yang paling mungkin ditentukan menggunakan Teorema Bayes: Jurnal Sistem Informasi Dan InformatikaAe JISKA Vol. 3 No. 2 Juli 2025 JISKA: Jurnal Sistem Informasi Dan Informatika Vol. 3 No. 2 Juli 2025 Hal. http://jurnal. id/index. php/jiska E-ISSN : 2985-9735 P-ISSN : P(CC. D_tes. Oy P(CC. OaACUCAA P. A|CC. A Algoritma memilih kelas CCn yang memaksimalkan P(CC. D_tes. Multinomial Nayve Bayes secara khusus cocok untuk klasifikasi teks karena memperhitungkan frekuensi kata dalam dokumen. Probabilitas P. A|CC. dihitung dengan: A|CC. = . CC. ] / . ount(CC. y V] di mana: A count. CC. adalah jumlah kemunculan kata xA dalam semua dokumen di kelas CCn A count(CC. adalah jumlah total kata dalam semua dokumen di kelas CCn A adalah parameter smoothing . eringkali 1 untuk Laplace smoothin. untuk menghindari probabilitas A V adalah ukuran kosakata . umlah kata uni. 3 Support Vector Machine (SVM) Algoritma ini bekerja dengan menemukan hyperplane optimal yang memisahkan kelas-kelas data dengan margin terbesar. SVM sangat efektif dalam ruang berdimensi tinggi, seperti yang sering ditemukan pada representasi teks menggunakan TF-IDF. Penelitian ini menggunakan kernel linier, yang terbukti efisien dan efektif untuk data tekstual (Wang et al. , 2. Cara Kerja SVM: SVM bertujuan untuk menemukan hyperplane . atas keputusa. di ruang fitur yang secara optimal memisahkan titik-titik data dari kelas yang berbeda dengan margin terbesar. Konsep Hyperplane: Dalam ruang 2D, hyperplane adalah sebuah garis. Dalam ruang 3D, itu adalah sebuah Dalam ruang berdimensi tinggi . eperti data teks setelah TF-IDF), itu adalah subruang berdimensi N-1. Margin: Jarak antara hyperplane dan titik-titik data terdekat dari setiap kelas . isebut support vector. SVM mencari hyperplane yang memaksimalkan margin ini. Fungsi Keputusan . ntuk kernel linie. = sign. A x . A w adalah vektor bobot normal terhadap hyperplane A x adalah vektor fitur dari titik data A b adalah bias . A sign() adalah fungsi tanda yang mengembalikan 1 atau -1, sesuai dengan kelas Optimasi: SVM menyelesaikan masalah optimasi untuk menemukan w dan b yang memaksimalkan margin, seringkali diformulasikan sebagai masalah optimasi kuadratik. Titik-titik data yang paling dekat dengan hyperplane adalah "support vectors" dan mereka memainkan peran kunci dalam mendefinisikan hyperplane. Untuk kasus non-linier. SVM menggunakan fungsi kernel untuk memetakan data ke ruang berdimensi lebih tinggi di mana pemisahan linier mungkin terjadi. 4 Random Forest (RF) Merupakan metode ensemble learning yang membangun banyak pohon keputusan . ecision tree. dan menggabungkan hasilnya untuk membuat prediksi akhir. Dalam penelitian ini, 100 decision trees digunakan. efektif dalam mengurangi masalah overfitting yang sering terjadi pada pohon keputusan tunggal dan memberikan klasifikasi yang stabil dan robust (Prakoso et al. , 2. Cara Kerja Random Forest: Random Forest membangun sekumpulan . pohon keputusan secara independen selama fase pelatihan, dan kemudian menggabungkan prediksi mereka untuk menghasilkan prediksi yang lebih akurat dan Bootstrap Aggregating (Baggin. : RF menggunakan metode bagging untuk membuat setiap pohon. Ini berarti setiap pohon dilatih pada subset data pelatihan yang diambil secara acak dengan penggantian . ootstrap sampl. Ini memastikan variasi antar pohon. Jurnal Sistem Informasi Dan InformatikaAe JISKA Vol. 3 No. 2 Juli 2025 JISKA: Jurnal Sistem Informasi Dan Informatika Vol. 3 No. 2 Juli 2025 Hal. http://jurnal. id/index. php/jiska E-ISSN : 2985-9735 P-ISSN : Fitur Acak (Random Feature Subsettin. : Selain sampling data, pada setiap node saat membangun pohon. RF hanya mempertimbangkan subset acak dari total fitur yang tersedia untuk menentukan split terbaik. Ini further mengurangi korelasi antar pohon dan meningkatkan keragaman. Proses Klasifikasi: A Setiap pohon dalam hutan membuat prediksinya sendiri untuk instance data baru A Untuk tugas klasifikasi. Random Forest melakukan "voting mayoritas" di antara semua pohon. Kelas yang paling banyak diprediksi oleh pohon-pohon individual menjadi prediksi akhir Rumus matematis RF lebih kompleks karena melibatkan agregasi banyak pohon keputusan, tetapi secara konseptual, output klasifikasi C_RF. untuk input x adalah: C_RF. = mode{CCA. , c. , . CCn. } di mana CCn. adalah klasifikasi dari pohon keputusan ke-k, dan K adalah jumlah pohon dalam hutan. 3 Evaluasi Model Dataset dibagi secara proporsional menjadi 80% data pelatihan . raining dat. dan 20% data pengujian . esting dat. Pembagian ini dilakukan dengan stratifikasi label untuk memastikan bahwa distribusi kelas . oaks dan non-hoak. dalam data pelatihan dan pengujian tetap seimbang, merepresentasikan populasi dataset secara Kinerja model dievaluasi menggunakan empat metrik standar dalam klasifikasi: 1 Akurasi (Accurac. Mengukur rasio jumlah prediksi yang benar . aik hoaks maupun non-hoak. terhadap total jumlah prediksi. Ini memberikan gambaran umum tentang kinerja model. Akurasi = (TP TN) / (TP TN FP FN) 2 Presisi (Precisio. Mengukur proporsi prediksi positif yang benar . rue positive. dari seluruh prediksi yang diklasifikasikan sebagai positif. Ini penting untuk meminimalkan false positives . erita non-hoaks yang keliru diklasifikasikan sebagai hoak. Presisi = TP / (TP FP) 3 Recall (Sensitivita. Mengukur proporsi prediksi positif yang benar . rue positive. dari seluruh data aktual yang positif. Ini penting untuk meminimalkan false negatives . erita hoaks yang keliru diklasifikasikan sebagai non-hoak. Recall = TP / (TP FN) 4 F1-score Merupakan rata-rata harmonis dari Presisi dan Recall. F1-score sangat berguna ketika ada ketidakseimbangan kelas dalam dataset atau ketika kita ingin menyeimbangkan antara meminimalkan false positives dan false negatives. F1-score memberikan ukuran tunggal yang mencerminkan keseimbangan antara Presisi dan Recall. F1-score = 2 y (Presisi y Recal. / (Presisi Recal. Keterangan: A TP (True Positiv. : Jumlah instance positif yang diklasifikasikan dengan benar sebagai positif A TN (True Negativ. : Jumlah instance negatif yang diklasifikasikan dengan benar sebagai negatif A FP (False Positiv. : Jumlah instance negatif yang salah diklasifikasikan sebagai positif (Kesalahan Tipe I) A FN (False Negativ. : Jumlah instance positif yang salah diklasifikasikan sebagai negatif (Kesalahan Tipe II) HASIL DAN PEMBAHASAN Hasil pengujian komparatif menunjukkan bahwa semua algoritma yang diuji mampu memberikan performa yang tinggi dalam mendeteksi hoaks berbahasa Indonesia, namun terdapat perbedaan signifikan dalam tingkat akurasi dan stabilitasnya: Jurnal Sistem Informasi Dan InformatikaAe JISKA Vol. 3 No. 2 Juli 2025 E-ISSN : 2985-9735 P-ISSN : JISKA: Jurnal Sistem Informasi Dan Informatika Vol. 3 No. 2 Juli 2025 Hal. http://jurnal. id/index. php/jiska Algoritma Presisi Recall Skor F1 Akurasi Multilayer Perceptron 99,88% 99,88% 99,88% 99,88% Nayve Bayes 97,68% 97,68% 97,68% 97,68% Support Vector Machine 99,91 % 99,91 % 99,91 % 99,91 % Random Forest 99,71% 99,70% 99,70% 99,70% Tabel 1. 1 Perbandingan Kinerja Algoritma dalam Pengklasifikasian Berita Hoax http://bit. ly/4lx7wR5 1 Support Vector Machine (SVM) Support Vector Machine (SVM) menunjukkan kinerja superior, mencapai nilai presisi, recall. F1-score, dan akurasi sebesar 99,91%. Keberhasilan luar biasa SVM ini dapat diatribusikan pada kemampuannya yang sangat baik dalam menangani data berdimensi tinggi, seperti representasi fitur teks TF-IDF, serta kemampuannya menemukan hyperplane pemisah yang optimal meskipun kompleksitas fitur teks tinggi. Temuan ini konsisten dengan studi lain yang menyoroti efektivitas SVM dalam klasifikasi teks (Wang et al. , 2. 2 Multilayer Perceptron (MLP) Multilayer Perceptron (MLP) juga memperoleh hasil yang sangat baik di semua metrik, dengan nilai ratarata 99,88%. Keunggulan MLP terletak pada arsitektur jaringan sarafnya yang memungkinkan untuk menangkap pola non-linear dan interaksi kompleks antar fitur dalam data teks. Kemampuannya untuk belajar representasi data yang lebih abstrak seringkali memberikan performa tinggi pada dataset yang besar dan kompleks (Kusuma et al. , 2. 3 Random Forest (RF) Random Forest (RF) menunjukkan performa yang kuat dan stabil dengan nilai rata-rata 99,70%. Sebagai metode ensemble. RF efektif dalam mengurangi masalah overfitting dan varians, menghasilkan klasifikasi yang Kemampuannya menggabungkan kekuatan dari banyak pohon keputusan menjadikannya pilihan yang handal untuk tugas klasifikasi teks. 4 Nayve Bayes (NB) Nayve Bayes (NB) mencatatkan skor rata-rata 97,68% pada semua metrik. Meskipun kinerjanya sedikit lebih rendah dibandingkan algoritma lain dalam studi ini. NB tetap unggul dalam efisiensi komputasi dan kesederhanaan implementasinya. Algoritma ini sering digunakan sebagai baseline karena performanya yang layak dengan biaya komputasi yang rendah, menjadikannya pilihan yang baik untuk sistem real-time dengan sumber daya terbatas. 5 Analisis Faktor Keberhasilan Keberhasilan klasifikasi yang tinggi ini sangat dipengaruhi oleh tahapan preprocessing teks yang cermat dan pemilihan representasi fitur yang optimal. Penggunaan TF-IDF dengan kombinasi unigram dan bigram secara signifikan meningkatkan kemampuan model dalam mengenali pola linguistik dan semantik dalam data Kombinasi ini memungkinkan model untuk menangkap tidak hanya keberadaan kata kunci tetapi juga konteks dan hubungan antar kata. Hasil ini sejalan dengan studi sebelumnya yang menunjukkan efektivitas metode TF-IDF dalam representasi kata untuk berbagai tugas NLP (Weng et al. , 2020. Guo et al. , 2. KESIMPULAN Penelitian ini secara komprehensif mengevaluasi kinerja beberapa algoritma machine learning dalam klasifikasi berita hoaks berbasis teks berbahasa Indonesia. Hasil penelitian secara jelas menunjukkan bahwa algoritma Support Vector Machine (SVM) dan Multilayer Perceptron (MLP) adalah metode yang paling efektif, mampu menghasilkan nilai evaluasi di atas 99,8% pada metrik presisi, recall. F1-score, dan akurasi. Ini menggarisbawahi kapabilitas mereka dalam menangani kompleksitas data tekstual. Jurnal Sistem Informasi Dan InformatikaAe JISKA Vol. 3 No. 2 Juli 2025 JISKA: Jurnal Sistem Informasi Dan Informatika Vol. 3 No. 2 Juli 2025 Hal. http://jurnal. id/index. php/jiska E-ISSN : 2985-9735 P-ISSN : Random Forest (RF) juga memberikan hasil yang sangat baik dan stabil, menunjukkan ketahanan terhadap Meskipun sedikit di bawah yang lain. Nayve Bayes (NB) tetap relevan sebagai baseline yang efisien dan akurat untuk kasus-kasus tertentu. Temuan kunci lainnya adalah kontribusi signifikan dari teknik preprocessing teks yang teliti, terutama penggunaan TF-IDF dengan kombinasi unigram dan bigram, yang terbukti secara substansial meningkatkan kemampuan model dalam mengekstraksi fitur relevan dan mengenali pola dalam teks. DAFTAR PUSTAKA