Jurnal Infortech Volume 7 No. 1 Juni 2025 E-ISSN: 2715-8160 Analisis Klasifikasi Dan Prediksi Pola Publikasi Berita Pemprov DKI Jakarta Menggunakan Machine Learning Rifky Permana1*. Febby Ariyanti Herdiana2 Universitas Bina Sarana Informatika e-mail: 1rifky. rpp@bsi. id, 2febby. hrdn@gmail. Diterima 23-05-2025 Direvisi 27-05-2025 Disetujui 12-06-2025 Abstrak - Dalam era digital, akses informasi melalui berbagai platform online semakin meningkat, termasuk melalui situs web resmi pemerintah. Pemerintah Provinsi DKI Jakarta secara rutin menyampaikan kebijakan, program, dan berita melalui situs webnya. Namun, volume data yang besar dan keragaman topik berita menghadirkan tantangan dalam pengelolaan dan analisis informasi secara efisien. Penelitian ini mengembangkan model klasifikasi dan prediksi pola publikasi berita menggunakan tiga algoritma machine learning yaitu: Support Vector Machine (SVM). Nayve Bayes, dan Random Forest. Dataset yang digunakan berupa berita yang dipublikasikan oleh Pemprov DKI Jakarta selama tahun 2023. Pra-pemrosesan data meliputi pembersihan teks, case folding, tokenizing, normalisasi, penghapusan stopword, dan stemming. Model SVM dan Nayve Bayes diterapkan untuk klasifikasi berita, sedangkan Random Forest digunakan untuk memprediksi pola publikasi berita Proses tuning hyperparameter dilakukan menggunakan GridSearchCV guna meningkatkan kinerja model. Penilaian terhadap klasifikasi dilakukan dengan diukur dari beberapa parameter yaitu akurasi, precision, recall, dan F1-score, sedangkan evaluasi prediksi menggunakan MAE. MSE, dan RA. Temuan dari penelitian ini mengindikasikan bahwa SVM menunjukkan performa yang baik dengan akurasi 95%, sedangkan Random Forest berhasil memprediksi pola publikasi berita dengan RA sebesar 0,82. Penelitian ini diharapkan dapat mendukung pengelolaan informasi publik secara lebih efisien dan menyediakan wawasan mengenai pola publikasi berita oleh Pemprov DKI Jakarta. Kata Kunci: Klasifikasi Berita. Prediksi Pola Publikasi. Machine Learning Abstract - In the digital era, access to information through various online platforms has significantly increased, including through official government websites. The Provincial Government of DKI Jakarta routinely communicates policies, programs, and news via its website. However, the large volume of data and the diversity of news topics pose challenges for efficiently managing and analyzing information. This study develops a classification model and predicts news publication patterns using three machine learning algorithms: Support Vector Machine (SVM). Nayve Bayes, and Random Forest. The dataset consists of news published by the DKI Jakarta Provincial Government during 2023. Data preprocessing includes text cleaning, case folding, tokenizing, normalization, stopword removal, and stemming. SVM and Nayve Bayes models are applied for news classification, while Random Forest is used to predict daily news publication patterns. Hyperparameter tuning is performed using GridSearchCV to enhance model performance. Classification is evaluated based on several parameters, including accuracy, precision, recall, and F1-score, while prediction is assessed using MAE. MSE, and RA. The findings of this study indicate that SVM demonstrates strong performance with an accuracy of 95%, while Random Forest successfully predicts news publication patterns with an RA of 0. This research is expected to support more efficient management of public information and provide insights into the news publication patterns of the DKI Jakarta Provincial Government. Keywords: News Classification. Publication Pattern Prediction. Machine Learning PENDAHULUAN Berita merupakan salah satu sumber informasi esensial dalam kehidupan sehari-hari, terutama di zaman digital saat ini, akses informasi semakin mudah dijangkau. melalui platform daring (Nanda et , 2. Salah satu lembaga pemerintah yang aktif dalam menyebarkan informasi publik adalah http://ejournal. id/ejurnal/index. php/infortech Pemerintah Provinsi DKI. Melalui situs resmi dan kanal digital lainnya. Pemprov DKI Jakarta menginformasikan berbagai kebijakan, program, dan Namun, volume data yang besar dan keragaman topik berita menimbulkan tantangan dalam pengelolaan dan analisis berita secara efisien (Hayami, 2. Oleh karena itu, diperlukan pendekatan yang lebih efisien dalam pengelompokan Jurnal Infortech. Volume 7 No. 1 Juni 2025 E-ISSN 2715-8160 dan analisis berita untuk mendukung proses pengambilan keputusan berbasis data. Seiring perkembangan teknologi, pendekatan berbasis machine learning menjadi solusi potensial dalam menangani tantangan tersebut, termasuk dalam klasifikasi dan prediksi pola publikasi berita (Kim et , 2019. Sholih Aoafif et al. , 2. Berbagai algoritma seperti SVM. Nayve Bayes, maupun Random Forest telah terbukti efektif untuk kompleks (Setiawan et al. , 2. SVM dikenal hyperplane optimal untuk memisahkan data secara efisien, sedangkan Nayve Bayes menawarkan kesederhanaan serta kinerja yang kompetitif bahkan dengan dataset besar (Kartika Sari Dewi & Purnomo Aji, 2. Random Forest menonjol dalam menangani data tidak seimbang dan dapat memberikan hasil prediktif yang robust dengan menggabungkan banyak pohon keputusan (Muhammad Habib et al. , 2. (Rama Bena Putra & Setya Perdana, 2. hyperparameter tuning. Random Forest tidak hanya meningkatkan akurasi prediksi tetapi juga mampu mengurangi risiko overfitting pada data yang memiliki banyak fitur. Keunggulan ini menjadikan Random Forest algoritma yang sesuai untuk prediksi pola publikasi berita, khususnya dalam memetakan tren publikasi harian dari Pemprov DKI Jakarta. Fokus utama penelitian ini adalah memanfaatkan Random Forest untuk memprediksi publikasi berita secara lebih akurat dan efektif. Penelitian efektivitas SVM dan Nayve Bayes dalam klasifikasi Contohnya, (Setiawan et al. , 2021. melaporkan akurasi 85% dengan Nayve Bayes menggunakan fitur N-Gram, dan (Sripamuji et al. ) menemukan bahwa SVM mencapai akurasi hingga 90%. Di sisi lain, penelitian oleh (Ayuni et al. menggabungkan metode klasifikasi teks dan prediksi temporal, memberikan wawasan mendalam tentang pola publikasi berita. Sementara penelitian ini berfokus pada penerapan Random Forest dalam prediksi pola publikasi berita, yang masih jarang dieksplorasi dalam konteks berita lokal. Dengan demikian, penelitian ini bertujuan untuk membangun model klasifikasi berita dengan menggunakan algoritma SVM. Nayve Bayes, dan Random Forest serta menitikberatkan pada prediksi pola publikasi dengan Random Forest berdasarkan data publikasi harian dari Pemprov DKI Jakarta. Diharapkan bahwa hasil penelitian ini dapat berkontribusi secara signifikan, baik dalam meningkatkan efisiensi pengelolaan berita maupun dalam memberikan wawasan yang lebih mendalam bagi pemerintah daerah untuk mendukung perencanaan dan pengambilan keputusan. Penelitian ini menawarkan dua kontribusi http://ejournal. id/ejurnal/index. php/infortech Pertama, mengisi kesenjangan dalam studi terkait klasifikasi dan prediksi berita lokal dengan mengimplementasikan metode machine learning. Kedua, penelitian ini menyajikan model prediksi pola publikasi harian yang dapat membantu Pemprov DKI Jakarta dalam memahami tren publikasi secara lebih optimal dan terukur. Machine Learning dalam Klasifikasi dan Prediksi Berita Machine learning adalah pendekatan berbasis Algoritma yang memungkinkan mesin untuk memperoleh pengetahuan dari data tanpa memerlukan pengkodean yang jelas (Aditya et al. Dalam klasifikasi berita, tujuan utama adalah mengidentifikasi kategori dari teks berdasarkan fitur tertentu, seperti kata atau frase dalam judul berita. Selain klasifikasi, machine learning juga digunakan untuk prediksi, seperti memetakan pola publikasi dalam rentang waktu tertentu (Setiawan et al. , 2. Support Vector Machine (SVM) Algoritma SVM bekerja dengan mencari hyperplane paling optimal yang dapat memisahkan kelas dengan margin terbesar. Persamaan dasar hyperplane dituliskan sebagai berikut: yc UI ycu yca = 0 . Keterangan: yc = Vektor bobot ycu = Vektor input atau fitur yca = Bias Untuk memaksimalkan margin antara dua kelas, solusi SVM dapat dirumuskan sebagai: ycAycaycuycnycoycnycyce . | Nayve Bayes Nayve Bayes menggunakan Teorema Bayes untuk menghitung probabilitas suatu kategori berdasarkan fitur yang diamati. Persamaan dasarnya ycE. ycU) = ycE. cU . a ). cU) . Keterangan: A P(COX) = Probabilitas kategori C untuk fitur X A P(XOC)) = Probabilitas fitur X muncul dalam A P(C0= Probabilitas awal kategori C A P(X) = Probabilitas dari fitur X Random Forest Random Forest menggabungkan beberapa pohon keputusan untuk membuat prediksi. Hasil akhir diperoleh dengan rata-rata atau mayoritas prediksi Jurnal Infortech. Volume 7 No. 1 Juni 2025 E-ISSN 2715-8160 dari setiap pohon. Persamaan prediksinya adalah: nilai yang sebenarnya dan yang diprediksi. ycC = OcycNyc=1 Eayc . ycN Keterangan: = Jumlah pohon dalam hutan Eayc . = Prediksi pohon ke-t untuk input x ycC = Nilai prediksi akhir Metrik Evaluasi Klasifikasi Tingkat Akurasi (Accurac. Menilai bagian dari prediksi yang akurat dibandingkan dengan seluruh prediksi yang dibuat. yaycoycycycaycycn = yaycycoycoycaEa ycyycyceyccycnycoycycn ycayceycuycayc ycNycuycycayco ycyycyceyccycnycoycycn Precision Precision mengukur seberapa banyak prediksi positif yang benar. ycNycycyce ycEycuycycnycycnycyce . cNycE) ycEycyceycaycnycycnycuycu = . ycNycycyce ycEycuycycnycycnycyce . cNycE) yaycaycoycyce ycAyceyciycaycycnycyce. aycA) Keterangan: TP = True Positive . rediksi benar yang positi. FP = False Positive . rediksi salah yang positi. Recall Recall mengukur seberapa banyak kasus positif yang berhasil diidentifikasi dengan benar. ycNycycyce ycEycuycycnycycnycyce . cNycE) ycIyceycaycaycoyco = . ycNycycyce ycEycuycycnycycnycyce . cNycE) yaycaycoycyce ycAyceyciycaycycnycyce. aycA) Keterangan: FN = False Negative . asus positif yang terlewa. F1-Score F1-Score merupakan nilai rata-rata harmonis antara precision dan recall. Ini berguna jika ada ketidakseimbangan data . ata imbalance. ya1 Oe ycIycaycuycyce = 2 y ycEycyceycaycnycycnycuycuyycIyceycaycaycoyco ycEycyceycaycnycycnycuycu ycIyceycaycaycoyco Confusion Matrix Menyajikan distribusi prediksi benar dan salah dari setiap kelas. Ini memberikan gambaran lebih rinci terkait performa model untuk tiap kategori. Metrik Evaluasi Prediksi Metrik ini digunakan untuk mengukur performa algoritma seperti Random Forest dalam memprediksi pola publikasi berita. Mean Absolute Error (MAE) Menghitung rata-rata dari selisih absolut antara http://ejournal. id/ejurnal/index. php/infortech MAE = Ocycuycn=1UI. cycn Oe ycCycn |. ycu Keterangan: ycu = Jumlah data ycycn = Nilai aktual ycCycn = Nilai prediksi Mean Squared Error (MSE) Menilai rata-rata kuadrat dari perbedaan antara nilai yang sebenarnya dan yang diprediksi. ycu MSE = Ocycn=1UI. cycn Oe ycCyc. ycu RA Score (Koefisien Determinas. Menilai seberapa efektif model dalam menggambarkan fluktuasi dalam data yang ycu ycI2 = 1 Oe Ocycn=1. cycn OeycCycn )2 ycu Ocycn=1. cycn OeycI)2 . Keterangan: ycI = Rata-rata nilai aktual METODE PENELITIAN Penelitian ini dilakukan secara bertahap untuk memastikan proses klasifikasi dan prediksi pola publikasi berita berjalan dengan sistematis. Setiap langkah dirancang agar data yang digunakan memiliki kualitas tinggi dan model yang dibangun dapat memberikan hasil akurat. Proses penelitian akan dijabarkan sebagai berikut: Pengumpulan Data Data yang dipakai dalam penelitian ini diambil dari situs resmi Pemprov DKI Jakarta selama tahun 2023. Data tersebut meliputi judul berita, tanggal publikasi, dan kategori berita. Pra-pemrosesan Data Pra-pemrosesan membersihkan data dan menyiapkannya agar siap digunakan dalam proses pelatihan. Menurut (Kartika Sari Dewi & Purnomo Aji, 2. , teknik prapemrosesan ini sangat penting dalam klasifikasi teks berbahasa Indonesia, karena dapat meningkatkan akurasi model dengan menghilangkan kata-kata yang tidak relevan. Tahapan yang dilakukan meliputi: Pembersihan (Cleanin. : Menghapus karakter atau simbol yang tidak relevan. Case folding: Mengubah seluruh teks menjadi huruf kecil. Tokenisasi: Memisahkan kalimat menjadi katakata individual. Penghapusan stopword (Stopword remova. Menghilangkan kata-kata umum yang tidak memberikan informasi penting. Stemming: Mengubah kata-kata menjadi bentuk Jurnal Infortech. Volume 7 No. 1 Juni 2025 E-ISSN 2715-8160 Pembagian Data Dataset dibagi secara acak menjadi 80% untuk data pelatihan dan 20% untuk data pengujian untuk memastikan representasi yang seimbang dari setiap kategori berita. Data pelatihan dapat digunakan untuk membangun model, sementara data pengujian dipakai untuk mengevaluasi performa model dalam memprediksi data baru yang belum pernah dilihat Pelatihan Model Dalam penelitian ini diterapkan dua algoritma yaitu SVM dan Nayve Bayes untuk pengklasifikasian berita. Sementara itu. Random Forest digunakan untuk memprediksi pola publikasi berita berdasarkan tanggal dan kategori publikasi. Pelatihan Model Untuk meningkatkan kinerja model, proses tuning hyperparameter dilakukan dengan GridSearchCV. Parameter penting seperti n_estimators, max_depth, dan max_features pada Random Forest disesuaikan untuk mengurangi overfitting. Evaluasi Model Evaluasi model klasifikasi menggunakan metrik akurasi, precision, recall, dan F1-score untuk mengukur kinerja SVM dan Nayve Bayes. Untuk model prediksi pola publikasi menggunakan Random Forest, evaluasi dilakukan dengan MAE. MSE, dan RA. Metrik ini digunakan untuk menilai kesalahan prediksi dan sejauh mana model mampu menjelaskan pola publikasi berita secara akurat. memberikan performa yang unggul dibandingkan dengan model lainnya. Hasil Klasifikasi Berita Hasil evaluasi model klasifikasi berdasarkan akurasi, precision, recall, dan F1-score ditampilkan pada Tabel 1. Pada eksperimen ini. SVM menunjukkan akurasi yang lebih tinggi sebesar 0,95 dibandingkan dengan Nayve Bayes yang mencapai 0,89. Selain itu, precision dan recall dari SVM masing-masing mencapai 0,94 dan 0,95, menunjukkan bahwa model ini mampu melakukan klasifikasi dengan akurat dan konsisten. Sementara itu. Nayve Bayes, meskipun lebih cepat dan sederhana, menghasilkan skor precision dan recall sebesar 0,89 dan 0,88. Tabel 1. Hasil evaluasi metrik antara Nayve Bayes dan SVM. Metrik Nayve Bayes SVM Akurasi Precision Recall F1-Score Sumber: Dokumentasi Penelitian . Prediksi Pola Publikasi Model Random Forest digunakan untuk memprediksi pola publikasi berita harian. Prediksi dilakukan dengan membedakan pola pada hari kerja dan akhir pekan agar dapat melihat perbedaan dalam intensitas publikasi. Analisis dan Interpretasi Hasil klasifikasi dan prediksi dianalisis secara mendalam untuk memahami pola publikasi dan mengidentifikasi potensi tren. Visualisasi grafik disertakan untuk membandingkan hasil prediksi dan nilai aktual. HASIL DAN PEMBAHASAN Penelitian ini mengaplikasikan dua algoritma pembelajaran mesin, yakni Support Vector Machine (SVM) dan Nayve Bayes, untuk klasifikasi berita Pemprov DKI Jakarta. Selain itu, untuk memprediksi pola publikasi harian, digunakan model Random Forest. Berdasarkan hasil eksperimen, model SVM dan Random Forest http://ejournal. id/ejurnal/index. php/infortech Sumber: Dokumentasi Penelitian . Gambar 1. Perbandingan Metrik antara Nayve Bayes dan SVM Beberapa kategori berita menampilkan perbedaan signifikan dalam performa kedua model, seperti pada kategori 3 (Kebakara. dan kategori 7 (Lintas Kot. Tabel 2 menunjukkan bahwa SVM memberikan F1-score lebih tinggi dibandingkan Nayve Bayes pada kategori ini, yaitu 0,81 dan 0,78, sementara Nayve Bayes hanya mencapai 0,65 dan 0,47. Jurnal Infortech. Volume 7 No. 1 Juni 2025 E-ISSN 2715-8160 Tabel 1. Hasil evaluasi metrik antara Nayve Bayes dan SVM. Kategori Nayve Bayes (F1-Scor. SVM (F1Scor. Kategori 3 (Kebakara. Kategori 7 (Lintas Kot. Sumber: Dokumentasi Penelitian . kerja menunjukkan bahwa aktivitas pemerintahan dan informasi yang disampaikan lebih banyak terjadi selama hari kerja, sementara pada akhir pekan intensitas publikasi menurun. Kedua, model Random Forest memberikan hasil yang cukup baik dalam menangkap pola ini, meskipun performanya masih dapat ditingkatkan dengan penambahan fitur eksternal seperti data cuaca atau peristiwa penting. KESIMPULAN Dari hasil ini, dapat dilihat bahwa SVM lebih mampu menangani kategori dengan distribusi data tidak merata dan variasi kata yang kompleks. Hal ini menunjukkan keunggulan SVM dalam menangani data teks yang lebih kompleks dibandingkan Nayve Bayes. Hasil Prediksi Pola Publikasi Berita Selain klasifikasi, penelitian ini juga melakukan menggunakan model Random Forest. Model ini digunakan untuk memprediksi pola publikasi dan memberikan wawasan terkait perbedaan publikasi antara hari kerja dan akhir pekan. Tabel 3. Performa prediksi Random Forest Metrik Nilai MAE (Mean Absolute Erro. MSE (Mean Squared Erro. Sumber: Dokumentasi Penelitian . Berikut menampilkan perbandingan antara publikasi aktual dan prediksi model Random Forest untuk hari kerja dan akhir pekan. Dari grafik tersebut terlihat bahwa publikasi Lebih sering terjadi pada hari kerja jika dibandingkan dengan akhir pekan, dan model mampu memprediksi tren ini dengan cukup baik. Penelitian ini berhasil mencapai tujuan yang telah dinyatakan dalam bagian pendahuluan, yaitu mengembangkan dan membandingkan model klasifikasi berita serta memprediksi pola publikasi berita harian oleh Pemprov DKI Jakarta. Berdasarkan hasil klasifikasi. Support Vector Machine (SVM) terbukti lebih unggul dibandingkan dengan Nayve Bayes dalam hal akurasi dan konsistensi prediksi kategori berita, terutama untuk kategori berita yang kompleks dan tidak merata distribusinya. SVM berhasil mencapai akurasi sebesar 0,95, sementara Nayve Bayes 0,89, menunjukkan bahwa SVM lebih efektif untuk tugas klasifikasi teks dalam konteks ini. Selain klasifikasi, prediksi pola publikasi berita harian menggunakan Random Forest memberikan wawasan yang relevan mengenai tren publikasi berita antara hari kerja dan akhir pekan. Model ini menunjukkan kinerja yang baik dengan nilai MAE sebesar 3,50. MSE sebesar 21,29, dan RA sebesar 0,82, yang menunjukkan bahwa model dapat menangkap pola publikasi dengan cukup baik. Dari hasil prediksi, terlihat bahwa publikasi berita lebih banyak dilakukan pada hari kerja, sementara intensitasnya menurun selama akhir pekan. Hal ini sesuai dengan pola operasional dan aktivitas pemerintahan yang lebih aktif pada hari kerja. Hasil penelitian ini diharapkan dapat membantu Pemprov DKI Jakarta dalam meningkatkan strategi publikasi dan penyebaran informasi publik secara lebih efektif, dengan mempertimbangkan pola waktu yang tepat. Selain itu, implementasi model Random Forest untuk prediksi dapat menjadi acuan dalam mengantisipasi volume publikasi di masa mendatang, yang berguna untuk perencanaan dan alokasi sumber daya publikasi. Hasil ini memberikan beberapa wawasan penting. Pertama, pola publikasi yang lebih tinggi pada hari Prospek pengembangan penelitian ini mencakup penambahan fitur eksternal seperti data peristiwa penting atau kondisi cuaca, yang dapat memengaruhi intensitas publikasi. Selain itu, eksplorasi algoritma prediktif lain, seperti LSTM untuk pemodelan deret waktu, dapat meningkatkan akurasi prediksi. Penelitian selanjutnya juga disarankan untuk menggunakan data lebih luas, seperti publikasi di media sosial resmi pemerintah, untuk memperluas http://ejournal. id/ejurnal/index. php/infortech Sumber: Dokumentasi Penelitian . Gambar 2. Perbandingan Metrik antara Nayve Bayes dan SVM Jurnal Infortech. Volume 7 No. 1 Juni 2025 E-ISSN 2715-8160 cakupan analisis pola publikasi. Dengan demikian, penelitian ini telah memberikan kontribusi nyata dalam mendukung pengelolaan informasi dan publikasi berita oleh Pemprov DKI Jakarta. Hasilnya tidak hanya mendukung pengambilan keputusan berbasis data, tetapi juga membuka peluang untuk penelitian lanjutan yang lebih komprehensif dan adaptif terhadap dinamika informasi di era digital. REFERENSI