Jurnal Kecerdasan Buatan dan Teknologi Informasi
Vol. 4, No. 3, September 2025, hlm. 282-291
e-ISSN: 2964-2922, p-ISSN: 2963-6191
DOI : https://doi.org/10.69916/jkbti.v4i3.375

KLASIFIKASI TOPIK BERITA POLITIK MENGGUNAKAN MODEL LOGISTIC
REGRESSION DAN FITUR BAG OF WORDS
Chaidir Ali
Teknik Informatika, Fakultas Teknik dan Komputer, Universitas Harapan Medan, Indonesia
Email: chaidirali18044@gmail.com
(Diterima : 10 September 2025, Direvisi : 22 September 2025, Disetujui : 26 September 2025)
Abstrak
Penelitian ini bertujuan mengembangkan model klasifikasi topik berita politik yang efisien dan interpretable untuk
mengatasi tantangan pengelolaan informasi di era digital. Pendekatan ini memanfaatkan algoritma Logistic
Regression yang dipadukan dengan representasi fitur Bag of Words (BoW) untuk mengotomatisasi proses
pengelompokan berita. Model diimplementasikan menggunakan bahasa pemrograman Python. Proses dimulai dari
pengumpulan dataset berita berbahasa Indonesia, dilanjutkan dengan preprocessing teks (case folding, tokenisasi,
penghapusan stopwords, dan stemming). Representasi teks dilakukan dengan metode Bag of Words, kemudian data
dibagi menjadi 80% untuk pelatihan dan 20% untuk pengujian. Model Logistic Regression dilatih dan dievaluasi
menggunakan metrik akurasi, presisi, recall, F1-score, MSE, dan RMSE. Model menunjukkan performa yang kuat
dengan akurasi 84% dan F1-score rata-rata 0,84 pada enam kategori topik (politik, ekonomi, hiburan, olahraga,
bisnis, teknologi). Pada klasifikasi biner (Politik vs Non-Politik), model mencapai akurasi sempurna 100% dengan
MSE dan RMSE 0,00. Visualisasi fitur mengonfirmasi bahwa model mampu mengidentifikasi kata kunci politik
seperti “pemilu” dan “partai” secara konsisten. Penelitian membuktikan bahwa kombinasi Logistic Regression dan
BoW merupakan solusi yang efektif, efisien, dan transparan untuk klasifikasi berita politik. Meskipun hasilnya
sangat akurat, potensi overfitting akibat ukuran dataset yang kecil (215 sampel) perlu menjadi pertimbangan untuk
pengembangan model di masa depan.
Kata kunci: klasifikasi berita, logistic regression, bag of words, politik, machine learning.

CLASSIFICATION OF POLITICAL NEWS TOPICS USING THE LOGISTIC
REGRESSION MODEL AND THE BAG OF WORDS FEATURE
Abstract
This study aims to develop an efficient and interpretable political news topic classification model to address
information management challenges in the digital era. The approach utilizes the Logistic Regression algorithm
combined with the Bag of Words (BoW) feature representation to automate the news categorization process. The
model was implemented using Python. The process began with collecting an Indonesian-language news dataset,
followed by text preprocessing (case folding, tokenization, stopword removal, and stemming). Text representation
was performed using the Bag of Words method, and the data was split into 80% for training and 20% for testing.
The Logistic Regression model was trained and evaluated using accuracy, precision, recall, F1-score, MSE, and
RMSE metrics. The model demonstrated strong performance with 84% accuracy and an average F1-score of 0.84
across six topic categories (politics, economy, entertainment, sports, business, technology). In binary classification
(Politics vs. Non-Politics), the model achieved perfect accuracy (100%) with MSE and RMSE of 0.00. Feature
visualization confirmed the model’s ability to consistently identify political keywords such as "election" and "party".
This research proves that the Logistic Regression and BoW combination is an effective, efficient, and transparent
solution for political news classification. Despite its high accuracy, the potential for overfitting due to the small
dataset size (215 samples) should be considered for future model development.
Keywords: news classification, logistic regression, bag of words, political, machine learning.

1.

PENDAHULUAN
Dalam era digital yang ditandai oleh arus informasi yang cepat dan masif, berita daring (online news) telah
menjadi salah satu sumber utama informasi publik [1]. Platform media digital tidak hanya menyediakan akses berita
282

Chaidir ali, klasifikasi topik berita politik menggunakan model logistic regression dan fitur bag of words

secara instan, tetapi juga menciptakan ekosistem yang memungkinkan pembaca untuk terus terhubung dengan
peristiwa global secara real-time. Namun, seiring dengan melimpahnya jumlah berita yang dipublikasikan setiap
harinya, tantangan dalam mengorganisasi dan mengklasifikasikan konten berita menjadi semakin kompleks,
terutama ketika informasi tersebut sangat bervariasi dalam struktur, gaya penulisan, serta topik yang dibahas [2],
[3].
Salah satu jenis berita yang memiliki pengaruh besar terhadap opini publik dan dinamika sosial adalah berita
politik [1], [4]. Topik politik tidak hanya mencakup aktivitas pemerintahan dan parlemen, tetapi juga menyentuh
isu-isu strategis seperti kebijakan publik, pemilu, diplomasi, serta dinamika partai politik. Kategori ini sering kali
memiliki karakteristik linguistik yang khas, seperti penggunaan istilah teknis, retorika, dan sentimen tertentu yang
dapat membedakannya dari berita lain. Oleh karena itu, kemampuan untuk secara otomatis mengidentifikasi dan
mengklasifikasikan berita politik dari kumpulan berita umum menjadi kebutuhan penting, baik untuk keperluan
analisis media, riset sosial-politik, maupun pengembangan sistem rekomendasi informasi [5].
Namun, proses klasifikasi topik berita tidaklah sederhana. Variasi bahasa, ambiguitas makna, serta keterkaitan
antar topik menyebabkan akurasi model klasifikasi tradisional menjadi terbatas. Selain itu, banyak pendekatan
sebelumnya belum mampu secara efisien mengintegrasikan representasi tekstual dengan model klasifikasi yang
ringan namun tetap akurat [6], [7]. Di sisi lain, tantangan ini menjadi semakin mendesak mengingat meningkatnya
kebutuhan akan sistem pemantauan informasi otomatis di tengah derasnya arus hoaks dan disinformasi yang sering
kali menyusup dalam konten politik. Perkembangan pesat teknologi informasi dan digitalisasi media telah
menghasilkan ledakan volume berita yang tersebar setiap harinya, baik melalui platform daring maupun media
sosial. Dalam konteks ini, otomatisasi klasifikasi berita menjadi kebutuhan mendesak guna meningkatkan efisiensi
pengelolaan informasi, memitigasi penyebaran hoaks, serta mendukung literasi digital masyarakat. Berbagai
pendekatan machine learning telah diimplementasikan dalam penelitian terdahulu dengan fokus dan konteks yang
bervariasi [8], [9].
Sebagai contoh, [10] menguji klasifikasi berita hoax/valid di Indonesia menggunakan regresi logistik dan
mencapai akurasi 78,3%. Meski menunjukkan potensi, keterbatasan dataset kecil dan penggunaan algoritma tunggal
menyisakan ruang untuk eksplorasi model yang lebih komprehensif. Sementara itu, [7] berhasil mencapai akurasi
tinggi (95%) menggunakan SVM untuk klasifikasi berita Pemprov DKI Jakarta, sekaligus memprediksi pola
publikasi harian dengan Random Forest (R²=0,82). Namun, generalisasi hasilnya terbatas karena fokus pada sumber
data lokal yang spesifik. Di sisi lain, [11] membandingkan empat algoritma untuk klasifikasi topik berita dan
menemukan SVM sebagai yang paling unggul (80,60% akurasi) dengan kecepatan proses tinggi (0,43 detik),
meskipun tidak mempertimbangkan ketidakseimbangan kelas yang dapat memengaruhi kinerja model. [12]
mencatat akurasi sangat tinggi (98,35%) menggunakan SVM pada dataset BBC, namun relevansinya terhadap
konteks linguistik Indonesia dipertanyakan. Terakhir, [8] mengeksplorasi klasifikasi subjektivitas berita dan
menemukan bahwa SVM dengan teknik undersampling memberikan akurasi terbaik (82%), meskipun akurasi
tersebut masih tergolong sedang, mencerminkan kompleksitas inheren dalam membedakan nuansa subjektifobjektif dalam teks.
Berdasarkan celah dan temuan dari penelitian-penelitian terdahulu, terlihat bahwa meskipun SVM sering kali
unggul dalam akurasi, model berbasis statistik seperti Logistic Regression masih relevan untuk dieksplorasi
terutama karena keunggulannya dalam hal interpretabilitas, kecepatan komputasi, dan stabilitas dalam klasifikasi
multikelas [12]. Selain itu, mayoritas studi sebelumnya belum secara spesifik menargetkan topik politik, yang
memiliki karakteristik linguistik dan kontekstual unik serta dampak sosial yang signifikan. Untuk menjawab
permasalahan tersebut, penelitian ini mengusulkan pendekatan klasifikasi topik berita politik menggunakan model
Logistic Regression yang dipadukan dengan representasi fitur Bag of Words (BoW). Logistic Regression dipilih
karena kesederhanaannya, kecepatan pelatihan, dan performa yang kompetitif dalam tugas klasifikasi biner dan
multikelas [13]. Sementara itu, BoW sebagai teknik representasi teks memungkinkan pengolahan data teks menjadi
vektor numerik yang dapat diproses secara statistik [14]. Kombinasi keduanya diharapkan mampu membangun
model klasifikasi yang efisien, interpretatif, serta adaptif terhadap konteks linguistik dalam berita politik. Dengan
pendekatan ini, sistem dapat secara otomatis memilah berita berdasarkan topik politik secara lebih akurat, relevan,
dan dapat diandalkan untuk kebutuhan analisis konten maupun penyaringan informasi di era informasi yang semakin
kompleks.
2. METODE PENELITIAN
2.1. Bag of Words (BoW)
Bag of Words (BoW) adalah sebuah metode representasi teks yang digunakan dalam pemrosesan bahasa alami
(Natural Language Processing/NLP) dan pembelajaran mesin untuk mengubah teks tidak terstruktur menjadi fitur
numerik yang dapat diproses oleh algoritma komputasional. BoW bekerja dengan mengabaikan tata bahasa dan
urutan kata, namun tetap memperhatikan kemunculan kata-kata unik dalam korpus (sekumpulan dokumen). Dalam
pendekatan ini, setiap dokumen teks diubah menjadi vektor berdimensi tetap, di mana setiap dimensi mewakili satu
kata dalam kosakata (vocabulary) keseluruhan korpus [14]. Nilai pada vektor tersebut dapat berupa:
283

Chaidir ali, klasifikasi topik berita politik menggunakan model logistic regression dan fitur bag of words

a. Frekuensi kata (jumlah kemunculan kata),
b. Binary (1 jika kata muncul, 0 jika tidak),
c. Atau nilai lain seperti TF-IDF.
Metode ini disebut "bag" (kantong) karena model memperlakukan kata-kata seperti objek dalam kantong tidak
memperhatikan urutannya, hanya kuantitasnya. Adapun rumus dari Bow ini yaitu sebagai berikut :
𝐱 (𝑖) = [𝑓(𝑤1 , 𝑑𝑖 ), 𝑓(𝑤2 , 𝑑𝑖 ), … , 𝑓 (𝑤𝑚 , 𝑑𝑖 )]
(1)
Keterangan :
𝐱 (𝑖)
𝑓(𝑤𝑚 , 𝑑𝑖 )

: adalah vektor fitur untuk dokumen did_idi,
: adalah fungsi frekuensi kemunculan kata 𝑤𝑗 dalam dokumen 𝑑𝑖

2.2. Logistic Regression
Logistic Regression adalah algoritma pembelajaran mesin (machine learning) yang digunakan untuk
memodelkan hubungan antara satu atau lebih variabel independen (fitur) dengan variabel dependen yang bersifat
kategorik. Berbeda dengan regresi linier yang memprediksi nilai kontinu, Logistic Regression digunakan untuk
prediksi kelas—umumnya biner (0 atau 1), seperti: spam vs. non-spam, positif vs. negatif, atau setuju vs. tidak
setuju. Logistic Regression bekerja dengan menghitung probabilitas suatu input termasuk dalam kelas tertentu
menggunakan fungsi sigmoid untuk membatasi keluaran dalam rentang [0,1]. Nilai probabilitas ini kemudian
dibandingkan dengan ambang batas (biasanya 0.5) untuk menentukan kelas. Dalam NLP, Logistic Regression sering
digunakan untuk klasifikasi teks, termasuk klasifikasi topik berita, analisis sentimen, dan deteksi spam, dengan fitur
numerik yang diperoleh dari teknik seperti Bag of Words atau TF-IDF [15]. Untuk klasifikasi biner, model Logistic
Regression dirumuskan sebagai berikut:
a. Fungsi Linear (Logit Function):
𝑧 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝛽𝑛 𝑥𝑛 = 𝐰 𝑇 𝐱
(2)
Keterangan :
𝑧

: skor linier (kombinasi linier dari fitur)

x = [𝑥1 , 𝑥2 , … , 𝑥𝑛 ]

: fitur input

w = [𝛽0 , 𝛽1 , … , 𝛽𝑛 ]
: bobot (parameter)
b. Fungsi Aktivasi Sigmoid (untuk mengubah ke probabilitas)
1
1
𝑃(𝑦 = 1 ∣ 𝐱) = 1+𝑒 −𝑧 =
−(𝐰𝑇 𝐱)
1+𝑒

(3)

Fungsi sigmoid mengubah skor linier z menjadi nilai probabilitas antara 0 dan 1.
c. Fungsi Kerugian (Loss Function – Binary Cross Entropy)
1
(𝑖)
𝐿(𝐰) = − 𝑚 ∑𝑚
̂ (𝑖) ) + (1 − 𝑦 (𝑖) )log⁡(1 − 𝑦̂ (𝑖) )]
𝑖=1 [𝑦 log⁡(𝑦
Keterangan :
𝑦 (𝑖)
: adalah label sebenarnya,
𝑦̂ (𝑖)
: adalah prediksi probabilitas dari model,
m
: adalah jumlah sampel pelatihan.
3.

(4 )

HASIL DAN PEMBAHASAN
Bagian ini menjelaskan hasil implementasi sistem klasifikasi topik berita politik menggunakan algoritma
Logistic Regression dan representasi teks Bag of Words. Implementasi dilakukan secara bertahap dalam lingkungan
Google Colaboratory dengan menggunakan bahasa pemrograman Python dan beberapa pustaka NLP. Proses ini
mencakup pengolahan data awal, pembentukan fitur, pelatihan model, evaluasi performa, hingga prediksi terhadap
data baru. Hasil dari setiap tahapan disajikan secara sistematis untuk menunjukkan alur kerja model serta efektivitas
pendekatan yang digunakan dalam penelitian ini.
a. Unggah dan Baca Dataset
Langkah awal dalam proses implementasi sistem klasifikasi berita adalah melakukan pengunggahan dan
pembacaan dataset. Dataset yang digunakan dalam penelitian ini merupakan kumpulan berita yang diperoleh
dari portal berita Detik.com, yang telah dikompilasi dalam format CSV. File ini berisi informasi berupa judul
berita dan kategori topik masing-masing berita, seperti politik, bisnis, teknologi, olahraga, dan hiburan.
Pengunggahan file dilakukan melalui fitur interaktif Google Colaboratory yang memungkinkan pengguna
memilih file secara manual dari perangkat lokal. Setelah file berhasil diunggah, data dibaca menggunakan
pustaka pandas yang umum digunakan dalam pemrosesan data berbasis Python. Pembacaan dilakukan dengan
menyesuaikan delimiter yang digunakan dalam file, yaitu titik koma (;), untuk memastikan struktur data terbaca
dengan benar. Data yang telah dibaca kemudian diperiksa untuk mengetahui nama kolom dan memastikan tidak
284

Chaidir ali, klasifikasi topik berita politik menggunakan model logistic regression dan fitur bag of words

terdapat nilai kosong atau duplikat, sebelum dilanjutkan ke tahap Preprocessing. Tahapan ini sangat krusial
karena menjadi dasar dari seluruh proses analisis dan pelatihan model klasifikasi yang dilakukan selanjutnya.

Gambar 1. Kodingan Upload Data
b. Preprocessing Teks
Tahapan Preprocessing teks merupakan proses penting dalam sistem klasifikasi berbasis teks karena bertujuan
untuk membersihkan dan menormalkan data sebelum digunakan dalam pelatihan model. Teks mentah pada
berita sering kali mengandung elemen-elemen yang tidak relevan seperti tanda baca, huruf kapital, angka, dan
kata-kata umum (stopwords) yang tidak memiliki makna kontekstual yang kuat untuk klasifikasi. Oleh karena
itu, dilakukan serangkaian proses pembersihan yang mencakup konversi huruf ke bentuk kecil (lowercasing),
penghapusan karakter non-huruf, tokenisasi, penghilangan stopwords, dan stemming (mengembalikan kata ke
bentuk dasarnya). Dalam penelitian ini, proses Preprocessing dilakukan menggunakan pustaka NLP (Natural
Language Processing) seperti nltk, yang menyediakan alat bantu untuk pengelolaan bahasa alami, termasuk
daftar stopword berbahasa Indonesia dan metode stemming. Hasil dari Preprocessing ini adalah teks yang lebih
bersih dan seragam, sehingga dapat meningkatkan efektivitas representasi fitur serta akurasi model klasifikasi
yang digunakan. Preprocessing yang baik tidak hanya mengurangi kompleksitas data, tetapi juga membantu
algoritma dalam mengenali pola yang lebih bermakna dalam teks berita.

Gambar 2. Hasil Preprocessing Teks
Gambar 2. menampilkan hasil Preprocessing teks dari lima judul berita pertama dalam dataset. Kolom
judul_berita menunjukkan teks asli dari judul berita, sedangkan kolom teks_bersih berisi versi yang telah
dibersihkan melalui proses Preprocessing. Pada kolom teks_bersih, kita dapat melihat bahwa huruf telah
dikonversi ke huruf kecil, karakter tidak relevan dihapus, kata-kata umum (stopwords) dihilangkan, dan setiap
kata telah distem ke bentuk dasarnya. Contohnya, kata “Dihadirkan” berubah menjadi “dihadirk”, dan
“Dipermudah” menjadi “dipermudah”. Proses ini bertujuan untuk menyederhanakan teks sehingga lebih mudah
diolah oleh algoritma klasifikasi.
c. Ekstraksi Fitur dengan Bag of Words
Setelah data teks melalui tahap Preprocessing, langkah selanjutnya dalam membangun sistem klasifikasi adalah
mengubah teks menjadi bentuk numerik agar dapat diproses oleh algoritma pembelajaran mesin. Salah satu
metode representasi teks yang paling sederhana namun efektif adalah Bag of Words (BoW). Metode ini bekerja
dengan merepresentasikan setiap dokumen sebagai vektor dari kumpulan kata-kata unik yang terdapat dalam
seluruh korpus, tanpa mempertimbangkan urutan atau konteks kata. Dalam pendekatan Bag of Words, setiap
kata dalam korpus dihitung frekuensi kemunculannya dalam masing-masing dokumen. Hasilnya adalah sebuah
matriks vektor yang menunjukkan jumlah kemunculan kata tertentu dalam satu dokumen, di mana baris
merepresentasikan dokumen dan kolom merepresentasikan fitur kata. Metode ini sangat cocok digunakan untuk
kasus klasifikasi teks, termasuk dalam penelitian ini, karena memungkinkan model untuk belajar dari pola
distribusi kata yang umum digunakan pada tiap kategori berita. Dengan kata lain, kata-kata yang sering muncul
dalam berita politik akan secara otomatis menjadi indikator kuat bagi model dalam mengidentifikasi kategori
tersebut.

285

Chaidir ali, klasifikasi topik berita politik menggunakan model logistic regression dan fitur bag of words

Gambar 3. Hasil Bag of Words
Hasil yang ditampilkan pada gambar 3 merupakan contoh representasi Bag of Words (BoW) untuk 5 judul berita
pertama. Tabel tersebut menunjukkan bagaimana teks diubah menjadi bentuk numerik berdasarkan frekuensi
kemunculan kata. Dalam tabel, setiap kolom merepresentasikan satu kata unik yang ditemukan pada keseluruhan
korpus berita, misalnya aceh, adakan, adat, adik, agama, ajak, wisata, wujudkan, dan seterusnya. Nilai yang
ditampilkan berupa angka 0 atau 1 (jika menggunakan BoW biner) atau angka lebih besar (jika menggunakan
BoW frekuensi). Angka 0 berarti kata tersebut tidak muncul dalam judul berita tertentu, sedangkan angka 1
berarti kata tersebut muncul. Sebagai contoh, pada baris pertama (judul berita pertama), semua nilai masih 0,
yang menunjukkan bahwa kata-kata yang ditampilkan pada cuplikan tabel (aceh, adakan, adat, adik, agama, dll.)
tidak terdapat pada judul berita pertama. Dengan cara yang sama, baris kedua mewakili judul berita kedua, dan
seterusnya. Proses BoW ini penting karena mengubah teks bebas menjadi fitur numerik sehingga bisa diproses
oleh model Machine learning seperti Logistic Regression. Walaupun terlihat sederhana, metode ini efektif untuk
mengenali pola kata yang membedakan topik berita, misalnya antara Politik dan Non-Politik.
d. Pembagian Data Latih dan Data Uji
Setelah teks dikonversi menjadi representasi numerik menggunakan metode Bag of Words, langkah berikutnya
adalah membagi dataset menjadi dua bagian utama, yaitu data latih dan data uji. Pembagian ini bertujuan untuk
memisahkan data yang digunakan untuk melatih model dari data yang digunakan untuk mengevaluasi performa
model secara objektif. Dengan menggunakan data uji yang tidak pernah dilihat oleh model selama pelatihan,
evaluasi dapat memberikan gambaran yang lebih akurat mengenai kemampuan generalisasi model terhadap data
baru. Dalam penelitian ini, proporsi data latih dan data uji ditetapkan sebesar 80:20, yang berarti 80% data
digunakan untuk pelatihan model, sedangkan 20% sisanya digunakan untuk menguji kinerjanya. Pembagian ini
dilakukan secara acak namun konsisten menggunakan parameter random_state agar hasil eksperimen dapat
direproduksi.

Gambar 4. Pembagian Data Uji dan Data latih
Gambar 4 menunjukkan hasil output dari proses pembagian dataset menjadi data latih dan data uji. Dari total
215 data judul berita yang tersedia, sebanyak 172 data (80%) digunakan sebagai data latih untuk proses pelatihan
model klasifikasi, sedangkan 43 data sisanya (20%) dialokasikan sebagai data uji untuk mengukur performa
model. Pembagian ini dilakukan secara acak namun terkontrol dengan parameter random_state, sehingga hasil
eksperimen bersifat konsisten dan dapat direproduksi. Proporsi 80:20 ini umum digunakan karena memberikan
cukup banyak data untuk pelatihan sekaligus menyisakan data yang cukup untuk evaluasi akurasi model secara
objektif.
e. Pelatihan Model Logistic Regression
Setelah data teks dikonversi menjadi representasi numerik dan dibagi ke dalam data latih dan data uji, tahap
berikutnya adalah melatih model klasifikasi menggunakan algoritma Logistic Regression. Algoritma ini
digunakan karena memiliki performa yang baik untuk tugas klasifikasi biner maupun multikelas, serta efisien
dalam mengolah data teks hasil ekstraksi fitur seperti Bag of Words. Proses pelatihan dilakukan dengan
menggunakan data latih untuk mempelajari pola hubungan antara kata-kata dalam berita dan topik yang
dikaitkan dengannya. Hasil dari tahap ini adalah model terlatih yang mampu mengklasifikasikan topik berita
baru secara otomatis berdasarkan teks judulnya

Gambar 5. Hasil Evaluasi
286

Chaidir ali, klasifikasi topik berita politik menggunakan model logistic regression dan fitur bag of words

Gambar 5 merupakan hasil evaluasi model yang Anda tunjukkan menampilkan akurasi sebesar 1.0 atau 100%
pada data uji. Artinya, semua berita dalam dataset uji berhasil diprediksi dengan benar oleh model Logistic
Regression yang digunakan. Akurasi sempurna ini bisa diinterpretasikan sebagai dua hal. Pertama, bisa jadi
model benar-benar mampu mengenali pola kata yang sangat khas antara kelas Politik dan Non-Politik, misalnya
karena ada kata-kata tertentu yang hanya muncul pada salah satu kelas. Kedua, perlu diwaspadai kemungkinan
bahwa dataset masih terlalu sederhana, tidak seimbang, atau mengandung kata kunci yang terlalu kuat sehingga
membuat model “hafal” perbedaan tanpa benar-benar menggeneralisasi. Dalam penelitian, nilai akurasi 100%
memang terlihat sangat baik, tetapi juga patut diuji ulang menggunakan cross-validation atau dataset yang lebih
besar dan bervariasi
f.

Visualisasi Kata Kunci
Visualisasi kata kunci merupakan tahapan penting dalam interpretasi model klasifikasi teks, khususnya untuk
memahami fitur-fitur mana yang paling berkontribusi terhadap keputusan model dalam memprediksi suatu
kategori berita. Dalam konteks algoritma Logistic Regression, setiap kata dalam representasi Bag of Words
memiliki bobot koefisien yang menunjukkan seberapa besar pengaruh kata tersebut terhadap kelas tertentu.
Semakin besar nilai absolut koefisien suatu kata, semakin besar perannya dalam memengaruhi prediksi ke kelas
tersebut. Visualisasi ini dilakukan dengan menampilkan grafik batang dari kata-kata dengan bobot koefisien
tertinggi untuk masing-masing kelas, seperti topik “Ekonomi”, “Politik”, dan lainnya. Dengan pendekatan ini,
sistem tidak hanya dapat mengklasifikasikan berita, tetapi juga memberikan penjelasan mengapa suatu berita
dikategorikan ke dalam kelas tertentu menjadikannya tidak hanya akurat, tetapi juga transparan dan dapat
dipertanggungjawabkan dari sisi analisis linguistik.

Gambar 6. Koefisien Logistic Regression
Grafik yang ditunjukkan pada gambar 6 merupakan hasil visualisasi koefisien Logistic Regression untuk kelas
Non-Politik. Grafik ini menunjukkan 15 kata yang paling berpengaruh dalam membedakan berita Non-Politik
dari Politik berdasarkan bobot (koefisien) yang diberikan oleh model. Terlihat bahwa kata “politik” memiliki
bobot koefisien yang sangat dominan dibanding kata-kata lainnya. Hal ini menandakan bahwa keberadaan kata
“politik” dalam judul berita justru menjadi indikator yang kuat untuk model dalam mengklasifikasikan sebuah
berita ke kelas Politik, sehingga secara invers koefisiennya tinggi pada sisi Non-Politik untuk menegaskan
perbedaan. Sementara kata-kata lain seperti jokowi, ketum, partai, trump, pidato, pemilu, karier memberikan
kontribusi tambahan, meskipun bobotnya jauh lebih kecil.
g. Evaluasi Kinerja Model Klasifikasi
Evaluasi kinerja model klasifikasi merupakan tahap penting dalam menilai seberapa baik model mampu
mengenali dan membedakan berbagai topik berita berdasarkan teks input. Setelah model Logistic Regression
dilatih menggunakan representasi fitur Bag of Words, perlu dilakukan pengujian terhadap data uji untuk
mengetahui performa aktual model di luar data latih. Evaluasi ini tidak hanya berfokus pada akurasi keseluruhan,
tetapi juga mencakup analisis rinci menggunakan Confusion matrix dan metrik-metrik lain seperti Precision,
287

Chaidir ali, klasifikasi topik berita politik menggunakan model logistic regression dan fitur bag of words

recall, dan F1-score untuk setiap kelas. Dengan pendekatan ini, penilaian terhadap kemampuan model menjadi
lebih menyeluruh dan adil, terutama ketika distribusi data antar kelas tidak seimbang atau memiliki tingkat
kesulitan klasifikasi yang berbeda.

Gambar 7. Laporan Hasil Klasifikasi
Gambar 7. menampilkan hasil evaluasi model klasifikasi dalam bentuk laporan klasifikasi yang mencakup
metrik Precision, recall, dan F1-score untuk masing-masing kelas topik berita. Model menunjukkan performa
yang sangat baik pada kelas “Bisnis” dan “Ekonomi” dengan Precision mencapai 1.00, yang berarti semua
prediksi untuk kelas tersebut benar. Namun, recall untuk “Ekonomi” hanya 0.75, menunjukkan ada beberapa
berita ekonomi yang gagal dikenali oleh model. Pada kelas “Hiburan” dan “Olahraga”, nilai recall cukup tinggi,
namun Precision sedikit lebih rendah, menandakan adanya kesalahan klasifikasi pada label tersebut. Sementara
itu, kelas “Teknologi” menunjukkan recall sempurna (1.00), tetapi Precision hanya 0.75, yang berarti model
cenderung terlalu sering memprediksi kelas ini meskipun tidak selalu tepat. Secara keseluruhan, model mencapai
akurasi 84%, dengan nilai rata-rata F1-score (baik macro maupun weighted) juga sebesar 0.84, yang
mencerminkan keseimbangan antara ketepatan dan kelengkapan klasifikasi model pada berbagai kelas.

Gambar 8. Confusion matrix
Confusion matrix pada gambar 8 menunjukkan bahwa model mampu mengklasifikasikan berita dengan hasil
yang sangat sempurna. Pada bagian ini terlihat bahwa dari seluruh data uji yang diuji coba, sebanyak 14 berita
Non-Politik berhasil diprediksi dengan benar sebagai Non-Politik, dan sebanyak 15 berita Politik berhasil
diprediksi dengan benar sebagai Politik. Tidak terdapat kesalahan klasifikasi sama sekali, ditunjukkan dengan
nilai nol pada sel prediksi yang keliru. Hasil ini berarti model Logistic Regression yang digunakan dapat
mengenali pola kata yang muncul dalam judul berita dengan sangat baik, sehingga mampu memisahkan kedua
kelas secara akurat. Namun, akurasi sempurna ini juga patut diperhatikan lebih lanjut. Bisa jadi, model terlalu
bergantung pada kata kunci tertentu yang sangat dominan—misalnya kata politik—sehingga keputusan
288

Chaidir ali, klasifikasi topik berita politik menggunakan model logistic regression dan fitur bag of words

klasifikasinya menjadi terlalu mudah. Kondisi ini rawan disebut sebagai overfitting, yaitu ketika model bekerja
sangat baik pada dataset uji yang tersedia tetapi berpotensi menurun performanya saat dihadapkan dengan data
baru yang lebih kompleks dan bervariasi.

Gambar 9. Evaluasi Model Per Kelas
Gambar 9 adalah grafik evaluasi per kelas yang ditampilkan menunjukkan bahwa model memiliki kinerja yang
sangat sempurna dalam mengklasifikasikan berita ke dalam kategori Politik dan Non-Politik. Hal ini terlihat dari
nilai Precision, Recall, dan F1 Score yang semuanya mencapai 1.0 pada kedua kelas. Nilai Precision 1.0
mengindikasikan bahwa setiap berita yang diprediksi model sebagai Politik memang benar-benar berita Politik,
dan setiap berita yang diprediksi sebagai Non-Politik juga benar-benar sesuai. Tidak ada kasus positif palsu
dalam prediksi. Nilai Recall 1.0 berarti seluruh berita yang seharusnya masuk kategori tertentu berhasil
ditemukan model tanpa ada satupun yang terlewat, sehingga tidak terjadi kesalahan negatif palsu. Sedangkan F1
Score 1.0 menegaskan bahwa keseimbangan antara ketepatan (Precision) dan kelengkapan (Recall) juga
sempurna.

Gambar 10. Pengujian Model
Gambar 10 merupakan hasil prediksi yang ditampilkan menunjukkan bahwa teks “Prabowo umumkan strategi
politik nasional” berhasil diklasifikasikan oleh model sebagai berita dengan topik Politik. Hal ini sesuai dengan
ekspektasi karena kata kunci seperti Prabowo, strategi, dan terutama politik merupakan indikator yang sangat
kuat untuk mengaitkan teks dengan isu politik. Proses prediksi ini bekerja melalui tahap Preprocessing, di mana
teks diubah menjadi bentuk bersih dan kemudian diekstraksi menjadi fitur numerik menggunakan metode Bag
of Words. Fitur-fitur tersebut kemudian diproses oleh model Logistic Regression yang telah dilatih untuk
membedakan antara berita Politik dan Non-Politik. Karena kata-kata dalam teks contoh sangat identik dengan
kategori Politik, maka model mampu memberikan prediksi yang tepat.
h. Evaluasi Kinerja Model Regresi
Evaluasi kinerja model regresi merupakan langkah penting untuk mengetahui seberapa baik model mampu
memprediksi nilai kontinu secara akurat. Dalam penelitian ini, metrik yang digunakan untuk mengukur performa
model regresi adalah Mean Squared Error (MSE) dan Root Mean Squared Error (RMSE). MSE menghitung
rata-rata selisih kuadrat antara nilai prediksi dan nilai aktual, sedangkan RMSE merupakan akar dari MSE yang
mempertahankan satuan nilai yang sama dengan target aslinya. Semakin kecil nilai MSE dan RMSE, maka
semakin baik akurasi model dalam melakukan prediksi. Evaluasi ini memberikan gambaran numerik terhadap
kesalahan prediksi dan menjadi dasar penting dalam membandingkan performa antar model regresi yang
digunakan.

289

Chaidir ali, klasifikasi topik berita politik menggunakan model logistic regression dan fitur bag of words

Gambar 11. Evaluasi Model Kinerja
Gambar 11 adalah grafik yang Anda tampilkan merupakan hasil evaluasi model menggunakan metrik Mean
Squared Error (MSE) dan Root Mean Squared Error (RMSE). Pada grafik terlihat bahwa kedua nilai tersebut
sama-sama 0.00, yang berarti model tidak melakukan kesalahan sama sekali dalam memprediksi data uji. MSE
dan RMSE biasanya digunakan untuk mengukur besarnya rata-rata kesalahan prediksi dalam bentuk kuadrat
(MSE) maupun akar kuadratnya (RMSE). Nilai mendekati nol menunjukkan bahwa prediksi model hampir sama
persis dengan label sebenarnya. Dalam kasus ini, nilai 0.00 menandakan bahwa semua label pada data uji dapat
diprediksi dengan tepat tanpa ada perbedaan sedikit pun.
4.

KESIMPULAN
Penelitian ini berhasil membangun dan menguji model klasifikasi topik berita politik menggunakan algoritma
Logistic Regression yang dipadukan dengan representasi fitur Bag of Words (BoW). Model menunjukkan performa
yang sangat tinggi, mencapai akurasi 100% pada data uji untuk klasifikasi biner (Politik vs Non-Politik), dengan
nilai Precision, Recall, dan F1-Score masing-masing 1.0, serta MSE dan RMSE sebesar 0.00, yang secara teknis
menunjukkan tidak adanya kesalahan prediksi. Visualisasi koefisien model mengungkapkan bahwa kata-kata kunci
seperti “politik”, “pemilu”, “partai”, dan “jokowi” menjadi fitur paling dominan dalam mengidentifikasi berita
politik, membuktikan bahwa model tidak hanya akurat tetapi juga interpretatif. Hal ini memungkinkan pengguna
memahami dasar keputusan klasifikasi, yang merupakan keunggulan penting dari Logistic Regression dibandingkan
model “black box”. Meskipun hasilnya terlihat sempurna, perlu dicatat bahwa performa ini mungkin dipengaruhi
oleh keterbatasan dataset seperti ukuran data yang kecil (215 sampel), kemungkinan ketidakseimbangan kelas, atau
dominasi kata kunci tertentu yang membuat model “menghafal” pola sederhana. Dengan demikian, hasil ini belum
tentu merepresentasikan kemampuan generalisasi model terhadap data baru yang lebih kompleks, bervariasi, atau
bebas dari bias kata kunci eksplisit. Secara keseluruhan, penelitian ini membuktikan bahwa Logistic Regression +
BoW merupakan pendekatan yang efektif, efisien, dan interpretable untuk tugas klasifikasi topik berita, khususnya
dalam konteks berita politik berbahasa Indonesia. Untuk pengembangan selanjutnya, disarankan melakukan validasi
dengan dataset yang lebih besar dan beragam, menerapkan cross-validation, serta membandingkan performa dengan
teknik representasi teks lain (seperti TF-IDF atau word embeddings) dan algoritma alternatif guna memastikan
robustitas dan generalisasi model.
DAFTAR PUSTAKA
[1]
B. Imran, M. N. Karim, and N. I. Ningsih, “Klasifikasi Berita Hoax Terkait Pemilihan Umum Presiden
Republik Indonesia Tahun 2024 Menggunakan Naïve Bayes Dan Svm,” Din. Rekayasa, vol. 20, no. 1, pp.
1–9, 2024, doi: 10.20884/1.dinarek.2024.20.1.27.
[2]
J. Indrawan, R. E. Barzah, and H. Simanihuruk, “Instagram sebagai media komunikasi politik bagi generasi
milenial,” Ekspresi dan Persepsi J. Ilmu Komun., vol. 6, no. 1, pp. 170–179, 2023.
[3]
A. R. Hanum et al., “Analisis Kinerja Algoritma Klasifikasi Teks Bert dalam Mendeteksi Berita Hoaks,” J.
Teknol. Inf. dan Ilmu Komput., vol. 11, no. 3, pp. 537–546, 2024, doi: 10.25126/jtiik.938093.
[4]
I Putu Gede Hendra Suputra, Linawati, I. G. Sukadarmika, and N. P. Sastra, “Klasifikasi Judul Berita Bahasa
Indonesia Menggunakan Support Vector Machine Dan Seleksi Fitur Mutual Information,” J. Pendidik.
290

Chaidir ali, klasifikasi topik berita politik menggunakan model logistic regression dan fitur bag of words

[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
[14]
[15]

Teknol. dan Kejuru., vol. 22, no. 1, pp. 69–79, 2025, doi: 10.23887/jptkundiksha.v22i1.89158.
M. Zamzam, M. A. Kurniawan, and K. Khoiri, “Habaib Di Pusaran Kekuasaan: Studi Tentang Dinamika
Politik Dan Agama Di Indonesia,” al-Akmal J. Stud. Islam, vol. 3, no. 5, pp. 9–20, 2024.
D. B. W. Alfredo Gormantara, “KLASIFIKASI KATEGORI DAN PELABELAN BERITA BAHASA
INDONESIA MENGGUNAKAN MUTUAL INFORMATION DAN K- NEAREST NEIGHBORS,” J.
Temat., vol. 8, pp. 75–82, 2020.
R. Permana and F. A. Herdiana, “Analisis Klasifikasi Dan Prediksi Pola Publikasi Berita Pemprov DKI
Jakarta Menggunakan Machine Learning,” J. Infortech, vol. 7, no. 1, 2025.
L. F. Chasanah and E. W. Pamungkas, “Klasifikasi Subjektif Berita Menggunakan Algoritma Machine
Learning,” in Proceeding of Informatics Collaborations and Dessimenation Meeting, 2025, pp. 140–143.
Normah, B. Rifai, S. Vambudi, and R. Maulana, “Analisa Sentimen Perkembangan Vtuber Dengan Metode
Support Vector Machine Berbasis SMOTE,” J. Tek. Komput. AMIK BSI, vol. 8, no. 2, pp. 174–180, 2022,
doi: 10.31294/jtk.v4i2.
M. Fahmuddin, M. K. Aidid, and M. J. Taslim, “Implementasi Analisis Regresi Logistik Dengan Metode
Machine Learning Untuk Mengklasifikasi Berita Di Indonesia,” VARIANSI J. Stat. Its Appl. Teach. Res.,
vol. 5, no. 03, pp. 155–162, 2023, doi: 10.35580/variansiunm116.
Guruh Wijaya, Dudi Irawan, Zainul Arifin, Hardian Oktavianto, Miftahur Rahman, and Ginanjar
Abdurrahman, “Studi Klasifikasi Topik Berita Dengan Algoritma Machine Learning,” J-Ensitec, vol. 11,
no. 01, pp. 10202–10206, 2024, doi: 10.31949/jensitec.v11i01.12037.
N. E. Juliana, F. D. Khansa, A. M. H. Azis, R. I. Gunawan, and N. D. Cahya, “Klasifikasi Kategori Berita
menggunakan Algoritma Support Vector Machine,” Gunung Djati Conf. Ser., vol. 3, 2021.
I. F. Ramadhy and Y. Sibaroni, “Analisis Trending Topik Twitter dengan Fitur Ekspansi FastText
Menggunakan Metode Logistic Regression,” JURIKOM (Jurnal Ris. Komputer), vol. 9, no. 1, p. 1, 2022,
doi: 10.30865/jurikom.v9i1.3791.
A. Ananta Firdaus, A. Id Hadiana, and A. Kania Ningsih, “Klasifikasi Sentimen pada Aplikasi Shopee
Menggunakan Fitur Bag of Word dan Algoritma Random Forest,” Ranah Res. J. Multidiscip. Res. Dev.,
vol. 6, no. 5, pp. 1678–1683, 2024, doi: 10.38035/rrj.v6i5.994.
F. A. Wicaksono, A. Romadhony, and Hasmawati, “Sentiment Analysis of University Social Media Using
Support Vector Machine and Logistic Regression Methods,” Ind. J. Comput., vol. 7, no. 2, pp. 15–24, 2022,
doi: 10.34818/indojc.2022.7.2.638.

291