Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK) Vol.
No.
April 2026, hlm.
p-ISSN: 2355-7699
e-ISSN: 2528-6579
FITUR INFORMATION GAIN UNTUK MENINGKATKAN NILAI PERFORMA
PENGKLASIFIKASI MACHINE LEARNING PADA ANALISIS SENTIMEN
KOMENTAR SPAM PENGGUNA YOUTUBE
Gunardi Gunardi*1.
Eni Rohaini2.
Ronald Naibaho3.
Bambang Sukoco4.
Jasmir Jasmir5
1,2,3,4,5
Universitas Dinamika Bangsa.
Jambi Email: 1gunardi@unama.
id, 2enirohaini0104@gmail.
com, 3rhodes8083@yahoo.
Ao4bengsgkt@gmail.
com, 5ijay_jasmir@yahoo.
Penulis Korespondensi (Naskah masuk: 20 Januari 2025, diterima untuk diterbitkan: 15 Desember 2.
Abstrak Perkembangan pesat media sosial telah memberikan ruang bagi setiap individu untuk menyampaikan pendapat, baik berupa komentar positif maupun negatif terhadap konten yang mereka akses.
Kemudahan dalam memberikan opini secara daring ini berdampak pada semakin besarnya jumlah ulasan yang tersedia.
Namun, volume ulasan yang sangat besar sering kali sulit untuk dianalisis secara manual dan berpotensi menimbulkan bias dalam Untuk mengatasi permasalahan tersebut, diperlukan pendekatan otomatis melalui klasifikasi sentimen yang bertujuan mengelompokkan opini pengguna ke dalam kategori positif atau negatif.
Dalam penelitian ini digunakan tiga algoritma pembelajaran mesin, yaitu Nayve Bayes (NB).
K-Nearest Neighbor (KNN), dan R&om Forest (RF).
Data penelitian diperoleh dari public dataset UCI Machine Learning.
Fokus penelitian adalah meningkatkan kinerja klasifikasi dengan memanfaatkan teknik seleksi fitur information gain.
Hasil eksperimen menunjukkan bahwa penerapan information gain secara konsisten meningkatkan performa semua algoritma yang diuji, baik pada metrik akurasi, presisi, recall, maupun f1-score.
Nayve Bayes awalnya memperoleh akurasi tertinggi sebesar 74,33% pada kondisi tanpa fitur tambahan.
Namun, setelah penerapan information gain, algoritma KNN menunjukkan hasil paling optimal dengan akurasi mencapai 81,28% serta performa yang relatif seimbang pada semua metrik evaluasi.
Sementara itu.
R&om Forest juga mengalami peningkatan, meskipun tidak melampaui KNN.
Secara keseluruhan, penelitian ini menegaskan bahwa pemilihan fitur yang relevan melalui information gain mampu meningkatkan efisiensi dan efektivitas klasifikasi sentimen, serta dapat menjadi pendekatan yang potensial untuk menganalisis opini dalam skala besar.
Kata kunci: machine learning, information gain, klasifikasi, analisis sentimen, spam
INFORMATION GAIN FEATURE TO IMPROVE THE PERFORMANCE VALUE OF
MACHINE LEARNING CLASSIFICATION ON SENTIMENT ANALYSIS OF
YOUTUBE USER SPAM COMMENT
Abstract The rapid growth of social media has provided individuals with the opportunity to freely express their opinions, whether positive or negative, toward the content they encounter.
The increasing ease of sharing opinions online has resulted in a massive volume of user reviews.
However, the large number of reviews is difficult to analyze manually & may introduce bias in interpretation.
To address this issue, sentiment classification is applied to automatically categorize user opinions into positive or negative classes.
In this study, three machine learning algorithms were employed: Nayve Bayes (NB).
K-Nearest Neighbor (KNN), & R&om Forest (RF).
The dataset was obtained from the public UCI Machine Learning repository.
The main objective of this research is to improve classification performance by utilizing feature selection through the information gain method.
Experimental results demonstrate that applying information gain consistently enhances the performance of all evaluated algorithms across multiple metrics, including accuracy, precision, recall, & F1-score.
Without feature selection.
Nayve Bayes achieved the highest accuracy of 74.
However, after applying information gain.
KNN outperformed the other algorithms by reaching an accuracy of 81.
28% & exhibited balanced results across all evaluation metrics.
R&om Forest also showed improvement but did not surpass the performance of KNN.
Overall, these findings highlight the importance of feature selection in improving both the efficiency & effectiveness of sentiment classification.
Furthermore, the use of information gain proves to be a promising approach for largescale opinion analysis, particularly in h&ling the high dimensionality of textual data.
Keywords: machine learning, information gain, classification, sentiment analysis, spam 330 Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK).
Vol.
No.
April 2026, hlm.
PENDAHULUAN
Pada era informasi dan teknologi saat ini, dan sejak maraknya fasilitas media sosial, opini masyarakat mengalir dengan bebas dan tidak terbatas.
Melalui media sosial, setiap orang memiliki hak Hal memungkinkan semua hak tersebut diungkapkan melalui platform media sosial yang saat ini bisa menyebar dengan cepat dan meluas.
Platform media sosial paling populer seperti Instagram.
TikTok.
Facebook, dan Youtube yang memiliki miliaran pengguna aktif yang sekaligus menjadi pembuat konten .
ontent creato.
(Farhan Ilham Fadillah.
Moch.
Alief Chaerobbi, 2.
Selain menjadi content creator, sebagian besar platform media sosial memungkinkan pengguna memberikan reaksi seperti memberikan komentar .
, juga bereaksi dengan menggunakan fitur menyukai .
, tidak .
, .
(Sitompul, 2.
Salah satu platform yang dibahas dalam penelitian ini adalah youtube.
Youtube adalah salah satu platform berbagi video bagi pemilik video dan pemirsa dapat melakukannya interaksi seperti like atau dislike video dan/atau mengomentari video(Harpizon dkk.
, 2.
Di bagian komentar, pemirsa dapat mengungkapkan pendapat dan emosi terkait dengan video atau bahkan tidak terkait dengan Ini juga merupakan cara bagi pemirsa video untuk berinteraksi dengan pembuat video (Umardiyah dkk.
, 2.
Jumlah yang AulikeAy dan persentase AulikeAy video, penting bagi pembuat konten di platform karena video dengan ketidaksukaan yang tinggi secara umum memberikan publisitas yang negative (Sitompul, 2.
Dengan sebagian besar data pengguna yang tersedia melalui media sosial, sangat mungkin dapat memperoleh informasi dari pengguna yang mengeluarkan pendapat melalui kata-kata maupun emosi yang meng&ung spam (Mathapati dkk.
, 2.
Dengan banyaknya konten-konten youtube dengan berbagai tema, hal ini akan menghasilkan data teks dengan jumlah yang sangat besar yang berasal dari komentarkomentar pengguna yang berinteraksi dengan pembuat konten.
Dengan meningkatnya jumlah data dan kompleksitas data seperti kasus diatas, machine learning memberikan penawaran untuk memecahkan masalah ini, dengan kemampuan melakukan proses yang tinggi dan nyaris sempurna.
Beberapa metode machine learning telah banyak digunakan untuk klasifikasi teks.
Sebagai contoh seperti Nayve Bayes (Zhang, 2.
K-Nearest Neighbor (Jasmir.
Nurmaini & Tutuko, 2.
, dan R&om Forest (Khaleel.
Al-Azzawi & Alkhazraji, 2.
Naive Bayes sangat sederhana dan efisien serta sangat sensitif terhadap pemilihan fitur(Wasono, 2.
Sementara KNN dikenal dengan kelemahan seperti nilai k yang bias, komputasi yang terlalu komplek, keterbatasan memori, serta mengabaikan atribut yang tidak relevan.
Kemudian R&om Forest punya kelemahan diantaranya adalah nilai evaluasi bisa berubah secara signifikan dengan hanya perubahan data yang kecil.
Pada klasifikasi teks, seleksi fitur berperan penting dalam meningkatkan skalabilitas, efisiensi, dan akurasi proses klasifikasi.
Secara umum, metode seleksi fitur yang efektif perlu mempertimbangkan karakteristik domain serta algoritma yang digunakan.
Dengan meluasnya ketersediaan teks dalam format digital dan meningkatnya kebutuhan untuk mengaksesnya secara fleksibel, klasifikasi teks telah menjadi tugas yang fundamental dan penting.
Salah satu tantangan utama dalam klasifikasi teks adalah dimensi tinggi dari ruang fitur (Alamin dkk.
, 2.
yang seringkali terdiri dari puluhan ribu fitur dalam domain teks.
Sebagian besar dari fitur ini tidak relevan atau bermanfaat dalam konteks klasifikasi teks, bahkan beberapa di antaranya dapat merugikan akurasi klasifikasi.
Selain itu, jumlah besar fitur ini dapat memperlambat proses klasifikasi (Rudolf Huizen, 2.
Sampai saat ini klasifikasi teks spam masih terus Penggunaan metode machine learning pun menjadi harapan besar dalam penyelesaian masalah teks spam khususnya permodelan dan peningkatan nilai evaluasi kinerja klasifikasi (Azan Rahman, 2.
Namun, karena frekuensi yang tinggi serta jarangnya data teks, penelitian tentang klasifikasi teks memiliki tantangan tersendiri dalam penyelesaiannya (Rahma & Suadaa.
Metode yang optimal dalam menyelesaikan masalah klasifikasi teks adalah metode machine learning serta pemilihan fitur yang tepat (Septianingrum & Irawan, 2.
(Kurniabudi.
Harris & Ros&a, 2.
Pemilihan fitur dapat meningkatkan efisiensi dan efektivitas pengklasifikasi(Kurniabudi.
Harris & Ros&a, 2.
, baik dengan mengurangi jumlah data yang dianalisis maupun mengidentifikasi fitur yang relevan untuk dipertimbangkan dalam proses pembelajaran (Jasmir dkk.
, 2.
Salah satu fitur yang lebih unggul adalah information gain (Kurniabudi dkk.
, 2.
Information gain mengukur sejauh mana kehadiran atau ketiadaan suatu kata memberikan informasi yang berkontribusi pada pengambilan keputusan klasifikasi yang akurat di semua kelas.
Information gain merupakan pendekatan filter yang berhasil dalam pengklasifikasi (Perwira dkk.
, 2.
Oleh sebab itu, mengacu pada beberapa informasi di atas, maka kami melakukan penelitian untuk meningkatkan akurasi pada beberapa metode machine learning yaitu Naive Bayes.
K-Nearest Neighbor dan R&om Forest disertai Information Gain sebagai metode pemilihan fitur untuk memperbaiki nilai evaluasi kinerja klasifikasi teks pada komentar spam dari pengguna youtube.
Namun Naive Bayes masih memiliki kekurangan yaitu saat menghadapi dimensi yang kompleks, maka akan Gunardi, dkk.
Fitur Information Gain A 331 mengakibatkan tingkat akurasi klasifikasi menjadi rendah dan menghasilkan hasil klasifikasi yang bias(Syahril Dwi Prasetyo.
Shofa Shofiah Hilabi & Fitri Nurapriani, 2.
Sementara K-Nearest Neighbor memiliki kekurangan diantaranya sangat bergantung pada penskalaan fitur (Utomo.
Prabowo & Ju&aputri, 2.
R&om Forest memiliki kelemahan, yakni untuk mencapai prediksi dengan tingkat akurasi tinggi, diperlukan sumber daya komputasi yang lebih banyak.
Semakin besar kebutuhan akan sumber daya, semakin lama waktu yang diperlukan untuk menghasilkan prediksi (Dara Amelia, 2.
METODE PENELITIAN
Metodologi penelitian ini kami susun dalam bentuk urutan kegiatan atau kerangka kerangka kerja penelitian, seperti yang telihat dalam bagan dibawah pembuatan model.
Tahap preprocessing melalui 3 proses, yaitu: Tokenization.
Stopwords Removal dan Stemming.
Langkah 4.
Pengusulan Model Data yang dianalisis kemudian dikelompokkan ke dalam variabel-variabel yang saling berhubungan, dilanjutkan dengan pembuatan model yang sesuai dengan karakteristik data tersebut.
Selain itu, pembagian data menjadi data latih .
raining dat.
dan data uji .
esting dat.
juga diperlukan dalam proses pengembangan model.
Langkah 5.
Pengujian Bagian ini mengusulkan eksperimen pada model yang akan diuji untuk menghasilkan aturan .
yang dapat dimanfaatkan dalam pengambilan keputusan dari hasil penelitian.
Proses eksperimen dilakukan menggunakan pemrograman Python, dengan pengujian model dilakukan menggunakan dataset berupa komentar dari YouTube.
Pengujian yang kami lakukan terdiri dari 2 eksperimen, eksperimen pertama adalah proses pengujian machine learning tanpa menggunakan fitur, dan eksperimen kedua adalah eksperimen pengujian machine learning dengan menggunakan fitur information gain.
Langkah 6.
Evaluasi dan Validasi Dalam sebuah penelitian, dilakukan evaluasi terhadap model yang digunakan untuk mengukur tingkat akurasi model tersebut dan mendapatkan hasil perb&ingan dari dua model pengujian diatas Gambar 1.
Kerangka kerja penelitian Langkah-1: Studi Literatur Dalam hal ini penulis melakukan studi literatur yang berkaitan dengan analisis sentiment, fitur information gain dan machine learning.
Langkah 2: Pemilihan Dataset Dataset yang digunakan diambil dari situs UCI Machine Learning https://archive.
edu/ml/datasets/Youtube Spa m Collection.
Dataset ini adalah kumpulan komentar publik yang dikumpulkan untuk penelitian spam.
Dataset ini memiliki lima kumpulan data yang disusun oleh 1.
956 pesan nyata yang diambil dari lima video yang termasuk di antara 10 video yang paling banyak dilihat pada periode pengumpulan.
Informasi datasetnya bisa dilihat pada tabel dibawah Dataset Psy KatyPerry LMFAO Eminem Shakira Tabel 1.
Informasi Dataset Youtube ID Spam Ham 9bZkp7q19f0 CevxZvSJLk8 KQ6zr6kCPj8 uelHwf8o7_U pRpeEdmQ0 174 Total Langkah 3.
Pra Pengolahan Data Pada tahap ini data dibersihkan kemudian dilakukan tranformasi data sebelum dilakukan HASIL DAN PEMBAHASAN Bagian ini memberikan gambaran umum tentang hasil dan pembahasan yang berasal dari eksperimen yang dilakukan sesuai dengan kerangka penelitian yang diuraikan pada bagian sebelumnya.
Eksperimen tersebut berkisar pada penilaian data teks media sosial menggunakan berbagai metode pembelajaran mesin dan fitur information gain.
Dengan validasi split 80:20.
Pengujian yang dilakukan dalam penelitian ini meliputi pengujian pembelajaran mesin dengan fitur information gain.
Pembelajaran Mesin merupakan metode klasifikasi sentimen untuk data teks yang digunakan dalam penelitian ini.
Jenis metode pembelajaran mesin yang digunakan adalah: Naive Bayes (NB).
K-Nearest Neighbor (KNN) dan R&om Forest (RF).
Tabel 2 merupakan hasil pengujian analisis sentimen komentar spam pengguna youtube yang berjumlah 1956 record menggunakan algoritma Naive Bayes tanpa menggunakan fitur.
Hasil pengujian disimpan dalam matriks konfusi dengan setiap hasil evaluasi.
Terlihat bahwa hasilnya adalah false positive = 222 dan false negative = 280.
Nilainilai tersebut tergolong sangat tinggi sehingga menghasilkan nilai akurasi yang rendah.
Tabel 3 merupakan hasil pengujian analisis sentimen komentar spam pengguna youtube yang berjumlah 1956 record menggunakan algoritma Naive Bayes dan menggunakan fitur information 332 Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK).
Vol.
No.
April 2026, hlm.
Hasil pengujian disimpan dalam matriks konfusi dengan setiap hasil evaluasi.
Terlihat bahwa hasil false positive = 204 dan false negative = 201.
Nilai tersebut berada pada area ideal untuk meningkatkan nilai evaluasi kinerja klasifikasi sehingga berdampak pada nilai akurasi yang lebih Tabel 2.
Confusion Matrix NB tanpa Fitur
Actual Class
Predicted Class = Yes
Class = No Class
Class = Yes
TP = 751
FP = 222
Class = No FN = 280
TN = 703
Tabel 3.
Confusion Matrix NB dengan fitur
Actual Class
Predicted Class = Yes Class = No Class
Class = Yes
TP = 952
FP = 204
Class = No FN = 201
TN = 599
Gambar 2 menggambarkan hasil eksperimen mengenai analisis sentimen komentar spam pengguna youtube yang berjumlah 1956 record.
Analisis dilakukan menggunakan teknik Naive Bayes dengan fitur information gain dan tanpa fitur.
Pada percobaan ini terlihat adanya peningkatan nilai sebelum menggunakan fitur dan setelah menggunakan fitur information gain.
Tabel 5 merupakan hasil pengujian analisis sentimen komentar spam pengguna youtube menggunakan algoritma KNN dan menggunakan fitur information gain.
Hasil pengujian disimpan dalam matriks konfusi dengan setiap hasil evaluasi.
Terlihat bahwa hasil false positive = 206 dan false negative = 160.
Nilai tersebut sangat baik untuk meningkatkan nilai evaluasi kinerja klasifikasi, dan cukup signifikan.
Tabel 5.
Confusion Matrix KNN dengan Fitur
Actual Class
Predicted Class = Yes
Class = No Class
Class = Yes
TP = 940
FP = 206
Class = No FN = 160
TN = 650
Gambar 3 menjelaskan hasil eksperimen data analisis sentimen komentar spam pengguna youtube sebanyak 900 record, menggunakan metode KNN dengan tiga fitur word embedding dan satu tanpa menggunakan fitur.
Pada eksperimen ini terlihat juga terjadi peningkatan nilai sebelum menggunakan fitur dan setelah menggunakan fitur word embedding.
Word embedding tertinggi juga dihasilkan oleh fitur FastText.
Semua fitur word embedding mampu meningkatkan nilai evaluasi KNN, dan secara umum menghasilkan nilai yang stabil.
Grafik Naive Bayes Grafik KNN Akurasi Presisi Tanpa Fitur Recall F1-score Dengan Fitur Gambar 2 Perb&ingan grafik NB tanpa fitur dan dengan fitur Secara umum dapat dinyatakan bahwa Naive Bayes sering bekerja dengan baik pada data teks karena asumsi independensi kondisionalnya sesuai dengan model representasi kata (Bag-of-Words atau TF-IDF).
Namun, saat menggunakan fitur Information Gain.
Naive Bayes mungkin tidak sepenuhnya memanfaatkan informasi ini.
Tabel 4 berikut merupakan hasil pengujian analisis sentimen komentar komentar spam pengguna youtube menggunakan algoritma KNN tanpa menggunakan fitur.
Hasil pengujian disimpan dalam matriks konfusi dengan setiap hasil evaluasi.
Dapat dilihat bahwa hasilnya adalah false positive = 295 dan false negative = 260.
Nilai ini tergolong sangat tinggi sehingga menghasilkan nilai akurasi yang rendah.
Tabel 4.
Confusion Matrix KNN tanpa fitur
Actual Class
Predicted Class = Yes
Class = No Class
Class = Yes
TP = 998
FP = 295
Class = No FN = 260
TN = 403
Akurasi Presisi Recall Tanpa Fitur F1-score Gain Gambar 3.
Perb&ingan Grafik KNN tanpa fitur dan dengan fitur Secara umum dapat dinyatakan bahwa KNN bekerja dengan mencari jarak terpendek antar vektor Dengan fitur Information Gain.
KNN dapat memberikan hasil yang baik jika jarak antar vektor secara efektif memisahkan kelas.
Akan tetapi.
KNN dapat berjalan lambat dan kurang efisien pada data yang besar karena harus menghitung jarak ke semua titik pada training dataset.
Berikut adalah tabel 6 hasil pengujian analisis sentimen komentar spam pengguna youtube menggunakan algoritma RF tanpa menggunakan Hasil pengujian disimpan dalam matriks konfusi dengan setiap hasil evaluasi.
Dapat dilihat bahwa hasil false positive = 366 dan false negative = Nilai tersebut sangat tinggi sehingga menghasilkan nilai akurasi yang sangat rendah.
Tabel 7 merupakan hasil pengujian analisis sentimen komentar spam pengguna youtube menggunakan algoritma RF dan menggunakan fitur Gunardi, dkk.
Fitur Information Gain A 333 information gain.
Hasil pengujian disimpan dalam matriks konfusi dengan setiap hasil evaluasi.
Dapat dilihat bahwa hasilnya adalah false positive = 242 dan false negative = 238.
Nilai tersebut sangat baik untuk mendapatkan peningkatan nilai evaluasi kinerja klasifikasi dan menghasilkan nilai terbaik untuk RF.
Tabel 6.
Confusion Matrix RF tanpa fitur
Actual Class
Predicted Class = Yes
Class = No Class
Class = Yes
TP = 712
FP = 366
Class = No FN = 363
TN = 515
Tabel 7.
Confusion Matrix RF dengan Fitur
Actual Class
Predicted Class
Class = Yes Class = No Class = Yes TP = 926
FP = 242
Class = No FN = 238
TN = 550
Gambar 4 menjelaskan hasil eksperimen data analisis sentimen komentar spam pengguna youtube sebanyak 1956 record, menggunakan algoritma R&om Forest dengan fitur information gain dan tanpa menggunakan fitur.
Pada eksperimen ini terlihat juga terjadi peningkatan nilai sebelum menggunakan fitur dan setelah menggunakan fitur.
Fitur information gain mampu meningkatkan nilai evaluasi R&om Forest, dan secara umum menghasilkan nilai yang Grafik Random Forest Akurasi Presisi Tanpa Fitur Recall F1-score Dengan Fitur Gambar 4.
Perb&ingan Grafik RF tanpa fitur dan dengan fitur Secara umum dapat dikatakan bahwa R&om Forest cenderung memberikan kinerja yang lebih baik karena memanfaatkan sejumlah besar pohon keputusan dan fitur acak untuk mengurangi Dengan fitur information gain.
R&om Forest dapat menangkap lebih banyak interaksi antar fitur yang mungkin diabaikan oleh Naive Bayes atau KNN.
Dari seluruh pengujian machine learning yang menggunakan fitur information gain, algoritma Naive Bayes mencapai tingkat akurasi tertinggi sebesar 74,33%, sedangkan algoritma R&om Forest menghasilkan akurasi terendah sebesar 62,73%.
Setelah menggunakan fitur information gain, hasil akurasi tertinggi diperoleh dari algoritma KNN dengan nilai sebesar 81,28% dan akurasi terendah diperoleh dari algoritma R&om Forest dengan nilai 75,46%.
Setelah melihat seluruh nilai evaluasi kinerja klasifikasi, yaitu akurasi, presisi, recall dan f1-score, algoritma terbaik adalah algoritma KNN dengan hasil evaluasi yang stabil.
Seluruh pengujian masih mentoleransi kesalahan false positive dan false Seluruh algoritma masih menggunakan parameter asli.
Hal ini dapat menjadi celah untuk penelitian lebih lanjut seperti mengurangi nilai positif palsu atau negatif palsu.
Celah untuk meningkatkan akurasi juga dapat dicapai dengan menyetel semua Secara umum, hasil ini menegaskan bahwa efektivitas pemilihan fitur berbeda antar algoritma, dengan KNN memperoleh manfaat paling besar.
Namun, seluruh algoritma masih menghasilkan tingkat kesalahan .
alse positive dan false negativ.
yang cukup tinggi.
Oleh karena itu, penelitian hyperparameter, penerapan teknik praproses lanjutan, dan perluasan dataset agar akurasi serta generalisasi model dapat lebih ditingkatkan.
KESIMPULAN
Dalam makalah ini, kami menyelidiki dampak berbagai metode pembelajaran mesin yang dikombinasikan dengan fitur information gain pada kinerja klasifikasi analisis sentimen komentar spam Secara memb&ingkan kinerja algoritma Naive Bayes (NB).
K-Nearest Neighbor (KNN), dan R&om Forest (RF) sebelum dan sesudah menggabungkan fitur information gain.
Eksperimen menunjukkan bahwa semua metode pembelajaran mesin mengalami peningkatan dalam metrik kinerja klasifikasiAi akurasi, presisi, ingatan, dan skor F1Aiketika fitur information gain diterapkan.
Di antara metode yang diuji.
NB mencapai akurasi tertinggi sebesar 74,33% tanpa menggunakan fitur.
Setelah menggunakan fitur.
KNN menghasilkan akurasi tertinggi sebesar 81,28%.
Selain itu.
KNN menunjukkan kinerja yang seimbang di semua metrik evaluasi .
kurasi, presisi, ingatan, dan skor F.
ketika dikombinasikan dengan fitur information gain, yang menggarisbawahi kekokohan dan efektivitasnya dalam tugas analisis Temuan ini menyoroti peran penting fitur information gain dalam meningkatkan kinerja algoritme pembelajaran mesin untuk klasifikasi Pekerjaan di masa mendatang dapat difokuskan pada pengurangan lebih lanjut rasio positif palsu dan negatif palsu dengan menyempurnakan hiperparameter dan menggunakan teknik praproses yang lebih canggih.
Memperluas kumpulan data dengan sampel yang lebih beragam juga dapat meningkatkan ketahanan dan generalisasi
DAFTAR PUSTAKA