PROCESSOR AeVOL.
No.
Oktober 2025 Laman web jurnal: https://ejournal.
id/index.
php/processor Jurnal Processor
P-ISSN: 1907-6738 | E-ISSN: 2528-0082
Analisis Kinerja Algoritma K-Nearest Neighbor dan Random Forest untuk Deteksi Serangan pada Jaringan Perangkat IoT Muhammad Ilham Mansis1*.
Ferika Syavina Putri2.
Mulia Rohmayati Siregar3.
Kurniabudi4
1,2,3
Fakultas Ilmu Komputer.
Program Studi informatika.
Universitas Dinamika Bangsa.
Jambi.
Indonesia.
*Penulis Korespondensi.
Email: mansisilham88@gmail.
Abstrak- Deteksi serangan pada jaringan perangkat Internet of Things (IoT) menjadi tantangan penting dalam menjaga keamanan sistem yang semakin kompleks dan rentan terhadap ancaman siber.
Sebagai upaya dalam mengatasi permasalahan tersebut, penelitian ini bertujuan untuk mengevaluasi kinerja algoritma K-Nearest Neighbor (KNN) dan Random Forest dalam mendeteksi berbagai jenis serangan pada jaringan perangkat IoT.
Dataset yang digunakan adalah Aposemat IoT-23, yang berisi 599 entri data lalu lintas jaringan dari berbagai jenis serangan seperti Benign.
DDoS.
Attack, dan lainnya.
Tahapan metode meliputi data preprocessing, data cleaning, label encoding, setelah itu dilakukan pelatihan model dan evaluasi menggunakan metrik accuracy, precision, recall, f1-score.
ROC-AUC, serta 5-Fold Cross-Validation.
Hasil penelitian menunjukkan bahwa algoritma Random Forest memiliki kinerja lebih baik dibandingkan KNN, dengan F1-Macro Score sebesar 0,9396.
ROC-AUC 0,9955, serta accuracy sebesar 92,20%.
Sementara itu.
KNN mencatatkan F1-Macro Score sebesar 0,9256.
ROC-AUC 0,9867, dan accuracy sebesar 92,51%.
Random Forest juga menunjukkan performa yang lebih stabil pada semua lipatan validasi silang.
Berdasarkan temuan ini.
Random Forest dinilai lebih efektif dalam mendeteksi serangan pada jaringan IoT.
Kata Kunci: Internet of Things.
Deteksi Serangan.
K-Nearest Neighbor (KNN).
Random Forest.
Aposemat IoT-23.
AbstractOeDetecting attacks on Internet of Things (IoT) device networks is an important challenge in maintaining the security of increasingly complex systems that are vulnerable to cyber threats.
This study aims to evaluate the performance of the KNearest Neighbor (KNN) and Random Forest algorithms in detecting various types of attacks on IoT networks in a multiclass setting.
The dataset used is Aposemat IoT-23, which contains 1,446,599 network traffic data entries from various types of attacks such as Benign.
DDoS.
Attack, and others.
The method stages include data preprocessing, data cleaning, label encoding, followed by model training and evaluation using accuracy, precision, recall, f1-score.
ROC-AUC metrics, and 5Fold Cross-Validation.
The results of the study show that the Random Forest algorithm performs better than KNN, with an F1Macro Score of 0.
ROC-AUC of 0.
9955, and accuracy of 92.
Meanwhile.
KNN recorded an F1-Macro Score of 9256.
ROC-AUC of 0.
9867, and accuracy of 92.
Random Forest also showed more stable performance across all crossvalidation folds.
Based on these findings.
Random Forest is considered more effective in detecting attacks on IoT networks.
Keywords: Internet of Things.
Attack Detection.
K-Nearest Neighbor.
Random Forest.
Aposemat IoT-23.
PENDAHULUAN
Evolusi dan perjalanan teknologi digital menunjukkan perjalanan panjang dan transformasional dari teknologi sederhana menuju inovasi yang semakin kompleks dan terpadu.
Dalam era digital, peran Internet of Things (IoT) dapat dikaitkan dengan kemajuan teknologi, serta kemudahan dalam hal aspek dan koneksi.
Konsep Internet of Things (IoT) berarti kemampuan objek yang cerdas untuk terhubung ke jaringan internet, yang memungkinkannya melakukan komunikasi dan pertukaran data dengan benda disekitarnya, kondisi lingkungan sekitar, serta perangkat berbasis kecerdasan buatan lainnya.
Setiap aspek kehidupan manusia berubah karena perkembangan perangkat Internet of Things (IoT).
Internet of Things (IoT) berfungsi untuk menjembatani dunia digital dengan aktivitas manusia sehingga dapat mempermudah berbagai pekerjaan.
IoT telah diterapkan diberbagai sektor industri diantaranya pertanian, kesehatan, logistik dan manufaktur.
Dengan kemudahan yang diberikan oleh Internet of Things (IoT), pengguna pasti mendapat manfaat.
Namun, semua keuntungan Internet of Things (IoT) tentunya tidak bisa menghindari ancaman keamanan yang mengintai.
Perangkat IoT kerap memiliki kelemahan dari sisi keamanan karena keterbatasan kapasitas pemrosesan, kurangnya pembaruan perangkat lunak secara berkala, dan penerapan fitur proteksi yang belum Akibatnya, ancaman keamanan pada jaringan Internet of Things (IoT) terus meningkat.
Ancaman ini dapat terjadi pada perangkat lunak, perangkat keras, jaringan, dan saat diintegrasikan dengan sistem lain.
Badan Siber dan Sandi Negara (BSSN) menerbitkan laporan tahunan AuLanskap Keamanan Siber IndonesiaAy menurut laporan tersebut, sepanjang tahun 2024 terjadi sebanyak 330.
636 anomali lalu lintas di seluruh wilayah Indonesia, dengan jenis anomali yang tertinggi yaitu Mirai Botnet dengan total sebanyak 81.
https://doi.
org/10.
33998/processor.
Submitted: 07 September 2025.
Reviewed : 23 September 2025.
Accepted: 23 Oktober 2025.
Published: 31 Oktober 2025 aktivitas yang merupakan salah satu jenis serangan yang menargetkan perangkat Internet of Things (IoT).
Anomali tertinggi tercatat pada bulan Desember dengan 112.
045 anomali, dan jumlah anomali paling sedikit terjadi pada bulan Mei, yaitu sebanyak 12.
078 kasus.
Aktivitas yang tidak sesuai ini dapat mengurangi kinerja jaringan dan perangkat, pencurian data sensitif, kerusakan reputasi dan kepercayaan perusahaan.
Tingginya jumlah anomali ini menunjukkan bahwa perangkat Internet of Things (IoT) rentan terhadap eksploitasi dan bahwa ancaman siber terus meningkat.
Kerentanan ini disebabkan perangkat IoT umumnya memiliki sumber daya terbatas, desain keamanan yang lemah, dan sering kali tidak mendukung pembaruan keamanan secara berkala.
Banyak perangkat menggunakan password default, komunikasi tanpa enkripsi, serta berasal dari berbagai vendor dengan standar keamanan yang tidak seragam.
Kondisi ini memperluas permukaan serangan dan memudahkan peretas mengambil alih perangkat untuk digunakan dalam botnet atau serangan skala besar seperti DDoS.
Salah satu metode yang diusulkan para peneliti adalah Intrusion Detection System (IDS).
Berbagai algoritma machine learning telah digunakan sebagai IDS.
Pada penelitian .
telah membuktikan bahwa algorithma machine learning mampu meningkatkan IDS.
Begitu pula halnya dengan penelitian IDS pada lingkungan IoT.
Hasil survey telah menunjukkan pemnggunaan machine learning dalam mengenali trafik serangan dan menunjukkan hasil yang memuaskan.
Namun demikian masih diperlukan penelitian-penelitian lebih lanjut untuk menguji algorithma, khususnya menggunakan dataset yang ideal.
Oleh karena itu penelitian ini bertujuan menguji algorithma k-Nearest Neighbor .
NN) dan Random Forest (RF) untuk mendeteksi DDoS pada dataset Aposemat IoT23.
K-NN merupakan metode klasifikasi non-parametrik yang tidak memerlukan asumsi distribusional terhadap data dan tidak melibatkan proses pelatihan eksplisit.
Pendekatan ini efektif dalam mengenali pola serangan non-linear pada sistem deteksi intrusi (IDS) melalui pengukuran kedekatan berbasis jarak terhadap tetangga terdekat dalam ruang fitur.
Selain itu, k-NN bersifat adaptif terhadap perubahan data, karena penambahan sampel baru secara langsung memperbarui model representasi tanpa memerlukan pelatihan ulang.
Sementara.
Random Forest menawarkan ketahanan terhadap overfitting melalui agregasi prediksi dari banyak pohon keputusan yang dibangun dari subset data dan fitur acak.
Metode ini mampu menangani data berdimensi tinggi dan mengidentifikasi fitur penting secara intrinsik, yang sangat berguna dalam mendeteksi pola serangan yang kompleks pada sistem deteksi intrusi (IDS).
Random Forest juga memiliki kemampuan generalisasi yang baik serta robust terhadap noise dan outlier, karakteristik umum dalam lalu lintas jaringan.
Dalam penelitian IDS, diperlukan data yang presentatif, oleh karena itu penelitian ini menggunakan dataset Aposemat IoT23.
Dataset Aposemat IoT23 memiliki keunggulan karena merupakan rekaman lalu lintas jaringan IoT nyata dengan skenario serangan in-the-wild dan aktivitas normal yang autentik, berbeda dari dataset sintetis generasi sebelumnya.
Dataset ini dilengkapi label serangan yang akurat, metadata kontekstual, serta variasi protokol khas perangkat IoT modern.
Karakteristik tersebut menjadikan IoT23 lebih representatif dan relevan untuk evaluasi sistem deteksi intrusi berbasis pembelajaran mesin di lingkungan IoT kontemporer.
Penulis menyakini bahwa penelitian ini memberikan kontribusi signifikan dalam pengembangan sistem deteksi intrusi (IDS) untuk lingkungan Internet of Things (IoT) melalui evaluasi komparatif yang komprehensif antara dua algoritma K-NN dan RF menggunakan dataset Aposemat IoT-23 yang realistis dan representatif.
Penelitian ini tidak hanya menguji kinerja model berdasarkan metrik standar seperti accuracy, precision, recall, dan F1-score, tetapi juga memperkuat validitas temuan melalui 5-Fold Cross-Validation dan analisis ROC-AUC dalam skenario klasifikasi multikelas.
METODOLOGI PENELITIAN
Pada bagian ini dipaparkan kerangka kerja penelitian sebagai rujukan dalam pelaksanaan penelitian.
Bagian ini juga memaparkan rancangan eksperimen yang meliputi dataset, data preprocessing, data split.
Algoritma KNearest Neighbor dan Random Forest, training, testing.
Evaluasi model dan validasi model.
Setiap tahapan pada ekperimen dijelaskan secara rinci untuk memberikan wawasan bagaimana eksperimen dilaksanakan.
1 Kerangka Kerja Penelitian Guna memberikan pemahaman yang lebih mendalam terkait tahapan-tahapan yang akan dilakukan dalam penelitian ini, penyusunan kerangka kerja penelitian menjadi aspek yang krusial.
Tujuan dari penyusunan kerangka ini adalah untuk menjelaskan secara sistematis langkah-langkah yang diperlukan dalam menyelesaikan permasalahan yang diangkat.
Adapun bentuk kerangka kerja penelitian yang digunakan dapat dilihat pada Gambar Gambar 1.
Kerangka Kerja Penelitian https://doi.
org/10.
33998/processor.
Submitted: 07 September 2025.
Reviewed: 23 September 2025.
Accepted: 23 Oktober 2025.
Published: 31 Oktober 2025 Berdasarkan pada kerangka kerja penelitian yang telah di gambarkan pada gambar 1 maka dapat di uraikan untuk setiap tahapannya sebagai berikut:
Identifikasi Masalah Pada tahap ini, penulis melakukan identifikasi masalah utama terkait keamanan pada jaringan perangkat IoT yang rentan terhadap serangan siber, untuk dilakukannya deteksi serangan pada jaringan perangkat IoT.
Menggunakan pembelajaran mesin dengan model K-Nearest Neighbor dan Random Forest, guna mengetahui kinerja model mana yang paling baik dalam melakukan deteksi serangan pada jaringan perangkat IoT.
Studi Literatur Pada tahap ini, penulis akan mengumpulkan sumber-sumber referensi teori dan konsep dari literatur yang berkaitan dengan topik penelitian.
Penulis juga akan mencari data dari berbagai sumber, termasuk buku online, artikel, dan jurnal yang berkaitan dengan topik penelitian.
Semua sumber ini akan menghasilkan informasi yang akan digunakan dalam penyelesaian penelitian yang diangkat.
Persiapan Data Dataset yang digunakan adalah dataset_combined.
csv, dataset ini merupakan hasil penggabungan dan pembersihan dari file pada himpunan data Aposemat IoT-23 dari Stratosphere IPS, yang berisi lalu lintas jaringan normal dan berbagai jenis serangan, seperti DDoS.
Command and Control.
Okiru, dan lainnya.
Data dipersiapkan melalui tahap preprocessing, meliputi penanganan missing values, penghapusan nilai yang tidak relevan, serta pengubahan fitur kategorik menjadi numerik menggunakan encoding label.
Setelah itu, data dibagi menjadi data latih dan data uji dengan rasio 80:20.
Selanjutnya, model dilatih dan diuji menggunakan algoritma K-Nearest Neighbor dan Random Forest.
Analisis dan Evaluasi Pada tahap ini, algoritma K-Nearest Neighbor dan Random Forest digunakan untuk membangun model klasifikasi multikelas terhadap lalu lintas jaringan pada dataset IoT.
Evaluasi dilakukan menggunakan confusion matrix untuk melihat distribusi prediksi, serta metrik accuracy, precision, recall, dan F1-score guna mengukur kinerja model dalam membedakan antara aktivitas normal dan berbagai jenis serangan.
Validasi Model Pada tahap ini, metode validasi yang digunakan adalah 5-Fold Cross Validation.
Metode ini membagi dataset menjadi lima bagian .
yang kurang lebih berukuran sama.
Pelatihan dan pengujian dilakukan sebanyak lima iterasi, di mana pada setiap putaran satu bagian data digunakan untuk pengujian, dan empat bagian sisanya digunakan untuk pelatihan.
2 Rancangan Eksperimen Adapun rancangan dari alur eksperimen yang akan dilakukan penulis pada penelitian ini yaitu dapat dilihat pada Gambar 2.
Rancangan Eksperimen https://doi.
org/10.
33998/processor.
Submitted: 07 September 2025.
Reviewed: 23 September 2025.
Accepted: 23 Oktober 2025.
Published: 31 Oktober 2025 Berdasarkan gambar 2, maka eksperimen pada penelitian ini dapat dijelaskan sebagai berikut.
Oe Eksperimen menggunakan data yang diperoleh dari dataset Aposemat IoT-23.
Dataset ini dilengkapi trafik serangan dan trafik normal .
Oe Data preprocessing merupakan langkah penting dalam menyiapkan dataset sebelum digunakan dalam pelatihan dan pengujian model machine learning.
Tahapan ini bertujuan meningkatkan kualitas data dengan cara menghilangkan data duplikat, menangani missing value, menyederhanakan label kelas, serta memastikan seluruh fitur berada dalam format dan skala yang sesuai.
Proses ini dilakukan agar model dapat belajar secara optimal dari data yang tersedia.
Tahap ini mencakup beberapa proses penting, antara lain pembersihan data .
ata cleanin.
, transformasi label ke bentuk numerik .
abel encodin.
Penjelasan lebih rinci mengenai masing-masing tahapan tersebut disampaikan pada subbab berikut.
Oe Data Cleaning.
Tahap pembersihan data dilakukan untuk memastikan bahwa data yang digunakan dalam proses pelatihan dan pengujian model berada dalam kondisi yang layak dan terbebas dari gangguan kualitas.
Proses ini mencakup beberapa langkah penting, seperti pengecekan adanya data duplikat, identifikasi nilai yang hilang .
issing value.
, serta penanganan terhadap nilai-nilai yang tidak logis.
Pemeriksaan terhadap data duplikat dilakukan untuk menghindari pengaruh ganda dari entri yang sama, yang dapat menyebabkan bias dalam proses pelatihan model.
Selanjutnya, data juga diperiksa dari kemungkinan adanya nilai kosong atau hilang pada fitur-fitur penting, meskipun dalam dataset ini tidak ditemukan nilai kosong secara Oe Label Encoding.
Pada tahap ini, dilakukan proses label encoding untuk mengubah nilai pada kolom target .
yang semula bertipe kategori menjadi bentuk numerik.
Hal ini diperlukan karena algoritma klasifikasi seperti K-Nearest Neighbor dan Random Forest hanya dapat memproses label target dalam bentuk angka, bukan teks atau string.
Oleh karena itu, proses pengkodean dilakukan agar masing-masing kelas dapat dikenali sebagai representasi numerik yang sah oleh model.
Proses encoding ini dilakukan menggunakan LabelEncoder dari pustaka scikit-learn, yang memberikan nilai integer unik untuk setiap kategori label secara otomatis.
Pemilihan metode ini didasarkan pada kesederhanaan, efisiensi, serta kemampuannya menjaga konsistensi pemetaan label tanpa mengubah makna dari tiap kelas.
Oe Split Data.
Pada tahap ini dilakukan pemisahan data latih .
raining se.
dan data uji .
esting se.
dengan perbandingan 80% porsi pelatihan dan 20% untuk pengujian.
Proses pembagian ini menggunakan fungsi train_test_split dari pustaka scikit-learn, disertai dengan parameter random_state=42 guna menjaga reprodusibilitas hasil.
Selain itu, digunakan pula parameter stratify agar proporsi distribusi kelas pada data target tetap seimbang di kedua subset.
Pemilihan rasio 80:20 didasarkan pada praktik umum dalam machine learning yang memberikan keseimbangan optimal antara jumlah data untuk pelatihan dan evaluasi.
Data latih digunakan untuk membangun dan melatih model klasifikasi, sementara data uji digunakan untuk mengevaluasi performa model terhadap data yang belum pernah dikenali sebelumnya.
Oe Training model dilakukan untuk membangun kemampuan klasifikasi pada algoritma K-Nearest Neighbour dan Random Forest.
Proses ini menggunakan data pelatihan yang merupakan 80% dari total dataset untuk mengekstrak pola dan karakteristik yang relevan dalam menentukan kelas target.
Usai tahap pelatihan, evaluasi kinerja dari masing-masing model dilakukan dengan memanfaatkan data pengujian yang berjumlah 20% dari keseluruhan dataset.
Data training ini bertujuan untuk mengukur kemampuan generalisasi model terhadap data yang belum pernah dilihat sebelumnya, sehingga dapat diketahui seberapa baik model dalam melakukan klasifikasi pada kondisi nyata.
Oe Pengujian sistem deteksi dilakukan untuk memvalidasi kinerja model K-Nearest Neighbour dan Random Forest yang telah dilatih sebelumnya.
Tahap pengujian menggunakan data testing sebesar 20% dari total dataset untuk mengukur tingkat akurasi kedua algoritma dalam melakukan klasifikasi.
Proses pengujian meliputi input data baru ke dalam sistem untuk memverifikasi konsistensi output prediksi.
Model juga diuji dengan berbagai skenario data untuk mengevaluasi stabilitas dan reliabilitas dalam kondisi penggunaan yang bervariasi.
Oe Evaluasi model dilakukan dengan membandingkan nilai accuracy, precision, recall, dan F1-score antar model, baik secara agregat maupun per kelas.
Evaluasi juga dilakukan menggunakan metrik ROC AUC (Receiver Operating Characteristic Ae Area Under the Curv.
dengan pendekatan One-vs-Rest untuk menilai sejauh mana model mampu membedakan antar kelas.
Nilai ROC AUC yang mendekati angka 1 mengindikasikan bahwa model memiliki kemampuan klasifikasi yang baik.
Evaluasi ini bertujuan untuk memberikan pemahaman yang lebih mendalam mengenai keunggulan serta keterbatasan masing-masing algoritma dalam mendeteksi serangan pada jaringan perangkat IoT https://doi.
org/10.
33998/processor.
Submitted: 07 September 2025.
Reviewed: 23 September 2025.
Accepted: 23 Oktober 2025.
Published: 31 Oktober 2025 Oe Validasi model untuk mengukur konsistensi performa, guna menilai sejauh mana model dapat mengeneralisasi pola terhadap data yang tidak dikenali sebelumnya.
Teknik validasi yang digunakan adalah 5-Fold Cross-Validation, yaitu metode yang membagi data latih menjadi lima bagian .
dengan ukuran yang seimbang.
Setiap fold secara bergiliran digunakan sebagai data validasi, sementara empat fold lainnya digunakan sebagai data pelatihan.
Proses ini dilakukan sebanyak lima kali, sehingga setiap bagian data mendapat kesempatan yang sama sebagai data validasi.
Dengan menggunakan teknik 5-Fold CrossValidation, evaluasi model menjadi lebih objektif karena tidak hanya bergantung pada satu pembagian data, serta membantu menilai kestabilan model terhadap variasi data pelatihan dan mencegah overfitting.
Setiap fold menghasilkan skor evaluasi yang kemudian dianalisis berdasarkan nilai rata-rata, minimum, maksimum, dan standar deviasi untuk mengukur konsistensi performa model.
Proses ini dievaluasi menggunakan metrik F1-Macro Score, yang dinilai sesuai untuk kasus klasifikasi multi-kelas karena mempertimbangkan keseimbangan antara precision dan recall pada seluruh kelas.
3 Dataset Aposemat IoT-23 Dataset yang digunakan dalam penelitian ini berasal dari Aposemat IoT-23.
Kami mempertimbangkan Aposemat IoT-23, merupakan kumpulan data berlabel yang dibuat di laboratorium Avast.
Pada dasarnya, tujuan dari kumpulan data besar ini adalah untuk menyediakan serangan IoT yang berlabel dan nyata.
Data dikumpulkan dari tahun 2018 hingga 2019.
Dataset ini berisi 20 tangkapan dan label malware, dan sisanya tidak berbahaya.
Selain itu, dataset ini memiliki 21 atribut fitur.
Dataset ini terdiri dari 23 file PCAP-CSV, dengan 20 file merepresentasikan berbagai skenario serangan dan 3 file lainnya menggambarkan lalu lintas jaringan normal.
Namun, karena proses penggabungan dan pembersihan seluruh file asli memerlukan waktu yang cukup lama serta sumber daya komputasi yang besar, maka dalam penelitian ini penulis menggunakan beberapa file data saja yang di gabung menjadi satu, dimana dataset tersebut bernama dataset_Combined.
csv, yang merupakan hasil penggabungan dan pembersihan dari beberapa file Aposemat IoT-23.
Adapun untuk fitur dari dataset yang terdapat pada penelitian ini dapat dilihat pada tabel 1.
Fitur Duration Orig_bytes Resp_bytes Missed_bytes Orig_pkts Orig_ip_bytes Resp_pkts Resp_ip_bytes Proto_icmp Proto_tcp Proto_udp Conn_state_OTH Conn_state_REJ Conn_state_RSTO Conn_state_RSTOS0 Conn_state_RSTR Conn_state_RSTRH Conn_state_S0 Conn_state_S1 Conn_state_S2 Conn_state_S3 Conn_state_SF Conn_state_SH Conn_state_SHR Tabel 1.
Fitur Dataset Aposemat IoT-23 Deskripsi Timestamp saat koneksi tercatat Durasi koneksi dalam detik Jumlah byte yang dikirim dari pengirim Jumlah byte yang diterima oleh penerima Byte yang tidak berhasil ditangkap dalam koneksi Jumlah paket yang dikirim oleh pengirim Jumlah byte IP yang dikirim oleh pengirim Jumlah paket yang dikirim oleh penerima Jumlah byte IP yang dikirim oleh penerima Indikator protokol ICMP .
jika ICMP, 0 jika tida.
Indikator protokol TCP .
jika TCP, 0 jika tida.
Indikator protokol UDP .
jika UDP, 0 jika tida.
Indikator koneksi dengan status OTH (Othe.
Indikator koneksi ditolak (Rejecte.
Indikator koneksi di-reset oleh originator Indikator reset oleh originator, tanpa respons dari penerima Indikator reset oleh responder Indikator reset oleh responder dan handshake Indikator koneksi inisiasi tanpa respons Indikator koneksi berhasil terbentuk .
andshake selesa.
Indikator koneksi hanya satu arah .
anya originator mengirim Indikator koneksi tiga arah terbentuk .
andshake tidak lengka.
Indikator koneksi selesai normal dengan 4-way FIN Indikator koneksi dengan SYN-ACK tanpa ACK .
alf-ope.
Indikator half-open connection di-reset oleh responder https://doi.
org/10.
33998/processor.
Submitted: 07 September 2025.
Reviewed: 23 September 2025.
Accepted: 23 Oktober 2025.
Published: 31 Oktober 2025 4 Algoritma K-Nearest Neighbor Algoritma KNN bekerja dengan mengklasifikasikan data mengacu pada jarak kemiripan antara data yang diuji dan data pelatihan terdekatnya.
Untuk menghitung tingkat kemiripan tersebut, digunakan perhitungan jarak Euclidean dengan persamaan 1.
yccycn ocycoycn=ycn.
caycn Oe ycaycn )2 .
Di mana yccycn adalah jarak antara data latih dan data uji, k jumlah tetanggan terdekat, ycaycn nilai fitur data latih, dan ycaycn nilai fitur data uji.
Algoritma ini tidak melakukan proses pembelajaran secara eksplisit saat pelatihan, melainkan menentukan kelas dari data baru berdasarkan mayoritas tetangga terdekatnya dengan menggunakan parameter k sebagai jumlah tetangga yang dipertimbangkan.
Kelebihan K-Nearest Neighbour adalah kesederhanaannya dan keefektifannya untuk pola data yang relatif sederhana, namun sensitif terhadap dimensi data yang tinggi dan memerlukan standardisasi fitur.
5 Algoritma Random Forest Random Forest membangun banyak pohon keputusan secara acak dari data pelatihan, kemudian menggabungkan hasilnya melalui mekanisme voting untuk memutuskan kelas akhir.
Metode ini unggul dalam menangani data dengan fitur yang kompleks dan dapat mengurangi kesalahan akibat overfitting melalui teknik ensemble learning.
Random Forest juga memiliki kemampuan untuk mengevaluasi pentingnya fitur dalam proses Dalam algoritma Random Forest, pembangunan pohon keputusan dilakukan dengan memanfaatkan konsep entropy dan information gain untuk menentukan atribut yang paling optimal di setiap simpulnya.
Nilai entropy dihitung menggunakan rumus:
Entropy .
cU) = - Ocycn yuU.
cU) ycoycuyci2 yuU.
ycU) .
Di mana Y adalah himpunan data, yca kelas dalam Y, dan yuU.
Y) proporsi kemunculan kelas yca.
Selanjutnya, untuk memilih atribut yang paling tepat digunakan sebagai pemisah data, digunakan perhitungan information gain dengan rumus:
ycU Information Gain .
cU, yc.
= Entropy .
cU) - OcycOOycOycaycoycyceyc.
yc Entropy .
cUyc ) .
ycUyca Dengan yca atribut, ycOycaycoycyceyc.
nilai-nilai atribut, ycUyc subset data dengan nilai atribut v, dan ycUyca jumlah total data dengan atribut yca.
Kedua model dilatih dengan data pelatihan, lalu diuji dengan data pengujian untuk mengevaluasi seberapa baik kinerjanya dalam mengklasifikasikan data baru.
6 Pengukuran Kinerja Model yang digunakan pada penelitian ni dievaluasi menggunakan beberapa nilai metrik, yang memberikan wawasan aspek kinerja model yaitu.
Oe True Positive (TP): Jumlah data serangan yang diklasifikasikan dengan benar sebagai serangan.
Oe False Positive (FP): Data normal yang salah diklasifikasikan sebagai serangan .
larm pals.
Oe False Negative (FN): Data serangan yang tidak terdeteksi .
erangan terlewa.
Oe True Negative (TN): Data normal yang diklasifikasikan dengan benar.
Oe Accuracy mengukur proporsi prediksi yang benar dari total data.
Diukur dengan persamaan 4:
ycNycE ycNycA Accuracy = .
ycNycE ycNycA yaycE yaycA Oe True Positive Rate (TPR), atau Recall, mengukur kemampuan sistem untuk mendeteksi serangan dengan benar, yaitu proporsi data serangan yang berhasil dikenali.
ycNycE ycNycEycI = .
ycNycE yaycA Oe Precision menunjukkan seberapa akurat prediksi serangan, yaitu proporsi data yang diprediksi sebagai serangan yang sebenarnya merupakan serangan.
ycNycE Precision = .
ycNycE yaycE Oe F-Measure adalah rata-rata harmonis antara Precision dan Recall (TPR), memberikan gambaran tentang keseimbangan antara keduanya.
PrecisionyycNycEycI ya-Measure = 2 y Oe ROC (Receiver Operating Characteristi.
adalah kurva yang menggambarkan hubungan antara tingkat true positive rate (TPR) dan false positive rate (FPR) dari sebuah model klasifikasi saat ambang keputusan https://doi.
org/10.
33998/processor.
Submitted: 07 September 2025.
Reviewed: 23 September 2025.
Accepted: 23 Oktober 2025.
Published: 31 Oktober 2025 Precision ycNycEycI berubah.
AUC (Area Under the Curv.
adalah luas area di bawah kurva ROC yang menunjukkan kemampuan model dalam membedakan antara kelas positif dan negatif, dengan nilai AUC yang lebih dekat ke 1 menunjukkan performa yang lebih baik.
Secara intuitif.
AUC mewakili probabilitas bahwa model akan memberi peringkat lebih tinggi pada contoh positif daripada contoh negatif yang dipilih secara acak.
ANALISIS DAN HASIL
Pada bagian ini dipaparkan analisa dari hasil ekperimen.
Pemaparan diawali dengan menyajikan data ekperimen, hasil tahapan preprocesing, hasil pengujian data training dan testing, evaluasi hasil dan pada bagian akhir dipaparkan hasil validasi model.
1 Data Eksperimen Penelitian ini menggunakan dataset Aposemat IoT-23, merupakan kumpulan data yang dikembangkan oleh Stratosphere Laboratory sebagai bagian dari proyek Aposemat.
Dataset ini dirancang untuk mendukung keamanan siber, khususnya deteksi serangan terhadap perangkat IoT.
Dataset ini berisi data lalu lintas jaringan perangkat IoT yang terdiri berbagai jenis label kelas.
Tabel 2.
menyajikan daftar lengkap fitur yang digunakan dalam dataset, termasuk tipe datanya dan contoh nilai yang merepresentasikan isi dari setiap fitur.
Tabel 2.
Informasi Fitur Pada Dataset Fitur Tipe Data Contoh Data Float64 Duration Float64 Orig_bytes Int64 Resp_bytes Int64 Missed_bytes Float64 Orig_pkts Float64 Orig_ip_bytes Float64 Resp_pkts Float64 Resp_ip_bytes Float64 Proto_icmp Int64 Proto_tcp Int64 Proto_udp Int64 Conn_state_OTH Int64 Conn_state_REJ Int64 Conn_state_RSTO Int64 Conn_state_RSTOS0 Int64 Conn_state_RSTR Int64 Conn_state_RSTRH Int64 Conn_state_S0 Int64 Conn_state_S1 Int64 Conn_state_S2 Int64 Conn_state_S3 Int64 Conn_state_SF Int64 Conn_state_SH Int64 Conn_state_SHR Int64 Selain fitur-fitur yang telah dijelaskan sebelumnya, dataset ini juga memiliki kolom label yang merepresentasikan kelas dari setiap sampel data.
Kolom ini digunakan sebagai target dalam proses pelatihan dan pengujian model Setiap label menunjukkan jenis aktivitas atau serangan tertentu dalam jaringan.
Informasi lebih lanjut mengenai label yang terdapat dalam dataset disajikan pada Tabel 3.
https://doi.
org/10.
33998/processor.
Submitted: 07 September 2025.
Reviewed: 23 September 2025.
Accepted: 23 Oktober 2025.
Published: 31 Oktober 2025 No Tabel 3.
Informasi Label Kelas Pada Dataset Label Kelas Deskripsi PartOfAHorizontalPortScan Pemindaian port secara horizontal untuk mencari kerentanan Okiru Malware varian Mirai yang menyerang perangkat IoT Benign Aktivitas jaringan normal tanpa indikasi serangan DDoS Serangan yang membanjiri jaringan untuk membuat layanan tidak C&C Komunikasi bot dengan server pengendali (Command and Contro.
Attack Aktivitas serangan umum yang tidak terklasifikasi spesifik C&C-HeartBeat Sinyal periodik dari bot ke server C&C sebagai tanda aktif C&C-FileDownload Pengunduhan file dari server C&C ke perangkat korban C&C-Torii Malware Torii yang menargetkan perangkat IoT secara tersembunyi Total Jumlah Data 2 Hasil Tahapan Data Preprocessing Tahapan data preprocessing dilakukan sebelum proses pelatihan dan pengujian model, dengan tujuan untuk meningkatkan kualitas dan konsistensi data.
Preprocessing merupakan tahap kritis yang dapat mempengaruhi kinerja model secara signifikan.
Berikut ini adalah langkah-langkah preprocessing yang diterapkan:
Data Cleaning Langkah pembersihan data bertujuan untuk mengatasi masalah kualitas data yang dapat mempengaruhi performa model.
Proses ini meliputi penanganan missing values dan nilai-nilai yang tidak valid.
Pada dataset yang digunakan, ditemukan nilai -1 pada beberapa atribut numerik seperti duration, orig_bytes, dan resp_bytes.
Nilai tersebut secara logis tidak mungkin terjadi, karena ketiga atribut tersebut merepresentasikan durasi koneksi serta jumlah byte yang dikirim atau diterima, yang secara alami tidak dapat bernilai negatif.
Berdasarkan dokumentasi dataset dan pemahaman terhadap konteks jaringan, nilai 1 tersebut diasumsikan sebagai indikator bahwa tidak ada data yang terekam pada sesi koneksi tersebut, atau data tersebut tidak berhasil dikumpulkan secara lengkap.
Untuk menjaga konsistensi dan kestabilan model dalam proses pelatihan, nilai -1 ini tidak dihapus, tetapi digantikan dengan 0 sebagai bentuk penyesuaian.
Keputusan ini tidak dilakukan secara manual, melainkan diterapkan melalui skrip otomatis yang memeriksa keberadaan nilai -1 pada fitur-fitur terkait dan menggantinya menggunakan pendekatan programatik.
Label Encoding Proses encoding dilakukan untuk mengubah label target yang berbentuk kategori menjadi format numerik.
Dataset memiliki 9 kelas serangan yang berbeda dalam format string, sehingga perlu dikonversi menjadi nilai integer menggunakan LabelEncoder dari scikit-learn.
Proses ini menghasilkan mapping dari setiap kelas ke nilai numerik 0-8.
Tabel 4 menunjukkan hasil pemetaan label encoding untuk setiap kelas dalam Tabel 4.
Hasil Pemetaan Label Encoding Label Asli
Nilai Encoding Attack
Benign
C&C
C&C-FileDownload C&C-HeartBeat C&C-Torii DDoS Okiru https://doi.
org/10.
33998/processor.
Submitted: 07 September 2025.
Reviewed: 23 September 2025.
Accepted: 23 Oktober 2025.
Published: 31 Oktober 2025 Label Asli PartOfAHorizontalPortScan Nilai Encoding 3 Hasil Pengujian Data Training dan Testing Pada tahap ini, dataset dibagi menjadi dua bagian utama, yaitu data training sebesar 80 dan data testing sebesar Pembagian dilakukan menggunakan metode stratified split, yaitu teknik yang memastikan distribusi label pada data tetap proporsional di kedua subset.
Artinya, masing-masing jenis serangan tetap terwakili secara seimbang di data training dan testing.
Hal ini bertujuan untuk menjaga kemampuan model dalam mengenali semua kelas secara adil.
Setelah dilakukan pemisahan, diperoleh 1.
279 data pada subset training dan 289.
320 data pada subset testing.
Distribusi masing-masing label pada kedua subset disajikan pada Tabel 5.
Tabel 5.
Distribusi Label pada Data Training dan Testing Label Train .
%) Test .
%) Attack
Benign
C&C
C&C-FileDownload C&C-HeartBeat C&C-Torii DDoS Okiru PartOfAHorizontalPortScan Total 4 Evaluasi Hasil Setelah model melalui proses pelatihan dan pengujian terhadap model K-Nearest Neighbor (KNN) dan Random Forest, dilakukan evaluasi perbandingan hasil pada data training dan testing untuk mengetahui model mana yang memiliki performa yang lebih baik serta lebih stabil dalam klasifikasi serangan IoT.
Berikut tabel 6 menyajikan perbandingan antara model K-Nearest Neighbor dan Random Forest untuk setiap data training dan testing.
Model
KNN
KNN
Tabel 6.
Performa Model K-Nearest Neighbor dan Random Forest
Precision Recall Avg
F1-Score
Data
Accuracy Avg
Avg
Training 92,82% 0,9638 0,9584 0,9610 Testing 92,51% 0,9578 0,9194 0,9373 Training 92,72% 0,9781 0,9478 0,9614 Testing 92,20% 0,9506 0,9432 0,9444 ROCAUC
0,9949
0,9867
0,9971
0,9955
Tabel 6 menunjukkan hasil evaluasi performa dari dua algoritma klasifikasi, yaitu K-Nearest Neighbor (KNN) dan Random Forest, pada data pelatihan dan data pengujian.
Evaluasi dilakukan menggunakan lima metrik utama, yaitu accuracy, precision, recall, f1-score, dan ROC-AUC.
Berdasarkan data pengujian, model K-Nearest Neighbor mencatat nilai akurasi sebesar 0,9251, sedikit lebih tinggi dibandingkan dengan Random Forest yang memperoleh akurasi 0,9220.
Dari segi precision.
K-Nearest Neighbor juga unggul dengan nilai 0,9578, menunjukkan bahwa model ini mampu menghasilkan prediksi positif yang lebih tepat dibandingkan Random Forest yang memiliki precision 0,9506.
Namun, dari aspek recall.
Random Forest lebih unggul dengan nilai 0,9432, sementara K-Nearest Neighbor memperoleh 0,9194.
Hal ini mengindikasikan bahwa Random Forest lebih baik dalam mendeteksi seluruh instance positif dari masing-masing Kelebihan Random Forest juga terlihat pada nilai f1-score, yaitu 0,9444, lebih tinggi dibandingkan KNearest Neighbor yang memperoleh 0,9373, menandakan keseimbangan yang lebih baik antara precision dan Performa paling mencolok ditunjukkan pada metrik ROC-AUC, di mana Random Forest memperoleh nilai tertinggi yaitu 0,9955, sedangkan K-Nearest Neighbor hanya 0,9867.
Nilai ROC-AUC ini mengindikasikan bahwa model Random Forest memiliki kemampuan diskriminatif yang lebih kuat dalam membedakan antara kelas-kelas Secara keseluruhan, meskipun K-Nearest Neighbor menunjukkan hasil yang kompetitif pada beberapa metrik seperti accuracy dan precision, namun model Random Forest memberikan performa yang lebih seimbang dan unggul terutama pada recall, f1-score, dan ROC-AUC.
Oleh karena itu.
Random Forest dapat dianggap sebagai model yang lebih optimal dan andal dalam tugas klasifikasi pada dataset ini.
https://doi.
org/10.
33998/processor.
Submitted: 07 September 2025.
Reviewed: 23 September 2025.
Accepted: 23 Oktober 2025.
Published: 31 Oktober 2025 5 Validasi Model Pada bagian ini dipaparkan hasil validasi model dilakukan terhadap algoritma K-NN dan Random-Forest.
Validasi model dilakukan untuk menunjukkan kehandalan K-NN dan Random Forest dalam mendeteksi serangan pada dataset Aposemat IoT-23.
Validasi dilakukan menggunakan 5-Fold Cross-Validation.
Tabel 7 menunjukkan hasil evaluasi model K-Nearest Neighbor menggunakan 5-Fold Cross-Validation, yang disajikan dalam bentuk F1Macro Score untuk setiap fold.
Tabel 7.
5-Fold Cross-Validation KNN (F1 Macro Scor.
Fold
F1-Macro Score
Fold 1
0,9338
Fold 2
0,8988
Fold 3
0,9412
Fold 4
0,9355
Fold 5
0,9187
Rata-rata 0,9256 Minimum
0,8988
Maksimum
0,9412
Standar Deviasi
0,0153
Berdasarkan hasil validasi model KNN menggunakan teknik 5-Fold Cross-Validation, diperoleh nilai F1Macro Score rata-rata sebesar 0,9256.
Nilai tertinggi terdapat pada Fold ke-3 sebesar 0,9412, sedangkan nilai terendah terjadi pada Fold ke-2 sebesar 0,8988.
Dengan standar deviasi sebesar 0,0153, dapat disimpulkan bahwa performa model cukup stabil di tiap fold dengan variasi yang tidak terlalu besar.
6 Validasi Model Random Forest Setelah melakukan validasi pada model K-Nearest Neighbor, proses yang sama juga diterapkan pada model Random Forest untuk mengevaluasi kemampuan generalisasi model terhadap data yang belum pernah dilihat Teknik 5-Fold Cross-Validation kembali digunakan dengan membagi data menjadi lima bagian, di mana empat bagian digunakan untuk pelatihan dan satu bagian untuk validasi secara bergiliran.
Hasil evaluasi model Random Forest menggunakan 5-Fold Cross-Validation ditampilkan pada Tabel 8, dengan metrik yang digunakan berupa F1-Macro Score untuk setiap fold.
Tabel 8.
5-Fold Cross-Validation Random Forest (F1 Macro Scor.
Fold
F1-Macro Score
Fold 1
0,9499
Fold 2
0,9212
Fold 3
0,9587
Fold 4
0,9446
Fold 5
0,9234
Rata-rata 0,9396 Minimum
0,9212
Maksimum
0,9587
Standar Deviasi
0,0148
Nilai rata-rata yang mencapai 0,9396 serta standar deviasi yang rendah 0,0148 menunjukkan bahwa model Random Forest memiliki performa yang stabil dan tidak mengalami overfitting pada data latih.
Dengan kata lain, model ini memiliki potensi yang baik untuk digunakan dalam prediksi terhadap data baru.
KESIMPULAN
Berdasarkan hasil evaluasi yang telah dilakukan terhadap model K-Nearest Neighbor dan Random Forest, baik melalui data pelatihan, data pengujian, maupun validasi menggunakan 5-Fold Cross-Validation, dapat disimpulkan bahwa Random Forest menunjukkan performa yang lebih optimal secara keseluruhan.
Pada tahap validasi silang, model KNN memperoleh F1-Macro Score rata-rata sebesar 0,9256 dengan standar deviasi 0,0153, sementara model Random Forest mencatatkan rata-rata F1-Macro Score sebesar 0,9396 dan standar deviasi yang lebih https://doi.
org/10.
33998/processor.
Submitted: 07 September 2025.
Reviewed: 23 September 2025.
Accepted: 23 Oktober 2025.
Published: 31 Oktober 2025 rendah, yaitu 0,0148.
Hal ini menunjukkan bahwa Random Forest memiliki kestabilan performa yang lebih baik antar fold dibandingkan KNN.
Selain itu, hasil evaluasi pada data pengujian menunjukkan bahwa Random Forest mencapai F1-Score ratarata 0,9444 dan ROC-AUC sebesar 0,9955, lebih tinggi dibandingkan KNN yang mencatatkan F1-Score 0,9373 dan ROC-AUC 0,9867.
Dari sisi accuracy, precision, dan recall, kedua model menunjukkan nilai yang kompetitif, namun Random Forest cenderung lebih konsisten dan unggul dalam membedakan antar kelas.
Dengan mempertimbangkan seluruh hasil evaluasi tersebut.
Random Forest dapat disimpulkan sebagai model klasifikasi yang paling tepat dan andal untuk digunakan dalam penelitian ini, khususnya dalam mendeteksi serangan pada jaringan perangkat IoT secara akurat dan stabil.
REFERENCES