Bulletin of Information Technology (BIT) Vol 6. No 3. September 2025. Hal. ISSN 2722-0524 . edia onlin. DOI 10. 47065/bit. https://journal. org/index. php/BIT Pengembangan dan Implementasi Sistem Deteksi Serangan DDoS Berbasis Algoritma Random Forest Dedy Kiswanto1*. Fanny Ramadhani2. Nurul Maulida Surbakti3. Nadrah Afiati Nasution4 1,2 Fakultas Matematika dan Ilmu Pengetahuan Alam. Ilmu Komputer. Universitas Negeri Medan. Medan. Indonesia 3 Fakultas Matematika dan Ilmu Pengetahuan Alam. Matematika. Universitas Negeri Medan. Medan. Indonesia 4 Fakultas Matematika dan Ilmu Pengetahuan Alam. Pendidikan Matematika. Universitas Negeri Medan. Medan. Indonesia Email: 1*dedykiswanto@unimed. id, 2fannyr@unimed. id, 3nurulmaulida@unimed. id, 4nadrahaflati@unimed. (* : coressponding author: dedykiswanto@unimed. Abstrak-Serangan Distributed Denial of Service (DDoS) merupakan ancaman serius bagi keamanan jaringan, sementara metode deteksi tradisional seperti threshold-based detection dan signature-based detection memiliki keterbatasan dalam mengenali pola serangan baru maupun anomali lalu lintas yang kompleks. Penelitian ini bertujuan merancang dan mengimplementasikan model prediksi serangan DDoS berbasis algoritma Random Forest yang mampu membedakan trafik normal dan berindikasi serangan secara Pendekatan Research and Development (R&D) digunakan, meliputi studi literatur, perancangan model, implementasi, serta evaluasi performa menggunakan metrik akurasi, precision, recall. F1-score, confusion matrix, dan learning curve. Berdasarkan hasil evaluasi, model Random Forest menunjukkan kinerja sangat baik dengan akurasi 0,99942 . ,942%). Precision untuk kelas 0 dan 1 masing-masing sebesar 0,99979 dan 0,99884, sedangkan recall mencapai 0,99928 untuk kelas 0 dan 0,99966 untuk kelas 1. Nilai F1score tinggi, yaitu 0,99953 untuk kelas 0 dan 0,99925 untuk kelas 1, dengan macro average F1-score sebesar 0,99939 dan weighted average sebesar 0,99942, menunjukkan keseimbangan performa pada kedua kelas. Confusion Matrix menunjukkan kesalahan klasifikasi rendah . false positive dan 13 false negative dari 99. 066 sampe. Analisis learning curve mengungkapkan akurasi pelatihan stabil di atas 0,998, sedangkan akurasi validasi meningkat dari 0,986 pada 10. 000 data hingga di atas 0,998 pada 80. 000 data, dengan jarak antarkurva semakin kecil. Pola ini menandakan model mampu memanfaatkan data tambahan untuk meningkatkan generalisasi tanpa gejala overfitting atau underfitting. Temuan ini membuktikan bahwa model Random Forest yang dirancang dapat menjadi solusi deteksi dini serangan DDoS yang andal, adaptif, dan berpotensi diintegrasikan dalam sistem keamanan jaringan secara real-time. Kata Kunci: DDoS. Serangan Siber. Random Forest, keamanan jaringan. Machine learning Abstract- Distributed Denial of Service (DDoS) attacks pose a serious threat to network security, while traditional detection methods such as threshold-based detection and signature-based detection face limitations in identifying novel attack patterns and complex traffic This study aims to design and implement a DDoS attack prediction model based on the Random Forest algorithm, capable of accurately distinguishing between normal traffic and traffic indicative of an attack. A Research and Development (R&D) approach was employed, encompassing literature review, model design, implementation, and performance evaluation using accuracy, precision, recall. F1-score, confusion matrix, and learning curve metrics. Evaluation results show that the Random Forest model achieved outstanding performance, with an accuracy of 0. 942%). Precision for class 0 and class 1 was 0. 99979 and 0. respectively, while recall reached 0. 99928 for class 0 and 0. 99966 for class 1. High F1-scores were recordedAi0. 99953 for class 0 and 99925 for class 1Aiwith a macro average F1-score of 0. 99939 and a weighted average of 0. 99942, indicating balanced performance across both classes. The confusion matrix revealed minimal misclassification . false positives and 13 false negatives out of 99,066 Learning curve analysis showed training accuracy consistently above 0. 998, while validation accuracy improved from 0. with 10,000 samples to over 0. 998 with 80,000 samples, with narrowing gaps between the curves. This pattern suggests the model effectively leverages additional data to enhance generalization without signs of overfitting or underfitting. These findings confirm that the proposed Random Forest model is a reliable, adaptive early detection solution for DDoS attacks, with strong potential for real-time integration into network security systems. Keywords: DDoS. Cyber attack detection. Random Forest. Network security. Machine learning PENDAHULUAN Keamanan jaringan telah menjadi salah satu aspek krusial di era digital yang semakin terhubung. Perkembangan teknologi informasi mendorong pertumbuhan layanan berbasis internet secara masif, mulai dari transaksi perbankan, komunikasi daring, hingga pengelolaan infrastruktur kritis. Namun, kemajuan ini juga diiringi dengan meningkatnya ancaman siber yang dapat mengganggu ketersediaan, kerahasiaan, dan integritas data. Salah satu ancaman yang paling menonjol adalah serangan Distributed Denial of Service (DDoS), yang dapat melumpuhkan layanan dalam hitungan detik dengan membanjiri server atau jaringan target menggunakan lalu lintas berlebihan. Dampak dari serangan ini tidak hanya bersifat teknis, tetapi juga dapat menimbulkan kerugian ekonomi yang signifikan serta merusak reputasi penyedia Oleh karena itu, kebutuhan akan sistem deteksi dini yang akurat dan andal menjadi semakin mendesak untuk menjaga keberlangsungan operasional di berbagai sektor. Fenomena serangan DDoS terus menunjukkan tren peningkatan baik dari sisi frekuensi, skala, maupun kompleksitas teknik yang digunakan oleh penyerang. Serangan DdoS tidak hanya menargetkan perusahaan berskala besar, tetapi juga institusi pemerintahan, lembaga pendidikan, hingga usaha kecil dan menengah. Karakteristik terdistribusi dari serangan DDoSAiyang memanfaatkan ribuan hingga jutaan perangkat yang terinfeksi untuk mengirimkan lalu lintas berlebihan ke Copyright A 2025 Author. Page 247 Jurnal BIT is licensed under a Creative Commons Attribution 4. 0 International License Bulletin of Information Technology (BIT) Vol 6. No 3. September 2025. Hal. ISSN 2722-0524 . edia onlin. DOI 10. 47065/bit. https://journal. org/index. php/BIT satu targetAimenjadikannya sulit diantisipasi dengan metode konvensional. Di tengah transformasi digital dan adopsi layanan daring yang masif, kerentanan terhadap serangan DDoS menjadi semakin tinggi. Urgensi untuk mengembangkan metode deteksi yang cepat, akurat, dan adaptif bukan hanya untuk meminimalkan dampak serangan, tetapi juga sebagai bagian dari strategi keamanan siber yang berkelanjutan. Meskipun berbagai solusi telah dikembangkan untuk mendeteksi serangan DDoS, sebagian besar metode tradisional seperti threshold-based detection atau signature-based detection memiliki keterbatasan signifikan. Pendekatan berbasis ambang batas sering kali menghasilkan tingkat false positive yang tinggi ketika lalu lintas jaringan meningkat secara tibatiba namun masih dalam batas wajar, misalnya saat terjadi lonjakan pengguna secara mendadak. Sementara itu, metode berbasis tanda tangan hanya mampu mengidentifikasi pola serangan yang telah diketahui sebelumnya, sehingga kurang efektif dalam menghadapi variasi serangan baru atau serangan yang menggunakan teknik penyamaran. Kompleksitas pola lalu lintas jaringan modern, ditambah dengan volume data yang sangat besar, membuat metode deteksi DdoS konvensional sulit beradaptasi terhadap dinamika ancaman. Kondisi ini menegaskan perlunya pendekatan yang lebih cerdas, adaptif, dan mampu mengenali pola anomali secara real time untuk meningkatkan efektivitas sistem deteksi DDoS. Untuk mengatasi keterbatasan metode deteksi tradisional, penelitian ini menawarkan solusi berbasis machine learning dengan memanfaatkan algoritma Random Forest sebagai model prediksi serangan DDoS. Pendekatan ini dirancang untuk menganalisis pola lalu lintas jaringan secara otomatis dengan mempertimbangkan berbagai fitur yang merepresentasikan karakteristik paket data. Random Forest, sebagai salah satu metode ensemble learning, mampu menggabungkan kekuatan banyak pohon keputusan untuk menghasilkan prediksi yang lebih akurat dan stabil, sekaligus meminimalkan risiko overfitting. Dengan kemampuan dalam menangani data berskala besar dan beragam tipe fitur, model ini diharapkan dapat mengenali perbedaan halus antara lalu lintas normal dan lalu lintas yang mengindikasikan serangan DDoS. Solusi ini dirancang agar adaptif terhadap perubahan pola serangan, sehingga tetap relevan dalam menghadapi ancaman siber yang terus berkembang. Berbagai penelitian dalam lima tahun terakhir menunjukkan tren peningkatan penggunaan algoritma machine learning untuk deteksi ancaman siber, termasuk serangan DDoS dan jenis serangan lainnya. Penelitian . mengkaji serangan phishing melalui email dengan membandingkan kinerja Decision Tree. Random Forest, dan SVM. Hasilnya. Random Forest mencapai akurasi tertinggi sebesar 96% dan terbukti unggul dalam menangani data yang tidak seimbang serta menurunkan false positives. Meski demikian, penelitian ini fokus pada phishing berbasis email dan belum menguji performa model pada serangan DDoS atau lalu lintas jaringan berskala besar. Studi . mengembangkan sistem deteksi serangan siber pada sistem informasi akademik menggunakan Decision Tree dan Random Forest, dengan hasil akurasi 92% untuk Random Forest. Model ini mampu mendeteksi aktivitas anomali seperti login mencurigakan dan query basis data abnormal, namun penelitian ini tidak menampilkan confusion matrix sehingga distribusi kesalahan klasifikasi tidak dapat dianalisis secara rinci. Sementara itu, penelitian . juga menegaskan potensi metode ensemble seperti Random Forest dalam menghasilkan performa klasifikasi yang tinggi. Namun, hasil classification report pada penelitian tersebut menunjukkan nilai precision, recall, dan f1-score yang sempurna . %) untuk semua kelas, yang mengindikasikan kemungkinan terjadinya overfitting akibat model terlalu menyesuaikan diri dengan data latih. Penelitian . memfokuskan pada pengembangan sistem deteksi serangan berbasis machine learning untuk meningkatkan keamanan jaringan. Metode yang digunakan melibatkan pemrosesan data secara sistematis dan penerapan algoritma klasifikasi, dengan hasil evaluasi yang menunjukkan tingkat akurasi yang cukup tinggi. Meskipun demikian, penelitian ini tidak menampilkan confusion matrix maupun learning curve, sehingga distribusi kesalahan klasifikasi dan tren performa model terhadap ukuran data pelatihan tidak dapat dianalisis secara mendalam. Sementara itu, studi . mengusulkan kebijakan keamanan adaptif berbasis machine learning pada firewall Software-Defined Networking (SDN) menggunakan algoritma Random Forest dan dataset CICIDS2017. Model yang dikembangkan mencapai akurasi 99,9978%, precision dan recall 99,996%, serta hanya dua kesalahan klasifikasi dari 45. 149 data uji. Meskipun hasil ini menunjukkan performa yang sangat tinggi, penelitian ini tidak menampilkan learning curve, sehingga kemampuan generalisasi model terhadap variasi ukuran data pelatihan belum dapat dievaluasi secara menyeluruh. Dari kedua penelitian ini, terlihat bahwa meskipun performa klasifikasi dapat mencapai tingkat sangat tinggi, tantangan utama yang tersisa adalah memastikan generalisasi model pada kondisi nyata, khususnya pada deteksi DDoS di lalu lintas jaringan real-time yang memiliki pola dinamis dan tidak sepenuhnya terprediksi. Penelitian ini difokuskan pada perancangan dan implementasi model deteksi serangan DDoS berbasis algoritma Random Forest yang diharapkan mampu memberikan prediksi akurat terhadap lalu lintas jaringan, baik yang bersifat normal maupun yang mengandung serangan. Pendekatan ini disertai evaluasi komprehensif menggunakan metrik seperti akurasi, precision, recall. F1-score, confusion matrix, dan learning curve untuk memperoleh gambaran menyeluruh mengenai performa dan kemampuan generalisasi model. Harapannya, model yang dikembangkan dapat menjadi solusi deteksi dini yang andal, adaptif, dan dapat diintegrasikan ke dalam sistem keamanan jaringan secara real-time. Dengan demikian, hasil penelitian ini diharapkan tidak hanya memberikan kontribusi pada pengembangan teknologi deteksi DDoS, tetapi juga memperkuat perlindungan infrastruktur digital dari ancaman serangan siber yang terus berkembang. Copyright A 2025 Author. Page 248 Jurnal BIT is licensed under a Creative Commons Attribution 4. 0 International License Bulletin of Information Technology (BIT) Vol 6. No 3. September 2025. Hal. ISSN 2722-0524 . edia onlin. DOI 10. 47065/bit. https://journal. org/index. php/BIT METODOLOGI PENELITIAN Penelitian ini menggunakan pendekatan Research and Development (R&D) yang dirancang untuk mengembangkan sistem prediksi serangan Distributed Denial of Service (DDoS) berbasis algoritma Random Forest. Pendekatan ini dipilih karena mampu mengakomodasi dua tujuan utama penelitian, yaitu melakukan analisis komprehensif terhadap data lalu lintas jaringan serta menghasilkan produk akhir berupa model prediktif yang dapat diintegrasikan ke dalam sistem deteksi dini serangan siber. Metode R&D memadukan unsur analisis data, perancangan, implementasi, dan pengujian, sehingga sesuai untuk membangun solusi yang dapat langsung diimplementasikan pada lingkungan nyata. Penelitian diawali dengan studi literatur yang difokuskan pada tiga aspek utama, pertama adalah pemahaman mengenai karakteristik dan teknik serangan DDoS, kedua peninjauan metode deteksi anomali berbasis machine learning, dan terakhir adalah identifikasi fitur-fitur lalu lintas jaringan yang relevan untuk klasifikasi. Sumber literatur diambil dari artikel jurnal bereputasi, prosiding konferensi internasional, serta dokumentasi teknis dari platform keamanan jaringan. Studi literatur ini memberikan landasan teoretis yang menjadi acuan dalam perancangan arsitektur model, pemilihan parameter, dan strategi evaluasi. Dataset penelitian diperoleh dari platform Kaggle dengan judul AuDDoS AttackAy yang dikembangkan oleh Shayal Vaghasiya. Dataset ini memuat data lalu lintas jaringan yang telah dilabeli sebagai normal atau DDoS, sehingga sesuai untuk digunakan dalam tugas klasifikasi biner. Setelah dataset diperoleh, dilakukan tahap Exploratory Data Analysis (EDA) untuk memahami karakteristik dan struktur data secara umum. Selanjutnya, data diproses melalui tahap prapemrosesan agar layak digunakan dalam pelatihan model. Proses pengembangan model dimulai dengan pelatihan menggunakan algoritma Random Forest, yaitu metode ensemble berbasis pohon keputusan yang menggabungkan hasil dari banyak model untuk menghasilkan prediksi yang lebih akurat dan stabil. Algoritma ini dipilih karena kemampuannya dalam menangani dataset berskala besar, toleransinya terhadap noise, serta kemampuannya mengurangi risiko overfitting melalui teknik pengacakan fitur . eature baggin. Penyesuaian hiperparameter dilakukan untuk mengoptimalkan kinerja model, diikuti dengan pelatihan menggunakan pendekatan cross-validation guna memastikan hasil evaluasi yang lebih reliabel dan tidak bergantung pada pembagian data tertentu. Model yang telah dilatih dievaluasi menggunakan beberapa metrik untuk menilai kualitas prediksi. Metrik yang digunakan meliputi akurasi, precision, recall, dan F1-score sebagai indikator utama performa klasifikasi. Evaluasi lanjutan dilakukan menggunakan confusion matrix untuk melihat distribusi prediksi benar dan salah pada masing-masing kelas secara rinci. Selain itu, learning curve digunakan untuk menganalisis tren performa model terhadap variasi jumlah data Kombinasi penggunaan metrik numerik dan visualisasi ini memungkinkan penilaian yang lebih komprehensif terhadap performa model, baik dari sisi akurasi prediksi maupun konsistensinya pada berbagai skenario pengujian. Pendekatan evaluasi seperti ini memberikan kejelasan tidak hanya mengenai hasil akhir, tetapi juga proses pembelajaran model selama pelatihan. Hal ini penting untuk memastikan bahwa model yang dihasilkan tidak hanya bekerja optimal pada data latih, tetapi juga mampu beradaptasi pada data baru yang belum pernah dilihat sebelumnya secara keseluruhan, tahapan penelitian dimulai dari studi literatur, dilanjutkan dengan pencarian dan pemahaman data, pra-pemrosesan data, pelatihan model, dan diakhiri dengan evaluasi model. Alur lengkap penelitian ini divisualisasikan pada Gambar 1 untuk memberikan gambaran yang lebih jelas mengenai urutan dan keterkaitan antar tahapan. Gambar 1. Alur Penelitian Copyright A 2025 Author. Page 249 Jurnal BIT is licensed under a Creative Commons Attribution 4. 0 International License Bulletin of Information Technology (BIT) Vol 6. No 3. September 2025. Hal. ISSN 2722-0524 . edia onlin. DOI 10. 47065/bit. https://journal. org/index. php/BIT HASIL DAN PEMBAHASAN 1 Sumber Dataset Dataset yang digunakan dalam penelitian ini diperoleh dari platform Kaggle dengan nama AuDDoS AttackAy, yang disusun oleh Shayal Vaghasiya. Dataset ini terdiri atas berbagai fitur yang merepresentasikan karakteristik lalu lintas jaringan, serta telah dilengkapi dengan label klasifikasi, sehingga mempermudah proses pelatihan dan evaluasi model. Pemilihan dataset ini didasarkan pada pertimbangan kelengkapan atribut, kejelasan anotasi label, serta ketersediaannya secara terbuka . pen acces. , menjadikannya relevan dan representatif untuk keperluan eksperimen dalam pengembangan model deteksi serangan Distributed Denial of Service (DDoS). 1 EDA(Exploratory Data Analysi. Tahap awal dalam penelitian ini adalah melakukan Exploratory Data Analysis (EDA), yaitu proses eksplorasi terhadap data guna memperoleh pemahaman mengenai struktur, pola, dan karakteristik distribusi data sebelum dilakukan proses pemodelan. EDA memiliki peran penting dalam mengidentifikasi potensi masalah pada data, seperti keberadaan nilai ekstrem . , kesalahan entri data, dan ketidakseimbangan distribusi kelas, serta dalam menentukan strategi preprocessing yang sesuai. Pada penelitian ini. EDA diawali dengan pemeriksaan jumlah fitur, jenis tipe data, serta identifikasi rentang nilai . inimum dan maksimu. untuk setiap atribut numerik. Langkah-langkah ini memberikan pemahaman awal yang esensial terhadap cakupan, variasi, dan potensi tantangan yang terdapat pada dataset yang Ringkasan hasil analisis awal ini disajikan pada Tabel 1. Nama Fitur di Dataset dur_nsec tot_dur Pairflow Tabel 1. EDA Jumlah Kolom dan Range Nilai Setiap Kolom Nama Fitur Aslinya Nilai Terkecil Nilai Terbesar Keterangan (Fungsi Fitu. Waktu saat aliran data tercatat ID switch OpenFlow tempat aliran lewat source_ip 00 IP sumber aliran . ormat intege. destination_ip 00 IP tujuan aliran . ormat intege. packet_count Jumlah paket yang lewat dalam satu byte_count 00 Total byte yang ditransmisikan dalam duration_seconds Durasi aliran dalam duration_nanoseconds 00 Tambahan durasi dalam nanodetik total_duration_ 1880000000000 Durasi total dalam number_of_flows Jumlah total aliran packet_in_count Banyaknya packet-in yang diterima packets_per_flow Rata-rata jumlah paket per aliran bytes_per_flow Rata-rata byte per packet_rate Laju kirim paket per bidirectional_flow_ Indikator apakah aliran bersifat dua Copyright A 2025 Author. Page 250 Jurnal BIT is licensed under a Creative Commons Attribution 4. 0 International License Bulletin of Information Technology (BIT) Vol 6. No 3. September 2025. Hal. ISSN 2722-0524 . edia onlin. DOI 10. 47065/bit. https://journal. org/index. php/BIT Protocol network_protocol port_no port_number tx_bytes transmitted_bytes rx_bytes received_bytes tx_kbps rx_kbps transmit_kilobits_per_ receive_kilobits_per_ auxiliary_feature_1 auxiliary_feature_2 tot_kbps total_throughput_kbps attack_label Protokol jaringan yang digunakan Nomor port tempat paket masuk Byte yang dikirim lewat switch port Byte yang diterima oleh switch port Kecepatan transmisi data (Kbp. Kecepatan penerimaan data (Kbp. Fitur dummy/placeholder Fitur dummy/placeholder Total throughput . x rx dalam Kbp. Kelas data . = normal l, = seranga. Tahap lanjutan dalam proses Exploratory Data Analysis (EDA) dilakukan untuk mengevaluasi kualitas dan integritas data sebelum memasuki proses pemodelan. Pemeriksaan awal difokuskan pada deteksi nilai kosong . issing value. pada setiap fitur. Hasil analisis menunjukkan bahwa sebagian besar fitur tidak mengandung nilai kosong, kecuali fitur rx_kbps dan tot_kbps, yang masing-masing memiliki 506 nilai kosong. Adapun fitur target label terkonfirmasi tidak memiliki nilai Selain itu, analisis terhadap data duplikat mengidentifikasi sebanyak 5. 091 baris yang merupakan duplikasi, yang apabila tidak ditangani, dapat menimbulkan bias dalam proses pelatihan model dan memengaruhi akurasi prediksi. Selanjutnya, distribusi kelas pada variabel target menunjukkan adanya ketidakseimbangan data, dengan 63. 561 sampel termasuk dalam kelas 0 dan 40. 784 sampel dalam kelas 1. Ketimpangan ini dapat berdampak pada kinerja algoritma klasifikasi, khususnya dalam mengenali kelas minoritas. Lebih lanjut, ditemukan nilai-nilai negatif pada beberapa fitur numerik, seperti packetperflow, byteperflow, dan packetrate, yang masing-masing mengandung 188 nilai negatif. Nilainilai ini dinilai tidak logis dalam konteks lalu lintas jaringan, dan oleh karena itu perlu dipertimbangkan untuk diatasi pada tahap data cleaning. Temuan-temuan ini menjadi landasan dalam penentuan strategi preprocessing yang sesuai sebelum pelatihan model dilakukan. 2 Preprocessing Tahapan preprocessing merupakan salah satu proses penting dalam perancangan model machine learning yang bertujuan untuk menyiapkan data mentah menjadi data yang layak digunakan untuk pelatihan model. Preprocessing adalah tahapan sistematis yang mencakup pembersihan, transformasi, dan rekayasa fitur, guna memastikan kualitas data yang optimal sebelum digunakan dalam proses pemodelan. Tujuan dari tahap ini adalah untuk memperoleh data yang bersih, bebas dari anomali, serta memiliki format yang sesuai, sehingga dapat meningkatkan akurasi dan kinerja model Langkah pertama yang dilakukan adalah menghilangkan baris data yang bersifat duplikat penghapusan data duplikat bertujuan untuk menghindari bias akibat pengulangan informasi yang dapat memengaruhi proses pembelajaran model secara negatif. Selanjutnya, seluruh baris yang mengandung nilai negatif pada fitur pktperflow, byteperflow, dan pktrate. Nilai negatif pada fitur-fitur tersebut tidak sesuai secara logis dalam konteks lalu lintas jaringan, dan berpotensi mengganggu performa model. Selain itu, dua fitur yaitu A1 dan A2 dihapus dari dataset karena hanya berisi nilai nol tanpa variasi, sehingga dianggap sebagai fitur non-informatif . yang tidak memberikan kontribusi terhadap proses Kolom waktu . , yang semula tersimpan dalam format numerik khas Excel, dikonversi menjadi format timestamp untuk memungkinkan ekstraksi fitur temporal. Dari timestamp tersebut, diambil informasi waktu yang lebih Copyright A 2025 Author. Page 251 Jurnal BIT is licensed under a Creative Commons Attribution 4. 0 International License Bulletin of Information Technology (BIT) Vol 6. No 3. September 2025. Hal. ISSN 2722-0524 . edia onlin. DOI 10. 47065/bit. https://journal. org/index. php/BIT relevan, seperti jam . dan hari dalam seminggu . , yang kemudian digunakan sebagai variabel baru dalam Setelah proses ekstraksi dilakukan, kolom dt dan timestamp dihapus karena tidak lagi diperlukan. Tahapan preprocessing juga mencakup proses ekstraksi subnet dari alamat IP sumber . dan tujuan . , yang awalnya tersimpan dalam format bilangan bulat. Ekstraksi ini dilakukan untuk memperoleh representasi topologi jaringan yang lebih bermakna, yang diharapkan dapat meningkatkan kemampuan model dalam mengenali pola-pola serangan DDoS berdasarkan asal dan tujuan trafik jaringan. Proses ekstraksi subnet dilakukan dengan mengambil tiga oktet pertama dari alamat IP sumber dan tujuan, yang kemudian dikodekan menggunakan metode Label Encoding agar dapat direpresentasikan dalam format numerik yang kompatibel dengan algoritma machine learning. Setelah proses encoding selesai, kolom asli src dan dst dihapus dari dataset untuk menghindari redundansi informasi. Selanjutnya, beberapa fitur numerik yang sebenarnya merepresentasikan kategori, yaitu fitur switch, port_no, dan Protocol, diubah ke tipe data Perubahan ini bertujuan agar algoritma machine learning dapat memperlakukan fitur-fitur tersebut sesuai dengan sifat aslinya, serta menghindari kesalahan interpretasi dalam proses pelatihan model. Sebagai langkah akhir dalam tahap preprocessing, dataset dipisahkan menjadi dua bagian utama, yaitu fitur prediktor (X) dan label target . Pemisahan ini penting untuk memastikan bahwa proses pelatihan model berlangsung secara terstruktur, dengan fokus pada relasi antara fitur masukan dan variabel keluaran yang ingin diprediksi, dalam hal ini adalah keberadaan serangan DDoS. 3 Parameter Random Forest Dalam pengembangan model machine learning, salah satu tahapan penting yang sangat memengaruhi performa akhir model adalah parameter tuning atau penyesuaian hiperparameter. Parameter tuning merupakan proses pencarian kombinasi nilai terbaik dari hiperparameter yang mengatur perilaku algoritma pembelajaran. Tidak seperti parameter model yang dipelajari langsung dari data, hiperparameter ditentukan terlebih dahulu sebelum proses pelatihan dimulai. Setiap algoritma memiliki konfigurasi hiperparameter yang berbeda, baik dari segi fungsi maupun pengaruhnya terhadap proses pelatihan dan prediksi. Oleh karena itu, dibutuhkan pendekatan khusus dalam proses penyesuaiannya. Dalam penelitian ini digunakan algoritma Random Forest, dengan konfigurasi parameter sebagaimana disajikan pada Tabel 2. Proses penyesuaian dilakukan secara manual, yaitu dengan menguji beberapa kombinasi nilai secara bertahap dan mengevaluasi kinerjanya menggunakan data validasi. Tujuan utama dari proses ini adalah untuk mengoptimalkan performa model, meningkatkan akurasi prediksi, serta meminimalkan risiko terjadinya overfitting yaitu kondisi ketika model terlalu menyesuaikan diri terhadap data pelatihan sehingga kehilangan kemampuan generalisasi dan underfitting yaitu kondisi ketika model gagal menangkap pola penting dari data karena terlalu sederhana. Nama Parameter n_estimators max_depth min_samples_split min_samples_leaf max_leaf_nodes ccp_alpha random_state class_weight Tabel 2. EDA Jumlah Kolom dan Range Nilai Setiap Kolom Nilai Fungsi dan Kegunaan Parameter Jumlah pohon kecil yang digabung menjadi hutan untuk membuat keputusan akhir. None Batas tinggi pohon. None berarti pohon bisa tumbuh setinggi yang diperlukan. Minimal jumlah data di satu cabang sebelum pohon memecahnya menjadi cabang yang lebih kecil. Minimal jumlah data di daun . agian paling ujung poho. saat pohon selesai tumbuh. Jumlah maksimal daun . agian ujung poho. yang boleh dibuat. Nilai pemangkasan pohon untuk membuang cabang yang kurang penting, nilai 0 berarti tidak memangkas. Angka acuan supaya hasil selalu sama saat hutan pohon dibuat ulang. Menyeimbangkan bobot kelas agar data yang jarang tetap punya pengaruh dalam keputusan. 4 Validasi Silang(Cross Validatio. Cross-validation merupakan teknik evaluasi model yang digunakan untuk mengukur kemampuan generalisasi model pembelajaran mesin terhadap data yang tidak terlihat sebelumnya. Dalam penelitian ini, digunakan metode Stratified K-Fold Cross Validation dengan 5 lipatan . , yang menjaga distribusi proporsi label . tetap seimbang di setiap Proses ini membagi dataset menjadi lima bagian yang proporsional, kemudian secara bergantian menggunakan empat bagian untuk melatih model dan satu bagian untuk mengujinya. Setiap fold melibatkan proses pembentukan model Copyright A 2025 Author. Page 252 Jurnal BIT is licensed under a Creative Commons Attribution 4. 0 International License Bulletin of Information Technology (BIT) Vol 6. No 3. September 2025. Hal. ISSN 2722-0524 . edia onlin. DOI 10. 47065/bit. https://journal. org/index. php/BIT Random Forest yang dibangun ulang dari awal, sehingga tidak terjadi kebocoran informasi antara data pelatihan dan data Di setiap iterasi, dilakukan juga imputasi nilai hilang menggunakan strategi mean pada data pelatihan dan diterapkan secara konsisten ke data pengujian. Hasil prediksi dari kelima fold digabungkan untuk menghasilkan evaluasi keseluruhan model. Dengan pendekatan ini, performa model dapat dinilai secara adil dan menyeluruh, mencerminkan bagaimana model akan bekerja pada data baru yang belum pernah dilihat sebelumnya. 5 Evaluasi dan Visualisasi Bagian ini membahas proses evaluasi dan visualisasi terhadap kinerja model Random Forest yang telah dibangun. Evaluasi dilakukan untuk menilai seberapa baik model dalam mengklasifikasikan trafik jaringan sebagai serangan DDoS atau bukan, serta untuk memastikan bahwa model memiliki performa yang stabil dan dapat diandalkan. Evaluasi yang dilakukan dalam penelitian ini antara lain meliputi classification report, confusion matrix, dan learning curve. Classification Report Classification report merupakan salah satu metode evaluasi yang digunakan untuk mengukur kinerja model klasifikasi secara lebih rinci melalui sejumlah metrik penting, yaitu precision, recall, f1-score, accuracy, macro average, dan weighted average. Precision mengukur sejauh mana prediksi positif yang dihasilkan oleh model benar adanya, sedangkan recall mengukur sejauh mana model mampu mengenali seluruh kasus aktual yang tergolong dalam kelas positif. F1-score merupakan rata-rata harmonik dari precision dan recall, dan sering digunakan sebagai ukuran utama dalam kasus klasifikasi, terutama ketika terdapat ketidakseimbangan kelas. Accuracy menunjukkan persentase total prediksi yang benar terhadap seluruh data yang diuji. Macro average menghitung rata-rata dari precision, recall, dan f1-score masing-masing kelas tanpa memperhitungkan jumlah data di tiap kelas, sementara weighted average menghitung rata-rata yang sama namun dengan mempertimbangkan proporsi jumlah data pada masing-masing kelas. Berdasarkan hasil evaluasi, model Random Forest menunjukkan kinerja yang sangat baik dengan nilai accuracy sebesar 0,99942 atau 99,942%. Precision untuk kelas 0 dan kelas 1 masing-masing sebesar 0,99979 dan 0,99884, sedangkan recall-nya mencapai 0,99928 untuk kelas 0 dan 0,99966 untuk kelas 1. Nilai f1-score yang tinggi, yaitu 0,99953 untuk kelas 0 dan 0,99925 untuk kelas 1, mengindikasikan bahwa model mampu mempertahankan keseimbangan antara precision dan recall. Nilai macro average f1-score tercatat sebesar 0,99939, sedangkan weighted average f1-score mencapai 0,99942, yang menunjukkan bahwa model tidak hanya konsisten dalam menangani dua kelas secara adil, tetapi juga mampu mengakomodasi distribusi data yang tidak sepenuhnya seimbang. Secara keseluruhan, metrik-metrik tersebut mengindikasikan bahwa model memiliki akurasi yang sangat tinggi dan kesalahan klasifikasi yang sangat rendah dalam mendeteksi serangan DDoS maupun trafik normal. Gambar 2. Classification Report Model Random Forest Confusion Matrix Confusion matrix merupakan salah satu metode evaluasi yang umum digunakan dalam klasifikasi biner untuk menggambarkan performa model dalam bentuk matriks yang menunjukkan jumlah prediksi benar dan salah pada masing-masing kelas. Matriks ini menyajikan perbandingan antara label yang sebenarnya . rue labe. dan label yang diprediksi oleh model, sehingga memudahkan identifikasi terhadap jenis kesalahan yang dilakukan model, seperti false positives dan false negatives. Tujuan dari evaluasi menggunakan confusion matrix adalah untuk mengetahui sejauh mana model mampu mengklasifikasikan masing-masing kelas dengan benar dan mengukur ketepatan serta kesalahan prediksi yang terjadi secara eksplisit. Berdasarkan hasil confusion matrix yang ditampilkan, diketahui bahwa model berhasil mengklasifikasikan 61. 170 sampel kelas 0 . on-DDoS) dengan benar dan 37. sampel kelas 1 (DDoS) dengan benar. Sementara itu, terdapat 44 kasus kelas 0 yang salah diklasifikasikan sebagai kelas 1 . alse positive. , dan 13 kasus kelas 1 yang salah diklasifikasikan sebagai kelas 0 . alse negative. Hasil ini menunjukkan bahwa kesalahan klasifikasi yang dilakukan oleh model sangat minim, dengan mayoritas prediksi berada pada posisi diagonal utama dalam matriks, yang mengindikasikan prediksi yang benar. Dengan jumlah keseluruhan data yang relatif besar, jumlah kesalahan yang sangat kecil tersebut menunjukkan bahwa model Random Copyright A 2025 Author. Page 253 Jurnal BIT is licensed under a Creative Commons Attribution 4. 0 International License Bulletin of Information Technology (BIT) Vol 6. No 3. September 2025. Hal. ISSN 2722-0524 . edia onlin. DOI 10. 47065/bit. https://journal. org/index. php/BIT Forest memiliki tingkat ketepatan yang sangat tinggi dan mampu membedakan antara trafik normal dan serangan DDoS secara efektif dan konsisten. Gambar 3. Confusion Matrix Learning Curve Learning curve merupakan grafik yang menggambarkan hubungan antara ukuran data pelatihan dan performa model, baik pada data pelatihan maupun data validasi. Tujuan dari evaluasi ini adalah untuk memahami bagaimana kinerja model berubah seiring bertambahnya jumlah data yang digunakan selama proses pelatihan, serta untuk mendeteksi potensi masalah seperti overfitting atau underfitting. Dalam grafik learning curve yang ditampilkan, terdapat dua garis utama, yaitu training score dan validation score, yang masing-masing merepresentasikan akurasi model pada data pelatihan dan data validasi. Berdasarkan hasil grafik, terlihat bahwa akurasi model pada data pelatihan tetap sangat tinggi dan stabil di atas 0,998, menunjukkan bahwa model mampu mempelajari data pelatihan dengan sangat baik. Di sisi lain, akurasi pada data validasi juga mengalami peningkatan yang signifikan seiring bertambahnya ukuran data pelatihan, dari sekitar 0,986 pada ukuran 10. 000 data hingga mencapai lebih dari 0,998 saat mendekati 80. 000 data. Perbedaan antara kurva pelatihan dan validasi semakin kecil pada ukuran data yang lebih besar, yang menandakan bahwa model tidak mengalami overfitting maupun underfitting secara signifikan. Pola konvergen antara kedua kurva tersebut menunjukkan bahwa model memiliki generalisasi yang baik dan bahwa jumlah data pelatihan yang digunakan sudah cukup untuk mencapai kinerja optimal. Dengan demikian, learning curve ini mengonfirmasi bahwa model Random Forest yang dibangun memiliki performa yang stabil dan andal dalam mendeteksi serangan DDoS seiring peningkatan ukuran data pelatihan. Gambar 4. Learning Curve KESIMPULAN Penelitian ini bertujuan untuk merancang dan mengevaluasi model prediksi serangan Distributed Denial of Service (DDoS) dengan menggunakan algoritma Random Forest. Berdasarkan hasil yang diperoleh, dapat disimpulkan bahwa model yang dikembangkan mampu memberikan performa klasifikasi yang sangat tinggi dalam membedakan antara trafik jaringan normal dan serangan DDoS. Hal ini dibuktikan melalui hasil evaluasi menggunakan classification report, confusion matrix, dan learning curve yang menunjukkan nilai akurasi mencapai 99,94%, serta precision, recall, dan f1score yang tinggi dan seimbang pada kedua kelas. Evaluasi lebih lanjut melalui confusion matrix mengungkapkan bahwa jumlah kesalahan klasifikasi sangat rendah, dengan hanya 44 false positive dan 13 false negative dari total 99. 066 sampel Copyright A 2025 Author. Page 254 Jurnal BIT is licensed under a Creative Commons Attribution 4. 0 International License Bulletin of Information Technology (BIT) Vol 6. No 3. September 2025. Hal. ISSN 2722-0524 . edia onlin. DOI 10. 47065/bit. https://journal. org/index. php/BIT yang diuji. Sementara itu, analisis learning curve menunjukkan bahwa model memiliki kemampuan generalisasi yang baik dan tidak menunjukkan indikasi overfitting maupun underfitting yang signifikan. Meskipun hasil yang diperoleh sangat baik, penelitian ini memiliki beberapa keterbatasan. Salah satunya adalah proses tuning hiperparameter yang masih dilakukan secara manual, yang memungkinkan adanya konfigurasi lain yang lebih optimal namun belum dieksplorasi. Selain itu, eksperimen dilakukan hanya pada satu dataset yang bersumber dari platform Kaggle, sehingga validitas model terhadap variasi jenis serangan atau trafik dari lingkungan yang berbeda belum dapat dipastikan secara menyeluruh. Oleh karena itu, untuk pengembangan penelitian selanjutnya disarankan untuk mengintegrasikan teknik optimasi parameter secara otomatis, seperti grid search atau random search, serta menguji model pada berbagai dataset yang lebih beragam agar dapat meningkatkan generalisasi dan keandalannya di lingkungan nyata. Dengan pendekatan tersebut, diharapkan model prediksi serangan DDoS berbasis Random Forest dapat menjadi solusi yang lebih robust dalam sistem keamanan jaringan. REFERENCES