JURNAL INFORMATIKA UPGRIS Vol. No. 2, . ISSN: 2477-6645 Evaluasi Robustness dan Efisiensi Model CNN Modern untuk Deteksi Objek di Bawah Degradasi Visual WidhiariandokoA. SyukurA, dan M. SoelemanA Program Magister Teknik Informatika. Fakultas Ilmu Komputer. Universitas Dian Nuswantoro. Semarang E-mail : adhitya218@gmail. comA, abdul_s@dosen. idA, m. soeleman@dsn. AbstractAiObject detection models based on Convolutional Neural Networks (CNN) typically demonstrate high performance on benchmark datasets but often experience significant degradation in real-world conditions containing visual disturbances. This research aims to analyze and compare the efficiency and accuracy of three representative CNN architecturesAiFaster R-CNN . wo-stag. SSD . lassic one-stag. , and YOLOv8s . odern one-stag. Aiunder visual degradation. The models were trained from scratch on a COCO dataset subset and evaluated across four scenarios: clean images. Gaussian noise, motion blur, and a combination of both. Performance was measured using mean Average Precision . AP) for accuracy and Frames Per Second (FPS) for efficiency. The results indicate that YOLOv8s is not only the fastest . 19 FPS) but also achieved the highest accuracy in clean conditions . AP 0. and demonstrated superior robustness, with an accuracy drop of only 51. 4% under motion blur compared to over 79% for other models. This study contributes to the literature by highlighting the resilience of modern anchor-free architectures against pixel-level noise compared to classic anchor-based approaches. These findings recommend YOLOv8s as a robust solution for real-time industrial surveillance systems prone to visual impairments KeywordsAiConvolutional Neural Networks (CNN). Model Evaluation. Object Detection. Robustness. Visual Noise. YOLOv8s. AbstrakAiModel deteksi objek berbasis Jaringan Saraf Konvolusional (CNN) umumnya menunjukkan performa tinggi pada dataset standar, namun seringkali mengalami penurunan performa signifikan pada kondisi dunia nyata yang mengandung gangguan visual. Penelitian ini bertujuan untuk menganalisis dan membandingkan efisiensi serta akurasi dari tiga arsitektur CNN representatifAiFaster R-CNN . ua taha. SSD . atu tahap klasi. , dan YOLOv8s . atu tahap moder. Aidi bawah kondisi degradasi visual. Model-model tersebut dilatih dari awal . rom scratc. pada subset dataset COCO dan diuji pada empat skenario: citra bersih, gangguan Gaussian, motion blur, dan kombinasi Evaluasi performa menggunakan metrik mean Average Precision . AP) untuk akurasi dan Frames Per Second (FPS) untuk Hasil eksperimen menunjukkan bahwa YOLOv8s tidak hanya menjadi model tercepat . 19 FPS), tetapi juga mencapai akurasi tertinggi pada kondisi bersih . AP 0. dan menunjukkan ketahanan . terbaik terhadap semua jenis gangguan. Sebagai contoh, pada gangguan motion blur, akurasi YOLOv8s hanya turun 51. 4%, jauh lebih rendah dibandingkan penurunan model lain yang mencapai lebih dari 79%. Penelitian ini memberikan kontribusi dalam membuktikan keunggulan ketahanan arsitektur modern berbasis anchor-free terhadap noise level piksel dibandingkan pendekatan klasik. Temuan ini merekomendasikan penggunaan YOLOv8s untuk sistem pengawasan industri real-time yang rentan terhadap gangguan visual. Kata KunciAiConvolutional Neural Networks (CNN). Deteksi Objek. Evaluasi Model. Gangguan Visual. Ketahanan. YOLOv8s. PENDAHULUAN Deteksi objek merupakan salah satu tugas fundamental dalam visi komputer yang bertujuan untuk mengidentifikasi dan melokalisasi objek dalam gambar atau video. Dalam dekade terakhir, pendekatan berbasis Deep Learning, khususnya Convolutional Neural Network (CNN), telah menjadi standar industri dalam penyelesaian tugas ini . Perkembangan arsitektur CNN telah melahirkan berbagai varian model yang menawarkan keseimbangan berbeda antara akurasi dan kecepatan, mulai dari pendekatan dua tahap . wo-stag. seperti Faster R-CNN . hingga pendekatan satu tahap . ne-stag. seperti SSD . dan keluarga YOLO . Penerapan CNN telah meluas ke berbagai domain praktis, seperti sistem manajemen parkir cerdas yang menggunakan YOLO untuk mendeteksi kendaraan secara real-time . Namun, tantangan utama muncul ketika model-model ini diterapkan di lingkungan dunia nyata yang tidak ideal. Kondisi lingkungan seperti pencahayaan rendah, cuaca buruk, atau pergerakan kamera seringkali menimbulkan gangguan visual . isual nois. pada citra masukan. Gangguan ini dapat berupa Gaussian noise akibat sensitivitas sensor kamera pada kondisi minim cahaya, atau motion blur akibat pergerakan objek yang cepat. Studi terdahulu oleh Rusak et al. menunjukkan bahwa detektor objek modern sangat rentan terhadap kerusakan citra, di mana performa model dapat menurun drastis saat diuji pada data yang terdegradasi. Hal ini diperkuat oleh penelitian Wibowo et al. yang menekankan pentingnya pengujian reliabilitas deteksi objek pada berbagai kondisi lingkungan untuk memastikan kehandalan sistem. Meskipun kerentanan ini telah diketahui, masih terdapat celah penelitian . esearch ga. terkait perbandingan ketahanan . antara arsitektur klasik berbasis anchor . eperti Faster R-CNN dan SSD) melawan arsitektur modern berbasis anchor-free . eperti YOLOv. secara langsung pada jenis gangguan spesifik. Kebanyakan studi komparatif hanya berfokus pada metrik standar pada dataset bersih, tanpa mengevaluasi stabilitas model di bawah tekanan noise sintetik yang mensimulasikan kondisi lapangan. JURNAL INFORMATIKA UPGRIS Vol. No. 2, . ISSN: 2477-6645 Oleh karena itu, penelitian ini bertujuan untuk mengevaluasi dan membandingkan secara komprehensif performa tiga model deteksi objek (Faster R-CNN. SSD, dan YOLOv8. dalam menghadapi degradasi visual. Kontribusi utama penelitian ini adalah: . Menyediakan analisis empiris mengenai ketahanan arsitektur modern YOLOv8s dibandingkan pendahulunya. Mengevaluasi trade-off antara efisiensi dan akurasi pada kondisi ekstrim. Memberikan rekomendasi praktis untuk pemilihan model pada sistem visi komputer yang beroperasi di lingkungan II. METODE PENELITIAN tetap mempertahankan representasi keragaman kelas objek. Subset ini mencakup 80 kategori objek sesuai standar COCO. Dataset dibagi secara acak dengan rasio 80:20 untuk set pelatihan dan validasi. Augmentasi data standar . eperti Mosaic pada YOLO dan random fli. diaktifkan selama pelatihan untuk meningkatkan variabilitas data. Ketiga model dilatih dari awal . rained from scratc. tanpa menggunakan bobot pre-trained untuk memastikan perbandingan yang adil pada proses pembelajaran fitur. Konfigurasi hyperparameter pelatihan disajikan pada Tabel Pelatihan dilakukan menggunakan perangkat keras GPU NVIDIA GeForce RTX 4060 . GB VRAM) dan CPU Intel Core i5-12700F. Penelitian ini dirancang sebagai sebuah studi eksperimen kuantitatif komparatif. Alur kerja penelitian dirangkum dalam Gambar 1 Tabel 1. Konfigurasi hyperparameter pelatihan model Skenario Pengujian dan Simulasi Gangguan Untuk menguji ketahanan model, dataset uji dimodifikasi dengan menambahkan gangguan visual sintetis yang merepresentasikan kondisi nyata: Bersih: Citra uji asli tanpa modifikasi. Gaussian Noise: Citra uji diberi gangguan Gaussian dengan variansi E 2 =0. 05 untuk menyimulasikan noise Motion Blur: Citra uji diberi kernel blur linear dengan panjang 15 piksel untuk menyimulasikan gerakan. Kombinasi: Citra uji diberi gabungan gangguan Gaussian dan motion blur untuk menyimulasikan skenario ekstrem. Gambar 1 : Diagram alur metodologi penelitian Arsitektur Model Tiga model dipilih untuk mewakili pendekatan arsitektur yang berbeda: Faster R-CNN: Model dua tahap yang menggunakan Region Proposal Network (RPN). Dikenal memiliki akurasi tinggi namun inferensi lambat . SSD (Single Shot MultiBox Detecto. : Model satu tahap klasik yang melakukan prediksi dari beberapa feature map berskala berbeda. Menawarkan kompromi kecepatan dan akurasi . YOLOv8s: Model satu tahap modern yang menggunakan desain anchor-free dan backbone C2f. Dirancang untuk kecepatan dan akurasi yang sangat tinggi . Dataset dan Parameter Pelatihan Dataset Penelitian menggunakan subset dari dataset MS COCO (Microsoft Common Objects in Contex. 000 citra untuk pelatihan. Pemilihan subset ini dilakukan untuk menjaga efisiensi waktu pelatihan dengan Gambar 2 : Visualisasi sampel dataset uji: . Citra bersih, . Gaussian noise, . Motion blur, dan . Kombinasi Metrik Evaluasi Performa model dievaluasi menggunakan dua metrik Mean Average Precision . AP): Mengukur akurasi deteksi berdasarkan Intersection over Union (IoU). Penelitian ini menggunakan mAP@[. sesuai JURNAL INFORMATIKA UPGRIS Vol. No. 2, . ISSN: 2477-6645 standar COCO yang merupakan rata-rata mAP pada berbagai ambang batas IoU. Frames Per Second (FPS): Mengukur kecepatan inferensi model, dihitung dari rata-rata waktu yang dibutuhkan untuk memproses satu bingkai gambar pada GPU yang digunakan. HASIL DAN PEMBAHASAN Bagian ini menyajikan hasil eksperimen dan analisis mendalam mengenai performa ketiga model pada berbagai skenario uji. Rangkuman hasil kuantitatif dapat dilihat pada Tabel 2. Gambar 3 : Grafik perbandingan trade-off antara akurasi dan kecepatan pada kondisi ideal. Evaluasi Robustness terhadap Degradasi Visual Ketika dihadapkan pada gangguan visual, perbedaan performa antar arsitektur menjadi sangat kontras. Tabel 3 menyajikan persentase penurunan performa . AP) relatif terhadap kondisi bersih. Tabel 3 : Evaluasi ketahanan . : Persentase penurunan mAP pada skenario gangguan visual Tabel 2 : Perbandingan performa kuantitatif: Akurasi . AP) dan kecepatan inferensi (FPS) Analisis Akurasi dan Efisiensi pada Kondisi Ideal Pada kondisi citra bersih, hasil eksperimen menunjukkan fenomena menarik yang membantah asumsi tradisional mengenai trade-off kecepatan dan akurasi. YOLOv8s berhasil mencapai akurasi tertinggi . AP 0. sekaligus menjadi model yang paling efisien dengan kecepatan inferensi mencapai 476. 19 FPS. Kecepatan ini jauh melampaui Faster R-CNN . 92 FPS) dan SSD . FPS). Superioritas YOLOv8s ini dapat ditarik pada desain arsitekturnya yang efisien. Penggunaan modul C2f pada backbone memungkinkan ekstraksi fitur yang lebih kaya dengan parameter yang lebih sedikit dibandingkan VGG-16 yang digunakan SSD atau ResNet pada Faster R-CNN. Selain itu, mekanisme anchor-free menghilangkan beban komputasi untuk memproses ribuan kotak anchor yang tumpang tindih, sehingga mempercepat proses inferensi secara signifikan. Faster R-CNN terbukti menjadi model yang paling rentan, dengan penurunan akurasi mencapai 97. 3% pada kondisi Gaussian noise. Hal ini mengindikasikan bahwa Region Proposal Network (RPN), yang bergantung pada deteksi fitur tepi dan tekstur halus untuk mengajukan kandidat objek, sangat sensitif terhadap gangguan level Ketika noise mengaburkan detail halus tersebut. RPN gagal menghasilkan proposal wilayah yang valid, sehingga proses deteksi terhenti total. Sebaliknya. YOLOv8s menunjukkan ketahanan . Pada kondisi motion blur, akurasinya "hanya" turun sebesar 51. 4%, jauh lebih baik dibandingkan model lain. Ketahanan ini kemungkinan besar disebabkan oleh pendekatan anchor-free dan fungsi loss yang lebih modern . eperti CIoU atau DFL), yang membuat model lebih fokus pada pusat massa objek dan fitur global, sehingga tidak terlalu terdistraksi oleh gangguan lokal atau blur pada tepian objek. Gambar 4. Grafik perbandingan penurunan akurasi . AP) pada berbagai skenario gangguan. JURNAL INFORMATIKA UPGRIS Vol. No. 2, . ISSN: 2477-6645 Analisis Pola Kesalahan (Error Analysi. Untuk memahami penyebab penurunan mAP secara lebih mendalam, dilakukan analisis terhadap komponen kesalahan deteksi, yaitu False Positives (FP) dan False Negatives (FN). Hasil analisis menunjukkan bahwa penyebab utama kegagalan pada Faster R-CNN dan SSD adalah lonjakan drastis pada False Negatives (FN). Pada skenario kombinasi, jumlah FN pada Faster R-CNN meningkat dari 16. Artinya, model menjadi "buta" dan gagal mengenali keberadaan objek sama sekali. Di sisi lain. SSD menunjukkan kecenderungan untuk menghasilkan False Positives (FP) lebih tinggi pada kondisi motion blur, yang berarti model sering "berhalusinasi" mendeteksi objek yang sebenarnya tidak ada. YOLOv8s mampu mempertahankan keseimbangan terbaik dengan jumlah True Positives (TP) tertinggi dan FP terendah di seluruh skenario, menunjukkan bahwa model ini lebih konservatif dan akurat dalam pengambilan keputusan di lingkungan ber-noise. memperluas evaluasi pada kondisi cuaca nyata . ujan, kabu. dan mengeksplorasi teknik augmentasi data untuk meningkatkan ketahanan model lebih lanjut. DAFTAR PUSTAKA