METHOMIKA: Jurnal Manajemen Informatika & Komputerisasi Akuntansi Vol. 8 No. 2 (Oktober 2. ISSN: 2598-8565 . edia ceta. ISSN: 2620-4339 . edia onlin. IMPLEMENTASI METODE YOLO PADA DETEKSI OBJEK MANUSIA HerdiantoA. Hafni. Darmeli Nasution. Syahrul Ramadhan Program Studi Sistem Komputer. Universitas Pembangunan Panca Budi. Medan. Indonesia Email: herdianto@dosen. DOI: https://doi. org/10. 46880/jmika. Vol8No2. ABSTRACT Until now, the problem of theft of motorbikes and livestock in North Sumatra is still quite high. Motorbike theft can occur in many locations, including housing, schools, parking lots, offices and many other places, while for livestock it can occur on pastures and in pens during the day or night with the perpetrators being men. To make this theft a success, various modes are used in varying human positions, from sitting, squatting to standing. help overcome this, several object detection methods have been developed such as Background Subtraction. Template Matching. Histogram Oriented Gradient and Viola Jones (VJ). Of the many methods that have been used, there are still shortcomings, namely in time, accuracy and various human positions. For this reason, research was carried out with the aim of improving the time and level of accuracy in detecting human objects using the YOLO method. From the trials carried out, it is known that YOLO can detect humans in various positions with a mAP value of 0. 99 and an average detection time of 810. 01 ms. Keyword: Humans. Convolution. Object Detection. Yolo. Deep Learning. ABSTRAK Sampai saat ini masalah pencurian seperti sepeda motor, hewan ternak di Sumatera Utara masih cukup tinggi. Untuk lokasi pencurian sepeda motor dapat terjadi di banyak lokasi antara lain perumahan, sekolah, perparkiran, kantor dan masih banyak tempat lainnya sedangkan untuk hewan ternak dapat terjadi lahan padang rumput dan di kandang pada siang maupun malam hari dengan pelakunya adalah laki-laki. Untuk mensukseskan aksi pencurian ini berbagai modus diterapkan dengan bervariasi posisi manusia dari mulai duduk, jongkok hingga Untuk menyelesaikan persoalan tersebut di atas banyak metode deteksi objek telah dikembangkan seperti Background Subtraction. Template Matching. Histogram Oriented Gradient dan Viola Jone (VJ). Dari banyak metode yang telah dikerjakan masih ada kekurangan yaitu pada waktu, akurasi dan berbagai posisi manusia. Untuk itu dilakukan penelitian yang tujuan memperbaiki waktu dan tingkat akurasi dalam mendeteksi objek manusia menggunakan metode YOLO. Dari uji coba yang dilakukan diketahui YOLO dapat mendeteksi manusia pada berbagai posisi dengan nilai mAP sebesar 0,99 dan rata-rata waktu deteksi 810,01 ms. Kata Kunci: Manusia. Convolusi. Deteksi Objek. Yolo. Deep Learning. PENDAHULUAN Polisi merupakan aparat negara yang mempunyai tugas melakukan penindakan hukum, pencegahan dan pendekatan terkait tindak kejahatan yang telah dan akan dilakukan seseorang terhadap orang lain. Hal ini tertuang pada Undang-Undang No. pasal 13 Tahun 2002 tentang Tugas Pokok Kepolisian. Dari uraian singkat UU No. 2 tersebut maka tindakan ataupun upaya pencegahan terhadap tindak kejahatan seperti . yang sifatnya berulang kembali dapat dilakukan secara swadaya artinya dilakukan oleh individu-individu sendiri ataupun berkolaborasi dengan pihak berwajib yaitu kepolisian. Telah banyak tindakan pencegahan yang telah diterapkan dengan tujuan mencegah tindakan pencurian tetapi ironisnya aktivitas kejahatan ini terus ada dan pada umumnya terjadi di kawasan perumahaan atau tempat tinggal lokal (Delia, 2. Berbagai upaya swadaya masyarakat telah dilakukan untuk mencegah aksi pencurian antara lain melakukan monitoring daerah sekitar dengan memasang beberapa Closed Circuit Television (CCTV) di titik yang rawan. Akan tetapi implementasi dari upaya tersebut memiliki beberapa kekurangan yaitu banyaknya komponen instalasi yang dipakai seperti adaptor, konektor, memerlukan kabel yang cukup panjang sehingga menambah biaya Selain itu cara seperti ini mudah terjadi penyadapan, terjadi perlambatan pengiriman gambar karena pengaruh panjangnya kabel (CCTV) yang digunakan dan rentan gangguan interferensi sehingga berdampak pada hasil rekaman yang kurang baik. Ini menjadi tantangan tersendiri yang memerlukan penanganan serius jika pengguna bermaksud menggunakan monitoring dengan biaya ekonomis. Halaman 234 METHOMIKA: Jurnal Manajemen Informatika & Komputerisasi Akuntansi Vol. 8 No. 2 (Oktober 2. praktis, mudah instalasinya, serta membutuhkan sedikit Penelitian terkait monitoring ruangan/keadaan sekitar telah banyak dilakukan yang pada umumnya menggunakan satu metode untuk memperbaiki citra yang dihasilkan seperti yang dilakukan oleh (Navneet & Triggs, 2. , (Felzenszwalb et al. , 2. (Sikumbang & Suryadi, 2. Pada penelitian ini digunakan metode adaptive motion detection berbasis kamera untuk mendeteksi gerakan manusia. Dari penelitian ini diketahui angka deteksi false positive gerakan dalam ruangan sebesar 58,75%. Ada juga penelitian lainnya terkait object detection juga telah diteliti oleh (Herdianto, 2. , (Sikumbang & Suryadi, 2. , (Herdianto & Mursyidah, 2. , (Hariyanto et , 2. , (Nababan et al. , 2. , (Herdianto & Nasution, 2. Pada penelitian (Sikumbang & Suryadi, 2. dan (Navneet & Triggs, 2. metode Histogram of Oriented Gradients (HOG) berbasis OpenCV yang digunakan untuk mendeteksi manusia dengan cara membagi frame video menjadi beberapa frame gambar. Sedangkan pada penelitian yang dilakukan (Herdianto, 2. menggunakan metode background subtraction dan template matching untuk mendeteksi manusia. Hasil penelitian ini menyatakan bahwa kombinasi metode background subtraction dan template matching mempunyai angka akurasi sampai 80% untuk mengenali manusia dan dijelaskan bahwa background subtraction sangat sesuai jika pada implementasinya untuk background citra sebaiknya Selanjutnya pada penelitian lain oleh (Viola & Jones, 2. , (Viola & Jones, 2. , (Herdianto & Mursyidah, 2. menggunakan haar like feature untuk mendeteksi manusia yang di khususkan pada bagian Dimana akurasi dari metode viola jones dalam mendeteksi wajah manusia mencapai 95%. Pada penelitian lainnya terkait deteksi objek manusia masih dilakukan (Alex et al. , 2. , (Herdianto. Nasution, 2. mencoba menerapkan CNN. Dari hasil penelitian tersebut diketahui bahwa Convolutional Neural Network (CNN) mampu mengklasifikasikan objek dan mendeteksi manusia dengan berbagai posisi dan Tetapi metode CNN yang digunakan dalam penelitian tersebut masih terdapat kekurangan yaitu waktu yang dibutuhkan untuk mendeteksi objek A sepuluh detik. Berdasarkan kekurangan dari hasil penelitian tersebut akan dicoba metode YOLO untuk memperbaiki waktu dalam mendeteksi objek manusia kurang dari sepuluh detik. ISSN: 2598-8565 . edia ceta. ISSN: 2620-4339 . edia onlin. KAJIAN LITERATUR You Only Look Once (YOLO) Pada deep learning banyak metode yang dapat digunakan untuk mengenali banyak objek salah satunya adalah YOLO. Secara umum YOLO disusun dari banyak lapisan yang didalamnya terjadi banyak proses Antara lapisan pertama dengan lapisan kedua dan seterusnya saling berkaitan yang pada akhirnya terbentuknya sebuah jaringan yang disebut sebagai arsitektur. YOLO dapat dibangun dengan banyak arsitektur seperti: Cross Stage Partial Network. CNN, darknet-19, darknet-53. Efficient Net. Efficient Net Ae L2, feature pyramid networks. Gambar 1. Yolo Arsitektur (Redmon & Farhadi, 2. , (Redmon et al. , 2. Gambar 1 arsitektur YOLO menerapkan CNN dimana konsep kerja dari arsitektur YOLO dapat dijelaskan sebagai berikut: a lapisan satu menjadi masukan YOLO dengan banyak ukuran selanjutnya diganti ukurannya diperkecil menjadi 448 * 448. Lapisan ini terjadi proses konvolusi menggunakan windows berukuran 7*7 untuk max pooling lapisan satu 2*2. Eksekusi ini berulang 3 kali disebabkan lapisan satu ini memiliki citra Red Green Blue (RGB). a pada lapisan dua masih dilakukan proses konvolusi masukan lapisan ini memiliki ukuran 112*112 yang menjadi luaran lapisan satu. Masukan di lapisan ini di konvolusi memakai windows yang memiliki ukuran 3*3 dan dilakukan pengulangan sebanyak 192 konvolusi. Selanjutnya untuk menentukan luaran lapisan ini menggunakan max pooling dengan ukuran 2*2. a lapisan tiga masih proses konvolusi dimana masukan lapisan ini memiliki ukuran 56*56 yang merupakan luaran lapisan dua. Masukan lapisan tiga ini di konvolusi memakai windows yang memiliki ukuran 3*3 dan lapisan ini terjadi 256 Lalu untuk menetapkan luaran lapisan ini dipakai max pooling ukuran 2*2. Halaman 235 METHOMIKA: Jurnal Manajemen Informatika & Komputerisasi Akuntansi Vol. 8 No. 2 (Oktober 2. a lapisan empat masih terjadi konvolusi dengan masukan lapisan ini menjadi lebih sedikit dari masukan pada lapisan sebelumnya dan memiliki ukuran 28*28 yang merupakan luaran lapisan tiga. Masukan lapisan ini di konvolusi memakai windows ukuran 3*3 lalu dilakukan 512 konvolusi. Untuk menetapkan luaran pada lapisan ini dipakai max pooling ukuran 2*2. a pada lapisan lima masukan lebih kecil dari lapisan empat yang memiliki ukuran 14*14 selanjutnya proses konvolusi dijalankan hingga 1024 kali akibatnya luaran lapisan lima ini menjadi semakin kecil dengan ukuran 7 * 7. a lapisan enam adalah proses flatten yang berfungsi merubah bentuk citra matriks dua dimensi di lapisan pooling menjadi sebuah vektor satu dimensi. Pada lapisan ini citra matriks dengan ukuran 7 * 7 * 1024 telah diubah menjadi satu dimensi berukuran 4096. a lapisan tujuh adalah bentuk dari jaringan syaraf tiruan pada umumnya atau fully connected. Pada lapisan ini citra telah berubah ukuran menjadi 7 * 7 *30 seperti Gambar 2. ISSN: 2598-8565 . edia ceta. ISSN: 2620-4339 . edia onlin. Gambar 3. Banyaknya Bounding Box Terbentuk Gambar 4. Confidence Terbesar pada Bounding Box Gambar 2. YOLO Susunan Luaran (Lim, 2. Gambar 2 adalah masukan dan luaran YOLO. Untuk 7 * 7 menyatakan tinggi dan lebar masukan citra diumpamakan mempunyai 7 grid dan 30 adalah kategorinya ada 20. Setiap sel dapat memprediksi sebanyak dua bounding box berikut confidencenya. Pada confidence satu terdapat di channel satu, bounding box satu pada channel dua sampai lima, sedangkan confidence ke dua terdapat di channel enam dengan bounding boxnya di channel tujuh sampai Channel sebelas hingga tiga puluh adalah alamat kategori jika ada dua puluh. Bila masing-masing sel mempunyai dua kemungkinan bounding box akibatnya jumlah bounding box yang dapat terbentuk sebanyak 98 diperoleh dari 7*7*2 diilustrasikan pada Gambar 3. Diketahui jumlah bounding box terbentuk ada 98 maka cara yang digunakan dalam menetapkan bounding box dengan nilai confidence terbesar ditentukan dari tebalnya garis yang membentuk bounding box seperti Gambar 5 diberi warna merah. Selanjutnya nilai y, x dan height serta width dari Gambar 2 dilakukan proses normalisasi ke nilai 0 Selain itu bounding box yang terbentuk pada YOLO juga dapat memprediksi banyaknya kategori dimasing-masing selnya diilustrasikan Gambar 5. Gambar 5. Hasil Prediksi Halaman 236 METHOMIKA: Jurnal Manajemen Informatika & Komputerisasi Akuntansi Vol. 8 No. 2 (Oktober 2. Di bagian luaran terlihat pada Gambar 2. kategorinya berjumlah 20 artinya 20 channel terakhir adalah kategori objek yang artinya pada setiap box ada memiliki kategori. Selanjutnya untuk menetapkan bounding box yang terdapat objek dipakai sebuah nilai threshold dengan ketentuan jika bounding box dengan nilai Non Maximum Suppression dan confidence lebih besar dibandingkan nilai threshold maka diputuskan bounding box ini yang diambil dan bounding box dengan nilai confidence kecil tidak dianggap. METODE PENELITIAN Adapun kerangka penelitian yang disusun pada penelitian ini sesuai tahapan berikut: a Studi Pustaka Tahap ini dikumpulkan data dari berbagai sumber seperti jurnal nasional, prosiding nasional dan internasional serta buku terkait perkembangan penelitian deteksi objek manusia a Pengumpulan Citra Manusia Peneliti mengambil dan mengumpulkan sampel citra manusia dengan bermacam-macam ukuran, warna kulit, bentuk, posisi yang didapat dari bermacam-macam website yaitu KITTI, kaggle dan lain-lain. a Menentukan Data Untuk Latih serta Testing Sampel data manusia yang telah didapat selanjutnya dikelompokkan menjadi dua bagian yaitu data testing dan latih. Pada data latih memiliki persentase hingga 70% data keseluruhan sedangkan testing 30%. a Merancang Program YOLO Agar jaringan/arsitektur YOLO menjadi pintar dapat mengenali objek manusia dengan baik maka pada komputer diberi kecerdasan buatan berupa program YOLO. a Melakukan Pelatihan Sebelum arsitektur YOLO diterapkan maka terlebih dahulu dilakukan pelatihan untuk merubah dari pada bobot jaringan YOLO. Pelatihan ini akan berhenti bila waktu pelatihan terpenuhi atau nilai error yang diharapkan telah tercapai. a Melakukan Testing Setelah pelatihan selesai dilanjutkan dengan tahap testing terhadap arsitektur YOLO apakah benarbenar arsitektur YOLO dapat mengenali objek sesuai data latih. a Kesimpulan Dari hasil pengujian akan diketahui ketercapaian tujuan penelitian. ISSN: 2598-8565 . edia ceta. ISSN: 2620-4339 . edia onlin. HASIL DAN PEMBAHASAN Adapun perbedaan penelitian ini dengan penelitian lainnya dalam mendeteksi objek manusia yaitu bila penelitian sebelumnya hanya wajah dan hanya memberikan label objek manusia. Pada YOLO dapat memberikan bounding box pada setiap objek manusia pada berbagai posisi. Agar jaringan YOLO dapat menjadi pintar dalam mengenali objek maka langkah awal yang dilakukan adalah melakukan pelatihan terhadap citra objek yang telah dikumpulkan. Dan tujuan dari pelatihan ini adalah untuk memperoleh bobot jaringan yang ideal yang nantinya akan dipakai pada proses testing. Jaringan YOLO yang digunakan dalam proses pelatihan dimana terlihat jaringan ini terdiri dari beberapa layer yang berisi konvolusi dengan berbagai filter. Gambar 6. Proses pelatihan YOLO Proses pelatihan pada gambar 6 menunjukkan perubahan nilai average loss (AVG) loss, iterasi, estimasi waktu pelatihan dan maksimum batches Saat pertama kali dilakukan pelatihan nilai AVG di atas 18, nilai ini masih tinggi jika untuk Selanjutnya nilai AVG ini terus diperbaiki hingga 0,98 dan nilai dianggap sudah ideal artinya jaringan sudah baik. Untuk membuktikan bahwasannya jaringan hasil pelatihan sudah baik maka dilakukan proses pengujian dengan data citra yang pernah dilatih dan belum dengan persentase 70% data latih dan 30% belum pernah dilatihkan. Halaman 237 METHOMIKA: Jurnal Manajemen Informatika & Komputerisasi Akuntansi Vol. 8 No. 2 (Oktober 2. ISSN: 2598-8565 . edia ceta. ISSN: 2620-4339 . edia onlin. Gambar 7. YOLO Mendeteksi Objek Gambar 9. YOLO Mendeteksi Tiga Objek Manusia Pada gambar 7 memperlihatkan YOLO dapat mendeteksi objek manusia pada duduk ditandai dengan berhasilnya YOLO membentuk bounding box warna merah pada objek manusia tersebut. Gambar 9 merupakan pengujian YOLO yang dapat mendeteksi tiga objek manusia dengan nilai mAP masing-masing 0,98 dan ditandai dengan berhasilnya YOLO membentuk bounding box warna merah pada tiga objek manusia. Gambar 8. YOLO Mendeteksi Dua Objek Manusia Gambar 10. YOLO Mendeteksi Empat Objek Manusia Pada gambar 8 YOLO dapat mendeteksi dua objek manusia pada posisi berdiri dengan nilai mean average precision . AP) masing- masing 0,94 dan 0,99 dan ditandai dengan berhasilnya YOLO membentuk bounding box warna merah pada dua objek manusia Gambar di atas merupakan pengujian metode YOLO dapat mendeteksi empat objek manusia pada posisi berdiri dan duduk dengan nilai mean average precision . AP) masing-masing 0,85, 0,92, 0,99 dan 1,00 serta ditandai dengan berhasilnya YOLO membentuk bounding box warna merah pada setiap objek manusia tersebut. Waktu yang dibutuhkan YOLO dapat mendeteksi empat objek manusia sebesar 795,779 ms. Halaman 238 METHOMIKA: Jurnal Manajemen Informatika & Komputerisasi Akuntansi Vol. 8 No. 2 (Oktober 2. Gambar 11. YOLO Mendeteksi Lima Objek Manusia Pada gambar di atas YOLO dapat mendeteksi lima objek manusia pada posisi berdiri, duduk dan berbagai tinggi dengan nilai mean average precision . AP) masing- masing 0,81 dan lainnya 0,99 yang ditandai dengan berhasilnya YOLO membentuk bounding box warna merah pada lima objek manusia Tabel 1. Waktu Deteksi Objek Manusia Objek Deteksi Manusia Manusia Manusia Manusia Manusia Jumlah Objek Manusia Waktu . 788,10 793,55 794,13 795,77 878,50 Tabel di atas menjelaskan terkait waktu yang dibutuhkan YOLO dalam mendeteksi objek manusia ketika berjumlah 1 dibutuhkan waktu selama 788,10 ms untuk jumlah 2 dibutuhkan waktu selama 793,55 ms dan seterusnya. KESIMPULAN Selama pengujian dari pengujian tersebut diketahui deep learning YOLO dapat mendeteksi objek manusia dan membentuk bounding box dengan nilai mAP 0,99 dan waktu deteksi rata-rata 810,01 ms. DAFTAR PUSTAKA