Institut Riset dan Publikasi Indonesia (IRPI) MALCOM: Indonesian Journal of Machine Learning and Computer Science Journal Homepage: https://journal.
id/index.
php/malcom Vol.
5 Iss.
3 July 2025, pp: 1061-1073
ISSN(P): 2797-2313 | ISSN(E): 2775-8575
YOLO11 and OpenCV Implementation for Phrase Recognition in Real-Time Hand Sign Language Videos Implementasi YOLO11 dan OpenCV untuk Pengenalan Frasa dalam Video Real-Time Bahasa Isyarat Tangan Henoch Yanuar Ari Swasono1*.
Agustinus Rudatyo Himamunanto2.
Febe Maedjaja3
1,2,3
Program Studi Informatika.
Fakultas Sains dan Komputer Universitas Kristen Immanuel.
Indonesia E-Mail: 1henoch.
a@mail.
id, 2rudatyo@ukrimuniversity.
febe@ukrimuniversity.
Received Jun 23th 2025.
Revised Jul 23th 2025.
Accepted Jul 30th 2025.
Available Online Jul 31th 2025.
Published Aug 15th 2025 Corresponding Author: Henoch Yanuar Ari Swasono Copyright A 2025 by Authors.
Published by Institut Riset dan Publikasi Indonesia (IRPI) Abstract Sign language is the primary means of communication for individuals with hearing and speech impairments.
However, the limited public understanding of sign language often becomes a barrier in effective communication.
This study aims to design a real-time recognition program for Bahasa Isyarat Indonesia (BISINDO) hand sign phrases using the YOLO11 algorithm and the OpenCV library.
YOLO11 is used as a deep learning method to recognize hand gestures, while OpenCV is utilized for real-time video processing and visualization of detection results.
The model was trained using more than 3,000 images representing six BISINDO phrase classes: "saya", "kamu", "senang", "bingung", "marah", and "apa kabarAy, for 263 epochs.
Model testing results showed average precision and recall values above 0.
9, an F1-Score 982, mAP50 of 0.
993, and mAP50-95 of 0.
In real-time testing, the model demonstrated stable average latency in the range of 80Ae90ms, a frame rate of 11Ae12 FPS, and an average confidence score of 0.
9 across all classes.
Based on the research that has been done, it is concluded that the integration of YOLO11 and OpenCV is successfully used as an algorithm in recognizing BISINDO hand sign language phrases in real-time.
Keyword: BISINDO.
Deep Learning.
OpenCV.
YOLO11 Abstrak Bahasa isyarat adalah alat komunikasi utama bagi para penyandang tunarungu dan tunawicara.
Namun, terbatasnya pemahaman bahasa isyarat oleh masyarakat umum sering kali menjadi kendala dalam berkomunikasi.
Penelitian ini bertujuan untuk merancang program pengenalan frasa bahasa isyarat tangan Bahasa Isyarat Indonesia (BISINDO) secara real-time dengan menggunakan algoritma YOLO11 dan library OpenCV.
YOLO11 digunakan sebagai metode deep learning untuk mengenali isyarat tangan, sedangkan OpenCV digunakan untuk pemrosesan video real-time dan visualisasi hasil deteksi.
Model ini dilatih menggunakan lebih dari 3.
000 gambar yang mewakili enam class frasa BISINDO: AusayaAy.
AukamuAy.
AusenangAy.
AubingungAy.
AumarahAy, dan Auapa kabarAy, sebanyak 263 epoch.
Hasil pengujian model menunjukkan rata-rata nilai precision dan recall di atas 0,9.
F1-Score sebesar 0,982.
mAP50 sebesar 0,993.
dan mAP5095 sebesar 0,938.
Pada pengujian real-time, model menunjukkan latency rata-rata stabil di kisaran 80-90ms, frame rate 11-12FPS, dan confidence score rata-rata 0,9 untuk semua class.
Berdasarkan Penelitian yang telah dilakukan, disimpulkan bahwa integrasi YOLO11 dan OpenCV berhasil digunakan sebagai algoritma dalam mengenali frasa bahasa isyarat tangan BISINDO secara real-time.
Kata Kunci: BISINDO.
Deep Learning.
OpenCV.
YOLO11
PENDAHULUAN
Komunikasi adalah aspek fundamental dalam kehidupan manusia.
Bagi orang dengan gangguan pendengaran atau gangguan bicara, bahasa isyarat seperti Bahasa Isyarat Indonesia (BISINDO), merupakan alat komunikasi utama.
Sensus penduduk yang dilakukan pada tahun 2020 menunjukkan bahwa 1,43% dari populasi Indonesia adalah orang dengan disabilitas, di mana 0,36% di antaranya memiliki gangguan DOI: https://doi.
org/10.
57152/malcom.
MALCOM-05.
: 1061-1073
pendengaran dan 0,35% memiliki gangguan bicara .
Namun, interaksi meraka masih terbatas karena tidak semua orang dapat memahami bahasa isyarat .
Kondisi ini seringkali menyebabkan hambatan dalam pendidikan, pekerjaan, dan layanan publik.
Saat ini, sebagian besar teknologi pengenalan bahasa isyarat masih berfokus pada American Sign Language (ASL), sementara penelitian dan implementasi untuk BISINDO masih sangat terbatas, sehingga belum cukup memfasilitasi kebutuhan di Indonesia .
, .
Oleh karena itu, pada penelitian ini penulis akan bereksperimen membuat sebuah program yang dapat digunakan untuk mengenali enam frasa bahasa isyarat BISINDO secara real-time.
Tantangan utama dalam mengenali bahasa isyarat adalah kompleksitas elemen-elemennya.
Gerakan tangan yang cepat dan perubahan posisi yang dinamis , serta variasi regional dan budaya membuat pengenalan bahasa isyarat menjadi tugas yang sangat rumit.
Selain itu, setiap bahasa isyarat memiliki variasi regional dan budaya, sehingga semakin sulit untuk mengembangkan program pengenalan yang akurat dan You Only Look Once (YOLO) adalah sebuah metode yang digunakan untuk mendeteksi dan mengenali objek dengan menawarkan keakuratan dan kecepatan operasinya.
Metode ini bergantung pada jaringan Convolution Neural Network (CNN) .
YOLO dapat memberikan hasil yang lebih akurat dan memiliki probabilitas tertinggi dibandingkan dengan R-CNN dan Faster R-CNN, sehingga YOLO dapat mendeteksi objek dengan efisien tanpa mengurangi performa kinerjanya .
Penelitian sebelumnya juga menyatakan bahwa seri YOLO memiliki waktu inferensi tercepat dibandingkan dengan Faster R-CNN.
YOLO11 adalah model tercepat dengan waktu inferensi 13,5 milidetik .
YOLO8 dan YOLO10 dengan waktu inferensi berturut-turut 23 dan 19,3ms.
Sedangkan Faster R-CNN memiliki waktu inferensi lebih lama sebesar 63,8ms.
Hasil ini menunjukkan bahwa algoritma dari seri YOLO memiliki potensi untuk digunakan secara real-time .
YOLO11 mewakili kemajuan signifikan dalam computer vision.
Versi 11 dari YOLO ini menunjukkan peningkatan yang signifikan dalam akurasi, kecepatan pemrosesan, fleksibilitas, serta mengurangi jumlah parameter yang diperlukan .
Dari peningkatan ini.
YOLO11 sangat cocok digunakan untuk pengenalan bahasa isyarat secara real-time.
Selain itu.
Open Computer Vision (OpenCV) juga dapat digunakan untuk mendukung deteksi objek secara real-time.
OpenCV adalah pustaka sumber terbuka yang dirancang untuk pemrosesan gambar.
OpenCV dapat membuat komputer memiliki kemampuan AumelihatAy yang serupa dengan pemrosesan visual manusia.
OpenCV menyediakan banyak algoritma dasar dan modul object detection untuk computer vision .
Penelitian deteksi bahasa isyarat tangan pernah dilakukan oleh Arifah et al.
menggunakan metode YOLO dan CNN untuk video percakapan yang bertujuan utnuk identifikasi dan klasifikasi gerakan Penelitian ini menghasilkan nilai akurasi sebesar 89% .
Penelitian serupa juga dilakukan oleh S.
Daniels .
yang bertujuan untuk pengembangan sistem pengenalan bahasa isyarat huruf yang dapat membaca masukan dari data video secara real-time menggunakan metode CNN dengan arsitektur YOLO .
Penelitian oleh Mujahid et al.
menghasilkan model ringan berdasarkan YOLOv3 dan jaringan saraf convolutional DarkNet-53 yang dapat digunakan untuk deteksi real-time, baik untuk gambar tangan statis maupun dinamis yang berupa video .
Penelitian oleh NurAoazizan et al.
yang menggunakan metode OpenCV dan MediaPipe mendapatkan hasil akurasi model dengan nilai F1-Score, recall, dan precision berturut-turut sebesar 0,9875.
0,9875.
dan 0,9875 untuk pengenalan bahasa isyarat secara real-time .
Penelitian oleh Nurul Renaningtias et al.
yang menggunakan metode YOLOv7 dan OpenCV untuk deteksi alfabet BISINDO secara real-time, menghasilkan nilai mAP@IoU 0,5 sebesar 0,995.
recall 1,0.
precision 1,0.
F1-Score 1,0.
Namun, performa model pada pengujian secara real-time tidak sebaik hasil saat pelatihan .
Berbeda dengan penelitian-penelitian sebelumnya yang lebih berfokus pada pengenalan isyarat tangan secara individu atau pengenalan alfabet BISINDO, penelitian ini mengusung pendekatan baru dengan mengintegrasikan YOLO versi 11 (YOLO.
dan OpenCV untuk pengenalan frasa dalam bahasa isyarat tangan BISINDO pada video real-time.
Penelitian Arifah et al.
dan Daniels .
menitikberatkan deteksi isyarat tangan menggunakan YOLO dan CNN untuk mengenali bahasa isyarat tangan, namun hanya sebatas pengenalan isyarat angka dan alfabet bukan frasa.
Sementara itu.
Mujahid et al.
berfokus pada pengenalan gerakan tangan dengan YOLOv3 tanpa pra pemrosesan tambahan, namun hanya meneliti pengenalan angka bukan frasa.
Penelitian NurAoazizan et al.
menggunakan OpenCV dan MediaPipe untuk deteksi bahasa isyarat secara real-time, tetapi tidak mengeksplorasi metode YOLO dalam penelitian.
Sedangkan penelitian Renaningtias et al.
menggunakan YOLOv7 dan OpenCV untuk pendeteksian BISINDO, namun tidak menggunakan YOLO11 dan hanya mendeteksi alfabet, bukan frasa.
Sejumlah keterbatasan tersebut menjadi celah yang akan diisi oleh penelitian ini.
Dengan demikian, kebaruan penelitian ini terletak pada kombinasi metode YOLO11 dan OpenCV untuk pengenalan frasa BISINDO secara real-time, yang belum pernah diterapkan dalam studi sebelumnya.
Penelitian ini dilakukan untuk menguji apakah metode YOLO11 yang diintegrasikan dengan library OpenCV dapat mengenali frasa dalam bahasa isyarat tangan BISINDO.
Penggabungan kedua teknologi tersebut, diharapkan dapat dihasilkan sebuah program yang memiliki akurasi tinggi dan mampu memberikan Implementasi YOLO11 dan OpenCV Untuk Pengenalan FrasaA (Swasono et al, 2.
ISSN(P): 2797-2313 | ISSN(E): 2775-8575 kontribusi dalam pengenalan bahasa isyarat tangan secara real-time, serta menjadi landasan untuk pengembangan sistem yang lebih maju pada masa mendatang.
Dengan demikian, penelitian ini tidak hanya memiliki nilai akademis untuk mengembangkan metode yang lebih maju dalam pengenalan bahasa isyarat, tetapi juga memiliki nilai praktis, terutama dalam membantu seseorang yang menggunakan bahasa isyarat untuk berkomunikasi dengan orang-orang di sekitarnya.
METODE PENELITIAN
Penelitian ini menggunakan metode dengan pendekatan deep learning yaitu YOLO11.
YOLO11
memiliki keunggulan pada penerapan object detection secara real-time .
Hal ini membuat penggunaan YOLO11 sangat penting karena bahasa isyarat tangan adalah bentuk dari komunikasi non-verbal manusia yang mencakup berbagai bentuk gerakan dinamis, posisi jari, atau bentuk tangan yang spesifik .
, sehingga pendeteksian objek tangan dapat lebih akurat dan dapat menciptakan user experience yang baik.
Penelitian ini memiliki 6 tahapan proses yang harus dilakukan seperti pada Gambar 1, yaitu: Dataset Collection.
Data Preprocessing.
Model Training.
Model Testing.
Model Integration for OpenCV, dan Result Analysis.
Gambar 1.
Tahapan penelitian Dataset Collection Salah satu tahapan yang paling penting dari machine learning adalah pengumpulan dataset.
Hal ini penting karena kualitas model hasil pelatihan bergantung pada seberapa baik kualitas dataset yang digunakan juga .
Oleh karena itu, dataset yang digunakan harus heterogen karena terdapat beberapa frasa yang digunakan pada penelitian ini .
Dataset yang digunakan pada penelitian ini dikumpulkan dari Kaggle dan hasil pengambilan data secara manual melalui webcam.
Dataset yang digunakan pada penelitian ini berupa gambar yang terdiri dari enam frasa bahasa isyarat tangan BISINDO, yaitu: AusayaAy.
AukamuAy.
AusenangAy.
AubingungAy.
AumarahAy, dan Auapa kabarAy.
Dataset dibagi menjadi dua dengan perbandingan 80:20, 80% sebagai data pelatihan .
dan 20% sebagai data validasi .
, yang menghasilkan 2.
817 data train dan 704 data val.
Selain itu, disediakan juga data primer sebagai data pengujian .
yang diambil dari empat partisipan sebagai subjek penelitian yang tidak dilibatkan dalam proses pelatihan.
Setiap class terdapat 30 data test dari satu partisipan, sehingga terdapat 120 data test untuk setiap class atau 720 data test dari keseluruhan class.
Persebaran jumlah data per class disajikan pada Tabel 1.
Tabel 1.
Persebaran Jumlah Data pada Dataset Class Saya Kamu Senang Bingung Marah Apa Kabar Train MALCOM - Vol.
5 Iss.
3 July 2025, pp: 1061-1073 Val Test MALCOM-05.
: 1061-1073
Data Preprocessing Preprocessing dilakukan sebelum data digunakan untuk pelatihan model .
Dataset yang sudah dikumpulkan diproses terlebih dahulu dengan tujuan membuat data yang tidak terstruktur menjadi lebih terstruktur dengan bentuk standar, memastikan kualitas dataset sebagai input, serta mengekstrak informasi dari dataset .
Beberapa langkah pemrosesan dilakukan pada penelitian ini terganatung dengan jenis data, sebagai berikut:
Framing Sebagian dataset yang dikumpulkan dari sumber terbuka berbentuk video, karena bahasa isyarat yang digunakan merupakan gerakan tangan dinamis.
Hal ini membuat dataset video perlu malalui tahap framing agar data berubah menjadi gambar yang berurut, sehingga dapat digunakan untuk pelatihan Proses ini melibatkan penggunaan OpenCV sebagai alat untuk pemrosesan video .
Augmentation Augmentation data adalah tahapan yang sangat penting dalam object detection.
Proses ini terdiri dari beberapa teknik yang mengubah ukuran dan kualitas kumpulan data pelatihan .
, serta melakukan penggandaan data gambar yang sudah ada.
Augmentation dilakukan dengan menggunakan OpenCV yang dapat digunakan untuk mentransformasi gambar .
, dimana OpenCV akan membaca data gambar yang berupa piksel untuk mentrasformasikan gambar tersebut, dan menyimpan hasil sebagai file baru.
Transformasi gambar dilakukan dengan cara pembalikan secara horizontal, meningkatkan kecerahan, dan mengubah warna ke skala abu-abu .
Dengan proses ini, satau gambar dapat digandakan menjadi empat gambar sehingga menambah variasi data gambar agar model tetap dapat mendeteksi objek dalam berbagai kondisi pencahayaan dan kualitas kamera .
Dengan menggunakan teknik augmentation, masalah keterbatasan data yang dapat menyebabkan model overfitting dapat teratasi .
Labeling Semua data yang digunakan untuk melatih model harus diberi label.
Pelabelan data berarti memberikan nama class serta anotasi pada gambar .
Pelabelan dilakukan menggunakan alat yang bernama LabelImg, ini adalah alat yang khusus digunakan untuk pelabelan.
Pelabelan harus dilakukan agar data dapat digunakan untuk pelatihan model sehingga YOLO dapat mengenali objek pada setiap gambar .
Model Training Tahap ini adalah tahapan paling utama pada penelitian ini yang menggunakan algoritma YOLO11 sebagai metodenya.
YOLO11 memiliki arsitektur yang lebih canggih daripada versi-versi sebelumnya.
YOLO11 dengan memperkenalkan konsep utama YOLOv10, menggunakan anchor-free berbasis decoupled head, di mana regression branch menggunakan konvolusi normal dan classification head menggunakan konvolusi yang dapat dipisahkan secara kedalaman (DWCon.
sehingga dapat mengurangi perhitungan yang berlebihan secara efektif .
Selain itu.
YOLO11 juga memperkenalkan modul Cross-Stage Partial with Self-Attention (C2PSA).
Modul C2PSA menggabungkan keunggulan jaringan cross-stage partial dengan mekanisme self-attention.
Modul C2PSA memastikan model dapat menangkap informasi kontekstual secara lebih efektif dan meningkatkan akurasi deteksi objek .
Oleh karena itu, algoritma ini dapat menghasilkan model dengan precision dan performance yang lebih seimbang .
Pada tahap ini, semua data train yang telah melalui tahap Preprocessing Data akan digunakan untuk pelatihan model.
Pelatihan model dilakukan dengan teknik transfer learning.
Transfer learning merupakan sebuah teknik penggunaan model yang sudah dilatih sebelumnya .
re-trained mode.
atau model yang sudah disediakan oleh YOLO sendiri untuk melatih dengan dataset baru tanpa harus melakukan pelatihan model dari awal .
Teknik ini mempu menghasilkan model baru dengan performa lebih tinggi serta waktu pelatihan yang lebih cepat dengan data yang lebih sedikit, karena pelatihan menggunakan knowlage dari model sebelumnya.
Dengan demikian, ini memberikan keuntungan yang lebih besar daripada melatih model dari awal, serta proses pelatihan model menjadi lebih efisien .
Selama pelatiahn.
YOLO akan me-resize semua data gambar.
Gambar akan diperkecil secara horizontal maupun vertikal menjadi 320px y 320px.
Hal ini bertujuan untuk membuat agar proses pelatihan model lebih ringan dan cepat .
, serta model yang dihasilkan lebih ringan juga.
Model Testing Model yang dihasilkan dari pelatihan dengan transfer learning pada tahap sebelumnya kemudian diuji terlebih dahulu.
Pengujian dilakukan dengan data test yang sudah disiapkan dalam dataset untuk menganalisis performa model.
Beberapa parameter yang dianalisis untuk mengetahui kualitas performa model antara lain yaitu: Precision.
Recall.
F1-Score dan Mean Average Precision .
AP).
Peneliti Implementasi YOLO11 dan OpenCV Untuk Pengenalan FrasaA (Swasono et al, 2.
ISSN(P): 2797-2313 | ISSN(E): 2775-8575 menggunakan tool analisis Confusion Matrix dengan menghitung nilai True Positive (TP).
True Negative (TN).
False Positive (FP), dan False Negative (FN) .
Parameter-parameter tersebut dapat dihitung dengan beberapa persamaan.
Precision merupakan perhitungan yang menunjukkan nilai ketetapan prediksi data positif yang benar .
, yang dihitung dengan ycEycyceycaycnycycnycuycu = ycNycE ycNycE yaycE Recall merupakan perhitungan yang mengukur seberapa baik model dapat mengidentifikasi semua sampel .
, yang dihitung dengan persamaan 2.
ycIyceycaycaycoyco = ycNycE ycNycE yaycA F1-Score merupakan perhitungan yang menunjukkan nilai rata-rata harmonis dari precision dan recall .
, yang dihitung dengan persamaan 3.
ya1 Oe ycIycaycuycyce = 2 ycEycyceycaycnycycnycuycu .
ycIyceycaycaycoyco ycEycyceycaycnycycnycuycu ycIyceycaycaycoyco Terkahir.
Mean Average Precision .
AP) merupakn perhitungan yang menunjukkan nilai performa keseluruhan model pada semua kelas yang diuji, yang membandingkan bounding box label dan bounding box deteksi .
Perhitungan ini didapat dengan menghitung rata-rata dari seluruh nilai Average Precision (AP) untuk setiap kelas, yang dihitung dengan persamaan 4.
ycoyaycE = ( ) O Oc.
aycEycn ) ycA ycn=1 Pada persamaan 4, simbol Oc menyatakan penjumlahan dari nilai AP untuk setiap class yang diuji .
Dengan memperhatikan hasil perhitungan confusion matrix, peneliti dapat mengevaluasi apakah model yang dihasilkan sudah memiliki performa yang baik dan layak digunakan untuk tahap implementasi, atau masih memerlukan proses optimasi lanjutan.
Model Integration for OpenCV Model selanjutnya diintegrasikan ke dalam program berbasis OpenCV.
OpenCV merupakan sebuah pustaka Application Peripheral Interface (API) yang dapat digunakan untuk pengolahan gambar serta bertujuan untuk menghadirkan tools dasar untuk computer vision .
Pada penelitian ini.
OpenCV digunakan untuk mengakses kamera untuk membuka visi komputer, menampilkan video secara real-time, mengirimkan setiap frame video ke model untuk diproses, serta menampilkan hasil deteksi dari model dalam bentuk bounding box, label class, dan confidence score secara langsung pada tampilan video.
Result Analysis Tahap ini merupakan tahapan terakhir pada penelitin ini.
Hasil dari model yang sudah diintegrasikan dengan OpenCV, selanjutnya dianalisis guna menarik kesimpulan.
Penulis menggunakan beberapa parameter untuk menganalisis kecepatan, kesetabilan, dan kemampuan model dalam mengenalai class secara konsisten pada video real-time, yaitu: Frame per Second (FPS).
Latency, dan Confidence Score.
FPS mengukur kecepatan model dalam memroses.
Latency mengukur interaktivitas delay antara frame input dan output, sedangkan Confidence Score sebagai indikator pendukung dalam menunjukkan kemampuan serta konsistensi model dalam mengenali class.
Penulis tidak menggunakan Confusion Matrix sebagai parameter analisis performa model dalam mendeteksi secara real-time.
Hal ini dikarenakan data ground truth tidak tersedia secara dinamis dalam pendeteksian secara real-time, sehingga nilai Confusion Matrix tidak dapat dihitung atau cenderung ambigu.
Sehingga penggunaan Confusion Matrix pada implementasi secara real-time akan menghasilkan hasil analisis yang tidak valid.
HASIL DAN PEMBAHASAN
Hasil dan pembahasan dari setiap tahap penelitian yang dilakukan, disajikan pada bagian ini.
Sebelum melatih model, semua data harus melalui tahap preprocessing seperti yang sudah dijelaskan pada metode MALCOM - Vol.
5 Iss.
3 July 2025, pp: 1061-1073 MALCOM-05.
: 1061-1073
Dilakukan framing untuk semua data video agar data dapat digunakan untuk pelatihan model.
Contoh hasil framing dapat dilihat pada Gambar 2.
Gambar 2.
Contoh hasil framing Sebagian data gambar selanjutnya melalui tahap augmentation, dimana beberapa gambar diperbanyak jumlahnya atau digandakan dengan pencahayaan atau warna yang berbeda serta membalikkan gambar secara Ini bertujuan untuk menambah variasi data gambar agar model tetap dapat mendeteksi objek dalam berbagai kondisi penchayaan dan kualitas kamera .
Contoh hasil augmentation dapat dilihat pada Gambar 3.
Gambar 3.
Contoh hasil augmentation Tahap terkahir dari preprocessing adalah labeling.
Hasil dari tahap ini adalah sebuah file dengan txt berisi label untuk setiap data gambar.
Dalam file label untuk setiap gambar, di dalamnya terdapat data yang menginformasikan indeks class name, koordinat tengah sumbu x, koordinat tengah sumbu y, panjang bounding box label, dan lebar bounding box label yang menunjukkan posisi dari setiap objek pada sebuah data gambar .
Contoh isi file label dan bentuk label pada file gambar dapat dilihat pada Gambar 4.
Gambar 4.
Contoh data dalam file label .
, contoh posisi lebel pada data gambar .
Semua data train yang sudah melalui tahap Preprocessing, selanjutnya dilatih dengan teknik transfer Pelatihan dilakukan dengan 263 epoch, yang berarti pelatihan dilakukan sebanyak 263 kali pengulangan penuh terhadap seluruh data pada dataset.
Jumlah epoch ditentukan dengan teknik early stopping, yang berarti pelatihan akan berhenti otomatis ketika kondisi performa dalam pelatihan tidak menunjukkan kenaikan lagi dalam 100 epoch terakhir.
Grafik metrik hasil pelatihan dapat dilihat pada Gambar 5.
Dari Gambar 5, hasil pelatihan model menunjukkan peningkatan pada beberapa parameter evaluasi.
Precision dan recall meningkat dengan cepat hingga hampir 1,0 dalam 20 epoch pertama, hal ini menunjukkan rendahnya FP dan FN selama pelatihan.
Nilai mAP50 juga mengalami peningkatan dengan cepat mencapai hampir 1,0, menunjukkan akurasi deteksi yang tinggi pada Intersection over Union (IoU) Ou 0,5.
Sementara itu, mAP50-95 meningkat lebih lambat tetapi tetap stabil hingga mendekati 0,95.
Hal ini Implementasi YOLO11 dan OpenCV Untuk Pengenalan FrasaA (Swasono et al, 2.
ISSN(P): 2797-2313 | ISSN(E): 2775-8575 menunjukkan bawha model dapat menentukan lokasi objek pada tingkat toleransi IoU yang berbeda dengan presisi yang tetap tinggi.
Gambar 5.
Grafik metrik hasil pelatihan Pengujian model dilakukan dengan data test yang telah disiapkan dalam dataset yang dikumpulkan dari empat partisipan.
Hasil pengujian model menunjukkan nilai yang sangat tinggi dan stabil pada semua metrik evaluasi.
Nilai rata-rata keseluruhan class (Al.
untuk precision adalah 0,983.
recall 0,982.
dan F1score 0,982.
yang menunjukkan bahwa model dapat mendeteksi objek dengan baik dan memiliki tingkat kesalahan yang rendah secara keseluruhan.
Nilai mAP50 sebesar 0,993 dan mAP50-95 sebesar 0,938 menunjukkan bahwa bounding box prediksi yang dihasilkan memiliki tingkat kedekatan yang tinggi terhadap ground truth, baik pada ambang IoU yang rendah .
AP.
maupun tinggi .
AP50-.
Evaluasi per class juga menunjukkan performa model yang baik, walaupun terdapat sedikit kesalahan minor pendeteksian.
Class "Marah" memiliki precision dan recall hampir sempurna .
,999 dan 1,.
, serta F1-score 0,999.
Class "Saya" memiliki recall sempurna .
, akan tetapi precision lebih rendah .
, yang menandakan adanya prediksi False Positive.
Sebaliknya, class AuKamuAy dan AuBingungAy memiliki precision sempurna .
, tetapi recall sedikit lebih rendah yang mendandakan adanya prediksi False Negative.
Class AuSenangAy memiliki precision dan recall yang tinggi .
,980 dan 0,.
Class "Apa Kabar" memiliki nilai F1-score paling rendah dibanding class lainnya .
, dengan precision dan recall yang seimbang .
,955 dan 0,.
Hal ini menunjukkan bahwa model lebih sering membuat kesalahan minor dalam memrediksi class tersebut dibandingkan dengan kelas lainnya, meskipun nilainya masih tergolong Kesalahan minor ini kemungkinan disebabkan oleh bentuk gestur yang terlalu kompleks, atau terdapat kemiripan antar gestur.
Secara keseluruhan, hasil ini menunjukkan bahwa model mampu mengenali gestur pada data pengujian dengan akurasi bounding box dan precision yang tinggi berdasarkan analisis perhitungan Confusion Matrix.
Hasil pengujian dapat dilihat pada Tabel 2.
Tabel 2.
Hasil Pengujian Model YOLO11
Class
All Saya Kamu Senang
Bingung
Marah
Apa Kabar Precision 0,983 0,965 1,000 0,980 1,000 0,999 0,955 Recall 0,982 1,000 0,961 0,992 0,979 1,000 0,958 F1-Score
0,982
0,982
0,980
0,985
0,989
0,999
0,956
mAP50
0,993
0,995
0,995
0,993
0,995
0,995
0,985
mAP50-95
0,938
0,863
0,913
0,914
0,968
0,949
0,921
Model selanjutnya diintegrasikan dengan OpenCV untuk implementasi pendeteksian secara real-time.
Selama pengujian secara real-time, program akan melakukan pencatatan data yang digunakan untuk MALCOM - Vol.
5 Iss.
3 July 2025, pp: 1061-1073 MALCOM-05.
: 1061-1073
menghitung parameter analisis seperti FPS.
Latency.
Confidence Score, dll ke dalam sebuah file CSV (Comma Separated Value.
Dengan threshold 0,75, data yang disimpan selanjutnya diolah untuk mengukur kecepatan, kesetabilan, dan kemampuan model dalam mengenali class secara konsisten.
Terdapat 200 data per class yang digunakan untuk pengolahan data selanjutnya.
Data yang diolah menghasilkan beberapa diagram seperti rata-rata Latency.
FPS, dan Confidence Score per class, dapat dilihat pada Gambar 6.
Gambar 6.
Diagram rata-rata Latency.
FPS, dan Confidence Score per class Rata-rata Latency per Class Pada Gambar 6, diagram Rata-rata Latency per Class .
memvisualisasikan rata-rata waktu pemrosesan (Latenc.
dalam satuan milidetik .
untuk setiap class yang dideteksi.
Diketahui bahwa diagram menunjukkan latency tertinggi untuk class AusayaAy dan Auapa kabarAydengan nilai rata-rata A90ms.
Hal ini menjelaskan bahwa model membutuhkan waktu lebih lama untuk mendeteksi class tersebut dibandingkan dengan class lain seperti AumarahAy dan AukamuAy dengan nilai rata-rata A80ms, namun masih berada dibawah rata-rata normal .
atency < .
dan stabil.
Hal ini dapat terjadi karena gerakan tangan pada class tersebut lebih kompleks dan/atau sulit untuk dikenali oleh model.
Rata-rata FPS per Class Pada Gambar 6, diagram Rata-rata FPS per Class .
menampilakn rata-rata FPS saat model mendeteksi setiap class.
Dapat dilihat bahwa FPS relatif stabil dan tinggi dengan rata-rata A11,5 di semua class.
Hal ini menandakan bahwa pendeteksian berjalan dengan lancar di setiap class yang Rata-rata Confidence per Class Pada Gambar 6, diagram Rata-rata Confidence per Class .
menunjukkan nilai rata-rata confidence score .
ingkat keyakina.
untuk setiap class.
Diagram menunjukkan bahwa rata-rata confidence score tinggi dan konsisten di seluruh class (A0,9 atau 90%).
Hal ini menunjukkan bahwa model cukup yakin dengan prediksinya.
Gambar 7 berikut memperlihatkan distribusi confidence score untuk setiap class.
Dua diagram pada Gambar 7 merupakan diagram Distribusi Confidence per Class yang memperlihatkan sebaran confidence score untuk setiap class.
Diagram sebelah kiri memperlihatkan gambaran yang lebih detail dengan menggambarkan distribusi pada masing-masing class secara terpisah.
Diagarm ini menjelaskan bahwa pada class "saya", "kamu", "senang".
Auapa kabarAy, dan "bingungAy, memiliki sebaran yang padat dan terkonsentrasi di atas 0,9.
Artinya model cukup konsisten dalam mendeteksi class Sedangkan class AumarahAy memiliki distribusi yang lebih lebar dan cenderung lebih rendah dengan confidence score < 0,9, namun masih tergolong tinggi karena confidence score stabil di atas 0,85.
Hal ini dapat terjadi karena beberapa hal, salah satunya adalah posisi tangan yang sedikit berbeda dari data pelatihan.
File CSV yang berisi 200 data per class yang dicatat sebelumnya, juga diolah lebih lanjut untuk menganalisis Trend Latency dan Trend FPS.
Trend Latency digunakan untuk mengetahui kecepatan dan stabilitas model dalam mendeteksi objek.
Ini penting guna memastikan model bekerja dengan efisien dan Trend FPS berguna untuk menunjukkan tingkat kelancaran model dalam mendeteksi objek secara real-time, yang merupakan indikator utama untuk menilai efisiensi dan responsifitas model.
Hasil pengolahan ini ditunjukkan pada Gambar 8.
Pada Gambar 8, grafik Trend Latency Over Time .
aris mera.
menunjukkan latency selama proses pendeteksian secara real-time.
Terdapat beberapa peningkatan latency selama pendeteksian, namun rata-rata stabil di rentang 80-100ms.
Peningkatan latency yang terjadi dapat disebabkan oleh beberapa hal, antara lain Implementasi YOLO11 dan OpenCV Untuk Pengenalan FrasaA (Swasono et al, 2.
ISSN(P): 2797-2313 | ISSN(E): 2775-8575 kompleksitas gerakan tangan pada class tertentu, terdapat gerakan tangan yang sulit dideteksi, atau penggunaan CPU yang terlalu tinggi.
Gambar 7.
Diagram distribusi condifence score per class Gambar 8.
Grafik Trend Latency dan Trend FPS Pada Gambar 8, grafik Trend FPS Over Time .
aris bir.
menunjukkan frame rate selama proses pendeteksian secara real-time.
Dapat dilihat bahwa FPS relatif stabil di kisaran 11-12FPS, yang menunjukkan performa model cukup baik dalam mendeteksi objek.
Terdapat beberapa penurunan FPS yang kemungkinan besar disebabkan oleh peningkatan latency, karena grafik FPS berbanding terbalik dengan grafik latency dimana semakin tinggi latency maka semakin rendah FPS.
Selama pengujian real-time, dilakukan validasi untuk mengevaluasi keterbatasan model dalam mendeteksi gestur sesuai dengan class frasa yang dilatihakan.
Validasi dilakukan dengan menguji keenam frasa gestur pada integrasi real-time.
Hasil menunjukkan bahwa model mampu mengenali dan membedakan masing-masing gestur frasa dengan baik, meskipun masih terdapat beberapa kesalahan minor.
Namun demikian, ditemukan beberapa kasus di mana model secara keliru mendeteksi gestur acak yang tidak dilatihkan, sebagai salah satu class frasa yang paling mirip dalam dataset.
Beberapa hasil pendeteksian termasuk kesalahan deteksi yang ditemukan disajikan pada Tabel 3.
Berdasarkan Tabel 3, ditemukan tiga kasus kesalahan selama evaluasi secara real-time.
Dua di antaranya adalah gestur yang tidak dilatihkan (AuLAy dan AuMetalA.
, namun terdeteksi sebagai salah satu gestur frasa yang dilatihkan, yaitu AukamuAy dan AumarahAy.
Satu kasus lainnya merupakan gestur frasa yang sebenarnya dilatihkan, yaitu AusenangAy, namun sering terdeteksi sebagai gestur frasa lainnya, yaitu Auapa kabarAy.
Hasil visual dari kesalahan tersebut dapat dilihat pada Gambar 15, 16, dan 17 dalam Tabel 3.
Kesalahan ini kemungkinan disebabkan karena kemiripan antara gestur input dan output.
Selain itu, kekurangan juga muncul pada beberapa skenario, misalnya ketika warna dominan pakaian pengguna serupa dengan warna latar belakang sehingga model kesulitan memprediksi bounding box.
Kekurangan lain terjadi MALCOM - Vol.
5 Iss.
3 July 2025, pp: 1061-1073 MALCOM-05.
: 1061-1073
jika pengguna mengenakan pakaian berlengan panjang, karena sebagian besar lengan tertutup, yang membuat model sulit mendeteksi beberapa kelas gestur seperti AusayaAy.
Auapa kabarAy, dan AusenangAy.
Kekurangan ini menyebabkan prediksi letak bounding box tidak akurat atau cenderung melebar, serta kesalahan dalam memprediksi class frasa, seperti yang ditunjukkan pada Gambar 18.
Tabel 3.
Hasil Evaluasi Integrasi Real-Time Gestur Masukan Jenis Gestur Saya Dilatihkan Keluaran Visual Keluaran Teks Status Saya Kamu Senang Bingung Marah Gambar 9.
Hasil evaluasi gestur saya Kamu Dilatihkan Gambar 10.
Hasil evaluasi gestur kamu Senang Dilatihkan Gambar 11.
Hasil evaluasi 1 gestur senang Bingung Dilatihkan Gambar 12.
Hasil evaluasi gestur bingung Marah Dilatihkan Gambar 13.
Hasil evaluasi gestur marah Implementasi YOLO11 dan OpenCV Untuk Pengenalan FrasaA (Swasono et al, 2.
ISSN(P): 2797-2313 | ISSN(E): 2775-8575 Gestur Masukan Apa Kabar Jenis Gestur Keluaran Visual Dilatihkan Keluaran Teks Apa Kabar Status Gambar 14.
Haisl evaluasi gestur apa kabar Gestur AuLAy Tidak Dilatihkan Kamu Marah Apa Kabar Gambar 15.
Hasil evaluasi gestur L Gestur Metal Tidak Dilatihkan Gambar 16.
Hasil evaluasi gestur metal Senang Dilatihkan Gambar 17.
Hasil evaluasi 2 gestur senang Dari Gambar 18 di atas dapat dilihat beberapa kesalahan ketika mengenakan pakaian lengan panjang dengan warna serupa dengan background.
Ketika mempraktikkan gestur AusayaAy .
model tidak mengenali Ketika mempraktikan gestur AusenangAy .
model sulit dalam menentukan bounding box.
Ketika mempraktikkan gestur Auapa kabarAy .
hasil bounding box prediksi model sedikit melebar dan confidence score menurun.
Kekurangan ini terjadi karena tidak adanya data gambar pada dataset yang menggnakan pakaian lengan panjang dan warna serupa dengan background, sehingga model belum terlalu mempelajari dan mengenali kesalahan pada skenario tersebut.
Meskipun demikian, dapat diamati bahwa setiap kesalahan yang terjadi memiliki confidence score yang lebih rendah dibandingkan dengan hasil deteksi yang benar, seperti yang divisualkan pada Gambar 9 hingga 14 dalam Tabel 3.
Kondisi ini menunjukkan bahwa model telah terlatih dengan cukup baik, tidak overfiting maupun underfiting, serta dapat mengenali pola karakteristik dari setiap class gestur.
Secara umum, model menunjukkan performa yang baik dan berhasil mendeteksi enam frasa BISINDO yang dilatihkan secara real-time dengan konsisten.
Gambar 18.
Hasil ketika menggunakan pakaian panjang dan warna sama dengan background MALCOM - Vol.
5 Iss.
3 July 2025, pp: 1061-1073 MALCOM-05.
: 1061-1073
DISKUSI
Hasil menunjukkan bahwa model YOLO11, yang diintegrasikan dengan OpenCV, mampu mengenali enam frasa BISINDO secara real-time dengan akurasi 0,983.
recall 0,982.
dan mAP50 0,993.
Nilai-nilai ini menunjukkan tingkat keandalan dan konsistensi yang tinggi dalam mendeteksi berbagai kelas frasa, termasuk stabilitas dalam pengujian real-time dengan latency rata-rata <100ms dan frame rate sekitar 11Ae12FPS.
Kecepatan dan akurasi ini mendukung pemilihan YOLO11 sebagai solusi real-time yang memenuhi kebutuhan sistem komunikasi bahasa isyarat secara langsung dengan latency yang relatif rendah.
Temuan ini sejalan dengan kinerja YOLO11 pada penelitian yang dilakukan oleh Alsharif et al.
dalam pengenalan gestur ASL, seperti yang dilaporkan dalam penelitian tentang pengenalan ASL real-time .
AP50 OO 98,2%) .
Hal ini menunjukkan bahwa YOLO11 dapat mempertahankan akurasi tinggi dengan responsifitas tetap.
Implementasi ini memperkuat penggunaan YOLO11 sebagai dasar untuk sistem pengenalan bahasa isyarat yang dapat langsung digunakan dalam aplikasi pendukung komunikasi di masyarakat, seperti pendidikan inklusif dan layanan public lainnya.
KESIMPULAN
Penelitian ini berhasil membangun program untuk pengenalan frasa bahasa isyarat tangan BISINDO secara real-time dengan mengintegrasikan algoritma YOLO11 dan library OpenCV.
Model pada program ini dilatih menggunakan lebih dari 3.
000 data gambar yang mewakili enam class frasa yang berbeda.
Hasil pengujian menunjukkan bahwa model memiliki rata-rata nilai precision dan recall di atas 0,98.
F1-Score sebesar 0,982.
mAP50 sebesar 0,993.
dan mAP50-95 sebesar 0,938.
Secara real-time, sistem dapat beroperasi secara stabil dengan latency rata-rata 80-90ms dan frame rate 11-12 FPS, serta confidence score rata-rata 0,9 untuk semua class.
Namun.
Sistem ini masih memiliki keterbatasan dalam beberapa skenario, terutama ketika pengguna mengenakan pakaian berlengan panjang atau pakaian yang warnanya mirip dengan latar belakang, yang mengakibatkan penurunan akurasi bounding box dan peningkatan kesalahan prediksi class, serta model sulit membedakan gestur input dan output yang secara bentuk serupa.
Hasil ini membuktikan bahwa integrasi YOLO11 dan OpenCV berhasil digunakan sebagai algoritma dalam pengenalan frasa bahasa isyarat tangan BISINDO secara real-time.
Hal ini dibuktikan dengan eksperiman pengenalan enam frasa berbeda, yaitu:
AusayaAy.
AukamuAy.
AusenangAy.
AubingungAy.
AumarahAy, dan Auapa kabarAy.
Hasil ini juga dapat dikembangkan lagi untuk pengenalan frasa yang lebih lengkap, serta diuji oleh pengguna sesuangguhnya guna mengukur kegunaan sistem dalam scenario dunia nyata.
Selain itu, hasil ini juga dapat dikembangkan untuk diimplementasikan pada beberapa platform seperti mobile device agar menciptakan fungsionalitas yang lebih terintegrasi atau web browser agar lebih fleksibel, untuk mendukung komunikasi yang lebih interaktif dan responsif bagi penyandang tunarungu dan tunawicara.
REFERENSI