JTE UNIBA.
Vol.
No.
April 2026 Detektor MSER dan OCR pada Pembacaan Rambu Petunjuk Jalan Rahman Arifuddin1*.
Subairi2.
Elta Sonalitha3.
Basitha Febrinda Hidayatullail4.
Resi Dwi jayanti Kartika Sari5.
Muhammad Darul Fatoni6
1,2,3,4,5,6
Teknik Elektro.
Fakultas Teknik Universitas Merdeka Malang Email: rahman.
arifuddin@unmer.
id, 2subairi@unmer.
id, 3elta.
sonalitha@unmer.
id, 4basitha@unmer.
sari@unmer.
id, 6darulfatoni5@gmail.
*Penulis Korespondensi Abstract Ai Text recognition on road guide signs remains a significant challenge in Digital Image Processing, particularly under varying illumination conditions, image distortions, and differences in font size.
This paper explores the use of Maximally Stable Extremal Regions (MSER), a feature detection method, for text segmentation in road sign images, followed by the application of Optical Character Recognition (OCR) to identify the detected MSER is employed to identify and extract stable regions within an image, enabling effective separation of text from background or non-text elements.
It has proven efficient in addressing visual challenges such as shadows, reflections, and low image quality.
Once text regions are successfully segmented.
OCR is utilized to convert the extracted image-based text into machinereadable digital text, allowing the system to recognize various font types and text orientations more accurately.
Experimental results show that the MSER method achieves a precision of 85.
7% and a recall of 85.
7%, resulting in an F1-score of 85.
Meanwhile, the OCR system demonstrates an average text recognition accuracy of Detection errors primarily occur under low-light conditions and skewed image capture angles, which affect the stability of regions during MSER extraction and subsequently impact OCR This approach offers an effective solution for text segmentation and recognition in dynamic environments, such as road signs influenced by perspective variations and poor lighting Furthermore, it contributes to the development of automated road sign recognition systems that can be integrated into autonomous vehicles and image-processing-based applications.
IntisariAi Pengenalan teks pada rambu petunjuk jalan merupakan tantangan utama dalam pengolahan citra digital, terutama ketika menghadapi kondisi pencahayaan yang bervariasi, distorsi gambar, dan perbedaan ukuran font pada Artikel ini membahas penggunaan Maximally Stable Extremal Regions (MSER), sebuah metode deteksi fitur, untuk segmentasi teks pada gambar rambu jalan, yang kemudian dilanjutkan dengan penerapan Optical Character Recognition (OCR) untuk mengenali karakter-karakter yang terdeteksi.
MSER berfungsi untuk mengidentifikasi dan mengekstrak wilayah-wilayah stabil dalam gambar sehingga membantu memisahkan teks dari latar belakang atau elemen non-teks, serta terbukti efisien dalam mengatasi tantangan visual akibat bayangan, pantulan cahaya, dan kualitas gambar yang rendah.
Setelah teks berhasil disegmentasi.
OCR digunakan untuk mengonversi teks dalam gambar menjadi teks digital yang dapat diproses oleh komputer, sehingga memungkinkan sistem mengenali berbagai jenis font dan orientasi teks dengan lebih Berdasarkan hasil pengujian, metode MSER mampu mendeteksi area teks dengan nilai precision sebesar 85,7% dan recall sebesar 85,7%, sehingga menghasilkan F1-score sebesar 85,7%, sementara sistem OCR menunjukkan rata-rata akurasi pembacaan teks sebesar 91,6%.
Kesalahan deteksi terutama terjadi pada kondisi pencahayaan rendah serta sudut pengambilan citra yang miring, yang mempengaruhi kestabilan region pada proses ekstraksi MSER dan berdampak pada hasil pembacaan OCR.
Pendekatan ini menawarkan solusi efektif untuk segmentasi dan pengenalan teks dalam kondisi lingkungan yang dinamis, seperti pada rambu lalu lintas yang sering terpengaruh sudut pandang atau pencahayaan buruk, serta berkontribusi pada pengembangan sistem pengenalan rambu otomatis yang dapat diintegrasikan dengan kendaraan otonom dan aplikasi berbasis pengolahan citra.
Kata KunciAi MSER.
OCR.
Segmentasi Teks.
Rambu Petunjuk Jalan.
Pengolahan Citra.
Kendaraan Otonom.
PENDAHULUAN
Pengenalan teks pada gambar merupakan salah satu tantangan utama dalam bidang pengolahan citra digital, khususnya ketika teks tersebut terdapat pada objek yang memiliki latar belakang kompleks atau terdistorsi, seperti pada rambu petunjuk jalan.
Rambu lalu lintas memainkan peran yang sangat penting dalam sistem transportasi, memberikan informasi vital bagi pengemudi dan pejalan kaki.
Oleh karena itu, pengolahan citra yang efektif untuk mendeteksi dan membaca teks pada rambu jalan sangat diperlukan, terutama untuk aplikasi dalam kendaraan otonom, sistem navigasi otomatis, atau untuk meningkatkan sistem keselamatan jalan.
Dalam konteks transportasi modern, rambu lalu lintas berfungsi sebagai media komunikasi visual antara sistem transportasi dan pengguna jalan.
Rambu tidak hanya memberikan peringatan atau larangan, tetapi juga menyampaikan informasi arah, lokasi, jarak, dan panduan yang esensial bagi pengemudi.
Pada sistem kendaraan otonom atau semi-otonom, kemampuan untuk secara otomatis mengenali dan menafsirkan teks pada rambu jalan merupakan salah satu kemampuan kunci yang menentukan keselamatan dan efisiensi Karena itu, bidang pengolahan citra yang berfokus pada deteksi dan pengenalan teks dari citra rambu jalan telah menjadi topik riset yang menarik dan relevan secara global.
Dalam konteks Indonesia, penerapan sistem pengenalan teks pada rambu jalan masih memiliki peluang riset yang sangat luas.
Salah satu tantangan unik di Indonesia adalah variasi desain dan kondisi rambu yang sangat beragam.
Ada rambu dengan latar biru, hijau, kuning, bahkan putih, dengan teks dalam berbagai bahasa atau singkatan.
Kondisi lingkungan tropis juga menimbulkan masalah tambahan seperti refleksi cahaya kuat, kelembapan tinggi, dan permukaan rambu yang sering berdebu.
Oleh karena itu, model deteksi dan OCR yang dikembangkan di negara lain belum tentu langsung dapat diterapkan secara optimal di sini tanpa penyesuaian dataset dan parameter Namun, mengenali teks dalam gambar tidaklah semudah tampak di permukaan.
Tantangan utama muncul dari kondisi Rahman Arifuddin dkk: Detektor MSER dan OCR pada Pembacaan.
E/P-ISSN: 2549-0842/2528 Ae 6498 JTE UNIBA.
Vol.
No.
April 2026 lingkungan yang tidak terkendali: pencahayaan yang berubahubah, sudut pandang kamera yang tidak sejajar, bayangan dari objek sekitar, hingga distorsi akibat gerakan kendaraan.
Semua faktor ini dapat menyebabkan teks pada rambu menjadi buram, terdistorsi, atau tidak kontras terhadap latar belakangnya.
Kondisi semacam ini membuat proses deteksi teks konvensional sering gagal mengidentifikasi karakter secara Oleh karena itu, dibutuhkan metode segmentasi yang robust mampu memisahkan teks dari latar belakang dengan efisien meskipun kondisi visual berubah-ubah.
Salah satu pendekatan yang terbukti efektif untuk segmentasi daerah teks adalah Maximally Stable Extremal Regions (MSER).
MSER merupakan metode deteksi fitur yang diperkenalkan oleh Matas pada tahun 2002, dan sejak itu menjadi salah satu teknik andalan dalam pengolahan citra karena kemampuannya menemukan daerah dengan stabilitas tinggi terhadap perubahan intensitas piksel.
Prinsip dasar MSER adalah mendeteksi kumpulan piksel yang tetap stabil ketika dilakukan ambang batas .
terhadap citra dengan berbagai nilai intensitas.
Daerah-daerah yang stabil ini disebut extremal regions, yaitu area yang memiliki nilai intensitas yang lebih tinggi atau lebih rendah dari sekitarnya secara konsisten.
Dalam konteks pengenalan teks.
MSER memiliki karakteristik yang sangat sesuai.
Huruf dan angka pada gambar umumnya membentuk area dengan kontras tinggi dibandingkan latar belakang Ai misalnya teks putih di atas papan biru atau hitam di atas latar kuning.
MSER secara alami akan mendeteksi area-area semacam ini sebagai candidate text Selain itu, metode ini relatif tahan terhadap rotasi, perubahan skala, serta variasi pencahayaan.
Hal ini membuatnya sangat cocok diterapkan pada rambu jalan yang difoto dari berbagai sudut dan jarak.
Proses pengenalan teks pada gambar dimulai dengan segmentasi, yaitu memisahkan bagian gambar yang berisi teks dari latar belakang atau elemen lain yang tidak relevan.
Dalam konteks ini.
Maximally Stable Extremal Regions (MSER) adalah salah satu teknik yang sangat berguna untuk mendeteksi daerah teks pada gambar.
MSER bekerja dengan cara mendeteksi daerah-daerah yang stabil, yaitu area yang memiliki perbedaan kontras tinggi antara teks dan latar belakang, yang membantu memisahkan teks dari objek lain dengan lebih akurat.
MSER sangat efisien dalam menangani variasi teks yang muncul akibat perubahan pencahayaan, sudut pandang, atau distorsi pada gambar, yang sering kali terjadi pada gambar rambu jalan.
Setelah teks berhasil disegmentasi, langkah berikutnya adalah menerapkan Optical Character Recognition (OCR) untuk mengonversi teks yang terdeteksi menjadi format digital.
OCR merupakan teknologi yang memungkinkan komputer untuk mengenali dan mengonversi karakter yang ada dalam gambar menjadi data yang dapat diproses lebih lanjut, seperti teks yang dapat dicari atau diubah.
OCR sangat penting untuk memanfaatkan informasi yang terkandung dalam teks rambu jalan, yang umumnya ditulis dalam berbagai font, ukuran, dan gaya.
Prinsip kerja OCR mencakup beberapa tahap penting: prapemrosesan citra, segmentasi karakter, ekstraksi fitur, dan klasifikasi karakter.
Pra-pemrosesan dilakukan untuk meningkatkan kualitas citra hasil segmentasi MSER, misalnya melalui binarization, denoising, atau deskewing untuk memperbaiki kemiringan teks.
Setelah itu, sistem OCR memisahkan setiap karakter secara individu, mengekstrak fitur khas seperti bentuk kontur, orientasi garis, dan distribusi piksel, lalu mengklasifikasikan karakter tersebut menggunakan model pembelajaran mesin.
Namun, tantangan utama dalam menerapkan teknologi OCR pada rambu jalan adalah keragaman kondisi pencahayaan, sudut pengambilan gambar, serta kualitas gambar yang sering kali rendah.
Oleh karena itu, kombinasi MSER dan OCR menjadi solusi yang sangat potensial untuk menangani masalah ini, dengan memberikan akurasi yang lebih tinggi dalam proses segmentasi dan pengenalan karakter pada rambu Artikel ini bertujuan untuk mengeksplorasi penerapan detektor fitur MSER dalam segmentasi teks pada rambu petunjuk jalan dan pembacaan karakter menggunakan OCR.
Fokus utama penelitian ini adalah untuk mengidentifikasi cara terbaik untuk meningkatkan akurasi dalam mengenali teks pada rambu jalan dengan memanfaatkan kemampuan MSER dalam mendeteksi area teks yang stabil, serta kemampuan OCR dalam mengonversi teks tersebut menjadi bentuk yang dapat diproses lebih lanjut.
Integrasi antara MSER dan OCR menciptakan pipeline pengenalan teks yang kuat.
MSER berperan sebagai detektor fitur yang efisien untuk menemukan lokasi teks dalam gambar, sementara OCR berperan sebagai pengenal karakter yang menerjemahkan hasil deteksi menjadi teks digital.
Kombinasi ini terbukti efektif dalam berbagai studi, terutama ketika diterapkan pada citra dengan latar belakang kompleks seperti rambu jalan, papan reklame, atau tanda arah.
Secara keseluruhan, penerapan metode MSER dan OCR dalam pengenalan teks pada rambu jalan merupakan contoh konkret bagaimana pengolahan citra digital dapat berkontribusi langsung terhadap kehidupan sehari-hari.
Melalui kombinasi pendekatan teoretis dan eksperimen praktis, riset ini tidak hanya memperkuat fondasi ilmiah dalam bidang penglihatan komputer, tetapi juga membawa manfaat nyata bagi masyarakat luas.
Ketika teknologi mampu membaca dan memahami tanda visual di jalan raya, maka sistem transportasi tidak hanya menjadi lebih efisien, tetapi juga lebih aman dan Kebaruan dari penelitian ini terletak pada penggabungan metode MSER dengan pipeline OCR yang dioptimalkan untuk kondisi lingkungan nyata, seperti pencahayaan ekstrem, perspektif miring, dan noise visual yang umum pada rambu lalu lintas.
Kontribusi ilmiah dari studi ini adalah pengembangan pendekatan segmentasi yang lebih robust dan adaptif terhadap kondisi lapangan, yang dapat menjadi acuan untuk riset lanjutan di bidang penglihatan komputer dan sistem transportasi cerdas.
Manfaat dari penelitian ini bagi masyarakat sangat luas, terutama dalam mendukung terciptanya sistem kendaraan otonom yang lebih andal, meningkatkan efisiensi navigasi berbasis kamera, serta memperkuat sistem keselamatan lalu lintas melalui deteksi informasi visual secara otomatis dan real-time.
II.
TINJAUAN PUSTAKA
Cara paling mudah untuk memenuhi persyaratan format penulisan adalah dengan menggunakan dokumen ini sebagai Kemudian ketikkan teks Anda ke dalamnya Rahman Arifuddin dkk: Detektor MSER dan OCR pada Pembacaan.
E/P-ISSN: 2549-0842/2528 Ae 6498 JTE UNIBA.
Vol.
No.
April 2026 Segmentasi Teks Menggunakan Mser Segmentasi adalah langkah pertama yang sangat penting untuk memisahkan teks dari latar belakang atau elemen nonteks dalam gambar.
Maximally Stable Extremal Regions (MSER) adalah algoritma yang digunakan untuk mendeteksi area stabil dalam gambar yang memiliki kontras tinggi antara objek dan latar belakang.
MSER bekerja dengan cara mencari wilayah yang stabil pada gambar berdasarkan perubahan nilai intensitas piksel.
Wilayah yang stabil ini dipilih karena kemungkinan besar mengandung teks atau objek yang relevan, yang memiliki kontras yang cukup kuat terhadap latar belakang.
MSER mendeteksi region-region yang stabil dalam gambar berdasarkan perubahan tingkat intensitas piksel.
Konsep dasar dari MSER adalah mendeteksi perubahan secara lokal pada intensitas citra yang dapat dilihat sebagai kurva level.
MSER
berfokus pada ekstraksi wilayah yang memiliki kestabilan maksimal saat perubahan threshold diterapkan pada gambar biner.
Secara matematis.
MSER mencari daerah ekstremal dengan menggunakan parameter threshold (E) dan jumlah piksel dalam suatu wilayah.
MSER didefinisikan sebagai sebuah region RR dalam citra II yang memenuhi kriteria kestabilan berikut:
c, yyO) = .
Oe yc.
cyyO)| di mana:
S(R,E) adalah stabilitas region RR pada threshold E.
I(R) adalah intensitas rata-rata dari region R.
I(RE) adalah intensitas rata-rata setelah thresholding.
Wilayah R yang memiliki perubahan stabil dalam intensitasnya akan dipilih sebagai region teks.
Thresholding adalah langkah penting dalam MSER, yang diatur untuk menemukan titik di mana intensitas piksel berubah secara Secara iteratif, algoritma MSER akan mencari kestabilan daerah ekstremal yang terhubung dan memiliki kestabilan yang kuat di berbagai tingkat threshold.
Langkah-langkah kerja MSER adalah Konversi ke Grayscale yaitu gambar berwarna diubah menjadi gambar grayscale untuk menyederhanakan proses analisis intensitas Selanjutnya adalah Thresholding Bertingkat yaitu MSER memproses gambar dengan menerapkan ambang batas .
intensitas piksel dari 0 hingga 255 secara bertahap.
Pada setiap tingkat, wilayah yang memiliki nilai intensitas di atas atau di bawah threshold dibentuk sebagai komponen terhubung .
onnected component.
Berikutnya Ekstraksi Wilayah Stabil yaitu Selama proses thresholding, beberapa wilayah akan muncul, tumbuh, lalu menghilang.
MSER
mendeteksi wilayah yang berubah secara minimal selama beberapa ambang batas tertentu Ai wilayah inilah yang disebut extremal regions yang maksimal stabil.
Dilanjutkan dengan Penyaringan dan Penyusunan Wilayah yaitu MSER menyaring wilayah-wilayah yang terlalu kecil, terlalu besar, atau tidak berbentuk seperti teks, serta menyusun hasilnya dalam bentuk hierarki .
arena ada kemungkinan wilayah saling bersaran.
Dan yang terkahir Output yaitu Wilayah-wilayah stabil yang dideteksi kemudian dianggap sebagai kandidat lokasi teks pada MSER juga memiliki beberapa keunggulan antara lain tahan terhadap perubahan pencahayaan, cocok untuk mendeteksi teks yang kontras dengan latar dan Akurat untuk berbagai ukuran dan font teks.
Roses Pengenalan Karakter Optik (Oc.
Setelah teks tersegmentasi.
OCR berfungsi untuk karakter-karakter OCR mencocokkan karakter yang ditemukan dalam gambar dengan basis data karakter yang telah dipelajari.
Proses dasar dalam OCR adalah pencocokan pola.
Pencocokan pola dalam OCR dapat dijelaskan dengan menggunakan model probabilistik yang mengukur kemungkinan setiap karakter yang terdeteksi sesuai dengan karakter yang ada dalam basis data.
Misalnya, untuk mengenali karakter, kita menggunakan algoritma koneksi komponen dan analisis kontur untuk mengekstrak fitur-fitur karakter.
Secara matematis, proses pencocokan pola dapat diwakili dengan fungsi pencocokan karakter C.
untuk karakter x.
= yeCyeeyeO yeayeCyeo yeoyeA yc.
di mana:
adalah karakter yang terdeteksi pada posisi tertentu Y adalah himpunan karakter dalam basis data OCR.
adalah kemungkinan terdeteksinya karakter berdasarkan model probabilistik.
Setelah karakter-karakter dikenali.
OCR mengonversinya menjadi teks yang dapat diproses lebih lanjut Proses kerja Optical Character Recognition (OCR) terdiri dari beberapa tahap utama.
Pertama, pra-pemrosesan .
dilakukan untuk menyiapkan gambar, meliputi binarisasi .
engubah gambar menjadi hitam-putih melalui thresholding untuk memisahkan teks dari latar belakan.
, denoising .
enghilangkan noise atau gangguan visual seperti titik dan goresa.
, deskewing .
eluruskan teks yang mirin.
, serta normalisasi ukuran karakter agar seragam.
Selanjutnya, pada tahap segmentasi karakter, gambar teks dipotong menjadi bagian-bagian kecil yang masing-masing mewakili satu karakter Alur Pendekatan Secara ringkas, alur pendekatan yang digunakan dalam penelitian ini dimulai dengan input gambar rambu jalan sebagai data utama.
Selanjutnya dilakukan preprocessing gambar melalui proses binarisasi untuk memisahkan teks dari latar belakang.
Setelah itu, tahap segmentasi teks menggunakan metode MSER (Maximally Stable Extremal Region.
dilakukan untuk mendeteksi wilayah-wilayah stabil pada gambar.
, kemudian diseleksi hanya region yang relevan berdasarkan ukuran dan kontrasnya.
Tahap berikutnya adalah pengenalan teks menggunakan OCR, di mana karakter diekstraksi dari region teks yang telah terdeteksi, kemudian dibaca dan dikonversi menjadi teks Hasil akhirnya berupa output teks digital yang merepresentasikan isi tulisan pada rambu jalan.
Dengan pendekatan ini, diharapkan proses segmentasi dan pembacaan teks pada rambu jalan dapat dilakukan dengan tingkat akurasi Rahman Arifuddin dkk: Detektor MSER dan OCR pada Pembacaan.
E/P-ISSN: 2549-0842/2528 Ae 6498 JTE UNIBA.
Vol.
No.
April 2026 Setelah teks berhasil disegmentasi menggunakan MSER, tahap berikutnya adalah pengenalan karakter menggunakan OCR.
OCR bertujuan untuk mengonversi teks dalam gambar menjadi teks digital yang dapat diproses lebih lanjut.
Gambar 1.
Diagram Alur Proses MSER dan OCR yang lebih tinggi, bahkan pada kondisi gambar yang memiliki tantangan visual seperti pencahayaan buruk atau distorsi.
METODOLOGI
Metodologi dalam penelitian ini dirancang untuk mengembangkan sistem yang mampu mendeteksi dan membaca teks yang terdapat pada rambu petunjuk jalan menggunakan dua teknik utama: Maximally Stable Extremal Regions (MSER) untuk segmentasi teks, dan Optical Character Recognition (OCR) untuk pembacaan karakter.
Gambar 1 merupakan diagram alur proses MSER dan OCR, yaitu penggabungan keduanya menciptakan sistem pengenalan teks yang kuat, khususnya dalam skenario dinamis seperti pengolahan rambu lalu lintas Beberapa langkah yang dapat dilakukan dalam penerapan OCR (Optical Character Recognitio.
adalah sebagai berikut.
Pertama, region teks yang telah terdeteksi diproses lebih lanjut melalui normalisasi ukuran dan peningkatan kontras agar karakter lebih mudah dikenali oleh sistem .
Selanjutnya, digunakan algoritma OCR untuk mengenali karakter-karakter dalam gambar dengan cara membandingkan fitur-fitur visual dari karakter yang terdeteksi dengan karakter yang terdapat dalam model basis data.
Setelah proses pengenalan selesai.
OCR menghasilkan output berupa teks digital yang dapat dibaca dan diproses lebih lanjut.
Hasil dari OCR ini kemudian dapat dimanfaatkan untuk mengidentifikasi informasi yang terdapat pada rambu jalan, sehingga sistem mampu mengekstraksi dan memahami isi teks secara otomatis dan akurat.
IV.
HASIL DAN PEMBAHASAN
Grafik Hasil eksperimen dari penerapan detektor fitur Pra Pemrosesan Data Pra-pemrosesan data dilakukan dengan mengubah gambar menjadi grayscale untuk memudahkan pengolahan dan deteksi kontras yang biasa disebut sebagai grayscale conversion, selanjutnya adalah menggunakan teknik binarisasi untuk mengubah gambar grayscale menjadi gambar biner yang lebih mudah untuk mendeteksi tepo dan objek gambar.
Segmentasi Teks Menggunakan MSER Teknik ini digunakan untuk mendeteksi dan mengektraksi region yang mengandung teks dari gambar rambu jalan.
MSER
bekerja dengan mencari wilayah stabil berdasarkan perubahan kontras di dalam gambar.
Beberapa langkah yang bisa dilakukan pada penerapan MSER adalah sebagai berikut :
Menggunakan implementasi algoritma MSER untuk mendeteksi daerah-daerah yang memiliki stabilitas kontras tinggi di gambar biner.
Daerah yang terdeteksi adalah kandidat teks yang akan diproses lebih lanjut.
Setelah MSER mengidentifikasi region potensial, region yang terlalu kecil atau terlalu besar, serta yang tidak sesuai dengan karakteristik teks .
isalnya area dengan noise tingg.
, akan difilter untuk meningkatkan akurasi .
Setiap region yang terdeteksi akan dibatasi dengan bounding box untuk menandai area yang mengandung Pengenalan Teks Menggunakan OCR Gambar 2.
Hasil Deteksi Area Kandidat Teks MSER untuk segmentasi teks pada gambar rambu petunjuk jalan, serta pengenalan teks menggunakan OCR.
Dalam prosesny menggunakan software Matlab.
Beberapa langkah dilakukan untuk proses deteksi menggunakan fitur Maximally Stable Extremal Regions (MSER) yaitu dengan langkah post-processing untuk mengidentifikasi area teks pada image, setelah proses pengelompokan area teks.
OCR diterapkan pada area yang terdapat teks untuk menentukan character strings yang ada pada area tersegmentasi.
Berdasarkan Gambar 2, detektor MSER bekerja dengan sangat baik dalam menemukan region teks karena kemampuannya mendeteksi area dengan warna yang konsisten dan kontras tinggi terhadap latar belakang.
MSER mengidentifikasi wilayah stabil berdasarkan perubahan intensitas piksel yang minimal dalam ambang batas tertentu.
Ciri khas teks, seperti garis tepi yang tajam dan bentuk huruf yang seragam, menghasilkan profil intensitas yang stabil, menjadikan MSER efektif dalam mengekstraksi elemen teks meskipun gambar mengalami perubahan sudut pandang atau Berdasarkan Gambar 3, meskipun algoritma MSER menunjukkan performa yang baik dalam mendeteksi sebagian Rahman Arifuddin dkk: Detektor MSER dan OCR pada Pembacaan.
E/P-ISSN: 2549-0842/2528 Ae 6498 JTE UNIBA.
Vol.
No.
April 2026 besar area teks, namun algoritma ini juga mendeteksi sejumlah besar wilayah stabil lain dalam gambar yang sebenarnya bukan merupakan teks.
Hal ini terjadi karena sifat dasar MSER yang mendeteksi area dengan perubahan intensitas kontras yang membantu menghilangkan daerah non-teks berdasarkan stroke width, dapat dilakukan estimasi terhadap salah satu wilayah MSER yang terdeteksi.
Estimasi ini menggunakan metode transformasi jarak .
istance transfor.
yang menghitung jarak tiap piksel latar ke piksel teks pada gambar biner.
Kemudian dilakukan penipisan .
untuk mendapatkan kerangka Nilai transformasi jarak pada kerangka ini merepresentasikan setengah dari lebar stroke, sehingga dengan mengukur nilai rata-rata dan standar deviasinya, kita dapat menilai apakah suatu region memiliki stroke width yang Gambar 3.
Hasil Remove Non-Text Region Berdasarkan Geometri Dasar stabil, tanpa membedakan apakah wilayah tersebut mengandung karakter teks atau elemen visual lainnya.
Akibatnya, elemen non-teks seperti pola pada latar belakang, objek-objek dengan tepi tajam, atau bayangan, dapat ikut terdeteksi sebagai kandidat teks.
Oleh karena itu, diperlukan pendekatan tambahan untuk menyaring daerah-daerah nonteks agar hasil segmentasi menjadi lebih akurat.
Salah satu pendekatan penyaringan yang dapat digunakan adalah berbasis aturan .
ule-based approac.
, di mana properti geometris dari teks dimanfaatkan untuk mengidentifikasi dan mengeliminasi wilayah non-teks.
Properti ini mencakup rasio aspek .
erbandingan antara tinggi dan leba.
, luas area, kepadatan piksel, serta eksentrisitas .
kuran seberapa bulat atau lonjong bentuk suatu regio.
Dengan menerapkan ambang batas sederhana terhadap parameter-parameter tersebut, kita dapat menyaring wilayah yang tidak sesuai karakteristik umum teks.
Misalnya, karakter teks cenderung memiliki ukuran yang seragam, bentuk persegi panjang, dan kepadatan yang konsisten, sehingga wilayah yang terlalu besar, terlalu kecil, atau memiliki bentuk tak beraturan dapat diabaikan.
Namun, pendekatan rule-based memiliki keterbatasan dalam menangani variasi teks dalam kondisi nyata, seperti teks miring, buram, atau dengan font yang tidak standar.
Untuk mengatasi hal ini, pendekatan berbasis pembelajaran mesin dapat diterapkan sebagai pelengkap.
Dalam pendekatan ini, fitur-fitur dari masing-masing wilayah kandidat dikumpulkan dan digunakan untuk melatih model klasifikasi, seperti Support Vector Machine (SVM) atau Random Forest, yang dapat membedakan antara teks dan non-teks secara lebih adaptif.
Kombinasi kedua pendekatanAirule-based dan machine learningAidapat menghasilkan sistem penyaringan yang lebih akurat dan tahan terhadap variasi kondisi lingkungan.
Selain fitur geometris, salah satu metrik umum yang sangat efektif untuk membedakan teks dan non-teks adalah Stroke Width, yaitu ukuran ketebalan garis atau kurva yang membentuk suatu karakter.
Daerah teks cenderung memiliki stroke width yang seragam, karena karakter dicetak atau ditulis dengan ketebalan konsisten.
Sebaliknya, wilayah non-teks cenderung memiliki variasi stroke width yang lebih besar dan tidak beraturan.
Oleh karena itu, stroke width dapat menjadi indikator yang kuat dalam proses penyaringan.
Untuk Gambar 4.
Hasil Remove Non-Text Region Berdasarkan Varian Lebar Goresan seragam atau tidak.
Jika variasinya terlalu besar, maka kemungkinan besar wilayah tersebut merupakan non-teks dan dapat disingkirkan dari proses pengenalan lebih lanjut.
Pada Gambar 4, terlihat bahwa gambar hasil ekstraksi stroke width menunjukkan sedikit variasi ketebalan di sebagian besar area yang terdeteksi.
Hal ini mengindikasikan bahwa wilayah tersebut kemungkinan besar merupakan daerah Ciri utama dari teks yang dapat dibaca oleh manusia adalah konsistensi dalam ketebalan garis atau kurva yang membentuk karakter.
Konsistensi ini muncul karena hurufhuruf biasanya dicetak atau ditampilkan menggunakan font yang memiliki ketebalan stroke seragam, terutama pada teks rambu jalan yang umumnya dirancang agar mudah dibaca dalam berbagai kondisi.
Dalam konteks segmentasi teks menggunakan algoritma MSER, keberhasilan dalam mendeteksi wilayah teks dapat ditingkatkan dengan mengevaluasi tingkat keseragaman stroke width.
Proses ini dilakukan setelah tahap deteksi MSER dan binarisasi, di mana transformasi jarak dan penipisan digunakan untuk memperoleh kerangka dari karakter.
Kemudian, nilai stroke width dihitung pada jalur-pusat .
dari masing-masing karakter.
Apabila hasil pengukuran menunjukkan bahwa stroke width memiliki penyimpangan yang sangat kecil antar bagian dalam satu wilayah, maka wilayah tersebut sangat mungkin merupakan teks.
Sebaliknya, daerah dengan variasi stroke width yang tinggi cenderung berasal dari objek atau elemen grafis lain yang bukan teks.
Dengan kata lain, stroke width menjadi salah satu parameter penting dalam menyaring hasil deteksi MSER untuk meningkatkan akurasi sistem pengenalan Teknik ini sangat efektif dalam mengurangi deteksi palsu pada gambar yang kompleks.
Rahman Arifuddin dkk: Detektor MSER dan OCR pada Pembacaan.
E/P-ISSN: 2549-0842/2528 Ae 6498 JTE UNIBA.
Vol.
No.
April 2026 Gambar 5.
Menghapus Wilayah Non-Teks Berdasarkan Stroke Width Variation.
Gambar 5 menunjukkan hasil dari proses penyaringan area non-teks berdasarkan Stroke Width Variation (SWV).
Dari hasil tersebut, terlihat bahwa sebagian besar wilayah non-teks telah berhasil dihapus.
Ini menunjukkan efektivitas pendekatan stroke width sebagai salah satu metrik untuk membedakan antara daerah teks dan non-teks.
Daerah teks cenderung memiliki ketebalan yang seragam, sementara elemen non-teks seperti simbol, pola, atau latar belakang kompleks menunjukkan variasi stroke width yang lebih besar.
Namun demikian, meskipun teknik ini telah menghilangkan banyak bagian non-teks, masih terdapat beberapa area yang belum sepenuhnya terhapus.
Hal ini bisa terjadi karena beberapa karakteristik non-teks secara kebetulan memiliki stroke width yang mirip dengan teks asli, sehingga lolos dari proses Selain itu, artefak gambar, noise, atau bagian tepi teks yang tidak konsisten juga dapat menyebabkan kesalahan dalam estimasi stroke width.
Gambar 6.
Hasil Merge Text Regions untuk Hasil Deteksi Akhir Gambar 6 menggambarkan proses penyempurnaan deteksi teks dengan menggabungkan bounding boxes yang saling bertumpang tindih .
, guna membentuk satu bounding box utuh yang merepresentasikan satu kata atau baris teks secara keseluruhan.
Proses ini penting karena hasil deteksi awal menggunakan algoritma MSER dan filtrasi stroke width sering kali menghasilkan fragmen-fragmen teks yang terpisah, padahal secara semantik dan visual mereka merupakan bagian dari entitas teks yang sama.
Langkah awal dalam proses ini menghitung overlap ratio antar pasangan bounding box yang terdeteksi.
Overlap ratio diukur sebagai perbandingan antara area irisan dua bounding box terhadap area gabungan keduanya.
Rasio ini digunakan untuk menilai seberapa dekat dan tumpang tindih dua wilayah Jika rasio overlap dari dua bounding box lebih besar dari nol, maka keduanya dianggap saling berdekatan dan berpotensi menjadi bagian dari kelompok teks yang sama.
Selanjutnya, pendekatan graf digunakan untuk memodelkan hubungan antar bounding boxes berdasarkan overlap ratio.
Setiap bounding box direpresentasikan sebagai simpul dalam graf, dan sebuah sisi .
dibentuk apabila terdapat hubungan overlap positif antara dua simpul.
Dengan menemukan komponen terhubung dalam graf ini, sistem dapat mengelompokkan fragmen teks yang berdekatan menjadi satu entitas tunggal.
Hasil dari proses ini adalah bounding boxes yang lebih besar dan menyeluruh, mewakili kata atau baris teks lengkap, yang siap untuk tahap pengenalan karakter oleh OCR.
Pendekatan ini secara signifikan meningkatkan akurasi segmentasi dan mengurangi kesalahan pengenalan pada teks Output dari fungsi conncomp merupakan representasi indeks yang menunjukkan keanggotaan setiap bounding box dalam komponen-komponen terhubung.
Indeks ini sangat penting dalam proses penggabungan wilayah teks yang berdekatan menjadi satu unit utuh yang mewakili kata atau baris teks lengkap.
Setiap indeks menunjukkan bahwa bounding box yang bersangkutan berada dalam satu kelompok dengan bounding boxes lain yang saling bertumpang tindih, berdasarkan perhitungan overlap ratio sebelumnya.
Dengan kata lain, conncomp berfungsi mengidentifikasi kumpulan text regions yang memiliki hubungan spasial erat dan dapat dianggap sebagai bagian dari struktur teks yang sama.
Untuk menggabungkan beberapa bounding box yang berada dalam satu komponen terhubung, dilakukan proses agregasi koordinat spasial.
Hal ini dicapai dengan menghitung nilai minimum dari koordinat sudut kiri atas .
_min, y_mi.
dan nilai maksimum dari sudut kanan bawah .
_max, y_ma.
dari setiap bounding box dalam kelompok tersebut.
Hasilnya adalah satu bounding box baru yang mencakup seluruh area gabungan dari bounding boxes awal.
Pendekatan ini memungkinkan sistem untuk menyatukan fragmen teks yang awalnya terdeteksi sebagai elemen-elemen terpisah menjadi satu kesatuan visual dan semantik yang lebih bermakna, sehingga mempermudah proses Optical Character Recognition (OCR) pada tahap selanjutnya.
Namun, penggabungan ini tidak serta merta menghasilkan deteksi yang sepenuhnya akurat.
Untuk menghindari false positive atau deteksi teks palsu, dilakukan tahap filtrasi akhir terhadap hasil deteksi.
Salah satu metode efektif adalah dengan menghapus bounding boxes yang hanya terdiri dari satu text region tunggal, yang biasanya merupakan isolated region yang kemungkinan besar bukan merupakan teks sebenarnya.
Hal ini didasarkan pada asumsi bahwa dalam konteks visual alami, seperti pada rambu petunjuk jalan, teks umumnya tidak berdiri sendiri, melainkan muncul dalam bentuk kelompok kata atau Oleh karena itu, bounding boxes yang tidak memiliki keterhubungan dengan wilayah teks lain cenderung merupakan hasil deteksi noise atau visual lain yang menyerupai karakter.
Rahman Arifuddin dkk: Detektor MSER dan OCR pada Pembacaan.
E/P-ISSN: 2549-0842/2528 Ae 6498 JTE UNIBA.
Vol.
No.
April 2026 namun tidak membawa makna semantik sebagai teks.
Penerapan strategi ini dapat diamati secara visual pada Gambar 7, yang menunjukkan hasil deteksi akhir setelah proses penggabungan dan filtrasi dilakukan.
Pada gambar tersebut terlihat bahwa sebagian besar bounding boxes yang tersisa merupakan kelompok teks yang jelas terbaca dan terstruktur, sementara region terisolasi yang sebelumnya terdeteksi secara keliru telah berhasil dihapus.
Dengan demikian, proses ini tidak hanya meningkatkan ketepatan dalam mendeteksi teks yang sebenarnya, tetapi juga mengurangi beban kerja pada OCR dalam membaca dan mengenali teks yang tidak valid.
Secara keseluruhan, penggunaan conncomp untuk analisis keterhubungan antar bounding box, diikuti dengan penggabungan spasial dan filtrasi berbasis ukuran kelompok, merupakan pendekatan komprehensif yang memperkuat keandalan sistem segmentasi dan pengenalan teks berbasis MSER dan OCR.
Tabel 1.
Hasil Pengujian Deteksi Teks Rambu Jalan Menggunakan MSER
dan OCR
N Nama Kondi
Ground
Hasil
Det
Stat
File
OCR
Truth
Uji
Pro
Teks Lingk
Siang
MALAN
MALAN
Ber
Siang
SURABA SURABA
Ber
img_0 Mendu
BLITAR
BLITAR
Ber
Silau
KEDIRI
KEDlRl
Kur
img_0 Malam
TULUNG TULUNG
Ber
AGUNG
AGUNG
img_0 Malam
Gag
JOMBAN Tid
Sudut
TRENGG
ALEK
TRNGGA
LEK
Cuk
Hujan
NGANJU
NGANJU
Ber Parameter Nilai Deteksi gagal Precision Recall F1-score Rata-rata akurasi OCR Rata-rata waktu proses Berdasarkan tabel 1, tabel 2 dan tabel 3 yaitu hasil pengujian terhadap delapan sampel citra rambu petunjuk jalan, metode MSER mampu mendeteksi area teks dengan nilai precision sebesar 85,7% dan recall sebesar 85,7%, menghasilkan F1score sebesar 85,7%.
Sistem OCR menunjukkan rata-rata akurasi pembacaan teks sebesar 91,6%.
Kesalahan deteksi terutama terjadi pada kondisi pencahayaan rendah dan sudut pengambilan citra yang miring, yang mempengaruhi stabilitas region pada proses ekstraksi MSER.
Gambar.
8 Grafik PrecisionAeRecall Curve untuk sistem deteksi OCR rambu jalan Gambar 8 menunjukkan hubungan antara tingkat ketepatan .
dan sensitivitas deteksi .
pada berbagai Berdasarkan grafik, sistem mempertahankan precision tinggi pada recall rendah hingga menengah, namun precision menurun ketika recall mendekati 1.
Hal ini menunjukkan adanya peningkatan false positive ketika sistem berusaha mendeteksi seluruh objek teks pada rambu jalan.
Tabel 2.
Confusion Matrix Deteksi Area Teks oleh MSER Kategori Jumlah True Positive (TP) False Positive (FP) False Negative (FN) True Negative (TN) Tabel 3.
Kinerja Sistem Pembacaan Rambu Jalan Parameter Nilai Jumlah data uji 8 citra Deteksi berhasil Gambar.
9 Confusion Matrix OCR per karakter Rahman Arifuddin dkk: Detektor MSER dan OCR pada Pembacaan.
E/P-ISSN: 2549-0842/2528 Ae 6498 JTE UNIBA.
Vol.
No.
April 2026 Berdasarkan confusion matrix pada gambar 9, sebagian besar karakter berhasil dikenali dengan benar .
ilai diagonal Kesalahan pengenalan terjadi pada karakter yang memiliki kemiripan bentuk, seperti B dengan E.
G dengan N, serta K dengan R.
Hal ini menunjukkan bahwa kualitas citra
dan bentuk font rambu mempengaruhi performa OCR
KESIMPULAN
Penerapan metode deteksi fitur MSER (Maximally Stable Extremal Region.
untuk melakukan segmentasi teks pada rambu petunjuk jalan dengan memisahkan teks dari latar belakang gambar sehingga memudahkan proses ekstraksi informasi, yang kemudian dilanjutkan dengan pembacaan karakter menggunakan teknologi Optical Character Recognition (OCR) untuk mengubah citra teks menjadi data digital yang dapat diproses secara otomatis.
Kombinasi MSER dan OCR menghasilkan sistem yang mampu mengenali teks rambu secara otomatis dan berpotensi meningkatkan kinerja pengenalan teks pada berbagai aplikasi seperti navigasi otomatis, kendaraan otonom, dan sistem bantuan pengemudi, sekaligus mengurangi ketergantungan pada input manual.
Berdasarkan hasil pengujian, metode MSER mampu mendeteksi area teks dengan nilai precision sebesar 85,7% dan recall sebesar 85,7% sehingga menghasilkan F1-score sebesar 85,7%, sementara sistem OCR menunjukkan rata-rata akurasi pembacaan teks sebesar 91,6%.
Kesalahan deteksi terutama terjadi pada kondisi pencahayaan rendah dan sudut pengambilan citra yang miring, yang mempengaruhi kestabilan region pada proses ekstraksi MSER dan berdampak pada hasil pembacaan OCR.
Dengan demikian, kombinasi teknik MSER dan OCR terbukti efektif untuk segmentasi dan pembacaan karakter pada rambu petunjuk jalan serta berpotensi mendukung pengembangan sistem transportasi dan navigasi yang lebih cerdas dan otonom.
UCAPAN TERIMA KASIH
Terimakasih kepada Program Studi Teknik Elektro Universitas Merdeka Malang dan LPPM Universitas Merdeka Malang atas dukungannya, sehingga artikel ini dapat .
REFERENSI