[E-ISSN 2656-0.
[Vol 20 No .
[Januari 2.
IMPLEMENTASI MSER DAN OPTICAL CHARACTER
RECOGNITION (OCR) UNTUK DETEKSI TEKS PADA
GAMBAR
Anisya Sonita a,1.
Yulia Darnita b,2.
Yovi Apridiansyah c,3*.
Ardi Wijaya d,4.
Agung Kharisma Hidayah .
Rahmat Karindara f,6, a ,b,c,d,e,f Universitas Muhammadiyah Bengkulu.
Jl.
Bali.
Kp.
Bali.
Kec.
Tlk.
Segara.
Kota Bengkulu.
Bengkulu 38119 1anisyasonita@umb.
2yuliadarnita@umb.
3yoviapridiansyah@umb.
4ardiwijaya@umb.
5kharisma@umb.
6karindrarahmat@gmail.
* corresponding author
ARTICLE INFO
ABSTRACT
Keywords Computer Vision.
Text Detection.
MSER.
OCR.
Image Processing This research develops a text detection system in images by implementing the integration of Maximally Stable Extremal Regions (MSER) and Optical Character Recognition (OCR) methods.
The main problem addressed is the limitation of text detection accuracy in images with complex background variations, different resolutions, and uneven lighting conditions.
The research methodology involves data collection of 100 image samples from signboards in the surrounding environment, followed by preprocessing stages including MSER implementation for identifying stable regions with similar pixel intensity that potentially contain text, and OCR application for recognizing text from extracted The system testing was conducted using confusion matrix with precision, recall, and accuracy parameters.
The research results show that the developed system successfully achieved high performance with precision of 98%, recall of 94%, and accuracy of 94%.
The MSER method proved effective in detecting text candidate regions despite variations in font, size, and orientation, while OCR demonstrated good capability in character recognition from the detected regions.
This integration provides a robust and practical solution for automatic text detection applications in various real-world scenarios.
Pendahuluan Perkembangan teknologi informasi yang pesat telah menghasilkan volume data visual yang sangat besar, dimana sebagian besar informasi tersebut tersimpan dalam bentuk gambar yang mengandung teks .
Permasalahan mendasar dalam deteksi teks pada gambar terletak pada kompleksitas variasi karakteristik teks yang dapat muncul dalam berbagai kondisi.
Teks pada gambar tidak hanya bervariasi dalam hal ukuran, jenis font, dan orientasi, tetapi juga menghadapi tantangan dari aspek lingkungan seperti pencahayaan yang tidak merata, latar belakang yang kompleks, dan distorsi geometris.
Kondisi ini semakin dipersulit oleh keberadaan noise pada gambar serta variasi kualitas resolusi yang dapat mempengaruhi keterbacaan teks .
Tantangan-tantangan tersebut menuntut pengembangan pendekatan yang tidak hanya robust terhadap variasi kondisi, tetapi juga mampu memberikan akurasi yang konsisten dalam berbagai skenario penggunaan.
Penelitian sebelumnya telah mengeksplorasi berbagai pendekatan untuk mengatasi permasalahan deteksi teks pada gambar dengan mengembangkan metode real-time scene text localization and recognition yang memanfaatkan extremal regions untuk deteksi kandidat karakter, kemudian menggunakan classifier untuk memvalidasi dan mengelompokkannya menjadi kata .
Pendekatan ini menunjukkan efektivitas dalam menangani teks pada scene natural dengan akurasi yang cukup baik.
https://doi.
org/10.
47111/JTI
Available online at https://e-journal.
id/index.
php/JTI [E-ISSN 2656-0.
[Vol 20 No .
[Januari 2.
Sementara itu.
Fransiskus et al.
mengusulkan pendekatan deep learning untuk reading text in the wild, yang mengintegrasikan convolutional neural networks untuk deteksi region dan word recognition secara end-to-end .
Pendekatan berbasis MSER telah mendapat perhatian khusus dari para peneliti karena kemampuannya dalam mendeteksi region yang stabil terhadap perubahan threshold.
Anugrahita .
melakukan investigasi mendalam tentang efficient maximally stable extremal region (MSER) tracking, yang memberikan fondasi teoritis kuat untuk aplikasi MSER dalam text detection .
Hasil penelitian mereka menunjukkan peningkatan signifikan dalam precision dan recall dibandingkan dengan metode tradisional.
Dalam konteks OCR, perkembangan teknologi recognition telah mengalami evolusi dari pendekatan rule-based hingga deep learning approaches .
Susetianingtias .
memperkenalkan connectionist temporal classification yang memungkinkan training RNN untuk sequence recognition tanpa memerlukan pre-segmented data, yang kemudian menjadi pondasi untuk modern OCR systems .
Averick .
mengembangkan ASTER (An Attentional Scene Text Recognize.
yang mengintegrasikan spatial transformer networks dengan attention mechanism untuk menangani irregular text recognition.
Pendekatan ini menunjukkan kemampuan superior dalam menangani teks yang mengalami distorsi perspektif atau transformasi geometris .
Penelitian tentang kombinasi detection dan recognition methods juga telah menunjukkan hasil yang promising.
mengusulkan deep TextSpotter untuk end-to-end scene text spotting, yang mengintegrasikan text detection dan recognition dalam single neural network architecture.
Sistem ini mampu melakukan simultaneous detection dan recognition dengan shared feature representations, sehingga meningkatkan efisiensi computational dan konsistensi hasil .
Pendekatan serupa juga dikembangkan oleh Banu .
mengenai Convolutional Recurrent Neural Network (CRNN) dalam Pengenalan Karakter Optik (OCR) untuk industri pos yang memberikan gambaran tentang OCR dan penggunaan jaringan saraf serta dataset dalam OCR.
Kesimpulannya menyoroti potensi untuk mencapai akurasi yang lebih tinggi dalam pengenalan karakter tulisan tangan menggunakan CNN .
Kebaruan yang ditawarkan dalam penelitian ini meliputi pengembangan adaptive MSER parameter optimization yang dapat menyesuaikan diri dengan characteristics gambar input, design novel filtering mechanisms untuk reducing false positives dari MSER detection results, serta implementation intelligent preprocessing pipeline yang dapat enhance image quality secara optimal untuk OCR Selain itu, penelitian ini juga akan menghasilkan comprehensive benchmark evaluation yang membandingkan performance sistem yang dikembangkan.
Kontribusi ini diharapkan dapat memberikan insights berharga bagi pengembangan text detection systems yang lebih robust dan praktis untuk various real-world applications.
Metodologi Penelitian Kerangka penelitian merupakan proses tahapan yang dilakukan dalam sebuah penelitian secara sistematis, mulai dari identifikasi masalah hingga memperoleh hasil.
Kerangka ini berfungsi sebagai panduan agar penelitian berjalan terarah, konsisten, dan sesuai tujuan yang telah ditetapkan .
, .
, .
https://doi.
org/10.
47111/JTI
Available online at https://e-journal.
id/index.
php/JTI [E-ISSN 2656-0.
[Vol 20 No .
[Januari 2.
Gambar 1.
Metode Eksperimen Gambar tersebut menampilkan kerangka penelitian dalam bentuk flowchart yang menjelaskan tahapan penelitian mengenai deteksi teks pada gambar.
Proses penelitian dimulai dengan tahap literatur, yaitu mencari penelitian-penelitian terdahulu yang relevan dengan topik deteksi teks pada gambar.
Selanjutnya dilakukan pengumpulan data berupa citra gambar yang diambil dari papan merek di lingkungan sekitar, dengan jumlah total 100 sampel.
Tahapan dalam metode pelaksanaan eksperimen ini adalah sebagai berikut .
, .
Identifikasi Pengumpulan Data Pre-processing Tahap Pengujian Gambar 2.
Metode Pengembangan Eksperimen Identifikasi Masalah Identifikasi masalah mendasar, yaitu keterbatasan akurasi deteksi teks pada gambar dengan variasi kompleksitas latar belakang, resolusi berbeda, dan kondisi pencahayaan tidak merata.
Masalah utama yang perlu diatasi mencakup false positive pada deteksi MSER dan kesalahan pengenalan karakter oleh OCR, terutama untuk teks berukuran kecil atau dengan font tidak biasa.
Pengumpulan Data Pada tahap ini, data melibatkan akuisisi dataset gambar yang beragam, gambar alami .
cene tex.
, dan foto dengan berbagai kondisi pencahayaan.
Dataset ini memperhatikan distribusi yang seimbang untuk berbagai skenario sulit seperti teks miring, distorsi perspektif, atau latar belakang bertekstur.
Jumlah data yang akan digunakan sebanyak 100 data citra dengan ketentuan tersebut.
Gambar 3.
Sampel Citra https://doi.
org/10.
47111/JTI
Available online at https://e-journal.
id/index.
php/JTI [E-ISSN 2656-0.
[Vol 20 No .
[Januari 2.
Pre-proccessing Pada tahap ini melibatkan pra-pemrosesan gambar yang mencakup konversi ke hitam putih, normalisasi intensitas, dan penerapan filter untuk mengurangi noise.
Pada tahap ini, teknik seperti adaptive thresholding atau CLAHE (Contrast Limited Adaptive Histogram Equalizatio.
dapat diaplikasikan untuk meningkatkan kontras teks terhadap latar belakang.
Selanjutnya adalah deteksi wilayah teks menggunakan MSER.
Algoritma ini bekerja dengan menganalisis variasi intensitas piksel pada berbagai level threshold untuk mengidentifikasi region-region stabil yang potensial mengandung Parameter MSER seperti delta, area minimum/maksimum, dan stabilitas perlu dioptimalkan melalui serangkaian eksperimen untuk mendapatkan hasil deteksi yang optimal.
Tahap selanjutnya meliputi post-processing hasil deteksi MSER, termasuk Penyaringan region berdasarkan ukuran dan aspek rasio, penggabungan region yang berdekatan, pembentukan bounding box untuk setiap wilayah teks terdeteksi.
Tahap terakhir adalah pengenalan karakter menggunakan OCR.
Pada tahap ini, wilayah teks yang telah terdeteksi diproses oleh mesin OCR untuk dikonversi menjadi teks.
Pengujian Pada tahap ini evaluasi sistem menggunakan confusion matrix dengan metrik utama precision, recall, dan f1-score untuk mengukur performa deteksi dan akurasi pengenalan.
Analisis mendalam terhadap false positive dan false negative dilakukan untuk mengidentifikasi pola kesalahan sistem, baik yang berasal dari keterbatasan MSER dalam menghadapi tekstur kompleks maupun kelemahan OCR dalam mengenali karakter tertentu.
Hasil evaluasi ini menjadi dasar untuk perbaikan iteratif sistem melalui penyesuaian parameter dan penambahan kasus pelatihan yang ditargetkan.
Hasil dan Pembahasan Hasil penelitian penerapan MSER dan OCR untuk deteksi teks pada gambar menghasilkan sebuah sistem deteksi teks pada citra dengan desain interface yang memudahkan dalam proses deteksi teks, dimana setiap proses dari deteksi teks ditampilkan dengan metode MSER dan OCR serta hasil teks yang disimpan kedalam bentuk format .
Gambar 4.
Proses Deteksi Teks pada Citra Load Image Tahapan pertama dimulai dengan fungsi load Image yang memungkinkan pengguna memilih file gambar dengan format yang didukung (JPG.
PNG.
BMP.
TIF).
Sistem secara otomatis melakukan resize gambar jika ukurannya melebihi 1200 piksel untuk mengoptimalkan performance processing sambil mempertahankan aspect ratio.
Gambar kemudian dikonversi dari RGB ke grayscale menggunakan fungsi rgb2gray untuk mempersiapkan tahap preprocessing selanjutnya.
Sistem juga melakukan validasi untuk memastikan gambar berhasil dimuat dengan benar sebelum melanjutkan ke tahap berikutnya.
https://doi.
org/10.
47111/JTI
Available online at https://e-journal.
id/index.
php/JTI [E-ISSN 2656-0.
[Vol 20 No .
[Januari 2.
Gambar 5.
Input Citra Gambar 6.
Ctra Threshold MSER Detection Deteksi MSER (Maximally Stable Extremal Region.
merupakan tahapan inti dalam identifikasi kandidat text regions.
Sistem menggunakan fungsi detectMSERFeatures dengan parameter yang telah dioptimasi, yaitu RegionAreaRange .
, 10.
untuk membatasi ukuran region yang dideteksi.
ThresholdDelta 3 untuk mengontrol stabilitas region terhadap perubahan threshold, dan MaxAreaVariation 0.
25 untuk membatasi variasi area region yang diterima.
MSER bekerja dengan cara mengidentifikasi region yang stabil ketika threshold binarisasi berubah secara bertahap, sehingga cocok untuk mendeteksi teks yang memiliki kontras konsisten dengan background.
Gambar 7.
MSER Detection Geometric Filtering Geometric filtering merupakan tahapan penting untuk mengeliminasi false positives dari hasil deteksi MSER.
Sistem menggunakan regionprops untuk menghitung berbagai properti geometris dari setiap region, termasuk BoundingBox.
Eccentricity.
Solidity.
Extent, dan EulerNumber.
Parameter filtering yang diterapkan meliputi aspect ratio threshold 10 untuk mengeliminasi region yang terlalu memanjang atau terlalu lebar, eccentricity threshold 0.
995 untuk menyaring region yang terlalu oval atau memanjang, solidity threshold 0.
3 untuk mengeliminasi region yang memiliki terlalu banyak lubang atau irregular shape, extent threshold .
2, 0.
untuk menyaring region berdasarkan rasio area region terhadap bounding box, dan Euler number threshold -4 untuk mengeliminasi region dengan terlalu banyak holes.
Proses filtering dilakukan dengan membuat boolean index yang mengidentifikasi region-region yang tidak memenuhi kriteria geometris yang telah ditetapkan.
Region yang tidak lolos filtering akan dieliminasi dari kandidat text regions, sehingga hanya region dengan karakteristik geometris yang sesuai dengan teks yang akan dilanjutkan ke tahap berikutnya.
Hasil filtering ditampilkan dengan update jumlah region yang tersisa setelah proses geometric filtering.
Stroke Width Transform Filtering Stroke Width Transform (SWT) filtering merupakan teknik advanced untuk memvalidasi kandidat text regions berdasarkan karakteristik stroke width teks.
Untuk setiap region yang lolos geometric filtering, sistem melakukan padding pada region image dan menghitung distance transform menggunakan bwdist untuk mendapatkan jarak setiap pixel terhadap boundary region.
https://doi.
org/10.
47111/JTI
Available online at https://e-journal.
id/index.
php/JTI [E-ISSN 2656-0.
[Vol 20 No .
[Januari 2.
Gambar 7.
Stroke Width Transform Filtering Text Region Merging dan Bounding Box Formation Tahapan merging text regions bertujuan untuk menggabungkan region-region yang berdekatan dan kemungkinan merupakan bagian dari kata atau kalimat yang sama.
Sistem mengekstrak bounding box dari setiap region yang lolos filtering dan melakukan ekspansi sebesar 5% untuk memberikan margin yang cukup.
Kemudian dilakukan pengecekan overlap ratio antara semua pasangan bounding boxes menggunakan fungsi bboxOverlapRatio untuk mengidentifikasi region-region yang saling tumpang tindih atau berdekatan.
Gambar 8.
Text Region Merging Optical Character Recognition (OCR) Tahapan OCR merupakan langkah final dalam pipeline text detection and recognition.
Sistem menggunakan MATLAB OCR engine dengan konfigurasi parameter yang optimal, termasuk language setting .
efault 'eng'), character set yang comprehensive, dan text layout 'Block' untuk menangani multiline text.
OCR dijalankan pada preprocessed image dengan bounding boxes yang telah ditentukan dari tahap sebelumnya, sehingga processing fokus hanya pada region-region yang benar-benar mengandung Gambar 9.
Teks OCR Gambar 10.
Hasil Deteksi Teks Pengujian Confussion Matrix.
Dalam proses deteksi karakter teks 100 data uji tersebut, banyak proses yang dilalui sehingga menghasilkan deteksi karakter teks, factor-faktor seperti resolusi, pencahayaan dan objek yang terlihat seperti teks serta font juga mempengaruhi hasil yang diharapkan, akan tetapi MSER berhasil https://doi.
org/10.
47111/JTI
Available online at https://e-journal.
id/index.
php/JTI [E-ISSN 2656-0.
[Vol 20 No .
[Januari 2.
mendapatkan hasil region teks yang ada pada citra tersebut sehingga dapat disimpulkan dari pengujian 100 data tersebut diperoleh hasil sebagai berikut.
ycEycyceycaycnycycycnycuycu = ycIyceycaycaycoyco = ycU 100% = 0.
98 = 98%
ycU 100% = 0.
94 = 94%
Aycaycaycycycaycayc = 81 13 1 5 ycU 100% = 0.
94 = 94 %
Hasil penelitian menunjukkan bahwa uji coba tingkat akurasi deteksi karakter teks menggunakan metode MSER dan OCR dengan evaluasi confusion matrix menghasilkan kinerja yang sangat baik.
Tingkat precision atau ketepatan sistem dalam menghasilkan informasi yang sesuai dengan yang diinginkan mencapai 98%, menunjukkan bahwa sebagian besar karakter yang terdeteksi benar-benar relevan.
Sementara itu, nilai recall atau kemampuan sistem dalam menemukan kembali seluruh informasi yang relevan adalah sebesar 94%, yang mengindikasikan bahwa sistem mampu mendeteksi sebagian besar karakter yang ada.
Secara keseluruhan, tingkat accuracy atau keberhasilan sistem dalam mencocokkan hasil prediksi dengan nilai aktual yang diberikan berada pada kategori sangat tinggi, menunjukkan bahwa metode yang digunakan efektif dalam mendeteksi karakter teks secara akurat.
Kesimpulan Berdasarkan hasil penelitian implementasi MSER dan OCR untuk deteksi teks pada gambar, dapat disimpulkan bahwa sistem yang dikembangkan berhasil mencapai kinerja yang sangat baik dengan tingkat akurasi keseluruhan sebesar 94%.
Integrasi antara metode MSER untuk tahap deteksi dan OCR untuk tahap pengenalan karakter terbukti efektif dalam mengatasi tantangan deteksi teks pada gambar dengan berbagai kondisi kompleksitas latar belakang, variasi pencahayaan, dan karakteristik teks yang Sistem menunjukkan precision yang sangat tinggi sebesar 98%, menandakan kemampuan yang excellent dalam meminimalkan false positive, serta recall sebesar 94% yang menunjukkan efektivitas dalam mendeteksi sebagian besar teks yang sebenarnya ada dalam gambar.
Tahapan preprocessing yang mencakup konversi grayscale.
Gaussian blur, median filtering, contrast enhancement, dan adaptive thresholding terbukti berkontribusi signifikan dalam meningkatkan kualitas input untuk proses deteksi selanjutnya.
Implementasi geometric filtering dan Stroke Width Transform filtering berhasil mengurangi false positives dari hasil deteksi MSER, sementara tahap text region merging memungkinkan sistem untuk menggabungkan region-region yang berdekatan menjadi unit teks yang lebih bermakna.
Penelitian ini memberikan kontribusi berupa framework yang dapat diadaptasi untuk berbagai aplikasi text detection dalam dunia nyata, dengan potensi pengembangan lebih lanjut melalui optimasi parameter adaptif dan integrasi dengan teknologi deep learning untuk meningkatkan akurasi pada kondisi yang lebih challenging.
Daftar Pustaka