Volume 01, No. 1, Juni 2025, Hal. 11-14 e-ISSN : 3109–4163 Implementasi OCR berbasis Tesseract untuk Ekstraksi data kartu mahasiswa UMKLA Muhammad Nashiruddin1, Fiusyam Dhaza Noor Praditya2, Agiel Faiz Mufazzal3, Ardiansyah4 1 Program Studi Teknologi Informasi, Fakultas Kesehatan dan Teknologi, Universitas Muhammadiyah Klaten, Klaten Email: 1Anasruddin050@gmail.com, 2Fiusyamdnp@gmail.com, 3Mufazzalagiel@gmail.com, 4Ardiansyah@umkla.ac.id ABSTRACT —Manual data entry from student ID cards (KTM) is often inefficient and prone to errors. Therefore, automating this process is a crucial solution for educational institutions to improve accuracy and the speed of administrative services. This research aims to design and implement an Optical Character Recognition (OCR) system to automatically extract information from student ID card images of Universitas Muhammadiyah Klaten (UMKLA). The methodology involves image pre-processing using the OpenCV library to enhance image quality through grayscale conversion and Otsu's binarization. Subsequently, the Tesseract OCR Engine is used to convert the image into raw text, which is then parsed using Regular Expressions (Regex) to separate data fields such as Name, Student ID Number (NIM), and Program of Study. Test results indicate that the system can extract information with a good success rate, although accuracy is heavily influenced by image quality factors like lighting and text clarity. Fields with standard printed formats were found to have higher accuracy. In conclusion, this Tesseract-based system successfully demonstrates its feasibility for local automation of student ID card data. However, further development in the post-processing stage is required to handle more complex OCR output variations. KEYWORDS — OCR; Kartu Mahasiswa; Tesseract; Ekstraksi Data; Python INTISARI —Proses input data dari Kartu Tanda Mahasiswa (KTM) yang dilakukan secara manual seringkali tidak efisien dan rentan terhadap kesalahan. Oleh karena itu, otomatisasi proses ini menjadi solusi penting untuk meningkatkan akurasi dan kecepatan layanan administrasi di institusi pendidikan. Penelitian ini bertujuan untuk merancang dan mengimplementasikan sistem Optical Character Recognition (OCR) untuk mengekstraksi informasi dari gambar KTM Universitas Muhammadiyah Klaten (UMKLA) secara otomatis. Metodologi yang digunakan meliputi pra-pemrosesan citra menggunakan pustaka OpenCV untuk meningkatkan kualitas gambar melalui konversi grayscale dan binarisasi Otsu. Selanjutnya, Tesseract OCR Engine digunakan untuk mengubah citra menjadi teks mentah, yang kemudian diurai (parsing) menggunakan Regular Expressions (Regex) untuk memisahkan field data seperti Nama, NIM, dan Program Studi. Hasil pengujian menunjukkan sistem mampu mengekstrak informasi dengan tingkat keberhasilan yang baik, meskipun akurasi sangat dipengaruhi oleh kualitas gambar, seperti pencahayaan dan kejelasan teks. Field dengan format cetak standar terbukti memiliki akurasi lebih tinggi. Kesimpulannya, sistem berbasis Tesseract ini berhasil membuktikan kelayakannya untuk otomatisasi data KTM secara lokal, namun diperlukan pengembangan lebih lanjut pada tahap pasca-pemrosesan untuk menangani variasi hasil OCR yang lebih kompleks. KATA KUNCI — OCR; Kartu Mahasiswa; Tesseract; Ekstraksi Data; Python I. PENDAHULUAN Pemanfaatan teknologi Optical Character Recognition (OCR) telah menjadi solusi esensial dalam digitalisasi dokumen dan otomatisasi proses bisnis di berbagai sektor. Di era digital saat ini, kebutuhan akan efisiensi dan akurasi dalam pengelolaan informasi semakin meningkat, mendorong adopsi teknologi yang mampu mengubah data analog menjadi digital secara otomatis. Dalam konteks institusi pendidikan, pengelolaan data mahasiswa, termasuk identifikasi dan verifikasi melalui kartu mahasiswa, seringkali masih melibatkan proses manual yang rentan terhadap kesalahan, membutuhkan waktu yang lama, dan memakan sumber daya. Kartu mahasiswa memuat informasi krusial seperti Nama, Nomor Induk Mahasiswa (NIM), Program Studi, dan Fakultas. Dengan meningkatnya jumlah mahasiswa dan tuntutan akan efisiensi operasional, pendekatan otomatis untuk mengekstrak data ini menjadi sangat relevan. © Jurnal Keilmuan Teknologi Informasi Volume 01, No. 1, Juni 2025, Hal 11-14 e-ISSN 3109–4163 Penelitian ini bertujuan untuk mengimplementasikan dan mengevaluasi sistem OCR menggunakan Tesseract OCR Engine untuk secara otomatis mengekstrak informasi penting dari gambar kartu mahasiswa Universitas Muhammadiyah Klaten (UMKLA). Berbeda dengan pendekatan berbasis cloud, proyek ini berfokus pada solusi lokal yang dapat dijalankan melalui command prompt atau skrip Python. Diharapkan sistem ini dapat mengurangi beban kerja manual, mempercepat proses data entry, dan meningkatkan akurasi data mahasiswa, meskipun dengan ketergantungan pada kualitas gambar masukan. II. TINJAUAN PUSTAKA Optical Character Recognition (OCR) adalah teknologi yang mengubah berbagai jenis dokumen, seperti gambar yang dipindai atau dokumen cetak, menjadi data teks yang dapat dibaca oleh mesin. Secara umum, sistem OCR bekerja melalui 11 Jurnal Keilmuan Teknologi Informasi Volume 01, No. 1, Juni 2025, Hal 11-14 beberapa tahapan inti, yaitu akuisisi citra, pra-pemrosesan (preprocessing), segmentasi, ekstraksi fitur, pengenalan, dan pascapemrosesan (post-processing) [15]. Pra-pemrosesan menjadi langkah krusial karena kualitas gambar input sangat memengaruhi akurasi hasil akhir [19]. Tesseract OCR Engine, yang dikembangkan oleh HewlettPackard dan kini dikelola oleh Google, merupakan salah satu mesin OCR open-source yang paling populer [17]. Sejak versi 4.0, Tesseract telah mengadopsi arsitektur jaringan saraf tiruan Long Short-Term Memory (LSTM), yang secara signifikan meningkatkan kemampuannya dalam mengenali baris teks secara kontekstual, tidak hanya per karakter [4], [15]. Kemampuan ini, ditambah dengan dukungannya terhadap lebih dari 100 bahasa, membuat Tesseract menjadi pilihan yang kuat untuk berbagai aplikasi, mulai dari deteksi plat nomor kendaraan [16] hingga ekstraksi data pada dokumen seperti KTP [5] dan kartu vaksin [3]. Untuk mencapai akurasi yang tinggi, pra-pemrosesan citra memegang peranan vital. Penelitian oleh Rozi, dkk. [19] menunjukkan bahwa teknik seperti konversi grayscale, binarisasi, dan noise reduction dapat meningkatkan kinerja OCR secara signifikan pada gambar berkualitas rendah. Studi lain juga membandingkan kinerja Tesseract dengan metode lain seperti Template Matching dan EasyOCR. Octaviani, dkk. [9] menemukan bahwa Pytesseract (implementasi Tesseract di Python) memiliki akurasi (98,33%) dan kecepatan yang jauh lebih unggul dibandingkan Template Matching (67,33%) untuk ekstraksi data KTP. Sementara itu, Darpito, dkk. [8] menyimpulkan bahwa EasyOCR cenderung lebih akurat dalam mengenali kata (Word Error Rate lebih rendah) pada dokumen kompleks, meskipun Tesseract unggul dalam kecepatan pemrosesan. Setelah teks mentah diekstraksi oleh OCR, diperlukan tahap pasca-pemrosesan untuk memilah informasi spesifik. Metode yang umum digunakan adalah Regular Expressions (Regex) untuk menemukan pola teks tertentu. Namun, metode ini memiliki keterbatasan jika hasil OCR tidak sempurna. Sebagai alternatif, penelitian telah mengeksplorasi metode yang lebih cerdas seperti pencocokan kata menggunakan Hamming Distance untuk koreksi teks [14] atau Named Entity Recognition (NER) untuk mengidentifikasi dan mengklasifikasikan entitas seperti nama orang, lokasi, dan nomor identitas secara kontekstual [6]. Evaluasi kinerja sistem OCR sendiri idealnya menggunakan metrik standar seperti Character Error Rate (CER) dan Word Error Rate (WER) untuk memberikan ukuran akurasi yang objektif [20]. menggunakan kamera ponsel dengan format JPG. Untuk meningkatkan akurasi OCR, setiap gambar melalui tahap prapemrosesan menggunakan pustaka OpenCV. Langkah-langkah pra-pemrosesan meliputi: • Konversi ke Grayscale: Gambar berwarna diubah menjadi skala abu-abu (cv2.cvtColor()) untuk menyederhanakan analisis kontras teks. • Binarisasi (Thresholding): Gambar grayscale diubah menjadi hitam-putih murni menggunakan metode Otsu (cv2.threshold() dengan flag cv2.THRESH_OTSU). Langkah ini efektif memisahkan teks dari latar belakang. C. Implementasi OCR dengan Tesseract Gambar yang telah dipra-proses kemudian dimasukkan ke Tesseract OCR Engine melalui pytesseract. Konfigurasi spesifik yang digunakan adalah --psm 6 (Page Segmentation Mode) yang mengasumsikan gambar sebagai satu blok teks seragam. Bahasa yang digunakan adalah bahasa Indonesia (ind). Fungsi pytesseract.image_to_string() digunakan untuk mengekstrak seluruh teks dari gambar. D. Ekstraksi Informasi Spesifik dengan Regex Setelah teks lengkap berhasil diekstrak, informasi spesifik seperti Nama, NIM, Tempat Tanggal Lahir, dan Program Studi dipisahkan menggunakan Regular Expressions (Regex) yang diimplementasikan dengan modul re di Python. Pola-pola Regex didesain untuk mencari kata kunci (misalnya, "NAMA :", "NIM :") dan menangkap teks yang mengikutinya. E. Evaluasi Kinerja Akurasi sistem diukur dengan membandingkan hasil ekstraksi OCR dengan data asli (ground truth) pada kartu. Metrik yang digunakan adalah akurasi per field yang dihitung berdasarkan jumlah karakter yang dikenali dengan benar dibagi dengan total karakter asli. IV. HASIL DAN PEMBAHASAN A. Hasil Pengujian dilakukan pada sebuah gambar Kartu Tanda Mahasiswa (KTM) UMKLA dengan kondisi pencahayaan dan resolusi yang baik. Sistem berhasil mengekstrak informasi dari gambar tersebut, dan hasilnya dibandingkan dengan data asli (ground truth) untuk mengukur akurasi. Hasil pengujian disajikan pada Tabel I III. METODOLOGI Metodologi penelitian ini mencakup langkah-langkah dalam pengembangan sistem OCR untuk kartu mahasiswa UMKLA menggunakan Tesseract OCR Engine dan Python. A. Persiapan Lingkungan Pengembangan Lingkungan pengembangan disiapkan menggunakan Python. Pustakapustaka yang diinstal meliputi opencv-python (untuk cv2), pytesseract (sebagai wrapper untuk Tesseract), Pillow, dan re (untuk Regular Expressions). Tesseract OCR Engine versi 5.3.0 diinstal secara lokal pada sistem, dan path ke executable Tesseract diatur dalam skrip Python untuk memastikan pytesseract dapat berfungsi dengan benar. B. Pengumpulan dan Pra-pemrosesan Data Dataset terdiri dari 2 gambar kartu mahasiswa UMKLA yang diambil 12 Jurnal Keilmuan Teknologi Informasi Volume 01, No. 1, Juni 2025, Hal 11-14 Dapat disimpulkan bahwa implementasi OCR berbasis Tesseract merupakan solusi yang layak dan efisien untuk otomatisasi entri data KTM, yang berpotensi mengurangi waktu kerja manual dan human error. Untuk pengembangan di masa depan, disarankan untuk mengimplementasikan metode pascapemrosesan yang lebih canggih, seperti algoritma koreksi teks atau validasi berbasis aturan, untuk menangani dan memperbaiki kesalahan pengenalan karakter secara otomatis, sehingga dapat meningkatkan keandalan sistem secara keseluruhan. REFERENSI [1] C. Padole, U. S. Verma, P. Gujral, M. Kumar, I. Bajpai, and D. Mitra, "Information Extraction from Visiting Cards Using OCR and PostProcessing in Python," International Journal of Scientific and Technical Research in Engineering (IJSTRE), vol. 7, no. 5, hlm. 1-7, Sep-Okt 2022. [2] G. Sugiarta, D. P. Andini, and S. Hidayatullah, "Ekstraksi Informasi/Data e-KTP Menggunakan Optical Character Recognition Convolutional Neural Network," JTERA (Jurnal Teknologi Rekayasa), vol. 6, no. 1, hlm. 1-6, Jun. 2021. [3] Wahyuddin and A. Hasim, "APLIKASI EKSTRAKSI DATA KARTU VAKSIN BERBASIS WEB MENGGUNAKAN METODE OCR," JURNAL SINTAKS LOGIKA, vol. 3, no. 2, hlm. 52-57, Mei 2023. [4] O. O. Patience, E. M. Amaechi, O. George, and O. N. Isaac, "Enhanced Text Recognition in Images Using Tesseract OCR within the Laravel Framework," Asian Journal of Research in Computer Science, vol. 17, no. 9, hlm. 58-69, 2024. [5] M. Haris, M. G. Suryanata, and M. Yetri, "Implementasi OCR Menggunakan Algoritma Template Matching Correlation Pada Pengarsipan e-KTP," Jurnal Teknologi Sistem Informasi dan Sistem Komputer TGD, vol. 6, no. 2, hlm. 281-289, Jul. 2023. [6] S. Fritz, V. Srikanthan, R. Arbai, C. Sun, J. Ovtcharova, and H. Wicaksono, "Automatic Information Extraction from Text-Based Requirements," International Journal of Knowledge Engineering, vol. 7, no. 1, hlm. 8-13, Jun. 2021. [7] Y. Li, "Synergizing Optical Character Recognition: A Comparative Analysis and Integration of Tesseract, Keras, Paddle, and Azure OCR," M.S. thesis, School of Computer Science, Univ. of Sydney, Sydney, NSW, 2024. [8] M. N. Darpito, K. Firdausy, and A. Fadlil, "Perbandingan Unjuk Kerja Library Optical Character Recognition (OCR) dalam Pengenalan Teks pada Dokumen Digital," JIP (Jurnal Informatika Polinema), vol. 11, no. 3, hlm. 273-281, Mei 2025. [9] T. Octaviani, H. Setiawan, and O. H. Kelana, "PERBANDINGAN PYTESSERACT DAN TEMPLATE MATCHING UNTUK OTOMATISASI INPUT DATA KTP," Jurnal Buana Informatika, vol. 14, no. 2, hlm. 147-156, Nov. 2023. [10] R. S. Bahri and I. Maliki, "PERBANDINGAN ALGORITMA TEMPLATE MATCHING DAN FEATURE EXTRACTION PADA OPTICAL CHARACTER RECOGNITION," Jurnal Komputer dan Informatika (KOMPUTA), vol. 1, no. 1, hlm. 29-35, Mar. 2012. [11] Y. Reswan, R. Raffles, A. Wijaya, and Y. Apridiansyah, "PENERAPAN ALGORITMA OCR UNTUK EKSTRAKSI INFORMASI DARI CITRA KARTU TANDA MAHASISWA (KTM)," JATI (Jurnal Mahasiswa Teknik Informatika), vol. 8, no. 5, Okt. 2024. [12] R. Surya, "Peningkatan Akurasi OCR dalam Pemrosesan Formulir Keuangan melalui Fine-Tuning Transformer dan Strategi Pra-pemrosesan Data," Jurnal Inovasi Informatika (JII), vol. 7, no. 2, hlm. 1-12, Apr. 2025. [13] Y. Sun, X. Mao, S. Hong, W. Xu, and G. Gui, "Template matching-based method for intelligent invoice information identification," IEEE Access, vol. 7, hlm. 28392-28401, 2019. [14] R. R. Brillian and S. Agustin, "Pencocokan Kata dalam Optical Character Recognition Menggunakan Metode Hamming Distance," Universitas Muhammadiyah Gresik, 2023. [15] A. M. Syahputri, B. Harijanto, and C. Rahmad, "IMPLEMENTASI OPTICAL CHARACTER RECOGNITION (OCR) UNTUK MENINGKATKAN AKURASI DAN KECEPATAN INPUT DATA DI POSYANDU," JIP (Jurnal Informatika Polinema), vol. 11, no. 1, hlm. 4550, Nov. 2024. [16] A. Meirza and N. R. Puteri, "Implementasi Metode YOLOV5 dan Tesseract OCR untuk Deteksi Plat Nomor Kendaraan," Jurnal Ilmu Komputer dan Desain Komunikasi Visual, vol. 9, no. 1, hlm. 424-435, Jul. 2024. [17] A. K. Siliwangi and Y. D. Prabowo, "Pencarian Informasi Berbasis Teks dalam Komik Digital Menggunakan OCR," KALBISIANA: Jurnal Mahasiswa Institut Teknologi dan Bisnis Kalbis, vol. 8, no. 2, hlm. 18861894, Mei 2022. B. Pembahasan Berdasarkan hasil pengujian pada Tabel I, sistem menunjukkan performa yang sangat tinggi dengan rata-rata akurasi di atas 95%. Sebagian besar field seperti Nama, NIM, Program Studi, dan Fakultas berhasil diekstraksi dengan akurasi sempurna (100%). Hal ini menunjukkan bahwa kombinasi pra-pemrosesan citra (grayscaling dan binarisasi) dan Tesseract OCR sangat efektif untuk mengenali teks dengan format cetak yang jelas dan standar. Satu-satunya kesalahan terdeteksi pada field TTL (Tempat, Tanggal Lahir), di mana angka tahun "2004" salah dikenali sebagai "3004". Ini adalah contoh klasik dari kesalahan substitusi karakter dalam OCR, di mana bentuk angka '2' yang sedikit tidak sempurna pada gambar mungkin dikenali sebagai angka '3' oleh Tesseract. Meskipun kesalahan ini kecil, hal ini menyoroti kelemahan OCR yang sensitif terhadap variasi kecil pada bentuk karakter, bahkan dalam gambar yang berkualitas baik. Temuan ini mengkonfirmasi bahwa meskipun Tesseract sangat andal, ia tidak sepenuhnya sempurna dan masih memerlukan mekanisme validasi atau koreksi lebih lanjut, terutama untuk data numerik yang krusial. Penggunaan algoritma pasca-pemrosesan yang lebih cerdas, seperti yang disarankan oleh Brillian & Agustin [14], dapat menjadi solusi untuk memverifikasi dan memperbaiki kesalahan semacam ini di masa depan. V. KESIMPULAN Penelitian ini telah berhasil mengimplementasikan sistem untuk ekstraksi data otomatis dari Kartu Tanda Mahasiswa (KTM) Universitas Muhammadiyah Klaten menggunakan Tesseract OCR Engine dengan dukungan pustaka OpenCV dan Python. Sistem yang dikembangkan mampu melakukan prapemrosesan citra dan mengekstrak informasi tekstual dengan tingkat akurasi yang sangat tinggi, di mana sebagian besar field data berhasil dikenali dengan sempurna. Hasil pengujian menunjukkan bahwa metode yang diusulkan sangat efektif untuk data dengan format teks yang jelas dan standar. Namun, ditemukan adanya kesalahan substitusi karakter pada data numerik, yang menggarisbawahi bahwa performa Tesseract masih sensitif terhadap variasi kecil dalam bentuk karakter, bahkan pada citra berkualitas baik. 13 Jurnal Keilmuan Teknologi Informasi Volume 01, No. 1, Juni 2025, Hal 11-14 [18] S. M. Angela and A. Eviyanti, "Development Of Optical Character Recogition Technology In Flutter For Text Detection In Images," Universitas Muhammadiyah Sidoarjo, 2024. [19] A. Rozi, et al., "Improving OCR Performance on Low-Quality Image Using Pre-processing and Post-processing Methods," International Journal of Engineering and Technology, vol. 71, no. 6, 2023. [20] S. Kundu, et al., "A Novel Pipeline for Improving Optical Character Recognition through Post-processing Using Natural Language Processing," arXiv preprint, 2023. 14