JSI (Jurnal Sistem Informas.
Universitas Dirgantara Marsekal Suryadarma p-ISSN: 2355-9675 e-ISSN: 2541-3228 Pengenalan Angka Tulisan Tangan Menggunakan Metode Machine Learning Random Forest Mila Rosyada1.
Indriani Zabrina Putri2.
Saskia Aila Virda3 .
Diyas Aditya Adi Saputra4.
Arif Setiawan5 2Sistem Informasi.
Universitas Muria Kudus.
Indonesia.
milarosyada08@gmail.
com, indriputri@gmail.
com, ailavirda7@gmail.
com, diyassaputra@gmail.
setiawan@umk.
Article Info Article history:
Received May 2, 2025 Accepted June 10, 2025 Published July 1, 2025 Kata Kunci:
Random Forest
Pengenalan Angka
Dataset MNIST
Klasifikasi
Akurasi
ABSTRAK
Perkembangan teknologi Artificial Intelligence dan Machine Learning berperan penting dalam pengenalan tulisan tangan.
Tantangan utama dalam pengenalan angka tulisan tangan adalah variasi bentuk antar Penelitian ini mengimplementasikan algoritma Random Forest untuk mengklasifikasikan angka tulisan tangan secara otomatis, menggunakan dataset MNIST berformat CSV.
Model dilatih pada 8.
data dan diuji pada 2.
000 data.
Hasil evaluasi menunjukkan akurasi sebesar 95,20%, dengan 1.
904 prediksi benar.
Nilai rata-rata precision, recall, dan f1-score masing-masing mencapai 0,95, menunjukkan kinerja yang stabil dan akurat.
Efektivitas model tercermin dari kemampuannya mengenali sebagian besar angka secara konsisten, dengan f1-score tertinggi sebesar 0,98.
Efisiensi tercapai melalui waktu pelatihan yang cepat tanpa tuning parameter lanjutan.
Dengan akurasi mencapai 95,20%, nilai f1-score rata-rata sebesar 0,95, serta waktu pelatihan yang cepat tanpa perlu tuning parameter, algoritma Random Forest menunjukkan kemampuan yang sangat baik dalam mengenali angkaangka dengan bentuk konsisten seperti angka 1, untuk menangani variasi tulisan tangan dengan kesalahan klasifikasi yang dapat dijelaskan secara Oleh karena itu.
Random Forest merupakan metode yang potensial untuk sistem pengenalan karakter tulisan tangan, terutama pada aplikasi digitalisasi dokumen dan otomasi sistem ujian.
Corresponding Author:
Mila Rosyada.
Department of Information Systems.
Universitas Muria Kudus.
Email: *milarosyada08@gmail.
PENDAHULUAN
Perkembangan Perkembangan teknologi Artificial Intelligence (AI) dan Machine Learning (ML) dalam beberapa tahun terakhir mengalami kemajuan pesat.
Inovasi ini memperluas kemampuan sistem komputer dalam mengenali pola dan mengambil keputusan secara otomatis di berbagai bidang, termasuk kesehatan, keuangan, hingga pengolahan citra digital (Zhang et al.
, 2.
Salah satu bidang yang mendapatkan perhatian khusus adalah pengenalan angka tulisan tangan, yang berperan penting dalam proses digitalisasi dokumen dan sistem OCR (Optical Character Recognitio.
Teknologi ini memungkinkan otomatisasi input data dari dokumen fisik ke bentuk digital dengan lebih efisien dan akurat (Kim & Lee, 2.
Namun, pengenalan angka tulisan tangan merupakan tantangan kompleks karena adanya variasi gaya menulis, distorsi bentuk, serta ketidakteraturan pada citra yang dihasilkan (Rohmah & Sunaryo, 2.
ISSN: 2355-9675 (PRINT), 2541-3228 (ON LINE)
Berbagai algoritma telah digunakan untuk menangani klasifikasi angka tulisan tangan, antara lain Convolutional Neural Network (CNN).
K-Nearest Neighbor (KNN), dan Support Vector Machine (SVM).
CNN banyak digunakan karena unggul dalam mengekstraksi fitur visual dari citra, namun memerlukan sumber daya komputasi tinggi dan waktu pelatihan yang lebih lama (Rahmawan et al.
KNN memiliki keunggulan dalam implementasi yang sederhana, tetapi performanya sangat bergantung pada pemilihan nilai k dan rentan terhadap dimensi tinggi serta data yang bising (Indra et , 2.
(Awaludin.
Yasin, & Risyda, 2.
Sementara itu.
SVM efektif untuk pemisahan kelas pada data dengan margin besar, tetapi kurang efisien untuk dataset besar seperti MNIST (Lestari & Wibowo, 2.
(Awaludin & Gani, 2.
Dari berbagai studi terkini.
Random Forest tetap menjadi salah satu metode populer karena keunggulannya dalam menangani data berdimensi tinggi, toleransi terhadap overfitting, serta kestabilan hasil klasifikasi.
Random Forest menggabungkan banyak pohon keputusan .
ecision tre.
secara acak untuk membentuk model yang lebih kuat dan generalis (Aulia & Munir, 2.
Studi oleh Putra dan Wirayuda .
menunjukkan bahwa Random Forest memberikan akurasi tinggi dalam klasifikasi angka tulisan tangan dibandingkan metode KNN pada dataset yang sama.
Selain itu, penelitian oleh Indra et al.
menyatakan bahwa Random Forest lebih efisien dibanding CNN dalam konteks sistem pengenalan berbasis fitur sederhana (Awaludin & Amelia.
Dengan menggunakan dataset MNIST yang telah diformat dalam bentuk CSV sebagai benchmark standar dalam pengenalan angka tulisan tangan penelitian ini bertujuan untuk mengevaluasi performa Random Forest dalam klasifikasi angka secara akurat dan efisien.
Pengujian ini memberikan gambaran sejauh mana algoritma ini dapat mengatasi tantangan variasi bentuk angka tulisan tangan dan memberikan solusi yang praktis untuk aplikasi otomasi pengenalan karakter.
Penelitian ini diharapkan dapat memberikan kontribusi signifikan dalam bidang pengolahan citra dan pengenalan pola, khususnya dalam pengembangan sistem OCR yang lebih akurat dan dapat Implementasi Random Forest pada data citra angka tulisan tangan juga membuka peluang untuk integrasi dengan teknologi lain seperti deep learning dan preprocessing citra, guna meningkatkan performa sistem lebih lanjut (Chen & Huang, 2.
Dengan demikian, hasil dari penelitian ini diharapkan tidak hanya bermanfaat secara akademik, tetapi juga dapat diaplikasikan secara luas dalam industri, seperti otomasi administrasi, sistem ujian digital, dan layanan berbasis data tulisan tangan lainnya.
METODE
Penelitian ini menggunakan pendekatan eksperimen kuantitatif dengan menerapkan algoritma Random Forest, salah satu metode supervised learning dalam machine learning yang berbasis pada teknik ensemble learning.
Fokus utama dari penelitian ini adalah pada proses klasifikasi citra angka tulisan tangan menggunakan dataset MNIST yang telah diformat dalam bentuk file CSV.
Seluruh rangkaian proses penelitian dilaksanakan menggunakan bahasa pemrograman Python, dengan dukungan pustaka-pustaka populer seperti Pandas.
Scikit-learn.
Matplotlib, dan Seaborn.
Pengumpulan Data Dataset yang digunakan dalam penelitian ini adalah MNIST (Modified National Institute of Standards and Technolog.
, yaitu kumpulan data yang terdiri dari citra-citra angka tulisan tangan dari 0 hingga 9.
Dataset MNIST dipilih karena telah menjadi benchmark standar dalam berbagai penelitian pengenalan pola visual.
Versi dataset yang digunakan diformat dalam bentuk CSV, di mana setiap baris merepresentasikan sebuah gambar dalam bentuk vektor satu dimensi berisi 784 fitur piksel .
, ditambah satu kolom label yang menunjukkan angka sebenarnya.
Jumlah data yang digunakan adalah 10.
000 baris, yang masing-masing mewakili sebuah gambar angka yang telah diberi label.
Pra-pemrosesan Data (Preprocessin.
Tahapan ini bertujuan untuk mempersiapkan data agar siap digunakan dalam pelatihan model machine learning.
Data dibaca menggunakan fungsi read_csv() dari pustaka Pandas.
Label .
ngka sebenarny.
dipisahkan dari fitur .
ilai-nilai pikse.
dan disimpan dalam variabel y, sedangkan seluruh nilai piksel citra disimpan dalam variabel X.
Karena data telah terstruktur dan bersih, tidak dilakukan proses pembersihan lanjutan seperti penghapusan nilai kosong .
issing valu.
atau normalisasi lanjutan.
Data juga tidak perlu diubah bentuknya karena sudah dalam format tabular.
ISSN: 2355-9675 (PRINT), 2541-3228 (ON LINE) sehingga dapat langsung digunakan oleh algoritma pembelajaran mesin.
Pembagian Dataset Setelah proses pra-pemrosesan selesai, data dibagi menjadi dua subset utama, yaitu data latih .
raining dat.
dan data uji .
esting dat.
Pembagian dilakukan secara acak dengan perbandingan 80% data untuk pelatihan dan 20% untuk pengujian, menggunakan fungsi train_test_split dari pustaka sklearn.
model_selection.
Parameter random_state=42 digunakan untuk menjamin bahwa proses pembagian data dapat direproduksi dengan hasil yang sama pada setiap eksekusi.
Pembangunan dan Pelatihan Model Model klasifikasi yang digunakan dalam penelitian ini adalah Random Forest Classifier, yang merupakan algoritma berbasis pohon keputusan ganda .
ultiple decision tree.
yang digabungkan untuk meningkatkan akurasi dan mengurangi risiko overfitting.
Model dibangun menggunakan pustaka sklearn.
ensemble dengan parameter n_estimators=100, yang berarti model terdiri atas 100 pohon keputusan yang masing-masing dibangun secara acak dari subset data dan fitur.
Pelatihan model dilakukan menggunakan metode .
fit (X_train, y_trai.
untuk memungkinkan model mempelajari hubungan antara pola piksel pada gambar dan label angka sebenarnya.
Setiap pohon dalam Random Forest dilatih secara independen dan prediksi akhir ditentukan melalui mekanisme voting mayoritas.
Evaluasi Model Setelah model selesai dilatih, dilakukan evaluasi terhadap performa model dengan menggunakan data uji.
Prediksi dilakukan menggunakan metode .
predict (X_tes.
, dan hasilnya dibandingkan dengan label asli y_test.
Evaluasi performa mencakup berbagai metrik, yaitu:
Akurasi (Accurac.
: Persentase jumlah prediksi yang benar terhadap keseluruhan data uji.
Precision: Ketepatan model dalam memprediksi kelas tertentu dibandingkan dengan prediksi Recall: Kemampuan model dalam mengenali seluruh anggota suatu kelas dengan benar.
F1-Score: Rata-rata harmonis antara precision dan recall.
Selain evaluasi numerik, juga dilakukan visualisasi hasil prediksi dalam bentuk confusion matrix menggunakan fungsi seaborn.
heatmap, untuk memberikan gambaran distribusi klasifikasi yang benar dan salah antar kelas.
Visualisasi Hasil Prediksi Untuk memberikan pemahaman intuitif mengenai hasil klasifikasi model, dilakukan visualisasi terhadap beberapa contoh citra dari data uji yang dipilih secara acak.
Lima gambar ditampilkan dengan anotasi prediksi dari model dan label sebenarnya menggunakan pustaka matplotlib.
Visualisasi ini membantu dalam memverifikasi apakah model benar-benar mengenali bentuk angka tulisan tangan sesuai dengan label-nya, serta mengamati secara langsung bentuk kesalahan prediksi yang terjadi.
HASIL DAN PEMBAHASAN
Dalam penelitian ini digunakan algoritma Random Forest untuk melakukan klasifikasi angka tulisan tangan menggunakan dataset MNIST, yang terdiri atas ribuan citra digit berukuran 28y28 piksel yang telah dikonversi ke bentuk numerik (CSV).
Setiap baris data mewakili nilai piksel sebagai fitur dan label angka .
Ae.
sebagai target klasifikasi.
Dataset MNIST dapat diakses melalui tautan MNIST Dataset Ae Kaggle.
Data dibagi menjadi 80% untuk pelatihan dan 20% untuk pengujian, 000 data uji.
Model dilatih menggunakan 100 pohon keputusan .
arameter n_estimators = .
tanpa pengaturan parameter lanjutan.
Hasil evaluasi menunjukkan bahwa model Random Forest mampu melakukan klasifikasi dengan akurasi sebesar 95,20%, yang berarti sebanyak 1.
904 dari 2.
000 prediksi terhadap data uji adalah Evaluasi performa model dilakukan menggunakan tiga metrik utama, yaitu precision yang mengukur ketepatan prediksi positif, recall yang mengukur kemampuan model dalam mengenali semua kasus positif, serta f1-score yang merupakan rata-rata harmonis antara precision dan recall.
ISSN: 2355-9675 (PRINT), 2541-3228 (ON LINE)
Tabel 1.
Classification Report Model Random Forest Digit Precision Recall F1-Score Support Total/Average Dari tabel di atas, dapat dilihat bahwa angka 1 memiliki nilai precision tertinggi sebesar 0.
menunjukkan bahwa model hampir selalu benar dalam memprediksi angka ini.
Hal ini logis karena angka 1 secara visual cenderung sederhana dan tidak memiliki banyak variasi bentuk.
Di sisi lain, angka 4 dan 5 menunjukkan nilai recall yang relatif lebih rendah dibanding digit lainnya, yang mengindikasikan bahwa model belum sepenuhnya berhasil mengenali semua variasi dari dua digit Selain tabel klasifikasi, performa model juga divisualisasikan melalui confusion matrix sebagaimana ditunjukkan pada gambar di bawah ini:
ISSN: 2355-9675 (PRINT), 2541-3228 (ON LINE)
Gambar 1.
Confusion Matrix Hasil Prediksi Model Random Forest Analisis confusion matrix memberikan wawasan tambahan mengenai pola kesalahan klasifikasi.
Angka 1 diklasifikasikan dengan sangat akurat, yaitu 212 dari 216 sampel berhasil dikenali dengan Angka 0 juga menunjukkan performa yang baik dengan 200 dari 203 klasifikasi tepat.
Sebaliknya, angka 4 paling sering diklasifikasikan secara keliru sebagai angka 9, sebanyak 10 kasus, yang dapat dijelaskan oleh kemiripan bentuk visual antara keduanya dalam tulisan tangan.
Angka 5 juga menunjukkan kecenderungan salah prediksi sebagai angka 3 atau 4, terutama pada tulisan tangan dengan lengkungan yang menyerupai.
Secara keseluruhan, algoritma Random Forest menunjukkan performa yang kuat dalam klasifikasi angka tulisan tangan, dengan tingkat akurasi yang tinggi dan kesalahan yang dapat dijelaskan secara visual.
Hasil ini menunjukkan bahwa Random Forest merupakan salah satu metode yang andal untuk tugas klasifikasi citra sederhana seperti MNIST.
Kesalahan lain yang terjadi termasuk:
Tabel 2.
Ringkasan Kesalahan Prediksi Berdasarkan Confusion Matrix
True Label
Prediksi yang Sering Salah Frekuensi Kesalahan 2, 4
4, 4
Jika Dari tabel tersebut, dapat dilihat bahwa angka 4 merupakan kelas yang paling sering salah diprediksi, khususnya sebagai angka 9.
Meskipun nilai precision dan recall untuk kelas 4 masingmasing berada di atas 0.
90, hal ini menunjukkan adanya tantangan dalam membedakan karakteristik visual antara angka 4 dan angka 9 dalam beberapa variasi tulisan tangan.
Salah satu penyebab yang mungkin adalah tingginya variasi bentuk tulisan tangan untuk angka 4, yang dapat menyerupai angka 9 dalam kondisi tertentu.
Sebaliknya, angka 1 menunjukkan performa terbaik dengan nilai f1-score tertinggi sebesar 0.
98, yang mengindikasikan bahwa model hampir selalu berhasil mengenali angka ini dengan benar.
Hal ini menunjukkan bahwa angka 1 memiliki bentuk yang lebih konsisten di antara berbagai gaya penulisan tangan, sehingga lebih mudah dikenali oleh model.
Menariknya, meskipun angka 6 dan 8 memiliki struktur yang serupa karena bentuk melingkar, kesalahan antar keduanya relatif rendah.
Ini menunjukkan bahwa model mampu mempelajari perbedaan tekstur, arah lengkungan, dan fitur spasial lainnya yang menjadi pembeda antara kedua angka tersebut.
Model Random Forest yang digunakan dalam penelitian ini diimplementasikan dengan parameter default, yakni jumlah estimator sebanyak 100 pohon keputusan.
Meskipun hasil klasifikasi menunjukkan performa yang cukup baik, terdapat beberapa langkah strategis yang dapat dilakukan untuk meningkatkan kinerja model ke depan.
Pertama, tuning hyperparameter dapat menjadi pendekatan yang efektif untuk mengoptimalkan performa model.
Teknik seperti GridSearchCV atau RandomizedSearchCV memungkinkan pencarian kombinasi parameter terbaik, seperti jumlah estimator, kedalaman maksimum pohon, serta jumlah fitur yang dipertimbangkan dalam setiap pemisahan, guna memperoleh model yang lebih akurat dan efisien.
Peningkatan pada tahap preprocessing citra juga berpotensi meningkatkan akurasi model.
Beberapa teknik yang dapat diterapkan antara lain normalisasi piksel untuk menyamakan skala intensitas, augmentasi data untuk menambah variasi input melalui rotasi atau penskalaan, serta penghapusan noise guna memperjelas fitur utama pada gambar angka.
Perbaikan pada tahap ini diharapkan dapat mengurangi kesalahan prediksi yang disebabkan oleh gangguan visual atau ketidakteraturan bentuk tulisan tangan.
Pendekatan berbasis deep learning seperti Convolutional Neural Networks (CNN) merupakan metode yang sangat potensial untuk tugas klasifikasi angka tulisan tangan.
CNN dikenal unggul dalam menangani data citra karena kemampuannya dalam mengekstraksi fitur spasial secara otomatis dan mendalam, sehingga lebih adaptif terhadap variasi bentuk tulisan tangan yang kompleks.
Misalnya.
ISSN: 2355-9675 (PRINT), 2541-3228 (ON LINE) penelitian oleh Masood et al.
mengembangkan model hibrida CNN-LSTM yang berhasil meningkatkan akurasi dalam klasifikasi karakter tulisan tangan, termasuk pada kasus disleksia.
Demikian pula.
Boufenar et al.
menggabungkan CNN dengan arsitektur Transformer untuk meningkatkan pengenalan tulisan tangan Arab, mencapai akurasi tinggi dalam klasifikasi huruf dan Untuk mendukung efisiensi komputasi, penggunaan teknik reduksi dimensi seperti Principal Component Analysis (PCA) sebelum proses pelatihan juga dapat dipertimbangkan.
PCA mampu mengurangi jumlah fitur masukan tanpa kehilangan informasi penting, sehingga mempercepat proses pelatihan dan meningkatkan kemampuan generalisasi model.
Sebagai contoh, penelitian oleh Ustuner .
menunjukkan bahwa penerapan PCA dalam klasifikasi citra hiperspektral dapat meningkatkan akurasi model sambil mengurangi kompleksitas komputasi.
Lebih lanjut.
Ren et al.
mengembangkan Tensor PCA untuk ekstraksi fitur spektral-spasial, yang menunjukkan peningkatan kinerja dalam klasifikasi citra dibandingkan dengan metode PCA tradisional.
Model Random Forest terbukti dapat mengenali angka tulisan tangan dengan akurasi tinggi sebesar 95,20%.
Confusion matrix menunjukkan bahwa mayoritas angka dikenali dengan baik, namun masih terdapat beberapa kesalahan yang wajar karena kemiripan visual antar angka.
Dengan melakukan optimasi lebih lanjut baik dari segi preprocessing, parameter model, maupun eksplorasi metode lain seperti deep learning, diharapkan hasil klasifikasi bisa mencapai performa yang lebih KESIMPULAN Berdasarkan hasil penelitian, dapat disimpulkan bahwa algoritma Random Forest mampu memberikan performa yang sangat baik dalam tugas klasifikasi angka tulisan tangan menggunakan dataset MNIST.
Dengan akurasi mencapai 95,20%, model menunjukkan ketepatan tinggi dalam mengenali sebagian besar digit, meskipun masih terdapat kesalahan pada beberapa angka yang memiliki kemiripan bentuk visual, seperti angka 4 dan 9.
Evaluasi menggunakan metrik precision, recall, dan f1-score memperkuat bukti bahwa Random Forest efektif dalam menangani variasi gaya tulisan tangan secara konsisten.
Visualisasi melalui confusion matrix serta contoh prediksi memberikan validasi intuitif atas kemampuan model.
Dengan mempertimbangkan peningkatan melalui tuning hyperparameter, augmentasi data, serta integrasi teknologi seperti CNN dan PCA, model ini berpotensi dikembangkan lebih lanjut untuk mencapai klasifikasi yang lebih optimal, baik dari segi akurasi maupun efisiensi komputasi, sehingga sangat aplikatif untuk sistem pengenalan karakter tulisan tangan dalam berbagai konteks industri dan digitalisasi dokumen.
DAFTAR PUSTAKA