744 Progresif: Jurnal Ilmiah Komputer https://ojs. stmik-banjarbaru. id/index. php/progresif/index Jl. Ahmad Yani. 33,5 - Kampus STMIK Banjarbaru Loktabat - Banjarbaru (Tlp. , e-mail: puslit. stmikbjb@gmail. e-ISSN: 2685-0877 Analisis Komparatif Unjuk Kerja Model Vision Transformers Dengan ConvNeXt Dalam Rekognisi Citra Warangka Keris Bali DOI: http://dx. org/10. 35889/progresif. Creative Commons License 4. 0 (CC BY AeNC) Ni Putu Widya Yuniari1*. Gde Wikan Pradnya Dana2. I Gede Wira Darma3 Teknik Komputer. Universitas Warmadewa. Denpasar. Indonesia *e-mail Corresponding Author: putu. widyayuniari@warmadewa. Abstract The application of attention mechanisms in image recognition has emerged as a new paradigm in computer vision, serving as a foundational approach in generative AI. Two state-of-the-art models frequently referenced in recent studies are Vision Transformers (ViT), introduced by Google, and ConvNeXt, developed by Meta (Faceboo. AI Research. However, their application in recognizing local cultural imagery, such as the warangka . of the Balinese keris, remains highly limited. The urgency of this study lies in evaluating the effectiveness of AI models in supporting technology-based cultural preservation. This study aims to compare the unjuk kerjance of these two models in handling the classification and recognition of warangka keris (Balinese kris sheath. The methodology involves data augmentation, feature extraction, patch processing . or ViT), model construction, evaluation, and image recognition analysis using GradCAM. The dataset comprises a combination of primary and secondary sources. Primary data were collected through field visits to kris-making workshops in Bali, while secondary data were obtained from previous studies. The kris sheath image classes used in this study include: 'Sesrengatan', 'Kojongan', 'Batun Poh', 'Kekandikan', and 'Beblatungan'. The study successfully developed image classification models, achieving an accuracy of 82% with the ViT model and 97% with the ConvNeXt model. The recognition process effectively highlighted the most significant regions of each image, providing valuable insight for future generative AI research. Keywords: Attention. ConvNeXt. Keris Bali. Vision Transformers Abstrak Penerapan attention dalam rekognisi citra menjadi pendekatan baru dalam pengenalan gambar dan berpotensi menjadi benchmark dalam pengembangan kecerdasan buatan generatif. Dua model terkini yang banyak diteliti adalah Vision Transformers (ViT) dari Google dan ConvNeXt dari Meta AI. Namun, penerapan keduanya dalam pengenalan citra budaya lokal seperti warangka keris Bali masih sangat terbatas. Urgensi penelitian ini terletak pada upaya mengevaluasi efektivitas model kecerdasan buatan dalam mendukung pelestarian budaya berbasis teknologi. Penelitian ini bertujuan untuk membandingkan performa ViT dan ConvNeXt dalam klasifikasi serta rekognisi citra warangka keris Bali. Metode yang digunakan meliputi augmentasi data, ekstraksi fitur, proses patching . ntuk ViT), pembuatan model, pengujian, serta analisis grad cam. Data yang digunakan merupakan gabungan data primer . asil kunjungan ke workshop pembuatan keris Bal. dan data sekunder dari berbagai sumber. Citra keris yang digunakan antara lain: AoSesrengatanAo. AoKojonganAo. AoBatun PohAo. AoKekandikanAo, dan AoBeblatunganAo. Hasil menunjukkan akurasi 82% (ViT) dan 97% (ConvNeX. , serta bagian penting citra berhasil dikenali sebagai benchmark generatif. Kata kunci: Attention. ConvNeXt. Keris Bali. Vision Transformers Pendahuluan Dalam beberapa tahun terakhir, bidang computer vision . engenalan gambar oleh kompute. mengalami kemajuan pesat, terutama sejak diperkenalkannya mekanisme attention Analisis Komparatif Unjuk Kerja Model Vision Transformers a. Ni Putu Widya Yuniari Progresif e-ISSN: 2685-0877 dalam tugas-tugas rekognisi dan pengenalan gambar oleh kecerdasan buatan (AI) . Mekanisme ini memungkinkan komputer fokus pada bagian terpenting dari sebuah gambar, baik dengan maupun tanpa teknik konvolusi. Kemajuan ini dimulai sejak diterbitkannya paper AuAttention is All You NeedAy oleh Google Brain dan University of Toronto pada tahun 2017 . Awalnya digunakan di bidang Natural Language Processing (NLP), model-model ini kini telah dikembangkan untuk tugas-tugas visual. Teknologi ini juga menjadi dasar penting bagi generative AI . ecerdasan buatan generativ. yang bersifat multimodal, mampu menggabungkan teks dan gambar dalam satu sistem . Dalam konteks pelestarian budaya, pendekatan ini penting untuk merekam dan memperkenalkan objek budaya yang bersifat benda . secara digital . Teknik ini juga memungkinkan dokumentasi budaya dilakukan dalam bentuk digital yang dapat dipertanggungjawabkan keasliannya secara objektif . , dan pada akhirnya bisa menjadi sarana baru dalam pelestarian serta alih media objek-objek budaya . Salah satu objek budaya yang penting untuk dilestarikan adalah keris Bali. Keris bukan sekadar perlengkapan upacara, tetapi menyimpan makna filosofis, historis, dan menjadi bagian penting dari identitas sosial masyarakat Bali . Dalam antropologi Bali, keris juga menyimpan cerita, ritus, hingga mantra yang bersifat multimodal . Bahkan, keris dapat mewakili eksistensi pemiliknya secara simbolik maupun langsung . Urgensi ini semakin nyata karena minat generasi muda terhadap profesi pande . embuat keri. terus menurun. Salah-satunya terjadi pada Desa Sawan dimana jumlah wangsa pande menurun dari 45 orang di tahun 2021 hingga hanya menjadi 43 orang di tahun 2023. Bahkan di beberapa desa seperti Bukti. Bengkala, dan Sanggalangit, tidak ditemukan lagi pembuat keris . Fakta ini menunjukkan bahwa pelestarian keris tidak bisa lagi hanya mengandalkan pewarisan tradisional. Diperlukan media dan pendekatan baru yang mampu mendokumentasikan serta menyimpan nilai budaya keris secara digital agar tidak hilang ditelan waktu . Salah satu penelitian terbaru yang menerapkan mekanisme attention dalam computer vision khususnya pada pendekatan preservasi budaya adalah penelitian yang dilakukan oleh Sihananto dkk pada tahun 2024. Penelitian ini membandingkan unjuk kerja empat model deep learning dalam klasifikasi jenis-jenis Wayang. Adapun model yang diuji adalah satu model berbasis transformers yaitu Vision Transformers (ViT) dan tiga buah model berbasis konvolusi yaitu ResNet. YOLOv5 dan YOLOv8. Penelitian ini menunjukan bahwa model Vision Transformers memiliki kinerja yang paling barik dengan akurasi mencapai 91,3%. Penelitian ini menyimpulkan bahwa mekanisme attention seperti ViT mampu menangkap kompleksitas visual Wayang dengan sangat baik . Penelitian kedua dilakukan oleh Tran dkk pada tahun 2025. Penelitian ini membahas klasifikasi citra Intangible Cultural Heritage . arisan budaya takbend. di kawasan Delta sungai Mekong. Vietnam. Penelitian ini mengklasifikasikan gambar ICH ke dalam 17 kategori, yang mencakup berbagai praktik tradisional, pertunjukan, dan ekspresi budaya khas Delta Mekong. Uniknya penelitian ini hanya menggunakan Vision Trasnformers (ViT) untuk ekstraksi fitur dan kemudian dilakukan mekanisme fine tuning untuk membuat model baru degan konsep stacking menggunakan logistic regression. Penelitian ini menyimpulkan bahwa model Vision Transformer (ViT) memiliki potensi kuat dalam menangkap kompleksitas visual ICH yang dikenal rumit . Penelitian ketiga dilakukan oleh Pei dkk pada tahun 2023. Penelitian ini berfokus pada pengenalan material benda peninggalan budaya menggunakan computer vision dan attention mechanism, dengan tujuan memahami hubungan antara bahan benda budaya dan atribut budaya dari dinasti tertentu. dalam hal ini, budaya Tiongkok tradisional. Penelitian dilakukan dengan memperkaya model berbasis konvolusi yaitu Efficient Net dengan menggunakan mekanisme attention. Teknik ini diperlukan untuk menekankan bagian gambar yang paling relevan untuk pengenalan material. Penelitian ini menghasilkan akurasi pengenalan material mencapai 88,15%, dengan rata-rata presisi sebesar 83,3% . Penelitian keempat dengan pendekatan multimodal dilakukan oleh Fan dkk pada tahun Penelitian ini berfokus pada pengembangan model klasifikasi citra warisan budaya takbenda pada lukisan tradisional untuk Tahun Baru Imlek dan patung-patung dari tanah liat. Penelitian ini bertujuan membantu masyarakat mengenali serta melestarikan budaya tersebut. Penelitian ini menerapkan mekanisme attention yang berfokus pada fitur visual dari gambar, dengan mempertimbangkan deskripsi teks yang menyertai gambar. Model yang digunakan adalah Multimodal Interaction and Cross-Modal Learning Framework (MICMLF) yang menggabungkan Multimodal Attention dan Hierarchical Fusion. Penelitian ini mengungguli beberapa metode canggih lainnya dalam hal akurasi klasifikasi . Penelitian kelima dengan pendekatan information retrieval dilakukan oleh Gao dkk pada tahun 2023. Penelitian ini Analisis Komparatif Unjuk Kerja Model Vision Transformers a. Ni Putu Widya Yuniari 746 e-ISSN: 2685-0877 mengembangkan sebuah pendekatan berbasis deep learning yang diperkaya dengan mekanisme attention untuk klasifikasi dan image retrieval . encarian citr. pada warisan arsitektur diaspora Tionghoa di Jiangmen. Guangdong. Tiongkok. Model yang digunakan dalam penelitian ini adalah Convolutional Neural Network Attention Retrieval Framework (CNNAR). Penelitian ini menghasilkan akurasi hingga 98,3% . Berdasarkan penelitian pertama, penelitian kedua, dan penelitian ketiga dapat ditunjukkan bahwa mekanisme attention berperan baik dalam proses pengenalan citra kebudayaan yang dikenal rumit seperti: wayang, ukiran, patung, relief dan bahkan arsitektur. Artinya mekanisme ini telah berhasil menjalankan fungsinya untuk menetapkan bagian-bagian terpenting yang membedakan suatu citra dengan citra lainnya, baik dengan mekanisme satu model . enelitian pertam. , maupun dengan mekanisme hybrid ataupun stacking . enelitian kedua dan ketig. Pada penelitian keempat, kita dapat melihat fungsi lain dari mekanisme transformers, yaitu dapat menggabungkan pendekatan multimodal untuk memperkaya informasi citra. Pada penelitian kelima kita dapat melihat implementasinya dimana model-model ViT baik yang sudah diperkaya dengan multimodal maupun tidak, dapat digunakan untuk information retrieval. Namun ada dua hal yang perlu dikritisi dan menjadi tantangan dari kelima penelitian diatas. Hal pertama adalah objek kajiannya. Berdasarkan hal ini, ditunjukkan bahwa belum adanya penelitian yang membahas citra senjata tradisional, khususnya Keris Bali dengan pendekatan attention secara Adapun objek kajian senjata tradisional masih berlangsung pada mekanisme konvolusi dengan pendekatan deep learning. Berikutnya, yang menjadi kritik dari berbagai penelitian diatas adalah dominasi model Vision Transformers pada berbagai penelitian. Padahal masih terdapat model lain seperti NAS dan ConvNeXt. Kendati kurang populer dalam ranah studi akademis, kedua model tersebut dapat memperkaya khazanah pemikiran kita dalam mencari bentuk-bentuk terbaik dalam upaya preservasi budaya berbasis mekanisme attention. Studi awal ini mengarahkan peneliti untuk mengevaluasi relevansi penggunaan modelmodel attention pada objek budaya berupa senjata tradisional, khususnya Keris Bali, serta mengkaji potensi penerapan model-model alternatif dalam tugas serupa. Berdasarkan latar belakang tersebut, penelitian ini dilakukan untuk menganalisis rekognisi citra pada objek senjata tradisional Keris Bali melalui pendekatan komparasi antara model Vision Transformers (ViT) dan ConvNeXt dengan tujuan mengidentifikasi model yang paling optimal. Penelitian ini diharapkan dapat memperkaya khazanah pengetahuan baik bagi peneliti maupun pengembang, serta menjadi benchmark pengambilan kebijakan dari berbagai stakeholder dalam upaya preservasi budaya berkelanjutan berbasis teknologi. Metodologi . Alur Penelitian Adapun alur dari penelitian ini dapat dilihat pada Gambar 1. Penelitian ini dimulai dengan pengumpulan dataset. Dataset yang digunakan merupakan kombinasi antara data primer dan data sekunder. Data primer didapatkan dengan kunjungan langsung ke workshop pembuatan keris di Bali, sementara data skunder didapatkan dari berbagai penelitian terdahulu. Adapun citra keris yang digunakan adalah: 'Sesrengatan', 'Kojongan', 'Batun Poh', 'Kekandikan', 'Beblatungan'. Penelitian kemudian dilanjutkan dengan melakukan augentasi gambar untuk menghasiLkan berbagai pola gambar yang berbeda. Adapun metode augmentasi yang digunakan adalah: flip, rotation, noising dan contrast engineering. Selanjutnya, penelitian ini dilanjutkan dengan tahap pre-processing yang bertujuan untuk menyamakan dimensi gambar menjadi 150px x 150px. Kemudian dilanjutkan dengan proses ekstraksi fitur mengubah data menjadi vector embedding. Karena dimensi dari masing-masing gambar sudah direengineering menjadi 150px x 150px, dan vector warna yang digunakan adalah RGB . , maka dimensi vector embedding yang terbentuk dari tiap gambar adalah 150 x 150 x 3. Dimensi ini juga yang akan menjadi dimensi input pada model uji kita. Kemudian kumpulan data vektor tersebut dibagi menjadi data training dan data testing. Data training digunakan untuk pelatihan model, dan data testing digunakan untuk pengujian. Rasio pembagian data training dan data testing adalah 50:50. Rasio ini dipilih untuk mempertahankan kehandalan pada pengujian dengan tetap mepertahankan unjuk kerja pelatihan. Hal ini dikarenakan jumlah data yang tidak imbang dan dikhawatirkan terjadi bias jika jumlah data training atau testingnya terlalu sedikit. Kemudian penelitian dilanjutkan dengan membangun dua buah model, yaitu Vision Transformers (ViT) dan ConvNeXt. Terakhir, untuk memastikan model berjalan dengan sempurna, dilakukan pengujian dengan Convusion Matrix. Classification Report dan Grad Cam Progresif: Vol. No. Agustus 2025: 744-758 Progresif e-ISSN: 2685-0877 Gambar 1. Diagram Alur Penelitian . Dataset Dataset yang dikumpulkan pada penelitian ini adalah dataset warangka Keris Bali. Bagian ini dipilih karena menyimpan banyak memori antropologi dan kebudayaan dalam setiap bentuk dan ukirannya. Artinya, bagian ini bukan hanya menyimpan memori estetika, melainkan juga hermeneutika yang membagi masyarakat bali dalam berbagai sub-kultur serta berbagai ritus dan adat kebudayaan lainnya . Bagian ini juga yang paling terlihat daripada bagian keris lainnya, seperti bilah maupun handle Keris. Adapun bagian warangka dalam desain Keris Bali dapat dilihat pada Gambar 2. Gambar 2. Bagian-bagian Keris Bali Dataset warangka Keris Bali yang digunakan pada penelitian ini, terbagi menjadi data primer dan data skunder. Data primer didapatkan dari pengumpulan data langsung di beberapa workshop pembuatan keris wangsa pande. Sementara data skunder didapatkan dari berbagai penelitian Adapun jenis warangka yang berhasil dikumpulkan adalah 'Sesrengatan', 'Kojongan', 'Batun Poh', 'Kekandikan' dan 'Beblatungan'. Beberapa sampelnya dapat dilihat pada Gambar 3. Analisis Komparatif Unjuk Kerja Model Vision Transformers a. Ni Putu Widya Yuniari e-ISSN: 2685-0877 Gambar 3. Sampel Dataset Warangka Keris Bali . Augmentasi Gambar Augmentasi gambar pertujuan untuk melakukan re-engineering gambar pada gambar yang sama untuk menghasilkan pola atau bentuk gambar yang lain . Adapun metode augmentasi yang digunakan pada penelitian ini antara lain: : flip, rotation, noising & contrast Sampelnya dapat dilihat pada Gambar 4. Gambar 4. Sampel Hasil Augmentasi . Pre-Processing Pre-processing merupakan tahapan yang dilakukan dengan memberikan perlakuan khusus pada gambar secara seragam sebelum masuk ke tahap pemrosesan lebih lanjut . Tahapan ini menjadi penting untuk menyamakan dimensi data dan vektor embedding yang terbentuk, sehingga data dapat diproses oleh model. Teknik pre-processing yang digunakan dalam penelitian ini adalah menyamakan dimensi data pada dimensi 150px x 150px. Jadi datadata gambar yang memiliki dimensi yang berbeda akan di-kompresimaupun diekspansi pada dimensi tersebut. Teknik ini tidak akan merusak struktur gambar, karena dataset awal yang dimiliki sudah memiliki rasio 1:1, sehingga walaupun dikompresi maupun diekspansi, strukturnya akan tetap sama . Patching Patching adalah teknik untuk membagi data menjadi kolom-kolom vektor tertentu sebelum memasuki pemorsesan lebih lanjut . Teknik ini diperlukan pada model berbasis Vision Transformers (ViT) sebagai pengganti konvolusi . Hal ini dikarenkan model ViT tidak menggunakan modul konvolusi untuk membagi gambar menjadi patch-patch tertentu dan mengambil bagian terpenting . Salah satu sampel dari proses patching pada penelitian ini dapat dilihat pada Gambar 5. Gambar 5. Sampel Hasil Patching . Ekstraksi Fitur Ekstraksi fitur merupakan proses krusial dalam tugas-tugas pengenalan pola dan analisis citra digital secara komputasi. Tahapan ini bertujuan untuk mereduksi kompleksitas data visual dengan merepresentasikan informasi penting dari sebuah gambar dalam bentuk numerik. Hal ini dikarenakan mesin tidak dapat langsung memproses sebuah gambar, melainkan pola komputasi Progresif: Vol. No. Agustus 2025: 744-758 Progresif e-ISSN: 2685-0877 dari gambar tersebut . Karena dimensi gambar sudah diubah menjadi 150px x 150px dan vektor warna yang digunakan adalah RGB . , maka vektor hasil ekstraksi fitur pada penelitian ini akan memiliki dimensi 150 x 150 x 3. Skema ekstraksi fitur yang digunakan pada penelitian ini dapat dilihat pada Gambar 6. Gambar 6. Mekanisme Ekstraksi Fitur Pada Penelitian . Arsitektur Vision Transformers (ViT) Vision Transformers (ViT) merupakan sebuah arsitektor deep learning berbasis transformers yang digunakan untuk tugas-tugas pengolahan citra. Model ini pertama kali diperkenalkan oleh Dosovitskiy et al. pada tahun 2020 yang merupakan tim dari Google Research, khususnya Google Brain . Model ini bertujuan menggantikan arsitektur konvolusional (CNN) tradisional dalam tugas visi komputer . Arsitektur model ViT dapat dilihat pada Gambar 7. Gambar 7. Arsitektur Vision Transformers (ViT) . Meskipun revolusioner, model ViT juga memiliki tantangan dimana unjuk kerjanya akan sangat turun jika dataset pelatihannya kecil . Untuk mengatasi hal ini, beberapa model ViT kemudian dilakukan proses fine-tuning dengan menambahkan beberapa layer konvolusi agar bisa menangkap bagian terpenting dari setiap patch data . Pada penelitian ini, model ViT yang digunakan adalah model hasil fine-tuning yang sudah diperkaya dengan arsitektur LeNet menjadi arsitektur LeViT. Model enhancement ini dipilih karena ringan dan tidak banyak mengubah struktur model . Arsitektur ConvNeXt Arsitektur model ConvNeXt dapat dilihat pada Gambar 8. Analisis Komparatif Unjuk Kerja Model Vision Transformers a. Ni Putu Widya Yuniari e-ISSN: 2685-0877 Gambar 8. Arsitektur Model ConvNeXt . ConvNeXt merupakan arsitektur jaringan saraf berbasis konvolusional (CNN) modern yang dikembangkan untuk menjawab tantangan dominasi model vision transformer dalam tugastugas computer vision . Tidak hanya menjadi model alternatif, melainkan melibatkan pengayaan pada beberapa fitur untuk menjawab tantangan ViT pada dataset kecil . Tidak seperti Vision Transformer (ViT) yang mengandalkan mekanisme self-attention. ConvNeXt tetap mempertahankan struktur hierarkis dan efisien namun dengan mengikuti cara berpikir mekanisme attention untuk mendapatkan fitur terpenting . ConvNeXt dikembangkan oleh tim Facebook AI Research (FAIR) dan pertama kali diperkenalkan pada tahun 2022 . Karena sudah berbasis konvolusi, model ini tidak perlu lagi melakukan patching atau menambahkan layer konvolusi diluar arsitektur utama. Artinya, data hasil ekstraksi fitur dapat langsung digunakan . Sama seperti arsitektur Vision Transformers (ViT), arsitektur ConvNeXt juga sudah diperkaya dengan kemampuan multimodal . Artinya model ini dapat menggabungkan datadata image dengan jenis data lainnya seperti text. Artinya gambar citra warangka Keris Bali yang diperoleh dapat diperkaya dengan keterangan mengenai ritus, teknologi tradisional, hingga objek pemajuan kebudayaan lainnya yang berbasis text. Kemampuan ini menjadikan ConvNeXt tetap reliable untuk digunakan pada penelitian ini. Kemampuan ini juga yang membuatnya setara dengan ViT, dan layak untuk dijadikan model alternatif dalam berbagai studi yang melibatkan pemrosesan kontekstual . Arsitektur ConvNeXt memiliki banyak varian, antara lain: ConvNeXt-T (Tin. ConvNeXtS (Smal. ConvNeXt-B (Bas. ConvNeXt-L (Larg. ConvNeXt-XL (Extra Larg. Semua varian memiliki arsitektur dasar yang sama, hanya jumlah blok dan dimensi channel yang Varian ConvNeXt yang digunakan pada penelitian ini adalah ConvNeXt Tiny. Hal ini dikarenakan kebutuhan yang relatif kecil yang hanya sebagai benchmark untuk multimodal pada berbagai penelitian berikutnya. Kebutuhan penelitian ini membuatnya tetap valid karena arsitektur ini sering digunakan pada penelitian tahap awal . Varian ini juga terkenal ringan dan efisien, sehingga ocok untuk eksperimen cepat dengan daya komputasi terbatas. Unjuk kerjanya juga tinggi, hampu mengungguli ResNet-50 pada ImageNet walau arsitekturnya lebih kecil . Teknik Analisis Data Analisis dilakukan dengan menguji seluruh data testing pada model ViT dan ConvNeXt yang sudah dilatih sebelumnya. Kemudian hasil prediksi tersebut dibandingkan dengan data yang Dalam melakukan pengujian ini, metode yang digunakan adalah Confusion Matrix. Confusion matrix adalah matriks pengukuran yang membandingkan antara data hasil prediksi dengan data yang sebenarnya pada setiap kelas . Contoh confusion matrix dapat dilihat pada Gambar 9. Empat komponen utama dalam confusion matrix yaitu True Positive (TP). True Negative (TN). False Positive (FP), dan False Negative (FN) menjadi dasar untuk menghitung berbagai metrik evaluasi seperti akurasi, presisi, recall, dan F1-score. Progresif: Vol. No. Agustus 2025: 744-758 Progresif e-ISSN: 2685-0877 Gambar 9. Contoh Confusion Matrix . Metrik evaluasi model pertama yang digunakan adalah akurasi. Akurasi mengukur seberapa banyak prediksi model yang benar dibandingkan dengan seluruh prediksi yang Rumus untuk menghitung akurasi model dari confusion matrix adalah sebagai berikut: ycayca = ycNycE ycNycA ycNycE yaycE ycNycA yaycA Metrik evaluasi model kedua yang digunakan adalah precision. Precision mengukur proporsi prediksi positif yang benar. Rumus untuk menghitung precision dari confusion matrix adalah sebagai berikut: ycyceycaycnycycnycuycu = ycNycE ycNycE yaycE Metrik evaluasi ketiga yang digunakan adalah recall. Recall mengukur kemampuan model untuk menemukan semua kasus positif yang sebenarnya ada. Rumus untuk menghitung recall dari confusion matrix adalah sebagai berikut: ycIyceycaycaycoyco = ycNycE ycNycE yaycA Metrik pengujian terakhir yang digunakan adalah f1-score. F1-Score adalah harmonik rata-rata dari presisi dan recall, digunakan untuk menyeimbangkan keduanya. Rumus untuk menghitung recall dari confusion matrix adalah sebagai berikut: ya1 = ycEycyceycaycnycycnycuycuO ycIyceycaycaycoyco ycEycyceycaycnycycnycuycu ycIyceycaycaycoyco Hasil dan Pembahasan . Model Vision Transformers Setelah melakukan pelatihan pada 30 iterasi, didapatkan trend akurasi yang menunjukan peningkatan yang signifikan, sementara trend loss menunjukan penurunan yang signifikan. Hal ini mengindikasikan bahwa proses pembelajaran pada model Vision Transformers (ViT) berlangsung dengan baik. Grafik unjuk kerja akurasi dan loss selama proses training pada model Vision Transformers (ViT) dapat dilihat pada Gambar 10. Grafik pada Gambar 10 menunjukan akurasi pelatihan meningkat secara konsisten dari awal hingga akhir proses pelatihan, dengan kecenderungan mencapai nilai mendekati maksimum . ekitar 99%) setelah epoch ke-10. Sementara itu, akurasi validasi juga menunjukkan peningkatan yang cukup tajam pada fase awal, lalu mencapai titik stabil di kisaran 82Ae85% mulai sekitar epoch ke-7. Sementara itu, grafik nilai loss memperlihatkan penurunan selama beberapa epoch awal dan menunjukan sagnansi setelahnya, yang mengindikasikan keberhasilan optimasi dalam menurunkan fungsi objektif. Stabilitas akurasi dan loss ini menunjukkan bahwa model telah menemukan representasi yang relevan dan dapat digeneralisasi terhadap data yang tidak terlihat Analisis Komparatif Unjuk Kerja Model Vision Transformers a. Ni Putu Widya Yuniari e-ISSN: 2685-0877 Gambar 10. Trend Akurasi . dan Loss . pada pelatihan model Vision Transformers (ViT) Gambar 11. Confision Matrix Pengujian Model ViT Setelah proses training selesai, kemudian berikutnya akan dilakukan proses pengujian pada model Vision Transformers yang sudah dilatih. Tujuannya untuk mengetahui unjuk kerja akhir model pada data pengujian. Proses ini dilakukan dengan menggunakan data testing yang sudah disiapkan. confusion matrix dari hasil pengujian model ViT dapat dilihat pada Gambar 11. Dari Gambar 11 Dapat dilihat bahwa sebagian besar data testing berhasil diprediksi dengan baik, hanya saja masih terdapat beberapa error atau kesalahan prediksi yang menghasilkan unjuk kerja yang kurang memuaskan. Kemudian dari confusion matrix pada Gambar 11 dapat dihitung akurasi, precision, recall dan f1-score nya. Hasilnya dapat dilihat pada Tabel 1. Tabel 1. Hasil Pengujian Model ViT Label 0 (Batun Po. 1 (Kekandika. 2 (Kojonga. 3 (Sesrengata. 3 (Beblatunga. Akurasi Precision Recall F1-Score Berdasarkan hasil pada Tabel 1 dapat ditunjukkan bahwa akurasi model secara keseluruhan hanya 82% dan data yang memiliki f1-score paling rendah adalah warangka jenis Batun Poh dan Kekandikan. Progresif: Vol. No. Agustus 2025: 744-758 Progresif e-ISSN: 2685-0877 Model ConvNeXt Setelah melakukan pelatihan pada 15 iterasi, didapatkan trend akurasi yang menunjukan peningkatan yang signifikan, sementara trend loss menunjukan penurunan. Hal ini mengindikasikan bahwa proses pembelajaran pada model ConvNeXt berlangsung dengan baik. Grafik unjuk kerja akurasi dan loss selama proses training pada model ConvNeXt dapat dilihat pada Gambar 12. Gambar 12. Trend Akurasi . dan Loss . Pada Model ConvNeXt Grafik pada Gambar 12 menunjukan bahwa akurasi pelatihan mengalami peningkatan yang sangat cepat sejak awal, dan stabil di atas 97% mulai dari epoch ke-3. Peningkatan ini bahkan lebih cepat dari model ViT. Sementara loss pelatihan menurun tajam selama tiga epoch pertama dan kemudian terus menurun perlahan hingga mendekati nol. Loss pada data validasi menunjukkan sedikit fluktuasi, namun sebagian besar tetap berada dalam kisaran rendah . ibawah 0,. Hal ini mengindikasikan proses pelatihan yang efisien dan kestabilan model dalam mengenali struktur data. Hal ini menunjukan bahwa ConvNeXt tidak hanya mempelajari data pelatihan dengan baik, tetapi juga mempertahankan stabilitas prediksi terhadap data validasi. Setelah proses training selesai, kemudian berikutnya akan dilakukan proses pengujian pada model ConvNeXt yang sudah dilatih. Tujuannya untuk mengetahui unjuk kerja akhir model pada data pengujian. Proses ini dilakukan dengan menggunakan data testing yang sudah Confusion matrix dari hasil pengujian model ConvNeXt dapat dilihat pada Gambar 13. Gambar 13. Confusion Matrix Model ConvNeXt Dari Gambar 13 dapat dilihat bahwa jumlah data yang berhasil diklasifikasikan dengan baik oleh ConvNeXt jauh lebih banyak daripada model ViT. Meskipun begitu, error masih terlihat pada beberapa data namun dengan jumlah yang lebih sedikit. Kemudian dari confusion matrix pada Gambar 13 dapat dihitung akurasi, precision, recall dan f1-score nya. Hasilnya dapat dilihat pada Tabel 2. Analisis Komparatif Unjuk Kerja Model Vision Transformers a. Ni Putu Widya Yuniari e-ISSN: 2685-0877 Tabel 2. Hasil Pengujian Model ConvNeXt Label 0 (Batun Po. 1 (Kekandika. 2 (Kojonga. 3 (Sesrengata. 4 (Beblatunga. Akurasi Precision Recall F1-Score Berdasarkan hasil pada Tabel 2 dapat ditunjukkan bahwa akurasi model secara keseluruhan mencapai 97%. Nilai ini jauh lebih tinggi dari akurasi yang dihasilkan oleh ViT. Eksperimen Eksperimen dilakukan untuk menunjukan apakah model dapat fokus untuk mendeteksi objek tertentu pada fitur yang bersifat diskriminatif. Semakin terfokus, maka semakin baik model dalam memahami konteks gambar. Metode yang digunakan adalah Grad CAM. Hasilnya dapat dilihat pada Gambar 14. Visualisasi Grad-CAM pada Gambar 14 . yang menggunakan model ViT dan Gambar 14 . yang menggunakan model ConvNeXt menunjukkan perbedaan signifikan dalam pola aktivasi spasial terhadap objek warangka keris. Model ViT memperlihatkan distribusi aktivasi yang lebih menyebar, termasuk pada area latar belakang, yang mengindikasikan bahwa model ini belum sepenuhnya mampu memfokuskan perhatian hanya pada fitur diskriminatif dari objek Hal ini dapat menyebabkan sensitivitas terhadap noise dan potensi kesalahan klasifikasi. Sebaliknya, model ConvNeXt menunjukkan pola aktivasi yang lebih terfokus pada bagian tengah objek, khususnya pada area yang merepresentasikan bentuk utama warangka keris. Aktivasi yang terlokalisasi dengan baik ini menandakan kemampuan ConvNeXt dalam mengidentifikasi fitur representatif secara lebih selektif dan efisien, sekaligus menunjukkan generalisasi spasial yang lebih baik. Gambar 14. Hasil Eksperimen Grad CAM Pada Model ViT . dan model ConvNeXt . Pembahasan Berdasarkan hasil pelatihan dan pengujian, model ConvNeXt memiliki kinerja lebih baik daripada model Vision Transformers (ViT). Hal ini ditinjau dari unjuk kerja training, pengujian dengan confusion matrix, akurasi model, hingga hasil eksperimen dengan menggunakan Grad CAM. Perbandingan proses pelatihan antara model Vision Transformer (ViT) dan ConvNeXt menunjukkan dinamika konvergensi dan generalisasi yang berbeda secara signifikan. Pada grafik ViT . , terlihat bahwa akurasi pelatihan meningkat tajam hingga mendekati 1, sementara akurasi validasi . al_accurac. mengalami stagnasi di kisaran 0. 75 setelah sekitar epoch ke-10. Sementara itu, nilai val_loss pada ViT tidak menunjukkan penurunan yang stabil, namun cenderung fluktuatif setelahnya. Sebaliknya, grafik ConvNeXt . memperlihatkan proses pelatihan yang lebih stabil dan efisien. Berdasarkan confusion matrix hasil klasifikasi menggunakan model Vision Transformer (ViT), model menunjukkan unjuk kerja yang cukup baik pada beberapa kelas, meskipun masih terdapat kesalahan klasifikasi antar kelas. Kelas Kojongan . memiliki tingkat akurasi tertinggi dengan 173 citra yang berhasil diklasifikasikan dengan benar dari total keseluruhan instance-nya, serta sedikit kesalahan prediksi ke kelas lain. Demikian pula, kelas Batun Poh . juga menunjukkan unjuk kerja yang kuat dengan 144 prediksi yang benar, meskipun beberapa citra salah diklasifikasikan ke kelas Kekandikan . dan Sesrengatan . Untuk kelas Kekandikan . Progresif: Vol. No. Agustus 2025: 744-758 Progresif e-ISSN: 2685-0877 terdapat 94 prediksi yang benar, namun juga terlihat cukup banyak kekeliruan ke kelas Batun Poh dan Kojongan, yang mengindikasikan adanya kemiripan visual antar kelas tersebut. Sementara itu, kelas Sesrengatan . memiliki 108 prediksi yang benar, namun cukup sering tertukar dengan kelas Batun Poh dan Kekandikan, menunjukkan bahwa model mungkin mengalami kesulitan membedakan fitur visual antara kelas-kelas ini. Kelas Beblatungan . tampaknya merupakan kelas yang paling sulit dikenali oleh model, dengan hanya 63 prediksi yang benar dan sejumlah besar citra yang diklasifikasikan salah ke kelas Batun Poh. Kekandikan, dan Sesrengatan. Hal ini menunjukkan bahwa representasi fitur untuk kelas Beblatungan kemungkinan besar kurang terserap dengan baik oleh model, atau bisa juga disebabkan oleh distribusi data yang tidak seimbang atau kemiripan visual yang tinggi dengan kelas lain. Secara keseluruhan, meskipun model menunjukkan kinerja yang baik pada kelas-kelas tertentu, diperlukan peningkatan, terutama dalam membedakan kelas-kelas yang memiliki karakteristik visual serupa. Confusion matrix dari model ConvNeXt menunjukkan dominasi prediksi yang benar pada setiap kelas, khususnya pada kelas Kojongan . dengan 166 prediksi benar, serta Sesrengatan . dan Batun Poh . dengan 141 dan 150 prediksi benar secara berturut-turut. Kesalahan klasifikasi antar kelas pada ConvNeXt juga sangat minim dan cenderung tidak menyebar, mengindikasikan kemampuan representasi spasial yang lebih tajam dalam membedakan ciri visual dari masing-masing warangka. Hasil visualisasi Grad-CAM terhadap klasifikasi objek warangka keris Bali memperlihatkan perbedaan mendasar dalam distribusi atensi spasial antara model Vision Transformer (ViT) dan ConvNeXt. Grad-CAM pada model ViT menunjukkan pola aktivasi yang cenderung menyebar, termasuk pada area latar belakang gambar. Hal ini mengindikasikan bahwa ViT belum sepenuhnya mampu membedakan bagian-bagian penting dari objek utama secara spesifik. Aktivasi yang tidak terfokus dapat menyebabkan penurunan akurasi klasifikasi, terutama bila objek memiliki fitur visual yang mirip antar kelas. Sebaliknya, visualisasi Grad-CAM dari model ConvNeXt menunjukkan konsentrasi aktivasi yang lebih terarah dan terfokus pada area utama dari warangka keris, khususnya bagian tengah dan kontur dominan objek. Atensi yang terlokalisasi ini mencerminkan bahwa ConvNeXt berhasil mengenali fitur-fitur visual yang lebih relevan dan representatif terhadap label kelas. Fokus spasial yang baik ini memperkuat bukti bahwa ConvNeXt memiliki pemahaman fitur visual yang lebih dalam, dan lebih efisien dalam membedakan antar kelas berdasarkan informasi morfologis yang signifikan. Penelitian ini memberikan perspektif baru terhadap efektivitas arsitektur deep learning dalam klasifikasi citra budaya. Berbeda dengan penelitian sebelumnya seperti oleh Sihananto et . Tran et al. , dan Pei et al. , yang menempatkan Vision Transformer (ViT) sebagai model pilihan utama, hasil penelitian ini menunjukkan bahwa ConvNeXt mampu memberikan kinerja yang lebih baik. ConvNeXt menunjukkan konvergensi pelatihan yang lebih stabil, kesalahan klasifikasi antar kelas yang lebih rendah, serta hasil visualisasi Grad-CAM yang lebih terfokus pada objek utama. Hal ini menunjukkan kemampuan representasi spasial yang lebih tajam dibandingkan ViT, khususnya dalam membedakan fitur visual halus antar kelas warangka keris Bali. Dengan demikian, penelitian ini memperkuat pemahaman bahwa arsitektur konvolusional modern seperti ConvNeXt tetap relevan dan bahkan mampu menghasilkan kinerja lebih baik dalam konteks klasifikasi citra budaya lokal yang Simpulan Berdasarkan hasil pembahasan, dapat disimpulkan bahwa secara keseluruhan ConvNeXt menunjukkan keunggulan yang jelas dalam aspek kestabilan pelatihan, kecepatan konvergensi, dan kemampuan generalisasi dibandingkan dengan ViT. Hal ini dapat ditunjukkan dari akurasi model yang tinggi pada ConvNeXt mencapai 97%, dibandingkan dengan model ViT yang hanya menyentuh angka 82%. Dari hasil Grad CAM juga menunjukan bahwa ConvNeXt berhasil memberikan atensi yang lebih baik dalam mendeteksi bagian terpenting benda. Dengan demikian, dapat disimpulkan bahwa ConvNeXt tidak hanya unggul dalam unjuk kerja klasifikasi secara numerik, tetapi juga lebih efisien dalam mengalokasikan perhatian model ke bagianbagian penting dari citra, yang merupakan indikator penting dalam evaluasi model berbasis Hal ini dapat dikaitkan dengan arsitektur ConvNeXt yang menggabungkan kekuatan konvolusi modern dengan efisiensi distribusi perhatian spasial, menjadikannya lebih adaptif terhadap data visual kompleks seperti warangka keris Bali. Analisis Komparatif Unjuk Kerja Model Vision Transformers a. Ni Putu Widya Yuniari 756 e-ISSN: 2685-0877 Referensi