Positif : Jurnal Sistem dan Teknologi Informasi E-ISSN 2460-9552 P-ISSN 2620-3227 Article history: Received: May 28, 2025 Published: Dec 7, 2025 KLASIFIKASI PENYAKIT PADA TANAMAN DAUN SINGKONG MENGGUNAKAN VISION TRANSFORMER Luthfi Rakan Nabila . Aditya Dwi Putro Wicaksono . Fakultas Infromatika. Universitas Telkom email: 1luthfirakan@student. id,2adityaw@telkomuniversity. Abstract This research develops a cassava leaf disease classification model using Vision Transformer (ViT) to identify four types of diseases and healthy leaves. With a dataset from Kaggle . ,000 images/clas. , the TinyViT model was tested through parameter variations to achieve optimal performance. Results showed that the combination of SGD, 50 epochs, and batch size 32 gave the highest validation accuracy . 16%), outperforming Adam/AdamW. Despite overfitting . % training accurac. , the model showed good generalization with 81% precision and These findings confirm the potential of ViT in plant disease detection, while highlighting the need to address overfitting through further regularization. Future research can explore dataset expansion and fine-tuning for accuracy improvement. Keywords: Cassava Leaf Disease. Image Classification. Stochastic Gradient Descent. Vision Transformer. Abstrak Penelitian ini mengembangkan model klasifikasi penyakit daun singkong menggunakan Vision Transformer (ViT) untuk mengidentifikasi empat jenis penyakit dan daun sehat. Dengan dataset dari Kaggle . 000 gambar/kela. , model TinyViT diuji melalui variasi parameter untuk mencapai performa Hasil menunjukkan kombinasi SGD, 50 epoch, dan batch size 32 memberikan akurasi validasi tertinggi . 16%), mengungguli Adam/AdamW. Meski mengalami overfitting . kurasi pelatihan 100%), model menunjukkan generalisasi yang baik dengan nilai precision dan recall 81%. Temuan ini memperlihatkan potensi ViT dalam tugas deteksi penyakit tanaman, sekaligus menyoroti perlunya penanganan overfitting melalui regularisasi lebih lanjut. Penelitian selanjutnya dapat mengeksplorasi perluasan dataset dan fine-tuning untuk peningkatan akurasi. Kata Kunci: Klasifikasi Gambar. Penyakit Daun Singkong. Stochastic Gradient Descent. Vision Transformer INTRODUCTION tanaman asli kawasan Amazon Selatan. Brasil, yang kini menjadi sumber pangan utama bagi lebih dari 800 juta orang. Sebagai komoditas pertanian strategis, singkong memiliki ketahanan tinggi terhadap kekeringan sehingga dijuluki "tanaman penyelamat saat krisis pangan". Produksi globalnya melonjak dari 124 juta ton . menjadi 278 juta ton . , menempatkannya sebagai salah satu komoditas pangan. Indonesia terletak di posisi strategis dengan iklim tropis yang hangat dan lembap, sehingga cocok untuk tumbuh beragam jenis tumbuhan. Kalimantan, hampir setengah dari total perkebunan, sedangkan sekitar 50 juta hektar areanya terdiri dari hutan. Kondisi ini membuat Kalimantan menjadi salah satu wilayah penghasil oksigen terpenting di dunia. Iklim ini membuat Indonesia cocok menjadi negara dengan focus usaha pertanian. Salah satu komoditas yang sering dibudidayakan dalam pertanian Indonesia adalah tanaman singkong. Tanaman singkong telah banyak diproses menjadi aneka produk olahan yang memberikan nilai ekonomi lebih besar. Singkong (Manihot esculenta Crant. adalah Permintaan singkong di Indonesia menunjukkan tren peningkatan tahunan, didorong oleh berkembangnya industri kecil berbasis olahan Kondisi ini menjadikan pasokan bahan baku singkong sebagai faktor krusial dalam menopang keberlangsungan usaha mikro yang menjadi tulang punggung perekonomian banyak . Laporan Global Hunger Index (GHI) 2022 menempatkan Indonesia pada peringkat ke-77 dari 127 negara, dengan skor 16. 9 yang mengindikasikan tingkat kelaparan moderat. Meskipun berbagai upaya penguatan ketahanan pangan telah dilakukan, isu aksesibilitas, distribusi, dan kualitas gizi tetap menjadi tantangan struktural. Fakta yang cukup ironis adalah posisi Indonesia sebagai negara dengan tingkat kelaparan tertinggi kedua di Asia Tenggara, hanya di bawah Timor Leste, padahal potensi agrarisnya sangat besar. Kondisi ini memunculkan paradoks: sebagai negara yang mengandalkan sektor pertanian dengan jumlah petani signifikan. Indonesia seharusnya mampu mencapai kemandirian pangan yang lebih baik. Tak berbeda dengan komoditas pertanian lainnya, tanaman singkong memiliki kerentanan terhadap infeksi penyakit dan serangan organisme pengganggu tumbuhan. Penyakit yang umunya mengganggu tanaman ini adalah Cassava Bacterial Blight. Cassava Brown Streak. Cassava Green Mottle dan penyakit Cassava Mosaic Disease. Sebagai komoditas vital, singkong perlu perlindungan dari penyakit. Namun, deteksi penyakitnya sulit karena gejalanya yang mirip, pemeriksaan lab mahal dan lama, serta fasilitas Maka dari itu diperlukan metode identifikasi yang lebih cepat dan murah. Salah satu bukti pesatnya perkembangan tekonologi saat ini adalah adanya AI atau kecerdasan buatan. Implementasi pada umumnya adalah penerapan suatu algortima pada masalah (Figo. Yudistira, and Widodo 2. Implementasi Vision Transformer (ViT) dalam pertanian memungkinkan deteksi dini penyakit tanaman singkong, yang mana berguna untuk meningkatkan produktivitas. Penelitian Terdahulu Terdapat beberapa penelitian yang mendukung penelitian ini. Di antaranya yaitu penelitian . yang di mana mereka membandingkan ViT dan CNN untuk klasifikasi 4 tingkat kematangan Hasilnya. ViT-L/16 mencapai akurasi 61% . ebih tinggi dari CNN 74. 49%), dengan ViT unggul dalam generalisasi sementara CNN Studi menggunakan dataset primer pisang Cavendish dan Ambon. Kemudian penelitian yang dilakukan oleh . di mana mereka mengimplementasikan Vision Transformer (ViT) untuk klasifikasi gender menggunakan dataset AFAD . 432 gambar Hasilnya menunjukkan akurasi hingga 98,43% pada resolusi 224y224 piksel dengan 28 Meski belum mengungguli metode terkini, penelitian ini memberikan dasar berharga untuk pengembangan sistem klasifikasi gender yang lebih akurat di masa depan. Method Penelitian ini dilakukan melalui beberapa tahapan Untuk mempermudah pemahaman, alur penelitian tersebut disajikan dalam bentuk diagram berikut: LITERATURE REVIEW Deteksi manual penyakit daun singkong kurang efisien karena memakan banyak waktu, tenaga, dan biaya - terutama di lahan luas dengan tanaman pada yang membutuhkan pemeriksaan teliti. Karena itu, dibutuhkan sistem otomatis yang fleksibel untuk klasifikasi penyakit secara akurat. Vision Transformer (ViT) Implementasi pada umumnya adalah penerapan suatu algortima pada masalah khusus. Salah satu algoritma yang bisa diterapkan adalah Vision Transformer. Vision Transformer (ViT), arsitektur berbasis Transformer untuk pemrosesan citra sudah terbukti efektif untuk analisis gambar termasuk salah satunya yaitu pemantauan Gambar 1. Diagram Alir Penelitian Rumusan Masalah Tahap pertama yang dilakukan penulis dalam melakukan penelitian ini adalah mengidentifikasi rumusan masalah yang terjadi pada industri pertanian di Indonesia, yaitu terkait penyakit yang menyerang tanaman singkong serta Solusi terhadap efisiensi waktu dan tenaga yang bisa Positif : Jurnal Sistem dan Teknologi Informasi E-ISSN 2460-9552 P-ISSN 2620-3227 diterapkan dalam mendiagnosis penyakit pada tanaman singkong. Penulis kemudian menetapkan tujuan dan manfaat yang bisa didapat dari penelitian ini. Gambar 3. Penyakit Cassava Bacterial Blight Kajian Literatur Lalu selanjutnya adalah Kajian literatur yang di dalamnya meliputi Vision Transformer, teknik klasifikasi citra, dan patologi singkong, yang menjadi dasar pengembangan sistem diagnosis penyakit daun singkong. Studi terhadap penelitian serupa juga memberikan referensi metode evaluasi yang relevan. Pengumpulan Data Tahap berikutnya adalah pengumpulan dataset. Data yang berhasil dikumpulkan penulis pada penelitian ini merupakan jenis dataset sekunder. Penulis mengumpulkan data dari situs Kaggle Cassava Leaf Disease Classification. Seluruhnya terbagi ke dalam 5 kelas, yaitu : Cassava Bacterial Blight. Cassava Brown Streak Disease. Cassava Green Mottle. Cassava Mosaic Disease, dan Healthy. Gambar 4. Penyakit Cassava Brown Streak Gambar 5. Penyakit Cassava Green Mottle Gambar 2. Distribusi Data Berikut ini adalah tampilan data citra dari dataset yang digunakan pada penelitian ini: Gambar 6. Penyakit Cassava Mossaic Gambar 7. Daun Singkong yang sehat Pra-pemrosesan Data Tahap berikutnya adalah pra-pemrosesan data. Tahap pra-pemrosesan diawali dengan membagi data menjadi 70:15:15. Penulis memutuskan untuk menggunakan 3000 data per kelas dengan pertimbangan keterbatasan komputasi namun tetap ingin mendapatkan performa yang andal. Sehingga didapatkan data gambar untuk training sebesar 10500 gambar, lalu sebanyak 2250 untuk validasi dan 2250 untuk testing. Keudian dilakukan resizing citra ke ukuran 224y224 piksel untuk memenuhi kebutuhan input ViT. Selanjutnya dilakukan augmentasi data melalui rotasi dan zooming guna meningkatkan variasi dataset dan mencegah overfitting. Kedua langkah ini krusial untuk optimalisasi performa Lalu setelah pembuatan model, maka dilakukan pengujian model. Proses pengujian model Vision Transformer dilakukan dengan mengevaluasi mengklasifikasikan penyakit daun singkong. Penelitian menguji tiga parameter utama secara Pertama, variasi jumlah epoch dengan dua opsi berbeda . dan 70 epoc. untuk melihat pengaruh durasi pelatihan terhadap akurasi Kedua, pengujian batch size dalam tiga ukuran . , 16, dan . yang mempengaruhi kecepatan pelatihan dan stabilitas model, di mana batch size kecil cenderung lebih cepat konvergen tetapi membutuhkan komputasi intensif, sedangkan batch size besar memberikan estimasi gradien lebih stabil namun memerlukan sumber daya memori lebih besar. Terakhir, dilakukan perbandingan tiga jenis optimizer (Adam. AdamW, dan SGD) untuk menganalisis pengaruh masing-masing algoritma optimasi terhadap kemampuan klasifikasi model. Keseluruhan pengujian ini bertujuan untuk menemukan konfigurasi parameter terbaik yang dapat Vision Transformer dalam tugas identifikasi penyakit tanaman singkong. Berikut adalah tabel yang berisikan detail konfigurasi parameter yang diujikan terhadap model. Parameter Variasi Pembuatan Model Kemudian dilakukan pembuatan model. Model dibangun menggunakan arsitektur Vision Transformer (ViT) yang memproses citra melalui pembagian patch, transformasi embedding, dan mekanisme multi-head attention. Adapun versi Vision Transformer yang digunakan adalah versi Tiny Vision Transformer (TinyViT) yang mana memiliki perbedaan utama dengan versi base yaitu di bagian jumlah parameter yang dimiliki di mana TinyViT memiliki 21 juta parameter sementara itu versi base ViT memiliki 86 juta Pelatihan dilakukan dengan optimizer Adam dan loss function categorical cross-entropy melalui beberapa epoch untuk optimalisasi model. Pengujian Model Epoch Batch Size Adam Optimizer AdamW SGD Positif : Jurnal Sistem dan Teknologi Informasi E-ISSN 2460-9552 P-ISSN 2620-3227 false negative, meskipun masih ada ruang untuk perbaikan. Tabel 1. Detail Parameter Evaluasi Model Kemudian tahap selanjutnya adalah evaluasi Proses evaluasi kinerja model Vision Transformer dalam mendeteksi penyakit daun komprehensif terhadap berbagai metrik performa. Tahap pengujian menggunakan dataset baru berisi citra daun singkong yang belum pernah diproses sebelumnya, dengan confusion matrix sebagai alat evaluasi utama. Hasil pengujian kemudian dianalisis melalui beberapa indikator kunci meliputi akurasi keseluruhan, presisi, recall, serta F1-score yang memberikan gambaran menyeluruh tentang kemampuan model dalam mengidentifikasi berbagai jenis penyakit. Confusion matrix khususnya berperan penting dalam mengevaluasi ketepatan klasifikasi untuk mengidentifikasi potensi kesalahan klasifikasi antar kelas. Analisis multidimensi ini memungkinkan penilaian objektif terhadap efektivitas model dalam tugas diagnostik Ketika epoch ditingkatkan menjadi 70, terjadi peningkatan yang signifikan pada semua metrik evaluasi. Akurasi validasi meningkat 16%, disertai dengan peningkatan presisi menjadi 76% dan recall menjadi 75%. Peningkatan ini menunjukkan bahwa model menjadi lebih baik dalam menggeneralisasi pola ke data yang belum pernah dilihat Berikutnya penulis melakukan pengujian dengan parameter optimizer. Berikut adalah hasil yang didapatkan : Precision (%) Recall (%) Accuracy Accuracy (%) (%) AdamW 99. SGD Tabel 3. Hasil Pengujian Optimizer Berdasarkan hasil evaluasi ketiga optimizer yang diuji, dapat diamati bahwa SGD menunjukkan performa terbaik dibandingkan Adam dan AdamW. Meskipun ketiga optimizer mencapai akurasi pelatihan yang sangat tinggi . 90% untuk Adam, 99. untuk AdamW, dan sempurna 100% untuk SGD), namun yang paling menarik adalah performa pada data validasi. SGD berhasil mencapai akurasi validasi tertinggi sebesar 60%, jauh melampaui Adam . 62%) dan AdamW . 16%). Parameter yang pertama diuji adalah berdasarkan jumlah epoch di mana penulis menguji model dengan jumlah epoch 50 dan Berikut adalah hasilnya : Validation Adam PENGUJIAN Epoch Optimizer Training Training Accuracy (%) Validation Accuracy (%) Precision Recall (%) (%) Tabel 2. Hasil Pengujian Epoch Hasil ini juga konsisten dengan metrik evaluasi SGD mencatat nilai presisi 79% dan recall 78%, yang lebih unggul dibandingkan Adam . resisi 74%, recall 73%) dan AdamW . resisi 76%, recall 75%). Hal ini menunjukkan bahwa model dengan optimizer SGD tidak hanya lebih akurat, tetapi juga lebih seimbang dalam meminimalkan kesalahan klasifikasi baik false positive maupun false Di sini penulis mendapatkan hasil yang tercantum dalam tabel di atas. Berdasarkan hasil evaluasi model, terlihat bahwa performa model mengalami peningkatan seiring dengan penambahan jumlah epoch dari 50 ke 70. Pada epoch 50, model mencapai akurasi pelatihan yang sangat tinggi sebesar 98. 71%, namun akurasi validasi hanya 72. Nilai presisi 74% dan recall 70% pada epoch ini mengindikasikan bahwa model sudah cukup baik dalam meminimalkan false positive dan Di sini, penulis memutuskan untuk menguji Kembali variasi epoch 50 yang sebelumnya memiliki akurasi yang lebih rendah dari epoch 70 namun kali ini sambil digunakan optimizer SGD. Berikut hasilnya: Epoch Training Accuracy (%) Validation Accuracy (%) Precision Recall (%) (%) Tabel 4. Hasil Pengujian Ulang Epoch Optimizer SGD Gambar 8. Grafik Akurasi dan Loss Batch Size Hasil eksperimen menunjukkan perkembangan menarik ketika optimizer SGD diaplikasikan pada model dengan 50 epoch. Terjadi peningkatan dimana akurasi validasi melonjak 60% menjadi 83. 16% - suatu peningkatan hampir 4 poin persentase. Fenomena sebelumnya dimana epoch lebih tinggi selalu memberikan hasil lebih baik. Penulis kemudian melakukan pengujian batch size dengan 3 opsi yaitu 8, 16, dan 32 terhadap model dengan 50 epoch dan optimizer SGD dan berikut adalah hasilnya: Batch Size Training Accuracy (%) Validation Accuracy (%) Gambar 9. Confusion Matrix Batch Size 8 Precision Recall (%) Batch Size 16 (%) Tabel 5. Hasil Pengujian Batch Size Hasilnya menunjukkan bahwa semua batch size menghasilkan training accuracy sempurna . %), mengindikasikan overfitting. Namun, pada validation accuracy, batch size 32 memberikan performa terbaik . 16%), diikuti oleh batch size 8 . 07%) dan 16 . 96%). Precision dan recall untuk batch size 8 dan 32 sama-sama mencapai 81%, sementara batch size 16 sedikit lebih rendah . %). Dengan demikian, batch size 32 merupakan pilihan terbaik dalam eksperimen ini karena menghasilkan validasi akurasi tertinggi meskipun overfitting masih terjadi. Berikut adalah gambar grafik loss dan akurasi beserta gambar confusion matrix dari tiap-tiap model dengan optimizer SGD setelah yang diujikan dengan variasi batch size: Batch size 8 Gambar 10. Grafik Akurasi dan Loss Batch Size Positif : Jurnal Sistem dan Teknologi Informasi E-ISSN 2460-9552 P-ISSN 2620-3227 Vision Transformer, dapat disimpulkan bahwa kombinasi parameter optimizer SGD dengan 50 epoch dan batch size 32 menghasilkan performa Model ini mencapai akurasi validasi tertinggi . 16%) dibandingkan konfigurasi lain, meskipun menunjukkan gejala overfitting . raining accuracy 100%). Peningkatan jumlah epoch dari 50 ke 70 semula dianggap dapat memperbaiki kinerja model, tetapi justru penggunaan SGD pada 50 epoch terbukti lebih efektif dengan lonjakan akurasi validasi hampir Optimizer SGD secara konsisten mengungguli Adam dan AdamW dalam hal akurasi validasi . 60% vs 75%), presisi . % vs 75%), dan . % 74%), kemampuannya yang lebih baik dalam Sementara itu, evaluasi batch size mengonfirmasi bahwa batch size 32 paling optimal, dengan akurasi validasi 83. 16% dan metrik presisi-recall seimbang . %). Dengan direkomendasikan adalah ViT dengan SGD, 50 epoch, dan batch size 32, sebagai baseline untuk pengembangan model selanjutnya. Gambar 11. Confusion Matrix Batch Size 16 Batch Size 32 Gambar 12. Grafik Akurasi dan Loss Batch Size Saran Penambahan jumlah dataset yang digunakan serta augmentasi data Penggunaan tenaga komputasi yang lebih tinggi agar proses training data dapat dilakukan dengan variasi epoch dan batch size yang lebih tinggi. Melakukan fine tuning agar bisa mendapatkan model dengan performa yang paling baik. REFERENSI