JINACS: Volume 07 Nomor 03, 2026 (Journal of Informatics and Computer Scienc. ISSN : 2686-2220 Klasifikasi Level Retinopati Diabetik Menggunakan Metode Hybrid Vision Transformer dan EfficientNet Meakhel Gunawan1. Yuni Yamasari2 Program Studi S1 Teknik Informatika. Universitas Negeri Surabaya 22116@mhs. 2yuniyamasari@unesa. AbstrakAiRetinopati diabetik merupakan komplikasi diabetes melitus yang menjadi salah satu penyebab utama kebutaan di dunia, termasuk di Indonesia. Oleh sebab itu, deteksi dan klasifikasi tingkat keparahan secara dini berbasis citra fundus retina menjadi krusial untuk mendukung penanganan klinis yang Vision Transformer yang memiliki keunggulan dalam menangkap konteks global citra, dan EfficientNet yang unggul dalam mengekstraksi fitur lokal, memiliki peluang untuk dikombinasikan secara optimal dalam klasifikasi level retinopati Menggunakan Dataset APTOS 2019 Blindness Detection dengan tahapan preprocessing berupa cropping, resize. CLAHE, dan normalisasi, serta augmentasi data untuk mengatasi MobileViT-XS dikombinasikandengan EfficientNet-B0 hingga EfficientNet-B4 diuji dan dievaluasi menggunakan metrik efektivitas serta metrik efisiensi komputasi. Hasil penelitian menunjukkan bahwa hybrid MobileViT-XS dan EfficientNet-B1 dengan resize 512y512 piksel memberikan kinerja paling optimal, dengan akurasi validasi sebesar 91,80% dan akurasi pengujian sebesar 93,24%, serta efisiensi komputasi yang seimbang dengan waktu pelatihan 101 44 detik. FLOPs sekitar 6,80G, dan ukuran model 37,95 MB. Penelitian ini menyimpulkan bahwa pendekatan metode hybrid mampu menghasilkan model yang efektif dan efisien untuk mendukung sistem deteksi dini retinopati diabetik berbasis kecerdasan buatan. Kata KunciAiretinopati diabetik, vision transformer. EfficientNet, hybrid model, klasifikasi citra, deep learning PENDAHULUAN Retinopati Diabetik (RD) adalah komplikasi mikrovaskular yang parah akibat diabetes melitus, yang secara progresif merusak pembuluh darah di retina dan menjadi salah satu penyebab utama kebutaan pada orang dewasa di seluruh dunia . Laporan terbaru dari International Diabetes Federation (IDF) mengestimasi sekitar 10,5%, atau sekitar 1 dari 10 orang, populasi manusia dewasa saat ini hidup dengan penyakit Diabetes Melitus. Pada tahun 2021. Indonesia menjadi negara kelima dengan penderita diabetes terbanyak di dunia sejumlah 19,5 juta orang dewasa umur 20 hingga 79 tahun. Selain itu, diproyeksikan bahwa tahun 2045, penderita diabetes di Indonesia naik 46% menjadi 28,6 juta orang . Prevalensi Diabetes Melitus ini juga sejalan dengan penderita RD yang terjadi pada 30% hingga 40% dari seluruh penderita diabetes. Analisis meta terbaru juga memperkirakan bahwa saat ini terdapat sekitar 103 juta orang yang mengalami RD secara global, dan angka ini diperkirakan akan meningkat hingga mencapai 161 juta orang pada tahun 2045 . Oleh sebab itu, deteksi dini dan intervensi yang tepat waktu menjadi sangat krusial untuk menangani masalah mata maupun dalam mencegah komplikasi hingga kehilangan penglihatan permanen akibat RD. Meskipun Convolutional Neural Network (CNN) telah menjadi standar dalam klasifikasi citra medis karena terbukti unggul dalam menangkap dan mengekstraksi fitur lokal. CNN masih memiliki keterbatasan dalam memahami konteks global maupun mengabaikan bagian-bagian yang relevan yang mengakibatkan hilangnya informasi hubungan spasial yang penting untuk mendeteksi tingkat keparahan RD . Seiring dengan perkembangan CNN. Vision Transformer (ViT) telah muncul sebagai arsitektur yang menjanjikan dalam bidang computer vision dengan memperlakukan gambar sebagai rangkaian patch dan menggunakan mekanisme self-attention untuk menangkap dependensi jarak jauh dan konteks global dalam citra . Kondisi tersebut sekaligus membuka peluang untuk mengeksplorasi pendekatan baru yang lebih efisien dengan menggabungkan keunggulan CNN melalui ekstraksi fitur lokal dengan kemampuan ViT dalam menangkap konteks global. Studi yang dilakukan oleh Rautaray et al. mengusulkan kerangka kerja knowledge distillation dengan FastViT-MA36 sebagai teacher dan EfficientNet-B0 sebagai student untuk klasifikasi tingkat keparahan RD, yang mencapai akurasi 95. dengan biaya komputasi 0. 38 GFLOPs dan 42. 7 juta parameter. Penelitian lain oleh Fu et al. , mengembangkan MSEF-Net dengan menggabungkan fitur multi-scaling dari EfficientNet dan attention module, berhasil meraih akurasi 97. 5% pada dataset Messidor1. Sementara itu, studi oleh Tanwar et al. menunjukkan bahwa penggabungan EfficientNet-B0 dan ViT mampu mencapai akurasi hingga 99. 82% dengan jumlah parameter sekitar 5. 1 juta untuk klasifikasi penyakit Ketiga penelitian ini menegaskan bahwa pendekatan berbasis kombinasi CNNAeViT, baik melalui hybrid maupun knowledge distillation, memiliki potensi besar untuk menghasilkan sistem klasifikasi medis yang akurat sekaligus relevan bagi penerapan nyata pada perangkat dengan keterbatasan sumber daya. Oleh sebab itu, penelitian ini mengusulkan pendekatan model hybrid yang menggabungkan keunggulan CNN, yang diwakilkan oleh EfficientNet, dalam mengekstrak fitur lokal dengan kemampuan Vision Transformer, yang diwakilkan oleh MobileViT-XS, dalam menangkap konteks global. Melalui metode ini, diharapkan tercipta keseimbangan yang optimal antara akurasi tinggi dan efisiensi komputasi, serta mampu memberikan kinerja unggul dengan jumlah parameter dan kebutuhan komputasi (FLOP. yang relatif kecil. Selain itu, diharapkan juga hasil penelitian ini tidak hanya menambah wawasan dalam bidang akademis, melainkan juga menjawab JINACS: Volume 07 Nomor 03, 2026 (Journal of Informatics and Computer Scienc. ISSN : 2686-2220 kesenjangan riset terkait efektivitas dan efisiensi hybrid Vision Transformer dengan EfficientNet dalam klasifikasi level Retinopati Diabetik. II. METODOLOGI PENELITIAN Pada Gambar 1 membeirkan gambaran mengenai kerangka alur kerja secara keseluruhan dari metode hybrid Vision Transformer dan EfficientNet. mikrovaskular intraretin. dan venous beading . Berjumlah 193 gambar. A 4 (Proliferative DR) - Stadium paling lanjut, ditandai dengan neovaskularisasi . ertumbuhan pembuluh darah abnormal pada retina dan diskus optiku. Berjumlah 295 gambar. Selain itu, resolusi citra dalam dataset ini bervariasi, mulai dari 474y358 piksel hingga 4288x2848 piksel. Dataset APTOS 2019 Blindness Detection juga dikenal memiliki distribusi kelas yang tidak seimbang, di mana kelas AuNo DRAy memiliki jumlah gambar yang jauh lebih banyak dibandingkan kelas Ketidakseimbangan ini berpotensi menimbulkan bias terhadap kelas mayoritas, sehingga pada penelitian ini penulis menerapkan teknik offline data augmentation untuk menambah jumlah sampel pada kelas minoritas agar lebih seimbang. Gbr. 1 Diagram Alur Penelitian. Perangkat yang Digunakan Penelitian ini memanfaatkan lingkungan komputasi menggunakan Kaggle Notebook yang didukung oleh akselerator GPU P100 untuk menjalankan seluruh kode pelatihan, modeling, hingga evaluasi model. Penelitian ini juga menggunakan library torch (PyTorc. sebagai framework utama untuk membangun, melatih, dan mengevaluasi model, serta timm (PyTorch Image Model. yang digunakan sebagai pembentuk model dan backbone untuk mengakses berbagai arsitektur Vision Transformer dan EfficientNet yang telah dilatih sebelumnya, maupun library lain seperti fvcore, scikitlearn, numpy, random, pandas, matplotlib, dan cv2 (OpenCV). Deskripsi Dataset Dataset yang digunakan adalah Dataset APTOS 2019 Blindness Detection, yang tersedia secara publik melalui platform Kaggle, terdiri atas 3662 gambar citra fundus retina yang digunakan untuk mendeteksi dan mengklasifikasikan tingkat keparahan Retinopati Diabetik. Dataset ini dikumpulkan dari Aravind Eye Hospital di India dan telah diperiksa serta dikategorikan oleh dokter mata berpengalaman . Dataset ini terbagi ke dalam lima kelas tingkat keparahan Retinopati Diabetik berdasarkan International Clinical Diabetic Retinopathy (ICDR) . A 0 (No DR) - Tidak ada tanda-tanda retinopati diabetik. Berjumlah 1805 gambar. A 1 (Mild DR) - Terdapat sedikit mikroaneurisma . onjolan kecil di pembuluh darah akibat gula darah tingg. pada retina . Berjumlah 370 gambar. A 2 (Moderate DR) - Ada peningkatan mikroaneurisma, perdarahan, serta kelainan pembuluh darah lain yang lebih menonjol, seperti perdarahan dan kelainan struktur vaskular . Berjumlah 999 gambar. A 3 (Severe DR) - Banyak perdarahan, adanya IRMA . ntraretinal microvascular abnormalities atau kelainan Gbr. 2 Sampel Citra Fundus Retinopati Diabetik per Label. Preprocessing Data Preprocessing Data merupakan langkah fundamental untuk mempersiapkan data citra mentah dengan meningkatkan kualitas dan keseragaman data input agar sesuai dengan input JINACS: Volume 07 Nomor 03, 2026 (Journal of Informatics and Computer Scienc. ISSN : 2686-2220 model deep learning yang diinginkan serta mendukung stabilitas pelatihan model tersebut. Tujuan utama dari langkah pra-pemrosesan ini adalah untuk meningkatkan perilaku sistem, seperti menghilangkan derau, meningkatkan kontras, menormalisasi citra, yang pada akhirnya meningkatkan kualitas gambar demi mendapatkan kinerja yang lebih baik untuk algoritma deep learning tersebut . Dalam penelitian ini, preprocessing yang dilakukan antara Cropping Tahap cropping dilakukan untuk menghilangkan area hitam di sekitar citra fundus yang tidak memiliki informasi klinis penting, agar model fokus pada bagian utama retina serta meminimalisasi noise visual yang dapat mengganggu proses ekstraksi fitur. Resizing Resizing adalah tahap pra-pemrosesan yang krusial dalam computer vision . Dalam penelitian ini, semua citra akan disesuaikan ukurannya mengikuti resolusi input yang direkomendasikan untuk setiap varian arsitektur, yaitu EfficientNet yang menggunakan prinsip compound scaling, maupun Vision Transformer yang juga memiliki dimensi input standar tersendiri. Selain itu, citra juga akan diubah ukurannya menjadi resolusi lebih tinggi, yaitu 512y512 piksel, untuk meminimalkan hilangnya informasi penting seperti detail halus pada citra fundus yang justru relevan dalam mendeteksi tingkat keparahan Retinopati Diabetik. TABEL I RESOLUSI INPUT YANG DISARANKAN PER MODEL Model EfficientNet-B0 EfficientNet-B1 EfficientNet-B2 EfficientNet-B3 EfficientNet-B4 MobileViT-XS Resolusi Input yang Disarankan 224 y 224 240 y 240 288 y 288 320 y 320 384 y 384 256 y 256 CLAHE (Contrast Limited Adaptive Histogram Equalizatio. Teknik ini digunakan untuk meningkatkan kontras lokal pada citra gambar tanpa menambah gangguan noise di area yang homogen, karena sangat bermanfaat terutama untuk citra fundus retina yang kerap mengalami variasi pencahayaan. Penelitian yang dilakukan oleh Owler et al. CLAHE terbukti menjadi metode preprocessing paling efektif dibandingkan dengan metode lain seperti teknik N4 atau tanpa pemrosesan sama sekali . Normalisasi Normalisasi yang dilakukan pada penelitian ini adalah mengubah rentang nilai piksel ke skala standar ImageNet sehingga membantu mempercepat konvergensi model dan meningkatkan kinerja, dan terbukti sangat efektif untuk model Vision Transformer (ViT) maupun CNN karena memberikan manfaat penting dalam meningkatkan performanya masingmasing . Penelitian ini diterapkan juga offline data augmentation setelah tahap preprocessing untuk menjaga keseragaman distribusi data asli sekaligus mengatasi ketidakseimbangan jumlah sampel antar kelas melalui transformasi seperti rotation, flip, penyesuaian kecerahan, zoom, dan penambahan noise. Jumlah sampel pada masing-masing kelas hasil augmentasi diseimbangkan dengan menyesuaikan ke kelas mayoritas, yaitu kelas AuNo DRAy . yang memiliki 1. 805 gambar. Dengan demikian, seluruh kelas . Ae. dipastikan memiliki 1. sampel, sehingga total dataset menjadi 9. 025 citra dari yang sebelumnya 3662 citra. Pembagian Dataset Setelah preprocessing. Dataset APTOS 2019 Blindness Detection dibagi menjadi tiga subset, yaitu train, validation, dan test. Pendekatan penggunaan subset validation terpisah penting untuk dilakukan untuk memastikan evaluasi kinerja model yang konsisten, objektif, dan tidak bias, sehingga dapat mengurangi risiko overfitting model maupun membuat model lebih dapat diandalkan saat diaplikasikan di dunia nyata . Rasio pembagian yang digunakan adalah 80% untuk train set, 10% untuk validation set, dan 10% untuk test set. Karena sudah dilakukan offline augmentation sebelumnya, maka berdasarkan total 9025 gambar dalam dataset APTOS 2019, jumlah gambar di setiap subset adalah sebagai berikut: A Total gambar di Train Set: 7220 gambar A Total gambar di Validation Set: 902 gambar A Total gambar di Test Set: 903 gambar Hybrid Vision Transformer dan EfficientNet Penelitian ini akan menguji berbagai kombinasi model Vision Transformer (ViT) ringan dan EfficientNet melalui strategi hybrid fitur. Pendekatan hybrid ini bertujuan untuk menggabungkan kemampuan ekstraksi fitur lokal dari CNN (EfficientNe. dengan kemampuan pemodelan konteks global dari ViT sehingga dapat menghasilkan representasi citra yang lebih komprehensif untuk klasifikasi level Retinopati Diabetik. Arsitektur-arsitektur tersebut antara lain: MobileViT-XS MobileViT adalah ViT ringan yang menggabungkan kekuatan CNN dan ViT untuk tugas spesifik mobile vision. MobileViT yang digunakan dalam penelitian ini juga telah dilatih sebelumnya . dengan dataset ImageNet-1k. MobileViT-XS memiliki sekitar 2. 3 juta parameter dengan 1. 1 GMACs pada input resolusi 256 x 256 piksel, yang menjadikannya sangat efisien untuk perangkat mobile di mana sumber daya dan bandwidth jaringan terbatas. Gbr. 3 Arsitektur MobileViT. JINACS: Volume 07 Nomor 03, 2026 (Journal of Informatics and Computer Scienc. ISSN : 2686-2220 EfficientNet EfficientNet adalah keluarga arsitektur CNN yang dikenal karena efisiensi dan akurasinya yang sangat baik dengan mengombinasikan compound scaling yaitu menskalakan kedalaman, lebar, dan resolusi secara terpadu dengan satu koefisien . Perbedaan antara varian EfficientNet-B0 hingga EfficientNet-B4 sesuai dengan dokumentasi PyTorch adalah sebagai berikut. EfficientNet-B0 Merupakan baseline yang menjadi titik awal perhitungan compound scaling, dengan menggunakan resolusi input 224y224 piksel, sekitar 5,3 juta parameter, dan 0,39 GFLOPs. EfficientNet-B1 Memiliki sedikit peningkatan kedalaman jaringan dan lebar kanal, dengan menggunakan resolusi input 240y240 piksel, sekitar 7,8 juta parameter, dan 0,69 GFLOPs. EfficientNet-B2 Memiliki peningkatan kedalaman, lebar, dan resolusi input ke 288y288 piksel, dengan jumlah parameter 9,1 juta dan beban komputasi 1,09 GFLOPs. EfficientNet-B3 Menggunakan resolusi input yang lebih besar, 320y320 piksel, dengan jumlah parameter sekitar 12,2 juta dan 1,83 GFLOPs. EfficientNet-B4 Salah satu varian yang cukup besar dengan resolusi input 384y384 piksel, parameter 19,3 juta, dan beban komputasi 4,39 GFLOPs. Gbr. 4 Arsitektur EfficientNet-B0. Pengukuran Kinerja Model Untuk mengevaluasi efektivitas dan efisiensi model hybrid yang diusulkan, beberapa metrik kinerja akan diukur secara Metrik-metrik ini akan memberikan gambaran lengkap tentang kemampuan model dalam mengklasifikasikan level Retinopati Diabetik dan seberapa efisien model tersebut Akurasi (Accurac. Proporsi prediksi yang benar dari total prediksi yang menggambarkan perbandingan jumlah prediksi yang tepat dengan total keseluruhan prediksi, dengan rumus Persamaan 1 sebagai berikut . ycNycE ycNycA yaycoycycycaycycn = ycNycE ycNycA yaycE yaycA Presisi (Precisio. Rasio true positive terhadap total hasil positif yang diprediksi . rue positive false positiv. , mengukur seberapa relevan hasil positif yang diprediksi oleh model. Rumus presisi adalah sebagai berikut dalam Persamaan 2 . ycNycE ycEycyceycycnycycn = ycNycE yaycE Recall (Sensitivita. Rasio true positive terhadap total positif aktual . rue positive false negativ. yang mengukur kemampuan model untuk menemukan semua instansi positif. Rumus recall adalah sebagai berikut dalam Persamaan 3 . ycNycE ycIyceycaycaycoyco = ycNycE yaycA F1-Score Rata-rata harmonik dari presisi dan recall yang sangat berguna ketika ada ketidakseimbangan antara kedua metrik Contohnya, pada sebuah tugas di mana kesalahan false positives (FP) dan false negatives (FN) memiliki dampak yang sama pentingnya, f1-score mampu menyajikan gambaran kinerja model yang lebih seimbang dibandingkan hanya melihat presisi atau recall secara terpisah. Persamaan f1-score ditunjukkan dalam Persamaan 4 sebagai berikut . ycNycE ya1 ycycaycuycyce = 2 O ycNycE yaycE yaycA Selain metrik efektivitas seperti akurasi, presisi, recall, dan f1-score, penelitian ini juga memperhatikan metrik efisiensi model yang mencakup aspek-aspek berikut: Waktu Pelatihan (Training Tim. Durasi yang dibutuhkan untuk melatih model deep learning dari awal hingga konvergensi atau mencapai kinerja yang diinginkan, yang diukur dalam satuan waktu . enit dan deti. dan mencerminkan biaya komputasi untuk mengembangkan FLOPs (Floating-Point Operation. Ukuran kompleksitas komputasi sebuah model, yang menghitung total operasi floating-point yang dibutuhkan selama proses training, yang diukur dalam satuan GFLOPs . iliar operas. dan menunjukkan seberapa berat beban komputasi model tersebut. Ukuran Model (Model Siz. Merupakan ukuran model yang telah dilatih dalam Megabyte (MB) saat disimpan di disk atau dimuat ke memori. Hal ini JINACS: Volume 07 Nomor 03, 2026 (Journal of Informatics and Computer Scienc. ISSN : 2686-2220 sangat penting terutama saat model diterapkan pada perangkat dengan memori terbatas, seperti perangkat mobile. HASIL DAN PEMBAHASAN Hasil Resize Vision Transformer TABEL II HASIL EFEKTIVITAS RESIZE VISION TRANSFORMER DENGAN BACKBONE MOBILEVIT-XS Train Acc Test Acc Val Acc Test Prec Val Prec Test Rec Val Rec Test F1-S Val F1-S Pada Tabel II, hasil efektivitas backbone MobileViT-XS terbaik adalah antara hyrbid EfficientNet-B1 hingga EfficientNet-B4. Sedangkan hasil terburuk didapatkan oleh EfficientNet-B0 dengan nilai metrik evaluasi validation dan test-nya tidak menyentuh angka 90%. Train accuracy dan validation accuracy tertinggi adalah pada varian EfficientNetB1, masing-masing sebesar 97,76% dan 92,79%, sedangkan test accuracy terbaik diraih oleh varian EfficientNet-B4 sebesar 91,58%. Berdasarkan hasil pengujian eksperimen pertama ini, terlihat bahwa kombinasi dengan EfficientNet-B1 hingga EfficientNetB4 cenderung memberikan kinerja efektivitas terbaik, sementara pada varian EfficientNet-B0 menunjukkan hasil yang cenderung relatif lebih rendah. Hal ini terjadi karena pada proses resize citra menjadi ukuran sesuai Vision Transformer (ViT), yaitu 256y256 piksel untuk MobileViT-XS menunjukkan bahwa hasil pelatihan yang paling optimal ketika menggunakan varian EfficientNet-B1. Varian ini memiliki ukuran input dasar 240y240 piksel yang paling mendekati resolusi input ViT, sehingga mampu menghasilkan keseimbangan yang lebih baik antara ekstraksi fitur lokal dan representasi global. Selain itu. EfficientNet-B2 hingga EfficientNet-B4 juga memperlihatkan pola performa yang sejalan dengan EfficientNet-B1, meskipun dengan tingkat efektivitas yang sedikit lebih rendah. Kesesuaian skala ini berkaitan dengan konsep compound scaling pada EfficientNet, yaitu peningkatan skala jaringan dilakukan secara seimbang pada kedalaman . , lebar . , dan resolusi input, sehingga varian EfficientNet-B1 hingga EfficientNet-B4 tetap mampu menjaga stabilitas dan efektivitas pelatihan pada konfigurasi resolusi yang digunakan. Sebaliknya, penggunaan EfficientNet-B0 dengan resolusi dasar 224x224 piksel menghasilkan performa yang kurang Hal ini disebabkan oleh perbedaan skala yang menyebabkan Vision Transformer lebih dominan dalam mengekstraksi fitur global, sementara informasi lokal yang penting menjadi berkurang. Dengan demikian, kombinasi ukuran input yang paling sepadan antara Vision Transformer dan EfficientNet terletak pada varian EfficientNet-B1, di mana keseimbangan antara fitur lokal dan global dapat tercapai dengan lebih baik. Berikutnya adalah hasil efisiensi dari setiap varian Vision Transformer yang dikombinasikan dengan EfficientNet dengan menggunakan resize sesuai spesifikasi Vision Transformer yaitu MobileViT-XS dengan 256x256 piksel, batch size 16, learning rate 1e-4, optimizer AdamW, dan pada 15 epoch disajikan dalam Gambar 5. Gambar 6, dan Gambar 7. Gbr. 5 Time Training Model sesuai resize ViT. Berdasarkan Gambar 5, lamanya Time Training Model selaras dengan meningkatnya varian EfficientNet yang Backbone MobileViT-XS mencatat waktu pelatihan yang meningkat dari 21 menit 32,02 detik pada EfficientNet-B0 menjadi 35 menit 3,01 detik pada EfficientNetB4. Gbr. 6 FLOPs sesuai resize ViT. Berdasarkan Gambar 6, peningkatan varian EfficientNet yang digunakan berbanding lurus dengan peningkatan nilai FLOPs yang dihasilkan. Pada backbone MobileViT-XS mencatat rentang FLOPs dari sekitar 1,46 GFLOPs pada EfficientNet-B0 hingga 2,94 GFLOPs pada EfficientNet-B4. JINACS: Volume 07 Nomor 03, 2026 (Journal of Informatics and Computer Scienc. ISSN : 2686-2220 Gbr. 7 Model Size sesuai resize ViT. Berdasarkan Gambar 7, peningkatan varian EfficientNet yang digunakan berbanding lurus dengan kenaikan Model Size. Pada MobileViT-XS ukuran model meningkat dari 27,77 MB pada EfficientNet-B0 hingga 83,49 MB pada EfficientNet-B4. Hasil Resize Compound Scaling diperoleh tetap menunjukkan bahwa varian EfficientNet-B1 hingga EfficientNet-B3 tetap lebih mampu menjaga keseimbangan antara kompleksitas fitur lokal yang diekstraksi olehnya dan kemampuan Vision Transformer dalam menangkap representasi global. Sehingga, hal ini menjelaskan mengapa peningkatan resolusi input tidak selalu berbanding lurus dengan peningkatan performa, terutama ketika kapasitas representasi dan arsitektur model tidak lagi berada pada titik keseimbangan yang optimal. Dengan demikian, hasil eksperimen ini menegaskan bahwa varian EfficientNet-B1 hingga EfficientNet-B3 merupakan titik trade-off optimal dalam metode hybrid Vision Transformer dan EfficientNet, bahkan ketika resolusi input disesuaikan sepenuhnya dengan prinsip compound scaling. Selanjutnya adalah hasil efisiensi dari setiap varian Vision Transformer yang dikombinasikan dengan EfficientNet dengan menggunakan resize berbasis compound scaling, dengan batch size 16, learning rate 1e-4, optimizer AdamW, dan pada 15 epoch yang disajikan dalam Gambar 8. Gambar 9, dan Gambar TABEL i HASIL EFEKTIVITAS RESIZE COMPOUND SCALING DENGAN BACKBONE MOBILEVIT-XS Train Acc Test Acc Val Acc Test Prec Val Prec Test Rec Val Rec Test F1-S Val F1-S Gbr. 8 Time Training Model sesuai resize Compound Scaling. Pada Tabel i, hasil efektivitas backbone MobileViT-XS terbaik adalah antara hybrid EfficientNet-B1 hingga EfficientNet-B3. Sementara itu, hasil kinerja terburuk terlihat pada EfficientNet-B0 dan EfficientNet-B4 dengan nilai metrik evaluasi pada data validasi ataupun data uji yang tidak menyentuh angka 90%. Train accuracy, validation accuracy, dan test accuracy terbaik adalah pada EfficientNet-B1, masingmasing sebesar 97,38%, 92,57%, dan 91,92%. Berdasarkan hasil pengujian eksperimen kedua, terlihat bahwa pola performa yang dihasilkan tidak jauh berbeda dengan eksperimen pertama, bahwa secara konsisten hybrid dengan EfficientNet-B1 hingga EfficientNet-B3 menunjukkan hasil efektivitas terbaik, sedangkan EfficientNet-B0 dan EfficientNet-B4 menghasilkan kinerja yang relatif lebih rendah. Kemiripan antara hasil eksperimen pertama dan eksperimen kedua mengindikasikan bahwa keseimbangan skala resolusi input terhadap kemampuan arsitektur model atau backbone dalam memproses dan mengintegrasikan informasi visual memiliki peran yang lebih dominan dibandingkan sekadar strategi resize itu sendiri dalam menyeragamkan dimensi input. Meskipun pada eksperimen ini resolusi input telah disesuaikan secara eksplisit dengan prinsip compound scaling, hasil yang Berdasarkan Gambar 8, lamanya Time Training Model selaras dengan meningkatnya varian EfficientNet yang Peningkatan waktu pelatihan dari varian EfficientNet-B0 hingga EfficientNet-B4 menunjukkan tren yang lebih tajam dibandingkan dengan skenario resize sesuai spesifikasi Vision Transformer pada eksperimen pertama. Backbone MobileViT-XS mencatat waktu pelatihan yang meningkat dari 16 menit 59,69 detik pada EfficientNet-B0 menjadi 71 menit 53,21 detik pada EfficientNet-B4. JINACS: Volume 07 Nomor 03, 2026 (Journal of Informatics and Computer Scienc. ISSN : 2686-2220 Gbr. 9 FLOPs sesuai resize Compound Scaling. Berdasarkan Gambar 9, yang menunjukkan hasil FloatingPoint Operations Per Second (FLOP. , tercatat bahwa MobileViT-XS memiliki FLOPs yang meningkat dari 1,12 GFLOPs pada EfficientNet-B0 menjadi 6,61 GFLOPs pada EfficientNet-B4. Selain itu, peningkatan varian EfficientNet dari EfficientNet-B0 hingga EfficientNet-B4 berbanding lurus dengan meningkatnya jumlah FLOPs yang dihasilkan, dengan tren peningkatan yang lebih tajam dibandingkan skenario resize sesuai spesifikasi Vision Transformer pada eksperimen Gbr. 10 Model Size sesuai resize Compound Scaling. Sebagai metrik efisiensi terakhir. Model Size ditunjukkan pada Gambar 10. Hasil pengujian menunjukkan bahwa backbone MobileViT-XS mencatat ukuran model yang meningkat dari 27,77 MB pada EfficientNet-B0 hingga 83,49 MB pada EfficientNet-B4. Selain itu, penggunaan varian EfficientNet yang lebih tinggi berbanding lurus dengan meningkatnya Model Size yang dihasilkan. Menariknya, nilai Model Size pada eksperimen kedua tidak mengalami perubahan dibandingkan dengan eksperimen pertama yang menerapkan resize sesuai spesifikasi Vision Transformer, sehingga menghasilkan ukuran model yang identik. menyentuh angka 90%. Train accuracy tertinggi adalah pada varian EfficientNet-B3 sebesar 98,38%, validation accuracy tertinggi pada EfficientNet-B2 sebesar 93. 02%, dan test accuracy terbaik adalah pada EfficientNet-B1 sebesar 93,24%. Pola yang terlihat pada backbone MobileViT-XS adalah dengan performa terbaik yang terkonsentrasi pada EfficientNetB1 hingga EfficientNet-B3. Meskipun EfficientNet-B3 unggul pada train accuracy karena memiliki kapasitas yang lebih besar untuk mempelajari pola pada pelatihan data. EfficientNet-B1 tetap menunjukkan performa terbaik pada test accuracy karena kemampuan generalisasi yang lebih baik terhadap data yang belum pernah dilihat. Secara keseluruhan, eksperimen ini menegaskan bahwa penggunaan resolusi input tinggi 512y512 piksel tidak secara otomatis meningkatkan kinerja seluruh kombinasi model. Efektivitasnya sangat bergantung pada keseimbangan antara resolusi input, kapasitas EfficientNet, dan kemampuan backbone Vision Transformer dalam mengelola kompleksitas Varian EfficientNet-B1 hingga EfficientNet-B3 kembali terbukti sebagai konfigurasi yang paling stabil, sementara EfficientNet-B4 cenderung mengalami degradasi kinerja akibat kompleksitas fitur yang tidak sebanding dengan kemampuan representasi global model Vision Transformer yang digunakan. Selanjutnya, adalah hasil efisiensi dari setiap varian Vision Transformer yang dikombinasikan dengan EfficientNet dengan menggunakan resize 512x512 piksel, batch size 8, learning rate 1e-4, optimizer AdamW, dan pada 15 epoch yang disajikan dalam Gambar 11. Gambar 12, dan Gambar 13. Hasil Resize 512x512 piksel TABEL IV HASIL EFEKTIVITAS RESIZE 512X512 PIKSEL DENGAN BACKBONE MOBILEVITXS Train Acc Test Acc Val Acc Test Prec Val Prec Test Rec Val Rec Test F1-S Gbr. 11 Time Training Model sesuai resize 512x512 piksel. Val F1-S Pada Gambar 11 terlihat bahwa hasil Time Training Model menunjukkan pola peningkatan varian EfficientNet yang digunakan berbanding lurus dengan meningkatnya waktu pelatihan model. Backbone MobileViT-XS mencatat waktu dari 89 menit 0,61 detik pada EfficientNet-B0 hingga 138 menit 17,05 detik pada EfficientNet-B4. Pada Tabel IV, hasil efektivitas terbaik untuk backbone MobileViT-XS adalah antara hybrid dengan EfficientNet-B0 hingga EfficientNet-B3. Dan hasil terburuk pada EfficientNetB4 yang memiliki nilai metrik evaluasi pada data uji yang tidak JINACS: Volume 07 Nomor 03, 2026 (Journal of Informatics and Computer Scienc. ISSN : 2686-2220 memberikan kinerja paling optimal. Model hybrid ini tidak hanya menghasilkan efektivitas melalui validation accuracy dan test accuracy tertinggi dibandingkan dengan konfigurasi lain yaitu masing-masing sebesar 91,80% dan 93,24%, tetapi juga menunjukkan stabilitas kinerja yang baik dengan efisiensi komputasi yang masih masuk akal. Temuan ini menegaskan bahwa hybrid Vision Transformer dan EfficientNet mampu memanfaatkan keunggulan masing-masing arsitektur secara komplementer, sehingga menghasilkan model klasifikasi retinopati diabetik yang efektif dan efisien dalam sistem deteksi dini berbasis kecerdasan buatan. Gbr. 12 FLOPs sesuai resize 512x512 piksel. Berdasarkan Gambar 12, metrik Floating-Point Operations Per Second (FLOP. menunjukkan bahwa MobileViT-XS mencatat FLOPs yang meningkat dari 5,82 GFLOPs pada EfficientNet-B0 menjadi 11,75 GFLOPs pada EfficientNet-B4. Temuan ini menegaskan bahwa penggunaan varian EfficientNet serta penambahan resolusi input menjadi 512y512 piksel dapat memberikan kontribusi yang semakin signifikan terhadap total FLOPs. UCAPAN TERIMA KASIH Puji dan syukur penulis panjatkan ke hadirat Tuhan Yang Maha Esa, karena atas rahmat dan karunia-Nya penulis dapat menyelesaikan penelitian ini dengan baik. Penulis juga menyampaikan apresiasi dan rasa terima kasih yang sebesarbesarnya kepada seluruh teman-teman yang telah berkontribusi dan terlibat dalam pelaksanaan penelitian ini, kepada dosen pembimbing yang dengan penuh dedikasi memberikan arahan, masukan, dan pendampingan sejak tahap awal hingga penyelesaian penelitian, serta kepada orang tua yang senantiasa memberikan dukungan moral dan doa tanpa pamrih sepanjang proses studi dan penelitian berlangsung. REFERENSI