Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK) Vol.
No.
Desember 2024, hlm.
Akreditasi KEMENRISTEKDIKTI.
No.
36/E/KPT/2019
DOI: 10.
25126/jtiik.
p-ISSN: 2355-7699
e-ISSN: 2528-6579
KLASIFIKASI EKSPRESI WAJAH MENGGUNAKAN COVOLUTIONAL NEURAL
NETWORK
Ahmad Taufiq Akbar*1.
Shoffan Saifullah2.
Hari Prapcoyo3 Universitas Pembangunan Nasional Veteran Yogyakarta.
Kabupaten Sleman AGH Univerisity of Krakow.
Poland Email: ahmadtaufiq.
akbar@upnyk.
id, 2saifulla@agh.
pl, 3hari.
prapcoyo@upnyk.
Penulis Korespondensi (Naskah masuk: 23 Maret 2023, diterima untuk diterbitkan: 26 November 2.
Abstrak Pengenalan ekspresi wajah adalah tantangan penting dalam pengolahan citra dan interaksi manusia-komputer karena kompleksitas dan variasi yang ada.
Penelitian ini mengusulkan arsitektur sederhana Convolutional Neural Network (CNN) untuk meningkatkan efisiensi klasifikasi emosi pada dataset kecil.
Dataset yang digunakan adalah Jaffe, yang terdiri dari 213 citra berukuran 256x256 piksel dalam tujuh kategori ekspresi.
Citra-citra tersebut di-resize menjadi 128x128 piksel untuk mempercepat pemrosesan.
Data diproses menggunakan arsitektur CNN yang terdiri dari 3 lapisan konvolusi, 2 lapisan subsampling, dan 2 lapisan dense.
Kami mengevaluasi model dengan 5-fold dan 10-fold cross-validation untuk estimasi kinerja yang robust, serta teknik hold-out .
:30, 80:20, 85:15, dan 90:.
untuk perbandingan hasil yang jelas.
Hasil menunjukkan akurasi tertinggi sebesar 90.
6% dengan learning rate 0.
001 pada pembagian 85% data latih dan 15% data uji, melebihi model yang lebih kompleks.
Meskipun tidak menggunakan transfer learning atau augmentasi data, model ini tetap unggul dibandingkan pendekatan tradisional seperti Local Binary Pattern (LBP) dan Histogram Oriented Gradient (HOG).
Dengan demikian, arsitektur CNN yang sederhana ini terbukti efektif untuk pengenalan ekspresi wajah pada dataset kecil.
Kata kunci: CNN, ekspresi, wajah, deep learning, pengolahan citra
FACIAL EXPRESSION CLASSIFICATION USING CONVOLUTIONAL NEURAL
NETWORKS
Abstract Facial expression recognition is a significant challenge in image processing and human-computer interaction due to its inherent complexity and variability.
This study proposes a simple Convolutional Neural Network (CNN) architecture to enhance the efficiency of emotion classification on small datasets.
Jaffe's dataset consists of 213 images sized 256x256 pixels across seven expression categories.
These images were resized to 128x128 pixels to accelerate processing.
The data was processed using a CNN architecture comprising 3 convolutional layers, 2 subsampling layers, and 2 dense layers.
We evaluated the model with 5-fold- and 10-fold crossvalidation for robust performance estimation and hold-out techniques .
:30, 80:20, 85:15, and 90:.
for clear result comparison.
The results indicated the highest accuracy of 90.
6% with a learning rate of 0.
001 using the 85% training and 15% testing data split, surpassing that of more complex models.
Although the model does not employ transfer learning or data augmentation, it still outperforms traditional approaches such as Local Binary Pattern (LBP) and Histogram Oriented Gradient (HOG).
Thus, this simple CNN architecture proves effective for facial expression recognition on small datasets.
Keywords: CNN, expression, facial, deep learning, image processing Subudhiray et al.
, 2.
, ekspresi wajah menyampaikan 55% informasi emosi, sementara suara menyumbang 38% dan bahasa hanya 7%.
Kompleksitas dan keragaman ekspresi wajah membuatnya tetap menjadi topik penelitian yang menarik (Appasaheb Borgalli & Surve, 2.
Penelitian terkini semakin berfokus pada interaksi manusia-komputer yang cerdas, sehingga PENDAHULUAN Ekspresi wajah berperan penting dalam komunikasi interpersonal, membantu menafsirkan status emosi, aktivitas kognitif, kepribadian, dan psikopatologi seseorang.
Ekspresi wajah juga berkontribusi besar terhadap komunikasi verbal (De La Torre and Cohn, 2.
Menurut (Swapna 1400 Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK).
Vol.
No.
Desember 2024, hlm.
mempertimbangkan ekspresi wajah (Martinez & Valstar, 2016.
McDuff et al.
, 2.
Berbagai implementasi sistem berbasis ekspresi wajah telah dikembangkan di berbagai bidang, termasuk pendidikan (Krithika et al.
, 2017.
Tonguy & Ozaydn Ozkara, 2.
, kesehatan (Altameem & Altameem, 2020.
Leo et al.
, 2.
, industri (Busso & Jain, 2.
, dan hiburan (M.
Akbar et al.
Almeida et al.
, 2.
Namun, pengenalan ekspresi wajah tetap menjadi domain penelitian yang kompleks karena belum ditemukan fitur standar terbaik yang dapat mencirikan setiap jenis ekspresi, terutama dalam variasi kondisi lingkungan dan pencahayaan yang berbeda (Alreshidi & Ullah.
Mehta et al.
, 2018.
S Subudhiray et al.
, 2.
Selain itu, gambar dengan resolusi rendah dan sudut pemotretan wajah yang bervariasi juga menyulitkan Dataset kecil membatasi proses pelatihan dan dapat menyebabkan overfitting (Li et , 2.
Sistem pengenalan ekspresi wajah umumnya difokuskan pada tujuh kategori dasar ekspresi:
netral, marah, jijik, takut, senang, sedih, dan terkejut, yang diterima secara luas oleh masyarakat (Li et al.
, 2018.
Ng et al.
, 2.
Ketujuh ekspresi tersebut terdapat dalam dataset FER 2013 dan Jaffe.
Dataset FER 2013 memiliki sampel yang cukup banyak dengan kondisi wajah dalam beragam lingkungan, posisi, dan pencahayaan.
Sementara itu.
Jaffe memuat ketujuh ekspresi dengan posisi wajah yang teratur di depan kamera (Li et al.
, 2.
Dalam beberapa penelitian terbaru, metode deep learning telah menjadi populer dalam pengenalan ekspresi wajah.
Dengan semakin banyaknya lapisan konvolusi, fitur yang diperoleh menjadi semakin kompleks (Jeong et al.
, 2021.
Xie & Hu, 2.
Namun, kelemahan dari deep learning adalah kurangnya efektivitas pada dataset kecil, yang dapat mengakibatkan overfitting akibat kapasitas pelatihan yang terbatas (Appasaheb Borgalli & Surve, 2022.
Li et al.
, 2.
Beberapa menggunakan dataset Jaffe dengan berbagai teknik.
Misalnya, beberapa peneliti melakukan cropping dengan OpenCV dan mengekstraksi fitur menggunakan arsitektur CNN gabungan dari model Tang (Tang, 2.
dan CaffeNet yang telah dilatih sebelumnya dengan ImageNet (Jia et al.
, 2.
Hasil ekstraksi fitur kemudian diklasifikasikan dengan L2-SVM, menghasilkan akurasi rata-rata 95,7% melalui 10-fold cross-validation (Li et al.
Penelitian lain yang menggunakan metode ekstraksi fitur facial landmark pada dataset Jaffe, melaporkan akurasi tertinggi 76% menggunakan Extreme Learning Machine (ELM) dengan 5-fold cross-validation (Bachtiar & Wafi, 2.
Penelitian oleh (Akhand et al.
, 2.
mengklasifikasikan dataset Jaffe dengan arsitektur CNN VGG16 yang dilatih dengan ImageNet.
Pada lapisan convolutional block 1 hingga 4, arsitektur VGG16 berfungsi sebagai feature extractor dalam kondisi frozen, sedangkan pada block 5 dalam kondisi fine-tuned untuk memperbarui bobot dengan dataset Jaffe.
Penelitian tersebut melaporkan akurasi tertinggi 100% untuk 10% data testing dan 99,52% untuk 10-fold cross-validation.
Pemilihan parameter terbaik berdasarkan teknik pembagian data sangat penting untuk memastikan model dapat memanfaatkan semua data yang tersedia dan meningkatkan generalisasi.
Menurut beberapa studi, meskipun dataset kecil, model dapat berfungsi secara optimal dengan pemilihan parameter yang tepat dan teknik validasi yang sesuai (Vabalas et al.
, 2019.
Xu & Goodacre.
Zhang & Ling, 2.
Dengan menggunakan teknik cross-validation dan hold-out (Mattiev et al.
Utami & Mustakim, 2.
, penelitian ini bertujuan untuk mengoptimalkan pembelajaran model meskipun menggunakan dataset yang kecil.
Penelitian ini bertujuan untuk mengembangkan arsitektur CNN yang sederhana guna mengetahui seberapa optimal hasil klasifikasi pada dataset kecil seperti Jaffe, meskipun proses training tidak menggunakan augmentasi data.
Augmentasi data dapat meningkatkan waktu komputasi dan kebutuhan sumber daya yang lebih besar.
Selain itu, semakin kompleks arsitektur CNN, semakin besar kebutuhan data training atau augmentasi untuk mencapai performa klasifikasi yang optimal (Akhand et al.
, 2.
Penelitian ini akan melakukan mengklasifikasikan dataset Jaffe dengan 5-fold dan 10-fold cross-validation serta pembagian data dengan komposisi 80% training dan 20% testing serta 90% dan 10%.
Parameter yang akan dipilih mencakup nilai epoch dan learning rate pada arsitektur CNN.
Hasil klasifikasi akan dievaluasi dan dibandingkan dengan penelitian sebelumnya, diharapkan penelitian ini dapat memberikan kontribusi pada pengembangan model selanjutnya.
METODE PENELITIAN
Penelitian ini dilakukan melalui beberapa tahapan utama, yang mencakup pengumpulan dataset, preprocessing data, pembangunan model arsitektur Convolutional Neural Network (CNN), pemilihan parameter yang sesuai, pembagian data untuk pelatihan dan pengujian, klasifikasi, serta evaluasi hasil klasifikasi.
Gambar 1 menggambarkan alur penelitian secara keseluruhan, dimulai dari tahap pengumpulan dataset Jaffe, yang berisi citra ekspresi wajah, hingga tahapan akhir evaluasi menggunakan berbagai metrik seperti akurasi, precision, recall, dan F1-score.
Setiap tahapan ini dirancang untuk memastikan bahwa model yang dihasilkan dapat mengenali ekspresi wajah dengan akurasi yang optimal.
Akbar, dkk.
Klasifikasi Ekspresi WajahA 1401 Gambar 1.
Alur Penelitian untuk Pengenalan Ekspresi Wajah Menggunakan CNN Dataset Pra-pemrosesan Dataset yang digunakan dalam penelitian ini adalah Jaffe (Japanese Female Facial Expressio.
, yang diperoleh dari situs http://w.
org/Jaffe Dataset ini terdiri dari citra berukuran 256x256 piksel dalam tujuh kategori ekspresi wajah, yaitu marah .
, jijik .
, takut .
, senang .
, netral .
, sedih .
, dan terkejut .
Tabel 1 menyajikan jumlah sampel untuk setiap kategori ekspresi.
Tabel 1.
Rancangan Analisis Komputasi .
pt, ditenga.
Ketegori Ekspresi Jumlah Citra Marah (Ange.
Jijik (Disgus.
Takut (Fea.
Senang (Happ.
Netral (Neutra.
Sedih (Sadnes.
Terkejut (Surprise.
Total Setiap kategori dalam dataset mencerminkan variasi ekspresi yang penting untuk analisis emosi.
Selain itu.
Gambar 2 menunjukkan contoh citra untuk masing-masing kategori ekspresi, memberikan gambaran visual yang jelas tentang variasi dalam Citra ini menyoroti elemen-elemen penting, seperti posisi alis, bentuk mulut, dan sudut mata, yang membantu dalam identifikasi emosi.
Dengan adanya contoh citra ini, pembaca dapat lebih memahami konteks dari setiap kategori ekspresi.
Gambar 2.
Sampel citra dengan 7 ekspresi: .
marah, .
jijik, .
takut, .
senang, .
netral, .
sedih, dan .
terkejut Pada tahap pra-pemrosesan, penelitian ini melakukan resizing citra untuk mengubah ukuran semua gambar menjadi 128x128 piksel.
Ukuran ini dipilih berdasarkan studi sebelumnya yang menunjukkan bahwa penggunaan ukuran citra ini dapat menghasilkan akurasi yang cukup baik, yakni 5% pada rasio 85% data pelatihan dan 15% data pengujian (Akhand et al.
, 2021.
Rere et al.
, 2.
Penelitian terdahulu mencatat bahwa model CNN tidak selalu optimal untuk citra dengan ukuran lebih Semakin besar ukuran citra, semakin banyak informasi yang perlu dilatih, yang bisa menambah kompleksitas proses pelatihan (Akhand et al.
, 2.
Dalam konteks ini, pemilihan parameter terbaik berdasarkan teknik pembagian data sangat penting untuk mengoptimalkan performa model (Almabdy & Elrefaei, 2019.
Kahloot & Ekler, 2.
Penelitian menunjukkan bahwa penggunaan dataset yang lebih besar umumnya menghasilkan model yang lebih baik, tetapi teknik pembagian data yang tepat juga dapat membantu memaksimalkan efisiensi belajar dari dataset kecil (Althnian et al.
, 2021.
Davila Delgado & Oyedele, 2021.
Shaikhina & Khovanova.
Oleh karena itu, ukuran citra 128x128 piksel dipertahankan untuk memastikan kesesuaian dengan arsitektur CNN yang diusulkan, sambil menghindari proses ekstraksi fitur tradisional seperti Local Binary Pattern (LBP) (Shan et al.
, 2009.
Swapna Subudhiray et al.
, 2.
Facial Landmark (Bachtiar & Wafi, 2.
Histogram of Oriented Gradients (HOG) (Eng et al.
, 2.
, dan Gabor (Swapna Subudhiray et al.
, 2.
Dengan tidak menggunakan teknik ekstraksi fitur ini, penelitian bertujuan untuk mendapatkan performa murni dari arsitektur CNN yang dikembangkan.
Penelitian ini tidak menggunakan augmentasi data dan transfer learning (A.
Akbar et al.
, 2.
pada model CNN agar dapat menguji performa CNN mengklasifikasikan dataset kecil seperti Jaffe.
Beberapa augmentasi data dapat meningkatkan waktu komputasi dan kebutuhan sumber daya (Alomar et , 2.
(Alomar et al.
, 2023.
Appasaheb Borgalli & Surve, 2.
Selain itu, mengingat dataset yang kecil, augmentasi data bisa menjadi kontraproduktif karena dapat menyebabkan distorsi informasi yang tidak diinginkan, yang pada gilirannya dapat menurunkan akurasi model (Tatar et al.
, 2.
1402 Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK).
Vol.
No.
Desember 2024, hlm.
Dengan demikian, meskipun augmentasi dapat bermanfaat dalam banyak kasus, untuk penelitian ini, kami memilih untuk fokus pada penggunaan data asli demi menjaga integritas fitur yang diidentifikasi oleh model.
Selain itu, semakin kompleks arsitektur CNN, semakin besar kebutuhan data training atau augmentasi untuk mencapai performa klasifikasi yang optimal (Akhand et al.
Model Arsitektur CNN Usulan model arsitektur CNN dalam penelitian ini dirancang dengan mempertimbangkan jumlah lapisan dan ukuran filter yang optimal untuk dataset Model ini terdiri dari tiga lapisan konvolusi dan dua lapisan dense, yang merupakan konfigurasi sederhana namun efektif.
Dalam perbandingan, penelitian oleh (Akhand et al.
, 2.
menggunakan arsitektur VGG16 yang lebih kompleks dengan hasil akurasi yang tinggi, namun memerlukan lebih banyak data untuk pelatihan.
Sementara itu, penelitian oleh (Rere et al.
, 2.
menunjukkan bahwa arsitektur yang lebih sederhana dapat memberikan hasil yang kompetitif pada dataset Metode Convolutional Neural Network (CNN) merupakan pendekatan yang sangat penting dalam deep learning, khususnya untuk pengolahan citra (Rere et al.
, 2019.
Saifullah et al.
, 2.
CNN
menggabungkan lapisan-lapisan jaringan konvolusi untuk ekstraksi fitur citra dengan jaringan saraf untuk klasifikasi (Liew et al.
, 2.
Model arsitektur CNN yang diusulkan dalam penelitian ini, sebagaimana ditunjukkan pada Gambar 3, terdiri dari beberapa lapisan sebagai berikut:
Lapisan Konvolusi 1: Menggunakan 6 kernel filter berukuran 5x5 dengan padding 0 dan stride Persamaan konvolusi untuk lapisan ini adalah .
ycuyc1 = yce(OcycnOOycA1 ycuycn0 O ycoycnyc ycayc1 ) .
Lapisan Konvolusi 2: Menggunakan 10 filter berukuran 5x5 dengan padding 0 dan stride 1.
Rumus konvolusi untuk lapisan ini adalah .
ycuyc2 = yce(OcycnOOycA2 ycuycn1 O ycoycnyc ycayc2 ) Lapisan Subsampling 2: Memiliki spesifikasi yang sama dengan lapisan subsampling pertama, dengan pooling rata-rata 2x2 dan stride 2.
Lapisan Konvolusi 3: Menggunakan 1 filter berukuran 5x5 dengan padding 0 dan stride 1.
Rumusnya adalah .
ycuyc3 = yce(OcycnOOycA3 ycuycn2 O ycoycnyc ycayc3 ) .
Di mana ycuyc1 adalah output dari neuron yc pada lapisan konvolusi pertama, dan yce adalah fungsi aktivasi yang digunakan .
Lapisan Subsampling 1: Menggunakan pooling rata-rata .
verage poolin.
dengan ukuran 2x2, padding 0, dan stride 2.
Proses pooling dinyatakan dengan .
ycyco,ycu = 4 Oc1ycn=0 Oc1yc=0 ycu2yco 1,2ycu yc Gambar 3.
Arsitektur Model CNN untuk Pengenalan Ekspresi Wajah Mendalam Penelitian ini .
Lapisan Dense 1 (Fully Connecte.
Menghubungkan semua neuron dari lapisan sebelumnya ke 512 neuron.
Persamaannya adalah .
ycyc1 = yce(OcycA ycn=1 ycuycn .
ycycnyc ycayc ) .
Lapisan Dense 2 (Fully Connecte.
Menghubungkan 512 neuron ke 128 neuron dengan rumus .
ycyc2 = yce(Oc512 ycn=1 ycycn .
ycycnyc ycayc ) .
Lapisan Output: Mengklasifikasikan output ke dalam 7 kelas ekspresi dengan fungsi aktivasi softmax .
Akbar, dkk.
Klasifikasi Ekspresi WajahA 1403 ycyco = yc.
cyco2 ) = yce ycyco Oc7 yc=1 yce Lapisan konvolusi memiliki peran penting dalam CNN sebagai pengekstraksi fitur (Suhirman et , 2.
Proses konvolusi dilakukan antara nilainilai piksel citra dengan nilai-nilai dalam matriks filter .
, menghasilkan peta fitur (Rere et al.
Semakin banyak jumlah kernel filter yang digunakan, semakin kompleks pula model arsitektur CNN (Khanday et al.
, 2.
Jumlah filter dalam model arsitektur CNN ini dibatasi untuk menjaga performa optimal dalam mengklasifikasikan dataset kecil seperti Jaffe tanpa menggunakan augmentasi data dan transfer learning.
Setiap keluaran fitur map dilengkapi dengan parameter bias yca.
Untuk beberapa keluaran fitur map, masukan fitur map akan dikonvolusi dengan kernel yang spesifik.
Oleh karena itu, jumlah lapisan konvolusi dianggap sebagai hyperparameter (Liew et , 2016.
Wafaa Shihab & Abdul amir A.
, 2.
Pooling Layer atau Lapisan Subsampling:
Setelah proses aktivasi dalam lapisan konvolusi, dilakukan subsampling pada lapisan pooling.
Proses pooling memperkecil ukuran matriks dari peta fitur lapisan sebelumnya dengan cara pooling maksimum atau pooling rata-rata (Zainudin et al.
, 2.
Hasil pooling ini berupa matriks berdimensi lebih kecil, dan proses ini penting untuk mendapatkan ukuran peta fitur yang memadai untuk diproses pada lapisan fully connected (Akhand et al.
, 2021.
Rere et al.
Proses pooling dan konvolusi melibatkan ukuran stride.
Stride adalah parameter yang menentukan pergeseran filter di dalam piksel citra.
Nilai stride 1 menggeser filter satu pixel secara vertikal dan horizontal.
Jika nilai stride kecil, fitur yang diperoleh semakin detail, tetapi memerlukan komputasi yang lebih besar.
Nilai stride kecil dapat menghindari informasi piksel yang terbuang (Wafaa Shihab & Abdul amir A.
, 2.
Gambar 4 menunjukkan proses pooling berdasarkan nilai maksimum atau max pooling.
mengambil nilai maksimum dalam grid berikutnya, menghasilkan peta fitur berukuran 2x2.
Fully Connected Layer: Lapisan ini sering disebut sebagai dense layer.
Di dalamnya terdapat operasi pembelajaran fitur dengan metode backpropagation untuk klasifikasi (Liew et al.
Penambahan lapisan ini meningkatkan kompleksitas pembelajaran dan membutuhkan sumber daya komputasi yang signifikan (Rere et al.
Hasil dari proses pada dense layer terakhir kemudian diaktivasi dengan fungsi softmax, sehingga diperoleh probabilitas kelas tertinggi untuk data yang diuji.
Fungsi Aktivasi: Semua lapisan sebelum layer terakhir menggunakan aktivasi tanh seperti pada persamaan .
ex OeeOex = x Oex e e Semua lapisan sebelum layer terakhir menggunakan aktivasi tanh seperti pada persamaan Jenis aktivasi ini dipilih karena merupakan aktivasi dalam arsitektur Lenet 5 (Z.
Xie et al.
yang merupakan arsitektur CNN dengan komputasi lebih ringan dibandingkan arsitektur Sedangkan aktivasi softmaxseperti dalam persamaan 9, terdapat pada lapisan yang terdapat pada dense layer terakhir.
eycuycn s.
cuycn ) = Ocycu Dimana, x merupakan input dari fungsi aktivasi, sedangkan s adalah output probabilitas berdasarkan kelas i dan n totalnya.
Evaluasi Model Setelah proses pelatihan model CNN selesai, langkah selanjutnya adalah melakukan evaluasi mengklasifikasikan ekspresi wajah berdasarkan Jaffe.
Evaluasi dilakukan dengan menggunakan metrik yang umum dalam pengolahan citra dan pembelajaran mesin, seperti akurasi, precision, recall, dan F1-score (Saeed et al.
, 2.
Metrik-metrik menyeluruh tentang performa model dalam mengenali berbagai ekspresi wajah.
Akurasi persentase prediksi yang benar dari total prediksi yang dilakukan oleh model.
Dihitung dengan rumus .
Gambar 4.
Subsampling atau pooling Akurasi = Pada Gambar 4, terlihat bahwa peta fitur berukuran 4x4, yang merupakan output dari lapisan konvolusi, terbagi dalam 4 grid karena menggunakan ukuran pooling 2x2.
Setiap grid pooling 2x2 akan mengambil nilai piksel maksimum, kemudian bergeser sejauh 2 piksel untuk .
ycuyc yc=1 e Jumlah Prediksi Benar ycNycuycycaycoAycEycyceyccycnycoycycn ycu100% .
Precision menunjukkan seberapa banyak prediksi positif yang benar dari seluruh prediksi positif yang dibuat.
Rumusnya adalah .
1404 Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK).
Vol.
No.
Desember 2024, hlm.
Precision = ycNycE yaycE Dimana ycNycE adalah True Positives dan yaycE adalah False Positives.
Recall mengukur kemampuan model untuk menemukan semua instance positif.
Rumusnya adalah .
Recall = ycNycE yaycA Di mana yaN adalah False Negatives.
F1-Score rata-rata harmonis antara precision dan keseimbangan antara keduanya.
Rumusnya adalah .
F1 = PrecisionAxARecall ycu2 Precision ARecall .
ditunjukkan dalam Tabel 2.
Pengujian pada skenario 9, yang membagi data dengan proporsi 85% untuk pelatihan dan 15% untuk pengujian, mencapai nilai akurasi tertinggi sebesar 90,625%, seperti pada grafik pada Gambar 6.
Gambar 6 menunjukkan grafik akurasi dan loss model selama pelatihan.
Subplot .
menggambarkan peningkatan akurasi untuk data pelatihan .
dan validasi .
kemampuan model dalam belajar.
Subplot .
menunjukkan penurunan loss untuk kedua data.
Keduanya mencerminkan kinerja model yang baik dalam pengenalan ekspresi wajah.
Hal ini menunjukkan bahwa model dapat memanfaatkan sebagian besar data untuk pelatihan, menghasilkan kinerja yang optimal pada data yang tidak terlihat sebelumnya.
HASIL DAN PEMBAHASAN
Pada bagian ini, kami menganalisis hasil pengujian model arsitektur Convolutional Neural Network (CNN) yang diusulkan (Gambar .
untuk pengenalan ekspresi wajah menggunakan dataset Jaffe.
Berbagai kombinasi hyperparameter, seperti learning rate dan jumlah epoch, dievaluasi untuk menilai akurasi model.
Hasil akan dibandingkan dengan penelitian sebelumnya, serta dievaluasi menggunakan metrik umum dalam pengolahan citra, termasuk akurasi, recall, precision, dan F1-score.
Bab ini bertujuan untuk memberikan wawasan tentang kinerja model dalam klasifikasi emosi berdasarkan ekspresi wajah.
Gambar 6.
Grafik Akurasi dan Loss Model Gambar 5.
Model Arsitektur yang diusulkan Hasil Pengujian Hasil penelitian pada model yang diusulkan menunjukkan variasi akurasi yang tergantung pada kombinasi parameter yang digunakan, sebagaimana Skenario 1 .
menunjukkan akurasi 385%, sedangkan skenario 2 .
memiliki akurasi 87.
Selisih antara kedua skenario ini adalah 0.
94%, yang mengindikasikan bahwa peningkatan jumlah epoch tidak selalu berbanding lurus dengan peningkatan akurasi.
Sebaliknya, skenario 3, yang menggunakan 10-fold cross-validation dengan 65 epoch, mencapai akurasi Ini menunjukkan bahwa metode validasi silang dapat memberikan estimasi kinerja yang lebih stabil dan lebih representatif dibandingkan dengan pembagian data yang sederhana.
Akbar, dkk.
Klasifikasi Ekspresi WajahA 1405 Skenario Metode Pengujian 5-fold cross validation 5-fold cross validation 10-fold cross validation 10-fold cross validation Split 70% : 30% Split 70% : 30% Split 70% : 30% Split 80% : 20% Split 85% : 15% Split 85% : 15% Split 90% : 10% Split 90% : 10% Split 90% : 10% Tabel 2.
Rancangan Analisis Komputasi Kombinasi Hyperparameter Parameter Hasil Pengujian Learning rate Epoch Akurasi (%) Recall(%) Precision (%) Pada skenario 5, di mana pelatihan dilakukan dengan 70% data dan pengujian 30%, didapatkan akurasi sebesar 82.
8125% pada epoch 70.
Namun, skenario 6 dengan learning rate 0.
0001 dan epoch 50 untuk pembagian yang sama hanya menghasilkan Penurunan akurasi ini menunjukkan bahwa pengaturan learning rate yang terlalu kecil dapat mengakibatkan model tidak belajar dengan baik dari data yang tersedia, sehingga menghasilkan performa yang buruk.
Dari hasil di atas, nilai learning rate yang kecil tidak selalu meningkatkan pembelajaran dalam mengurangi overfitting.
Penelitian menunjukkan bahwa semakin kecil learning rate, semakin detail proses pembelajaran yang dilakukan, namun hal ini juga dapat menyebabkan penurunan kinerja pada fungsi loss (Zainorzuli et al.
, 2.
Skenario 9, yang menunjukkan akurasi 90.
625%, mirip dengan pengujian yang dilakukan oleh Rere.
Usna, dan Soegijanto .
, di mana akurasi penelitian ini lebih tinggi dibandingkan dengan akurasi penelitian sebelumnya yang mencapai 87%.
Dengan data uji yang lebih sedikit, seperti pada skenario 11 hingga 13 .
% data latih dan 10% data uj.
, akurasi tercatat sebesar 85.
7% pada epoch 65.
Namun, pada epoch 50, nilai akurasi turun menjadi Ketika epoch ditingkatkan menjadi 90, akurasi kembali meningkat menjadi 80.
95%, tetapi tetap di bawah akurasi skenario 7.
Hal ini menunjukkan bahwa hiperparameter epoch dapat berfluktuasi dan tidak selalu menghasilkan akurasi yang lebih baik pada nilai epoch yang lebih tinggi.
Hasil pengujian dalam penelitian ini lebih lanjut dapat dilihat pada Gmbar 5.
Grafik pada Gambar 7 menunjukkan kolom paling kiri yang mewakili skenario 1 hingga 13, di mana skenario tanpa mencantumkan epoch dan learning rate menggunakan epoch 50 dan learning 001 .
Setiap skenario memiliki hasil
nilai akurasi sesuai dengan warna grafik masingmasing, dengan akurasi tertinggi pada skenario 9
F1 (%)
Analisis Parameter Model dan Learning rate Dalam penelitian ini, analisis parameter model berfokus pada jumlah filter dalam lapisan konvolusi dan pengaturan learning rate, yang keduanya merupakan elemen kunci dalam mempengaruhi kinerja model CNN yang diusulkan.
Jumlah Filter Parameter jumlah filter pada lapisan konvolusi terakhir ditetapkan sebanyak satu.
Hal ini bertujuan untuk memperkecil total parameter model, sehingga mengurangi kompleksitas komputasi dan risiko Penelitian sebelumnya (Rere et al.
, 2.
menunjukkan bahwa penggunaan jumlah filter konvolusi yang lebih banyak tidak memberikan peningkatan akurasi yang signifikan dibandingkan dengan model yang diusulkan dalam penelitian ini.
Sebaliknya, meningkatnya jumlah filter justru berpotensi memperbesar total parameter dan kebutuhan komputasi, yang dapat menjadi beban pada sumber daya yang tersedia (Liew et al.
, 2.
Penentuan jumlah filter yang optimal sangat bergantung pada karakteristik spesifik dari tugas dan dataset yang diproses.
Penambahan filter dapat membantu model dalam mempelajari representasi fitur yang lebih kompleks, yang penting untuk mengidentifikasi pola dalam data.
Namun, jika terlalu banyak filter digunakan, ada risiko bahwa model dapat menghafal data pelatihan tanpa dapat menggeneralisasi dengan baik pada data baru, sebuah kondisi yang dikenal sebagai overfitting (Wafaa Shihab & Abdul amir A.
, 2020.
Xie et al.
Oleh karena itu, penting untuk melakukan eksplorasi beberapa konfigurasi jumlah filter melalui validasi silang .
ross-validatio.
Ini akan memungkinkan evaluasi kinerja model dengan variasi jumlah filter, memastikan bahwa model tidak terlalu kompleks untuk dataset yang relatif kecil.
Dalam konteks dataset besar, seperti ImageNet, model dapat memanfaatkan kompleksitas arsitektur CNN yang lebih tinggi, seperti VGG16 (Akhand et , 2.
, tanpa mengkhawatirkan overfitting.
1406 Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK).
Vol.
No.
Desember 2024, hlm.
Nilai Akurasi (%) 13 .
, epoch 65 , epoch 90 ,lr 0.
, epoch 70
-CV)
-CV) epoch 65
-CV), epoch 250
-CV)
-CV)
-CV), epoch 250
-CV) epoch 65
-CV)
, epoch 70 6 .
,lr 0.
, epoch 90 Gambar 7.
Grafik Pengujian dari 13 Skenario Learning rate Pengaturan learning rate juga menjadi faktor krusial dalam proses pelatihan model.
Dalam penelitian ini, learning rate terbaik yang digunakan Pada skenario 6, ketika learning rate diturunkan menjadi 0.
0001, akurasi model justru Hal ini menunjukkan bahwa semakin kecil learning rate tidak selalu menjamin optimalisasi pembelajaran, dan dalam banyak kasus dapat mengakibatkan kinerja yang kurang baik pada fungsi Dengan demikian, untuk penelitian ini, pemilihan kombinasi parameter modelAitermasuk jumlah filter dan learning rateAimerupakan langkah kritis dalam mencapai akurasi yang diinginkan, serta menjaga keseimbangan antara kompleksitas model dan kemampuan generalisasi terhadap data baru.
Perbandingan dengan Penelitian Sebelumnya Dalam pengenalan ekspresi wajah, hasil penelitian ini dibandingkan dengan hasil dari berbagai penelitian sebelumnya untuk memberikan wawasan yang lebih baik mengenai efektivitas dan kinerja model yang diusulkan (Tabel .
Sebagaimana ditunjukkan pada Tabel 2, model yang diusulkan mencapai nilai akurasi maksimum sebesar 90.
625% pada skenario 9, di mana data pelatihan dan pengujian dibagi dalam proporsi 85% dan 15%.
Meskipun pencapaian ini signifikan, akurasi ini masih lebih rendah dibandingkan dengan beberapa penelitian lain yang menerapkan pendekatan lebih kompleks.
Contohnya, penelitian oleh (Akhand et al.
, 2.
menggunakan model pre-trained yang menghasilkan akurasi hingga 100%.
Penggunaan model yang telah dilatih sebelumnya menunjukkan bahwa memanfaatkan bobot dari dataset yang lebih besar dan kompleks dapat meningkatkan kinerja model pada dataset yang lebih kecil.
Namun, salah satu kelebihan utama penelitian ini adalah model sederhana yang diusulkan mampu menghasilkan kinerja kompetitif meskipun tidak menggunakan teknik augmentasi data atau transfer Model ini berhasil mencapai akurasi 625%, yang lebih baik daripada beberapa model lain yang menggunakan jumlah filter konvolusi yang lebih banyak tetapi tanpa augmentasi data.
Hal ini menunjukkan bahwa, dalam kondisi tertentu, model CNN sederhana mampu bersaing dengan model yang lebih kompleks dalam pengenalan ekspresi wajah, terutama ketika data terbatas, seperti pada dataset Jaffe.
Perbandingan menunjukkan bahwa meskipun model sederhana yang diusulkan dalam penelitian ini menunjukkan akurasi yang kompetitif, terdapat kekuatan yang jelas pada penelitian lain yang menggunakan teknik augmentasi data dan transfer learning.
Misalnya, penelitian oleh (Appasaheb Borgalli & Surve, 2.
berhasil mencapai akurasi 91.
58% dengan menggunakan teknik cropping citra menggunakan Haar Cascade dan augmentasi data, yang berkontribusi pada kemampuan model untuk belajar dari variasi yang lebih luas dalam dataset.
Ini menunjukkan bahwa meskipun arsitektur CNN menawarkan kemampuan untuk belajar fitur secara otomatis, pendekatan tradisional seperti Gabor dan K-NN, yang digunakan dalam penelitian oleh (Swapna Subudhiray et al.
, 2.
, juga dapat memberikan hasil yang kompetitif, mencapai akurasi 8% pada dataset yang sama.
Akbar, dkk.
Klasifikasi Ekspresi WajahA 1407 Tabel 3.
Perbandingan dengan Penelitian sebelumnya Referensi,tahun (Shan et al.
, 2.
(Rere et al.
, 2.
(Akhand et al.
, 2.
(Li et al.
, 2.
(Swapna Subudhiray et , 2.
(Eng et al.
, 2.
(Appasaheb Borgalli & Surve, 2.
(Bachtiar & Wafi, 2.
Penelitian ini 2024
Penelitian ini 2024
Penelitian ini 2024
Penelitian ini 2024
Penelitian ini 2024
Penelitian ini 2024
Data training dan data testing 213: 10-Fold CV
213: 85%:15%
213: 70%:30%
213:90%:10%
213: 10-Fold CV
Akurasi (%) 213: 10-Fold CV
213: 70%:30%
Gabor K-NN
HOG dan SVM
CNN dengan haar cascade dan augmentasi data
Facial landmark, dengan ELM
CNN 8 layer
CNN 8 layer
CNN 8 layer
CNN 8 layer
CNN 8 layer
CNN 8 layer
213: 70%:30%
213: 10-Fold CV 213: 5-Fold CV 5-fold cross validation 10-fold cross validation Split 70% : 30% Split 80% : 20% Split 85% : 15% Split 90% : 10% Selain itu, penelitian ini memberikan nilai lebih dalam hal kepraktisan dan efisiensi komputasi.
Meskipun tidak menggunakan augmentasi data atau transfer learning, penelitian ini tetap berhasil mencapai hasil yang lebih baik dibandingkan model yang menggunakan metode ekstraksi fitur tradisional seperti LBP dan HOG, yang terbukti memiliki keterbatasan dalam mempelajari fitur kompleks dari citra wajah.
Sebagai contoh, penelitian oleh (Eng et , 2.
menggunakan HOG dan SVM, menghasilkan akurasi yang lebih rendah, yaitu 19%, dibandingkan dengan model yang Pengujian oleh (Akhand et al.
, 2021.
Appasaheb Borgalli & Surve, 2022.
Li et al.
, 2.
menunjukkan bahwa semakin kompleks arsitektur CNN, semakin besar kebutuhan akan augmentasi data dan transfer learning untuk mengurangi Hal ini terbukti dapat menghasilkan akurasi yang lebih tinggi dibandingkan dengan penelitian yang diusulkan.
Namun, keunggulan kemampuannya untuk mencapai performa yang cukup tinggi tanpa mengandalkan kompleksitas arsitektur yang berlebihan atau metode pelatihan lanjutan, sehingga meminimalkan kebutuhan komputasi dan sumber daya.
Dengan membandingkan hasil yang diperoleh, terlihat adanya potensi untuk meningkatkan kinerja model yang diusulkan.
Penelitian mendatang dapat mempertimbangkan integrasi metode pre-trained atau augmentasi data untuk mengatasi kelemahan yang ada.
Misalnya, penelitian oleh (Akhand et al.
menunjukkan bahwa penggunaan arsitektur yang lebih kompleks dan pre-trained dapat menghasilkan akurasi yang jauh lebih tinggi, bahkan ketika diterapkan pada dataset yang lebih kecil.
Perbandingan ini juga menyoroti pentingnya pendekatan yang cermat dalam pemilihan metode yang sesuai dengan kebutuhan spesifik dataset.
Sementara penelitian ini menggunakan model yang lebih sederhana, hasilnya menunjukkan bahwa Metode yang digunakan LBP dan SVM
CNN
CNN
Pretrained Deep CNN Pretrained Deep CNN Transfer learning on model CNN MNF network (Hybrid Caffe-imagene.
and L2-SVM model tersebut mampu memberikan hasil yang Penelitian ini menunjukkan bahwa model sederhana juga dapat memberikan hasil yang signifikan dengan efisiensi komputasi yang lebih tinggi, terutama dalam konteks dataset kecil seperti Jaffe.
Limitasi Riset Meskipun penelitian ini memberikan kontribusi signifikan dalam pengenalan ekspresi wajah menggunakan arsitektur CNN yang sederhana, terdapat beberapa limitasi yang perlu diakui.
Pertama, ukuran dataset yang digunakan dalam penelitian ini terbatas, yaitu hanya 213 citra.
Meskipun dataset Jaffe mencakup berbagai ekspresi wajah, jumlah yang relatif kecil dapat membatasi menggeneralisasi dengan baik pada data baru.
Penggunaan dataset yang lebih besar dapat meningkatkan robustnes model dan mengurangi risiko overfitting, terutama ketika menerapkan arsitektur yang lebih kompleks.
Kedua, penelitian ini tidak menggunakan teknik augmentasi data.
Augmentasi data dapat membantu memperluas variasi dalam dataset, sehingga model dapat belajar dari berbagai kondisi pencahayaan, posisi wajah, dan ekspresi yang mungkin tidak tersedia dalam data asli.
Tanpa augmentasi, model mungkin tidak mampu menangkap fitur yang lebih kompleks yang muncul dalam situasi dunia nyata.
Ketiga, meskipun model ini mencapai akurasi yang memuaskan, penggunaan arsitektur yang lebih sederhana juga membatasi kemampuannya dalam belajar representasi fitur yang sangat kompleks.
Penelitian sebelumnya menunjukkan bahwa model CNN yang lebih dalam dan kompleks, seperti VGG16 dan ResNet, mampu memberikan hasil yang lebih baik dalam tugas-tugas pengenalan citra.
Namun, mengeksplorasi kemampuan model yang lebih ringan dan sederhana untuk aplikasi yang lebih 1408 Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK).
Vol.
No.
Desember 2024, hlm.
efisien, yang mungkin tidak selalu memberikan hasil yang optimal dibandingkan model yang lebih rumit.
Keempat, parameter yang digunakan dalam model ini, seperti jumlah filter dan learning rate, ditetapkan berdasarkan percobaan awal.
Meskipun analisis hyperparameter telah dilakukan, terdapat kemungkinan bahwa kombinasi parameter lain yang belum dieksplorasi dapat menghasilkan performa yang lebih baik.
Oleh karena itu, eksplorasi lebih lanjut mengenai variasi parameter dapat menjadi langkah penting dalam penelitian di masa depan.
Akhirnya, meskipun penelitian ini memberikan wawasan penting dalam klasifikasi ekspresi wajah, hasilnya mungkin tidak sepenuhnya representatif untuk aplikasi di dunia nyata.
Variasi yang lebih besar dalam data, seperti berbagai kelompok usia, etnis, dan gender, perlu dipertimbangkan untuk memastikan model dapat diimplementasikan secara efektif dalam konteks yang lebih luas.
KESIMPULAN
Penelitian ini menunjukkan bahwa ukuran citra, jumlah filter, learning rate, dan epoch memiliki pengaruh signifikan terhadap performa klasifikasi model CNN yang diusulkan.
Ukuran citra yang lebih besar tidak selalu memberikan hasil terbaik, karena memerlukan komputasi yang lebih kompleks dan pembelajaran dari data pelatihan yang lebih besar.
Dalam penelitian ini, ukuran citra 128x128 piksel diidentifikasi sebagai ukuran optimal, sejalan dengan temuan dari sejumlah penelitian sebelumnya.
Analisis perbandingan dengan penelitian terdahulu menunjukkan bahwa penerapan transfer learning secara signifikan dapat meningkatkan akurasi klasifikasi, terutama pada dataset kecil seperti Jaffe, di mana model-model CNN yang menggunakan teknik ini menunjukkan hasil akurasi yang lebih tinggi dibandingkan dengan model yang diusulkan.
Meskipun penelitian ini tidak menggunakan teknik augmentasi data dan transfer learning, model yang diusulkan tetap berhasil mencapai akurasi 6%, yang lebih tinggi dibandingkan dengan model-model sebelumnya yang menggunakan arsitektur CNN dengan jumlah filter konvolusi yang lebih besar.
Selain itu, akurasi model ini juga lebih baik dibandingkan dengan berbagai model yang menggunakan teknik ekstraksi fitur tradisional dan metode pembelajaran mesin.
Untuk penelitian mendatang, penerapan transfer learning sebagai fitur extractor pada model CNN, yang kemudian diikuti oleh klasifikasi menggunakan metode pembelajaran mesin, sangat direkomendasikan.
Penggunaan dataset yang berbeda dari Jaffe juga akan memberikan wawasan lebih dalam mengenai performa model yang diusulkan dan kemampuannya untuk generalisasi pada variasi ekspresi wajah dalam konteks yang lebih luas.
DAFTAR PUSTAKA