Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK) Vol.
No.
Februari 2026, hlm.
p-ISSN: 2355-7699
e-ISSN: 2528-6579
EVALUASI DAN OPTIMALISASI MODEL CNN-TRANSFORMER ENCODER
DALAM DETEKSI STRES MELALUI SINYAL SUARA
Barlian Henryranu Prasetio*1.
Edita Rosana Widasari2.
SyifaAo Hukma Shabiyya3 Fakultas Ilmu Komputer.
Universitas Brawijaya.
Malang, 3Magister Ilmu Komputer.
Universitas Brawijaya.
Malang Email: 1barlian@ub.
id, 2editarosanaw@ub.
id, 3syifahukma_s@student.
Penulis Korespondensi (Naskah masuk: 13 September 2024, diterima untuk diterbitkan: 23 Oktober 2.
Abstrak Deteksi stres melalui sinyal suara masih menghadapi tantangan akurasi karena keterbatasan model konvensional dalam menangkap distribusi frekuensi spasial-temporal.
Oleh karena itu, diperlukan pendekatan baru yang mampu mengekstraksi pola kompleks secara efektif.
Artikel ini mengeksplorasi peningkatan performa deteksi stres melalui sinyal suara dengan mengintegrasikan model Convolutional Neural Network (CNN) dan Transformer Encoder.
Kami mengevaluasi berbagai konfigurasi jumlah head pada self-attention dan nilai learning rate untuk model CNN-Transformer Encoder guna mengidentifikasi parameter optimal.
Hasil eksperimen menunjukkan bahwa konfigurasi dengan 6 head pada Transformer Encoder dan learning rate 0,01 memberikan performa terbaik dengan nilai loss terendah sebesar 0,5034, akurasi tertinggi 78,37%, serta peningkatan pada precision, recall, dan F1-score.
Selain itu, penggabungan model CNN dengan Transformer Encoder secara paralel secara signifikan meningkatkan akurasi deteksi stres dibandingkan dengan model baseline CNN dan DSCNN.
Pengujian lebih lanjut menggunakan confusion matrix menunjukkan keunggulan model DSCNN-Transformer Encoder dalam mendeteksi kelas stres dengan akurasi tertinggi.
Pengujian pada dataset yang berbeda juga menunjukkan bahwa model yang diusulkan memiliki kestabilan yang baik.
Temuan ini menegaskan efektivitas integrasi Transformer Encoder dalam meningkatkan performa deteksi stres pada sinyal suara.
Kata kunci: Deteksi Stres.
Convolutional Neural Network (CNN).
Transformer Encoder.
Learning Rate.
SelfAttention.
Sinyal Suara
EVALUATION AND OPTIMIZATION OF CNN-TRANSFORMER ENCODER MODEL
FOR STRESS DETECTION THROUGH SPEECH SIGNALS
Abstract Stress detection through speech signals still faces accuracy challenges due to the limitations of conventional models in capturing spatial-temporal frequency distributions.
Therefore, new approaches are needed that can effectively extract complex patterns.
This study explores enhancing stress detection performance through speech signals by integrating Convolutional Neural Network (CNN) and Transformer Encoder models.
We evaluated various configurations of self-attention head counts and learning rates for the CNN-Transformer Encoder model to identify optimal parameters.
Experimental results indicate that a configuration with 6 heads in the Transformer Encoder and a learning rate of 0.
01 yields the best performance with the lowest loss of 0.
5034, highest accuracy 37%, and improvements in precision, recall, and F1-score.
Furthermore, the parallel integration of CNN with Transformer Encoder significantly improves stress detection accuracy compared to baseline CNN and DSCNN models.
Further analysis using confusion matrices highlights the superior performance of the DSCNNTransformer Encoder model in detecting stress classes with the highest accuracy.
These findings affirm the effectiveness of integrating Transformer Encoder in enhancing stress detection performance from voice signals.
Keywords: Stress Detection.
Convolutional Neural Network (CNN).
Transformer Encoder.
Learning Rate.
SelfAttention.
Speech Signal
PENDAHULUAN
Berdasarkan survei Health Service Monitor (Ipsos, 2.
, stres menjadi masalah kesehatan ketiga yang paling dikhawatirkan oleh responden, dengan angka mencapai 30%.
Faktor penyebab stres meliputi Stres merupakan respons fisiologis terhadap tekanan mental, emosional, atau fisik (Useche et al.
190 Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK).
Vol.
No.
Februari 2026, hlm.
tuntutan tugas psikologis yang tinggi, kurangnya kesempatan berkembang, aspek sosial negatif, dan aspek organisasi negatif (Harmsen et al.
, 2.
Kegagalan beradaptasi dengan stres dapat menyebabkan malfungsi otak, masalah fisiologis, serta tantangan psikologis seperti depresi, kecemasan, rasa sakit, kelelahan, dan berbagai gejala lain (Gulzhaina et al.
, 2.
Pengukuran photoplethysmography (PPG) untuk melacak aktivitas jantung atau mengukur kadar hormon stres dalam darah (Yun et al.
, 2.
, serta pengukuran berbasis gambar wajah (Jeon et al.
, 2.
Namun, metode ini sering menimbulkan ketidaknyamanan dan rasa canggung pada individu.
Han et al.
menyarankan penggunaan pengukuran stres melalui suara, yang dianggap lebih mudah, non-invasif, dan dapat dilakukan dengan mikrofon tersembunyi tanpa perlu menempelkan alat pada tubuh penderita.
Speech Stress Recognition (SSR) adalah otomatisasi untuk mengidentifikasi tingkat stres melalui analisis suara.
Stres menyebabkan ketegangan otot di tubuh, termasuk pita suara, yang mengubah karakteristik suara (Folk, 2.
Ketegangan otot dan laju pernapasan yang meningkat saat stres mengubah mekanika produksi suara dan mempengaruhi frekuensi suara yang dihasilkan (Slavich et al.
, 2.
Tingkat stres dapat dideteksi melalui perubahan frekuensi ini.
Metode ekstraksi fitur sinyal suara yang umum digunakan adalah MelFrequency Cepstral Coefficients (MFCC), yang meniru cara kerja pendengaran manusia dan terbukti efektif dalam mendeteksi stres (Hilmy et al.
, 2021.
Abdul et al, 2.
Penerapan pengenalan suara terus berkembang signifikan.
Support Vector Machine (SVM) adalah salah satu algoritme yang menjanjikan untuk berbagai tugas seperti deteksi peradangan organ (Chui et al, 2.
dan pengenalan emosi suara (Sun et al.
, 2.
Namun.
SVM memiliki keterbatasan dalam menangani data tidak terstruktur seperti suara dan ketergantungan pada metode lain untuk klasifikasi multi-class (Kamil et al.
, 2.
Convolutional Neural Network (CNN), yang diperkenalkan oleh LeCun pada tahun 1989, menjadi populer karena kemampuannya dalam tugas klasifikasi suara multi-class (Massoudi et al.
, 2.
Penelitian membandingkan performa SVM dan CNN untuk klasifikasi suara stres menunjukkan bahwa CNN mencapai akurasi terbaik (Shahin et al.
, 2.
Namun.
CNN memiliki kekurangan dalam menangkap distribusi frekuensi sinyal suara stres yang tersebar dalam rentang waktu (Sun et al.
, 2.
Kekurangan tersebut dapat diatasi dengan melakukan modifikasi pada CNN.
Salah satu pendekatan adalah menggabungkan CNN dengan Recurrent Neural Network (RNN) secara serial (Choi et al.
, 2.
Namun, model serial memiliki kelemahan dalam menangani data emosional yang tersebar dan tidak berpola.
Jiang et al.
mengajukan model Parallelized Convolutional Recurrent Neural Network (PCRN) untuk meningkatkan pemahaman perubahan emosi, tetapi masih memiliki keterbatasan dalam mengidentifikasi informasi relevan dari data yang tersebar dan tidak Pada Vaswani memperkenalkan algoritme Transformer yang mampu menangkap informasi fitur spasial dan memprediksi distribusi frekuensi yang tersebar pada suara stres dalam rentang waktu tertentu (Bautista et , 2.
Transformer menggunakan mekanisme self-attention yang menghubungkan blok-bloknya untuk mempelajari hubungan antara fitur-fitur suara pada berbagai rentang waktu, efektif dalam mengenali ucapan stres (Al-onazi et al.
, 2.
Dengan meningkatnya kebutuhan sistem monitoring kesehatan mental yang non-invasif, sistem deteksi stres berbasis suara yang akurat menjadi krusial untuk aplikasi di bidang kesehatan digital, manajemen SDM, dan keselamatan Oleh karena itu, integrasi CNN dan Transformer Encoder diharapkan memberikan solusi yang lebih andal dalam mendeteksi stres secara realtime.
Penelitian identifikasi level stres berdasarkan ucapan berbasis ekstraksi fitur MFCC, kemudian CNN akan mewakili fitur-fitur spasial, sementara Transformer Encoder akan mengatasi kekurangan CNN dalam menangkap meningkatkan keakuratan pengenalan suara stres.
Peningkatan performansi dan kinerja algoritme akan diteliti melalui pengujian dan perhitungan metrik evaluasi berupa loss, akurasi, precision, recall, dan F1-score dengan pengujian parameter jumlah head, learning rate, dan perbandingan performa antara baseline dan proposed method.
Kemudian, pengujian pada dataset yang berbeda juga dilakukan untuk mengetahui kestabilan model yang diusulkan.
KAJIAN PUSTAKA
Studi Terkait Pengenalan informasi emosi dalam ucapan merupakan tantangan di bidang kecerdasan buatan.
Jiang et al.
mengusulkan Parallelized Convolutional Recurrent Neural Network (PCRN) dengan fitur spektral untuk pengenalan emosi dalam Model ini menggabungkan CNN dan LSTM secara paralel untuk memproses dua jenis fitur yang berbeda secara bersamaan, sehingga mempelajari perubahan halus dalam emosi dengan lebih baik.
Model PCRN menangkap perubahan emosional dalam domain waktu-frekuensi menggunakan database seperti CASIA.
EMO-DB.
ABC, dan SAVEE.
Hasil akurasi untuk setiap database adalah:
CASIA kurang dari 50%.
EMO-DB kurang dari 80%.
Prasetio, dkk.
Evaluasi Dan Optimalisasi ModelA 191 ABC sekitar 47,62% hingga 55,70%, dan SAVEE kurang dari 70%.
Bezoui et al.
menggunakan metode MelFrequency Cepstral Coefficients (MFCC) untuk ekstraksi fitur dalam pengenalan suara pada bacaan Al-Quran.
Penelitian ini menguji jumlah filter MFCC dan tipe window yang digunakan.
Jumlah filter diuji dengan variasi 12, 22, 32, dan 42, dengan hasil terbaik pada 32 filter, menghasilkan efisiensi 85%.
Tipe window hamming menunjukkan performa lebih baik daripada rectangular dengan efisiensi 75% dibandingkan 55%.
Vaswani et al.
memperkenalkan metode Transformer dalam penelitian "Attention Is All You Need," yang mengusulkan arsitektur jaringan sederhana berdasarkan mekanisme attention tanpa pengulangan dan konvolusi.
Model ini terdiri dari encoder dan decoder, masing-masing dengan enam blok identik.
Setiap lapisan dalam encoder memiliki dua sub-lapisan: multi-head self-attention mechanism dan fully connected feed-forward network.
Mustaqeem et al.
mengusulkan Deep Stride CNN Architecture (DSCNN) untuk deteksi emosi suara menggunakan dataset IEMOCAP dan RAVDESS.
Metode ini menggunakan arsitektur CNN tanpa skema pooling pada layernya untuk mengekstraksi fitur-fitur tingkat tinggi dari spektogram sinyal ucapan dan mendeteksi pola tersembunyi dalam lapisan konvolusi.
Berbeda PCRN menggabungkan CNN dan LSTM secara paralel, studi ini mengusulkan integrasi CNN dengan Transformer Encoder.
CNN menangkap fitur-fitur spasial, sedangkan Transformer Encoder mengatasi kekurangan CNN dalam menangkap distribusi frekuensi suara stres yang tersebar dalam rentang Transformer menggunakan mekanisme selfattention yang menghubungkan blok-bloknya, efektif dalam mengenali ucapan stres tanpa bergantung pada pola-pola berulang.
Hal ini diharapkan dapat meningkatkan akurasi pengenalan suara stres secara sebelumnya dalam menangani data yang tersebar dan tidak berpola.
Stres dan Ucapan Ucapan adalah cara alami mengekspresikan diri, dan kini digunakan dalam aplikasi komputer (Akyay.
Ucapan stres melibatkan gerakan kompleks alat artikulasi dan sistem pernapasan.
Analisis stres suara meliputi aspek verbal dan non-verbal.
Verbal adalah suara yang dikeluarkan saat berkomunikasi, sedangkan non-verbal mencakup kecepatan bicara, volume, intonasi, dan ketidakstabilan vokal, yang mencerminkan tingkat stres (Jaafar & Lachiri, 2.
Gambar 1 menunjukkan bahwa terdapat tiga komponen sinyal ucapan adalah sumber suara, saluran vokal, dan sinyal ucapan .
Stres memengaruhi ketegangan otot pita suara, posisi artikulator, dan frekuensi suara (Giannakakis et al.
Gambar 1.
Ilustrasi Mekanisme Produksi Suara Manusia
METODE PENELITIAN
Secara keseluruhan, tahapan penelitian ini mencakup proses dari pengumpulan data hingga evaluasi performa model, sebagaimana ditunjukkan pada Gambar 2.
Gambar 2.
Diagram Alur Penelitian Deteksi Stres Berbasis CNNTransformer Encoder Dataset Penelitian ini menggunakan data yang diperoleh dari Speech Under Simulated and Actual Stress (SUSAS) yang dibuat dibawah arahan Prof.
John H.
Hansen (Hansen, 1.
yang disponsori oleh Air Force Research Laboratory.
Data terbagi menjadi empat domain dengan berbagai emosi dan tekanan.
Terdapat 32 partisipan yang terdiri dari 19 orang lakilaki dan 13 orang perempuan dengan rentang usia 2276 tahun yang menghasilkan lebih dari 16.
Data-data ini diambil dari mikrofon dengan bahasa Inggris yang dapat diaplikasikan untuk speech Terdapat 35 kata yang membentuk database SUSAS yang diambil menggunakan konverter A/D 16-bit dengan kecepatan sampel 8kHz.
Untuk menguji performa model, penelitian ini mengambil sebanyak 2807 sampel dari kumpulan data SUSAS.
Data diperoleh pada link https://catalog.
edu/LDC99S78.
Data ini diambil dari tujuh pembicara, termasuk tiga perempuan dan empat laki-laki.
Data dikategorikan ke dalam lima kelas: AuAngryAy.
AuHigh stressAy.
AuLow stressAy.
AuNeutralAy, and AuSoftAy.
Jumlah data yang digunakan ditunjukkan pada Tabel 2.
192 Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK).
Vol.
No.
Februari 2026, hlm.
Tabel 2.
Dataset SUSAS yang Digunakan Jenis Kelamin Laki-laki Perempuan Angry High stress Low stress Neutral Soft Kelas Stres Selain menggunakan dataset SUSAS, penelitian ini juga memanfaatkan dataset Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS) guna menguji kestabilan model yang diusulkan (Livingstone et al, 2.
RAVDESS
adalah dataset yang berisi 7356 file yang melibatkan 24 subjek, terdiri dari 12 laki-laki dan 12 perempuan.
Dataset ini mencakup 8 emosi: AucalmAy.
AuhappyAy.
AusadAy.
AuangryAy.
AufearfulAy.
AudisgustAy.
AusurprisedAy, dan AuneutralAy, dan tersedia dalam format audio dan Untuk penelitian ini, hanya file audio yang Data suara ini direkam dengan kecepatan sampel 48 kHz menggunakan mikrofon berkualitas tinggi, dan kategori emosi yang ada dipetakan sesuai dengan kategori stres yang dianalisis dalam dataset SUSAS.
Pengujian performa model pada dataset RAVDESS bertujuan untuk mengevaluasi kestabilan model CNN-Transformer Encoder dalam mendeteksi stres pada kondisi dan dataset yang berbeda.
Setiap file audio melalui proses normalisasi dan framing menggunakan window Hamming 25 ms dengan 10 ms overlap.
Dari hasil framing, diekstraksi 13 koefisien MFCC per frame menggunakan 40 filter Mel, menghasilkan matriks fitur berukuran 40y13 sebagai input ke CNN-Transformer.
2 Arsitektur Sistem yang diusulkan Penelitian ini menggunakan model paralelisasi CNN dengan Transformer Encoder.
Kedua model tersebut menerima input dari hasil ekstraksi fitur MFCC dan menyesuaikannya dengan ukuran tensor yang dibutuhkan.
Output embedding yang dihasilkan oleh model CNN (Gambar 3.
) dan Transformer Encoder (Gambar 3.
) akan di-concatenate menjadi complete embedding dan diteruskan ke fully connected .
Model ini memiliki satu fc layer dengan 512 neuron yang mengeluarkan sejumlah kelas, kemudian diteruskan ke fungsi softmax untuk prediksi kelas stres.
Ilustrasi arsitektur CNNTransformer Encoder ditunjukkan pada Gambar 3.
Studi ini mengusulkan untuk menggabungkan kekuatan CNN dalam menangkap fitur spasial dan Transformer Encoder dalam menangani distribusi frekuensi suara stres yang tersebar dalam rentang waktu, sehingga diharapkan mampu meningkatkan akurasi dan kinerja dalam mendeteksi stres melalui sinyal suara.
Gambar 3.
Arsitektur Metode yang Diusulkan: .
Layer yang Digunakan pada Blok Deep Stride Convolutional Neural Network, .
Arsitektur Transformer Encoder, .
Arsitektur lengkap Metode yang diusulkan Gambar 3.
menggambarkan layer yang digunakan dalam blok Deep Stride Convolutional Neural Network (DSCNN).
Input yang diterima oleh blok DSCNN dalam penelitian ini memiliki ukuran tiga dimensi: Channel (C).
Height (H), dan Width (W).
Channel (C) merupakan input dari hasil MFCC.
Height (H) adalah dimensi frekuensi dari fitur input spectrogram atau MFCC, dan Width (W) adalah dimensi waktu dari fitur input spectrogram atau MFCC.
Penelitian ini menggunakan tujuh blok, masing-masing terdiri dari convolutional layer, 2x2 stride, 2x2 padding, diikuti oleh batch normalization layer dan fungsi aktivasi ReLU.
Blok konvolusi pertama memiliki tambahan layer dropout.
Rincian blok pertama memiliki filter ukuran 16 dengan kernel 7x7 dan dropout 0,25.
Blok kedua dan ketiga memiliki filter 32 dengan kernel 5x5 dan 3x3.
Blok keempat dan kelima memiliki filter 64 dengan kernel Blok keenam dan ketujuh memiliki filter 128 dengan kernel 3x3.
Output embedding dari blok CNN terakhir dikonversi menjadi vektor melalui flattening Parameter detail untuk DSCNN ditunjukkan pada Tabel 1.
Pendekatan ini memaksimalkan ekstraksi fitur dari input MFCC, memastikan Prasetio, dkk.
Evaluasi Dan Optimalisasi ModelA 193 informasi yang relevan dipertahankan untuk analisis lebih lanjut.
Tabel 1.
Parameter Model Baseline DSCNN Tipe Parameter in_channels=1, out_channels=32.
Conv2d kernel_size=7, stride=2, padding=2 BatchNorm2d num_features=32 ReLU Dropout p=0,25 in_channels=32, out_channels=32.
Conv2d kernel_size=5, stride=2, padding=2 BatchNorm2d num_features=32 ReLU in_channels=32, out_channels=64.
Conv2d kernel_size=3, stride=2, padding=2 BatchNorm2d num_features=64 ReLU in_channels=64, out_channels=64.
Conv2d kernel_size=3, stride=2, padding=2 BatchNorm2d num_features=64 ReLU in_channels=64, out_channels=128.
Conv2d kernel_size=3, stride=2, padding=2 BatchNorm2d num_features=128 ReLU in_channels=128, out_channels=128.
Conv2d kernel_size=3, stride=2, padding=2 BatchNorm2d num_features=128 ReLU in_channels=128, out_channels=512.
Conv2d kernel_size=3, stride=2, padding=2 BatchNorm2d num_features=512 ReLU Gambar 2.
menunjukkan input .
itur MFCC) melewati lapisan max pooling 1x4 untuk mengurangi dimensi waktu.
Format tensor awal adalah N.
Operasi squeeze kemudian digunakan untuk menghapus dimensi C, menghasilkan tensor dengan urutan N.
H, dan W.
Untuk mencocokkan urutan input yang diperlukan oleh Transformer Encoder, tensor diubah menggunakan metode permute dari N.
W menjadi W.
Setelah penyesuaian, tensor dimasukkan ke dalam Transformer Encoder, yang terdiri dari 4 blok identik.
Output dari Transformer Encoder digabungkan dengan output model CNN dan diteruskan ke fully connected layer.
HASIL DAN PEMBAHASAN
Untuk mengevaluasi keefektifan sistem yang diusulkan, sistem dievaluasi dan analisis kinerja sistem yang diusulkan dalam beberapa indikator yaitu: evaluasi jumlah head pada self-attention di Transformer Encoder terhadap performa model, evaluasi learning rate terhadap kinerja model CNNTransformer Encoder, dan evaluasi perbandingan kinerja metode yang diusulkan dengan model Pada tahap pelatihan, optimizer yang digunakan yaitu Adam dengan weight decay sebesar 1e-3.
Jumlah epoch yang digunakan adalah 200 dengan jumlah batch adalah 64.
Evaluasi Jumlah Head Pengujian pertama mengevaluasi pengaruh jumlah head pada self-attention dalam arsitektur Transformer Encoder terhadap deteksi stres dari sinyal suara, dengan jumlah head yang diuji adalah 1, 2, 4, dan 6 (Shin et al.
, 2.
Pengujian dilakukan pada model DSCNN-Transformer Encoder.
Tabel 3.
Hasil Pengujian Jumlah Head pada Self-Attention di Transformer Encoder Terhadap Performa Model
Jumlah Loss
Akurasi
Precisio
Recall F1Head
(%)
Score
0,6696
0,6715
0,6071
0,5034
75,5319
75,5319
77,6596
78,3688
0,7824
0,7703
0,7901
0,8073
0,7739
0,7683
0,7810
0,8004
0,7717
0,7690
0,7809
0,7980
Hasil menunjukkan (Tabel .
bahwa jumlah head mempengaruhi metrik evaluasi secara signifikan.
Dengan 1 head, nilai loss adalah 0,6696, akurasi 75,5319%, serta precision, recall, dan F1-score masing-masing 0,7824, 0,7739, dan 0,7717.
Pada 2 head, loss sedikit meningkat menjadi 0,6715, namun akurasi tetap sama.
Dengan 4 head, terjadi penurunan loss menjadi 0,6071 dan akurasi meningkat menjadi 77,6596%, dengan precision, recall, dan F1-score yang juga meningkat.
Jumlah head 6 mencapai kinerja terbaik dengan loss terendah 0,5034, akurasi tertinggi 78,3688%, serta precision, recall, dan F1score terbaik.
Analisis confusion matrix (Gambar .
menunjukkan prediksi yang sangat baik pada kelas Angry untuk semua jumlah head.
Untuk kelas High Stress, head 6 memberikan hasil terbaik .
Kelas Low Stress memberikan hasil terbaik dengan head 4 .
, sedangkan kelas Soft juga menunjukkan hasil terbaik dengan head 6 .
Secara keseluruhan, head 6 adalah yang paling optimal.
Evaluasi Learning Rate Pengujian kedua mengevaluasi pengaruh learning rate .
terhadap metrik evaluasi model CNN-Transformer Encoder, dengan nilai lr yang diuji adalah 0,01, 0,005, dan 0,001.
Learning rate yang tepat krusial untuk performa model yang optimal, menghindari overfitting atau underfitting.
Pengujian dilakukan dengan optimasi Adam dan epoch sebanyak 200.
Pada Tabel 3, untuk lr 0,001, model menunjukkan nilai loss sebesar 0,6785 dan akurasi 73,0496%, dengan precision, recall, dan F1-score yang baik tetapi tidak optimal.
Dengan lr 0,005, terdapat peningkatan signifikan, yaitu loss menurun menjadi 0,6727 dan akurasi meningkat menjadi 76,5957%, serta peningkatan pada precision, recall, dan F1-score.
Namun, lr 0,01 menghasilkan performa terbaik dengan loss 0,5034 dan akurasi 78,3688%, meskipun perbedaan pada precision dan recall dibandingkan lr 0,005 cukup kecil.
194 Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK).
Vol.
No.
Februari 2026, hlm.
Gambar 4.
Hasil Pengujian Jumlah Head yang Digunakan pada Sisi Transformer Encoder Menggunakan Model Parallel CNN-Transformer Encoder: .
Confusion Matrix dengan Jumlah Head 1, .
Confusion Matrix dengan Jumlah Head 2, .
Confusion Matrix dengan Jumlah Head 4, dan .
Confusion Matrix dengan Jumlah Head 6 Tabel 3.
Hasil Pengujian Learning Rate Terhadap Performa
Model CNN-Transformer Encoder
Loss
Akurasi Precision Recall F1(%) Score
0,7492
0,7361 0,7325
0,001 0,6785
73,0496
0,6727
0,8110
0,7882 0,7789
0,005
76,5957
0,5034
78,3688
0,8073
0,8004 0.
0,01
Confusion matrix (Gambar .
mengungkapkan prediksi kelas yang sangat baik pada kelas Angry untuk semua lr.
Pada kelas High Stress, lr 0,01 menghasilkan prediksi terbaik .
, sedangkan lr 0,001 menghasilkan nilai tertinggi pada kelas Low Stress .
Kelas Neutral memiliki prediksi terbaik pada lr 0,001 .
, dan kelas Soft terbaik pada lr 0,005 .
Pemilihan lr yang tepat sangat penting untuk meningkatkan kualitas prediksi model.
Perbandingan Kinerja Empat model baseline dibandingkan dengan model Transformer Encoder untuk meningkatkan deteksi stres melalui sinyal suara.
Keempat model dilatih dan diuji menggunakan data yang sama untuk mengevaluasi performa mereka.
Hasil pengujian menunjukkan (Tabel .
bahwa model baseline CNNBi LSTM memiliki akurasi 71,9858% dan nilai loss 0,7656, dengan precision, recall, dan F1-score masing-masing 0,6980, 0,6700, dan 0,6666.
Model kedua.
CNN Gated Recurrent Unit (GRU), menunjukkan peningkatan performa dengan akurasi 71,6312% dan nilai loss 0,8467, serta precision 0,6900, recall 0,6980, dan F1-score 0,6880.
Model baseline ketiga CNN (Bautista et al.
memiliki akurasi 69,86% dan nilai loss 0,7420, dengan precision, recall, dan F1-score masingmasing 0,7328, 0,7060, dan 0,7055.
Model keempat.
DSCNN (Mustaqeem & Kwon, 2.
, menunjukkan peningkatan performa dengan akurasi 75,8865% dan nilai loss 0,6126, serta precision 0,7752, recall 0,7432, dan F1-score 0,7454.
Model kelima.
CNN-Transformer Encoder, memperoleh akurasi 73,76% dengan loss 0,6550, serta precision 0,7627, recall 0,7526, dan F1-score 0,7547.
Model keempat.
DSCNN-Transformer Encoder, menunjukkan performa terbaik dengan akurasi 78,3688%, nilai loss 0,5034, precision 0,8073, recall 0,8004, dan F1-score 0,7980.
Integrasi Transformer Encoder dengan model baseline CNN atau DSCNN secara paralel terbukti efektif dalam meningkatkan deteksi stres.
Confusion matrix menunjukkan bahwa model DSCNN-Transformer Encoder prediksi yang paling akurat untuk kelas High Stress .
dan Soft .
, sedangkan model CNN menunjukkan hasil yang lebih rendah untuk kelaskelas tertentu.
Hasil ini menunjukkan keunggulan model yang mengintegrasikan Transformer Encoder dalam mendeteksi stres dari sinyal suara (Gambar .
Prasetio, dkk.
Evaluasi Dan Optimalisasi ModelA 195 .
Gambar 5.
Hasil Pengujian Nilai Learning Rate yang Digunakan Menggunakan Model Parallel CNN-Transformer Encoder .
Confusion Matrix dengan Learning Rate 0,001, .
Confusion Matrix dengan Learning Rate 0,005, dan .
Confusion Matrix dengan Learning Rate 0,01 Tabel 4.
Hasil Pengujian Perbandingan Metrik Evaluasi antara Model Baseline dengan Proposed Method
Akurasi
Precisi
F1Model
Loss
Recall (%) Score
CNN-Bi LSTM
0,7656
71,9858
0,6980
0,6700
0,6666
CNN-GRU
0,8467
71,6312
0,6900
0,6980
0,6880
CNN (Bautista 0,7420 69,8600 0,7328 0,7060 0,7055 et al.
, 2.
DSCNN
(Mustaqeem et
0,6126
75,8865
0,7752
0,7432
0,7454
, 2.
CNNTransformer Encoder
0,6550
73,7600
0,7627
0,7526
0,7547
roposed DSCNNTransformer Encoder
0,5034
78,3688
0,8073
0,8004
0,7980
roposed Penelitian ini juga menguji dan membandingkan proposed method CNN-Transformer Encoder serta DSCNN-Transformer Encoder pada dua dataset, yaitu SUSAS dan RAVDESS untuk menunjukkan kestabilan model yang diusulkan.
Penggunaan dua dataset yang memiliki karakteristik berbeda bertujuan untuk menilai kemampuan generalisasi model dalam mendeteksi stres dari sinyal suara di berbagai kondisi lingkungan dan emosi.
Hasil pengujian performa dari model yang diusulkan, pada kedua dataset SUSAS dan RAVDESS menunjukkan bahwa kedua model memiliki kestabilan yang baik.
Seperti ditunjukkan pada Tabel 5, model CNN-Transformer Encoder pada dataset RAVDESS menghasilkan nilai loss sebesar 0,6893 dengan akurasi 74,13%, precision 0,7569, recall 0,7347, dan F1-score 0,7241.
Sementara itu, pada dataset SUSAS, model yang sama menunjukkan loss sebesar 0,655 dengan akurasi yang sedikit lebih rendah, yaitu 73,76%, namun tetap menunjukkan hasil yang stabil dengan precision 0,7627, recall 0,7526, dan F1-score 0,7547.
Meskipun terdapat sedikit perbedaan performa antara kedua dataset, kestabilan model ini tercermin dari konsistensi metrik evaluasi yang tetap mendekati hasil optimal.
Tabel 5.
Hasil Pengujian Proposed Method Pada Dataset Berbeda Dataset Loss Akura si (%) Preci Recal F1Score CNN-Transformer Encoder .
roposed metho.
0,689 74,125 0,756 0,734 0,724 RAVDESS
0,655
73,760
0,762 0,752
0,754
SUSAS
DSCNN-Transformer Encoder .
roposed metho.
0,633 77,750 0,801 0,781 0,776 RAVDESS
0,503
78,368
0,807 0,800
0,798
SUSAS
196 Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK).
Vol.
No.
Februari 2026, hlm.
Gambar 6.
Hasil Pengujian Perbandingan Metrik Evaluasi antara Model Baseline dengan Proposed Method .
Confusion Matrix Model Baseline CNN, .
Confusion Matrix Model Baseline DSCNN, .
Confusion Matrix Model Proposed Method CNN-Transformer Encoder, dan .
Confusion Matrix Model Proposed Method DSCNN-Transformer Encoder
KESIMPULAN
Penelitian ini telah menunjukkan bahwa integrasi model CNN dan Transformer Encoder secara paralel dapat secara signifikan meningkatkan deteksi stres melalui sinyal suara.
Berdasarkan hasil pengujian, beberapa kesimpulan dari penelitian ini adalah sebagai berikut.
Pengujian terhadap jumlah head pada self-attention dalam arsitektur Transformer Encoder menunjukkan bahwa jumlah head yang optimal adalah 6.
Model dengan 6 head memperoleh loss 0,5034, akurasi 78,37%, precision 0,8073, recall 0,8004, dan F1score 0,7980.
Ini menunjukkan bahwa dengan jumlah head yang tepat, model CNN-Transformer Encoder dapat menangkap pola kompleks dalam data suara, sehingga meningkatkan deteksi stres.
Selain itu, pengujian nilai learning rate mengungkapkan bahwa nilai optimal adalah 0,01, dengan hasil loss 0,5034, akurasi 78,37%, precision 0,8073, recall 0,8004, dan F1-score 0,7980.
Nilai learning rate yang lebih kecil atau lebih besar tidak memberikan kinerja yang sama baiknya, menegaskan pentingnya memilih learning rate yang tepat.
Perbandingan antara model baseline dan model yang diajukan menunjukkan bahwa model CNNTransformer Encoder dan DSCNN-Transformer Encoder memberikan peningkatan signifikan dalam deteksi stres.
Model DSCNN-Transformer Encoder, khususnya, mencapai nilai loss terendah 0,5034 dan akurasi tertinggi 78,3688%, menunjukkan bahwa integrasi Transformer Encoder dengan CNN atau DSCNN secara paralel efektif dalam meningkatkan deteksi stres.
Selanjutnya, kestabilan juga ditunjukan oleh proposed method dimana tidak hanya efektif dalam mendeteksi stres pada satu jenis dataset, tetapi juga dapat beradaptasi dengan baik pada dataset lain yang memiliki variasi dalam emosi stres, seperti yang ditunjukkan pada pengujian dengan dataset RAVDESS dan SUSAS.
Untuk penelitian selanjutnya, disarankan untuk menggunakan teknik augmentasi data seperti pitch shifting, adding noise, atau time-stretching guna meningkatkan variasi kondisi stres dan melakukan tuning hyperparameter lebih lanjut.
Selain itu, menguji model pada dataset lain atau data primer penting untuk memastikan generalisasi model.
Menggabungkan Transformer Encoder dengan model lain selain CNN juga bermanfaat untuk Terakhir, mengimplementasikan model ke dalam aplikasi atau platform yang fleksibel dapat memudahkan penggunaan oleh berbagai kalangan.
Prasetio, dkk.
Evaluasi Dan Optimalisasi ModelA 197
DAFTAR PUSTAKA