PROCESSOR AeVOL.
No.
Oktober 2025 Laman web jurnal: https://ejournal.
id/index.
php/processor Jurnal Processor
P-ISSN: 1907-6738 | E-ISSN: 2528-0082
Pengenalan Pola Depresi Berbasis Suara Menggunakan Ekstraksi Fitur Mel-Frequency Cepstral Coefficients Wahju Tjahjo Saputro1*.
Abdul Fadlil2.
Murinto3 Program Studi Informatika.
Universitas Ahmad Dahlan.
Yogyakarta 55191.
Indonesia.
Program Studi Teknologi Informasi.
Universitas Muhammadiyah Purworejo.
Purworejo 54111.
Indonesia.
Departemen Teknik Elektro.
Universitas Ahmad Dahlan.
Yogyakarta 55191.
Indonesia.
Departemen Informatika.
Universitas Ahmad Dahlan.
Yogyakarta 55191.
Indonesia.
*Penulis Korespondensi.
Email: 2436083021@webmail.
AbstrakOe Penyakit depresi menjadi pemasalahan penting saat ini, karena ada peningkatan secara global penderita depresi.
Faktor depresi banyak dan kompleks, dapat menjangkau semua kalangan baik anak-anak hingga lansia.
Tujuan penelitian ini untuk mengetahui pola depresi dan sehat berdasarkan ekstraksi fitur suara.
Metode ekstraksi fitur yang digunakan MelFrequency Cepstral Coefficients (MFCC).
Ketiga model yang digunakan untuk mengukur performa dan evaluasi yaitu Nayve Bayes (NB).
Decision Tree (DT), dan Random Forest (RD).
Dataset yang digunakan EATD-Corpus berisi 162 rekaman mahasiswa Universitas Tongji Tiongkok.
Hasil penelitian menunjukkan pola depresi dan sehat berhasil nampak dengan parameter MFCC yaitu 25 ukuran masing-masing frame, 10 jarak antar frame, alpha 0,97 sebagai nilai koefisien preemphasis, 40 jumlah maksimum koefisien mel filterbank, dan 12 jumlah cepstral coefficients.
Klasifikasi thresholds diperoleh dua kelas yaitu sehat thresholds A 53,00 dan depresi diatas Ou 53,00 menggunakan Self-rating Depression Scale.
Performa model, akurasi terbaik dicapai RF 0,8481.
Pada kelas sehat, presisi dicapai DT 0,8814, recall dan F1-score dicapai RF masing-masing sebesar 0,9706, dan 0,9167.
Pada kelas depresi, presisi dicapai RF nilai 0,3333, recall dan F1-score dicapai NB masing-masing sebesar 0,3636, dan 0,2581.
Kata Kunci: Pengenalan pola.
Suara.
Depresi.
Sehat.
MFCC
AbstractOe The identification of depression patterns from human voices is important because depression can interfere with activities, reduce interest in learning, and hinder socialisation.
Depression is a significant problem today because there has been a global increase in the number of people suffering from it.
The factors contributing to depression are numerous and complex, and can affect all groups, from children to the elderly.
The purpose of this study was to identify depression patterns based on voice feature extraction.
The feature extraction method used is Mel-Frequency Cepstral Coefficients (MFCC).
The MFCC method is capable of extracting features that closely resemble the human auditory system.
The dataset used is the EATD-Corpus, which contains 162 recordings of students from Tongji University in China.
The results of the study show that depression and healthy patterns can be distinguished using MFCC parameters, namely 25 measurements per frame, 10 frame intervals, an alpha value of 0.
97 as the pre-emphasis coefficient, a maximum of 40 Mel filterbank coefficients, and 12 cepstral coefficients.
Classification thresholds can be obtained for two classes: healthy with thresholds < 53.
00 and depressed Ou 53.
00 using the Self-Rating Depression Scale.
Keywords: Pattern recognition.
Speech.
Depressed.
Healthy.
MFCC
PENDAHULUAN
Penyakit depresi pada era komputasi menjadi isu menarik.
Penderita depresi saat ini terus mengalami peningkatan, salah satu penyebab yaitu kehadiran perangkat komunikasi .
Masalah depresi cukup berdampak secara signifikan terhadap kualitas hidup manusia.
Pada negara berkembang seperti Indonesia alat deteksi dini terhadap pasien bergejala depresi .
, tenaga medis, prasarana dan pengobatan masih terbatas.
Permasalahan yang dihadapi pada banyak kasus, bahwa gejala depresi seringkali sulit di diagnosis pada tahap awal .
, .
Permasalahan lain, depresi sering kali tidak memiliki gejala fisik yang jelas.
Sehingga individu seringkali tidak terdiagnosis tahap awal.
Banyak penderita depresi merasa enggan atau malu untuk mengungkapkan .
, .
, .
, hal ini menyebabkan masyarakat tidak dapat melakukan pertolongan dan cenderung membiarkan.
Deteksi dini terhadap gejala depresi dan tingkat keakuratan merupakan kunci utama bagi pasien dalam menjalani proses pemulihan .
Hal ini membuat pentingnya penerapan teknologi speech recognition yang dapat membantu mendeteksi perubahan kecil dalam perilaku individu pada aspek suara.
Masalah depresi cukup berdampak secara signifikan terhadap kualitas hidup manusia.
Pada negara berkembang seperti Indonesia alat deteksi dini terhadap pasien bergejala depresi .
, tenaga medis, prasarana dan pengobatan klinis masih terbatas .
, .
Tingginya prevalensi penyakit depresi secarSZa global menyebabkan gejala depresi https://doi.
org/10.
33998/processor.
Submitted: 13 Agustus 2025.
Reviewed: 02 September 2025.
Accepted.
11 September 2025.
Published: 31 Oktober 2025 dini terhadap pasien sulit dikenali .
, .
Penyakit depresi dapat menyebabkan penderita mengalami emosi .
, fisik tidak stabil, penurunan produktivitas, hubungan sosial .
sampai potensi bunuh diri .
, .
Telah banyak penelitian terkait pasien depresi berdasarkan suara .
, .
, .
, .
, .
, .
, berdasarkan wajah .
, .
, .
, dan berdasarkan pola perilaku .
, .
Penelitian Morales .
menekankan pentingnya penggunaan data audio naturalistik dalam pengembangan sistem deteksi yang lebih akurat dan aplikatif pada dunia nyata.
Pengenalan suara depresi dapat dikategorikan dalam fitur prosodi, spectral, dan kualitas suara .
Penyelesaikan masalah deteksi gejala depresi berdasarkan suara diperlukan pendekatan secara non-invasif dan inovatif melibatkan Depression Speech Pattern Recognition (DSPR).
Meskipun kemajuan teknologi bidang DSPR cukup signifikan, sejumlah tantangan masih tetap ada, seperti keterbatasan dataset yang terbuka akibat privasi pasien, keberagaman bahasa, budaya, dan kesulitan dalam validasi klinis.
Oleh karena itu, penelitian ini dilakukan penggunaan pendekatan Mel-Frequency Cepstrum Coefficients (MFCC).
Karena MFCC merupakan metode ekstraksi fitur yang mendekati sistem pendengaran manusia .
, sehingga mampu membedakan pola fitur suara antara depresi dan tidak.
Manfaatnya yaitu hasil pola depresi atau tidak dapat digunakan untuk melakukan klasifikasi menggunakan model-model machine learning dan deep learning.
METODOLOGI PENELITIAN
1 Tahapan Penelitian Blok diagram penelitian ditunjukkan pada Gambar 1.
Empat tahap dilakukan, pertama persiapan dataset EATDCorpus .
Satu contoh dari 162 sampel suara ke-11 ditunjukkan pada Gambar 2 dari dataset EATD-Corpus, berisi suara mandarin aksen Tiongkok tradisional telah diterjemahkan.
Data EATD-Corpus ada dua file audio WAV bernama neutral.
wav yaitu audio asli dan neutral_out.
wav audio telah melalui pembersihan.
Kedua melakukan proses pelabelan terhadap 162 suara.
Bila Self-rating Depression Scale (SDS) melebihi 53,00 maka Ketiga melakukan ekstraksi fitur menggunakan MFCC.
Keempat mengamati pola suara dari ekstraksi fitur hasil dari MFCC .
, .
, .
, dan .
Gambar 1.
Blok diagram penelitian Gambar 2.
Terjemahan suara sampel ke-11 https://doi.
org/10.
33998/processor.
Submitted: 13 Agustus 2025.
Reviewed: 02 September 2025.
Accepted.
11 September 2025.
Published: 31 Oktober 2025 2 Dataset EATD-Corpus berisi rekaman audio format WAV dan transkrip teks dari wawancara 162 peserta bersatus mahasiswa Universitas Tongji Tiongkok.
Durasi total rekaman audio pada EATD-Corpus sekitar 2,26 jam.
Mahasiswa yang direkam telah menyetujui dan menjamin keaslian audio.
Masing-masing mahasiswa diwajibkan menjawab tiga pertanyaan yang dipilih secara acak.
Setelah mengisi rekaman para mahasiswa mengisi kuesioner SDS.
Kuesioner SDS berisi 20 pertanyaan menilai empat parameter karakteristik gejala penyakit depresi: efek pervasif, efek fisiologis, gangguan lain, dan aktivitas psikomotorik .
SDS merupakan kuesioner yang umum digunakan psikolog dalam memilah individu berpotensi depresi pada praktik klinis.
Banyak penelitian telah membahas parameter yang efektif dalam membedakan gejala depresi atau tidak dengan fitur spektral dan MFCC .
, .
, .
, .
, .
MFCC mampu membedakan suara termasuk fitur prosodi .
ama, energi suara, forman.
atau fitur spektral (MFCC.
LPCC.
GFCC).
Fitur prosodi berhubungan dengan saluran vokal dan model suara seseorang, seperti variasi, ukuran saluran vokal, gerakan artikulator, dan kecepatan bicara.
Fitur spektral berfokus pada karakterisasi sinyal, frekuensi, yang dapat menambah informasi berguna untuk fitur prosidi .
3 Mel-Frequency Cepstral Coefficients MFCC dapat digunakan untuk ekstraksi fitur suara depresi, perhitungan MFCC ada enam tahap.
Pre-emphasis melakukan proses peningkatan frekuensi tinggi dari sinyal suara sumber.
Fungsi pertama, memampatkan efek rekaman suara yang cenderung melemahkan frekuensi tinggi.
Kedua meningkatkan rasio terhadap noise pada frekuensi tinggi.
Ketiga, meningkatkan akurasi suara, karena fitur suara frekuensi tinggi dapat lebih jelas.
Keempat, menyeimbangkan spektrum sebelum ekstraksi fitur, dalam hal ini MFCC.
Persamaan 1 merupakan perhitungan pre-emphasis .
, .
, dinotasikan p.
sebagai sinyal output, s.
sebagai sinyal input asli, dan sebagai koefisien antara 0,9 hingga 1,0.
Framing memecah sinyal menjadi potongan kecil yang disebut frame dengan asumsi sinyal bersifat stationer.
Pada tahap framing sinyal suara dibagi menjadi beberapa frame, terdiri dari N sampel.
Frame yang berdekatan dipisahkan sejauh M (M\N).
Analisis sinyal suara dalam frame biasanya 20 Ae 40 ms .
, namun penelitian .
lebih memilih 10 Ae 30 ms.
Frame diambil sepanjang mungkin guna mendapatkan resolusi frekuensi terbaik, waktu dipilih sependek mungkin bertujuan mendapatkan ranah waktu terbaik.
Overlapping pada sebuah sinyal ditunjukkan pada Gambar 3.
Hamming window bertujuan menjaga kesinambungan ujung pertama dan terakhir setiap frame menjadi nol.
Setiap frame harus dikalikan dengan hamming window, sehingga dapat meminimalkan gangguan ketika proses Sinyal suara merupakan sinyal nyata, sehingga memiliki waktu yang terbatas.
Perhitungan hamming windowing ditunjukkan persamaan 2 .
, .
, w.
merupakan nilai fungsi frame pada indeks ke-n, dan N adalah panjang frame .
umlah sampel setiap fram.
Gambar 3.
Overlapping antar frame pada sebuah sinyal Fast-Fourier Transform (FFT) yaitu menstransformasikan masing-masing frame dari N sampel satuan waktu ke satuan frekuensi .
FFT pada data audio digunakan untuk menganalisis spektrum frekuensi pada masing156 https://doi.
org/10.
33998/processor.
Submitted: 13 Agustus 2025.
Reviewed: 02 September 2025.
Accepted.
11 September 2025.
Published: 31 Oktober 2025 masing frame sinyal suara, mengetahui banyaknya energi yang terkandung pada setiap frekuensi, dan menyediakan data ketika proses Mel Filterbank.
Hasil FFT merupakan deretan bilangan kompleks, masingmasing menunjukkan amplitudo dan fase frekuensi tertentu.
Perhitungan FFT ditunjukkan pada persamaan 3 .
, notasi f.
menyatakan sinyal input dalam satuan waktu setiap frame.
Wk menyatakan spektrum frekuensi.
N menyatakan panjang jumlah sampel frame, j menyatakan unit imajiner, dan kompleks yang mendefinisikan transformai terbalik.
menyatakan eksponensial .
Mel Filterbank merupakan kumpulan filter berbentuk segitiga, disusun berdasarkan skala Mel supaya mendekati suara telinga manusia, sehingga lebih sensitif terhadap frekuensi rendah dari pada tinggi .
, .
Resolusi frekuensi telinga manusia tidak mengikuti skala linear pada seluruh spektrum audio.
Sehingga setiap frekuensi yang diukur dalam satuan Hz, nada subyektif diukur pada skala Mel .
Skala frekuensi Mel memiliki jarak linear kurang dari 1000 Hz dan logaritmik diatas 1000 Hz dan filter memiliki bentuk segitiga .
, .
Menghitung Mel digunakan persamaan 4, notasi f menyatakan frekuensi asli satuan Hz, proses normalisasi frekuensi, menyatakan mencegah log.
dan memberikan skala yang stabil, mengubah ke skala logaritmik sesuai persepsi pendengaran, dan 2595 menyatakan konstanta.
DCT digunakan untuk mengkompresi suara log-energi filterbank menjadi sejumlah koefisien lalu menghilangkan korelasi antar fitur supaya suara lebih mudah digunakan, dan memfokuskan data suara penting pada koefisien awal, misalnya digunakan 12-13 dari sejumlah 26-40.
Telinga manusia merespon energi suara secara logaritmik .
, sehingga perlu meniru persepsi manusia terhadap intensitas suara.
Energi sinyal suara dapat tinggi atau rendah, fungsi log untuk menyusutkan skala energi supaya tidak terlalu ekstrem dan membuat pola suara lebih stabil.
Hasil dari logarithm digunakan sebagai input proses DCT, karena DCT bekerja lebih baik menggunakan nilai yang merata .
Perhitungan DCT ditunjukkan pada persamaan 5 .
, notasi menyatakan koefisien DCT ke-j .
asil tranformas.
, menyatakan jumlah masukan ke-i dalam domain waktu pada data asli.
M menyatakan jumlah total sampel masukan .
anjang array sinya.
, j menyatakan indeks komponen frekuensi yang dihitung biasanya 0 O j O M -1, dan menyatakan fungsi dasar DCT, fungsi ini menentukan seberapa besar cosinus pada frekeunsi j pada sinyal masukan.
4 Model Yang Digunakan Beberapa model yang sering digunakan yaitu SVM .
, .
, .
Random Forest .
, .
Decision Tree, kNN .
, .
, .
Nayve Bayes .
, dan Logistic Regression .
Masing-masing model memiliki keunggulan, namun pada penelitian ini digunakan tiga model yaitu Nayve Bayes (NB).
Decision Tree (DT), dan Random Forest (RF).
Nayve Bayes termasuk algoritma probabilistik.
Dinamakan Nayve karena diasumsikan sederhana namun cepat.
Nayve Bayes digunakan ketika tujuannya untuk memberikan label pada data input berdasarkan fitur-fiturnya .
Konsep perhitungan Nayve Bayes tetap sama, namun implementasi bergantung pada jenis data yaitu kontinyu atau diskret, jenis fitur .
uara, teks, citr.
, dan tujuan .
lasifikasi, prediksi.
Pada paper ini digunakan Gaussian Nayve Bayes karena fitur suara seperti MFCC bersifat Decision Tree merupakan model terbimbing, banyak digunakan dalam klasifikasi.
Decision Tree adalah struktur pohon dimulai dari simpul akar, kemudian bercabang menjadi simpul.
Setiap simpul mewakili kelas mengarah ke hasil.
Ide dasar dari Decision Tree yaitu memisahkan seluruh data sampel menjadi beberapa subsampel berdasarkan kriteria tertentu.
Variabel target dapat menentukan jenis pohon.
Variabel input dan output berupa kategorikal atau kontinyu.
Hal ini diklasifikasikan menjadi dua jenis.
Ketika variabel target bersifat kategorikal, disebut Decision Tree kategorikal.
Ketika variabel target bersifat kontinyu, disebut Decision Tree kontinyu .
Random Forest merupakan model pembelajaran ensemble, terdiri dari sejumlah besar pohon keputusan untuk membuat prediksi lebih akurat.
Setiap pohon keputusan individu dapat menghasilkan prediksi kelas, selanjutnya kelas suara terbaik menjadi prediksi akhir.
Random Forest bekerja melibatkan banyak pohon https://doi.
org/10.
33998/processor.
Submitted: 13 Agustus 2025.
Reviewed: 02 September 2025.
Accepted.
11 September 2025.
Published: 31 Oktober 2025 keputusan.
Setiap pohon keputusan dibentuk dari sampling data dan semua fitur.
Semua pohon yang terbentuk akan dilakukan voting guna menentukan kelas .
HASIL DAN PEMBAHASAN
Penelitian ini mengambil contoh enam sampel suara dari dataset EATD-Corpus, masing-masing tiga sampel depresi dan tiga sampel sehat ditunjukkan pada Gambar 4 dan 5.
Setelah data terlabel, kemudian dicari polanya menggunakan MFCC.
Parameter-parameter yang digunakan yaitu frame_size = 25 sebagai ukuran masingmasing frame, frame_stride = 10 sebagai jarak antar frame.
Alpa = 0,97 sebagai nilai koefisien pre-emphasis.
M = 40 sebagai jumlah maksimum koefisien mel filterbank, num_ceps = 12 sebagai jumlah cepstral coefficients yang digunakan untuk model klasifikasi.
Parameter-parameter tersebut digunakan untuk menghasilkan ekstraksi fitur dari MFCC, kemudian fitur tersebut dicari nilai rata-rata untuk dikenali ciri depresi atau tidak .
Gambar 4 menunjukkan sampel audio stereo depresi sebelum dan sesudah pre-emphasis, warna biru dan oranye kemungkinan salah satu suara kiri atau kanan.
Gambar 5 menunjukkan sampel audio stereo sehat sebelum dan setelah pre-emphasis.
Sumbu X mewakili durasi waktu milidetik.
Sumbu Y menunjukkan amplitudo.
Gambar 4.
Bentuk gelombang audio depresi sebelum dan setelah proses pre-emphasis.
Gambar 5.
Bentuk gelombang audio sehat sebelum dan setelah proses pre-emphasis.
https://doi.
org/10.
33998/processor.
Submitted: 13 Agustus 2025.
Reviewed: 02 September 2025.
Accepted.
11 September 2025.
Published: 31 Oktober 2025 Hasil pre-emphasis Gambar 4 dan 5 menunjukkan filtering sehingga frekuensi tinggi muncul, dan frekuensi rendah telah berkurang atau hilang.
Kemudian frekuensi tinggi tidak dominan.
Tahap pre-emphasis menggali banyak informasi penting dari pada data audio asli, sehingga hasil dari pre-emphasis dapat digunakan sebagai masukkan tahap framing.
Tujuan framing yaitu pertama, membagi sinyal suara menjadi beberapa potongan yang disebut frame dengan durasi tetap.
Kedua supaya sinyal dapat bersifat stationer atau stabil dalam setiap frame, karena suara manusia bersifat non-stationer atau tidak stabil.
Ketiga, memberikan overlap untuk mencegah kehilangan informasi antar frame.
Suara manusia dapat dianggap stabil pada durasi tertentu, sehingga pada penelitian ini menggunakan ukuran 25ms .
,025 deti.
, karena sinyal dianggap stationer.
Kemudian jarak antar frame ditentukan 10ms .
,01 deti.
, bertujuan membantu kontinuitas sinyal tetap terjaga.
Dengan demikian frame saling overlap sebesar 15ms, berasal dari 25ms Ae 10ms = 15ms.
Hamming window adalah fungsi yang digunakan dalam pemrosesan sinyal untuk memusatkan energi frame pada spektrum, dan mengurangi disparitas tepi sinyal.
Diasumsikan ketika ada gelombang sinus yang terpotong tiba-tiba maka sinyal audio akan menghasilkan suara hentakan mendadak.
Oleh sebab itu, teknik hamming window digunakan untuk memperhalus tepi frame.
Sehingga membuat sinyal pada tepi awal dan akhir menjadi nol secara perlahan, audio tidak berhenti tiba-tiba.
Dengan demikian hasil analisis frekuensi menjadi lebih bersih dan akurat, hal ini sangat penting sebelum FFT supaya hasil fitur suara mewakili suara asli.
FFT bertujuan mengubah frame-frame kecil berdomain waktu menjadi representasi domain frekuensi .
FFT adalah salah satu algoritma yang cepat untuk menerapkan Discrete Fourier Transform (DCT) yang beroperasi pada sinyal diskrit .
Hal ini membantu melihat frekuensi mana yang ada dan seberapa kuat frekuensi dalam frame tersebut.
Selama proses.
FFT dilakukan terhadap semua frame dari sinyal yang sudah melalui tahap windowing.
Gambar 6.
Mel filterbank Mel Filterbank digunakan untuk meniru cara telinga manusia dalam menangkap suara.
Oleh sebab itu diperlukan mel filterbank, untuk menyaring sinyal dari FFT supaya fokus pada pola energi suara dalam rentang frekuensi Hasil dari mel filterbank akan digunakan sebagai masukan tahap DCT untuk memperoleh ekstraksi fitur dengan MFCC.
Gambar 6 terdapat 40 segitiga karena menggunakan nfilt=40.
Filter di frekuensi rendah rapat banyak overlap pada sisi kiri.
Filter di frekuensi tinggi tidak overlap atau lebih lebar.
Sumbu X bin indek menunjukkan indek dari hasil FFT.
Setiap angka pada sumbu X mewakili frekuensi diskrit dalam bentuk bin .
, misal bin ke-0, bin ke-50, bin ke-100 dan seterusnya bukan dalam satuan Hz.
Sumbu Y adalah amplitude mewaliki nilai bobot dari filter segitiga setiap bin.
Nilai rentang 0 sampai 1, pada puncak segitiga filter memiliki nilai maksimum dan menurun sampai 0 dibawah, mulai dari sisi kiri ke arah kanan.
MFCC bertujuan menangkap karakteristik suara manusia dengan cara seperti telinga manusia ketika mendengarkan suara.
MFCC mengurangi informasi yang tidak penting dalam sinyal untuk keperluan klasifikasi, prediksi, pengenalan suara atau analisis suara.
MFCC dapat menangkap fitur timbre dan fonetik suara dan mengkompresi isi frekuensi setiap frame menggunakan DCT untuk mendapatkan vektor yang ringkas.
Proses https://doi.
org/10.
33998/processor.
Submitted: 13 Agustus 2025.
Reviewed: 02 September 2025.
Accepted.
11 September 2025.
Published: 31 Oktober 2025 memperoleh ekstraksi fitur ini menggunakan program Python 3.
11 dengan teks editor Visual Studio Code.
Perangkat yang digunakan Intel Core-2-duo RAM 4 GB dengan penyimpan SSD-250GB.
Hasil ekstraksi fitur bentuk spektogram dari sampel depresi dan sehat ditunjukkan pada Gambar 7 ada representasi warna menunjukkan nilai atau kekuatan setiap koefisien MFCC dalam suatu frame.
Warna kuning menyatakan nilai lebih tinggi dan warna ungu menyatakan nilai lebih rendah.
Sumbu X menjelaskan indek frame dalam milidetik, yaitu suara dibagi menjadi frame-frame kecil.
Sumbu Y sebagai koefisien cepstral, merupakan indek koefisien MFCC biasanya dalam 12 atau 13 pertama yang ditampilkan.
Koefisien ini menunjukkan spektrum suara berubah di setiap frame.
MFCC melakukan ekstraksi fitur menjadi 12 koefisien dimulai dari MFCC-0 hingga MFCC-11 .
Gambar 7.
Spektogram MFCC Selanjutnya dari spektogram MFCC Gambar 7 dapat direpresentasikan menjadi MFCC numerik seperti Tabel 1.
Setiap baris mewakili sampel rekaman audio sebanyak 162, kolom 0 Ae 11 berisi MFCC rata-rata untuk masing-masing koefisien.
Kolom KT menunjukkan klasifikasi threshold, angka ini telah ditentukan dan dianotasi oleh psikolog atau psikiater berdasarkan kuisioner Self-rating Depression Scale .
Kuisioner berisi 20 pertanyaan dengan empat parameter karakteristik gejala depresi .
Kolom terakhir adalah label kelas yang menunjukkan kondisi audio berisi depresi bila rekaman berasal dari subyek depresi atau sehat bila berasal dari subyek sehat.
Tabel 1.
Representasi MFCC numerik Data MFCC.
MFCC.
MFCC.
MFCC.
MFCC.
-764,355
-799,562
-799,562
-799,562
-652,740
-796,354
-644,905
-699,680
-26,797
-10,609
-10,609
-10,609
26,618
-71,085
-15,200
37,617
3,050
31,938
31,938
31,938
-17,258
-56,076
-3,842
-28,778
-15,387
-16,524
-22,544
-10,729
-31,719
-2,965
-6,055
-6,781
-2,347
-17,652
-8,207
-12,044
-14,255
-16,939
-14,815
-16,023
Hasil Thresholds 52,50 82,50 51,25 56,25 68,75 A A 65,00 32,50 41,25 Label Sehat Depresi Sehat Depresi Depresi Depresi Sehat Sehat Gambar 8 berisi enam visualisasi masing-masing tiga depresi warna merah dan tiga sehat warna hijau.
Tanda titik menginterpretasikan nilai rata-rata 12 koefisien MFCC untuk masing-masing kelas sehat dan depresi.
Garis warna merah menunjukkan tiga sampel ke-2, ke-5, ke-8 dari suara depresi, dan garis warna hijau menunjukkan tiga sampel ke-1, ke-3, ke-6 dari suara sehat.
Setiap subplot memperlihatkan nilai rata-rata 12 koefisien MFCC, yang merepresentasikan spektrum suara dalam domain log-mel dan digunakan untuk menganalisis karakteristik suara manusia.
https://doi.
org/10.
33998/processor.
Submitted: 13 Agustus 2025.
Reviewed: 02 September 2025.
Accepted.
11 September 2025.
Published: 31 Oktober 2025 Garis merah menunjukkan pola amplitudo yang lebih rendah dan relatif rata atau datar pada beberapa titik koefisien dibandingkan kategori sehat.
Terlihat pada audio ke-1 dan ke-2, beberapa nilai MFCC seperti koefisien ke-2 hingga ke-8 lebih stabil atau berfluktuasi kecil, hal ini mencerminkan pola suara yang monoton atau kurang Koefisien awal MFCC.
hingga MFCC.
cenderung rendah dibandingkan dengan yang sehat, ada kemungkinan berkaitan dengan perubahan frekuensi dasar.
Garis hijau memiliki pola MFCC lebih bervariatif dan fluktiatif pada ketiga audio.
Nilai koefisien pada MFCC.
MFCC.
MFCC.
, dan MFCC.
lebih tinggi.
Hal ini menunjukkan kemungkinan ada dinamika vokal lebih kuat atau artikulasi lebih jelas.
Pola yang naik turun secara tajam menandakan ada perubahan frekuensi dan intensitas suara lebih dinamis, ini merupakan ciri umum suara normal atau orang sehat.
Gambar 8.
Ekstraksi fitur MFCC sehat dan depresi Setelah memperoleh ekstraksi fitur, selanjutnya setiap file suara direpresentasikan dalam bentuk numerik berupa koefisien yang mencerminkan karakteristik akustik dari suara tersebut.
Tabel 1 digunakan sebagai input untuk proses ketiga model NB.
DT, dan RF dalam mencari performa akurasi, precision, recall, dan F1-score.
Tabel 2 dan 3 menunjukkan evaluasi kelas sehat dan depresi.
Tampak pada kelas sehat, recall dan F1-score tertinggi model RF, sedangkan precision pada model DT.
Untuk kelas depresi recall dan F1-score tertinggi pada model NB, sedangkan precision pada model RF.
Tabel 2.
Evaluasi pada kelas sehat
Model
Precision 0,8696 0,8814 0,8684 Recall 0,8824 0,7647 0,9706 F1-score
0,8759
0,8189
0,9167
Tabel 3.
Evaluasi pada kelas depresi
Model
Precision 0,2000 0,2000 0,3333 Recall 0,3636 0,1818 0,0909 F1-score
0,2581
0,1905
0,1429
Tabel 4 memperlihatkan akurasi ketiga model pada dua kelas sehat dan depresi.
Akurasi tertinggi dicapai model RF.
Kemudian pada support tampak terlihat distribusi kelas tidak seimbang, dengan 68 individu sehat dan 11 Hal ini dapat mempengaruhi model dalam menangani kelas minoritas yaitu depresi.
Tabel 4.
Akurasi ketiga model
Model
Akurasi
0,7089
0,7848
0,8481
Sehat Support Depresi https://doi.
org/10.
33998/processor.
Submitted: 13 Agustus 2025.
Reviewed: 02 September 2025.
Accepted.
11 September 2025.
Published: 31 Oktober 2025
KESIMPULAN
Hasil penelitian menunjukkan pola depresi berhasil terlihat menggunakan parameter MFCC yaitu 25 ukuran masing-masing frame, 10 jarak antar frame, alpha 0,97 sebagai nilai koefisien pre-emphasis, 40 jumlah maksimum koefisien mel filterbank, dan 12 jumlah cepstral coefficients.
Klasifikasi thresholds dapat diperoleh dua kelas yaitu sehat dengan thresholds A 53,00 dan depresi diatas Ou 53,00 menggunakan Self-rating Depression Scale.
Penelitian ini menggunakan metode MFCC untuk menemukan ekstraksi fitur suara depresi dan sehat.
Secara visual, grafik yang dihasilkan mengindikasikan ada perbedaan karakteristik suara antara orang depresi dan sehat.
Suara orang depresi cenderung memiliki pola yang lebih datar dan stabil, sedangkan suara sehat lebih berfluktuasi dan kaya secara spektral.
Hal ini mendukung penggunaan MFCC sebagai fitur utama dalam mendeteksi kondisi psikologis orang berdasarkan suara.
Performa model, akurasi terbaik dicapai RF sebesar 0,8481.
Pada kelas sehat, presisi dicapai model DT dengan nilai 0,8814, untuk recall dan F1-score dicapai model RF masing-masing sebesar 0,9706, dan 0,9167.
Pada kelas depresi presisi dicapai model RF dengan nilai 0,3333, untuk recall dan F1-score dicapai model NB masing-masing sebesar 0,3636, dan 0,2581.
Dataset yang digunakan dalam model ini memiliki keterbatasan yaitu ukuran total dataset relatif kecil, hal ini dapat membatasi kemampuan model dalam mengenal pola keseluruhan.
Selain itu, terdapat potensi bias bahasa karena dataset berasal dari satu sumber suara bahasa Tiongkok.
Hal ini dapat mengakibatkan penurunan kinerja model ketika diterapkan.
Oleh sebab itu penelitian mendatang perlu mempertimbangkan keberagaman suara untuk meningkatkan generalisasi model.
Salah satu kendala penelitian ini yaitu ketidakseimbangan data antar kelas yang dapat mempengaruhi kinerja model.
Rencana penelitian lanjutan perlu melibatkan teknik Synthetic Minority Oversampling Technique (SMOTE) untuk mengatasi data tidak seim3Ebang dengan menghasilkan sampel sintetis dari kelas minoritas.
Diharapkan menggunakan pendekatan ini, distribusi data lebih seimbang dan model dapat lebih adil terhadap semua kelas.
REFERENCES