JSITIK. Vol. 4 No. 1 Desember 2025 ISSN: 2986-0458 (Prin. / 2986-044X (Onlin. DOI: https://doi. org/10. 53624/jsitik. Prediksi Risiko Depresi pada Mahasiswa Menggunakan Algoritma Random Forest Berdasarkan Data Akademik dan Gaya Hidup Diterima: 10 Juni 2025 Revisi: 19 Juli 2019 Terbit: 25 Desember 2025 Imam SyafiAoi Maulana, aSherly Dian Tiara, aAdy Yoga Pratama. Fifin Kumala Sari, bIrwan Darmawan Universitas Nusantara PGRI Kediri Universitas Madura AbstrakAi Latar Belakang: Depresi menjadi isu krusial yang semakin sering dialami oleh mahasiswa akibat tekanan akademik, gaya hidup, dan tuntutan sosial. Deteksi dini sangat mendesak karena depresi yang tidak ditangani dapat berdampak buruk pada performa akademik, hubungan sosial, dan kualitas hidup Tujuan: Penelitian ini bertujuan untuk membangun model prediksi risiko depresi yang akurat dan objektif pada mahasiswa dengan menggunakan algoritma Random Forest berbasis data akademik dan gaya hidup. Metode: Penelitian ini merupakan studi kuantitatif yang menerapkan metodologi Knowledge Discovery in Databases (KDD). Data yang digunakan adalah Student Depression Dataset dari Kaggle. Prosesnya meliputi preprocessing data, penyeimbangan data dengan SMOTEENN dan label encoding untuk mengubah data kategorikal menjadi numerik. Hasil: Model yang dikembangkan menunjukkan performa yang sangat tinggi pada saat diuji. Hasil evaluasi pada data uji menghasilkan nilai akurasi, precision, recall, dan f1-score yang seragam, yaitu sebesar 97%. Kesimpulan: Model Random Forest terbukti efektif untuk mendeteksi risiko depresi secara akurat dan seimbang. Model ini berpotensi menjadi alat bantu yang berharga bagi institusi pendidikan untuk melakukan intervensi preventif yang tepat sasaran. Penelitian selanjutnya dapat berfokus pada validasi model menggunakan data institusional di dunia nyata. Kata KunciAi Depresi. Mahasiswa. Random Forest. Kesehatan Mental AbstractAi Background: Depression has become a crucial issue increasingly experienced by students due to academic pressure, lifestyle, and social demands. The urgency of early detection is very high, as failure to address this condition can negatively impact academic performance, social relationships, and students' overall quality of life. Objective: The aim of this research is to develop an accurate and objective depression risk prediction model using a Random Forest algorithm based on students' academic and lifestyle data. Methods: This research is a quantitative study applying the Knowledge Discovery in Databases (KDD) The data used is the Student Depression Dataset from Kaggle. The process includes data preprocessing, data balancing with SMOTEENN, and label encoding to convert categorical data to numeric data. Results: The developed model showed very high-performance during testing. The model evaluation results on the test data show an accuracy, precision, recall, and f1-score consistently at 97%. Conclusion: The Random Forest model proved to be effective in accurately and evenly detecting the risk of depression. It can be a helpful tool for educational institutions to conduct targeted preventive Future studies should focus on validating this model with real-world institutional data. KeywordsAi Depression. Students. Random Forest. Mental Health This is an open access article under the CC BY-SA License. Penulis Korespondensi: Imam SyafiAoi Maulama. Sistem Informasi. Universitas Nusantara PGRI Kediri. Email: imamsmaulana07@gmail. JSITIK: Jurnal Sistem Informasi dan Teknologi Informasi Komputer | Hal:1-10 JSITIK. Vol. 4 No. 1 Desember 2025 ISSN: 2986-0458 (Prin. / 2986-044X (Onlin. DOI: https://doi. org/10. 53624/jsitik. PENDAHULUAN Depresi merupakan salah satu gangguan psikologis yang paling sering terjadi pada remaja dan mahasiswa di berbagai level pendidikan. Faktor-faktor pemicu utamanya meliputi tekanan akademik yang tinggi, perubahan gaya hidup yang drastis, serta tuntutan sosial yang terus meningkat di kalangan mahasiswa (Dianovinina, 2. Kondisi ini, apabila tidak dideteksi dan ditangani secara dini, dapat berdampak serius tidak hanya pada performa akademik dan hubungan sosial, tetapi juga pada kualitas hidup mahasiswa secara keseluruhan. Institusi pendidikan sebenarnya memiliki akses terhadap berbagai data yang berpotensi menjadi indikator awal gejala depresi, seperti nilai akademik, kehadiran, dan kebiasaan hidup lainnya (Putri et al. , 2. Namun, dalam konteks pendidikan saat ini, identifikasi risiko depresi masih banyak bergantung pada metode konvensional seperti observasi manual atau pengisian kuesioner yang subjektif dan kurang efektif. Padahal, institusi pendidikan sebenarnya memiliki akses terhadap berbagai data yang berpotensi menjadi indikator awal munculnya gejala depresi, seperti nilai akademik, kehadiran, pola tidur, dan kebiasaan hidup mahasiswa lainnya. Kesenjangan inilah yang coba diatasi oleh kemajuan dalam bidang ilmu data, khususnya (Wijaya & Lunanta, 2. Kemajuan dalam bidang ilmu data, khususnya data mining, membuka peluang baru dalam analisis masalah-masalah psikologis berbasis data. Salah satu metode yang terbukti efektif dalam klasifikasi dan prediksi adalah algoritma Random Forest, yaitu algoritma ansambel yang mampu menangani data dengan banyak variabel, menangkap pola-pola kompleks, serta memberikan interpretasi terhadap pentingnya tiap fitur (Health et al. , 2. Machine learning membandingkan beberapa algoritma termasuk Random Forest dan menemukan bahwa Random Forest memiliki kinerja yang kompetitif dalam memprediksi depresi mahasiswa (Fadhilla et al. Perbedaan penelitian ini dengan penelitian sebelumnya adalah fokus pada penerapan proses Knowledge Discovery in Databases (KDD) yang komprehensif, mulai dari preprocessing data yang teliti dengan teknik hybrid SMOTE untuk mengatasi data tidak seimbang, hingga evaluasi model yang mendalam. Sementara penelitian lain sering kali hanya membandingkan performa algoritma, penelitian ini membangun sebuah alur kerja utuh yang dapat direplikasi untuk menghasilkan model prediksi yang tidak hanya akurat tetapi juga seimbang dalam mengenali kelas minoritas. Keunikan lainnya adalah pemanfaatan Student Depression Dataset dari Kaggle yang mencakup variabel gaya hidup dan akademik secara bersamaan, sehingga memberikan pandangan yang lebih holistik. Tujuan penelitian ini adalah untuk membangun model prediksi risiko depresi pada mahasiswa menggunakan algoritma Random Forest dengan memanfaatkan data dari platform publik Kaggle Dengan demikian, diharapkan institusi pendidikan dapat memiliki alat bantu dalam JSITIK: Jurnal Sistem Informasi dan Teknologi Informasi Komputer | Hal:1-10 JSITIK. Vol. 4 No. 1 Desember 2025 ISSN: 2986-0458 (Prin. / 2986-044X (Onlin. DOI: https://doi. org/10. 53624/jsitik. mendeteksi risiko depresi secara lebih cepat, akurat, dan objektif, serta mendukung upaya intervensi dini bagi mahasiswa yang berisiko. II. METODE Penelitian ini menerapkan pendekatan Knowledge Discovery in Databases (KDD) untuk menemukan pola dan pengetahuan yang tersembunyi dari data. KDD merupakan sebuah proses multi-tahap yang digunakan dalam penambangan data untuk menghasilkan pengetahuan yang dapat mendukung pengambilan keputusan. Seluruh proses pengolahan data dan pemodelan dalam penelitian ini diimplementasikan menggunakan bahasa pemrograman Python dengan dukungan dari platform Google Colab. Diagram Penelitian yang mengilustrasikan alur kerja KDD disajikan pada Gambar 1. Gambar 1. Alur Knowledge Discovery In Databases (Aqillah Fadia Haya et al. , 2. Penelitian ini akan mengolah data menggunakan bahasa pemrograman Python yang didukung oleh Google Colab. Untuk memudahkan pemahaman, akan dijelaskan langkah-langkah dalam proses KDD. , berikut ini: 1 Data Section Pemilihan data harus dilakukan sebelum melanjutkan ke tahap berikutnya. Pemilihan data adalah langkah di mana proses untuk menentukan data atau atribut yang akan dipakai dalam penelitian dilakukan. 2 Data Preprocesing Data Preprocessing perlu dilakukan sebelum melanjutkan ke tahap KDD selanjutnya. Proses Data Preprocessing adalah kegiatan membersihkan data atau yang kerap disebut sebagai cleansing, di mana pada fase ini, data yang tidak berguna akan dihapus dan data yang akan digunakan dalam proses penambangan data akan diperbaiki. 3 Data Transformation Tahap berikutnya setelah preprocessing adalah transformasi, yaitu mengubah format data agar bisa dimanfaatkan(Pradikdo & Ristyawan, 2. Proses transformasi mencakup pemrosesan skala data, normalisasi, dan pengurangan dimensi (Khoirunnisa Hamidah & Voutama, 2. Encoding juga merupakan bagian dari transformasi data, yaitu mengkonversi data kategorikal menjadi data numerik. Hal ini penting karena algoritma Random Forest tidak dapat memproses data dengan tipe kategorikal. 4 Data Mining Penggalian data adalah suatu proses untuk menemukan informasi yang istimewa dalam sekumpulan data dengan memanfaatkan metode dan algoritma tertentu (Karimah et al. , 2. JSITIK: Jurnal Sistem Informasi dan Teknologi Informasi Komputer | Hal:1-10 JSITIK. Vol. 4 No. 1 Desember 2025 ISSN: 2986-0458 (Prin. / 2986-044X (Onlin. DOI: https://doi. org/10. 53624/jsitik. Pada tahap ini, akan dilakukan pembentukan model untuk meramalkan faktor-faktor penyebab depresi dengan menggunakan algoritma dalam penambangan data, yaitu Random Forest. 5 Algoritma Random Forest Random forest ialah sekumpulan pohon klasifikasi atau regresi tanpa mengalami pemangkasan serta dibentuk melalui metode mengambil contoh yang dipilih secara acak dari Proses perkiraan hasil dilakukan menggunakan cara menyatukan seluruh pohon dari regresi dan klasifikasi yang ada. Metode hutan acak mempunyai beberapa kelebihan berupa kemampuan mengenali kekeliruan yang signifikan, hasil proses pengelompokan yang memuaskan, dapat mengatasi dataset yang memiliki sedikit sampel, serta menjadi metode yang efisien untuk memperkirakan data yang hilang. Gambar 2. Random Forest (Prakoso Indaryono, 2. Alur dari metode Random Forest pada gambar 2 . memanfaatkan pendekatan proses pemilihan data contoh secara acak guna membangun masing-masing pohon keputusan, . setiap pohon memanfaatkan sekelompok atribut yang diambil secara acak dalam hasil perkiraan, serta . mengumpulkan output estimasi dari seluruh model pohon yang dimiliki menggunakan cara memilih suara yang paling sering muncul untuk klasifikasi atau menghitung nilai tengah regresi (Adrian et al. , 2. Singkatnya, metode Random Forest beroprasi dengan cara membuat berbagai decision tree yang beragam serta mengumpulkan prediksi ahkir dari tiap-tiap pohon dengan cara suara terbanyak baik dalam klasifikasi maupun dengan menghitung nilai rata-rata pada regresi (Ristyawan et al. HASIL DAN PEMBAHASAN Di dalam penelitian ini, digunakan pendekatan yang mirip dengan penelitian sebelumnya, namun terdapat beberapa perbedaan, terutama pada jenis data dan tahapan pengolahannya. Data penelitian diambil dari situs Kaggle, yaitu dataset berjudul "Student Depression Dataset" . ttps://w. com/datasets/hopesb/student-depression-dataset/dat. , informasi mengenai tekanan akademik, tekanan kerja. IPK, durasi tidur, pola makan, kepuasan belajar, stres finansial, serta status depresi siswa sebagai label target (Setiawan et al. , 2. Total data yang digunakan sebanyak 3. 929 entri dengan label biner, yaitu 0 untuk tidak depresi dan 1 untuk depresi. JSITIK: Jurnal Sistem Informasi dan Teknologi Informasi Komputer | Hal:1-10 JSITIK. Vol. 4 No. 1 Desember 2025 ISSN: 2986-0458 (Prin. / 2986-044X (Onlin. DOI: https://doi. org/10. 53624/jsitik. 1 Data Section Tabel 1. Nama Fitur Nama Fitur Deskripsi ID unik untuk masing-masing responden Gender Jenis kelamin responden (Male/Female/Othe. Age Usia responden . City Kota tempat tinggal responden Profession Status profesi (Mahasiswa. Pekerja, dsb. Academic Pressure Tingkat tekanan akademik yang dirasakan (Low/Medium/Hig. Work Pressure Tingkat tekanan kerja . ika bekerj. (Low/Medium/Hig. CGPA Nilai IPK sebagai indikator performa akademik . Ae. Study Satisfaction Tingkat kepuasan terhadap kegiatan belajar (Low/Medium/Hig. Job Satisfaction Tingkat . ika (Low/Medium/Hig. Sleep Duration Lama tidur setiap hari . alam ja. Dietary Habits Pola makan (Healthy/Unhealthy/Moderat. Degree Jenjang pendidikan (Bachelor. Master, dll. Have you ever had Riwayat pemikiran bunuh diri (Yes/N. suicidal thoughts ? Work/Study Hours Lama jam belajar atau bekerja per hari Financial Stress Tingkat tekanan finansial (Low/Medium/Hig. Family History of Riwayat gangguan mental dalam keluarga (Yes/N. Mental Illness Sesudah melaksanakan analisis berdasarkan seluruh fitur tabel 1, diperoleh hasil bahwa semua fitur yang tersedia akan diaplikasikan pada tahap penambangan data. Hal ini dikarenakan setiap atribut memiliki potensi sebagai faktor yang memengaruhi risiko depresi pada siswa. Empat urutan awal dari kumpulan data ditampilkan pada Gambar 3. Gambar 3. 4 baris pertama dataset. JSITIK: Jurnal Sistem Informasi dan Teknologi Informasi Komputer | Hal:1-10 JSITIK. Vol. 4 No. 1 Desember 2025 ISSN: 2986-0458 (Prin. / 2986-044X (Onlin. DOI: https://doi. org/10. 53624/jsitik. 2 Data Preprocessing Tahapan ini mencakup pemeriksaan pada duplikat, nilai yang hilang, drop kolom null values pada dataset Student Depression Dataset. Setelah dilakukan analisis ada tahapan pra-pemrosesan yang diterapkan meliputipemeriksaan serta missing value, dan informasi imbalance (Schutijser et , 2. 1 Data Duplikat Prosesdur ini bertujuan menjamin tidak terdapat dat ganda dalam dataset, agar proses analisis menjadi lebih efisien (Nugraha et al. , 2. Pemeriksaan duplikasi data ditampilkan pada gambar Gambar 4. Pengecekan data duplikasi 2 Missing Value Kemudian, dilakukan verifikasi bahwa dataset bebas dari nilai hilang. hasilnya terlihat pada Gambar 5. Pengecekan missing value Ditemukan hasil bahwa dataset memiliki Missing value. Tahap selanjutnya berupa pennggulangan missing value yaitu menyelesaikan permasalahan yang divisualisasikan pada gambar 6 dan gambar 7. Gambar 6. Penanganan missing value 3 Imbalance Dataset Gambar 7. Hasil pengecekan dataset imbalance JSITIK: Jurnal Sistem Informasi dan Teknologi Informasi Komputer | Hal:1-10 JSITIK. Vol. 4 No. 1 Desember 2025 ISSN: 2986-0458 (Prin. / 2986-044X (Onlin. DOI: https://doi. org/10. 53624/jsitik. Berdasarkan analisis awal terhadap distribusi kelas pada atribut target Depression, diketahui bahwa dataset bersifat tidak seimbang. Kelas 1 . iswa yang mengalami depres. memiliki proporsi sebesar 58,5%, sedangkan kelas 0 . iswa yang tidak mengalami depres. hanya sebesar 41,5%. Distribusi yang tidak merata ini berpotensi menjadikan model pembelajaran mesin cenderung berat sebelah kekelas dominan, yang berdampak pada penurunan kemampuan model dalam mengidentifikasi kelompok data yang lebih sedikit secara akurat (Arifiyanti & Wahyuni, 2. Dalam rangka menyelesaikan permasalahan ini, dihadapi dengan teknik SMOTEENN (Synthetic Minority Over-sampling Technique Edited Nearest Neighbour. , yaitu metode gabungan antara oversampling pada kelas minoritas dan undersampling pada data yang dianggap noise atau kurang informatif. SMOTE berfungsi untuk menambah sampel sintetis dari kelas minoritas, sedangkan ENN menghapus data yang ambigu pada kedua kelas. Gambar 8. Dataset balance Setelah diterapkan SMOTEENN pada gambar 8, distribusi kelas menjadi lebih seimbang, dengan proporsi kelas 0 sebesar 52,34% dan kelas 1 sebesar 47,65%. Hal ini menunjukkan bahwa proses resampling berhasil mengurangi dominasi kelas mayoritas dan membuat model lebih mampu melakukan klasifikasi secara adil dan akurat terhadap kedua kelas. 3 Data Transformation Pengkodean label digunakan guna mengubah informasi kategorikal diubah menjadi format data angka. Proses ini diperlukan karena algoritma Random Forest dan metode SMOTEENN hanya dapat memproses data numerik. Encoding dilakukan hanya pada variabel independen, sementara label target tetap tidak diubah. Hasil encoding ditampilkan pada Gambar 9. Gambar 9. Hasil encoding Dataset 4 Data Mining Kumpulan data Student Depression Dataset termasuk jenis klasifikasi karena memiliki atribut numerik dan kategorikal dengan label biner . = tidak depresi, 1 = depres. Penelitian ini bertujuan mengklasifikasikan siswa ke dalam dua kategori tersebut. Sebanyak 80% data digunakan sebagai data latih setelah melalui proses preprocessing dan penyeimbangan. Algoritma yang diterapkan adalah Random Forest karena keandalannya dalam menangani informasi yang rumit dengan performa yang baik (Herdika et al. , 2. JSITIK: Jurnal Sistem Informasi dan Teknologi Informasi Komputer | Hal:1-10 JSITIK. Vol. 4 No. 1 Desember 2025 ISSN: 2986-0458 (Prin. / 2986-044X (Onlin. DOI: https://doi. org/10. 53624/jsitik. Setelah model dibangun dan dilatih, dilakukan evaluasi terhadap data uji menggunakan confusion matrix, yang hasilnya ditampilkan pada Gambar 10. Gambar 10. Confusion matrix Berdasarkan confusion matrix, diperoleh hasil sebagai berikut: A True Positive (TP): 1818 . iswa depresi yang berhasil diprediksi dengan bena. A True Negative (TN): 1989 . iswa tidak depresi yang diperkirakan dengan akura. A False Positive (FP): 68 . iswa tidak depresi yang keliru diprediksi sebagai depres. A False Negative (FN): 54 . iswa depresi yang salah diprediksi sebagai tidak depres. Hasil ini menunjukkan bahwa model memiliki tingkat akurasi dan ketepatan klasifikasi yang tinggi dalam memprediksi status depresi siswa. Evaluation Evaluation Setelah itu diukur Sensitifitas. Spesifisitas. Presisi, serta area yang luas Under the Curve (AUC). Accuracy terhadap algoritma Random Forest yang telah diterapkan. Tabel 2 merupakan hasil pengukuran dari pengujian terhadap algpritma Random Forest. Tabel 2. Accuracy Metrik Keseluruhan Accuracy Macro Avg Weighted Avg Nilai Hasil penelitian ini sejalan atau didukung oleh beberapa studi sebelumnya yang juga menyoroti keunggulan Random Forest dalam konteks kesehatan mental. Sebagai contoh, penelitian oleh Fadhilla dkk (Fadhilla et al. , 2. juga menemukan bahwa Random Forest menunjukkan kinerja yang sangat kompetitif dan bahkan unggul dibandingkan algoritma lain seperti Decision Tree dan Nayve Bayes untuk prediksi depresi mahasiswa. Hal ini memperkuat justifikasi pemilihan algoritma dalam penelitian ini dan mengonfirmasi bahwa Random Forest adalah pilihan yang solid untuk tugas klasifikasi pada data psikologis yang kompleks. Keberhasilan dalam mencapai akurasi tinggi juga menegaskan pentingnya tahapan preprocessing yang teliti, terutama penyeimbangan data dengan SMOTEENN yang terbukti efektif mengatasi bias pada model. JSITIK: Jurnal Sistem Informasi dan Teknologi Informasi Komputer | Hal:1-10 JSITIK. Vol. 4 No. 1 Desember 2025 ISSN: 2986-0458 (Prin. / 2986-044X (Onlin. DOI: https://doi. org/10. 53624/jsitik. IV KESIMPULAN Penelitian ini berhasil membangun sebuah model prediksi risiko depresi pada mahasiswa yang sangat efektif menggunakan algoritma Random Forest. Berdasarkan hasil penelitian, model yang dikembangkan mampu mencapai performa luar biasa dengan akurasi, presisi, dan f1-score seragam sebesar 97% setelah melalui proses KDD yang sistematis, termasuk penanganan missing value dan penyeimbangan data menggunakan SMOTEENN. Meskipun demikian, penelitian ini memiliki keterbatasan, yaitu penggunaan dataset publik dari Kaggle yang mungkin tidak sepenuhnya merepresentasikan keragaman populasi mahasiswa secara global atau di institusi spesifik, serta data yang bersifat self-reported yang dapat mengandung bias subjektif. Untuk penelitian selanjutnya, disarankan untuk melakukan validasi model menggunakan data riil dari institusi pendidikan untuk menguji generalisasinya. Selain itu, penelitian di masa depan dapat mengeksplorasi penambahan fitur lain seperti data aktivitas media sosial atau analisis sentimen, serta membandingkan performa Random Forest dengan algoritma deep learning untuk melihat potensi peningkatan akurasi. DAFTAR PUSTAKA