Institut Riset dan Publikasi Indonesia (IRPI) MALCOM: Indonesian Journal of Machine Learning and Computer Science Journal Homepage: https://journal. id/index. php/malcom Vol. 3 Iss. 2 October 2023, pp: 108-114 ISSN(P): 2797-2313 | ISSN(E): 2775-8575 Text Classification for Detecting Depression and Anxiety among Twitter Users based on Machine Learning Klasifikasi Teks untuk Mendeteksi Depresi dan Kecemasan Pada Pengguna Twitter Berbasis Machine Learning Kharisma Rahayu1. Vindi Fitria2. Dhini Septhya3. Rahmaddeni4*. Lusiana Efrizoni5 1,2,3,4,5 Program Studi Teknik Informatika. STMIK Amik Riau. Pekanbaru. Riau E-Mail: 12010031802129@sar. id, 22010031802085@sar. id, 32010031802093@sar. rahmaddeni@sar. id, 5lusiana@stmik-amik-riau. Received Jun 4th 2023. Revised Jul 14th 2023. Accepted Aug 20th 2023 Corresponding Author: Rahmaddeni Abstract Depression is a mental disorder that affects a person's well-being and quality of life. Social influences cause people with depression and anxiety disorders to ignore those around them. So they turn to social media like Twitter for support. Depressed people using Twitter are difficult to identify based on tweets. Therefore, text classification modeling for depression sufferers is needed to find out how many twitter users experience depression and anxiety. Text classification is a method to group similar data into appropriate groups. The algorithms used in making patterns of depression sufferers are Decision Tree. Random Forest. Naive Bayes, and K-Nearest Neighbor (KNN) algorithms. The use of the four algorithms aims to see the performance of the best algorithm. The results of the experiments conducted obtained that the Random Forest algorithm on splitting data 80:20 has better performance, with an accuracy value of 0. 957 or 96%. The results of this study can be used by users to find out sufferers of depression and anxiety. Keyword: Classification. Decision Tree. Depression. K-Nearest Neighbor. Naive Bayes. Random Forest Abstrak Depresi adalah gangguan mental yang mempengaruhi kesejahteraan dan kualitas hidup seseorang. Pengaruh sosial menyebabkan penderita depresi dan gangguan kecemasan mengabaikan orang-orang di sekitarnya. Jadi mereka beralih ke media sosial seperti Twitter untuk mendapatkan dukungan. Penderita depresi pengguna Twitter sulit untuk diidentifikasi berdasarkan tweet. Oleh karena itu pemodelan klasifikasi teks untuk penderita depresi sangat diperlukan agar mengetahui seberapa banyak pengguna twitter yang mengalami depresi dan kecemasan. Klasifikasi teks merupakan metode untuk mengelompokkan data yang sejenis ke dalam kelompok yang sesuai. Algoritma yang digunakan dalam membuat pola penderita depresi adalah algoritma Decision Tree. Random Forest. Naive Bayes, dan K-Nearest Neighbor (KNN). Penggunaan keempat algoritma bertujuan untuk melihat kinerja algoritma terbaik. Hasil percobaan yang dilakukan diperoleh bahwa algoritma Random Forest pada splitting data 80:20 memiliki kinerja yang lebih baik, dengan nilai akurasi 957 atau 96%. Hasil penelitian ini dapat digunakan oleh pengguna untuk mengetahui penderita depresi dan Kata Kunci: Decision Tree. Depresi. Klasifikasi. K-Nearest Neighbor. Naive Bayes. Random Forest PENDAHULUAN Media sosial saat ini menjadi wadah dimana pengguna dapat mengungkapkan perasaan, emosi, maupun opini mereka tentang topik atau permasalahan apapun secara daring. Twitter menjadi wadah publik yang digunakan pengguna untuk mengekspresikan diri, dari media sosial ini kita mendapatkan informasi tentang banyak hal dari tweet para pengguna Twitter. Informasi dalam bentuk apapun dapat menyebar dengan cepat dan mudah, mempengaruhi pandangan, cara hidup, dan budaya suatu bangsa . Twitter merupakan media sosial berbentuk microblog atau short pieces yang mencapai 280 karakter, karena jumlah tweet terbatas atau dibatasi . DOI: https://doi. org/10. 57152/malcom. ISSN(P): 2797-2313 | ISSN(E): 2775-8575 Depresi didefinisikan sebagai perasaan sakit atau patah semangat yang ditandai adanya keresahan berlebih, termasuk kehilangan dan ketegangan, dan beberapa gejala seperti kesulitan tidur dan hilangnya nafsu Selain itu, depresi adalah salah satu yang menyebabkan kecacatan paling umum di seluruh dunia, termasuk bunuh diri, dengan perkiraan 300 juta orang depresi di seluruh dunia setiap tahun. Depresi didiagnosa secara pribadi menggunakan kriteria depresi klinis. Namun, 70% pasien depresi tahap awal tidak ingin melakukan konsultasi dengan dokter karena dapat memperburuk kondisi. Disaat yang bersamaan, orang terus mengandalkan jejaring sosial kemudian mengungkapkan perasaannya melalui jejaring sosial . Hal ini menunjukkan bahwa media sosial dapat menjadi sumber lain untuk membantu profesional kesehatan mental menarik kesimpulan dan menemukan petunjuk tentang gangguan mental seperti depresi. Klasifikasi yaitu proses mengelompokkan sesuatu yang memiliki karakteristik yang mirip kedalam beberapa kelas. Pada umumnya pengklasifikasian dokumen diwakili oleh kalimat-kalimat penting dengan menentukan ciri-ciri atau karakteristik . Salah satu metode klasifikasi yaitu Decision Tree. Random Forest. Naive Bayes, dan KNearest Neighbor. Decision Tree adalah algoritma populer dan sangat efektif dengan melakukan pengklasifikasian dan Algoritma Decision Tree dapat merepresentasikan ketentuan dari banyaknya fakta ke dalam bentuk pohon keputusan. pohon keputusan adalah struktur yang membagi sejumlah besar data menjadi sejumlah kecil Atribut kelas berfungsi sebagai representasi untuk simpul daun pohon keputusan. Node yang tidak ada termasuk node internal yang dihasilkan oleh kondisi uji atribut pada beberapa record dengan berbagai karakteristik dan node akhir yang terdiri dari akar . Random Forest mempunyai beberapa kelebihan yang dapat menaikan akurasi hasil data yang hilang dan resiting outliers, serta menyimpan data yang efisien. Selain itu, random forest memiliki proses fitur seleksi yang dapat memperoleh fitur terbaik untuk menaikkan performa dari model klasifikasi . Untuk meningkatkan kinerja model dari ke 4 algoritma . Decision Tree. Random Forest. Naive Bayes, dan K-Nearest Neighbo. , peneliti menambahkan feature extraction untuk meningkatkan kinerja model. Dari penelitian sebelumnya oleh Alec Go et al. , yang mengklasifikasikan sentimen di Twitter menggunakan algoritma Maximum Entropy. Naive Bayes ,dan Support Vector Machine. Akurasi hasil penelitian lebih dari 80% . Studi lain mendeteksi depresi pada unggahan di media sosial Reddit. Studi ini menggunakan teknik pemrosesan bahasa alami bersama dengan metode pembelajaran mesin kemudian melatih data dan efektivitas teknik klasifikasi Support Vector Machine (SVM) dievaluasi dan mencapai angka 80%. Ketepatan studi ini juga menggunakan gabungan fitur tersukses (LIWC. LDA, dan bigra. dengan pengklasifikasi multilayer perceptron (MLP), yang memberikan performa tertinggi untuk mendeteksi depresi dan akurasi mencapai 91% . Penelitian lain menggunakan Nayve Bayes (NB) dan Support Vector Regression (SVR) didapatkan hasil pengujian pada 3. 754 tweet menunjukkan SVR memperoleh akurasi lebih baik daripada NB sebesar 79. Hasil pengujian juga dibandingkan dengan K-Means Clustering dan SVM. SVM memperoleh akurasi sebesar 78. 8%, di mana SVM lebih baik dari NB tetapi masih dibawah SVR . Penelitian sebelumnya membuat sistem untuk mendeteksi apakah seseorang terindikasi depresi dan kecemasan atau tidak berdasarkan Stress Scale - 42 (DASS-. dan menggunakan metode Classification and Regression Tree (CART) dengan ekstraksi fitur TF-IDF. Hasil menunjukkan bahwa model yang paling optimal mencapai nilai akurasi 81. 25% dan nilai F1 Score 85. 71% lebih tinggi dari hasil baseline dengan nilai akurasi 62. dan nilai F1 score 66. 66% . Berdasarkan permasalahan yang telah dipaparkan dan beberapa penelitian yang telah dijelaskan, penelitian ini mengusulkan metode feature extraction untuk mendeteksi depresi dan kecemasan pada pengguna Twitter. Pada penelitian ini juga dilakukan perbandingan dengan beberapa metode machine learning sebagai Metode pembanding yang digunakan yaitu algoritma Decision Tree. Random Forest. Naive Bayes, dan K-Nearest Neighbor. Hasil penelitian ini diharapkan dapat digunakan oleh pembaca maupun pengguna Twitter untuk membantu mengidentifikasi penderita depresi dan kecemasan berdasarkan tweet dan untuk mengetahui performa algoritma terbaik dalam mengidentifikasi penderita depresi. METODOLOGI PENELITIAN Pada penelitian ini dilakukan perbandingan algoritma klasifikasi teks menggunakan machine learning untuk mengidentifikasi penderita depresi dan kecemasan berdasarkan postingan tweet pengguna pada Twitter. Tahapan penelitian yang dilakukan disajikan pada gambar 1. Data Collection Dataset yang digunakan adalah data sekunder yang diambil dari dataset Kaggle, tentang depresi dan kecemasan . Dataset terdiri dari 5 atribut . Text. Label. Age. Gender. Age Categor. dan 7489 tweet yang diekstraksi menggunakan Twitter API. Tabel 1 menyajikan 5 atribut dari dataset yang digunakan dimana pada atribut label 0 menyatakan negatif sedangkan 1 menyatakan positif . = negatif, 1 = positi. MALCOM - Vol. 3 Iss. 2 October 2023, pp: 108-114 MALCOM-03. : 108-114 Preprocessing Proses preprocessing ini berfungsi agar data yang akan diproses menjadi lebih terstruktur dan memperlancar jalannya pemodelan. Proses preprocessing yang dilakukan pada penelitian ini terdiri dari lima langkah yaitu text cleaning, case folding, tokenizing, filtering, dan stemming. Text cleaning menghilangkan angka, pemisah kata seperti koma (,), titik (. ), dan tanda baca lainnya. Tujuan dari text cleaning adalah untuk mengurangi noise . Case folding adalah langkah preprocessing yang tujuannya adalah untuk mengubah semua teks dalam dokumen ke format standar . uruf keci. Tokenizing memotong string input. Beberapa karakter . isalnya tanda bac. dihilangkan dan spasi digunakan sebagai pemisah untuk membagi kalimat menjadi kelompok kata . Stopword removal menghilangkan kata-kata yang tidak relevan atau tidak berarti. Stemming adalah pencarian kata dasar . tem wor. yang dihasilkan dari proses stopword removal . Gambar 1. Tahapan Penelitian Feature Extraction Perhitungan vektor yang dilakukan pada penelitian ini menggunakan metode CountVectorizer. CountVectorizer adalah fitur kelas perhitungan numerik dan metode ekstraksi fitur teks yang umum digunakan. CountVectorizer mengubah teks kata-kata menjadi matriks frekuensi kata, fungsi matriks fit_transform digunakan untuk menghitung jumlah kemunculan setiap kata . Tujuannya adalah untuk memperoleh kata perkata dari semua kalimat dan membangun kosakata dari kata-kata unik yang terdapat pada kalimat tersebut. Kosakata ini digunakan untuk membangun vektor fitur dari banyaknya kata . Splitting Data Setelah tahap preprocessing, langkah berikutnya adalah memisahkan dataset menjadi data uji dan data Menggunakan pemisahan data 80:20, dataset yang belum pernah digunakan dalam suatu penelitian, tetapi juga berguna untuk mengevaluasi keberhasilan atau kegagalan suatu penelitian, disebut data penguji, sedangkan data pelatihan yaitu data yang digunakan untuk melakukan penelitian . Machine Learning Machine learning atau pembelajaran mesin yaitu salah satu bagian dari kecerdasan buatan yang tujuannya adalah menggunakan mesin dengan cara yang memungkinkan mesin melakukan pekerjaannya dengan cerdas. Karena algoritma pembelajaran mesin memerlukan pengindeksan data, mereka harus terhubung ke database . Model pembelajaran mesin berkaitan erat dengan statistik komputer, dengan tujuan utamanya adalah menggunakan komputer untuk membuat prediksi . 1 Decision Tree Metode pohon keputusan pembelajaran mesin membuat keputusan pada tingkat yang berbeda menggunakan struktur data pohon ini cocok untuk masalah peramalan karena mudah diinterpretasikan dan Klasifikasi Teks Untuk Mendeteksi Depresi Dan. (Rahayu et al, 2. ISSN(P): 2797-2313 | ISSN(E): 2775-8575 strukturnya stabil. Ini mencakup keduanya klasifikasi . odel pohon dengan tujuan yang berbeda untuk kumpulan nilai yang berbed. dan regresi . ujuan yang mudah beruba. Dalam hal ini, pertanyaan dibagi menjadi dua cabang . a dan tida. yang keluar dari pohon. Jumlah yang lebih besar dapat diperoleh pilihan 2 . 2 Random Forest Random forest adalah metode klasifikasi yang dibuat dengan mengembangkan metode pohon. Random Forest (RF) merupakan metode pemisahan biner rekursif untuk mencapai simpul terakhir dari struktur pohon berdasarkan klasifikasi dan pohon regresi . Keputusan didasarkan pada pemilihan atribut secara acak pada setiap node untuk menentukan klasifikasi. Tahap klasifikasi sebagian besar didasarkan pada suara dari pohon keputusan itu sendiri . 3 Naive Bayes Metode klasifikasi ini berdasar pada Teorema Bayes dan mengasumsikan independensi prediktor. Sederhananya, pengklasifikasi Naive Bayes berspekulasi bahwa ketersediaan fitur tertentu di kelas tidak ada hubungannya dengan fitur lainnya. Naive Bayes terutama berfokus pada industri klasifikasi teks. Ini terutama digunakan untuk mengelompokkan dan mengklasifikasikan objek menurut probabilitas kemunculannya . 4 K-Nearest Neighbor Algoritma K-Nearest Neighbor (KNN) adalah algoritma pembelajaran mesin sederhana yang sering diaplikasikan untuk menyelesaikan masalah pada regresi dan klasifikasi. Klasifikasi K-Nearest Neighbor (KNN) merupakan algoritma klasifikasi paling sederhana dan termudah untuk mengelola kumpulan data . Mudah diimplementasikan dan dipahami, tetapi kelemahan utamanya adalah sangat lambat karena ukuran akses data meningkat . Model Evaluasi Untuk mengevaluasi kinerja metode Decision Tree. Random Forest. Naive Bayes, dan K-Nearest Neighbor, model ini harus diuji. Hasil pengujian disajikan dalam bentuk tabel confusion matrix. Skor akurasi model diperoleh dengan membagi jumlah data yang benar pada hasil klasifikasi dengan jumlah total data seperti yang ditunjukkan pada persamaan di bawah ini. Persamaan 1-4 di bawah ini digunakan untuk menghitung tingkat akurasi, recall, presisi dan spesifitas masing masing confusion matriks. Keterangan: TP (True Positi. TN (True Negati. FP (False Positi. FN (False Negati. Akurasi = (TP TN ) / (TP FP FN TN) . Recall = (TP) / (TP FN) . Precision = (TP) / (TP FP) . F1 Score = 2 * (Recall*Precisio. / (Recall Precisio. = Diagonal matriks = Jumlah baris yang sesuai untuk kelas . idak termasuk TP kelas it. = Jumlah kolom yang sesuai untuk kelas . idak termasuk TP kelas it. = Jumlah dari semua baris dan kolom . idak termasuk baris dan kolom dari kelas HASIL DAN ANALISIS Pada penelitian ini dataset yang diperlukan adalah dataset publik yang diperoleh dari website Kaggle. Dataset terdiri dari 7489 tweet di jejaring sosial Twitter tentang depresi dan kecemasan. Sebelum menganalisis data, dilakukan langkah preprocessing data, yang meliputi menghapus data null atau kosong, menghapus data duplikat, ubah semua teks dalam dokumen menjadi font yang konsisten, ubah semua kalimat dalam dokumen sebagai unit kata, hapus kata. URL, atau simbol yang tidak bermakna, hapus kata dengan awalan dan akhiran dan mengubah data untuk memenuhi kebutuhan algoritma. Setelah dilakukan preprocessing data dan melakukan feature extraction didapatkan data terbaru sebanyak 7476 data. Hasil preprocessing dapat dilihat pada tabel 1. MALCOM - Vol. 3 Iss. 2 October 2023, pp: 108-114 MALCOM-03. : 108-114 Tabel 1. Hasil Preprocessing A Text let Gether For Party I hate being alive when I feel so dead How come my friends get to know Today I wake at Text Cleaning let Gether For Party I hate being alive when I feel so dead How come my friends get to know wake at Case Folding let gether for party i hate being alive when i feel so dead how come my friends get to know wake at Stopword Removal Tokenizing Stemming AogetherAo,AopartyAo AogetherAo,AopartyAo hate alive feel dead AohateAo. AoaliveAo. AofeelAo,AodeadAo AohateAo. AoaliveAo. AofeelAo,AodeadAo A A A AofriendsAo. AostrangersAo AofriendsAo. AostrangersAo AotodayAo,AowakeAo,Ao5amAo AotodayAo,AowakeAo,Ao5amAo Selanjutnya, peneliti mengimplementasikan algoritma Decision Tree. Random Forest. Naive Bayes, dan K-Nearest Neighbor dan mengujinya berdasarkan pada tahap pemisahan data 80% dari total data yakni 5980 sebagai data training dan 20% yakni 1496 sebagai data testing berdasarkan parameter teks hasil preprocessing. Hasil komparasi dari keempat algoritma . Decision Tree. Random Forest. Naive Bayes, dan K-Nearest Neighbo. dari penelitian ini pada rasio pemisahan data 80:20 disajikan dalam tabel 2 dan gambar 2. Tabel 2. Komparasi Hasil Algoritma Algoritma Decision Tree Random Forest Naive Bayes K-Nearest Neighbor Accuracy Precision Recall F1-Score Gambar 2. Grafik hasil komparasi algoritma Pada tabel 2 dan gambar 2 menunjukkan bahwa algoritma yang memiliki tingkat akurasi tertinggi adalah algoritma Random Forest dengan tingkat akurasi sebesar 0. 957, nilai precision 91. 93, nilai recall 91. 84, dan nilai F1 score 90. 93 dengan menggunakan nilai splitting data sebesar 80:20. Selanjutnya data yang sudah melalui beberapa tahapan akan divisualisasikan, gambar 3 dan gambar 4 adalah hasil visualisasi keseluruhan data yang sudah diproses dan divisualisasikan dengan Diagram Pie dan Diagram Batang. Gambar 4 dapat dilihat bahwa postingan pengguna Twitter yang terdeteksi Depresi dan Kecemasan sebanyak 10% yang terdeteksi Positif . dan 90% yang terdeteksi Negatif . Pada gambar 6, tweet yang terdeteksi Positif . depresi dan kecemasan sebanyak 1224 tweet dan 6252 tweet yang terdeteksi Negatif . Dapat disimpulkan bahwa hanya sebagian kecil pengguna Twitter yang terdeteksi depresi dan kecemasan. Klasifikasi Teks Untuk Mendeteksi Depresi Dan. (Rahayu et al, 2. ISSN(P): 2797-2313 | ISSN(E): 2775-8575 Gambar 3. Diagram Pie Gambar 4. Diagram Batang KESIMPULAN Setelah dilakukan tahap implementasi, tahap uji, dan evaluasi yang dilakukan pada sebelumnya dengan menggunakan empat algoritma, yaitu Decision Tree. Random Forest. Naive Bayes, dan K-Nearest Neighbor (KNN) didapatkan kesimpulan bahwa tingkat akurasi terbaik terdapat pada algoritma Random Forest menggunakan splitting data 80:20 dengan tingkat akurasi sebesar 0. Algoritma tersebut dapat secara akurat mengenali pola dan gejala depresi dalam penerapan teknik pemrosesan bahasa alami dan algoritma machine Bagi peneliti selanjutnya diharapkan dapat mengembangkan algoritma tersebut dengan menambahkan fitur lainnya, dan disarankan peneliti selanjutnya perlu melakukan tahap penyeimbangan data agar hasil klasifikasi dapat lebih maksimal dengan menggunakan teknik oversampling atau undersampling. REFERENSI