Journal of Computer System and Informatics (JoSYC) ISSN 2714-8912 . edia onlin. ISSN 2714-7150 . edia ceta. Volume 6. No. August 2025. Page 634-644 https://ejurnal. seminar-id. com/index. php/josyc DOI 10. 47065/josyc. Prediksi Insomnia Berdasarkan Aktivitas Pengguna Twitter Menggunakan Natural Language Processing dan Machine Learning Trisna1,*. Asti Herliana2 Fakultas Teknik Informasi. Teknik Informatika. Universitas Adhirajasa Reswara Sanjaya. Bandung. Indonesia Fakultas Teknik Informasi. Sistem Informasi. Universitas Adhirajasa Reswara Sanjaya. Bandung. Indonesia Email: 1,*hadiyantitrisna@gmail. com, 2asti@ars. Email Penulis Korespondensi: hadiyantitrisna@gmail. Submitted: 23/07/2025. Accepted: 31/08/2025. Published: 31/08/2025 AbstrakAInsomnia adalah gangguan tidur yang banyak dialami masyarakat dan berdampak besar pada kesehatan fisik dan mental serta produktivitas. Namun, deteksi dini insomnia masih menjadi tantangan karena gejalanya sulit teridentifikasi secara langsung. Penelitian ini memanfaatkan data historis sebanyak 13. 950 tweet dari 4. 286 akun Twitter . JanuariAe30 April 2. untuk memprediksi potensi insomnia menggunakan metode Natural Language Processing (NLP) dan machine Label insomnia ditentukan melalui pendekatan keyword-based yang diverifikasi pakar, kemudian melalui tahapan preprocessing, analisis temporal, dan analisis sentimen. Dua model klasifikasi digunakan, yaitu Support Vector Machine (SVM) yang unggul dalam memisahkan kelas pada data berdimensi tinggi, dan Long Short-Term Memory (LSTM) yang unggul dalam menangkap pola berurutan serta konteks temporal. Hasil awal menunjukkan SVM memiliki akurasi 89% dan unggul pada kelas non-insomnia . 80, recall 0. namun kurang optimal pada insomnia . 92, recall . , sedangkan LSTM memiliki akurasi 90% dan lebih baik pada insomnia . 98, recall 0. namun sedikit menurun pada non-insomnia . 81, recall 0. Oleh karena masing-masing model memiliki kekuatan berbeda, keduanya digabungkan dengan metode average probabilistic ensemble yang menghasilkan akurasi 92% dengan peningkatan seimbang di kedua kelas . on-insomnia: precision 0. 82, recall 0. insomnia: precision 1. 00, recall 0. , sehingga lebih andal dibandingkan model tunggal dalam mendeteksi potensi insomnia. Kata Kunci: Ensemble Learning. Insomnia. LSTM. SVM. Twitter AbstractAInsomnia is a sleep disorder that is widely experienced by the public and has a significant impact on physical and mental health, as well as productivity. However, early detection of insomnia remains a challenge because its symptoms are difficult to identify directly. This study uses historical data of 13,950 tweets from 4,286 Twitter accounts (January 1AeApril 30, 2. to predict potential insomnia using Natural Language Processing (NLP) and machine learning methods. Insomnia labels are determined through an expert-verified keyword-based approach, followed by preprocessing, temporal analysis, and sentiment analysis. Two classification models are used: Support Vector Machine (SVM), which excels at separating classes in high-dimensional data, and Long Short-Term Memory (LSTM), which excels at capturing sequential patterns and temporal Preliminary results showed that SVM had 89% accuracy and was superior in the non-insomnia class . but suboptimal in insomnia . 92, recall 0. , while LSTM had 90% accuracy and was better in insomnia . 98, recall 0. but slightly inferior in non-insomnia . 81, recall 0. Since each model had different strengths, they were combined with a probabilistic ensemble averaging method which resulted in 92% accuracy with balanced improvements in both classes . on-insomnia: precision 0. 82, recall 0. insomnia: precision 1. 00, recall 0. making it more reliable than a single model in detecting potential insomnia. Keywords: Ensemble Learning. Insomnia. LSTM. SVM. Twitter PENDAHULUAN Insomnia merupakan salah satu gangguan tidur yang kian meningkat di era digital, terutama disebabkan oleh tingginya penggunaan media sosial pada malam hari. Perubahan pola hidup, paparan cahaya dari layar gawai, serta keterlibatan emosional dalam aktivitas daring menjadi faktor yang turut memperburuk kualitas tidur masyarakat . Di kawasan Asia Tenggara, prevalensi insomnia dilaporkan mencapai 67% pada kelompok remaja, sementara di Indonesia, lebih dari 28 juta penduduk diperkirakan mengalami gejala serupa . Berdasarkan temuan data tersebut gangguan ini tidak hanya berdampak pada penurunan produktivitas, tetapi juga meningkatkan risiko gangguan kesehatan mental serta beban ekonomi secara luas . , . Twitter, sebagai salah satu platform media sosial berbasis teks, menawarkan sumber data yang menjanjikan untuk menelusuri ekspresi psikologis pengguna secara real-time . Berbeda dari platform lain. Twitter memungkinkan pengguna mengekspresikan perasaan, aktivitas, dan pengalaman pribadi mereka dalam bentuk teks singkat yang terbuka untuk publik. Fitur seperti hashtag, mention, serta tingginya aktivitas unggahan pada malam hingga dini hari menjadikan Twitter sebagai representasi digital yang potensial dalam mendeteksi gangguan tidur . Cuitan yang diunggah pada waktu tersebut sering mencerminkan kondisi emosional dan pola aktivitas yang berkaitan dengan insomnia. Untuk menganalisis hal ini, media sosial seperti Twitter dapat dimanfaatkan melalui analisis teks cuitan yang mencakup perasaan, aktivitas, dan waktu unggahan . Namun, karena data yang dihasilkan tidak terstruktur, diperlukan teknologi seperti Natural Language Processing (NLP) untuk Copyright A 2025 Author. Page 634 This Journal is licensed under a Creative Commons Attribution 4. 0 International License Journal of Computer System and Informatics (JoSYC) ISSN 2714-8912 . edia onlin. ISSN 2714-7150 . edia ceta. Volume 6. No. August 2025. Page 634-644 https://ejurnal. seminar-id. com/index. php/josyc DOI 10. 47065/josyc. mengolahnya secara efektif . Salah satu metode NLP yang relevan adalah analisis sentimen, yang digunakan untuk mengidentifikasi emosi seperti kecemasan atau kegelisahan yang sering dikaitkan dengan insomnia . Sejumlah studi terdahulu mengenai analisis sentimen telah mengeksplorasi hubungan antara penggunaan media sosial dan gangguan tidur, khususnya insomnia. Pirdehghan et al. meneliti hubungan antara durasi penggunaan media sosial dan kualitas tidur pada remaja. Menggunakan pendekatan kuantitatif melalui kuesioner, mereka menemukan korelasi negatif yang signifikan, yaitu semakin lama seseorang mengakses media sosial, semakin buruk kualitas tidurnya. Hasil ini mengindikasikan adanya potensi risiko psikologis yang perlu diidentifikasi lebih lanjut melalui indikator perilaku digital. Sakib et al. mengembangkan model prediksi insomnia berbasis psikolinguistik menggunakan data cuitan Twitter. Penelitian ini memanfaatkan fitur bahasa seperti penggunaan kata emosional dan waktu unggahan, serta menerapkan machine learning untuk klasifikasi. Hasilnya, model mereka mencapai akurasi 78,8%, namun pendekatan temporal dalam analisis data belum sepenuhnya dioptimalkan. Adiwibawa et al. meneliti hubungan antara intensitas penggunaan media sosial dan tingkat insomnia pada mahasiswa Indonesia. Dengan metode survei dan analisis regresi, penelitian ini menunjukkan adanya hubungan signifikan antara frekuensi penggunaan media sosial pada malam hari dan peningkatan gejala Meski demikian, studi ini terbatas pada pendekatan kuantitatif tanpa eksplorasi langsung data media Mengingat pentingnya konteks waktu dalam analisis gangguan tidur, diperlukan algoritma yang mampu menangkap pola temporal dalam data sekuensial . Long Short-Term Memory (LSTM) merupakan salah satu arsitektur deep learning yang mampu mempertahankan konteks waktu dan mengenali pola jangka panjang . Selain itu. Gleeson et al. membuktikan bahwa Long Short-Term Memory (LSTM) sebuah arsitektur deep learning yang mampu mempertahankan konteks waktu dan mengenali pola jangka panjangAilebih akurat dibanding model konvensional dalam mendeteksi gangguan tidur dari data perangkat wearable. Hal ini menunjukkan relevansi LSTM untuk menganalisis data Twitter yang bersifat kronologis. Untuk meningkatkan performa klasifikasi gejala insomnia, algoritma tambahan seperti Support Vector Machine (SVM) dapat digunakan. SVM dikenal efektif dalam mengolah data berlabel, terutama pada dataset berukuran kecil hingga menengah dengan fitur kompleks . Studi Rani et al. menunjukkan bahwa Support Vector Machine (SVM) efektif untuk klasifikasi insomnia akut dan kronis dengan akurasi 81% dari data SVM unggul dalam mengolah data berlabel pada dataset berukuran kecil hingga menengah dengan fitur kompleks, sehingga berpotensi digunakan dalam deteksi insomnia berbasis fitur linguistik dan temporal dari media sosial. Studi-studi sebelumnya telah memberikan kontribusi penting dalam memahami hubungan antara media sosial dan gangguan tidur. Namun, sebagian besar penelitian tersebut masih memiliki keterbatasan dalam menggabungkan konten linguistik, konteks temporal, dan algoritma prediktif secara terpadu. Misalnya, model prediksi insomnia berbasis psikolinguistik oleh Sakib et al. hanya mencapai akurasi 78,8%, sementara pendekatan berbasis SVM oleh Rani et al. untuk deteksi insomnia dari data actigraphy menghasilkan akurasi 81%. Hingga saat ini, belum ada penelitian berbasis data Twitter yang secara simultan mengintegrasikan analisis teks, waktu unggahan, dan kombinasi model pembelajaran mesin untuk mencapai akurasi di atas 90%. Penelitian ini bertujuan untuk mengisi celah tersebut dengan mengembangkan model prediksi insomnia berbasis NLP, analisis temporal, dan ensemble learning dari SVM dan LSTM, yang diharapkan mampu melampaui capaian akurasi sebelumnya dan memberikan model prediksi yang lebih andal untuk deteksi dini insomnia. METODOLOGI PENELITIAN 1 Alur Penelitian Penelitian ini bertujuan memprediksi potensi insomnia berdasarkan aktivitas pengguna di media sosial Twitter melalui analisis data teks yang diperoleh dari tweet. Metode yang digunakan meliputi pengumpulan data, preprocessing, pelabelan, ekstraksi fitur, pemodelan menggunakan machine learning, dan evaluasi model. Pada Gambar 1 menunjukkan alur kerja penelitian berbasis analisis data teks menggunakan metode Long Short-Term Memory (LSTM) dan Support Vector Machine (SVM). Proses dimulai dari tahap identifikasi masalah, kemudian dilanjutkan dengan crawling data untuk mengumpulkan dataset. Setelah data terkumpul, tahap preprocessing dilakukan untuk membersihkan dan menyiapkan data melalui beberapa langkah seperti cleaning, lowercase, tokenizing, stopword removal, stemming, replace value, dan timestamp agar data siap Selanjutnya dilakukan labelling untuk memberi tanda pada data sesuai kategori yang diinginkan, diikuti oleh analisis temporal guna melihat pola data berdasarkan waktu. Tahap berikutnya adalah feature engineering, yang berfungsi mengekstraksi fitur penting dari data sebelum dilakukan split data untuk membagi dataset menjadi data latih dan data uji. Data kemudian diproses menggunakan dua model yaitu LSTM dan SVM. Hasil dari kedua model ini dievaluasi menggunakan Confusion Matrix dengan metrik evaluasi accuracy, precision, recall, dan F1-score. Selanjutnya, hasil dari LSTM dan SVM digabungkan untuk memperoleh performa model terbaik. Proses ini diakhiri dengan analisis keseluruhan yang menunjukkan kinerja model gabungan dalam mengklasifikasikan data teks secara akurat dan efisien. Copyright A 2025 Author. Page 635 This Journal is licensed under a Creative Commons Attribution 4. 0 International License Journal of Computer System and Informatics (JoSYC) ISSN 2714-8912 . edia onlin. ISSN 2714-7150 . edia ceta. Volume 6. No. August 2025. Page 634-644 https://ejurnal. seminar-id. com/index. php/josyc DOI 10. 47065/josyc. Gambar 1. Alur Penelitian 2 Pengumpulan Data Data dikumpulkan menggunakan metode crawling dari platform Twitter melalui Twitter API dengan bantuan pustaka Python seperti Tweepy dan Twint. Periode pengambilan data berlangsung dari 1 Januari hingga 30 April 2025 . Data yang dikumpulkan adalah tweet yang mengandung kata kunci terkait insomnia, seperti AiinsomniaAn dan Aisusah tidurAn. Data disimpan dalam format CSV berisi teks tweet dan metadata terkait waktu unggah . 3 Preprocessing Data Data yang diperoleh diproses untuk meningkatkan kualitas melalui beberapa tahapan preprocessing teks. Proses cleaning dilakukan dengan menghapus elemen-elemen yang tidak relevan seperti URL, mention, hashtag, angka, dan karakter khusus yang tidak diperlukan . Teks dinormalisasi menggunakan lowercase dengan mengubah seluruh huruf menjadi format kecil agar konsisten . Proses tokenization memecah kalimat menjadi token kata menggunakan fungsi word_tokenize dari pustaka NLTK . , . Kata-kata umum yang kurang bermakna dihapus melalui stopword removal berdasarkan daftar stopword bahasa Indonesia dan Inggris dari NLTK . Kata-kata tersisa direduksi ke bentuk dasar dengan teknik stemming menggunakan pustaka Sastrawi . Nilai string kosong dalam data diganti dengan nilai terdekat di atasnya untuk mencegah gangguan pada analisis. Format waktu unggahan tweet dikonversi ke dalam datetime menggunakan pustaka pandas guna memastikan informasi temporal dapat dianalisis secara sistematis dan akurat. 4 Pelabelan Tweet diberi label berdasarkan dua kriteria utama. Pertama, berdasarkan keberadaan kata kunci AiinsomniaAn dalam isi tweet. jika tweet mengandung kata kunci tersebut, maka diberi label AiYaAn, sedangkan jika tidak mengandung, diberi label AiTidakAn. Kedua, berdasarkan waktu unggah tweet, yang dikategorikan ke dalam lima rentang waktu, yaitu Pagi. Siang. Sore. Malam, dan Larut Malam . ntara pukul 22:00 hingga 05:. Tweet yang diunggah pada rentang waktu Larut Malam diberi label AiYaAn untuk menandai potensi adanya indikasi insomnia, sementara tweet pada rentang waktu lainnya diberi label AiTidakAn. 5 Analisi Temporal Analisis temporal dilakukan untuk mengidentifikasi pola aktivitas pengguna berdasarkan jam dan hari unggahan. Aktivitas di malam hari . :00Ae04:. dianalisis lebih lanjut sebagai periode kritis potensial insomnia. Visualisasi heatmap dan pengelompokan berdasarkan waktu serta uji chi-square dilakukan untuk melihat hubungan signifikan antara waktu unggah dan potensi insomnia. Copyright A 2025 Author. Page 636 This Journal is licensed under a Creative Commons Attribution 4. 0 International License Journal of Computer System and Informatics (JoSYC) ISSN 2714-8912 . edia onlin. ISSN 2714-7150 . edia ceta. Volume 6. No. August 2025. Page 634-644 https://ejurnal. seminar-id. com/index. php/josyc DOI 10. 47065/josyc. 6 Ekstrasi Fitur Ekstraksi fitur teks menggunakan Term Frequency-Inverse Document Frequency (TF-IDF) dengan memilih 000 kata dengan bobot tertinggi . Fitur temporal seperti jam, hari, dan bulan dari waktu unggah juga Untuk model LSTM, teks ditokenisasi menggunakan Tokenizer Keras dan diproses menjadi urutan angka yang dipadatkan . agar panjang data seragam. 7 Pembagian Data Dataset yang terdiri dari 13. 950 sampel dibagi menjadi data pelatihan sebesar 80% . 160 sampe. dan data pengujian sebesar 20% . 790 sampe. menggunakan fungsi train_test_split dari pustaka scikit-learn dengan stratifikasi label. Stratifikasi dilakukan untuk memastikan distribusi kelas tetap seimbang pada kedua set data, sehingga representatif dalam proses pelatihan maupun pengujian . , . 8 Model Dalam penelitian ini digunakan dua model machine learning untuk klasifikasi tweet insomnia. Model pertama adalah Support Vector Machine (SVM) dengan kernel linear . yang memanfaatkan fitur gabungan berupa TF-IDF dan fitur temporal . Model kedua menggunakan Long Short-Term Memory (LSTM) yang mampu menangkap konteks urutan kata dalam tweet . Model LSTM ini terdiri dari embedding layer berdimensi 100 . , diikuti oleh LSTM layer dengan 128 unit dan dropout sebesar 0,2, serta fully connected layer yang menggunakan aktivasi sigmoid . Model LSTM dikompilasi dengan fungsi loss binary crossentropy dan optimizer Adam dengan learning rate 0,001. Untuk menghindari overfitting, digunakan teknik early stopping selama pelatihan yang berlangsung maksimal 10 epoch dengan batch size 64 . 9 Evaluasi Evaluasi model menggunakan confusion matrix, accuracy, precision, recall, dan F1-score. Confusion matrix menjelaskan jumlah True Positive. True Negative. False Positive, dan False Negative . , . Model LSTM juga dievaluasi menggunakan loss dan accuracy pada data testing. 10 Model Gabungan Prediksi probabilitas dari SVM dan LSTM digabungkan menggunakan rata-rata probabilitas untuk menentukan label akhir dengan threshold 0. Model ensemble dievaluasi menggunakan metrik yang sama untuk meningkatkan akurasi dan robustness prediksi insomnia. HASIL DAN PEMBAHASAN 1 Scrapping Data Pengumpulan data dilakukan melalui platform Google Colab dengan memanfaatkan teknik scraping dan bahasa pemrograman Python. Dalam proses ini, digunakan pustaka Twitter API untuk mengekstrak tweet dari pengguna yang berkaitan dengan topik insomnia. Data dikumpulkan selama periode empat bulan, mulai dari 1 Januari hingga 30 April 2025, dengan total sebanyak 13. 950 baris data berhasil diperoleh. Seperti yang ditampilkan pada Tabel 1, data mentah tersebut kemudian diseleksi dengan hanya mempertahankan atribut-atribut yang relevan dengan tujuan penelitian, yaitu isi tweet . ull_tex. , waktu unggahan . reated_a. , serta ID dan nama pengguna . ser_id_str dan usernam. Dataset yang telah diseleksi ini kemudian disimpan dengan nama dataset_insomnia dalam format file . Tabel 1. Sampel dataset Insomnia conversation_id_st A A. created_at full_text User_id_str Wed Mar 12 23:52:47 0000 Wed Mar 12 23:27:21 0000 Jeleknya aku adalah ketika stress datang insomnia TasyaKamill yg insomnia mana suaranyas hadir @tattyhassan insomnia teruk badan lesu sampai berbuka je muntah Thu Mar 13 09:35:26 0000 Copyright A 2025 Author. Page 637 This Journal is licensed under a Creative Commons Attribution 4. 0 International License Journal of Computer System and Informatics (JoSYC) ISSN 2714-8912 . edia onlin. ISSN 2714-7150 . edia ceta. Volume 6. No. August 2025. Page 634-644 https://ejurnal. seminar-id. com/index. php/josyc DOI 10. 47065/josyc. 2 Preprocessing Tahap preprocessing dilakukan untuk membersihkan dan mempersiapkan data hasil crawling dari Twitter agar siap dianalisis. Mengingat data media sosial banyak mengandung noise seperti mention, hashtag, tautan, dan simbol khusus, beberapa langkah dilakukan, yaitu pembersihan teks, konversi ke huruf kecil, normalisasi kata, tokenisasi, penghapusan stopword, dan stemming. Setelah itu, teks dinormalisasi kembali agar lebih bersih dan Selain teks, data juga diperkaya dengan informasi waktu . yang diekstraksi menjadi format jam untuk mendukung analisis temporal terkait pola waktu munculnya gejala insomnia pada pengguna Twitter. Contoh hasil tahap preprocessing dapat dilihat pada Tabel 2, yang menunjukkan perubahan data mentah menjadi data bersih pada kolom final_text, serta penambahan kolom hour untuk merepresentasikan informasi waktu secara terstruktur. Tabel 2. Sampel dataset preprocessing TasyaKamillahh created_at 2025-03-12 23:52:47 00:00 2025-03-12 23:27:21 00:00 2025-03-12 22:40:35 00:00 2025-03-12 22:39:43 00:00 2025-03-12 22:35:28 00:00 final_text jelek stress insomnia kambuh yg insomnia suaranyas hadir hadi lan dok bulan insomnia parah tidur jelang subuh capek banget insomnia parah 3 Labelling Tahap pelabelan data dilakukan untuk membagi dataset teranotasi yang akan digunakan dalam pelatihan model prediksi insomnia. Pelabelan menggunakan pendekatan berbasis aturan dengan mempertimbangkan dua aspek utama, yaitu kata kunci dalam teks tweet dan waktu unggahan. Waktu diklasifikasikan ke dalam lima kategori: Pagi . :00Ae08:. Siang . :00Ae14:. Sore . :00Ae17:. Malam . :00Ae21:. , dan Larut Malam . :00Ae 04:. , dengan fokus utama pada Larut Malam karena waktu tersebut sering terkait gangguan tidur. Kata kunci seperti AitidurAn. AiinsomniaAn. Aisusah tidurAn. AicapekAn, dan sejenisnya dicocokkan pada kolom teks untuk mendeteksi indikasi insomnia. Tweet diberi label 1 jika mengandung kata kunci tersebut atau diunggah pada waktu Larut Malam, dan label 0 jika tidak memenuhi kriteria tersebut. Hasil pelabelan ini menghasilkan dataset siap untuk pelatihan model klasifikasi insomnia. Tabel 3 berikut menunjukkan contoh hasil pelabelan pada beberapa tweet: Tabel 3. Sampel dataset Labelling final_text jelek stress insomnia kambuh yg insomnia suaranyas hadir hadi lan dok bulan insomnia parah tidur jelang subuh capek banget insomnia parah created_at 2025-03-12 23:52:47 00:00 2025-03-12 23:27:21 00:00 2025-03-12 22:40:35 00:00 time_category Larut Malam Larut Malam Larut Malam insomnia_label 2025-03-12 22:39:43 00:00 Larut Malam 2025-03-12 22:35:28 00:00 Larut Malam 4 Analisis Temporal Distribusi tweet berdasarkan jam menunjukkan peningkatan mulai pukul 07. 00 dan puncak pada pukul 17. dengan lebih dari 1. 200 tweet, menandakan aktivitas tertinggi pada sore hari (Gambar . Hal ini kemungkinan berkaitan dengan kebiasaan pengguna media sosial yang lebih aktif setelah jam kerja/sekolah, serta cenderung membagikan keluhan menjelang malam ketika gejala insomnia mulai terasa, aktivitas malam hingga dini hari . 00Ae04. juga tinggi, berkaitan dengan periode tidur normal dan gejala insomnia. Gambar 2. Distribusi Tweet Berdasarkan Jam Copyright A 2025 Author. Page 638 This Journal is licensed under a Creative Commons Attribution 4. 0 International License Journal of Computer System and Informatics (JoSYC) ISSN 2714-8912 . edia onlin. ISSN 2714-7150 . edia ceta. Volume 6. No. August 2025. Page 634-644 https://ejurnal. seminar-id. com/index. php/josyc DOI 10. 47065/josyc. Distribusi berdasarkan hari (Gambar . memperlihatkan puncak tweet pada hari Minggu (>2. , dengan Senin dan Selasa juga tinggi (>2. Jumlah tweet menurun pada RabuAeJumat dan naik kembali di Sabtu, mengindikasikan keluhan insomnia yang meningkat menjelang hari kerja dan akhir pekan. Lonjakan di akhir pekan dapat mengindikasikan perubahan pola tidur akibat aktivitas sosial yang lebih fleksibel, yang pada sebagian orang memicu gejala insomnia. Gambar 3. Distribusi Tweet Berdasarkan Hari Heatmap (Gambar . menunjukkan aktivitas tertinggi pada Rabu pukul 16. 00 dan aktivitas pagi cukup tinggi pada hari kerja. Akhir pekan menunjukkan distribusi aktivitas yang lebih merata, menguatkan bahwa keluhan insomnia lebih intens pada hari kerja. Gambar 4. Heatmap Aktivitas Tweet (Hari vs Ja. Tabel kontingensi (Gambar . memperlihatkan seluruh tweet pada waktu Larut Malam . berasal dari pengguna insomnia. Uji chi-square menunjukkan hubungan signifikan . < 0,. , dapat disimpulkan bahwa terdapat hubungan yang sangat signifikan antara waktu aktivitas dan kemungkinan seseorang mengalami Gambar 5. Hasil Uji Chi-Square Hubungan Waktu Aktivitas dan Insomnia Copyright A 2025 Author. Page 639 This Journal is licensed under a Creative Commons Attribution 4. 0 International License Journal of Computer System and Informatics (JoSYC) ISSN 2714-8912 . edia onlin. ISSN 2714-7150 . edia ceta. Volume 6. No. August 2025. Page 634-644 https://ejurnal. seminar-id. com/index. php/josyc DOI 10. 47065/josyc. 5 Feature Engineering Feature engineering menggabungkan representasi teks menggunakan TF-IDF . 000 fitu. dan fitur temporal berupa jam, hari, dan bulan tweet diposting. Kedua jenis fitur ini digabungkan menjadi dataset final_features untuk pelatihan model machine learning. Untuk model LSTM, teks diproses dengan tokenisasi dan padding hingga panjang 100 token, disimpan dalam X_lstm dan y_lstm. Pendekatan ini berhasil mengintegrasikan informasi teks dan temporal, sehingga memperkaya data input untuk mendeteksi potensi insomnia melalui media sosial. 6 Evaluasi Model Pelatihan dan pengujian, dua model SVM dan LSTM dievaluasi menggunakan metrik akurasi, precision, recall. F1-score, dan confusion matrix. Model SVM dengan kernel linear mencapai akurasi 92%, menunjukkan performa kuat terutama dalam mengenali kelas insomnia dengan precision 99% dan recall 88%. Confusion matrix mengindikasikan sedikit kesalahan klasifikasi, terutama pada kelas insomnia. Tabel 4. Evaluasi SVM Metrik Precision Recall F1-Score Support Akurasi Kelas Non-Insomnia . Kelas Insomnia . Keseluruhan Tabel 4 menunjukkan bahwa model SVM memiliki precision yang sangat tinggi pada kelas insomnia . , yang berarti sebagian besar prediksi positif benar-benar berasal dari pengguna dengan gejala insomnia. Sementara itu, recall pada kelas insomnia sebesar 0,88 menunjukkan adanya sebagian kecil data insomnia yang tidak terdeteksi. Gambar 6. Confusion Matrix SVM Gambar 6 memperlihatkan distribusi prediksi SVM terhadap data uji. Terlihat bahwa sebagian besar data non-insomnia dan insomnia berhasil diklasifikasikan dengan benar, meskipun terdapat beberapa false negative pada kelas insomnia, yang berarti model masih melewatkan sebagian kecil kasus insomnia. Model LSTM juga menunjukkan performa kompetitif dengan akurasi 91,47% dan loss 0,21. Model ini unggul pada recall kelas non-insomnia . %) dan precision kelas insomnia . %), dengan F1-score seimbang di kedua kelas. Confusion matrix LSTM menunjukkan lebih sedikit kesalahan klasifikasi pada kelas noninsomnia, namun kesalahan sedikit lebih banyak pada kelas insomnia dibanding SVM. Tabel 5. Evaluasi LSTM Metric Precision Recall F1-Score Support Akurasi Loss Kelas Non-Insomnia . Kelas Insomnia . Keseluruhan Ae 91,47% 0,21 Copyright A 2025 Author. Page 640 This Journal is licensed under a Creative Commons Attribution 4. 0 International License Journal of Computer System and Informatics (JoSYC) ISSN 2714-8912 . edia onlin. ISSN 2714-7150 . edia ceta. Volume 6. No. August 2025. Page 634-644 https://ejurnal. seminar-id. com/index. php/josyc DOI 10. 47065/josyc. Tabel 5 menunjukkan bahwa LSTM memiliki precision sempurna . %) pada kelas insomnia, artinya semua prediksi positif yang dibuat model ini benar. Namun, recall pada kelas insomnia sedikit lebih rendah dibandingkan SVM, yaitu 87%, yang berarti masih ada sebagian kecil kasus insomnia yang tidak terdeteksi. Gambar 7. Confusion Matrix LSTM Gambar 7 memperlihatkan distribusi prediksi LSTM terhadap data uji. Model ini tidak melakukan kesalahan pada kelas non-insomnia . ecall 100%), namun masih terdapat beberapa false negative pada kelas Hal ini menunjukkan bahwa meskipun LSTM sangat baik dalam menghindari false positive pada kelas insomnia, sensitivitasnya sedikit lebih rendah dibandingkan SVM. Perbandingan kinerja kedua model mengungkap keunggulan SVM dalam recall kelas insomnia, sedangkan LSTM unggul pada recall kelas non-insomnia dan precision kelas insomnia. Kombinasi keduanya melalui ensemble berpotensi meningkatkan keseimbangan dan akurasi prediksi, mengurangi kesalahan klasifikasi pada kasus insomnia yang sensitif. Tabel 6. Perbandingan Evaluasi Kinerja Model Metrik Akurasi Precision . Recall . F1-score . Precision . Recall . F1-score . SVM LSTM 91,4% Tabel 6 menunjukkan bahwa kedua model memiliki performa yang sangat kompetitif dengan selisih akurasi hanya 0,53%. SVM sedikit lebih unggul pada akurasi dan recall kelas insomnia, sedangkan LSTM lebih unggul pada recall kelas non-insomnia dan precision kelas insomnia. Perbedaan nilai F1-score di kedua kelas juga relatif kecil, menandakan bahwa kedua model mampu menjaga keseimbangan antara precision dan recall. 7 Ensemble Pada tahap ini, dilakukan penggabungan dua model klasifikasi, yaitu SVM dan LSTM, menggunakan metode average probabilistic ensemble. Pendekatan ini mengkombinasikan prediksi probabilitas dari kedua model untuk menentukan kelas berdasarkan rata-rata nilai tersebut. Tujuannya adalah menggabungkan keunggulan SVM dalam mengelola data berdimensi tinggi hasil ekstraksi TF-IDF dengan kemampuan LSTM dalam menangkap pola temporal. Tabel 7. Evaluasi Model Ensemble Kelas Akurasi Macro Avg Weighted Avg Precision Recall F1-Score Support Hasil evaluasi Tabel 7 menunjukkan bahwa model ensemble mencapai akurasi 92% pada data uji. Pada kelas non-insomnia . , model memperoleh precision 82% dan recall 99%, menandakan sebagian besar data negatif teridentifikasi dengan benar. Sedangkan pada kelas insomnia . , precision mencapai 100% dan recall 88% mengindikasikan deteksi data positif yang sangat baik. Copyright A 2025 Author. Page 641 This Journal is licensed under a Creative Commons Attribution 4. 0 International License Journal of Computer System and Informatics (JoSYC) ISSN 2714-8912 . edia onlin. ISSN 2714-7150 . edia ceta. Volume 6. No. August 2025. Page 634-644 https://ejurnal. seminar-id. com/index. php/josyc DOI 10. 47065/josyc. Gambar 8. Confusion Matrix Ensemble Dari gambar 8 tersebut, terlihat bahwa model mampu mengklasifikasikan hampir seluruh data noninsomnia dengan benar, ditandai dengan hanya 7 data yang salah diklasifikasikan. Sementara itu, pada kelas insomnia, sebanyak 1. 577 data berhasil dikenali secara tepat, meskipun masih terdapat 214 data positif yang tidak terdeteksi . alse negativ. Hal ini menunjukkan bahwa meskipun performa model cukup baik, masih terdapat peluang untuk meningkatkan sensitivitas deteksi pada kelas insomnia. Secara keseluruhan, pendekatan ensemble ini memberikan keseimbangan performa yang lebih baik dibandingkan model tunggal, serta meningkatkan keandalan dalam mendeteksi potensi insomnia berdasarkan data teks dan fitur temporal. 8 Hasil Akhir Hasil akhir penelitian menunjukkan bahwa metode ensemble yang menggabungkan model SVM dan LSTM mampu mencapai akurasi 92%, dengan precision yang sangat tinggi pada kelas insomnia . %) dan recall yang juga tinggi . %). Kinerja ini lebih seimbang dibandingkan model tunggal, di mana SVM unggul pada recall kelas insomnia, sedangkan LSTM unggul pada precision kelas insomnia. Pendekatan ensemble mampu memanfaatkan kekuatan masing-masing model sehingga kesalahan klasifikasi, khususnya pada kelas insomnia yang bersifat sensitif, dapat diminimalkan. Beberapa faktor yang memengaruhi perolehan hasil ini antara lain kualitas data hasil preprocessing . ihat Tabel . yang memastikan teks bebas dari noise sehingga representasi fitur lebih akurat, penggabungan fitur teks dengan informasi temporal berupa jam, hari, dan bulan unggahan yang memberikan konteks tambahan bagi model, serta kekuatan metode ensemble dalam meningkatkan stabilitas prediksi, mengurangi overfitting pada data pelatihan, dan meningkatkan generalisasi pada data uji. Jika dibandingkan dengan penelitian sebelumnya, hasil ini konsisten dan bahkan menunjukkan peningkatan. Misalnya, penelitian oleh Sari et al. yang menggunakan data Twitter untuk deteksi insomnia dengan pendekatan SVM murni hanya mencapai akurasi 88%, sedangkan Putra dan Hidayat . yang menggunakan LSTM memperoleh akurasi 89,5%. Peningkatan akurasi pada penelitian ini dapat dikaitkan dengan penambahan fitur temporal yang belum banyak dimanfaatkan pada studi sebelumnya serta penggunaan teknik ensemble yang menggabungkan dua model dengan karakteristik berbeda. Temuan ini menunjukkan bahwa integrasi metode NLP dengan machine learning berbasis ensemble memiliki potensi besar dalam mendeteksi gangguan tidur melalui media sosial, serta menegaskan bahwa data perilaku daring, khususnya pola unggahan di Twitter, dapat menjadi indikator awal yang berguna untuk memantau kesehatan mental masyarakat secara real-time. KESIMPULAN Penelitian ini berhasil mengembangkan model prediksi potensi insomnia berdasarkan aktivitas pengguna media sosial Twitter dengan memanfaatkan teknik Natural Language Processing (NLP) dan machine learning. Data tweet yang mengandung kata kunci terkait insomnia dikumpulkan selama empat bulan dan diproses melalui tahapan preprocessing, pelabelan berdasarkan isi teks dan waktu unggahan, serta analisis temporal untuk mengidentifikasi pola aktivitas yang berkaitan dengan gangguan tidur. Model klasifikasi menggunakan algoritma Support Vector Machine (SVM) dan Long Short-Term Memory (LSTM) mampu mengklasifikasikan tweet dengan performa yang baik, masing-masing mencapai akurasi sekitar 92% dan 91,5%. Model SVM menunjukkan keunggulan pada recall kelas insomnia, sementara model LSTM unggul pada precision kelas Penggabungan kedua model dalam bentuk ensemble memberikan hasil yang lebih seimbang dan akurat, dengan akurasi akhir 92%, serta kemampuan deteksi yang andal untuk potensi insomnia berdasarkan fitur teks dan temporal. Hasil penelitian ini menguatkan bahwa analisis data media sosial, khususnya Twitter, dapat menjadi sumber data alternatif dan efektif untuk mendeteksi gangguan tidur secara real-time. Pendekatan terintegrasi yang menggabungkan analisis konten linguistik dan dimensi waktu memungkinkan identifikasi pola Copyright A 2025 Author. Page 642 This Journal is licensed under a Creative Commons Attribution 4. 0 International License Journal of Computer System and Informatics (JoSYC) ISSN 2714-8912 . edia onlin. ISSN 2714-7150 . edia ceta. Volume 6. No. August 2025. Page 634-644 https://ejurnal. seminar-id. com/index. php/josyc DOI 10. 47065/josyc. perilaku tidur yang mungkin tidak terjangkau oleh metode konvensional. Dengan demikian, model ini berpotensi digunakan sebagai alat pemantauan dini dalam mengatasi permasalahan insomnia di masyarakat, terutama di era digital saat ini. REFERENCES