Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK) Vol. No. April 2026, hlm. p-ISSN: 2355-7699 e-ISSN: 2528-6579 PREDIKSI RESIKO PENGGUNAAN MEDIA SOSIAL TERHADAP KESEHATAN MENTAL MENGGUNAKAN EXPLORATORY DATA ANALYSIS (EDA) DAN CROSS INDUSTRY STANDARD PROCESS FOR DATA MINING (CRISP-DM) Fitri Ayuning Tyas*1. Azhar Basir2. Amira Elistya Ardhin3 1,2,3 Universitas Muhammadiyah Brebes. Kabupaten Brebes Email: 1tyas_fa@umbs. id, 2azhar. bs@umbs. id, 3amiraelis34@gmail. Penulis Korespondensi (Naskah masuk: 24 Maret 2025, diterima untuk diterbitkan: 17 April 2. Abstrak Media sosial telah menjadi bagian penting dalam kehidupan masyarakat, namun peningkatan penggunaannya sering dikaitkan dengan dampak negatif terhadap kesehatan mental seperti stres, adiksi. FoMo, dan insomnia. Upaya prediksi risiko penggunaan media sosial dapat membantu menjaga kesehatan mental dengan memanfaatkan teknik data mining. Penelitian ini menggunakan metodologi CRISP-DM sebagai kerangka utama serta Exploratory Data Analysis (EDA) untuk mengidentifikasi tren dan anomali yang mendukung proses pemodelan. Beberapa algoritma supervised learning seperti C4. 5, k-NN, dan Nayve Bayes diterapkan untuk memprediksi dampak negatif penggunaan media sosial terhadap kesehatan mental. Hasil eksperimen menunjukkan bahwa Nayve Bayes memberikan kinerja terbaik dengan akurasi tertinggi sebesar 92,5%, melampaui C4. 5 dan k-NN. Integrasi EDA dan CRISP-DM terbukti menghasilkan model prediksi yang akurat, meskipun penerapan EDA memerlukan waktu tambahan dalam analisis. CRISP-DM berperan penting dalam menyediakan kerangka kerja yang sistematis sehingga membantu peneliti bekerja lebih terstruktur dan mengurangi risiko kesalahan. Selain itu, temuan memperlihatkan bahwa semakin lama seseorang menggunakan media sosial, semakin besar dampak negatif yang dialami, terutama bagi mereka yang menghabiskan waktu lebih dari lima jam per hari. Secara keseluruhan, hasil penelitian ini memberikan kontribusi terhadap pengembangan model prediksi berbasis data mining dan dapat menjadi landasan bagi upaya pencegahan gangguan kesehatan mental akibat penggunaan media sosial. Kata kunci: CRISP-DM. Exploratory Data Analysis. Media Sosial. Kesehatan Mental PREDICTING THE IMPACT OF SOCIAL MEDIA USE ON MENTAL HEALTH THROUGH THE USE OF EXPLORATORY DATA ANALYSIS (EDA) AND THE CROSS-INDUSTRY STANDARD DATA MINING PROCESS (CRISP-DM) Abstract Social media has become an integral part of modern life, enabling users to express feelings and opinions. However, its increasing use has been linked to negative impacts on mental health, such as stress, addiction. FoMo, and Predicting the risks associated with social media use can help maintain mental well-being, and this can be achieved through data mining techniques. This study applies the CRISP-DM methodology as the main framework, complemented by Exploratory Data Analysis (EDA) to identify trends and anomalies that support the modeling process. Several supervised learning algorithms, including C4. 5, k-NN, and Nayve Bayes, were employed to predict the negative impact of social media use on mental health. Experimental results show that Nayve Bayes achieved the best performance with the highest accuracy of 92. 5%, outperforming both C4. 5 and k-NN. The integration of EDA and CRISP-DM proved effective in producing accurate predictive models, although EDA required additional time for data analysis. CRISP-DM played a crucial role in providing a systematic framework, enabling researchers to work more structurally and minimizing the risk of errors. Furthermore, findings indicate that the longer individuals spend on social media, the greater the negative impact they experience, particularly among those using it for more than five hours per day. Overall, this study contributes to the development of predictive models based on data mining and provides insights that may support preventive efforts against mental health issues caused by excessive social media use. Keywords: CRISP-DM. Exploratory Data Analysis. Social Media. Mental Health Media berkomunikasi dan berbagi informasi. Indonesia mencatatkan 191 juta pengguna aktif media sosial pada Januari 2022 dan mengalami peningkatan PENDAHULUAN Kemajuan teknologi internet telah merubah cara masyarakat berkomunikasi secara signifikan . 488 Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK). Vol. No. April 2026, hlm. signifikan sebesar 12,35% dari tahun sebelumnya . Survei lain mencatat 57% remaja usia 13 tahun memiliki keinginan untuk memeriksa akun media sosial mereka paling tidak enam kali sehari meskipun tidak mengunggah sesuatu, melainkan stalking . Partisipasi aktif . onten kreato. atau pasif . dalam komunitas media sosial merupakan teman sehari-hari bagi hampir setiap Berdasarkan data tersebut disimpulkan bahwa media sosial telah menjadi bagian yang tidak terpisahkan dari masyarakat . Seiring peningkatan penggunaan media sosial, sisi gelapnya dapat muncul yakni media sosial sebagai pemicu stres . bagi pengintai maupun konten kreator. Konten kreator mengunggah konten dengan tujuan utama mencapai jumlah like tertentu dan mendapatkan manfaat dari komentar, tetapi jika target like tidak tercapai dan muncul komentar negatif, hal itu dapat menyebabkan stres . Fenomena lain yang disebabkan media sosial antara lain munculnya informasi yang berlebihan . , perundungan siber . , penyebaran hoax . , perilaku adiktif . , dan Fear of Missing Out (FoMO) . Fenomena-fenomena mempengaruhi kesehatan mental seseorang. Kesehatan mental, fisik, dan sosial adalah untaian kehidupan yang saling terkait . Kesehatan mental yang buruk dapat berdampak fatal seperti menyebabkan perilaku bunuh diri. Bunuh diri merupakan salah satu penyebab utama kematian tidak wajar di seluruh dunia dan merupakan masalah kesehatan masyarakat . Mengidentifikasi perilaku bunuh diri penting dilakukan untuk meningkatkan deteksi di masa mendatang . Dalam dunia kesehatan, teknologi telah menjadi alat yang berguna untuk mengeksplorasi berbagai metode dalam upaya mendeteksi dan mengklasifikasikan jenis penyakit yang mungkin dialami seseorang . Deteksi atau prediksi resiko penggunaan media sosial dapat dilakukan sebagai upaya menjaga kesehatan Permasalahan prediksi dapat diatasi menggunakan teknik data mining. Data mining adalah disiplin ilmu untuk mendapatkan pengetahuan berharga dari data melalui model matematika dan analisis . Data mining muncul sebagai proses yang memungkinkan anomali, pola, dan korelasi ditemukan dalam kumpulan data besar . Beberapa faktor yang dapat mempengaruhi kesehatan mental dapat digunakan sebagai dasar penentuan prediksi resiko penggunaan media sosial terhadap kesehatan Penerapan data mining dapat menemukan korelasi antar faktor tersebut dan menghasilkan pola Penerapan data mining di berbagai bidang kini umum dilakukan karena ketersediaan data dan manfaat yang sudah terbukti. Beberapa metodologi diusulkan untuk memandu proses data mining, salah satunya adalah Cross Industry Standard Process for Data Mining (CRISP-DM) yang telah menjadi "standar de facto untuk mengembangkan proyek data mining" . dan telah diterapkan ke berbagai domain sejak didefinisikan dua puluh tahun lalu . Hingga saat ini CRISP-DM masih menjadi metodologi populer dalam praktik dan penelitian data mining . CRISP-DM terdiri dari enam fase iteratif mulai dari business understanding hingga deployment . Business understanding, data understanding dan data preparation dianggap sebagai keunggulan CRISPDM karena membantu dalam memperoleh lebih banyak pengetahuan tentang tujuan proses bisnis dan ketersediaan data . Metode Exploratory Data Analytic (EDA) dapat mendeteksi kesalahan, menemukan data yang sesuai, memeriksa asumsi dan menentukan korelasi di antara variabel . EDA menjadi langkah awal dalam menganalisis atau memahami data sebelum melakukan pemodelan prediktif lebih lanjut. Sehingga EDA dimungkinkan dapat mendukung fase data understanding dan data preparation pada CRISP-DM. WHO . melaporkan adanya peningkatan masalah kesehatan mental pada masyarakat modern, sehingga penting untuk lebih memahami bagaimana media sosial membentuk jiwa dan bagaimana individu dapat mengatasi pengaruh negatif sebagai suatu resiko. Penelitian ini menekankan pentingnya analisis data sebagai dasar sebelum pemodelan, di mana eksplorasi menyeluruh melalui EDA dapat mengungkap tren, hubungan, maupun anomali yang Dengan mengintegrasikan EDA ke dalam kerangka CRISP-DM, penelitian ini bertujuan merumuskan strategi prediksi risiko penggunaan media sosial terhadap kesehatan mental secara lebih efektif dan akurat. METODE PENELITIAN Penelitian ini mengkaji data penggunaan media sosial dan kesehatan mental untuk mengetahui pola prediksi resiko yang dihasilkan berdasarkan penerapan proses data mining. Metode penelitian yang digunakan dalam penelitian ini adalah metode Eksperimen mengintegrasi EDA dan CRISP-DM. EDA mendukung proses data mining CRISP-DM untuk pengamatan pola dan identifikasi detail-detail penting dalam kumpulan data. Ekplorasi data yang dapat dilakukan oleh EDA secara umum digambarkan pada Gambar 1, sedangkan proses data mining CRISP-DM digambarkan pada Gambar 2. Gambar 1 menunjukan beberapa teknik EDA yang umum dilakukan. Data preprocessing merupakan teknik prapemrosesan data yang meliputi identifikasi dan penanganan outlier, missing value, serta normalisasi atau standarisasi data. Distribution analysis digunakan untuk menganalisis setiap distribusi variabel dalam data. Correlation digunakan untuk mencari tingkat hubungan antara dua variabel. Descriptive analysis dapat menampilkan beberapa informasi penting seperti nilai rata-rata, median, modus, standar deviasi, dan variansi. Hasil dari teknik tersebut dapat divisualisasikan dalam bentuk Tyas, dkk. Prediksi Resiko PenggunaanA 489 histogram, grafik, heatmaps, dan lain sebagainya pada fase data visualization. Data visualization merupakan komponen penting EDA karena menawarkan representasi grafis yang membantu dalam membedakan pola, mengidentifikasi outlier, dan memahami distribusi data. Fase Evaluation Deployment Deskripsi pembuatan data uji, dan model serta menerapkan parameter tertentu sesuai dengan masalah bisnis dan data. Fase menilai atau mengevaluasi model berdasarkan kriteria evaluasi dan penggunaan hasil data mining. Fase ini mencakup perencanaan penggunaan model yang dituangkan dalam panduan atau laporan akhir. Gambar 1. Exploratory Data Analysis Gambar 2. CRISP-DM . Gambar 2 menjelaskan tahapan proses data mining CRISP-DM yang memiliki enam fase iteratif yakni business understanding, data understanding, data preparation, modeling, evaluation, dan deployment . Fase-fase tersebut memiliki tugas dan hubungannya masing-masing. Deskripsi masingmasing fase . dirangkum pada Tabel 1. Sedangkan tahapan eksperimen integrasi EDA dan CRISP-DM pada penelitian ini digambarkan pada Gambar 3. Tabel 1. Deskripsi Fase CRISP-DM Fase Deskripsi Business Fase kebutuhan proyek dari sisi bisnis, kemudian mengonversi pengetahuan menjadi definisi masalah data mining . , keberhasilan . inerja algoritm. , serta menyusun rencana awal untuk mencapai tujuan yang ditetapkan. Data Fase mengumpulkan, mengeksplorasi, mendeskripsikan, dan memeriksa pengetahuan awal terhadap data atau mendeteksi subset menarik untuk membentuk hipotesis dari informasi yang tersembunyi. Data Fase mempersiapkan data yang mencakup semua aktivitas untuk membangun kumpulan data akhir . ata yang akan dimasukkan ke dalam alat pemodela. Modeling Fase pemodelan data terdiri dari pemilihan teknik data mining. Gambar 3. Tahapan Eksperimen Integrasi EDA dan CRISP-DM Gambar 3 menggambarkan tahapan eksperimen integrasi EDA dan CRISP-DM dalam memprediksi resiko penggunaan media sosial terhadap kesehatan Tahap data understanding dan data preparation pada fase CRISP-DM digantikan dengan teknik EDA yang meliputi pramerosesan data, analisis distribusi, analisis korelasi, dan visualisasi Teknik EDA tersebut mengeksplorasi data secara lebih spesifik. EDA juga akan menghasilkan dataset berlabel yang disebut sebagai dataset kesehatan mental baru . ew datase. Pelabelan bertujuan untuk menentukan cluster atau kelompok dalam data. Dalam penelitian ini, algoritma k-means digunakan untuk mengelompokkan data, sementara metode elbow digunakan untuk menentukan jumlah cluster optimal. Menurut penelitian . , k-means adalah salah satu metode yang dapat digunakan untuk mengidentifikasi kategori dalam data dengan 490 Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK). Vol. No. April 2026, hlm. mengelompokkan n observasi ke dalam k cluster. Setiap observasi akan dimasukkan ke dalam cluster dengan rata-rata terdekat yang berfungsi sebagai prototipe cluster. Untuk menjelaskan serta memverifikasi konsistensi hasil pengelompokan, dapat diterapkan metode elbow, yang bertujuan membantu menentukan jumlah cluster optimal dalam Metode elbow menentukan jumlah cluster optimal dengan cara memperhatikan persentase hasil perbandingan antara jumlah cluster yang akan membentuk sudut pada titik tertentu . Pada tahap modeling data latih . dan data uji . akan dimodelkan menggunakan algortima prediksi yakni C4. 5, k-NN, dan Nayve Bayes. Ketiga algoritma tersebut dipilih karena memiliki beberapa kelebiban. C4. 5 memiliki keunggulan mudah diinterpretasikan karena memiliki struktur yang sederhana . Model yang dihasilkan oleh C4. 5 berupa pohon keputusan . ecision tre. Terkadang pohon keputusan tersebut memiliki ukuran besar dikarenakan ada cabang pohon yang tidak penting atau sering disebut dengan istilah overfitting . Masalah overfitting dapat di atasi dengan teknik pruning untuk memotong atau menghilangkan beberapa cabang yang tidak k-NN memiliki konsep yang sederhana dan mudah untuk diterapkan, di mana algoritma ini beroperasi dengan membandingkan kesamaan antara satu data dengan data lainnya . Dalam k-NN, pemilihan nilai k menjadi faktor krusial karena ditentukan secara subjektif, dan disarankan agar nilai k dipilih dalam bilangan ganjil . Sedangkan Nayve Bayes merupakan salah satu metode statistika yang berguna untuk proses penentuan probabilitas keanggotaan suatu kelas atau label . Tingkat akurasi terbaik antara ketiga algoritma tersebut dapat ditentukan dengan melakukan perbandingan. Perbandingan algoritma bertujuan untuk mendapatkan kinerja algoritma terbaik yang diukur dari nilai tingkat akurasi, precision, recall dan F1measure. Nilai-nilai menggunakan metode validasi 10-fold crossvalidation pada tahap evaluation. Metode validasi 10fold cross-validation bekerja dengan cara mempartisi himpunan dataset menjadi 10 fold yang saling bebas: f1 , f2 . , f10 , sehingga masing-masing fold berisi 1/10 bagian dataset. Selanjutnya 10 himpunan dataset: D1 . D2 . D10 masing-masing berisi 9 fold sebagai data latih dan 1 fold sebagai data uji, setiap fold akan menjadi data uji sebanyak satu kali. Tahap deployment merupakan tahap terakhir dari eksperimen integrasi EDA dan CRISP-DM. Pada tahap ini perencanaan penggunaan hasil eksperimen dapat dituangkan dalam laporan analisis dan hasil prediksi resiko penggunaan media sosial terhadap kesehatan mental. Tahap deployment juga bertujuan dikembangkan pada penelitian selanjutnya. Seluruh ekspertimen tahap integrasi EDA dan CRISP-DM pada penelitian ini dilakukan menggunakan bahasa pemrograman Python dengan Google Colab sebagai IDE. HASIL DAN PEMBAHASAN Eksperimen yang dilakukan pada penelitian ini terdiri atas integrasi EDA dan CRISP-DM untuk memprediksi resiko penggunaan media sosial terhadap kesehatan mental. Hasil eksperimen EDA berupa data baru yang siap dimodelkan melalui tahap berikutnya yakni eksperimen CRISP-DM. Business Understanding Analisis masalah dan tinjauan pustaka dilakukan untuk memahami tujuan bisnis dalam penelitian ini yakni mengidentifikasi masalah dalam memprediksi resiko penggunaan media sosial terhadap kesehatan mental. Pada tahap business understanding, diperoleh wawasan mengenai berbagai faktor yang memengaruhi kesehatan mental pengguna media sosial seperti usia, jenis kelamin, durasi penggunaan media sosial, jenis platform media sosial yang digunakan dan sebagainya. Dampak negatif yang mungkin muncul antara lain kesulitan berkonsentrasi, perasaan tertekan atau sedih, gangguan tidur, serta perilaku adiktif seperti kecemasan saat tidak menggunakan media sosial, mencari validasi di platform tersebut, dan perbandingan diri dengan orang lain yang dianggap Wawasan tersebut dapat dijadikan dasar untuk memprediksi resiko dampak penggunaan media sosial terhadap kesehatan mental. Wawasan tambahan yang diperoleh pada tahap ini adalah penerapan data mining dapat mengungkap hubungan antara faktor-faktor yang memengaruhi kesehatan mental pengguna media sosial dan menghasilkan pola prediksi resiko dampak negatif. Pola prediksi tersebut dikategorikan kedalam resiko rendah, sedang dan tinggi. Berdasarkan pola prediksi tersebut, dapat ditarik kesimpulan mengenai faktorfaktor paling dominan dalam risiko tinggi, yang kemudian dapat digunakan sebagai dasar dalam pengambilan keputusan. Penelitian . mengembangkan sistem pendukung kesehatan mental mahasiswa berbasis kecerdasan buatan yang dirancang untuk memberikan layanan personal sekaligus memprediksi potensi krisis psikologis. Hasilnya menunjukkan efektivitas sistem ini dalam mendukung kesehatan mental serta deteksi dini risiko krisis pada mahasiswa. Penelitian . memanfaatkan Streamlit untuk membangun smart web yang mendukung implementasi sistem prediksi kesehatan mental berbasis machine learning, sehingga hasil analisis dapat ditampilkan secara realtime dengan tampilan interaktif dan mudah digunakan oleh pendidik maupun tenaga kesehatan Penelitian . mengembangkan teknik prediksi kesehatan mental dengan memanfaatkan model BERT yang dilatih menggunakan data teks berlabel dari aplikasi Lyf Support, sehingga mampu Tyas, dkk. Prediksi Resiko PenggunaanA 491 mengidentifikasi percakapan terkait kesehatan mental secara akurat. Pendekatan ini terbukti efektif dalam mendeteksi indikasi gangguan psikologis melalui analisis teks. Ketiga penelitian tersebut sama-sama memanfaatkan kecerdasan buatan dan machine learning untuk mendukung prediksi serta deteksi dini kesehatan mental melalui analisis data teks, perilaku, maupun psikologis. Meskipun berhasil menunjukkan efektivitas sistem prediksi dengan tingkat akurasi yang tinggi, penelitian-penelitian tersebut belum secara spesifik mengungkap faktor-faktor dominan yang berperan sebagai risiko utama dalam masalah kesehatan mental. Gambar 4. Distribusi Pengguna Media Sosial Berdasarkan Usia dan Jenis Kelamin Exploratory Data Analysis (EDA) Dataset yang digunakan dalam penelitian ini adalah data social media mental health yang bersumber dari https://w. com/datasets. Dataset tersebut merupakan data kesehatan mental pengguna media sosial dengan 483 record dan 20 Deskripsi attribut tersebut dirangkum pada Tabel 2. Tabel 2. Social Media Mental Health Dataset Attribut Deskripsi Age Usia Jenis kelamin Status hubungan Jenis pekerjaan affiliate_organization Organisasi afiliasi social_media_use Media sosial yang digunakan Platforms Platform media sosial avg_time_per_day Rata-rata waktu per hari without_purpose Tanpa tujuan Distracted Gangguan perhatian Restless Gelisah distracted_ease Mudah terganggu Worries Gangguan kecemesan Gangguan konsentrasi compare_to_others Perbandingan social compare_feelings Perbandingan perasaan Validation Butuh validasi Depresi daily_activity_flux Perubahan aktivitas harian sleeping_issues Gangguan tidur Distribution Analysis dan Data Visualization Teknik EDA yang diterapkan pada penelitian ini meliputi distribution analysis . nalisis distribus. dan data visualization . isualisasi dat. Analisis distribusi dilakukan untuk mengetahui persebaran data atau distribusi variable dalam dataset sehingga dapat membantu dalam pemilihan model prediksi. Hasil analisis distribusi disajikan dalam bentuk visualisasi data pada Gambar 4 s. Gambar 15. Gambar 4 menunjukkan distribusi pengguna media sosial berdasarkan usia dan jenis kelamin. Mayoritas pengguna berusia 20-30 tahun dengan puncak di usia 22-25 tahun dan pengguna male . lebih dominan. Secara keseluruhan, mayoritas pengguna berasal dari kelompok usia muda. Gambar 5. Distribusi Usia Pengguna Media Sosial Berdasarkan Jenis Kelamin dan Proporsi Penggunaan Media Sosial Gambar 5 menampilkan visualisasi data terkait persentase individu yang menggunakan atau tidak menggunakan media sosial. 99,4% individu dalam dataset menggunakan media sosial dengan rentang usia antara 15-40 tahun, dan 0,6% tidak menggunakan media sosial. Secara keseluruhan, visualisasi ini menunjukkan bahwa hampir semua individu dalam dataset menggunakan media sosial, dengan mayoritas pengguna berusia muda male . maupun female . Berdasarkan Gambar 4 dan Gambar 5 terlihat kecenderungan dominasi kelompok usia muda, khususnya 20Ae30 tahun, menunjukkan bahwa media sosial telah menjadi ruang interaksi utama pada fase kehidupan di mana individu sedang aktif membangun jejaring sosial, identitas diri, dan peluang karier. Dominasi pengguna pria juga dapat mengindikasikan adanya perbedaan pola akses maupun preferensi penggunaan media sosial antar gender, yang berpotensi memengaruhi jenis konten yang dikonsumsi maupun dampak psikologis yang Temuan mengisyaratkan bahwa analisis lebih lanjut mengenai perilaku, kebutuhan, dan kerentanan kelompok usia muda perlu dilakukan secara spesifik, mengingat mereka merupakan segmen dengan intensitas penggunaan tertinggi sekaligus paling rentan terhadap dampak negatif media sosial. Gambar 6 menampilkan visualisasi data terkait status pengguna media sosial. Berdasarkan diagram pie mayoritas individu berstatus single . mencakup 59,3%, married . mencakup 21,0%. In a relationship . edang dalam hubunga. mencakup 18,3%, dan divorced . adalah kelompok terkecil, hanya 1,5% dari total populasi. 492 Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK). Vol. No. April 2026, hlm. Hal ini menunjukkan bahwa sebagian besar individu dalam dataset adalah lajang. ,4%) memiliki lebih sedikit pengguna. TikTok . ,7%) adalah yang paling sedikit digunakan dalam dataset ini, meskipun meskipun dalam tren global platform ini sedang berkembang pesat. Secara keseluruhan platform berbagi konten visual seperti YouTube. Facebook, dan Instagram adalah platform dominan, sementara platform berbasis komunitas atau diskusi seperti Discord. Reddit, dan Twitter memiliki memiliki jumlah pengguna yang terbatas. Gambar 6. Distribusi Pengguna Media Sosial Berdasarkan Status Hubungan Sementara berdasarkan scatter plot mayoritas individu dalam kategori lajang dan sedang dalam hubungan berusia antara 20-35 tahun. Kategori menikah cenderung memiliki usia lebih tua, dengan rentang usia 30-50 tahun. Kategori bercerai memiliki jumlah yang sangat sedikit dan cenderung berusia lebih tua. Secara keseluruhan, visualisasi ini menunjukkan bahwa sebagian besar individu dalam dataset masih lajang, dan terdapat hubungan antara usia serta status hubungan, di mana individu yang lebih tua cenderung sudah menikah atau bercerai. Gambar 8. Distribusi Pengguna Platform Media Sosial Gambar 9. Distribusi Durasi Waktu Penggunaan Media Sosial Gambar 7. Distribusi Pengguna Sosial Media Berdasarkan Occupation Gambar 7 menunjukkan distribusi occupation . pengguna media sosial. Mayoritas adalah university student . ,7%), diikuti salaried worker . ekerja bergaj. ,4%), school student . elajar sekola. ,2%), dan retired . ,7%). Scatter plot menunjukkan mahasiswa dan pelajar sekolah berusia 10-25 tahun, pekerja bergaji 25-50 tahun, dan pensiunan 60-70 Tidak ada perbedaan signifikan antara pria dan wanita dalam tiap kategori pekerjaan. Secara keseluruhan, sebagian besar individu masih dalam dunia pendidikan, dan usia sangat berpengaruh terhadap jenis pekerjaan. Gambar 8 menunjukkan penggunaan platform media sosial. YouTube . ,2%) dan Facebook . ,1%) memiliki jumlah pengguna tertinggi, diikuti Instagram . ,1%). Discord . ,4%) dan Snapchat . ,9%) berada di tingkat menengah, sementara Pinterest . ,3%). Twitter . ,4%), dan Reddit Gambar 9 menunjukkan pola penggunaan waktu media sosial berdasarkan usia dan jenis kelamin. Kategori more than 5 hours . ebih dari 5 ja. memiliki jumlah tertinggi, sedangkan less than an hour . urang dari 1 ja. memiliki jumlah terendah. Tren menunjukkan semakin lama waktu penggunaan, semakin banyak individu dalam kategori tersebut. Scatter plot menunjukkan bahwa individu muda cenderung menghabiskan lebih banyak waktu di media sosial. Gambar 10. Hubungan Penggunaan Platform Media Sosial & Dampak Negatif Berdasarkan Usia Tyas, dkk. Prediksi Resiko PenggunaanA 493 Gambar 10 adalah heatmap yang menunjukkan hubungan antara usia, jumlah platform yang digunakan, dan dampak negatif penggunaan Warna terang menandakan dampak lebih tinggi, sedangkan warna gelap lebih rendah. Usia 1330 tahun lebih sering mengalami dampak seperti distracted . angguan perhatia. , restless . , compare_to_others . erbandingan sosia. , dan validation . utuh validas. , sedangkan usia 40 cenderung lebih rendah, kecuali untuk depresi dan sleeping_issues . angguan tidu. Dampak seperti daily_activity_flux . luktuasi/ perubahan aktivitas haria. dan concentration . angguan konsentras. bervariasi di semua usia. platform media sosial cenderung meningkatkan dampak negatif, meskipun tidak secara drastis. Terdapat variasi individu, di mana beberapa pengguna dengan sedikit platform mengalami dampak tinggi, dan sebaliknya. Kemiringan garis regresi yang landai menunjukkan bahwa faktor lain seperti jenis platform dan pola penggunaan juga Secara keseluruhan, meskipun jumlah platform yang lebih tinggi dikaitkan dengan lebih banyak dampak negatif, efeknya tidak mutlak dan dipengaruhi oleh kebiasaan penggunaan individu. Gambar 13. Hubungan Antara Usia dengan Jumlah Dampak Terhadap Kesehatan Mental Gambar 11. Hubungan Antara Waktu Pengunaan Media Sosial dengan Dampak Negatif Terhadap Kesehatan Mental Gambar 11 adalah heatmap yang menunjukkan hubungan antara durasi penggunaan media sosial dan dampak negatif terhadap kesehatan mental. Warna terang menandakan dampak lebih tinggi, sedangkan warna gelap lebih rendah. Penggunaan <1 jam per hari dikaitkan dengan dampak negatif minimal, sementara durasi lebih lama meningkatkan risiko gangguan perhatian, perbandingan sosial, dan Penggunaan 3-5 jam per hari menunjukkan dampak tertinggi, meskipun tidak selalu meningkat. Mengurangi waktu penggunaan dapat membantu mengurangi kecemasan, gangguan tidur, dan fluktuasi aktivitas harian. Gambar 13 menunjukkan hubungan antara usia dan jumlah dampak negatif dari media sosial. Garis regresi yang menurun menunjukkan bahwa semakin tua seseorang, semakin sedikit dampak negatif yang Mayoritas sampel berusia 18-30 tahun, dengan dampak negatif lebih tinggi dan beberapa individu mengalami dampak signifikan. Di usia muda, variasi dampak lebih besar, sedangkan di usia tua lebih stabil dan rendah. Hal ini mungkin disebabkan oleh keterlibatan yang lebih rendah atau kemampuan lebih baik dalam mengelola dampak media sosial. Remaja dan dewasa muda lebih rentan terhadap dampak negatif media sosial karena masih berada pada fase pencarian identitas dan sangat sensitif terhadap penerimaan sosial. Tingginya intensitas penggunaan membuat mereka lebih mudah terpapar perbandingan sosial, kecemasan, serta gangguan tidur. Selain itu, kemampuan regulasi emosi yang belum matang memperkuat kerentanan ini, berbeda dengan kelompok usia lebih tua yang cenderung memiliki kontrol diri lebih baik dan tingkat keterlibatan lebih rendah. Gambar 12. Hubungan Antara Jumlah Platform Media Sosial dengan Jumlah Dampak Negatif Gambar 12 adalah scatter plot yang menunjukkan bahwa penggunaan lebih banyak Gambar 14. Hubungan Antara Rata-Rata Waktu dengan Jumlah 494 Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK). Vol. No. April 2026, hlm. Dampak Negatif Penggunaan Media Sosial Terhadap Kesehatan Mental Gambar 14 menunjukkan bahwa semakin lama waktu penggunaan media sosial, semakin tinggi jumlah dampak negatif yang dialami. Tren ini berlaku untuk semua gender tanpa perbedaan signifikan. Pengguna yang menghabiskan lebih dari 5 jam per hari mengalami dampak negatif tertinggi, mengindikasikan bahwa durasi penggunaan berperan dalam meningkatkan resiko efek negatif. Gambar 16 menunjukkan hasil metode elbow. Metode elbow digunakan untuk menentukan jumlah cluster optimal dalam algoritma k-means, dengan cara melihat perubahan nilai Within Cluster Sum of Squares (WCSS) terhadap jumlah cluster . WCSS sendiri mengukur seberapa rapat data dalam satu cluster, yaitu dengan menjumlahkan kuadrat jarak setiap titik ke pusat cluster-nya. Semakin kecil nilai WCSS, semakin homogen atau kompak sebuah Grafik menunjukkan penurunan tajam WCSS dari k=1 hingga k=2, lalu menurun lebih landai Penentuan jumlah cluster optimal berdasarkan elbow point, yakni titik siku . di mana WCSS tidak lagi berkurang secara signifikan. Dari grafik ini, titik elbow berada di k=3 karena setelah k=4 penurunan WCSS melambat, hal ini menunjukkan bahwa menambah cluster lebih banyak tidak memberikan keuntungan signifikan. Hasil pengelompokkan menggunakan algoritma k-means dan metode elbow digambarkan pada Gambar 17. Gambar 15. Distribusi Jumlah Dampak Negatif Penggunaan Media Sosial Terhadap Kesehatan Mental Gambar 15 menunjukkan distribusi jumlah dampak negatif dari penggunaan media sosial. Distribusi cenderung normal dengan sedikit kemiringan ke kanan. Mayoritas individu mengalami dampak negatif dalam kisaran 30-45, sementara jumlah individu dengan dampak sangat rendah (<. atau sangat tinggi (>. lebih sedikit. Pola ini menunjukkan bahwa dampak negatif media sosial bervariasi, tetapi sebagian besar individu berada di tengah rentang distribusi. Pelabelan Dataset Setelah menerapkan distribution analysis dan data visualization, tahap berikutnya adalah melakukan pelabelan pada dataset. Gambar 16 menunjukkan hasil penentuan jumlah cluster optimal menggunakan metode elbow. Gambar 17. Hasil Pengelompokkan Gambar pengelompokkan responden menggunakan metode kmeans. Data responden dalam dataset dibagi ke dalam 3 kelompok utama, sesuai dengan hasil analisis metode elbow yang sebelumnya menunjukkan bahwa k=3 adalah jumlah cluster yang optimal. Berdasarkan hasil terbesebut peneliti akan mengelompokkan dataset ke dalam 3 cluster, yakni cluster dampak negatif rendah, sedang, dan tinggi. Hasil pelabelan terdiri dari cluster 0 . ampak negatif renda. dengan 172 data, cluster 1 . ampak negatif sedan. dengan 106 data, dan cluster 2 . ampak negatif tingg. dengan 203 data. Modeling Gambar 16. Hasil Penerapan Metode Elbow Hasil eksperimen EDA berupa dataset baru selanjutnya siap dimodelkan pada tahap modeling. Pada tahap ini pemodelan terdiri dari pemilihan algoritma data mining serta menerapkan parameter tertentu sesuai dengan masalah yang telah ditentukan pada tahap business understanding yakni menemukan pola prediksi resiko penggunaan media sosial terhadap kesehatan mental. Eksperimen penerapan algoritma C4. dilakukan dengan dua parameter, yaitu dengan Tyas, dkk. Prediksi Resiko PenggunaanA 495 pruning dan tanpa pruning. Pada algoritma k-NN, digunakan parameter dengan nilai k=3 dan k=5. Sementara itu, algoritma Nayve Bayes hanya menggunakan parameter standar yang dimiliki oleh algoritma tersebut. Pada setiap eksperimen penerapan algoritma tersebut pembagian data dilakukan menggunakan metode 10-fold cross-validation. Evaluation Pada tahap evaluation dilakukan evaluasi terhadap hasil penilaian perbandingan kinerja algoritma C4. 5, k-NN, dan Nayve Bayes yang telah dilakukan pada tahap modelling. Ukuran evaluasi yang digunakan adalah nilai akurasi, precision, recall, dan F1-Score. Hasil perbandingan kinerja algoritma tersebut dirangkum pada Tabel 3. Tabel 3. Perbandingan Hasil Kinerja Algoritma Algoritma C4. C4. o prunin. k-NN . k-NN . Naive Bayes Akurasi Precision Recall F1Score Tabel x merupakan hasil evaluasi kinerja algoritma berdasarkan perbandingan metrik evaluasi. Akurasi: Nayve Bayes memiliki nilai akurasi tertinggi . ,52%), menunjukkan bahwa mengklasifikasikan data dengan benar secara k-NN dengan k=5 berada di posisi kedua . ,90%), diikuti oleh k-NN dengan k=3 . ,43%) dan C4. 5 tanpa pruning . ,03%). C4. 5 dengan pruning memiliki akurasi terendah . ,19%), menunjukkan bahwa proses pruning mengurangi keakuratan model. Precision: Nayve Bayes memiliki precision tertinggi . ,08%), menandakan bahwa ketika algoritma ini mengklasifikasikan suatu data ke dalam kategori positif, kemungkinan besar hasilnya benar. k-NN dengan k=5 berada di posisi kedua . ,50%), sedikit lebih baik dibandingkan k-NN dengan k=3 . ,87%). C4. tanpa pruning mencapai precision 90,54%, sementara C4. 5 dengan pruning memiliki precision paling rendah . ,86%), menandakan tingkat kesalahan yang lebih tinggi dalam klasifikasi positif. Recall: Nayve Bayes memiliki recall tertinggi . ,52%), menunjukkan bahwa algoritma ini paling baik dalam mendeteksi semua kasus positif yang sebenarnya. k-NN dengan k=5 memiliki recall sedikit lebih rendah . ,90%), diikuti oleh k-NN dengan k=3 . ,43%) dan C4. 5 tanpa pruning . ,03%). C4. 5 dengan pruning memiliki recall terendah . ,19%), yang berarti lebih banyak kasus positif yang terlewat dibandingkan metode lain. F1-score: Nayve Bayes juga memiliki F1-score tertinggi . ,47%), menandakan keseimbangan optimal antara precision dan recall. k-NN dengan k=5 memiliki F1-score 91,92%, lebih tinggi dari kk-NN dengan k=3 . ,45%) dan C4. 5 tanpa pruning . ,98%). C4. 5 dengan pruning memiliki F1-score terendah . ,06%), menegaskan bahwa metode ini kurang optimal dalam menjaga keseimbangan antara precision dan recall. Nayve Bayes menunjukkan kinerja terbaik pada seluruh metrik evaluasi, menjadikannya algoritma paling optimal untuk dataset ini. Keunggulannya terletak pada kemampuan mengolah data dengan fitur yang relatif independen, sehingga perhitungan probabilitas menjadi sederhana, stabil, serta efisien secara komputasi. Selain itu. Nayve Bayes lebih tahan terhadap variasi maupun noise dibandingkan algoritma lain. Temuan ini sejalan dengan hasil penelitian . yang membandingkan algoritma Nayve Bayes dan SVM dalam mendeteksi tingkat stres mahasiswa melalui chatbot berbasis AI. Hasilnya menunjukkan bahwa Nayve Bayes lebih unggul dengan akurasi 90%, sedikit lebih tinggi dibanding SVM yang mencapai 89%. Keunggulan ini disebabkan oleh kemampuan Nayve Bayes mengolah fitur-fitur membutuhkan parameter tuning yang kompleks seperti SVM, sehingga model menjadi lebih stabil, efisien, dan praktis untuk diterapkan dalam sistem real-time seperti chatbot deteksi stres. Sebagai pembanding, k-NN dengan k=5 menempati posisi kedua dengan performa yang cukup dekat, namun sensitivitas terhadap pemilihan parameter k membuat hasilnya kurang stabil. Menurut penelitian . kinerja k-NN sangat bergantung pada pemilihan nilai k. Jika k terlalu kecil, model menjadi sensitif terhadap outlier atau noise, sedangkan jika k terlalu besar, model cenderung lebih tahan terhadap keberadaan outlier. Sementara itu. C4. 5 menunjukkan performa lebih rendah, terutama setelah proses pruning yang justru menurunkan akurasi model. Penelitian . menyebutkan bahwa pruning pada algoritma C4. dilakukan untuk mengurangi risiko overfitting, yaitu kondisi ketika model terlalu menyesuaikan diri dengan data latih sehingga kinerjanya menurun pada data baru. Dalam tahap pembentukan pohon keputusan. C4. 5 menganggap bahwa data latih bersifat reliabel atau cukup mewakili kondisi sebenarnya, sehingga pola yang muncul dari data tersebut dipercaya sebagai dasar pemilihan variabel. Namun, saat proses pruning dilakukan, asumsi ini berubah karena sebagian cabang pohon justru dipangkas dengan anggapan bahwa data mengandung ketidakpastian atau noise. Perbedaan perlakuan ini dapat menimbulkan masalah, terutama ketika dataset memang mengandung banyak noise, sehingga 496 Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK). Vol. No. April 2026, hlm. pruning yang berlebihan justru menurunkan akurasi model alih-alih memperbaikinya. Deployment Model yang telah diuji dan divalidasi dapat diterapkan dalam sistem cerdas atau aplikasi prediksi resiko penggunaan media sosial terhadap kesehatan mental sebagai penelitian lanjutan. Model prediksi kesehatan mental dapat diterapkan dalam aplikasi personalisasi kepada pengguna. Selain itu hasil penerapan EDA berupa laporan analisis distribusi dan visualisasi data dapat digunakan sebagai wawasan terkait hubungan antara penggunaan media sosial dengan dampak negatif terhadap kesehatan mental. KESIMPULAN DAN SARAN Berdasarkan hasil penelitian yang telah dilakukan, didapatkan beberapa kesimpulan pada saat melakukan prediksi resiko penggunaan media sosial Exploratory Data Analysis (EDA) dan Cross Industry Standard Process for Data Mining (CRISP-DM). Integrasi EDA dan CRISP-DM dapat memberikan pendekatan yang tepat dalam menghasilkan model prediksi meskipun proses EDA memerlukan waktu tambahan yang tidak sedikit untuk melakukan analisis data secara detail dan menyeluruh. Keunggulan penerapan EDA adalah memastikan semua aspek penting dalam data diperhatikan tanpa Hasil penerapan EDA terkait resiko penggunaan media sosial terhadap kesehatan mental menunjukkan semakin lama penggunaan media sosial, semakin besar dampak negatif yang dialami, terutama bagi mereka yang menggunakannya lebih dari 5 jam per hari. Mayoritas individu mengalami dampak negatif dalam tingkat sedang, sementara kasus dengan dampak sangat rendah atau sangat tinggi lebih jarang. Usia 13-30 tahun lebih rentan perbandingan sosial, dan kebutuhan validasi, sedangkan usia 40 lebih sering mengalami depresi dan gangguan tidur. Beberapa dampak seperti fluktuasi aktivitas harian dan gangguan konsentrasi muncul di berbagai usia tanpa pola yang konsisten. Secara umum dapat disimpulkan bahwa durasi penggunaan media sosial menjadi faktor yang paling dominan dalam resiko tinggi. Temuan ini dapat terganggunya kesehatan mental karena penggunaan media sosial. Selain keunggulan EDA di atas, tahap EDA sangat krusial dalam menentukan keberhasilan tahap Modeling berfokus pada pembangunan model prediksi yang membutuhkan persiapan dan analisis data yang matang. Dalam penelitian ini EDA mampu menghasilkan dataset baru dengan label yang akan dimasukkan ke dalam pemodelan. Dataset berlabel merupakan ciri dataset yang dapat diolah menggunakan algoritma supervised learning seperti C4. 5, k-NN, dan Nayve Bayes. Ketiga algoritma tersebut diterapkan untuk memprediksi dataset dampak negatif penggunaan media sosial terhadap kesehatan mental. Hasil menunjukkan bahwa Nayve Bayes memiliki kinerja yang lebih unggul dibandingkan dengan algoritma C4. 5 dan k-NN. Pada penelitian selanjutnya dapat dilakukan uji statistik seperti uji friedman dan nemenyi untuk mengetahui lebih lanjut tingkat signifikansi perbedaan dari ketiga algoritma tersebut. Dalam penelitian ini CRISP-DM mendukung penerapan EDA dengan membuat kerangka kerja yang jelas, mulai dari business understanding hingga Dengan tahapan yang terstruktur, membantu peneliti untuk bekerja secara sistematis dan mengurangi risiko kesalahan. CRISP-DM juga bersifat iteratif, sehingga memungkinkan untuk terus melakukan perbaikan pada model dan strategi berdasarkan dataset terbaru. DAFTAR PUSTAKA