Jurnal TRANSFORMATIKA Vol. No. Januari 2026, pp. 164 - 173 P-ISSN: 1693-3656. E-ISSN: 2460-6731 https://journals. id/index. php/transformatika/ npage 164 Analisa Performa Metode LightGBM untuk Prediksi Kecanduan Media Sosial Roudhotul Jannah1,Rastri Prathivi2* 11Fakultas Teknologi Informasi dan Komunikasi. Universitas Semarang Jl. Soekarno Hatta. Semarang, telp:024-6702757, e-mail: jannahr786@gmail. 2*1Fakultas Teknologi Informasi dan Komunikasi. Universitas Semarang Jl. Soekarno Hatta. Semarang, telp:024-6702757, e-mail: vivi@usm. ARTICLE INFO ABSTRACT History of the article : Received 18 November 2025 Received in revised form 2 Desember 2025 Accepted 13 Januari 2026 Available online 31 Januari 2026 Social media has now become an integral part of daily activities, driven by the increasingly rapid development of digital technology. Excessive social media use can trigger negative impacts such as psychological disorders, sleep deprivation, and social conflict. This study assesses the effectiveness of the Light Gradient Boosting Machine (LightGBM) in predicting social media addiction using data from 705 respondents from Kaggle. The analysis stages included data cleaning, categorical variable transformation, and feature selection based on Pearson correlation. The model was trained with a 70:30 ratio and evaluated using accuracy, precision, recall, and f1-score. The results showed 98% accuracy, thus LightGBM is considered highly effective as a social media addiction prediction Keywords: LightGBM. kecanduan media sosial, pembelajaran mesin, prediksi, pemilihan fitur. * Correspondece: Telepon: E-mail: vivi@usm. INTRODUCTION Media sosial diera 5. 0 memiliki hubungan yang sangat erat dengan manusia, mulai dari kalangan anak-anak hingga orang dewasa . Kecenderungan kecanduan media sosial adalah fenomena yang sering terjadi pada saat ini seiring dengan meningkatnya penggunaan internet serta canggihnya kemajuan teknologi . Karena banyaknya hal Ae hal dan topik yang dapat diposting secara bebas di media sosial, maka media sosial menjadi sarana prertengkaran dan pemantik berbagai konflik sosial, bagi antar individu atau antar golongan . Penggunaan media sosial yang berlebihan serta tidak bijak atau disebut kecanduan media social, dapat menimbulkan berbagai dampak negatif bagi penggunanya, seperti masalah dalam hubungan sosial, kecenderungan konsumtif, kebiasaan menunda-nunda, penurunan prestasi akademik, manajemen waktu yang tidak efektif, lemahnya kontrol diri, serta munculnya prasangka negatif . Dengan kemajuan teknologi saat ini, metode Machine Learning dapat digunakan untuk menganalisis dan memprediksi kecanduan media social . Analisa Performa Metode LightGBM untuk Prediksi Kecanduan Media Sosial (Roudhotul Janna. Penelitian ini menggunakan dataset publik yang diperoleh dari platform Kaggle dengan judul Students Social Media Addiction Dataset, yang berisi data hasil survei terhadap pelajar dan mahasiswa dari beberapa negara Asia Selatan. Pemilihan dataset luar negeri ini bukan karena ketidakmungkinan melakukan penelitian primer, melainkan karena fokus utama penelitian terletak pada penerapan dan evaluasi metode LightGBM dalam memprediksi tingkat kecanduan media Terdapat empat mpat fitur dengan hubungan yang kuat terhadap tingkat kecanduan media sosial, yaitu penggunaan media sosial yang tidak dapat di kontrol pada kalangan remaja dapat mempengaruhi kesehatan mental . Durasi penggunaan Pengguna dapat melupakan satu hal yaitu waktu atau durasi yang mereka gunakan untuk mengakses media sosial . Skor kesehatan mental berdampak juga kepada berbagai aspek kehidupan manusia . Jam tidur berperan sebagai indikator gaya hidup yang terpengaruh oleh aktivitas daring . Penelitian ini menerapkan metode Light Gradient Boosting Machine (LightGBM), sebuah algoritma gradient boosting yang dikembangkan oleh Microsoft dan memiliki berbagai keunggulan dibandingkan metode ensemble lainnya. LightGBM dikenal mampu melakukan pelatihan model dengan sangat cepat berkat penggunaan teknik Histogram-based Decision Tree Learning serta strategi pertumbuhan leaf-wise with depth limitation. Selain memiliki akurasi tinggi, metode ini hemat memori, mampu mengolah dataset berukuran besar, dan dapat memproses fitur kategori secara langsung tanpa one-hot encoding. Berdasarkan uraian di atas, dapat dirumuskan permasalahannya yaitu bagaimana memprediksi tingkat kecanduan media sosial menggunakan algoritma LightGBM berdasarkan perilaku penggunaan, kondisi kesehatan mental, jam tidur, dan konflik sosial yang dialami pengguna. RESEARCH METHODS Metodologi penelitian yang digunakan adalah sebagai berikut: Identikasi Masalah Pendekatan machine learning seperti LightGBM dimanfaatkan untuk mengolah data secara menyeluruh, mengenali pola tersembunyi, dan menghasilkan prediksi yang lebih objektif serta mendukung proses pengambilan keputusan berbasis informasi yang terukur . Pengumpulan Dataset Dataset yang digunakan dalam penelitian ini diambil dari situs w. yang memuat data survei terkait perilaku penggunaan media sosial. Data tersebut mencakup 705 responden dengan variabel seperti ratarata durasi penggunaan harian, jam tidur, skor kesehatan mental, konflik yang ditimbulkan oleh media sosial, serta beberapa fitur kategorikal lainnya. Import Library Tahap awal penelitian ini adalah mengimpor pustaka . yang digunakan untuk pengolahan data, pembangunan model, dan evaluasi performa. Library yang digunakan adalah numpy, matplotlib. pyplot, seaborn, matplotlib. pyplot, labelEncoder, lightgnm, serta classification_report,confusion_matrix . Load Dataset Mengacu pada proses mengimpor data dari sumber eksternal ke dalam lingkungan Python agar dapat dianalisis, dimanipulasi, atau digunakan untuk tugas pembelajaran mesin. Ini merupakan langkah mendasar dalam setiap proyek yang berkaitan dengan data . Dataset yang digunakan berasal dari platform Kaggle dengan total 705 responden. Data dimuat menggunakan pustaka pandas dengan fungsi pd. read_csv() untuk membaca file CSV. Preprocessing Praprocesing data adalah proses mengubah data mentah menjadi format yang bersih dan terstruktur sebelum menerapkan machine learning . Pre-processing data meliputi cleaning, yaitu menganti data atau menghilangkan data noise ataupun missing value, proses normalisasi untuk memodifikasi nilai dalam variabel sehingga kita dapat mengukurnya dalam skala umum atau rentang tertentu. Pada penelitian ini menggunakan MinMax Normalization lalu proses DOI : 10. 26623/transformatika. TRANSFORMATIKA. Vol. No. Januari 2026, pp. 164 - 173 transformasi, mengubah data asli ke bentuk data tujuan agar mudah di . Praprocessing dilakukan dengan memuar data "kecanduan media. csv" menggunakan pustaka pandas. Pengecekan dan Penanganan Missing Values Pengecekan nilai kosong pada setiap kolom dilakukan menggunakan fungsi isnull(). sum() untuk mengetahui apakah terdapat data yang hilang. Data yang memiliki nilai kosong dihapus menggunakan fungsi dropna(). Langkah ini memastikan hanya data lengkap yang digunakan dalam pelatihan model. Prmisahan Fitur dan Label Pemilihan fitur pada penelitian ini dilakukan menggunakan metode korelasi Pearson, dengan mempertimbangkan fitur-fitur yang memiliki nilai korelasi absolut terhadap variabel target lebih besar dari 0. Labelling Tabel & Seleksi Fitur Dalam tahap pra-pemrosesan data, langkah pertama yang dilakukan adalah membentuk variabel target (Addicted_Labe. melalui proses pelabelan data. Penentuan label mengacu pada skor kecanduan (Addicted_Scor. , di mana responden dengan skor Ou 6 digolongkan sebagai kecanduan . , sedangkan responden dengan skor < 6 dimasukkan ke dalam kategori tidak kecanduan . Ambang batas skor 6 dipilih berdasarkan hasil analisis distribusi, yang menunjukkan bahwa nilai tersebut merupakan titik yang tepat untuk memisahkan kelompok pengguna dengan perilaku penggunaan normal dan kelompok yang sudah menampilkan indikasi Eksplanatory Data Analysis (EDA) EDA adalah suatu pendekatan untuk melihat apa yang dapat disampaikan oleh data kepada kita. itu membantu menganalisis kumpulan data dan menguraikan karakteristik statistiknya . EDA akan dilakukan untuk memahami hubungan antara variabel. Ini mencakup pembuatan plot scatter untuk memvisualisasikan hubungan antara variabel, dan mungkin juga mencakup perhitungan korelasi untuk mengukur kekuatan dan arah hubungan antara variabel . Pembagian Dataset Dataset dibagi menjadi 70% data latih dan 30% data uji menggunakan fungsi train test split dari Scikit-Learn. Pembagian ini dilakukan untuk memastikan model dapat belajar dari sebagian data, lalu diuji pada data yang belum pernah dilihat sebelumnya. Parameter random_state=42 digunakan untuk memastikan hasil yang konsisten dan dapat direproduksi. Rasio ini dipilih karena dianggap seimbang antara kebutuhan model untuk belajar pola dari data dan kebutuhan evaluasi model dengan data yang belum pernah dilihat sebelumnya. Penerapan Model LightGBM Tahap ini merupakan proses pelatihan model klasifikasi menggunakan algoritma Light Gradient Boosting Machine (LightGBM), salah satu metode ensemble learning yang berbasis Gradient Boosting Decision Tree (GBDT). Prinsip kerjanya adalah membangun model secara bertahap, di mana setiap pohon keputusan baru dirancang untuk memperbaiki kesalahan prediksi dari pohon-pohon sebelumnya. Pendekatan ini membuat LightGBM mampu menghasilkan prediksi yang akurat dengan waktu komputasi yang efisien. Implementasi dilakukan menggunakan pustaka LightGBM di Python melalui kelas LGBMClassifier. Evaluasi Model Label dari model klasifikasi Light Gradient Boosting Machine (LightGBM) ditentukan sebagai berikut, (Kecandua. adalah responden yang menggunakan media sosial secara berlebihan, ditandai dengan durasi penggunaan harian tinggi, kualitas tidur rendah, skor kesehatan mental rendah, dan konflik sosial yang tinggi. Analisa Performa Metode LightGBM untuk Prediksi Kecanduan Media Sosial (Roudhotul Janna. (Tidak Kecandua. adalah responden yang menggunakan media sosial dalam batas wajar, memiliki kualitas tidur cukup, kesehatan mental baik, dan jarang mengalami konflik sosial akibat media sosial. Setiap prediksi dikategorikan menjadi empat komponen seperti pada gambar di bawah ini : Gambar 2. Evaluasi Model Confusion Ma True Positive (TP) adalah Model memprediksi "Kecanduan" dan benar. True Negative (TN) adalah Model memprediksi "Tidak Kecanduan" dan benar. False Positive (FP) adalah Model memprediksi "Kecanduan" tetapi sebenarnya "Tidak Kecanduan". False Negative (FN) adalah Model memprediksi "Tidak Kecanduan" tetapi sebenarnya "Kecanduan". Equation Akurasi (Accurac. Akurasi mengukur seberapa besar persentase prediksi model yang benar, baik pada kelas kecanduan maupun tidak kecanduan: ycNycE ycNycA yaycaycaycycycaycayc = ycNycE ycNycA yaycE yaycA Hasil pengujian menunjukkan akurasi sebesar 0. 98%, yang menandakan bahwa LightGBM mampu memprediksi status kecanduan media sosial dengan tingkat kesalahan yang sangat rendah. Precision (Presis. Presisi mengukur ketepatan model dalam memprediksi kelas positif ("Kecanduan") dari seluruh data yang diprediksi sebagai positif: ycyceycaycnycycnycuycu = ycNycE ycNycE yaycE Presisi yang tinggi menunjukkan bahwa model jarang salah mengklasifikasikan responden yang tidak kecanduan sebagai kecanduan. Recall (Sensitivita. Recall mengukur kemampuan model untuk mendeteksi semua data yang benar-benar positif ("Kecanduan"): ycNycE ycIyceycaycaycoyco = ycNycE yaycA Nilai recall yang tinggi berarti model mampu mendeteksi hampir semua responden yang benarbenar kecanduan. F1-Score F1-Score adalah rata-rata harmonik dari precision dan recall: ycEycyceycaycnycycnycuycu . ycIyceycaycaycoyco ya1 = ycEycyceycaycnycycnycuycu ycIyceycaycaycoyco DOI : 10. 26623/transformatika. TRANSFORMATIKA. Vol. No. Januari 2026, pp. 164 - 173 Nilai F1-Score yang tinggi pada kedua kelas menunjukkan bahwa model tidak hanya akurat, tetapi juga seimbang antara ketepatan prediksi dan kemampuan mendeteksi semua kasus kecanduan. Metodologi penelitian yang digunakan dalam diagram alir adalah sebagai berikut: Gambar 1. Alur Penelitian RESULT AND DISCUSSION Import Library Penelitian ini dijalankan sepenuhnya di Google Colab, platform berbasis cloud dengan memanfaatkan pustaka pandas. Proses visualisasi dilakukan dengan matplotlib. pyplot dan seaborn guna menghasilkan grafik dan heatmap yang mempermudah analisis keterkaitan antar Load Dataset Data yang digunakan berjumlah 705 data responden dengan 8 kolom numerik, statistik data numerik dapat dilihat pada tabel 1 berikut : Tabel 1. Data Primer Rata-rata Durasi Platform Jam Tidur Per Malam Pengaruh Skor Konflik jam tidur Kesehatan Media Mental Sosial Skor Kecanduan Usia Instagram Yes Twitter Analisa Performa Metode LightGBM untuk Prediksi Kecanduan Media Sosial (Roudhotul Janna. TikTok Yes YouTube Facebook Yes Pengolahan Dataset (Prepocessin. Pengolahan data set (Preprocessin. meliputi penanganan dan pengecekan missing values Hasil pengecekan menunjukkan bahwa terdapat beberapa kolom numerik yang memiliki nilai kosong, yaitu: 1. Rata-rata Jam Penggunaan Harian 3 nilai kosong 2. Jam Tidur per Malam 2 nilai kosong 3. Skor Kesehatan Mental 1 nilai kosong Untuk mengatasi menghapus baris yang memiliki nilai kosong . ropna()), penelitian ini menggunakan metode imputasi median untuk mengisi kekosongan data. Pemisahan Fitur dan Label Penelitian ini menggunakan empat variabel utama terhadap 705 responden. DIbagi menjadi 2 jenis label yaitu tidak kecanduan . dan kecanduan . Pelabelan Target dan Seleksi Fitur Labeling dan target seleksi fitur ditampilkan pada Tabel 2 Tabel 2 Label Target Kategori Tidak Kecanduan . Kecanduan . Jumlah Responden Heatmap korelasi dalam bentuk tabel ditampilkan sebagai berikut Tabel 3. Seleksi Fitur Fitur Nilai Korelasi Konflik Media Sosial Rata-rata Jam Penggunaan Harian Jam Tidur Malam Skor Mental Per Kesehatan Hasil seleksi fitur menunjukkan bahwa empat variabel memiliki korelasi signifikan dengan kecanduan media sosial. Konflik Media Sosial dan Rata-rata Jam Penggunaan Harian memiliki korelasi positif, menandakan semakin tinggi nilainya, semakin besar risiko kecanduan. Sementara itu. Jam Tidur Per Malam dan Skor Kesehatan Mental berkorelasi negatif, artinya semakin rendah nilainya, semakin tinggi kecenderungan kecanduan. Keempat fitur ini dipilih karena korelasinya cukup kuat terhadap label kecanduan. Terlihat pada table 3. DOI : 10. 26623/transformatika. TRANSFORMATIKA. Vol. No. Januari 2026, pp. 164 - 173 Eksploratori Data Analisis Dari analisis statistik deskriptif, diperoleh bahwa dataset terdiri dari 705 responden. Usia rata-rata responden adalah 21 tahun, dengan rentang antara 18 hingga 24 tahun. Durasi penggunaan media sosial per hari rata-rata sebesar 5 jam, dengan penggunaan terendah 2 jam dan tertinggi 8 jam. Sementara itu, jam tidur rata-rata adalah 7 jam per malam, dengan kisaran 4 hingga 10 jam. Skor kesehatan mental memiliki rata-rata 6, dengan nilai terendah 4 dan tertinggi 9, sedangkan konflik akibat media sosial berada pada rata-rata 3, dengan maksimum 5. Skor kecanduan media sosial menunjukkan rata-rata 6, dengan nilai minimum 2 dan maksimum 9. Variabel target (Addicted_Labe. memperlihatkan bahwa mayoritas responden masuk kategori kecanduan . Temuan ini memberikan gambaran awal bahwa tingginya intensitas penggunaan media sosial di kalangan responden berpotensi memengaruhi jam tidur, kondisi kesehatan mental, dan tingkat konflik sosial, sehingga mendukung relevansi variabelvariabel tersebut dalam pemodelan prediksi kecanduan. Terlihat pada tabel 4. Tabel 4. Tabel Fitur Rata-rata Durasi penggunaan Pengaruh jam tidur per Konflik Media Sosial Skor Kesehatan Mental Pembagian Dataset Hasil dari proses split data menunjukkan pembagian dataset menjadi 70% data latih dan 30% data uji. Pembagian ini memastikan evaluasi dilakukan pada data yang belum pernah digunakan saat pelatihan, sehingga hasilnya lebih objektif. Penerapan Model LightGBM Berdasarkan confusion matrix yang dihasilkan, model LightGBM menunjukkan performa klasifikasi yang sangat baik dalam membedakan antara responden yang kecanduan dan yang tidak kecanduan media sosial. Dalam hal ini, label Actual: 0 mewakili responden yang tidak mengalami kecanduan, sedangkan Actual: 1 menunjukkan responden yang mengalami Dari total 212 data uji, sebanyak 142 responden yang kecanduan berhasil diklasifikasikan dengan benar, dan 67 responden yang tidak kecanduan juga diprediksi secara Analisa Performa Metode LightGBM untuk Prediksi Kecanduan Media Sosial (Roudhotul Janna. Evaluasi Model dan Hasil Hasil Akurasi Berdasarkan confusion matrix, dari total 67 data pada kelas 0 (Tidak Kecandua. , sebanyak 66 data berhasil diprediksi dengan benar dan hanya 1 data yang keliru. Sementara itu, pada kelas 1 (Kecandua. , model memprediksi benar 142 data dari total 145 data, dengan 3 data mengalami kesalahan klasifikasi. Laporan klasifikasi . lassification repor. memperlihatkan bahwa untuk kelas 0, nilai precision mencapai 0,96, recall sebesar 0,99, dan f1-score sebesar 0,97. Pada kelas 1, diperoleh precision sebesar 0,99, recall sebesar 0,98, dan f1-score sebesar 0,99. Nilai yang tinggi pada semua metrik ini menunjukkan bahwa model memiliki kinerja yang seimbang dan konsisten pada kedua kelas. Hasil Data Training dan Data Testing Tabel 5. Data Training dan Testing Dataset Akurasi Data Latih Data Uji Tingginya capaian ini memperlihatkan bahwa model mampu mempelajari pola keterkaitan antara fitur-fitur, seperti usia, rata-rata durasi penggunaan media sosial harian, jam tidur per malam, skor kesehatan mental, serta konflik akibat media sosial, dengan kategori kecanduan secara efektif. Hasil akurasi terlihat pada tabel 5. Analisis Feature Importance Tabel 6. Fitur yang Penting Fitur Hasil Jam Tidur Per Malam Rata-rata Durasi Penggunaan Harian Konflik Akibat Media Sosial Skor Kesehatan Mental Berdasarkan hasil analisis feature importance pada table 6, dari model LightGBM, variabel Jam Tidur per Malam memiliki pengaruh paling besar terhadap prediksi kecanduan media sosial, dengan tingkat kepentingan tertinggi dibandingkan variabel lainnya KESIMPULAN DAN SARAN Berdasarkan hasil penelitian, model Light Gradient Boosting Machine (LightGBM) mampu memprediksi tingkat kecanduan media sosial dengan tingkat akurasi sangat tinggi, yaitu 0. Pada kategori Tidak Kecanduan, model memperoleh precision sebesar 0,92, recall sebesar 0. dan skor F1 sebesar 0,96, sedangkan pada kategori Kecanduan, model mencapai precision sempurna sebesar 1,00, recall sebesar 0,97, dan skor F1 sebesar 0,99. Nilai rata-rata makro untuk precision, recall, dan skor F1 masing-masing adalah 0,96, 0,99, dan 0,97, dengan rata-rata tertimbang yang konsisten sebesar 0,98 untuk ketiga metrik tersebut. Hasil ini menunjukkan bahwa DOI : 10. 26623/transformatika. TRANSFORMATIKA. Vol. No. Januari 2026, pp. 164 - 173 model dapat mengenali kedua kategori dengan tingkat kesalahan yang sangat rendah. Saran yang dapat diajukan untuk penelitian selanjutnya adalah penelitian selanjutnya dapat mempertimbangkan penggunaan algoritma pembelajaran mesin lain seperti XGBoost . CatBoost, atau Random Forest, untuk dibandingkan dengan metode dalam penelitian ini. Dapat digunakan dataset yang lebih bervariasi, dapat ditambahkan fitur lain, serta dapat dibangun sistem web atau mobile dengan sistem prediksi yang telah dibangun. REFERENCES