Institut Riset dan Publikasi Indonesia (IRPI) MALCOM: Indonesian Journal of Machine Learning and Computer Science Journal Homepage: https://journal. id/index. php/malcom Vol. 5 Iss. 3 July 2025, pp: 875-885 ISSN(P): 2797-2313 | ISSN(E): 2775-8575 Analysis of Factors that Influence Video Engagement on the TikTok Platform Using the Multiple Linear Regression Algorithm Analisis Faktor-Faktor yang Mempengaruhi Engagement Video di Platform TikTok Menggunakan Multiple Linear Regression Nur Sapina1*. Annisa Nanda2. Muhammad Amirul Arifin3. Rahmaddeni4. Lusiana Efrizoni5 1,2,3,4,5 Program Studi Teknik Informatika. Universitas Sains dan Teknologi Indonesia. Indonesia E-Mail: 12310031802147@sar. id, 22417052802081@usti. id, 32417052802086@usti. rahmaddeni@usti. id, 5lusiana@stmik-amik-riau. Received Feb 27th 2025. Revised Apr 21th 2025. Accepted May 26th 2025. Available Online Jun 24th 2025. Published Jun 24th 2025 Corresponding Author: Nur Sapina Copyright A 2025 by Authors. Published by Institut Riset dan Publikasi Indonesia (IRPI) Abstract TikTok has grown into one of the most widely recognized digital engagement platforms worldwide, with over one billion active users. However, some videos on TikTok achieve high engagement rates despite using similar content approaches. This research is intended to explore the elements that influence video engagement on TikTok by applying the Multiple Linear Regression algorithm. The variables analyzed include video duration, number of views, comments, likes, shares, and downloads. After data preprocessing, feature selection, and regression assumption testing, it was found that video_like_count, video_share_count, and video_download_count have the most significant influence on view count. The model evaluation results proved that the regression model showed excellent predictive performance, with an RA Squared value of 0. RMSE of 0. 0742, and MSE of 0. This research provides practical insights for content creators and content marketers in designing more optimized content production. This prediction model can also be utilized to estimate the engagement potential of a video before it is published. Keywords: Content Prediction. Engagement. Multiple Linear Regression. Social Media. TikTok Abstrak TikTok telah berkembang menjadi salah satu platform interaksi digital terkenal secara luas di seluruh dunia, yang memiliki lebih dari satu miliar orang pengguna aktif. Namun, sebagian video di TikTok memperoleh tingkat engagement yang tinggi meskipun menggunakan pendekatan konten yang serupa. Riset ini dimaksudkan untuk menelusuri unsur-unsur yang memberikan pengaruh terhadap engagement video di TikTok dengan menerapkan algoritma Regresi Linear Berganda. Variabel yang dianalisis meliputi durasi video, jumlah tayangan, komentar, like, share, dan download. Setelah melalui tahap preprocessing data, seleksi fitur, dan pengujian asumsi regresi, ditemukan bahwa video_like_count, video_share_count, dan video_download_count memiliki pengaruh paling signifikan terhadap jumlah tayangan. Hasil evaluasi model membuktikan bahwa model regresi menujukkan kinerja prediktif yang sangat baik, dengan nilai RA Squared sebesar 0,978. RMSE sebesar 0,0742, dan MSE sebesar 0,0055. Riset ini memberikan gambaran praktis kepada konten kreator dan konten marketing dalam merancang produksi konten yang lebih optimal. Model prediksi ini juga dapat dimanfaatkan untuk memperkirakan potensi engagement suatu video sebelum dipublikasikan. Kata Kunci: Engagement. Media Sosial. Prediksi Konten. Regresi Linear Berganda. TikTok PENDAHULUAN TikTok adalah satu diantaranya layanan jejaring sosial yang berfokus pada video pendek dan tengah mengalami pertumbuhan signifikan secara global, termasuk di Indonesia. Berdasarkan data Januari 2023, jumlah pengguna TikTok secara global mencapai sekitar 1,05 miliar, dengan Amerika Serikat sebagai negara dengan jumlah pengguna terbanyak, yaitu 113,25 juta, diikuti oleh Indonesia dengan 109,90 juta pengguna . TikTok memberikan kesempatan bagi user menciptakan rekaman visual pendek menggunakan efek inovatif serta berbagai efek visual yang atraktif dengan demikian menggundang ketertarikan penonton . Hal ini DOI: https://doi. org/10. 57152/malcom. MALCOM-05. : 875-885 membuat TikTok menjadi platform yang menarik bagi individu, merek, serta pemasar digital dalam menjangkau audiens secara luas. Satu diantara aspek penting yang berperan besar dalam kesuksesan konten di TikTok adalah engagement, yang mencerminkan tingkat interaksi audiens terhadap sebuah video. Engagement media sosial adalah menentukan total keterlibatan yang dipunyai user melalui video yang diunggah di media sosial. Setiap suka, bagikan, komentar, retwit atau sebutan adalah bentuk keterlibatan yang menunjukkan bahwa pengguna tertarik dengan konten tersebut. Memiliki engagement media sosial yang lebih baik berarti pelanggan memiliki hubungan yang lebih kuat dengan merek . Tingginya engagement menandakan bahwa sebuah video berhasil menarik perhatian dan membangun koneksi dengan audiens. Dalam konteks pemasaran digital, engagement yang tinggi dapat meningkatkan eksposur merek, memperkuat hubungan dengan pelanggan, serta mendorong konversi bisnis Namun, tidak semua video di TikTok mendapatkan tingkat engagement yang sama, meskipun menggunakan pendekatan atau tema yang serupa. Berbagai faktor, seperti waktu pengunggahan, panjang video, kualitas konten, dan interaksi dengan audiens, dapat mempengaruhi seberapa banyak perhatian yang diterima oleh sebuah video. maka dari itu, esensial untuk meneliti aspek-aspek yang berdampak pada engagement video di TikTok untuk memahami dinamika dan karakteristik yang dapat meningkatkan kesuksesan suatu video di platform ini. Dalam riset yang dilaksanakan oleh Rosita dan Darlin . , mengindikasikan jika meningkatkan engagement seperti durasi video, penggunaan hashtag, waktu unggah, dan interaksi dengan audiens sangat memengaruhi tingkat engagement di TikTok. Video yang lebih singkat cenderung menarik perhatian lebih baik, sementara hashtag yang relevan meningkatkan jangkauan . Kondisi ini selaras dengan temuan dalam riset oleh Adam Cahya Dwi Permana et al. , yang mendapati jika konten video dan siaran langsung di TikTok menujukkan dampak yang menguntungkan pada pilihan konsumen utnuk membeli, berdasarkan niali t-statistik konten video mencapai 6,920 dan signifikansi 0,000, menunjukkan pengaruh yang sangat signifikan terhadap keputusan pembelian . Selain itu, dalam riset yang dilaksakanan oleh Khatimah et al. ditemukan jika keterlibatan media sosial memberikan dampak positif dan berdampak besar pada loyalitas pelanggan pada e-commerce TikTok Shop. Interaksi aktif di platform sosial, seperti komentar dan berbagi konten, memungkinkan pelanggan membangun hubungan emosional yang kuat dengan merek. Penelitian menunjukkan bahwa konten kreatif dan promosi menarik mendorong partisipasi aktif pengguna, yang pada gilirannya meningkatkan kemungkinan pembelian ulang . Selain itu, temuan dari Odytri Caesar Mahayani et al. turut mendukung pentingnya pendapatan dalam social media. Meskipun fokus penelitian ini adalah pada platform Instagram, prinsip customer engagement yang digunakan tetap relevan untuk platform media sosial lainnya, termasuk TikTok. Dalam studi tersebut, ditemukan bahwa tiga dari empat variabel engagement yakni self-brand connection, company attitude, dan word of mouthAimemiliki pengaruh signifikan terhadap kepercayaan pelanggan terhadap merek Shopee. Variabel company attitude terbukti menjadi yang paling dominan dalam membangun kepercayaan. Penelitian ini menggunakan metode regresi linear berganda, yang juga relevan untuk mengkaji hubungan antara berbagai faktor dalam engagement video TikTok . Dengan demikian, berdasarkan sejumlah penelitian terdahulu, dapat disimpulkan bahwa berbagai faktor seperti durasi video, waktu unggah, penggunaan hashtag, hingga elemen interaksi aktif . omentar, like, shar. berperan penting dalam memengaruhi engagement video di TikTok. Penelitian ini bertujuan untuk menentukan dan menganalisis berbagai faktor yang mempengaruhi tingkat engagement pada video di platform TikTok. Adapun variabel-variabel yang dianalisis mencakup durasi video, penggunaan hashtag, interaksi dengan pengikut, serta waktu pengunggahan. Penelitian ini juga mengaplikasikan metode Regresi Linear Berganda untuk membangun model prediktif yang mampu memperkirakan tingkat engagement berdasarkan variabel-variabel tersebut. Dengan pendekatan ini, penelitian diharapkan dapat memberikan kontribusi metodologis dalam bentuk model analitik berbasis data, serta kontribusi praktis melalui studi kasus TikTok, sebagai panduan strategis bagi pembuat konten dan pemasar dalam mengoptimalkan performa konten mereka di media sosial. Guna membuat perkiraan sudah pasti perlu sebuah algoritma, satu dia antaranya algoritma untuk membuat perkiraan ini dengan menerapkan Multiple Regresi Linear. Multiple Regresi Linear adalah suatu prosedur sistematis yang diterapkan guna mengidentifikasi pola korelasi antara faktor dependen dengan lebih dari satu faktor independen . Dalam penerapannya. Multiple Regresi Linear sering diterapkan pada bermacam-macam ranah, antara lainnya ekonomi, teknik, dan kajian sosial, untuk memprediksi nilai berdasarkan faktor-faktor yang mempengaruhinya. Multiple Regresi Linear sangat sesuai digunakan dalam konteks penelitian ini, mengingat adanya berbagai faktor yang diduga bersama-sama memengaruhi tingkat Selain itu, sebagian besar variabel dalam penelitian ini bersifat kuantitatif dan kontinu, seperti jumlah hashtag, durasi video, dan volume interaksi, yang secara metodologis cocok untuk dianalisis dengan regresi linear. Model ini juga bersifat interpretatif dan prediktif, sehingga mampu memberikan gambaran yang jelas mengenai kontribusi masing-masing variabel terhadap hasil engagement. Hasil akhir dari riset yang sedang dilakukan mengemukakan insight yang lebih dalam terhadap aspekaspek yang mempengaruhi engagement video di TikTok, seperti kualitas konten, jumlah pengikut, waktu Analisis Faktor-Faktor yang Mempengaruhi Engagement. (Sapina et al, 2. ISSN(P): 2797-2313 | ISSN(E): 2775-8575 posting, pemilihan lagu, dan ajakan untuk bertindak. Selain itu, penelitian ini juga menawarkan panduan bagi pembuat konten dan pemasar untuk memanfaatkan variabel-variabel yang terbukti signifikan dalam meningkatkan engagement, sehingga mereka dapat merancang strategi yang lebih efektif dalam menarik perhatian audiens. Selanjutnya, riset ini menciptakan kerangka peramalan berbasis pendekatan linier yaitu sesuatu yang dapat diterapkan untuk mengestimasi potensi engagement suatu video berdasarkan faktor-faktor yang ada. Maka dari itu, riset yang sedang dilakukan diusahakan mampu menyajikan yang berarti di dalam perencanaan pembuatan konten di TikTok, baik untuk individu maupun bisnis yang ingin meningkatkan interaksi dengan audiens mereka. METODOLOGI PENELITIAN Riset ini diterapkan guna merancang pendekatan perkiraan engagement video di platform TikTok dengan menggunakan metode Multiple Regresi Linear Terdapat metode penelitian yang diawali dengan: Pengumpulan Data. Preprocessing. Spliting Data. Algoritma. Model. Tahapan Penelitian dapat dilihat pada Gambar 1. Gambar 1. Tahapan Penelitian Gambar 1 Menjabarkan langkah-langkah riset yang mencakup beberapa tahapan yaitu: Pengumpulan Data Informasi utama untuk riset ini berasal dari set data public seputar engagement video pada platform TikTok yang disediakan oleh kaggle. kumpulan data ini meliputi 19. 000 data dengan 9 aspek yang menggambarkan berbagai faktor yang memengaruhi engagement video tiktok . MALCOM - Vol. 5 Iss. 3 July 2025, pp: 875-885 MALCOM-05. : 875-885 Analisis Persebaran Data Analisis Persebaran Data merupakan tahap awal yang krusial dalam penelitian kuantitatif, di mana peneliti secara sistematis mengeksplorasi karakteristik distribusi setiap variabel dalam dataset. Melalui penggunaan statistik deskriptif . eperti mean, median, standar devias. dan teknik visualisasi . eperti histogram dan box plo. , analisis ini bertujuan untuk mengidentifikasi pola sentralitas, variabilitas, bentuk distribusi, serta keberadaan nilai-nilai ekstrem . Preprocessing Preprocessing data adalah teknik yang digunakan untuk mempersiapkan data demi kemudahan dalam pengolahan atau pemanfaatan. Sasaran tahap prapemrosesan adalah meningkatkan kualitas informasi, meliputi keseluruhan, kestabilan, dan keakuratan waktu, sehingga dapat menghasilkan analisis yang lebih akurat. Proses ini mencakup berbagai langkah, seperti pembersihan data untuk menghilangkan nilai yang hilang atau tidak valid . Pembersihan Data Pembersihan merupakan tahapan dalam mempersiapkan data dengan cara menghilanfkan atau melengkapi nilai yang hilang dalam Kumpulan data. Satu di antaranya teknik yang sering diterapkan ialah menggantikan nilai yang kosong dengan rata-rata dari tiap kolom yang bersangkutan . Penanganan Outlier Outlier merupakan data yang menyimpang secara mencolok dari pola umum dan dapat memengaruhi hasil analisis secara menyeluruh. Outlier dapat disebabkan oleh kesalahan dalam pengukuran atau oleh adanya perbedaan ekstrem dalam populasi data. Untuk menangani outlier tersebut, pendekatan statistik seperti metode interkuartil atau z-score dapat digunakan untuk mengidentifikasi serta menghilangkan atau menyesuaikan data yanng menyimpang . Data Transformation Transformasi data merupakan proses penyesuaian informasi agar memperoleh kualitas yang lebih Proses ini mencakup berbagai teknik, seperti menghilangkan noise dari data . , mengagregasi data, melakukan generalisasi, normalisasi, serta membentuk atribut atau fitur baru . Normalization Data Normalization Data data adalah salah satu langkah dalam tahap pra-pemrosesan data. Proses ini dilakukan dengan menskalakan kembali nilai-nilai data agar lebih seragam, sehingga dapat meningkatkan efisiensi dan akurasi dalam pemrosesan serta analisis data . Penanganan multikolinearitas Multikolinearitas merupakan kondisi ketika variabel bebas saling berkorelasi dan tidak sepenuhnya independen satu sama lain. Indikator yang digunakan untuk mengenali gejala ini adalah Variance Inflation Factor (VIF). VIF berfungsi sebagai ukuran yang digunakan dalam mendeteksi multikolinearitas pada model regresi linier yang melibatkan lebih dari dua variabel independen . Pengujian Asumsi Regresi Sebelum membangun model regresi linear berganda, asumsi-asumsi klasik perlu diuji pada data yang telah di-preprocess untuk memastikan keandalan model. Linearitas Linearitas merupakan sebuah bentuk pengujian yang memiliki tujuan untuk mengetahui apakah hubungan regresi bersifat linear atau tidak. Pengujian linieritas diterapkan guna mengamati apakah terdapat ketertarikan yang bersifat linier antara variable independent dan variable dependen . Independensi Error (Autokorelas. Independensi Error atau autokorelasi diterapkan guna menilai jika dalam konteks model regresi linier ada keterkaitan dalam kesalahan sisa. Bila keterkaitan itu ada, maka kondisi tersebut disebut sebagai masalah Autokorelasi. Masalah ini timbul Karena observasi yang terjadi secara berkelanjutan seiring waktu . Heteroskedastisitas Uji Heteroskedastisitas dimaksudkan untuk menilai apabila pada model regeresi terdapat ketidakkonsistenan varians pada error atau satu observasi dengan observasi lainnya. Bila varians dan Analisis Faktor-Faktor yang Mempengaruhi Engagement. (Sapina et al, 2. ISSN(P): 2797-2313 | ISSN(E): 2775-8575 residu bersifat tetap antara pengamatan, maka kondisi ini disebut Homoskedastisitas. Sebaliknya, jika varians tersebut berbeda, maka dinamakan Heteroskedastisitas . Normalitas Residual Uji normalitas dilakukan untuk menilai apabila pada model regresi, galat atau residu mengikuti distribusi normal. Salah satu metode statistik non parameterik yang dapat digunakan untuk memeriksa kenormalan residual adalah uji statistik non-parametrik Kolmogorov-Smirnov (K-S) . Spliting Data Pemisahan data atau pemecahan data merupakan proses signifikan dalam riset yang sedang dilakukan. tahapan ini memisahkan data ke dalam 2 kelompok, yakni data pelatihan serta data pengujian guna menjamin bahwa model yang dikembangkan mampu bekerja secara optimal pada informasi yang belum pernah diamati Data pelatihan dimanfaatkan untuk mengajarkan model supaya mampu mengidentifikasi pola dalam informasi tersebut dan memahami hubungan antara variabel independen dan dependen . Data uji membantu dalam menentukan seberapa baik model dapat memprediksi dengan benar . Pada riset ini, pemisahan data diterapkan dengan perbandingan 80% dataset training dan 20% dataset uji coba, yang merupakan pendekatan umum dalam pembelajaran mesin guna memastikan keseimbangan antara pelatihan model dan evaluasi kinerjanya. Model Model dalam pembelajaran mesin merupakan hasil dari proses pelatihan algoritma yang bertujuan untuk mengenali pola, struktur, dan hubungan dalam data. Proses ini dilakukan menggunakan data pelatihan, di mana algoritma bekerja sebagai representasi matematis atau komputasional yang mampu menghasilkan prediksi atau keputusan berdasarkan input baru . Untuk membangun model menggunakan Algoritma Multiple Regresi Linear. Multiple Regresi Linear memungkinkan analisis keterkaitan antara berbagai faktor dengan engagement video TikTok . Analisis Multiple Regresi Linier menggambarkan keterkaitan secara linear antara dua atau lebih variabel bebas . cU1,ycU2,. ycUyc. dengan variabel terikat (Y) . Secara statistik, bentuk umum dari model regresi linier berganda dapat dinyatakan dengan persamaan 1. Y=yca yca1ycU1 yca2ycU2 U ycaycuycUycu dimana Y merupakan variabel dependen atau variabel tak bebas yang nilainya diprediksi berdasarkan sejumlah variabel independen atau variabel bebas yang dilambangkan sebagai XCA. XCC, hingga XCo. Dalam model ini, a adalah konstanta yang menunjukkan nilai Y ketika seluruh variabel independen bernilai nol, sedangkan bCA, bCC, , bCo adalah koefisien regresi yang merepresentasikan besarnya pengaruh masing-masing variabel independen terhadap variabel dependen . Evaluasi Tahapan penilaian adalah proses yang bertujuan untuk menyajikan tinjauan terhadap hasil engujian yang telah diterapkan pada sistem. Tahapan penilaian ini memiliki peran penting dalam memahami suatu sistem analisis sentimen serta algoritma yang diterapkan dalam program . Mean Square Error (MSE) Kesalahan kuadrat rata-rata merupakan mean dari selisih pangkat dua dari selisih nilai yang diprediksi dengan nilai aktual. Meskipun metode ini dapat menghasilkan perbedaan yang cukup besar dalam beberapa kasus. MSE umumnya lebih efektif dalam mengukur kesalahan yang kecil, sehingga sering digunakan untuk menilai akurasi model prediksi . Persamaan 2 dapat digunakan untuk menentukan nilai MSE. ycAycIya = ycu ycu Ocycn=1( yi Oe . A . dimana n adalah jumlah total data atau observasi, yi adalah nilai aktual dari data ke-i, dan i adalah nilai hasil prediksi dari model untuk data ke-i. Simbol Oc menunjukkan proses penjumlahan atas seluruh selisih kuadrat antara nilai aktual dan nilai prediksi. Root Mean Square Error (RMSE) Akar dari Rata-rata Kesalahan Kuadrat merupakan akar dari rata-rata selisih kuadrat antara nilai aktual dan nilai yang diprediksi. Nilai RMSE yang lebih kecil mengindikasikan Tingkat kekeliruan yang lebih minim, sehingga model prediksi yang dihasilkan menjadi lebih akurat dan dapat diandalkan . MALCOM - Vol. 5 Iss. 3 July 2025, pp: 875-885 MALCOM-05. : 875-885 ycu ycIycAycIya = ocycn=1( yi Oe . A . dimana n merupakan jumlah data atau observasi, yi adalah nilai aktual dari data ke-i, dan i adalah nilai prediksi dari model untuk data ke-i. Simbol Oc menunjukkan penjumlahan dari seluruh selisih kuadrat antara nilai aktual dan nilai prediksi. R-Square R kuadrat adalah hasil perhitungan pangkat dua dari koefisien korelasi (R). Nilai R kuadrat berada pada rentang nol hingga satu, yang berarti apabila nilai tersebut kecil . , maka hubungan antara kedua variabel cenderung lemah. Sebaliknya, apabila R kuadrat semakin besar . , hubungan antara kedua variabel menjadi semakin kuat . ycI =1Oe ycIycIya ycIycIycN dimana SSE (Sum of Squared Error. adalah jumlah kuadrat selisih antara nilai sebenarnya dan nilai SST (Total Sum of Square. adalah jumlah kuadrat selisih antara nilai sebenarnya dan ratarata nilai sebenarnya. HASIL DAN PEMBAHASAN Pengumpulan Data Set data Kaggle terdiri dari 19. 382 entri video dengan 12 fitur. Dalam penelitian ini. Variabel independen penelitian ini mencakup berbagai faktor yang dapat memengaruhi tingkat engagement video di TikTok, seperti durasi video, status verifikasi akun, status larangan akun, serta jumlah tayangan, komentar, dan Data ini dianalisis menggunakan algoritma regresi linear berganda untuk mengetahui sejauh mana elemen-elemen tersebut berkontribusi terhadap engagement video di platform TikTok. Sebagai sampel data ditunjukkan pada Table 1. Table 1. Data Tiktok Video duration sec Claim Status Claim Claim Claim Claim video share Video download Video comment Data tentang engagement video di TikTok ditunjukkan dalam tabel berikut. Dataset ini mencakup berbagai fitur yang dapat memengaruhi tingkat keterlibatan pengguna terhadap sebuah video. Berikut ini merupakan uraian ringkas dari masing-masing fitur: #: Nomor urut atau indeks dari setiap data dalam dataset. claim_status: Status klaim terkait video, menunjukkan apakah video diklaim atau tidak. video_id: Identifikasi unik untuk setiap video dalam dataset. video_duration_sec: Durasi video dalam satuan detik, menunjukkan berapa lama video tersebut video_transcription_text: Teks hasil transkripsi dari video, yang dapat digunakan untuk analisis konten. verified_status: Status verifikasi akun pembuat video, apakah akun tersebut sudah terverifikasi atau author_ban_status: Status akun pembuat video, apakah terkena larangan atau masih aktif. video_view_count: Jumlah total penayangan video, menunjukkan seberapa banyak video telah ditonton. video_like_count: Jumlah total suka . yang diterima video dari pengguna TikTok. video_share_count: Jumlah total kali video telah dibagikan oleh pengguna TikTok. video_download_count: Jumlah total unduhan video, yang menunjukkan seberapa banyak pengguna menyimpan video tersebut. video_comment_count: Jumlah total komentar yang diterima video dari pengguna TikTok Analisis Pesebaran Data Hasil menunjukkan bahwa terdapat korelasi yang sangat kuat antara video_like_count dengan video_share_count . = 0. , video_download_count . = 0. , dan video_view_count . = 0. Selain itu, video_comment_count juga menunjukkan hubungan yang kuat dengan video_download_count . = 0. Analisis Faktor-Faktor yang Mempengaruhi Engagement. (Sapina et al, 2. ISSN(P): 2797-2313 | ISSN(E): 2775-8575 Sebaliknya, video_duration_sec memiliki korelasi sangat rendah terhadap semua variabel, mengindikasikan pengaruh yang kecil terhadap interaksi pengguna. Hasil ini menunjukkan adanya hubungan linier positif yang kuat antar beberapa fitur interaksi pengguna, yang berpotensi signifikan dalam model prediksi. Hasil Visualisai Analisis Pesebaran Data dapat dilihat pada Gambar 1. Gambar 1. Visualisai Analisis Pesebaran Data Preprocessing Hasil dari preprocessing, jumlah data berkurang dari 19. 382 menjadi 19. 084 baris akibat penghapusan 298 data kosong. Data kategorikal seperti claim_status, verified_status, dan author_ban_status telah diubah menjadi nilai numerik . , serta video_transcription_text dikodekan menggunakan indeks angka. Normalisasi dengan metode Min-Max dilakukan pada kolom claim_status, menghasilkan nilai 1. 0 pada seluruh Deteksi dan penghapusan outlier menggunakan metode IQR dilakukan pada kolom numerik, dengan total 675 data dibuang: 1. 726 dari video_like_count, 2. 447 dari video_share_count, 2. 596 dari video_download_count, dan 1. 906 dari video_comment_count. Hasil pengujian multikolinearitas menunjukkan bahwa semua nilai VIF berada di bawah 5, dengan nilai tertinggi 1. 73 pada video_download_count, sehingga tidak ditemukan indikasi multikolinearitas antar variabel. Hasil preprocessing data dapat dilihat pada tabel 2. claim_status video_id video_duration _sec video_transcript ion_text verified_status author_ban_stat video_view_co video_like_cou video_share_co video_downloa d_count video_comment _count claim_status_no Table 2. Hasi Preprocessing Data 7,018E 09 4,014E 09 9,86E 09 1,867E 09 7,105E 09 Pengujian Asumsi Regresi Pengujian asumsi regresi linear menunjukkan bahwa model memenuhi asumsi linearitas, tidak adanya autokorelasi (Durbin-Watson = 2. , dan tidak terdapat multikolinearitas . eluruh nilai VIF < . Namun, asumsi normalitas residual dan homoskedastisitas belum terpenuhi, sebagaimana ditunjukkan oleh hasil uji Kolmogorov-Smirnov dan Breusch-Pagan dengan nilai p < 0,05, meskipun telah dilakukan transformasi Mengingat ukuran data yang besar serta tujuan utama penelitian ini adalah prediksi, bukan inferensi statistik, maka pelanggaran terhadap kedua asumsi tersebut masih dapat ditoleransi. Sebagai langkah lanjutan, disarankan penggunaan regresi dengan robust standard errors atau pendekatan non-parametrik untuk meningkatkan keandalan model yang dapat dilihat pada Gambar 2. MALCOM - Vol. 5 Iss. 3 July 2025, pp: 875-885 MALCOM-05. : 875-885 Gambar 2. Pengujian Asumsi Regresi Spliting Data Riset ini membagi Kumpulan data ke dalam tiga tahap dengan perbandingan 80:20, setelah data dinormalisasi menggunakan MinMaxScaler. Pada tahap ini, 80% Sebagian dari keseluruhan data dimanfaatkan sebagai data pelatihan, sementara 20% dimanfaatkan sebagai data pengujian. Pembagian data hal demikian memungkinkan analisis performa model dalam berbagai skenario di mana proporsi data latih lebih besar dibandingkan data uji, sehingga model dapat belajar lebih banyak sebelum diuji. Data yang telah diproses ini kemudian dapat digunakan untuk pelatihan model prediksi Regresi Linier Linear. untuk menganalisis faktorfaktor yang mempengaruhi jumlah like pada video TikTok. Pemodelan Regresi Linear Berganda Model regresi linear berhasil diterapkan untuk memprediksi jumlah tampilan video . ideo_view_coun. Dari hasil Feature Selection, ditemukan bahwa fitur video_like_count, video_share_count, danvideo_download_count memiliki pengaruh paling besar terhadap jumlah tampilan. Model ini memungkinkan peneliti untuk mengidentifikasi dan mengukur kontribusi masing-masing variabel independen terhadap variabel dependen . , sehingga hasilnya dapat ditafsirkan secara langsung. Pada grafik 3D Gambar 3, bidang merah mewakili model regresi linear berganda yang dipelajari dari data yang diberikan. Sumbu X menunjukkan Jam Menonton . tau faktor lain seperti Durasi Video jika datanya berbed. , sumbu Y menunjukkan Jumlah Komentar, dan sumbu Z menunjukkan Jumlah Likes. Gambar 3. Hasil Pemodelan Regresi Linear Berganda Dari bidang regresi, terlihat bahwa jumlah komentar (X. memiliki pengaruh besar terhadap jumlah likes. Ini berarti semakin banyak komentar yang diterima suatu video, semakin tinggi jumlah likes yang diprediksi oleh Pola data menunjukkan bahwa hubungan antara jumlah komentar, jam menonton, dan jumlah likes dapat direpresentasikan dengan model linier. Variabel video_comment_count memiliki koefisien sebesar 0. < 0. , menunjukkan pengaruh signifikan terhadap video_like_count. Sebaliknya, video_duration_sec memiliki koefisien 0. = 0. , yang tidak signifikan pada tingkat kepercayaan 95%. Analisis Faktor-Faktor yang Mempengaruhi Engagement. (Sapina et al, 2. ISSN(P): 2797-2313 | ISSN(E): 2775-8575 Evaluasi Mean Square Error (MSE) MSE sebesar 0. 005502 menunjukkan bahwa rata-rata selisih kuadrat antara nilai prediksi dan nilai sebenarnya cukup kecil. Hasil ini mengindikasikan bahwa model regresi linear yang digunakan memiliki tingkat kesalahan yang rendah dalam memprediksi jumlah tampilan video, sehingga dapat dikatakan cukup akurat dan dapat diandalkan untuk estimasi jumlah tampilan berdasarkan fitur yang dipilih. Meskipun demikian, masih ada peluang untuk meningkatkan akurasi model dengan menambahkan fitur lain yang mungkin berpengaruh atau menggunakan model yang lebih kompleks jika diperlukan. Root Mean Square Error (RMSE) Root Mean Squared Error (RMSE) sebesar 0. 0742 menunjukkan bahwa rata-rata kesalahan prediksi model regresi linear terhadap nilai sebenarnya adalah sekitar 7. 42% dalam skala data asli. Nilai RMSE yang kecil menandakan bahwa model memiliki tingkat error yang rendah, sehingga dapat dikatakan cukup akurat dalam memprediksi jumlah tampilan video. Keakuratan model ini menunjukkan bahwa regresi linear mampu menangkap pola hubungan antara fitur yang digunakan dengan jumlah tampilan video secara cukup baik. R-square (RA) Nilai R-squared (RA) sebesar 0. 978 menunjukkan bahwa 97,8% variasi jumlah like pada video TikTok dapat dijelaskan oleh variabel-variabel independen* yang digunakan dalam model. Ini menandakan bahwa model regresi linear yang dibangun memiliki akurasi prediksi yang sangat tinggi dan mampu merepresentasikan hubungan antara fitur-fitur seperti durasi, komentar, share, download, dan view terhadap jumlah like secara efektif. Analisis Faktor Analisis faktor yang mempengaruhi engagement video tiktok jumlah views memiliki pengaruh paling kuat terhadap jumlah likes, diikuti oleh shares, comments, dan downloads. Semakin tinggi jumlah views, semakin tinggi pula jumlah likes, dengan korelasi yang kemungkinan mendekati 0. Sementara itu, shares dan comments juga berkontribusi dengan korelasi sekitar 0. 6 - 0. 7, sedangkan downloads memiliki pengaruh yang lebih kecil sekitar 0. 5 - 0. Dengan demikian, untuk meningkatkan jumlah likes, faktor utama yang harus ditingkatkan adalah jumlah views, diikuti oleh interaksi melalui shares dan comments. Visualisasi dari analisis faktor dapat dilihat pada gambar 4. Gambar 4. Hasil Visualisasi Diskusi Analisis Hasil penelitian menunjukkan bahwa jumlah tayangan, like, komentar, share, dan durasi video berpengaruh signifikan terhadap tingkat engagement video TikTok. Temuan ini sejalan dengan penelitian sebelumnya oleh Nur Sapina et al. dan Permana et al. , yang menemukan bahwa interaksi pengguna seperti komentar dan share sangat memengaruhi performa konten di media sosial. Khatimah et al. juga menunjukkan bahwa engagement memiliki hubungan dengan loyalitas pelanggan dalam konteks pemasaran digital. MALCOM - Vol. 5 Iss. 3 July 2025, pp: 875-885 MALCOM-05. : 875-885 Namun, penelitian ini masih memiliki beberapa keterbatasan. Belum dilakukan analisis persebaran data seperti outlier atau distribusi normal pada tiap variabel. Selain itu, belum dilakukan pengujian multikolinearitas antar variabel independen, yang bisa memengaruhi keakuratan model regresi. Asumsi-asumsi dasar regresi seperti normalitas residual, heteroskedastisitas, dan autokorelasi juga belum diuji. Secara praktis, hasil penelitian ini dapat dimanfaatkan oleh content creator dan pemasar untuk menyusun strategi konten yang lebih efektif, misalnya dengan meningkatkan interaksi melalui komentar atau share. Model regresi ini juga bisa digunakan untuk memperkirakan performa konten sebelum dipublikasikan. Untuk penelitian selanjutnya, disarankan menambahkan analisis lanjutan terhadap distribusi data, pengujian asumsi regresi, serta mempertimbangkan variabel tambahan seperti waktu unggah, jenis konten, atau Metode lain seperti Random Forest atau XGBoost juga bisa dipertimbangkan agar hasil prediksi lebih akurat. KESIMPULAN Riset yang dilakukan terhadap Kumpulan data Tiktok yang diambil dari Kaggle, yang terdiri dari 19. data, berhasil mengkaji unsur-unsur yang berpengaruh tingkat engagement video di platform TikTok. Dengan menggunakan metode Multiple Regresi Linear, penelitian ini menemukan bahwa faktor-faktor seperti durasi video, jumlah tayangan, jumlah like, jumlah share, dan jumlah komentar memiliki pengaruh yang signifikan terhadap tingkat engagement video. Hasil analisis menunjukkan bahwa jumlah tayangan . ideo view coun. memiliki pengaruh yang paling besar terhadap jumlah like, share, dan komentar, yang pada gilirannya memengaruhi keseluruhan tingkat engagement. Model prediksi yang dibangun menggunakan algoritma regresi linear menunjukkan bahwa jumlah like, share, dan download video juga memiliki kontribusi yang penting dalam memprediksi tingkat engagement. Berdasarkan evaluasi model menggunakan MSE dan RMSE, ditemukan bahwa model ini cukup akurat dalam memprediksi jumlah tampilan dan tingkat engagement video dengan tingkat kesalahan yang relatif rendah. Secara keseluruhan, temuan dari penelitian ini memberikan wawasan yang berharga bagi pembuat konten dan pemasar untuk merancang strategi yang lebih efektif dalam meningkatkan engagement video di TikTok. Penggunaan model prediksi berbasis regresi linear ini diharapkan dapat membantu individu dan bisnis dalam mengoptimalkan konten mereka untuk mencapai interaksi yang lebih tinggi dengan audiens. Penelitian ini juga membuka peluang untuk penelitian lebih lanjut dengan menambahkan lebih banyak variabel atau menggunakan metode analisis yang lebih kompleks guna meningkatkan akurasi prediksi. REFERENSI