JSI (Jurnal Sistem Informas. Universitas Dirgantara Marsekal Suryadarma p-ISSN: 2355-9675 e-ISSN: 2541-3228 Prediksi Penjualan Produk Sepatu dengan Menggunakan Algoritma K-Nearest Neighbor Regression dan Cross Validation Ratna Salkiawati1*. Hendarman Lubis2. Nurfiyah3. Fitu Sapril Telaumbanua4 1,2,3,4Fakultas Ilmu Komputer. Universitas Bhayangkara Jakarta Raya. Indonesia ratna_tind@dsn. lubis@dsn. nurfiyah@dsn. sapril17@mhs. Article Info Article history: Received November 15, 2024 Accepted Desember 16, 2024 Published January 2, 2025 Kata Kunci: K-Nearest Neighbor. Regression. Prediksi. Knowledge RMSE ABSTRAK Penjualan sepatu di Toko AuXAy mencakup berbagai merek, seperti Fladeo. Cardinal, dr. Kevin, dan Jackson. Sistem pengelolaan data penjualan di toko ini pada saat penelitian masih menggunakan pencatatan secara manual, di mana hasil penjualan hanya diproses dalam format MS Excel. Untuk memudahkan pengelolaan dan perencanaan penjualan di masa depan, diperlukan prediksi penjualan menggunakan teknik klasifikasi data mining, yaitu algoritma K-Nearest Neighbor Regression. Berdasarkan hasil penelitian, prediksi penjualan sepatu terlaris menunjukkan bahwa nilai K = 2 menghasilkan RMSE 0,43 untuk produk Fladeo. K = 3 menghasilkan RMSE 0,46 untuk produk Cardinal. K = 13 menghasilkan RMSE 0,46 untuk produk dr. Kevin, dan K = 6 menghasilkan RMSE 0,49 untuk produk Jackson. Berdasarkan pedoman RMSE, dapat disimpulkan bahwa semua model yang diuji menunjukkan tingkat kesalahan sedang, yaitu antara 0,30 hingga 0,56. Corresponding Author: Ratna Salkiawati. Faculty of Computer Science. Universitas Bhayangkara Jakarta Raya Email: *ratna_tind@dsn. PENDAHULUAN 1 Latar Belakang Toko AuXAy adalah tempat perbelanjaan yang menawarkan berbagai merek sepatu ternama seperti Fladeo. Cardinal, dr. Kevin, dan Jackson, dengan berbagai model sepatu yang stylish dan modern. Toko AuXAy terus berupaya untuk meningkatkan dan mengembangkan bisnisnya agar dapat memenuhi kebutuhan pelanggan dalam hal kualitas sepatu, harga, dan pemasaran. Mengingat persaingan yang semakin ketat, penting bagi toko ini untuk memastikan produk sepatu mereka dikenal oleh konsumen. Perbedaan dalam atribut sepatu memungkinkan konsumen untuk mengetahui kelebihan dan kekurangan masing-masing produk. Kepuasan pelanggan terhadap sepatu yang dibeli menjadi faktor kunci dalam merebut pangsa pasar (Awaludin & Mantik, 2. Namun, saat ini system pengelolaan data penjualan di toko ini masih menerapkan metode manual, dengan mencatat data dilakukan menggunakan Microsoft Excel. Hal ini menyebabkan penumpukan data yang tidak terorganisir dengan baik, sehingga mempersulit pemahaman dan pengembangan informasi terkait penjualan sepatu setiap tahunnya. Oleh karena itu, diperlukan prediksi penjualan sepatu untuk tahun yang akan datang. Dalam penelitian sebelumnya yang berjudul Perbandingan Algoritma K-Nearest Neighbor dengan ISSN: 2355-9675 (PRINT), 2541-3228 (ON LINE) Decision Tree Dalam Memprediksi Penjualan Makanan Hewan Peliharaan Di Petshop Dore Vet Clinic, dengan menggunakan metode K-NN, dari 30 data yang dianalisis, terdapat beberapa kondisi yang Sebanyak 6 data diklasifikasikan sebagai produk terlaris sesuai dengan prediksi K-NN, namun 3 dari 6 produk yang diprediksi terlaris ternyata tidak terlaris . engan urutan data 1, 2, . Sedangkan 24 data lainnya diprediksi tidak terlaris, namun 10 data dari prediksi tersebut ternyata terlaris . rutan data 22, 5, 16, 26, 28, 19, 17, 20, 23, . Menggunakan metode decision tree dengan algoritma C4. 5, diketahui bahwa dari 30 data, merek Purina termasuk produk terlaris, sementara ada 4 data dari Royal Canin yang termasuk dalam kategori false negative (Meliala & Hasugian, 2. Pada penelitian lainnya yang berjudul Prediksi Harga Beras Premium dengan Metode Algoritma K-Nearest Neighbor, hasil penelitian ini menunjukkan bahwa metode K-Nearest Neighbor dengan model regresi dapat memprediksi harga beras untuk tahun 2014 hingga 2019 dengan nilai RMSE sebesar 0,125 dan parameter K = 2 setelah dilakukan normalisasi (Mukhlisin et al. , 2. Penelitian serupa lainnya juga dilakukan oleh Cholil et al. Dewi . Harahap & Sulindawaty . Hutami & Astuti . Puspita Hidayanti . Rahman et al. Reza Noviansyah et al. Sasmita Susanto & Al Fatta . , dan Yustanti . 2 Teori K-Nearest Neigbor Metode K-NN merupakan suatu metode untuk melakukan klasifikasi terhadap suatu obyek yang berdasar kepada data training yang mempunyai jarak yang paling dekat dari obyek tersebut. Algoritma K-NN Regresi adalah algoritma dengan melakukan pengelompokkan data dengan berdasarkan letak ketetanggaannya, pengelompokan data tersebut bergantung pada jumlah nilai K dan nilai RMSE dihasilkan untuk melakukan pengukuran tingkat error dari model yang sudah dibuat (Kotu & Deshpande, n. Ye, 2. Pengertian lain tentang K-NN adalah sebuah metode untuk melakukan klasifikasi terhadap objek berdasarkan dengan data pembelajaran . yang jaraknya paling dekat dengan objek tersebut (Russell, 2. Dekat atau jauhnya neighbor biasanya dihitung dengan berdasarkan jarak Euclidean sehingga diperlukan suatu sistem klasifikasi sebagai sebuah sistem yang mampu mencari informasi klasifikasi suatu objek. Metode K-NN dibagi menjadi dua fase, yaitu pembelajaran . dan klasifikasi atau pengujian . Pada fase pembelajaran, algoritma ini biasanya hanya melakukan penyimpanan pada vektor-vektor fitur dan melakukan klasifikasi dari data pembelajaran yang telah Pada fase klasifikasi, fitur-fitur yang sama dilakukan perhitungan untuk data yang akan dilakukan uji coba . ang klasifikasinya tidak diketahu. Selanjutnya jarak dari vektor yang baru ini terhadap seluruh vektor data pembelajaran dihitung, dan sejumlah nilai k buah neighbor yang paling dekat diambil (Baharuddin et al. , 2. Adapun perhitungan euclidean distance menggunakan persamaan sebagai berikut: ycu yccycn = oc. cu2ycn Oe ycu1ycn )2 ycn=1 Keterangan : : jarak terdekat : sampel data atau data training : data uji atau data testing : atribut data dari 1 sampai n : jumlah atribut setiap kasus K-Fold Cross Validation K-fold cross validation mirip dengan metode subsampling yang melakukan acak berulang, tetapi pengambilan sampel dilakukan sedemikian rupa sehingga tidak ada dua set tes yang tumpang tindih. Dalam k-fold cross validation, learning set yang tersedia dipartisi menjadi k subset yang terpisah dengan ukuran yang kira-kira sama. Kata AulipatanAy mengacu pada jumlah himpunan bagian yang dihasilkan. Partisi ini dilakukan dengan mengambil sampel kasus secara acak dari set pembelajaran tanpa Model dilatih menggunakan k 1 sebagai himpunan bagian, yang bersama-sama mewakili ISSN: 2355-9675 (PRINT), 2541-3228 (ON LINE) himpunan pelatihan. Kemudian, model diterapkan ke subset yang tersisa, dengan dilambangkan sebagai set validasi, dan pengukuran kinerjanya. Prosedur ini diulang sampai masing-masing k subset telah berfungsi sebagai set validasi (Berrar, 2. Kesalahan generalisasi pada K-fold cross validation, dan ditetapkan K menjadi 10 dengan dua alasan yaitu (Nikmatun & Waspada, 2. untuk menyeimbangkan antara biaya komputasi dan estimasi yang diandalkan untuk perbandingan yang adil pada data latih dan data uji Untuk 10-fold cross validation, dataset dibagi menjadi 10 lipatan yang saling terpisah dengan ukuran yang hampir sama. Dalam setiap run, 9 subset digunakan untuk pelatihan dan sisanya untuk Root Mean Square Error (RMSE) RMSE merupakan proses pengecekan kesalahan yang melakukan perbandingan nilai sesungguhnya dengan nilai yang didapatkan dari pengujian dengan hasil dinyatakan sebagai nilai mutlak yang didapat berkisar dari 0 hingga O (Mailund, 2. Nilai RMSE yang dapat dihitung dengan persamaan sebagai berikut: ycu ycIycAycIya = oc. cUycn Oe ycn )2 ycn=1 Keterangan : RMSE : nilai root mean square error : nilai hasil observasi : nilai hasil prediksi : urutan data : jumlah data Nilai RMSE merupakan nilai rata-rata dari besar kesalahan pada suatu sampel data. Semakin besar nilai RMSE maka semakin besar pula tingkat perbedaan kesalahan pada masing-masing sample data yang dihitung. Untuk memudahkan dalam memahami nilai RMSE maka digunakan tabel dibawah ini: RMSE 0,00 Ae 0,299 0,30 Ae 0,599 0,60 Ae 0,899 >0,90 Tabel 1. Pedoman Interpretasi RMSE Tingkat Kesalahan Kecil Sedang Besar Sangat Besar ISSN: 2355-9675 (PRINT), 2541-3228 (ON LINE) METODE Berikut ini kerangka penelitian: Mulai Pengumpulan Data Observasi Studi Pustaka Wawacara Identifikasi Masalah: Sistem pengelolaan data penjualan di Toko "X" masih menggunakan secara Ms. Data penjualan produk sepatu mengalami penumpukan setiap tahunnya Data sulit dipahami dan kurang informasi yang bisa dikembangkan untuk data penjualan sepatu setiap tahunnya. Belum adanya prediksi dimasa yang akan datang. Rumusan Masalah : Bagaimana tingkat akurasi Algoritma K-Nearst Neighbor Regression dalam memprediksi penjualan produk sepatu di Toko "X" Knowledge Discovery in Database (KDD): Data Cleaning Data Integration Data Selection Data Transformation Data Mining==>Algoritma K-Nearest Neighbor Regression dan Cross Validation Pattern Evaluation Implementasi Selesai Gambar 1. Kerangka Penelitian di Toko AoXAy Berikut adalah penjelasan kerangka penelitian: Mulai: melakukan persiapan sebelum melakukan penelitian. Identifikasi Masalah: peneliti melakukan pengumpulan data dan berhasil mendapatkan identifikasi masalah Toko AuXAy Rumusan Masalah: menentukan identifikasi masalah akan mendapatkan apa yang dibuat dalam perumusan masalah. Metode Pengumpulan Data: tahapan dalam metode pengumpulan data dalam penelitian ini yaitu observasi, studi pustaka, dan wawancara. Metode Perancangan: metode yang ditentukan dalam penelitian ini yaitu Knowledge Discovery in Database dengan menggunakan teknik K-Nearest Neighbor Regression. Penerapan metode K-Nearest Neighbor Regession untuk mempredikasi prodk sepatu Pengujian : model di uji dengan menggunakan teknik RMSE Selesai : didapat hasil prediksi ISSN: 2355-9675 (PRINT), 2541-3228 (ON LINE) HASIL DAN PEMBAHASAN 1 Pembentukan Dataset Setelah pengolahan data dilakukan dan menghasilkan input penjualan produk dari selama 3 tahun, kemudian data tersebut akan digunakan untuk dilakukan training. Data training dikelompokan menjadi 2 bagian yaitu data input dan data target. Data input merupakan data penjualan dari bulan ke-1 sampai bulan ke-12, sedangkan data target menggunakan data bulan ke-13. Sumber: Hasil Penelitian Tabel 2. Data Training Data Input 68 108 117 68 108 117 93 68 108 117 93 108 117 93 91 117 74 91 117 74 91 117 74 Target 2 Normalisasi Dataset Kemudian proses normalisasi data, dilakukan dengan cara membuat data yang sudah ada menjadi nilai yang lebih kecil. Data hasil penelitian yang sudah diolah dinormalisasi dengan menjadikan data menjadi jarak . , . , yang artinya nilai minimal dari data tersebut menjadi 0 dan nilai maksimal dari data menjadi 1 sehingga data diantara minimal dan maksimal menyesuaikan antara jarak yang ISSN: 2355-9675 (PRINT), 2541-3228 (ON LINE) Gambar 1. Script Normalisasi Training Hasil Implementasi Normalisasi dataset: Gambar 2. Sampel Hasil Normalisasi Setelah data dinormalisasi maka dilakukan pembagian data kembali. Pembentukan variabel untuk data input adalah huruf X dengan data dimulai dari index ke-0 sampai ke-11, sedangkan data target menggunakan huruf Y dengan data yang merupakan index ke-12. Gambar 3. Script Pembagian Data Input dan Target Training Gambar 4. Sampel Hasil Normalisasi Penjualan 3 K-Fold Cross Validation Dalam tahap ini digunakan K-Fold Cross Validation untuk membagi serta melakukan validasi ISSN: 2355-9675 (PRINT), 2541-3228 (ON LINE) Kemudian hasil split yang dilakukan oleh K-Fold Cross Validation sebanyak n. Penelitian ini menggunakan nilai n = 10. Implementasi pada program sebagai berikut: Gambar 5. Hasil Implementasi K-Fold Cross Validation Split yang tampil masih berupa dataset dalam bentuk index sehingga untuk melihat data training yang telah di-split menggunakan script sebagai berikut: Gambar 6. Data Training dan Testing ISSN: 2355-9675 (PRINT), 2541-3228 (ON LINE) Gambar 7. Hasil Split K-Fold Cross Validation Hasil diatas merupakan hasil split pada iterasi pertama yang menampilkan data training x, test x, serta data training y dan data test y. 4 K-Nearest Neighbor Regression Model K-Nearest Neighbor Regression dibangun sebagai Sampel pengujian model yang akan digunakan pada evaluasi dengan menggunakan Cross Validation. Gambar 8. Implementasi K-NN dan Cross Validation ISSN: 2355-9675 (PRINT), 2541-3228 (ON LINE) 5 Evaluasi Evaluasi ini dilakukan dengan melakukan pengujian model menggunakan cross validation untuk setiap nilai k dari k-nearest neighbor dalam range 1-15. Gambar 9. Grafik Nilai RMSE Grafik tersebut menunjukkan bahwa ada perbedaan nilai RMSE berdasarkan nilai k pada knearest neighbor. Nilai k tersebut sangat mempengaruhi hasil dari keakuratan model prediksi yang 6 Prediksi Dari nilai RMSE didapatkan nilai akurasi terbaik untuk setiap produk. Produk Fladeo Cardinal Kevin Jackson Tabel 2. Hasil nilai akurasi terbaik Nilai K RMSE Prediksi Penjualan 0,43494 0,46214 Maret Januari 0,45539 0,48781 Juli November KESIMPULAN Berdasarkan hasil penelitian dan pengujian model prediksi penjualan menggunakan metode KNearest Neighbor Regression, dapat disimpulkan bahwa nilai k yang paling optimal dari rentang 1 hingga 15 adalah sebagai berikut: k = 2 untuk produk sepatu Fladeo dengan RMSE sebesar 0. 43494, k = 3 untuk produk Cardinal dengan RMSE sebesar 0. 46214, k = 13 untuk produk dr. Kevin dengan RMSE 45539, dan k = 14 untuk produk Jackson dengan RMSE sebesar 0. Mengacu pada pedoman interpretasi RMSE, dapat disimpulkan bahwa tingkat kesalahan seluruh model yang diuji memiliki tingkat kesalahan sedang, karena nilai RMSE yang diperoleh berada dalam rentang 0,30 hingga 0,599. DAFTAR PUSTAKA