Jurnal Informatika & Teknologi Cerdas (JITC) Vol.
No.
Desember 2025
ISSN 3109-7677
Analisis Perbandingan Kinerja Model K-Nearest Neighbors dan Decision Tree untuk Prediksi Pengeluaran Nasabah Shindy Yuliyatini1*).
Via Olga Pangaribuan.
Adnan Nuur Bachtiar.
Program Studi Magister Ilmu Komputer.
Fakultas Teknologi Informasi.
Universitas Budi Luhur Program Studi Teknik Informatika.
Fakultas Ilmu Rekayasa.
Universitas Paramadina Email: 12311601302@student.
id 2via.
pangaribuan@students.
bachtiar@students.
Abstrak - Prediksi pengeluaran nasabah merupakan aspek krusial dalam analisis data keuangan guna membantu institusi perbankan memahami pola perilaku konsumen.
Penelitian ini membandingkan kinerja dua algoritma pembelajaran mesin, yaitu K-Nearest Neighbors (KNN) dan Decision Tree, dalam memprediksi pengeluaran nasabah.
Sampel yang digunakan berupa data transaksi seorang nasabah pada Bank BCA dengan 567 transaksi.
Evaluasi dilakukan menggunakan tiga metrik utama, yakni Mean Absolute Error (MAE).
Mean Squared Error (MSE), dan Root Mean Squared Error (RMSE).
Hasil penelitian menunjukkan bahwa algoritma KNN menghasilkan tingkat kesalahan prediksi yang lebih rendah dibandingkan Decision Tree pada seluruh metrik evaluasi, sehingga dinilai lebih efektif dalam tugas prediksi ini.
sulit ditemukan oleh manusia, sehingga membantu lembaga keuangan dalam mengambil keputusan yang lebih tepat dan efisien .
, .
, .
Kata kunci: KNN.
Decision Tree.
Prediksi Pengeluaran.
MAE.
MSE Penelitian ini bertujuan untuk memprediksi besarnya pengeluaran nasabah dengan memanfaatkan teknik pembelajaran mesin.
Dua algoritma yang dibandingkan dalam penelitian ini adalah K-Nearest Neighbors (KNN) .
dan Decision Tree .
, .
, yang dipilih karena pendekatan dan karakteristik klasifikasinya yang berbeda.
Data yang digunakan berupa riwayat transaksi keuangan dari seorang nasabah Bank BCA dengan total 2.
567 entri transaksi, yang mencerminkan berbagai jenis pengeluaran dalam periode Data ini kemudian dibersihkan dan diproses untuk menghasilkan fitur-fitur yang relevan sebelum diterapkan ke masing-masing model.
Kinerja kedua algoritma dievaluasi menggunakan tiga metrik utama, yaitu Mean Absolute Error (MAE) .
Mean Squared Error (MSE) .
, dan Root Mean Squared Error (RMSE) .
, untuk menilai seberapa akurat model dalam memprediksi nominal pengeluaran.
Melalui pendekatan ini, penelitian diharapkan dapat memberikan gambaran mengenai algoritma yang lebih tepat digunakan dalam analisis perilaku keuangan nasabah berdasarkan riwayat transaksinya.
Abstract - Customer expenditure prediction is a crucial aspect of financial data analysis, helping banking institutions better understand consumer behavior.
This study compares the performance of two machine learning algorithms.
K-Nearest Neighbors (KNN) and Decision Tree, in predicting customer The dataset used consists of 2,567 transaction records from a single customer at Bank BCA.
The performance of both models is evaluated using three key metrics: Mean Absolute Error (MAE).
Mean Squared Error (MSE), and Root Mean Squared Error (RMSE).
The results show that the KNN algorithm outperforms the Decision Tree by producing lower prediction errors across all evaluation metrics, making it more effective for this predictive task.
KeywordsAi KNN.
Decision Tree.
Expense Prediction.
MAE.
MSE
PENDAHULUAN
Machine learning .
embelajaran mesi.
merupakan cabang dari kecerdasan buatan yang memungkinkan sistem untuk belajar dari data dan membuat keputusan atau prediksi tanpa perlu diprogram secara eksplisit .
Dalam konteks keuangan, machine learning dapat diterapkan untuk menganalisis data nasabah, seperti informasi pribadi, riwayat transaksi, status kredit, dan aspek keuangan lainnya .
, .
Dengan menggunakan dataset yang besar dan beragam, machine learning dapat mengidentifikasi pola yang mungkin Sebagai contoh, dalam analisis kelayakan kredit, lembaga keuangan sering kali mengandalkan dataset yang berisi informasi tentang pendapatan, utang, skor kredit, dan riwayat pembayaran nasabah untuk menentukan apakah nasabah tersebut layak mendapatkan pinjaman.
Dengan machine learning, sistem dapat dilatih untuk mengenali pola dalam data tersebut dan memberikan prediksi mengenai kemampuan nasabah dalam membayar pinjaman di masa Hal ini sangat berguna untuk mengurangi risiko dan meningkatkan akurasi dalam proses pemberian kredit.
Dataset nasabah yang digunakan dalam penelitian ini memiliki karakteristik yang serupa dengan dataset perbankan pada umumnya, yang mencakup beragam informasi seperti usia, jenis kelamin, status pekerjaan, pendapatan, jumlah utang, serta catatan pembayaran tagihan.
Data-data ini tidak hanya relevan untuk analisis pengeluaran, tetapi juga dapat dimanfaatkan dalam berbagai aplikasi machine learning lanjutan, seperti klasifikasi untuk menentukan kelayakan pemberian pinjaman, regresi untuk memprediksi jumlah https://journal.
id/index.
php/jitc Artikel ini adalah artikel dengan akses terbuka, dilisensikan di bawah CC BY 4.
Jurnal Informatika & Teknologi Cerdas (JITC) Vol.
No.
Desember 2025 pinjaman yang sesuai, maupun segmentasi mengelompokkan nasabah berdasarkan profil risiko.
ISSN 3109-7677
Dengan kemajuan teknologi dan ketersediaan data yang semakin besar, penerapan machine learning dalam analisis keuangan nasabah menjadi semakin penting.
Dengan memanfaatkan pendekatan machine learning, penelitian ini meningkatkan efisiensi operasional lembaga keuangan.
Penggunaan model prediktif seperti KNN dan Decision Tree dapat membantu mengurangi ketergantungan pada analisis manual yang rentan terhadap kesalahan manusia, sekaligus memberikan pemahaman yang lebih mendalam mengenai pola perilaku keuangan nasabah.
Pada akhirnya, hal ini dapat mendukung pengambilan keputusan yang lebih akurat, cepat, dan berbasis data dalam berbagai layanan perbankan.
II.
pengukuran jarak, seperti Euclidean.
Manhattan, atau Minkowski.
Decision Tree Decision Tree adalah salah satu algoritma dalam machine learning yang digunakan untuk melakukan klasifikasi dan regresi .
Model ini menggambarkan keputusan dan kemungkinan hasilnya dalam bentuk pohon terstruktur, di mana setiap simpul .
menggambarkan kondisi atau pertanyaan yang perlu dijawab untuk mengklasifikasikan data, dan setiap cabang menunjukkan hasil dari keputusan Komponen utama dalam Decision Tree
METODE PENELITIAN
Metode penelitian yang digunakan dengan pendekatan kuantitatif dengan memanfaatkan teknik pembelajaran mesin dan analisis data yang sistematis.
Desain Penelitian Jenis Penelitian.
Penelitian ini merupakan penelitian analitis, yang bertujuan untuk menganalisis dan membandingkan kinerja dua model pembelajaran mesin, yaitu KNN dan Decision Tree, dalam memprediksi pengeluaran nasabah.
Pendekatan Penelitian.
Penelitian ini menggunakan pendekatan kuantitatif, di mana data yang dikumpulkan akan dianalisis menggunakan teknik pembelajaran mesin untuk membandingkan akurasi model KNN dan Decision Tree dalam prediksi pengeluaran nasabah.
Populasi.
Populasi penelitian ini adalah data pengeluaran nasabah yang diperoleh dari transaksi bank.
Data tersebut mencakup variabel-variabel seperti jumlah pengeluaran, jumlah yang diterima, loan, dan lain-lain.
Sampel.
Sampel yang digunakan adalah dataset dari transaksi seorang nasabah pada bank BCA dengan ukuran sampel 2567 transaksi / sampel.
Data tersebut akan dipilih secara acak, dengan memperhatikan representasi yang seimbang antara berbagai kategori yang relevan.
Prosedur Penelitian Penelitian ini berfokus pada pengembangan dan pengujian dua model pembelajaran mesin.
Dengan model .
KNN Root Node.
Titik awal pohon yang mewakili seluruh dataset.
sini, algoritma memilih fitur yang terbaik untuk memulai pembagian data.
Decision Nodes Titik di dalam pohon tempat pembagian lebih lanjut terjadi berdasarkan fitur-fitur dalam dataset.
Leaf Nodes Titik akhir dalam pohon yang menunjukkan keputusan akhir atau kelas yang diprediksi .
ntuk klasifikas.
atau nilai yang diprediksi .
ntuk Edges Cabang yang menghubungkan simpul-simpul dalam pohon, menunjukkan bagaimana data dibagi berdasarkan nilai fitur.
Proses pengujian dilakukan dengan membagi dataset menjadi data latih dan data uji menggunakan metode traintest split untuk memastikan bahwa model dapat diuji pada data yang belum pernah dilihat sebelumnya.
Kedua algoritma, yaitu K-Nearest Neighbors (KNN) dan Decision Tree, dilatih menggunakan data latih, lalu diuji performanya pada data uji.
Evaluasi dilakukan berdasarkan tiga metrik utama, yaitu Mean Absolute Error (MAE).
Mean Squared Error (MSE), dan Root Mean Squared Error (RMSE), yang mengukur seberapa besar rata-rata kesalahan prediksi yang dihasilkan oleh masing-masing model.
Hasil pengujian dari kedua model kemudian dibandingkan untuk menentukan metode yang paling efektif dalam memprediksi pengeluaran nasabah berdasarkan pola data yang tersedia.
HASIL DAN DISKUSI
Model KNN K-Nearest Neighbor (KNN) adalah algoritma dalam machine learning yang sering digunakan untuk klasifikasi dan regresi, yang bekerja dengan cara mencari data yang paling mirip .
etangga terdeka.
dengan data yang ingin diprediksi atau diklasifikasikan.
Konsep dasar dari model KNN adalah K yang merujuk pada jumlah "tetangga" terdekat yang dipertimbangkan untuk memutuskan kelas atau nilai output dari suatu data baru.
Nearest Neighbors adalah KNN bekerja dengan menghitung jarak antara data baru yang akan diprediksi dan data yang ada di dalam dataset.
Jarak ini umumnya dihitung dengan menggunakan beberapa metode https://journal.
id/index.
php/jitc Artikel ini adalah artikel dengan akses terbuka, dilisensikan di bawah CC BY 4.
Gambar 1.
Import library KNN dan dataset Jurnal Informatika & Teknologi Cerdas (JITC) Vol.
No.
Desember 2025 Untuk menyelesaikan penelitian ini, langkah pertama yang penulis lakuakan adalah mengimport librari dan juga dataset yang akana digunakan.
Berdasarkan Gambar 1, beberapa library yang penulis ISSN 3109-7677 data date menjadi format terpisah yaitu year, month, day/date.
Pandas = untuk manipulasi data.
model_selection.
train_test_split = untuk membagi dataset menjadi data latih dan uji.
KneighborsRegressor = model KNN untuk regresi.
metrics = untuk menghitung metrik evaluasi seperti Mean Absolute Error (MAE) dan Mean Squared Error (MSE).
Numpy = untuk operasi numerik.
Gambar 5.
Memilih fitur untuk model KNN Langkah pada Gambar 5 yang penulis lakukan adalah memilih fitur dan target yang akan digunakan.
Fitur .
merupakan kolom-kolom yang menjadi input untuk prediksi, sementara itu.
Target .
adalah kolom yang ingin diprediksi .
engeluaran nasaba.
Gambar 6.
Data latih dan data uji model KNN Gambar 2.
Hasil pembacaan dataset model KNN Pada Gambar 2, terlihat hasil dataset yang telah di import.
Selanjutnya, dilakukan pebersihan dan pemformatan data sehingga data yang ada siap untuk diterapkan dalam machine learning seperti pada Gambar 3.
Beberapa hal yang penulis lakukan adalah:
Berdasarkan Gambar 6, penulis membagi dataset menjadi data latih dan uji dengan rasio tertentu, dengan 20% untuk data pengujian.
Data latih digunakan untuk melatih model, dan data uji untuk mengevaluasi performa model.
Syntax random_state=42 berfungsi sebagai penjamin pembagian data yang sama setiap kali kode dijalankan.
Kolom dengan nilai data numerik seperti original amount, original balance penulis ubah dan Menghapus pemisah ribuan titik (.
Mengganti koma .
dengan titik (.
Mengonversi nilai string menjadi tipe numerik menggunakan pd.
to_numeric Gambar 7.
Penerapan model KNN Gambar 3.
Pra-proses data untuk model KNN Pada Gambar 7, proses pelatihan dilakukan menggunakan model KNN dengan menetapkan jumlah tetangga terdekat .
sebagai parameter utama.
Model kemudian dilatih menggunakan data latih yang telah dipersiapkan sebelumnya, dan selanjutnya digunakan untuk melakukan prediksi terhadap data uji.
Proses ini bertujuan untuk mengamati bagaimana pemilihan nilai k memengaruhi akurasi prediksi pengeluaran nasabah.
Gambar 4.
Penyesuaian kolom waktu untuk model KNN Pada Gambar 4, langkah yang dilakukan adalah peformatan kolom date menjadi tipe data standar, kemudian membuat kolom baru yang digunakan untuk menampung https://journal.
id/index.
php/jitc Artikel ini adalah artikel dengan akses terbuka, dilisensikan di bawah CC BY 4.
Jurnal Informatika & Teknologi Cerdas (JITC) Vol.
No.
Desember 2025
ISSN 3109-7677
Visualisasi ini ditampilkan pada Gambar 9, yang menunjukkan hubungan antara nilai pengeluaran yang diprediksi oleh model dan nilai pengeluaran aktual dari data Grafik ini memberikan gambaran sejauh mana model mampu mengikuti pola data sebenarnya, serta membantu mengidentifikasi kemungkinan deviasi atau kesalahan prediksi yang terjadi.
Hasil grafiknya seperti pada Gambar Gambar 8.
Evaluasi model KNN Langkah pada Gambar 8, performa model dievaluasi menggunakan metrik:
Mean Absolute Error (MAE) dimana rata-rata kesalahan absolut antara nilai sebenarnya dan prediksi diukur.
Mean Squared Error (MSE) dimana rata-rata kuadrat kesalahan juga diukur.
Root Mean Squared Error (RMSE) dimana akar dari MSE juga diukur, sering juga digunakan untuk mengahasilkan interpretasi yang lebih mudah.
Gambar 11.
Grafik visualisasi model KNN Decision Tree Gambar 9.
Pengujian dengan data baru pada model KNN Langkah selanjutnya yang penulis lakukan adalah melakukan pengujian menggunakan model Decision Tree.
Langkah yang sama juga dilakukan seperti pada model KNN yaitu melakukan import dimana library sklearn.
tree adalah melakukan import DecisionTreeRegressor Pada Gambar 9, setelah pola prediksi diperoleh dari hasil pelatihan dan evaluasi model, langkah selanjutnya adalah melakukan pengujian terhadap data baru yang belum pernah digunakan sebelumnya.
Data baru ini dimasukkan ke dalam model untuk melihat seberapa baik model dapat memprediksi pengeluaran berdasarkan pola yang telah dipelajari.
Pengujian ini penting untuk mengukur kemampuan generalisasi model dalam menghadapi data dunia nyata.
Hasil prediksi pada data baru kemudian dianalisis untuk memastikan bahwa performa model tetap konsisten dan dapat diandalkan dalam konteks penggunaan aktual di lingkungan Gambar 10.
Visualisasi hasil prediksi dengan KNN Regression Untuk memahami sejauh mana akurasi model dalam melakukan prediksi, dilakukan visualisasi hasil prediksi dibandingkan dengan nilai aktual menggunakan model KNearest Neighbors Regression seperti pada Gambar 10.
Gambar 12.
Import library DecisionTree dan dataset Sebelum model Decision Tree diterapkan, langkah awal yang dilakukan adalah menampilkan tipe data dari setiap kolom dalam dataset untuk memastikan bahwa seluruh fitur memiliki format data yang sesuai dengan kebutuhan model.
Pemeriksaan ini penting agar tidak terjadi kesalahan saat proses training atau prediksi.
Selanjutnya, ditampilkan sebagian data dari dataset yang akan digunakan sebagai data uji seperti pada Gambar 13, guna memberikan gambaran mengenai struktur dan isi data yang digunakan dalam proses Langkah ini juga membantu dalam memastikan bahwa data yang dimasukkan ke dalam model telah melalui proses praproses yang memadai dan siap untuk dianalisis lebih lanjut menggunakan algoritma Decision Tree Regression.
https://journal.
id/index.
php/jitc Artikel ini adalah artikel dengan akses terbuka, dilisensikan di bawah CC BY 4.
Jurnal Informatika & Teknologi Cerdas (JITC) Vol.
No.
Desember 2025
ISSN 3109-7677
tertentu, dengan 20% untuk data pengujian.
Data latih digunakan untuk melatih model, dan data uji untuk mengevaluasi performa model.
Syntax random_state=42 berfungsi sebagai penjamin pembagian data yang sama setiap kali kode dijalankan Gambar 13.
Hasil pembacaan dataset model DecisionTree Gambar 18.
Penerapan model Decision Tree Gambar 14.
Pra-proses model DecisionTree Gambar 15.
Penyesuain kolom waktu untuk model Decision Tree Pada Gambar 15, langkah yang dilakukan adalah peformatan kolom date menjadi tipe data standar, kemudian membuat kolom baru yang digunakan untuk menampung data date menjadi format terpisah yaitu year, month, day/date.
Gambar 16.
Pemilihan Fitur untuk Model DecisionTree Pada Gambar 18, diterapkan model Decision Tree dengan library DecisionTreeRegressor.
Library tersebut merupakan algoritma pohon keputusan yang digunakan untuk memprediksi nilai kontinu dalam permasalahan regresi.
Berbeda dengan pohon keputusan pada klasifikasi yang menghasilkan label kelas, model ini membagi data ke dalam beberapa cabang berdasarkan nilai fitur, lalu memprediksi nilai output dengan menghitung rata-rata dari nilai target di setiap node akhir .
Pendekatan ini memungkinkan model menangkap hubungan non-linear antar variabel, serta memberikan interpretasi yang relatif mudah melalui visualisasi struktur pohon.
Dalam konteks penelitian ini.
DecisionTreeRegressor digunakan untuk memprediksi besarnya pengeluaran nasabah berdasarkan pola data historis yang tersedia.
Setelah DecisionTreeRegressor menggunakan data latih, sama seperti pada model KNN, langkah selanjutnya adalah menerapkan model tersebut untuk melakukan prediksi terhadap data uji.
Proses ini bertujuan untuk mengukur seberapa baik model mampu memproyeksikan nilai pengeluaran nasabah berdasarkan pola yang telah dipelajari selama pelatihan.
Data uji yang digunakan merupakan data yang belum pernah dilihat oleh model sebelumnya, sehingga hasil prediksi mencerminkan kemampuan generalisasi model dalam menghadapi data baru.
Nilai-nilai prediksi yang dihasilkan kemudian dibandingkan dengan nilai aktual untuk dievaluasi menggunakan metrik seperti MAE.
MSE, dan RMSE seperti pada Gambar 19.
Langkah selanjutnya yang penulis lakukan seperti pada Gambar 16 yaitu menghapus Baris dan Kolom dengan Nilai NAN.
Kemudian dipilih fitur dan target yang akan digunakan untuk pemodelan dengan DecisionTree.
Sama seperti model KNN.
Fitur .
adalah kolom-kolom yang menjadi input untuk prediksi dan Target .
adalah kolom yang ingin diprediksi .
engeluaran nasaba.
Gambar 17.
Data latih dan data uji model Decision Tree Sama seperti pada model KNN, dataset pada model Decision Tree dibagi menjadi data latih dan uji dengan rasio https://journal.
id/index.
php/jitc Artikel ini adalah artikel dengan akses terbuka, dilisensikan di bawah CC BY 4.
Gambar 19.
Evaluasi model Decision Tree Jurnal Informatika & Teknologi Cerdas (JITC) Vol.
No.
Desember 2025 Sama seperti pada model KNN, pada Gambar 19, penulis melakukan evaluasi model Decision Tree menggunakan metrik Mean Absolute Error (MAE).
Mean Squared Error (MSE) dan Root Mean Squared Error (RMSE) ISSN 3109-7677 Penelitian ini terbatas pada penggunaan dua model saja, sehingga penelitian lebih lanjut dapat mempertimbangkan model pembelajaran mesin lain, seperti Random Forest atau Support Vector Machine, untuk perbandingan kinerja yang lebih komprehensif.
Selain itu, penelitian lanjutan dapat menyelidiki pengaruh fitur tambahan atau data yang lebih besar untuk meningkatkan akurasi model.
REFERENSI