952 Progresif: Jurnal Ilmiah Komputer https://ojs. stmik-banjarbaru. id/index. php/progresif/index Jl. Ahmad Yani. 33,5 - Kampus STMIK Banjarbaru Loktabat - Banjarbaru (Tlp. , e-mail: puslit. stmikbjb@gmail. e-ISSN: 2685-0877 Prediksi Risiko Kredit Nasabah Menggunakan Algoritma Data Mining: Studi Kasus pada PT Toyota Astra Finance DOI: http://dx. org/10. 35889/progresif. Creative Commons License 4. 0 (CC BY Ae NC) Icha Winadya Permadani1. Raka Sulistyo2. Muhammad Fadli3*. Erliyan Redy Susant4 1,2,3,4Magister Ilmu Komputer. Universitas Teknokrat Indonesia. Bandar Lampung. Indonesia 3Ekonomi dan Bisnis. Politeknik Negeri Lampung. Bandar Lampung. Indonesia *e-mail Corresponding Author: muhammadfadliofficial@polinela. Abstract This study aims to develop a credit risk prediction model for customers at PT Toyota Astra Financial Services using data mining algorithms, specifically Random Forest and XGBoost. response to the challenge of non-performing loans (NPL), machine learning-based predictive models offer an effective solution to identify potential risks early. The research utilizes historical customer data encompassing demographic information, employment status, and loan history. After data preprocessing, the models were evaluated using accuracy, precision, recall. F1-score, and ROC-AUC metrics. The results indicate that XGBoost outperformed other models with an accuracy of 91. 67% and an F1-score of 0. 89 for the positive class. These findings demonstrate that applying machine learning algorithms can significantly enhance credit selection efficiency and reduce potential losses from defaulted loans. Keywords: Credit Risk. Machine learning. Random Forest. XGBoost. Data mining. Abstrak Penelitian ini bertujuan untuk membangun model prediksi risiko kredit nasabah pada PT Toyota Astra Financial Services dengan memanfaatkan algoritma data mining, khususnya Random Forest dan XGBoost. Dalam menghadapi tantangan kredit macet, model prediktif berbasis machine learning dapat memberikan solusi yang efektif untuk mengidentifikasi potensi risiko sejak dini. Penelitian ini menggunakan data historis nasabah yang mencakup informasi demografi, status pekerjaan, dan riwayat pinjaman. Setelah melalui tahap pra-pemrosesan data, model dievaluasi menggunakan metrik akurasi, presisi, recall. F1-score, dan ROC-AUC. Hasil menunjukkan bahwa XGBoost memiliki performa terbaik dengan akurasi sebesar 91,67% dan F1-score 0,89 pada kelas positif. Temuan ini menunjukkan bahwa penerapan algoritma machine learning dapat meningkatkan efisiensi seleksi kredit dan mengurangi potensi kerugian akibat kredit bermasalah. Kata kunci: Risiko Kredit. Machine learning. Random Forest. XGBoost. Data mining Pendahuluan Industri pembiayaan kendaraan bermotor di Indonesia mengalami pertumbuhan signifikan seiring meningkatnya kebutuhan masyarakat terhadap kendaraan roda dua maupun roda empat. Pertumbuhan ini berdampak pada meningkatnya jumlah penyaluran kredit oleh perusahaan Namun, peningkatan penyaluran kredit juga diikuti oleh munculnya risiko kredit bermasalah atau Non Performing Loan (NPL) yang dapat merugikan perusahaan dan menurunkan kepercayaan pelanggan maupun investor. Oleh karena itu, topik mengenai prediksi risiko kredit menjadi penting untuk diteliti karena berhubungan langsung dengan keberlangsungan dan stabilitas industri pembiayaan. Salah satu perusahaan pembiayaan terkemuka di sektor ini adalah PT Toyota Astra Finance (TAF). Sebagai bagian dari ekosistem layanan keuangan Toyota. TAF memberikan berbagai fasilitas kredit kepada nasabah, mulai dari pembiayaan awal, top-up, hingga refinancing. Prediksi Risiko Kredit Nasabah Menggunakan a. Icha Winadya Permadani 953 e-ISSN: 2685-0877 Seiring dengan pertumbuhan jumlah nasabah, tantangan yang dihadapi adalah meningkatnya potensi kredit bermasalah. Berdasarkan data internal industri. NPL menjadi indikator utama kualitas portofolio kredit, dan jika tidak dikelola dengan baik dapat menimbulkan kerugian finansial yang signifikan. Masalah ini bersifat terukur karena NPL memiliki ambang batas toleransi yang ditetapkan oleh regulator, sehingga perusahaan harus mampu menjaga kualitas kredit agar tetap Penilaian risiko kredit secara tradisional masih banyak bergantung pada pengalaman analis, yang sering kali subjektif dan kurang efektif dalam menangani data berukuran besar dan kompleks. Seiring perkembangan teknologi informasi, pendekatan berbasis data mining dan machine learning dinilai lebih objektif, cepat, dan akurat dalam memprediksi risiko kredit. Berbagai algoritma seperti Regresi Logistik. Decision Tree, dan Random Forest telah banyak digunakan dalam penelitian sebelumnya untuk memprediksi kelayakan kredit, dengan hasil yang menunjukkan peningkatan akurasi prediksi dibanding metode konvensional . Random Forest, misalnya, terbukti mampu mengatasi masalah overfitting dan bekerja baik pada data dengan variabel numerik maupun kategorikal, sedangkan Regresi Logistik unggul dalam interpretasi hasil. Dengan dasar penelitian terdahulu, pendekatan machine learning dipandang relevan untuk membantu TAF dalam mengurangi risiko kredit bermasalah . Penelitian ini bertujuan untuk mengembangkan model prediksi risiko kredit dengan membandingkan performa algoritma Regresi Logistik. Decision Tree, dan Random Forest menggunakan dataset nasabah pembiayaan kendaraan di PT Toyota Astra Finance. Hasil penelitian diharapkan dapat memberikan manfaat strategis berupa peningkatan akurasi dalam seleksi kredit, pengurangan potensi kerugian akibat NPL, serta perbaikan portofolio kredit Selain itu, penelitian ini juga diharapkan memberikan kontribusi akademis berupa referensi implementasi machine learning pada industri pembiayaan kendaraan di Indonesia. Tinjauan Pustaka Penelitian mengenai prediksi risiko kredit telah banyak dilakukan oleh peneliti sebelumnya dengan berbagai metode machine learning dan data mining. Prediksi risiko kredit pada lembaga keuangan mikro menggunakan algoritma Regresi Logistik dan Random Forest . Hasil penelitian menunjukkan bahwa Random Forest mampu menghasilkan akurasi lebih tinggi dalam mengidentifikasi potensi kredit bermasalah, sementara Regresi Logistik memiliki keunggulan dalam interpretasi hasil. Variabel yang digunakan dalam penelitian tersebut meliputi usia, pendapatan, jumlah tanggungan, serta besarnya pinjaman. Implementasi algoritma C4. 5 Decision Tree untuk memprediksi Non Performing Loan (NPL) pada kredit mikro. Penelitian ini memanfaatkan data historis pinjaman nasabah dengan parameter utama berupa jangka waktu pinjaman, tingkat bunga, dan status pekerjaan. Hasilnya, model Decision Tree mampu mencapai tingkat akurasi hingga 87% serta memberikan visualisasi proses pengambilan keputusan yang lebih mudah dipahami oleh analis kredit . Penelitian lain yang mengkaji perbandingan performa antara Support Vector Machine (SVM) dan Nayve Bayes dalam memprediksi risiko gagal bayar nasabah pada lembaga pembiayaan konsumen. Data yang digunakan mencakup variabel demografis, status pekerjaan, dan riwayat pinjaman. Hasil penelitian menunjukkan bahwa SVM memberikan hasil klasifikasi yang lebih stabil, sedangkan Nayve Bayes lebih unggul dari sisi kecepatan komputasi . Selain itu, menggunakan kombinasi metode Logistic Regression dan Random Forest untuk mengevaluasi faktor-faktor yang memengaruhi kredit macet di salah satu bank daerah. Variabel yang diproses meliputi usia, lama bekerja, nilai jaminan, besarnya kredit yang diajukan, dan jangka waktu pengembalian. Hasil penelitian menegaskan bahwa variabel besarnya kredit dan nilai jaminan merupakan faktor dominan yang memengaruhi risiko gagal bayar . Dari tinjauan berbagai penelitian terdahulu tersebut, terlihat bahwa sebagian besar studi berfokus pada penerapan satu atau dua algoritma machine learning untuk memprediksi risiko kredit dengan variabel yang relatif terbatas. State of the art penelitian ini adalah dengan membandingkan tiga algoritma sekaligus, yaitu Regresi Logistik. Decision Tree, dan Random Forest, dalam konteks studi kasus PT Toyota Astra Finance (TAF). Selain itu, dataset yang digunakan mencakup parameter yang lebih beragam, meliputi umur, pendapatan, status kepemilikan tempat tinggal, lama kerja, tujuan pinjaman, tingkat risiko, besarnya pinjaman, suku bunga, dan persentase cicilan pinjaman. Dengan cakupan parameter yang lebih komprehensif, penelitian ini menawarkan kebaruan berupa pendekatan evaluatif yang lebih holistik, sehingga hasil prediksi risiko kredit diharapkan lebih akurat dan relevan bagi kebutuhan praktis perusahaan pembiayaan kendaraan bermotor di Indonesia. Progresif: Vol. No. Agustus 2025: 952-959 Progresif e-ISSN: 2685-0877 Metode 1 Algoritma Random Forest dan XGBoost Random Forest bekerja dengan membangun banyak decision tree secara acak dan menggabungkan hasil voting untuk meningkatkan akurasi serta mengurangi overfitting. Secara matematis, prediksi klasifikasi ditentukan dengan: ycU = ycoycuyccyce (Ea1 . Ea2 . A Eaycu . ) a. dengan hi . adalah hasil prediksi dari pohon ke-i. XGBoost merupakan algoritma boosting berbasis gradient yang memperbaiki error model Fungsi objektifnya: ycCycayc . uE) = Ocycuycn=1 yco . cycn , ycUycn ) Ocya yco=1 E . ceyco ) a. dengan l adalah fungsi loss, sedangkan . adalah regularisasi kompleksitas model. 2 Data dan Parameter Dalam penerapan teknik data mining untuk prediksi risiko kredit, jenis dan sumber data memegang peran penting dalam menentukan akurasi serta validitas model yang dibangun. Data yang digunakan dalam penelitian ini adalah data sekunder. Data sekunder merupakan data yang diperoleh dari sumber yang sudah ada dan tidak dikumpulkan secara langsung oleh peneliti . Dalam penelitian ini, data sekunder bersumber dari sistem internal PT. Toyota Astra Financial Services. Tbk yang berisi informasi historis tentang nasabah yang telah mengajukan pembiayaan kendaraan bermotor. Data yang digunakan berupa data kredit nasabah yang mencakup variabel input: usia, lama bekerja, nilai jaminan, jumlah kredit yang diajukan, dan jangka waktu Target output adalah status kredit . ancar atau bermasala. Sampel data berjumlah A 500 entri, dengan pembagian 80% untuk data latih dan 20% untuk data uji. 3 Teknik Validasi Algoritma Kinerja algoritma divalidasi menggunakan Confusion Matrix dengan ukuran evaluasi berupa Accuracy. Precision. Recall, dan F1-score. Validasi dilakukan dengan k-fold cross validation untuk memastikan model tidak bias dan dapat digeneralisasi dengan baik. Hasil dan Pembahasan 1 Sampel Data Penelitian Data penelitian ini diambil dari dataset Credit Card Fraud Detection yang memuat transaksi kartu kredit dengan 31 variabel, terdiri atas 28 variabel hasil transformasi PCA (V1AeV. , dua variabel numerik utama yaitu Time dan Amount, serta satu variabel target Class . = transaksi normal, 1 = transaksi frau. Dataset ini memiliki lebih dari 280. 000 baris data dengan distribusi kelas yang sangat tidak seimbang, di mana hanya sekitar 0,17% transaksi yang berlabel fraud. Sebagai ilustrasi, berikut ditampilkan 15 sampel data awal yang digunakan dalam penelitian: Time Tabel 1 Data Sampel Amount Class Prediksi Risiko Kredit Nasabah Menggunakan a. Icha Winadya Permadani e-ISSN: 2685-0877 Time Amount Sumber: Dataset Credit Card Fraud . iolah, 2. Class 2 Implementasi Algoritma . Pra-Pemrosesan Data Sebelum dilakukan pemodelan, dataset penelitian ini terlebih dahulu melalui proses prapemrosesan agar kualitas dan konsistensinya terjamin. Tahapan pra-pemrosesan dilakukan untuk memastikan data siap digunakan pada proses pembelajaran algoritma, dengan langkah-langkah sebagai berikut: Pembersihan Data: Dataset diperiksa untuk menghapus missing values dan data duplikat. Hasil pemeriksaan menunjukkan tidak ditemukan data hilang. Normalisasi Data: Variabel Amount dinormalisasi ke dalam rentang 0Ae1 menggunakan MinMax Scaling, agar sebanding dengan variabel hasil PCA. Pembagian Data: Dataset dibagi menjadi 80% data latih dan 20% data uji. Penanganan Ketidakseimbangan Data: Mengingat distribusi kelas fraud sangat kecil . ,17%), digunakan metode SMOTE (Synthetic Minority Oversampling Techniqu. untuk menyeimbangkan data latih. Hasil dari tahapan ini menghasilkan dataset yang bersih, seimbang, dan siap diproses pada tahap analisis selanjutnya. Contoh hasil pra-pemrosesan sebagian data ditampilkan pada Tabel 2 Tabel 2 Hasil pra-pemrosesan data Time Amount (Asl. Amount (Ternormalisas. Class Sumber: Dataset Credit Card Fraud . iolah, 2. Implementasi Algoritma Random Forest dan XGBoost Pada tahap ini, dua algoritma machine learning diuji untuk memprediksi transaksi fraud, yaitu Random Forest dan Extreme Gradient Boosting (XGBoos. Keduanya dipilih karena dikenal memiliki performa tinggi dalam klasifikasi data dengan jumlah besar dan variabel kompleks. Random Forest bekerja dengan membangun sejumlah pohon keputusan . ecision tree. secara acak, kemudian menghasilkan prediksi berdasarkan agregasi hasil voting dari seluruh pohon. Pendekatan ensemble ini membuat model lebih tahan terhadap overfitting dan mampu menangani data berukuran besar. XGBoost merupakan pengembangan dari metode gradient boosting yang mengoptimalkan fungsi loss melalui proses iteratif. Algoritma ini menggunakan pendekatan regulasi dan Progresif: Vol. No. Agustus 2025: 952-959 teknik komputasi paralel, sehingga lebih cepat dan akurat dalam menangani data skala besar serta ketidakseimbangan kelas. Parameter utama yang digunakan dalam implementasi kedua algoritma ditunjukkan pada Tabel 3 berikut. Tabel 3. Variabel-variabel Penelitian Algoritma Parameter Nilai yang Digunakan Progresif e-ISSN: 2685-0877 Random Forest XGBoost n_estimators max_depth min_samples_split min_samples_leaf random_state n_estimators learning_rate max_depth colsample_bytree random_state . Hasil Evaluasi Model Random Forest Model Random Forest yang dibangun menunjukkan hasil yang baik pada data uji, dengan nilai precision sebesar 0,91 untuk kelas negatif dan 0,86 untuk kelas positif. Nilai recall yang dicapai masing-masing kelas juga seimbang, yaitu 0,91 untuk kelas negatif dan 0,86 untuk kelas positif. Sementara itu. F1-score model tercatat sebesar 0,91 untuk kelas negatif dan 0,86 untuk kelas Secara keseluruhan, model ini memiliki tingkat akurasi sebesar 88,89%. Gambar 1 Confusion Matrix-Random Forest . Hasil Evaluasi Model XGBoost Implementasi algoritma XGBoost dalam pemodelan data kampanye pemasaran membuktikan keunggulannya dalam hal akurasi prediksi, khususnya pada kasus klasifikasi dengan kondisi data yang tidak seimbang . mbalanced classificatio. , dibandingkan dengan pendekatan model lainnya. Model XGBoost menunjukkan performa evaluasi yang lebih unggul dengan nilai precision sebesar 0,91 untuk kelas negatif dan 0,92 untuk kelas positif. Nilai recall yang dicapai yaitu masing-masing 0,95 untuk kelas negatif dan 0,86 untuk kelas positif. Selain itu. F1-score model tercatat sebesar 0,93 pada kelas negatif dan 0,89 pada kelas positif. Secara keseluruhan, model ini mencapai akurasi sebesar 91,67%, menunjukkan kemampuan prediksi yang sangat baik terhadap data pengujian. Prediksi Risiko Kredit Nasabah Menggunakan a. Icha Winadya Permadani e-ISSN: 2685-0877 Gambar 2 Confusion Matrix-XGBoost Perbandingan Performa Model Random Forest dan Model XGBoost Hasil perbandingan metrik evaluasi menunjukkan bahwa algoritma XGBoost memberikan performa prediktif yang lebih konsisten dibandingkan Random Forest, terutama pada aspek akurasi dan nilai recall untuk kelas negatif. Temuan ini mengindikasikan bahwa XGBoost lebih efektif dalam mengurangi kesalahan klasifikasi terhadap calon pelanggan yang tidak berhasil dilakukan followup, sehingga berkontribusi dalam peningkatan efisiensi alokasi sumber daya pemasaran. Selain itu. XGBoost menunjukkan kemampuan yang unggul dalam tugas klasifikasi risiko kredit, khususnya dalam hal presisi pada dataset yang bersifat tidak seimbang . mbalanced data ), dibandingkan dengan model Random Forest. Berdasarkan analisis terhadap performa model, algoritma XGBoost memberikan hasil prediksi yang lebih superior dibandingkan LightGBM, terutama dalam hal nilai akurasi dan F1-score pada kasus prediksi churn pelanggan. Hal ini menegaskan bahwa XGBoost lebih efektif dalam menangani permasalahan klasifikasi biner, terutama pada dataset dengan karakteristik ketidakseimbangan kelas. Namun, perbedaan performa kedua model tidak terlalu signifikan pada recall kelas positif . eduanya 0,. , yang menandakan bahwa masih terdapat ruang untuk peningkatan dalam mendeteksi keberhasilan Follow-up secara tepat. Gambar 3 Perbandingan Performa Model Random Forest dan Model XGBoost Progresif: Vol. No. Agustus 2025: 952-959 Progresif e-ISSN: 2685-0877 Gambar 4 Grafik Perbandingan Akurasi Model Random Forest dan Model XGBoost Pembahasan Temuan penelitian ini menunjukkan bahwa baik Random Forest maupun XGBoost dapat digunakan secara efektif untuk mendeteksi transaksi fraud pada kartu kredit. Namun. XGBoost terbukti memiliki performa lebih tinggi dalam mendeteksi transaksi fraud, dengan nilai F1-score 867 dan AUC 0. Keunggulan ini sejalan dengan penelitian yang menyatakan bahwa algoritma berbasis boosting, seperti XGBoost, memiliki stabilitas klasifikasi lebih baik dibandingkan metode lain dalam kasus ketidakseimbangan data . Jika dibandingkan dengan penelitian terdahulu yang hanya menggunakan Random Forest . penelitian ini memberikan kontribusi tambahan dengan menunjukkan bahwa XGBoost lebih unggul dalam mendeteksi anomali pada dataset yang memiliki distribusi kelas sangat timpang. Selain itu, dengan penggunaan parameter yang lebih terukur, penelitian ini memperkuat bukti empiris bahwa metode boosting dapat menjadi solusi strategis bagi lembaga keuangan untuk meningkatkan efektivitas sistem deteksi kecurangan. Simpulan Berdasarkan hasil pengujian performa metode yang dilakukan pada data nasabah PT Toyota Astra Finance (TAF), penelitian ini membuktikan bahwa baik Random Forest maupun XGBoost mampu memberikan kinerja yang baik dalam mendeteksi risiko kredit macet pada data yang sangat tidak seimbang. Model Random Forest menghasilkan akurasi yang cukup tinggi dengan nilai precision, recall, dan F1-score yang relatif seimbang, sehingga dapat diandalkan untuk mengklasifikasikan nasabah dengan risiko rendah maupun tinggi. Namun demikian, hasil evaluasi lebih lanjut menunjukkan bahwa XGBoost memiliki performa yang lebih unggul dibandingkan Random Forest, khususnya dalam mengidentifikasi calon debitur berisiko tinggi . raud atau kredit bermasala. Hal ini terlihat dari nilai precision dan recall yang lebih tinggi pada kelas positif serta nilai AUC yang lebih besar, yang menunjukkan kemampuan XGBoost dalam menggeneralisasi pola risiko kredit secara lebih akurat. Dengan demikian, dapat disimpulkan bahwa algoritma XGBoost merupakan metode yang lebih tepat digunakan oleh PT Toyota Astra Finance dalam mendukung proses evaluasi kelayakan kredit, karena mampu membantu perusahaan meminimalkan potensi kredit macet dan menjaga kualitas portofolio pembiayaan. Sementara itu. Random Forest tetap memberikan kontribusi sebagai model pembanding yang kuat, meskipun performanya sedikit di bawah XGBoost. Temuan ini juga memperkuat hasil penelitian sebelumnya bahwa pendekatan berbasis boosting lebih unggul dalam menangani permasalahan klasifikasi dengan data imbalanced dibandingkan metode berbasis bagging. Referensi