IJCSR: The Indonesian Journal of Computer Science Research E-ISSN 2963-9174 DOI prefix 10.
Volume 4.
No.
2 Juli 2025 https://subset.
id/index.
php/IJCSR Analisis Performa Logistic Regression dan Random Forest dalam Klasifikasi Kelayakan Penerimaan Kredit Andreas Adrian1,.
Ike Verawati 2,.
Program Studi Informatika Fakultas Ilmu Komputer Universitas Amikom Yogyakarta Author Emails Corresponding author: andre46@students.
ikeverawati@amikom.
Abstract.
Credit eligibility determination is a crucial process in the banking and financial industry.
It greatly affects the financial institutions involved and may even lead to an unhealthy financial condition if there are errors in credit eligibility Machine learning emerges as a solution to minimize such errors.
To improve accuracy and efficiency in credit eligibility classification, this study focuses on the implementation of two machine learning models: Logistic Regression and Random Forest Classifier.
Logistic Regression was chosen for its ability to identify linear relationships between input and output variables, while Random Forest Classifier offers advantages in handling complex and non-linear datasets.
The main objective of this study is to compare the performance of these two models in credit eligibility classification.
The comparison was carried out through several stages, including Literature Review.
Data Acquisition which involves utilizing a publicly available banking dataset from Kaggle.
EDA.
Pre-Processing.
Modeling.
Evaluation, and Analysis of Model Evaluation.
The dataset used contains financial information of customers.
The performance comparison in this study employed accuracy, precision, recall.
F1-score, and AUC-ROC metrics to evaluate each model.
The results of this study show that the Random Forest model outperforms Logistic Regression, achieving an Accuracy score of 0.
Precision of 93.
Recall of 0.
98, and F1-score of 0.
The AUC score, which measures how well the model distinguishes between classes 1 and 0, reached 0.
The findings of this research are expected to provide valuable recommendations for the banking industry in selecting the most appropriate model for credit eligibility assessment.
Keywords :
Classification.
Credit Eligibility.
Logistic Regression.
Machine Learning.
Random Forest Classifier.
Abstraksi.
Penentuan kelayakan penerimaan kredit merupakan proses yang sangat penting dalam industri perbankan dan keuangan.
Hal ini sangat berpengaruh bagi badan keuangan tersebut, bahkan dapat menyebabkan kondisi finansial badan keuangan tersebut tidak sehat karena kesalahan dalam keputusan kelayakan kredit.
Machine learning hadir untuk meminimalisir kesalahan tersebut.
Untuk meningkatkan akurasi dan efisiensi dalam klasifikasi kelayakan kredit, penelitian ini berfokus pada penerapan dua model machine learning, yaitu Logistic Regression dan Random Forest Classifier.
Logistic Regression dipilih karena kemampuannya dalam mengidentifikasi hubungan linear antara variabel input dan output, sedangkan Random Forest Classifier memiliki keunggulan dalam menangani dataset yang kompleks dan non-linear.
Tujuan utama dari penelitian ini adalah untuk membandingkan performa kedua model tersebut dalam tugas klasifikasi kelayakan Perbandingan dilakukan dengan tahapan Studi Literatur.
Akuisisi Data (Pengumpulan dat.
yang mengambil dataset perbankan public di kaggle.
EDA.
Pre-Processing.
Modelling.
Evaluasi, dan Analisis Evaluasi Model.
Dataset yang akan digunakan mencakup informasi data finansial dari nasabah.
Perbandingan performa pada penelitian ini menggunakan matrix akurasi, precision, recall.
F1-Score dan AUC-ROC untuk mengevaluasi kinerja masing-masing model.
Penelitian ini menghasilkan bahwa model random forest lebih unggul dengan skor Akurasi 0.
Presisi 0.
Recall 0.
98 dan F1 Score 0.
Skor AUC yang digunakan untuk melihat seberapa baik model dalam membedakan class 1 dan 0 mencapai Hasil penelitian ini diharapkan mampu memberikan rekomendasi yang bermanfaat bagi industri perbankan dalam memilih model yang paling tepat untuk penilaian kelayakan kredit.
Kata Kunci : Kelayakan Kredit.
Klasifikasi.
Logistic Regression.
Machine Learning.
Random Forest Classifier.
IJCSR: The Indonesian Journal of Computer Science Research E-ISSN 2963-9174 DOI prefix 10.
Volume 4.
No.
2 Juli 2025 https://subset.
id/index.
php/IJCSR PENDAHULUAN Peningkatan akses terhadap layanan keuangan, terutama dalam bentuk pinjaman, merupakan faktor penting dalam mendorong pertumbuhan ekonomi, terutama di negara negara berkembang.
Lembaga keuangan seperti Bank dan Koperasi merupakan organisasi yang melayani jasa simpan dan pinjam.
Bank adalah lembaga keungan yang memiliki fungsi pokok untuk memberi kredit dan jasa.
Bank juga berperan penting dalam menjembatani kebutuhan modal kerja dan investasi bagi UMKM.
Lembaga keuangan yang menyediakan jasa simpan pinjam juga masih memiliki banyak permasalah.
Contohnya seperti pada saat ada lonjakan nasabah yang mengajukan pinjaman, waktu proses menjadi lama, prosedur terlalu rumit hingga penggunaan SOP yang tidak konsisten.
Di sisi lain, ada beberapa lembaga keuangan yang memiliki keterbatasan modal untuk memberikan pinjaman kepada anggotanya.
Oleh karena itu, pengelolaan risiko kredit tetap menjadi tantangan utama bagi banyak lembaga keuangan dalam menjaga kesehatan finansialnya.
Dalam menghadapi tantangan tersebut, teknologi machine learning muncul sebagai solusi Teknologi ini telah digunakan di berbagai bidang.
mulai dari kesehatan yang mulai menerapkan teknologi ini untuk prediksi penyakit stroke pada pasien.
, pada sektor pertanian yang digunakan untuk penentuan jenis buah mangga.
, dan juga di gunakan dalam bidang teknologi sendiri dengan menerapkan sebuah model machine learning untuk klasifikasi email phising.
Dalam penelitian ini.
Logistic Regression dan Random Forest dipilih sebagai dua model yang akan dibandingkan dalam klasifikasi kelayakan penerimaan kredit.
Logistic Regression sering digunakan dalam analisis prediktif karena kesederhanaannya.
Model ini bekerja dengan baik ketika terdapat hubungan linier antara variabelvariabel independen dengan hasil yang diinginkan.
Di sisi lain.
Random Forest merupakan algoritma yang berbasis pohon keputusan dan mampu menangani data yang lebih kompleks.
Algoritma ini dikenal karena akurasinya yang tinggi dan kemampuannya dalam mengatasi overfitting, serta kemampuannya dalam menangani data yang bersifat non-linier.
Dengan membandingkan kedua model ini menggunakan dataset yang memiliki karakteristik 50% linear dan 50% non-linear melalui pemilihan fitur, penelitian ini bertujuan untuk mengetahui model mana yang lebih unggul dalam konteks klasifikasi kelayakan kredit.
Sebagai solusi atas permasalahan yang dihadapi lembaga keuangan dalam pengelolaan risiko kredit, penerapan machine learning, khususnya melalui algoritma Logistic Regression dan Random Forest, diharapkan dapat meningkatkan efisiensi dan akurasi dalam proses penilaian kelayakan kredit.
Dengan menggunakan kedua model ini, koperasi dapat mengoptimalkan pengambilan keputusan terkait pemberian pinjaman, mempercepat proses pengolahan data nasabah, serta meminimalisir risiko kredit bermasalah.
Hasil analisis komparatif ini akan membantu lembaga keuangan memilih model yang paling sesuai untuk diterapkan dalam meningkatkan kinerja keuangan serta menjaga stabilitas operasional mereka.
Tujuan yang akan dicapai oleh peneliti dalam penelitiannya adalah untuk menganalisis dan mengetahui model machine learning terbaik yang telah diuji dengan metode evaluasi dan dataset yang telah di tetapkan yang nantinya diharapkan mampu menjadi opsi yang dapat digunakan lembaga keuangan dalam kasus simpan pinjam untuk mengatasi permasalahannya.
Adapun batasan Masalah dalam penilitian ini meliputi model machine learning yang akan diuji pada penelitian ini yaitu Logistic Regression dan Random Forest Classifier.
Metode Evaluasi yang dilakukan pada kedua model machine learning menggunakan matrix accuration, precision, recall.
F1-Score dan AUCROC, dataset yang digunakan merupakan dataset open source yang berada di internet, dataset yang digunakan di atur sedemikian rupa agar bersifat 50% linear dan 50% non-linear Penelitian ini diharapkan dapat memberikan beberapa manfaat antara lain memberikan informasi tentang model terbaik dalam kasus penilaian kelayakan kredit.
Serta memberikan opsi algoritma machine learning yang unggul kepada lembaga keuangan yang melayani simpan pinjam dalam menilai kelayakan kredit pada nasabahnya.
TINJAUAN PUSTAKA
Peneliti telah melakukan studi literatur sebelum memulai penelitian ini.
Peneliti mengacu pada beberapa penelitian yang relevan dengan topik peneliti seperti penelitian Utiarahman et al.
dimana peneliti membandingkan 4 algoritma machine learning yaitu Regresi Logistik.
Decision Tree.
KNN dan SVM .
Hasil dari penelitian ini menyebutkan bahwa Decision Tree merupakan algoritma terbaik dengan hasil akurasi 99.
3%, presisi 0.
00, recall 00 dan f1-score 0.
Namun, fitur yang dipilih dari dataset yang digunakan pada penelitian ini kurang IJCSR: The Indonesian Journal of Computer Science Research E-ISSN 2963-9174 DOI prefix 10.
Volume 4.
No.
2 Juli 2025 https://subset.
id/index.
php/IJCSR Handayani, et al .
yang berusaha untuk mendapatkan performa algoritma random forest tertinggi dengan manganalisis pembagian data train dan data test yang digunakan.
Hasil dari penelitian ini random forest mendapatkan performa tertinggi dengan akurasi 88.
6%, presisi 88.
1%, recall 88.
6% dan f1-score 88.
2% pada saat menggunakan skenario pembagian data train dan test 90:10.
Namun dataset yang digunakan peneliti dalam penelitian ini masih dataset yang bersifat linear Nugroho .
yang membandingkan 5 algoritma machine learning yaitu Logistic Regression.
Random Forest.
KNN.
SGD dan Neural Network.
Penelitian menggunakan data hasil pemeriksaan penyakit kardiovaskular sejumlah 195 data.
Hasil dari penelitian ini menunjukkan bahwa algoritma Neural Network merupakan algoritma dengan kinerja terbaik yaitu dengan nilai akurasi sebesar 89.
AUC 0.
873, presisi 0.
877 dan recall 0.
namun pemilihan fitur yang dipilih serta metode yang dilakukan untuk memilih fitur oleh peniliti kurang jelas Akbar .
dimana penelitiannya membandingkan 3 algoritma machine learning yaitu Regresi Logistik.
Decision Tree, dan Random Forest.
Penelitian menggunakan dataset sebanyak 319.
795 data.
Penelitian ini menerapkan metode k-fold pada feature selection.
Yang dimana metode tersebut bersifat rumit dan kurang efisien dalam menemukan fitur yang berkorelasi rendah.
Penggunaan cara manual dalam pemilihan feature berdasarkan heatmap akan lebih efisien jika dilakukan Maulina .
yang membandingkan 2 algoritma machine learning, random forest classifier dan SVM.
Random Forest memperoleh skor akurasi yang lebih tinggi yaitu 95% jika dibandingkan dengan SVM yang hanya mendapatkan 91% .
Pada penelitian ini, peneliti menggunakan teknik SelectKBest menggunakan uji ANOVA-F yang dimana teknik ini hanya akan memilih feature yang berhubungan linear dengan class yang sudah dipilih.
Penggunaan teknik feature selection berdasarkan heatmap akan menghasilkan opsi fitur yang dapat dipilih lebih beragam dan dapat disesuaikan dengan tujuan penelitian.
Serta Gustian .
yang juga membandingkan 3 algoritma machine learning yaitu logistic regression.
SVM, dan random forest classifier.
Hasil dari penelitian ini yaitu nilai akurasi dari SVM merupakan yang tertinggi dari ke 3 model tersebut.
Tetapi penelitian ini menggunakan matriks evaluasi yang sangat terbatas untuk perbandingannya.
Penelitian ini hanya membandingkan berdasarkan akurasi saja.
Akan lebih baik jika setidaknya perbandingan dilakukan dengan matriks evaluasi standar .
kurasi, presisi, recall dan AUC-ROC.
METODE PENELITIAN
Metode penelitian ini terdiri atas beberapa tahapan yaitu EDA.
Pre Processing.
Modelling.
Evaluasi dan Analisis Evaluasi Model sebagaimana dapat dilihat pada gambar 1.
GAMBAR 1.
Metode Penelitian IJCSR: The Indonesian Journal of Computer Science Research E-ISSN 2963-9174 DOI prefix 10.
Volume 4.
No.
2 Juli 2025 https://subset.
id/index.
php/IJCSR Pada penelitian ini data yang digunakan merupakan dataset public yang didapatkan dari situs kaggle.
Dataset ini terdiri dari 32.
586 baris data dalam bentuk file csv.
Dan terdiri dari 13 fitur.
Fitur merupakan sejumlah atribut yang menangkap karakteristik dari object data tersebut.
antara lain customer_id, customer_age, customer_income, home_ownership, employment_duration, loan_intent, loan_grade, loan_amnt, loan_int_rate, term_years, historical_default, cred_hist_length.
Current_loan_status.
berikut merupakan sampel data yang terdapat pada dataset.
EDA
Exploratory Data Analysis (EDA) merupakan proses di mana peneliti secara menyeluruh memeriksa fitur-fitur yang terdapat pada dataset, mengidentifikasi adanya anomali, serta mempelajari setiap fitur mulai dari arti, format, hingga seberapa penting fitur tersebut terhadap penelitian yang dilakukan.
Pada tahap ini, tipe dari masing-masing fitur juga diperiksa dengan cermat untuk memastikan kesesuaiannya.
Pemeriksaan ini sangat penting karena hasilnya akan menjadi dasar bagi langkah-langkah lanjutan, seperti proses data cleaning maupun data standardization, sehingga data yang digunakan dalam pemodelan nantinya benar-benar berkualitas dan siap diolah.
Pre-Processing Ditahap ini dilakukan data cleaning, label encoding, balancing data dan pemilihan fitur.
Standarization dilakukan untuk menyeragamkan format data agar dapat diolah oleh algoritma machine learning dan agar pada saat dilakukan encoding tidak terlalu banyak data baru yang tercipta.
Data cleaning dilakukan untuk menghilangkan data n/a.
Label encoding dilakukan untuk mengubah fitur yang mempunyai tipe kategorikal ke bentuk numerik.
Balancing data dilakukan agar jumlah kelas 0 dan 1 menjadi seimbang.
Hal ini bertujuan untuk meningkatkan kinerja model.
Balancing data pada penelitian ini menggunakan 2 teknik undersampling.
Random undersampling dan Nearmiss v2.
Feature Selection, pemilihan fitur pada penelitian ini menggunakan dasar korelasi yang dihasilkan oleh heatmap dan juga grafik korelasi.
Dengan demikian karakteristik dataset akan bersifat 50% linear dan 50% non Konsep Linear pada dataset adalah ketika antar variabel/fitur pada dataset memiliki korelasi yang Prinsip utama dari konsep ini adalah input:output = contant .
Apabila di tunjukkan dengan grafik, maka data data tersebut akan membentuk sebuah garis lurus.
Konsep Non-Linear pada sebuah dataset adalah ketika hubungan antara variabel tidak selalu konstan.
Dalam konsep ini, prinsip utama yang ada pada konsep linear tidak lagi berlaku.
Yang artinya bahwa hubungan antara kedua variabel .
nput dan outpu.
lebih kompleks.
Apabila digambarkan pada sebuah grafik maka konsep tidak akan membentuk garis lurus.
Modelling Pada tahap modeling, setelah dataset melalui proses pre-processing sehingga siap digunakan, peneliti membangun dua model machine learning yaitu Logistic Regression dan Random Forest.
Dataset kemudian dibagi menjadi data latih dan data uji dengan rasio 80:20 untuk mendukung performa model .
Setelah itu dilakukan proses training pada data latih hingga diperoleh model akhir yang siap digunakan.
Model tersebut kemudian diuji kembali pada data uji untuk memastikan kinerja, sekaligus dibandingkan performanya dalam tugas klasifikasi kelayakan kredit.
Evaluasi Model Hasil performa dari masing-masing model akan dianalisis pada tahap ini dengan menggunakan beberapa matriks evaluasi, yaitu akurasi, presisi, recall.
F1-Score, serta AUC-ROC.
Kelima metode evaluasi ini dipilih karena mampu memberikan gambaran yang lebih komprehensif mengenai kualitas prediksi model.
Akurasi digunakan untuk melihat persentase prediksi yang benar, presisi digunakan untuk mengetahui seberapa banyak prediksi positif yang tepat, dan recall digunakan untuk mengukur seberapa baik model menemukan seluruh kasus positif yang sebenarnya.
F1-Score merupakan kombinasi harmonis antara presisi dan recall yang membantu menilai keseimbangan performa model.
Selain itu.
AUC-ROC digunakan untuk mengukur seberapa baik model dalam membedakan antara nasabah yang layak kredit dan yang tidak layak kredit .
Berbagai metrik tersebut juga sangat membantu dalam tahap tuning model agar kinerjanya semakin optimal .
IJCSR: The Indonesian Journal of Computer Science Research E-ISSN 2963-9174 DOI prefix 10.
Volume 4.
No.
2 Juli 2025 https://subset.
id/index.
php/IJCSR Analisis Evaluasi Model Pada tahap ini, performa dari kedua model akan dibandingkan secara menyeluruh dengan tujuan untuk menemukan model dengan performa terbaik.
Perbandingan dilakukan berdasarkan hasil pengukuran metrik evaluasi yang telah diperoleh sebelumnya, seperti akurasi, presisi, recall.
F1-Score, dan AUC-ROC.
Setiap nilai metrik dianalisis untuk melihat keunggulan dan kelemahan masing-masing model dalam mengklasifikasikan data nasabah.
Proses ini tidak hanya membandingkan angka, tetapi juga mempertimbangkan konsistensi model dalam menentukan kelayakan kredit.
HASIL DAN PEMBAHASAN
EDA
Pada tahap ini, peneliti mempelajari berbagai hal yang memengaruhi penelitian dari dataset yang digunakan, termasuk memahami fitur-fitur yang tersedia dan tipe data dari masing-masing fitur.
Berdasarkan Tabel 1, dapat dilihat bahwa dataset memiliki beberapa kolom utama seperti Aucustomer_idAy.
Aucustomer_ageAy.
Aucustomer_incomeAy.
Auhome_ownershipAy.
Auemployment_durationAy.
Auloan_intentAy.
Auloan_gradeAy.
Auloan_amntAy.
Auloan_int_rateAy.
Auterm_yearsAy.
Auhistorical_defaultAy.
Aucred_hist_lengthAy, dan AuCurrent_loan_statusAy.
Setiap kolom memiliki jumlah data yang berbeda-beda, terlihat dari nilai Non-Null Count.
Column TABEL 1.
Output informasi dataset Non-Null Count customer_id customer_age customer_income home_ownership employment_duration loan_intent loan_grade loan_amnt loan_int_rate term_years historical_default cred_hist_length Current_loan_status 32583 non-null 32586 non-null 32586 non-null 32586 non-null 31691 non-null 32586 non-null 32586 non-null 32585 non-null 29470 non-null 32586 non-null 11849 non-null 32586 non-null 32582 non-null Dtype Beberapa kolom seperti Auemployment_durationAy.
Auloan_int_rateAy.
Auhistorical_defaultAy, dan AuCurrent_loan_statusAy memiliki jumlah Non-Null Count yang tidak penuh, menunjukkan adanya missing value yang perlu ditangani pada tahap pre-processing.
Selain itu, ditemukan juga beberapa fitur yang bertipe object padahal seharusnya dapat dikonversi menjadi numerik, misalnya pada Aucustomer_incomeAy dan Auloan_amntAy.
Hal ini menunjukkan adanya ketidaksesuaian format data yang harus diperbaiki agar dapat diproses lebih lanjut oleh model machine learning.
Analisis awal ini membantu peneliti memahami karakteristik dataset serta langkah-langkah yang diperlukan untuk membersihkan dan menyiapkan data sebelum masuk ke tahap pemodelan.
Pre Processing Tahap ini terbagi menjadi 5 tahapan penting, yaitu data standarization, data cleaning, label encoding, balancing data dan feature selection.
Detail dari kelima tahapan tersebut dapat dilihat pada poin setiap tahapan.
Data Standarization Fitur Auloan_amntAy, berformat object tetapi tidak bisa langsung di ubah menjadi numeric karena memiliki simbol AuAAy.
Au,Ay, dan Au.
Ay.
begitu juga dengan fitur Aucustomer_incomeAy yang memiliki simbol Au,Ay.
Maka perlu dilakukan beberapa tahap untuk menghilangkan simbol simbol tersebut.
Fitur Aucustomer_incomeAy dan Auloan_amntAy di ubah IJCSR: The Indonesian Journal of Computer Science Research E-ISSN 2963-9174 DOI prefix 10.
Volume 4.
No.
2 Juli 2025 https://subset.
id/index.
php/IJCSR yang semula bertipe data object menjadi numerik.
Serta perbaikan penamaan fitur pada fitur terakhir yang semula AuCurrent_loan_statusAy menjadi Aucurrent_loan_statusAy.
Data Cleaning Tahap ini bertujuan untuk menghilangkan missing value.
Data missing value dapat dilihat di tabel 2 TABEL 2.
Output informasi missing value Nama Fitur Jumlah Missing Value customer_id customer_age customer_income home_ownership employment_duration loan_intent loan_grade loan_amnt loan_int_rate term_years historical_default cred_hist_length current_loan_status Dari tabel 2 dapat dilihat bahwa terdapat beberapa missing value di berbagai macam fitur.
Peneliti menggunakan library pandas untuk menghilangkan missing value yang berjumlah sedikit jika dibandingkan dengan total data.
Handling missing value pada penelitian ini dilakukan dengan 2 cara.
Drop n/a dan mengganti nilai n/a dengan rata rata .
dari sebuah fitur.
Dilihat dari tabel 2 terdapat fitur yang memiliki missing value yang sangat rendah yaitu Aucurrent_loan_statusAy.
Dan juga terdapat fitur yang tidak digunakan yaitu Aucustomer_idAy.
Maka dengan demikian bisa dilakukan proses drop n/a pada Aucurrent_loan_statusAy dan drop fitur pada fitur Aucustomer_idAy.
Untuk fitur employment duration, peneliti menggunakan nilai 4,8 yang merupakan rata rata nilai dari fitur tersebut untuk mengisi missing value.
Fitur Auloan_int_rateAy juga di isi dengan nilai rata rata yaitu 11.
Oleh karena fitur Auhistorical_defaultAy bertipe data object, maka peneliti menggunakan modus .
ilai yang sering muncu.
untuk mengisi missing value.
Berdasarkan penggunaan method Au.
value_countsAy pada library pandas, didapatkan bahwa value AuYAy merupakan modus dengan kemunculan nya yang berjumlah 6127.
Sedangkan AuNAy hanya berjumlah 5717.
Label Encoding Fitur kategorikal berbentuk object, seperti Auhome_ownership,Ay Auloan_intent,Ay Auloan_grade,Ay Auhistorical_default,Ay dan Aucurrent_loan_status,Ay masih belum diubah ke dalam format numerik.
Padahal, algoritma machine learning hanya dapat memproses data dalam bentuk numerik .
Oleh karena itu, diperlukan proses transformasi fitur untuk mengonversi data kategorikal menjadi representasi numerik agar dapat digunakan dalam model machine learning.
Salah satu metode yang umum digunakan adalah label encoding, di mana setiap kategori unik dalam fitur dikodekan dengan nilai numerik yang berbeda.
Metode ini memungkinkan model untuk memahami perbedaan antara kategori tanpa harus mengubah struktur data yang ada.
Value dari fitur Auhome_ownershipAy berubah setelah melalui tahap ini menjadi seperti pada tabel 3 TABEL 3.
Fitur Auhome_ownershipAy encoding Sebelum label encoding Setelah label encoding MORTGAGE
OTHER
OWN
RENT
IJCSR: The Indonesian Journal of Computer Science Research E-ISSN 2963-9174 DOI prefix 10.
Volume 4.
No.
2 Juli 2025 https://subset.
id/index.
php/IJCSR Tabel 3 menunjukkan hasil proses label encoding yang diterapkan pada fitur Auhome_ownershipAy.
Sebelumnya, fitur ini memiliki nilai kategorikal berupa AuMORTGAGEAy.
AuOTHERAy.
AuOWNAy, dan AuRENTAy yang tidak dapat langsung diproses oleh model machine learning.
Setelah melalui tahap label encoding, setiap kategori tersebut diubah menjadi representasi numerik, yaitu AuMORTGAGEAy menjadi 0.
AuOTHERAy menjadi 1.
AuOWNAy menjadi 2, dan AuRENTAy Hal tersebut juga dilakukan pada beberapa fitur yang bertipe data object lainnya seperti fitur Auloan_intentAy.
Auloan_gradeAy.
Auhistorical_defaultAy, dan Aucurrent_loan_statusAy.
Transformasi ini bertujuan untuk mempermudah algoritma dalam membaca serta memproses data secara efisien tanpa mengubah makna dari setiap kategori.
Dengan demikian, data yang semula bersifat teks kini telah siap digunakan dalam tahap pemodelan dan evaluasi lebih lanjut.
Balancing Data Terdapat ketidakseimbangan pada dataset yang digunakan.
Class 1 berjumlah 25.
742 sedangkan class 0 hanya Hal ini dapat menurunkan performa model.
Oleh karena itu peneliti menerapkan 2 teknik undersampling, yaitu Random undersampling dan Nearmiss v2 untuk menangani imbalance data dan menjaga agar jumlah data pada dataset tidak terlalu banyak sehingga berpengaruh pada waktu pelatihan yang lama.
Kedua teknik undersampling tersebut mengasilkan jumlah data pada class 1 berubah menjadi sama dengan class 0 yaitu 6839.
Dengan demikian, data menjadi lebih proporsional dan siap digunakan untuk pemodelan tanpa bias terhadap kelas Feature Selection Peneliti menggunakan dasar korelasi di heatmap dan juga grafik korelasi antar variabel independen dan dependen .
robability plo.
Berdasarkan korelasi fitur yang telah dilakukan.
Peneliti mengambil fitur yang memiliki korelasi >0 dengan variabel y.
Dengan parameter tersebut maka diperoleh 8 fitur yang lolos seleksi yaitu.
Aucustomer_ageAy.
Aucustomer_incomeAy.
Auemployment_durationAy.
Auloan_amntAy.
Auterm_yearsAy.
Aucred_hist_lengthAy.
Auloan_intent_numericAy.
Auhistorical_default_numericAy.
Untuk membuat sifat dataset menjadi 50% linear dan 50% non linear, maka peneliti melakukan seleksi fitur sekali lagi dengan grafik korelasi antara 1 variabel x dengan variabel y.
Hal ini tidak mungkin dapat dilakukan dengan nilai variabel y yang merupakan binary .
, maka peneliti menggunakan bantuan dari model logistic regression untuk menampilkan grafik probabilitas korelasi antara 2 variabel Proses ini dilakukan satu per satu untuk tiap fitur yang sudah lolos seleksi di tahap sebelumnya.
GAMBAR 2.
Hasil korelasi antara fitur Aucustomer_ageAy GAMBAR 3.
Hasil korelasi antara fitur Aucustomer_incomeAy Gambar 2 dan Gambar 3 merupakan salah satu contoh korelasi.
Grafik pada gambar 2 menunjukkan bahwa independent variable yang merupakan fitur Aucutomer_ageAy memiliki korelasi linear dengan dependent variable yaitu Aucurrent_loan_status_numericAy.
Berbanding terbalik dengan contoh lainnya yang dapat dilihat di Grafik pada Gambar 3 yang menunjukkan bahwa independent variable yang merupakan fitur Aucutomer_incomeAy memiliki korelasi nonlinear dengan dependent variable yaitu Aucurrent_loan_status_numericAy.
IJCSR: The Indonesian Journal of Computer Science Research E-ISSN 2963-9174 DOI prefix 10.
Volume 4.
No.
2 Juli 2025 https://subset.
id/index.
php/IJCSR TABEL 4.
Klasifikasi Fitur Berdasarkan Karakteristik Fitur yang bersifat linear dengan variabel y Fitur yang bersifat non-linear dengan variabel y customer_age term_years cred_hist_length loan_intent_numeric customer_income employment_duration loan_amnt historical_default_numeric Dari grafik masing-masing fitur yang telah di teliti, dapat disimpulkan bahwa fitur yang bersifat linear dan fitur yang bersifat non-linear dengan variabel y dapat dilihat pada tabel 4.
Dari sifat masing masing fitur terhadap variabel y dapat disimpulkan bahwa fitur yang bersifat linear berjumlah 4 dan non-linear berjumlah 4.
Maka dengan demikian, sifat dataset 50% linear dan 50% non linear sudah tercapai.
Modelling Tahap modelling terdiri dari splitting data, inisialisasi model, dan training.
Rasio data train dan test pada penelitian ini menggunakan ratio yang sering dipakai di penelitian sebelumnya dan dapat meningkatkan kinerja model yaitu rasio 80:20.
Dengan demikian maka data train menjadi berjumlah 10.
942 dan data test berjumlah 2.
736 dengan proporsi 50:50 tiap class nya.
Komposisi ini digunakan di kedua dataset.
Baik yang menggunakan teknik random undersampling maupun Nearmiss v2.
Pada tahap inisialisasi model dan training, peneliti menggunakan paramater training default dari masing masing model machine learning.
Evaluasi Evaluasi model terbagi menjadi 3 tahapan.
Tahapan pertama yaitu melihat performa model dengan matriks evaluasi yang meliputi Akurasi.
Presisi.
Recall dan F1-Score.
Hasil dari tahapan ini dapat dilihat pada tabel 5.
TABEL 5.
Output Hasil Evaluasi Model Logistic Regression dan Random Forest Classifier Model Machine Learning Logistic Regression (Random Undersamplin.
Random Forest (Random Undersamplin.
Logistic Regression (Nearmiss V2 Undersamplin.
Random Forest (Nearmiss V2 Undersamplin.
Akurasi Presisi Recall F1-Score Dari tabel 5 dapat dilihat bahwa model Logistic Regression memiliki performa yang cukup baik ketika menggunakan teknik undersampling Nearmiss v2.
Skor Akurasi yang didapatkan oleh model Logistic Regression 88.
Presisi 0.
Recall 0.
90 dan F1 Score 0.
Sedangkan model Random Forest Classifier meraih skor terbaik ketika menggunakan teknik undersampling Nearmiss v2.
Skor Akurasinya mencapai 0.
Presisi 0.
Recall 98 dan F1 Score 0.
Tahap terakhir pada evaluasi model adalah menampilkan dan melihat grafik AUC-ROC dari masing masing model.
Peneliti menemukan bahwa ketika teknik undersampling Nearmiss v2 di terapkan, model logistic regression mengalami peningkatan yang signifikan.
Model ini dapat membedakan class 0 dan 1 dengan baik ditunjukkan dengan skor ROC yang mencapai 0.
Model Random Forest juga mengalami peningkatan.
Dengan penggunaan Nearmiss V2 undersampling, model ini sangat baik dalam membedakan class 0 dan 1 ditunjukkan dengan skor ROC nya yang Analisis Evaluasi Model Hasil evaluasi dari kedua model dapat dilihat perbandingan nya melalui grafik matriks evaluasi.
IJCSR: The Indonesian Journal of Computer Science Research E-ISSN 2963-9174 DOI prefix 10.
Volume 4.
No.
2 Juli 2025 https://subset.
id/index.
php/IJCSR GAMBAR 4 Perbandingan performa kedua model Dari grafik pada gambar 4 dapat disimpulkan bahwa model Random Forest lebih unggul dengan skor tertinggi Akurasi 0.
Presisi 0.
Recall 0.
98 dan F1 Score 0.
96 saat menggunakan teknik undersampling Nearmiss V2.
Sedangkan model Logistic Regression yang hanya mendapatkan skor performa tertinggi menggunakan Nearmiss V2 dengan detail skor yaitu Akurasi 0.
Presisi 0.
Recall 0.
90 dan F1 Score 0.
Tingkat konsistensi kedua model dalam membedakan prediksi ke kedua class, dapat dilihat pada grafik perbandingan AUC-ROC dibawah.
TABEL 6.
Output Hasil Grafiik AUC-ROC Kedua Model pada teknik undersampling yang berbeda Grafik AUC-ROC kedua model pada Random Grafik AUC-ROC kedua model pada Nearmiss V2 Undersampling Undersampling Dari grafik pada tabel 6, terlihat bahwa model random forest classifier lebih unggul dalam membedakan kelas positif dan negatif pada kedua teknik undersampling dengan score tertinggi AUC 0.
98, sementara model logistic regression hanya mendapatkan AUC tertinggi sebesar 0.
Hal ini disebabkan oleh sifat dataset yang telah di buat bersifat 50% linear dan 50% non linear.
Dengan grafik ini terlihat bahwa random forest dapat menangani hampir semua jenis data sedangkan logistic regression kurang mampu dalam menghadapi data data yang bersifat non-linear.
Model TABEL 7.
Waktu Pelatihan Model Waktu Pelatihan Logistic regression Random Forest Logistic Regression (Nearmiss V.
Random Forest (Nearmiss V.
121 ms 173 ms IJCSR: The Indonesian Journal of Computer Science Research E-ISSN 2963-9174 DOI prefix 10.
Volume 4.
No.
2 Juli 2025 https://subset.
id/index.
php/IJCSR Selain dari matriks evaluasi dan AUC-ROC, peneliti juga mempertimbangkan waktu yang digunakan untuk melatih masing masing model.
Berdasarkan Tabel 7, dapat disimpulkan bahwa ketika kedua model dilatih dengan dataset yang menghasilkan performa terbaik model yaitu dataset yang menggunakan teknik undersampling Nearmiss V2, model Logistic Regression memerlukan waktu hanya 173 milisecond untuk menyelesaikan pelatihan sedangkan Random Forest memerlukan waktu lebih lama dari waktu pelatihan logistic regression yaitu 1.
35 detik.
KESIMPULAN
Kesimpulan dari penelitian ini adalah bahwa model Logistic Regression memerlukan waktu 173 ms untuk melakukan pelatihan dan mendapatkan skor Akurasi 0.
Presisi 0.
Recall 0.
F1 Score 0.
88, serta AUC 0.
yang menunjukkan kemampuan membedakan class 1 dan 0.
Sementara itu, model Random Forest Classifier memerlukan waktu 1.
35 detik untuk pelatihan dan memperoleh skor Akurasi 0.
Presisi 0.
Recall 0.
Score 0.
96, serta AUC 0.
Dari kedua model yang dibandingkan, dapat disimpulkan bahwa Random Forest merupakan model terbaik dalam kasus penilaian kelayakan kredit dengan dataset yang digunakan karena unggul di segala lini kecuali waktu pelatihan dibandingkan dengan model Logistic Regression TINJAUAN PUSTAKA Batubara.
AuPeran Koperasi Syariah Dalam Meningkatkan Perekonomian dan Kesejahteraan Masyarakat Di Indonesia,Ay J.
Ilm.
Ekon.
Islam, vol.
7, no.
03, pp.
1494Ae1498, 2021, [Onlin.
Available: http://jurnal.
id/index.
php/jiedoi:http://dx.
org/10.
29040/jiei.
Merentek.
AuAnalisis Kinerja Keuangan Antara Bank Negara Indonesia (Bn.
Dan Bank Mandiri Menggunakan Metode Camel,Ay J.
Ris.
Ekon.
Manajemen.
Bisnis dan Akunt.
, vol.
1, no.
3, pp.
645Ae652, 2013.
Wilarjo.
AuPengertian.
Peranan, dan Perkembangan Bank Syariah di Indonesia,Ay Igarss 2014, vol.
2, no.
1, pp.
1Ae5.
Syafriansyah.
AuAnalisis Sistem Dan Prosedur Pemberian Kredit Pada Koperasi Simpan Pinjam Sentosa Di Samarinda,Ay Ilmu Adm.
Bisnis, vol.
3, no.
1, pp.
83Ae93, 2015, [Onlin.
Available: http://w.
Perkasa and W.
Sulistiani.
AuPeran dan Tantangan Koperasi dalam Pembangunan Ekonomi Masyarakat yang Bebas di Desa Namo Bintang Kecamatan Pancur Batu,Ay El-Mujtama J.
Pengabdi.
Masyarakat , vol.
4, no.
2, pp.
710Ae 719, 2024, doi: 10.
47467/elmujtama.
Indah Werdiningsih et al.
AuAnalisis Prediksi Stroke Menggunakan Pendekatan Decision Tree dengan Seleksi Fitur dan Neural Network,Ay J.
Sist.
Cerdas, vol.
6, no.
3, pp.
213Ae221, 2023, doi: 10.
37396/jsc.
Suroyo.
AuPenerapan Machine Learning dengan Aplikasi Orange Data Mining Untuk Menentukan Jenis Buah Mangga,Ay Semin.
Nas.
Teknol.
Komput.
Sains, vol.
1, no.
1, pp.
343Ae347, 2019, [Onlin.
Available: https://prosiding.
com/index.
php/sainteks/article/view/177 Anggraini and T.
Sutabri.
AuIJM: Indonesian Journal of Multidisciplinary Pengembangan Aplikasi Penyaringan Spam e-Mail Menggunakan Teknik Machine Learning dengan Metode Support Vector Machines,Ay IJM Indones.
Multidiscip.
2, pp.
106Ae114, 2024, [Onlin.
Available: https://journal.
csspublishing/index.
php/ijm com.
AuApa itu Regresi Logistik?,Ay aws.
Accessed: Oct.
20, 2024.
[Onlin.
Available:
https://aws.
com/id/what-is/logistic-regression/ Biagetti.
Crippa.
Falaschetti.
Tanoni, and C.
Turchetti.
AuA comparative study of machine learning algorithms for physiological signal classification,Ay Procedia Comput.
Sci.
, vol.
126, pp.
1977Ae1984, 2018, doi:
1016/j.
AuMengenal Algoritma Random Forest,Ay algorit.
Accessed: Oct.
20, 2024.
[Onlin.
Available:
https://algorit.
ma/blog/cara-kerja-algoritma-random-forest-2022/ Utiarahman and A.
Pratama.
AuAnalisis Perbandingan KNN.
SVM.
Decision Tree dan Regresi Logistik Untuk Klasifikasi Obesitas Multi Kelas,Ay KLIK Kaji.
Ilm.
Inform.
dan Komput.
, vol.
4, no.
6, pp.
3137Ae3146, 2024, doi:
30865/klik.
Handayani and A.
Charis Fauzan.
AuKLIK: Kajian Ilmiah Informatika dan Komputer Machine Learning Klasifikasi Status Gizi Balita Menggunakan Algoritma Random Forest,Ay Media Onlin.
, vol.
4, no.
6, pp.
3064Ae3072, 2024, doi:
30865/klik.
Adi Nugroho.
Agustinus Bimo Gumelar.
Adri Gabriel Sooai.
Dyana Sarvasti, and Paul L Tahalele.
AuPerbandingan Performansi Kinerja Algoritma Pengklasifikasian Terpandu Untuk Kasus Penyakit Kardiovaskular,Ay J.
RESTI (Rekayasa Sist.
dan Teknol.
Informas.
, vol.
4, no.
5, pp.
998Ae1006, 2020, doi: 10.
29207/resti.
Akbar.
AuPerbandingan Teknik Machine Learning Untuk Diagnosisi dan Prediksi Penyakit Jantung,Ay Amikom Yogyakarta, 2024.
[Onlin.
Available: http://eprints.
id//id/eprint/26265/ IJCSR: The Indonesian Journal of Computer Science Research E-ISSN 2963-9174 DOI prefix 10.
Volume 4.
No.
2 Juli 2025 https://subset.
id/index.
php/IJCSR .
Maulina.
AuKomparasi Algoritma Support Vector Machine dan Random Forest Classifier Untuk Mengklasifikasikan Pembagian Kelas Siswa Kelas Vi,Ay Amikom Yogyakarta, [Onlin.
Available:
http://eprints.
id//id/eprint/26478/ Gustian.
AuPrediksi Penyakit Diabetes menggunakan Machine Learning,Ay Amikom Yogyakarta, 2023.
[Onlin.
Available: http://eprints.
id//id/eprint/22668/ Hidayat.
AuType Data Mining,Ay Artic.
Min.
Massive Datasets, vol.
2, no.
January 2013, pp.
5Ae20, 2015.
Santiago.
AuMenyeimbangkan Data yang Tidak Seimbang: Teknik Undersampling dan Oversampling dalam Python.
Ay Accessed: Nov.
23, 2024.
[Onlin.
Available: https://medium-com.
goog/@daniele.
santiago/balancingimbalanced-data-undersampling-and-oversampling-techniques-in-python7c5378282290?_x_tr_sl=en&_x_tr_tl=id&_x_tr_hl=id&_x_tr_pto=rq&_x_tr_hist=true Mahapatra.
Au[ML basic.
[Regressio.
How to tell if a dataset is linear or not?,Ay medium.
Accessed: Nov.
15, 2024.
[Onlin.
Available: https://medium.
com/@abhinav.
mahapatra10/ml-basics-regression-how-to-tell-if-a-dataset-is-linearor-not-594a4f1e8aaf Zarra.
AuMachine Learning: Linearity vs Nonlinearity,Ay linkedin.
Accessed: Nov.
15, 2024.
[Onlin.
Available:
https://w.
com/pulse/machine-learning-linearity-vs-nonlinearity-reday-zarra/ Muraina.
AuIdeal Dataset Splitting Ratios in Machine Learning Algorithms: General Concerns for Data Scientists and Data Analysts,Ay 7th Int.
Mardin Artuklu Sci.
Res.
Conf.
, no.
February, pp.
496Ae504, 2022, [Onlin.
Available:
https://w.
net/publication/358284895_IDEAL_DATASET_SPLITTING_RATIOS_IN_MACHINE_LE ARNING_ALGORITHMS_GENERAL_CONCERNS_FOR_DATA_SCIENTISTS_AND_DATA_ANALYSTS Arthana.
AuMengenal Accuracy.
Precision.
Recall dan Specificity serta yang diprioritaskan dalam Machine Learning.
Ay Accessed: Nov.
15, 2024.
[Onlin.
Available: https://rey1024.
com/mengenal-accuracy-precission-recall-danspecificity-serta-yang-diprioritaskan-b79ff4d77de8 Ahmed.
AuWhat is A Confusion Matrix in Machine Learning? The Model Evaluation Tool Explained.
Ay Accessed:
Nov.
15, 2024.
[Onlin.
Available: https://w.
com/tutorial/what-is-a-confusion-matrix-in-machine-learning Kurniawan and A.
Susanto.
AuImplementasi Metode K-Means dan Nayve Bayes Classifier untuk Analisis Sentimen Pemilihan Presiden (Pilpre.
2019,Ay Eksplora Inform.
, vol.
9, no.
1, pp.
1Ae10, 2019, doi: 10.
30864/eksplora.
Siti Alvi Sholikhatin Khairunnisak Nur Isnaini.
AuFaculty of Sains and Technology.
Ibrahimy University,Ay Ilm.
Inform.
6, no.
1, pp.
43Ae49, 2021, [Onlin.
Available: Siti Alvi Sholikhatin.
Khairunnisak Nur Isnaini.