401
Progresif: Jurnal Ilmiah Komputer https://ojs.
stmik-banjarbaru.
id/index.
php/progresif/index Jl.
Ahmad Yani.
33,5 - Kampus STMIK Banjarbaru Loktabat Ae Banjarbaru (Tlp.
, e-mail: puslit.
stmikbjb@gmail.
e-ISSN: 2685-0877 Penerapan Algoritma Decision Tree Dalam Deteksi Fraud Transaksi Kartu Kredit DOI: http://dx.
org/10.
35889/progresif.
Creative Commons License 4.
0 (CC BY AeNC) Gladisya Devina Agustine1.
Irwansyah2* Teknik Informatika.
Universitas Muhammadiyah Prof.
DR.
Hamka.
Jakarta.
Indonesia *e-mail Corresponding Author: irwansyah@uhamka.
Abstract Credit card fraud poses a serious threat in digital financial systems.
Manual detection of suspicious transactions has become ineffective due to detecting fraudulent transactions using the Decision Tree algorithm.
The dataset used was obtained from Kaggle and underwent preprocessing and attribute selection.
The model was tested under four data split scenarios:
90:10, 80:20, 70:30, and 60:40.
Performance evaluation was conducted using a confusion matrix with accuracy, precision, and recall metrics.
The results show that the 60:40 data split yielded the best performance, with an accuracy of 97,47%, precision of 86,34%, and recall of 78,67%.
These findings indicate that the Decision Tree algorithm can produce highly accurate classification results even without applying data balancing techniques.
Kata kunci: Credit Card.
Fraud Detection.
Decision Tree.
Data Mining.
Abstrak Penipuan dalam transaksi kartu kredit merupakan ancaman serius dalam sistem keuangan Deteksi secara manual terhadap transaksi yang mencurigakan menjadi tidak efektif seiring dengan meningkatnya volume data.
Penelitian ini bertujuan untuk mengembangkan model klasifikasi untuk mendeteksi transaksi fraud menggunakan algoritma Decision Tree C4.
Dataset yang digunakan diperoleh dari Kaggle dan telah melalui proses praproses dan seleksi atribut.
Pengujian dilakukan dengan empat skenario pembagian data training dan data testing, yaitu 90:10, 80:20, 70:30, dan 60:40.
Evaluasi performa dilakukan menggunakan confusion matrix dengan metrik akurasi, presisi, dan recall.
Hasil menunjukkan bahwa pembagian data 60:40 memberikan performa terbaik dengan nilai akurasi sebesar 97,47%, presisi 86,34%, dan recall 78,67%.
Model ini menunjukkan bahwa algoritma Decision Tree mampu memberikan hasil klasifikasi yang sangat baik bahkan tanpa teknik penyeimbangan data.
Kata kunci: Kartu Kredit.
Deteksi Penipuan.
Decision Tree.
Data Mining.
Pendahuluan Perkembangan teknologi digital yang sangat cepat di sektor keuangan telah membawa kemudahan bagi masyarakat dalam melakukan berbagai macam transaksi, termasuk penggunaan kartu kredit.
Seiring dengan kemunculan platform jual-beli dan transaksi daring, pola konsumsi individu maupun bisnis menjadi lebih efisien dan instan .
Meski begitu, kemajuan ini juga disertai tantangan besar, yaitu meningkatnya risiko terjadinya penipuan kartu kredit .
Penipuan semacam ini merupakan kejahatan yang tak hanya menimbulkan kerugian bagi pemilik kartu, tetapi juga mengancam stabilitas dan citra lembaga keuangan .
Oleh sebab itu, dibutuhkan sistem yang mampu mendeteksi transaksi penipuan secara tepat dan seketika di era digital saat ini.
Kejahatan penipuan kini semakin kompleks dan sulit diidentifikasi dengan cara manual, sehingga diperlukan sistem pendeteksian otomatis yang dapat mengenali pola transaksi mencurigakan dengan efisiensi tinggi .
Berbagai teknik deteksi telah dikembangkan, namun masih banyak menghadapi permasalahan seperti akurasi prediksi yang rendah dan ketidakseimbangan dalam distribusi data .
Penerapan Algoritma Decision Tree Dalam Deteksi Fraud a Gladisya Devina Agustine e-ISSN: 2685-0877 Sebagai pendekatan alternatif, algoritma Decision Tree dipilih dalam penelitian ini karena memiliki sejumlah kelebihan dibanding metode data mining lainnya .
Kelebihan tersebut antara lain adalah kemudahan dalam pemahaman, penerapan yang sederhana, tidak memerlukan pengetahuan teknis yang mendalam, serta kemampuannya untuk menangani data numerik maupun kategorikal dalam skala besar, termasuk data yang tidak seimbang .
Decision Tree mengklasifikasikan data berdasarkan atribut-atribut tertentu melalui pembentukan struktur pohon keputusan yang sistematis dan logis .
Dengan membangun pohon keputusan berdasarkan aktivitas transaksi pengguna, metode ini diharapkan mampu mengidentifikasi potensi penipuan dengan lebih akurat dan efisien.
Penelitian ini bertujuan untuk membangun dan mengevaluasi model klasifikasi berbasis algoritma Decision Tree dalam mendeteksi transaksi penipuan pada kartu kredit.
Manfaat dari penelitian ini adalah memberikan solusi klasifikasi yang mudah dipahami serta mendukung proses pengambilan keputusan secara cepat, khususnya bagi pengguna non-teknis.
Tinjauan Pustaka Beberapa penelitian sebelumnya telah menunjukkan keberhasilan penggunaan algoritma Decision Tree dalam mendeteksi penipuan transaksi kartu kredit.
Penelitian oleh .
mencatat bahwa Decision Tree mampu mencapai akurasi hingga 98% dalam mendeteksi transaksi ilegal, namun penelitian tersebut belum membahas struktur pohon keputusan secara rinci dan keterkaitannya dengan interpretasi hasil klasifikasi.
Sementara itu, penelitian .
menggabungkan Decision Tree C4.
5 dengan teknik SMOTE untuk menyeimbangkan data, tetapi menyebabkan pohon yang dihasilkan menjadi sangat kompleks dan sulit dipahami secara visual.
Studi oleh .
menggunakan Random Forest dan Neural Networks, memberikan akurasi tinggi namun tidak memberikan gambaran struktur klasifikasi yang bisa dijelaskan secara visual.
Selanjutnya, .
menerapkan pendekatan hybrid machine learning, namun kurang fokus pada model yang mudah dijelaskan seperti Decision Tree.
Dalam penelitian .
menggunakan Random Forest dan Decision Tree, namun tidak mendalami pengaruh pemilihan atribut dan interpretasi logika pohon terhadap hasil klasifikasi.
Penelitian oleh .
juga menggunakan Decision Tree dalam mendeteksi penipuan kartu kredit.
Mereka menunjukkan bahwa akurasi dapat mencapai 99,05% sebelum parameter tuning dan turun menjadi 74,76% sesudahnya.
Hal ini mengindikasikan bahwa pengaturan parameter dan pemilihan atribut memiliki peran penting dalam performa model.
Penelitian-penelitian tersebut umumnya memiliki fokus pada peningkatan sesuai akurasi dan penggunaan teknik balancing data.
Namun, sebagian besar tidak akan menekankan aspek transparansi hasil klasifikasi atau kemudahan pemahaman bagi pengguna non-teknis.
Berdasarkan studi-studi terdahulu, dapat disimpulkan bahwa Decision Tree merupakan salah satu algoritma yang banyak digunakan untuk mendeteksi penipuan pada transaksi kartu kredit karena kemampuannya dalam menghasilkan model klasifikasi yang transparan dan mudah Meskipun beberapa penelitian mencapai akurasi tinggi, namun interpretasi terhadap logika pohon dan keterkaitannya dengan hasil klasifikasi belum banyak dikaji secara mendalam.
Penelitian ini menghadirkan kebaruan dengan menekankan pada aspek interpretabilitas hasil klasifikasi menggunakan Decision Tree dalam RapidMiner, serta mengevaluasi performa model tanpa menerapkan teknik balancing data.
Dengan pendekatan ini, diharapkan model yang dihasilkan lebih mudah dianalisis secara visual, serta tetap memberikan performa klasifikasi yang sangat baik.
Metodologi Alur penelitian disajikan seperti pada Gambar 1.
Gambar 1.
Alur Penelitian Progresif: Vol.
No.
Agustus 2025: 401-410 Progresif e-ISSN: 2685-0877 Dalam penelitian ini, digunakan pendekatan data mining dengan fokus pada teknik klasifikasi menggunakan algoritma Decision Tree.
Proses penelitian dilakukan secara bertahap, dimulai dari pengumpulan data, dilanjutkan dengan tahapan pre-processing, kemudian implementasi algoritma Decision Tree menggunakan aplikasi RapidMiner .
Setelah model terbentuk, kinerjanya dievaluasi menggunakan Confusion Matrix untuk mengukur tingkat akurasi, presisi, dan recall.
1 Pengumpulan Data Data yang digunakan dalam penelitian ini bersumber dari situs Kaggle dengan format Excel dan mencakup sebanyak 10.
000 transaksi kartu kredit.
Dari seluruh data tersebut, terdapat 195 transaksi yang teridentifikasi sebagai fraud, sementara sisanya sebanyak 9.
805 transaksi tergolong sebagai transaksi normal.
Seluruh data kemudian diimpor ke dalam aplikasi RapidMiner untuk proses analisis lebih lanjut.
Dataset ini dapat diakses secara publik melalui https://w.
com/datasets/anurag629/credit-card-fraud-transaction-data Gambar 2.
Contoh Data pda Dataset Kaggle 2 Pre-processing Data Tahapan pre-processing dilakukan untuk memastikan bahwa data yang digunakan dalam kondisi bersih dan siap digunakan dalam proses klasifikasi.
Beberapa tahapan pre-processing yang dilakukan sebagai berikut:
Seleksi Data Gambar 3.
Proses Weight by Information Gain Penerapan Algoritma Decision Tree Dalam Deteksi Fraud aGladisya Devina Agustine e-ISSN: 2685-0877 Dalam penelitian ini, dilakukan proses seleksi atribut sebagai bagian dari tahap preprocessing data.
Dari total 14 atribut yang terdapat pada dataset asli hasil unduhan dari Kaggle.
Untuk menentukan atribut yang paling relevan, digunakan metode Weight by Information Gain yang tersedia pada perangkat lunak RapidMiner.
Metode ini menghitung bobot setiap atribut terhadap target klasifikasi, yaitu Fraud, berdasarkan seberapa besar informasi yang diberikan oleh atribut tersebut dalam membedakan antara kelas fraud dan non-fraud .
Hasil seleksi disajikan seperti pada Gambar 3.
Berdasarkan hasil perhitungan (Gambar .
tersebut, 7 atribut dengan nilai informasi tertinggi dipilih untuk dilanjutkan ke tahap klasifikasi, yaitu:
Tabel 1.
Atribut Data Seleksi Atribut Data Sebelum Seleksi Atribut Data Setelah Seleksi Transaction ID Date Day of Week Time Type of Card Entry Mode Amount Type of Transaction Merchant Group Country of Residence Gender Age Bank Fraud Time Entry Mode Shipping Address Country of Residence Amount Country of Transaction Fraud .
Transformasi Data Gambar 4.
Transformasi Data Transformasi Data (Gambar .
dilakukan untuk memastikan bahwa data siap digunakan dalam proses analisis.
Data di ubah ke dalam format yang sesuai untuk pemrosesan di RapidMiner.
Konversi tipe data dilakukan, dari integer .
menjadi kategori .
untuk atribut AuFraudAy yang membutuhkan klasifikasi.
Sebagai bagian dari proses ini, kolom label ditambahkan untuk membedakan antara transaksi penipuan dan tidak penipuan.
Progresif: Vol.
No.
Agustus 2025: 401-410 Progresif e-ISSN: 2685-0877 .
Data Siap Olah Tabel 2.
Data Siap Olah Time
Amount
Entry Mode
Tap
yCA5
Type of Transaction POS
Shipping Address
United Kingdom
Country of Residence United Kingdom
Fraud
PIN
yCA288
POS
USA
USA
Tap
yCA5
POS
India
India
Tap
yCA28
POS
India
United Kingdom
CVC
yCA91
Online
USA
United Kingdom
Tap
yCA30
POS
India
India
CVC
yCA231
Online
United Kingdom
United Kingdom
CVC
yCA154
Online
USA
United Kingdom
PIN
yCA39
ATM
Russia
United Kingdom
Tap
yCA17
POS
India
India
PIN
yCA326
ATM
United Kingdom
United Kingdom
PIN
yCA106
POS
Russia
United Kingdom
PIN
yCA21
ATM
United Kingdom
United Kingdom
PIN
yCA211
ATM
United Kingdom
United Kingdom
Tap
yCA351
POS
India India 3 Proses RapidMiner Setelah data siap, proses klasifikasi dilakukan menggunakan algoritma Decision Tree yang tersedia dalam RapidMiner.
Algoritma ini bekerja dengan membangun pohon keputusan berdasrkan atribut-atribut pada dataset untuk memisahkan data ke dalam kelas AufraudAy dan AunonfraudAy.
Model yang terbentuk kemudian digunakan untuk memprediksi data uji menggunakan operator Apply Model dan operator Performance untuk mengukur hasil akurasi.
Gambar 5.
Proses RapidMiner Proses klasifikasi diatas dimulai dengan mengimpor data menggunakan operator Read Excel, di mana dataset yang telah dibersihkan dan dipilih atributnya dimasukkan ke dalam lingkungan kerja RapidMiner.
Setelah data dimuat, digunakan operator Set Role untuk menetapkan peran masing-masing atribut.
Pada tahap ini, atribut Fraud diatur sebagai label .
elas targe.
yang akan diprediksi, sementara atribut lain digunakan sebagai atribut input.
Selanjutnya, data dibagi menjadi data latih dan data uji menggunakan operator Split Data.
Proses pembagian ini menggunakan beberapa skenario rasio seperti 90:10, 80:20, 70:20, dan 60:40 guna menguji pengaruh proporsi data terhadap performa model.
Setelah data dibagi, bagian data latih digunakan dalam operator Decision Tree untuk membentuk model klasifikasi berdasarkan algoritma Decision Tree.
Model ini bekerja dengan membangun struktur pohon keputusan dari atribut-atribut yang paling informatif dalam membedakan kelas fraud dan nonfraud.
Penerapan Algoritma Decision Tree Dalam Deteksi Fraud aGladisya Devina Agustine e-ISSN: 2685-0877 Model yang telah terbentuk kemudian diterapkan ke data uji menggunakan operator Apply Model.
Proses ini menghasilkan prediksi terhadap data uji berdasarkan pola yang telah dipelajari oleh model dari data latih.
Terakhir, performa model dievaluasi seperti akurasi, presisi, dan recall, berdasarkan perbandingan antara hasil prediksi dan data aktual pada data uji.
4 Evaluasi Model Evaluasi model dilakukan berdasarkan confusion matrix, yang menunjukkan nilai True Positive (TP), yaitu jumlah prediksi yang benar bahwa suatu data termasuk ke dalam kelas positif.
False Positive (FP), yaitu jumlah prediksi yang salah bahwa suatu data termasuk ke dalam kelas positif.
False Negative (FN), yaitu jumlah prediksi yang salah bahwa suatu data termasuk ke dalam kelas negatif, dan True Negative (TN), yaitu jumlah prediksi yang benar bahwa suatu data termasuk ke dalam kelas negatif .
Nilai-nilai ini digunakan untuk menghitung semua metrik evaluasi model.
Rumus-rumus yang digunakan sebagai berikut .
ycNycE ycNycA yaycaycaycycycaycayc = ycNycE yaycE ycNycA yaycA ycNycE ycEycyceycaycnycycnycuycu = ycNycE yaycE ycIyceycaycaycoyco = .
ycNycE ycNycE yaycA Klasifikasi performa model klasifikasi dapat ditentukan berdasarkan rentang nilai akurasi yang diperoleh.
Sebagaimana Tabel 1.
Klasifikasi Performa Berdasarkan Nilai Akurasi berikut .
Tabel 3.
Klasifikasi Performa Berdasarkan Nilai Rentang Nilai Akurasi (%) Klasifikasi Performa
Sangat Baik Baik Cukup Buruk
<= 60
Sangat Buruk Hasil dan Pembahasan 1 Hasil Klasifikasi Proses klasifikasi pada penelitian ini dilakukan menggunakan algoritma Decision Tree, dengan empat skenario pembagian data, yaitu 90:10, 80:20, 70:30, dan 60:40.
Masing-masing skenario menghasilkan struktur pohon keputusan yang berbeda sesuai dengan jumlah data pelatihan dan pola atribut yang dipelajari oleh model.
Visualisasi pohon keputusan dari masingmasing skenario ditampilkan pada Gambar 6 hingga Gambar 9.
Gambar 6.
Pohon Keputusan Skenario 60:40 Progresif: Vol.
No.
Agustus 2025: 401-410 Progresif e-ISSN: 2685-0877 Gambar 7.
Pohon Keputusan Skenario 70:30 Gambar 8.
Pohon Keputusan Skenario 80:20 Gambar 9.
Pohon Keputusan Skenario 90:10 Secara umum, atribut Time.
Entry Mode, dan Shipping Address secara konsisten muncul sebagai simpul awal maupun simpul internal dalam pohon, menandakan perannya yang signifikan dalam membedakan transaksi fraud dan non-fraud.
Meski struktur dan kedalaman pohon sedikit bervariasi antar scenario, pola klasifikasi yang dihasilkan tetap menunjukkan konsistensi logis dan keterbacaan yang baik.
Dari keempat skenario, struktur pohon pada skenario 60:40 dipilih sebagai fokus utama untuk evaluasi lebih lanjut karena menghasilkan performa terbaik berdasarkan pengukuran akurasi, presisi, dan recall.
2 Hasil Evaluasi Untuk menilai kinerja model yang dibangun, dilakukan pengujian dengan empat variasi rasio pembagian antara data pelatihan dan data pengujian, yaitu 90:10, 80:20, 70:30, dan 60:40.
Proses evaluasi menggunakan Confusion Matrix guna memperoleh hasil pengukuran berupa akurasi, presisi, dan recall.
Tabel 4.
Hasil Evaluasi Confusion Matrix berikut menunjukkan hasil evaluasi kinerja model klasifikasi berdasarkan nilai akurasi, presisi, dan recall dari masing-masing skenario pembagian data.
Tabel 4.
Hasil Evaluasi Confusion Matrix Rasio (%) Akurasi Presisi Recall 60:40 97,47% 86,34% 78,67% 70:30 97,44% 88,44% 75,81% 80:20 97,38% 89,63% 73,50% 90:10 97,21% 88,27% 72,44% Penerapan Algoritma Decision Tree Dalam Deteksi Fraud aGladisya Devina Agustine e-ISSN: 2685-0877 Berdasarkan hasil evaluasi diatas, model terbaik diperoleh pada skenario pembagian data 60:40 dengan nilai akurasi sebesar 97,47%, presisi 86,34%, dan recall 78,67%.
Jika diklasifikasikan berdasarkan Tabel 3.
Klasifikasi Performa Berdasarkan Nilai Akurasi, maka model ini berada pada kategori AuSangat BaikAy karena berada dalam rentang 90%-100%.
Perhitungan nilai akurasi, presisi, dan recall pada skenario 60:40 dapat dijelaskan menggunakan confusion matrix yang dihasilkan oleh RapidMiner sebagai berikut:
True Positive (TP) sebanyak 354 transaksi fraud yang berhasil terdeteksi secara benar sebagai penipuan.
False Positive (FN) yaitu sebanyak 56 transaksi non-fraud yang secara keliru diprediksi sebagai penipuan.
True Negative (TN) yaitu sebanyak 5494 transaksi non-fraud yang berhasil diklasifikasikan dengan tepat sebagai transaksi valid.
False Negative (FN) yaitu sebanyak 96 transaksi fraud yang tidak berhasil terdeteksi, sehingga diklasifikasikan sebagai transaksi valid.
Perhitungan menggunakan rumus:
yaycaycaycycycaycayc = 354 5494 y 100% = 97,47% 354 5494 56 96 ycEycyceycaycnycycnycuycu = y 100% = 86,34% 354 56 ycIyceycaycaycoyco = y 100% = 78,67% 354 96 Hasil perhitungan secara manual tersebut konsisten dengan hasil evaluasi dari RapidMiner, menunjukkan bahwa model memiliki kemampuan yang sangat baik dalam mendeteksi transaksi fraud.
3 Pembahasan Berdasarkan hasil evaluasi pada Tabel 4.
Hasil Evaluasi Confusion Matrix, dapat disimpulkan bahwa pembagian data dengan rasio 60:40 menghasilkan performa terbaik, dengan akurasi 97,47%, presisi 86,34%, dan recall 78,67%.
Nilai akurasi yang tinggi menunjukkan bahwa sebagian besar data berhasil diklasifikasikan dengan tepat oleh model.
Namun, nilai recall yang relatif lebih rendah dibandingkan akurasi mengindikasikan bahwa masih terdapat beberapa data fraud yang tidak terdeteksi, yang dalam konteks keamanan finansial dapat menjadi perhatian Algoritma C4.
5 menyusun pohon keputusan dengan memprioritaskan atribut paling Perhitungan Information Gain mengidentifikasi variabel Time.
Shipping Address, dan Country of Residence sebagai faktor yang paling berpengaruh dalam pemisahan kelas.
Jika dibandingkan dengan temuan pada penelitian-penelitian sebelumnya yang juga menunjukkan efektivitas algoritma Decision Tree dan Random Forest dalam mendeteksi transaksi fraud.
Misalnya, .
mencatat akurasi sebesar 96% menggunakan Random Forest, dan .
melaporkan akurasi 95% dengan Decision Tree dan SMOTE.
Model pada penelitian ini tidak menggunakan tekik balancing tambahan seperti SMOTE, namun tetap menghasilkan akurasi yang sangat baik.
Hal ini menunjukkan bahwa data asli memiliki pola yang cukup kuat untuk diklasifikasikan oleh Decision Tree secara efektif.
Simpulan Berdasarkan hasil pengujian dengan empat skenario pembagian data .
:10, 80:20, 70:30, dan 60:.
, diperoleh bahwa skenario pembagian data 60:40 menghasilkan performa terbaik dengan nilai akurasi sebesar 97,47%, presisi 86,34%, dan recall 78,67%.
Hasil ini menunjukkan bahwa algoritma Decision Tree mampu mengklasifikasikan transaksi fraud dan non-fraud dengan tingkat keakuratan yang sangat baik untuk kasus klasifikasi transaksi data tidak seimbang, bahkan tanpa menerapkan teknik oversampling.
Selain itu, pemilihan atribut Progresif: Vol.
No.
Agustus 2025: 401-410 Progresif e-ISSN: 2685-0877 menggunakan metode Weight by Information Gain terbukti efektif dalam meningkatkan kualitas klasifikasi dengan memprioritaskan atribut yang paling informatif.
Dengan demikian, model klasifikasi yang dibangun dalam penelitian ini dapat digunakan sebagai pendekatan alternatif dalam mendeteksi transaksi penipuan kartu kredit secara otomatis dan efisien.
Untuk pengembangan lebih lanjut, disarankan agar penelitian mendatang mengeksplorasi penggunaan algoritma lain dan mempertimbangkan teknik balancing data serta tuning parameter untuk meningkatkan performa recall.
Referensi: