Institut Riset dan Publikasi Indonesia (IRPI) MALCOM: Indonesian Journal of Machine Learning and Computer Science Journal Homepage: https://journal.
id/index.
php/malcom Vol.
5 Iss.
3 July 2025, pp: 886-895
ISSN(P): 2797-2313 | ISSN(E): 2775-8575
Implementation of Feature Selection Using Boruta to Improve the Accuracy of the Lapser Prediction Model Implementasi Feature Selection Menggunakan Boruta untuk Peningkatan Akurasi Model Lapser Prediction Mochamad Gilang Saputra1*.
Bagus Jati Santoso2 Departemen Manajemen Teknologi.
Institut Teknologi Sepuluh Nopember.
Indonesia Departemen Teknik Informatika.
Institut Teknologi Sepuluh Nopember.
Indonesia E-Mail: 16032231011@student.
id, 2bagus@if.
Received Mar 13th 2025.
Revised May 13th 2025.
Accepted Jun 18th 2025.
Available Online Jun 24th 2025.
Published Jun 24th 2025 Corresponding Author: Mochamad Gilang Saputra Copyright A 2025 by Authors.
Published by Institut Riset dan Publikasi Indonesia (IRPI) Abstract Predicting lapsing customers is a major challenge in the highly competitive data service sector, exacerbated by the high costs associated with acquiring new customers.
This study proposes a feature selection approach using Boruta to enhance the accuracy of the lapse prediction model, employing a wrapper technique on Random Forest.
The lapse prediction modeling process utilizes the Gradient Boosting machine learning algorithm, analyzed both before and after Boruta feature Experimental results demonstrate that Boruta effectively improves key metrics .
ccuracy, recall, and AUC).
Following the application of Boruta, the Gradient Boosting model achieved an accuracy of 75.
10%, a recall of 74.
and an AUC of 82.
Prior to using Boruta, the model recorded an accuracy of 71.
74%, a recall of 68.
74%, and an AUC of 77.
These findings confirm that the proposed approach can predict lapsing customers at an earlier stage, thereby assisting policymakers in formulating more effective customer retention strategies, minimizing potential losses, and strengthening market competitiveness.
Keywords: Boruta.
Feature Selection.
Gradient Boosting.
Lapser.
Machine Learning Abstrak Memprediksi pelanggan lapser menjadi tantangan utama di sektor layanan data yang kompetitif, disertai tingginya biaya akuisisi pelanggan baru.
Penelitian ini mengusulkan pendekatan feature selection menggunakan Boruta untuk meningkatkan akurasi model lapser, dengan menerapkan teknik wrapper pada Random Forest.
Proses modeling lapser prediction menggunakan algoritma machine learning Gradient Boosting yang dianalisis sebelum dan sesudah seleksi fitur Boruta.
Hasil eksperimen pada data menunjukkan bahwa Boruta efektif dalam meningkatkan metrik utama .
kurasi, recall, dan AUC).
Model Gradient Boosting meraih akurasi hingga 75.
10%, recall 74.
42%, dan AUC 82.
18% setelah menggunakan Boruta.
Sebelum menggunakan Boruta nilai akurasi 71.
74%, recall 68.
74%, dan AUC hanya 77.
Temuan tersebut menegaskan bahwa pendekatan yang diusulkan dapat memprediksi lapser secara lebih dini, serta membantu penyusun kebijakan menyusun strategi retensi pelanggan yang lebih efektif, sehingga meminimalkan potensi kerugian dan memperkuat daya saing di pasar.
Kata Kunci: Boruta.
Feature Selection.
Gradient Boosting.
Lapser.
Machine Learning PENDAHULUAN Industri layanan data mengalami perkembangan yang sangat pesat dalam beberapa tahun terakhir, sejalan dengan peningkatan kebutuhan masyarakat akan konektivitas dan ragam aplikasi digital.
Kompetisi pasar pun semakin ketat, mendorong para penyedia layanan untuk terus berinovasi dalam menambah fitur dan meningkatkan kualitas layanan.
Meski demikian, di tengah persaingan yang sengit, tantangan mempertahankan pelanggan agar tidak berhenti berlangganan .
tetap menjadi isu krusial.
Menurut beberapa penelitian, biaya memperoleh pelanggan baru .
ustomer acquisition cos.
sering kali lebih tinggi daripada biaya yang diperlukan untuk mempertahankan pelanggan lama .
Oleh karena itu, mendeteksi pelanggan yang berpotensi lapser secara dini menjadi prioritas penting bagi perusahaan.
DOI: https://doi.
org/10.
57152/malcom.
ISSN(P): 2797-2313 | ISSN(E): 2775-8575
Penurunan jumlah pelanggan akibat lapser berdampak langsung pada pendapatan dan profitabilitas, sekaligus dapat merusak citra perusahaan di mata publik.
Pelanggan yang mengalami pengalaman buruk cenderung menyebarkan kesan negatif, memengaruhi keputusan calon pelanggan lainnya .
Di sisi lain, pelanggan yang puas dan bertahan lebih lama seringkali berkontribusi terhadap peningkatan revenue melalui pembelian produk tambahan .
ross-sellin.
atau perluasan layanan .
p-sellin.
Dengan demikian, model prediksi lapser yang andal dapat mendorong terciptanya strategi retensi yang efektif, misalnya berupa penawaran khusus atau program loyalitas yang tepat sasaran .
Dalam ranah machine learning, prediksi lapser sering dihadapkan pada dua kendala teknis utama:
Dimensi Data yang Tinggi sebagai Penyedia layanan data umumnya mengumpulkan beragam atribut pelanggan, mulai dari data demografis, pola perilaku, hingga riwayat.
Jumlah atribut yang melimpah tidak selalu berbanding lurus dengan peningkatan performa model, bisa menambah risiko overfitting jika banyak atribut tidak relevan .
, .
Ketidakseimbangan Kelas (Imbalanced Dat.
adalah proporsi pelanggan yang lapser cenderung kecil dibandingkan pelanggan non-lapser.
Akibatnya, model cenderung mendominasi prediksi ke kelas mayoritas, sehingga mengorbankan recall pada kelas minoritas.
Situasi ini membuat banyak model gagal mendeteksi pelanggan yang benar-benar berpotensi untuk lapser .
Metode feature selection menjadi solusi potensial untuk mengatasi masalah pertama.
Dalam hal ini, teknik Boruta menonjol karena memanfaatkan Random Forest untuk menilai kepentingan setiap fitur, membandingkannya dengan Aushadow featuresAy .
alinan acak dari fitur asl.
Fitur yang consistently lebih penting daripada bayangan fitur dianggap memiliki andil signifikan dalam memprediksi variabel target .
Hal ini membedakannya dari metode filter tradisional yang hanya meninjau statistik antar-fitur, tanpa memperhitungkan interaksi non-linear.
Penelitian ini berfokus pada feature selection metode Boruta untuk membangun model lapser yang Setelah fitur tidak relevan berhasil dieliminasi, algoritma Gradient Boosting dipilih sebagai classifier karena memiliki reputasi yang baik dalam menangani masalah non-linearitas, memanfaatkan mekanisme ensemble untuk meningkatkan performa prediksi .
, .
Gradient Boosting merupakan perkembangan dari Boosting klasik yang membangun pohon keputusan secara iteratif, di mana tiap pohon baru difokuskan untuk memperbaiki kesalahan pohon sebelumnya .
Selain Gradient Boosting, beberapa studi terkini memanfaatkan XGBoost .
, yang dibangun di atas mekanisme tree boosting serupa namun peneliti memilih Gradient Boosting untuk tahap awal karena dianggap lebih sederhana untuk diimplementasikan sekaligus cukup andal dalam memodelkan data lapser, selaras dengan penjelasan Hastie.
Tibshirani, dan Friedman .
, pendekatan ansambel seperti Boosting dan Random Forest terus berkembang dengan dukungan teori statistik mutakhir, memungkinkan pemodelan non-linear yang lebih tangguh sekaligus menangani berbagai jenis data.
Selain untuk data pelanggan, metode ensemble boosting juga telah digunakan dalam klasifikasi data satelit, seperti ditunjukkan oleh Ouchra H .
, menegaskan fleksibilitas pendekatan ini untuk beragam tipe dataset dan domain berbeda.
Dalam industri layanan data yang sangat kompetitif, kemampuan untuk memprediksi pelanggan yang berpotensi berhenti berlangganan .
memiliki nilai strategis yang tinggi.
Kehilangan pelanggan tidak hanya berdampak langsung pada penurunan pendapatan, tetapi juga meningkatkan biaya akuisisi untuk mendapatkan pelanggan baru, yang secara umum jauh lebih mahal dibanding mempertahankan pelanggan yang sudah ada .
Oleh karena itu, deteksi dini terhadap perilaku lapser memungkinkan perusahaan untuk melakukan intervensi proaktif melalui program retensi yang tepat sasaran, seperti personalisasi penawaran atau pemberian insentif.
Terlebih dalam era digital saat ini, pelanggan memiliki banyak alternatif layanan yang tersedia secara instan, sehingga loyalitas menjadi lebih rapuh.
Model prediksi yang akurat dapat membantu perusahaan merespons dengan cepat terhadap perubahan pola perilaku pelanggan sebelum mereka benar-benar berhenti berlangganan .
, .
Dalam konteks ini, pengembangan sistem prediktif berbasis machine learning menjadi sangat penting, tidak hanya sebagai alat analitik, tetapi juga sebagai fondasi untuk pengambilan keputusan bisnis yang lebih responsif dan data-driven.
Penelitian terdahulu yang memanfaatkan Boruta kerap menunjukkan peningkatan akurasi dan interpretabilitas model .
Misalnya.
Kursa dan Rudnicki .
membuktikan bahwa Boruta dapat menemukan fitur-fitur penting pada data genomik yang sangat berdimensi tinggi.
Dalam konteks lapser prediction, pemilihan fitur yang tepat semakin relevan karena data pelanggan cenderung heterogen meliputi perilaku online, transaksi finansial, hingga informasi sosial.
Sebagai lanjutan dari beragam model klasik dan modern, .
memberikan landasan komprehensif untuk memahami metode ensemble, regularisasi, dan teknik tuning seperti boruta yang relevan bagi skenario prediksi lapser yang rumit.
Dengan demikian, memadukan Boruta dan Gradient Boosting diharapkan mampu meningkatkan keandalan model dalam mendeteksi pelanggan Secara spesifik, penelitian ini bertujuan untuk: Mengevaluasi efektivitas Boruta .
dalam menyeleksi fitur yang relevan terhadap perilaku lapser.
Menganalisis dampak terhadap performa model, terutama pada metrik recall dan AUC.
Membandingkan kinerja Gradient Boosting sebelum dan sesudah proses seleksi fitur Boruta, ditinjau dari akurasi, recall, dan AUC.
MALCOM - Vol.
5 Iss.
3 July 2025, pp: 886-895 MALCOM-05.
: 886-895
Dengan adanya penelitian ini, diharapkan dapat memberikan panduan teknis bagi praktisi di sektor layanan data dalam menerapkan pipeline feature selection dan balancing data sebagai upaya mencegah lapser.
Bagian berikutnya (Metodologi Penelitia.
akan menjelaskan kerangka metodologis penelitian, mulai dari pengumpulan data, proses preprocessing, metode Boruta, hingga konfigurasi Gradient Boosting .
METODOLOGI PENELITIAN
Pada gambar 1 menguraikan secara menyeluruh mengenai data yang digunakan, proses pengumpulan data .
ata collectio.
, prosedur pra-pemrosesan .
ata preprocessin.
, metode feature selection menggunakan Boruta, serta konfigurasi algoritma Gradient Boosting yang menjadi model utama dalam penelitian ini.
Keseluruhan tahapan penelitian dirancang berdasarkan rekomendasi dan praktik terbaik yang tercermin dalam berbagai literatur, guna memastikan metode yang diterapkan memiliki landasan teoritis yang kuat serta relevan bagi permasalahan nyata di industri layanan data .
Penggunaan algoritma Boruta dalam penelitian ini didasarkan pada keunggulannya dalam melakukan seleksi fitur secara menyeluruh dan statistik.
Boruta merupakan metode wrapper berbasis Random Forest yang bekerja dengan menambahkan shadow features, yaitu salinan acak dari fitur asli, untuk mengevaluasi signifikansi tiap fitur.
Fitur yang secara konsisten menunjukkan skor lebih tinggi dibanding shadow features akan dipertahankan .
Keunggulan Boruta terletak pada kemampuannya untuk mempertimbangkan interaksi non-linear antar fitur, menjadikannya lebih unggul daripada metode filter biasa seperti chi-square atau information gain .
Dalam konteks prediksi pelanggan lapser yang memiliki data berdimensi tinggi, pendekatan ini membantu mengurangi noise, meningkatkan interpretabilitas, dan mempercepat proses pelatihan model tanpa mengorbankan akurasi.
Studi sebelumnya menunjukkan bahwa Boruta berhasil meningkatkan performa model klasifikasi pada domain seperti churn prediction dan credit scoring .
Selain itu, integrasi Boruta dengan model Gradient Boosting terbukti menghasilkan peningkatan metrik utama, seperti akurasi, recall, dan AUC.
Oleh karena itu, kombinasi Boruta dan Gradient Boosting dipilih dalam penelitian ini sebagai pendekatan yang seimbang antara akurasi, efisiensi, dan stabilitas model.
Gambar 1.
Metododologi Penelitian Deskripsi dan Pengumpulan Data (Data Collectio.
Penelitian ini menggunakan big data yang berasal dari industri layanan data, sebagaimana dijelaskan oleh Chen dan Zhang .
, dengan karakteristik yang kompleks dan beragam.
Dataset yang digunakan mencakup sekitar 191 atribut, yang diklasifikasikan ke dalam tiga kelompok utama.
Pertama, atribut demografis seperti usia pelanggan dan wilayah transaksi.
Kedua, atribut perilaku yang mencakup jumlah transaksi, frekuensi pengisian ulang, total konsumsi kuota data, serta durasi berlangganan layanan.
Ketiga, label target berupa status lapser yang bersifat biner, yaitu 0 untuk pelanggan non-lapser dan 1 untuk pelanggan lapser, mengikuti definisi yang umum digunakan dalam konteks industri layanan data .
Secara keseluruhan, data yang dianalisis berjumlah sekitar 18 juta entri, dengan proporsi pelanggan lapser sebesar Implementasi Feature Selection Menggunakan Boruta.
(Saputra and Santoso, 2.
ISSN(P): 2797-2313 | ISSN(E): 2775-8575 Untuk keperluan pelatihan model, data dibagi dengan rasio 80% untuk pelatihan .
dan 20% untuk pengujian .
Data Preprocessing Tahapan data preprocessing data berperan penting dalam memastikan kualitas data sebelum digunakan dalam pelatihan model machine learning .
, .
Proses ini mencakup penanganan missing values, outlier, encoding variabel kategorik, dan normalisasi data numerik.
Fitur dengan missing value lebih dari 10% dihapus, sedangkan sisanya diimputasi menggunakan mean, median, atau mode, sesuai dengan karakteristik datanya.
Outlier dideteksi menggunakan metode Interquartile Range (IQR) dan kemudian dibatasi .
agar tidak mengganggu proses pelatihan model .
Variabel kategorik seperti wilayah di encoding menggunakan onehot atau label encoding agar dapat dibaca oleh algoritma machine learning .
, .
Selain itu, beberapa atribut numerik yang memiliki rentang nilai lebar dinormalisasi dengan z-score atau min-max normalization untuk meningkatkan stabilitas pelatihan model, meskipun tidak selalu diperlukan .
Feature Selection using Boruta Boruta merupakan metode seleksi fitur berbasis wrapper yang menggunakan algoritma Random Forest untuk mengevaluasi pentingnya setiap fitur dalam dataset.
Keunggulan utama Boruta terletak pada pendekatannya yang membandingkan setiap fitur asli dengan Aushadow featuresAy, yaitu salinan acak dari fitur tersebut yang diperoleh melalui proses pengacakan baris data .
andom permutatio.
, .
Dataset yang telah diperluas dengan shadow features kemudian dilatih menggunakan Random Forest untuk menghasilkan nilai pentingnya .
eature importanc.
, yang dihitung berdasarkan metrik seperti mean decrease accuracy atau mean decrease Gini .
Selanjutnya, nilai kepentingan fitur asli dibandingkan dengan skor maksimum dari seluruh shadow features.
Apabila suatu fitur menunjukkan nilai yang secara konsisten lebih tinggi dibanding shadow-nya, maka fitur tersebut dikategorikan sebagai fitur relevan.
Sebaliknya, jika nilainya lebih rendah, fitur tersebut akan disingkirkan.
Proses ini dilakukan secara iteratif hingga seluruh fitur dapat diklasifikasikan sebagai AuConfirmedAy atau AuRejectedAy .
, .
Dengan mempertimbangkan interaksi antar fitur secara menyeluruh.
Boruta menawarkan pendekatan yang lebih komprehensif dibandingkan metode filter tradisional yang hanya mengandalkan hubungan linier atau korelasi parsial antar variabel .
Model Gradient Boosting Setelah fitur-fitur yang tidak relevan dieliminasi melalui proses seleksi menggunakan Boruta, dataset hasil balancing kemudian digunakan dalam pelatihan model prediktif menggunakan algoritma Gradient Boosting sebagai classifier .
, .
Gradient Boosting bekerja dengan membangun pohon keputusan secara bertahap, di mana setiap pohon baru diarahkan untuk memperbaiki kesalahan prediksi .
esidual erro.
dari pohon sebelumnya.
Pendekatan iteratif ini menjadikan Gradient Boosting sangat efektif dalam menangani data tabular yang kompleks, termasuk dalam kasus prediksi pelanggan lapser atau churn .
Dalam implementasinya, beberapa parameter utama yang dikonfigurasi meliputi fungsi loss, learning rate, jumlah estimators, kedalaman maksimum pohon, dan early stopping.
Fungsi loss yang digunakan adalah logistic loss atau binary cross-entropy, yang merupakan pilihan umum dalam klasifikasi biner .
Nilai learning rate ditetapkan dalam rentang kecil .
01 hingga 0.
untuk memastikan proses pembelajaran berlangsung stabil meskipun memerlukan lebih banyak iterasi untuk konvergen.
Jumlah pohon atau n_estimators dipilih berdasarkan hasil eksperimen awal, dengan kisaran umum antara 100 hingga 300 pohon .
Parameter max_depth digunakan untuk mengatur kedalaman maksimal pohon, di mana pohon yang lebih dangkal .
edalaman 3Ae.
cenderung menghindari risiko overfitting namun memiliki keterbatasan dalam fleksibilitas Selain itu, strategi early stopping juga diterapkan apabila skor validasi tidak menunjukkan peningkatan setelah sejumlah iterasi tertentu, sebagai upaya mencegah overfitting dan meningkatkan generalisasi model terhadap data uji .
Evaluasi Model Model dievaluasi berdasarkan beberapa metrik utama: .
Accuracy, proporsi prediksi benar dibandingkan total prediksi .
Rumus akurasi ditunjukkan pada persamaan 1.
Recall, mencerminkan kemampuan model mendeteksi lapser secara benar.
Recall difokuskan karena biaya kehilangan pelanggan lapser (FN) lebih besar ketimbang salah memprediksi pelanggan aktif sebagai lapser (FP) .
, .
Rumus recall ditunjukkan pada persamaan 2.
Area Under Curve (AUC), tabel 1 AUC Receiver Operating Characteristics (ROC) Curve, mengukur keseimbangan true positive rate dan false positive rate .
yaycoycycycaycycn = ycNycE ycNycA ycNycE yaycE ycNycA yaycA ycIyceycaycaycoyco = MALCOM - Vol.
5 Iss.
3 July 2025, pp: 886-895 ycNycE ycNycE yaycA MALCOM-05.
: 886-895
Tabel 1.
Nilai AUC .
Nilai AUC Interpretasi Excellent Classification Good Classification Fair Classification Poor Classification Failure HASIL DAN PEMBAHASAN Bagian ini menyajikan rangkaian hasil eksperimen yang dilakukan setelah menerapkan tahapan metodologi sebagaimana dijelaskan pada Bab 2.
Fokus utama adalah menilai dampak seleksi fitur menggunakan Boruta, proses penyeimbangan data, serta konfigurasi Gradient Boosting terhadap kinerja prediksi lapser.
Pembahasan lebih lanjut juga mengulas interpretasi temuan dan keterbatasan yang dihadapi selama penelitian.
Karakteristik Data Awal Analisis awal terhadap dataset menunjukkan bahwa terdapat ketidakseimbangan kelas .
lass imbalanc.
antara pelanggan lapser dan non-lapser.
Dari total jumlah data yang besar, sekitar 26% di antaranya berlabel lapser, dengan proporsi kelas lapser secara umum berada dalam kisaran 15Ae25%.
Ketimpangan ini berpotensi menyebabkan bias pada model prediktif karena algoritma cenderung mengutamakan kelas mayoritas .
on-lapse.
, sehingga diperlukan teknik balancing untuk memastikan bahwa model dapat mengenali pola dari kelas minoritas secara efektif .
Selain analisis distribusi kelas, penelitian ini juga mengidentifikasi sejumlah fitur utama yang memiliki pengaruh signifikan terhadap perilaku pelanggan dalam konteks berhenti berlangganan.
Salah satu fitur penting adalah wilayah, yang tidak hanya mencerminkan lokasi geografis pelanggan, tetapi juga mengandung informasi implisit mengenai infrastruktur jaringan, kondisi sosial-ekonomi, serta karakteristik pasar di wilayah tersebut.
Faktor-faktor ini terbukti memengaruhi intensitas dan pola konsumsi layanan data.
Fitur penting lainnya adalah pendapatan .
, di mana pelanggan dengan daya beli lebih tinggi cenderung membeli layanan data dalam jumlah besar, meskipun perilaku mereka dapat berubah secara signifikan jika terdapat insentif atau promosi menarik dari kompetitor.
Selain itu, atribut seperti konsumsi kuota dan frekuensi pengisian ulang menjadi indikator utama dalam menganalisis kecenderungan pelanggan untuk Penurunan drastis dalam konsumsi kuota atau frekuensi pengisian ulang selama periode tertentu sering kali menjadi sinyal awal bahwa pelanggan tersebut berpotensi berhenti berlangganan.
Data Preprocessing Proses data preprocessing data dilakukan untuk memastikan bahwa dataset yang digunakan memiliki kualitas yang memadai dan bebas dari masalah umum seperti nilai hilang .
issing value.
, outlier ekstrem, serta format variabel yang tidak sesuai.
Tahapan pertama dalam preprocessing adalah penanganan missing Fitur dengan nilai hilang lebih dari 10% dipertimbangkan untuk dihapus karena dapat menimbulkan distorsi pada hasil analisis.
Sebaliknya, jika persentase missing values berada di bawah ambang tersebut, dilakukan imputasi menggunakan metode statistik sederhana seperti mean, median, atau mode, tergantung pada jenis dan distribusi data.
Sebagai contoh, pada fitur seperti usia kartu dan frekuensi pengisian ulang yang memiliki proporsi missing sekitar 2Ae3%, dilakukan imputasi dengan nilai rata-rata .
, karena metode ini tidak mengubah distribusi data secara signifikan.
Selanjutnya, untuk mendeteksi dan menangani nilai ekstrem .
, digunakan pendekatan Interquartile Range (IQR) yang memanfaatkan kuartil pertama (Q.
dan ketiga (Q.
untuk menetapkan ambang batas.
Nilai-nilai yang berada di luar rentang (Q1 Ae 1.
5IQR) hingga (Q3 1.
5IQR) diidentifikasi sebagai outlier.
Alih-alih menghapus data tersebut, penelitian ini menerapkan teknik capping, yaitu membatasi nilai-nilai ekstrem pada ambang maksimum yang masih dianggap wajar, misalnya membatasi konsumsi kuota pada nilai persentil ke-99.
Pendekatan ini mempertahankan informasi penting dalam data tanpa mengorbankan kestabilan model.
Untuk variabel kategorik, dilakukan proses encoding agar dapat diproses oleh algoritma machine One-hot encoding digunakan pada fitur dengan jumlah kategori terbatas, seperti jenis kelamin, sedangkan label encoding diterapkan pada fitur dengan banyak kategori, seperti wilayah.
Misalnya, kategori wilayah A.
B, dan C direpresentasikan dengan angka 1, 2, dan 3 untuk menghindari ledakan dimensi.
Keseluruhan proses preprocessing ini bertujuan untuk memastikan bahwa data yang digunakan pada tahap seleksi fitur dan pelatihan model berada dalam kondisi bersih, terstruktur, dan stabil, sehingga dapat mengurangi potensi bias serta meningkatkan akurasi dan ketahanan model dalam prediksi.
Implementasi Feature Selection Menggunakan Boruta.
(Saputra and Santoso, 2.
ISSN(P): 2797-2313 | ISSN(E): 2775-8575 Hasil Feature Selection using Boruta Boruta Feature Selection digunakan dalam proses ini karena memiliki metode yang efektif untuk mengidentifikasi fitur-fitur yang paling relevan dalam dataset.
Dengan menggunakan Boruta, dapat mengurangi dimensi data, meningkatkan performa model, dan membuat model lebih mudah diinterpretasikan seperti di gambar 2.
Gambar 2.
Feature Selection Boruta Code Setelah tahap preprocessing data, seperti pembersihan missing values, penanganan outlier, dan encoding, dilakukan seleksi fitur menggunakan Boruta.
Pada gambar 3 dari sekitar 191 fitur yang dianalisis.
Boruta mengidentifikasi sekitar 140 fitur yang relevan.
Fitur-fitur ini memiliki skor kepentingan yang jauh lebih tinggi dibandingkan shadow features dalam beberapa iterasi.
Beberapa fitur seperti Usia Kartu.
Pendapatan.
Konsumsi Kuota, dan Frekuensi Pengisian Ulang secara konsisten memperoleh skor tinggi, yang sejalan dengan literatur mengenai faktor-faktor penentu lapser.
Proses seleksi ini dilakukan dalam 50 iterasi, yang menurut pengalaman peneliti, jumlah iterasi tersebut sudah cukup untuk mendapatkan hasil yang optimal mengingat waktu komputasi yang dibutuhkan cukup lama.
Pada setiap iterasi.
Boruta mengevaluasi kepentingan variabel untuk membantu membangun model yang lebih efisien, akurat, dan mudah Pengurangan sebesar 26,7% dalam jumlah fitur menunjukkan bahwa Boruta efektif dalam menyederhanakan dataset tanpa menghilangkan informasi penting.
Gambar 3.
Boruta Iteration dan Perbandingan Jumlah Variabel MALCOM - Vol.
5 Iss.
3 July 2025, pp: 886-895 MALCOM-05.
: 886-895
Dalam penelitian ini, baik pada gambar 2 dan 3 metode Boruta diterapkan sebagai teknik seleksi fitur dengan pendekatan wrapper berbasis Random Forest.
Implementasi Boruta dilakukan menggunakan library BorutaPy di Python, yang secara default mengadopsi RandomForestClassifier dari scikit-learn sebagai Jumlah maksimum iterasi .
ax_ite.
yang digunakan ditetapkan sebesar 50 untuk memastikan proses seleksi mencapai konvergensi, yaitu ketika tidak ada lagi fitur yang statusnya berubah dalam iterasi berturut-turut.
Parameter lainnya disesuaikan mengikuti best practice dan tuning awal, seperti n_estimators pada Random Forest, max_dept.
agar Random Forest dapat mempelajari relasi kompleks antar fitur, dan nilai random_state diatur agar proses bersifat replikatif.
Kriteria pemilihan fitur mengikuti pendekatan Boruta klasik, yaitu sebuah fitur akan dikonfirmasi sebagai AuConfirmedAy jika consistently memiliki importance score yang lebih tinggi dari shadow features secara statistik .
enggunakan uji dua arah berdasarkan Z-scor.
Fitur dengan skor lebih rendah secara signifikan akan ditandai sebagai AuRejectedAy, sementara fitur yang tidak signifikan disebut AuTentativeAy hingga iterasi berakhir.
Hasil akhir seleksi menghasilkan daftar fitur terpilih yang kemudian digunakan dalam pelatihan model Gradient Boosting.
Model Gradient Boosting Gambar 4 menampilkan kode Python yang digunakan untuk melatih dan mengevaluasi model klasifikasi menggunakan Gradient Boosting Trees (GBT) dengan PySpark.
Kode tersebut mengatur inisialisasi GBT dengan beberapa parameter, seperti kolom label, kolom fitur, dan jumlah iterasi maksimum.
Selanjutnya, model dilatih menggunakan dataset training, dan prediksi dilakukan pada dataset testing.
Evaluasi model menggunakan metrik Area Under the Precision-Recall (AUC-PR) untuk mengukur performa model.
Selain itu, kode ini juga melakukan evaluasi pada dataset real test guna memeriksa kinerja model dalam kondisi nyata.
Hasil prediksi kemudian dikelompokkan dan diubah menjadi DataFrame Pandas.
Gambar 4.
Machine Learning Gradient Boosting Code Analisis dan Evaluasi Model Pada tabel 2 Penggunaan Boruta untuk seleksi fitur telah meningkatkan performa model Gradient Boosting baik pada data pelatihan maupun data uji nyata.
Peningkatan yang signifikan dalam akurasi, recall, dan AUC-PR menunjukkan bahwa fitur-fitur yang dipilih oleh Boruta lebih relevan dan informatif, sehingga membantu model untuk lebih baik dalam memprediksi kelas yang benar dan mengurangi overfitting.
Ini menunjukkan bahwa Boruta adalah alat yang efektif untuk meningkatkan performa model dalam kasus ini.
Peningkatan akurasi menunjukkan bahwa seleksi fitur dengan Boruta membantu model untuk lebih baik dalam memprediksi kelas yang benar.
Ini menunjukkan bahwa fitur-fitur yang dipilih oleh Boruta.
Peningkatan recall yang signifikan menunjukkan bahwa model lebih baik dalam mengidentifikasi instance positif.
Ini penting dalam kasus di mana false negative memiliki konsekuensi yang tinggi.
Sedangkan AUC-PR yang lebih tinggi menunjukkan bahwa model memiliki keseimbangan yang lebih baik antara precision dan recall setelah seleksi fitur.
Ini menunjukkan bahwa model lebih baik dalam memprediksi kelas positif tanpa terlalu banyak false positive, serta nilai akurasi setelah menggunakan Boruta lebih tinggi dibandingkan tidak menggunakan Boruta dengan delta 3.
Implementasi Feature Selection Menggunakan Boruta.
(Saputra and Santoso, 2.
ISSN(P): 2797-2313 | ISSN(E): 2775-8575 Analisis komparatif menunjukkan bahwa penerapan Boruta mampu meningkatkan performa model secara signifikan.
Akurasi meningkat dari 71.
74% menjadi 75.
10%, recall dari 68.
74% menjadi 74.
42%, dan AUC dari 77.
77% menjadi 82.
Hal ini menunjukkan bahwa Boruta efektif dalam menyaring fitur relevan dan mengurangi noise pada dataset berdimensi tinggi.
Meski demikian, metode ini memiliki keterbatasan, seperti potensi bias saat menangani fitur yang saling berkorelasi dan waktu komputasi yang tinggi pada dataset Selain itu, penggunaan satu jenis algoritma (Gradient Boostin.
membatasi variasi hasil.
Penelitian lanjutan disarankan untuk membandingkan Boruta dengan metode seleksi fitur lain seperti SHAP atau RFE, serta menguji model alternatif seperti Neural Network atau CatBoost untuk validasi hasil yang lebih luas.
Tabel 2.
Perbandingan Hasil Evaluasi Sebelum dan Sesudah Menggunakan Boruta
Gradient Boosting Before using Boruta
After Using Boruta
Accuracy Accuracy Recall Recall AUC-PR
AUC-PR
Accuracy Accuracy Recall Recall AUC-PR
AUC-PR
Training & Evaluate Real Test Delta Pada gambar 5 ROC adalah kurva yang menunjukkan keseimbangan antara True Positive Rate dan False Positive Rate untuk berbagai ambang batas klasifikasi.
AUC, yang merupakan luas area di bawah kurva ROC, mengindikasikan seberapa efektif model dalam membedakan antara kelas positif dan negatif.
Setelah menerapkan Boruta, nilai AUC mencapai 82,18%, menunjukkan bahwa model memiliki kemampuan klasifikasi yang sangat baik dan dapat membedakan kelas positif dan negatif dengan efektif, mendekati kinerja Dibandingkan dengan sebelum menggunakan Boruta, nilai AUC mengalami peningkatan yang Berdasarkan kriteria nilai AUC pada tabel 1, nilai AUC setelah menggunakan Boruta termasuk dalam kategori AuGood ClassificationAy, sehingga model klasifikasi ini dapat diterima dan diimplementasikan dengan baik.
Gambar 5.
Grafik ROC Perbandingan Sebelum dan Sesudah Menggunakan Boruta Pada tabel 3 Secara keseluruhan, model setelah Boruta lebih layak untuk diterapkan karena performa klasifikasinya lebih optimal dan stabil, dengan keseimbangan yang lebih baik antara mendeteksi positif dan meminimalkan kesalahan prediksi negatif.
Hal ini menunjukkan bahwa Boruta efektif dalam meningkatkan kualitas model melalui seleksi fitur yang relevan, sehingga model menjadi lebih efisien dan akurat.
Tabel 3.
Analisa Perbandingan ROC Aspek Kemampuan Klasifikasi (AUC) Kemampuan Deteksi (TPR) False Positive Rate (FPR) Dekat ke Sudut Kiri Atas (Idea.
Potensi Penggunaan Before using Boruta (AUC = 77.
Cukup baik Meningkat, tapi lambat Lebih tinggi di awal Tidak terlalu dekat Bisa digunakan, perlu peningkatan MALCOM - Vol.
5 Iss.
3 July 2025, pp: 886-895 After using Boruta (AUC = 82.
Baik, lebih tinggi Lebih cepat meningkat Lebih rendah Lebih dekat Lebih layak diterapkan MALCOM-05.
: 886-895
KESIMPULAN
Penelitian ini menunjukkan bahwa penggunaan metode feature selection Boruta secara signifikan meningkatkan kinerja model prediksi pelanggan lapser.
Dengan menyaring 191 fitur menjadi 140 fitur relevan.
Boruta berhasil menyederhanakan data tanpa kehilangan informasi penting, sekaligus meningkatkan akurasi model Gradient Boosting dari 71.
74% menjadi 75.
10%, recall dari 68.
74% menjadi 74.
42%, dan AUC dari 77% menjadi 82.
Hasil ini menunjukkan bahwa Boruta efektif dalam mengurangi noise dan meningkatkan fokus model pada fitur-fitur utama seperti usia kartu, pendapatan, konsumsi kuota, dan frekuensi pengisian ulang.
Model yang dihasilkan berpotensi digunakan oleh industri layanan data untuk mendeteksi pelanggan berisiko tinggi lebih awal dan merancang strategi retensi yang lebih tepat sasaran.
Selain mendukung pengambilan keputusan berbasis data, hasil seleksi fitur juga memberi wawasan strategis mengenai perilaku Namun, penelitian ini memiliki keterbatasan, seperti ketergantungan pada satu metode seleksi fitur (Borut.
dan satu algoritma klasifikasi (Gradient Boostin.
, serta belum mempertimbangkan dinamika waktu .
ime-series behavio.
dalam data pelanggan.
Untuk pengembangan ke depan, disarankan untuk membandingkan Boruta dengan metode seleksi lain seperti SHAP atau Recursive Feature Elimination, serta mengeksplorasi pendekatan ensembel dan model time-aware untuk meningkatkan akurasi prediksi dalam skenario bisnis yang lebih dinamis.
REFERENSI