Bulletin of Information System Research (BIOS) Volume 3.
No 1.
December 2024 Page: 39-45 ISSN 2963-2455 .
edia onlin.
https://journal.
id/index.
php/bios Komparasi Metode Decision Tree dan K-Nearest Neighbor (KNN) dalam Memprediksi Costumer Churn Pada Perusahaan Telekomunikasi Khadisah Syah Riebhan Palluvi1,*.
Nadyari Syaada2.
Bunga Intan3 Universitas Bina Insan.
Lubuklinggau.
Indonesia Email: 1,*khadisah.
syah21@gmail.
com, 2Nadyarisya31@gmail.
com, 3bungaintan@univbinainsan.
Email Penulis Korespondensi: khadisah.
syah21@gmail.
AbstrakOePrediksi customer churn bertujuan untuk mengklasifikasikan data pelanggan sebelumnya menjadi dua kategori: pelanggan yang akan berhenti berlangganan dan pelanggan yang akan terus berlangganan.
Prediksi tersebut memanfaatkan ilmu data mining peran klasifikasi yang merupakan menempatkan variabel atau objek ke dalam beberapa kategori relevan yang telah ditetapkan Dalam proses eksekusi data mining, diperlukan sebuah algoritma yang dapat mengklasifikasikan apakah customer churn atau tidak churn.
Data yang digunakan terdiri dari 7043 rows dan 21 columns.
Didalam data tersebut salah satu kolom akan dijadikan label yaitu kolom AChurnA.
Dalam proses prediksi churn, algoritma yang digunakan yaitu Decision Tree dan K-Nearest Neighbor.
Dari hasil analisis yang dilakukan, pada algoritma KNN dihasilkan 76% dan Decision Tree 72%.
Dengan hasil pemodelan akurasi 72% dan 76%, keduanya memenuhi kriteria kesuksesan >70%.
Namun, model KNN dengan akurasi 76% lebih baik dan lebih diinginkan karena memberikan prediksi yang lebih akurat.
Kata Kunci: Decision Tree.
KNN.
Prediksi.
Churn AbstractOeCustomer churn prediction aims to classify previous customer data into two categories: customers who will unsubscribe and customers who will continue to subscribe.
The prediction utilizes the science of data mining, the role of classification, which is placing variables or objects into several previously defined relevant categories.
In the data mining execution process, an algorithm is needed that can classify whether a customer churns or not.
The data used consists of 7043 rows and 21 columns.
In the data, one of the columns will be used as a label, namely the 'Churn' column.
In the churn prediction process, the algorithms used are Decision Tree and K-Nearest Neighbor.
From the results of the analysis carried out, the KNN algorithm produced 76% and Decision Tree With the results of modeling accuracy of 72% and 76%, both meet the success criteria> 70%.
However, the KNN model with an accuracy of 76% is better and more desirable because it provides more accurate predictions.
Keywords: Decision Tree.
KNN.
Prediction.
Churn
PENDAHULUAN
Dalam era bisnis modern, mempertahankan pelanggan yang ada seringkali lebih menguntungkan dibanding menarik pelanggan baru dan juga membantu perusahaan menjual lebih banyak produk.
Masalah yang dihadapi oleh perusahaan adalah bagaimana mencegah fenomena customer churn ini, yang terjadi ketika pelanggan berhenti berlangganan layanan atau produk perusahaan.
Fenomena ini menjadi masalah kritis karena dapat menyebabkan penurunan pendapatan dan mengganggu stabilitas bisnis perusahaan.
Untuk mengatasi masalah ini, diperlukan metode prediksi yang efektif .
Prediksi customer churn bertujuan untuk mengklasifikasikan data pelanggan sebelumnya menjadi dua kategori:
pelanggan yang akan berhenti berlangganan dan pelanggan yang akan terus berlangganan.
Prediksi tersebut memanfaatkan ilmu data mining peran klasifikasi yang merupakan menempatkan variabel atau objek ke dalam beberapa kategori relevan yang telah ditetapkan sebelumnya.
Dalam proses eksekusi data mining, diperlukan sebuah algoritma yang dapat mengklasifikasikan apakah customer churn atau tidak churn.
Industri penyedia jasa telekomunikasi merupakan industri yang terus berkembang dan selalu dibutuhkan Dengan semakin banyaknya jumlah perusahaan telekomunikasi baik penyedia layanan GSM (Global System Mobil.
maupun CDMA (Code Division Multiple Acces.
, masing-masing akan saling menerapkan strategi untuk memperebutkan perhatian pelanggan dan menguasai pasar.
Berbagai cara dilakukan dalam mendukung strategi tersebut, seperti: penerapan tarif murah, penyediaan layanan/ fitur khusus kepada pelanggan, undian berhadiah, bonus pulsa, jaminan minimalisasi call drop, ataupun lainnya.
Semua hal tersebut bertujuan untuk mempertahankan atau menambah revenue yang didapat oleh perusahaan, serta landasan bahwa biaya untuk mempertahankan pelanggan akan lebih murah dibandingkan biaya untuk menarik pelanggan baru.
Untuk itu dalam proses prediksi churn algoritma yang digunakan adalah decision tree dan K-Nearest Neighbor (K-NN).
Algoritma K-nearest neighbor (K-NN) merupakan penelitian menggunakan metode dengan mencari kedekatan antara kriteria kasus baru dengan beberapa kriteria kasus lama berdasarkan criteria kasus yang paling mendekati.
Algoitma K-nearest neighbor (KNN) adalah sebuah metode untuk melakukan klasifikasi terhadap objek berdasarkan data latih yang jaraknya paling dekat dengan objek tersebut.
Ketepatan algoritma K-NN ini sangat di pengaruhi oleh ada atau tidaknya kriteria-kriteria yang tidak relevan, atau jika bobot kriteria tersebut tidak setara dengan relevansinya terhadap klasifikasi.
Metode Decision tree merupakan metode yang ada pada teknik klasifikasi dalam data mining.
Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon pohon keputusan yang mempresentasikan aturan.
Pohon keputusan juga berguna untuk mengeksplorasi data, menemukan hubungan tersembunyi antara jumlah calon variable input dengan sebuah variabel target.
The Author .
Copyright A 2024 | Page 39 Bulletin of Information System Research (BIOS) Volume 3.
No 1.
December 2024 Page: 39-45 ISSN 2963-2455 .
edia onlin.
https://journal.
id/index.
php/bios Penelitian ini akan melakukan perbandingan antara algoritma K-nearest neighbor dan Metode Decision tree, penelitian ini diharapkan dapat memberikan beberapa manfaat, antara lain: peningkatan akurasi prediksi churn, pengembangan strategi retensi pelanggan yang lebih efektif, pengembangan model prediktif yang handal, dan kontribusi terhadap literasi data mining.
METODOLOGI PENELITIAN
Penelitian ini menggunakan pendekatan kuantitatif dengan fokus pada analisis data yang dikumpulkan dari Github.
Data ini akan diolah melalui klasifikasi menggunakan algoritma Decision Tree dan K-Nearest Neighbor (K-NN).
1 Metode Pengumpulan Data Pengumpulan data dalam penelitian ini dilakukan guna mendapatkan suatu informasi dalam menyelesaikan Berikut merupakan metode pengumpulan data yang digunakan penulis dalam melakukan penelitian:
Studi Pustaka Studi Pustaka merupakan suatu proses pengumpulan data kepustakaan dilakukan dengan cara mengumpulkan materi melalui jurnal, literatur, buku ataupun situs internet sebagai sumber Pustaka yang berkaitan dengan penelitian terutama tentang memprediksi costumer churn dengan metode decision tree dan K-Nearest Neighbor (K-NN).
Data Primer Data primer merupakan data yang diperoleh secara langsung dari objek penelitian.
Data dalam penelitian ini diperoleh dari Github.
2 Metode Analisa Penelitian ini menggunakan metode analisis dengan menerapkan algoritma decision tree dan K- Nearest Neigbor (KNN).
Adapun penjelasannya sebagai berikut:
Decision Tree Decision Tree merupakan salah satu algoritma pada pengolahan data metode klasifikasi.
Algoritma machine learning yang satu ini mempresentasikan strukturnya seperti struktur pohon untuk menemukan hasil keputusan.
Konsep dari Decision Tree ini adalah dengan menyajikan pernyataanpernyataan bersyarat pada setiap langkah yang bercabang untuk pengambilan keputusan berdasarkan perhitungan dari data set itu sendiri.
Dalam metode Klasifikasi, algoritma Decision Tree merupakan yang paling banyak digunakan.
K-Nearest Neighbor (KNN) Berbeda dengan model algoritma Decision Tree.
K-Nearest Neighbor (KNN) merupakan algoritma yang melakukan klasifikasi data berdasarkan jarak paling dekat dengan objek target.
Konsep dari K-Nearest Neighbor (KNN) sangat sederhana, algoritma ini berjalan dengan mengklasifikasikan berdasarkan kesamaan ciri-ciri terhadap kelompok tertentu dari titik data terdekat atau tetangganya.
Dengan konsep seperti itu.
K-Nearest Neighbor (KNN) akan memberikan hasil akhir yang kompetitif.
HASIL DAN PEMBAHASAN
1 Pengumpulan Data Data yang digunakan terdiri dari 7043 rows dan 21 columns.
Didalam data tersebut salah satu kolom akan dijadikan label yaitu kolom AChurnA.
Data tersebut dapat dilihat pada gambar 1 berikut:
Gambar 1.
Data Mentah Tipe data yang terkumpul yaitu object, int dan float.
Data yang bukan numerik akan diubah menjadi numerik agar dapat melakukan pemodelan KNN dan Decision Tree.
Dapat dilihat pada gambar 2 berikut:
The Author .
Copyright A 2024 | Page 40 Bulletin of Information System Research (BIOS) Volume 3.
No 1.
December 2024 Page: 39-45 ISSN 2963-2455 .
edia onlin.
https://journal.
id/index.
php/bios Gambar 2.
Tipe Data Adapun deskripsi statistic dasar yang menampilkan kolom dengan tipe data numerik, yaitu SeniorCitizen, tenure.
MonthlyCharges.
Gambar 3.
Deskripsi Statistic Berdasarkan Gambar 3 diatas.
Karakteristik data yang terkumpul dengan visualisasi grafik dapat dilihat sebagai Gambar 4.
Histogram Distribusi Data The Author .
Copyright A 2024 | Page 41 Bulletin of Information System Research (BIOS) Volume 3.
No 1.
December 2024 Page: 39-45 ISSN 2963-2455 .
edia onlin.
https://journal.
id/index.
php/bios Gambaran 4 distribusi data.
Jika distribusi data simetris dan berbentuk, maka data cenderung normal.
Jika distribusi memiliki ekor panjang di salah satu sisi, maka data mungkin memiliki skewness.
Skewness merupakan ukuran statistik yang menggambarkan kemiringan atau asimetri dari distribusi data.
Ini mengindikasikan seberapa simetris atau tidak simetris distribusi data tersebut.
Kesimpulan dari visualisasi histogram diantaranya: .
SeniorCitizen.
Mayoritas pelanggan bukan warga senior.
Tenure.
Sebagian besar pelanggan memiliki masa keanggotaan yang sangat pendek, dengan beberapa outlier yang mungkin perlu diteliti lebih lanjut.
MonthlyCharges.
Pelanggan membayar biaya bulanan yang bervariasi, dengan sebagian besar membayar di kisaran rendah hingga menengah.
2 Pre-processing Tahap selanjutnya setelah data didapatkan adalah melakukan preprocessing data.
Preprocessing data adalah salah satu tahap yang dilakukan setelah dataset berhasil didapatkan, kemudian dibersihkan dari berbagai elemen yang tidak relevan untuk penelitian dan akhirnya mendapatkan dataset yang berkualitas(Rizka Yudana et al.
, 2.
Dalam penelitian ini, dataset akan melalui preprocessing data dengan beberapa.
Pertama ada Feature Selection, dimana terdapat satu atribut bernama AuNo_rowsAy yang tidak akan dimasukkan ke dalam pemrosesan data karena tidak relevan dan hanya berfungsi sebagai penomoran data di luar pemrosesan.
Kemudian terdapat Missing Data Treatment yang dilakukan kepada beberapa atribut yang memiliki missing value.
Adapun atribut yang memiliki missing value dapat dilihat sebagai berikut:
Gambar 5.
Missing Values Dengan hasil Analisa Gambar 4 di atas ditemukan nilai missing values pada kolom gender dan tenure, hal tersebut diperlukan untuk membersihkan data atau menggunakan Teknik imputasi untuk mengisi nilai yang hilang.
Setelah berhasil membersihkan dataset dari missing value, selanjutnya adalah memberikan label kepada salah satu Label sendiri sangat diperlukan pada metode klasifikasi karena role atribut ini digunakan sebagai identifier dan mengklasifikasi bagi objek atau data yang sedang olah(Yudiana et al.
, 2.
Pada penelitian data set ini, yang berperan sebagai label adalah atribut AuChurnAy.
3 Pengujian Akurasi Algoritma Pengimplementasian kepada algoritma Decision Tree.
K-Nearest Neighbor (KNN) pertama-tama dilakukan untuk testing dan menentukan algoritma mana yang memiliki kelayakan dan akurasi paling tinggi pada dataset target.
Testing dilakukan menggunakan hasil split data yang telah dihasilkan sebelumnya.
80% data yang merupakan data training akan dihubungkan/dimasukkan ke dalam algoritma untuk menjadi model atau sumber perhitungan.
Kemudian algoritma yang akan diukur keakuratannya dihubungkan dengan operator Apply Model bersamaan dengan 20% data tersisa sebagai data testing.
Pengujian pertama dilakukan kepada Algoritma Decision Tree.
Pada hasil pengujian ini didapatkan akurasi dari Decision Tree dengan akurasi sebesar 72%.
Berikut Gambar 6 rincian hasil testing Decision Tree:
The Author .
Copyright A 2024 | Page 42 Bulletin of Information System Research (BIOS) Volume 3.
No 1.
December 2024 Page: 39-45 ISSN 2963-2455 .
edia onlin.
https://journal.
id/index.
php/bios Gambar 6.
Pemodelan Decision Tree Feature importance yang dihasilkan pada model ini yang pertama yaitu MonthlyCharges, dilanjutkan TotalCharges, tenure dan gender.
Gambar 7.
Decision Tree Feature Importance Selanjutnya, pengujian dilakukan kepada Algoritma K-Nearest Neighbor (KNN).
Pengujian dilakukan dengan split data yang masih sama.
Setelah dilakukan pengujian didapatkan hasil akurasi sebesar 76%.
Gambar 8.
Pemodelan K-Nearest Neighbor Untuk model K-Nearest Neighbors (KNN) tidak memiliki atribut feature_importances.
Atribut feature_importances_ adalah khusus untuk beberapa model, seperti Decision Tree.
Random Forest, dan model treebased lainnya, yang bisa mengukur seberapa penting setiap fitur dalam membuat prediksi teks tebal.
The Author .
Copyright A 2024 | Page 43 Bulletin of Information System Research (BIOS) Volume 3.
No 1.
December 2024 Page: 39-45 ISSN 2963-2455 .
edia onlin.
https://journal.
id/index.
php/bios 4 Confusion Matrix Decision Tree Gambar 9.
Confusion Matrix Decision Tree Berdasarkan gambar 9 diatas, dapat dijelaskan bahwa True Label "No Churn" (Baris pertam.
terdiri atas Predicted "No Churn": 829 pelanggan diprediksi tidak churn dan mereka benar-benar tidak churn dan Predicted "Churn": 207 pelanggan diprediksi churn, tetapi mereka sebenarnya tidak churn.
Sedangkan True Label "Churn" (Baris kedu.
terdiri atas Predicted "No Churn": 184 pelanggan diprediksi tidak churn, tetapi mereka sebenarnya churn dan Predicted "Churn": 189 pelanggan diprediksi churn dan mereka benar-benar churn.
K-Nearest Neighbor (KNN) Gambar 10.
Confusion Matrix K-Nearest Neighbor Berdasarkan gambar 10 diatas, dapat dijelaskan bahwa True Label "No Churn" (Baris pertam.
terdiri atas Predicted "No Churn": 901 pelanggan diprediksi tidak churn dan mereka benar-benar tidak churn.
Dan Predicted "Churn": 135 pelanggan diprediksi churn, tetapi mereka sebenarnya tidak churn.
Sedangkan True Label "Churn" (Baris kedu.
terdiri atas Predicted "No Churn": 191 pelanggan diprediksi tidak churn, tetapi mereka sebenarnya churn.
Dan Predicted Churn": 182 pelanggan diprediksi churn dan mereka benar-benar churn.
KESIMPULAN
Dari hasil analisis yang dilakukan, pada algoritma KNN dihasilkan 76% dan Decision Tree 72%.
Dengan hasil pemodelan akurasi 72% dan 76%, keduanya memenuhi kriteria kesuksesan >70%.
Namun, model KNN dengan akurasi 76% lebih baik dan lebih diinginkan karena memberikan prediksi yang lebih akurat.
Kedua model mungkin belum mencapai performa optimal jika tidak dilakukan tuning hyperparameter yang maksimal.
Untuk penelitian selanjutnya, dapat digunakan teknik seperti grid search atau random search untuk menemukan konfigurasi terbaik bagi KNN dan Decision Tree.
Ini bisa memengaruhi hasil akhir secara signifikan.
REFERENCES