Jurnal Algoritma. Logika dan Komputasi Versi Online: https://journal. id/index. php/alu DOI: http://dx. org/10. 30813/j-alu. Vol. VII (No. : 634 - 642. Th. p-ISSN: 2620-620X e-ISSN: 2621-9840 GRADIENT BOOSTING TREES UNTUK PEMODELAN DAN PREDIKSI BIAYA KERUGIAN ASURANSI MOBIL Gradient Boosting Trees for Auto Insurance Loss Cost Modeling and Prediction Eric Fammaldo, ericfammaldo@gmail. Merryana Lestari, mlestari@bundamulia. Chandra Hermawan, l0744@lecturer. Program Studi Informatika/Fakultas Teknologi dan Desain. Universitas Bunda Mulia. Jakarta *Program Studi Sistem Informasi/Fakultas Teknologi dan Desain. Universitas Bunda Mulia. Jakarta Diterima 26 Juli 2024 / Disetujui 31 Juli 2024 ABSTRACT Gradient Boosting is a machine learning algorithm that combines several simple parameter functions that aim to predict a fairly accurate information from existing data. In contrast to statistical methods in general, this Gradient boosting provides interpretable information, while requiring little data preprocessing and tuning of parameters. Boosting Gradient can be applied to classify or regress data, complex interaction is modeled simply and minimizes loss of information while in predictor management, so this algorithm is good enough to be used for modeling the cost of insurance loss. This paper presents the GB theory and its application to the problem of predicting '' at-fault '' accidents on auto loss costs using data from Canadian insurance companies. The predictive accuracy of the model is compared to the conventional Generalized Linear Model (GLM) approach. Keywords: Gradient Boosting. Generalized Linear Model. Cost of insurance loss ABSTRAK Gradient Boosting (GB) adalah sebuah algoritma machine learning yang menggabungkan beberapa fungsi parameter sederhana yang bertujuan untuk memprediksi sebuah informasi yang cukup akurat dari data-data yang ada. Berbeda dengan metode statistika pada umumnya. Gradient boosting ini memberikan informasi yang dapat diinterpretasi, sementara membutuhkan sedikit data preprocessing dan tuning dari parameter. Gradient Boosting dapat diterapkan untuk melakukan klasifikasi maupun regresi pada data-data. Interaksi kompleks dimodelkan secara sederhana dan meminimalisir kehilangan informasi saat dalam pengelolaan prediktor, sehingga algoritma ini cukup baik digunakan untuk pemodelan biaya asuransi kerugian. Penelitian ini menyajikan teori GB dan aplikasinya untuk masalah memprediksi kecelakaan AoAoat-faultAoAo pada biaya kerugian mobil menggunakan data dari perusahaan asuransi Kanada. Akurasi prediksi model GB dibandingkan terhadap pendekatan Generalized Linear Model (GLM) konvensional. Kata Kunci: Gradient Boosting. Generalized Linear Model. Biaya asuransi kerugian PENDAHULUAN Generalized Linear Models (GLM. merupakan sebuah model yang banyak digunakan dalam penetapan harga asuransi, model ini didasarkan pada pendekatan konvensional pemodelan statistik yang dimulai dengan mengasumsikan bahwa data dihasilkan dengan model statistik bertentu . Dari asumsi tersebut dihasilkan parameter yang dapat diinterpretasikan dan dikombinasikan dengan cara multiplikatif untuk mendapatkan perkiraan biaya kerugian. Banyak percobaan pada beberapa dekade terakhir ini yang menciptakan beberapa pengembangan dalam mengolah data, namun berbeda dengan pemodelan data, model algoritma tidak menganggap beberapa model spesifik sebagai data, namun sebagai data yang tidak dikenal . Sehingga mereka lebih efisien dalam menangani data yang besar dan komplek serta data yang bersifat non*Korespondensi Penulis: E-mail: mlestari@bundamulia. Jurnal Algoritma. Logika dan Komputasi Versi Online: https://journal. id/index. php/alu DOI: http://dx. org/10. 30813/j-alu. Vol. VII (No. : 634 - 642. Th. p-ISSN: 2620-620X e-ISSN: 2621-9840 Banyak pengembangan yang dilakukan demi mengembangkan GLM seperti Regresi Poisson. Regresi Gamma dan Regresi Logistik . Dalam pengunaan Gradient Boost untuk saat ini masih belum di dokumentasi dalam penentuan harga asuransi. Tujuan dari penelitian ini adalah untuk mempresentasikan teori Gradient Boost dan pengunaannya dalam menganalisa pemodelan biaya kerugian dengan mengunakan data dari perusahaan asuransi Kanada dan mejelaskan detail mengenai Gradient Boost dari pembelajaran statistik perspektif, serta menjelaskan pengaplikasinya dalam analisis asuransi kerugian kecelakaan Auat-faultAy. METODOLOGI PENELITIAN Mulai Identifikasi Permasalahan Implementasi Algoritma Analisis Data Analisis Hasil Selesai Pengujian Model dan Algoritma Pengumpulan Data Gambar 1. Tahapan Penelitian Tahapan penelitian ini dapat dilihat pada Gambar 1, dimulai dengan identifikasi permasalahan yang akan menjadi objek penelitian, kemudian dilakukan proses pengumpulan data, data yang menjadi objek penelitian adalah data dari perusahaan asuransi dan didalam proses analisis data dilakukan data preprocessing sebelumnya supaya memastikan bahwa data yang digunakan dalam penelitian sesuai . Setelah dilakukan proses analisis data, dilanjutkan pada proses implementasi algoritma sehingga dapat dilakukan pengujian model dan algoritma yang paling sesuai, kemudian dilakukan proses analisis hasil untuk didapatkan kesimpulan dari penelitian ini. Predictive Learning and Boosting Masalah predictive learning dapat dicirikan dengan vektor input atau variabel prediktor x = . 1, , x. dan output atau target variabel y. Dalam aplikasi penelitian ini, variabel input diwakili oleh kumpulan atribut kuantitatif dan kualitatif dari kendaraan dan diasuransikan, dan output adalah biaya kerugian yang sebenarnya. Diberikan sebuah koleksi M {. i, x. i = 1, . M} dari nilai-nilai yang dikenal . , . , tujuan menggunakan data ini untuk mendapatkan dan memperkirakan fungsi yang memetakan vektor input x ke dalam nilai-nilai dari output y. Fungsi ini kemudian dapat digunakan untuk membuat prediksi pada instance di mana hanya nilai x yang Secara formal, penelitian ini mempelajari fungsi prediksi yang meminimalkan harapan dari beberapa fungsi kerugian L . , . atas distribusi bersama dari semua nilai . , . dapat dilihat pada rumus . Metode Boosting adalah metode yang berdasarkan intuitive yang mengabungkan banyak aturan AuweakAy yang menghasilkan model klasifikasi dan regresi dengan pengembangan prediksi dalam performanya . Pengabungan dari banyak aturan tersebut dapat menciptakan sebuah pemodelan yang akurat. Ide ini dikenal sebagai Authe Strength of weak learnabilityAy . Banyak metode boosting yang ada seperti AdaBoost yang populer dikarenakan Freund dan Schapire . merupakan salah metode yang menerapkan prinsip pengabungan weak rules, metode memang bagus ini namun memiliki keterbatasan . nOverfi. sehingga tidak semua analisis data dapat mengunakan metode ini, sedangkan Gradient Boost lebih bersifat meningkatkan performa, sehingga Gradient boost ini bisa digunakan pada AdaBoost atau pemodelan lainnya (OverFi. Jurnal Algoritma. Logika dan Komputasi Versi Online: https://journal. id/index. php/alu DOI: http://dx. org/10. 30813/j-alu. Vol. VII (No. : 634 - 642. Th. p-ISSN: 2620-620X e-ISSN: 2621-9840 Additive Model and Boosting Penelitian ini akan berfokus pada masalah regresi, dimana y kuantitatif dan tujuannya adalah untuk mendapatkan estimasi rata-rata E. -f. Pada umumnya, linear regresi model sebuah bentuk linear dapat dilihat pada rumus . Dengan adanya penambahan model additive, akan adanya perubahan komponen pada rumus bentuk linear menjadi rumus . Model ini bisa di kembangkan lagi dengan melakukan pertimbangan pada model additive dengan fungsi ft. ,t-. ,T} dari kemungkinan semua input variable dapat dilihat pada rumus . Pada konteks Boosting, th. mewakili weak leaner dan f. mewakili pertimbangan mayoritas suara individu weak learners . Sehingga bisa di estimasi parameter dalam pemecahannya yang dapat dilihat pada rumus . Dengan menggunakan Algoritma Forward Stagewise Additive Modeling sebagai berikut, diperoleh alur pseudocode seperti pada Gambar 2. Gambar 2. Pseudocode Algoritma Forward Stagewise Additive Modeling Jika squared-error digunakan sebagai fungsi kerugiannya maka pada baris ke 3 . akan berubah menjadi rumus . Jurnal Algoritma. Logika dan Komputasi Versi Online: https://journal. id/index. php/alu DOI: http://dx. org/10. 30813/j-alu. Vol. VII (No. : 634 - 642. Th. p-ISSN: 2620-620X e-ISSN: 2621-9840 Gradient Boost Squared-error dan exponential error adalah fungsi kerugian yang masuk akal yang umumnya digunakan untuk masalah regresi dan klasifikasi . Namun, mungkin ada situasi di mana fungsi kerugian lainnya lebih tepat. Misalnya, penyimpangan binomial masih jauh lebih kuat daripada kehilangan eksponensial dalam pengaturan yang berisik di mana tingkat kesalahan Bayes tidak mendekati nol, atau dalam situasi di mana kelas target salah diberi label. Demikian pula, kinerja kesalahan-kuadrat secara signifikan terdegradasi untuk distribusi kesalahan berekor panjang atau kehadiran AuoutliersAy dalam data . Dalam situasi seperti itu, fungsi lain seperti kesalahan absolut atau Huber loss lebih tepat. Gambar 3. Pseudocode Algoritma Gradient Boosting Di bawah spesifikasi alternatif untuk fungsi kerugian dan untuk weak learner tertentu, solusi untuk baris ke 3 dalam Algoritma Additive Modeling sulit diperoleh. Algoritma peningkatan gradient memecahkan masalah menggunakan prosedur dua langkah yang dapat diterapkan pada fungsi kerugian terdiferensiasi. Langkah pertama yaitu memperkirakan dengan menyesuaikan weak learner h . ke gradient negatif dari fungsi kerugian yaitu Aupseudo-residualsAy menggunakan kuadrat terkecil. Pada langkah kedua, nilai t optimal ditentukan h . Prosedur ditunjukan dalam Algoritma Gradient Boosting pada Gambar 3. Untuk masalah squared-error loss, pada baris ke 3 di algoritma diatas, negative berfungsi untuk mengurangi standar leastsquares boosting. Dengan hilangnya kesalahan absolut, gradient negatif adalah tanda residual. Least-squares digunakan pada baris ke 4 terlepas dari fungsi kerugian yang dipilih. Injecting randomness and regularization Dalam mengunakan algoritma pada Gradient Boosting untuk mencegah AuoverfittingAy digunakanlah metode regularization dimana bertujuan untuk membatasi parameter dalam Gradient Boosting guna mengontrol sejumlah iterasi yang akan terjadi saat dalam proses, sehingga pada baris ke 6 di algoritma Gradient Boosting terjadi perubahan menjadi Rumus . Perubahan kedua adalah pada pengunaan metode randomness pada prosedur yang bertujuan untuk mengurangi permintaan komputasi pada baris ke 4 di algoritma Gradient untuk melakukan penyesuaian pada data weak learner sehingga variasi pada weak learner pada setiap iterasi akan meningkat, tetapi korelasi antara estimasi pada iterasi yang berbeda akan menurun. Jurnal Algoritma. Logika dan Komputasi Versi Online: https://journal. id/index. php/alu DOI: http://dx. org/10. 30813/j-alu. Vol. VII (No. : 634 - 642. Th. p-ISSN: 2620-620X e-ISSN: 2621-9840 HASIL DAN PEMBAHASAN Data yang digunakan dalam penelitian ini adalah data dari asuransi di Kanada, yang didalamnya tercantum peraturan dan informasi di tingkat kendaraan individu dan pada tiap beberapa waktu akan dilakukan pengecekan mengenai masalah Auat-faultAy. Data ini termasuk 426. 838 eksposur yang diterima dan dilihat dari kendaraannya pertahun dari bulan januari 2006 sampai bulan juni 2009, dan tercatat sebanyak 14,984 kali yang terjadi pada periode yang sama, dengan kerugian berdasarkan estimasi cadangan terbaik pada bulan desember 2009. Variable yang diinput diukur dari mulainya masa eksposur dan diwakili dengan kualitas serta kuantitas pada kendaraan. Output yang keluar adalah biaya kerugian yang di hitung berdasarkan rasio dari total kerugian pada Pada percobaan ini, 70% data training digunakan untuk penyeleksian dan pelatihan pemodelan, sedangkan 30% data uji digunakan untuk pengujian pada memprediksi ketepatan gradient boost dengan generalized linear model dimana digunakan perbandingan pada keduanya untuk menentukan biaya kerugian. Biaya kerugian biasanya dibagi menjadi 2, frekuensi pengambilan yang dihitung berdasarkan rasio pengambilan dalam mendapatkan eksposur dan pengambilan berdasarkan tingkat keparahan yaitu perhitungannya bedasarkan rasio total kerugian dalam Tabel 1 menunjukkan varible input pada data yang dibutuhkan. Tabel 1. Variabel Input Pembangunan Model Pertama yang dilakukan untuk pemodelan adalah memilih sebuah loss function yang tepat L. ,f. ) atau bisa dibilang weak leaners. Pengunaan square-error loss dan bernoulli deviance digunakan untuk mendefinisi error pada prediksi untuk tingkat keseringan atau frequency models dan tingkat keparahan atau severity models, serta butuh melakukan pemilihan dalam tiap pohon dan sub samplenya. Yang pertama ditetapkan sebagai nilai tetap 0. 001 dan yang setelahnya 50%. Kemudian ukuran pohon individu S dan jumlah iterasi boosting T butuh diseleksi. Ukuran tiap pohon diseleksi dengan meningkatkan kedalaman interaksi pohon secara berurutan, dimulai dengan sebuah additive model dan diikuti dengan two-ways interactions dan six-ways interaction. Ini dilakukan secara bergantian untuk frequency dan severity models. Setiap model tersebut diuji cobakan sebanyak 20. 000 iterasi boosting mengunakan data training. Seperti yang ditunjukkan pada Gambar 4. Jurnal Algoritma. Logika dan Komputasi Versi Online: https://journal. id/index. php/alu DOI: http://dx. org/10. 30813/j-alu. Vol. VII (No. : 634 - 642. Th. p-ISSN: 2620-620X e-ISSN: 2621-9840 Gambar 4. Iterasi boosting Dari data grafik pada gambar 4 menunjukan relasi antara Train Error dan Cross Validation error dan garis biru menunjukan jumlah iterasi boosting yang optimal. Analisis Hasil Pada grafik relative Importance pada Gambar 5 menunjukan 10 . data penting yang dibutuhkan dalam varible prediksi yang disebelah kiri untuk model frequency dan sebelah kanan untuk model severity. Karena pengukuran ini relatif, maka 100 data yang digunakan untuk prediksi yang penting dan sisanya mengikuti. Pada kedua model tersebut sangat jelas tampak perbedaannya, pertama pada jumlah tahun lisensi prinsip operator pada kendaraan pada frequency model lebih relevan prediksinya berbeda dengan severity, selain itu bisa dilihat juga usia kendaraan pada severity model lebih mendominasi dibanding frequency, begitu juga data yang Pada grafik partial dependence (DC2,PC7,AC5,DC1,VC5,DC. Pada frequency model dibagian vertikal menunjukan log odds dan tanda hash menunjukan desil distibusi variable yang Pada frequency mempunyai partial dependence yang non-monotonic pada bagian tahun lisensi dan terus menurun dan naik saat diujung data. Data yang ada pada grafik tersebut juga ada yang mengalami penurunan dan kenaikan yang dapat dilihat pada Gambar 6. Gambar 5. Relative Importance Jurnal Algoritma. Logika dan Komputasi Versi Online: https://journal. id/index. php/alu DOI: http://dx. org/10. 30813/j-alu. Vol. VII (No. : 634 - 642. Th. p-ISSN: 2620-620X e-ISSN: 2621-9840 Gambar 6. Frequency Model Gambar 7. Severity Model Jurnal Algoritma. Logika dan Komputasi Versi Online: https://journal. id/index. php/alu DOI: http://dx. org/10. 30813/j-alu. Vol. VII (No. : 634 - 642. Th. p-ISSN: 2620-620X e-ISSN: 2621-9840 Pada Grafik di gambar 7 terdapat severity models (VC5. VC6. VC4. PC3. DC2. AC. menunjukan bawah ketergantungan umur kendaraan dan harganya bergantung pada biaya perbaikian untuk mobil yang lebih mahal dan lebih baru. Bentuk kurva pada grafiknya cukup linear dari banyak data-data tersebut. Pada tiap grafiknya menunjukan ada variable ketergantungan yang mempengaruhi severity model. Gambar 8. Grafik DC2-VC4 Pada Gambar 8, grafik (DC2. VC. menunjukan bahwa ketergantungan antara tahun lisensi dan tenaga kuda ke rasio berat pada severity model. Dimana tingkat rasio berat tenaga kuda lebih tinggi dari nilai tahun lisensi. Selanjutnya perbandingan ketepatan prediksi antara Generalized Linear Models (GLM) dan Gradient Boosting dengan data sample dengan menghitung tingkat Tercatat bahwa GLM rasio kerugian meningkat ketikan Gradient Boost model melakukan charge yang relative tinggi ke GLM. Kecenderungan ke atas dalam kurva rasio GLMloss menunjukkan kinerja prediktif yang lebih tinggi dari Gradient Boosting relatif untuk GLM. Gambar 9 adalah grafik tingkat rasio perbandingannya. Gambar 9. Tingkat Rasio Pada penelitian ini dijelaskan mengenai Gradient Boost dan pengaplikasian analisisnya terhadap kasus yang dibahas, dimana Gradient Boost ini diwakili sebagai additive model yang secara berturut-turut disesuaikan sebagai weak learner ke residual saat ini dengan least-squares. Dan berdasarkan data yang sudah dicoba dengan pengunaan Gradient Boosting pada analisa data ini, menunjukan pendekatan Gradient Boost relatif lebih tinggi dibanding GLM. Ini tidak mengherankan karena GLM adalah, pada dasarnya, model linier yang relatif sederhana dan dengan demikian mereka dibatasi oleh kelas fungsi yang mereka dapat perkiraan. Kedua. Jurnal Algoritma. Logika dan Komputasi Versi Online: https://journal. id/index. php/alu DOI: http://dx. org/10. 30813/j-alu. Vol. VII (No. : 634 - 642. Th. p-ISSN: 2620-620X e-ISSN: 2621-9840 dibandingkan dengan metode pembelajaran statistik non-linear lainnya seperti jaringan saraf dan mesin pendukung vektor. GB memberikan hasil yang dapat diinterpretasikan melalui pengaruh relatif dari variabel input dan plot ketergantungan parsial mereka . Ini adalah aspek penting untuk dipertimbangkan dalam lingkungan bisnis, di mana model biasanya harus disetujui oleh pembuat keputusan yang tidak memiliki statistik terlatih yang perlu memahami bagaimana output dari Aukotak hitamAy sedang diproduksi. Ketiga. GB membutuhkan sedikit data preprocessing yang merupakan salah satu kegiatan yang paling memakan waktu dalam proyek data mining. Terakhir, perlunya analisis pemilihan model dilakukan sebagai bagian integral dari prosedur GB. Singkatnya. Gradient Boosting adalah metode alternatif yang baik untuk Generalized Linear Models dalam membangun model biaya kerugian asuransi. SIMPULAN Berdasarkan hasil penelitian yang dilakukan dapat disimpulkan bahwa pengguna Gradient Boosting pada biaya kerugian dibanding dengan GLM menunjukan bahwa pengunaan Gradient Boosting bisa dijadikan alternatif dalam melakukan prediksi biaya kerugian karena lebih cepat dan akurasi/ketepatannya pun tidak kalah dengan mengunakan metode konvensional GLM. DAFTAR PUSTAKA