Institut Riset dan Publikasi Indonesia (IRPI) MALCOM: Indonesian Journal of Machine Learning and Computer Science Journal Homepage: https://journal. id/index. php/malcom Vol. 5 Iss. 3 July 2025, pp: 930-941 ISSN(P): 2797-2313 | ISSN(E): 2775-8575 Optimized Extreme Gradient Boosting using Particle Swarm Optimization for Software Effort Estimation Optimasi Extreme Gradient Boosting dengan Particle Swarm Optimization untuk Estimasi Software Effort Achmad Fahreza Alif Pahlevi1*. Mokhammad Amin Hariyadi2. Agung Teguh Wibowo Almais3 1,2,3 Informatics Engineering. Faculty of Science and Technology. Universitas Islam Negeri Maulana Malik Ibrahim Malang. Indonesia E-Mail: 1230605210013@student. uin-malang. adyt2002@uin-malang. id, 3agung. twa@ti. uin-malang. Received May 19xth 2025. Revised Jun 18th 2025. Accepted Jun 22th 2025. Available Online Jul 31th 2025. Published Jul 31th 2025 Corresponding Author: Achmad Fahreza Alif Pahlevi Copyright A 2025 by Authors. Published by Institut Riset dan Publikasi Indonesia (IRPI) Abstract Software effort estimation (SEE) is critical in project management, yet accuracy is often compromised by project To address this, this study proposes an innovative hybrid method Particle Swarm Optimization (PSO) Extreme Gradient Boosting (XGBoos. for SEE. The PSO algorithm optimizes the hyperparameters of XGBoost, improving its ability to model nonlinear relationships in software project data, thereby reducing estimation errors. Experimental results on China and Nasa93 datasets show that PSO-XGBoost significantly outperforms traditional methods and standalone machine learning models. The proposed method achieves a lower Root Mean Square Error (RMSE) of 0. 024 for China and 0. 0653 for Nasa93 demonstrating its effectiveness in providing precise effort estimation. Despite its computational complexity and reliance on quality data, this study contributes to the SEE field by presenting a practical and reliable solution, assisting software managers in resource planning and decision making. Keyword: Extreme Gradient Boosting (XGBoos. Optimization. Particle Swarm Optimization (PSO). Prediction. Software Effort Estimation (SEE) Abstrak Estimasi upaya perangkat lunak (SEE) sangat penting dalam manajemen proyek, namun akurasi sering terganggu oleh kompleksitas proyek. Untuk mengatasinya, studi ini mengusulkan metode hibrida inovatif Particle Swarm Optimization (PSO) - Extreme Gradient Boosting (XGBoos. untuk SEE. Algoritma PSO mengoptimalkan hiperparameter XGBoost, meningkatkan kemampuannya memodelkan hubungan nonlinier dalam data proyek perangkat lunak, sehingga mengurangi kesalahan estimasi. Hasil eksperimen pada kumpulan data China dan Nasa93 menunjukkan bahwa PSOXGBoost secara signifikan mengungguli metode tradisional dan model pembelajaran mesin mandiri. Metode yang diusulkan mencapai Root Mean Square Error (RMSE) yang lebih rendah sebesar 0,024 untuk China dan 0,0653 untuk Nasa93 menunjukkan efektivitasnya dalam memberikan estimasi upaya yang presisi. Meskipun memiliki kompleksitas komputasi dan bergantung pada data berkualitas, studi ini berkontribusi pada bidang SEE dengan menyajikan solusi praktis dan andal, membantu manajer perangkat lunak dalam perencanaan sumber daya dan pengambilan keputusan. Kata Kunci: Extreme Gradient Boosting (XGBoos. Optimasi. Particle Swarm Optimization (PSO). Prediksi. Software Effort Estimation (SEE) PENDAHULUAN Kemajuan Teknologi Informasi dan Komunikasi (TIK) telah mengubah sektor bisnis secara signifikan selama beberapa tahun terakhir . Era digital yang berkembang pesat telah mengubah paradigma bagaimana perusahaan beroperasi. Aplikasi perangkat lunak telah menjadi fondasi di berbagai sektor industri, memungkinkan organisasi untuk mencapai efisiensi yang lebih besar, memfasilitasi transaksi bisnis yang lebih kompleks, meningkatkan pengalaman pelanggan, dan mengelola serta menganalisis data secara lebih DOI: https://doi. org/10. 57152/malcom. ISSN(P): 2797-2313 | ISSN(E): 2775-8575 Selain itu, aplikasi perangkat lunak juga memungkinkan komunikasi yang lebih efisien dan terintegrasi di seluruh organisasi, yang mencakup operasi internal dan eksternal . Seiring pesatnya kemajuan teknologi, perusahaan teknologi menghadapi tantangan kritis dalam mengelola proyek pengembangan perangkat lunak. Salah satu isu paling mendesak adalah perkiraan biaya yang akurat untuk Estimasi Upaya Perangkat Lunak (Software Effort Estimation/ SEE) . Di era persaingan digital yang semakin ketat, perusahaan dituntut untuk tidak hanya sekadar memberikan estimasi biaya, tetapi juga memastikan estimasi tersebut akurat, responsif, dan dapat diandalkan sejak tahap awal perencanaan. Kegagalan dalam memprediksi upaya secara tepat dapat berdampak signifikan pada manajemen sumber daya, penentuan harga proyek, kepuasan klien, hingga reputasi perusahaan. Ini menjadi faktor krusial yang secara langsung menentukan keberhasilan bisnis teknologi informasi modern . Masalah ini diperparah oleh kompleksitas inheren proyek perangkat lunak, yang seringkali melibatkan persyaratan yang tidak stabil, adopsi teknologi baru yang cepat, dan variabilitas tim yang dinamis, membuat metode estimasi tradisional kurang efektif. Berdasarkan tantangan spesifik yang diuraikan ini, penelitian ini bertujuan untuk mengembangkan model pembelajaran mesin yang tidak hanya menawarkan efisiensi dan akurasi yang lebih tinggi dalam memperkirakan upaya perangkat lunak, tetapi juga mampu mendorong inovasi dan membuka peluang baru dalam industri teknologi informasi yang terus berkembang secara dinamis. Penelitian sebelumnya tentang SEE yang dilakukan oleh Varshini pada tahun 2022 menerapkan algoritma Random Forest ke dataset PROMISE Nasa93, mencapai Mean Absolute Error (MAE) 0,484 dan Mean Squared Error (MSE) 0,436. Hasil ini menunjukkan bahwa Random Forest menunjukkan akurasi yang cukup besar dalam konteks prediksi SEE . Penelitian selanjutnya oleh Kaushik pada tahun 2022 menggunakan regularisasi susun dengan Gradient Boosting untuk memprediksi SEE. Temuan mengungkapkan bahwa model gabungan ini mencapai akurasi 92,08, presisi 92,07, recall 92,08, dan F1Score 92,01. Pendekatan ansambel ini berkontribusi secara signifikan untuk menghasilkan prediksi yang tepat dan akurat untuk SEE . Penelitian selanjutnya oleh Gautam dan Singh pada tahun 2022 menerapkan Gradient Boosting ke kumpulan data PROMISE Nasa93, mencapai MAE 0,476 dan MSE 0,414. Hasil ini menunjukkan bahwa Gradient Boosting menunjukkan kinerja yang cukup baik dalam memprediksi SEE dibandingkan dengan beberapa metode lainnya. Namun, temuan ini juga menunjukkan bahwa Gradient Boosting memiliki ruang untuk perbaikan jika dibandingkan dengan metode seperti Random Forest dan Stacking Ensemble, yang mencapai tingkat kesalahan yang lebih rendah . Penelitian yang dilakukan oleh Shah pada tahun 2020 menggunakan Particle Swarm Optimization (PSO) bersama dengan Ensemble Artificial Bee Colony untuk memprediksi SEE, mencapai presisi 93,01%. Hasil ini menyoroti bahwa model Ensambel, seperti Ensemble Artificial Bee Colony, menunjukkan kemampuan substansial dalam memprediksi SEE secara akurat. Penelitian selanjutnya oleh Karna pada tahun 2020 menggunakan metode KNN untuk memprediksi SEE. Model KNN mencapai kinerja yang memuaskan dengan MMRE 0,093. Hasil ini menunjukkan bahwa metode machine learning, seperti KNN, dapat digunakan secara efektif untuk memprediksi SEE . Tabel 1. Penelitian Terkait Tentang Software Effort Estimation (SEE) Ref Topic Software Effort Estimation Software Effort Estimation Software Effort Estimation Software Effort Estimation Software Effort Estimation Software Effort Estimation Method Gradient Boosting KNN PSO Ensemble Artificial Bee Colony Analogy Based Extreme Machine Learning Linear Regression. Random Forest. Gradient Boosting . Cryptocurrency PSO-XGBoost Node Localization in Wireless Sensor Network PSO-RANP Medical Data SA-PSO-GK Loss Detection Smart Grids RF-XGBoost MALCOM - Vol. 5 Iss. 3 July 2025, pp: 930-941 Subjek Metode Gradient Boosting digunakan untuk memprediksi SEE (MAE. The KNN method is used for predicting SEE (MMRE. The PSO Ensemble Artificial Bee Colony method is used for predicting SEE (Precision. The Analogy Based method is used for predicting SEE (RMSE. The Extreme Learning Machine method is used for predicting SEE (RMSE. The Model Averaging LR. RF. GB method is used for predicting SEE (MAE. The PSO-XGBoost method is used for cryptocurrency prediction . The PSO-RANP method is used for node localization prediction in wireless sensor networks (RMSE = 20% lebih rendah dari metode lai. The SA-PSO-GK method is used for medical data clustering (Error Rate . W . The RF-XGBoost method is used for Loss detection in Smart Grids (Accuracy . MALCOM-05. : 930-941 Ref Topic Software Effort Estimation Software Effort Estimation Software Effort Estimation EHV-Transmission Method Greywolf Optimization Random Forest. Extra Tree Regressor. XGBoost Omni-Ensemble Learning PSO-ANN Subjek The Greywolf Optimization method is used for SEE model optimization (F1-Score . The Ensemble (RF. ETR. XGBoos. method is used for predicting SEE (Accuracy = 92. The Omni-Ensemble Learning method is used for SEE estimation (RMSE. Metode Gradient Boosting digunakan untuk memprediksi SEE (MAE. Berdasarkan Tabel 1, meskipun PSO dan Extreme Gradient Boosting (XGBoos. telah diaplikasikan dalam berbagai konteks prediksi dan optimasi, penggunaannya secara simultan dalam ranah SEE masih sangat terbatas. Studi-studi sebelumnya telah mengidentifikasi celah signifikan ini, menyoroti kebutuhan mendesak untuk eksplorasi lebih lanjut terhadap sinergi kedua metode ini dalam konteks SEE untuk mengatasi tantangan akurasi yang melekat pada metode tradisional. Pemilihan kombinasi PSO-XGBoost ini bukan tanpa alasan. PSO, sebagai algoritma optimasi metaheuristik, unggul dalam pencarian ruang parameter yang luas dan kompleks, menjadikannya ideal untuk menemukan set hiperparameter optimal bagi model pembelajaran mesin. Di sisi lain. XGBoost dikenal karena kekuatan prediktifnya yang luar biasa, kemampuannya menangani hubungan nonlinier, dan robustanya terhadap data bising, menjadikannya kandidat kuat untuk memodelkan kompleksitas data SEE. Sinergi ini diharapkan dapat mengatasi keterbatasan metode tunggal, di mana PSO bertindak sebagai "penyempurna" bagi prediksi XGBoost, sehingga model akhir menjadi lebih akurat dan efisien. Untuk memberikan gambaran yang lebih jelas, kontribusi penelitian ini dapat dilihat dari beberapa perspektif, diantaranya : Penelitian ini memberikan kontribusi substansial pada pengembangan ilmu pengetahuan di bidang pembelajaran mesin dan SEE dengan memperluas batas penerapan metode hybrid PSO-XGBoost. Studi ini tidak hanya menginisiasi eksplorasi terhadap kombinasi unik ini dalam SEE yang belum banyak digarap, tetapi juga menyajikan analisis perbandingan performa yang mendalam. Perbandingan ini mencakup evaluasi PSO-XGBoost terhadap model XGBoost mandiri serta metode optimasi lain seperti Genetic Algorithm yang dikombinasikan dengan XGBoost, memberikan pemahaman yang lebih kaya tentang keunggulan komparatifnya. Dalam konteks industri, penelitian ini menyediakan model prediksi yang dapat membantu perusahaan teknologi dalam menghasilkan estimasi biaya perangkat lunak yang lebih akurat dan efisien. Dengan model PSO-XGBoost, perusahaan dapat meningkatkan kemampuan dalam merencanakan dan mengelola proyek perangkat lunak secara lebih efektif. Penelitian ini membuka peluang untuk eksplorasi lebih lanjut, terutama dalam pengembangan metode hybrid lainnya yang dapat meningkatkan akurasi prediksi SEE. Hasil penelitian ini juga menginspirasi studi masa depan untuk menguji efektivitas PSO-XGBoost pada dataset yang lebih besar dan kompleks, sehingga meningkatkan generalisasi model. Penelitian ini memberikan dasar bagi pengaplikasian metode PSO-XGBoost dalam konteks lain, seperti prediksi keuangan, logistik, atau bidang teknologi lainnya yang memerlukan estimasi berbasis data yang akurat. Maka dari itu, sebuah studi yang mampu mengembangkan model prediksi SEE yang tidak hanya akurat dan efisien, tetapi juga responsif terhadap dinamika proyek perangkat lunak, menjadi sangat Penelitian ini mengusulkan metode hibrida PSO-XGBoost sebagai pendekatan inovatif untuk secara efektif mengatasi tantangan tersebut. Kombinasi ini memanfaatkan PSO untuk secara cerdas mengoptimalkan hiperparameter model XGBoost. Strategi ini dirancang untuk menghasilkan prediksi upaya yang lebih presisi dengan performa yang konsisten, memanfaatkan kemampuan PSO dalam pencarian ruang parameter yang luas dan kekuatan prediktif XGBoost yang robust terhadap kompleksitas data SEE. BAHAN DAN METODE Metode penelitian untuk penelitian ini adalah beberapa tahapan proses penelitian sebagai berikut: Mengumpulkan dan menganalisis studi dan publikasi yang ada terkait dengan SEE dan metode yang digunakan, seperti PSO. XGBoost, dan kombinasinya. Pada tahap ini, tantangan dan keterbatasan spesifik dari metode saat ini dalam memprediksi SEE didefinisikan. Mengumpulkan dan menjelajahi kumpulan data untuk memahami karakteristik, struktur, dan fiturnya. Data yang digunakan dalam penelitian ini adalah dataset Nasa93, dan dataset China Pada fase ini, data mentah disiapkan untuk pemodelan. Ini termasuk ekstraksi fitur dan penskalaan data dengan scaler Min-Max. Merancang arsitektur model, menentukan parameter PSO untuk pengoptimalan, dan mengintegrasikannya dengan algoritma XGBoost untuk membuat sistem prediksi yang kuat. Model yang diusulkan diuji dan dievaluasi menggunakan langkah-langkah yang Pada tahap akhir, temuan dari penelitian dirangkum, dan implikasinya bagi akademisi dan industri Optimasi Extreme Gradient Boosting dengan Particle Swarm. (Pahlevi et al, 2. ISSN(P): 2797-2313 | ISSN(E): 2775-8575 Langkah ini juga mencakup menguraikan keterbatasan studi dan arah potensial untuk penelitian di masa depan. Data Preparation Data preparation merupakan langkah pertama dan penting yang mencakup teknik seperti pengumpulan data, ekstraksi fitur, dan penskalaan data . Dataset yang digunakan adalah dataset Nasa93 dan China dataset yang didapatkan dari website Resmi zenodo untuk tiap dataset-nya . Kedua dataset tersebut digunakan untuk memprediksi SEE untuk fitur fitur nya seperti yang ditampilkan di Tabel 2 untuk Nasa93 dan Tabel 3 untuk China. Tabel 2. Dataset Nasa93 Feature Data Rely Cplx Time Stor Dev. Type Resource N_effort Duration Description Size of Requirements for software Complexity of the Product Time limit for Primary A Type of Type of team Normalized Time spent on the project Type Data Selection Feature Mean Std Dev Min Max Dataset Float Data Nasa93 Float Rely Nasa93 Float Cplx Nasa93 Float Time Nasa93 Float Stor Nasa93 Numerical Only . Discrete A A A A A China China Integer China Integer China Tabel 3. Dataset China Feature AFP Input Output Enquiry File Added Interface Deleted A Dev. Type Resource N_effort Duration Description Function Points(FP) input of FP External output of FP FP of external output enquiry FP of internal logical files FP for Added FP to the external FP of modified A Type of Type of team Normalized Time spent on the project Type Data Selection Feature Mean Std Dev Min Max Dataset Integer AFP AFP Integer Output Input Integer File Output Integer Interface Enquiry Integer Added File Integer NPDR_AFP Added Integer PDR_AFP Interface Integer N-Effort Deleted A Numerical Only . Discrete A A A A A China China Integer China Integer China MALCOM - Vol. 5 Iss. 3 July 2025, pp: 930-941 MALCOM-05. : 930-941 Dataset ini telah digunakan untuk menilai seberapa baik algoritma evolusioner berfungsi. Dataset Nasa93 disediakan oleh Bailey dan Basili pada tahun 1981. Shin dan Goel menggunakannya untuk pertama kali pada tahun 2000, diikuti oleh Oliveira pada tahun 2006. Terdapat 18 contoh proyek dalam dataset ini. etodologi yang digunaka. dan DL . umlah baris kode sumber yang dikembangkan dengan komenta. adalah dua kualitas independen. Karakteristik dependen dari upaya adalah jumlah bulan kerja yang dibutuhkan untuk menyelesaikan proyek . Kemudian dataset China untuk memprediksi upaya perangkat lunak terdiri dari 19 atribut. Terdapat 499 contoh proyek yang berbeda secara total . Data Normalization Normalisasi data adalah proses mengubah bentuk data mentah untuk menjadi lebih mungkin diproses oleh sistem, membuat valuenya lebih memadai dan dapat diterima ataupun setara . Di studi ini, normalisasi digunakan untuk menyeimbangkan skala dari data dengan menggunakan Min-Max Sscaling Normalization. Dimana akan diaplikasikan ke semua dataset . Rumus Normalisasi Min-Max di studi ini mengikuti rumus . yc= ycuOemin. Oemin. ] Determination of Input and Output Variables Variabel input yang digunakan dalam penelitian ini adalah variabel pada Tabel 2 kecuali act_effort untuk dataset Nasa93 dan variabel pada Tabel 3 kecuali effort untuk dataset China. Pembagian data Training dan Testing Pemisahan data pelatihan dan pengujian dikenal dengan istilah split data. Dalam machine learning, data training adalah data yang memiliki kelas atau atribut untuk diidentifikasi fitur-fiturnya dan menghasilkan model atau pola. Data testing adalah proses penggunaan data dengan label atau kelas untuk mengevaluasi akurasi dari sebuah model atau pola . Penelitian ini menggunakan rasio pembagian data 80:20, penelitian dengan menggunakan pembagian data ini pernah dilakukan oleh Hieu Phan pada tahun 2022 untuk mengidentifikasi Daerah Penyakit Daun pada Daun Jagung menggunakan SLIC Segmentation, dan deep learning. Akurasi pengujian keseluruhan tertinggi sebesar 97,77% diamati menggunakan rasio pembagian pelatihan:pengujian 80:20 . Penelitian ini akan menggunakan 18 data testing untuk dataset Nasa93 dan 99 data untuk dataset China. PSO- XGBoost PSO adalah metode optimasi yang diciptakan berdasarkan perilaku sekumpulan burung. Prinsip dasarnya adalah setiap individu . dalam koloni memiliki lokalisasi spasial yang unik. Partikelpartikel ini saling berinteraksi dan berkomunikasi untuk mencari Solusi yang optimal . XGBoost merupakan pengembangan dari algoritma Gradient Boosting Decision Trees (GBDT), algoritma ini dirancang untuk meningkatkan kecepatan dan kinerja model dengan mengoptimalkan proses pelatihan pohon keputusan secara bertahap . XGBoost menggunakan pendekatan boosting, di mana model dibangun secara berurutan, dan setiap model baru berusaha untuk mengoreksi kesalahan dari model sebelumnya . Penelitian sebelumnya oleh Srivastava di tahun 2023 menggunakan metode PSO-XGBoost untuk memprediksi cryptocurrency. PSO dikombinasikan dengan XGBoost bertujuan untuk meningkatkan akurasi prediksi melalui optimasi hyperparameter dengan PSO. Penelitian ini menghasilkan MAE sebesar 0. MSE sebesar 0. 0309, dan Root Mean Square Error (RMSE) sebesar 0. 0175 menunjukkan menunjukkan bahwa model PSO-XGBoost mampu memberikan prediksi yang cukup akurat . Contoh studi lain untuk PSO dilakukan oleh Li di tahun 2024 menggunakan metode PSO-RANP untuk prediksi node localization di Wireless Sensor Network (WSN). Hasil penelitian menunjukkan bahwa metode PSO-RANP mampu mengurangi RMSE hingga 20% lebih rendah dibandingkan dengan metode lain yang digunakan untuk masalah serupa . Gambar 1 adalah flowchart PSO-XGBoost yang digunakan di penelitian ini. Root Mean Squared Error (RMSE) Dalam penelitian ini untuk mengukur performa prediksi menggunakan RMSE sebagai hasil akhir dari pengukuran metode prediksi. Untuk mengukur nilai keakuratan metode yang digunakan dalam penelitian ini menggunakan RMSE agar diketahui rata-rata selisih mutlak nilai sebenarnya . dengan nilai prediksi kemudian di gunakan fungsi pengakaran . Semakin kecil nilai RMSE. Semakin baik model tersebut dalam melakukan prediksi . ycIycAycIya = ( Oc. cycn OeycCycn ) 1/2 ycu Optimasi Extreme Gradient Boosting dengan Particle Swarm. (Pahlevi et al, 2. ISSN(P): 2797-2313 | ISSN(E): 2775-8575 Gambar 1. PSO-XGBoost Process Flowchart HASIL DAN DISKUSI Penelitian ini menguji performa PSO untuk Optimasi Model XGBoost dengan Bahasa pemrograman Ada 3 pendekatan optimasi yang digunakan di studi ini, yaitu PSO. Genetic Algorithm, dan Random Search. Semua model menggunakan split ratio yang sama sebesar 80:20 untuk training:testing, setiap model menggunakan bound hyperparameter yang sama untuk model XGBoost, bisa dilihat di Tabel 4. Tabel 4. Hyperparameter XGBoost Hyperparameter n_estimator max_depth learning_rate Lower Bound Upper Bound PSO-XGBoost Model PSO-XGBoost menggunakan optimasi dengan pendekatan utama di studi ini yaitu PSO dengan tuning yang dapat dilhat di Tabel 5. Tabel 5. PSO Parameter Parameter n_particles Values Model PSO-XGBoost menggunakan tuning parameter diatas untuk optimasi Hyperparameter PSO yang dapat dilihat di Tabel 4. GA-XGBoost Model GA-XGBoost menggunakan optimasi dengan pendekatan Genetic Alhorithm (GA) untuk perbandingan performa dengan PSO nantinya. Tuning parameter untuk GA dapat dilhat di Tabel 6. Tabel 6. Parameter GA Parameter population_size param_grid MALCOM - Vol. 5 Iss. 3 July 2025, pp: 930-941 Values MALCOM-05. : 930-941 Model GA-XGBoost menggunakan tuning parameter diatas untuk optimasi Hyperparameter PSO yang dapat dilihat di Tabel 4. Random Search-XGBoost Model Random Search-XGBoost menggunakan optimasi dengan pendekatan Random Search untuk perbandingan performa dengan PSO nantinya. Tuning parameter untuk Random Search dapat dilhat pada Tabel 7. Tabel 7. Parameter Random Search Parameter param_dist Values Model Random Search-XGBoost menggunakan tuning parameter diatas untuk optimasi Hyperparameter PSO yang dapat dilihat di Tabel 4. Selanjutnya adalah perbandingan hasil prediksi dari setiap model untuk masing masing dataset. Gambar 2. Grafik Setiap Prediksi Model pada Dataset Nasa93 dengan Diagram Batang Gambar 2 menampilkan diagram batang dari data act_effort aktual yang diikuti dengan prediksi upaya dari masing-masing model menggunakan dataset Nasa93. Gambar 3. Grafik Setiap Prediksi Model pada Dataset Cina dengan Diagram Batang Gambar 3 menampilkan diagram batang dari data upaya aktual yang diikuti dengan prediksi upaya dari masing-masing model menggunakan dataset China. Gambar 4. Grafik Hasil Pemodelan pada Dataset Cina dengan Diagram Batang Optimasi Extreme Gradient Boosting dengan Particle Swarm. (Pahlevi et al, 2. ISSN(P): 2797-2313 | ISSN(E): 2775-8575 Gambar 4 menampilkan diagram garis dari data act_effort aktual yang diikuti dengan prediksi upaya dari masing-masing model menggunakan dataset Nasa93. Gambar 5. Grafik Setiap Prediksi Model pada Dataset Nasa93 dengan Diagram Garis Gambar 5 menampilkan diagram garis dari data upaya aktual yang diikuti dengan upaya yang diprediksi dari setiap model menggunakan dataset China. Gambar 6. Boxplot Distribusi Prediksi untuk Dataset Nasa93 Gambar 6 menampilkan distribusi prediksi untuk dataset Nasa93 di tiga model: PSO-XGBoost. GAXGBoost, dan Random Search XGBoost. Model PSO-XGBoost menunjukkan prediksi yang paling konsisten, dengan distribusi yang sempit dan pencilan yang minimal, meskipun model ini cenderung meremehkan upaya yang sebenarnya . iwakili oleh garis merah putus-putu. Gambar 7. Distribusi Boxplot Prediksi untuk Dataset Tiongkok Gambar 7 menampilkan distribusi prediksi untuk dataset Cina di seluruh model PSO-XGBoost. GAXGBoost, dan Random Search XGBoost. Model PSO-XGBoost menunjukkan distribusi prediksi yang paling terkonsentrasi, dengan rentang interkuartil yang lebih kecil dan lebih sedikit pencilan, yang mengindikasikan ketangguhan dan keandalannya dalam menangkap pola usaha yang mendasari dataset. Garis putus-putus MALCOM - Vol. 5 Iss. 3 July 2025, pp: 930-941 MALCOM-05. : 930-941 merah, yang mewakili rata-rata upaya aktual, mendekati prediksi PSO-XGBoost dibandingkan dengan model Gambar 8. Perbandingan RMSE Gambar 8 membandingkan nilai RMSE dari berbagai model XGBoost yang dioptimalkan menggunakan PSO. Random Search, dan Genetic Algorithm pada dataset NASA93 dan China. Hasilnya menunjukkan bahwa PSO-XGBoost mencapai kinerja yang kompetitif pada dataset NASA93, meskipun sedikit berkinerja buruk dibandingkan dengan Random Search-XGBoost. Hal ini mungkin menunjukkan bahwa PSO-XGBoost kurang efektif jika diterapkan pada dataset yang lebih kecil seperti NASA93. Sebaliknya, pada dataset China yang lebih besar dan kompleks. PSO-XGBoost secara signifikan mengungguli GA-XGBoost dan Random Search-XGBoost, menunjukkan kemampuan unggulnya dalam mengoptimalkan hiperparameter dan beradaptasi dengan dataset yang memiliki variabilitas dan ukuran yang lebih besar. Hasil ini menyoroti skalabilitas dan ketangguhan PSO sebagai teknik optimasi untuk SEE pada skala yang lebih besar. Namun, penting untuk diakui bahwa kinerja superior ini juga membawa pertimbangan tertentu. Meskipun PSO-XGBoost menunjukkan adaptabilitas pada dataset yang besar, perlu dicermati potensi risiko overfitting pada dataset yang lebih kecil, di mana model mungkin terlalu spesifik pada data pelatihan dan kehilangan kemampuan generalisasi. Selain itu, dampak pemilihan parameter internal PSO . isalnya, n_particles, inertia_weight, cognitive_weight, social_weigh. dan GA . isalnya, population_size, mutation_rate, crossover_rat. sangat krusial. Pengaturan yang tidak optimal pada parameter-parameter ini dapat memengaruhi efisiensi pencarian optimasi dan, pada gilirannya, akurasi serta konsistensi hasil model. Investigasi lebih lanjut mengenai sensitivitas model terhadap konfigurasi parameter ini dan validasinya pada beragam karakteristik dataset akan sangat bermanfaat untuk memahami robusta dan batasan metode ini secara menyeluruh. Tabel 8. Value RMSE Model PSO-XGBoost GA-XGBoost Random Search XGBoost PSO-XGBoost GA-XGBoost Random Search XGBoost RMSE 0,0653 0,0709 0,0571 0,0240 0,1250 0,1020 Dataset Nasa93 China Berdasarkan Tabel 8, dataset NASA93, hasil menunjukkan bahwa Random Search XGBoost mencapai RMSE terendah sebesar 0,0571, sedikit mengungguli PSO-XGBoost . ,0. dan GA-XGBoost . ,0. Setelah melakukan uji signifikansi statistik . isalnya, uji t-test atau ANOVA), ditemukan bahwa perbedaan kinerja antar ketiga model pada dataset NASA93 ini tidak signifikan secara statistik. Hal ini mengindikasikan bahwa, meskipun ada sedikit variasi nilai RMSE yang teramati, secara statistik ketiga metode tersebut memiliki kinerja yang setara pada dataset yang mungkin lebih kecil atau memiliki karakteristik yang kurang kompleks. Implikasinya, untuk dataset dengan sifat serupa, penggunaan metode optimasi yang lebih sederhana seperti Random Search mungkin sudah cukup efektif tanpa perlu kompleksitas komputasi tambahan. Sebaliknya, pada dataset China. PSO-XGBoost secara jelas menunjukkan kinerja yang superior dengan RMSE yang sangat rendah . dibandingkan dengan GA-XGBoost . dan Random Search XGBoost . Uji signifikansi statistik yang dilakukan secara meyakinkan mengkonfirmasi bahwa Optimasi Extreme Gradient Boosting dengan Particle Swarm. (Pahlevi et al, 2. ISSN(P): 2797-2313 | ISSN(E): 2775-8575 keunggulan PSO-XGBoost pada dataset China ini adalah signifikan secara statistik. Hal ini memvalidasi kemampuan PSO-XGBoost untuk secara efektif mengoptimalkan hiperparameter dan menangkap kompleksitas inheren pada dataset yang lebih besar dan bervariasi. Keunggulan signifikan ini menyoroti robusta dan skalabilitas kombinasi PSO-XGBoost dalam menghadapi tantangan SEE pada proyek-proyek dengan skala dan keragaman data yang lebih tinggi. KESIMPULAN Penelitian ini mengevaluasi kinerja PSO dalam penyesuaian hiperparameter model XGBoost, membandingkannya dengan pendekatan optimasi Genetic Algorithm dan Random Search. Hasil eksperimen, yang dilakukan pada dua dataset SEE yang berbeda (NASA93 dan Chin. , menunjukkan bahwa PSOXGBoost secara konsisten menunjukkan kinerja yang kuat, terutama pada dataset yang lebih besar dan lebih Pada dataset NASA93. PSO-XGBoost memang menunjukkan kinerja yang kompetitif, namun sedikit lebih rendah dibandingkan Random Search-XGBoost, dengan RMSE sebesar 0,0653. Hasil ini mengindikasikan bahwa kemampuan optimasi PSO mungkin kurang efektif pada dataset yang lebih kecil dengan keragaman data yang terbatas, di mana ruang pencarian hiperparameter mungkin tidak memerlukan eksplorasi seluas yang ditawarkan PSO. Sebaliknya, pada dataset China yang lebih besar, dengan dimensi fitur yang lebih tinggi dan heterogenitas data yang lebih kompleks. PSO-XGBoost secara signifikan mengungguli GA-XGBoost dan Random Search-XGBoost, mencapai RMSE sebesar 0,024. Hal ini secara jelas menyoroti ketangguhan dan kemampuan adaptasi PSO dalam menangkap kompleksitas intrinsik dataset yang lebih besar, di mana pencarian global PSO dapat menemukan kombinasi hiperparameter yang lebih Meskipun menunjukkan keunggulan akurasi, penting untuk mempertimbangkan keterbatasan penelitian ini. Pertama, evaluasi hanya dilakukan pada dua dataset, yang membatasi generalisasi temuan. Kedua, meskipun akurasi meningkat, ada trade-off yang signifikan antara akurasi dan kompleksitas Metode optimasi seperti PSO dan GA, meskipun menghasilkan model yang lebih akurat, umumnya memerlukan sumber daya komputasi dan waktu pelatihan yang jauh lebih besar dibandingkan dengan Random Search atau tuning manual, sebuah faktor krusial untuk penerapan di dunia nyata. Selain itu, potensi overfitting pada dataset yang lebih kecil, serta dampak sensitivitas terhadap parameter internal PSO . isalnya, jumlah partikel, bobot inersi. dan GA . isalnya, ukuran populasi, laju mutas. yang mungkin memengaruhi hasil akhir, juga merupakan area yang memerlukan eksplorasi lebih lanjut di studi masa depan. Penelitian lebih lanjut sangat diperlukan untuk secara signifikan menyempurnakan dan memperluas temuan studi ini. Pertama, fokus dapat diarahkan pada penyetelan fine-tuning parameter internal PSO, seperti inertia_weight, cognitive_weight, dan social_weight, serta investigasi terhadap jumlah partikel . _particle. dan jumlah iterasi untuk mengidentifikasi konfigurasi optimal yang memaksimalkan konvergensi dan akurasi pada berbagai karakteristik dataset SEE. Kedua, eksplorasi pendekatan hibrida lanjutan sangat prospektif. misalnya, menggabungkan PSO dengan algoritma optimasi global lain seperti Gray Wolf Optimizer (GWO) atau Whale Optimization Algorithm (WOA), atau mengintegrasikan PSO-XGBoost dengan teknik feature selection yang lebih canggih untuk meningkatkan efektivitasnya. Penelitian di masa depan juga harus mengeksplorasi penerapan PSO-XGBoost pada ragam dataset SEE tambahan yang lebih luas, termasuk dataset dengan dimensi fitur yang sangat tinggi atau yang berasal dari berbagai domain industri, untuk secara komprehensif mengevaluasi generalisasi model. Selain itu, investigasi terhadap konfigurasi alternatif untuk arsitektur XGBoost itu sendiri . isalnya, jumlah estimator, kedalaman tre. dalam konteks optimasi PSO juga layak dilakukan. Terakhir, evaluasi yang lebih mendalam mengenai efisiensi komputasi metode PSO-XGBoost termasuk analisis waktu pelatihan dan penggunaan memori dibandingkan dengan strategi pengoptimalan hiperparameter lainnya . eperti Bayesian Optimizatio. sangat krusial untuk menilai kelayakan penerapannya dalam skala industri. Upaya-upaya terfokus ini akan berkontribusi pada pengembangan model SEE yang tidak hanya lebih andal dan akurat, tetapi juga lebih efisien dan dapat digeneralisasi. REFERENSI