Bulletin of Information Technology (BIT) Vol 6. No 4. Desember 2025. Hal. 379 - 390 ISSN 2722-0524 . edia onlin. DOI 10. 47065/bit. https://journal. org/index. php/BIT Penerapan Algoritma XGBoost Dalam Prediksi Harga Sewa Kos Di Kota Samarinda Amalia Rahman1*. Amelia Yusnita2. Hanifah Ekawati3 1 Program Studi Teknik Informatika. STMIK Widya Cipta Dharma. Samarinda. Indonesia 2 Program Studi Sistem Informasi. STMIK Widya Cipta Dharma. Samarinda. Indonesia 3 Program Studi Bisnis Digital. STMIK Widya Cipta Dharma. Samarinda. Indonesia Email: 12243005@wicida. id, 2amelia@wicida. id, 3hanifah@wicida. (* : 2243005@wicida. Abstrak - Pertumbuhan jumlah penduduk dan meningkatnya aktivitas ekonomi di Kota Samarinda menyebabkan kebutuhan terhadap hunian sementara seperti rumah kos semakin tinggi. Namun, penentuan harga sewa kos masih banyak dilakukan berdasarkan intuisi pemilik tanpa mempertimbangkan faktor-faktor objektif seperti fasilitas, spesifikasi kamar, aksesibilitas transportasi, dan kedekatan terhadap fasilitas umum. Penelitian ini bertujuan untuk membangun model prediksi harga sewa kos berbasis algoritma Extreme Gradient Boosting (XGBoos. dengan pendekatan Knowledge Discovery in Database (KDD). Data penelitian diperoleh melalui proses web scraping dari situs Mamikos yang menghasilkan 231 data awal, kemudian dilakukan pembersihan dan penghapusan outlier sehingga tersisa 225 data valid. Lima fitur utama hasil feature engineering digunakan dalam model, yaitu Fasilitas Skor. Spesifikasi Gabungan Skor. Tempat Terdekat Skor. Transportasi Skor, dan Sistem Sewa Skor. Hasil evaluasi menunjukkan bahwa model XGBoost memiliki nilai Mean Absolute Error (MAE) sebesar Rp348,822. Root Mean Squared Error (RMSE) sebesar Rp416. 139, dan koefisien determinasi (RA) sebesar 0,612. Nilai tersebut menunjukkan bahwa model mampu menjelaskan 61,2% variasi harga sewa kos dengan performa prediksi yang cukup baik. Analisis feature importance menunjukkan bahwa Fasilitas Skor dan Spesifikasi Gabungan Skor merupakan faktor yang paling berpengaruh terhadap harga sewa, sedangkan faktor transportasi dan sistem sewa memiliki kontribusi lebih rendah. Penelitian ini diharapkan dapat menjadi acuan bagi pemilik kos, penyewa, dan pemangku kebijakan dalam menentukan harga sewa yang lebih objektif dan kompetitif berbasis pendekatan data Kata Kunci: XGBoost. Prediksi Harga Sewa. Data Mining. Rumah Kos. Kota Samarinda PENDAHULUAN Kota Samarinda merupakan salah satu wilayah dengan pertumbuhan ekonomi tercepat di Provinsi Kalimantan Timur. Berdasarkan data Badan Pusat Statistik (BPS) Kota Samarinda tahun 2024, jumlah penduduk mencapai 858. jiwa dengan laju pertumbuhan 0,88% per tahun dan luas wilayah 718,00 kmA yang terbagi dalam 10 kecamatan. Kepadatan tertinggi terdapat di Kecamatan Samarinda Ulu . 327 jiwa/kmA), sementara yang terendah berada di Palaran dengan 309 orang per kmA. Ketidakseimbangan distribusi kepadatan ini secara langsung memengaruhi keperluan tempat tinggal sewaan di lokasi spesifik, khususnya dekat pusat pendidikan dan pusat ekonomi. Menurut laporan BPS . , sekitar 32,12% rumah tangga di Samarinda belum menempati rumah milik sendiri dan memilih untuk menyewa atau Sektor jasa berkontribusi paling dominan terhadap perekonomian kota, yaitu sebesar 71,89%, dengan tingkat partisipasi angkatan kerja (TPAK) mencapai 65,49%. Kondisi ini menjadikan Samarinda sebagai destinasi bagi mahasiswa dan pekerja migran dari berbagai wilayah di Kalimantan Timur. Pertumbuhan sektor pendidikan dan mobilitas tenaga kerja mendorong peningkatan permintaan terhadap hunian sementara berupa rumah kos . Meskipun permintaan tinggi, proses penentuan harga sewa kos di Samarinda masih banyak dilakukan secara konvensional, berdasarkan intuisi atau perbandingan sederhana dengan kos lain yang dianggap sejenis. Pendekatan ini sering menghasilkan ketidaksesuaian antara harga dan kondisi riil kos, sehingga muncul variasi harga yang tidak konsisten untuk fasilitas dan lokasi yang relatif sama. Sejumlah penelitian menunjukkan bahwa faktor-faktor seperti kelengkapan fasilitas kamar, luas ruangan, akses transportasi, keamanan lingkungan, serta kedekatan dengan fasilitas umum berpengaruh signifikan terhadap harga sewa. Namun, analisis berbasis data secara sistematis masih jarang diterapkan oleh pemilik kos maupun penyewa, sehingga proses penentuan harga sering bersifat subjektif. Harga sewa merupakan salah satu faktor penting yang dipertimbangkan calon penyewa dalam menentukan properti yang akan disewanya . Kemajuan perkembangan machine learning (ML) telah membuka peluang besar dalam pemodelan harga properti berbasis data historis. Salah satu algoritma yang terbukti unggul untuk kasus regresi nonlinear adalah Extreme Gradient Boosting (XGBoos. XGBoost merupakan implementasi lanjutan dari Gradient Boosted Decision Tree (GBDT) yang memanfaatkan fungsi regularisasi guna menghindari overfitting serta meningkatkan efisiensi komputasi. menjelaskan bahwa XGBoost dilengkapi dengan teknik regularisasi, pengaturan subsampling, dan optimasi komputasi yang efisien. XGBoost memiliki kemampuan interpretability melalui analisis feature importance, yang memungkinkan pengguna untuk mengetahui variabel paling berpengaruh terhadap . Metode XGBoost adalah algoritma pengembangan dari gradient tree boosting yang berbasis algoritma ensemble, secara efektif bisa menanggulangi kasus machine learning yang berskala besar. Metode XGBoost dipilih karena memiliki beberapa fitur tambahan yang berguna untuk mempercepat sistem perhitungan dan mencegah . Algoritma XGBoost, yang dikenal efektif dalam menangani data non-linear. Algoritma ini merupakan hasil pengembangan dari metode gradient boosting decision tree yang terkenal karena efisiensinya, kecepatan prosesnya, serta kemampuannya dalam memodelkan hubungan non-linear antar variabel dengan tingkat akurasi tinggi. Copyright A 2025 Author. Page 379 Jurnal BIT is licensed under a Creative Commons Attribution 4. 0 International License Bulletin of Information Technology (BIT) Vol 6. No 4. Desember 2025. Hal. 379 - 390 ISSN 2722-0524 . edia onlin. DOI 10. 47065/bit. https://journal. org/index. php/BIT Penelitian terdahulu menunjukkan keunggulan XGBoost dalam mencapai tingkat akurasi tinggi pada berbagai studi prediksi harga properti. melaporkan bahwa algoritma XGBoost memberikan performa prediksi paling akurat dibandingkan Random Forest dan Gradient Boosting, dengan nilai RA sebesar 0,7746 pada data harga rumah di Yogyakarta, menunjukkan tingkat generalisasi yang lebih baik terhadap variasi data properti. membuktikan bahwa model XGBoost unggul dalam memprediksi harga sewa ruko di kota besar dengan tingkat akurasi mencapai RA tertinggi . juga menunjukkan bahwa kombinasi XGBoost dengan metode ensemble learning dapat meningkatkan nilai RA hingga 0,9076 pada prediksi harga rumah di Bandung. Algoritma XGBoost terbukti efektif dalam regresi dan klasifikasi untuk data berdimensi tinggi, serta mampu menangani variabel yang kompleks. menggunakan XGBoost dalam prediksi angka harapan hidup dan menunjukkan bahwa algoritma ini mampu menangkap hubungan non-linear antarvariabel dengan akurasi tinggi mencapai 96,8%. menunjukkan bahwa penentu utama harga sewa kos bukan semata faktor lokasi, melainkan kelengkapan fasilitas kamar. Melalui analisis feature importance pada model XGBoost, fasilitas seperti AC, kloset duduk, dan kamar mandi dalam tercatat memiliki pengaruh paling besar terhadap variasi harga sewa, bahkan lebih tinggi dibandingkan kontribusi variabel lokasi. menunjukkan bahwa algoritma XGBoost mampu menghasilkan performa prediksi yang sangat baik pada data Model XGBoost yang dikembangkan dalam konteks prediksi harga mobil bekas di pasar India mencapai nilai RA sebesar 75,18% dengan MAE 87. 071 rupee, yang menegaskan efektivitas algoritma ini dalam memodelkan hubungan non-linear dan menangani data beragam. tentang preferensi mahasiswa ITB terhadap pemilihan hunian sewa menunjukkan bahwa kelengkapan fasilitas menjadi faktor prioritas utama, diikuti oleh harga dan keamanan, dengan mahasiswa yang menyewa hunian kategori harga tertinggi menjadikan faktor jarak dan fasilitas kamar mandi dalam sebagai prioritas utama. dalam penelitian pemilihan kos harian di daerah Sleman mengidentifikasi delapan faktor prioritas yaitu lokasi, fasilitas kamar, fasilitas umum, harga dan kebijakan, keamanan, fleksibilitas reservasi, ulasan dan reputasi, serta kenyamanan dan kebersihan, dengan ulasan dan reputasi memiliki bobot prioritas tertinggi . Berdasarkan temuan-temuan tersebut. XGBoost terbukti memiliki keunggulan dalam hal akurasi, efisiensi, dan kemampuan interpretasi variabel, menjadikannya algoritma yang ideal untuk penelitian prediksi harga sewa kos di Samarinda. Namun, sebagian besar penelitian sebelumnya masih berfokus pada properti berskala besar seperti rumah dan apartemen, belum pada konteks mikro seperti kos. Dalam konteks Kota Samarinda, kajian tentang prediksi harga sewa kos berbasis machine learning masih terbatas, terutama dengan pemanfaatan data real-time hasil web scraping. Oleh karena itu, penelitian ini bertujuan untuk menerapkan algoritma XGBoost dalam memprediksi harga sewa kos di Kota Samarinda serta menganalisis faktor-faktor yang paling berpengaruh terhadap harga tersebut, meliputi fasilitas kos, spesifikasi kamar, kedekatan lokasi strategis, dan akses transportasi. Penelitian ini menggunakan pendekatan Knowledge Discovery in Database (KDD) yang mencakup tahapan data selection, data preprocessing, data transformation, data mining, serta evaluatin/interpretation. Hasil penelitian ini diharapkan dapat menjadi referensi bagi pemilik kos, calon penyewa, pengembang aplikasi kos, maupun pengambil kebijakan dalam menetapkan harga sewa yang lebih objektif dan kompetitif berbasis pendekatan data mining. METODOLOGI PENELITIAN 1 Tahapan Penelitian Penelitian ini menggunakan pendekatan Knowledge Discovery in Database (KDD) sebagai kerangka kerja utama dalam proses pengolahan data hingga penemuan pola pengetahuan. Pendekatan KDD dipilih karena mampu menggambarkan alur penelitian berbasis data mining secara sistematis dan terukur, mulai dari pengumpulan data mentah hingga diperolehnya pengetahuan yang dapat diinterpretasikan. Secara umum, tahapan KDD yang diterapkan dalam penelitian ini meliputi lima tahap utama, yaitu . Data Selection, . Data Preprocessing, . Data Transformation, . Data Mining, dan . Interpretation/Evaluation, . , . Adapun tahapan penelitian ditunjukkan secara konseptual pada Gambar 2. Gambar 1. Tahap Penelitian Copyright A 2025 Author. Page 380 Jurnal BIT is licensed under a Creative Commons Attribution 4. 0 International License Bulletin of Information Technology (BIT) Vol 6. No 4. Desember 2025. Hal. 379 - 390 ISSN 2722-0524 . edia onlin. DOI 10. 47065/bit. https://journal. org/index. php/BIT Tahapan penelitian yang dilakukan terdiri atas beberapa langkah utama sebagai berikut: Data Selection (Pemilihan Dat. Tahap ini bertujuan mengumpulkan data yang relevan dengan tujuan penelitian. Data diperoleh melalui web scraping dari situs Mamikos menggunakan ekstensi DataMiner, yang menghasilkan 231 entri kos dengan 12 atribut utama. Informasi yang dikumpulkan mencakup nama kos, harga sewa, sistem pembayaran sewa, jenis kos, spesifikasi kamar, fasilitas kamar dan kamar mandi, fasilitas umum, fasilitas parkir, kecamatan lokasi kos, daftar tempat strategis terdekat, serta akses transportasi publik. Data tersebut mencerminkan kos di beberapa kecamatan di Kota Samarinda seperti Samarinda Ulu. Samarinda Ilir. Samarinda Kota. Samarinda Seberang. Samarinda Utara. Loa Janan Ilir. Sungai Pinang, dan Sungai Kunjang. Pra-Pemrosesan Data (Data Preprocessin. Tahap ini dilakukan untuk meningkatkan kualitas data sebelum masuk ke proses pemodelan. Proses yang dilakukan meliputi penghapusan data duplikat, pembersihan format harga menjadi numerik, normalisasi teks, dan penghapusan outlier menggunakan metode Interquartile Range (IQR). Selain itu, beberapa kolom teks dinormalisasi untuk memastikan konsistensi antarentri, seperti penyeragaman penulisan kecamatan. Hasil dari tahap ini adalah 225 data valid yang siap digunakan untuk tahap transformasi. Data Transformation (Transformasi Data / Feature Engineerin. Transformasi data dilakukan untuk mengubah informasi mentah menjadi fitur numerik yang dapat diproses oleh algoritma XGBoost. Transformasi dilakukan melalui feature engineering pada lima atribut utama:Langkah-langkah yang dilakukan yaitu: Fasilitas Skor Menghitung skor berdasarkan jumlah fasilitas yang ditemukan pada empat kolom fasilitas . amar, kamar mandi, umum, dan parki. Semakin banyak fasilitas, semakin tinggi skor. Tempat Terdekat Skor: Menghitung skor berdasarkan rata-rata jarak . ke fasilitas umum seperti kampus, rumah sakit, pusat perbelanjaan, dan tempat makan menggunakan formula: Semakin dekat jarak lokasi kos ke fasilitas umum, semakin tinggi skor yang diperoleh. Transportasi Skor: Mengubah deskripsi akses transportasi menjadi jarak estimasi, kemudian dikonversi menggunakan formula yang sama dengan tempat terdekat. Spesifikasi Gabungan Skor: Hasil penggabungan ukuran kamar . A) yang diekstraksi dari teks dan status listrik. Ukuran kamar diberi bobot 70% dan listrik 30%. Sistem Sewa Skor: Mengonversi jenis pembayaran sewa . arian, mingguan, bulanan, hingga tahuna. menjadi nilai skala 0Ae1 sesuai durasi sewanya. Hasil tahap ini berupa dataset numerik dengan lima variabel prediktor utama. Data Mining (Penerapan Algoritma XGBoos. Tahap ini merupakan inti penelitian, yaitu penerapan algoritma XGBoost untuk memprediksi harga sewa kos. Data dibagi menjadi 80% data latih dan 20% data uji menggunakan train-test split dengan random_state 42 untuk menjamin reprodusibilitas. Parameter XGBoost disetel dengan learning rate 0. 03, max depth 4, dan 1000 estimators, serta early stopping sebanyak 50 iterasi untuk mencegah overfitting. Interpretation/Evaluation (Interpretasi Hasil/Evaluas. Evaluasi model dilakukan dengan tiga metrik utama, yaitu Mean Absolute Error (MAE). Root Mean Squared Error (RMSE), dan koefisien determinasi (RA). Ketiga metrik ini digunakan untuk mengukur tingkat kesalahan prediksi, stabilitas model, serta kemampuan model dalam menjelaskan variasi harga sewa kos. Tahap ini dilanjutkan dengan analisis feature importance untuk mengidentifikasi variabel yang paling berpengaruh terhadap hasil prediksi. 2 Algoritma XGBoost Extreme Gradient Boosting (XGBoos. merupakan algoritma ensemble boosting yang menggabungkan sejumlah pohon keputusan untuk memperbaiki kesalahan model sebelumnya. Secara matematis, fungsi objektif XGBoost dirumuskan sebagai . Copyright A 2025 Author. Page 381 Jurnal BIT is licensed under a Creative Commons Attribution 4. 0 International License Bulletin of Information Technology (BIT) Vol 6. No 4. Desember 2025. Hal. 379 - 390 ISSN 2722-0524 . edia onlin. DOI 10. 47065/bit. https://journal. org/index. php/BIT : fungsi loss antara nilai aktual dan prediksi, : fungsi regularisasi untuk mengontrol kompleksitas model. K: jumlah pohon keputusan ,: parameter regularisasi. Regularisasi pada XGBoost menjadikan model lebih efisien dalam mencegah overfitting dibanding metode boosting konvensional. Model ini dioptimalkan menggunakan gradient descent terhadap turunan kedua . econd-order gradien. , mempercepat konvergensi dan meningkatkan stabilitas hasil . 3 Dataset Penelitian Dataset yang digunakan dalam penelitian ini diperoleh melalui proses web scraping dari situs Mamikos menggunakan ekstensi DataMiner. Proses scraping dilakukan untuk mengumpulkan data publik mengenai informasi harga sewa dan fasilitas kos yang tersedia di Kota Samarinda. Hasil pengumpulan data mencakup 231 entri kos dengan 12 atribut utama yang menggambarkan kondisi dan karakteristik masing-masing properti. Data mencakup kos yang tersebar di beberapa kecamatan, yaitu Samarinda Ulu. Samarinda Ilir. Samarinda Kota. Samarinda Seberang. Samarinda Utara. Loa Janan Ilir. Sungai Pinang, dan Sungai Kunjang. Namun demikian, dataset ini belum mencakup seluruh kecamatan di Kota Samarinda karena bergantung pada ketersediaan data publik dari situs Mamikos. Variabel Deskriptif (Identifikasi / Kontekstua. Variabel Deskriptif merupakan variabel yang memberikan informasi umum tentang data kos, tidak digunakan langsung dalam model. Tabel 1 Variabel Deskriptif (Identifikasi / Kontekstua. Nama Variabel Deskripsi Tipe Data Keterangan Nama properti kos yang Nama Kos String Identitas unik setiap entri terdaftar pada situs Mamikos Lokasi administratif kos di Untuk analisis distribusi Kecamatan Categorical wilayah Kota Samarinda Jenis penghuni kos . utra, putri. Untuk segmentasi Jenis Kos Categorical penghuni kos Variabel Independen (Fitur Mode. Variabel Independen merupakan variabel . faktor mentah yang memengaruhi harga sewa. Tabel 2. Variabel Independen (Fitur Mode. Nama Variabel Deskripsi Variabel Satuan waktu pembayaran sewa . arian, mingguan, bulanan, 3 Sistem Sewa bulanan, 6 bulanan, tahuna. Spesifikasi Tipe Ukuran dan kondisi kamar . ermasuk listrik atau tida. Kamar Fasilitas yang tersedia di kamar seperti AC, kasur, meja, kursi. Fasilitas Kamar dan Wi-Fi Fasilitas Kamar Jenis kamar mandi . alam/lua. dan perlengkapannya Mandi Fasilitas bersama seperti dapur, laundry, ruang tamu, dan Fasilitas Umum CCTV Jenis area parkir yang disediakan . otor, mobil, atau Fasilitas Parkir Daftar fasilitas umum di sekitar kos . ampus, rumah sakit. Tempat Terdekat pusat belanja, tempat maka. Akses dan jarak ke sarana transportasi umum . alte, terminal. Transportasi jalan utam. Tipe Data Categorical String Text Text Text Categorical Text Text Intermediate Variables (Hasil Transformasi Fitu. Intermediate Variables merupakan variabel hasil konversi fitur teks dan kategorikal menjadi numerik agar bisa dibaca oleh model. Copyright A 2025 Author. Page 382 Jurnal BIT is licensed under a Creative Commons Attribution 4. 0 International License Bulletin of Information Technology (BIT) Vol 6. No 4. Desember 2025. Hal. 379 - 390 ISSN 2722-0524 . edia onlin. DOI 10. 47065/bit. https://journal. org/index. php/BIT Tabel 2. 3 Intermediate Variables (Hasil Transformasi Fitu. Nama Variabel Fasilitas Skor Tempat Terdekat Skor Transportasi Skor Spesifikasi Gabungan Skor Sistem Sewa Skor Deskripsi Transformasi Rumus / Metode Jumlah fasilitas dari keempat atribut fasilitas . amar, kamar mandi, umum, parki. Semakin lengkap fasilitas skor tinggi. Skor berdasarkan rata-rata jarak . ke fasilitas umum. Semakin dekat skor tinggi. Skor kedekatan dengan akses transportasi Semakin dekat skor tinggi. Kombinasi ukuran kamar . A) dan kondisi listrik . ermasuk/tida. Jumlah kata kunci fasilitas y total kata kunci 1Oe . arak/km_ma. 1Oe . arak/km_ma. Normalisasi ukuran biner Skor berdasarkan lamanya periode sewa. Harian . , mingguan . , bulanan . , 3 , 6 bulanan . , tahunan . Normalisasi durasi Rentang Nilai 0Ae1 0Ae1 0Ae1 0Ae1 0Ae1 Variabel Dependen (Target / Label Kinerja Mode. Variabel Dependen merupakan variabel . nilai harga sewa kos yang menjadi target prediksi XGBoost. Nama Variabel Harga Sewa Tabel 2. 4 Variabel Depende. (Target / Label Kinerja Mode. Deskripsi Tipe Data Keterangan Harga sewa kamar kos per bulan Variabel target . yang dalam satuan rupiah Numeric XGBoost 4 Evaluasi Model Evaluasi model dilakukan menggunakan tiga metrik utama:. Mean Absolute Error (MAE): MAE = Mengukur rata-rata selisih absolut antara nilai aktual dan prediksi Root Mean Squared Error (RMSE): Mengukur besar kesalahan prediksi, dengan penalti lebih besar terhadap kesalahan ekstrem. Koefisien Determinasi (RA): Menunjukkan seberapa besar variasi data aktual yang dapat dijelaskan oleh model. HASIL DAN PEMBAHASAN Tahap hasil dan pembahasan ini menjelaskan proses penerapan algoritma Extreme Gradient Boosting (XGBoos. dalam memprediksi harga sewa kos di Kota Samarinda berdasarkan pendekatan Knowledge Discovery in Database (KDD). Proses KDD yang digunakan terdiri dari lima tahap utama, yaitu: . Data Selection, . Data Preprocessing, . Data Transformation, . Data Mining, . Interpretation/Evaluation. Dataset yang dianalisis terdiri dari 231 entri yang diperoleh melalui proses web scraping dari situs Mamikos, kemudian dibersihkan dan diseleksi hingga tersisa 225 data valid. Copyright A 2025 Author. Page 383 Jurnal BIT is licensed under a Creative Commons Attribution 4. 0 International License Bulletin of Information Technology (BIT) Vol 6. No 4. Desember 2025. Hal. 379 - 390 ISSN 2722-0524 . edia onlin. DOI 10. 47065/bit. https://journal. org/index. php/BIT 1 Data Selection (Pemilihan Dat. Gambar 2 Tampilan Awal Dataset Pada Gambar 2 menampilkan potongan lima baris pertama dari dataset hasil web scraping. Dataset terdiri atas 12 atribut utama, sebagian besar masih dalam bentuk teks mentah sehingga tidak dapat digunakan langsung untuk Kondisi ini menunjukkan bahwa data mentah dari situs daring memerlukan proses pembersihan dan standarisasi sebelum dapat diolah menggunakan metode machine learning. 2 Data Preprocessing (Prapemrosesan Dat. Gambar 3. Pemeriksaan Data Duplikat Pada Gambar 3. menunjukkan hasil eksekusi df. duplicated(). sum() yang menghasilkan nilai 0. Tidak adanya duplikasi menandakan bahwa setiap entri merepresentasikan properti kos yang unik sehingga tidak diperlukan langkah penghapusan duplikat. Tahap ini penting untuk menjaga integritas dan objektivitas data. Gambar 4. Jumlah Data Setelah Penghapusan Duplikat Pada Gambar 4. menampilkan jumlah data yang tetap 231 setelah pemeriksaan duplikasi, menegaskan bahwa seluruh data merupakan entri unik dan siap memasuki proses pembersihan berikutnya. Gambar 5. Konversi Harga Sewa Ke Numerik Copyright A 2025 Author. Page 384 Jurnal BIT is licensed under a Creative Commons Attribution 4. 0 International License Bulletin of Information Technology (BIT) Vol 6. No 4. Desember 2025. Hal. 379 - 390 ISSN 2722-0524 . edia onlin. DOI 10. 47065/bit. https://journal. org/index. php/BIT Pada 5. Gambar memperlihatkan hasil transformasi kolom Harga Sewa dari format teks seperti AuRp770. 000Ay menjadi nilai numerik 770000. Selain itu, ditampilkan informasi bahwa tidak ada nilai kosong (NaN) setelah proses konversi, sehingga semua entri harga dapat digunakan untuk analisis. Transformasi ini merupakan langkah penting agar variabel harga dapat diproses oleh model XGBoost yang hanya menerima input numerik. Gambar 6. Proses Penghapusan Outlier Pada Gambar 6 menggambarkan proses eliminasi nilai ekstrem pada variabel harga sewa menggunakan metode Interquartile Range (IQR). Jumlah data berkurang dari 231 menjadi 225 observasi. Penghapusan outlier bertujuan meningkatkan stabilitas model dan mencegah distorsi akibat nilai harga yang terlalu rendah atau terlalu tinggi. Gambar 7. Pengecekan Ulang Jumlah Dataset Pada Gambar 7. menampilkan output df. shape setelah tahap pembersihan. Dataset akhir berjumlah 225 baris dan 12 kolom, menandakan bahwa data telah siap digunakan pada proses transformasi. 3 Data Transformation (Transformasi Fitu. Gambar 8. Jumlah Kos Berdasarkan Kecamatan Pada Gambar 8. menunjukkan distribusi kos berdasarkan kecamatan. Samarinda Ulu mendominasi dengan 110 unit, diikuti Samarinda Utara dengan 53 unit, dan Sungai Pinang dengan 22 unit. Pola ini menggambarkan konsentrasi permintaan hunian di wilayah pendidikan dan pusat aktivitas ekonomi. Gambar 9. Jumlah Kos Berdasarkan Jenis Kos Copyright A 2025 Author. Page 385 Jurnal BIT is licensed under a Creative Commons Attribution 4. 0 International License Bulletin of Information Technology (BIT) Vol 6. No 4. Desember 2025. Hal. 379 - 390 ISSN 2722-0524 . edia onlin. DOI 10. 47065/bit. https://journal. org/index. php/BIT Pada Gambar 9. Kos Putri menjadi kategori terbanyak . , disusul Kos Campur . dan Kos Putra . Temuan ini sesuai dengan karakteristik kota pendidikan, di mana permintaan kos putri umumnya lebih tinggi. Gambar 10 Konversi Sistem Sewa Pada Gambar 10 memperlihatkan bahwa seluruh entri contoh menggunakan sistem sewa AubulananAy yang dikonversi menjadi skor 0. 08 sesuai skala durasi sewa 0-1. Konversi ini dilakukan agar model dapat memaknai durasi sewa secara Transformasi ini penting untuk membaca hubungan antara periode sewa dan harga, meskipun variasinya rendah akibat dominasi mode sewa bulanan. Gambar 11. Ekstraksi Spesifikasi Kamar Pada Gambar 11. menampilkan Kolom Spesifikasi Tipe Kamar diolah untuk menghasilkan ukuran kamar dalam mA serta status listrik. Ukuran kamar diekstraksi dari pola teks seperti Au3 x 4 meterAy, sedangkan status listrik dikonversi menjadi skor biner. Kedua nilai ini digabung menjadi Spesifikasi Gabungan Skor dengan bobot 70% untuk luas dan 30% untuk listrik. Gambar 12. Skor Fasilitas Pada Gambar 12. menunjukkan hasil perhitungan Fasilitas Skor berdasarkan jumlah kata kunci fasilitas pada empat kolom fasilitas. Semakin lengkap fasilitas yang tersedia, semakin tinggi skor fasilitas. Gambar 13. Skor Tempat Terdekat Pada Gambar 13. menampilkan proses ekstraksi jarak ke fasilitas penting seperti kampus, rumah sakit, pusat perbelanjaan, dan tempat makan. Nilai jarak dikonversi ke skor menggunakan formula 1Oe. arak/km_ma. Nilai kosong diisi dengan median. Copyright A 2025 Author. Page 386 Jurnal BIT is licensed under a Creative Commons Attribution 4. 0 International License Bulletin of Information Technology (BIT) Vol 6. No 4. Desember 2025. Hal. 379 - 390 ISSN 2722-0524 . edia onlin. DOI 10. 47065/bit. https://journal. org/index. php/BIT Gambar 14. Skor Trasportasi Pada Gambar 14. memperlihatkan proses konversi deskripsi akses transportasi ke skor numerik. Jika tidak ditemukan angka jarak, penilaian dilakukan berdasarkan kata kunci seperti Audekat halteAy atau Auakses mudahAy. Gambar 15. Hasil Trasformasi Fitur dan Total Skor Pada Gambar 15 menampilkan hasil kumulatif lima fitur utama (Sistem Sewa Skor. Spesifikasi Gabungan Skor. Fasilitas Skor. Tempat Terdekat Skor. Transportasi Sko. Total Skor menunjukkan representasi komprehensif dari kualitas kos yang akan digunakan dalam pemodelan. 4 Data Mining Gambar 16 Pembagian Data Latih dan Uji Pada Gambar 16 menunjukkan pembagian dataset menjadi 180 data latih . %) dan 45 data uji . %) menggunakan train_test_split dengan random_state=42. Pembagian acak terkontrol ini menjamin reprodusibilitas hasil dan memberikan evaluasi objektif terhadap performa model. Gambar 17 Pelatihan Model XGBoost Pada Gambar 17. menampilkan konfigurasi parameter model XGBoost yang digunakan, seperti learning_rate=0. max_depth=4, dan n_estimators=1000. Parameter tersebut dirancang untuk mencapai keseimbangan antara akurasi dan Copyright A 2025 Author. Page 387 Jurnal BIT is licensed under a Creative Commons Attribution 4. 0 International License Bulletin of Information Technology (BIT) Vol 6. No 4. Desember 2025. Hal. 379 - 390 ISSN 2722-0524 . edia onlin. DOI 10. 47065/bit. https://journal. org/index. php/BIT Penggunaan early_stopping_rounds=50 membantu mencegah overfitting dengan menghentikan pelatihan saat model tidak lagi membaik pada data uji. 5 Interpretation/Evaluation (Interpretasi Hasil/Evaluas. Gambar 18. Hasil Evaluasi Model XGBoost Pada Gambar 18. menampilkan tiga metrik evaluasi utama yang digunakan untuk menilai kinerja model XGBoost dalam memprediksi harga sewa kos, yaitu Mean Absolute Error (MAE) sebesar 348. Root Mean Squared Error (RMSE) sebesar 416. 139, dan koefisien determinasi (RA) sebesar 0,612. Nilai-nilai tersebut menunjukkan bahwa model mampu menjelaskan sekitar 61,2% variasi harga sewa kos dengan tingkat kesalahan relatif rendah. Ini menandakan performa yang baik untuk model regresi non-linear. Hasil ini mengindikasikan bahwa model sudah mampu mengenali pola dasar hubungan antara atribut kos dan harga sewa. Gambar 19. Perbandingan Harga Aktual dan Prediksi Pada Gambar 19. menunjukkan nilai aktual dan hasil prediksi harga kos. Mayoritas selisih prediksi berada pada kisaran ratusan ribu rupiah sehingga dapat disimpulkan bahwa model memiliki akurasi prediksi yang cukup baik. Gambar 20. Scatter Plot Harga Aktual vs Prediksi Pada Gambar 20. menampilkan visualisasi hubungan antara harga aktual dan prediksi. Titik-titik data tersebar mengikuti garis diagonal merah . = . , yang menunjukkan bahwa model mampu mengikuti pola umum harga sewa. Penyebaran yang tidak terlalu jauh dari garis ideal menandakan kualitas prediksi yang baik dan stabilitas model XGBoost dalam mempelajari hubungan antar fitur. Gambar 21. Feature Importance Model XGBoost Copyright A 2025 Author. Page 388 Jurnal BIT is licensed under a Creative Commons Attribution 4. 0 International License Bulletin of Information Technology (BIT) Vol 6. No 4. Desember 2025. Hal. 379 - 390 ISSN 2722-0524 . edia onlin. DOI 10. 47065/bit. https://journal. org/index. php/BIT Pada Gambar 21. menampilkan visualisasi skor kontribusi fitur . eature importanc. yang dihasilkan melalui perhitungan internal XGBoost. Skor tersebut menunjukkan besarnya kontribusi masing-masing variabel dalam mengurangi nilai kesalahan prediksi . oss reductio. pada proses pembentukan pohon keputusan. Variabel dengan kontribusi prediktif lebih besar akan memperoleh skor yang lebih tinggi, sedangkan fitur yang memberikan pengaruh lebih kecil dalam proses pemisahan data akan menghasilkan skor kontribusi yang lebih rendah. KESIMPULAN Penelitian ini berhasil menerapkan algoritma Extreme Gradient Boosting (XGBoos. untuk memprediksi harga sewa kos di Kota Samarinda berdasarkan pendekatan Knowledge Discovery in Database (KDD). Melalui tahapan yang sistematis mulai dari data selection, preprocessing, transformation, data mining, dan Interpretation/Evaluation. Proses web scraping pada situs Mamikos menghasilkan 231 data awal, yang setelah melalui proses pembersihan dan penghapusan outlier tersisa 225 data valid dan siap diolah untuk pemodelan. Lima fitur utama yang dikembangkan melalui feature engineering skor fasilitas, skor spesifikasi gabungan, skor tempat terdekat, skor transportasi, dan skor sistem sewa berhasil merepresentasikan karakteristik kos secara kuantitatif dan relevan untuk kebutuhan prediksi. Model XGBoost yang dikembangkan menunjukkan performa prediksi yang cukup baik, dengan nilai Mean Absolute Error sebesar Rp348. Root Mean Squared Error sebesar Rp416. 139, dan nilai koefisien determinasi (RA) sebesar 0,612. menunjukkan bahwa model mampu menjelaskan sekitar 61,2% variasi harga sewa kos dengan tingkat kesalahan relatif rendah, ini menandakan performa yang baik untuk model regresi non-linear. Hasil ini mengindikasikan bahwa model sudah mampu mengenali pola dasar hubungan antara atribut kos dan harga sewa. Hasil Analisis feature importance menampilkan bahwa fasilitas dan spesifikasi kamar merupakan faktor paling dominan dalam menentukan harga sewa kos, sementara akses transportasi dan sistem sewa memiliki kontribusi lebih rendah. Secara keseluruhan, penelitian ini membuktikan bahwa algoritma XGBoost efektif dalam memprediksi harga sewa kos berbasis data nyata dengan kompleksitas non-linear. Temuan ini memberikan dasar ilmiah bagi pemilik kos untuk menetapkan harga sewa yang lebih objektif dan kompetitif, sekaligus membantu calon penyewa dalam membandingkan harga berdasarkan parameter yang terukur. Penelitian selanjutnya dapat mengintegrasikan variabel spasial berbasis GIS, kualitas bangunan, atau data historis harga agar model prediksi memiliki akurasi lebih tinggi dan cakupan analisis yang lebih komprehensif. REFERENCES