JURNAL INFORMATIKA UPGRIS Vol.
No.
2, .
ISSN: 2477-6645
Pemodelan Klasifikasi Kategori Harga Rumah Menggunakan Algoritma Decision Tree dengan Pendekatan CRISP-DM Bunga Aulia Ghaisani1.
Griselda Audrye Damayanti2.
Rizki Mautya A.
Rani3.
Nur Fitri4.
Weiskhy Steven
Dharmawan5
1,2,3,4
Program Studi Informatika.
Fakultas Teknik dan Informatika.
Universitas Bina Sarana Informatika Program Studi Sistem Informasi Akuntansi.
Fakultas Teknik dan Informatika.
Universitas Bina Sarana Informatika Jl.
Abdul Rahman Saleh No.
Bangka Belitung Laut.
Kec.
Pontianak Tenggara.
Kota Pontianak.
Kalimantan Barat, .
Indonesia E-mail : 15230687@bsi.
id1, 15230680@bsi.
id2, 15230671@bsi.
id3, 15230603@bsi.
wvn@bsi.
AbstractAi Accurate house price prediction is crucial information for various stakeholders in the property market, including buyers, sellers, and investors, for strategic decision-making.
This study aims to design and implement a machine learning model using the Decision Tree Algorithm, known for its ease of interpretation, to classify house prices into three categories: low, medium, and high.
This study adds the Year Built variable to fill the gap in previous research.
The applied methodology adopts the CRISP-DM (Cross-Industry Standard Process for Data Minin.
framework, which includes the stages of data understanding, data preparation, modeling, evaluation, and deployment.
The Decision Tree Algorithm is used as the main predictive model, and its performance is measured using classification accuracy metrics.
As a final stage, the model has been trained on an interactive web application system using Streamlit, a modern Python-based framework that accelerates the deployment process.
The results show that the Decision Tree model is able to classify house price categories with an accuracy rate of 81.
The implementation using Streamlit has proven successful in providing an effective, intuitive, and practical interface, allowing non-technical users to interact directly with the predictive model.
AbstrakAiPrediksi harga rumah yang akurat merupakan informasi krusial bagi berbagai pemangku kepentingan di pasar properti, termasuk pembeli, penjual, dan investor, untuk pengambilan keputusan strategis.
Penelitian ini bertujuan untuk merancang dan mengimplementasikan model machine learning menggunakan Algoritma Decision Tree, yang dikenal karena kemudahan interpretasinya, untuk mengklasifikasikan harga rumah ke dalam tiga kategori: rendah, sedang, dan tinggi.
Penelitian ini menambahkan variabel Year Built untuk mengisi gap penelitian sebelumnya.
Metodologi yang diterapkan mengadopsi kerangka kerja CRISP-DM (Cross-Industry Standard Process for Data Minin.
, yang meliputi tahapan pemahaman data, persiapan data, pemodelan, evaluasi, hingga deployment.
Algoritma Decision Tree digunakan sebagai model prediktif utama, dan kinerjanya diukur menggunakan metrik akurasi klasifikasi.
Sebagai tahap akhir, model yang telah dilatih sistem aplikasi web interaktif menggunakan Streamlit, sebuah framework modern berbasis Python yang mempercepat proses deployment.
Hasil penelitian menunjukkan bahwa model Decision Tree mampu mengklasifikasikan kategori harga rumah dengan tingkat akurasi sebesar 81,74%.
Implementasi menggunakan Streamlit terbukti berhasil menyediakan antarmuka yang efektif, intuitif, dan praktis, memungkinkan pengguna non-teknis untuk berinteraksi langsung dengan model prediktif.
Kata KunciAi CRISP-DM.
Decision Tree.
Machine Learning.
Prediksi Harga Rumah.
Streamlit.
PENDAHULUAN
Latar Belakang Industri properti merupakan sektor yang kompleks dan dinamis karena nilai suatu properti dipengaruhi oleh berbagai faktor seperti permintaan pasar, luas bangunan, kualitas material, aksesibilitas, serta lokasi strategis.
Penerapan teknik Machine Learning terbukti meningkatkan akurasi estimasi harga properti secara signifikan dibandingkan metode statistik konvensional.
Berbagai penelitian telah memanfaatkan teknik Machine Learning untuk memperkirakan harga rumah berdasarkan atribut fisik dan lokasi.
Ketidaktepatan dalam estimasi harga dapat menimbulkan kerugian bagi pembeli maupun penjual, sehingga diperlukan alat prediksi yang akurat untuk mendukung keputusan transaksi properti.
Beragam studi sebelumnya menunjukkan bahwa model prediktif seperti Decision Tree dapat mengolah data transaksi historis dan menemukan pola yang sulit diidentifikasi secara manual.
, serta dukungan XAI dan data terbuka turut meningkatkan transparansi sistem penilaian harga.
Model Decision Tree sangat efektif dalam memvisualisasikan kriteria pengambilan keputusan harga, menjadikannya pilihan utama untuk tujuan interpretasi.
Namun, sebagian besar penelitian ini masih terbatas pada pendekatan regresi dan hanya menggunakan variabel dasar tanpa mempertimbangkan faktor eksternal seperti Tahun Pembangunan (Year Buil.
Selain itu, model umumnya menghasilkan nilai numerik, sementara penggunaan praktis seringkali membutuhkan kategori harga yang lebih mudah dipahami oleh para JURNAL INFORMATIKA UPGRIS Vol.
No.
2, .
ISSN: 2477-6645
pemangku kepentingan.
Implementasi model pada aplikasi web interaktif juga belum banyak dilakukan, sehingga hasil prediksi sulit diakses oleh pengguna non-teknis.
Untuk mengatasi keterbatasan ini, penelitian ini menambahkan variabel Year Built, mengubah pendekatan dari regresi menjadi klasifikasi (Rendah.
Sedang.
Tingg.
, dan mengintegrasikan model ke dalam aplikasi web berbasis Streamlit untuk kemudahan penggunaan dan transparansi.
Decision Tree dipilih karena interpretabilitasnya yang tinggi, sehingga logika penentuan harga dapat dipahami tanpa sifat black-box.
Kebutuhan akan model klasifikasi harga properti yang akurat dan mudah diakses oleh masyarakat umum menjadi fokus utama dalam mengatasi gap antara hasil riset dan aplikasi praktis .
Dalam konteks Indonesia, urgensi sistem prediksi berbasis data semakin meningkat karena pasar properti menunjukkan variasi harga yang luas antar wilayah, kurangnya data harga terpusat, dan dominasi harga subjektif yang berkelanjutan.
Hingga saat ini, tidak ada platform machine learning yang dapat diakses publik yang tersedia untuk menilai keadilan harga properti dengan cepat dan Hal ini menyulitkan pembeli untuk mendapatkan informasi yang akurat, dan penjual menetapkan harga tanpa referensi yang kuat.
Pengembangan model klasifikasi harga rumah yang mudah dipahami dan dapat diakses melalui aplikasi web sangat penting untuk meningkatkan transparansi dan mengurangi asimetri informasi dalam transaksi properti .
Inovasi dalam penyediaan platform prediksi harga properti berbasis web interaktif sangat dibutuhkan untuk mendukung ekosistem properti yang lebih transparan di Indonesia .
Penelitian ini menggunakan kerangka kerja CRISPDM yang fleksibel untuk berbagai jenis data properti.
Selain itu.
Streamlit dipilih untuk mengatasi hambatan implementasi karena memungkinkan pembuatan aplikasi berbasis Python tanpa memerlukan keahlian HTML.
CSS, atau JavaScript.
, sehingga pengembang dapat fokus pada pengembangan model machine learning secara efisien.
Streamlit terbukti menjadi solusi deployment yang cepat dan efisien untuk model Machine Learning, terutama dalam lingkungan pengembangan Python.
Rumusan Masalah Berdasarkan latar belakang yang diuraikan, penelitian ini merumuskan masalah sebagai berikut:
Bagaimana merancang dan menguji model klasifikasi kategori harga rumah menggunakan Algoritma Pohon Keputusan dengan kerangka kerja CRISP-DM untuk mencapai akurasi yang Bagaimana membandingkan kinerja Algoritma Pohon Keputusan dengan algoritma klasifikasi lain (Random Forest.
SVM.
Regresi Logisti.
dan memberikan justifikasi pemilihan model? Bagaimana mengintegrasikan model Algoritma Pohon Keputusan terpilih ke dalam sistem aplikasi web interaktif menggunakan Streamlit untuk memfasilitasi pengguna non-teknis dalam melakukan prediksi? Tujuan Penelitian Adapun tujuan dari penelitian ini adalah:
Mengembangkan model klasifikasi kategori harga rumah menggunakan Algoritma Pohon Keputusan.
Menganalisis dan membandingkan kinerja Algoritma Pohon Keputusan terhadap algoritma lain untuk menentukan model yang paling sesuai berdasarkan kriteria akurasi dan interpretabilitas.
Mengimplementasikan model klasifikasi terpilih ke dalam aplikasi web interaktif berbasis Streamlit sebagai solusi deployment yang efektif.
II.
METODE PENELITIAN
Gambar 1.
Alur Metode Penelitian Pada Gambar 1 menunjukkankan alur penelitian untuk membangun sistem prediksi kategori harga rumah menggunakan algoritma klasifikasi Random Forest.
Support Vector Machine (SVM).
Logistic Regression, dan Decision Tree, serta implementasinya melalui aplikasi Streamlit.
Penelitian ini mengikuti kerangka kerja CRISP-DM, yang mencakup tahapan data understanding, data preparation, modeling, evaluation, dan deployment.
Data Understanding Tahap ini bertujuan untuk memahami karakteristik dataset, yaitu Ames Housing Dataset dari Kaggle yang berisi 79 variabel properti seperti Gr Liv Area.
Overall Qual.
Garage Cars.
Year Built, dan Neighborhood.
Pada fase ini, nilai yang hilang, duplikat, dan pola distribusi diperiksa untuk memastikan kualitas data sebelum diproses.
JURNAL INFORMATIKA UPGRIS Vol.
No.
2, .
ISSN: 2477-6645
Data Preparation Pada tahap ini, dilakukan pembersihan data, pemilihan fitur, dan transformasi variabel.
SalePrice dikategorikan menjadi Rendah.
Sedang, dan Tinggi berdasarkan nilai kuantil, sehingga mengubah masalah regresi menjadi masalah klasifikasi.
Penggunaan kuantil memungkinkan kategorisasi harga rumah .
endahAesedangAetingg.
dilakukan secara objektif sesuai distribusi data, sehingga proporsi kelas lebih seimbang dan perbandingan antarkelompok menjadi lebih akurat.
Metode ini juga menghindari subjektivitas dalam penentuan batas kategori, sebagaimana digunakan pada berbagai studi.
Selain itu, disertakan pula tabel deskripsi atribut untuk memperjelas karakteristik data penelitian.
Pemodelan Empat algoritma dikembangkan Random Forest.
SVM.
Regresi Logistik, dan Decision Tree dan dievaluasi menggunakan metrik akurasi, presisi, recall, dan F1-score.
Random Forest memperoleh akurasi tertinggi .
,32%), namun Decision Tree dipilih sebagai model utama karena interpretabilitasnya yang tinggi dan kemudahan integrasinya ke Streamlit.
Decision Tree unggul dalam aspek interpretasi, yang seringkali lebih diprioritaskan daripada akurasi absolut, terutama dalam konteks pengambilan keputusan yang memerlukan penjelasan logis.
Penggunaan model yang memiliki interpretasi tinggi sangat penting untuk meningkatkan kepercayaan pengguna terhadap hasil prediksi harga properti.
Full Bath & Half Jumlah kamar mandi penuh dan Bath setengah di atas permukaan tanah.
TotRms AbvGrd Total ruangan di atas permukaan tanah .
idak termasuk kamar Garage Cars Kapasitas garasi .
umlah mobi.
HASIL DAN PEMBAHASAN
Hasil .
Implementasi Aplikasi Streamlit Setelah menggunakan algoritma Decision Tree, langkah selanjutnya adalah mengimplementasikan model tersebut ke dalam aplikasi interaktif menggunakan Streamlit.
Aplikasi ini dirancang untuk memudahkan pengguna memprediksi kategori harga rumah berdasarkan atribut yang relevan.
Pengguna dapat memasukkan informasi rumah seperti kualitas material, luas bangunan, dan kapasitas garasi untuk mendapatkan hasil klasifikasi ke dalam tiga kategori harga: Rendah.
Sedang, dan Tinggi.
Antarmuka aplikasi utama dapat dilihat pada Gambar 2, yang menunjukkan antarmuka halaman prediksi beserta navigasi ke halaman analisis data dan perbandingan model.
Evaluation Model tersebut divalidasi menggunakan Confusion Matrix dan metrik evaluasi lainnya.
Setelah memenuhi kriteria kinerja, model diterapkan pada aplikasi web berbasis Streamlit, memungkinkan prediksi interaktif kategori harga Proporsi 80/20 digunakan untuk membagi data pelatihan dan pengujian guna mencegah kelebihan pas dan menjaga evaluasi yang objektif.
Proporsi pembagian data 80:20 merupakan praktik standar dalam pengembangan model Machine Learning untuk mencapai keseimbangan antara pelatihan dan pengujian yang efektif.
Tabel 1.
Tabel Atribut Atribut Neighborhood Overall Qual Year Built Total Bsmt SF Gr Liv Area Penjelasan Lokasi fisik dalam batas kota Ames .
CollegeC.
OldTow.
Penilaian kualitas material dan finish keseluruhan .
kala 1-.
Tahun pembangunan asli.
Total luas basement .
quare fee.
Above grade .
living area - Total luas ruang hidup di atas permukaan tanah .
quare fee.
Gambar 2.
Tampilan Interface Aplikasi St .
Pengujian Pengujian dilakukan untuk memeriksa seberapa baik model Decision tree memprediksi harga rumah saat digunakan dalam aplikasi Streamlit.
Setelah model mengklasifikasikan harga rumah ke dalam kategori rendah, sedang, atau tinggi berdasarkan data masukan.
Pengujian ini melibatkan pembuatan aplikasi web menggunakan kerangka kerja Streamlit.
Model yang sudah dilatih disimpan dalam file pickle .
dan dimuat oleh backend Python.
Aplikasi ini memiliki antarmuka yang mudah digunakan dengan bagian interaktif seperti slider dan kotak centang, memungkinkan pengguna memasukkan detail rumah mereka.
Setelah data dimasukkan, aplikasi akan segera menampilkan hasil prediksi dalam format teks dan probabilitas.
Antarmuka untuk halaman prediksi ditunjukkan pada Gambar 3.
Antarmuka ini mencakup elemen interaktif yang memungkinkan pengguna memasukkan beberapa fitur utama rumah.
Slider digunakan untuk nilai numerik seperti Kualitas Keseluruhan.
GrLivArea.
GarageCars, dan Tahun Dibangun, sedangkan kotak centang digunakan untuk kategori seperti Lingkungan.
JURNAL INFORMATIKA UPGRIS Vol.
No.
2, .
ISSN: 2477-6645
Pengaturan ini memudahkan pengguna memasukkan data dengan jelas dan efektif, membantu memastikan prediksi yang akurat.
data yang digunakan.
Evaluasi Kinerja Model Klasifikasi Perbandingan Akurasi Algoritma Untuk menemukan model prediksi yang paling optimal, penelitian ini membandingkan kinerja empat algoritma klasifikasi yang berbeda.
Model yang diuji termasuk Random Forest.
SVM (Support Vector Machin.
Logistic Regression, dan Decision Tree.
Perbandingan akurasi setiap model disajikan dalam Tabel 2.
Tabel 2.
Perbandingan Akurasi Model.
Gambar 3.
Tampilan Antarmuka Input Data Setelah pengguna memasukkan semua detail yang diperlukan pada halaman input, aplikasi akan menampilkan hasil prediksi, seperti yang ditunjukkan pada Gambar 4.
Hasil ini diperlihatkan dengan jelas melalui penanda visual yang menunjukkan kategori harga rumah, yaitu Rendah.
Sedang, atau Tinggi berdasarkan keluaran dari model klasifikasi.
Selain itu, nilai probabilitas untuk setiap kategori juga ditampilkan, memberikan gambaran tentang seberapa yakin model dalam prediksinya.
Di sisi kiri layar, terdapat menu interaktif yang memungkinkan pengguna beralih ke bagian lain seperti Analisis Data.
Perbandingan Model, dan Tentang Aplikasi.
Desain aplikasi responsif dan tertata rapi, sehingga memudahkan dan lebih alami bagi pengguna untuk memahami dan menggunakan hasil prediksi.
Di sisi kiri layar, terdapat menu interaktif yang memungkinkan pengguna beralih ke bagian lain seperti Analisis Data.
Perbandingan Model, dan Tentang Aplikasi.
Desain aplikasi responsif dan tertata dengan baik, sehingga lebih mudah dan alami bagi pengguna untuk memahami dan menggunakan hasil prediksi.
Gambar 4.
tampilan hasil prediksi kategori Pembahasan Pada tahap pra-pemrosesan, kami memilih fitur-fitur yang paling memengaruhi harga rumah.
Dari analisis awal, fitur yang digunakan dalam model meliputi Kualitas Keseluruhan.
Luas Bangunan.
Jumlah Mobil Garasi.
Tahun Dibangun, dan Lingkungan Sekitar.
Variabel yang akan diprediksi, yaitu Harga Jual, dikategorikan menjadi tiga kelas: Rendah.
Sedang, dan Tinggi.
Kategori-kategori ini ditentukan berdasarkan distribusi data secara keseluruhan, dengan batas harga sebagai berikut:
Rendah: Harga di bawah $129.
Sedang: Harga antara $129.
500 dan $180.
Tinggi: Harga di atas $180.
Batas kategori ini bisa disesuaikan tergantung karakteristik
Model
Akurasi
Presisi
Recall F1score
Random
85,32%
84,9%
85,1%
Forest
SVM
83,45%
82,8%
83,2%
Logistic 83,28% 82,5% 82,9% 82,7% Regression Decision 81,74% 80,6% 80,8% Tree Tabel 2 menunjukkan perbandingan kinerja empat algoritma klasifikasi, yaitu Random Forest.
Support Vector Machine (SVM).
Logistic Regression, dan Decision Tree, berdasarkan empat metrik evaluasi utama: akurasi, presisi, recall, dan F1-score.
Berdasarkan hasil pengujian, model Random Forest mencapai skor akurasi tertinggi yaitu 85,32%, diikuti oleh SVM dengan 83,45%.
Logistic Regression dengan 83,28%, dan Decision Tree dengan 81,74%.
Analisis Confusion Matrix Untuk memahami distribusi kesalahan klasifikasi yang tidak terlihat hanya dari nilai akurasi, analisis mendalam dilakukan menggunakan Confusion Matrix untuk keempat Visualisasi ini menyoroti bagaimana setiap algoritma memprediksi kelas target (Rendah.
Sedang.
Tingg.
dibandingkan dengan data aktual.
Analisis Kesalahan Decision Tree (Model Utam.
Visualisasi Confusion Matrix untuk model Decision Tree dapat dilihat pada Gambar 5.
Gambar 5.
Confusion Matrix Model Decision Tree Berdasarkan Gambar Decision Tree menunjukkan kinerja yang sangat baik dalam memprediksi kategori ekstrem.
Model berhasil memprediksi 161 titik data kelas "Rendah" dan 202 JURNAL INFORMATIKA UPGRIS Vol.
No.
2, .
ISSN: 2477-6645
titik data kelas "Tinggi" dengan benar.
Namun, kelemahan utama dari model ini terletak pada klasifikasi kelas "Sedang".
Jelas bahwa 36 titik data "Sedang" yang sebenarnya salah diprediksi sebagai "Rendah", dan 20 titik data salah diprediksi sebagai "Tinggi".
Tingkat kesalahan yang tinggi dalam kategori menengah ini menunjukkan tumpang tindih fitur dalam batas harga yang sulit dipisahkan secara sempurna oleh satu Decision Tree tunggal.
Perbandingan dengan Random Forest.
Sebagai pembanding, performa model Random Forest disajikan pada Gambar 6.
Kedua model menunjukkan pola yang mirip dengan Random Forest dalam mengidentifikasi kelas "Tinggi", dengan SVM mencatat 210 prediksi yang benar dan Regresi Logistik 205 prediksi yang benar.
Namun, keduanya juga menghadapi kesulitan yang sama seperti Decision Tree dalam membedakan batas kabur antara kelas "Rendah" dan "Sedang", meskipun tidak sesignifikan kesalahan pada Decision Tree.
Secara keseluruhan, visualisasi Confusion Matrix di atas mengonfirmasi bahwa tantangan utama dalam dataset ini adalah memisahkan kategori harga "Sedang" dari kategori lainnya.
Meskipun Decision Tree memiliki tingkat kesalahan yang sedikit lebih tinggi dalam segmen ini, model tersebut masih mampu mempertahankan prediksi yang seimbang tanpa bias ekstrem terhadap satu kelas mayoritas, sehingga masih cocok untuk digunakan, terutama karena keunggulan interpretasinya.
Justifikasi Pemilihan Model Analisis Trade-off Gambar 6.
Confusion Matrix Model Random Forest Merujuk pada Gambar 6.
Random Forest lebih baik dalam menangani ambiguitas pada kelas "Sedang".
Model ini berhasil memprediksi 124 data kelas "Sedang" dengan benar, yang lebih tinggi dari 116 data yang diprediksi oleh Decision tree.
Selain itu.
Random Forest menunjukkan stabilitas tinggi pada kelas "Tinggi" dengan 208 prediksi benar dan 0 kesalahan klasifikasi ke kelas "Rendah".
Hal ini wajar mengingat Random Forest bekerja berdasarkan prinsip ensemble, sehingga mampu mengurangi variansi pada data batas.
Pola Umum pada Model Lain (SVM dan Logistic Regressio.
Pola klasifikasi untuk SVM dan Logistic Regression dapat dilihat masing-masing pada Gambar 7 dan Gambar 8.
Gambar 7.
Confusion Matrix Model Logistic Regression Gambar 8.
Confusion Matrix Model SVM Meskipun hasil evaluasi kuantitatif pada Tabel 2 dan analisis Confusion Matrix menunjukkan bahwa algoritma Random Forest memiliki keunggulan akurasi sekitar 3,5% dibandingkan dengan Decision Tree, penelitian ini menetapkan Decision Tree sebagai model akhir yang Keputusan ini didasarkan pada analisis trade-off antara akurasi prediksi dan kebutuhan operasional sistem, sebagai berikut:
Interpretabilitas Model (Explainabilit.
Dalam konteks pasar properti, pemangku kepentingan .
embeli dan penjua.
tidak hanya memerlukan angka prediksi tetapi juga alasan di balik penentuan harga tersebut.
Random Forest adalah model black-box yang kompleks karena menggabungkan ratusan Decision tree, sehingga sulit untuk melacak logika spesifik di balik satu prediksi.
Sebaliknya.
Decision tree menawarkan karakteristik white-box di mana struktur Decision tree dapat divisualisasikan Ini memungkinkan pengguna non-teknis untuk memahami aturan logika .
isalnya: "Jika Luas Tanah > 200mA dan Lokasi = X, maka Harga = Tinggi") secara transparan dan akuntabel.
Efisiensi Komputasi dan Implementasi.
Dari perspektif pengembangan sistem.
Decision Tree menawarkan kesederhanaan.
Algoritma ini tidak memerlukan proses tuning hyperparameter yang ekstensif dan memakan waktu seperti Random Forest atau SVM.
Selain itu, model Decision Tree yang dihasilkan memiliki ukuran file yang lebih ringan saat disimpan .
, yang berdampak pada waktu pemuatan yang lebih cepat saat aplikasi dijalankan di lingkungan produksi web.
Fleksibilitas Penanganan Data.
JURNAL INFORMATIKA UPGRIS Vol.
No.
2, .
ISSN: 2477-6645
Dataset properti seringkali mengandung tipe data campuran antara numerik .
uas, tahun dibangu.
dan kategorikal .
ama lingkungan, kondisi fisi.
Decision Tree secara alami mampu menangani tipe data campuran ini tanpa memerlukan pra-pemrosesan yang rumit seperti normalisasi skala yang wajib dilakukan pada algoritma berbasis jarak seperti SVM atau Logistic Regression.
Properti dataset sering kali berisi tipe data campuran, termasuk numerik .
uas, tahun dibangu.
dan kategorikal .
ama lingkungan, kondisi fisi.
Decision Tree secara alami mampu menangani tipe data campuran ini tanpa memerlukan praproses yang kompleks seperti normalisasi skala wajib untuk algoritma berbasis jarak seperti SVM atau Logistic Regression.
Dengan mempertimbangkan faktor-faktor di atas, penurunan akurasi sebesar 3,58% dianggap sebagai biaya yang dapat diterima .
cceptable cos.
untuk mendapatkan manfaat interpretabilitas dan efisiensi sistem yang Implementasi dan Implikasi Praktis Sistem Tahap terakhir dari metodologi CRISP-DM adalah Deployment.
Dalam penelitian ini, model Decision Tree yang dipilih diintegrasikan ke dalam aplikasi web berbasis Streamlit.
Arsitektur sistem dibangun menggunakan bahasa pemrograman Python.
Model yang telah dilatih disimpan dalam format serialisasi pickle dan dipanggil kembali oleh backend aplikasi.
Streamlit dipilih sebagai kerangka kerja frontend karena kemampuannya untuk dengan cepat memfasilitasi pembuatan antarmuka data interaktif (Rapid Prototypin.
HTML/CSS/JavaScript terpisah, yang sering menjadi hambatan teknis bagi data scientist.
Mekanisme Interaksi Pengguna Aplikasi dirancang dengan alur kerja yang intuitif:
Input Data: Pengguna memasukkan parameter properti melalui elemen visual.
Pemrosesan Real-time: Saat tombol prediksi ditekan, sistem mengirim data input ke model.
Visualisasi Output:
Hasil ditampilkan bersama dengan nilai probabilitas keyakinan model .
onfidence IV.
pengguna gambaran mengenai seberapa yakin sistem terhadap prediksinya.
Dampak Praktis Implementasi ini berhasil menjembatani kesenjangan antara model analitik yang kompleks dan kebutuhan pengguna akhir.
KESIMPULAN
Berdasarkan hasil penelitian dan pembahasan yang telah dilakukan, dapat ditarik beberapa kesimpulan utama terkait aspek ilmiah, dampak praktis, dan arah pengembangan selanjutnya: Pertama, penelitian ini menemukan bahwa algoritma Decision Tree efektif untuk mengklasifikasikan kategori harga rumah dengan tingkat akurasi 81,74%.
Meskipun analisis komparatif menunjukkan bahwa Random Forest memiliki tingkat akurasi yang lebih tinggi .
,32%).
Decision Tree tetap menjadi pilihan model yang lebih rasional dalam kasus ini karena struktur white-box-nya memiliki Hal ini dianggap lebih berharga daripada peningkatan marjinal dalam akurasi karena kemampuan model ini untuk menyajikan aturan keputusan yang jelas dan mudah dipahami, terutama dalam pengambilan keputusan strategis di mana alasan di balik prediksi harga sangat penting.
Kedua, dari perspektif praktis, mengintegrasikan model ke dalam aplikasi web berbasis Streamlit berhasil mengurangi kesenjangan antara kebutuhan pengguna akhir dan kompleksitas analisis model.
Dengan antarmuka yang mudah dipahami dan ramah pengguna, sistem ini memungkinkan pengguna yang kurang berpengalaman .
eperti penjual rumah atau calon pembel.
untuk secara mandiri dan real-time mensimulasikan prediksi harga.
Keberhasilan peluncuran ini menunjukkan bahwa teknologi open-source berbasis Python sumber terbuka dapat mempercepat hilirisasi produk data Science tanpa memerlukan infrastruktur pengembangan web yang kompleks.
Ketiga, pada studi yang berikutnya disarankan untuk fokus pada peningkatan akurasi prediksi untuk kelas harga "Sedang", yang ditemukan memiliki tingkat klasifikasi yang salah tertinggi.
Untuk menjaga transparansi, pengembangan di masa depan dapat mempertimbangkan penggunaan metode ensemble tambahan seperti Gradient Boosting (XGBoost atau LightGBM) yang dikombinasikan dengan metode interpretasi model seperti SHAP (SHapley Addit exPlanation.
Untuk meningkatkan fitur dan akurasi model, disarankan untuk menambahkan lebih banyak variabel eksternal yang relevan dengan konteks lokal, seperti indeks kriminalitas atau jarak ke pusat transportasi.
JURNAL INFORMATIKA UPGRIS Vol.
No.
2, .
ISSN: 2477-6645
DAFTAR PUSTAKA