JURNAL SAINS DAN INFORMATIKA Research of Science and Informatic V8. Vol. 08No. http://publikasi. id/index. php/jsi p-issn : 2459-9549 e-issn : 2502-096X Variable Importance Kesehatan dan Pendidikan dalam Pembentukan IPM dengan Algoritme Machine Learning Cahya Alkahfi a. Zein Rizky Santosob . Anwar Fitriantoc. Sachnaz Desta Oktarinad Prodi Statistika dan Sains Data. IPB University Email : acahyaalkahfi@gmail. com, brizkyzein@apps. id, canwarstat@gmail. com, dsachnazdes@gmail. Submitted: 31-10-2022. Reviewed: 27-11-2022. Accepted 29-11-2022 http://doi. org/10. 22216/jsi. Abstract HDI is an important indicator to measure the achievement of developing the quality of human life in a region. Java Island is the economic center of Indonesia as well as the most populous island in Indonesia, but it still has relatively large disparities in HDI among its regencies and cities. This research aims to determine the factors of health and education infrastructure that have a major influence on HDI in Java Island. The results can be used as input and consideration in policy-making, especially in Java. This research uses the Auvariable importanceAy based on 5 machine learning models, namely forward-selection and LASSO using the absolute value of the regression coefficient, as well as the random forest, extra tree, and gradient boosting models using MDI values. The bootstrap technique will be applied to all models to expand the sample space and produce more accurate The results of the five machine learning models show that the number of doctors and dentists per 1000 population is the factor that most influences HDI scores in Java. Also, the extra tree model provides the best performance based on the smallest RMSE value and shorter intervals than the other models. Keywords: Machine learning. HDI, health, education, variable importance Abstrak IPM merupakan indikator penting untuk mengukur keberhasilan pembangunan kualitas hidup manusia pada suatu wilayah. Pulau Jawa merupakan pusat ekonomi serta penduduk terpadat di Indonesia namun antar kabupaten/kota masih menunjukkan ketimpangan nilai IPM yang relatif besar. Penelitian ini bertujuan untuk mengetahui faktor-faktor infrastruktur kesehatan dan pendidikan yang memiliki pengaruh besar terhadap IPM di Pulau Jawa. Hasil penelitian ini dapat digunakan sebagai bahan masukan dan pertimbangan dalam pembuatan kebijakan khususnya di Pulau Jawa. Metode yang digunakan adalah variable importance berdasarkan 5 model pembelajaran mesin yaitu forward-selection dan LASSO menggunakan nilai absolut koefisien regresi, serta model random forest, extra trees dan gradient boosting menggunakan nilai MDI. Teknik bootstrap akan diterapkan pada semua model dengan tujuan untuk memperluas ruang sampel dan menghasilkan indikator yang lebih akurat. Hasil penelitian dari lima model pembelajaran mesin menunjukkan faktor jumlah dokter dan dokter gigi per 1000 penduduk merupakan faktor yang paling mempengaruhi nilai IPM di Pulau Jawa. Sementara itu, model extra trees memberikan performa terbaik berdasarkan nilai RMSE yang terkecil serta interval yang lebih pendek dibandingkan model lainnya. Kata kunci: Pembelajaran mesin. IPM, kesehatan, pendidikan, variabel penting A 2022 Jurnal Sains dan Informatika Pendahuluan pengalaman sehingga dapat mengidentifikasi gambar, suara, dan teks. Teknologi pada beberapa tahun terakhir telah maju secara signifikan, khususnya dalam bidang Machine Pada dasarnya, pembelajaran mesin menggunakan Learning (ML), yang efektif untuk meminimalkan algoritma yang terprogram untuk mempelajari dan tenaga kerja manusia. Pada bidang kecerdasan buatan, mengoptimalkan operasinya dengan menganalisis data pembelajaran mesin menggabungkan statistik dan ilmu input untuk membuat prediksi dalam rentang yang dapat komputer untuk membuat algoritma yang menjadi lebih diterima. Apabila memasukkan data yang baru, efisien ketika diberikan data yang bersangkutan. algoritma ini cenderung membuat prediksi yang akurat. Pembelajaran mesin adalah studi tentang metode Terdapat tiga kategori utama pada algoritma komputasi yang secara otomatis ditingkatkan oleh pembelajaran mesin sesuai dengan tujuannya dan cara Cahya Alkahfi. Zein Rizky Santoso. Anwar Fitrianto. Sachnaz Desta Oktarina/ Jurnal Sains dan Informatika : Vol. 08 No. mesin diajarkan. Ketiga kategori tersebut adalah saat ini adalah Indeks Pembangunan Manusia (IPM). supervised, unsupervised, dan semi-supervised. UNDP menyusun indeks komposit bahwa IPM didasarkan pada tiga indikator : harapan hidup saat lahir. Pada pembelajaran mesin supervised, solusi yang tingkat melek huruf penduduk dewasa dan rata-rata lama diinginkan dalam proses pembelajarannya disertakan. sekolah, dan daya beli. Data yang digunakan telah memiliki label dan algoritma akan mempelajari dari pola dari pasangan data dan label Perhitungan indeks pendidikan meliputi dua indikator Algoritma pembelajaran mesin supervised yaitu melek huruf dan rata-rata sekolah. Penduduk yang dapat diterapkan baik untuk pemodelan klasifikasi masuk dalam pengukuran adalah penduduk usia 15 maupun regresi. Pada konteks pemodelan klasifikasi, tahun ke atas karena pada kenyataannya penduduk usia peubah target berupa kategorik ataupun diskret, sudah ada yang putus sekolah. Batasan tersebut sedangkan pada pemodelan regresi peubah target berupa diperlukan untuk mencerminkan kondisi yang nilai numerik dengan tipe data rasio. sebenarnya mengingat penduduk yang berusi kurang dari 15 tahun masih dalam proses bersekolah atau Least Absolute Shrinkage and Selection Operator bersekolah sehingga tidak sesuai dengan rata-rata lama (LASSO) adalah salah satu metode dari pembelajaran sekolah. Kedua indikator pendidikan ini dimunculkan mesin supervised. LASSO merupakan metode dengan harapan dapat mencerminkan tingkat komputasi dengan menggunakan pemrograman pengetahuan. kuadratik yang dapat memerankan prinsip regresi gulud serta melakukan seleksi peubah. Metode LASSO mulai Indeks harapan hidup menunjukkan jumlah tahun hidup dikenal setelah ditemukannya algoritma LAR pada yang diharapkan dapat dinikmati oleh penduduk suatu . Metode lainnya adalah Forward wilayah. Data dasar yang diperlukan dalam metode ini Selection yaitu salah satu teknik untuk mereduksi adalah rata-rata anak yang lahir hidup dan rata-rata anak dimensi dataset dengan menghilangkan atribut-atribut yang masih hidup dari wanita pernah kawin. Angka yang kurang relevan atau redundan dan menyisakan harapan hidup merupakan alat untuk mengevaluasi peubah yang memiliki pengaruh signifikan saja. kinerja pemerintah dalam meningkatkan kesejahteraan Forward Selection didasarkan pada model Regresi penduduk pada umumnya, dan meningkatkan derajat Linear. kesehatan pada khususnya. Apabila ditemukan angka harapan hidup yang rendah di suatu daerah maka Tree-based juga merupakan salah satu dari pemerintah harus mengadakan lebih banyak program pembelajaran mesin supervised yang melakukan tugas pembangunan, kesehatan, dan program sosial lainnya. klasifikasi dan regresi dengan membangun struktur Sementara peningkatan angka harapan hidup seperti pohon untuk menentukan kelas atau nilai variabel menunjukkan bahwa bayi-bayi telah terjamin kesehatan target sesuai dengan fitur. Tree-based adalah salah satu dan kemiskinan sudah diatasi lebih baik. Pada indeks algoritma pembelajaran mesin yang populer digunakan kesehatan ini pencapaiannya memerlukan upaya untuk memprediksi kumpulan data tabular dan spasial. peningkatan terhadap status kesehatan masyarakat. Tree-based yang populer digunakan antara lain Random akses dan tenaga kesehatan yang tersedia bagi Forest. Gradient Boosting, dan Extra Trees. Random masyarakat. Forest merupakan algoritma pembelajaran mesin yang fleksibel dan mudah digunakan yang dapat memperoleh Berdasarkan data IPM Indonesia pada tahun 2018 yang hasil yang baik walaupun tanpa dilakukan tuning dilansir oleh Badan Pusat Statistik (BPS). , sebagian Secara singkat. Random Forest membangun besar kota/kabupaten dari Pulau Jawa memiliki nilai beberapa pohon keputusan dan menggabungkannya IPM dengan status AutinggiAy yaitu pada rentang nilai 70 untuk mendapatkan prediksi yang lebih akurat dan 80. Pada Gambar 1 dapat dilihat bahwa nilai IPM Gradient Boosting merupakan algoritma yang kabupaten/kota di Pulau Jawa masih cenderung dimulai dari menghasilkan pohon klasifikasi awal dan bervariasi baik antar provinsi maupun antar terus menyesuaikan pohon baru melalui minimalisasi kabupaten/kota pada masing-masing provinsi. Wilayah fungsi kerugian. Extra Trees serupa dengan Random yang memiliki nilai IPM tertinggi pada tahun 2018 di Forest yang membangun banyak pohon dan membagi Pulau Jawa adalah Kota Yogyakarta. DI Yogyakarta simpul menggunakan subset atribut acak, namun pada dengan nilai 86,11 dan masuk kategori Ausangat tinggiAy. Extra Trees keacakan tidak berasal dari bootstrap data. Sementara itu wilayah dengan IPM terendah adalah melainkan berasal dari pemisahan acak dari semua Kabupaten Sampang. Jawa Timur yaitu 61,00 atau . Pada akan masuk kategori AusedangAo. Nilai ini hanya sedikit saja membandingkan kelima metode supervised pada studi berapa pada ambang batas IPM kategori AurendahAy yaitu kasus mengetahui faktor - faktor yang dapat 60,00. mempengaruhi nilai Indeks Pembangunan Manusia (IPM) di Pulau Jawa pada 2018. Variasi nilai IPM tersebut menunjukkan Pulau Jawa merupakan salah satu wilayah yang berada di Keberhasilan pembangunan suatu daerah dapat diukur Kawasan Barat Indonesia yang didominasi adanya dengan beberapa parameter, dan yang paling populer pembangunan infrastruktur. Akan tetapi, antarwilayah di Cahya Alkahfi. Zein Rizky Santoso. Anwar Fitrianto. Sachnaz Desta Oktarina/ Jurnal Sains dan Informatika : Vol. 08 No. Pulau Jawa masih memiliki kualitas sumber daya manusia yang bervariasi. Hal tersebut dikarenakan terdapat tidak meratanya pembangunan. ycU OO yuA OO ycU OO = ycU OO yu AOO = vektor variabel respon berukuran . cu y . = matriks variabel prediktor berukuran . cu y yc. = vektor dari koefisien LASSO berukuran . y 1 = vektor galat berukuran . cu y . Menurut Tibshirani . estimasi koefisien LASSO menggunakan pemrograman kuadratik dengan kendala Estimasi LASSO diperoleh dari persamaan berikut: Gambar 1. Sebaran Nilai IPM Kabupaten/Kota Menurut Provinsi di Pulau Jawa Tahun 2018 yuC ycoycaycycycu = ycaycyciycoycnycu{Oc ycn=1 yco cycn Oe yu0 Oe Oc yc=1 yuyc ycuycnyc Berdasarkan latar belakang tersebut akan dibandingkan dengan syarat Ocyco . u | O yc. Nilai yc merupakan yc=1 yc hasil dari lima metode pembelajaran mesin supervised, parameter tuning yang mengontrol koefisien LASSO yaitu Forward Selection. LASSO. Random Forest, dengan yc Ou 0. Menurut Tibshirani. , jika yc < yc0 Gradient Boosting, dan Extra Trees pada studi kasus Ocycy C untuk mengetahui faktor-faktor infrastruktur kesehatan dengan yc0 = yc=. yuyc | maka akan menyebabkan dan pendidikan di tingkat desa/kelurahan yang koefisien menyusut mendekati nol atau tepat pada nol mempengaruhi skor IPM kabupaten/kota di Pulau Jawa. atau tepat pada nol, sehingga LASSO akan berperan sebagai seleksi variabel. Akan tetapi jika yc > yc0 maka penduga koefisien LASSO memberikan hasil yang sama Tinjauan Pustaka dengan penduga kuadrat terkecil. Koefisien regresi LASSO ditentukan berdasarkan parameter tuning yang Pada penelitian ini akan membandingkan lima metode yc ycy C0 pembelajaran mesin supervised yaitu Forward sudah dibakukan yc = Ocyco . dengan yc = Ocyc=. yuyc |, yuyc yc=1 yc Selection. LASSO. Random Forest. Gradient Boosting, adalah penduga kuadrat terkecil untuk model penuh, dan Extra Trees. nilai yc optimal diperoleh melalui validasi silang. 1 Forward Selection 3 Random Forest Metode Sequential Forward Selection atau metode Random Forest merupakan sebuah metode ensemble, seleksi maju adalah algoritma pencarian paling yang mana metode ensemble merupakan cara untuk Forward Selection didasarkan pada model meningkatkan akurasi metode klasifikasi dengan Regresi Linier. Forward Selection adalah salah satu mengkombinasikan metode klasifikasi dari sebuah teknik untuk mereduksi dimensi dataset dengan pemilah tunggal yang tidak stabil melalui banyak menghilangkan atribut-atribut yang tidak relevan atau kombinasi penyaringan dari suatu metode yang sama Metode Forward Selection adalah pemodelan dengan proses keputusan . untuk memperoleh dimulai dari nol peubah . mpty mode. , kemudian satu prediksi klasifikasi akhir. persatu peubah dimasukan sampai kriteria tertentu Random Forest diawali dengan teknik dasar dari data mining yaitu decision tree. Pada proses decision tree, dimana input berupa data akan dimasukkan pada bagian atas proses tree berupa akar pohon . kemudian akan dibawa turun ke bagian bawah berupa daun pohon . Metode Least Absolute Shrinkage and Selection pada proses, untuk menentukan data input-an tersebut Operator (LASSO) diperkenalkan pertama kali oleh termasuk ke dalam kelas apa pada proses. Dengan kata Tibshirani pada tahun 1996. LASSO menyusutkan lain Random Forest terdiri dari sekumpulan decision koefisien regresi dari variabel prediktor yang memiliki tree . ohon keputusa. , dimana kumpulan decision tree korelasi tinggi tinggi dengan galat, menjadi tepat pada tersebut digunakan untuk mengklasifikasi data ke suatu nol atau mendekati nol. Menurut Zhao dan Yu . , kelas. persamaan secara umum LASSO dinyatakan sebagai 2 LASSO Cahya Alkahfi. Zein Rizky Santoso. Anwar Fitrianto. Sachnaz Desta Oktarina/ Jurnal Sains dan Informatika : Vol. 08 No. 4 Gradient Boosting 6 Bootstrap Method Gradient boosting termasuk supervised learning Ide dasar dari bootstrap yaitu melibatkan pengambilan berbasis decision tree yang dapat digunakan untuk sampel acak berulang dengan penggantian dari data asli. Algoritma gradient boosting bekerja secara untuk menghasilkan sampel acak dengan ukuran yang sekuensial menambahkan prediktor sebelumnya yang sama dari sampel asli, yang masing-masing dikenal kurang cocok dengan prediksi ke ensemble, memastikan sebagai sampel bootstrap, dan masing-masing kesalahan yang dibuat sebelumnya diperbaiki. memberikan parameter yang diinginkan, misalnya mean Penggambaran sederhana konsep ensemble adalah dan standard deviation. AuDengan pengembalianAy berarti keputusan-keputusan dari berbagai mesin pembelajaran bahwa pengamatan apapun dapat diambil sampelnya digabungkan, kemudian untuk kelas yang menerima lebih dari sekali dalam setiap sampel bootstrap. Hal ini mayoritas AosuaraAo adalah kelas yang akan diprediksi oleh penting karena pengambilan sampel tanpa pengembalian keseluruhan ensemble. Gradient boosting dimulai hanya akan memberikan permutasi acak dari data asli, dengan menghasilkan pohon klasifikasi awal dan terus dengan banyak statistik seperti rata-rata yang sama menyesuaikan pohon baru melalui minimalisasi fungsi Mengulangi proses lebih banyak memberikan kerugian :. informasi yang diperlukan tentang variabilitas estimator, karena kesalahan standar diperkirakan dari standard ycA log. deviation yang berasal dari sampel bootstrap. Oeycoycuyciya1 = Oe Oc log. ycnOe1 log. yce Metodologi Penelitian 5 Extra Trees 1 Data Extra Trees merupakan model yang diusulkan pertama Data yang digunakan adalah data Potensi Desa (PODES) kali oleh Geurts et al. Model ini merupakan salah yang dikumpulkan oleh Badan Pusat Statistik (BPS) satu tree-based dari pembelajaran mesin supervised pada tahun 2018. Pada penelitian ini menggunakan data yang dapat digunakan untuk regresi dan klasifikasi. PODES yang sudah diagregasi pada level Extra Trees Regression membangun sebuah ensemble kota/kabupaten untuk setiap Provinsi di Pulau Jawa. dari pohon regresi yang berdasarkan prosedur top-down Provinsi tersebut yaitu DKI Jakarta. Jawa Barat. Jawa yang sederhana. Perbedaan yang jelas dengan model Tengah. DI Yogyakarta. Jawa Timur, dan Banten. ensemble lainnya adalah Extra Trees membangun pohon dengan semua sampel dan memilih titik potong acak Pada penelitian ini akan dilakukan pencarian variable untuk setiap fitur yang dipertimbangkan daripada importance pada faktor-faktor infrastruktur kesehatan menghitung yang optimal secara local. dan pendidikan yang dapat mempengaruhi skor IPM kota/kabupaten di Provinsi Pulau Jawa. Peubah yang Extra Trees memiliki tiga parameter utama, yaitu ya, digunakan sebanyak 16 peubah dengan rincian ycuycoycnycu , dan ycA. Ketiga parameter ini dapat ditentukan ditunjukkan pada Tabel 1. Seluruh peubah merupakan misalnya peubah numerik dengan rincian 15 peubah bebas dan 1 Parameter ya peubah respon yaitu nilai IPM. Di antara peubah bebas, menunjukkan jumlah pemisahan acak dan rentang yang terdapat perbedaan satuan serta interval nilai. Untuk itu tersedia adalah 1 hingga ycu, di mana ycu menunjukkan akan dilakukan standardisasi agar setiap peubah jumlah atribut. Semakin kecil nilai ya, semakin kuat memiliki interval nilai yang mirip. Adapun jumlah pengacakan pohonnya. Eksperimen telah menunjukkan observasi adalah sebanyak 119 atau sebanyak jumlah bahwa nilai optimal ya adalah ya = Ooycu untuk klasifikasi kota/kabupaten di Pulau Jawa. dan ya = ycu untuk regresi. Parameter ycuycoycnycu menunjukkan jumlah sampel untuk membagi sebuah node. ycuycoycnycu yang Tabel 1. Peubah Ae peubah yang digunakan pada penelitian ini lebih besar mengarah ke bias yang lebih tinggi. Deskripsi Parameter ycA adalah jumlah pohon. Semakin banyak Peubah Nilai IPM pohon, semakin baik akurasinya. Ukuran skor dalam IPM Extra Trees adalah pengurangan varians relatif. Untuk PR_NO_LIS Proporsi keluarga yang tidak sampel . cI) dan split . , skor didefinisikan sebagai menggunakan listrik baik PLN maupun non-PLN PR_SAMPAH cI1 | ycIycaycuycyce. c, ycI) = ycycayc. ycI} Oe . cI| ycycayc. ycI1 } Oe . cIyc | . cI| ycycayc. ycIyc } . ycI} di mana ycI1 dan ycIyc menyatakan dua himpunan bagian dari kasus dari ycI yang berkorespondensi dengan dua hasil dari split yc. PR_TINJA Proporsi desa/kelurahan pada kabupaten/kota dimana sebagian besar warganya membuang sampah di sungai/saluran irigasi/danau/laut serta got/selokan dan lainnya Proporsi desa/kelurahan pada kabupaten/kota dimana tempat pembuangan akhir tinja sebagian besar warganya adalah sawah/kolam/sungai/danau/laut atau Cahya Alkahfi. Zein Rizky Santoso. Anwar Fitrianto. Sachnaz Desta Oktarina/ Jurnal Sains dan Informatika : Vol. 08 No. PR_MKM_SUNGAI PR_SUNGAI_LMBH PR_KUMUH PRA_1000 SD_1000 SM_1000 RS_PKS_PDK_1000 LIN_BID_POS_1000 APT_OBT_1000 DOK_DRG_1000 BID_1000 GZ_BURUK_1000 pantai/tanah lapang/kebun, lubang tanah dan lainnya Proporsi desa/kelurahan di kabupaten/kota yang memiliki pemukiman di bantaran sungai Proporsi desa/kelurahan di kabupaten/kota yang memiliki sungai yang tercemar limbah Proporsi desa/kelurahan di kabupaten/kota yang memiliki pemukiman kumuh Jumlah PAUD dan TK per 1000 Jumlah SD/MI per 1000 penduduk Jumlah sekolah menengah (SMP/MTs. SMA/MA. SMK) per 1000 penduduk Jumlah rumah sakit, puskesmas, puskesmas pembantu, poliklinik, praktek dokter per 1000 penduduk Jumlah rumah bersalin, praktek bidan, posyandu, polindes per 1000 penduduk Jumlah apotek dan toko obat per 1000 Jumlah dokter dan dokter gigi per 1000 Jumlah bidan per 1000 penduduk Jumlah kejadian gizi buruk per 1000 keragaman data sebelum dan sesudah dilakukan pembagian kelompok berdasarkan nilai suatu peubah. Pada penelitian ini, penentuan variabel importance tidak hanya menggunakan satu model menggunakan set data tertentu pada setiap motodenya. Penentuannya akan menggunakan metode bootstrap dengan jumlah iterasi Adapun tahapan yang dilakukan adalah sebagai berikut: C Membangkitkan sebanyak 1000 bilangan acak. C Setiap bilangan acak akan menjadi seed pada penarikan sampel dengan teknik bootstrap pada data PODES untuk memperoleh 1000 set data yang C Membangun model untuk setiap set data, sehingga akan menghasilkan 1000 model untuk setiap metode. C Menghitung nilai koefisien atau MDI setiap model untuk masing-masing metode, dan C Menentukan variable importance pada setiap metode dengan mempertimbangkan nilai rata-rata, median serta interval 95% dari nilai koefisien atau MDI. Hasil dan Pembahasan 2 Metode Penelitian Pada bagian ini disajikan hasil dari pembentukan model Pada tahap ini akan melihat hasil dari lima metode untuk setiap metode yang digunakan. Hasil yang pembelajaran mesin supervised dalam memperoleh diperoleh meliputi nilai rataan koefisien atau MDI, variable importance dari faktor Ae faktor infrastruktur median dan selang 95 persen. kesehatan dan pendidikan yang mempengaruhi skor IPM pada kota/kabupaten di Provinsi Pulau Jawa. 1 Forward Selection Metode bootstrap akan diterapkan pada semua metode pembelajaran mesin, yaitu melakukan penarikan contoh Koefisien regresi pada model-model forward-selection acak dengan pemulihan berukuran ycu dari gugus data menunjukkan bahwa peubah DOK_DRG_1000 Pembelajaran mesin supervised yang digunakan memiliki rataan maupun median yang paling tinggi dibandingkan peubah lainnya. Berdasarkan Tabel 2, dari 5000 model diperoleh nilai rataan koefisien sebesar Forward Selection 2,566 serta median yang relatif serupa yaitu 2,547. LASSO Adapun 95 persen nilai koefisien DOK_DRG ini berada Random Forest pada kisaran nilai 1,465 hingga 3,705. Peubah Gradient Boosting berikutnya dengan nilai koefisien . tertinggi Extra Trees yaitu SD_1000 dengan rataan -1,740 dan median -1,747 diikuti PR_SAMPAH dengan rataan -1,020 dan median 3 Penentuan Variable Importance -1,012. Adapun peubah lainnya walaupun sebagian Pendekatan naif untuk mengukur tingkat variable memiliki nilai yang relatif besar, namun pada interval 95 importance . ingkat kepentinga. adalah menghitung persen seluruhnya dapat dikatakan tidak begitu berapa kali variabel tersebut muncul dalam kelompok konsisten karena memiliki rentang nilai yang berbeda pohon keputusan. Semakin besar dampaknya, semakin tanda. Sehingga pengaruh peubah tersebut dapat penting variabelnya. Pada tahap ini, untuk metode dikatakan tidak signifikan secara statistik. forward-selection dan LASSO, penentuan variable Tabel 2. Sebaran Nilai Koefisien Peubah pada Model Forwardimportance menggunakan nilai absolut koefisien Selection regresi, dimana semakin besar nilai koefisien menunjukkan semakin besar kontribusi peubah yang Peubah Mean Median Q2. Q97. bersangkutan terhadap nilai IPM untuk setiap perubahan 2,566 2,547 1,465 3,705 satu satuan peubah tersebut. Adapun untuk random DOK_DRG_1000 forest, extra trees dan gradient boosting akan SD_1000 -1,740 -1,747 -2,731 -0,654 menggunakan nilai Mean Decrease in Impurity (MDI), -1,020 -1,012 -1,656 -0,450 yang menunjukkan rata-rata besarnya reduksi PR_SAMPAH Cahya Alkahfi. Zein Rizky Santoso. Anwar Fitrianto. Sachnaz Desta Oktarina/ Jurnal Sains dan Informatika : Vol. 08 No. APT_OBT_1000 -0,817 -0,900 -1,674 0,317 GZ_BURUK_1000 0,016 0,000 -0,208 0,240 PR_TINJA -0,861 -0,861 -1,816 0,101 PR_MKM_SUNGAI 0,005 0,000 -0,616 0,732 LIN_BID_POS_1000 0,597 0,599 -0,368 1,716 RS_PKS_PDK_1000 0,577 0,575 -0,567 1,814 SM_1000 -0,444 -0,437 -1,271 0,255 BID_1000 -0,471 -0,419 -1,691 0,394 PR_KUMUH 0,193 0,185 -0,793 1,075 PR_NO_LIS -0,214 -0,123 -1,107 0,478 GZ_BURUK_1000 0,079 0,084 -0,388 0,499 PR_MKM_SUNGAI -0,110 0,000 -1,121 1,031 PR_SUNGAI_LMBH 0,057 0,000 -0,713 0,988 3 Random Forest Tabel 4. Sebaran Nilai MDI pada Model Random Forest 2 LASSO Model LASSO memberikan hasil yang tidak jauh berbeda seperti sebelumnya. Pada Tabel 3, menunjukkan bahwa peubah DOK_DRG_1000 memiliki nilai rataan dan median yang tertinggi yaitu 2,119 dan 2,135. Adapun pada selang 95 persen koefisien peubah ini memiliki nilai berkisar antara 1,038 sampai dengan 3,099. Untuk urutan kedua dan ketiga berturut-turut yaitu peubah SD_1000 dengan rataan 1,466 dan median -1,488 serta peubah PR_SAMPAH dengan rataan -0,986 dan median -0,988. Pada urutan keempat yaitu PR_TINJA dengan rataan -0,817 dan median 0,808. Nilai koefisien 0,000 atau -0,000 menunjukkan nilai koefisien peubah tersebut disusutkan menjadi 0 dalam proses LASSO dan menandakan bahwa pada model bersangkutan peubah tersebut dianggap tidak diperlukan dalam pembentukan model. Tabel 3. Sebaran Nilai Koefisien Peubah pada Model LASSO Peubah Pada penelitian ini, model-model berbasis pohon, termasuk random forest diukur berdasarkan nilai MDI, semakin besar nilainya maka semakin tinggi tingkat kepentingan peubah tersebut. Dari hasil pada tabel 4, diperoleh nilai MDI tertinggi ada pada peubah DOK_DRG_1000 dengan rata-rata 0,502 dan median 0,523. Adapun 95 persen nilai MDI untuk peubah ini berkisar antara 0,139 hingga 0,75. Untuk urutan kedua adalah peubah PR_TINJA dengan rata-rata 0,136 dan median 0,091 dan diikuti oleh LIN_BID_POS_1000 serta SD_1000. Rataan Median Q2. Q97. DOK_DRG_1000 2,119 2,135 1,038 3,099 SD_1000 -1,466 -1,488 -2,222 -0,638 PR_SAMPAH -0,986 -0,988 -1,502 -0,460 PR_TINJA -0,817 -0,808 -1,650 -0,012 SM_1000 -0,487 -0,493 -1,170 0,000 RS_PKS_PDK_1000 0,289 0,141 0,000 1,179 PR_NO_LIS -0,188 -0,090 -0,799 0,033 APT_OBT_1000 -0,234 -0,090 -0,851 0,120 PR_KUMUH 0,185 0,071 -0,068 0,785 BID_1000 -0,151 -0,046 -0,669 0,000 PRA_1000 -0,119 -0,000 -0,696 0,135 LIN_BID_POS_1000 0,015 -0,000 -0,330 0,407 PR_SUNGAI_LMBH 0,050 0,000 -0,403 0,596 Peubah Rataan Median Q2. Q97. DOK_DRG_1000 0,502 0,523 0,139 0,750 PR_TINJA 0,136 0,091 0,012 0,500 LIN_BID_POS_1000 0,096 0,055 0,006 0,415 SD_1000 0,065 0,053 0,012 0,186 RS_PKS_PDK_1000 0,050 0,041 0,009 0,127 SM_1000 0,039 0,032 0,010 0,096 BID_1000 0,027 0,019 0,004 0,095 APT_OBT_1000 0,013 0,012 0,004 0,031 PRA_1000 0,012 0,010 0,004 0,035 PR_SAMPAH 0,014 0,009 0,002 0,056 PR_KUMUH 0,010 0,009 0,004 0,026 PR_SUNGAI_LMBH 0,009 0,008 0,003 0,022 GZ_BURUK_1000 0,010 0,008 0,003 0,028 PR_MKM_SUNGAI 0,009 0,008 0,003 0,018 PR_NO_LIS 0,009 0,006 0,002 0,031 4 Extra Trees Berdasarkan Tabel 5, peubah DOK_DRG_1000 memiliki nilai rata-rata dan median MDI tertinggi untuk model extra trees yaitu sebesar 0,214 dan 0,207 dengan 95 persen nilainya berada di antara 0,125 hingga 0,339. Pada urutan kedua, peubah PR_TINJA memiliki nilai MDI dengan rata-rata 0,175 dan median 0,169 diikuti dengan LIN_BID_POS_1000 pada urutan ketiga dengan rata-rata 0,129 dan median 0,127. Adapun peubah SD_1000 dan RS_PKS_PDK_1000 memiliki nilai ratarata dan median tertinggi pada urutan empat dan lima. Cahya Alkahfi. Zein Rizky Santoso. Anwar Fitrianto. Sachnaz Desta Oktarina/ Jurnal Sains dan Informatika : Vol. 08 No. Tabel 5. Sebaran Nilai MDI pada Model Extra Trees Peubah BID_1000 0,022 0,013 0,001 0,091 Rataan Median Q2. Q97. PRA_1000 0,009 0,007 0,001 0,038 DOK_DRG_1000 0,214 0,207 0,125 0,339 PR_SUNGAI_LMBH 0,009 0,007 0,001 0,027 PR_TINJA 0,175 0,169 0,074 0,302 PR_SAMPAH 0,010 0,006 0,000 0,034 LIN_BID_POS_1000 0,129 0,127 0,052 0,221 GZ_BURUK_1000 0,008 0,006 0,001 0,025 SD_1000 0,112 0,108 0,048 0,198 PR_KUMUH 0,007 0,005 0,001 0,025 RS_PKS_PDK_1000 0,083 0,078 0,039 0,154 PR_MKM_SUNGAI 0,007 0,005 0,001 0,023 PR_SAMPAH 0,075 0,070 0,029 0,145 PR_NO_LIS 0,007 0,004 0,000 0,038 BID_1000 0,050 0,043 0,016 0,123 SM_1000 0,031 0,029 0,014 0,058 PR_NO_LIS 0,022 0,021 0,009 0,044 PRA_1000 0,022 0,021 0,010 0,044 APT_OBT_1000 0,022 0,020 0,010 0,045 PR_KUMUH 0,020 0,016 0,008 0,057 PR_SUNGAI_LMBH 0,017 0,015 0,008 0,038 PR_MKM_SUNGAI 0,014 0,013 0,007 0,027 GZ_BURUK_1000 0,013 0,011 0,006 0,028 6 Pembahasan Menurut hasil yang sudah diperoleh pada Tabel 2 hingga Tabel 6, dapat dilihat bahwa peubah DOK_DRG_1000 selalu menempati urutan pertama sebagai peubah dengan koefisien tertinggi atau nilai MDI terbesar. Hal ini menunjukkan peubah tersebut, yaitu jumlah dokter dan dokter gigi per 1000 penduduk merupakan peubah paling penting diantara peubah lainnya sebagai faktor yang paling mempengaruhi besaran nilai IPM di Pulau Jawa. Selanjutnya, 3 dari 5 model yaitu forward-selection. LASSO, dan gradient boosting menempatkan SD_1000 5 Gradient Boosting sebagai peubah terpenting berikutnya. Adapun pada random forest dan extra tress peubah SD_1000 juga Tabel 6 menunjukkan sebaran nilai MDI pada model masih memiliki nilai yang cukup tinggi yaitu masinggradient boosting. Berdasarkan tabel tersebut peubah masing pada urutan ke-4. Namun yang perlu menjadi DOK_DRG_1000 merupakan peubah dengan nilai rata- catatan bahwa nilai koefisien peubah ini pada model rata dan median MDI tertinggi yaitu 0,538 dan 0,605. forward-selection dan LASSO adalah negatif, yang Peubah tersebut memiliki 95 persen nilai MDI pada mana dapat dimaknai bahwa semakin sedikit jumlah SD rentang nilai antara 0,097 hingga 0,757. Adapun peubah per 1000 penduduk maka semakin tinggi nilai IPM dan pada urutan kedua jika dilihat berdasarkan nilai rataan sebaliknya. Pada Gambar 2 dapat dilihat pula bahwa maka PR_TINJA memiliki nilai 0,108 yang lebih tinggi kabupaten/kota dengan jumlah SD per 1000 penduduk dari peubah SD_1000 sebesar 0,083. Namun jika dilihat yang lebih kecil memiliki kecenderungan nilai IPM yang dari nilai median maka sebaliknya SD_1000 memiliki lebih tinggi dibandingkan kabupaten/kota dengan nilai lebih tinggi dibandingkan PR_TINJA. jumlah SD per 1000 penduduk yang lebih besar. Jika dilihat berdasarkan selang nilai 95 persen, maka peubah SD_1000 memiliki selang yang lebih pendek dibandingkan PR_TINJA yaitu antara 0,010 hingga 0,198. Hal ini menunjukkan nilai MDI pada SD_1000 lebih stabil dibandingkan PR_TINJA. Tabel 6. Sebaran Nilai MDI pada Model Gradient Boosting Peubah Rataan Median Q2. Q97. DOK_DRG_1000 0,538 0,605 0,097 0,757 SD_1000 0,083 0,076 0,010 0,198 PR_TINJA 0,108 0,051 0,002 0,538 RS_PKS_PDK_1000 0,052 0,044 0,009 0,132 LIN_BID_POS_1000 0,091 0,042 0,001 0,528 SM_1000 0,033 0,027 0,006 0,090 APT_OBT_1000 0,016 0,014 0,002 0,043 Gambar 2. Boxplot hubungan beberapa peubah penting menurut kategori IPM Cahya Alkahfi. Zein Rizky Santoso. Anwar Fitrianto. Sachnaz Desta Oktarina/ Jurnal Sains dan Informatika : Vol. 08 No. Pada urutan ke-3 dan seterusnya, masing-masing metode adalah model dengan metode extra trees, dimana menetapkan peubah penting yang cukup beragam. memiliki nilai RMSE yang cenderung lebih kecil serta Namun, jika dilihat secara keseluruhan, maka peubah interval yang juga lebih pendek dibandingkan model PR_TINJA. PR_SAMPAH. LIN_BID_POS_1000 dan lainnya. RS_PKS_PDK_1000 merupakan peubah-peubah yang cukup penting pada setiap model. Saran untuk penelitian selanjutnya dapat menggunakan model dengan mempertimbangkan pengaruh geografis Gambar 2 menunjukkan bagaimana hubungan antara serta deret waktu . patio-tempora. pada data IPM. Serta enam peubah penting terhadap nilai IPM. Pada peubah memperluas observasi dengan menambahkan data-data DOK_DRG_1000 memperlihatkan pola dimana untuk wilayah lainnya. semakin besar nilai DOK_DRG_1000 maka kecenderungan nilai IPM juga semakin tinggi. Daftar Rujukan Sebaliknya pada PR_SAMPAH dan PR_TINJA dimana kabupaten/kota dengan nilai yang lebih tinggi cenderung . Taha Jijo dan A. Mohsin Abdulazeez. AuClassification Based on Decision Tree Algorithm for Machine Learning,Ay memiliki IPM yang lebih rendah. Adapun anomali yang Journal of Applied Science and Technology Trends, vol. layak dikaji lebih jauh adalah pada peubah SD_P_1000 01, hlm. 20Ae28. Mar 2021, doi: 10. 38094/jastt20165. dan LIN_BID_POS_1000. Berdasarkan data PODES . Pusporini. AuPenerapan Regresi Gulud dan Least Absolute 2018 memiliki kecenderungan yang kontradiktif. Shrinkage and Selection Operator (LASSO) dalam Penyusutan Koefisien Regresi,Ay 2012. Wilayah dengan jumlah SD per 1000 penduduk yang Walczak dan D. Massart. AuChapter 15 Calibration in lebih tinggi atau jumlah rumah bersalin, praktek bidan . wavelet domain,Ay Data Handling in Science and dan Posyandu yang lebih tinggi memiliki nilai IPM yang Technology, vol. 22, no. C, hlm. 323Ae349, 2000, doi: cenderung lebih rendah. 1016/S0922-3487. Untuk melihat model terbaik pada penelitian ini menggunakan nilai RMSE. Secara keseluruhan pada . Gambar 3 menyajikan perbandingan masing-masing metode dimana model extra trees memberikan nilai rata- . rata RMSE yang terkecil serta interval nilai terpendek. Hasil ini menunjukkan bahwa metode extra trees . memberikan hasil yang lebih konsisten dibandingkan motode lainnya. Sementara itu model berbasis forwardselection memiliki nilai RMSE yang cenderung lebih . besar serta interval yang lebar, menunjukkan hasil model yang dapat dikatakan tidak begitu baik dibandingkan model lainnya. Gambar 3. Perbandingan Sebaran Nilai RMSE Berdasarkan 5 Model Kesimpulan . Berdasarkan hasil yang diperoleh, dapat ditarik . kesimpulan bahwa banyaknya jumlah dokter dan dokter gigi per 1000 penduduk merupakan peubah paling penting dalam model untuk menentukan nilai IPM. Peubah lainnya yang menjadi peubah penting adalah jumlah jumlah SD per 1000 penduduk serta proporsi desa yang menjadikan sungai/saluran irigasi/danau/laut . serta got/selokan dan lainnya sebagai tempat pembuangan sampah. Adapun model yang dapat . dianggap sebagai model terbaik dalam penelitian ini Natekin dan A. Knoll. AuGradient boosting machines, a tutorial,Ay Front Neurorobot, vol. 7, no. DEC, hlm. 21, 2013, doi: 10. 3389/FNBOT. 00021/BIBTEX. Tamara. AuKajian Kinerja Algoritme Klasifikasi ExtraTrees pada Permasalahan Data Kelas Tak Seimbang,Ay 2022. Ipm. AuAnalisis arah kebijakan ekonomi terhadap sektor pendidikan dalam peningkatan ipm,Ay vol. 5, no. 62, hlm. 271Ae279, 2012, doi: 10. 15294/JEJAK. V7I1. Lestari dan V. Sanar. AuAnalysis Indicator of Factors Affecting Human Development Index (IPM),Ay Geosfera Indonesia, vol. 2, no. 1, hlm. Apr 2018, doi: 19184/GEOSI. V2I1. Sularno. Prima Mulya. Zulfahmi. Faradika, dan Razi A. AuSistem Penunjang Keputusan Pelayanan Kesehatan (Padang Healt. dengan Metode AHP (Studi Kasus : Pelayanan Kesehatan untuk Dosen dan Karyawan Universitas Dharma Andala. ,Ay Jurnal Sains dan Informatika, vol. 7, no. 2, hlm. 63Ae72. Nov 2021, doi: 22216/JSI. V7I2. AuBadan Pusat Statistik. Ay https://w. id/pressrelease/2019/04/15/1557/padatahun-2018--indeks-pembangunan-manusia--ipm-indonesia-mencapai-71-39. iakses Okt 25, 2. Pratiwi dan A. Wijayanto. AuPerbandingan Klasifikasi Indeks Pembangunan Manusia (IPM) dengan Metode K-Nearest Neighbour (K-NN) dan Support Vector Machine (SVM) Kabupaten/Kota di Pulau Jawa Tahun 2019,Ay Jurnal Ilmu Komputer, vol. 15, no. 1, hlm. 8Ae21. Tibshirani. AuRegression Shrinkage and Selection Via the Lasso,Ay Journal of the Royal Statistical Society: Series B (Methodologica. , vol. 58, no. 1, hlm. 267Ae288. Jan 1996, doi: 10. 1111/J. TB02080. Zhao dan B. Edu. AuOn Model Selection Consistency of Lasso Bin Yu,Ay Journal of Machine Learning Research, vol. 7, hlm. 2541Ae2563, 2006, doi: 10. 5555/1248547. Dewi. AuOLS. LASSO dan PLS Pada data Mengandung Multikolinearitas,Ay Jurnal Ilmu Dasar, vol. 11, no. 1, hlm. 83Ae91. Jan 2010. van Wezel dan R. Potharst. AuImproved customer choice predictions using ensemble methods,Ay Eur J Oper Res, vol. 181, no. 1, hlm. 436Ae452. Agu 2007, doi: 1016/J. EJOR. Geurts. Ernst, dan L. Wehenkel. AuExtremely randomized trees,Ay Mach Learn, vol. 63, no. 1, hlm. 3Ae42. Apr 2006, doi: 10. 1007/S10994-006-6226-1. Shang dkk. AuFusion of Five Satellite-Derived Products Using Extremely Randomized Trees to Estimate Terrestrial Cahya Alkahfi. Zein Rizky Santoso. Anwar Fitrianto. Sachnaz Desta Oktarina/ Jurnal Sains dan Informatika : Vol. 08 No. Latent Heat Flux over Europe,Ay Remote Sensing 2020. Vol. Page 687, vol. 12, no. 4, hlm. Feb 2020, doi: 3390/RS12040687. Christy. Suryowati. Statistika. Sains Terapan, dan AKPRIND Yogyakarta. AuAnalisis Klasifikasi Status Bekerja Penduduk Daerah Istimewa Yogyakarta Mengunakan Metode Random Forest,Ay Jurnal Statistika Industri dan Komputasi, vol. 6, no. 01, hlm. 69Ae76. Jan