Institut Riset dan Publikasi Indonesia (IRPI) MALCOM: Indonesian Journal of Machine Learning and Computer Science Journal Homepage: https://journal. id/index. php/malcom Vol. 3 Iss. 2 October 2023, pp: 83-91 ISSN(P) 2797-2313 | ISSN(E): 2775-8575 Application of Supervised Learning Algorithm for Classification of Family Hope Program Penerapan Algoritma Supervised Learning untuk Klasifikasi Program Keluarga Harapan Muhammad Syarif Hartawan1. Moh. Erkamim2. Sitti Rachmawati Yahya3. Nirma Ceisa Santi4. Legito5. Sepriano6 Program Studi Sistem Informasi. Fakultas Teknik. Universitas Krisnadwipayana. Indonesia Program Studi Sistem Informasi Kota Cerdas. Universitas Tunas Pembangunan Surakarta. Indonesia Program Studi Sistem Informasi. Universitas Siber Asia. Jakarta. Indonesia Program Studi Sistem Informasi. Fakultas Sains dan Teknologi. Universitas Nahdlatul Ulama Sunan Giri. Indonesia Jurusan Teknik Informatika. Sekolah Tinggi Teknologi Sinar Husni Deliserdang Sumatera Utara. Indonesia Program Studi Sistem Informasi. Universitas Islam Negeri Sulthan Thaha Saifuddin Jambi. Indonesia E-Mail: 1muhammadsyarif@unkris. id, 2erkamim@lecture. id, 3sitti. rachma@gmail. nirmaceisa@unugiri. id, 5legitostt@gmail. com, 6sepriano@uinjambi. Received Mar 28th 2023. Revised Jul 3rd 2023. Accepted Aug 10th 2023 Corresponding Author: Muhammad Syarif Hartawan Abstract This research is intended to classify the beneficiaries of the Family Hope Program (PKH) Pekanbaru City by comparing three methods at once, namely K-Nearest Neighbor (KNN). Probalistic Neural Network (PNN) and Nave Bayes (NBC). (The attributes used in the classification process are the number of elementary school children, the number of junior high school children, the number of pregnant women, and the number of children under five years . , these attributes are based on the guidelines of the National Team for Poverty Reduction and Handling (TNP2K) Ministry of Social Affairs of the Republic of Indonesia. The classification process is carried out on very poor households (RTSM) as training data with a total of 450 data as testing data with a total of 10 data, so that by making comparisons the accuracy results vary between the three methods. The Nave Bayes (NBC) method has the highest accuracy results with 80% accuracy results, which are compared to the KNN 20% and PNN 10% methods, so the Nave Bayes (NBC) method is determined to be the best method for the case of classifying the family hope program (PKH) Pekanbaru City. Keyword: K-Nearest Neighbor. Naive Bayes Classifier. Probalistic Neural Network. Family Hope Program. Households Extremely Poor Households Abstrak Penelitian ini dimaksudkan untuk melakukan klasifikasi terhadap penerima bantuan Program Keluarga Harapan (PKH) Kota Pekanbaru dengan membandingkan tiga metode sekaligus yaitu K-Nearest Neighbor (KNN). Probalistic Neural Network (PNN) dan Naive Bayes Classifier (NBC). Atribut yang digunakan dalam proses klasifikasi adalah Jumlah Anak SD. Jumlah Anak SMP. Jumlah Ibu Hamil, dan Jumlah Anak dibawah lima tahun (Balit. , atribut ini berdasarkan panduan Tim Nasional Penangulangan dan Penanganan Kemiskinan (TNP2K) Kementrian Sosial Republik Indonesia. Proses klasifikasi dilakukan terhadap Rumah Tangga Sangat Miskin (RTSM) sebagai data training dengan jumlah 450 data sebagai data testing dengan jumlah 10 data, sehingga dengan melakukan perbandingan didapatlah hasil akurasi yang bervariasi diantara ke-tiga metode. Metode Nave Bayes (NBC) memiliki hasil akurasi yanng paling tinggi dengan hasil akurasi 80%, yang dibandingkan dengan metode KNN 20% dan PNN 10% maka Metode Nave Bayes(NBC) ditetapkan menjadi metode terbaik untuk kasus pengklasifikasian program keluarga harapan (PKH) Kota Pekanbaru. Kata Kunci: K-Nearest Neighbor. Naive Bayes Classifier. Probalistic Neural Network. Program Keluarga Harapan. Rumah Tangga Sangat Miskin DOI: https://doi. org/10. 57152/malcom. MALCOM-03. : 83-91 PENDAHULUAN Kemiskinan merupakan masalah global yang dihadapi negara di dunia termasuk Indonesia. Kemiskinan digambarkan dengan kondisi seseorang yang tidak dapat memenuhi kebutuhan pokoknya meliputi, sandang, pangan, dan papan . Kemiskinan telah membatasi hak rakyat untuk mendapatkan pendidikan yang layak, mendapatkan pekerjaan yang memadai, mengakses kesehatan yang terjamin, dan kemiskinan menjadi alasan rendahnya Indeks Pembangunan Manusia di Indonesia . Salah satu program pemerintah dalam penanganan masalah kemiskinan adalah melalui program berbasis rumah tangga yang disebut Program Keluarga Harapan (PKH) . PKH merupakan bantuan langsung tunai dengan sasaran Rumah Tangga sangat Miskin (RTSM) bertujuan untuk meningkatkan partisipasi pendidikan dan kesehatan bagi para RTSM . PKH merupakan program yang berada dibawah naungan kementrian sosial republik indonesia melalui Tim nasional penanganan dan penanggulangan kemiskinan (TNP2K) . dan akan dilaksanakan oleh unit pelaksana program keluarga harapan (UPPKH). Banyaknya data penduduk yang bervariatif maka digunakanlah klasifikasi. Adapun teknik yang sering digunakan pada klasifikasi adalah algoritma K-Nearest Neighbor (KNN). Algoritma KNN adalah suatu metode yang menggunakan algoritma supervised . Untuk menentukan jumlah bantuan PKH yaitu berdasarkan atribut jumlah anak SD, jumlah anak SMP, jumlah ibu hamil, dan jumlah balita . Penerimaan jumlah bantuan PKH terdiri dari beberapa macam yaitu Rp. RP. Rp. RP. 000, dan Rp. dari perbedaan jumlah bantuan yang diterima setiap RTSM dapat artikan bahwa ada 5 . tingkatan klasifikasi dalam pemberian bantuan PKH. Khusus Kota Pekanbaru. PKH berada dibawah naungan dinas sosial kota pekanbaru. PKH Pekanbaru di koordinasi oleh UPPKH Kota Pekanbaru dan telah dilaksanakan sejak tahun 2013 sampai sekarang . Dari tahun 2013 sebanyak 2546 data, 2014 sebanyak 2467 data, dan 2015 sebanyak 2382 data. Dengan adanya perbedaan penerimaan bantuan PKH, maka akan dilakukan klasifikasi berdasarkan komponen kesehatan, pendidikan, dan kesehatan pendidikan dengan 4 atribut yaitu jumlah anak SD, jumlah anak SMP, jumlah ibu hamil, dan jumlah anak balita. Pada penelitian sebelumnya telah dilakukan pengklasifikasi dengan metode yang berbeda yaitu metode Modified K-Nearest Neighbor (MKNN) maka menghasilkan akurasi dengan nilai 99,51%. Pengujian algoritma ini dilakukan menggunakan perhitungan confusion matriks yaitu membandingkan kelas label faktual dengan kelas label klasifikasi. Namun . pada penelitiannya membandingkan MKNN dengan KNN didapatkan hasil performance KNN lebih tinggi dibandingakan dengan MKNN. Kemudian pada penelitian . yaitu melakukan pengklasifikasian dengan membandingkan Nayve Bayes Classifier (NBC) dan Decision Tree, didapatkan hasil NBC lebih akurat dibandingkan dengan Decision tree dengan tingkat akurasi sebesar 93. Selanjutnya pada penelian lainnya dilakukan pengklasifikasian dengan menggunakan Algoritma Probabilistic Neural Network (PNN) didapatkan hasil bahwa kinerja dari PNN sangat baik dibandingkan dengan algoritma lain . Oleh karena itu pada penelitian ini dilakukanlah perbandingan dengan menggunakan tiga metode yang berbeda yaitu KNN. NBC dan PNN. Sehingga dapat menemukan tingkat akurasi yang paling tinggi diantara ketiga metode tersebut. Tujuan dari penelitian ini yaitu mencari algoritma yang paling tepat untuk dijadikan sebagai sistem prediksi pada kasus penentu tingakatan jumlah bantuan yang akan diterima penduduk. Algoritma yang memiliki nilai akurasi yang paling tinggi, maka ditetapkan sebagai metode yang paling efektif dan efisien untuk dikembangkan kedepannya dan menjadi rekomendasi dinas terkait. METODOLOGI Metode penelitian yang diterapkan dalam penelitian ini dapat dilihat pada Gambar 1. Secara umum penelitian utama dibagi menjadi 4 bagian utama, yaitu studi literatur dan pengumpulan data, pra proses dan pengolahan data, perbandingan algoritma dan pengambilan keputusan. Adapun algoritma yang digunakan dalam penelitian ini adalah membandingkan performa dari algoritma KNN. PNN dan NBC. Percaobaan akan dilakukan dengan menggunakan simulasi 10 percobaan untuk masing-masing algoritma, 10 percobaan ini menjadi dasar utama dalam proses klasifikasi. Jika dalam 10 percobaan tidaka ada respon efektif atau perubahan pada grafik, maka kan diterukan menjadi 20 percebaan, hingga seterusnya. Namun jika pada 10 percobaan terdapat nilai pembeda pada hasil klasifikasi maka percoban dihentikan. Data Mining Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan dan mechine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar . Data mining merupakan metode untuk mengekstraksi dan mengidentifikasi informasi pengetahuan potensial dari suatu informasi tersembunyi yang tersimpan di dalam database besar. Tujuan utama data mining adalah untuk menemukan, menggali dan atau menambang suatu informasi dan pengetahuan dari data yang dimiliki . Penerapan Algoritma Supervised Learning untuk Klasifikasi. (Hartawan et al, 2. ISSN(P): 2797-2313 | ISSN(E): 2775-8575 Mulai Pendahuluan Studi Literatur Pengumpulan Data Pengolahan Data Algoritma KNN Algoritma PNN Algoritma NBC Sistem Pendukung Keputusan Selesai Gambar 1. Metodologi Penelitian Algoritma K-Nearest Neighbor (KNN) KNN adalah salah satu algortima machine learning dengan pendekatan supervised yang bekerja dengan membuat kelas data baru menggunakan kemiripan antar data baru dengan sejumlah data . pada lokasi terdekat . KNN termasuk kelompok instance-based learning. Algoritma ini juga merupakan salah satu teknik lazy learning. KNN dilakukan dengan mencari kelompok k objek dalam data training yang paling dekat . dengan objek pada data baru atau data testing. Dekat atau jauhnya jarah suatu data dapat dihitung berdasarkan jarak Euclidian menggunakan Persamaan1 . ca, yc. = Ocycuycn=0. cUycn Oe ycUyc. Algoritma Probabilistic Neural Network (PNN) PNN dikembangkan oleh Donald F. Specht pada tahun 1988 yang merupakan salah satu metode klasifikasi jaringan syaraf tiruan . dan termasuk kedalam struktur metode feedforward . PNN didasarkan pada jaringan saraf radial. PNN menggunakan fungsi aktivasi yang berasal dari statistic sebagai pengganti fungsi aktivasi sigmoid . Hasil dari algoritma ini akan menghasilkan klasifikasi berdasarkan nilai yang terdapat pada summation layer dengan nilai terbesar yang dinyatakan pada Persamaan 2 . = yayco ycycnycoyca = ycy. > ycy. ycEyc . Model jaringan syaraf tiruan probabilistik yang dibuat oleh Cain memperbolehkan setiap kelas memiliki parameter penghalus. Ek, yang berbeda satu dengan yang lain dan menerapkan algoritma belajar yang baru untuk memperoleh Ek secara otomatis. Apabila tiap kelas memiliki parameter yang memiliki fungsi peluang dapat ditulis pada persmaan 3. = Oc exp [O. cu Oe ycycn |. yua yco. yuU)yco yua yc. 2 yco ycyycnOOyayco Algoritma Nayve Bayes Classification (NBC) NBC adalah pengklasifikasian statistic yang dapat digunakan untuk memprediksi probabilistic keanggotaan suatu class . NBC didasarkan pada teorema Bayes yang memiliki kemampuan klasifikasi serupa dengan Decision Tree dan Neural Network. NBC terbukti memiliki akurasi dan kecepatan yang tinggi saat diaplikasikan ke dalam Database dengan data yang besar. NBC merupakan metode pengklasifikasian probabilistic sederhana yang menghitung sekumpulan probabilitas dengan menjumlahkan frekuensi dan variasi nilai dari dataset yang diberikan . Teorema bayes dapat menggunakan Persamaan 4 . MALCOM - Vol. 3 Iss. 2 October 2023, pp: 83-91 MALCOM-03. : 83-91 aycn ) = ycE. cU . aycn )ycE. aycn ) . cU) ycE. aycn ) = Oaycuyco=1 ycE . aycn ) . HASIL DAN PEMBAHASAN Mendefinisikan Kriteria Sesuai dengan metodologi penelitian pada pembahasan sebelumnya, beberapa hal penting yang akan dilakukan dalam menyalesaikan penelitian ini terdiri atas pengumpulan data, pra proses dan pengolahan data, perbandingan algoritma dan merancang Sistem Pendukung Keputusan (SPK). Dataset yang digunakan bersumber dari UPPKH, berdasarkan penetapan kelas UPPKH dapat dilihat pada Tabel 1. Tabel 1. Kelas Berdasarkan UPPKH 2013 Nominal Bantuan Bantuan Tetap Komponen Anak SD Anak SMP Bumil/ Nifas/ Balita Keterangan bila 1 anak SD bila ada bumil/nifas/balita bila ada 2 anak SD bila ada 1 anak SMP bila ada bumil/nifas/balita dan 1 anak SD bila 1 anak SD dan 1 Anak SMP bila 3 anak SD bila ada bumil/nifas/balita dan 1 anak SMP bila 2 anak SD dan 1 anak SMP bila ada bumil/nifas/balita dan 2 anak SD bila ada 2 anak SMP bila ada bumil/nifas/balita dan 1 anak SD dan 1 anak SMP bila ada bumil/nifas/balita dan 3 anak SD bila ada 3 anak SD dan 1 anak SMP bila 1 anak SD dan 2 anak SMP Pembersihan data dilakukan untuk mengurangi efek noise pada saat proses perhitungan dan menghilangkan atribut yang tidak digunakan. Dan selanjutnya proses normalisasi data. Hasil detail Normalisasi data dapat dilihat pada tabel 2. Untuk data training dan data testing untuk percobaan pada ketiga algoritma yang digunakan ditunjukkan pada tabel 3 dan tabel 4. Tabel 2. Normalisasi Data JML_ANAK_SD JML_ANAK_SMP JML_BUMIL JML_BALITA 0,25 0,25 0,25 0,25 0,25 0,25 Tabel 3. Data Training NO_DATA IG-1 IG-2 IG-3 IG-4 IG-5 IG-6 IG-7 JML_ANAK_SD JML_ANAK_SMP JML_BUMIL JML_BALITA Penerapan Algoritma Supervised Learning untuk Klasifikasi. (Hartawan et al, 2. TAHUN KELAS ISSN(P): 2797-2313 | ISSN(E): 2775-8575 NO_DATA IG-8 IG-9 IG-1294 JML_ANAK_SD JML_ANAK_SMP JML_BUMIL JML_BALITA TAHUN KELAS 10 dari 1304 data awal digunakan sebagai data testing dinormalisasi menggunakan min-max training pada simulasi metode KNN normalization. Tabel 4. Data Testing NO_DATA IG-1295 IG-1296 IG-1297 IG-1298 IG-1299 IG-1300 IG-1301 IG-1302 IG-1303 IG-1304 JML_ANAK_SD JML_ANAK_SMP JML_BUMIL JML_BALITA TAHUN Tabel 3 dan tabel 4 merupakan simulasi preprocessing data sebelum dilakukan proses mining menggunakan algoritma KNN. PNN dan NBC. Preprocessing dilakukan dengan menggunakan bahasa pemrograman python. Percobaan dengan Metode KNN Percobaan dengan menggunakan algoritma KNN digunakan persamaan 1 sebagai penentuan nilai jarak antar satu data dengan data yang lain. Dari hasil proses klasifikasi diperoleh hasil klasifikasi yang ditunjukkan pada table 5. Tabel 5. Hasil Klasifikasi dengan KNN NO_DATA IG-1295 IG-1296 IG-1297 IG-1298 IG-1299 IG-1300 IG-1301 IG-1302 IG-1303 IG-1304 JML_ANAK_SD JML_ANAK_SMP JML_BUMIL JML_BALITA KELAS Dari 4 nilai jarak, data menunjukkan nilai peredikat sangat bervariasi, sehingga untuk nilai prediksi kalsifikasi data baru yang pertama. Dari hasil pengukuran dan evaluasi data dapat ditunjukkan bahwa akurasi yang dihasilkan algoritma KNN adalah 82,3% pada percobaan ke 4 dengan nilai akurasi detail pada 10 percobaan ditunjukkan pada gambar 2. Akurasi KNN KNN-1 KNN-2 KNN-3 KNN-4 KNN-5 KNN-6 KNN-7 KNN-8 KNN-9 KNN-10 Gambar 2. Hasil Percobaan Algoritma KNN MALCOM - Vol. 3 Iss. 2 October 2023, pp: 83-91 MALCOM-03. : 83-91 Percobaan dengan Metode PNN Percobaan algoritma PNN menggunakan beberapa skema atau prosedur yaitu Misalkan terdapat n kelas. C0,C1,C2, . Cn-1. diasumsikan pola yang diamati adalah variabel acak x dengan m-dimensi dan fungsi pada peluang bersyarat x, bila diketahui bahwa pola tersebut berasal dari kelas Ck, dinotasikan dengan ycE = . Dengan menerapkan aturan pertama dari metode jaringan syaraftiruan, dapat mengacu kepada Dengan mengacu pada prosedur dan persamaan tersebut dihasilkan klasifikasi yang dapat ditunjukkan pada tabel 6. Tabel 6. Hasil Klasifikasi dengan PNN NO_DATA IG-1295 IG-1296 IG-1297 IG-1298 IG-1299 IG-1300 IG-1301 IG-1302 IG-1303 IG-1304 JML_ANAK_SD JML_ANAK_SMP JML_BUMIL JML_BALITA KELAS Tabel 6 menunjukan hasil dari klasifikasi menggunakan algoritma PNN didapatlah hasil dari pengklasifikasian yang berbeda dari metode sebelumnya. Hasil dari 10 percobaan dengan PNN diperoleh akurasi terbaik adalah 89,7% pada percobaan ke 7 dan percobaan ke 8 dengan detail hasil percobaan ditunjukkan pada gambar 3. Akurasi PNN PNN-1 PNN-2 PNN-3 PNN-4 PNN-5 PNN-6 PNN-7 PNN-8 PNN-9 PNN-10 Gambar 3. Hasil Percobaan Algoritma KNN Percobaan dengan Metode NBC Percobaan dengan algoritma NBC dilakukan dengan mengacu kepada persamaan 4, dengan beberapa Setiap data dipresentasikan sebagai vector berdimensi-n yaitu ycU = . cu1, ycu2, ycu3. A , ycuycu ) , dimana n adalah gambaran dari ukuran yang dibuat ditest dari n atribut yaitu ya1 Oe ya2, ya3 A yaycu . m adalah kumpulan kategori yaitu ya1 , ya2 , ya3 A , yayco . Diberikan data test X yang tidak diketahui kategorinya, maka classifier akan memprediksi bahwa X adalah milik kategori dengan posterior probability tertinggi berdasarkan kondisi X. Oleh karena itu. NBC menandai bahwa test X yang tidak diketahui tadi ke kategori yaycn jika dan hanya jika: cU) > ycE. ycU)Untuk 1O j O m, j O 1 Kemudian memaksimalkan: ycE. cU). Class yaycn dari ycE. cU) yang dimaksimalkan biasa disebut dengan maximum posteriori hypothesis. Kondisi ini diformulasikan pada persamaan 4. Dari persamaan 4, ycE. cU) adalah konstan untuk semua kategori, hanya ycE. cU | yaycn ). aycn ) yang perlu Jika class prior probability tidak diketahui, maka akan diasumsikan sama dengang hasil dari kategori-kategori yang lain seperti ycE. a1 ) = ycE. a2 ) = U ycE. ayco ) dan oleh karena itu kita akan memaksimalkan ycE. aycn ), ycE. aycn ). Perlu dicatat bahwa class prior probability mungkin diperkirakan Penerapan Algoritma Supervised Learning untuk Klasifikasi. (Hartawan et al, 2. ISSN(P): 2797-2313 | ISSN(E): 2775-8575 dengan perhitungan ycE. aycn ) = ycycn dimana ycycn adalah jumlah dari data training s dari kategori yaycn dan s adalah jumlah total data training. Diberikan data dengan banyak atribut, ini akan menjadi komputasi yang kompleks untuk mengomputasi ycE. aycn ). Untuk mengurangi komputasi pada saat mengevaluasi ycE. aycn ), maka dapat dihitung menggunakan persamaan 5. Dari prosedur an proses yang dilakukan, maka didapatlah hasil klasifikasi mengguanakan algoritma NBC yang ditunjukkan pada table 7. Tabel 7. Hasil Klasifikasi dengan PNN NO_DATA IG-1295 IG-1296 IG-1297 IG-1298 IG-1299 IG-1300 IG-1301 IG-1302 IG-1303 IG-1304 JML_ANAK_SD JML_ANAK_SMP JML_BUMIL JML_BALITA KELAS Tabel 7 menunjukan hasil dari klasifikasi menggunakan algoritma NBC diperoleh hasil dari pengklasifikasian yang berbeda dari algoritma KNN dan PNN. Hasil dari 10 percobaan dengan NBC diperoleh akurasi terbaik adalah 93,2% pada percobaan ke 9 dengan detail hasil percobaan ditunjukkan pada Akurasi NBC NBC-1 NBC-2 NBC-3 NBC-4 NBC-5 NBC-6 NBC-7 NBC-8 NBC-9 NBC-10 Gambar 4. Hasil Percobaan Algoritma KNN Perbandingan Keakuratan Perbandingan keakuratan dari evaluasi algoerima KNN. PNN dan NBC mengacu kepada hasil akurasi tertingi, secara umum dapat dilihat pada gambar 5. Akurasi KNN PNN NBC Gambar 5. Perbandingan Tingkat Akurasi MALCOM - Vol. 3 Iss. 2 October 2023, pp: 83-91 MALCOM-03. : 83-91 Dari hasil pengklasifikasian menggunakan 3 algoritma dapat disimpulkan bahwa algoritma terbaik dari sisi akurasi adalah NBC dibandingkan metode KNN dan PNN untuk kasus klasifikasi PKH Kota Pekanbaru. Untuk selanjutnya pengambilan keputusan diambil berdasarkan hasil rekomendasi algoritma terbaik yaitu NBC dalam penentuan penerima bantuan. KESIMPULAN Berdasarkan hasil analisa dan pembahasan maka dapat ditarik kesimpulan bahwasannya pemilihan metode terbaik adalah yang mempunyai tingkat akurasi yang paling tinggi. Algoritma NBC memiliki hasil akurasi yang paling tinggi dengan presentase 93,2%, dibandingkan algoritma yang lain yaitu KNN dengan akurasi 82,3% dan algoritma PNN dengan akurasi 89,7%. Dengan demikian untuk kasus pengklasifikasian PKH kota Pekanbaru algoritma NBC merupakan algoritma yang paling tepat untuk dijadikan pemodelan dalam pengambilan keputusan. REFERENCES