Terakreditasi SINTA Peringkat 2 Surat Keputusan Dirjen Penguatan Riset dan Pengembangan Ristek Dikti No. 10/E/KPT/2019 masa berlaku mulai Vol. 1 No. 1 tahun 2017 s. d Vol. 5 No. 3 tahun 2021 Terbit online pada laman web jurnal: http://jurnal. JURNAL RESTI (Rekayasa Sistem dan Teknologi Informas. Vol. 4 No. 117 - 122 ISSN Media Elektronik: 2580-0760 Analisis Pengaruh Data Scaling Terhadap Performa Algoritme Machine Learning untuk Identifikasi Tanaman Agus Ambarwari1. Qadhli Jafar Adrian2. Yeni Herdiyeni3 Program Studi Informatika. Universitas Teknokrat Indonesia. Bandar Lampung Program Studi Sistem Informasi. Universitas Teknokrat Indonesia. Bandar Lampung Program Studi Ilmu Komputer. Institut Pertanian Bogor. Bogor ambarwariagus@teknokrat. id, 2qadhliadrian@teknokrat. id, 3yeni. herdiyeni@ipb. Abstract Data scaling has an important role in preprocessing data that has an impact on the performance of machine learning This study aims to analyze the effect of min-max normalization techniques and standardization . ero-mean normalizatio. on the performance of machine learning algorithms. The stages carried out in this study included data normalization on the data of leaf venation features. The results of the normalized dataset, then tested to four machine learning algorithms include KNN. Nayve Bayesian. ANN. SVM with RBF kernels and linear kernels. The analysis was carried out on the results of model evaluations using 10-fold cross-validation, and validation using test data. The results obtained show that Nayve Bayesian has the most stable performance against the use of min-max normalization techniques as well as The KNN algorithm is quite stable compared to SVM and ANN. However, the combination of the min-max normalization technique with SVM that uses the RBF kernel can provide the best performance results. On the other hand. SVM with a linear kernel, the best performance is obtained when applying standardization techniques . ero-mean While the ANN algorithm, it is necessary to do a number of trials to find out the best data normalization techniques that match the algorithm. Keywords: min-max normalization, standardization, zero-mean normalization, machine learning algorithms. Abstrak Data scaling memiliki peran penting dalam praproses data yang berdampak pada kinerja dari algoritme machine learning. Penelitian ini bertujuan menganalisis pengaruh teknik normalisasi min-max dan standarisasi . ormalisasi zero-mea. terhadap performa algoritme machine learning. Tahapan yang dilakukan dalam penelitian ini diantaranya pada dataset fitur venasi daun dilakukan normalisasi data. Hasil dari dataset yang telah dinormalisasi, kemudian diujikan ke empat algoritme machine learning antara lain KNN. Nayve Bayesian. ANN. SVM dengan kernel RBF dan kernel linear. Analisis dilakukan pada hasil evaluasi model menggunakan 10-fold cross validation, dan validasi menggunakan data uji. Hasil yang diperoleh menunjukkan bahwa Nayve Bayesian memiliki performa paling stabil terhadap penggunaan teknik normalisasi min-mix maupun standarisasi. Untuk algoritme KNN cukup stabil dibandingkan dengan SVM dan ANN. Namun, kombinasi antara teknik normalisasi min-max dengan SVM yang menggunakan kernel RBF dapat memberikan hasil performa terbaik. Disisi lain. SVM dengan kernel linear, performa terbaik diperoleh ketika menerapkan teknik standarisasi . ormalisasi zero-mea. Sedangkan algoritme ANN, perlu dilakukan beberapa kali ujicoba untuk mengetahui teknik normalisasi data terbaik yang sesuai dengan algoritme tersebut. Kata kunci: normalisasi min-max, standarisasi, normalisasi zero-mean, algoritme machine learning. A 2020 Jurnal RESTI Penggunaan perangkat portabel . dan telepon genggam . untuk identifikasi tanaman biasanya Perkembangan computer vision dan machine learning dengan mengambil gambar daun dari tanaman. Fitur untuk identifikasi . membawa perubahan besar di daun yang dapat digunakan untuk identifikasi tanaman bidang pertanian . dan botani . , salah satunya diantaranya bentuk . , tekstur . , warna . , dalam identifikasi spesies tanaman secara otomatis . Pendahuluan Diterima Redaksi : 20-12-2019 | Selesai Revisi : 21-01-2020 | Diterbitkan Online : 09-01-2020 Agus Ambarwari. Qadhli Jafar Adrian. Yeni Herdiyeni Jurnal RESTI (Rekayasa Sistem dan Teknologi Informas. Vol . 4 No. 117 Ae 122 dan tulang daun atau venasi daun . Dalam satu jenis . ero-mea. untuk menguji performa 4 algoritme fitur tersebut memiliki beberapa unit satuan yang machine learning, yaitu k-nearest neighbor (KNN), berbeda, sehingga perlu dilakukan praproses data. Naive Bayesian, artificial neural networks (ANN), dan support vector machine (SVM). Pemilihan algoritme Praproses data merupakan salah satu tahap dalam ini didasarkan pada banyaknya penelitian yang machine learning. Algoritme machine learning belajar menggunakan algoritme tersebut untuk identifikasi dari data, sehingga penting menyiapkan data secara tepat untuk menyelesaikan suatu masalah. Masalahnya, data biasanya tidak tersedia dalam bentuk siap Metode Penelitian Selain itu, algoritme yang berbeda mungkin memerlukan transformasi data yang berbeda. Meski Tahapan dalam penelitian ini antara lain: . akuisisi memiliki data yang baik, perlu dipastikan lagi bahwa data fitur venasi daun. data scaling . ormalisasi dan data tersebut ada dalam skala yang sama. Teknik standarisas. analisis hasil. normalisasi atau data scaling memiliki peran penting Detail tahapan penelitian dijelaskan pada sub-bab ini. dalam praproses data . dan biasanya digunakan Data Fitur Venasi Daun untuk menyamakan skala data agar bernilai antara 0 Penggunaan metode data scaling yang tepat Data yang digunakan dalam penelitian ini adalah data dapat mengoptimalkan kinerja dari algoritme machine hasil ekstraksi fitur venasi daun dari dataset Flavia . , learning . diambil sampel 6 spesies dengan jumlah daun pada Kombinasi antara teknik normalisasi data dengan setiap spesiesnya 50. Fitur venasi daun terdiri dari 19 algoritme machine learning dapat dipastikan memiliki fitur, antara lain mean, variance, standard deviation . f straightness, different angle, length ratio, scale pengaruh terhadap performa yang dihasilkan. Li dan projection, and lengt. , total skeleton, end point. Liu . dalam penelitiannya menyatakan, bahwa branch point, dan segment. Data fitur venasi daun normalisasi min-max memiliki performa yang bagus tersebut diperoleh dengan mengikuti tahapan penelitian dalam hal kecepatan, akurasi, dan kuantitas support vector pada SVM. Disisi lain. Tang dan Sutskever Ambarwari et al. , ilustrasi ditunjukkan pada . menyatakan pada banyak algoritme machine Gambar 1. learning langkah standar sebelum pelatihan adalah menghapus rata-rata dari data, yang dikenal dengan zero-mean atau standarisasi. C Straightness C Diff. Angle C Length Ratio C Scale Projection C Skeleton length C Segment C A Berkaitan dengan identifikasi tanaman menggunakan fitur daun, berbagai jenis algoritme machine learning telah diterapkan. Munisa et al. menggunakan KNN untuk mengidentifikasi tanaman berdasarkan fitur bentuk dan histogram warna daun. Pada penelitiannya Deteksi vein Ekstraksi fitur menerapkan normalisasi antara 0 sampai 1, dan akurasi Data citra daun Segmentasi tertinggi yang diperoleh sebesar 87. Padao dan Gambar 1. Tahapan ekstraksi fitur venasi daun Maravillas . , menerapkan Nayve Bayesian untuk mengklasifikasikan tanaman berdasarkan fitur bentuk Data Scaling dan tekstur daun. Berdasarkan kurva ROC, akurasi yang diperoleh tinggi yaitu 0. Singh dan Bhamrah Data scaling atau normalisasi data merupakan teknik . , menerapkan ANN untuk identifikasi tanaman mengubah nilai numerik dalam dataset ke skala umum, berdasarkan fitur bentuk daun. Akurasi yang diperoleh tanpa mendistorsi perbedaan dalam rentang nilai. Penelitian lain oleh Ambarwari et al. Normalisasi data akan membantu mempercepat proses . yang mengidentifikasi tanaman berdasarkan tipe pembelajaran pada machine learning . Pada data venasi daun menggunakan SVM. Pada penelitiannya hasil ekstraksi fitur venasi daun selanjutnya dilakukan diterapkan normalisasi min-max dan akurasi yang normalisasi data. dihasilkan adalah 77. Normalisasi Min-Max Penelitian ini bertujuan untuk menganalisis performa Normalisasi min-max mengubah ukuran data dari algoritme machine learning terhadap teknik data rentang asli, sehingga semua nilai berada dalam kisaran scaling dalam mengidentifikasi spesies tanaman 0 dan 1. Persamaannya dapat dilihat pada persamaan berdasarkan fitur venasi daun. Selanjutnya, penentuan . penggunaan teknik data scaling dapat dengan tepat diterapkan pada algoritme machine learning yang akan . Pada penelitian ini, digunakan dataset hasil ekstraksi fitur venasi daun yang masing-masing diterapkan teknik normalisasi min-max dan standarisasi Jurnal RESTI (Rekayasa Sistem dan Teknologi Informas. Vol . 4 No. 117 Ae 122 Agus Ambarwari. Qadhli Jafar Adrian. Yeni Herdiyeni Jurnal RESTI (Rekayasa Sistem dan Teknologi Informas. Vol . 4 No. 117 Ae 122 . Standarisasi (Zero-Mea. Hasil dan Pembahasan Metode normalisasi Zero-Mean didasarkan pada mean Pada machine learning, setiap dataset tidak selalu dan standar deviasi. Standarisasi suatu dataset memerlukan normalisasi. Normalsasi diperlukan hanya melibatkan pengubahan skala distribusi nilai, sehingga ketika fitur memiliki rentang yang berbeda nilai rata-rata . yang diamati adalah 0 dan standar sebagaimana pada dataset fitur venasi daun. Dataset deviasi adalah 1. Standar deviasi dihitung fitur venasi daun yang digunakan memiliki skala yang menggunakan persamaan . berbeda untuk setiap fitur-fiturnya. Mulai dari kisaran 0 sampai puluhan ribu. Visualisasi empat fitur dari dataset fitur venasi daun sebelum dilakukan normalisasi data ditunjukkan pada Gambar 3. Oo Oc( xmean adalah rata-rata dari data. Normalisasi dapat dihitung dengan persamaan . Klasifikasi Beberapa tahapan dalam melakukan pengujian terhadap dataset yang telah dilakukan normalisasi ditunjukkan pada Gambar 2. Pembagian Data latih Data uji Evaluasi Model Validasi Gambar 3. Visualisasi dataset sebelum dilakukan normalisasi data Gambar 3 menunjukkan perbedaan skala yang besar antara fitur mean of straighness dengan fitur total Pada dataset hasil normalisasi dilakukan pembagian skeleton. Perbedaan skala yang besar ini dapat data, dengan komposisi 75% data latih dan 25% data meningkatkan komputasi yang dilakukan oleh Dari data latih kemudian dilakukan evaluasi model algoritme machine learning. Sehingga untuk menggunakan k-fold cross validation dengan k=10. mengoptimalkan kinerja dari algoritme machine Evaluai model dilakukan dengan tujuan mengukur learning perlu dilakukan normalisasi data apabila akurasi dari model pada saat pelatihan. Tahap perbedaan skala pada data cukup besar. berikutnya dilakukan pelatihan pada data latih. Hasil normalisasi min-max pada dataset fitur venasi sehingga didapatkan model pembelajaran. Dari model daun ditunjukkan pada Gambar 4. Normalisasi min-max yang telah dibuat, dilakukan validasi menggunakan mengubah data kedalam interval 0 sampai dengan 1. data uji. Hasil pada evaluasi model dan validasi inilah yang digunakan untuk menganalisis performa dari Berbeda dengan normalisasi min-max, pada normalisasi zero-mean atau standarisasi, pengubahan skala algoritme machine learning. dilakukan dengan mengubah nilai rata-rata . Dari Gambar 2 pada tahap evaluasi model dan menjadi 0 dan standar diviasi menjadi 1. Sehingga pembuatan model pembelajaran digunakan 4 classifier, skala dari setiap fitur masih berbeda . idak dalam antara lain KNN. Nayve Bayesian. ANN, dan SVM. interval yang sam. Visualisasi dataset fitur venasi Ujicoba dilakukan dengan menggunakan bahasa daun hasil standarisasi ditunjukkan pada Gambar 5. pemrograman Python 3. Adapun algoritme machine learning diadopsi dari pustaka scikit-learn . Berdasarkan Gambar 3. Gambar 4, dan Gambar 5. Konfigurasi yang dilakukan pada masing-masing dapat dilihat bahwa pola data tidak ada yang berubah. algoritme machine learning antara lain, pada KNN. Perubahan terlihat hanya pada skala setiap fiturnya. nilai neighbors yang digunakan adalah k=3. Nayve Dataset fitur venasi daun hasil normalisasi . in-max Bayesian konfigurasi secara default. pada ANN, jumlah dan standarisas. digunakan untuk menguji performa hidden layer=10, solver=AolbfgsAo, activaction=AoreluAo. pada 4 algoritme machine learning (KNN. Nayve sedangkan pada SVM digunakan 2 kernel yaitu linear Bayesian. ANN, dan SVM). Pada data latih sebanyak dan RBF, nilai C dan gamma yang digunakan pada 75% . dilakukan evaluasi model dengan kernel RBF masing-masing adalah 1000 dan 0. Gambar 2. Tahapan ujicoba classifier Jurnal RESTI (Rekayasa Sistem dan Teknologi Informas. Vol . 4 No. 117 Ae 122 Agus Ambarwari. Qadhli Jafar Adrian. Yeni Herdiyeni Jurnal RESTI (Rekayasa Sistem dan Teknologi Informas. Vol . 4 No. 117 Ae 122 menerapkan 10-fold cross validation. Hasil evaluasi Pada dataset fitur venasi daun hasil normalisasi minmodel pada algoritme machine learning yang max diperoleh rata-rata akurasi tertinggi adalah SVM menggunakan dataset fitur venasi daun hasil dengan kernel RBF, yaitu 77. Disusul berikutnya normalisasi min-max ditunjukkan pada Gambar 6. ANN: 76. SVM kernel linear: 70. Nayve Bayesian: 67. 45%, dan akurasi terendah KNN sebesar Sedangkan hasil evaluasi model dengan menggunakan dataset fitur venasi daun hasil standarisasi . ormalisasi zero-mea. ditunjukkan pada Gambar 7. Gambar 4. Visualisasi dataset setelah dilakukan normalisasi min-max Gambar 7. Evaluasi model menggunakan dataset hasil standarisasi . ero-mea. Pada dataset fitur venasi daun hasil standarisasi . ormalisasi zero-mea. diperoleh rata-rata akurasi tertinggi sebesar 78. 22% dengan algoritme ANN sebagai classifier. Berikutnya SVM kernel linear: SVM kernel RBF: 74. Nayve Bayesian: 45%, dan akurasi terendah KNN sebesar 66. Gambar 5. Visualisasi dataset setelah dilakukan standarisasi Berdasarkan hasil kedua evaluasi model menggunakan dataset fitur venasi daun hasil normalisasi min-max dan standarisasi . ero-mea. , menunjukkan bahwa KNN dan Nayve Bayesian tidak terlalu terpengaruh terhadap normalisasi data. Pengaruh penggunaan normalisasi data terlihat pada SVM kernel linear dan SVM kernel RBF. Pada SVM kernel RBF akurasi tinggi ketika menggunakan dataset normalisasi min-max. Sebaliknya pada SVM kernel linear akurasi tertinggi saat dataset dilakukan standarisasi . ero-mea. Sedangkan ANN selisih akurasi saat menggunakan kedua dataset hasil normalisasi data tidak terlalu signifikan. Hasil ujicoba kedua yaitu menggunakan data validasi . ata uj. sebanyak 25% . Data latih 75% . digunakan untuk pembelajaran pada 4 algoritme machine learning, selanjutnya dilakukan validasi menggunakan data uji. Hasil validasi pada dataset fitur venasi daun hasil normalisasi min-max ditunjukkan pada Tabel 1. Gambar 6. Evaluasi model menggunakan dataset hasil normalisasi min-max Berdasarkan Tabel 1, performa terbaik berdasarkan akurasi, rata-rata presisi, dan rata-rata recall adalah SVM dengan kernel RBF. Sebagaimana dinyatakan pada penelitian Li dan Liu . , penerapan normalisasi min-max pada data yang akan diuji Jurnal RESTI (Rekayasa Sistem dan Teknologi Informas. Vol . 4 No. 117 Ae 122 Agus Ambarwari. Qadhli Jafar Adrian. Yeni Herdiyeni Jurnal RESTI (Rekayasa Sistem dan Teknologi Informas. Vol . 4 No. 117 Ae 122 menggunakan SVM kernel RBF memberikan performa menerapkan kernel linear, performa terbaik diperoleh yang bagus dalam hal kecepatan dan akurasi . ketika dataset dinormalisasi menggunakan teknik Selain SVM. ANN juga memberikan hasil yang bagus standarisasi . ero-mea. Sedangkan ANN, perlu dengan rata-rata seluruhnya lebih dari 81%. dilakukan beberapa kali ujicoba untuk mengetahui teknik normalisasi data terbaik yang sesuai dengan Tabel 1. Perbandingan Algoritme Menggunakan algoritme tersebut. Normalisasi Min-Max Accuracy (%) Rata-rata Precision (%) Rata-rata Recall (%) Adapun saran dari penelitian ini, penggunaan teknik normalisasi memang memiliki pengaruh yang besar terhadap algoritme machine learning. Sebaiknya tetap lakukan pengujian dengan sampel data yang bervariasi, karena jumlah data juga memiliki kontribusi dalam menghasilkan performa terbaik algoritme machine Berikutnya hasil validasi pada dataset fitur venasi daun learning. hasil standarisasi . ero-mea. ditunjukkan pada Tabel Ucapan Terimakasih