JAMI: Jurnal Ahli Muda Indonesia Vol. 4 No. Received 5 Dec 2023, revision 15th Dec 2023, accepted 21st Dec 2023, published 31st Dec 2023 Ekstraksi Fitur dengan Color Histogram dan Classifier Random Forest pada Citra Kupu-Kupu Nadiyah Hidayati1. Mawadatul Maulidah 2 Program Studi Teknologi Komputer. Fakultas Teknik dan Informatika. Universitas Bina Sarana Informatika, e-mail : nadiyah. nyy@bsi. mwm@bsi. Penulis Korespondensi. Nadiyah Hidayati. Program Studi Teknologi Komputer. Fakultas Teknik dan Informatika. Universitas Bina Sarana Informatika, e-mail : nadiyah. nyy@bsi. A B S T R A K Objektif. Penelitian dalam pengolahan citra telah banyak berkembang di berbagai bidang, seperti kesehatan, pertanian, seni, dan biodiversitas. Salah satu area penelitian yang semakin berkembang adalah pengklasifikasian jenis kupu-kupu. Meskipun kupu-kupu dianggap bermanfaat bagi manusia, namun banyak spesiesnya di Indonesia mengalami penurunan populasi atau terancam punah. Dengan keberagaman jenis, corak, dan bentuk kupu-kupu, diperlukan suatu teknik untuk memfasilitasi pembelajaran yang lebih efisien. Penggunaan kupu-kupu sebagai dataset dipilih karena memiliki pola tekstur, warna, dan bentuk yang sangat Tujuan dari penelitian ini adalah mengklasifikasikan jenis kupu-kupu dengan menggabungkan hasil ekstraksi fitur dan metode klasifikasi. Material and Metode. Pada penelitian ini mengusulkan penggabungan dari tiga hasil ekstraksi fitur yaitu color histogram, haralick, dan hu-moments. Ekstraksi dilakukan terhadap 2400 citra kupu-kupu yang dibagi menjadi 2 kelas. Penggabungan dari ketiga hasil ekstraksi fitur tersebut selanjutnya dilakukan proses klasifikasi dengan menggunakan metode Random Forest (RF). Hasil. Pengujian yang telah dilakukan menunjukkan nilai akurasi sebesar 75% sedangkan nilai precision sebesar 78% dan recall sebesar 69%. Kesimpulan. Algoritma classification RF (Random Fores. mempunyai nilai akurasi tertinggi dibandingkan dengan algoritma classification yang lainnya. Sedangkan hasil ekstraksi fitur terbaik pada eksperimen ekstraksi fitur color histogram. Kata kunci : Kupu-kupu. Color Histogram. Random Forest A B S T R A C T Objective. Research in image processing has significantly advanced across various fields such as health, agriculture, art, and biodiversity. One burgeoning area of research is the classification of butterfly species. Despite butterflies being considered beneficial to humans, many species in Indonesia are experiencing a decline in population or are endangered. Given the diversity in types, patterns, and forms of butterflies, there is a need for a technique to facilitate more efficient learning. The use of butterflies as a dataset is chosen due to their diverse patterns of texture, color, and shape. The objective of this research is to classify butterfly species by combining feature extraction results and classification methods. Materials and Methods. In this research, a proposal is made to combine three feature extraction results, namely color histogram. Haralick, and Hu-moments. Extraction is performed on 2400 butterfly images divided into 2 classes. The combination of these three feature extraction results is then subjected to a classification process using the Random Forest (RF) method. Results. The conducted testing yielded an accuracy value of 75%, with a precision value of 78% and a recall value of 69%. Conclusion. The RF (Random Fores. classification algorithm has the highest accuracy value compared to other classification algorithms. Meanwhile, the best feature extraction results were in the color histogram feature extraction experiment. Keywords : Butterfly. Color Histogram. Random Forest 148 | Doi : 10. 46510/jami. 172 | ISSN 2722-4406 . /2722-4414. | https://journal. 149 | 10. 46510/jami. PENDAHULUAN Penelitian tentang pengolahan citra banyak digunakan diberbagai bidang. Penelitian berkembang pesat seiring dengan temuan penelitian dan penelitian yang masih dapat dikembangkan. Kupu-kupu merupakan serangga yang hampir mengalami kepunahan yang disebabkan oleh sejumlah faktor, mulai dari perubahan alamiah hingga intervensi manusia (Kusuma, 2. Dalam klasifikasi ilmiah, kupukupu tergolong dalam ordo Lepidoptera, yang artinya mereka memiliki sayap yang dilapisi sisik. Warna tubuh dan sayap kupu-kupu dipengaruhi oleh pigmen, struktur sisik, serta pencahayaan matahari. Perbedaan corak pada kupu-kupu menjadi penanda khas yang membedakan satu spesies dengan lainnya (Andrian et al. , 2. Dengan menggunakan gambar kupu-kupu, kita dapat mengidentifikasi jenis dan Hal ini memperoleh nilai penting dalam membantu mengenali peternak kupu-kupu, terutama dalam menetapkan status fauna yang dilindungi (Kusuma. Tidak hanya sebagai hewan yang dilindungi, kupu-kupu juga memberikan manfaat bagi manusia sebagai salah satu serangga yang berperan dalam ekosistem. Dengan banyaknya jenis kupu-kupu dalam berbagai bentuk, corak yang berbeda, dan keunikan diperlukan suatu teknik yang memfasilitasi pembelajaran dengan lebih Dataset yang digunakan kupu-kupu karena memiliki karakteristik pola tekstur yang istimewa, serta variasi warna dan bentuk yang beragam. Kupu-kupu dijadikan dataset karena mempunyai pola tekstur yang unik dan warna serta bentuk yang beragam. Kupu-kupu adalah serangga yang memiliki beragam pola warna dan Identifikasi spesies kupu-kupu secara manual membutuhkan keahlian yang tinggi dan waktu yang cukup lama. Penggunaan teknologi pemrosesan citra dan pembelajaran mesin dapat membantu dalam mengidentifikasi spesies kupu-kupu secara cepat dan akurat. Penelitian sebelumnya yang meneliti tentang spesies kupu-kupu telah banyak dilakukan, (Kartika et al. , 2. mengidentifikasi citra kupu-kupu dengan menerapkan teknik pengurangan warna dalam ruang warna HSV dan metode Local Binary Pattern untuk mengekstraksi fitur-fitur penting. Setelah menggabungkan informasi yang diperoleh dari ekstraksi fitur warna dan tekstur, citra-citra tersebut akan diklasifikasikan lebih lanjut. Hasil dari klasifikasi citra kupu-kupu mendaptakan akurasi sebesar 72%. (Tang et al. , 2. meneliti dengan deep learning untuk segmentasi kupu-kupu otomatis dalam gambar ekologis. Hasil eksperimental pada kumpulan dataset publik Leeds Butterfly menunjukkan bahwa metode yang diusulkan mengungguli pendekatan segmentasi gambar berbasis deep learning yang (Arzar et al. , 2. kupu-kupu menggunakan Convolutional Neural Network (CNN), tujuannya adalah untuk mengklasifikasikan citra kupu-kupu dengan menggunakan teknik CNN dan mengevaluasi performansi Dalam beberapa tahun terakhir, penggunaan citra digital telah menjadi salah satu pendekatan yang umum dalam pengamatan dan analisis hewan, termasuk kupukupu. Citra digital memungkinkan untuk ekstraksi fitur berdasarkan warna, tekstur, dan bentuk untuk keperluan analisis lebih lanjut. Color histogram adalah salah satu teknik yang umum digunakan dalam pengolahan citra untuk mengekstraksi informasi warna. Dalam konteks kupu-kupu, ekstraksi fitur menggunakan histogram 150 | 10. 46510/jami. warna dapat membantu menggambarkan distribusi intensitas warna pada citra Random Forest merupakan salah satu metode klasifikasi yang populer dalam pembelajaran mesin. Dalam konteks ini, digunakan untuk membangun model yang dapat mengenali pola warna yang spesifik pada kupu-kupu berdasarkan fitur-fitur yang diekstraksi dari citra, yang kemudian digunakan untuk mengklasifikasikan Kombinasi antara ekstraksi fitur dengan color histogram dan penggunaan Classifier Random Forest memiliki potensi untuk meningkatkan akurasi identifikasi spesies kupu-kupu. Pendekatan ini dapat memberikan hasil yang lebih baik dibandingkan dengan metode manual atau pendekatan lain yang bergantung pada fitur-fitur lain dalam citra. Pada paper ini, kami mengusulkan metoda ekstraksi fitur color histogram dan classifier random forest. Hasil eksperimen kami menunjukkan hasil peningkatan akurasi sebesar 75% dibandingkan dengan penelitian (Kartika et al. yang mendapatkan akurasi sebesar 72%. MATERIAL DAN METODE Dalam penelitian ini langkah yang dilakukan yaitu memasukkan citra kupu-kupu kemudian dilakukan ekstraksi fitur dengan color histogram, haralick dan hu-moments serta mengklasifikasikan citra kupu-kupu dengan algoritma random forest dan Alur penelitian atau langkah-langkah proses penelitian yang akan digunakan dalam penelitian ini dapat dilihat pada Gambar 1. Gambar 1. Alur Metode Penelitian Dataset Dataset yang digunakan pada penelitian ini yaitu dataset images butterfly yang merupakan data citra berwarna yang diperoleh dari Kaggle (Carremans, 2. Jumlah dari dataset citra kupu-kupu adalah 2400 citra dengan ukuran per image 75 x 75 pixel, yang terdiri dari 2 kelas yaitu maniola jurtina dan pyronia tithonus, dimana masing- masing kelas terdiri dari 1200 citra. Berikut ini adalah contoh citra dari masing-masing kelas. Gambar 2 merupakan contoh citra kupu-kupu dari kelas maniola jurtina. Gambar 3 merupakan contoh citra kupu-kupu dari kelas pyronia Gambar 2. Contoh Citra Kupu-kupu Kelas Maniola Jurtina 151 | 10. 46510/jami. Gambar 3. Contoh Citra Kupu-kupu Kelas Pyronia Tithonus Ekstraksi Fitur Color Histogram Color histogram adalah suatu metode esktraksi warna dengan menghitung nilai distribusi warna pada citra image yang diperoleh dengan menghitung jumlah pixel dari setiap bagian range warna tertentu (Paramata et al. , 2. Secara umum, histogram sering dinormalisasi dengan membagi setiap nilai derajat keabuan dengan jumlah total piksel dalam citra, yang diwakili oleh huruf n. Persamaannya dapat ditemukan di bawah ini: = ycuyco/ycua. dimana n adalah total jumlah pixel yang ada dalam citra, dan p. merupakan probabilitas munculnya tingkat keabuan rk dalam gambar. Ekstraksi Fitur Haralick Fitur Haralick memanfaatkan matriks co-occurrence untuk menyimpan informasi hasil perhitungan tekstur. Terdapat 14 fitur yang dapat digunakan untuk menggambarkan tekstur suatu citra menurut Haralick (Suryanto et al. , 2. Meskipun demikian, menurut Conners dan Harlow, lima fitur sudah cukup untuk mencapai hasil klasifikasi yang baik. Kelima fitur tersebut antara lain (Mulyawan et , 2. : energy, contrast, correlation, entropy, local homogeneity. Ekstraksi Fitur Hu-Moments Algoritma Hu-momens dipilih untuk mengekstrak fitur citra karena fitur yang dihasilkan berupa terjemahan skala rotasi. Momen Geometris GM berhasil diterapkan dalam identifikasi pesawat, klasifikasi tekstur, dan citra radar untuk pencocokan citra optik. Istilah dasar dalam konstruksi momen invarian memiliki dua langkah. Pertama, pertimbangkan gambar yang memiliki fungsi abu-abu f . , . memiliki penyangga terbatas dan integral bukan nol berhingga. Kedua, momen geometris mpq citra digital M x M sampel yang dapat dihitung menggunakan rumus dibawah (Al-Azzo et al. Klasifikasi Random Forest Random Forest adalah teknik klasifikasi yang mengembangkan pendekatan Decision Tree dengan menggunakan pemilihan atribut secara acak pada setiap simpul untuk menentukan klasifikasi. Dalam proses klasifikasinya. Random Forest mengandalkan suara terbanyak dari pohon keputusan yang dihasilkan (Ratnawati & Sulistyaningrum, 2. Random Forest merupakan suatu metode klasifikasi yang terdiri dari kumpulan pohon keputusan terstruktur, di mana vektor acak didistribusikan secara independen dan identik, dan setiap pohon keputusan memberikan suara untuk kelas yang paling umum pada masukan x. Kelebihan Random Forest meliputi akurasi yang baik, ketahanan relatif terhadap outliers dan noise, kecepatan yang lebih tinggi dibandingkan dengan Bagging dan Boosting, serta sederhana dan mudah diparalelkan. HASIL DAN PEMBAHASAN Proses klasifikasi dilakukan dengan data citra kupu-kupu berjumlah 2400 dengan 2 kelas berbeda yaitu kelas maniola jurtina dan pyronia tithonus. Setelah 152 | 10. 46510/jami. dilakukan pengujian terhadap beberapa algoritma classification didapatkan hasil akurasi sebagai berikut: Komparasi Algoritma Klasifikasi dengan Color Histogram. Haralick, dan Hu- Moments Pada percobaan pertama, dilakukan penggunaan ketiga metode ekstraksi fitur yang kemudian dikomparasikan dalam berbagai skema klasifikasi. Tujuan utamanya adalah untuk mengevaluasi kinerja dan efektivitas dari masing-masing metode ekstraksi fitur ini dalam mendukung proses klasifikasi objek dalam citra. Tabel 1. Hasil Komparasi Algoritma Klasifikasi dengan Ketiga Ekstraksi Fitur Metode Akurasi 1 Random Forest 2 Support Vektor Machine 3 Logistic Regression 4 Linear Discriminant Analysis 66% 5 Decision Tree 6 K-Nearest Neighbor 7 Nayve Bayes Berdasarkan Tabel 1. membuktikan bahwa dengan menggabungkan ekstraksi fitur dari Color Histogram. Haralick, dan Hu-Moments dan algoritma klasifikasi Random Forest menunjukkan tingkat akurasi tertinggi mencapai 75%, melebihi akurasi algoritma klasifikasi lainnya. Hasil Komparasi Metode Algoritma Klasifikasi K-NN CART LDA SVM Gambar 4. Diagram Chart Hasil Algoritma Komparasi Dari perbandingan yang dilakukan, terbukti bahwa algoritma klasifikasi Random Forest mencapai tingkat akurasi tertinggi sebesar 75%. Sedangkan algoritma klasifikasi lainnya memliki tingkat akurasi lebih rendah yaitu SVM sebesar 71%. LR sebesar 70%. LDA sebesar 66%. CART sebesar 65%. K-NN sebesar 64%, dan NB sebesar 60%. Hal tersebut menunjukkan bahwa kinerja Random Forest lebih baik dibanding dengan algortima klasifikasi SVM. LR. LDA. CART. K-NN, dan NB. 153 | 10. 46510/jami. Gambar 5. Box Plot Algoritma Classifier Berdasarkan Gambar 5. Hasil penelitian menunjukkan bahwa algoritma klasifikasi Random Forest menghasilkan tingkat akurasi 75%, unggul dibandingkan dengan berbagai algoritma klasifikasi lainnya. Komparasi Algoritma Klasifikasi dengan Color Histogram Pada percobaan kedua, dilakukan penggunaan ekstraksi fitur Color Histogram yang kemudian dikomparasikan dalam berbagai skema klasifikasi. Tujuannya adalah untuk menganalisis distribusi intensitas warna dalam citra. Penggunaan metode ini bertujuan untuk mengekstrak informasi penting tentang komposisi warna pada objek yang sedang diklasifikasikan. Tabel 2. Pengaruh Ekstraksi Fitur Color Histogram dengan Algoritma Classifier Metode Random Forest Support Vektor Machine Logistic Regression Linear Discriminant Analysis Decision Tree K-Nearest Neighbor Nayve Bayes Akurasi Berdasarkan Tabel 2. Hasil analisis menunjukkan bahwa pada proses ekstraksi fitur color histogram dan algoritma klasifikasi Random Forest berhasil mencapai tingkat akurasi tertinggi sebesar 75%, mengungguli performa algoritma klasifikasi Komparasi Algoritma Klasifikasi dengan Haralick Pada percobaan ketiga, dilakukan penggunaan ekstraksi fitur Haralick yang kemudian dikomparasikan dalam berbagai skema klasifikasi. Tujuannya adalah untuk mengevaluasi kinerja serta efektivitas dari metode ekstraksi fitur Haralick dalam mendukung proses klasifikasi objek dalam citra. 154 | 10. 46510/jami. Tabel 3. Pengaruh Ekstraksi Fitur Haralick dengan Algoritma Classifier Metode Akurasi Logistic Regression 57,9% Linear Discriminant Analysis 57,8% Support Vektor Machine 57,6% Random Forest Nayve Bayes K-Nearest Neighbor 54,8% Decisoin Tree Berdasarkan Tabel 3. Hasil penelitian menunjukkan bahwa dalam menggunakan fitur tekstur Haralick, algoritma klasifikasi Logistic Regression berhasil mencapai tingkat akurasi tertinggi sebesar 57,9%, mengungguli performa algoritma klasifikasi lainnya yang diujikan. Komparasi Algoritma Klasifikasi dengan Hu-Moments Pada percobaan keempat, dilakukan penggunaan ekstraksi fitur Hu-Moments yang kemudian dianalisis melalui berbagai skema klasifikasi. Tujuannya adalah untuk mengevaluasi kinerja serta efektivitas dari metode ekstraksi fitur Hu-Moments dalam mendukung proses klasifikasi objek dalam citra. Tabel 4. Pengaruh Ekstraksi Fitur Hu-moments dengan Algoritma Classifier Metode Akurasi 1 K-Nearest Neighbor 2 Linear Discriminant Analysis 56,7% 3 Random Forest 56,6% 4 Logistic Regression 5 Decisoin Tree 6 Support Vektor Machine 7 Nayve Bayes Berdasarkan Tabel 4. Hasil analisis menunjukkan bahwa dalam menggunakan fitur bentuk Hu-Moments, algoritma klasifikasi K-Nearest Neighbor berhasil Komparasi Pengaruh Ekstraksi Fitur dengan Algoritma Klasifikasi Color Histogram Haralick Hu-moment SVM LDA CART K-NN 155 | 10. 46510/jami. mencapai tingkat akurasi terbaik sebesar 57%, mengungguli performa algoritma klasifikasi lain yang telah diujikan. Gambar 6. Diagram Chart Pengaruh Ekstraksi Fitur dengan Algoritma Klasifikasi Berdasarkan Gambar 6. Hasil evaluasi menunjukkan bahwa algoritma Random Forest pada ekstraksi fitur color histogram mencapai akurasi tertinggi sebesar 75%. Sementara itu, pada ekstraksi fitur tekstur Haralick, algoritma Logistic Regression menunjukkan tingkat akurasi terbaik yaitu 57,9%. Di sisi lain, pada fitur bentuk HuMoment, algoritma K-Nearest Neighbor mencapai tingkat akurasi tertinggi sebesar Berikut adalah tabel yang memperlihatkan Confusion Matrix dari model yang memiliki performa terbaik pada Ekstraksi Fitur Color Histogram dengan Algoritma Random Forest. Tabel 5. Confusion Matrix pada Ekstraksi Fitur Color Histogram Algoritma Random Forest Actual Predicted Maniola Jurtina Predicted Pyronia Tithonus Actual Maniola Jurtina Pyronia Tithonus Berdarsarkan Tabel 5. dapat disimpulkan bahwa: True Positive (TP) Situasi di mana prediksi yang dilakukan benar. Sebanyak 245 citra kupu-kupu terklasifikasi sebagai spesies maniola jurtina dan memang benar-benar termasuk dalam spesies maniola jurtina. True Negative (TN) Keadaan di mana prediksi yang dilakukan juga tepat. Sejumlah 271 citra kupukupu terklasifikasi sebagai spesies pyronia tithonus dan memang sebenarnya termasuk dalam spesies pyronia tithonus. False Postive (FP) Kondisi di mana prediksi salah. Sebanyak 110 citra kupu-kupu yang sebenarnya termasuk dalam spesies pyronia tithonus, namun keliru terklasifikasi sebagai spesies maniola jurtina. False Negative (FN) Situasi di mana prediksi juga salah. Sebanyak 87 citra kupu-kupu yang seharusnya termasuk dalam spesies maniola jurtina, tetapi keliru terklasifikasi sebagai spesies pyronia tithonus. 156 | 10. 46510/jami. KESIMPULAN Setelah dilakukan pengujian terhadap beberapa algoritma classification, maka dapat diketahui bahwa algoritma classification RF (Random Fores. mempunyai nilai akurasi tertinggi dibandingkan dengan algoritma classification yang lainnya yaitu sebesar 75%. Dan mempunyai nilai kappa statistic sebesar 0. 466 precision 0. 688 serta nilai recall 0. Sedangkan hasil ekstraksi fitur terbaik pada eksperimen ekstraksi fitur color histogram. Penelitian ini memiliki potensi untuk dikembangkan lebih lanjut dengan fokus pada peningkatan kinerja model klasifikasi dan eksplorasi yang lebih mendalam terkait ekstraksi fitur dalam analisis citra. Hal ini dapat memperluas pemahaman dan pengetahuan dalam bidang ini. DAFTAR PUSTAKA