Prosiding Seminar Nasional KARSA NUSANTARA Kolaborasi Rekayasa dan Sains Nasional untuk Teknologi.
Riset, dan Kecerdasan Buatan Fakultas Teknik.
Universitas Wijaya Kusuma Surabaya ISSN 3090-1154 (Media Onlin.
Volume 2.
Tahun 2025 Perbandingan Efektivitas Metode K-Nearest Neighbor dan Naive Bayes dalam Data Pengamatan Kesehatan Tanaman Nur Aizah*1.
Ahmad Homaidi2.
Lukman Fakih Lidimilah3 1,2,3 Universitas Ibrahimy Situbondo Email: 1aizaheshal39@gmail.
com, 2ahmadhomaidi@ibrahimy.
id , 3lukmanfakihlidimilah@ibrahimy.
*Penulis Korespondensi Abstrak Tujuan dari penelitian ini yakni untuk membandingkan efektivitas dua metode klasifikasi.
K-Nearest Neighbor (K-NN) dan Nayve Bayes, dalam memantau kesehatan tanaman berdasarkan data lingkungan seperti suhu, kelembapan, intensitas cahaya, dan kandungan unsur hara lainnya.
Kesehatan tanaman merupakan kondisi fisik dan fisiologis yang mencerminkan kemampuan tanaman untuk tumbuh dan berkembang secara optimal, yang dipengaruhi oleh faktor biotik dan abiotik serta interaksi dengan mikroorganisme di sekitar rizosfer.
Ketidakseimbangan unsur hara, stres lingkungan, dan keterbatasan sistem pemantauan tradisional yang bersifat subjektif sering menyebabkan kerugian ekonomi dan mengancam ketahanan pangan akibat tidak adanya pengetahuan mengenai gejala stress tanaman sehingga terjadilah kesalahan penanganan.
Penelitian ini menggunakan metode CRISP-DM untuk memfasilitasi proses analisis data secara terstruktur, mulai dari identifikasi kebutuhan hingga implementasi hasil.
Data yang digunakan pada penelitian ini merupakan data sekunder yang diperoleh dari studi pustaka dan repository online platform Kaggle.
Data yang dikumpulkan dianalisis menggunakan teknik deskriptif kuantitatif untuk menilai kinerja masing-masing Hasil penelitian menunjukkan bahwa Nayve Bayes mencapai akurasi lebih tinggi sebesar 76,25%, sementara K-NN menunjukkan akurasi sebesar 52,92%.
Hasil ini menunjukkan bahwa metode Nayve Bayes dengan pendekatan berbasis probabilistik lebih efektif dalam memantau kesehatan tanaman dan dapat digunakan sebagai solusi dalam pengelolaan pertanian berbasis teknologi.
Penelitian ini diharapkan dapat mendukung pengambilan keputusan yang lebih tepat dan meningkatkan produktivitas di bidang pertanian.
Kata kunci: Klasifikasi.
K-Nearest Neighbor.
Nayve Bayes.
Kesehatan Tanaman.
CRISP-DM.
Abstract The purpose of this study is to compare the effectiveness of two classification methods.
K-Nearest Neighbor (K-NN) and Nayve Bayes, in monitoring plant health based on environmental data such as temperature, humidity, light intensity, and other nutrient content.
Plant health is a physical and physiological condition that reflects the ability of plants to grow and develop optimally, which is influenced by biotic and abiotic factors and interactions with microorganisms around the rhizosphere.
Nutrient imbalances, environmental stress, and the limitations of traditional subjective monitoring systems often cause economic losses and threaten food security due to the absence of knowledge about the symptoms of plant stress, resulting in mishandling.
This research uses the CRISP-DM method to facilitate the data analysis process in a structured manner, from identification of needs to implementation of results.
The data used in this research is secondary data obtained from literature study and online repository of Kaggle platform.
The data collected was analysed using quantitative descriptive techniques to assess the performance of each algorithm.
The results showed that Nayve Bayes achieved a higher accuracy of 76.
25%, while K-NN showed an accuracy of 52.
These results indicate that the Nayve Bayes method with a probabilistic-based approach is more effective in monitoring plant health and can be used as a solution in technology-based agricultural management.
This research is expected to support more informed decision-making and increase productivity in agriculture.
Keywords: Classification.
K-Nearest Neighbor.
Nayve Bayes.
Plant Health.
CRISP-DM.
PENDAHULUAN
Secara biologis, kesehatan tanaman dipengaruhi oleh interaksi genetik dengan mikroorganisme di rizosfer serta faktor lingkungan seperti kelembaban dan suhu tanah .
Unsur hara esensial seperti nitrogen, fosfor, dan kalium penting untuk pertumbuhan organ tanaman, sementara kandungan klorofil mencerminkan efektivitas fotosintesis dalam menghasilkan energi.
Pertanian merupakan sektor yang sangat vital dalam mendukung ketahanan pangan dan pembangunan ekonomi suatu negara.
Menurut Food and Agriculture Organization (FAO), sekitar 40% produksi tanaman pangan global hilang setiap tahun akibat hama dan penyakit .
Dalam era modern saat ini, terdapat kebutuhan mendesak untuk meningkatkan efisiensi dan akurasi dalam memantau kondisi kesehatan tanaman.
Berdasarkan penelitian sebelumnya oleh Putu Prianka Vedanty, bahwa sistem pemantauan tradisional yang mengandalkan pengamatan visual secara Halaman - 47 Prosiding Seminar Nasional KARSA NUSANTARA Kolaborasi Rekayasa dan Sains Nasional untuk Teknologi.
Riset, dan Kecerdasan Buatan Fakultas Teknik.
Universitas Wijaya Kusuma Surabaya ISSN 3090-1154 (Media Onlin.
Volume 2.
Tahun 2025 manual seringkali memiliki keterbatasan dan cenderung bersifat subjektif, terutama dalam mendeteksi gejala awal penyakit atau stres tanaman secara cepat dan akurat.
Kondisi ini mendorong pengembangan teknologi berbasis data dan algoritma cerdas yang mampu memberikan informasi real-time dan lebih dapat diandalkan, guna mendukung pengambilan keputusan yang tepat di lapangan.
Penelitian ini mengacu pada konsep pengklasifikasian data yang mencakup metode K-Nearest Neighbor (K-NN) dan Nayve Bayes.
Kedua metode dipilih karena umum digunakan sebagai baseline dengan karakteristik khusus keduanya.
Tabel 1.
Algoritma Klasifikasi yang Umum Digunakan Algoritma Penggunaan Alasan Nayve Bayes (NB) Sangat umum Cepat, berbasis probabilistik, sederhana, cocok untuk data besar & teks.
K-Nearest Neighbor
(KNN)
Sangat umum Intuitif, non-parametrik, efektif untuk data numerik, tidak memerlukan pelatihan awal.
C4.
5 (Decision Tre.
Kadang Support Vector Machine Tidak umum Random Forest (RF) Tidak umum Neural Network (NN) Tidak umum Butuh data besar, tuning banyak parameter, dan proses training yang berat.
Logistic Regression (LR) Kadang Sederhana dan interpretable, tetapi hanya efektif untuk masalah klasifikasi linier sederhana.
Mudah diinterpretasikan, tapi memerlukan proses pruning dan pemisahan atribut kontinu.
Kompleks, memerlukan tuning parameter seperti kernel dan C, lebih cocok untuk evaluasi lanjutan.
Akurat dan kuat terhadap overfitting, tetapi merupakan model ensemble yang lebih kompleks.
K-NN adalah algoritma yang bekerja berdasarkan kedekatan data menggunakan jarak antar data sebagai parameter utama dalam pengelompokkan ke dalam kategori tertentu .
Sementara itu.
Nayve Bayes adalah metode probabilistik yang mengasumsikan independensi fitur dan menghitung kemungkinan kelas berdasarkan Teorema Bayes.
Kedua metode ini memiliki keunggulan dan kelemahan masingmasing, tergantung dari karakteristik data yang digunakan.
Pemilihan metode yang tepat sangat penting dalam aplikasi nyata, terutama dalam klasifikasi kondisi kesehatan tanaman yang kompleks dan memiliki berbagai faktor pengaruh.
Klasifikasi kesehatan tanaman merupakan salah satu pendekatan utama dalam teknologi pertanian berbasis data .
, yang memanfaatkan fitur numerik dari data lingkungan seperti suhu, kelembapan, intensitas cahaya, dan kandungan unsur hara.
Penelitian terdahulu menunjukkan bahwa kombinasi data sensor dan algoritma pembelajaran mesin mampu meningkatkan akurasi pendeteksian stres dan penyakit tanaman .
Penelitian ini terbatas pada penggunaan data sekunder melalui platform daring seperti Kaggle dan studi Pustaka yang menjadi sumber utama untuk memperkaya basis data dan memperkuat landasan Oleh karena itu, penelitian ini berfokus pada perbandingan kinerja kedua algoritma tersebut dalam mengklasifikasi kondisi kesehatan tanaman secara efektiv dan efisien.
Dalam konteks perbaikan sistem pemantauan pertanian, hasil dari penelitian ini diharapkan dapat memberikan gambaran yang jelas mengenai keunggulan dan kelemahan masing-masing metode tertentu.
Selain itu, penelitian ini juga bertujuan untuk menyajikan solusi praktis yang dapat diimplementasikan petani dan praktisi pertanian guna meningkatkan produktivitas serta keberlanjutan usaha tani.
Dengan mengkombinasikan landasan teori dari algoritma klasifikasi dan pemanfaatan data lingkungan, diharapkan analisis ini mampu memberikan kontribusi nyata dalam pengembangan teknologi pertanian berbasis data dan mendukung implementasi sistem pemantauan otomatis yang akurat dan responsif.
II.
METODE PENELITIAN
CRISP-DM
Program ini dibangun menggunakan Python, yakni bahasa pemrograman tingkat tinggi dalam ilmu data, pemrograman pembelajaran mesin .
achine learnin.
, analisis data, dan automasi.
Beberapa pustaka yang digunakan diantaranya Numpy.
Pandas, dan Scikit-Learn dengan metode perancangan berupa pendekatan Cross Industry Standard Process for Data Mining (CRISP-DM) sebagai kerangka metodologis dalam proses pengembangan sistem berbasis data.
CRISP-DM merupakan metodologi yang telah banyak digunakan dalam proyek data mining karena memberikan alur kerja yang sistematis, menyeluruh, dan fleksibel .
Pendekatan ini dipilih karena mampu memfasilitasi proses analisis data secara terstruktur, mulai dari identifikasi kebutuhan hingga implementasi hasil.
Dengan adanya tahapan yang jelas, pengembangan sistem dapat dilakukan secara lebih terarah dan sesuai dengan tujuan yang ingin dicapai.
Halaman - 48 Prosiding Seminar Nasional KARSA NUSANTARA Kolaborasi Rekayasa dan Sains Nasional untuk Teknologi.
Riset, dan Kecerdasan Buatan Fakultas Teknik.
Universitas Wijaya Kusuma Surabaya ISSN 3090-1154 (Media Onlin.
Volume 2.
Tahun 2025 CRISP-DM terdiri atas enam tahapan utama, yaitu pemahaman bisnis .
usiness understandin.
, pemahaman data .
ata understandin.
, persiapan data .
ata preparatio.
, pembuatan model .
, evaluasi model .
, dan penyebaran hasil .
Tahapan awal bertujuan untuk memahami konteks permasalahan dan kebutuhan pengguna.
Selanjutnya, dilakukan eksplorasi dan pembersihan data agar siap digunakan dalam proses pemodelan.
Setelah model dibangun dan dievaluasi, tahap akhir berupa deployment akan menerapkan hasil analisis ke dalam sistem operasional, baik dalam bentuk visualisasi dan laporan sehingga dapat memberikan manfaat nyata dalam mendukung pengambilan keputusan berbasis data.
Gambar 1.
Metode Pengembangan Sistem CRISP-DM Penelitian ini akan membandingkan dua model dan akan dipilih model terbaik untuk memprediksi label data baru.
Misalkan akan ditentukan label untuk data dengan kelembapan tanah 29,896, suhu udara 25,749, suhu tanah 21,357, kelembapan udara 46,014, intensitas cahaya 795,427, pH tanah 7,081, kadar nitrogen 27,858, fosfor 11,412, dan kalium 45,996, kandungan klorofil 39,454, serta sinyal elektrokimia 1,170 terhadap data training berikut.
Gambar 2.
Data Training pada Ms.
Excel K-Nearest Neighbor Metode K-Nearest Neighbor (K-NN) merupakan metode pembelajaran mesin yang bersifat nonparametrik dan berbasis pembelajaran malas .
azy learnin.
Sifat non-parametrik pada algoritma ini berarti bahwa K-NN tidak mengasumsikan pola tertentu pada distribusi data yang digunakan.
Dengan demikian, algoritma ini tidak memerlukan jumlah parameter tetap atau estimasi parameter tertentu dalam modelnya, baik untuk dataset dengan ukuran kecil maupun besar .
Algoritma K-Nearest Neighbors (KNN) bekerja dengan prinsip kemiripan, yaitu memprediksi label atau nilai data baru berdasarkan K data terdekat dalam data latih.
Untuk melakukannya, algoritma menghitung jarak antara data baru dan seluruh data latih menggunakan metrik seperti Euclidean dengan rumus berikut.
cU, ycU) = oc.
cUycn Oe ycUycn )2 ycn=1 Halaman - 49 Prosiding Seminar Nasional KARSA NUSANTARA Kolaborasi Rekayasa dan Sains Nasional untuk Teknologi.
Riset, dan Kecerdasan Buatan Fakultas Teknik.
Universitas Wijaya Kusuma Surabaya ISSN 3090-1154 (Media Onlin.
Volume 2.
Tahun 2025 .
,459 Oe 29,.
,811 Oe 25,.
,223 Oe 21,.
,376 Oe 46,.
2 ycc1: Oo .
,615 Oe 795,.
,168 Oe 7,.
,288 Oe 27,.
,977 Oe 11,.
,977 Oe 13,.
^2 .
,977 Oe 21,.
^2 .
,325 Oe 1,.
^2 19,680 1,127 4,555 206,259 353801,330 0,008 =Oo 338,088 0,024 = 596,742 Setelah seluruh jarak dihitung, algoritma memilih K titik terdekat dan menentukan prediksi berdasarkan informasi dari titik-titik tersebut.
Pada klasifikasi, label yang paling sering muncul di antara tetangga dipilih sebagai hasil prediksi.
Sedangkan dalam regresi, nilai prediksi diambil dari rata-rata nilai tetangga terdekat.
Gambar 3.
Hasil Perhitungan ED dengan nilai K=5 Berdasarkan hasil sortir dengan nilai K=5 tersebut, kedekatan data latih (X) terhadap data baru (Y) dominan dan mengindikasikan status moderate stress.
Nayve Bayes Algoritma Nayve Bayes adalah metode pembelajaran mesin berbasis probabilistik yang menggunakan Teorema Bayes dengan asumsi bahwa setiap fitur dalam dataset bersifat independen .
Sebagai algoritma parametris, model ini mengestimasi parameter, seperti rata-rata dan varians, yang tetap meskipun ukuran dataset bertambah.
Nayve Bayes unggul dalam efisiensi pemrosesan dataset besar dan tetap memberikan hasil akurat meskipun asumsi independensi tidak sepenuhnya terpenuhi.
A Penentuan Probabilitas Prior Probabilitas prior menunjukkan seberapa sering suatu kelas muncul dalam dataset secara keseluruhan.
yaycycoycoycaEa yccycaycyca ycoyceycoycayc EayceycaycoycEa .
P(C/EayceycaycoycE.
= = 0,25 ycNycuycycayco yccycaycyca .
0 yccycaycyc.
Perhitungannya dilakukan dengan membandingkan jumlah data dalam suatu kelas dengan jumlah total data dalam dataset, contohnya pada salah satu kelas health.
Sehingga didapatkan P(C/healt.
: 0.
P(C/moderat.
: 0.
33, dan P(C/hig.
: 0.
42 yang dihitung dangan rumus serupa.
A Perhitungan Likelihood untuk Setiap Fitur Untuk setiap fitur dalam dataset, akan dihitung probabilitas likelihood berdasarkan distribusi fitur tersebut dalam setiap kelas.
Misalnya, untuk data kontinu, digunakan distribusi Gaussian dengan rumus:
adalah rata-rata dan E2 adalah varian fitur untuk kelas tertentu.
Rumus rata-rata pada excel menggunakan AVERAGE, sedangkan untuk mencari varian menggunakan VAR.
berikut hasil perhitungan rata-rata dan varian fitur menggunakan excel.
Gambar 3.
Hasil Perhitungan Rata-rata dan Varian Fitur Halaman - 50 Prosiding Seminar Nasional KARSA NUSANTARA Kolaborasi Rekayasa dan Sains Nasional untuk Teknologi.
Riset, dan Kecerdasan Buatan Fakultas Teknik.
Universitas Wijaya Kusuma Surabaya ISSN 3090-1154 (Media Onlin.
Volume 2.
Tahun 2025 Kemudian akan dihitung Likelihood untuk salah satu fitur yakni Soil_Moisture dalam kelas Health menggunakan rumus Gaussian diatas.
Rumus ini juga digunakan pada seluruh fitur kelas lain.
cycuycnyco ycoycuycnycy.
EayceycaycoycE.
= Oo2 O 3.
14 O 9.
O exp (Oe .
,896 Oe 25.
) = 0, 13136 O 0,27397 = 0,0360
2 O 9.
A Perhitungan Probabilitas Posterior
(P(C|X) =
O ycE.
cU) Seluruh likelihood dan prior digabungkan menggunakan teorema Bayes.
Karena P(X) adalah konstan untuk semua kelas, fokus perhitungan berada pada pembilang P(C)*P(XOC).
Nilai setiap kelas akan dihitung dan dipilih dengan nilai probabilitas tertinggi sebagai prediksi.
Sehingga diperoleh nilai probabilitas untuk kelas health : 2,21053E-16, moderate = 0,00000E 00, dan high = 2,50498E-14.
HASIL DAN PEMBAHASAN
Pemahaman Bisnis (Business Understandin.
Tabel 2.
Pemahaman Bisnis Aspek Deskripsi Membandingkan algoritma K-NN dan Nayve Bayes dalam klasifikasi kesehatan tanaman Tujuan Bisnis 200 baris data sensor untuk menentukan model terbaik.
A Mengembangkan sistem klasifikasi berbasis machine learning yang akurat dan efisien.
Kebutuhan Bisnis A Menyediakan bukti kuantitatif .
kurasi, precision, recall.
F1-scor.
A Menghasilkan model dengan prediksi kepercayaan tinggi untuk mendukung intervensi cepat.
Permasalahan A Pengamatan visual tidak konsisten dan rawan kesalahan.
A Akurasi klasifikasi Ou 90% mengurangi kesalahan diagnosis.
KPI (Key Performance Indicato.
A Latency prediksi O 1 detik siap digunakan di sensor edge.
A Peningkatan produktivitas lahan Ou X% setelah 1 musim.
Pemahaman Data (Data Understandin.
Data yang digunakan dalam penelitian merupakan data sekunder yang diperoleh dari repositori Kaggle.
Plant Health Data https://w.
com/datasets/ziya07/plant-health-data yang berisi 1200 data biosensor terkait pemantauan kesehatan tanaman, yang mencakup pengukuran 11 parameter lingkungan dan fisiologis yang penting untuk menilai kesehatan tanaman, seperti kelembaban tanah, suhu, kelembaban udara, intensitas cahaya, kadar nutrisi, dan sinyal stres tanaman.
Setiap baris dalam dataset ini mewakili pembacaan tertentu untuk sebuah tanaman pada waktu yang diberikan, dengan berbagai fitur yang menangkap metrik biosensor penting dengan beberapa rentang data sebagaimana berikut.
Tabel 3.
Rentang Kriteria Data Label Health Moderate Stress Soil_ Moisture Ambient_Temperature Soil_Temperature Humidity Light_Intensity Soil_pH Nitrogen_Level Phosphorus_Level Potassium_Level Chlorophyll_Content Electrochemical_Signal 0,002-1,992 201,7-1000 0,006-1,994 0,023-1,996 Halaman - 51 Prosiding Seminar Nasional KARSA NUSANTARA Kolaborasi Rekayasa dan Sains Nasional untuk Teknologi.
Riset, dan Kecerdasan Buatan Fakultas Teknik.
Universitas Wijaya Kusuma Surabaya ISSN 3090-1154 (Media Onlin.
Volume 2.
Tahun 2025 Persiapan Data (Data Preparatio.
Tabel 4.
Persiapan Data Syntaks Stress Langkah-langkah persiapan data dimulai dengan penghapusan kolom yang tidak relevan, yaitu Timestamp dan Plant_ID, karena hanya berfungsi sebagai identifikasi dan tidak memiliki nilai prediktif terhadap status kesehatan tanaman.
Selanjutnya, dilakukan pemisahan antara fitur (X) dan target .
, di mana fitur mencakup parameter fisiologis tanaman seperti kelembaban tanah, suhu, pH, kandungan nitrogen, dan lainnya, sedangkan target adalah Plant_Health_Status.
Tahap ketiga adalah encoding label target menggunakan LabelEncoder, karena model klasifikasi membutuhkan data numerik, misalnya label "Healthy" diubah menjadi 0.
Terakhir, dilakukan pembagian data menjadi 80% data latih dan 20% data validasi menggunakan train_test_split dengan parameter stratify, agar distribusi kelas tetap seimbang antara data latih dan data Permodelan (Modelin.
Pendekatan pemodelan langsung dengan menggunakan library Python seperti Scikit-Learn yang menjadi pilihan utama dalam pengembangan sistem cerdas berbasis data karena mampu menyederhanakan proses implementasi algoritma machine learning secara signifikan.
Library ini menyediakan fungsi-fungsi siap pakai yang telah teruji, efisien, dan didukung oleh komunitas ilmiah, sehingga pengguna tidak perlu lagi membuat kode perhitungan manual yang rumit dan rentan kesalahan.
Tabel 5.
Implementasi Model Syntaks Deskripsi Pada implementasi ini, model K-NN diinisialisasi dengan parameter k=5, yang berarti algoritma akan mempertimbangkan lima data tetangga terdekat dalam menentukan kelas dari suatu data uji.
Model dilatih menggunakan data pelatihan X_train dan y_train, kemudian dilakukan prediksi terhadap data testing X_val.
Evaluasi performa dilakukan dengan menghitung akurasi dan menghasilkan classification report yang mencakup precision, recall, dan F1-score.
Algoritma K-NN tidak memerlukan proses pelatihan eksplisit karena prediksi dilakukan secara langsung menggunakan data pelatihan, sehingga cocok untuk dataset berskala kecil hingga menengah dengan fitur numerik.
Dalam implementasi ini, digunakan varian Gaussian Naive Bayes (GaussianNB) yang mengasumsikan bahwa distribusi data setiap fitur mengikuti distribusi normal.
Model dilatih pada data pelatihan X_train dan y_train, kemudian digunakan untuk memprediksi kelas dari data testing X_val.
Evaluasi performa dilakukan dengan menghitung tingkat akurasi dan menghasilkan classification report.
Nayve Bayes dikenal sebagai model yang efisien dan cepat, terutama ketika diterapkan pada dataset berukuran besar, serta memiliki performa yang cukup baik meskipun asumsi independensi fitur tidak sepenuhnya terpenuhi.
Halaman - 52 Prosiding Seminar Nasional KARSA NUSANTARA Kolaborasi Rekayasa dan Sains Nasional untuk Teknologi.
Riset, dan Kecerdasan Buatan Fakultas Teknik.
Universitas Wijaya Kusuma Surabaya ISSN 3090-1154 (Media Onlin.
Volume 2.
Tahun 2025 Evaluasi (Evaluatio.
Tabel 6.
Hasil Evaluasi Model Laporan Evaluasi Deskripsi Model KNN menunjukkan performa yang kurang optimal dalam mengklasifikasikan status kesehatan tanaman, dengan akurasi hanya sebesar 52,9%.
Meskipun cukup baik dalam mengenali kelas High Stress .
1-score: 0.
, model ini lemah dalam membedakan kelas Moderate Stress .
1-score: 0.
, yang berdampak pada nilai rata-rata keseluruhan.
Nilai macro average dan weighted average f1-score berada di kisaran 0.
51Ae 52, menandakan bahwa model tidak konsisten dalam menangani seluruh kelas secara seimbang.
Sebaliknya, model Naive Bayes memberikan hasil evaluasi yang jauh lebih baik dengan akurasi mencapai 76,25%.
Model ini mampu mengklasifikasikan ketiga kelas dengan lebih seimbang, terutama kelas High Stress yang memiliki f1-score tertinggi sebesar 0.
F1-score untuk kelas lainnya juga tergolong baik, dengan macro average dan weighted average keduanya berada pada nilai 0.
Kinerja yang konsisten ini menunjukkan bahwa Naive Bayes lebih efektif dalam menangani pola distribusi data yang ada, sehingga lebih layak dijadikan model klasifikasi utama untuk kasus ini.
Penyebaran Hasil (Deploymen.
Pada tahap deployment, model KNN dan Nayve Bayes yang telah dilatih disimpan dalam bentuk pkl menggunakan pustaka pickle.
Penyimpanan ini memungkinkan model digunakan kembali tanpa perlu proses pelatihan ulang.
Model yang tersimpan kemudian digunakan untuk memprediksi status kesehatan tanaman berdasarkan data sensor terbaru.
Data input berupa file CSV berisi hasil pengukuran sensor, kemudian dilakukan proses prediksi dan hasilnya disimpan dalam file result_test_plant_data.
Tahap ini sangat penting untuk mengintegrasikan model ke dalam sistem nyata yang digunakan oleh pengguna, baik melalui antarmuka aplikasi web, desktop, maupun pipeline otomatisasi data.
Tabel 7.
Deployment Laporan Evaluasi Deskripsi Model K-Nearest Neighbor .
nn_mode.
dan Nayve Bayes .
nb_mode.
yang telah dilatih sebelumnya disimpan dalam bentuk file .
pkl menggunakan pickle.
dump().
File knn_model.
pkl dan gnb_model.
pkl ini menyimpan struktur dan parameter model sehingga dapat digunakan kembali tanpa perlu melakukan pelatihan ulang.
Langkah ini penting dalam deployment agar model siap digunakan di lingkungan Untuk menggunakan kembali model yang sudah disimpan, dilakukan proses loading dengan pickle.
load().
Model KNN dan Nayve Bayes dimuat dari file .
pkl, dan siap digunakan untuk prediksi data baru.
Ini adalah langkah kunci dalam deployment karena model dimanfaatkan untuk prediksi real-time atau batch di aplikasi atau sistem akhir.
IV.
KESIMPULAN
Penelitian ini menunjukkan bahwa metode Nayve Bayes lebih efektif dibandingkan K-Nearest Neighbor dalam hal klasifikasi kesehatan tanaman berdasarkan data lingkungan yang dianalisis.
Hasil evaluasi menunjukkan bahwa Nayve Bayes mencapai akurasi sebesar 76,25%, dengan kinerja yang lebih seimbang dalam mengenali berbagai status kesehatan tanaman, terutama dalam mendeteksi stres tinggi dengan f1-score tertinggi 0.
Pendekatan probabilistik yang digunakan oleh Nayve Bayes membuatnya lebih mampu mengatasi variabilitas data dan ketergantungan terhadap distribusi fitur, sehingga mampu menyediakan prediksi yang lebih akurat dan andal dalam konteks pemantauan tanaman secara otomatis.
Implementasi metode ini diharapkan dapat memperkuat sistem pengelolaan pertanian berbasis data.
Halaman - 53 Prosiding Seminar Nasional KARSA NUSANTARA Kolaborasi Rekayasa dan Sains Nasional untuk Teknologi.
Riset, dan Kecerdasan Buatan Fakultas Teknik.
Universitas Wijaya Kusuma Surabaya ISSN 3090-1154 (Media Onlin.
Volume 2.
Tahun 2025 mendukung pengambilan keputusan yang cepat dan tepat, serta meningkatkan produktivitas pertanian secara berkelanjutan.
Hal yang dapat mengoptimalkan kinerja algoritma Nayve Bayes yakni melalui tuning parameter dan fitur yang relevan, serta mempertimbangkan penggunaan teknik validasi lain seperti cross-validation untuk memastikan kestabilan dan generalisasi model.
Selain itu, penggabungan atau perbandingan dengan algoritma lain, seperti Random Forest atau Neural Network, juga dapat dilakukan untuk mendapatkan hasil yang lebih komprehensif dan optimal dalam monitoring kesehatan tanaman berbasis data sensor.
REFERENSI