JOMLAI: Journal of Machine Learning and Artificial Intelligence Vol. No. Desember 2022, pp. ISSN: 2828-9102 (Prin. | 2828-9099 (Onlin. DOI: 10. 55123/jomlai. Pengelompokkan Hasil Produksi Tanaman Perkebunan Berdasarkan Provinsi Menggunakan Metode K-Means Clustering Production of Plantation Crops by Province Using the K-Means Method Azhari Abdillah Simangunsong1. Indra Gunawan2. Zulaini Masruro Nasution3 STIKOM Tunas Bangsa. Pematangsiantar. Indonesia Article Info ABSTRAK Genesis Artikel: Tujuan dari penelitian ini untuk melakukan pengelompokkan hasil produksi tanaman perkebunan setiap tahunnya berdasarkan provinsi di indonesia, agar dapat diketahui provinsi mana saja yang menghasilkan paling banyak produksi tanaman perkebunan maupun yang kurang menghasilkan. Pada penelitian ini menggunakan teknik Data Mining Algoritma KMeans. Sumber data penelitian ini dikumpulkan berdasarkan data perkebunan yang diperoleh dari Badan Pusat Statistik (BPS) Indonesia. Data yang digunakan adalah data dari tahun 20182020 yang terdiri dari 34 provinsi. Hasil penelitian ini berupa pengelompokkan yang terbagi kedalam 3 Cluster yaitu Cluster rendah. Cluster sedang, dan Cluster tinggi. Berdasarkan hasil perhitungan menggunakan Algoritma K-Means diperoleh Cluster tinggi sebanyak 6 items (Provins. Cluster sedang sebanyak 2 Provinsi dan Cluster rendah sebanyak 27 Provinsi. Kesimpulan yang dapat diperoleh, bahwa pengelompokkan produksi tanaman perkebunan di Indonesia dapat diselesaikan dengan menerapkan algoritma K-Means. Diterima, 18 Oktober 2022 Direvisi, 28 Desember 2022 Disetujui, 25 Januari 2023 Kata Kunci: Hasil Produksi K-Means Pengelompokkan Provinsi Tanaman Perkebunan ABSTRACT Keywords: Production Result K-Means Clustering Province Plantation Crops The purpose of this research is to classify the results of plantation crop production each year based on provinces in Indonesia, so that it can be known which provinces produce the most plantation crop production and which produce less. In this study using the K-Means Algorithm Data Mining technique. The data source for this research was collected based on plantation data obtained from the Indonesian Central Bureau of Statistics (BPS). The data used is data from 2018-2020 which consists of 34 provinces. The results of this study are groupings which are divided into 3 Clusters, namely low Clusters, medium Clusters, and high Clusters. Based on the results of calculations using the K-Means Algorithm, 6 items (Province. were obtained for high Clusters, 2 Provinces for medium Clusters and 27 Provinces for low Clusters. The conclusion that can be obtained is that the grouping of plantation crop production in Indonesia can be solved by applying the K-Means algorithm. This is an open access article under the CC BY-SAlicense. Penulis Korespondensi: Azhari Abdillah Simangunsong. Program Studi Teknik Informatika. STIKOM Tunas Bangsa. Pematangsiantar. Indonesia Email: azharisimangunsong@gmail. PENDAHULUAN Perusahaan perkebunan adalah suatu perusahaan yang berbentuk badan usaha/badan hukum yang bergerak dalam kegiatan budidaya tanaman perkebunan diatas lahan yang dikuasai, dengan tujuan ekonomi/komersil dan mendapat izin usaha dari instansi yang berwewenang dalam pemberian izin usaha perkebunan. Produksi kebun atau lazim disebut produksi primer adalah produksi/hasil yang dipanen dari usaha perkebunan nya tanpa melalui proses pengolahan lebih lanjut. Contoh produksi kebun adalah karet, kelapa sawit, kelapa dan masih banyak lagi. Journal homepage: https://journal. id/index. php/jomlai/ ISSN : 2828-9099 Indonesia sebagai salah satu negara yang banyak memiliki daerah perkebunan yang memproduksi tanaman berupa kelapa sawit, kelapa dan karet. Tiga produksi tanaman ini merupakan tanaman perkebunan sebagai devisa di Indonesia . Setiap provinsi memiliki keunggulan hasil produksi tanaman yang disesuaikan dengan keadaan tanah dan lahan yang dimiliki provinsi Berdasarkan data BPS tentang hasil produksi tanaman perkebunan belum memiliki pengelompokkan data berdasarkan hasil produksi tanaman perkebunan provinsi mana yang memiliki produksi tanaman perkebunan seperti sawit, kelapa dan karet terbanyak, sedang dan rendah. Berdasarkan data tersebut maka perlu dilakukan penelitian dengan menerapkan salah satu algoritma dari cabang ilmu Sebagaimana diketahui banyak penelitian-penelitian berbasis komputerisasi telah mampu memecahkan banyak masalah yang sifatnya statistik, kelompok, rumit dan saling berkaitan. Diantaranya seperti untuk pendukung keputusan . Ae. , untuk prediksi dan peramalan menggunakan sistem kecerdasan buatan . Ae. , hingga di bidang penambangan data khusus nya klasifikasi dan Clustering . Ae. algoritma K-Means untuk mengelompokkan hasil produksi tanaman perkebunan berdasarkan provinsi dengan tiga Cluster yaitu Cluster terbanyak. Cluster sedang, dan Cluster terendah untuk tanaman sawit, kelapa dan karet di Indonesia. Alasan menggunakan algoritma K-Means diantaranya adalah karena algoritma ini memiliki ketelitian yang cukup tinggi terhadap ukuran objek, sehingga algoritma ini relatif lebih terukur dan efisien untuk pengolahan objek dalam jumlah besar. Selain itu K-Means ini tidak terpengaruh terhadap urutan objek. Algoritma K-Means penggunaannya sudah banyak di terapkan. Beberapa penelitian yang sudah pernah dilakukan seperti pada penelitian (Haryadi, 2. yang menerapkan algoritma K-Means untuk melakukan Clustering produksi perkebunan kelapa sawit menurut provinsi. Berdasarkan hasil penelitian yang dilakukan dapat disimpulkan bahwa penerapan Algoritma K-Means telah berhasil dijadikan solusi dalam menyelesaikan masalah dengan menunjukkan sebuah wawasan baru yaitu pengelompokkan provinsi-provinsi yang menjadi prioritas terhadap produksi perkebunan kelapa sawit di indonesia berdasarkan 3 Cluster. Cluster 1 merupakan kategori provinsi dengan produksi perkebunan kelapa sawit rendah atau Low yaitu 14 dari 21 kategori provinsi yang diuji, kemudian Cluster 2 adalah kategori provinsi dengan produksi perkebunan kelapa sawit sedang atau Medium yaitu 4 dari 21 kategori provinsi yang diuji, dan terakhir adalah Cluster 3 merupakan kategori provinsi dengan produksi perkebunan kelapa sawit tinggi atau High yaitu 3 dari 21 kategori provinsi yang diuji . Penelitian berikutnya dilakukan oleh (Lili & Widodo, 2. untuk melakukan pengelompokkan hasil panen kelapa sawit berdasarkan produksi per blok dengan menerapkan algoritma K-MeansAy. Berdasarkan hasil penelitian yang dilakukan dapat disimpulkan bahwa hasil yang diperoleh dari metode K-means yang di implementasikan ke dalam Rapidminer memiliki nilai yang sama yaitu menghasilkan 3 Cluster yaitu Cluster tinggi. Cluster sedang, dan Cluster rendah. Dengan Cluster tinggi memiliki 19 blok. Cluster sedang memiliki 19 blok dan Cluster rendah memiliki 12 blok . Kedua penelitian terdahulu tersebut telah berhasil menerapkan Algoritma K-Means dalam mengelompokkan dan memperoleh hasil sebagai tolak ukur keberhasilan dalam melakukan penelitian, dengan adanya penelitian terdahulu tersebut maka penelitian ini juga akan menerapkan Algoritma K-Means untuk menyelesaikan masalah pengelompokkan hasil produksi tanaman perkebunan berdasarkan provinsi di Indonesia. Berdasarkan latar belakang yang telah diuraikan, maka perlu dilakukan penelitian ini, diharapkan dengan dilakukannya penelitian ini maka provinsi yang masuk dalam Cluster terendah segera mendapat perhatian pemerintah agar hasil produksi tanaman perkebunan mereka jangan sampai menurun untuk tahun-tahun yang akan datang. METODE PENELITIAN Data Penelitian Dataset penelitian yang digunakan pada penelitian ini adalah data hasil produksi tanaman perkebunan berdasarkan 34 Provinsi yang ada di Indonesia, yang diperoleh secara langsung dari situs resmi Badan Pusat Statistik. Dataset penelitian dapat dilihat pada tabel 1 berikut. Tabel 1. Produksi Tanaman Perkebunan (Ribu To. Provinsi Aceh Sumatera Utara Sumatera Barat Riau Jambi Sumatera Selatan Bengkulu Lampung Kep. Bangka Belitung Kep. Riau DKI Jakarta Jawa Barat Jawa Tengah DI Yogyakarta Jawa Timur 037,40 737,30 248,30 496,00 691,30 793,60 047,70 487,20 900,30 28,90 0,00 46,00 0,00 0,00 0,00 Kelapa Sawit 133,30 647,30 253,40 512,90 884,40 049,20 032,10 414,20 815,70 22,80 0,00 32,20 0,00 0,00 0,00 134,60 776,80 312,30 984,30 022,60 267,00 063,40 384,90 843,00 20,00 0,00 33,10 0,00 0,00 0,00 63,50 99,40 78,00 392,70 107,90 57,70 9,20 86,90 4,40 11,60 0,00 93,60 172,60 47,40 244,10 JOMLAI: Journal of Machine Learning and Artificial Intelligence Vol. No. Desember 2022, pp. Kelapa 63,80 100,50 78,30 390,70 108,90 57,60 8,80 83,40 4,80 11,90 0,00 87,90 169,00 48,10 240,40 63,60 100,80 77,60 399,40 109,60 55,40 9,50 83,40 5,10 12,50 0,00 87,60 167,90 46,50 240,10 93,70 418,90 152,50 337,30 319,50 043,00 126,30 174,10 59,90 29,40 0,00 67,50 38,50 0,00 27,40 Karet 85,20 387,70 142,00 308,00 301,40 944,20 113,60 148,50 55,10 23,30 0,00 44,90 29,50 0,00 22,60 74,80 327,70 132,10 291,90 262,80 804,80 94,10 136,90 46,50 19,00 0,00 40,70 30,90 0,00 24,00 JOMLAI: Journal of Machine Learning and Artificial Intelligence Provinsi Banten Bali Nusa Tenggara Barat Nusa Tenggara Timur Kalimantan Barat Kalimantan Tengah Kalimantan Selatan Kalimantan Timur Kalimantan Utara Sulawesi Utara Sulawesi Tengah Sulawesi Selatan Sulawesi Tenggara Gorontalo Sulawesi Barat Maluku Maluku Utara Papua Barat Papua 38,40 0,00 0,00 0,00 086,90 230,10 464,20 786,50 305,10 0,00 383,60 105,70 106,10 9,90 386,20 23,60 0,00 98,10 345,10 Kelapa Sawit 31,30 0,00 0,00 0,00 235,30 664,80 665,40 988,90 281,40 0,00 381,70 91,00 59,50 16,20 348,40 17,60 0,00 103,50 437,70 27,40 0,00 0,00 0,00 471,40 685,80 561,10 823,20 301,60 0,00 371,70 100,30 76,30 5,00 348,00 19,10 0,00 106,40 557,60 43,30 66,40 45,60 69,60 83,70 15,70 25,20 10,70 0,50 262,50 193,90 72,10 42,80 58,80 36,60 103,00 209,80 15,80 15,20 Kelapa 43,10 66,90 47,10 70,10 83,80 15,60 24,90 9,50 0,50 271,80 195,70 70,90 41,10 60,90 37,30 104,30 210,90 16,20 15,20 43,60 67,30 47,40 70,40 84,80 15,70 24,20 12,50 0,50 250,70 195,70 54,80 41,30 60,60 37,20 103,80 211,40 16,20 14,80 17,60 0,40 0,00 0,00 272,30 161,90 188,40 79,90 0,80 0,00 4,60 10,90 0,10 0,00 0,00 1,40 0,00 0,00 4,10 Karet 15,80 0,10 0,00 0,00 261,50 152,20 174,60 76,90 0,80 0,00 3,70 5,30 0,00 0,00 0,00 0,60 0,00 0,00 4,10 12,70 0,00 0,00 0,00 236,00 125,90 145,10 65,50 0,60 0,00 3,60 4,60 0,00 0,00 0,00 0,70 0,00 0,00 3,70 Flowchart Penelitian Flowchart penelitian dengan algoritma K-Means pada penelitian ini dapat dilihat pada gambar 1 berikut. Start Tentukan Nilai k Centroid (Tentukan titik tengah cluste. Hitung jarak objek ke Centroid (Euclidean distanc. Clustering (Kelompokkan objek ke cluster berdasarkan jarak terdeka. Objek masih ada Tidak End Gambar 1. Flowchart Penelitian . Tahapan demi tahapan metode K-Means sebagai berikut . Ae. Atur jumlah Cluster . pada data set. Atur nilai pusat (Centroi. Pada tahap awal Pengaturan nilai Centroid dilakukan secara acak. Pada tahap iterasi digunakan rumus persamaan . seperti berikut. Vij= Oc Keterangan : Vij = Centroid rata-rata Cluster ke-I variabel ke-j = Jumlah anggota Cluster ke-i i, k = Indeks Cluster = Indeks variabel Xkj = nilai ke-k variabel ke-j untuk Cluster Clustering Production of Plantation Crops by Province Using the K-Means Method (Azhari Abdillah Simangunson. ISSN : 2828-9099 Berdasarkan masing-masing record, jarak terdekat dihitung dengan Centroid. Beberapa cara yang biasa digunakan untuk melakukan pengukuran jarak data ke pusat Cluster, diantaranya Euclidean. Manhattan/City Block, dan Minkowsky. Setiap cara memiliki kelebihan dan kekurangan masing-masing. Untuk penulisan pada bab ini, jarak Centroid yang digunakan adalah Euclidean Distance, dengan rumus seperti berikut ini: Oo Keterangan : = Distance Euclidean = Jumlah objek 2 . , . = Koordinat objek . , . = Koordinat Centroid Kelompokkan objek berdasarkan jarak ke Centroid terdekat Ulangi langkah ke-3 hingga langkah ke-4, lakukan iterasi hingga Centroid bernilai optimal. HASIL DAN ANALISIS Perhitungan Manual Algoritma K-Means Clustering Menentukan Data Cluster Data yang akan di Cluster adalah data hasil produksi tanaman perkebunan di Indonesia berdasarkan provinsi . Menentukan Nilai k Jumlah Cluster Jumlah Cluster sebanyak 3 Cluster. Cluster yang akan dibentuk diantaranya yaitu Cluster rendah (C. Cluster sedang (C. dan Clustering tinggi (C. Menentukan Nilai Centroid (Pusat Cluste. Penentuan pusat Cluster awal ditentukan secara random yang diambil dari data yang ada dalam range. Adapun nilai untuk Cluster rendah (C. diambil dari nilai rendah. Cluster sedang (C. diambil dari nilai pertengahan dan Cluster tinggi (C. diambil dari nilai yang paling tinggi. Daftar Centroid data awal . usat Cluste. dapat dilihat pada tabel 2 Tabel 2. Pusat Cluster Awal Cluster 3 Cluster 2 Cluster 1 Menghitung Jarak dari Setiap Centroid Setelah data nilai pusat Cluster awal ditentukan, maka langkah selanjutnya adalah menghitung jarak masing-masing data terhadap pusat Cluster. Proses pencarian data terpendek pada iterasi ke-1 dapat dilihat pada perhitungan berikut: Oo Oo Oo Begitu seterusnya hingga C34,3 Jarak hasil perhitungan dilakukan perbandingan dan dipilih jarak terdekat antara titik tiap objek dengan titik Centroid, jarak menunjukkan bahwa data berada dalam satu kelompok dengan Centroid terdekat. Tabel jarak terdekat dari Centroid iterasi ke-1 seperti pada tabel 3 berikut. Tabel 3. Hasil Perhitungan Algoritma K-Means Iterasi ke-1 JOMLAI: Journal of Machine Learning and Artificial Intelligence Vol. No. Desember 2022, pp. Jarak JOMLAI: Journal of Machine Learning and Artificial Intelligence Jarak Menentukan Posisi Cluster Dalam menentukan Cluster dengan mencari nilai Cluster berdasarkan nilai Cluster dan diletakkan pada Cluster yang sesuai dengan nilai minimal pada iterasi ke-1. Cluster iterasi ke-1 dapat dilihat seperti pada tabel 4 berikut. Tabel 4. Hasil Perhitungan Jarak Pusat Cluster Iterasi 1 Proses K-Means akan terus ber iterasi sampai pengelompokan data sama dengan pengelompokan data iterasi Dengan kata lain, proses akan terus melakukan iterasi sampai data pada iterasi terakhir sama dengan iterasi sebelumnya. Langkah selanjutnya adalah mencari Cluster pada iterasi selanjutnya sampai nilai iterasi nya sama. Berikut adalah proses perhitungan iterasi ke-2. Menentukan nilai Centroid baru. Dalam mendapatkan nilai Centroid baru untuk melanjutkan iterasi selanjutnya dengan mencari nilai rata-rata dari masing-masing Cluster. Berikut ini adalah perhitungan Centroid baru pada masing-masing Cluster : C1,a = . 77 853 23. 1 0 15. 333 0 32. 367 0 12. 8 0 1563. 2 379 99 80. / 24 = 411. Clustering Production of Plantation Crops by Province Using the K-Means Method (Azhari Abdillah Simangunson. ISSN : 2828-9099 C1,b = . 7667 12 1. / 24 = 85. C1,c = . 967 0 24. 1667 58667 0. / 24 = 2483. C2,a = . / 5= 3839 C2,b = . / 5= 72. C2,C = . / 5= 386. C3,a = . / 2 = 8429 C3,b = . / 2 = 204. C3,C = . / 2 = 229. Maka nilai Centroid baru pada iterasi ke-2 dapat dilihat seperti pada tabel 5 berikut. Tabel 5. Centroid Baru Iterasi Ke-2 Cluster 3 Cluster 2 Cluster 1 Menghitung jarak dari Centroid Setelah mendapatkan nilai Centroid baru, maka dilakukan perhitungan untuk iterasi ke-2. Proses perhitungan jarak dari Centroid baru untuk iterasi ke-2 adalah sebagai berikut: Oo Oo Oo Begitu seterusnya sampai dengan C30,2 Tabel jarak terdekat antara titik tiap objek dengan titik Centroid dapat dilihat seperti pada tabel 6 berikut. Tabel 6. Jarak Terdekat Iteras Ke-2 Menentukan Cluster Pengelompokkan JOMLAI: Journal of Machine Learning and Artificial Intelligence Vol. No. Desember 2022, pp. Jarak JOMLAI: Journal of Machine Learning and Artificial Intelligence Penentuan anggota tiap-tiap Cluster dengan menghitung jarak objek yang memiliki nilai minimum dan diletakkan pada Cluster yang sesuai dengan nilai minimum. Anggota tiap-tiap Cluster iterasi ke-2 dapat dilihat pada tabel 7. Tabel 7. Cluster Iterasi Ke-2 Setelah melihat hasil dari iterasi ke-2 kemudian dibandingkan dengan iterasi ke -1 memiliki hasil yang berbeda. Maka perhitungan manualnya dilanjutkan pada iterasi ke-3. Menentukan nilai Centroid baru Dalam mendapatkan nilai Centroid baru untuk melanjutkan iterasi selanjutnya dengan mencari nilai rata-rata dari masing-masing Cluster berdasarkan dataset pada tabel 4. berdasarkan Cluster yang terpilih dari nilai tertinggi sebagai berikut : C1,a = C1,b = C1,c = C2,a = C2,b = C2,C = C3,a = C3,b = C3,C = . / 2 = 2495. / 2 = 2666. / 2 = 7699. / 30 = 198167. 234 5866581 222. 30 = 196136. 11 213661 8321. 71 5866263 9242. / 30 = 210546 / 2 = 8428. / 2 = 6412. / 2 = 2431. Menghitung jarak dari Centroid Clustering Production of Plantation Crops by Province Using the K-Means Method (Azhari Abdillah Simangunson. ISSN : 2828-9099 Setelah mendapatkan nilai Centroid baru, maka dilakukan perhitungan untuk iterasi ke-3. Proses perhitungan jarak dari Centroid ke-2 untuk iterasi ke-3 adalah sebagai berikut: Oo Oo Oo Tabel jarak terdekat antara titik tiap objek dengan titik Centroid dapat dilihat seperti pada tabel 8 berikut. Tabel 8. Jarak Terdekat Iterasi Ke-3 Jarak Menentukan Cluster pengelompokkan Dalam menentukan anggota tiap-tiap Cluster dengan menghitung jarak objek yang memiliki nilai minimum dan diletakkan pada Cluster yang sesuai dengan nilai minimum. Anggota tiap-tiap Cluster iterasi ke-3 dapat dilihat seperti pada tabel 9 berikut. Tabel 9. Cluster Iterasi Ke-3 JOMLAI: Journal of Machine Learning and Artificial Intelligence Vol. No. Desember 2022, pp. JOMLAI: Journal of Machine Learning and Artificial Intelligence Berdasarkan tabel Cluster iterasi ke-5 dan tabel Cluster iterasi ke-6 memiliki nilai Cluster yang sama dan tidak ada lagi perpindahan dari Cluster satu ke Cluster yang lain. Maka perhitungannya dihentikan pada iterasi ke- 6 dan hasil yang diperoleh dari ke enam iterasi tersebut yaitu C1 sebanyak 27 Data dan C2 sebanyak 2 Data dan C3 sebanyak 6 Data. Pengujian dengan Rapid Miner Berikut adalah proses pengelompokkan dan hasil dari metode K-Means yang dilakukan dengan Rapid miner. Tahapan pertama dengan meng klik Clustering and Segmentation lalu pilih K-Means dapat dilihat pada gambar 2. Lalu hubungkan antara read excel dengan Clustering seperti gambar 2 berikut. Gambar 2. Proses K-Means dengan Rapid Miner Untuk mendapatkan hasil pengelompokkan maka pada tahap selanjutnya klik run pada toolbar. Pada tahap ini akan menampilkan hasil akhir serta langkah terakhir dalam penggunaan Tolls Rapid Miner seperti yang terlihat pada gambar 3 Gambar 3. Hasil Cluster Berdasarkan gambar 3 dapat dijelaskan bahwa dari 3 . Cluster yang dihasilkan terdapat 27 items untuk Cluster 0 (Cluster tingg. , 2 items untuk Cluster 1 (Cluster Sedan. , dan 6 items untuk Cluster 2 (Cluster renda. Untuk hasil akhir tabel Centroid dapat dilihat pada gambar 4. Sedangkan hasil pengelompokkan hasil produksi tanaman perkebunan berdasarkan provinsi menggunakan Rapid Miner dapat dilihat pada gambar 4. Berdasarkan gambar 4 dapat diketahui bahwa pada kelompok tinggi memiliki 6 node yaitu warna merah, pada kelompok sedang memiliki 2 node berwarna jingga, sedangkan pada kelompok rendah memiliki 27 node dengan warna biru. Clustering Production of Plantation Crops by Province Using the K-Means Method (Azhari Abdillah Simangunson. ISSN : 2828-9099 Gambar 4. Plot View Hasil Cluster KESIMPULAN Penerapan Data Mining menggunakan Algoritma K-Means dapat mengelompokkan data produksi tanaman perkebunan di Indonesia. Penelitian ini menghasilkan 3 Cluster yaitu Cluster rendah. Cluster sedang, dan Cluster tinggi. Berdasarkan analisis perhitungan menggunakan Algoritma K-Means diperoleh hasil 3 Cluster dengan Cluster tinggi sebanyak 6 Provinsi. Cluster sedang sebanyak 2 Provinsi dan Cluster rendah sebanyak 27 Provinsi. Berdasarkan hasil pengelompokkan menggunakan Algoritma K- Means pada data produksi tanaman perkebunan di Indonesia menggunakan aplikasi Rapid Miner 8, diperoleh perhitungan yang sama dengan perhitungan manual. Dengan demikian hasil penelitian ini dapat menjadi masukan kepada pihak pemerintah Indonesia, khusus nya pemerintah provinsi masing-masing dalam upaya peningkatan produksi tanaman perkebunan untuk tahun-tahun yang akan datang. REFERENSI