Institut Riset dan Publikasi Indonesia (IRPI) MALCOM: Indonesian Journal of Machine Learning and Computer Science Journal Homepage: https://journal.
id/index.
php/malcom Vol.
4 Iss.
1 January 2024, pp: 257-265
P-ISSN: 2797-2313 | ISSN(E): 2775-8575
Comparative Analysis of Machine Learning Algorithms for Predicting Child Stunting Analisis Perbandingan Algoritma Machine Learning untuk Prediksi Stunting pada Anak Indah Pratiwi Putri1.
Terttiaavini2*.
Nur Arminarahmah3 Program Studi Sistem Informasi.
Fakultas Ilmu Komputer dan Sains.
Universitas Indo Global Mandiri.
Indonesia Program Studi Teknik Informatika.
FakultasTeknologi Informasi.
Universitas Islam Kalimantan MAB Banjarmasin.
Indonesia E-Mail: 1wiwid@uigm.
id, 2avini.
saputra@uigm.
id, 3nur.
armina@gmail.
Received Nov 04th 2023.
Revised Dec 28th 2023.
Accepted Jan 14th 2024 Corresponding Author: Terttiaavini Abstract This study highlights the serious issue of childhood stunting, particularly inconsistent data collection and the lack of accurate information in evaluating this condition.
Its aim is to develop a Machine Learning (ML) model to predict stunting cases more effectively.
The research methodology involves three ML algorithms: Naive Bayes.
K-Nearest Neighbors, and Random Forest, evaluated based on Accuracy.
Precision, and Recall.
This research utilises the KNIME platform to help manage data more efficiently and accurately.
The evaluation results indicate that Random Forest exhibits the highest accuracy .
75%) and F1-score .
, demonstrating a good balance between Precision and Recall.
However.
KNearest Neighbors excel in identifying a majority of the actual stunting cases.
Consequently, the Random Forest model might be the optimal choice for diagnosing stunting in children due to its high accuracy and superior ability to detect stunting cases compared to other models.
This study provides insights into applying ML to support early detection of stunting, enabling more precise and prompt healthcare interventions for children requiring intensive attention.
Keyword: Childhood Stunting.
K-Nearest Neighbors.
KNIME.
Machine Learning.
Naive Baye.
Random Forest Abstrak Penelitian ini menyoroti permasalahan serius stunting pada anak-anak, terutama dalam pendataan yang tidak konsisten dan kurangnya informasi akurat dalam evaluasi kondisi tersebut.
Tujuannya adalah mengembangkan model Machine Learning (ML) untuk memprediksi kasus stunting dengan lebih baik.
Metode penelitian melibatkan tiga algoritma ML: Naive Bayes.
K-Nearest Neighbors, dan Random Forest, dievaluasi berdasarkan Accuracy.
Precision, dan recall.
Penelitian ini memanfaatkan platform KNIME untuk membantu pengelolaan data yang lebih efisien dan akurat.
Hasil evaluasi menunjukkan bahwa Random Forest memiliki akurasi tertinggi .
75%) dan F1-score .
, menunjukkan keseimbangan yang baik antara Precision dan recall.
Meskipun demikian.
K-Nearest Neighbors menonjol dalam menemukan sebagian besar kasus stunting yang sebenarnya.
Kesimpulannya, model Random Forest mungkin menjadi pilihan terbaik untuk mendiagnosis stunting pada anak-anak, karena kombinasi akurasi tinggi dan kemampuan menemukan kasus stunting yang lebih baik dari model lainnya.
Penelitian ini memberikan wawasan tentang penerapan ML dalam mendukung deteksi dini stunting, memungkinkan intervensi yang lebih tepat dan cepat bagi anak-anak yang membutuhkan perhatian kesehatan yang lebih intensif.
Kata Kunci: KNIME.
K-Nearest Neighbors.
Naive Bayes.
Random Forest.
Stunting pada Anak
PENDAHULUAN
Stunting pada anak-anak merupakan permasalahan kesehatan yang serius yang harus segera ditangani.
Data dari PBB tahun 2020 menunjukkan bahwa lebih dari 149 juta atau sekitar 22% balita di seluruh dunia menderita stunting.
Di Indonesia, sekitar 6,3 juta balita terkena dampak kondisi ini .
, .
Indonesia sendiri menargetkan penurunan stunting sebesar 14% di tahun 2024 .
Namun, upaya penanggulangan stunting menghadapi tantangan dalam pendataan stunting yang lengkap dan konsisten.
Variabilitas dalam standar DOI: https://doi.
org/10.
57152/malcom.
MALCOM-04.
: 257-265
pengukuran, perbedaan metode pengumpulan data, serta keterbatasan sumber daya manusia dan teknologi di beberapa wilayah Indonesia menjadi hambatan utama dalam upaya pendataan stunting.
Untuk menyimpulkan kondisi seorang balita atau anak terkait stunting, dibutuhkan pendekatan yang holistik dan data yang komprehensif.
Evaluasi stunting pada seorang anak dapat melibatkan beberapa aspek, yaitu pengukuran antropometri, penilaian kesehatan secara keseluruhan, pemeriksaan gizi dan nutrisi, asesmen psikososial, riwayat perkembangan .
Namun, terkadang informasi yang diperoleh untuk melakukan evaluasi tidak akurat, hal ini dapat menghasilkan kesimpulan yang kurang tepat tentang kondisi stunting anak.
Akibatnya, penanganan atau intervensi yang diperlukan untuk mengatasi masalah stunting pada anak tersebut menjadi lambat.
Ketidaklengkapan atau ketidakakuratan informasi dalam evaluasi stunting dapat memperlambat identifikasi kasus-kasus stunting yang memerlukan perhatian khusus dan intervensi segera.
Permasalahan ini membutuhkan penanganan dalam memprediksi untuk menangani kasus-kasus stunting secara lebih efisien.
Diperlukan pendekatan yang lebih canggih dalam pengumpulan dan analisis data, serta perbaikan dalam infrastruktur pendataan dan penilaian stunting.
Dalam menangani masalah evaluasi stunting pada anak-anak, diperlukan penerapan teknik evaluasi yang lebih inovatif dengan menggunakan machine learning (ML) untuk memprediksi kemungkinan anak teridentifikasi mengalami stunting, sehingga langkah-langkah preventif dapat dilakukan secara lebih tepat dan proaktif.
Penerapan ML dalam klasifikasi melibatkan sejumlah algoritma yang dapat digunakan .
, .
Untuk mengembangkan model klasifikasi yang optimal, diperlukan eksperimen perbandingan beberapa algoritma menggunakan dataset yang spesifik agar mendapatkan gambaran yang komprehensif terkait performa algoritma klasifikasi dalam memprediksi kasus stunting dengan tingkat akurasi dan responsifitas yang lebih baik .
Tujuan dari penelitian ini adalah menentukan model klasifikasi yang terbaik dengan cara membandingkan kinerja dari tiga algoritma machine learning untuk memprediksi kasus stunting pada anak.
Diharapkan hasil penelitian akan memberikan pemahaman yang lebih tentang performa algoritma klasifikasi, sehingga memungkinkan pengembangan model yang lebih efektif dalam mendiagnosis kasus stunting pada anak lebih dini.
Penelitian ini memanfaatkan platform KNIME untuk mengelola, membersihkan, dan menganalisis data stunting pada anak-anak.
Melalui alat ini, peneliti dapat melakukan berbagai langkah pemrosesan data seperti pembersihan, transformasi, pemilihan fitur, dan pemisahan data secara efisien .
Harapannya, model hasil penelitian ini mampu menjadi landasan yang baik untuk deteksi dini kasus stunting, memungkinkan intervensi yang lebih tepat dan cepat bagi anak-anak yang membutuhkan perhatian kesehatan yang lebih intensif.
Dengan perbaikan dalam metode evaluasi, diharapkan dapat mengurangi dampak negatif jangka panjang dari kondisi stunting terhadap pertumbuhan dan perkembangan anak-anak.
LITERATURE REVIEW
Studi terdahulu tentang Stunting pada Anak-anak Stunting merujuk pada kondisi terhambatnya pertumbuhan anak secara fisik yang umumnya disebabkan oleh kekurangan gizi kronis dan kondisi lingkungan yang tidak memadai selama periode kritis pertumbuhan, biasanya dari masa kehamilan hingga dua tahun pertama kehidupan .
Stunting ditandai dengan tinggi badan yang lebih pendek dari rata-rata usia dan jenis kelamin anak, dan bisa memiliki dampak jangka panjang terhadap kesehatan fisik, kognitif, dan perkembangan anak.
Sejumlah studi terdahulu telah secara konsisten menyoroti stunting pada anak-anak sebagai hasil dari beragam faktor.
Faktor risiko terkait stunting pada anak-anak meliputi kondisi gizi yang tidak memadai, lingkungan yang kurang higienis, akses yang terbatas terhadap pelayanan Kesehatan .
Ae.
, serta faktor sosial ekonomi yang rendah .
Ae.
Dengan pemahaman yang lebih pada faktor-faktor penyebab stunting, memungkinkan penyedia layanan kesehatan dan pemangku kepentingan terkait dapat mengimplementasikan strategi yang lebih efektif untuk meningkatkan pemahaman pada masyarakat, guna mengurangi prevalensi stunting.
Model Klasifikasi untuk Mendiagnosis Stunting Model klasifikasi akan mencapai optimal, jika menggunakan algoritma yang sesuai dengan karakteristik Tidak ada satu metode yang menjadi pilihan terbaik untuk semua situasi.
Pemilihan model yang optimal membutuhkan pemahaman mendalam terhadap data dan tujuan analisisnya.
Algortima klasifikasi dapat diterapkan mendiagnosis Stunting adalah Random Forest.
Naive Bayes.
K-Nearest Neighbors (KNN).
Support Vector Machine (SVM).
Decision Tree dan Logistic Regression.
Beberapa penelitian yang bertujuan untuk membangun model klasifikasi stunting dilakukan oleh M.
Haris.
Anshori dan A.
Khudori .
membahasa tentang prevalensi stunting menggunakan Algoritma Random Forest dengan menggunakan data stunting di Provinsi Jawa Timur, menghasilkan nilai akurasi = 93% .
, penelitian lain yang dilakukan oleh Harliana dan Anggraini .
menggunakan algoritma nayve bayes dengan sumber data stunting dari Posyandu Desa Kalitengah menghasilkan nilai akurasi 87,3% .
Penelitian yang dilakukan oleh S.
Lonang and D.
Normawati .
menggunakan algoritma K-Nearest Neighbors (KNN) pada seluruh data anak Indonesia dengan penambahan teknik Backward Elimination dan parameter k=8 mencapai akurasi sebesar 92,20% .
Analisis Perbandingan Algoritma Machine Learning untuk.
(Putri et al, 2.
ISSN(P): 2797-2313 | ISSN(E): 2775-8575 Beberapa studi membandingkan berbagai model untuk menentukan model yang paling efektif dalam melakukan klasifikasi .
Evaluasi terhadap keakuratan, kehandalan, dan kesesuaian model tersebut dalam mendiagnosis stunting memberikan wawasan penting dalam mengembangkan solusi prediktif yang lebih tepat dan responsif terhadap kondisi stunting pada anak-anak.
Penelitian yang dilakukan oleh Lonang dkk .
melakukan evaluasi komparatif pada lima algoritma klasifikasi, yakni Logistic Regression.
Decision Tree .
Random Forest.
K-Nearest Neighbors (KNN), dan Support Vector Machine (SVM) untuk mengklasifikasi balita stunting.
Studi ini menggunakan dataset dari pencatatan dan pelaporan gizi balita berbasis masyarakat (EPPGBM) Puskesmas Ubung.
Lombok Tengah.
Indonesia.
Hasil penelitian ini menyimpulkan bahwa model KNN dinilai sebagai yang terbaik, dengan tingkat akurasi mencapai 94,85% .
Penelitian berbeda dilakukan oleh Kusumaningrum dkk .
mengevaluasi secara komparatif kinerja empat algoritma, yaitu Regresi logistik.
Naive Bayes.
Random Forest, dan Support Vector Machine (SVM) menggunakan data Indonesia.
Metode SVM digabungkan dengan TF-IDF menghasilkan nilai akurasi tertinggi sebesar 0,98 dengan standar deviasi 0,03 .
Perbandingan antara model klasifikasi dapat melibatkan beberapa metrik evaluasi untuk menghasilkan nilai Akurasi (Accurac.
Presisi (Precisio.
Recall (Sensitivit.
F1-Score dan Confusion Matrix.
Perbandingan model klasifikasi memberikan gambaran yang jelas tentang performa relatif dari setiap model dalam mendiagnosis stunting pada anak-anak.
Oleh karena itu, dengan mempertimbangkan keseluruhan evaluasi metrik-metrik tersebut akan mendapatkan gambaran yang holistik dan memilih model yang paling sesuai dengan kebutuhan spesifik dalam penanganan stunting pada anak-anak.
METODOLOGI PENELITIAN
Tahapan Penelitian Metodologi penelitian merujuk pada langkah-langkah sistematis yang digunakan untuk merencanakan, melaksanakan, dan menganalisis sebuah penelitian.
Pada penelitian ini, metodologi yang digunakan terdiri dari beberapa tahap.
Gambar 1 menjelaskan tentang tahapan penelitian dalam bentuk diagram .
Pengumpulan Data Pemrosesan Data Pemodelan Machine Learning .
Validasi Model Evaluasi Kinerja Model Interpretasi Hasil Gambar 1.
Tahapan penelitian Tahapan penelitian secara rinci melibatkan proses yang terstruktur untuk mengarahkan dan melaksanakan penelitian ini.
Berikut adalah penjelasan dari tahapan penelitian tersebut:
Pengumpulan Data Data yang digunakan tersebut terdiri dari jenis kelamin .
, umur .
, berat lahir .
irth weigh.
, panjang lahir .
irth lengt.
, berat badan .
ody weigh.
, panjang badan .
ody lengt.
, menyusui .
Sumber data berasal dari data stunting di Indonesia tahun 2022 dengan jumlah data = 10.
000 Jumlah data dari masing -masing atribut dijelaskan pada tabel 1.
Tabel 1.
Jumlah data pada masing-masing atribut Nama Variabel Jenis kelamin Umur Berat Lahir Katagori dan jumlah data Male = 6204 Female = 3792 0-5 bulan = 0 6-11 bulan = 3827 12-23 bulan = 5430 24-35 bulan = 248 36-47 bulan = 358 48-59 bulan = 137 0 Kg = 678 3 Kg = 1130 MALCOM - Vol.
4 Iss.
1 January 2024, pp: 257-265 MALCOM-04.
: 257-265
Nama Variabel Panjang Lahir berat badan Panjang Badan Stunting Katagori dan jumlah data 7 Kg = 483 8 Kg = 3409 9 Kg = 1807 0 Kg = 1969 1 Kg = 524 48 cm = 449 49 cm = 7928 50 cm = 1623 < 6.
0 Kg = 610 0 Ae 6.
9 Kg = 1931 0 Ae 7.
9 Kg = 3000 0 Ae 8.
9 Kg = 1722 0 Ae 9.
9 Kg = 1520 0 Ae 10.
9 Kg = 1217 < 50 cm =702 50 Ae 59 cm = 0 60 Ae 69 cm = 5729 70 Ae 79 cm = 2492 80 Ae 89 cm = 492 90 Ae 99 cm = 585 Yes = 7955 No = 2045 Sumber data: data stunting anak di Indonesia tahun 2023 Dataset stunting menggunakan tipe data numerik untuk mewakili katagori yang relevan dengan pertumbuhan dan kondisi kesehatan anak.
Data numerik ini memungkinkan model machine learning dapat bekerja dengan baik pada dataset tersebut.
Pemrosesan Data Penelitian ini menggunakan KNIME dalam pemrosesan data.
KNIME merupakan salah satu platform analisis data yang memungkinkan pemrosesan data yang efisien untuk pembangunan model data .
Dalam konteks penelitian ini.
KNIME digunakan untuk berbagai langkah pemrosesan data, termasuk membersihkan data, transformasi, pemilihan fitur, dan pemisahan data.
Kelebihan KNIME adalah antarmuka yang intuitif dengan pendekatan berbasis simpul .
ode-base.
yang memungkinkan peneliti untuk mengatur alur kerja .
secara visual.
Dengan memanfaatkan node-node yang tersedia, para peneliti dapat membangun dan mengatur proses pemrosesan data secara sistematis dan efektif serta memberikan fleksibilitas dalam menyesuaikan alur kerja .
sesuai dengan kebutuhan analisis yang spesifik .
Pemodelan Machine Learning (ML) Pemodelan ML pada penelitian ini menggunakan tiga model klasifikasi yaitu Naive Bayes.
Random Forest dan K-Nearest Neighbors (KNN).
1 Naive Bayes Naive Bayes adalah algoritma klasifikasi menggunakan teorema Bayes yang digunakan untuk memperbarui probabilitas suatu kejadian berdasarkan informasi baru.
Secara umum, rumus Bayes menyatakan bahwa probabilitas suatu kejadian yang terjadi .
berdasarkan informasi yang telah diamati .
dapat dihitung dari probabilitas kejadian tersebut terjadi .
dan probabilitas kejadian lain yang mungkin terjadi .
Dalam rumus ini, posterior probability .
robabilitas kelas setelah observasi fitu.
dapat dihitung dari likelihood probability .
robabilitas fitur terjadi pada kelas tertent.
dan prior probability .
robabilitas kelas sebelum melihat fitu.
Langkah-langkah algoritma Nayve Bayes adalah sebagai berikut :
Persiapan Data: Siapkan dataset dengan fitur-fitur yang menggambarkan entitas dan label kelas yang ingin diprediksi.
Bagi data menjadi data latih dan data uji.
Perhitungan Probabilitas kelas: Hitung probabilitas masing-masing kelas dari data latih.
Rumus Probabilitas Kelas (Prior.
, yaitu:
ayco ) = ycycycoycoycaEa ycycaycoycyyceyco yccyceycuyciycaycu ycoyceycoycayc yayco ycycuycycayco ycycycoycoycaEa ycycaycoycyyceyco Perhitungan Probabilitas Fitur Terhadap Kelas: Hitung probabilitas masing-masing fitur untuk setiap Rumus Probabilitas Fitur Terhadap Kelas (Likelihoo.
, yaitu Analisis Perbandingan Algoritma Machine Learning untuk.
(Putri et al, 2.
ISSN(P): 2797-2313 | ISSN(E): 2775-8575 ycE.
esycn yayco ) = ycycycoycoycaEa ycycaycoycyyceyco yccyceycuyciycaycu yceycnycycyc yesycn yccycaycoycayco ycoyceycoycayc yayco ycycycoycoycaEa ycycaycoycyyceyco yccycaycoycayco ycoyceycoycayc yayco Prediksi Kelas Baru: Dengan menggunakan probabilitas yang telah dihitung, untuk setiap data uji, hitung probabilitas kelas untuk setiap kemungkinan kelas berdasarkan fitur-fiturnya.
Ini melibatkan perkalian probabilitas fitur dalam kelas tertentu.
Kemudian, prediksi kelas dari data baru adalah kelas dengan probabilitas tertinggi.
Rumus Probabilitas Posterior (Predictiv.
, yaitu ycE .
ayco | yes1 , yes2 .
A , yesycu ) = ycE .
ayco ) x Oaycuycn=1 ycE.
ayco ) .
Dimana ycE .
ayco ) adalah probabilitas kelas yayco sebelum melihat data, ycE.
ayco ) adalah probabilitas fitur yesycn terjadi dalam kelas .
ayco ), ycE .
ayco | yes1 , yes2 .
A , yesycu ) adalah probabilitas posterior kelas yayco setelah melihat data dengan fitur yes1 , yes2 .
A , yesycu , ycu adalah jumlah fitur dalam data.
Evaluasi dan Validasi: Evaluasi performa model Nayve Bayes menggunakan data uji atau teknik validasi silang untuk mengevaluasi seberapa baik model tersebut dapat memprediksi kelas-kelas yang benar.
Data dalam penelitian ini diolah menggunakan platform KNIME sebagai alat utama untuk analisis.
Data disimpan dalam file Excel yang diakses oleh KNIME melalui node Excel Reader.
Total dataset yang digunakan adalah n=10,000, seperti yang dijelaskan dalam Tabel 1.
Dataset stunting tidak memiliki nilai null, sehingga tidak memerlukan penghapusan atau penggantian nilai kosong.
Kemudian, dataset stunting dipartisi menggunakan node partitioning dengan 95% data training dan 5% data testing.
Perbandingan antara jumlah data testing dan training ditentukan melalui serangkaian percobaan untuk memastikan diperolehnya nilai akurasi yang optimal.
Model klasifikasi Nayve Bayes dibangun menggunakan node Nayve Bayes Learner.
Model yang terbentuk diuji menggunakan node Nayve Bayes Predictor.
Hasil uji coba ditampilkan melalui node Scorer.
Workflow KNIME untuk algoritma Nayve Bayes ditampilkan pada Gambar 2.
Gambar 2.
Workflow KNIME untuk algoritma Nayve Bayes 2 K-Nearest Neighbors (KNN) KNN merupakan teknik yang memungkinkan klasifikasi objek dengan menggunakan data latih yang memiliki jarak paling dekat dengan objek yang akan diklasifikasikan.
Cara kerja KNN adalah dengan mencari jarak terpendek antara data yang akan diprediksi dengan k tetangga terdekatnya dalam kumpulan data KNN memiliki keunggulan dalam kemudahan pemahaman dan implementasi, serta fleksibilitasnya dalam menangani data non-linier dan dinamis tanpa memerlukan proses pelatihan yang kompleks.
Algoritma ini mampu menyesuaikan diri dengan data baru tanpa perlu pelatihan ulang, cocok untuk data yang tidak memiliki struktur yang jelas.
Namun.
KNN rentan terhadap perubahan skala fitur yang dapat memengaruhi kinerjanya, rentan terhadap nilai pencilan .
, dan membutuhkan komputasi yang tinggi karena perlu menghitung jarak dari setiap data baru ke semua data latih saat melakukan prediksi.
Prinsip utama KKN adalah dengan mencari k tetangga terdekat dari data yang akan diprediksi di dalam dataset latih, menggunakan pengukuran jarak dengan Euclidean distance .
KNN tidak melakukan proses pelatihan yang kompleks.
ia hanya menyimpan data latih untuk digunakan dalam pengklasifikasian data baru.
Dalam proses ini, pemilihan nilai k yang optimal sangat penting karena akan memengaruhi akurasi prediksi:
nilai k yang terlalu kecil bisa sensitif terhadap noise, sementara nilai k yang terlalu besar bisa memperkenalkan bias yang tidak diinginkan.
Langkah-langkah algoritma Euclidean distance adalah:
Pilih jumlah tetangga (K) yang akan digunakan untuk menentukan kelas.
Hitung jarak antara data baru dengan setiap data poin dalam dataset.
MALCOM - Vol.
4 Iss.
1 January 2024, pp: 257-265 MALCOM-04.
: 257-265
Pilih K data poin dengan jarak terdekat, lalu identifikasi kelas dari data baru berdasarkan mayoritas kelas dari tetangga-tetangga tersebut.
Persamaan Euclidean distance adalah sebagai berikut:
cu,y.
= ocycuycn=1.
cuycn Oe ycycn )2 .
Dimana ycuycn 1 adalah sampel data, ycycn adalah data uji dan ycc.
cu,y.
adalah jarak antara ycuycn dan ycycn Pada KNIME, pembentukan model klasifikasi menggunakan algoritma KNN dimulai dengan node Excel Reader.
Data kemudian dipartisi menjadi 95% untuk data training dan 5% untuk data testing.
Proses KNN melibatkan normalisasi data menjadi rentang .
Model klasifikasi KNN diimplementasikan menggunakan node K-Nearest Neighbor, dan hasil pengujian ditampilkan melalui node Scorer.
Workflow KNIME untuk algoritma K-Nearest Neighbors dapat dilihat pada Gambar 3.
Gambar 3.
Workflow KNIME untuk algoritma K-Nearest Neighbors 3 Random Forest (RF) RF merupakan sebuah algoritma yang termasuk dalam kategori ensemble learning.
RF memanfaatkan sejumlah besar pohon keputusan .
ecision tree.
yang bekerja secara bersamaan untuk melakukan prediksi atau klasifikasi.
Konsep RF adalah membuat sejumlah besar pohon keputusan yang masing-masing dihasilkan dari sampel acak dari dataset yang sama, namun bervariasi.
Setiap pohon dalam RF melakukan prediksi atau klasifikasi secara independen, dan output dari keseluruhan model diambil dari mayoritas hasil prediksi dari setiap pohon individual.
Keunggulan utama dari RF adalah kemampuannya dalam menangani dataset yang besar, menangani fitur-fitur yang tidak terlalu penting, serta kemampuannya untuk mengurangi overfitting yang umumnya terjadi pada pohon keputusan tunggal.
Namun meskipun Random Forest sangat efektif dalam mengatasi overfitting dan menghasilkan prediksi yang kuat, kekurangannya terletak pada proses pembuatan model yang melibatkan banyak pohon keputusan menjadi komputasi yang memakan waktu, terutama pada dataset besar, sementara interpretasi model kompleks dengan banyak pohon bisa sulit.
Meskipun algoritma ini secara alami mengurangi overfitting, keberadaan data noise atau fitur yang tidak relevan tetap bisa menyebabkan overfitting, serta pemilihan hyperparameter yang tidak tepat dapat memengaruhi kinerja secara keseluruhan, sementara penggunaan memori yang signifikan menjadi pertimbangan terutama pada model dengan jumlah pohon yang besar.
Rumus yang digunakan untuk membangun pohon keputusan adalah menggunkan metode C.
Langkah-langkah algoritma informasi gain dalam metode C.
45, adalah Hitung Entropi Data Awal menggunakan: Hitung nilai entropi dari kelas target sebelum membagi data berdasarkan atribut apa pun.
Entropi mengukur tingkat ketidakpastian atau keacakan dalam data.
Rumusnya adalah:
Oe Ocycaycn=1 ycyycn ycoycuyci2 .
Di mana ycyycn adalah proporsi data yang termasuk dalam kelas tertentu dari total kelas .
Hitung Entropi Setiap Atribut: Hitung entropi dari setiap atribut dengan menggunakan nilai atribut tersebut sebagai kriteria pemisahan.
Entropi dihitung untuk setiap nilai unik pada atribut tersebut.
Hitung Informasi Gain: Setelah mendapatkan entropi dari setiap atribut, hitung informasi gain untuk setiap atribut.
Informasi gain mengukur seberapa baik atribut tersebut dalam memisahkan data.
Rumusnya adalah:
ycI yaycaycnycu .
cI, y.
= .
cIyua | .
cI) Oe OcyuayunycOycaycoycyceyc.
| yua | O yaycuycycycuycyyc .
cIyua ) ycI Analisis Perbandingan Algoritma Machine Learning untuk.
(Putri et al, 2.
ISSN(P): 2797-2313 | ISSN(E): 2775-8575 Dimana S adalah dataset awal.
A adalah atribut yang sedang dievaluasi, ycOycaycoycyceyc.
adalah nilai-nilai unik yang dimiliki oleh atribut A, .
cIyu.
adalah jumlah data pada subset S dengan nilai A = yua, dan .
cI| adalah total jumlah data pada S.
Pilih Atribut dengan Informasi Gain Tertinggi: Pilih atribut dengan nilai informasi gain tertinggi sebagai kandidat pemisahan node pada pohon keputusan.
Langkah-langkah ini membantu C4.
5 dalam memilih atribut yang paling informatif untuk membuat keputusan pemisahan yang optimal dalam pembentukan pohon keputusan.
Pembentukan model klasifikasi menggunakan algoritma RF pada KNIME dimulai dengan node Excel Reader.
Data kemudian dipartisi menjadi 90% untuk data training dan 10% untuk data testing.
Model klasifikasi Random Forest diimplementasikan menggunakan node Random Forest learner.
Model yang terbentuk kemudian diuji menggunakan node Random Forest learner Predictor.
Hasil uji coba ditampilkan melalui node Scorer.
Workflow KNIME untuk algoritma Random Forest ditampilkan pada Gambar 4.
Gambar 4.
Workflow KNIME untuk Algoritma Random Forest 4 Evaluasi Kinerja Model Hasil evaluasi model klasifikasi dari ketiga algoritma machine learning yakini Naive Bayes.
K-Nearest Neighbors dan Random Forest dapat dilihat pada Tabel 2.
Tabel 2.
Hasil Evaluasi Model Klasifikasi Stunting Nilai Akurasi Accuracy Recall Precision F1-Score Naive Bayes K-Nearest Neighbors Random Forest Dari hasil evaluasi model klasifikasi stunting menggunakan tiga algoritma yang berbeda tersebut, maka dapat diambil kesimpulan, yaitu:
Performa Algoritma Dalam hal akurasi.
Random Forest menunjukkan hasil tertinggi dengan 87.
75%, diikuti oleh K-Nearest Neighbors dengan 84.
8%, dan Naive Bayes dengan 83.
Namun, ketika melihat Recall, yang mengukur kemampuan model dalam menemukan seluruh kasus stunted yang sebenarnya.
K-Nearest Neighbors memiliki nilai tertinggi .
, diikuti oleh Random Forest .
dan Naive Bayes .
Recall yang tinggi menunjukkan bahwa K-Nearest Neighbors cenderung lebih baik dalam menemukan kasus stunting dengan lebih baik daripada algoritma lainnya.
Presisi dan F1-Score Meskipun Recall K-Nearest Neighbors yang tinggi, perlu diperhatikan bahwa presisi Naive Bayes .
dan Random Forest .
hampir setara dengan nilai Recall-nya.
F1-Score .
ata-rata harmonis dari presisi dan recal.
Random Forest .
memiliki nilai tertinggi, menunjukkan keseimbangan yang baik antara presisi dan recall dalam mengidentifikasi kasus stunting.
Pertimbangan Holistik Dalam pemilihan model untuk mendiagnosis stunting, sementara Random Forest memiliki akurasi yang baik.
K-Nearest Neighbors menonjol dalam kemampuan menemukan sebagian besar kasus stunting yang sebenarnya.
Namun.
Random Forest memiliki keseimbangan yang baik antara presisi dan recall (F1-score tingg.
, menandakan bahwa model ini dapat menjadi pilihan yang baik untuk mendiagnosis stunting, menggabungkan akurasi yang baik dengan kemampuan menemukan kasus stunting yang lebih baik dari model lainnya dalam evaluasi ini.
MALCOM - Vol.
4 Iss.
1 January 2024, pp: 257-265 MALCOM-04.
: 257-265
KESIMPULAN
Hasil evaluasi menunjukkan bahwa Random Forest memiliki akurasi tertinggi dengan 87.
75%, diikuti oleh K-Nearest Neighbors dengan 84.
8%, dan Naive Bayes dengan 83.
Meskipun Random Forest memiliki akurasi yang baik.
K-Nearest Neighbors menonjol dalam kemampuan menemukan sebagian besar kasus stunting yang sebenarnya .
ilai Recall tertingg.
Namun.
Random Forest memiliki keseimbangan yang baik antara precision dan recall (F1-score tingg.
, menandakan bahwa model ini dapat menjadi pilihan yang baik untuk mendiagnosis stunting, menggabungkan akurasi yang baik dengan kemampuan menemukan kasus stunting yang lebih baik dari model lainnya dalam evaluasi ini.
Penelitian ini menyoroti pentingnya penerapan ML dalam mendiagnosis stunting pada anak-anak dan menyediakan pemahaman lebih lanjut tentang performa berbagai algoritma dalam hal prediksi stunting.
Diharapkan bahwa model hasil penelitian ini dapat menjadi landasan yang baik untuk deteksi dini kasus stunting, memungkinkan intervensi yang lebih tepat dan cepat bagi anak-anak yang membutuhkan perhatian kesehatan yang lebih intensif.
Dengan perbaikan dalam metode evaluasi, diharapkan dapat mengurangi dampak negatif jangka panjang dari kondisi stunting terhadap pertumbuhan dan perkembangan anak-anak.
REFERENSI