Institut Riset dan Publikasi Indonesia (IRPI) MALCOM: Indonesian Journal of Machine Learning and Computer Science Journal Homepage: https://journal.
id/index.
php/malcom Vol.
5 Iss.
3 July 2025, pp: 972-980
ISSN(P): 2797-2313 | ISSN(E): 2775-8575
Application of Ensemble Learning Technique for Classification of Anemia Types Penerapan Teknik Ensemble Learning untuk Klasifikasi Jenis-jenis Anemia Arjuna Priandika1.
Auliya Rahman Isnain2* Fakultas Teknik dan Ilmu Komputer.
Universitas Teknokrat Indonesia.
Lampung E-Mail: 1priandikaarjuna@gmail.
com, 2auliyarahman@teknokrat.
Received Oct 16th 2024.
Revised Jun 18th 2025.
Accepted Jul 12th 2025.
Available Online Jul 31th 2025.
Published Jul 31th 2025 Corresponding Author: Arjuna Priandika Copyright A 2025 by Authors.
Published by Institut Riset dan Publikasi Indonesia (IRPI) Abstract Anemia is a medical condition that requires accurate diagnosis for effective treatment.
This research explores the application of ensemble learning techniques, specifically the StackingClassifier, for the classification of anemia types.
This technique combines three basic models: Random Forest.
K-Nearest Neighbors (KNN), and Gradient Boosting, with Logistic Regression as the final estimator.
The medical data used involved various hematological features, and preprocessing included cleaning, normalization, and data sharing.
Model evaluation was performed using crossvalidation with 10 folds.
The results showed that the StackingClassifier achieved an overall accuracy of 98%, with excellent precision and recall in most classes.
Classes such as Iron deficiency anemia.
Leukemia, and Other microcytic anemia showed 100% precision, while some classes with small samples experienced lower recall.
Overall, the model is effective in classifying anemia types with high accuracy and can be adapted to further improve medical diagnosis.
This study highlights the potential of ensemble techniques in improving classification performance and suggests further exploration on data with uneven distributions.
Keyword: Anemia.
Ensemble Learning.
Medical Classification.
Random Forest.
StackingClassifier Abstrak Anemia merupakan kondisi medis yang memerlukan diagnosis yang akurat untuk penanganan yang efektif.
Penelitian ini mengeksplorasi penerapan teknik ensemble learning, khususnya stacking classifier, untuk klasifikasi jenis-jenis anemia.
Teknik ini menggabungkan tiga model dasar: Random Forest.
K-Nearest Neighbors (KNN), dan Gradient Boosting, dengan Logistic Regression sebagai estimator akhir.
Data medis yang digunakan melibatkan berbagai fitur hematologi, dan preprocessing meliputi pembersihan, normalisasi, serta pembagian data.
Evaluasi model dilakukan menggunakan cross-validation dengan 10 lipatan.
Hasil penelitian menunjukkan bahwa stacking classifier mencapai akurasi keseluruhan 98%, dengan precision dan recall yang sangat baik di sebagian besar kelas.
Kelas-kelas seperti Iron deficiency anemia.
Leukemia, dan Other microcytic anemia menunjukkan precision 100%, sementara beberapa kelas dengan sampel kecil mengalami recall yang lebih rendah.
Secara keseluruhan, model ini efektif dalam mengklasifikasikan jenis-jenis anemia dengan akurasi tinggi dan dapat diadaptasi untuk meningkatkan diagnosis medis lebih lanjut.
Penelitian ini menyoroti potensi teknik ensemble dalam memperbaiki performa klasifikasi dan menyarankan eksplorasi lebih lanjut pada data dengan distribusi yang tidak merata.
Kata Kunci: Anemia.
Ensemble Learning.
Stacking Classifier.
Klasifikasi Medis.
Random Forest
PENDAHULUAN
Anemia adalah salah satu kondisi medis yang paling umum di dunia, mempengaruhi jutaan orang dari berbagai usia dan latar belakang.
Kondisi ini ditandai oleh penurunan jumlah sel darah merah atau kadar hemoglobin dalam darah, yang berfungsi untuk mengangkut oksigen ke seluruh tubuh .
Ketika jumlah sel darah merah atau hemoglobin berkurang, tubuh tidak mendapatkan oksigen yang cukup, yang dapat mengakibatkan berbagai gejala seperti kelelahan, pusing, sesak napas, dan dalam kasus yang parah, dapat DOI: https://doi.
org/10.
57152/malcom.
ISSN(P): 2797-2313 | ISSN(E): 2775-8575
menyebabkan kerusakan organ atau kematian .
Identifikasi dini dan akurat terhadap jenis anemia sangat penting untuk memberikan pengobatan yang tepat dan mengurangi risiko komplikasi lebih lanjut .
Terdapat berbagai jenis anemia yang berbeda penyebab dan dampaknya, termasuk anemia defisiensi besi, anemia megaloblastik, anemia hemolitik, anemia aplastik, dan anemia akibat penyakit kronis.
Masingmasing jenis ini membutuhkan pendekatan pengobatan yang berbeda .
Misalnya, anemia defisiensi besi diobati dengan suplementasi zat besi, sementara anemia yang disebabkan oleh penyakit kronis mungkin memerlukan penanganan penyakit yang mendasarinya .
Oleh karena itu, diagnosis yang tepat mengenai jenis anemia merupakan langkah kritis dalam pengelolaan pasien.
Kemajuan dalam teknologi informasi, terutama dalam bidang analisis data dan machine learning, telah membuka peluang baru untuk meningkatkan akurasi dan efisiensi diagnosis medis.
Di antara berbagai pendekatan dalam machine learning, teknik ensemble learning telah menjadi salah satu yang paling Ensemble learning merupakan metode yang menggabungkan beberapa model prediksi untuk menghasilkan hasil yang lebih akurat dan stabil dibandingkan dengan model tunggal .
Dengan menggabungkan berbagai algoritma yang berbeda, seperti Random Forest.
K-Nearest Neighbors (KNN), dan Gradient Boosting, ensemble learning dapat mengatasi kelemahan yang ada pada masing-masing model dan meningkatkan kemampuan generalisasi terhadap data yang belum pernah dilihat sebelumnya .
Random Forest, misalnya, adalah teknik ensemble yang menggunakan kumpulan pohon keputusan untuk melakukan klasifikasi.
Setiap pohon dalam hutan memprediksi kelas, dan kelas yang paling banyak dipilih oleh semua pohon menjadi prediksi akhir .
Penggunaan Random Forest dapat mengurangi risiko overfitting yang sering terjadi pada pohon keputusan tunggal, karena ia memanfaatkan banyak model untuk menghasilkan keputusan yang lebih stabil dan robust.
Selain itu.
Random Forest juga memiliki kemampuan untuk menangani data dengan jumlah fitur yang besar dan kompleks, menjadikannya pilihan yang baik untuk analisis data medis yang seringkali melibatkan banyak variable .
KNN adalah metode non-parametrik yang mengklasifikasikan data berdasarkan kedekatannya dengan data lain dalam ruang fitur.
Meskipun konsepnya sederhana.
KNN efektif dalam menangani masalah klasifikasi dengan distribusi data yang kompleks dan tidak memerlukan asumsi distribusi data sebelumnya.
Kelebihan KNN terletak pada kemampuannya dalam menangani dataset yang tidak linier dan fleksibilitasnya dalam berbagai jenis data .
Dalam konteks klasifikasi jenis anemia, penggunaan teknik ensemble ini dapat menawarkan solusi yang lebih akurat dibandingkan metode tradisional.
Beberapa penelitian sebelumnya telah mengaplikasikan teknik seperti Random Forest.
KNN, dan Gradient Boosting untuk klasifikasi anemia, yang menunjukkan peningkatan akurasi prediksi.
Misalnya, penelitian oleh El-Boghdady et al.
, .
menggunakan Random Forest untuk mendiagnosis anemia dan melaporkan bahwa teknik ini memberikan akurasi yang lebih tinggi dibandingkan dengan metode SVM (Support Vector Machin.
Penelitian lainnya oleh Faradila et al.
membandingkan KNN dengan metode regresi logistik dalam klasifikasi anemia, dan menemukan bahwa KNN lebih efektif dalam menangani dataset dengan distribusi yang tidak linier .
Sedangkan dalam penelitian oleh Noviandy et al.
, .
Gradient Boosting terbukti lebih unggul dalam meningkatkan akurasi klasifikasi pada data medis yang tidak seimbang, seperti pada kasus anemia dengan jumlah data pasien yang terbatas .
Penelitian ini mengusulkan penggunaan gabungan dari ketiga teknik ensemble tersebut, yang belum banyak dieksplorasi secara bersamaan dalam klasifikasi anemia.
Pendekatan ini memungkinkan pemanfaatan kekuatan masing-masing model dalam menangani kompleksitas data medis, seperti variasi dalam parameter hematologi, serta mengurangi risiko bias atau kesalahan yang mungkin muncul jika hanya menggunakan satu Dengan demikian, penelitian ini berfokus pada integrasi informasi dari berbagai fitur medis yang relevan, yang sering kali tidak dapat dilakukan oleh model tunggal dengan tingkat akurasi yang sama.
Hal ini menjadi novelty dari penelitian ini, karena belum ada studi yang secara komprehensif mengkombinasikan ketiga teknik ensemble untuk klasifikasi anemia dengan pendekatan yang lebih holistic.
Dengan menggabungkan data medis yang relevan dengan model ensemble learning yang canggih, penelitian ini diharapkan dapat memberikan kontribusi yang signifikan terhadap peningkatan diagnosis anemia.
Selain itu, hasil penelitian ini diharapkan dapat membuka jalan bagi penerapan yang lebih luas dari teknik ensemble learning dalam bidang medis lainnya, mendukung perkembangan teknologi diagnostik yang lebih akurat dan Melalui penelitian ini, diharapkan juga dapat ditemukan metode baru yang dapat diadopsi oleh klinisi untuk meningkatkan pengelolaan dan pengobatan anemia serta kondisi medis lainnya yang kompleks.
METODE PENELITIAN
Ensemble Learning Penelitian ini memanfaatkan teknik ensemble learning, yang menggabungkan beberapa model pembelajaran mesin untuk meningkatkan akurasi prediksi dibandingkan dengan model tunggal.
Teknik ensemble bekerja dengan mengkombinasikan keputusan dari berbagai model untuk menghasilkan prediksi akhir yang lebih stabil dan akurat .
Beberapa metode ensemble yang digunakan dalam penelitian ini adalah Random Forest.
Gradient Boosting, dan AdaBoost.
MALCOM - Vol.
5 Iss.
3 July 2025, pp: 972-980 MALCOM-05.
: 972-980
Selain itu, penelitian ini juga menerapkan Stacking Classifier, sebuah teknik ensemble yang menggabungkan beberapa model dasar .
ase learner.
melalui sebuah model meta .
eta-learne.
untuk menghasilkan prediksi akhir .
alam pendekatan stacking, prediksi dari model-model dasar digunakan sebagai fitur input bagi model meta, yang kemudian memberikan keputusan akhir.
Teknik ini memungkinkan pemanfaatan kelebihan dari berbagai model dasar yang berbeda untuk mengatasi kelemahan masing-masing, sehingga meningkatkan akurasi dan robustness dari hasil prediksi.
Pada penelitian ini, model dasar yang digunakan adalah Random Forest.
KNN, dan Gradient Boosting, dengan Logistic Regression sebagai estimator akhir atau meta-learner yang mengintegrasikan output dari ketiga model dasar tersebut.
Dataset Dataset yang digunakan dalam penelitian ini merupakan data hitung darah lengkap (Complete Blood Count atau CBC) yang telah diberi label dengan jenis anemia.
Data ini dikumpulkan dari berbagai pemeriksaan CBC dan telah didiagnosis secara manual.
Dataset ini diperoleh dari Kaggle, yang tersedia di link https://w.
com/datasets/ehababoelnaga/anemia-types-classification.
Dataset ini mencakup beberapa fitur medis penting yang relevan untuk klasifikasi anemia .
, termasuk:
Penelitian ini memanfaatkan teknik ensemble learning, yang menggabungkan beberapa model pembelajaran mesin untuk meningkatkan akurasi prediksi dibandingkan dengan model tunggal.
Teknik ensemble bekerja dengan mengkombinasikan keputusan dari berbagai model untuk menghasilkan prediksi akhir yang lebih stabil dan akurat .
Beberapa metode ensemble yang digunakan dalam penelitian ini adalah Random Forest.
Gradient Boosting, dan AdaBoost.
Hemoglobin (HGB): Jumlah hemoglobin dalam darah, yang penting untuk transportasi oksigen.
Platelet (P1T): Jumlah trombosit dalam darah, yang terlibat dalam proses pembekuan darah.
White Blood Cell (WBC): Jumlah sel darah putih, yang vital untuk respon imun tubuh.
Red Blood Cell (RBC): Jumlah sel darah merah, yang bertanggung jawab untuk transportasi oksigen.
Mean Corpuscular Volume (MCV): Volume rata-rata dari satu sel darah merah.
Mean Corpuscular Hemoglobin (MCH): Jumlah rata-rata hemoglobin per sel darah merah.
Mean Corpuscular Hemoglobin Concentration (MCHC): Konsentrasi rata-rata hemoglobin dalam sel darah merah.
Platelet Distribution Width (PDW): Pengukuran variabilitas dalam distribusi ukuran trombosit dalam Procalcitonin (PCT): Tes prokalsitonin yang dapat membantu dalam diagnosis sepsis akibat infeksi bakteri atau untuk menilai risiko tinggi pengembangan sepsis.
Diagnosis: Jenis anemia berdasarkan parameter-parameter CBC.
Dataset ini mencakup beberapa jenis anemia, yang dapat mencakup anemia defisiensi besi, anemia megaloblastik, anemia hemolitik, dan jenis-jenis lain yang didiagnosis berdasarkan parameter-parameter CBC yang tersedia.
Setiap jenis anemia dikategorikan secara eksplisit dalam fitur AuDiagnosisAy yang menjadi target klasifikasi dalam penelitian ini.
Pre-processing data Preprocessing data adalah langkah krusial dalam pipeline analisis data yang bertujuan untuk mempersiapkan data mentah menjadi format yang dapat diolah oleh model pembelajaran mesin .
Proses ini mencakup beberapa tahap penting yang memastikan kualitas dan konsistensi data, serta meminimalkan bias yang dapat mempengaruhi hasil analisis.
Langkah-langkah dalam preprocessing data ini meliputi pembersihan data, normalisasi data, dan pembagian data, yang semuanya penting untuk memastikan integritas data dan efektivitas model yang dikembangkan.
Pembersihan Data Tahap pertama dalam preprocessing adalah pembersihan data, yang melibatkan identifikasi dan penanganan entri yang tidak lengkap atau tidak valid .
Data yang hilang atau tidak konsisten dapat menyebabkan distorsi dalam model pembelajaran mesin jika tidak ditangani dengan benar.
Untuk menjaga kualitas dataset, entri dengan nilai yang hilang melebihi ambang batas tertentu dihapus.
Ini dilakukan untuk memastikan bahwa data yang digunakan dalam pelatihan model adalah data yang representatif dan lengkap.
Untuk nilai hilang yang tersisa, teknik imputasi digunakan untuk menggantikan nilai-nilai yang hilang dengan nilai yang masuk akal, seperti rata-rata atau median dari fitur tersebut .
Imputasi ini bertujuan untuk mempertahankan integritas statistik dari data sambil menghindari penghapusan data yang berpotensi Normalisasi Data Setelah data dibersihkan, langkah berikutnya adalah normalisasi data.
Normalisasi adalah proses transformasi fitur-fitur dalam dataset sehingga memiliki rentang nilai yang seragam, yang penting untuk Penerapan Teknik Ensemble Learning untuk Klasifikasi.
(Priandika and Isnain, 2.
ISSN(P): 2797-2313 | ISSN(E): 2775-8575 memastikan bahwa model pembelajaran mesin tidak terpengaruh oleh skala fitur yang berbeda .
Normalisasi dilakukan dengan menggunakan teknik min-max scaling, di mana setiap nilai fitur dinormalisasi ke dalam rentang .
, .
menggunakan persamaan 1.
ycuA = ycuOeycoycnycu.
cU) ycoycaycu.
cU)Oeycoycnycu.
cU) .
di mana x adalah nilai fitur asli, "min" (X) dan max(X) adalah nilai minimum dan maksimum dari fitur Proses ini memastikan bahwa semua fitur memiliki kontribusi yang seimbang dalam model dan memudahkan proses pelatihan.
Pembagian Data Pembagian data adalah tahap yang membagi dataset menjadi dua subset: set pelatihan dan set Set pelatihan digunakan untuk melatih model, sementara set pengujian digunakan untuk mengevaluasi performa model pada data yang tidak terlihat sebelumnya.
Pembagian ini biasanya dilakukan dengan proporsi 80% untuk set pelatihan dan 20% untuk set pengujian .
Pembagian ini bertujuan untuk memastikan bahwa model dilatih dengan data yang representatif dan diuji dengan data yang relevan untuk mengukur kemampuannya dalam generalisasi.
Implementasi Model Penelitian ini menerapkan tiga teknik pembelajaran mesin yang berbeda yaitu Random Forest.
KNN, dan Gradient Boosting untuk klasifikasi jenis-jenis anemia berdasarkan data hitung darah lengkap CBC.
Masing-masing model memiliki karakteristik dan pendekatan yang berbeda dalam menangani masalah klasifikasi, dan implementasi serta evaluasi dilakukan untuk menentukan model mana yang memberikan kinerja terbaik.
Random Forest dibangun dengan 10 pohon keputusan.
Pada setiap split, model memilih fitur terbaik dari subset fitur yang dipilih secara acak.
Prediksi akhir dari Random Forest adalah hasil voting mayoritas dari semua pohon menggunakan persamaan 2.
yC = mode.
}M .
di mana ycC adalah prediksi akhir, ycA adalah jumlah pohon dalam hutan, dan Eayco .
adalah prediksi dari pohon ke-m untuk input ycu.
Model KNN dibangun dengan menentukan nilai K, yaitu jumlah tetangga terdekat yang akan dipertimbangkan untuk melakukan klasifikasi.
Jarak yang paling umum digunakan adalah Euclidean distance, yang didefinisikan seperti pada persamaan 3.
cu, ycu A ) = ocycuycn=1.
cuycn Oe ycuycnA )2 .
di mana ycu dan ycuA adalah dua vektor fitur, dan ycu adalah jumlah fitur.
Persamaan umum KNN dapat dirumuskan pada persamaan 4.
ycC = mode.
c1 , yc2 .
A , ycya } .
di mana yc1 , yc2 .
A , ycya adalah label kelas dari tetangga terdekat berdasarkan jarak Euclidean, dan ycC adalah prediksi kelas dari data x.
KNN adalah algoritma non-parametrik yang bekerja dengan membandingkan titik data baru dengan tetangga-tetangganya yang paling dekat.
Metode ini digunakan karena kemampuannya untuk menangani data yang tidak linier tanpa perlu asumsi distribusi data sebelumnya.
Seperti yang dijelaskan oleh Sadrabadi et al.
, .
"KNN adalah metode yang sangat intuitif, sederhana, dan efektif dalam berbagai aplikasi klasifikasi" .
Gradient Boosting dibangun dengan serangkaian pohon keputusan sebagai model dasar, di mana setiap pohon dilatih untuk meminimalkan residual error dari model sebelumnya.
Proses ini dilakukan dalam beberapa iterasi, dengan setiap iterasi memperbaiki kesalahan prediksi dari iterasi sebelumnya .
Model Gradient Boosting dihasilkan dengan menambahkan kontribusi dari masing-masing pohon yang ditimbang oleh learning rate .
uC) seperti pada rumus 5.
yaycA .
= yaycAOe1 .
UI EaycA .
MALCOM - Vol.
5 Iss.
3 July 2025, pp: 972-980 MALCOM-05.
: 972-980
HASIL DAN PEMBAHASAN
Exploratory Data Analysis Untuk memperoleh wawasan lebih lanjut tentang distribusi jumlah data dalam setiap kategori diagnosis, sebuah plot histogram digunakan.
Plot ini menggambarkan frekuensi atau jumlah sampel yang tersedia untuk masing-masing kategori diagnosis, memberikan visualisasi yang jelas tentang ketidakseimbangan dalam dataset.
Hasil visualisasi distribusi jumlah data per kategori diagnosis dapat dilihat Gambar 1.
Gambar 1.
Distribusi Data per Kategori Hasil analisis distribusi jumlah data untuk setiap kategori diagnosis menunjukkan ketidakmerataan yang signifikan antara kelas-kelas dalam dataset.
Kategori Healthy memiliki jumlah sampel tertinggi yaitu 336, diikuti oleh Normocytic hypochromic anemia dengan 279 sampel dan Normocytic normochromic anemia dengan 269 sampel.
Jumlah data yang lebih besar pada kategori-kategori ini memungkinkan model untuk mempelajari karakteristik dengan lebih mendalam dan menghasilkan klasifikasi yang lebih akurat untuk kondisi sehat serta anemia normositik.
Sebaliknya, kategori Iron deficiency anemia, meskipun memiliki jumlah sampel yang relatif lebih besar dengan 189 sampel, masih kurang dibandingkan dengan kategori utama, namun tetap memberikan informasi yang memadai untuk klasifikasi.
Sebaliknya, beberapa kategori menunjukkan jumlah data yang sangat rendah, seperti Leukemia with thrombocytopenia dengan hanya 11 sampel.
Macrocytic anemia dengan 18 sampel, dan Leukemia dengan 47 Kategori-kategori ini mengalami ketidakseimbangan yang signifikan dibandingkan dengan kategori lainnya, yang dapat mempengaruhi performa model dalam hal akurasi dan generalisasi.
Kategori dengan data terbatas mungkin menghadapi risiko overfitting atau underfitting, sehingga mengharuskan penggunaan teknik khusus seperti oversampling untuk kategori minor atau undersampling untuk kategori mayor untuk menangani ketidakseimbangan ini secara efektif.
Untuk memberikan wawasan lebih mendalam mengenai distribusi fitur hematologi di berbagai diagnosis anemia, berikut ini ditampilkan serangkaian plot distribusi yang dapat dilihat pada Gambar 2.
Berdasarkan Gambar 2, analisis rata-rata fitur berdasarkan diagnosis menunjukkan perbedaan signifikan dalam profil hematologi antar kategori.
Untuk jumlah sel darah putih (WBC), "Leukemia" memiliki nilai tertinggi, menandakan peningkatan jumlah sel darah putih khas pada kondisi ini, sedangkan "Macrocytic anemia" dan "Thrombocytopenia" menunjukkan nilai lebih rendah.
Persentase limfosit (LYM.
cenderung rendah pada "Leukemia with thrombocytopenia" dan lebih tinggi pada "Iron deficiency anemia".
Persentase neutrofil (NEUT.
sangat tinggi pada "Normocytic hypochromic anemia", menandakan respon inflamasi yang kuat.
Nilai RBC dan HGB lebih rendah pada "Iron deficiency anemia" dan "Macrocytic anemia", sesuai dengan ciri khas anemia tersebut.
MCV menunjukkan nilai sangat tinggi pada "Macrocytic anemia", mencerminkan sel darah merah yang lebih besar.
MCH dan MCHC tertinggi pada "Normocytic normochromic anemia", menandakan konsentrasi hemoglobin yang lebih tinggi.
PLT sangat rendah pada Penerapan Teknik Ensemble Learning untuk Klasifikasi.
(Priandika and Isnain, 2.
ISSN(P): 2797-2313 | ISSN(E): 2775-8575 "Leukemia with thrombocytopenia" dan tinggi pada kategori lainnya.
PDW dan PCT menunjukkan variasi yang lebih besar pada "Thrombocytopenia", mencerminkan perubahan dalam ukuran dan proporsi trombosit.
Gambar 2.
Distribusi Rata-rata Fitur Hasil Implementasi Model Dalam penelitian ini, teknik ensemble learning diterapkan menggunakan Stacking Classifier yang merupakan teknik ensemble yang menggabungkan beberapa model pembelajaran dasar .
ase model.
melalui model meta .
eta-learne.
untuk meningkatkan akurasi prediksi.
Dalam penelitian ini, tiga model dasar digunakan, yaitu Random Forest.
KNN, dan Gradient Boosting.
Output dari ketiga model ini kemudian menjadi input bagi model Logistic Regression yang berperan sebagai meta-learner.
Logistic Regression mengintegrasikan prediksi dari ketiga model dasar untuk menghasilkan prediksi akhir yang lebih akurat.
Konfigurasi dari model yang digunakan dapat dilihat pada Tabel 1.
Tabel 1.
Konfigurasi Model Komponen Random Forest K-Nearest Neighbors Gradient Boosting Estimator Cross-Validation Konfigurasi n_estimators=10, random_state=42 n_neighbors=10 Standart Logistic Regression Cv=10 Berdasarkan Tabel 1, implementasi teknik ensemble learning melalui Stacking Classifier dalam penelitian ini melibatkan tiga model dasar, yaitu Random Forest.
KNN, dan Gradient Boosting.
Konfigurasi model dasar Random Forest diatur dengan 10 pohon keputusan .
_estimators=.
, bersama dengan pengaturan random_state=42 untuk memastikan hasil yang konsisten dan terukur.
Model ini efektif dalam menangani variabilitas data dengan memanfaatkan keputusan dari berbagai pohon.
KNN, diatur dengan 10 tetangga terdekat .
_neighbors=.
, berfungsi dengan mengklasifikasikan data berdasarkan kedekatannya dengan tetangga terdekat, yang memungkinkan pemodelan hubungan lokal dalam data.
Sementara itu.
Gradient Boosting menggunakan konfigurasi standar untuk meningkatkan akurasi melalui metode boosting, yang memperbaiki prediksi model sebelumnya dengan menambahkan model-model baru yang mengurangi Estimator akhir dalam konfigurasi ini adalah Logistic Regression, yang mengintegrasikan prediksi dari ketiga model dasar untuk menghasilkan keputusan akhir yang lebih akurat.
Logistic Regression bertindak MALCOM - Vol.
5 Iss.
3 July 2025, pp: 972-980 MALCOM-05.
: 972-980
sebagai model akhir yang menyaring dan menggabungkan hasil dari model-model dasar, memastikan prediksi yang lebih terintegrasi dan lebih baik.
Evaluasi model dilakukan menggunakan teknik crossvalidation dengan 10 lipatan .
Metode ini memastikan evaluasi yang robust dan mencegah overfitting, dengan memberikan gambaran yang lebih akurat tentang kemampuan model dalam menggeneralisasi pada data yang tidak terlihat sebelumnya.
Dengan konfigurasi ini.
Stacking Classifier mampu menggabungkan kekuatan model-model dasar untuk mencapai hasil klasifikasi yang optimal, menunjukkan performa yang tinggi dalam mengidentifikasi berbagai jenis anemia secara efektif.
Hasil Evaluasi Model Penelitian ini menerapkan Stacking Classifier untuk klasifikasi jenis-jenis anemia, yang menggabungkan Random Forest Classifier.
KNN Classifier, dan Gradient Boosting Classifier dengan Logistic Regression sebagai estimator akhir.
StackingClassifier menggabungkan tiga model pembelajaran mesin (Random Forest Classifier.
KNN Classifier, dan Gradient Boosting Classifie.
dengan Logistic Regression sebagai model final.
Hasil evaluasi dari Stacking Classifier berdasarkan laporan klasifikasi dapat dilihat pada Tabel 2.
Tabel 2.
Hasil Evaluasi Ensemble Learning Kelas Healthy Iron deficiency anemia Leukemia Leukemia with thrombocytopenia Macrocytic anemia Normocytic hypochromic anemia Normocytic normochromic anemia Other microcytic anemia Thrombocytopenia Accuracy Macro Average Weighted Average Precision Recall F1-Score Berdasarkan Tabel 2, menunjukkan performa yang sangat baik dalam klasifikasi jenis-jenis anemia dengan akurasi keseluruhan mencapai 98%.
Model ini menunjukkan precision tertinggi untuk kelas Iron deficiency anemia.
Leukemia, dan Other microcytic anemia, dengan nilai precision 100%, menandakan bahwa model sangat akurat dalam mengidentifikasi jenis-jenis anemia ini tanpa banyak false positives.
Precision untuk kelas Healthy adalah 95%, menunjukkan ketepatan yang sangat baik dalam mengklasifikasikan kondisi sehat.
Dalam hal recall.
Healthy mencapai nilai sempurna 100%, yang menunjukkan bahwa model berhasil mendeteksi semua kasus sehat dalam dataset.
Kelas Leukemia juga memiliki recall 100%, menandakan deteksi penuh untuk semua kasus leukemia.
Namun, beberapa kelas dengan jumlah sampel kecil, seperti Leukemia with thrombocytopenia dan Macrocytic anemia, menunjukkan recall yang lebih rendah 67%, mengindikasikan bahwa model menghadapi tantangan dalam mendeteksi semua kasus dari kelas-kelas ini.
F1-Score, yang menggabungkan precision dan recall, menunjukkan performa yang sangat baik di sebagian besar kelas.
Kelas Leukemia.
Other microcytic anemia, dan Iron deficiency anemia mencapai nilai F1-Score tertinggi yaitu 100%, mencerminkan keseimbangan yang sangat baik antara precision dan recall.
Sebaliknya.
Leukemia with thrombocytopenia dan Macrocytic anemia memiliki F1-Score yang lebih rendah 80%, menunjukkan adanya trade-off antara precision dan recall dalam klasifikasi kelas-kelas ini.
Secara keseluruhan.
Stacking Classifier membuktikan kemampuannya dalam mengklasifikasikan jenis-jenis anemia dengan akurasi dan keandalan yang tinggi.
Meskipun terdapat beberapa tantangan dalam mendeteksi kasuskasus dari kelas dengan jumlah sampel kecil, model ini secara efektif menangani klasifikasi multi-kelas dengan performa yang sangat memuaskan.
KESIMPULAN
Penelitian ini berhasil mencapai tujuan utamanya, yaitu mengembangkan model klasifikasi yang akurat untuk mendeteksi berbagai jenis anemia menggunakan teknik ensemble learning dengan Stacking Classifier.
Hasil yang diperoleh menunjukkan bahwa kombinasi model Random Forest.
KNN, dan Gradient Boosting yang diintegrasikan melalui Logistic Regression mampu memberikan akurasi yang tinggi, dengan performa yang konsisten dalam berbagai pengujian menggunakan cross-validation.
Berdasarkan evaluasi terbaik yang diperoleh, model Stacking Classifier menunjukkan akurasi keseluruhan mencapai 98%.
Model ini memiliki precision tertinggi pada kelas Iron deficiency anemia.
Leukemia, dan Other microcytic anemia, masing-masing dengan nilai precision 100%, yang menandakan kemampuan model yang sangat akurat dalam mengidentifikasi jenis-jenis anemia ini tanpa banyak false positives.
Selain itu, recall terbaik tercatat pada Penerapan Teknik Ensemble Learning untuk Klasifikasi.
(Priandika and Isnain, 2.
ISSN(P): 2797-2313 | ISSN(E): 2775-8575 kelas Healthy dan Leukemia, keduanya dengan nilai 100%, yang menunjukkan bahwa model berhasil mendeteksi semua kasus pada kelas ini.
F1-Score juga mencapai 100% untuk kelas Iron deficiency anemia.
Leukemia, dan Other microcytic anemia, yang mencerminkan keseimbangan yang sangat baik antara precision dan recall.
Namun, kelas dengan jumlah sampel kecil, seperti Leukemia with thrombocytopenia dan Macrocytic anemia, menunjukkan recall lebih rendah pada 67% dan F1-Score 80%, mencerminkan tantangan dalam mendeteksi semua kasus dari kelas-kelas ini.
Secara keseluruhan.
Stacking Classifier terbukti efektif dalam mengklasifikasikan berbagai jenis anemia dengan akurasi dan keandalan yang tinggi.
Penelitian ini menunjukkan potensi besar teknik ensemble learning dalam mengatasi masalah klasifikasi medis yang kompleks, dan dapat dilanjutkan dengan pengujian lebih lanjut pada dataset yang lebih besar serta eksperimen dengan model dasar lain untuk meningkatkan performa.
REFERENSI