Infotekmesin Vol.
No.
Juli 2025 p-ISSN: 2087-1627, e-ISSN: 2685-9858 DOI: 10.
35970/ infotekmesin.
2798, pp.
Evaluasi Kinerja Model Machine Learning dalam Klasifikasi Penyakit THT: Studi Komparatif Nayve Bayes.
SVM, dan Random Forest Nur Wachid Adi Prasetya1*.
Linda Perdana Wanti2.
Riyadi Purwanto3.
Isa Bahroni4.
Rostika Listyaningrum5 1,4Program Studi Sarjana Terapan Teknologi Rekayasa Multimedia.
Politeknik Negeri Cilacap 2Program Studi Sarjana Terapan Rekayasa Keamanan Siber.
Politeknik Negeri Cilacap 3,5Program Studi Teknik Informatika.
Politeknik Negeri Cilacap 1,2,3,4,5Jln.
Dr.
Soetomo No.
1 Karangcengis Sidakaya.
Kabupaten Cilacap, 53212.
Indonesia E-mail: nwap.
pnc@pnc.
id1, linda_perdana@pnc.
id2, riyadi_purwanto@pnc.
isabahroni@pnc.
id4, li_sa007@pnc.
Abstrak Info Naskah:
Naskah masuk: 28 Mei 2025 Direvisi: 26 Juni 2025 Diterima: 2 Juli 2025 Klasifikasi penyakit Telinga.
Hidung, dan Tenggorokan (THT) penting dilakukan untuk membantu diagnosis lebih cepat dan akurat.
Namun, hingga kini belum ada studi yang secara khusus membandingkan performa algoritma Nayve Bayes.
Support Vector Machine (SVM), dan Random Forest dalam kasus penyakit THT.
Penelitian ini bertujuan mengevaluasi dan membandingkan ketiga model klasifikasi tersebut dalam mengenali penyakit THT dengan atau tanpa komorbiditas.
Data diperoleh dari rekam medis rumah sakit, diolah melalui pra-pemrosesan, seleksi fitur menggunakan ANOVA, serta penyeimbangan data dengan SMOTE.
Hasil menunjukkan bahwa SVM memiliki kinerja terbaik .
kurasi 59%), diikuti Random Forest .
%), dan Nayve Bayes .
%).
SVM unggul karena konsistensi tinggi pada semua metrik evaluasi.
Penelitian ini menyimpulkan bahwa pemilihan model klasifikasi sangat mempengaruhi akurasi diagnosis penyakit THT.
Abstract Keywords:
ent classification.
nayve bayes.
random forest.
Classification of Ear.
Nose, and Throat (ENT) diseases is essential to support faster and more accurate diagnosis.
However, no prior studies have specifically compared the performance of Nayve Bayes.
Support Vector Machine (SVM), and Random Forest algorithms in ENT cases.
This study aims to evaluate and compare the three classification models in identifying ENT diseases with or without comorbidities.
Medical record data were processed through preprocessing, feature selection using ANOVA, and class balancing with SMOTE.
The results showed that SVM outperformed the other models with the highest accuracy .
%), followed by Random Forest .
%), and Nayve Bayes .
%).
SVM demonstrated superior performance due to its consistent scores across all evaluation metrics.
The study concludes that the choice of classification model significantly impacts the accuracy of ENT disease diagnosis.
*Penulis korespondensi:
Nur Wachid Adi Prasetya E-mail: nwap.
pnc@pnc.
p-ISSN: 2087-1627, e-ISSN: 2685-9858 Pendahuluan Masalah kesehatan yang berkaitan dengan telinga, hidung, dan tenggorokan (THT) cukup sering dialami banyak orang dan dapat berdampak nyata pada aktivitas sehari-hari.
Sebagai contoh, infeksi telinga dapat menyebabkan rasa sakit hingga gangguan pendengaran.
Kemudian ada penyakit rhinitis, yang merupakan radang di bagian hidung, biasa muncul dengan gejala bersin terusmenerus dan hidung tersumbat.
Ada juga penyakit sinusitis yang membuat area sekitar wajah terasa nyeri, serta radang amandel atau tonsilitis yang membuat sulit menelan dan terasa tidak nyaman saat makan atau minum .
Gangguan pada bagian THT dapat meningkatkan kerentanan seseorang terhadap penyakit lain, serta memperbesar risiko infeksi atau masalah medis lainnya.
Sebagai contoh, pasien asma sering mengalami rhinitis atau sinusitis karena gangguan tersebut berkaitan dengan peradangan saluran napas.
Di sisi lain, kondisi seperti asam lambung yang naik ke tenggorokan dapat memicu iritasi, suara serak, dan memperparah batuk kronis atau radang tenggorokan .
Mengelompokkan data dari hasil diagnosa pasien dapat membantu dalam mengidentifikasi kecenderungan dan pola yang ada, mempercepat proses pengambilan keputusan, serta berkontribusi terhadap peningkatan efisiensi operasional dan kualitas pelayanan .
Pada era transformasi digital, keputusan yang berkaitan dengan program kesehatan perlu didukung oleh sistem cerdas yang mampu mengolah data dan memberikan prediksi.
Dengan bantuan teknologi Machine Learning, proses pengambilan keputusan dapat menjadi lebih cepat dan akurat karena sistem dapat menyajikan informasi prediktif secara otomatis tanpa campur tangan manual yang kompleks .
Menurut Abellera & Bulusu .
, kajian Machine Learning dalam bidang kecerdasan buatan berfokus pada proses pembelajaran komputasional dan pengenalan pola, menggunakan algoritma seperti supervised dan unsupervised learning untuk menghasilkan prediksi serta membantu pengambilan keputusan otomatis dari data yang tersedia .
Model prediksi kasus penyakit dapat dibangun melalui penerapan Machine Learning, yang dalam prosesnya menggunakan berbagai jenis algoritma klasifikasi.
Pemanfaatan algoritma disesuaikan dengan kebutuhan untuk memperkirakan level kejadian yang telah disesuaikan ke dalam kategori tertentu .
Penerapan algoritma Machine Learning dalam klasifikasi penyakit THT memungkinkan sistem mengenali pola dari data klinis, sehingga proses diagnosis dapat dilakukan dengan lebih cepat dan tepat.
Dengan sistem klasifikasi yang baik, tenaga medis dapat terbantu dalam mengambil keputusan klinis dan merancang perawatan yang sesuai dengan kondisi pasien .
Pada penelitian ini, algoritma klasifikasi digunakan untuk mengklasifikasikan penyakit THT dengan atau tanpa diiringi penyakit lainnya .
, menggunakan beberapa metode.
Algoritma yang dipakai adalah Nayve Bayes.
SVM, dan Random Forest.
Penggunaan beberapa algoritma ini bertujuan untuk membandingkan berbagai algoritma klasifikasi, guna menentukan algoritma yang paling cocok untuk kasus penyakit THT.
Penentuan algoritma yang paling akurat dan efisien, membuat kualitas diagnosis dan penanganan pasien dapat ditingkatkan.
Pada beberapa tahun belakangan, studi perbandingan algoritma klasifikasi pada Machine Learning di bidang kesehatan telah dilakukan.
Lestari dan Homaidi .
melakukan perbandingan antara algoritma Nayve Bayes dan Random Forest dalam pengelompokan kanker payudara, dengan hasil bahwa Random Forest menunjukkan ketepatan yang lebih tinggi, yakni 85% .
Prasetyo et al.
turut memakai Random Forest dan Support Vector Machine (SVM) dalam klasifikasi penyakit menular, dan Random Forest menunjukkan akurasi sebesar 90%, lebih baik dibandingkan SVM yang hanya mencapai 82% .
Depari et al.
membandingkan model Decision Tree.
Nayve Bayes, dan Random Forest untuk memprediksi penyakit jantung, dengan hasil bahwa Random Forest kembali unggul dengan akurasi 88%, sedangkan Nayve Bayes hanya memperoleh 75% .
Zuhri et al.
melaksanakan studi perbandingan algoritma untuk mendeteksi diabetes, di mana Random Forest meraih akurasi 87%, lebih tinggi dibandingkan Nayve Bayes yang hanya mendapatkan 80% .
Septhya et al.
mengaplikasikan Decision Tree dan SVM untuk klasifikasi kanker paru-paru, dengan SVM mencapai akurasi 85% .
Akmal et al.
membandingkan algoritma Nayve Bayes dan K-Nearest Neighbors (KNN) dalam klasifikasi penyakit stroke, dengan hasil bahwa KNN menunjukkan akurasi 83%, sementara Nayve Bayes hanya 78% .
Napiah et al.
membandingkan metode Nayve Bayes.
KNN.
SVM yang berfokus pada ISPA (Infeksi Saluran Pernapasan Aku.
, yang secara klinis lebih spesifik ke bagian paru-paru dan saluran pernapasan bawah, dengan hasil SVM memberikan akurasi 99%, dibandingkan KNN .
%) dan Nayve Bayes .
%) .
Jamil et al.
juga membandingkan metode Nayve Bayes.
KNN.
ANN.
SVM.
Random Forest untuk klasifikasi penyakit THT, dengan hasil KNN.
ANN.
Random Forest, dan SVM sebesar 100%, dibanding Nayve Bayes sebesar 98% .
Walaupun sudah banyak penelitian yang melibatkan algoritma seperti Nayve Bayes.
SVM, dan Random Forest dalam klasifikasi penyakit, masih sedikit penelitian yang secara spesifik mengevaluasi efektivitas algoritma-algoritma tersebut untuk kasus penyakit THT (Telinga.
Hidung, dan Tenggoroka.
Hal ini menunjukkan bahwa topik ini masih terbuka luas untuk diteliti lebih lanjut, terutama karena data pada kasus THT cenderung memiliki kompleksitas dan keragaman yang tinggi.
Terlebih, belum ada penelitian yang membandingkan algoritma-algoritma tersebut pada kasus THT dengan komorbiditas, karena keadaan komorbiditas pada THT dipengaruhi oleh banyak faktor.
Pemilihan algoritma Nayve Bayes.
SVM, dan Random Forest untuk komparasi klasifikasi penyakit THT karena berdasarkan penelitian terdahulu, ketiganya telah terbukti unggul dalam domain medis dengan kelebihan masingmasing, yaitu Nayve Bayes cepat dan efisien untuk dataset kecil.
SVM akurat pada pola kompleks dan data linier, serta Random Forest stabil dan unggul dalam akurasi pada dataset algoritma-algoritma merepresentasikan keragaman pendekatan klasifikasi yang kuat dan saling melengkapi.
Penelitian ini diharapkan dapat memberikan pemahaman mengenai perbandingan algoritma p-ISSN: 2087-1627, e-ISSN: 2685-9858 Nayve Bayes.
SVM, dan Random Forest saat diterapkan pada klasifikasi penyakit THT.
Metode Alur pelaksanaan penelitian ini adalah seperti pada Gambar 1.
G16-THT
G17-THT
G18-THT
G19-THT
G20-THT
G21-THT
G22-THT
G23-THT
G24-THT
G25-THT
G26-THT
G27-THT
Gejala penyakit THT ingus darah sakit kepala leher kaku leher bengkak sesak nafas telinga penuh cairan pengelompokan sistol pengelompokan diastol pengelompokan temperature pengelompokan pulse pengelompokan breath pengelompokan height weight Adapun label target dari data tersebut adalah klasifikasi jenis penyakit THT, yaitu penyakit THT tanpa penyakit penyerta .
anpa kormobidita.
, dan penyakit THT dengan penyakit penyerta .
engan kormobidita.
, pada Tabel 2.
Tabel 2.
Data kelompok penyakit THT sebagai label target
Diagnosa penyakit THT
P-THT
THT dengan atau tanpa kormodibitas Gambar 1.
Alur pelaksanaan penelitian 1 Pengumpulan Data Data yang digunakan pada penelitian ini diperoleh dari data rekam medis pasien penyakit THT dari Rumah Sakit Umum Daerah (RSUD) dr.
Goeteng Taroenadibrata Kabupaten Purbalingga.
Berdasarkan data yang diperoleh, diketahui atribut data berupa gejala penyakit adalah seperti pada Tabel 1.
Tabel 1.
Data atribut gejala penyakit THT
Gejala penyakit THT
G01-THT
telinga berdengung G02-THT
G03-THT
nyeri kepala G04-THT
pendengaran turun
G05-THT
nyeri leher
G06-THT
hidung buntu
G07-THT
G08-THT
nyeri telan
G09-THT
tenggorokan panas sakit
G10-THT
tenggorokan kering G11-THT
penciuman terganggu G12-THT
iritasi hidung
G13-THT
pilek menahun G14-THT badan panas G15-THT sulit buka mulut 2 Pra-Prosesing Data Pada penelitian ini, tahap praprocessing data yang dilakukan antara lain:
Transformasi Data Proses menyesuaikan skala pengukuran dari data mentah ke bentuk lain, agar sesuai dengan asumsi yang menjadi dasar analisis varians serta sejalan dengan cara kerja algoritma .
Pada penelitian ini, metode transformasi data yang dilakukan adalah dengan metode normalisasi Min-Max.
Metode ini mentransformasikan data dari satu rentang nilai ke rentang lain, sambil tetap mempertahankan keterkaitan dengan data Umumnya, teknik ini diterapkan untuk menyesuaikan data ke dalam skala antara 0 hingga 1 .
Distribusi Data Salah satu tantangan terbesar dalam penerapan algoritma klasifikasi dan Machine Learning adalah menangani data dengan distribusi kelas yang tidak merata.
Kondisi ini disebut sebagai ketimpangan data, di mana jumlah data dari kelas mayoritas jauh lebih banyak dibandingkan kelas lainnya.
Ketidakseimbangan ini sering kali membuat sistem klasifikasi cenderung memihak ke kelas yang lebih besar, sehingga meningkatkan risiko terjadinya kesalahan dalam mengelompokkan data .
Masalah jumlah kelas data yang tidak seimbang dapat diatasi dengan cara menyesuaikan distribusi kelas, misalnya dengan memperbanyak data dari kelas minoritas .
atau mengurangi data dari kelas mayoritas .
Seleksi Fitur Supaya data lebih mudah diproses, fitur-fitur yang tidak terlalu relevan atau tidak memberikan pengaruh besar terhadap isi dokumen biasanya disingkirkan.
Dengan menyaring fitur seperti ini, sistem klasifikasi dapat bekerja lebih cepat dan memberikan hasil yang lebih akurat .
Penelitian ini menggunakan metode ANOVA untuk menemukan fitur-fitur yang paling berperan dalam p-ISSN: 2087-1627, e-ISSN: 2685-9858 mempengaruhi variabel target dalam proses klasifikasi.
Setiap fitur dinilai menggunakan F-Score, yang membantu melihat sejauh mana perbedaan antar fitur dibandingkan dengan variasi di dalam satu kelompok.
Kemudian, fiturfitur dengan nilai F tertinggi diseleksi melalui teknik SelectKBest, agar hanya fitur-fitur yang benar-benar relevan yang digunakan dalam membangun model klasifikasi .
3 Pembangunan Model Klasifikasi Penelitian ini menerapkan algoritma Nayve Bayes.
Support Vector Machine (SVM), dan Random Forest untuk membangun model klasifikasi penyakit THT.
Nayve Bayes Nayve Bayes adalah algoritma klasifikasi yang digunakan untuk memprediksi kemungkinan suatu peristiwa di masa depan berdasarkan pola yang ditemukan dari data Algoritma ini bekerja dengan pendekatan probabilitas melalui Teorema Bayes, dan mengasumsikan bahwa setiap fitur dalam data tidak saling memengaruhi, artinya setiap atribut dianggap berdiri sendiri terhadap nilai dari kelas yang ingin diprediksi .
Proses klasifikasi menggunakan metode Nayve Bayes terdiri dari beberapa langkah utama, antara lain .
Mengestimasi Kemungkinan pada Tiap Kelas Probabilitas untuk setiap kategori dihitung berdasarkan data yang sedang dianalisis.
Dalam praktik algoritma Nayve Bayes, perhitungan ini mencakup kombinasi antara kemungkinan awal .
dari suatu kategori dan peluang nilai fitur berdasarkan kelas yang tersedia.
Menggunakan Teorema Bayes Teorema Bayes diaplikasikan untuk menggabungkan nilai probabilitas awal tiap kelas dengan hasil probabilitas gabungan untuk setiap prediksi.
Memilih Kelas dengan Kemungkinan Tertinggi Setelah semua probabilitas dihitung, sistem akan menentukan kategori dengan nilai probabilitas terbesar sebagai hasil prediksi.
Evaluasi performa metode Nayve Bayes biasanya dilakukan melalui indikator seperti akurasi, ketepatan .
, dan sensitivitas .
guna mengetahui seberapa efektif model dalam melakukan pengklasifikasian.
Formula Algoritma Nayve Bayes Rumus perhitungan Nayve Bayes juga digunakan dalam proses ini sebagai dasar matematis dari pendekatan ycE.
= ycE(E.
O ycE(E.
Penjelasannya:
h: dugaan bahwa suatu data termasuk dalam kelompok atau kelas tertentu.
D: data yang belum diketahui termasuk dalam kelas mana.
: kemungkinan awal dari dugaan tersebut sebelum melihat data yang ada.
P(D): seberapa besar peluang kemunculan data tersebut secara umum.
P(D.
: peluang data muncul jika asumsi atau dugaan h P.
D): seberapa besar kemungkinan dugaan h benar jika kita sudah mengetahui data D Support Vector Machine (SVM) SVM adalah salah satu algoritma klasifikasi yang digunakan untuk memisahkan data, baik yang bersifat linier maupun tidak linier.
Tujuan utama dari metode ini adalah menemukan garis pemisah terbaik .
agar data bisa terbagi dengan jelas ke dalam dua kategori .
Dalam penerapan algoritma SVM, model linier digunakan dengan bantuan rumus khusus untuk menemukan garis pemisah terbaik yang mampu memisahkan data secara optimal, dengan rumus sebagai berikut .
ycU = yc ycN ycuycn yca, di mana i = 1,2,.
Penjelasannya:
xi: vektor yang berbentuk baris dengan jumlah dimensi sebanyak k, di mana k merupakan banyaknya fitur atau Y: target atau label dari data, yang hanya memiliki dua kemungkinan nilai, yaitu -1 dan 1.
l: total keseluruhan data yang digunakan.
w: parameter bobot yang berfungsi mengatur pengaruh masing-masing fitur dalam model.
b: nilai bias, atau kesalahan sistematis dalam prediksi.
Guna mengetahui margin maksimum dalam algoritma SVM, digunakan konsep support vector atau vektor Margin ini dihitung melalui persamaan berikut .
ycuycn ) yca = 0 Adapun jika sebuah data .
masuk ke dalam kelas negatif atau -1, maka kondisi tersebut dirumuskan dengan .
ycuycn yc.
O 1, yccycn ycoycaycuyca ycUycn = Oe1 Sebaliknya, untuk data yang tergolong ke dalam kelas positif atau 1, digunakan perhitungan lain sebagaimana dijelaskan dalam persamaan berikut .
ycuycn yc.
Ou 1, yccycn ycoycaycuyca ycUycn = 1 Random Forest Random Forest adalah kumpulan dari pohon keputusan yang dibentuk menggunakan contoh data yang dipilih secara acak, namun menerapkan aturan pemisahan node yang bervariasi .
Tujuan dari metode ini adalah membangun pohon keputusan dengan tiga jenis simpul utama yaitu simpul akar .
oot nod.
, simpul percabangan .
nternal nod.
, dan simpul daun .
eaf nod.
Prosesnya dilakukan dengan memilih data dan atribut secara acak namun tetap mengikuti aturan tertentu.
Simpul akar berada di bagian paling atas dan menjadi titik awal dari seluruh proses pengambilan keputusan.
Selanjutnya ada simpul percabangan, yaitu titik di mana pohon bercabang, dengan satu jalur masuk dan minimal dua arah keluar.
Terakhir, ada simpul daun atau simpul akhir yang menandai hasil dari p-ISSN: 2087-1627, e-ISSN: 2685-9858 proses klasifikasi.
Simpul ini tidak memiliki cabang lanjutan, hanya menerima satu masukan .
Dalam membangun pohon keputusan, langkah pertama yang dilakukan biasanya adalah menghitung nilai entropi .
dan information gain.
Entropi digunakan untuk melihat seberapa berantakan data pada suatu atribut, sedangkan information gain mengukur seberapa banyak informasi baru yang didapat dari pemisahan tersebut.
Selain itu, indeks gini juga digunakan untuk menentukan node mana yang paling optimal sebagai pembagi.
Proses perhitungannya akan terus berlangsung selama nilai gini belum mencapai nol, dan akan berhenti secara otomatis ketika hasil akhirnya menunjukkan tidak ada lagi ketimpangan data .
Untuk menghitung nilai entropi, digunakan rumus berikut .
cI) = Oc Oe ycyycn ycyycn ycn=1 ycNycE ycNycA ycNycE ycNycA yaycE yaycA ycNycE ycEycyceycaycnycycnycuycu = yaycE ycNycE ycNycE ycIyceycaycaycoyco = yaycA ycNycE ya Oe ycIycaycuycyce ycaycycayc ya Oe ycoyceycaycycycyce .
cIyceycaycaycoyco ycu ycEycyceycaycnycycnycuyc.
= 2ycu .
cIyceycaycaycoyco ycEycyceycaycnycycnycuyc.
yaycoycycycaycycn = Penjelasannya:
ycI : kumpulan data yang sedang dianalisis ycu : berapa banyak kategori atau kelas yang terdapat dalam data tersebut ycyycn : seberapa besar kemungkinan setiap kelas ke-i muncul dalam keluaran dari himpunan data S Sedangkan rumus menentukan information gain adalah sebagai berikut .
yaycuyceycuycycoycaycycnycuycu yciycaycnycu .
= yaycuycycycuycyycn .
cI) ycu ycIycn Oe Oc ycu yaycuycycycuycyycn .
cIycn ) ycI metrik ini memberikan gambaran menyeluruh mengenai efektivitas model dalam melakukan klasifikasi secara akurat dan konsisten .
Sebelum melakukan Confusion Matrix evaluasi seperti akurasi, presisi, recall, dan F-measure, hal pertama yang perlu diketahui adalah nilai TP (True Positiv.
TN (True Negativ.
FP (False Positiv.
, dan FN (False Negativ.
adalah jumlah data yang benar-benar termasuk kategori positif dan berhasil dikenali dengan tepat oleh model.
mencerminkan data negatif yang juga diklasifikasikan dengan benar.
Di sisi lain.
FP terjadi ketika data negatif keliru diprediksi sebagai positif, dan FN muncul saat data positif justru dianggap sebagai negatif.
Keempat komponen ini memainkan peran penting dalam menilai seberapa baik model dapat mengenali pola dan membuat prediksi yang tepat .
Adapun rumus untuk menghitung akurasi, presisi, recall, dan F-measure adalah sebagai berikut:
4 Evaluasi Model Pada tahap evaluasi model ini, data yang dikumpulkan, dibagi menjadi data uji dan data latih.
Pembagian dilakukan dengan parameter test_size=0.
2, artinya 80% data dipakai untuk pelatihan, dan sisanya 20% digunakan untuk Fungsi train_test_split dari pustaka scikit-learn di Python digunakan untuk menjalankan proses ini.
Pada tahap evaluasi, performa model klasifikasi dinilai menggunakan Confusion Matrix, yang disajikan dalam bentuk tabel evaluasi.
Melalui tabel ini, beberapa metrik utama seperti akurasi, presisi, recall, dan F-measure dihitung untuk mengukur kualitas prediksi model.
Akurasi menunjukkan seberapa besar data yang diklasifikasikan dengan benar, presisi melihat ketepatan prediksi terhadap kelas positif, sementara recall mengukur seberapa baik model mendeteksi kasus positif yang sebenarnya.
Kombinasi Hasil dan Pembahasan 1 Transformasi Data Pada tahap transformasi data, maka dilihat terlebih dulu pelabelan data yang digunakan.
Adapun label data yang digunakan adalah pada Tabel 3.
Tabel 3.
Label data gejala penyakit THT Gejala Label telinga berdengung 0: No, 1: Yes 0: No, 1: Yes nyeri kepala 0: No, 1: Yes pendengaran turun 0: No, 1: Yes nyeri leher 0: No, 1: Yes hidung buntu 0: No, 1: Yes 0: No, 1: Yes nyeri telan 0: No, 1: Yes tenggorokan panas sakit 0: No, 1: Yes tenggorokan kering 0: No, 1: Yes penciuman terganggu 0: No, 1: Yes iritasi hidung 0: No, 1: Yes pilek menahun 0: No, 1: Yes badan panas 0: No, 1: Yes sulit buka mulut 0: No, 1: Yes ingus darah 0: No, 1: Yes 0: No, 1: Yes sakit kepala leher kaku leher bengkak sesak nafas telinga penuh cairan pengelompokan sistol ycn=1 Penjelasannya:
A : karakteristik atau fitur dari data yang sedang dianalisis S : Entropi |SA| : berapa banyak data yang termasuk ke dalam kategori atau nilai ke-i dari atribut tertentu |S| : jumlah total keseluruhan data yang terdapat dalam kumpulan data tersebut .
0: No, 1: Yes 0: No, 1: Yes 0: No, 1: Yes 0: No, 1: Yes 1: Hipotensi, 2: Normal, 3: Hipertensi p-ISSN: 2087-1627, e-ISSN: 2685-9858 Gejala pengelompokan diastol pengelompokan temperature pengelompokan pulse pengelompokan breath pengelompokan height weight Label 1: Hipotensi, 2: Normal, 3: Hipertensi 1: Hipotermia, 2: Normal, 3: Demam 1: Tidak 2: Normal 1: Tidak 2: Normal 1: BB kurang, 2: Normal, 3: BB berlebih, 4: Obesitas Adapun label kelompok diagnosa penyakit THT sebagai atribut target adalah pada Tabel 4.
Contoh data adalah seperti pada Tabel 5.
Tabel 4.
Label data diagnosa penyakit THT Diagnosa penyakit THT Label 1: THT tanpa THT dengan atau tanpa 2: THT dengan Tabel 5.
Contoh data yang digunakan Variabel
Data 1
Data 2
Data 3
G01-THT
G02-THT
G03-THT
G04-THT
G05-THT
G06-THT
G07-THT
G08-THT
G09-THT
G10-THT
G11-THT
G12-THT
G13-THT
G14-THT
G15-THT
G16-THT
G17-THT
G18-THT
G19-THT
G20-THT
G21-THT
G22-THT
G23-THT
G24-THT
G25-THT
G26-THT
G27-THT
P-THT
Data 4 2 Distribusi Data Pada penelitian ini, distribusi data menggunakan metode oversampling yaitu SMOTE (Synthetic Minority Oversampling Techniqu.
Dalam upaya mengatasi ketidakseimbangan distribusi kelas pada data.
SMOTE menciptakan sampel baru secara sintetis di antara dua data yang berasal dari kelas minoritas.
Dengan langkah ini, proporsi data menjadi lebih seimbang, sehingga algoritma pembelajaran mesin bisa belajar dari data secara lebih adil dan akurat .
Berdasarkan hasil evaluasi, didapat hasil distribusi data pada Gambar 2.
Gambar 2.
Hasil distribusi data SMOTE menggunakan python Dari gambar 2, jumlah data untuk masing-masing kategori diagnosa tergolong cukup merata, sehingga tidak perlu dilakukan penyeimbangan data tambahan seperti SMOTE.
Model dapat dilatih langsung tanpa resampling karena tidak ada ketimpangan kelas yang signifikan.
3 Seleksi Fitur Berdasarkan hasil analisis menggunakan metode ANOVA, diperoleh sejumlah fitur yang memiliki kontribusi paling signifikan terhadap variabel target dalam proses Penilaian terhadap masing-masing fitur dilakukan melalui perhitungan F-Score, yang merefleksikan tingkat perbedaan antar fitur terhadap variasi dalam kelompok data.
Pada penelitian ini, sebanyak 15 fitur dengan F-Score tertinggi yang akan dipilih untuk tahap pengembangan model klasifikasi.
Gambar 3.
Hasil seleksi fitur dengan F-Score tertinggi menggunakan python Berdasarkan gambar 3, maka dapat diketahui bahwa fitur-fitur atau atribut gejala penyakit THT yang akan dipilih adalah pada Tabel 6.
p-ISSN: 2087-1627, e-ISSN: 2685-9858 Tabel 6.
Variabel yang dipilih Gejala penyakit THT yang dipilih G01-THT
telinga berdengung G02-THT
G04-THT
pendengaran turun
G05-THT
nyeri leher
G07-THT
G09-THT
tenggorokan panas sakit
G12-THT
iritasi hidung
G13-THT
pilek menahun G17-THT
sakit kepala G18-THT
leher kaku
G22-THT
pengelompokan sistol
G23-THT
pengelompokan diastol G24-THT
pengelompokan temperature G26-THT
pengelompokan breath
G27-THT
pengelompokan height weight 4 Pembangunan dan Evaluasi Model Tahap ini dilakukan pembangunan model untuk proses training data yang diperoleh, kemudian dilakukan proses testing guna menentukan akurasi model yang dibangun.
Hasil dari evaluasi model-model yang diterapkan adalah pada Gambar 4.
Gambar 6.
Confusion Matrix model SVM Berdasarkan confusion matrix pada Gambar 6, model SVM berhasil mengklasifikasikan 235 dari 285 sampel kelas 0 dengan benar, tetapi hanya mengidentifikasi 84 dari 254 sampel kelas 1, menunjukkan performa tinggi untuk kelas 0 namun rendah untuk kelas 1.
Gambar 7.
Classification Report model SVM Dari gambar 7, model SVM menghasilkan akurasi 59% dengan F1-Score yang cukup baik untuk kelas 1 .
namun rendah untuk kelas 2 .
, menunjukkan model lebih efektif mengenali kelas 1 dibandingkan kelas 2.
Gambar 4.
Confusion Matrix model Nayve Bayes Model Nayve Bayes ini cenderung sangat bias ke kelas 1, karena hampir semua data diprediksi sebagai kelas 1, sehingga performanya sangat buruk dalam mengenali kelas Gambar 5.
Classification Report model Nayve Bayes Berdasarkan hasil padaa Gambar 5, model Nayve Bayes menunjukkan akurasi rendah .
%) dan performa sangat buruk pada kelas 1 (F1-Score hanya 0.
, menandakan ketidakseimbangan prediksi yang membuat model tidak efektif untuk klasifikasi dua kelas ini.
Gambar 8.
Confusion Matrix model Random Forest Confusion matrix pada Gambar 8 menunjukkan bahwa model Random Forest mengklasifikasikan 215 dari 285 sampel kelas 0 dan 91 dari 254 sampel kelas 1 dengan benar, namun masih salah mengklasifikasikan masing-masing 70 dan 163 sampel, yang mencerminkan performa moderat dengan kecenderungan lebih akurat pada kelas 0.
p-ISSN: 2087-1627, e-ISSN: 2685-9858 Gambar 9.
Classification Report model Random Forest Hasil classification report untuk model Random Forest di atas mencapai akurasi 56,8% dengan F1-Score yang lebih baik pada kelas 1 .
dibanding kelas 2 .
, menunjukkan performa lebih kuat dalam mengenali kelas 1 namun masih lemah dalam mendeteksi kelas 2.
Adapun perbandingan hasil akurasi, presisi, recall, dan F-measure dari ketiga model adalah pada gambar 10 Adapun performa yang relatif rendah dari seluruh model kemungkinan disebabkan karena data penyakit THT dengan atau tanpa komorbiditas merupakan kasus di mana gejala antar jenis penyakit dapat sangat mirip .
Selain itu, meskipun sudah dilakukan seleksi fitur menggunakan ANOVA F-Score dan SelectKBest, fitur yang digunakan sebagian besar adalah gejala biner .
, sehingga data kurang informatif secara individual, dan belum cukup membedakan antara THT dengan atau tanpa komorbiditas.
Kemudian walaupun data sudah cukup merata, menjadikan SMOTE tidak dilakukan, membuat model lebih dominan memprediksi kelas mayoritas (THT tanpa komorbidita.
Namun demikian, perlu dilakukan penelitian lebih lanjut untuk mengetahui faktor-faktor yang mempengaruhi rendahnya nilai akurasi pada semua algoritma yang dipakai di penelitian ini.
Ucapan Terimakasih Penulis menyampaikan rasa terima kasih yang sebesarbesarnya kepada Politeknik Negeri Cilacap atas dukungan pendanaan melalui Kontrak Penelitian Internal Tahun Anggaran 2024 (Nomor: 076/PL43/AL.
04/2.
, yang telah memungkinkan penelitian ini dapat terlaksana dengan baik.
Daftar Pustaka