Artikel Penerapan Metode Nayve Bayes dengan SMOTE pada Sistem Pendukung Keputusan untuk Prediksi Risiko Stroke Adam Fathurrohman Arya Bakhti*1.
Berliana Rahmadhani2.
Khoirun Nisa3.
1,2,3 Program Studi Informatika.
Universitas Harapan Bangsa.
Purwokerto.
Indonesia * Korespondensi: adamfathurrohman50@gmail.
Abstrak: Stroke merupakan salah satu penyebab kematian dan kecacatan terbesar di dunia, sehingga prediksi dini menjadi kritis untuk mencegah komplikasi serius.
Penelitian ini mengembangkan sistem pendukung keputusan untuk memprediksi risiko stroke menggunakan algoritma Nayve Bayes yang dikombinasikan dengan Synthetic Minority Oversampling Technique (SMOTE) guna mengatasi ketidakseimbangan data pada Stroke Prediction Dataset .
0 sampel, 4,87% kasus strok.
Metode penelitian mencakup preprocessing data, penghapusan fitur non-informatif, encoding variabel kategorikal, oversampling menggunakan SMOTE, serta evaluasi performa model menggunakan metrik akurasi, precision, recall, dan F1-score.
Hasil penelitian menunjukkan bahwa SMOTE meningkatkan sensitivitas model secara signifikan, dengan nilai recall 93% dan F1-score 81%, meskipun precision mengalami penurunan akibat bertambahnya prediksi positif palsu.
Temuan ini menegaskan pentingnya pemilihan metrik evaluasi yang tepat pada data tidak seimbang.
Studi ini memberikan kontribusi dalam pengembangan pipeline prediksi medis berbasis Nayve Bayes dan menawarkan dasar bagi pengembangan model yang lebih akurat melalui optimasi parameter dan algoritma alternatif.
Received: 30 Mei 2024 Revised: 30 Juni 2024 Accepted: 20 Juli 2024 Published: 30 Juli 2024 Copyright: A 2023 by the authors.
License Universitas Harapan Bangsa.
Purwokerto.
Indonesia.
This article is an open access article distributed under the terms and conditions of the Creative Commons Attribution (CC BY) license .
ttps://creativecommons.
org/licenses/by/4.
0/).
Kata kunci: stroke.
Nayve Bayes.
SMOTE.
sistem pendukung Pendahuluan Stroke merupakan salah satu penyebab utama kematian dan disabilitas di dunia, sehingga deteksi dan prediksi dini menjadi sangat penting dalam upaya mencegah komplikasi serius serta mendukung penanganan medis yang lebih cepat dan efektif (Bathla & Kumar, 2.
Tantangan utama dalam membangun sistem prediksi risiko stroke adalah sifat dataset yang cenderung tidak seimbang, di mana hanya sekitar 5% data merupakan kasus stroke KORISA 2024.
Page 18-30 https://ejournal.
id/index.
php/korisa Jurnal Kolaborasi Riset Sarjana.
Vol.
1 No.
2 Tahun 2024 Page 19 of 30 (Advithi & Umadevi, 2.
Ketidakseimbangan ini mengakibatkan model klasifikasi sering kali lebih bias terhadap kelas mayoritas, sehingga kurang sensitif dalam mendeteksi kasus stroke yang sebenarnya sangat kritis.
Salah satu pendekatan yang dapat digunakan untuk mengatasi ketidakseimbangan kelas adalah Synthetic Minority Oversampling Technique (SMOTE), sebuah teknik oversampling yang terbukti mampu meningkatkan performa algoritma prediksi medis dengan memperbaiki representasi kelas minoritas (Das & Chowdhury, 2.
Dalam konteks klasifikasi, algoritma Nayve Bayes (NB) menjadi pilihan karena kemampuannya dalam memodelkan probabilitas dengan cepat dan efisien pada data dengan fitur numerik maupun kategorikal.
Berbagai penelitian menunjukkan bahwa meskipun NB tidak selalu melampaui model yang lebih kompleks seperti Random Forest, performanya dapat meningkat signifikan setelah diterapkan teknik balancing seperti SMOTE, dengan akurasi mencapai sekitar 82% serta peningkatan pada nilai recall dan F1-score (Khansa & Gunawan, 2.
Meskipun demikian, efektivitas SMOTE dapat bervariasi bergantung pada karakteristik dataset dan dalam beberapa kasus justru menurunkan akurasi (Damari et al.
, 2.
Penggunaan SMOTE terbukti dapat meningkatkan sensitivitas dan kemampuan deteksi model dalam mengklasifikasi kelas minoritas.
Peningkatan ini terlihat dari metrik evaluasi seperti F1-score dan recall yang menjadi lebih seimbang, meskipun akurasi total model bisa sedikit menurun karena perubahan distribusi data.
Sebuah studi mencatat bahwa setelah penerapan SMOTE, nilai F1-score model NB meningkat dari 70% menjadi 87%, meski akurasi menurun sedikit (Prameswara & Gunawan, 2.
Oleh karena itu, evaluasi model tidak cukup hanya menggunakan metrik akurasi, melainkan perlu mempertimbangkan metrik lain yang lebih mencerminkan kemampuan model dalam mendeteksi kelas minoritas, seperti precision, recall, dan F1-score.
Dalam sistem pendukung keputusan medis, trade-off antara peningkatan recall dan potensi penurunan precision tetap dapat diterima, mengingat prioritas utama adalah meminimalkan kasus stroke yang tidak terdeteksi .
alse negativ.
, sebagaimana ditekankan pada studi Mutmainah .
terkait penanganan data imbalance.
Hal ini menegaskan pentingnya pendekatan yang tidak hanya mempertimbangkan akurasi keseluruhan, tetapi juga menekankan metrik sensitivitas.
Namun, di sisi lain, sintesis data sintetis dari SMOTE juga berpotensi memengaruhi stabilitas model secara keseluruhan sehingga perlu dilakukan evaluasi secara cermat terhadap kualitas data hasil oversampling (Damari et al.
, 2025.
Rivaldo et al.
, 2.
Validasi yang ketat dengan berbagai metrik diperlukan agar model yang dihasilkan tidak hanya optimal di atas kertas, tetapi juga andal dalam praktik Berdasarkan latar belakang tersebut, penelitian ini berfokus pada pengembangan model prediksi risiko stroke menggunakan Nayve Bayes yang dipadukan dengan SMOTE untuk mengatasi ketidakseimbangan data.
Penelitian ini diharapkan dapat memberikan pemahaman yang lebih baik mengenai efektivitas kombinasi kedua metode tersebut, serta kontribusi bagi peningkatan sistem pendukung keputusan dalam skrining awal risiko stroke.
Metode Penelitian Metode penelitian dirancang secara sistematis untuk memperoleh model prediksi risiko stroke yang valid, reliabel, dan robust.
Tahapan penelitian meliputi desain penelitian, karakteristik dan sumber data, proses prapemrosesan, penanganan ketidakseimbangan data menggunakan Synthetic Minority Over-sampling Technique (SMOTE), pembangunan model Nayve Bayes, serta penyusunan skenario evaluasi model.
KORISA 2024.
Page 18-30 https://ejournal.
id/index.
php/korisa Page 20 of 30 Jurnal Kolaborasi Riset Sarjana.
Vol.
1 No.
2 Tahun 2024 Desain Penelitian Penelitian ini merupakan penelitian kuantitatif dengan pendekatan eksperimental, yang memanfaatkan dataset publik untuk membangun dan menguji performa model klasifikasi.
Seluruh proses analisis dilakukan secara terstruktur, dimulai dari pengolahan data mentah hingga pengujian performa model.
Penelitian berfokus pada pengembangan pipeline klasifikasi menggunakan Nayve Bayes dengan penanganan ketidakseimbangan data melalui SMOTE, sebagaimana dijelaskan pada bagian sebelumnya mengenai relevansi teknik tersebut dalam meningkatkan performa deteksi kasus minoritas.
Kerangka kerja ini menjadi panduan agar setiap langkah penelitian dapat dieksekusi secara logis dan berurutan.
Gambar 1 mengilustrasikan alur kerja penelitian secara Mulai Pengumpulan Data Pra-pemrosesan Data Permodelan (Pelatihan Model Nayve Baye.
Evaluasi Kinerja Model Selesai Gambar 1.
Desain Penelitian Sumber Data dan Deskripsi Variabel Penelitian ini memanfaatkan dataset publik "Stroke Prediction Dataset" yang bersumber dari platform repositori data Kaggle .
ttps://w.
com/datasets/fedesoriano/stroke-prediction-dataset/dat.
Dataset ini merupakan fondasi utama untuk membangun model prediksi, terdiri dari 5.
110 data observasi pasien dengan 12 atribut yang relevan.
Penggunaan dataset publik ini bertujuan untuk menjamin transparansi dan reprodusibilitas hasil penelitian.
Atribut yang ada mencakup atribut-atribut klinis seperti usia, riwayat hipertensi, riwayat penyakit jantung, kadar glukosa darah, indeks massa tubuh, serta variabel demografis lainnya.
Data bersifat tidak seimbang, dengan proporsi kelas stroke hanya sekitar 5%, yang sesuai dengan tantangan distribusi kelas yang telah dijelaskan pada kajian awal.
Hal ini menjadi dasar pentingnya penggunaan teknik balancing seperti SMOTE untuk menghindari bias klasifikasi terhadap kelas mayoritas.
Struktur detail dari setiap atribut disajikan pada Tabel 1, yang mengklasifikasikan setiap variabel berdasarkan tipe data dan deskripsi fungsionalnya.
Atribut-atribut ini mencakup pengidentifikasi unik .
yang akan diabaikan selama pemodelan, fitur-fitur prediktif, dan variabel target biner .
Fitur-fitur ini merupakan KORISA 2024.
Page 18-30 https://ejournal.
id/index.
php/korisa Jurnal Kolaborasi Riset Sarjana.
Vol.
1 No.
2 Tahun 2024 Page 21 of 30 kombinasi dari data numerik .
eperti usia dan BMI) dan data kategorikal .
eperti jenis kelamin dan status meroko.
, yang memerlukan perlakuan pra-pemrosesan yang berbeda.
Tabel 1.
Deskripsi Atribut Atribut heart_disease ever_married work_type Residence_type avg_glucose_level smoking_status Deskripsi Identitas unik pasien .
ieliminasi saat pemodela.
Jenis kelamin ('Male', 'Female', 'Other').
Usia pasien (Numeri.
Riwayat hipertensi .
: tidak, 1: y.
Riwayat penyakit jantung .
: tidak, 1: y.
Status pernikahan ('Yes', 'No').
Jenis pekerjaan ('Private', 'Self-employed', 'Govt_job', 'children', 'Never_worked').
Tipe tempat tinggal ('Urban', 'Rural').
Rata-rata kadar glukosa dalam darah (Numeri.
Indeks Massa Tubuh (Numeri.
Status merokok ('formerly smoked', 'never smoked', 'smokes', 'Unknown').
Kejadian stroke .
: ya, 0: tida.
Tahapan Pra-pemrosesan Data Pra-pemrosesan dilakukan sebelum proses pemodelan, mencakup pembersihan data, transformasi variabel kategorikal menjadi numerik melalui pengkodean .
, serta penyelarasan format data agar sesuai dengan kebutuhan algoritma Nayve Bayes.
Tahap ini juga memastikan bahwa setiap fitur yang digunakan tetap informatif dan tidak menimbulkan gangguan pada proses pembelajaran model.
Penanganan Ketidakseimbangan Data dengan SMOTE Untuk mengatasi tantangan ini, penelitian ini mengadopsi Synthetic Minority Over-sampling Technique (SMOTE).
SMOTE adalah algoritma oversampling yang diakui secara luas dan terbukti efektif untuk mengatasi masalah ketidakseimbangan kelas (Wongvorachan et al.
, 2.
Berbeda dengan metode naif seperti random oversampling yang hanya menduplikasi data minoritas dan berisiko tinggi menyebabkan overfitting.
SMOTE bekerja dengan menciptakan data sintetis baru.
Metode ini tidak menyalin data, melainkan menghasilkan sampel baru yang plausibel secara statistik di dalam ruang fitur .
eature spac.
, sehingga membantu memperluas region keputusan untuk kelas minoritas (Sakho et al.
, 2.
Kelebihan utama SMOTE adalah kemampuannya menghasilkan data latih yang lebih seimbang tanpa kehilangan informasi .
eperti pada under-samplin.
dan dengan risiko overfitting yang lebih rendah dibandingkan random over-sampling (Carvalho et al.
, 2.
Efektivitas SMOTE dalam meningkatkan metrik evaluasi krusial seperti Recall.
F1-Score, dan AUC pada data medis telah divalidasi secara ekstensif dalam berbagai studi terkini.
Sebagai contoh, penelitian dalam domain prediksi penyakit kardiovaskular menunjukkan bahwa SMOTE secara konsisten mampu meningkatkan sensitivitas model dalam mendeteksi kasus-kasus langka namun kritis (Tompra et al.
KORISA 2024.
Page 18-30 https://ejournal.
id/index.
php/korisa Page 22 of 30 Jurnal Kolaborasi Riset Sarjana.
Vol.
1 No.
2 Tahun 2024 Permodelan (Pelatihan Model Nayve Baye.
Pemilihan metode klasifikasi merupakan inti dari pengembangan sistem pendukung keputusan ini.
Penelitian ini menggunakan Nayve Bayes Classifier, sebuah keluarga algoritma klasifikasi probabilistik yang didasarkan pada Teorema Bayes.
Metode ini dipilih bukan hanya karena efisiensi komputasinya yang tinggi, tetapi juga karena performanya yang telah terbukti solid di berbagai domain, termasuk dalam analisis data klinis yang kompleks.
Sifatnya yang probabilistik memungkinkan model untuk tidak hanya memberikan label prediksi .
isalnya, 'stroke' atau 'tidak stroke'), tetapi juga menyajikan probabilitas dari prediksi tersebut, yang merupakan informasi krusial untuk pengambilan keputusan klinis (Masood et al.
, 2.
Nayve Bayes merupakan metode klasifikasi yang tidak bergantung pada aturan tertentu, melainkan memanfaatkan teori probabilitas dalam matematika untuk menentukan kemungkinan tertinggi dari suatu klasifikasi.
Proses ini dilakukan dengan menganalisis frekuensi masing-masing kelas dalam data pelatihan.
Sebagai teknik klasifikasi statistik.
Nayve Bayes digunakan untuk memperkirakan probabilitas suatu data termasuk dalam kelas tertentu.
Pendekatan ini didasarkan pada Teorema Bayes dan memiliki performa klasifikasi yang sebanding dengan metode seperti decision tree dan neural network (Azeraf et al.
, 2.
Aturan Bayes (Bayes Rul.
digunakan untuk memperkirakan probabilitas dari suatu kelas berdasarkan informasi Algoritma Nayve Bayes menawarkan pendekatan sistematis untuk menggabungkan probabilitas awal .
dengan probabilitas bersyarat .
, sehingga membentuk rumus yang dapat digunakan untuk menghitung kemungkinan setiap kelas secara matematis.
Secara umum, bentuk dasar dari Teorema Bayes dinyatakan pada Persamaan 1.
ycU) = ycE.
cuOy.
Rumus Teorema Nayve bayes:
: Data dengan class yang belum diketahui : Hipotesis data X merupakan suatu class spesifik P(H|X) : Probabilitas hipotesis H berdasarkan kondisi x .
osteriori probabilit.
P(H) : Probabilitas hipotesis H .
rior probabilit.
P(X|H) : Probabilitas X berdasarkan kondisi tersebut P(X) = Probabilitas dari X Pembagian Data dan Skema Evaluasi Dataset dibagi menjadi 80% data pelatihan dan 20% data pengujian menggunakan parameter random_state agar proses dapat di replikasi dengan hasil yang konsisten.
Pembagian ini menghasilkan 7777 sampel untuk pelatihan dan 1945 sampel untuk pengujian, dengan distribusi kelas yang seimbang pada tahap pelatihan.
Evaluasi model dilakukan menggunakan empat metrik utama, yaitu akurasi, precision, recall, dan F1-score, yang memberikan gambaran menyeluruh mengenai performa model khususnya pada konteks data tidak seimbang.
Mengingat sifat dataset yang sangat tidak seimbang, evaluasi tidak akan bergantung pada metrik akurasi yang dapat memberikan gambaran keliru.
Sebaliknya, analisis akan berpusat pada Confusion Matrix sebagai landasan Matriks ini merangkum performa model dengan mengategorikan prediksi menjadi empat kuadran: True Positive (TP) untuk kasus stroke yang terdeteksi benar.
True Negative (TN) untuk kasus non-stroke yang KORISA 2024.
Page 18-30 https://ejournal.
id/index.
php/korisa Page 23 of 30 Jurnal Kolaborasi Riset Sarjana.
Vol.
1 No.
2 Tahun 2024 terdeteksi benar.
False Positive (FP) untuk alarm palsu, dan yang paling krusial.
False Negative (FN) untuk kasus stroke yang gagal terdeteksi oleh model.
Dari Confusion Matrix, diturunkan dua metrik yang sangat penting untuk evaluasi klinis.
Pertama adalah recall .
uga dikenal sebagai Sensitivit.
, yang mengukur kemampuan model untuk mengidentifikasi semua kasus stroke yang sebenarnya.
Metrik ini menjadi prioritas karena kegagalan mendeteksi penyakit (False Negativ.
merupakan risiko paling fatal dalam konteks medis.
Selanjutnya precision, yang mengukur seberapa akurat prediksi positif yang dibuat oleh model.
Formula untuk kedua metrik ini masing-masing dijelaskan pada Persamaan 2 dan 3.
ycNycE ycIyceycaycaycoyco = ycNycE ycNycA .
ycNycE ycEycyceycaycnycycnycuycu = ycNycE yaycE Untuk menyeimbangkan pertukaran .
rade-of.
antara precision dan recall.
F1-score digunakan.
Sebagai rata-rata harmonik dari kedua metrik tersebut.
F1-score memberikan skor tunggal yang efektif untuk evaluasi pada data tidak seimbang.
Formula untuk F1-score dijelaskan pada Persamaan 4.
ycEycyceycaycnycycnycuycuyycIyceycaycaycoyco ya1 Oe ycIycaycuycyce = 2 y ycEycyceycaycnycycnycuycu ycIyceycaycaycoyco Lalu, akurasi dibutuhkan untuk mengukur seberapa banyak prediksi model yang benar dibandingkan dengan total prediksi.
Formula untuk akurasi dijelaskan dalam Persamaan 5.
ycNycE ycNycA Akurasi = ycNycE ycNycA yaycE yaycA Hasil dan Pembahasan Pemahaman Data Tahap pemahaman data dimulai dengan eksplorasi fitur-fitur seperti gender, age, hypertension, dan avg_glucose_level yang digunakan untuk prediksi risiko stroke.
Fitur id dan bmi dihapus karena dianggap tidak relevan atau memiliki banyak nilai hilang.
Analisis deskriptif menunjukkan variasi signifikan pada age dan avg_glucose_level, serta kemungkinan adanya outlier .
Distribusi target sangat tidak seimbang, sehingga digunakan teknik SMOTE untuk mengatasi ketimpangan ini.
Pemahaman ini menjadi dasar penting dalam pemilihan fitur dan strategi preprocessing sebelum penerapan model Nayve Bayes.
Proses eksperimen menghasilkan model klasifikasi berbasis Naive Bayes dengan dua skenario, yaitu pelatihan menggunakan data asli yang tidak seimbang dan pelatihan menggunakan data oversampling melalui SMOTE.
Pembagian data sebesar 80% untuk pelatihan dan 20% untuk pengujian menghasilkan 7777 data latih dan 1945 data uji, dengan distribusi kelas stroke yang sangat timpang pada set uji.
Tabel 2 menjabarkan karakteristik fitur pada dataset yang digunakan dalam penelitian ini.
Tabel 2.
Karakteristik Fitur Fitur KORISA 2024.
Page 18-30 Karakteristik Data (Awa.
5110 nilai unik.
Female': 2994, 'Male': 2115, 'Other': 1.
https://ejournal.
id/index.
php/korisa Jurnal Kolaborasi Riset Sarjana.
Vol.
1 No.
2 Tahun 2024 heart_disease ever_married work_type Residence_type avg_glucose_level Page 24 of 30 Rentang: 0.
08 hingga 82 tahun.
0' (Tida.
: 4612, '1' (Y.
: 498.
0' (Tida.
: 4834, '1' (Y.
: 276.
Yes': 3353, 'No': 1757.
Private': 2925, 'Self-employed': 819, 'children': 687, 'Govt_job': 657, 'Never_worked': 22.
Urban': 2596, 'Rural': 2514.
Rentang: 55.
12 hingga 271.
Terdapat missing values: 4909 non-null dari 5110 total entri.
Rentang: 10.
3 hingga 97.
Identifikasi karakteristik dataset ini, termasuk prevalensi missing values pada kolom bmi dan ketidakseimbangan kelas yang signifikan pada variabel target stroke, menjadi landasan penting untuk keputusan dalam tahapan preprocessing data selanjutnya.
Hal ini krusial untuk memastikan bahwa data dipersiapkan secara optimal agar model prediktif yang dibangun dapat memberikan hasil yang akurat dan tidak bias.
Pra-pemrosesan Data Penanganan Missing Values Langkah awal pre-processing difokuskan pada pembersihan dataset dari fitur-fitur yang tidak relevan atau memiliki isu kualitas data.
Kolom 'id' yang berfungsi sebagai pengidentifikasi unik pasien, tidak memberikan kontribusi informatif terhadap prediksi stroke, sehingga diputuskan untuk dihapus.
Selain itu, kolom 'bmi' (Body Mass Inde.
teridentifikasi memiliki sejumlah missing values yang dapat mempengaruhi integritas analisis, sebagaimana dapat dilihat pada Gambar 2.
Meskipun terdapat berbagai metode imputasi, kolom 'bmi' juga dikeluarkan dari dataset untuk menyederhanakan model dan menghindari potensi bias yang mungkin timbul dari imputasi data yang tidak sempurna.
Gambar 2.
Cuplikan Missing Value KORISA 2024.
Page 18-30 https://ejournal.
id/index.
php/korisa Jurnal Kolaborasi Riset Sarjana.
Vol.
1 No.
2 Tahun 2024 Page 25 of 30 Setelah penghapusan kedua kolom yang dapa dilihat pada Gambar 2, verifikasi menyeluruh dilakukan untuk memastikan tidak ada lagi missing values pada fitur-fitur yang tersisa.
Pemeriksaan ini mengonfirmasi bahwa dataset kini bebas dari nilai yang hilang, menjamin kelengkapan data untuk tahap-tahap selanjutnya.
Encoding Variabel Kategorikal Dataset awal mengandung beberapa fitur yang bersifat kategorikal, seperti 'gender', 'ever_married', 'work_type', 'Residence_type', dan 'smoking_status'.
Algoritma machine learning umumnya memerlukan input dalam bentuk numerik.
Oleh karena itu, encoding diterapkan untuk mengubah representasi tekstual ini menjadi format numerik yang dapat dipahami oleh model.
Metode label encoding digunakan untuk mengonversi setiap kategori menjadi nilai integer unik, sesuai dengan pemetaan yang telah didefinisikan pada Gambar 3.
Gambar 3.
Cuplikan Encoding Variabel Penanganan Imbalanced Class menggunakan SMOTE Salah satu tantangan utama adalah imbalanced class pada variabel target 'stroke', dengan hanya 4.
87% kasus stroke yang tercatat.
Ketidakseimbangan ini dapat membiasakan model untuk memprediksi kelas mayoritas.
Untuk mengatasinya, teknik oversampling SMOTE (Synthetic Minority Over-sampling Techniqu.
SMOTE menghasilkan sampel sintetis dari kelas minoritas .
asien strok.
, sehingga setelah penerapannya, distribusi kelas menjadi seimbang dengan 4861 sampel untuk setiap kelas.
Keseimbangan ini penting untuk meningkatkan sensitivitas dan akurasi model dalam mendeteksi stroke.
Perbandingan detail dapat dilihat pada Tabel 3.
KORISA 2024.
Page 18-30 https://ejournal.
id/index.
php/korisa Page 26 of 30 Jurnal Kolaborasi Riset Sarjana.
Vol.
1 No.
2 Tahun 2024 Tabel 3.
Perbandingan Class Sebelum dan Sesudah SMOTE Variabel Target 'stroke' 0 (Tidak Strok.
1 (Strok.
Total Sampel Jumlah Sampel Sebelum SMOTE Jumlah Sampel Setelah SMOTE Pembagian Data untuk Pelatihan dan Pengujian Langkah terakhir dalam tahap pre-processing adalah membagi dataset yang sudah bersih dan seimbang ke dalam set pelatihan .
raining se.
dan set pengujian .
esting se.
Pembagian ini dilakukan untuk mengevaluasi kemampuan generalisasi model.
Data pelatihan digunakan untuk melatih algoritma machine learning agar mempelajari pola dari fitur-fitur input dan hubungannya dengan variabel target.
Sementara itu, data pengujian berfungsi sebagai data yang belum pernah dilihat oleh model selama pelatihan, digunakan untuk mengukur kinerja model secara objektif.
Dataset dibagi dengan proporsi 80% untuk set pelatihan dan 20% untuk set pengujian.
Penggunaan random_state=105 memastikan bahwa pembagian data bersifat konsisten dan dapat di replikasi, menjamin bahwa setiap kali kode dijalankan, hasil pembagian data akan sama.
Setelah pembagian, set pelatihan (X_train.
Y_trai.
memiliki 7777 sampel, dan set pengujian (X_test.
Y_tes.
memiliki 1945 sampel.
Kedua set ini mempertahankan distribusi kelas yang seimbang, memastikan model dilatih dan dievaluasi berdasarkan representasi yang adil dari kedua kelas.
Evaluasi Model Nayve Bayes Hasil pengujian performa model ditunjukkan melalui empat metrik utama: akurasi, precision, recall, dan F1-score.
Pada data tidak seimbang, model Naive Bayes cenderung bias terhadap kelas mayoritas sehingga nilai recall untuk kelas stroke relatif rendah.
Setelah penerapan SMOTE pada data latih, performa model mengalami peningkatan signifikan khususnya pada metrik recall dan F1-score.
Peningkatan recall menunjukkan bahwa model menjadi lebih sensitif dalam mendeteksi pasien berisiko stroke, yang merupakan aspek kritis dalam konteks prediksi Hasil evaluasi lengkap disajikan dalam Tabel 4 berikut.
Tabel 4.
Hasil Evaluasi Model Nayve Bayes Metrik Accuracy Precision Recall F1 Score Nilai Secara keseluruhan, pipeline SMOTEAeNaive Bayes memberikan hasil yang lebih stabil dalam mendeteksi kelas Tabel performa yang telah disajikan memperlihatkan bahwa meskipun precision menurun akibat meningkatnya prediksi positif palsu, hasil ini masih dapat diterima untuk aplikasi klinis di mana prioritas utamanya adalah meminimalkan kesalahan false negative.
Dengan demikian, hasil penelitian ini menunjukkan efektivitas SMOTE dalam meningkatkan performa Naive Bayes pada data stroke yang tidak seimbang.
KORISA 2024.
Page 18-30 https://ejournal.
id/index.
php/korisa Jurnal Kolaborasi Riset Sarjana.
Vol.
1 No.
2 Tahun 2024 Page 27 of 30 Berdasarkan hasil tersebut, model menunjukkan kemampuan yang baik dalam mendeteksi kasus stroke, tercermin dari nilai recall yang tinggi yaitu 93%.
Hal ini sejalan dengan temuan dalam penelitian oleh Damari et .
yang menyatakan bahwa penerapan SMOTE memang dapat meningkatkan sensitivitas model terhadap kelas minoritas.
Namun, penelitian tersebut juga menegaskan bahwa penambahan data sintetis melalui SMOTE dapat mengubah distribusi data, yang dalam beberapa kasus justru berdampak pada penurunan akurasi model.
Dalam penelitian ini, meskipun akurasi model setelah penerapan SMOTE sebesar 78% tergolong cukup baik, terdapat penurunan dibandingkan akurasi tanpa balancing data.
Temuan ini konsisten dengan hasil penelitian Damari et al.
, yang menunjukkan bahwa penerapan SMOTE perlu dilakukan dengan hati-hati karena potensi perubahan distribusi data yang dapat memengaruhi efektivitas model, terutama ketika dikombinasikan dengan teknik optimasi seperti PSO.
Selain itu, nilai precision sebesar 71% menunjukkan adanya sejumlah false positive, yaitu kasus non-stroke yang terdeteksi sebagai stroke.
Hal ini merupakan konsekuensi umum dalam penerapan teknik oversampling, di mana model cenderung meningkatkan deteksi kasus minoritas namun berpotensi meningkatkan prediksi positif palsu.
Meskipun demikian, dalam konteks sistem pendukung keputusan medis, trade-off ini masih dapat diterima, mengingat prioritas utama adalah meminimalkan kasus stroke yang tidak terdeteksi .
alse negativ.
, sebagaimana juga ditekankan dalam penelitian Mutmainah, 2021 terkait penanganan data imbalance pada klasifikasi penyakit stroke.
Secara keseluruhan, hasil penelitian ini menunjukkan bahwa penerapan Nayve Bayes dengan metode SMOTE dapat meningkatkan kemampuan deteksi risiko stroke, terutama pada kelas minoritas.
Namun, diperlukan perhatian khusus terhadap dampak distribusi data sintetis terhadap performa keseluruhan model, sebagaimana juga diuraikan dalam studi Damari et al.
Penggunaan teknik optimasi tambahan seperti PSO berpotensi menjadi alternatif solusi untuk meningkatkan akurasi dan stabilitas model prediksi.
Gambar 4 menunjukkan grafik Confusion Matrix.
Gambar 4.
Visualisasi Confusion Matrix KORISA 2024.
Page 18-30 https://ejournal.
id/index.
php/korisa Jurnal Kolaborasi Riset Sarjana.
Vol.
1 No.
2 Tahun 2024 Page 28 of 30 Visualisasi Confusion Matrix pada Gambar 4 menunjukkan bahwa dari seluruh data pasien dengan status sebenarnya stroke, sebanyak 46,79% berhasil diklasifikasikan dengan benar oleh model sebagai stroke, sedangkan 3,39% diklasifikasikan salah sebagai tidak stroke .
alse negativ.
Di sisi lain, dari pasien yang sebenarnya tidak mengalami stroke, sebesar 30,85% berhasil dikenali dengan tepat sebagai tidak stroke, sementara 18,97% diklasifikasikan salah sebagai stroke .
alse positiv.
Temuan ini sangat penting dalam konteks sistem pendukung keputusan medis, di mana keberhasilan model dalam mendeteksi pasien stroke .
rue positiv.
sebesar 46,79% menunjukkan performa yang baik.
Terlebih lagi, proporsi kesalahan model dalam mengklasifikasikan pasien stroke sebagai tidak stroke .
alse negativ.
tergolong rendah, yaitu hanya 3,39%, sehingga potensi keterlambatan diagnosis dan penanganan stroke dapat Kesimpulan Penelitian ini menunjukkan bahwa integrasi metode Nayve Bayes dengan teknik oversampling SMOTE mampu meningkatkan performa model dalam mendeteksi risiko stroke pada dataset yang tidak seimbang, terutama melalui peningkatan nilai recall dan F1-score yang menggambarkan kemampuan model dalam mengenali kasus stroke secara lebih sensitif dan akurat.
Meskipun terjadi penurunan nilai precision akibat meningkatnya prediksi positif palsu, trade-off ini masih dapat diterima pada konteks klinis, karena meminimalkan false negative dinilai jauh lebih penting dibandingkan risiko false positive dalam deteksi penyakit yang berpotensi fatal seperti stroke.
Secara keseluruhan, penelitian ini berkontribusi pada pengembangan pipeline prediksi medis berbasis data tidak seimbang dan menegaskan bahwa Nayve Bayes tetap merupakan algoritma yang efisien dan kompetitif apabila didukung oleh teknik balancing yang tepat.
Ke depan, peningkatan kualitas model dapat dilakukan melalui optimasi parameter SMOTE, penggunaan algoritma ensemble learning, serta penerapan metode explainable AI (XAI) seperti SHAP atau LIME untuk memberikan interpretasi klinis yang lebih jelas, sehingga sistem pendukung keputusan yang dikembangkan tidak hanya akurat tetapi juga transparan, terpercaya, dan mudah diadopsi oleh praktisi kesehatan.
Referensi