Artikel Analisis Perbandingan Algoritma KNN dan SVM untuk Prediksi Risiko Kesehatan Ibu Hamil Marchelya Rizky Putri Soewarno 1.
Rian Ardianto 2.
Riska Suryani 3.
Rosyid Ridlo Al-Hakim 3.
Christosie Immanuel Wahyudi 4 1 Departemen Teknologi Informasi.
Universitas Harapan Bangsa.
Purwokerto.
Indonesia 2 Departemen Informatika.
Universitas Harapan Bangsa.
Purwokerto.
Indonesia 3 Departemen Sistem Informasi.
Universitas Harapan Bangsa.
Purwokerto.
Indonesia 4 Fakultas Biologi.
Universitas Jenderal Soedirman.
Purwokerto.
Indonesia *Korespondensi: marchmarchs09@gmail.
Abstrak: Dalam studi ini, kami membandingkan kinerja algoritma K-Nearest Neighbor (KNN) dan Support Vector Machine (SVM) untuk memprediksi risiko kehamilan pada pasien.
Dataset yang digunakan terdiri dari delapan variabel, seperti jumlah kehamilan, status vaksinasi, tekanan darah, detak jantung janin, indeks massa tubuh (BMI), usia, dan tinggi badan, yang digunakan untuk mengklasifikasikan kehamilan sebagai berisiko tinggi atau tidak Pra-pemrosesan data dilakukan dengan standarisasi fitur numerik dan pembagian data menggunakan metode stratified split .
% data latih, 20% data uj.
Hasil evaluasi model menunjukkan bahwa KNN mencapai tingkat akurasi 81%, sementara SVM memperoleh akurasi 75,50%.
Analisis lebih lanjut menunjukkan bahwa KNN lebih stabil dalam mengklasifikasikan data dengan distribusi variabel yang beragam, sedangkan SVM menunjukkan kecenderungan lebih sensitif terhadap kasus berisiko tinggi, dengan 66,7% prediksi mengarah pada kategori tersebut.
Jika dibandingkan dengan penelitian terdahulu, performa KNN berada dalam rentang akurasi umum 70Ae95%, sedangkan akurasi SVM sedikit lebih rendah dari rata-rata penelitian serupa yang mencapai sekitar 80,33%.
Penelitian ini menyimpulkan bahwa kedua algoritma ini berpotensi sebagai alat bantu untuk deteksi dini risiko kesehatan ibu hamil, di mana perbedaan performa keduanya dipengaruhi oleh parameter yang dipilih, karakteristik data, dan pembagian kelas.
Received: 10 Januari 2025 Revised: 20 Februari 2025 Accepted: 26 Mei 2025 Published: 19 Agustus 2025 Copyright: A 2023 by the authors.
License Universitas Harapan Bangsa.
Purwokerto.
Indonesia.
This article is an open access article distributed under the terms and conditions of the Creative Commons Attribution (CC BY) license.
Kata kunci: K-Nearest Neighbor.
Support Vector Machine.
Prediksi Risiko Kesehatan.
Machine Learning.
Data Pasien.
KORISA 2025.
Page 1-8.
https://ejournal.
id/index.
php/korisa Jurnal Kolaborasi Riset Sarjana.
Vol.
2 No.
3 Tahun 2025 Page 2 of 8 Pendahuluan Teknologi informasi telah berkembang pesat dalam dua dekade terakhir dan memberikan kontribusi besar pada berbagai bidang, termasuk sektor kesehatan (Zielinski et al.
, 2.
Adopsi teknologi ini dalam mengumpulkan, memproses, dan menganalisis data kesehatan memungkinkan identifikasi dini potensi penyakit (Sayeed et al.
, 2.
Machine learning merupakan salah satu teknologi yang maju pesat dalam sektor kesehatan (Toh & P.
Brody, 2.
Teknologi ini memiliki kemampuan untuk memproses data dalam skala besar dan menemukan pola-pola yang sulit dikenali oleh tenaga medis secara langsung (Ahad et al.
, 2025.
Chen et al.
, 2.
Teknologi ini telah banyak digunakan dalam berbagai studi prediksi kesehatan, mulai dari diagnosis penyakit, klasifikasi tingkat keparahan, hingga peramalan perkembangan penyakit (Al-Hakim & Prokopchuk, 2.
Machine learning menawarkan berbagai manfaat di sektor kesehatan, seperti mempercepat analisis data, meningkatkan ketepatan prediksi, dan membantu profesional medis dalam membuat keputusan yang lebih baik (Primartha, 2.
Selain itu, model prediksi yang dibangun dengan machine learning dapat terus diperbarui dan disesuaikan seiring bertambahnya data baru, sehingga mampu memberikan hasil yang lebih relevan dan akurat (Harmanto, 2.
Dalam penelitian ini, dataset yang digunakan berasal dari sumber publik yang berisi data pasien dengan parameter medis seperti usia, tekanan darah sistolik, tekanan darah diastolik, kadar gula darah, suhu tubuh, dan detak jantung.
Pemilihan dataset publik dilakukan untuk memastikan penelitian dapat di replikasi oleh peneliti lain, sekaligus menghindari kendala pengumpulan data primer yang memerlukan waktu, biaya, dan prosedur perizinan yang lebih kompleks (Al Hakim, 2.
Algoritma K-Nearest Neighbor (KNN) dipilih sebagai salah satu metode yang akan diuji karena kesederhanaan konsepnya dan kemampuannya dalam memberikan hasil yang kompetitif pada berbagai jenis dataset.
KNN bekerja dengan mengukur kedekatan jarak antara data uji dengan data latih menggunakan metrik tertentu, seperti jarak Euclidean (Alnowaiser, 2024.
Indriyanti et al.
, 2.
Kelas yang diprediksi ditentukan berdasarkan mayoritas kelas dari k tetangga terdekat.
Keunggulan KNN terletak pada fleksibilitasnya dalam menangani berbagai jenis data dan kemampuannya beradaptasi dengan pola distribusi data yang berbeda (Stephanie & Sarno, 2019.
Zai et al.
, 2.
Namun, performa KNN sangat dipengaruhi oleh pemilihan parameter k dan skala fitur yang digunakan.
Selain KNN, penelitian ini juga menggunakan algoritma Support Vector Machine (SVM), yang dikenal sebagai salah satu metode klasifikasi yang efektif pada data berdimensi tinggi (Stephanie & Sarno, 2.
SVM bekerja dengan mencari hyperplane optimal yang memisahkan data ke dalam dua kelas atau lebih dengan margin Konsep margin ini membantu SVM mencapai generalisasi yang baik terhadap data baru (You & Kang, 2.
SVM juga memiliki fleksibilitas dalam menangani data non-linear melalui penggunaan berbagai jenis fungsi kernel, seperti linear, polynomial, dan radial basis function (RBF) (Redel-Macyas et al.
, 2.
Penelitian ini bertujuan untuk menerapkan dan membandingkan performa algoritma KNN dan SVM dalam memprediksi risiko kesehatan berdasarkan dataset publik.
Perbandingan dilakukan dengan mengukur kinerja kedua model menggunakan metrik evaluasi seperti akurasi, presisi, recall, dan f1-score.
Dengan membandingkan kedua algoritma, diharapkan diperoleh wawasan mengenai metode mana yang lebih sesuai digunakan pada dataset dengan karakteristik serupa, serta pemahaman mengenai faktorKORISA 2025.
Page 1-8.
https://ejournal.
id/index.
php/korisa Page 3 of 8 Jurnal Kolaborasi Riset Sarjana.
Vol.
2 No.
3 Tahun 2025 faktor yang mempengaruhi kinerja model prediksi kesehatan.
Metode Dataset Dataset yang digunakan dalam penelitian ini merupakan dataset publik yang berisi informasi kesehatan ibu hamil, dirancang untuk mendukung penelitian deteksi dini kehamilan berisiko tinggi (Gambar .
Dataset ini dikumpulkan dari hasil pemeriksaan pasien dengan parameter medis yang relevan, dan digunakan sebagai dasar pelatihan serta pengujian algoritma K-Nearest Neighbor (KNN) dan Support Vector Machine (SVM).
Daftar variabel dataset yang digunakan dalam penelitian ini antara lain:
Pregnancies (Kehamila.
jumlah kehamilan yang pernah dialami subjek penelitian Vaccination Status (Vaksi.
status vaksinasi pasien, khususnya vaksin yang relevan dengan kesehatan ibu hamil.
Tinggi badan pasien dalam satuan sentimeter .
itur ini digunakan untuk perhitungan BMI dan analisis tambaha.
Hypertension (Tekanan Darah Tingg.
kondisi tekanan darah pasien yang diukur dalam satuan AummHgAy dan dikategorikan apakah termasuk hipertensi atau normal.
Fetal Heart Rate (Detak Jantung Bay.
jumlah detak jantung janin per menit.
High-Risk Pregnancy (Kehamilan Berisiko Tingg.
label target yang menunjukkan apakah pasien termasuk dalam kategori kehamilan berisiko tinggi atau tidak .
= tidak berisiko, 1 = Indeks Massa Tubuh (BMI) merupakan variabel yang dihitung berdasarkan berat dan tinggi badan pasien.
Gambar 1.
Dataset Penelitian Dataset yang dipakai dalam penelitian ini terdiri dari delapan variabel dan total 998 data pasien.
Setiap entri data merepresentasikan kondisi seorang ibu hamil, sementara setiap variabel berfungsi sebagai fitur untuk proses klasifikasi.
Variabel Kehamilan merekam usia kandungan dalam minggu.
Vaksin mencatat status vaksinasi pasien dalam bentuk kode, dan Tinggi menunjukkan tinggi badan pasien dalam satuan TekananDarah menunjukkan nilai tekanan darah sistolik pasien dalam mmHg.
DetakJantungBayi merupakan jumlah denyut jantung janin per menit .
eats per minut.
, yang menjadi salah satu indikator kesehatan janin.
BMI adalah indeks massa tubuh pasien yang dihitung dari berat dan tinggi badan.
ValueKehamilanBeresikoTinggi adalah nilai numerik hasil perhitungan faktor risiko kehamilan.
KORISA 2025.
Page 1-8.
https://ejournal.
id/index.
php/korisa Page 4 of 8 Jurnal Kolaborasi Riset Sarjana.
Vol.
2 No.
3 Tahun 2025 biasanya dalam skala 0Ae1.
Usia menunjukkan umur pasien dalam tahun.
Kolom terakhir.
KehamilanBeresikoTinggi merupakan label target klasifikasi yang digunakan pada penelitian ini, dengan nilai 0 untuk kehamilan yang tidak tergolong berisiko tinggi dan nilai 1 untuk kehamilan berisiko tinggi.
Label ini menjadi acuan utama dalam pelatihan dan pengujian model machine learning menggunakan algoritma K-Nearest Neighbor (KNN) dan Support Vector Machine (SVM).
Struktur dataset yang jelas dan lengkap ini memungkinkan analisis prediktif yang komprehensif terhadap risiko kehamilan berdasarkan parameter kesehatan yang relevan.
Metode Klasifikasi Algoritma K-Nearest Neighbor (KNN) K-Nearest Neighbor (K-NN) adalah metode yang mengklasifikasikan data baru dengan cara mengukur jarak terdekatnya dari titik-titik data yang sudah ada.
Proses klasifikasi sangat dipengaruhi oleh pemilihan nilai k, yang berfungsi sebagai penentu jumlah tetangga terdekat yang akan digunakan untuk menentukan kelas dari sebuah data baru.
Salah satu keunggulan K-NN adalah kemampuannya yang tangguh saat menghadapi dataset berukuran besar serta kemudahannya untuk diterapkan di berbagai aplikasi .
Pra-pemrosesan A Standarisasi fitur numerik .
ean 0, std .
agar fitur berskala besar tidak mendominasi A Fitur biner .
isal status vaksin/hipertens.
biasanya dipertahankan apa adanya .
Pemisahan data A Train 80% Ae Test 20%, stratified berdasarkan label agar proporsi kelas 0/1 tetap .
Pelatihan KNN A Gunakan KNeighborsClassifier dengan dua skenario bobot: uniform dan distance.
A Penentuan k dicari secara sistematis .
Inferensi .
A Untuk setiap sampel uji, cari k tetangga terdekat di data latih, lakukan voting mayoritas, hasilkan label.
Evaluasi A Laporkan akurasi, precision, recall.
F1-score, dan confusion matrix pada data uji.
A Sertakan ROC-AUC .
an PR-AUC jika kelas tidak seimban.
dari probabilitas KNN .
roporsi tetangga per kela.
Algoritma Support Vector Machine (SVM) Dikembangkan oleh Vladimir Vapnik pada tahun 1992.
Support Vector Machine (SVM) adalah algoritma supervised learning yang berfungsi untuk tugas klasifikasi.
Konsep utama SVM adalah mencari garis pemisah .
yang dapat memisahkan data ke dalam dua kelas berbeda dengan jarak .
Semakin besar margin yang dihasilkan, semakin baik kemampuan model dalam menggeneralisasi data baru.
Dalam penelitian ini, digunakan kernel Radial Basis Function (RBF) yang memungkinkan SVM menangani data yang tidak dapat dipisahkan secara linier di ruang fitur aslinya.
Kernel RBF bekerja dengan memproyeksikan data ke ruang dimensi yang lebih tinggi, sehingga data dari kelas KORISA 2025.
Page 1-8.
https://ejournal.
id/index.
php/korisa Page 5 of 8 Jurnal Kolaborasi Riset Sarjana.
Vol.
2 No.
3 Tahun 2025 yang berbeda dapat dipisahkan dengan sebuah hyperplane.
Hasil dan Pembahasan Penelitian ini bertujuan untuk membandingkan performa algoritma K-Nearest Neighbor (KNN) dan Support Vector Machine (SVM) dalam memprediksi risiko kesehatan pada ibu hamil berdasarkan dataset Dataset yang digunakan terdiri dari 998 data pasien, dengan delapan variabel utama yang mencakup parameter medis seperti jumlah kehamilan, status vaksinasi, tekanan darah, detak jantung janin, indeks massa tubuh (BMI), usia, tinggi badan, serta label risiko kehamilan.
Sebelum dilakukan proses pelatihan model, data terlebih dahulu melalui tahap pra-pemrosesan.
Fitur numerik seperti tekanan darah, detak jantung janin.
BMI, usia, dan tinggi badan dilakukan standarisasi menggunakan metode StandardScaler agar semua variabel memiliki skala yang seragam.
Hal ini bertujuan mencegah bias pada perhitungan jarak dalam KNN maupun pemisahan hyperplane pada SVM.
Sementara itu, fitur kategorikal seperti status vaksinasi dipertahankan dalam bentuk biner sesuai Gambar 2.
Histogram Dataset Penelitian Histogram pada Gambar 2 menggambarkan distribusi nilai pada variabel-variabel dalam dataset penelitian.
Dari visualisasi tersebut terlihat bahwa beberapa variabel memiliki pola distribusi yang tidak merata, dengan adanya kecenderungan nilai tertentu yang lebih sering muncul dibandingkan nilai lainnya.
Hal ini menunjukkan bahwa dataset memiliki variasi yang cukup beragam, sehingga penting untuk dilakukan proses standarisasi sebelum digunakan dalam pelatihan model.
Visualisasi distribusi ini juga membantu memahami karakteristik awal data serta memastikan bahwa tidak ada variabel yang terlalu Proses pembagian data dilakukan dengan komposisi 80% data latih dan 20% data uji, menggunakan teknik stratified split untuk menjaga proporsi kelas antara kategori AuberisikoAy dan Autidak berisikoAy.
Pada algoritma KNN, pengujian dilakukan dengan mencoba beberapa nilai k serta dua skema pembobotan, yaitu KORISA 2025.
Page 1-8.
https://ejournal.
id/index.
php/korisa Page 6 of 8 Jurnal Kolaborasi Riset Sarjana.
Vol.
2 No.
3 Tahun 2025 uniform dan distance, untuk mencari parameter yang menghasilkan akurasi tertinggi.
Pemilihan nilai k yang tepat sangat berpengaruh terhadap hasil prediksi karena jumlah tetangga yang diperhitungkan akan menentukan kecenderungan model terhadap pola data (Setiawan et al.
, 2.
Gambar 3.
Hasil Algoritma KNN Confusion matrix pada Gambar 3 menunjukkan hasil prediksi algoritma K-Nearest Neighbor (KNN) terhadap data uji.
Nilai diagonal utama merepresentasikan jumlah prediksi yang benar, sedangkan nilai di luar diagonal menunjukkan jumlah prediksi yang salah.
Dari visualisasi ini dapat dilihat bahwa KNN mampu mengklasifikasikan sebagian besar data uji dengan benar, meskipun masih terdapat sejumlah kesalahan prediksi pada kelas tertentu.
Hasil ini memperlihatkan bahwa performa KNN cukup dipengaruhi oleh distribusi data dan pemilihan parameter k.
Secara umum, semakin tepat pemilihan nilai k dan skema pembobotan, semakin baik tingkat akurasi model dalam memprediksi risiko kesehatan pada ibu hamil (AlHakim et al.
, 2.
Untuk algoritma SVM, digunakan kernel Radial Basis Function (RBF) karena memiliki kemampuan memproyeksikan data ke dimensi yang lebih tinggi sehingga memudahkan pemisahan kelas yang tidak dapat dipisahkan secara linier di ruang aslinya.
Model SVM dilatih menggunakan data latih dan diuji pada data uji yang belum pernah dilihat model.
Gambar 4.
Hasil Algoritma SVM Diagram lingkaran pada Gambar 4.
Berdasarkan hasil penelitian, algoritma Support Vector Machine KORISA 2025.
Page 1-8.
https://ejournal.
id/index.
php/korisa Jurnal Kolaborasi Riset Sarjana.
Vol.
2 No.
3 Tahun 2025 Page 7 of 8 (SVM) mencapai akurasi sebesar 75,50%.
Sementara itu, diagram lingkaran pada Gambar 4 menunjukkan proporsi hasil prediksi dari model SVM.
Dari total data uji, sebesar 66,7% diklasifikasikan sebagai kehamilan berisiko tinggi .
dan sisanya 33,3% diklasifikasikan sebagai tidak berisiko .
Proporsi ini menunjukkan kecenderungan model SVM yang lebih sensitif dalam mengidentifikasi kasus berisiko, namun tidak secara langsung merepresentasikan akurasi model secara keseluruhan.
Proporsi yang ditampilkan melalui visualisasi ini memberikan gambaran umum mengenai distribusi hasil prediksi model, sebelum dilakukan evaluasi lebih lanjut menggunakan metrik seperti akurasi, presisi, recall, dan F1-score.
Dengan demikian, diagram ini menjadi dasar untuk menilai sejauh mana SVM dapat diandalkan dalam mendeteksi risiko kehamilan dibandingkan dengan algoritma lain seperti KNN.
Kesimpulan Penelitian ini membandingkan kinerja dua algoritma machine learning, yaitu K-Nearest Neighbor (KNN) dan Support Vector Machine (SVM), untuk memprediksi risiko kehamilan pada dataset publik yang mencakup 998 data pasien dan delapan variabel medis utama.
Berdasarkan analisis.
KNN menunjukkan performa yang lebih unggul dengan akurasi 81%, melebihi akurasi SVM yang hanya 75,50%.
Meskipun begitu.
SVM memiliki kekuatan khusus dalam mendeteksi lebih banyak kasus berisiko tinggi .
,7%).
Perbedaan signifikan ini menggarisbawahi bahwa karakteristik dataset, distribusi fitur, dan pemilihan parameter sangat krusial dalam menentukan akurasi dan kemampuan generalisasi model.
KNN lebih sesuai digunakan pada dataset dengan distribusi fitur yang relatif seimbang, terutama ketika tujuan penelitian menekankan pada pencapaian akurasi tinggi secara keseluruhan.
SVM lebih sensitif dalam mendeteksi kasus berisiko, sehingga tetap relevan digunakan ketika tujuan analisis lebih berfokus pada kemampuan model menangkap sebanyak mungkin data pasien yang termasuk kategori berisiko tinggi.
Pemilihan algoritma terbaik sangat bergantung pada konteks aplikasi, misalnya apakah lebih penting mengutamakan akurasi umum .
verall accurac.
atau deteksi dini pasien berisiko tinggi .
ecall pada kelas positi.
Referensi