Jurnal ICT : Information Communication & Technology Vol.
25 N0.
Desember 2025, pp.
139 - 144
p-ISSN: 2302-0261, e-ISSN: 2303-3363.
DOI: https://doi.
org/10.
36054/jict-ikmi.
Optimalisasi Model Logistic Regression untuk Prediksi Diabetes Menggunakan Seleksi Fitur Berbasis Korelasi Wahyu Nugraha1.
Muhamad Syarif2* Fakultas Teknik dan Informatika.
Universitas Bina Sarana Informatika.
Indonesia Email: 1wahyu.
whn@bsi.
id , 2muhamad.
mdx@bsi.
INFORMASI ARTIKEL
ABSTRAK
Histori artikel:
Abstract- Diabetes Mellitus is a pressing global health challenge, making early detection a key component of effective intervention.
Machine learning has shown great potential in predicting diabetes Among various models.
Logistic Regression (LR) is often favored in a medical context due to its high interpretability, although its accuracy frequently lags behind more complex black-box models.
LR performance is known to be highly sensitive to the quality and relevance of input features.
This study aims to quantitatively evaluate the impact of a strict correlation-based feature selection strategy on the accuracy of the Logistic Regression model.
Using the "Diabetes Health Indicators" dataset (N=100,.
, this study compares two scenarios: .
a baseline LR model using all features (All Inpu.
an optimized LR model using only a subset of features .
ncluding engineered feature.
that have a high absolute correlation with diabetes diagnosis (Correlated Inpu.
The results demonstrate a significant performance improvement.
The All Input baseline model achieved an accuracy of 80.
45%, while the Correlated Input model achieved an accuracy of 85.
The measurement using AUC on the Correlated Input model was 0.
93, which is higher than the baseline All Input model at 0.
Correlation-based feature selection increased the predictive power of the Logistic Regression (LR) model by up to 5.
22% by eliminating noise from irrelevant features.
This optimized Logistic Regression offers a strong balance between enhanced accuracy and interpretability, which is essential for clinical Naskah masuk, 5 November 2025 Direvisi, 24 November 2025 Diiterima, 18 Desember 2025 Kata Kunci:
Prediksi Diabetes Logistic Regression Machine Learning Seleksi Fitur Analisis Korelasi Abstrak- Diabetes Mellitus merupakan tantangan kesehatan global yang mendesak, di mana deteksi dini menjadi kunci intervensi yang Machine learning telah menunjukkan potensi besar dalam prediksi risiko diabetes.
Di antara berbagai model.
Regresi Logistik (LR) sering disukai dalam konteks medis karena interpretasinya yang tinggi, meskipun akurasinya seringkali tertinggal dari model blackbox yang lebih kompleks.
Kinerja LR diketahui sangat sensitif terhadap kualitas dan relevansi fitur input.
Penelitian ini bertujuan untuk mengevaluasi secara kuantitatif dampak dari strategi seleksi fitur berbasis korelasi yang ketat terhadap akurasi model Regresi Logistik.
Menggunakan dataset Diabetes Health Indicators (N=100.
, penelitian ini membandingkan dua skenario: .
model LR baseline yang menggunakan semua fitur (All Inpu.
model LR yang dioptimalkan, yang hanya menggunakan subset fitur .
ermasuk fitur hasil rekayas.
yang memiliki korelasi absolut tinggi dengan diagnosis diabetes (Correlated Inpu.
Hasil penelitian menunjukkan peningkatan kinerja yang signifikan.
Model baseline All Input mencapai akurasi 80.
45%, sedangkan model Correlated Input mencapai akurasi 85.
Pengukuran menggunakan AUC https://ejournal.
id/index.
php/jict-ikmi Jurnal ICT : Information Communication & Technology Vol.
25 N0.
Desember 2025, pp.
139 - 144
p-ISSN: 2302-0261 e-ISSN: 2303-3363 pada model correlated input sebesar 0.
93 lebih tinggi dibandingkan dengan model baseline all input sebesar 0.
Seleksi fitur berbasis korelasi meningkatkan kekuatan prediktif model Regresi Logistik (LR) hingga 5.
22% dengan menghilangkan noise fitur yang tidak Regresi Logistik yang dioptimalkan ini memberikan keseimbangan yang kuat antara akurasi yang ditingkatkan dan interpretasi yang esensial untuk aplikasi klinis.
Copyright A 2025 LPPM - STMIK IKMI Cirebon This is an open access article under the CC-BY license Penulis Korespondensi:
Muhamad Syarif Fakultas Teknik dan Informatika.
Universitas Bina Sarana Informatika Universitas Bina Sarana Informatika Jl.
Abdul Rahman Saleh No.
Kec.
Pontianak Tenggara.
Kota Pontianak.
Kalimantan Barat - Indonesia Email: muhamad.
mdx@bsi.
Pendahuluan Diabetes Mellitus telah menjadi salah satu tantangan kesehatan global terbesar di abad ke-21 .
Sebagai penyakit kronis yang ditandai dengan kadar glukosa darah tinggi, diabetes dapat menyebabkan komplikasi serius yang memengaruhi berbagai organ tubuh, termasuk penyakit kardiovaskular, gagal ginjal, dan neuropati .
Besarnya beban penyakit ini, baik dari segi morbiditas, mortalitas, maupun biaya ekonomi, telah mendorong urgensi untuk pengembangan strategi pencegahan dan intervensi dini .
Salah satu pilar utama dalam upaya ini adalah identifikasi individu yang berisiko tinggi terkena diabetes sebelum penyakit tersebut bermanifestasi secara klinis .
Sejalan komputasi, metode machine learning (ML) telah menunjukkan potensi besar sebagai alat bantu untuk prediksi risiko penyakit kronis, termasuk diabetes .
Algoritma ML mampu menganalisis pola yang kompleks dan non-linear dari multidimensi data pasien mencakup faktor demografis, klinis, gaya hidup, dan riwayat kesehatan untuk menghasilkan model prediktif .
Berbagai model, seperti Regresi Logistik (Logistic Regressio.
Random Forest, dan Gradient Boosting, telah banyak diterapkan untuk tugas klasifikasi ini .
Di antara model-model tersebut.
Regresi Logistik sering menjadi pilihan kemampuannya yang relatif sederhana dan hasil koefisiennya yang dapat diinterpretasi, sehingga memberikan wawasan tentang faktor risiko mana yang paling berpengaruh .
Kinerja model machine learning bergantung pada kualitas dan relevansi fitur .
Pendekatan all input .
enggunakan semua fitu.
berisiko menimbulkan noise, redundansi, dan kompleksitas https://ejournal.
id/index.
php/jict-ikmi komputasi, yang dapat menurunkan akurasi dan generalisasi .
Oleh karena itu, seleksi fitur adalah langkah krusial .
Penelitian ini berfokus pada analisis korelasi sebagai metode seleksi fitur fundamental .
Kemudian menguji hipotesis model Regresi Logistik (LR) yang hanya menggunakan fitur yang memiliki korelasi statistik kuat .
ermasuk hasil rekayasa fitu.
dengan diagnosis diabetes akan menghasilkan performa yang lebih unggul dibandingkan dengan model baseline all input.
Penelitian ini secara spesifik bertujuan untuk membandingkan kinerja akurasi model Regresi Logistik pada dua skenario: pertama, menggunakan seluruh set fitur yang telah dibersihkan.
dan kedua, menggunakan set fitur yang telah disaring secara ketat, hanya menyisakan fitur-fitur .
sli maupun hasil rekayas.
yang menunjukkan korelasi absolut tinggi misalnya, dengan diagnosis diabetes.
Model ini menunjukkan peningkatan kinerja yang cukup Model baseline All Input mencapai 45% dan model Correlated Input mencapai akurasi 85.
Sedangkan untuk nilai AUC pada model Correlated Input sebesar 0.
lebih tinggi dibandingkan dengan model baseline All Input sebesar 0.
Hasil perbandingan ini diharapkan dapat memberikan wawasan mengenai efektivitas seleksi fitur berbasis korelasi sebagai strategi untuk mengoptimalkan model prediksi Studi Literatur Prediksi Penyakit Diabetes Diabetes Mellitus adalah penyakit metabolik kronis yang prevalensinya terus meningkat secara global dan menjadi beban kesehatan masyarakat yang signifikan .
Komplikasi serius dari diabetes yang tidak terkelola seperti penyakit kardiovaskular, retinopati, dan nefropati menimbulkan kebutuhan Jurnal ICT : Information Communication & Technology Vol.
25 N0.
Desember 2025, pp.
139 - 144
mendesak untuk deteksi dini dan intervensi Dalam konteks ini, model prediksi risiko telah menjadi alat bantu yang krusial .
Secara historis, model-model ini bersifat statistika konvensional.
Namun, dengan digitalisasi data kesehatan (EHR) dan ketersediaan dataset yang besar, teknik machine learning telah menunjukkan keunggulan.
Berbagai penelitian telah berhasil menerapkan algoritma seperti Support Vector Machines (SVM).
Nayve Bayes, dan Artificial Neural Networks (ANN) untuk mengklasifikasikan pasien berisiko tinggi dengan akurasi yang menjanjikan .
Peran Logistic Regression dalam Prediksi Medis Di antara berbagai algoritma ML.
Regresi Logistik (Logistic Regression - LR) tetap menjadi salah satu model yang paling banyak digunakan dalam penelitian medis.
Meskipun model yang lebih kompleks .
eperti deep learning atau ensemble tree.
seringkali menawarkan akurasi yang sedikit lebih tinggi.
Regresi Logistik memiliki keunggulan utama yang tidak tertandingi yaitu kemampuan interpretasi .
aya tafsi.
Dalam bidang medis, alasan mengapa sebuah prediksi dibuat seringkali sama pentingnya dengan apakah prediksi itu akurat .
Regresi Logistik adalah model linier probabilistik yang menghasilkan koefisien .
an odds rati.
untuk setiap fitur input .
Koefisien ini memungkinkan praktisi klinis untuk memahami secara kuantitatif faktor risiko mana .
isalnya, hba1c atau bm.
yang memiliki dampak terbesar terhadap probabilitas diagnosis .
Karena transparansinya ini.
LR sering digunakan sebagai benchmark atau model dasar yang kuat dalam studi klinis.
Signifikansi Seleksi Fitur untuk Model Linier Kelemahan utama dari Regresi Logistik adalah sensitivitasnya terhadap input data.
Kinerjanya dapat menurun secara signifikan ketika dihadapkan pada:
Multikolinearitas: Korelasi tinggi antar fitur Fitur Tidak Relevan (Nois.
: Fitur yang tidak memiliki hubungan statistik dengan variabel Ketika dataset memiliki dimensionalitas tinggi .
anyak fitu.
, model LR akan mencoba memberikan "bobot" .
pada setiap fitur, termasuk fitur yang tidak relevan.
Hal ini dapat mengaburkan sinyal dari prediktor yang benarbenar penting dan menurunkan akurasi model secara keseluruhan.
https://ejournal.
id/index.
php/jict-ikmi p-ISSN: 2302-0261 e-ISSN: 2303-3363 Fenomena ini kontras dengan model ensemble berbasis pohon .
eperti Random Forest atau Gradient Boostin.
, yang memiliki mekanisme seleksi fitur internal.
Algoritma tersebut secara inheren akan mengabaikan fitur yang tidak relevan saat membangun pohon keputusan.
Oleh karena itu, model linier seperti Regresi Logistik secara khusus preprocessing berupa seleksi fitur yang eksplisit.
Seleksi Fitur Berbasis Korelasi sebagai Metode Filter Metode seleksi fitur secara umum dapat dibagi menjadi tiga kategori: filter, wrapper, dan Metode filter adalah yang paling sederhana dan paling cepat secara komputasi.
Metode ini mengevaluasi relevansi fitur berdasarkan karakteristik statistik data itu sendiri, sebelum model dilatih.
Salah satu metode filter yang paling umum adalah analisis korelasi, seringkali menggunakan koefisien korelasi Pearson.
Pendekatan ini mengukur kekuatan hubungan linier antara setiap fitur independen dan variabel target misalnya, diagnosed_diabetes.
Dengan menetapkan ambang batas misalnya peneliti dapat dengan cepat menyaring sejumlah besar fitur dan hanya fitur-fitur hubungan statistik terkuat dengan hasil yang ingin Celah Penelitian Meskipun membandingkan Regresi Logistik melawan model black-box yang kompleks, masih terdapat fokus yang kurang pada optimalisasi model Regresi Logistik itu sendiri.
Seringkali, model LR baseline .
ang menggunakan semua fitu.
disajikan dengan kinerja yang buruk, lalu diabaikan demi model yang lebih kompleks.
Celah penelitian yang ingin diisi oleh studi ini adalah untuk mengukur secara kuantitatif dampak langsung dari strategi seleksi fitur berbasis korelasi yang ketat terhadap kinerja Regresi Logistik.
Penelitian ini berhipotesis bahwa model Regresi Logistik yang dilatih hanya dengan fitur-fitur yang sangat relevan .
ermasuk fitur hasil rekayas.
dapat mencapai peningkatan akurasi yang drastis, menjadikannya pilihan yang jauh lebih kompetitif Metode Penelitian Metodologi penelitian ini dirancang untuk mengevaluasi efektivitas seleksi fitur berbasis korelasi dalam meningkatkan kinerja model Regresi Logistik untuk prediksi diabetes.
Gambar 1 merupakan alur penelitian yang dibagi menjadi Jurnal ICT : Information Communication & Technology Vol.
25 N0.
Desember 2025, pp.
139 - 144
beberapa tahapan utama yaitu akuisisi dataset, preprocessing data, desain eksperimen .
ermasuk rekayasa dan seleksi fitu.
, pemodelan, dan p-ISSN: 2302-0261 e-ISSN: 2303-3363 mencakup data demografis .
isalnya, age, gender, ethnicit.
, indikator gaya hidup .
isalnya, smoking_status, physical_activity_minutes_per_wee.
, riwayat kesehatan .
isalnya, family_history_diabetes, hypertension_histor.
, dan parameter klinis .
isalnya, bmi, glucose_fasting, hba1.
Variabel target adalah diagnosed_diabetes, sebuah variabel biner di mana Au1Ay mengindikasikan Au0Ay mengindikasikan tidak terdiagnosis.
Gambar 2.
Subset dari Dataframe Preprocessing Data Tahap preprocessing data bertujuan untuk membersihkan dan mempersiapkan dataset agar siap digunakan untuk pemodelan.
Penanganan Kebocoran Data .
ata leakag.
Kolom diabetes_risk_score dan diabetes_stage dihapus dari dataset.
Kolom-kolom ini dianggap sebagai proksi atau hasil dari diagnosis diabetes itu sendiri, sehingga penggunaannya dalam prediksi akan menyebabkan kebocoran data dan hasil yang terlalu optimistis secara artifisial.
Encoding Fitur Kategorikal: Fitur non-numerik seperti gender, ethnicity, education_level, income_level, employment_status, smoking_status dikonversi menjadi representasi numerik menggunakan teknik label encoding.
Pemisahan Data (Data Splittin.
: Dataset yang telah bersih kemudian diacak .
dan dibagi menjadi tiga subset data yang berbeda:
Data Latih (Train Se.
: 70% dari total data, digunakan untuk melatih model.
Data Validasi (Validation Se.
: 15% dari total data, digunakan untuk mengevaluasi dan membandingkan kinerja model selama fase eksperimen.
Data Uji (Test Se.
: 15% dari total data, digunakan untuk pengujian akhir pada model terbaik .
eskipun dalam konteks perbandingan ini, fokus utama adalah pada set validas.
Gambar 1.
Tahapan Penelitian Deskripsi Dataset Penelitian ini menggunakan dataset Diabetes Health Indicators Dataset yang bersumber dari platform Kaggle.
Gambar 2 merupakan subset dari Dataset ini terdiri dari 100.
000 sampel pasien dengan 31 atribut.
Atribut-atribut ini https://ejournal.
id/index.
php/jict-ikmi Desain Eksperimen dan Seleksi Fitur Eksperimen dirancang untuk membandingkan dua pendekatan dalam pemilihan fitur.
Skenario 1:
Model All Input.
Model pertama yang berfungsi sebagai baseline, dilatih menggunakan seluruh fitur yang tersisa .
setelah tahap preprocessing Skenario 2: Model Correlated Input.
Model kedua dilatih menggunakan subset fitur yang telah melalui proses rekayasa dan seleksi fitur yang ketat:
Jurnal ICT : Information Communication & Technology Vol.
25 N0.
Desember 2025, pp.
139 - 144
Rekayasa Fitur (Feature Engineerin.
: Fiturfitur baru, yang disebut Relations, dibuat dengan menghitung rasio .
antara pasangan fitur numerik yang ada.
Analisis Korelasi: Koefisien korelasi Pearson dihitung antara setiap fitur .
aik fitur asli maupun fitur Relations yang baru dibua.
dengan variabel target diagnosed_diabetes.
Seleksi Fitur: Hanya fitur-fitur yang menunjukkan korelasi absolut yang kuat .
idefinisikan sebagai nilai ) dengan target yang Subset fitur yang telah disaring dan sangat berkorelasi ini kemudian disebut sebagai set data Correlated Input.
Berikut ini adalah pseudocode tahapan Automated Feature Engineering INPUT:
df_train, df_test, df_val #dataset train, test, validation target = 'diagnosed_diabetes' STEP 1: Ambil daftar kolom fitur colnames = semua kolom dari df_train hapus kolom target dari colnames STEP 2: Buat fitur baru dari rasio antar kolom FOR setiap pasangan unik .
ol_i, col_.
dalam colnames:
relation_col = df_train.
/ df_train.
corr = | korelasi.
elation_col, df_train.
) | IF corr >= 0.
relation_name = UUID unik simpan metadata pasangan .
ol_i, col_.
dengan nama relation_name tambahkan relation_col ke df_train dengan nama relation_name tambahkan fitur serupa ke df_test dan df_val STEP 3: Seleksi fitur berdasarkan korelasi dengan target colnames_extended = semua kolom dari df_train_extended hapus kolom target dari colnames_extended FOR setiap col dalam colnames_extended:
corr =.
f_train_extended.
, df_train_extended.
)| IF corr < 0.
hapus col dari df_train_extended hapus col dari df_test_extended hapus col dari df_val_extended STEP 4: Tampilkan bentuk akhir dataset print ukuran df_train_extended print ukuran df_test_extended print ukuran df_val_extended OUTPUT:
df_train_extended, df_test_extended, df_val_extended relations .
etadata fitur bar.
Pemodelan Regresi Logistik Algoritma machine learning yang menjadi fokus utama dalam perbandingan ini adalah Regresi Logistik (Logistic Regressio.
Model ini dipilih karena merupakan standar industri untuk masalah klasifikasi biner dan kemampuannya dalam memberikan koefisien yang dapat diinterpretasi.
Dua model Regresi Logistik yang identik dilatih secara terpisah: satu pada set data All Input dan satu lagi pada set data Correlated Input.
https://ejournal.
id/index.
php/jict-ikmi p-ISSN: 2302-0261 e-ISSN: 2303-3363 Metrik Evaluasi Kinerja dari kedua model Regresi Logistik (All Input vs.
Correlated Inpu.
dievaluasi dan dibandingkan menggunakan set data validasi.
Metrik utama yang digunakan untuk perbandingan adalah Akurasi (Accurac.
, yang didefinisikan .
Di mana TP (True Positiv.
dan TN (True Negativ.
adalah jumlah prediksi yang benar untuk masing-masing kelas.
Hasil dan Pembahasan Bagian ini menyajikan temuan kuantitatif dari eksperimen yang berfokus pada model Regresi Logistik.
Tujuan utamanya adalah untuk mengevaluasi secara langsung dampak dari seleksi fitur berbasis korelasi terhadap kinerja model.
Hasil Kinerja Model Regresi Logistik Model Regresi Logistik diuji dalam dua skenario fitur yang berbeda, seperti yang diuraikan dalam metodologi.
Kinerja dievaluasi dengan metrik Akurasi pada set data validasi .
% dari total dat.
Hasil perbandingan disajikan pada Tabel 1 dan Tabel 2.
Tabel 1.
Perbandingan Akurasi Model Regresi Logistik Skenario Jumlah Fitur Akurasi Fitur (Inpu.
(Validation Se.
All Input 28 Fitur 8045 .
Correlated Input 7 Fitur* 8567 .
Catatan: Jumlah fitur AuCorrelated InputAy .
diekstrak dari analisis notebook, yang menunjukkan dataset akhir memiliki 8 kolom .
fitur 1 targe.
Tabel 2.
Perbandingan Nilai AUC
Model Regresi Logistik
Skenario
Jumlah Fitur
AUC
Fitur (Inpu.
All Input Correlated Input 28 Fitur 7 Fitur* Confusion matrix digunakan untuk melihat di mana tepatnya model melakukan kesalahan deteksi atau "alarm palsu" atau justru "kebobolan" gagal mendeteksi orang saki.
Temuan ini diperkuat oleh confusion matrix pada Gambar 3, di mana model Optimal terbukti lebih aman secara klinis karena berhasil menekan angka False Negative .
asien diabetes yang tidak terdeteks.
212 kasus menjadi hanya 958 kasus, sekaligus meningkatkan deteksi yang benar (True Positiv.
Secara keseluruhan, seleksi fitur terbukti efektif mengurangi noise, meminimalkan kesalahan Jurnal ICT : Information Communication & Technology Vol.
25 N0.
Desember 2025, pp.
139 - 144
diagnosis, dan meningkatkan akurasi prediksi secara substansial.
Model Regresi Logistik yang dilatih menggunakan subset fitur Correlated Input mencapai akurasi .
67%), mengungguli model baseline All Input .
45%) dengan selisih absolut Gambar 4 menunjukkan kurva ROC untuk perbandingan kedua skema penelitian.
Visualisasi kurva ROC .
eceiver operating mendemonstrasikan keunggulan model Regresi Logistik yang telah dioptimalkan melalui seleksi Garis biru, yang merepresentasikan model optimal .
orrelated inpu.
, secara konsisten melengkung lebih tinggi mendekati sudut kiri atas dibandingkan model baseline .
aris mera.
, yang mengindikasikan kemampuan deteksi positif yang lebih baik dengan tingkat kesalahan .
alse positiv.
yang lebih rendah.
Secara kuantitatif, superioritas ini dibuktikan dengan peningkatan nilai area under the curve (AUC) yang signifikan, dari 0.
8875 pada model baseline menjadi 0.
9316 pada model Peningkatan metrik AUC ini, yang berjalan lurus dengan kenaikan akurasi dari 80.
67%, mengonfirmasi bahwa eliminasi fitur noise tidak hanya mempertajam akurasi prediksi, tetapi juga secara drastis meningkatkan membedakan pasien diabetes dan non-diabetes secara reliabel.
Gambar 3 Perbandingan Confusion Matrix Gambar 4.
Perbandingan ROC Regresi Logistik Pembahasan Temuan utama dari penelitian ini adalah bahwa seleksi fitur yang ketat dan berbasis korelasi https://ejournal.
id/index.
php/jict-ikmi p-ISSN: 2302-0261 e-ISSN: 2303-3363 secara drastis meningkatkan kinerja prediktif dari model Regresi Logistik.
Pembahasan di bawah ini akan menguraikan implikasi dari hasil ini.
Dampak Kritis Seleksi Fitur pada Model Linier Peningkatan akurasi sebesar 5.
22% menyoroti kelemahan signifikan dari model Regresi Logistik .
an model linier lainny.
ketika dihadapkan pada data berdimensi tinggi yang mengandung noise.
Model All Input .
engan 28 fitu.
kemungkinan besar mengalami overfitting pada noise atau terdistorsi oleh fitur-fitur yang tidak memiliki hubungan prediktif .
tau hanya hubungan yang sangat lema.
dengan diagnosis diabetes.
Regresi Logistik bekerja paling baik ketika input-nya adalah prediktor yang kuat dan relevan.
Dengan menyaring data dari 28 fitur menjadi hanya 7 fitur yang paling berkorelasi, kami secara efektif menghilangkan gangguan statistik.
Hal ini memungkinkan algoritma untuk mengoptimalkan koefisiennya pada sinyal yang paling penting, menghasilkan batas keputusan yang jauh lebih akurat.
Efektivitas Rekayasa Fitur Rasio (Relation.
Penting untuk dicatat bahwa set Correlated Input tidak hanya terdiri dari fitur asli yang disaring, tetapi juga mencakup fitur-fitur hasil .
isalnya, waist_to_hip_ratio glucose_postprandia.
Fakta bahwa fitur-fitur rasio ini lolos dari saringan korelasi .
emiliki korelasi ) non-linier sederhana .
alam bentuk rasi.
dapat menangkap interaksi biologis yang relevan.
Misalnya, glucose_postprandial .
lukosa setelah maka.
mungkin berkorelasi sedang dengan diabetes.
Namun, rasio antara waist_to_hip_ratio .
ndikator obesitas sentra.
dan glukosa tersebut mungkin merupakan prediktor yang jauh lebih kuat, yang mencerminkan bagaimana tubuh mengelola beban glukosa dalam konteks obesitas.
Keberhasilan ini menunjukkan rekayasa fitur yang digerakkan oleh hipotesis atau bahkan eksplorasi sangat berharga.
Implikasi: Keseimbangan antara Akurasi dan Interpretasi Meskipun model ensemble yang kompleks seperti CatBoost atau Random Forest mungkin mencapai akurasi yang lebih tinggi, pendekatan yang divalidasi Regresi Logistik pada fitur yang sangat relevan memiliki keunggulan besar dalam hal interpretasi.
Model Correlated Input kami tidak hanya 85,67% akurat, tetapi juga dapat dijelaskan Model ini hanya didasarkan pada 7 Seorang dokter atau peneliti dapat dengan mudah memeriksa koefisien dari 7 fitur tersebut untuk memahami secara pasti faktor apa yang paling mendorong risiko diabetes menurut model .
isalnya, hba1c, glucose_postprandial, dan rasiorasio bar.
Model baseline All Input dengan 28 fitur jauh lebih sulit untuk diinterpretasikan.
Jurnal ICT : Information Communication & Technology Vol.
25 N0.
Desember 2025, pp.
139 - 144
Dengan demikian, penelitian ini menunjukkan bahwa untuk aplikasi medis di mana interpretability .
emampuan untuk dijelaska.
sama pentingnya Regresi Logistik dikombinasikan dengan seleksi fitur berbasis korelasi yang ketat merupakan strategi metodologi yang sangat valid dan efektif.
Kesimpulan dan Saran Kesimpulan Penelitian ini mengevaluasi dampak dari strategi seleksi fitur berbasis korelasi terhadap model Regresi Logistik untuk prediksi diabetes.
Hasilnya menunjukkan perbedaan kinerja yang Model menggunakan semua fitur All Input hanya mencapai Sebaliknya, setelah menerapkan metode Correlated Input yang melibatkan rekayasa fitur dan filter korelasi yang ketat kinerja model melonjak drastis ke 85.
67%, sebuah peningkatan absolut sebesar 5.
Peningkatan substansial ini membuktikan bahwa Regresi Logistik adalah model yang sangat sensitif terhadap noise statistik, atau fitur-fitur yang tidak relevan dan berkorelasi lemah.
Dengan menghilangkan gangguan ini, model dapat fokus pada sinyal prediktif yang paling kuat, sehingga akurasinya meningkat secara signifikan.
Pada akhirnya, model Correlated Input tidak hanya lebih akurat, tetapi juga menawarkan keunggulan signifikan dalam hal interpretasi.
Model yang dihasilkan hanya dengan 7 fitur jauh lebih mudah untuk dijelaskan dan dianalisis oleh praktisi klinis dibandingkan dengan model baseline 28 fitu.
Penelitian ini membuktikan bahwa strategi seleksi fitur yang ketat adalah metode yang sangat efektif untuk mengoptimalkan Regresi Logistik, menciptakan keseimbangan ideal antara akurasi dan kemampuan untuk dijelaskan dalam prediksi medis.
Saran Berdasarkan temuan penelitian ini, terdapat implikasi praktis yang kuat bagi para peneliti yang menggunakan model linier dalam konteks medis.
Sangat disarankan agar penggunaan pendekatan brute-force All Input dihindari.
Sebaliknya, implementasi langkah seleksi fitur yang cermat harus dianggap sebagai bagian wajib dari alur kerja untuk mengoptimalkan model seperti Regresi Logistik.
Selain itu, keberhasilan fitur rekayasa Relations menunjukkan potensi besar.
Penelitian di masa depan disarankan untuk mengeksplorasi lebih lanjut interaksi antar variabel klinis, seperti rasio BMI terhadap glukosa atau tekanan darah terhadap HBA1c, yang mungkin dapat berfungsi sebagai prediktor tunggal yang lebih kuat.
Untuk langkah selanjutnya, validasi klinis terhadap model 7 fitur yang dioptimalkan .
kurasi https://ejournal.
id/index.
php/jict-ikmi p-ISSN: 2302-0261 e-ISSN: 2303-3363 85,67%) sangat penting.
Model ini harus diuji menggunakan data prospektif dari populasi yang berbeda misalnya, rumah sakit lain untuk menguji kemampuannya di dunia nyata .
Terakhir, penelitian ini berfokus pada metode filter korelasi Pearson.
Studi di masa depan akan mendapat manfaat dari perbandingan efektivitas metode ini dengan teknik seleksi fitur lain, seperti metode wrapper .
RFE) atau embedded .
egularisasi L1/Lass.
, untuk melihat apakah akurasi Regresi Logistik dapat ditingkatkan lebih jauh lagi.
Daftar Pustaka