Infotekmesin Vol.
No.
Juli 2025 p-ISSN: 2087-1627, e-ISSN: 2685-9858 DOI: 10.
35970/infotekmesin.
2377, pp.
Implementasi Linear Discriminant Analysis (LDA) untuk Deteksi Gejala Penyakit Jantung Inka Saputri1.
Chyntia Raras Ajeng Widiawati2*.
Sarmini3.
Ika Romadoni Yunita4 1Program Studi Teknologi Informasi.
Universitas Amikom Purwokerto 1Jl.
Letjend.
Pol.
Soemarto.
Watumas.
Kabupaten Banyumas, 53127.
Indonesia E-mail: inkasaputri06@gmail.
com1, chyntiaraw@amikompurwokerto.
id2, sarmini@amikompurwokerto.
id 3, ikarom@amikompurwokerto.
Abstrak Info Naskah:
Naskah masuk: 29 Juni 2024 Direvisi: 28 April 2025 Diterima: 25 Juli 2025 Penyakit jantung merupakan penyebab utama kematian di dunia dan sering tidak terdeteksi sejak dini karena keterbatasan informasi dan biaya pemeriksaan.
Penelitian ini bertujuan untuk membangun model prediksi penyakit jantung yang akurat dan efisien menggunakan algoritma Linear Discriminant Analysis (LDA).
Dataset yang digunakan berasal dari Kaggle dan terdiri atas 1024 data pasien dengan 14 atribut klinis, termasuk usia, tekanan darah, kolesterol, dan hasil EKG.
Tahapan preprocessing meliputi penanganan outlier, duplikasi, ketidakseimbangan kelas dengan SMOTE, dan standardisasi fitur.
Evaluasi dilakukan menggunakan teknik cross-validation dan analisis kurva pembelajaran.
Hasil menunjukkan bahwa model LDA yang dioptimalkan dengan GridSearchCV mampu mencapai akurasi sebesar 82,54%, recall 88,91%, precision 79,03%, dan F1-score 83,54%.
Model menunjukkan performa yang stabil dan seimbang, meskipun masih terdapat kesalahan klasifikasi pada kelas positif.
Penelitian ini menunjukkan bahwa LDA merupakan pendekatan yang potensial untuk deteksi dini penyakit jantung berbasis data klinis.
Abstract Keywords:
Heart disease is the leading cause of death globally and is often not detected early due to limited awareness and the high cost of medical diagnosis.
This study aims to develop an accurate and efficient prediction model for heart disease using the Linear Discriminant Analysis (LDA) algorithm.
The dataset, obtained from Kaggle, contains 1,024 patient records with 14 clinical attributes, including age, blood pressure, cholesterol, and ECG results.
The preprocessing steps include handling outliers, duplicates, class imbalance using SMOTE, and feature standardization.
The model was evaluated using cross-validation and learning curve analysis.
Results show that the optimized LDA model, tuned with GridSearchCV, achieved an accuracy of 82.
54%, a recall of 88.
91%, a precision of 79.
03%, and an F1-score of 83.
The model demonstrates balanced and stable performance, although some misclassification in the positive class remains.
This study highlights LDA as a promising method for the early detection of heart disease based on structured clinical data.
heart disease.
linear discriminant analysis.
SMOTE.
machine learning.
Penulis korespondensi:
Chyntia Raras Ajeng Widiawati E-mail: chyntiaraw@amikompurwokerto.
p-ISSN: 2087-1627, e-ISSN: 2685-9858 Pendahuluan Sistem peredaran darah manusia memegang peranan yang sangat penting dalam tubuh manusia.
Sistem ini memiliki dua fungsi utama, yaitu mengedarkan oksigen dan nutrisi ke seluruh tubuh manusia serta mengangkut sisa hasil Jantung merupakan salah satu organ tubuh manusia yang memiliki peran penting dalam sistem peredaran darah.
Organ ini berfungsi layaknya pompa yang mengedarkan darah ke seluruh tubuh.
Jika jantung mengalami gangguan atau kerusakan, maka seluruh organ tubuh manusia akan mengalami gangguan dalam kinerjanya.
Penyakit jantung adalah kondisi dimana jantung tidak dapat berfungsi dengan baik.
Menurut data dari World Health Organization (WHO), sekitar 7,3 juta orang meninggal setiap tahun akibat penyakit ini.
Meskipun termasuk dalam kategori penyakit tidak menular, penyakit jantung merupakan penyebab kematian tertinggi secara Meskipun penyakit jantung tidak menular, namun penyakit ini merupakan penyakit yang paling mematikan di dunia.
Penyakit kardiovaskular (PKV) menurut definisi dari World Health Organization (WHO) dalam data Pusdatin Kemenkes RI tahun 2014, adalah penyakit yang terjadi akibat gangguan fungsi jantung dan pembuluh darah.
Contoh dari penyakit ini meliputi penyakit jantung koroner, hipertensi, stroke, dan gagal jantung.
Setiap tahun, lebih dari 36 juta orang meninggal akibat Penyakit Tidak Menular (PTM), yang mencakup 63% dari seluruh kematian.
Secara global.
PTM menjadi penyebab utama kematian setiap tahun.
Kematian dini akibat penyakit jantung mencapai 4% di negara berpendapatan tinggi dan 42% di negara berpendapatan rendah .
Penyakit gagal jantung masuk kedalam kategori penyakit kardiovaskular.
Gagal jantung adalah kondisi di mana jantung tidak mampu memompa darah yang cukup untuk memenuhi kebutuhan tubuh.
Pasien dengan gagal jantung adalah yang paling banyak dirawat di rumah sakit.
Kesadaran masyarakat terhadap pola hidup sehat masih rendah, dan informasi mengenai penyakit jantung koroner masih kurang sehingga banyak orang tidak dapat mengenali gejala awalnya.
Untuk mendeteksi penyakit jantung, seseorang dapat menjalani proses deteksi secara manual yang melibatkan konsultasi langsung dengan dokter spesialis jantung dan menjalani beberapa pemeriksaan laboratorium.
Setelah itu, pemeriksaan harus dikonsultasikan kembali dengan dokter spesialis jantung.
Proses ini tentu saja membutuhkan biaya yang relatif besar.
Mengingat tingginya risiko kematian yang diitimbulkan oleh penyakit jantung koroner, diperlukan adanya sistem yang mampu mendeteksi penyakit ini secara akurat namun dengan biaya yang lebih terjangkau, sehingga lebih banyak penderita dapat diidentifikasi dan ditangani dengan cepat dan tepat.
Penelitian ini berfokus pada implementasi algoritma Linear Discriminant Analysis (LDA) sebagai pendekatan utama dalam pembangunan model deteksi gejala penyakit LDA dipilih karena memiliki sejumlah keunggulan yang relevan untuk permasalahan ini.
Pertama.
LDA bekerja optimal pada dataset berukuran kecil hingga menengah, yang umum dijumpai dalam data medis.
LDA efektif dalam menangani masalah klasifikasi dengan dua kelas atau lebih serta mampu memproyeksikan fitur ke dimensi yang lebih rendah dengan mempertahankan separabilitas antar kelas.
LDA tergolong ringan dan cepat, sehingga cocok diimplementasikan pada sistem berbasis perangkat mobile atau embedded sistem.
Dalam interpretabilitas model juga menjadi nilai tambah.
LDA
termasuk dalam model yang interpretable, memungkinkan peneliti dan tenaga medis memahami kontribusi setiap fitur terhadap klasifikasi, yang sangat penting dalam pengambilan keputusan klinis.
Kebaruan dari penelitian ini terletak pada pendekatan sistematis dalam mengevaluasi LDA sebagai model utama, tanpa melakukan perbandingan luas dengan algoritma machine learning lain seperti Random Forest.
SVM, atau Neural Network, yang meskipun populer, seringkali membutuhkan komputasi lebih tinggi dan sulit diinterpretasikan secara langsung.
Metode Dalam penelitian ini, penulis menggunakan model machine learning dengan metode Linear Discriminant Analysis (LDA) terhadap dataset penyakit jantung.
Penelitian ini akan melalui beberapa proses, seperti pada Gambar 1 berikut yang dijelaskan pada sub bab berikutnya.
Gambar 1.
Tahapan Penelitian 1 Pengumpulan Data Tahapan awal dalam penelitian ini adalah memulai dengan memilih dataset yang akan dipergunakan.
Dalam penelitian ini dataset yang digunakan merupakan dataset pasien yang menderita penyakit jantung dengan jumlah 1024 catatan data dengan total 14 atribut termasuk kelas .
Dataset ini didapatkan peneliti dari website Kaggle, yang merupakan platform online yang digunakan untuk berbagai keperluan dalam data science dan machine learning termasuk menyelenggarakan kompetisi, menyediakan akses ke berbagai dataset, menawarkan lingkungan notebook berbasis cloud, serta menyediakan kursus online gratis.
2 Exploratory Data Analysis (EDA) Tahapan ini krusial karena membantu memahami data dengan mendalam melalui analisis statistik deskriptif dan Tahapan ini dilakukan dengan mengidentifikasi pola, anomali, dan kebutuhan pre-processing data.
EDA memandu dalam memilih fitur yang relevan dalam menentukan model yang sesuai.
Selain itu.
EDA juga memfasilitasi evaluasi model dengan teknik cross validation yang memastikan kinerja yang optimal dan menghindari overfitting atau underfitting.
Sehingga EDA menjadi tahap esensial dalam memastikan kehandalan dan kualitas model machine learning yang dikembangkan.
Beberapa tahapan yang dilakukan pada proses ini diantaranya adalah: Pemisahan fitur.
Analisa Fitur Numerikal.
Analisa Fitur Nominal, dan Analisa Fitur Ordinal.
p-ISSN: 2087-1627, e-ISSN: 2685-9858 3 Data Pre-processing Tahapan ketiga yaitu data pre-processing, dengan tujuan untuk mempersiapkan data mentah agar siap digunakan dalam model machine learning dengan menstandarisasi fitur, mengubah format data, mengurangi dimensi dataset, membagi data menjadi set pelatihan, validasi, pengujian, serta mendeteksi dan menangani outlier dan duplikat data.
Dengan melakukan tahapan ini, kualitas dan representasi data yang lebih baik dapat dicapai, sehingga model machine learning dapat belajar lebih efektif dan menghasilkan prediksi yang lebih akurat.
4 Model Machine Learning Algoritma yang digunakan dalam penelitian ini yaitu Linear Discriminant Analysis (LDA).
Selain itu.
LDA juga cocok untuk dataset kecil karena metode yang digunakan cukup sederhana dan komputasinya relatif cepat.
LDA
juga dapat bekerja dengan baik jika asumsi distribusi normal multivariat dengan kovarians yang sama di setiap kelas 5 Evaluasi Model Evaluasi model diperlukan untuk mengukur kinerja dan mengklasifikasikan data baru, serta untuk memastikan bahwa model tidak mengalami overfitting atau underfitting, melalui evaluasi model dapat diketahui seberapa baik model dapat menggeneralisasi dari data pelatihan ke data yang belum pernah dilihat sebelumnya dengan menggunakan metrik seperti akurasi, presisi, recall dan F1-Score.
Hasil dan Pembahasan Bagian ini menyajikan hasil evaluasi model deteksi penyakit jantung serta interpretasi dari metrik performa yang Analisis dilakukan berdasarkan distribusi data, mengklasifikasikan data secara akurat.
1 Pengumpulan Data Dataset ini diproduksi dari tahun 1988 dan merupakan gabungan dari empat sumber data utama yaitu Cleveland.
Hungary.
Switzerland, dan Long Beach V.
Dataset ini dipilih karena merupakan benchmark yang telah banyak digunakan dalam penelitian deteksi penyakit jantung, mencakup data dari empat pusat medis internasional dengan atribut klinis yang relevan dan beragam.
Gabungan sumber data ini meningkatkan keandalan, generalisasi model, serta cocok untuk eksperimen klasifikasi medis berskala kecil hingga Jumlah total atributnya mencapai 76 termasuk atribut yang diperkirakan, namun dalam praktiknya, semua studi yang dipublikasikan lebih cenderung memusatkan perhatian pada subset khusus dari 14 atribut tersebut.
Kolom yang ditandai sebagai AutargetAy bertujuan untuk megidentifikasi keberadaan penyakit jantung pada pasien.
Nilai dari kolom AutargetAy berupa angka bulat, dimana 0 merepresentasikan ketiadaan penyakit dan nilai 1 mengindikasikan kehadiran penyakit jantung.
Keterangan dan tipe data setiap kolom dalam dataset adalah sebagai berikut:
: Usia pasien saat diagnosis.
Usia lebih tua umumnya meningkatkan risiko penyakit jantung.
enis kelami.
: 1 untuk laki-laki, 0 untuk Jenis kelamin berpengaruh terhadap risiko dan gejala penyakit jantung.
ipe nyeri dad.
: Menunjukkan jenis nyeri dada dalam 4 kategori, yang dapat mengindikasikan kondisi jantung tertentu.
ekanan darah istiraha.
: Tekanan darah pasien saat istirahat.
Nilai tinggi dapat menunjukkan hipertensi, faktor risiko utama penyakit jantung.
olesterol seru.
: Kadar kolesterol dalam darah .
g/d.
Kolesterol tinggi dapat menyebabkan penyumbatan pembuluh darah.
ula darah puas.
: 1 jika kadar gula puasa >120 mg/dl, 0 jika tidak.
Kadar tinggi bisa terkait dengan diabetes, faktor risiko penyakit jantung.
asil elektrokardiografi istiraha.
: Hasil elektrokardiografi: 0 = normal, 1 = kelainan ST-T, 2 = hipertrofi ventrikel kiri.
enyut jantung maksimu.
: Denyut jantung maksimum saat tes.
Semakin tinggi biasanya menunjukkan fungsi jantung yang baik.
ngina yang dipicu oleh latiha.
: 1 jika mengalami angina saat latihan, 0 jika tidak.
Angina saat latihan mengindikasikan masalah jantung.
epresi segmen ST): Penurunan segmen ST saat latihan.
Nilai tinggi bisa menunjukkan gangguan aliran darah ke jantung.
emiringan segmen ST): Menunjukkan arah kemiringan segmen ST saat puncak latihan.
Memberikan petunjuk tambahan terkait kesehatan ca .
umlah pembuluh besar yang diwarna.
: Jumlah pembuluh besar .
Ae.
yang terlihat pada fluoroskopi.
Nilai tinggi dapat menunjukkan penyumbatan.
: 0 = normal, 1 = cacat tetap, 2 = cacat dapat dipulihkan.
Beberapa tipe thalasemia dapat meningkatkan risiko jantung.
: Label target, 1 = memiliki penyakit jantung, 0 = tidak.
Variabel ini menjadi fokus prediksi dalam analisis.
2 Exploratory Data Analysis (EDA) Exploratory Data Analysis adalah suatu langkah penting dalam bidang ilmu data yang bertujuan untuk mengenal dan memahami dataset secara mendalam.
Dalam proses EDA, data dianalisis secara eksploratif untuk mengidentifikasi pola, anomali, asumsi, dan hubungan yang ada didalamnya.
Selain itu.
EDA juga merupakan teknik pencarian heurestik yang digunakan untuk menemukan relasi signifikan antara berbagai variabel dalam dataset yang berukutan besar, sehingga membantu para analisis data dalam mengungkap wawasan yang tersembunyi dan memberikan dasar yang kuat untuk analisis lebih lanjut serta pengambilan keputusan berdasarkan data.
Pemisahan Fitur Tahap selanjutnya adalah pemisahan fitur-fitur yang ada berdasarkan tipe datanya.
Disini peneliti membagi p-ISSN: 2087-1627, e-ISSN: 2685-9858 menjadi 3 kategori yaitu fitur numerikal, fitur ordinal dan fitur nominal.
Tiga kategori fitur tersebut diantaranya.
Fitur numerical terdiri dari age, trestbps, chol, thalach dan Selanjutnya untuk fitur nominal terdiri dari sez, fbs, cp dan exang.
Sedangkan fitur ordinal terdiri dari restecg, slope, ca dan thal.
Analisa Fitur Numerikal Tahapan ini bertujuan untuk melakukan analisis deskriptif pada fitur numerik dalam data dengan menampilkan distribusi, statistik deskriptif, skewness dan deteksi outlier.
Dengan menggunakan visualisasi histogram dan boxplot, tahapan ini membantu memahami distribusi data termasuk melihat mean dan median.
Selain itu, statistik deskriptif memberikan ringkasan numerik, seperti mean, standar deviasi, dan kuartil.
Skewness diukur dan dikategorikan untuk menentukan simetri distribusi data.
Pada tahapan ini juga dapat digunakan untuk mendeteksi outlier dengan menggunakan IQR (Interquartile Rang.
, mengidentifikasi jumlah outlier dan outlier ekstrem untuk memberikan wawasan lebih dalam tentang anomali dalam Gambar 3.
Analisa Fitur Nominal Model dari distribusi ini adalah 1, yang berarti mayoritas data berasal dari kelompok laki-laki.
Dengan demikian, proporsi data menunjukkan kondisi yang moderately imbalanced .
etidakseimbangan sedan.
, di mana jumlah data laki-laki lebih dari dua kali lipat jumlah data perempuan.
Ketidakseimbangan ini penting untuk diperhatikan dalam proses pemodelan, karena dapat menyebabkan model menjadi bias terhadap kelas mayoritas.
Oleh karena itu, diperlukan penanganan khusus seperti oversampling data .
isalnya SMOTE), undersampling data mayoritas, atau penggunaan stratifikasi saat pembagian data pelatihan dan pengujian agar model dapat belajar secara adil dari kedua kelas.
Gambar 2.
Analisa Feature Numerical Berdasarkan visualisasi histogram dan boxplot pada Gambar 2, nilai tekanan darah istirahat .
pada dataset menunjukkan distribusi yang mendekati normal, namun sedikit miring ke kiri .
kewness = -0.
Rata-rata tekanan darah adalah 131.
6, dengan median sebesar 130.
Terdapat outlier pada nilai yang lebih tinggi .
, yang diidentifikasi sebanyak 29 data berdasarkan metode IQR.
Hal ini menunjukkan adanya sebagian kecil individu dengan tekanan darah istirahat yang jauh lebih tinggi dari mayoritas populasi dalam data.
Analisa Fitur Nominal Tahapan ini bertujuan untuk melakukan analisis deskriptif pada fitur nominal dalam data dengan menggunakan visualisasi histogram.
Visualisasi pada Gambar 3 menunjukkan distribusi data berdasarkan atribut sex yang merepresentasikan jenis kelamin responden dalam Nilai 0 menunjukkan perempuan, sedangkan 1 menunjukkan laki-laki.
Dari grafik terlihat bahwa terdapat 713 data laki-laki dan 312 data perempuan.
Analisa Fitur Ordinal Tahapan ini bertujuan untuk melakukan analisis deskriptif pada fitur ordinal dalam data dengan menampilkan distribusi, statistik deskriptif, skewness, dan deteksi outlier.
Dengan menggunakan visualisasi histogram, tahapan ini mampu memahami distribusi data.
Gambar 4.
Analisa Fitur Ordinal Dapat dilihat pada Gambar 4, atribut restecg merepresentasikan hasil pemeriksaan EKG dengan tiga kategori: normal .
, kelainan ST-T .
, dan kemungkinan hipertrofi ventrikel kiri .
Distribusi data menunjukkan bahwa kategori 1 .
dan 0 .
hampir p-ISSN: 2087-1627, e-ISSN: 2685-9858 seimbang, sementara kategori 2 hanya terdiri dari 15 data.
Mode data adalah kategori 1, dan secara keseluruhan distribusi dinilai seimbang.
Namun, jumlah data yang sangat sedikit pada kategori 2 dapat menyebabkan model kurang sensitif terhadap kelas ini.
Oleh karena itu, perlu dilakukan penanganan tambahan seperti oversampling atau pemilihan metrik evaluasi yang sesuai agar model tetap adil terhadap seluruh kelas.
semua baris yang merupakan duplikat dari baris lainnya dalam dataset.
Langkah ini memastikan bahwa dataset menjadi lebih bersih dan tidak bias, karena analisis yang dilakukan pada data duplikat dapat memberikan hasil yang tidak akurat.
Penanganan duplikat data ini sangat penting untuk meningkatkan kualitas dan validitas dari analisis data yang akan dilakukan.
3 Data Preparation Data yang dikumpulkan masih mengandung banyak nilai null, sehingga perlu diperlukan tahap pre-processing untuk menanganinya.
Tahap pre-processing data atau data preparation melibatkan serangkaian langkah penting, termasuk pembersihan data .
dan transformasi data.
Dalam proses pembersihan data, penulis memfokuskan pada penanganan atribut data yang memiliki nilai null.
Hal ini mencakup penghapusan atau pengisian nilai-nilai kosong dengan cara yang sesuai, seperti menggunakan nilai rata-rata, median atau metode imputasi Transformasi data, di sisi lain melibatkan penyesuaian dan pengubahan format data untuk memastikan bahwa data siap digunakan dalam analisis lebih lanjut.
Dengan demikian, tahap preprocessing memastikan bahwa dataset menjadi lebih bersih, konsisten, dan siap untuk dianalisis secara efektif.
Berikut yang perlu dilakukan pada tahapan data preparation:
Outlier Handling Tahapan penanganan outlier dalam dataset merupakan langkah penting untuk memastikan keakuratan analisis Proses ini dimulai dengan mencetak deskripsi statistik setiap kolom numerik sebelum penanganan outlier menggunakan aturan Interquartile Range (IQR).
Nilai kuartil pertama (Q.
dan kuartil ketiga (Q.
dihitung, dan selisih antara Q3 dan Q1 (IQR) digunakan untuk menentukan rentang data yang dianggap normal.
Baris data yang memiliki nilai di luar rentang Q1 Ae 1.
5IQR dan Q3 5IQR dianggap outlier dan dihapus dari dataset.
Setelah outlier dihapus, deskripsi statistik dicetak kembali untuk setiap kolom numerik yang memungkinkan perbandingan antara kondisi data sebelum dan sesudah penanganan outlier.
Langkah ini memastikan bahwa analisis data dilakukan pada dataset yang bersih dari nilai ekstrem yang dapat mempengaruhi hasil analisis secara negatif.
Missing Value Handling Missing value handling dilakukan dengan tujuan untuk menangani nilai yang hilang dalam sebuah dataset.
Pada Gambar 5 dibawah menunjukkan bahwa tidak ada nilai yang hilang di setiap kolom dataset, karena jumlah nilai yang hilang tercantum di samping nama setiap kolom, dengan kata lain semua kolom seperti `age`, `sex`, `cp` dan lainnya tidak memiliki nilai yang hilang sehingga dataset tersebut Gambar 6.
Sebelum Outlier Handling Gambar 5.
Missing Value Handling Duplicate Data Handling Tahap penanganan duplikat data merupakan langkah penting dalam proses pre-processing data untuk memastikan keakuratan analisis.
Duplikat data pada dataset sejumlah 723 Kemudian diperlukan penanganan untuk menghapus Dapat dilihat pada Gambar 6 bahwa visualisasi distribusi data pada atribut chol .
adar kolestero.
menunjukkan data sangat miring ke kanan .
dengan nilai skewness sebesar 1.
Histogram memperlihatkan bahwa sebagian besar data berada di sekitar nilai 200Ae250, namun terdapat beberapa nilai yang jauh lebih tinggi, menyebabkan ekor distribusi memanjang ke kanan.
Rata-rata .
ean = 246.
berada di kanan median .
edian = 239.
memperkuat indikasi skewness.
Boxplot juga menunjukkan keberadaan beberapa outlier di sisi kanan.
Meskipun nilai ekstrem tersebut sedikit .
anya 5 berdasarkan IQR), memengaruhi performa model prediktif.
Penanganan outlier atau transformasi data mungkin diperlukan untuk meningkatkan kualitas analisis.
Sedangkan pada Gambar 7, visualisasi pada atribut chol setelah proses transformasi atau pembersihan data menunjukkan distribusi yang hampir simetris dengan nilai skewness sebesar 0.
20, yang mengindikasikan distribusi data mendekati normal.
p-ISSN: 2087-1627, e-ISSN: 2685-9858 Gambar 7.
Setelah Outlier Handling Histogram dan boxplot memperlihatkan bahwa data tersebar merata di sekitar nilai rata-rata .
ean = 240.
dan median .
, dengan tidak terdapat outlier berdasarkan aturan IQR.
Rentang nilai kolesterol berada antara 164 hingga 300, dan tidak ada nilai ekstrem yang mempengaruhi bentuk distribusi.
Kondisi ini menunjukkan bahwa data chol telah menjadi lebih bersih dan ideal untuk digunakan dalam pemodelan, karena tidak lagi bias oleh outlier atau ketidaksimetrisan distribusi.
Imbalance Label Handling Tahapan penanganan ketidakseimbangan data .
mbalance dat.
bertujuan untuk memastikan bahwa model pembelajaran mesin tidak bias terhadap kelas mayoritas.
Langkah pertama yaitu dilakukan perhitungan jumlah sampel untuk kelas pada variabel target yang menunjukkan adanya ketidakseimbangan kelas 1 sebanyak 158 sampel dan kelas 0 sebanyak 125 sampel.
Untuk menangani ketidakseimbangan ini, digunakan metode Synthetic Minority Over-sampling Technique (SMOTE).
Proses ini dimulai dengan memisahkan fitur (X) dan target .
dari Kemudian SMOTE diterapkan untuk melakukan over-sampling pada kelas minoritas, sehingga jumlah sampel untuk kedua kelas menjadi sama yaitu 158 sampel untuk masing-masing kelas.
Hasil ini memastikan bahwa dataset yang telah diimbangi dapat digunakan untuk melatih model pembelajaran mesin yang lebih akurat dan tidak bias terhadap kelas mayoritas.
konsisten dan akurat sebelum analisis lebih lanjut.
Pada tahapan ini nilai 3 pada kolom AothalAo dikonversi menjadi 2, berdasarkan modus, untuk menyederhanakan kategori yang Selanjutnya, dilakukan penyesuaian urutan data pada kolom AothalAo di mana nilai 0 tetap mewakili kondisi normal, namun nilai 1 dan 2 ditukar untuk mencerminkan bahwa 2 kini menunjukkan cacat reversibel dan 1 menunjukkan cacat yang tidak reversibel.
Terakhir, nilai 4 pada kolom AocaAo diganti dengan 0 juga berdasarkan modus untuk menjaga konsistensi kategori dalam dataset.
Langkah-langkah ini penting untuk memastikan bahwa data yang digunakan dalam analisis selanjutnya lebih representatif dan bebas dari anomali yang dapat mengganggu hasil penelitian atau model prediktif yang akan dibangun.
Analisa Multivariat Di dalam penelitian ini analisa multivariat mencakup evaluasi kolom numerik dan kategorikal untuk memahami Fungsi `multivariateA_num` untuk memeriksa kolom numerik menggunakan visualisasi seperti boxplot, pointplot, dan barplot dengan membandingkan distribusi data berdasarkan nilai target.
Skala sumbu y disesuaikan untuk memfasilitasi perbandingan yang lebih baik antara kategori target.
Setelah menampilkan plot, fungsi ini menghitung korelasi antara kolom numerik dan target, serta menyajikan statistik deskriptif untuk masing-masing kelas target guna memberikan gambaran detail tentang distribusi data.
Untuk kolom kategorikal, fungsi `multivariate_cat` membuat plot terpisah yang menunjukkan distribusi data Plot memvisualisasikan perbedaan distribusi antara kategori.
Selain itu, crosstabulasi digunakan untuk menghitung frekuensi kategori terhadap target yang kemudian di uji menggunakan uji chi-square untuk mengidentifikasi adanya variasi signifikan antara distribusi kolom kategorikal dan Hasil uji statistik ini termasuk nilai chi-square, pvalue, dan derajat kebebasan, disertakan untuk menentukan apakah ada hubungan signifikan antara kolom dan target.
Kedua fungsi ini bersama-sama memberikan wawasan komprehensif tentang hubungan multivariat dalam dataset, mendukung analisis yang lebih mendalam dan validasi hipotesis penelitian.
Gambar 8.
Sebelum Imbalance Label Handling Gambar 9.
Setelah Imbalance Label Handling Gambar 10.
Analisa Multivariat Gambar 8 dan Gambar 9 merupakan perbandingan proporsi kelas dengan label 0 dan 1 sebelum dan sesudah dilakukan penanganan pada data imbalance.
Anomaly Handling Tahapan penanganan anomali dalam dataset ini melibatkan serangkaian langkah untuk memastikan data Gambar 10 merupakan analisis terhadap atribut age yang menunjukkan adanya perbedaan nilai usia antara dua kelas pada variabel target .
= tidak sakit, 1 = sakit jantun.
Berdasarkan visualisasi boxplot dan bar chart, usia rata-rata pada kelas 0 adalah 55.
03 tahun, sedangkan pada kelas 1 49 tahun, dengan perbedaan yang relatif kecil.
p-ISSN: 2087-1627, e-ISSN: 2685-9858 Korelasi antara age dan target tercatat sebesar -0.
23, yang mengindikasikan hubungan negatif lemah, artinya kecenderungan menderita penyakit jantung sedikit lebih tinggi pada usia yang lebih muda dalam dataset ini.
Meski demikian, karena nilai korelasi tidak kuat, usia tidak dapat dijadikan satu-satunya indikator, dan perlu dikombinasikan dengan fitur-fitur lain untuk menghasilkan prediksi yang lebih akurat.
4 Model Machine Learning Secara definisi, machine learning merupakan ilmu atau studi yang mendalami pengembangan algoritma dan model statistik yang memungkinkan sistem komputer untuk mempelajari dan menyelesaikan tugas-tugas spesifik tanpa perlu instruksi eksplisit.
Dengan mengandalkan teknikteknik seperti pengenalan pola, pembelajaran terawasi, dan pembelajaran mendalam, machine learning bertujuan untuk meningkatkan kemampuan komputer dalam memahami dan mengeksploitasi informasi yang tersimpan dalam data.
Determinasi Model Machine Learning Pada tahap ini, dilakukan seleksi fitur yang memiliki korelasi signifikan dengan variabel target dengan mengambil hanya kolom-kolom yang memiliki korelasi absolut minimal 1 dengan target untuk dibawa ke dalam analisis lebih Data kemudian di subset menjadi `data2` hanya dengan fitur-fitur terpilih, bertujuan untuk mempermudah dan mempercepat proses analisis prediksi dalam pemrosesan data seperti yang ditunjukkan pada Gambar 11.
Gambar 11.
Determinasi Model ML Split Data X Dataset dibagi menjadi data latih .
dan data uji .
`train_test_split` `sklearn.
model_selection`.
Fitur-fitur dari `data2` diassign ke variabel independen X dan variabel target ke variabel dependen y.
pembagian dilakukan dengan rasio 80:20 untuk data latih dan data uji, dengan pengaturan `random_state=42` untuk memastikan konsistensi hasil acak dan `stratify=y` untuk menjaga proporsi kelas yang seimbang dalam kedua set data.
Variabel `X_train_full` dan `y_train_full` digunakan untuk menyimpan salinan penuh dari data latih untuk eksplorasi dan pengembangan model prediksi yang lebih efekktif.
Standardisasi Tahapan ini bertujuan untuk melakukan standardiasi fitur-fitur dalam dataset yang digunakan skalanya sudah `StandardScaler` `sklearn.
Data latih (X_trai.
di fit dan ditransformasi untuk memiliki mean nol dan standar deviasi satu, kemudian transformasi yang sama diterapkan pada data uji (X_tes.
untuk menjaga konsistensi skala.
Standardisasi ini penting untuk menghilangkan bias akibat perbedaan skala fitur, meningkatkan akurasi dan konvergensi model pembelajaran mesin.
Gambar 12.
Standardisasi Split Data Train Tahap ini bertujuan untuk membagi data latih menjadi dua subset, yaitu subset training dan subset validation.
Data latih (X_train dan y_trai.
, yang sebelumnya merupakan 80% dari total dataset, dibagi kembali dengan rasio 80:20.
Tujuannya adalah untuk melakukan evaluasi model selama proses pelatihan secara independen, sebelum pengujian akhir pada data test.
Proses ini membantu memantau potensi overfitting sejak awal, memastikan bahwa model tidak hanya Gambar 13.
Split Data Train Cross Validation Cross Validation dilakukan untuk mengevaluasi kinerja dua model klasifikasi, yaitu NuSVC dan LinearDiscriminantAnalysis, pada tahapan ini dilakukan cross validation sebanyak 4 kali .
untuk setiap model dan menghitung skor untuk setiap metrik dalam setiap iterasi, kemudian menghitung rata-rata dari skor tersebut.
Hasil evaluasi menunjukkan bahwa NuSVC memiliki ratarata akurasi 82.
54%, presisi 79.
03%, recall 88.
91% dan F1score 83.
Analisis ini membantu dalam memahami kinerja model secara lebih mendalam dengan memberikan gambaran mengenai seberapa baik setiap model mampu memprediksi data baru berdasarkan metrik-metrik evaluasi yang digunakan.
Hasil ini menunjukkan bahwa kedua model LinearDiscriminantAnalysis sedikit lebih unggul dalam hal akurasi dan recall seperti yang ditunjukkan pada Gambar 14 Gambar 14.
Cross Validation NuSVC Model Gambar 15.
Cross Validation LDA Model Learning Curve Gambar 16 merupakan hasil learning curve yang menggambarkan hubungan antara ukuran data pelatihan dan akurasi model pada data pelatihan dan pengujian.
Pada awal pelatihan, model menunjukkan akurasi tinggi terhadap data pelatihan namun rendah terhadap data pengujian, yang mengindikasikan overfitting saat jumlah data masih sedikit.
p-ISSN: 2087-1627, e-ISSN: 2685-9858 Seiring bertambahnya ukuran data pelatihan, akurasi model pada data pengujian meningkat dan mulai stabil, sementara akurasi pelatihan menurun secara wajar.
Pada ukuran data sekitar 125 ke atas, kedua kurva konvergen dengan nilai yang hampir sama.
Akurasi pelatihan sebesar 0.
8571 dan akurasi pengujian sebesar 0.
Hal ini menunjukkan bahwa model memiliki kinerja yang stabil, dengan bias dan varians yang seimbang, serta tidak menunjukkan gejala overfitting atau underfitting secara signifikan.
Kondisi ini mengindikasikan bahwa model telah terlatih dengan baik dan mampu melakukan generalisasi dengan cukup baik terhadap data baru.
tidak mengalami overfitting.
Selain itu, tingginya nilai recall mengindikasikan bahwa model mampu mendeteksi sebagian besar pasien dengan penyakit jantung, yang sangat penting dalam konteks medis untuk meminimalkan kasus false Dari kedua kurva menunjukkan bahwa model memiliki performa yang baik dan stabil pada data pelatihan dan data pengujian, dnegan perbedaan kecil antara kedua set data yang mengindikasikan bias dan varians rendah.
Performa yang konsisten dan peningkatan nilai metrik seiring dengan bertambahnya ukuran data pelatihan menunjukkan kemampuan generalisasi yang baik dari model, tanpa adanya indikasi overfitting yang signifikan.
Model ini menunjukkan stabilitas dan akurasi yang tinggi dalam mendeteksi kelas positif yang penting dalam aplikasi praktis machine Hyperparameter Tuning Tahapan ini dilakukan dengan tujuan melakukan LinearDiscriminantAnalysis (LDA) GridSearchCV serta mengevaluasi performa model terbaik melalui cross-validation.
Parameter grid yang didefinisikan mencakup berbagai nilai untuk AosolverAo.
AoshrinkageAo, dan AotolAo untuk menemukan kombinasi terbaik yang memaksimalkan akurasi.
Hasil GridSearchSV menunjukkan bahwa parameter terbaik adalah AoshrinkageAo.
None dan AosolverAo: AosvdAo dengan skor akurasi terbaik sebesar 0.
Gambar16.
Akurasi Learning Curve Gambar 18.
Hyperparameter Tuning menggunakan GridSearchCV Gambar 17.
Recall Learning Curve Pada Gambar 17.
Grafik learning curve ini menunjukkan performa model berdasarkan metrik recall, yang mengukur kemampuan model dalam mengenali kasus positif .
enderita penyakit jantun.
Pada tahap awal, recall pada data pelatihan sangat tinggi .
, sementara recall pada data pengujian meningkat secara bertahap seiring bertambahnya jumlah data pelatihan.
Setelah mencapai ukuran data sekitar 125, kedua kurva mulai konvergen dengan nilai yang stabil.
Nilai akhir recall pada data pelatihan adalah 0.
9285, sedangkan pada data pengujian Perbedaan yang kecil ini menunjukkan bahwa model memiliki kemampuan generalisasi yang baik dan Evaluasi lebih lanjut dari model terbaik melalui crossvalidation menunjukkan rata-rata akurasi sebesar 0.
precision sebesar 0.
7903, recall sebesar 0.
8891, dan F1Score sebesar 0.
Hasil ini mengindikasikan bahwa model LDA yang telah dioptimalkan memiliki performa yang stabil dan cukup baik dalam mengklasifikasikan data, dengan nilai recall yang tinggi menunjukkan kemampuan model dalam mendeteksi kelas positif dengan konsisten.
Gambar 19.
Evaluasi Lanjutan dengan Cross Validation p-ISSN: 2087-1627, e-ISSN: 2685-9858 Model dievaluasi menggunakan teknik 5-fold crossvalidation untuk mengukur konsistensi performanya pada berbagai subset data.
Hasil evaluasi pada Gambar 19 menunjukkan bahwa model memiliki rata-rata akurasi sebesar 82,54%, yang menandakan tingkat ketepatan klasifikasi yang cukup baik secara keseluruhan.
Pada metrik precision, model memperoleh rata-rata sebesar 79,03%, yang berarti sebagian besar prediksi positif tergolong benar.
Sementara itu, recall model berada pada angka yang sangat baik, yakni 88,91%, menunjukkan kemampuan tinggi dalam mendeteksi kasus positif .
enderita penyakit jantun.
Metrik ini penting dalam konteks medis, karena kesalahan melewatkan pasien .
alse negativ.
harus diminimalkan.
Nilai F1-score rata-rata sebesar 83,54% menunjukkan bahwa model memiliki keseimbangan yang baik antara precision dan recall.
Secara umum, model menunjukkan performa yang stabil dan andal, serta layak untuk digunakan dalam proses prediksi dengan potensi perbaikan lanjutan pada aspek precision.
5 Evaluasi Model Evaluasi model yang telah dioptimalkan dilakukan menggunakan grid search.
Model terbaik grid search di terapkan ulang dengan data X_train_full dan y_train_full, sebelum di evaluasi menggunakan data uji X_test_scaled.
Evaluasi dilakukan untuk mengukur dan menampilkan metrik evaluasi utama, seperti akurasi, recall, precision dan F1-Score.
Hasilnya menunjukkan bahwa model mencapai skor akurasi 0.
796875, recall 0.
75, precision 0.
827586 dan F1-Score 0.
Gambar 21.
Confusion Matrix Dari hasil tersebut dapat disimpulkan bahwa model mampu mengklasifikasikan data dengan akurasi yang baik .
%), dan performa cukup seimbang antara kedua kelas.
Meskipun demikian, masih terdapat 8 kasus false negative, yang penting untuk diperhatikan karena artinya model gagal mendeteksi pasien yang seharusnya terklasifikasi sebagai Hal ini dapat berdampak serius dalam konteks medis, sehingga perlu dilakukan penyesuaian model untuk meningkatkan recall pada kelas 1.
Gambar 20.
Evaluasi Model LDA Berdasarkan output, model menunjukkan performa yang baik dengan nilai yang seimbang di antara metrikmetrik tersebut, namun masih terdapat beberapa kesalahan klasifikasi yang dapat dilihat dari jumlah prediksi pada kedua kelas.
Hal ini menunjukkan bahwa model memiliki tingkat prediksi yang baik tetapi masih ada ruang untuk perbaikan, terutama dalam mengurangi kesalahan Berdasarkan Gambar 21 dapat dilihat bahwa True Negative (TN) atau kondisi model benar memprediksi negatif .
idak saki.
sebanyak 27 data.
False Positive (FP) atau kondisi model salah memprediksi sakit padahal tidak sebanyak 5 data.
False Negative (FN) atau kondisi model salah memprediksi tidak sakit padahal sakit sebanyak 8 data dan True Positive (TP) atau kondisi model benar memprediksi sakit sebanyak 24 data.
Kesimpulan Penelitian ini menunjukkan bahwa pendekatan sistematis dalam eksplorasi dan pemrosesan data merupakan tahap penting dalam pengembangan model prediktif berbasis machine learning.
Tahapan Exploratory Data Analysis (EDA) berperan krusial dalam memahami karakteristik data, mengidentifikasi pola dan anomali, serta mempersiapkan data melalui pembersihan dan transformasi agar siap digunakan dalam pemodelan.
Model klasifikasi yang dikembangkan menggunakan algoritma Linear Discriminant Analysis (LDA) menunjukkan performa yang stabil dan seimbang, dengan nilai akurasi, presisi, recall, dan F1-Score yang kompetitif.
Proses evaluasi dilakukan melalui teknik cross-validation dan analisis learning curve, serta ditingkatkan melalui hyperparameter tuning.
Hasil menunjukkan bahwa LDA memiliki potensi untuk digunakan sebagai model deteksi gejala penyakit jantung berbasis data klinis dengan kompleksitas rendah dan interpretabilitas yang baik.
Meskipun demikian, penelitian ini masih memiliki keterbatasan, terutama dalam hal peningkatan performa model dan generalisasi.
Untuk pengembangan selanjutnya, disarankan eksplorasi algoritma lain seperti Gradient Boosting dan deep learning, penerapan metode penyeimbangan data lanjutan seperti ADASYN, serta penggunaan teknik Explainable AI seperti SHAP atau LIME p-ISSN: 2087-1627, e-ISSN: 2685-9858 guna meningkatkan transparansi dan akurasi prediksi dalam konteks medis.
Ucapan Terimakasih Penulis mengucapkan terima kasih kepada Universitas Amikom Purwokerto atas dukungan fasilitas penelitian.
Daftar Pustaka