JISKA (Jurnal Informatika Sunan Kalijag. Vol. No. SEPTEMBER, 2024. Pp. 205 Ae 216 ISSN: 2527 Ae 5836 . | 2528 Ae 0074 . Implementasi K-Means Clustering pada Pengelompokan Pasien Penyakit Jantung Jihan Wala . Herman . Rusydi Umar . Magister Informatika. Fakultas Teknologi Industri. Universitas Ahmad Dahlan. Yogyakarta. Indonesia e-mail : 2307048013@webmail. id, . ermankaha,rusyd. @mti. * Penulis korespondensi. Artikel ini diajukan 15 April 2024, direvisi 25 Juni 2024, diterima 26 Juni 2024, dan dipublikasikan 25 September 2024. Abstract Heart disease is a prominent global health concern, necessitating early identification and patient grouping for effective management. This study employs the K-Means clustering algorithm with a medical dataset of 303 patients, encompassing various attributes. These include Age. Gender. Chest Pain Type. Blood Pressure. Serum Cholesterol Level. Fasting Blood Sugar. Resting Electrocardiographic Results. Maximum Heart Rate. Angina. ST Depression, and Slope of the ST Segment. The goal is to categorize patients into four clusters based on chest pain types, a crucial symptom indicating disease severity. The computation concludes after the sixth iteration, revealing Cluster 1 . Cluster 2 . Cluster 3 . , and Cluster 4 . Collaborative analysis with medical experts highlights that Cluster 1, mainly comprising older males, exhibits high-risk indicators. While this grouping aids in personalized treatment strategy development, further clinical validation involving more experts and datasets is imperative for enhanced reliability. Keywords: Implementation. K-Means. Clustering. Grouping. Heart Disease Abstrak Penyakit jantung menjadi permasalahan kesehatan serius diseluruh dunia. Pendeteksian dini dan pengelompokan pasien berdasarkan ciri-ciri khusus dapat mendukung manajemen penanganan penyakit jantung. Penelitian ini mengusulkan algoritma K-Means clustering untuk mengelompokkan pasien penyakit jantung dengan dataset medis sebanyak 303 pasien. Dataset mencakup atribut Umur. Jenis Kelamin. Jenis Nyeri Dada. Tekanan Darah. Kadar Serum Kolesterol. Gula Darah. Hasil Elektrokardiografi. Denyut Jantung Maksimum. Angina. Depresi ST, dan Kemiringan Segmen ST. Tujuan penelitian ini adalah mengelompokkan pasien penyakit jantung berdasarkan tingkat keparahan atau kegawatdaruratan pasien menggunakan algoritma K-Means clustering. Wawancara bersama ahli medis untuk pembagian kelompok menjadi empat cluster berdasarkan jenis nyeri dada yang merupakan gejala utama tingkat keparahan penyakit Interpretasi menghasilkan 5 cluster dengan cluster k1 berjumlah 27 pasien, k2 berjumlah 135 pasien, k3 berjumlah 15 pasien, dan k4 berjumlah 126 pasien. Analisis data menunjukan, cluster 1 . , cenderung terdiri dari pasien yang lebih tua, mayoritas laki-laki, menunjukan risiko tinggi dengan gejala nyeri dada parah, tekanan darah, dan kadar kolesterol tinggi. Sementara itu, cluster k2, k3, dan k4 menunjukkan risiko lebih rendah, dengan variasi respons terhadap aktivitas Pengelompokan ini memberikan dukungan kepada dokter dan peneliti dalam memahami pola penyakit jantung serta merancang strategi pengobatan yang lebih spesifik dan personal. Kata Kunci: Implementasi. K-Means. Clustering. Pengelompokkan. Penyakit Jantung PENDAHULUAN Penyakit jantung merupakan penyebab utama kematian di seluruh dunia. Menurut World Health Organization tahun 2020 terdapat 17,9 juta kematian dan 80% disebabkan oleh penyakit arteri koroner dan stroke serebral (Ali et al. , 2. Jumlah kematian yang besar ini umum terjadi di negara-negara berpenghasilan rendah dan menengah (Shah et al. , 2. Penyakit jantung dapat disebabkan oleh berbagai faktor yang berkaitan dengan kebiasaan hidup, seperti merokok, penggunaan alkohol dan kafein secara berlebihan, stres, aktifitas fisik yang kurang. Sebab lain Artikel ini didistribusikan mengikuti lisensi Atribusi-NonKomersial CC BY-NC sebagaimana tercantum pada https://creativecommons. org/licenses/by-nc/4. JISKA (Jurnal Informatika Sunan Kalijag. ISSN:2527Ae5836 . | 2528Ae0074 . n 206 adalah faktor-faktor fisiologis . besitas, hipertensi, kolesterol, darah tinggi, dan kondisi jantun. Identifikasi pasien penyakit jantung dilakukan dengan melihat atribut terkait data pasien yang memiliki signifikansi besar untuk membantu dokter memberikan perawatan yang lebih terfokus (Singh & Kumar, 2. Salah satu teknik yang dapat membantu dokter dalam mengidentifikasi dan mengelompokan pasien penyakit jantung adalah teknik data mining. Clustering adalah teknik yang populer digunakan pada data mining. Teknik ini merupakan proses pengelompokan data menjadi beberapa cluster data berdasarkan kemiripan atribut-atribut yang dimiliki data (Haris Kurniawan et al. , 2. Pada penelitian ini, digunakan algoritma K-Means K-Means adalah teknik pengelompokan data di mana atribut data dikelompokkan ke dalam partisi set data, kemudian ditetapkan ke dalam kelompok yang berbeda (Ikotun et al. Penelitian ini relavan dengan beberapa penelitian sebelumnya dalam penerapan K-Means clustering sebagai sumber referensi dan perbandingan hasil penelitian. Penelitian Ariefandi et al. , menggunakan k-medoids clustering untuk klasterisasi wilayah terinfeksi kasus covid-19 di DKI Jakarta. Penelitian ini menghasilkan 3 cluster dengan kasus yang paling tertinggi yakni cluster 0 terdiri dari 31 kelurahan sedangkan cluster paling rendah diketahui cluster 2 terdiri 66 kelurahan (Arifandi et al. , 2. Kemudian penelitian Purba et al. menggunakan K-Means clustering untuk mengelompokkan penyebab penyakit ISPA. Menghasilkan 2 cluster, di mana cluster 1 memberikan rekomendasi tinggi berjumlah 10 Kabupaten, cluster 2 memberikan rekomendasi rendah berjumlah 2 Kabupaten (Purba et al. Solechati & Jananto mengelompokan profile pasien. Dengan interpretasi menghasilkan 5 cluster dengan cluster 1 memiliki 228 record, pada cluster 2 memiliki 248 record, cluster 3 memiliki 1551 record, cluster 4 memiliki 2592 record, dan cluster 5 memiliki 362 record (Solechati & Jananto, 2. Mashita et al. , melakukan klasifikasi pada pasien penyakit jantung. ini menghasilkan akurasi yang diperoleh adalah k=7 dan k=9, yang merupakan hasil paling optimal karena memiliki akurasi tertinggi dibandingkan dengan nilai k lainnya, dengan akurasi sebesar 88% (Masitha et al. , 2. Novidianto el al. , menggunakan Metode k-prototypes cluster mix algorithm untuk mengidentifikasi faktor kematian pada pasien gagal jantung. Hasil klasterisasi membentuk 2 cluster yang dianggap optimal berdasarkan nilai koefisien silhouette tertinggi sebesar 0,5777. Analisis hasil menunjukan bahwa cluster 1 adalah cluster pasien yang memiliki risiko rendah terhadap kemungkinan kematian akibat gagal jantung dan cluster 2 adalah cluster pasien dengan risiko tinggi terhadap kematian akibat gagal jantung (Novidianto et al. , 2. Berdasarkan kajian literatur penelitian terdahulu di atas, maka penelitian ini dilakukan dengan tujuan untuk mengelompokkan pasien penyakit jantung berdasarkann keparahan atau kegawatdaruratan pasien menggunakan pendekatan K-Means clustering. Harapan dilakukan penelitian ini dapat memberikan wawasan alaternatif dalam pengelompokan pasien penyakit jantung dan berpotensi menjadi landasan untuk pengembangan strategi pengobatan yang lebih efektif di masa depan. Kontribusi penelitian ini terletak pada pengembangan strategi pengobatan yang lebih spesifik dan personal. METODE PENELITIAN 1 Tahapan Penelitian Penelitian ini melibatkan serangkaian langkah yang penting untuk mempersiapkan dan merencanakan studi secara menyeluruh. Lima langkah tahapan yang dilakukan dalam penelitian ini adalah studi pustaka, pengumpulan data, implementasi K-Means clustering, dan analisis hasil Adapun tahapan penelitian secara lengkap dapat dilihat pada Gambar 1. Study Pustaka Pengumpulan Data Prepocessing Implementasi K-Means Clustering Analisis Hasil Cluster Gambar 1 Tahapan Penelitian Artikel ini didistribusikan mengikuti lisensi Atribusi-NonKomersial CC BY-NC sebagaimana tercantum pada https://creativecommons. org/licenses/by-nc/4. JISKA (Jurnal Informatika Sunan Kalijag. Vol. No. SEPTEMBER, 2024: 205 Ae 216 207 n 1 Studi Pustaka Langkah awal penting dalam melakukan penelitian pendahuluan adalah melakukan studi pustaka yang komprehens. Ini melibatkan peninjauan yang luas terhadap literatur yang berkaitan dengan topik penelitian yang akan dilakukan (Muslimah, 2. Pada tahap ini dilakukan pengumpulan, peninjauan, dan analisis berbagai sumber informasi seperti jurnal ilmiah, buku, artikel, dan publikasi terkait lainnya. Studi pustaka bertujuan untuk menghimpun, menelaah, dan menganalisis literatur terkait yang relevan dengan topik penelitian yang sedang diselidiki. Melalui proses ini, dapat memperoleh pemahaman yang mendalam tentang status terkini dari penelitian yang sudah ada, mengidentifikasi pengetahuan yang telah dikembangkan, serta menemukan area-area di mana pengetahuan masih terbatas dan memerlukan penelitian lebih lanjut. 2 Pengumpulan Data Tabel 1 Deskripsi Dataset Heart Disease (Penyakit Jantun. Atribut Age Sex Keterangan Id Pasien umur pasien . Jenis kelamin pasien Jenis nyeri dada Trestbps Tekanan darah istirahat . m H. Chol Serum kolesterol . g/d. Fbs Gula darah puasa > 120 mg/dl Restecg Hasil elektrokardiografi Thalach Denyut jantung Exang Angina yang dipicu oleh Latihan Oldpeak Depresi ST Slope Kemiringan segmen ST latihan puncak. Penjelasan Kode pasien dari 1-303 Minimal = 29. Maksimal = 77 1 = laki-laki, 0 = perempuan Cp (Chest pai. yaitu tipe nyeri dada yang diderita Atribut ini memiliki 4 nilai yaitu: Nilai 1: tidak nyeri dada . o chest pai. Nilai 2: nyeri dada ringan . ild chest pai. Nilai 3: nyeri dada sedang . oderate chest pai. Nilai 4: nyeri dada parah . evere chest pai. Trestbps (Resting blood pressur. yaitu tekanan darah pasien ketika dalam keadaan istirahat. Rendah < 120, normal = 120, tinggi > 120 Chol (Cholestero. yaitu kadar kolesterol dalam darah pasien. Rendah < 140, normal = 140, tinggi > Fbs (Fasting blood suga. yaitu kadar gula darah pasien, atribut fbs ini memiliki 2 nilai yaitu 1 jika kadar gula darah pasien melebihi 120 mg/dl, dan 0 jika tidak melebihi atau sama dengan 120 mg/dl. Resting electrocardiographic memiliki 3 nilai yaitu nilai 0 = normal, nilai 1 = ST-T wave abnormality nilai 2 = ventricular kiri mengalami hipertrop Tingkat detak jantung maksimum yang dicapai. Jika nilai AuthalacAy semakin tinggi dapat dianggap sebagai tanda risiko yang lebih tinggi untuk penyakit jantung Exang (Exercise-induced angin. keadaan dimana pasien akan mengalami nyeri dada apabila berolah raga, 0 = tidak nyeri, dan 1 = menyebabkan nyeri. Depresi ST yang diinduksi oleh latihan relatif terhadap istirahat. Penurunan ST akibat olahraga. Nilai "Oldpeak" yang tinggi dapat dianggap sebagai tanda risiko yang lebih tinggi untuk penyakit Slope dari puncak ST setelah berolah raga. Atribut ini memiliki 3 nilai yaitu 0 untuk downsloping, 1 untuk flat, dan 2 untuk upsloping Data yang digunakan merupakan data sekunder yang di ambil dari internet situs Kaggle, dataset Penyakit Jantung . eart diseas. oleh Awan . sebagai objek penelitian. Penjelasan lebih Artikel ini didistribusikan mengikuti lisensi Atribusi-NonKomersial CC BY-NC sebagaimana tercantum pada https://creativecommons. org/licenses/by-nc/4. JISKA (Jurnal Informatika Sunan Kalijag. ISSN:2527Ae5836 . | 2528Ae0074 . n 208 spesifik dataset penyakit jantung dilakukan bersama ahli medis (Dokter Spesialis Jantung dan Pembuluh Dara. dan sumber referensi dari beberapa artikel jurnal. Berikut pada Tabel 1 penjelasan setiap atribut dataset (Ali et al. , 2021. Shah et al. , 2020. Singh & Kumar, 2020. Ramalingam et al. , 2. 3 Preprocessing Setelah melakukan pengumpulan data, tahap selanjutnya adalah pre-processing data. Tahap ini meliputi proses pengecekan missing value dan normalisasi data. Missing value mengindikasikan ketiadaan informasi untuk suatu variabel pada observasi tertentu. Pentingnya pengecekan missing value dalam analisis data karena hal tersebut dapat membantu mencegah adanya bias dalam penarikan kesimpulan (Han & Kang, 2. Normalisasi bertujuan untuk membuat skala variabel dalam dataset menjadi seragam, sehingga setiap variabel memiliki kontribusi yang seimbang dalam analisis (Mishra et al. , 2. Metode normalisasi yang akan dilakukan pada penelitian ini yaitu feature scaling. Feature scaling dilakukan dengan tujuan untuk membandingkan atau mengintegrasikan data dari berbagai sumber atau variabel yang memiliki rentang nilai yang berbeda-beda. Feature scaling mengubah nilai-nilai yang diperkirakan ke dalam rentang yang lebih kecil atau seragam memiliki skala. Di mana nilai-nilai diperkirakan dikonversi ke rentang antara 0 sampai 1. Normalisasi feature scaling dapat dilakukan menggunakan Pers. (Sun & Yu, 2. Dalam rumus feature scaling, ycU ycaycaycyc adalah nilai atribut baru setelah normalisasi, ycUycaycycayco adalah nilai atribut asli yang akan dinormalisasi, dan ycUycoycaycu adalah nilai maksimum dari semua data pada atribut yang sama. ycU ycaycaycyc = ycUycaycycayco ycUycoycaycu 4 Penerapan K-Means Clustering Proses selanjutnya adalah penerapan algoritma K-Means clustering. K-Means merupakan salah satu teknik pengelompokan yang paling prominent dalam ilmu dan teknologi (Das et al. , 2. Tujuan utama dari K-Means clustering adalah untuk membagi dataset menjadi kelompokkelompok yang homogen, di mana setiap kelompok memiliki kesamaan internal yang tinggi dan perbedaan yang signifikan antar kelompok (Qi et al. , 2. Flowchart K-Means clustering dapat dilihat pada Gambar 2 (Rizki et al. , 2. Berikut penjelasan tahapan flowchart K-Means clustering pada Gambar 2: Menentukan jumlah cluster . merupakan tahap pertama dalam penentuan jumlah cluster yang optimal untuk data yang akan dikelompokan. Menentukan centroid awal secara acak di setiap cluster. Pemilihan awal centroid dilakukan dengan cara mengambil secara acak titik data yang ada dalam dataset. Titik data yang akan menjadi centroid awal dipilih tanpa mempertimbangkan distribusi atau karakteristik khusus dari data. Secara praktis, setiap titik dalam dataset memiliki kesempatan yang sama untuk dipilih sebagai centroid awal. Menghitung jarak antara titik data dengan setiap centroid cluster yaitu proses dalam KMeans clustering di mana jarak antara setiap titik data dengan setiap centroid cluster dihitung, menghitung jarak digunakan rumus Euclidean distance. Untuk menghitung jarak antara data x baris ke-i . =1,2,3,A. , data c baris ke-h . =1,2,3,A. yang disimbolkan ycc . cuycn , ycaEa ), dengan n merupakan jumlah total baris data, m adalah jumlah atribut, dan k adalah jumlah cluster. Rumus jarak ycc . cuycn , ycaEa ) ditampilkan pada Pers. Di mana ycuycnyc adalah atribut ke j dari data ke i dan ycaEayc adalah atribut ke j dari cluster h. Jarak terkecil dari data ke i ke cluster h menunjukan bahwa data ke i masuk dalam cluster h. Jika jarak dari data ke 5 paling kecil adalah dengan cluster 3, maka data 5 dikelompokkan dalam cluster 3. Artikel ini didistribusikan mengikuti lisensi Atribusi-NonKomersial CC BY-NC sebagaimana tercantum pada https://creativecommons. org/licenses/by-nc/4. JISKA (Jurnal Informatika Sunan Kalijag. Vol. No. SEPTEMBER, 2024: 205 Ae 216 209 n yco yco ycc . cuycn , ycaEa ) = oc Oc. cuycnyc Oe ycaEayc )2 yc=1 Ea=1 . cuycn , ycaEa ) = Oo. cuycn1 Oe ycaEa1 )2 . cuycn2 Oe ycaEa2 )2 . cuycn3 Oe ycaEa3 )2 A . cuycnyco Oe ycaEayco )2 . Kemudian memeriksa apakah terjadi perubahan dari centroid baru terhadap centroid sebelumnya setelah pengelompokan data ke dalam cluster. Jika terjadi perubahan pada nilai centroid, maka menunjukan bahwa proses masih berjalan dan pengelompokan data harus terus dilakukan pada iterasi berikutnya. Tahap terakhir yaitu jika terjadi perubahan pada nilai centroid, maka lanjut ke tahap selanjutnya yaitu menghitung nilai rata-ratanya untuk menghasilkan centroid baru pada cluster tersebut. Kemudian ulangi langkah 3, dan 4 pada iterasi berikutnya sampai tidak ada perubahan lagi pada centroid setiap cluster. Jika tidak terjadi perubahan pada centroid maka proses clustering dinyatakan selesai. Gambar 2 Flowchart K-Means Clustering 5 Analisis Hasil Cluster Pada tahap analisis cluster, dilakukan pemilihan kelompok yang diprioritaskan untuk penanganan dalam pengobatan penyakit jantung. Pemilihan ini didasarkan pada hasil wawancara dengan ahli medis, yang memberikan wawasan terkait kelompok pasien dengan tingkat risiko tertinggi. Dengan menggunakan teknik clustering, data pasien dibagi ke dalam beberapa kelompok berdasarkan karakteristik medis mereka, seperti usia, riwayat penyakit, dan faktor risiko lainnya. Kelompok yang diidentifikasi sebagai prioritas merupakan fokus utama dalam pemberian Artikel ini didistribusikan mengikuti lisensi Atribusi-NonKomersial CC BY-NC sebagaimana tercantum pada https://creativecommons. org/licenses/by-nc/4. JISKA (Jurnal Informatika Sunan Kalijag. ISSN:2527Ae5836 . | 2528Ae0074 . n 210 intervensi medis untuk meningkatkan efektivitas pengobatan dan mengurangi risiko komplikasi penyakit jantung. HASIL DAN PEMBAHASAN 1 Dataset Penyakit Jantung Dataset penelitian ini, yaitu data pasien berpenyakit jantung . eart diseas. yang diambil dari data repositori Kaggle sebanyak 303 titik data . ata poin. Masing-masing titik data memiliki 12 Sebelum diproses dataset ini disortir terlebih dahulu berdasarkan Cp (Chest pai. karena hasil wawancara bersama ahli medis bahwa Cp merupakan gejala utama resiko penyakit jantung. Berikut pada Tabel 2 disajikan row dataset. Tabel 2 Row Dataset Sebelum Normalisasi Age Sex Trestbps A Chol Fbs Restecg Thalach Exang Oldpeak Slope 2 Preprocessing Pada tahap pre-processing dalam penelitian ini, dilakukan pengecekan missing value dan normalisasi pada dataset. Hasil pengecekan terhadap missing value, tidak terdeteksi adanya missing value dalam dataset sehingga jumlah data yang diproses tetap 303 record. Selanjutnya dilakukan proses normalisasi data, sehingga nilai-nilai dalam dataset tersebut berada dalam rentang skala 0 sampai 1. Pada Tabel 3 disajikan row dataset setelah proses normalisasi. Tabel 3 Row Dataset Setelah Normalisasi Age Sex Trestbps A Chol Fbs Restecg Thalach Exang Oldpeak Slope Artikel ini didistribusikan mengikuti lisensi Atribusi-NonKomersial CC BY-NC sebagaimana tercantum pada https://creativecommons. org/licenses/by-nc/4. JISKA (Jurnal Informatika Sunan Kalijag. Vol. No. SEPTEMBER, 2024: 205 Ae 216 211 n 3 Implementasi K-Means Clustering 1 Menentukan jumlah cluster . Berdasarkan hasil wawancara dengan ahli medis, penentuan jumlah cluster . dalam analisis KMeans clustering dilakukan dengan mempertimbangkan atribut Cp (Chest Pai. , yang merupakan faktor risiko utama penyakit jantung. Untuk tahap awal, diputuskan untuk menggunakan 4 cluster, sesuai dengan empat tingkat nyeri dada yang terdefinisi pada atribut Cp . Sebelum implementasi algoritma K-Means, dataset disusun terlebih dahulu dengan cara menyortir data berdasarkan urutan nilai atribut Cp. Proses penyortiran ini ditampilkan pada Tabel 4 dan dilakukan untuk memastikan bahwa pengelompokan data lebih terarah dan relevan dengan risiko penyakit jantung yang dikaitkan dengan nyeri dada. 2 Menentukan titik pusat cluster awal Tahap ini merupakan tahap iterasi 1 dengan penentuan titik pusat cluster atau centroid awal. Penentuan centroid awal dilakukan secara acak pada dataset penyakit jantung yang berjumlah 303 pasien. Pada centroid . merupakan titik pusat pada cluster . , centroid . merupakan titik pusat pada cluster . , centroid . merupakan titik pusat pada cluster . , centroid . merupakan titik pusat pada cluster . , centroid . merupakan titik pusat pada cluster . Centroid awal setiap cluster disajikan pada Tabel 4. Tabel 4 Centroid Awal Centroid Age Sex Trestbps Chol Fbs Restecg Thalach Exang Oldpeak Slope 3 Menghitung jarak data ke centroid setiap cluster Perhitungan jarak data pertama dengan titik centroid awal (Tabel . menggunakan Pers. Pada tahap ini, jarak data pertama dihitung terhadap masing-masing centroid dari setiap cluster. Pertama, dihitung jarak data pertama dengan centroid pertama . yang dinyatakan sebagai ycc. Selanjutnya, jarak data pertama dengan centroid kedua . dihitung sebagai ycc. , diikuti dengan jarak ke centroid ketiga . yang ditunjukkan oleh ycc. Terakhir, jarak data pertama dengan centroid keempat . dihitung sebagai ycc. Proses ini memastikan bahwa setiap jarak antara data dan centroid dapat dianalisis untuk menentukan cluster yang paling relevan bagi data tersebut. cuycn , ycaEa ) = Oo. cuycn1 Oe ycaEa1 )2 . cuycn2 Oe ycaEa2 )2 . cuycn3 Oe ycaEa3 )2 A . cuycnyco Oe ycaEayco )2 . 818 Oe 0. Oe . 25 Oe 0. 725 Oe 0. 413 Oe 0. Oe . Oe . 2 ycc. , . = Oo . 743 Oe 0. Oe . 371 Oe 0. Oe 0. = 0. 818 Oe 0. Oe . 25 Oe 0. 725 Oe 0. 413 Oe 0. Oe . Oe . 2 ycc. = Oo . 743 Oe 0. Oe . 371 Oe . Oe 0. = 1. 818 Oe 0. Oe . 25 Oe 0. 725 Oe 0. 413 Oe 0. Oe . Oe . 2 ycc. = Oo . 743 Oe 0. Oe . 371 Oe 0. Oe 0. = 1. Artikel ini didistribusikan mengikuti lisensi Atribusi-NonKomersial CC BY-NC sebagaimana tercantum pada https://creativecommons. org/licenses/by-nc/4. JISKA (Jurnal Informatika Sunan Kalijag. ISSN:2527Ae5836 . | 2528Ae0074 . n 212 . 818 Oe 0. Oe . 25 Oe . 725 Oe 0. 413 Oe 0. Oe . Oe . 2 ycc. = Oo . 743 Oe 0. Oe . 371 Oe 0. Oe 0. = 1. Perhitungan jarak . dari data pertama terhadap centroid awal . 1, c2, c3, dan c. yang terdiri dari 11 atribut menunjukkan bahwa data pertama dikelompokkan ke dalam cluster 1. Hal ini disebabkan oleh jarak antara data pertama dengan centroid pertama cluster 1, yaitu ycc. , yang menghasilkan nilai terdekat sebesar 0,66. Sementara itu, jarak data pertama dengan centroid kedua cluster 2 ycc. bernilai 1,75, jarak dengan centroid ketiga cluster 3 ycc. bernilai 1,18, dan jarak dengan centroid keempat cluster ycc. bernilai 1,05. Proses perhitungan jarak untuk data kedua hingga data terakhir dilakukan dengan menggunakan metode yang sama seperti pada perhitungan ycc. hingga ycc. Hasil dari cluster pada iterasi pertama berdasarkan perhitungan jarak ditampilkan pada Tabel 5. Tabel 5 Hasil Cluster Iterasi 1 Age Sex Trestbps A A A A Chol Fbs Restecg Thalach Exang Oldpeak Slope Cluster Berdasarkan hasil cluster pada iterasi pertama, dilakukan perhitungan rata-rata untuk setiap cluster pada 11 atribut, yang disajikan dalam Tabel 6. Proses ini menghasilkan centroid baru untuk masing-masing cluster. Hasilnya menunjukkan bahwa cluster 1 . terdiri dari 27 pasien, cluster 2 . berjumlah 96 pasien, cluster 3 . memiliki 15 pasien, dan cluster 4 . mencakup 165 pasien. Penentuan jumlah pasien dalam setiap cluster ini penting untuk memahami distribusi data dan karakteristik masing-masing kelompok dalam analisis penyakit jantung. Tabel 6 Hasil Centroid Iterasi 1 Age Sex Trestbps Chol Fbs Restecg Thalach Exang Oldpeak Slope Jumlah Data Tabel 6 menunjukan data centroid setiap cluster . beserta jumlah data. Perhitungan iterasi kedua menggunakan proses yang sama seperti pada tahap pertama dengan perhitungan jarak setiap data dengan centroid baru pada Tabel 6. Perhitungan K-Means clustering berakhir pada iterasi keenam karena centroid baru pada iterasi ini tidak berubah dari centroid sebelumnya seperti yang terlihat pada tabel 8. Hasil cluster ditunjukkan pada Tabel 7. Perhitungan rata-rata setiap atribut pada iterasi keenam menghasilkan centroid baru dengan menggunakan rumus AVERAGE di Excel, yang berfungsi untuk menghitung rata-rata. Hasil perhitungan tersebut ditampilkan dalam Tabel 8, yang menunjukkan data centroid untuk setiap cluster . beserta jumlah pasien dalam masing-masing cluster. Dalam hasil ini, cluster 1 . tediri 27 pasien, cluster 2 . berjumlah 135 pasien, cluster 3 . memiliki 15 pasien, cluster 4 Artikel ini didistribusikan mengikuti lisensi Atribusi-NonKomersial CC BY-NC sebagaimana tercantum pada https://creativecommons. org/licenses/by-nc/4. JISKA (Jurnal Informatika Sunan Kalijag. Vol. No. SEPTEMBER, 2024: 205 Ae 216 213 n . mencakup 126 pasien. Hasil centroid dan jumlah data pada cluster iterasi 5 sama dengan hasil iterasi 6 sehingga perhitungan dihentikan dan dinyatakan telah selesai. Jumlah data pada setiap iterasi ditampilkan dalam diagram batang yang disajikan pada Gambar 3. Tabel 7 Hasil Cluster Iterasi 6 Age Sex Trestbps A A A A Chol Fbs Restecg Thalach Exang Oldpeak Slope Cluster Tabel 8 Hasil Centroid Iterasi 6 Age Sex Trestbps Chol Fbs Restecg Thalach Exang Oldpeak Slope Jumlah Data HASIL JUMLAH DATA SETIAP ITERASI Cluster 4 Cluster 3 Cluster 2 JUMLAH DATA Cluster 1 ITERASI 1 ITERASI 2 ITERASI 3 ITERASI 4 ITERASI 5 ITERASI 6 ITERASI Gambar 3 Hasil Jumlah Data Setiap Iterasi Pada Gambar 3, terlihat bahwa proses iterasi dari 1 hingga 6 menunjukkan jumlah data yang konsisten pada cluster 1, yaitu sebanyak 27 pasien, dan pada cluster 3, yang terdiri dari 15 Namun, terdapat perubahan jumlah pasien pada cluster 2 dan cluster 4. Pada akhir iterasi, jumlah pasien di cluster 2 mencapai 135 pasien, sedangkan cluster 4 berjumlah 126 Perubahan ini mencerminkan dinamika pengelompokan data selama proses iterasi, di mana cluster 2 dan cluster 4 mengalami penyesuaian jumlah pasien sesuai dengan perhitungan centroid yang dilakukan. Artikel ini didistribusikan mengikuti lisensi Atribusi-NonKomersial CC BY-NC sebagaimana tercantum pada https://creativecommons. org/licenses/by-nc/4. JISKA (Jurnal Informatika Sunan Kalijag. ISSN:2527Ae5836 . | 2528Ae0074 . n 214 4 Analisis Hasil Cluster Pada hasil iterasi keenam, telah diperoleh cluster dan centroid berdasarkan data yang telah Namun, untuk melakukan analisis yang lebih komprehensif, penting untuk menerjemahkan hasil cluster kembali ke dalam bentuk data awal atau data sebelum Tabel 9 menyajikan terjemahan dari data hasil cluster, sementara Tabel 10 menampilkan terjemahan centroid pada iterasi keenam. Tabel 9 Terjemahan Data Hasil Cluster Iterasi 6 Age Sex Trestbps A A A A Chol Fbs Restecg Thalach Exang Oldpeak Slope Cluster Tabel 10 Terjemahan Data Hasil Centroid Iterasi 6 Age Sex Trestbps Chol Fbs Restecg Thalach Exang Oldpeak Slope Jumlah Data Interpertasi data hasil cluster pada Tabel 9 dan Tabel 10 yang dilakukan bersama ahli medis dihasilkan bahwa cluster 1 . memiliki rata-rata usia 58 tahun, mayoritas laki-laki, dengan tipe nyeri dada (C. yang menunjukkan gejala nyeri dada parah. Pasien dalam kelompok ini cenderung memiliki tekanan darah istirahat (Trestbp. dan kadar cholesterol (Cho. yang tinggi, serta fasting blood sugar (Fb. yang lebih dari 120 mg/dl. Resting electrocardiographic (Restec. dan exercise-induced angina (Exan. menunjukkan tingkat abnormalitas yang cukup signifikan. Tingkat detak jantung maksimum (Thalac. cenderung rendah, dan nilai Oldpeak yang tinggi mengindikasikan depresi ST yang mungkin menjadi tanda risiko lebih tinggi untuk penyakit Slope puncak ST setelah berolah raga (Slop. cenderung meningkat seiring dengan peningkatan tingkat nyeri dada. Cluster 2 . , dengan rata-rata usia 53 tahun, mayoritas perempuan, menunjukkan tipe nyeri dada yang cenderung parah. Pasien dalam kelompok ini memiliki tekanan darah (Trestbp. dan kadar cholesterol (Cho. yang relatif normal, fasting blood sugar (Fb. rendah, serta resting electrocardiographic (Restec. dan exercise-induced angina (Exan. yang cenderung normal. Tingkat detak jantung maksimum (Thalac. dan nilai Oldpeak yang rendah menunjukkan adanya respon yang lebih baik terhadap aktivitas fisik. Slope puncak ST setelah berolah raga (Slop. cenderung datar. Cluster 3 . , dengan rata-rata usia 55 tahun, mayoritas laki-laki, menunjukkan tipe nyeri dada yang cenderung parah. Pasien dalam kelompok ini memiliki tekanan darah (Trestbp. dan kadar cholesterol (Cho. yang relatif normal, fasting blood sugar (Fb. tinggi, serta resting electrocardiographic (Restec. yang normal. Exercise-induced angina (Exan. cenderung Tingkat detak jantung maksimum (Thalac. dan nilai Oldpeak menunjukkan respon yang baik terhadap aktivitas fisik. Slope puncak ST setelah berolah raga (Slop. cenderung meningkat. Artikel ini didistribusikan mengikuti lisensi Atribusi-NonKomersial CC BY-NC sebagaimana tercantum pada https://creativecommons. org/licenses/by-nc/4. 215 n JISKA (Jurnal Informatika Sunan Kalijag. Vol. No. SEPTEMBER, 2024: 205 Ae 216 Cluster 4 . , dengan rata-rata usia 55 tahun, mayoritas laki-laki, menunjukkan tipe nyeri dada yang cenderung parah. Pasien dalam kelompok ini memiliki tekanan darah (Trestbp. dan kadar cholesterol (Cho. yang relatif normal, fasting blood sugar (Fb. rendah, serta resting electrocardiographic (Restec. dan exercise-induced angina (Exan. yang cenderung tinggi. Tingkat detak jantung maksimum (Thalac. dan nilai Oldpeak menunjukkan respon yang beragam, sementara Slope puncak ST setelah berolah raga (Slop. cenderung rendah. Berdasarkan hasil tersebut, dapat disarankan bahwa cluster k1 menunjukan tingkat risiko penyakit jantung yang lebih tinggi karena pasien dalam kelompok ini memiliki resiko sangat tinggi terhadap penyakit jantung, pasien menunjukan gejala serius seperti nyeri dada (C. tinggi, tekanan darah (Trestbp. tinggi, cholesterol (Cho. tinggi, fasting blood sugar (Fb. tinggi, electrocardiographic (Restec. tinggi dan faktor resiko lainnya, sementara k2, k3, dan k4 menunjukkan risiko yang lebih rendah, dengan variasi respon terhadap aktivitas fisik. Pengelompokan ini dapat memberikan informasi awal untuk merancang strategi pengelolaan dan perawatan yang lebih spesifik sesuai dengan karakteristik dari setiap kelompok. Tetapi, perlu diingat bahwa validasi klinis lebih lanjut dan pertimbangan medis lebih mendalam tetap diperlukan untuk penanganan pasien secara lebih tepat dan efektif. KESIMPULAN Kesimpulan dari penelitian ini menunjukkan bahwa cluster k1 memiliki profil risiko yang paling Pasien dalam kelompok k1 sebagian besar adalah laki-laki dengan rata-rata usia lebih tua yang menunjukkan gejala nyeri dada parah, tekanan darah tinggi, kadar kolesterol tinggi. Sementara itu, cluster k2, k3, dan k4 menunjukkan profil risiko yang lebih rendah dengan parameter kesehatan yang lebih normal dan respon yang baik terhadap aktivitas fisik, meskipun nyeri dada tetap menjadi gejala yang dominan. Dalam sintesis hasil penelitian, dapat disimpulkan bahwa pengelompokan pasien berdasarkan karakteristik klinis dan demografis dapat memberikan wawasan penting untuk strategi pengelolaan dan perawatan yang lebih terarah. Cluster k1 memerlukan intervensi medis yang lebih intensif dan pemantauan ketat untuk mengelola faktor risiko yang tinggi, sedangkan cluster k2, k3, dan k4 memerlukan pendekatan yang lebih disesuaikan dengan profil risiko masingmasing. Pendekatan yang berbeda ini memungkinkan penyedia layanan kesehatan untuk memberikan perawatan yang lebih efektif dan efisien, serta meningkatkan kualitas hidup pasien melalui pengelolaan penyakit yang lebih personal dan tepat sasaran. Validasi klinis lebih lanjut diperlukan untuk memastikan bahwa pendekatan ini dapat diterapkan secara luas dan memberikan manfaat yang maksimal bagi pasien. DAFTAR PUSTAKA