Matrik: Jurnal Manajemen. Teknik Informatika, dan Rekayasa Komputer Vol. No. Juli 2022, pp. 677O690 ISSN: 2476-9843, accredited by Kemenristekdikti. Decree No: 200/M/KPT/2020 DOI: 10. 30812/matrik. Dampak SMOTE terhadap Kinerja Random Forest Classifier berdasarkan Data Tidak seimbang Impact of SMOTE on Random Forest Classifier Performance based on Imbalanced Data Erlin1 . Yenny Desnelita2 . Nurliana Nasution3 . Laili Suryati4 . Fransiskus Zoromi5 Institut Bisnis dan Teknologi Pelita. Indonesia Universitas Lancang Kuning. Indonesia Universitas Persada. Indonesia STMIK Amik Riau. Indonesia Informasi Artikel ABSTRAK Genesis Artikel: Dalam aplikasi machine learning sangat umum ditemukan kumpulan data dalam berbagai tingkat ketidakseimbangan mulai dari ketidakseimbangan kecil, sedang sampai ekstrim. Sebagian besar model machine learning yang dilatih pada data tidak seimbang akan memiliki bias dengan memberikan tingkat akurasi yang tinggi pada kelas mayoritas dan sebaliknya rendah pada kelas minoritas. Tujuan penelitian ini adalah untuk mengevaluasi dampak dari SMOTE (Synthetic Minority Oversampling Techniqu. pada pengklasifikasi Random Forest untuk memprediksi penyakit jantung. Data berjumlah 299 berasal dari UCI Machine learning Repository digunakan untuk membangun model prediksi berdasarkan 12 variabel independen dan 1 variabel dependen. Kelas minoritas dalam dataset pelatihan di oversampling menggunakan teknik SMOTE (Synthetic Minority Oversampling Techniqu. Model dievaluasi tidak hanya menggunakan ukuran kinerja Accuracy dan Precision saja, namun juga menggunakan alternatif ukuran kinerja lainnya seperti Sensitivity. F1-score. Specificity. G-Mean dan Youdens Index yang lebih baik digunakan untuk data yang tidak seimbang. Hasil penelitian menunjukkan bahwa teknik SMOTE (Synthetic Minority Oversampling Techniqu. mampu mengurangi overfitting sekaligus meningkatkan kinerja model Random Forest pada semua indikator. Peningkatan skor Accuracy sebesar 3. Precision 8%. Sensitivity 7. F1-score 4. Specificity 2. G-Mean 4. 4%, dan Youdens Index 6. Penelitian ini membuktikan bahwa dalam menentukan pengklasifikasi dengan algoritma machine learning seperti Random Forest, kemiringan kelas dalam data perlu diperhitungkan dan diseimbangkan untuk hasil kinerja yang lebih baik. Diterima, 27 Januari 2022 Direvisi, 25 Maret 2022 Disetujui, 09 Juni 2022 Kata Kunci: Data Tidak seimbang Machine Learning Overfitting Random Forest SMOTE ABSTRACT Keywords: Imbalanced Data Machine Learning Overfitting Random Forest SMOTE In machine learning applications, it is prevalent to find datasets in various levels of imbalance ranging from small, moderate to extreme imbalances. Most machine learning models that are trained on imbalanced data will have a bias by providing a high level of Accuracy for the majority class and low on the minority class. This study aimed to evaluate the impact of the SMOTE (Synthetic Minority Oversampling Techniqu. on the Random Forest classifier for predicting heart disease. A total of 299 data from the UCI Machine learning Repository was used to build a prediction model based on 12 independent variables and 1 dependent variable. The minority class in the training dataset was oversampled using the SMOTE (Synthetic Minority Oversampling Techniqu. The model is evaluated not only using performance measures of Accuracy and Precision but also using alternative performance measures such as Sensitivity. F1-score. Specificity. G-Mean, and YoudenAos Index which are better used for imbalanced data. The results showed that the SMOTE (Synthetic Minority Oversampling Techniqu. technique was able to reduce overfitting while increasing the performance of the Random Forest model on all indicators. Improved Accuracy scores by 3. Precision 4. Sensitivity 1%. F1-score 4. Specificity 2. G-Mean 4. 4%, and YoudenAos Index 6. This study proves that in determining classifiers with machine learning algorithms such as Random Forest, the skew of the class in the data needs to be taken into account and balanced for better performance. This is an open access article under the CC BY-SA license. Penulis Korespondensi: Erlin. Program Studi Teknik Informatika. Institut Bisnis dan Teknologi Pelita. Indonesia Email: erlin@lecturer. Journal homepage: https://journal. id/index. php/matrik ISSN: 2476-9843 PENDAHULUAN Penerapan machine learning sudah sangat populer dalam berbagai bidang termasuk bidang studi medis. Machine learning menyediakan berbagai layanan manipulasi seperti mengeksplorasi pola yang tidak diketahui, melakukan proses klasifikasi, clustering, deteksi anomali data, meningkatkan model prediksi klinis serta membantu dalam pengambilan keputusan medis . Ae. Pemanfaatan teknik ini dalam berbagai disiplin ilmu telah berkembang dan menunjukkan kontribusi pada ilmu pengetahuan termasuk dalam bidang kesehatan dan kedokteran. Beberapa algoritma machine learning yang paling umum digunakan dalam pemodelan prediksi medis diantaranya Deep Learning . , algoritma C4. NaOve Bayes . Support Vector Machine . Artificial Neural Network . Logistic Regression . , dan Random Forest . , . Sebagian besar teknik dan algoritma pemodelan ini bekerja dengan sangat baik ketika distribusi kelas dalam dataset terdistribusi secara merata. Namun kenyataannya, sebagian besar kelas dataset tidak seimbang. Ini biasanya terjadi ketika kelas mayoritas lebih banyak dibandingkan kelas Dalam aplikasi machine learning, sangat umum ditemukan kumpulan data . dengan berbagai tingkat ketidak seimbangan kelas, mulai dari ketidak seimbangan sedang seperti diagnosis medis dimana 10% didiagnosis menderita penyakit dan 90% sebaliknya, sampai ketidak seimbangan ekstrim, misal dari deteksi anomali transaksi perbankan, dimana ditemukan 1 transaksi curang atau palsu dari 10. transaksi yang terjadi. Sebagian besar model yang dilatih pada data yang tidak seimbang akan memiliki bias dalam memprediksi kelas yang besar dan mengabaikan kelas yang lebih kecil. Ketika ada ketidak seimbangan kelas dalam data pelatihan, model machine learning biasanya akan mengklasifikasikan kelas yang lebih besar secara berlebihan karena probabilitas sebelumnya yang meningkat. Akibatnya, algoritma machine learning cenderung salah mengklasifikasikan kelas minoritas. Dampak lebih lanjut, model machine learning akan menghasilkan tingkat akurasi prediksi yang rendah pada kelas minoritas dan tinggi pada kelas mayoritas . , . Dalam banyak kasus penggunaan, seperti diagnosis medis, ini justru kebalikan dari apa yang ingin dicapai, karena sangat umum diketahui bahwa kelas minoritas . isalnya penderita penyaki. adalah kelas yang paling penting untuk diprediksi dengan benar karena merupakan kelas kritis dan sangat menentukan terhadap keberhasilan dan kinerja keseluruhan dari suatu model. Untuk mengatasi masalah ini, perlu menangani ketidak seimbangan kelas saat melatih model dalam beberapa cara. Terdapat sejumlah teknik untuk menangani kumpulan kelas yang tidak seimbang, baik pada tingkat data maupun algoritma. Pada tingkat data, teknik yang diadopsi secara luas adalah resampling seperti oversampling . , . dan undersampling . Teknik-teknik ini memodifikasi probabilitas sebelumnya dari kelas mayoritas dan minoritas dalam kumpulan data pelatihan untuk mendapatkan jumlah kasus yang lebih seimbang di setiap kelas. Pada undersampling, sejumlah data pada kelas mayoritas akan dihapus sedangkan pada oversampling, justru sebaliknya, sejumlah data pada kelas minoritas akan ditambahkan sehingga pada kedua teknik tersebut akan menghasilkan data yang seimbang. Namun teknik ini memiliki Implementasi paling sederhana dari oversampling adalah dengan menduplikasi data secara acak dari kelas minoritas, yang dapat menyebabkan resiko overfitting terhadap data yang langka dan tidak memberikan informasi tambahan apapun ke model. Pada undersampling, teknik paling sederhana melibatkan penghapusan atau membuang data secara acak dari kelas mayoritas, yang dapat menyebabkan hilangnya Untuk mengatasi masalah ini, dapat dilakukan dengan membuat data sintesis menggunakan teknik SMOTE (Synthetic Minority Oversampling Techniqu. untuk menyeimbangkan distribusi kelas dengan meningkatkan jumlah kelas minoritas untuk tujuan oversampling. Feng et al. , . melakukan penelitian untuk menguji stabilitas teknik oversampling berbasis SMOTE (Synthetic Minority Oversampling Techniqu. untuk memprediksi cacat perangkat lunak. Hasil penelitian menunjukkan bahwa teknik SMOTE (Synthetic Minority Oversampling Techniqu. mampu membuat model lebih stabil dan memiliki kinerja lebih baik untuk pengukuran dari sisi AUC, balance, dan MCC. Penelitian selaras dilakukan oleh Mishra dan Singh . meneliti ketidakseimbangan kelas pada multilabel data menggunakan metode Feature Construction and SMOTE (Synthetic Minority Oversampling Techniqu. -based Imbalance handling (FCSMI). Hasil eksperimen menunjukkan efektivitas metode FCSMI sangat baik untuk menangani imbalanced class pada dataset yang digunakan. Peneliti lain fokus pada pendekatan tingkat data untuk menangani ketidak seimbangan kelas pada data beasiswa PPA menggunakan algoritma C4. 5 yang disisipkan teknik SMOTE (Synthetic Minority Oversampling Techniqu. Hasil pengujian membuktikan bahwa teknik SMOTE (Synthetic Minority Oversampling Techniqu. mampu meningkatkan kinerja algoritma C4. 5 untuk skor akurasi, sensitivitas, dan spesifisitas . Meskipun terdapat beberapa publikasi dan penelitian mengenai teknik SMOTE (Synthetic Minority Oversampling Techniqu. dalam menangani ketidakseimbangan data pada berbagai kasus dengan metode dan algoritma yang berbeda-beda, namun sejauh pengetahuan penulis, belum ditemukan publikasi berkaitan dengan pengujian kehandalan teknik SMOTE (Synthetic Minority Oversampling Techniqu. menggunakan Random Forest Classifier untuk mendeteksi penyakit jantung menggunakan bahasa pemrograman Python. Selain itu, sebagian besar model pada penelitian terdahulu, dievaluasi menggunakan Confusion Matrix dengan pengukuran skor Accuracy. Precision. Recall, dan F1-score. Penelitian ini selain menggunakan Confusion Matrix untuk mengevaluasi model, juga menggunakan alternatif ukuran kinerja lainnya seperti Sensitivity. Specificity. G-Mean, dan Youdens Index yang lebih baik digunakan untuk data yang tidak seimbang. Tujuan penelitian ini adalah untuk mengevaluasi dan menganalisis dampak dari SMOTE (Synthetic Minority Oversampling Techniqu. pada pengklasifikasi Random Forest untuk prediksi penyakit jantung. Teknik SMOTE (Synthetic Minority Oversampling Techniqu. akan diujicoba pada algoritma Random Forest sebagai salah satu algoritma yang populer untuk klasifikasi. Dampak yang akan dievaluasi tidak hanya berfokus kepada kinerja model tetapi juga terhadap kestabilan model yang dihasilkan. Bagian selanjutnya dari artikel ini disusun sebagai berikut: Bagian 2 membahas mengenai material dan metode penelitian. Hasil dan pembahasan didiskusikan pada bagian 3. Kesimpulan akan dijelaskan pada bagian 4. METODE PENELITIAN Dataset Penyakit Jantung Dataset penderita penyakit jantung yang digunakan untuk eksperimen dalam penelitian ini menggunakan dataset umum yang terbuka untuk publik berasal dari UCI machine learning repository yang bisa diakses melalui link https://archive. edu/ml/datasets/Heart failure clinical records. Versi original dataset dikumpulkan oleh Ahmad . Versi yang digunakan dalam penelitian ini adalah versi dataset yang dielaborasi oleh Chicco . Dataset berjumlah 299 data yang dibagi menjadi 2 bagian. %) data digunakan untuk data latih . dan sisanya 60 . %) data digunakan untuk data uji . Dataset tersebut terdiri dari 13 variabel yang merupakan karakteristik input Matrik: Jurnal Managemen,Teknik Informatika, dan Rekayasa Komputer. Vol. No. Juli 2022: 677 Ae 690 Matrik: Jurnal Managemen,Teknik Informatika, dan Rekayasa Komputer seperti diperlihatkan pada Tabel 2 yang terdiri dari 12 variabel independen dan 1 variabel dependen. Variabel independen terdiri dari age, anaemia, creatinine phosphokinase, diabetes, ejection fraction, high blood pressure, platelets, serum creatinine, serum sodium, sex, smoking dan time, sedangkan variabel dependen merupakan target yang ingin diprediksi yaitu death event. Tabel 1. Deskripsi Dataset yang digunakan Fitur/Variabel Age Anaemia creatinine phosphokinase (CPK) ejection fraction high blood pressure serum creatinine serum sodium death event Deskripsi Umur . Penurunan sel darah merah atau hemoglobin Tingkat enzim CPK dalam darah . cg/L) Apakah seorang pasien menderita diabetes Persentase darah yang dipompa keluar dari jantung selama satu kontraksi Apakah pasien memiliki tekanan darah tinggi/hipertensi Trombosit dalam darah . iloplatelet/mL) Tingkat kreatinin dalam darah . g/dL) Tingkat sodium dalam darah . Eq/L) Jenis kelamin . = pria. 0 = wanit. Apakah pasien merokok atau tidak Periode tindak lanjut (Har. [Targe. peristiwa kematian: Jika pasien meninggal selama masa tindak lanjut. Rentang . , . , . 0, 1 , . , 7. 0, 1 , . , . 0, 1 01, . , 850. 5, . , 9. , . , . 0, 1 0, 1 , . , . 0, 1 Dataset memiliki 2 . kelas yaitu 96 sampel adalah kelas pasien penderita penyakit jantung dan 203 sampel adalah kelas yang tidak menderita penyakit jantung . on-penyakit jantun. Oleh karena itu, dataset ini merupakan dataset yang tidak seimbang. Gambar 1 menunjukkan distribusi kelas dataset penyakit jantung dimana kelas 0 . atau kelas mayoritas lebih unggul dibandingkan dengan kelas 1 . atau kelas minoritas. Gambar 1. Distribusi Kelas Dataset Penyakit Jantung Metode Penelitian Rancangan penelitian SMOTE (Synthetic Minority Oversampling Techniqu. pada Random Forest Classifier diperlihatkan pada Gambar Menentukan dataset penyakit jantung merupakan langkah pertama yang dilakukan dalam penelitian ini sebagai dasar terhadap data yang akan diproses dan dimanipulasi. Data berasal dari UCI machine learning repository berjumlah 299 sampel yang terdiri dari 13 variabel. Selanjutnya dilakukan Exploratory Data Analysis menggunakan library Python untuk mendapatkan gambaran data secara utuh. Seleksi fitur menjadi langkah selanjutnya untuk menentukan variabel yang berpengaruh terhadap kinerja pembentukan model. Skenario ujicoba akan dilakukan dalam 2 tahap, pertama membangun model tanpa SMOTE (Synthetic Minority Oversampling Techniqu. dan kedua membangun model menggunakan SMOTE (Synthetic Minority Oversampling Techniqu. Hasil kedua skenario ini akan dievaluasi untuk melihat hasil perbandingan dan menentukan dampak dari penggunaan teknik SMOTE (Synthetic Minority Oversampling Techniqu. Gambar 2. Rancangan Penelitian Synthetic Minority Oversampling Technique SMOTE (Synthetic Minority Oversampling Technique ) pada Random Forest Classifier Dampak SMOTE terhadap. (Erli. ISSN: 2476-9843 SMOTE (Synthetic Minority Oversampling Techniqu. Data yang tidak seimbang menjadi masalah saat membuat model prediksi menggunakan machine learning. Salah satu cara untuk mengatasi masalah ini dengan melakukan oversampling pada data minoritas . Teknik oversampling klasik memiliki kelemahan seperti overfitting dan hilangnya informasi. Implementasi paling sederhana dari oversampling adalah dengan menduplikasi data secara acak dari kelas minoritas, yang dapat menyebabkan resiko overfitting terhadap data yang langka. Dalam undersampling, teknik paling sederhana melibatkan penghapusan atau membuang data secara acak dari kelas mayoritas, yang dapat menyebabkan hilangnya informasi. Untuk mengatasi masalah ini, dapat dilakukan oversampling data dengan membuat data sintesis menggunakan teknik SMOTE (Synthetic Minority Oversampling Techniqu. SMOTE (Synthetic Minority Oversampling Techniqu. adalah salah satu metode oversampling yang paling umum digunakan untuk menyelesaikan masalah ketidak seimbangan distribusi data pada pemodelan machine learning. SMOTE (Synthetic Minority Oversampling Techniqu. bertujuan untuk menyeimbangkan distribusi kelas dengan meningkatkan jumlah kelas minoritas secara acak dengan cara membuat data sintesis untuk tujuan oversampling . SMOTE (Synthetic Minority Oversampling Techniqu. menghasilkan data pelatihan sintesis yang baru dengan menginterpolasi linier untuk kelas minoritas. Data pelatihan sintesis dihasilkan dengan memilih secara acak satu atau lebih dari k-nearest neighbors untuk setiap sampel pada kelas minoritas seperti diperlihatkan pada Gambar 3. Setelah proses oversampling, data direkonstruksi dan beberapa model klasifikasi dapat diterapkan untuk data yang sudah diproses. Gambar 3. Representasi skema dari Algoritma SMOTE (Synthetic Minority Oversampling Techniqu. Cara kerja algoritma SMOTE (Synthetic Minority Oversampling Techniqu. diuraikan dalam langkah-langkah sebagai berikut: Langkah 1 : Menetapkan kelas minoritas himpunan A untuk setiap X OO A, k-tetangga terdekat . -nearest neighbor. dari X yang diperoleh dengan menghitung jarak Euclidean antara X dan setiap sampel lainnya dalam himpunan A. Langkah 2 : Tingkat pengambilan sampel N diatur sesuai dengan proporsi yang tidak seimbang. Untuk setiap X OO . N sampel . 1, x2, . , x. dipilih secara acak dari k-nearest neighbors, dan membangun himpunan A 1. Langkah 3: Untuk setiap sampel X k OO A 1. = 1, 2, 3, . N ) - biasanya k = 5, persamaan berikut digunakan untuk menghasilkan sampel baru: X 0 = X rand. , . O |X Oe X . , dimana rand . , . mewakili angka acak antara 0 dan 1. Selanjutnya menarik garis antara tetangga dan menghasilkan titik acak pada garis. Random Forest Classifier Random Forest adalah algoritma untuk supervised learning yang bisa digunakan untuk klasifikasi maupun regresi. Algoritma ini paling fleksibel dan mudah digunakan. Random Forest (RF) terdiri dari beberapa Decision Tree. Semakin banyak Decision Tree yang dimiliki, semakin kuat algoritma Random Forest tersebut. Algoritma RF sudah banyak diaplikasikan pada berbagai bidang seperti memprediksi pergerakan terarah harga saham untuk perdagangan intraday . , mengevaluasi efektivitas perangkat anti-burung . , memprediksi penyebaran obligasi di bursa saham . sampai manajemen komentar media sosial . Algoritma Random Forest menggunakan rata-rata untuk meningkatkan akurasi prediksi dan kontrol overfitting. Ukuran sub-sampel dikontrol dengan parameter max samples jika bootstrap=True . , jika tidak, seluruh dataset digunakan untuk membangun setiap pohon . Saat menggunakan Random Forest untuk klasifikasi data, formula Indeks Gini seperti diperlihatkan pada persamaan . digunakan untuk memutuskan bagaimana node pada sebuah cabang pohon keputusan. Rumus ini menggunakan kelas dan probabilitas untuk menentukan Gini dari setiap cabang pada sebuah simpul, menentukan cabang mana yang lebih mungkin terjadi. Matrik: Jurnal Managemen,Teknik Informatika, dan Rekayasa Komputer. Vol. No. Juli 2022: 677 Ae 690 Matrik: Jurnal Managemen,Teknik Informatika, dan Rekayasa Komputer Gini = 1 Oe ci=1 . i )2 . dimana p i mewakili frekuensi relatif dari kelas yang diamati dalam kumpulan data dan c mewakili jumlah kelas. Selain Gini, entropi juga sering digunakan dalam menentukan bagaimana node bercabang di pohon keputusan. Formula untuk entropi terdapat pada persamaan . Entropy = ci=1 Oe pi O log2 . i ) . Entropi menggunakan probabilitas hasil untuk membuat keputusan tentang bagaimana node harus bercabang. Berbeda dengan indeks Gini, indeks ini lebih intensif matematis karena fungsi logaritmik yang digunakan dalam menghitungnya. Gambar 4 memperlihatkan cara kerja algoritma Random Forest dengan membuat sekumpulan pohon keputusan . ecision tre. dari subset yang dipilih secara acak, mendapatkan prediksi dari setiap pohon keputusan, melakukan voting untuk setiap hasil yang diprediksi, dan memilih hasil prediksi terbaik berdasarkan voting terbanyak yang ditetapkan sebagai prediksi akhir. Gambar 4. Pengklasifikasi Random Forest Evaluasi Model Memilih formula ukuran kinerja yang tepat untuk evaluasi algoritma adalah sebuah tahapan yang kritis, karena pengklasifikasi yang dilatih pada sekumpulan data yang tidak seimbang akan memberikan tingkat akurasi yang tinggi namun sebenarnya bias dikelas mayoritas. Ukuran kinerja yang tepat akan membantu dalam menilai kemampuan adaptasi algoritma secara efisien. Tujuan utamanya adalah untuk mendapatkan True Positive (TP) dan True Negative (TN) sebanyak mungkin dan selaras dengan mengurangi False Negatif sebanyak mungkin juga. Akurasi (Accurac. mewakili kemampuan pengklasifikasi secara keseluruhan, namun ukuran akurasi dapat menyesatkan ketika data tidak seimbang karena lebih banyak bobot ditempatkan pada kelas mayoritas dibandingkan kelas minoritas sehingga sulit bagi classifier untuk berkinerja baik pada kelas minoritas. Ukuran kinerja lainnya adalah Recall/Sensitivity yaitu mengukur keakuratan kelas positif dan Spesificity untuk mengukur keakuratan kelas negatif. Sensitivity menilai efektivitas classifier pada kelas positif/mayoritas sedangkan Spesificity menilai efektivitas classifier pada kelas negatif/mayoritas. Precision, ukuran kinerja lainnya, adalah ukuran ketepatan model. Nilai presisi yang tinggi dari sebuah classifier merupakan indikasi classifier yang baik . Selain ukuran kinerja diatas, terdapat ukuran kinerja kombinasi untuk menyeimbangkan antara tingkat False Positive (FP) dan False Negative (FN) diantaranya F1-score. G-Mean, dan Youdens Index yang dapat mengevaluasi kinerja dalam ketidak seimbangan data, karena jumlah sampel yang diprediksi dengan benar dari kelas positif dan atau negatif tersirat dalam parameter ini. F1-score mengukur keseimbangan antara presisi dan sensitivitas. Nilai F1-score yang tinggi menyiratkan akurasi yang lebih tinggi dikelas minoritas. Nilai F1-score 0 ketika presisi dan sensitifitasnya juga 0. G-Mean (Geometric Mea. fokus untuk mengukur keseimbangan antara kinerja klasifikasi pada kelas mayoritas dan Nilai G-Mean yang rendah merupakan indikasi rendahnya kinerja dalam klasifikasi kasus positif bahkan jika kasus kelas negatif diklasifikasikan dengan benar, sebaliknya jika nilai G-Mean tinggi menunjukkan bahwa pengklasifikasi memiliki kinerja yang sama baiknya dengan sampel kelas minoritas dan mayoritas. Ukuran kinerja ini penting untuk menghindari overfitting kelas negatif dan underfitting kelas Selanjutnya. Youdens Index mengevaluasi kemampuan clasifier untuk menghindari kesalahan klasifikasi. Indeks ini memberikan bobot yang sama pada kinerja pengklasifikasi baik pada kasus positif maupun negatif. Nilai indeks yang tinggi merupakan indikasi pengklasifikasi berkinerja dengan baik . Penelitian ini akan menggunakan metrik evaluasi sebagaimana yang sudah digunakan oleh penelitian sebelumnya . , . yaitu Accuracy. Precision. Sensitivity. F1-score. G-Mean, dan Youdens Index sebagaimana terdapat dalam persamaan . , . , . , . , . , . , . Accuracy = tp tn tp f p f n tn tp f p P recision = Dampak SMOTE terhadap. (Erli. ISSN: 2476-9843 Recall/Sensitivity = . recall precision . Sensitivity y Specif icity . F 1 Oe Score = YoudenAo s Index () = Sensitivity Oe . Oe Spesif icit. tn f p Specif icity = G Oe M ean = tp f n . HASIL DAN ANALISIS Dataset Dataset penyakit jantung yang digunakan adalah dataset versi terakhir yang diakses pada UCI machine learning repository. Gambar 5 merupakan informasi umum dataset yang terdiri dari 299 sampel dan 13 kolom . Variasi type data adalah float sebanyak 3 variabel yaitu untuk variabel age, platelets, dan serum creatinine, sedangkan sisanya sebanyak 10 variabel lainnya memiliki type data integer yaitu untuk variabel anaemia, creatinine phosphokinase, diabetes, ejection fraction, high blood pressure, serum sodium, sex, smoking, time, dan death event. Gambar 5. Informasi Umum Dataset EDA (Exploratory Data Analysi. Exploratory Data Analysis (EDA) merupakan langkah penting sebelum melakukan pemodelan data. Melalui proses EDA, dapat dipahami secara utuh data yang ada. Gambar 6 memperlihatkan dataset secara statistik menggunakan perintah describe() bahasa pemograman Python. Pada dataset ini age . terendah yang terdapat dalam dataset adalah 40 tahun dan tertinggi adalah 95 tahun. Anaemia memiliki nilai dengan rentang 0 sampai 1 dengan rata-rata nilai 0. 43, sampai variabel input terakhir yaitu time dengan rentang nilai 4 285 dengan rata-rata Untuk variabel target yaitu Death Event memiliki rentang nilai 0-1, dimana 0 berarti pasien tidak meninggal selama masa tindak lanjut sedangkan 1 berarti sebaliknya. Gambar 6. Statistik Dataset Matrik: Jurnal Managemen,Teknik Informatika, dan Rekayasa Komputer. Vol. No. Juli 2022: 677 Ae 690 Matrik: Jurnal Managemen,Teknik Informatika, dan Rekayasa Komputer Visualisasi merupakan langkah terpenting dalam EDA yang menunjukkan keterkaitan antar variabel independent dengan target. Matrik korelasi dalam bentuk heatmap diperlihatkan pada Gambar 7 yang menunjukkan data tabular hubungan antara pasangan variabel dalam data yang saling berkaitan. Matrik ini penting untuk memperlihatkan statistik deskriptif dari data multi variabel. Heatmap telah memberikan wawasan yang bagus tentang data yang dimiliki, dimana memperlihatkan korelasi positif dari variabel death event dengan variabel age dan serum creatinine, variabel smoking dengan variabel sex, dan variabel serum sodium dengan variabel ejection fraction. Sebaliknya terdapat korelasi negatif antara variabel time dengan variabel death event, high blood pressure dan age, variabel serum sodium dengan variabel death event, dan serum creatinine, variabel ejection fraction dengan variabel death event, dan variabel creatine phosphokinase dengan variabel anaemia. Gambar 7. Korelasi Matrik dalam Bentuk Heatmap Dataset memiliki 6 . variabel kategorikal . ategorical feature. yaitu anaemia, diabetes, high blood pressure, sex, smoking dan death event. Untuk melihat bagaimana variabel kategorikal didistribusikan satu sama lain digunakan tabel kontigensi. Uji chi-square adalah teknik statistik untuk menguji hubungan antara dua variabel kategori. Uji chi- square seperti diperlihatkan pada Gambar 8 menunjukkan tidak ada variabel kategori yang memiliki hubungan dengan variabel target. Gambar 8. Uji Chi-Square Variabel Kategorikal Selanjutnya Barplot dibawah (Gambar . memperlihatkan tidak ada hubungan yang kuat antara variabel kategorikal dengan variabel target seperti yang terlihat pada uji Chi-Square diatas. Dampak SMOTE terhadap. (Erli. ISSN: 2476-9843 Gambar 9. Barplot Hubungan Variabel Kategorikal dengan Target Feature Selection Menemukan variabel yang menentukan terhadap keberhasilan suatu model merupakan langkah krusial dalam machine learning. Hasil pengolahan data menunjukkan bahwa Time/Waktu merupakan variabel yang paling berpengaruh dalam kasus ini disusul oleh variabel serum creatini ejection fraction, age, creatinine phosphokinase, platelets, dan serum sodium. Semua fitur seperti yang diperlihatkan dari uji chi-square sebelumnya, fitur kategoris tidak begitu penting. Setelah menentukan fitur penting, selanjutnya adalah mengidentifikasi ambang batas untuk fitur penting tersebut. Berdasarkan hasil pengolahan data diketahui ambang batas nilai untuk seleksi fitur adalah 7. Selanjutnya variabel/fitur yang memiliki nilai dibawah 7. 22 akan dihapus dan tidak dipergunakan untuk proses selanjutnya. Karena data tidak seimbang maka penilaian terhadap kinerja model ini akan lebih cocok menggunakan F1score dibandingkan menggunakan akurasi. Membangun Model Tanpa SMOTE (Synthetic Minority Oversampling Techniqu. Untuk melihat dampak dari penggunaan teknik SMOTE (Synthetic Minority Oversampling Techniqu. pada penelitian ini, maka pertama membangun model tanpa teknik SMOTE (Synthetic Minority Oversampling Techniqu. untuk mendapatkan gambaran tentang kinerja model awal. Menemukan ambang batas dengan membangun model melalui penghapusan satu fitur yang paling tidak berpengaruh sesudah fitur serum sodium yang telah ditentukan diatas merupakan langkah selanjutnya sebelum membangun model itu sendiri. Langkah ini akan menghasilkan satu set fitur dengan nilai F1-score terbaik seperti diperlihatkan pada Gambar 10 yang menunjukkan hasil pemilihan variabel tanpa SMOTE (Synthetic Minority Oversampling Techniqu. menggunakan bahasa pemograman Python untuk Random Forest Classifier. Pada gambar dapat dilihat bahwa model dengan 8 variabel teratas memiliki nilai F1-score terbaik yaitu sebesar 0. Oleh karena itu ambang batas baru yang ditemukan adalah 1. 375402 yaitu ambang batas variabel anaemia. Penelitian ini akan menyertakan semua fitur dengan kepentingan di atas ambang batas. Gambar 10. Pemilihan Variabel dengan Nilai F1-Score Terbaik pada Model Tanpa SMOTE (Synthetic Minority Oversampling Techniqu. Selanjutnya membuat model RF Tanpa SMOTE (Synthetic Minority Oversampling Techniqu. dengan 8 variabel yang sudah terpilih. Kinerja model yang dibangun tanpa SMOTE (Synthetic Minority Oversampling Techniqu. memiliki skor akurasi 1 untuk data latih dan 0. untuk data uji seperti diperlihatkan pada Gambar 11. Berdasarkan skor akurasi tersebut model termasuk kategori overfitting. Tahap berikutnya dilakukan penyetelan hyperparameter menggunakan max depth untuk mencegah tree dari overfitting. Matrik: Jurnal Managemen,Teknik Informatika, dan Rekayasa Komputer. Vol. No. Juli 2022: 677 Ae 690 Matrik: Jurnal Managemen,Teknik Informatika, dan Rekayasa Komputer Gambar 11. Hasil Skor Kinerja Model Random Forest Tanpa SMOTE (Synthetic Minority Oversampling Techniqu. Membangun Model menggunakan SMOTE (Synthetic Minority Oversampling Techniqu. SMOTE singkatan dari AoSynthetic Minority Oversampling TechniqueAo adalah teknik oversampling dari kategori minoritas. SMOTE (Synthetic Minority Oversampling Techniqu. menghasilkan sampel sintetis untuk membawa jumlah kategori dalam variabel target pelatihan ke jumlah yang sama. Jumlah data sesudah resample berjumlah 380 data yang terbagi menjadi 320 data latih dan 60 data uji. Gambar 12 memperlihatkan plot untuk menunjukkan sampel data sintetis yang dihasilkan menggunakan SMOTE (Synthetic Minority Oversampling Techniqu. dibandingkan dengan sampel data asli. Gambar 12. Plot Data Sintesis Menggunakan SMOTE (Synthetic Minority Oversampling Techniqu. Gambar 13 memperlihatkan bahwa SMOTE (Synthetic Minority Oversampling Techniqu. telah mampu meningkatkan nilai F1-score. Model terbaik tetap menggunakan 8 variabel teratas dengan nilai F1-score sebesar 0. Tahap berikutnya membangun model menggunakan 8 variabel yang sudah dipilih menggunakan teknik SMOTE (Synthetic Minority Oversampling Techniqu. Skor untuk dataset latih dan skor CV model yang dilatih pada data dengan penerapan SMOTE (Synthetic Minority Oversampling Techniqu. lebih baik dibandingkan dengan model yang dilatih tanpa SMOTE (Synthetic Minority Oversampling Techniqu. Selanjutnya, penelitian ini akan menggunakan model yang dilatih pada data dengan penerapan SMOTE (Synthetic Minority Oversampling Techniqu. sebagai model akhir. Gambar 13. Peningkatan Nilai F1score Setelah Menggunakan SMOTE (Synthetic Minority Oversampling Techniqu. Dampak SMOTE terhadap. (Erli. ISSN: 2476-9843 Mengidentifikasi overfitting dengan Learning Curve menjadi tahapan selanjutnya. Learning Curve membantu mengidentifikasi bias dan varian serta membantu menginformasikan apakah menambahkan lebih banyak data pelatihan akan meningkatkan kinerja pada data yang tidak terlihat atau justru sebaliknya. Seperti diperlihatkan pada Gambar 14, model RF overfit ke dataset latih meskipun sudah mengurangi jumlah Hal ini disebabkan jumlah dataset yang sangat kecil. Seperti diperlihatkan pada Learning Curve, menambahkan jumlah data sintetis ke dataset latih akan meningkatkan kinerja model pada data yang tidak terlihat. Telah terjadi peningkatan skor CV dan skor data uji setelah menambahkan data sintetis menggunakan SMOTE (Synthetic Minority Oversampling Techniqu. Selanjutnya, penyetelan hyperparameter GridSearchCV digunakan untuk mencegah classifier dari overfitting. Mengatasi overfitting bisa dilakukan dengan menambah jumlah data sintesis. Selain itu dalam penelitian ini juga diperkuat dengan mengimplementasikan hyperparameter tuning GridSearchCV. Parameter yang digunakan dalam penelitian ini adalah n estimator dengan nilai . 0, 7. , criterion: . ini, entrop. , max depth dengan nilai . ,5,. , min samples split: . , . dan min samples leaf : . Setelah mengimplementasikan hyperparameter tuning pada data yang sudah diresample oleh teknik SMOTE (Synthetic Minority Oversampling Techniqu. , model tidak overfitting lagi ke dataset pelatihan. Gambar 14. Learning Curve Akurasi Data Latih dan Data Uji Evaluasi Model Gambar 15 . dan 15 . memperlihatkan bahwa skor data latih sudah mendekati skor Cross Validation dan skor data uji, menunjukkan bahwa model sudah tidak overfit. Hal ini disebabkan karena telah dipilih sejumlah besar n estimator untuk menumbuhkan lebih banyak pohon, sehingga mencegah overfitting, memilih angka yang rendah untuk max depth dan angka yang besar untuk max samples split dan max samples leaf yang memastikan daun/leaf memiliki jumlah sampel yang baik dan memadai. Gambar 15. Confusion Matrix Data Uji, . Confusion Matrix Data Uji Kurva ROC diperlihatkan pada Gambar 16 yang menunjukkan model RF SMOTE (Synthetic Minority Oversampling Techniqu. memiliki True Positive Rate (TPR) yang baik yang sangat penting untuk model yang digunakan untuk keperluan diagnosis medis. Gambar 16. Kurva ROC untuk Positive Rate Matrik: Jurnal Managemen,Teknik Informatika, dan Rekayasa Komputer. Vol. No. Juli 2022: 677 Ae 690 Matrik: Jurnal Managemen,Teknik Informatika, dan Rekayasa Komputer Perbandingan evaluasi model tanpa SMOTE (Synthetic Minority Oversampling Techniqu. dan dengan SMOTE (Synthetic Minority Oversampling Techniqu. Hasil perbandingan pengujian dua skenario terhadap kinerja model Random Forest diperlihatkan pada Tabel 1 yang menunjukkan bahwa kinerja model RF pada data latih tanpa menggunakan teknik SMOTE (Synthetic Minority Oversampling Techniqu. memberikan hasil skor 1 untuk semua kriteria penilaian. Namun berdasarkan hasil pengujian menggunakan Learning Curve terdeteksi bahwa model overfitting. Model bekerja sangat baik pada data latih namun akurasi menurun ketika diaplikasikan pada data uji sehingga terdapat perbedaan akurasi yang cukup signifikan antara data latih dan data uji. Model Random Forest menggunakan SMOTE (Synthetic Minority Oversampling Techniqu. pada data latih memberikan hasil akurasi yang lebih rendah dibandingkan model awal, namun model lebih fit dan stabil. Nilai skor pengujian kinerja antara data latih dan data uji saling mendekati yang berarti model bekerja sangat baik pada latih maupun data uji. Selain itu, pada data uji model RF menggunakan SMOTE (Synthetic Minority Oversampling Techniqu. , terjadi peningkatan pada semua indikator kinerja. Peningkatan skor akurasi 3. Presisi 4. Sensitivity 7. F1score 4. Specificity 2. G-Mean 4. 4%, dan Youdens Index 6. Nilai skor yang penting untuk bidang klinis dan untuk data tidak seimbang pada pengukuran kinerja kombinasi yang menyeimbangkan antara tingkat False Positive dengan False Negative menunjukkan nilai yang tinggi. Skor nilai untuk Sensitivity sebesar 0. 91 yang menunjukkan bahwa sebanyak 91% diidentifikasikan menderita penyakit jantung dengan benar. Spesivicity memiliki nilai sebesar 0. 97 yang berarti 97% diidentifikasi tidak menderita penyakit jantung dengan benar. Selanjutnya nilai F1-score sebesar 0. 88, menunjukkan bahwa akurasi yang lebih tinggi diperoleh untuk kelas minoritas. G-Mean memiliki nilai skor tinggi sebesar 0. 94, membuktikan bahwa model memiliki kinerja yang sama baiknya dengan sampel kelas minoritas dan mayoritas. Skor nilai Youdens Index sebesar 0. 85 yang berarti memiliki indeks yang tinggi, dan menjadi indikasi pengklasifikasi berkinerja baik. Berdasarkan hasil pengujian pada kedua model, terbukti bahwa teknik SMOTE (Synthetic Minority Oversampling Techniqu. mampu mengurangi overfitting pada model sekaligus dapat meningkatkan kinerja dari model yang dibangun. SMOTE (Synthetic Minority Oversampling Techniqu. tidak memerlukan duplikat data, namun menyeimbangkan distribusi kelas melalui penambahan data sintesis pada kelas minoritas dan membuat titik data sintetis berdasarkan titik data asli yang memberikan dampak terhadap peningkatan kinerja model secara Model RF menggunakan SMOTE (Synthetic Minority Oversampling Techniqu. dan diperkuat dengan tambahan fungsi hyperparameter tuning akan menghasilkan model yang lebih ideal, fit dan stabil. Tabel 2. Perbandingan Model RF-SMOTE (Synthetic Minority Oversampling Techniqu. dan Non-SMOTE (Synthetic Minority Oversampling Techniqu. Kinerja Accuracy Precision Sensitivity F1score Specificity G-Mean Youdens Index Keterangan Model RF-Non SMOTE (Synthetic Minority Oversampling Techniqu. Latih Uji Model Overfitting Model RF-SMOTE (Synthetic Minority Oversampling Techniqu. Latih Uji Model FIT KESIMPULAN Kinerja model machine learning akan bias apabila data tidak seimbang. Tingkat akurasi yang dihasilkan tinggi pada kelas mayoritas dan rendah pada kelas minoritas. Dalam penelitian ini, pengujian terhadap dampak penambahan data sintetis dengan teknik SMOTE (Synthetic Minority Oversampling Techniqu. telah dilakukan pada data latih terhadap dataset penyakit jantung. Hasil penelitian menunjukkan bahwa teknik SMOTE (Synthetic Minority Oversampling Techniqu. mampu mengatasi masalah overfitting, dengan menghasilkan model yang fit dan stabil. Ukuran kinerja Random Forest classifier juga menunjukkan peningkatan pada semua indikator penilaian, mulai peningkatan skor Akurasi sebesar 3. Presisi 4. Sensitivity 7. F1-score 4. Specificity 2. G-Mean 4. 4% dan Youdens Index 6. Penelitian ini memperlihatkan bahwa dalam menentukan classifier menggunakan machine learning seperti Random Forest, kemiringan kelas perlu diseimbangkan terlebih dahulu sebelum membangun model untuk hasil kinerja yang lebih baik. Penelitian ini juga membuktikan bahwa Random Forest menjadi salah satu pengklasifikasi yang handal yang bisa digunakan untuk memprediksi penyakit khususnya dalam bidang klinis. Penelitian berikutnya menggunakan beberapa classifier machine learning untuk mengidentifikasi classifier terbaik, termasuk pengujian pada beberapa dataset klinis yang berbeda-beda. Selanjutnya melakukan ujicoba pada beberapa fungsi hyperparameter tuning untuk meningkatkan akurasi model machine learning terbaik. REFERENSI