Terakreditasi SINTA Peringkat 2 Surat Keputusan Dirjen Penguatan Riset dan Pengembangan Ristek Dikti No. 10/E/KPT/2019 masa berlaku mulai Vol. 1 No. 1 tahun 2017 s. d Vol. 5 No. 3 tahun 2021 Terbit online pada laman web jurnal: http://jurnal. JURNAL RESTI (Rekayasa Sistem dan Teknologi Informas. Vol. 4 No. 28 - 36 ISSN Media Elektronik: 2580-0760 LL-KNN ACW-NB: Local Learning K-Nearest Neighbor in Absolute Correlation Weighted Nayve Bayes untuk Klasifikasi Data Numerik Azminuddin I. Azis1. Budy Santoso2. Serwin3 1,2,3 Jurusan Teknik Informatika. Fakultas Ilmu Komputer. Universitas Ichsan Gorontalo azminuddinazis@unisan. id, 2budysantoso@unisan. id, 3serwin_pattinjo@unisan. Abstract Nayve Bayes (NB) algorithm is still in the top ten of the Data Mining algorithms because of it is simplicity, efficiency, and To handle classification on numerical data, the Gaussian distribution and kernel approach can be applied to NB (GNB and KNB). However, in the process of NB classifying, attributes are considered independent, even though the assumption is not always right in many cases. Absolute Correlation Coefficient can determine correlations between attributes and work on numerical attributes, so that it can be applied for attribute weighting to GNB (ACW-NB). Furthermore, because performance of NB does not increase in large datasets, so ACW-NB can be a classifier in the local learning model, where other classification methods, such as K-Nearest Neighbor (K-NN) which are very well known in local learning can be used to obtain sub-dataset in the ACW-NB training. To reduction of noise/bias, then missing value replacement and data normalization can also be applied. This proposed method is termed "LL-KNN ACW-NB (Local Learning K-Nearest Neighbor in Absolute Correlation Weighted Nayve Baye. ," with the objective to improve the performance of NB (GNB and KNB) in handling classification on numerical data. The results of this study indicate that the LL-KNN ACW-NB is able to improve the performance of NB, with an average accuracy of 91,48%, 1,92% better than GNB and 2,86% better than KNB. Keywords: nayve bayes, k-nearest neighbor, absolute correlation coefficient, local learning, attribute weighting Abstrak Algoritma Nayve Bayes (NB) masih dalam daftar 10 besar algoritma Data Mining karena kesederhanaan, efisiensi, dan Dalam menangani klasifikasi pada data numerik, distribusi Gaussian dan pendekatan kernel dapat diterapkan pada NB (GNB dan KNB). Namun dalam proses klasifikasi NB, atribut-atribut dianggap independen, sedangkan asumsi tersebut tidak selalu tepat pada banyak kasus. Absolute Correlation Coefficient dapat menentukan korelasi antar atribut dan bekerja pada atribut numerik, sehingga dapat diterapkan untuk attribute weighting pada GNB (ACW-NB). Selain itu, karena kinerja NB tidak meningkat dalam dataset yang besar, maka ACW-NB dapat menjadi pengklasifikasi dalam model local learning, yang mana metode klasifikasi lainnya, yaitu K-Nearest Neighbor (K-NN) yang memang terkenal sangat baik dalam local learning dapat digunakan untuk memperoleh sub-dataset pelatihan ACW-NB. Untuk mereduksi noise/bias, maka missing value replacement dan data normalization diterapkan pula. Metode yang diusulkan ini diistilahkan dengan AuLL-KNN ACW-NB (Local Learning K-Nearest Neighbor in Absolute Correlation Weighted Nayve Baye. ,Ay dengan tujuan untuk meningkatkan kinerja NB (GNB dan KNB) dalam menangani klasifikasi pada data numerik. Hasil penelitian menunjukkan bahwa LL-KNN ACW-NB mampu meningkatkan kinerja NB, yaitu dengan akurasi rata-rata sebesar 91,48%, lebih baik 1,92% daripada GNB dan lebih baik 2,86% daripada KNB. Kata kunci: nayve bayes, k-nearest neighbor, absolute correlation coefficient, local learning, attribute weighting A 2020 Jurnal RESTI untuk dataset yang besar. Agar dapat bekerja pada data numerik, pendekatan distribusi Gaussian dapat Alagaritma Nayve Bayes (NB) masih terus berada diterapkan pada NB untuk menghitung probabilitas dari dalam daftar 10 besar algoritma Data Mining karena atribut numerik, dinamakan Gaussian Naive Bayes kesederhanaan, efisiensi, dan kinerjanya . Standar (GNB) . Pendekatan kernel dapat pula diterapkan NB bekerja pada data nominal, menggunakan pada NB (KNB) untuk menangani klasifikasi pada data pendekatan distribusi probabilitas, dan sangat baik Namun KNB dapat menyebabkan terjadinya Diterima Redaksi : 24-10-2020 | Selesai Revisi : 08-01-2020 | Diterbitkan Online : 01-02-2020 Pendahuluan Azminuddin I. Azis. Budy Santoso. Serwin Jurnal RESTI (Rekayasa Sistem dan Teknologi Informas. Vol . 4 No. 28 Ae 36 curse of dimensionality dan kompleksitas komputasinya coefficient untuk meningkatkan kinerja Weighted Nayve jauh lebih besar daripada GNB, karena pendekatan Bayes . Begitupun Asmono. Wahono dan Syukur, kernel melakukan transformasi data ke dimensi yang mirip seperti penelitian yang dilakukan oleh Furey, lebih tinggi . eature spac. Dengan demikian GNB namun nilai absolute dari coefficient dalam penelitian menjadi pilihan yang lebih efisien untuk menangani yang dilakukan Golub digunakan untuk attribute klasifikasi pada data numerik. weighting pada GNB dalam menangani prediksi cacat software . Dengan demikian penerapan ACC untuk Dalam proses klasifikasi NB, atribut-atribut dianggap attribute weighting pada GNB (ACW-NB) telah tidak saling terkait . , setiap atribut terbukti mampu meningkatkan kinerja GNB. dianggap sama pentingnya, padahal asumsi tersebut tidak selalu tepat dalam banyak kasus . Dalam Sementara itu, karena dependensi . mengatasi masalah tersebut, pendekatan structure atribut dalam sub-dataset pelatihan tentu lebih lemah extension, feature selection, ataupun attribute daripada di seluruh dataset pelatihan . dan karena weighting pada NB terbukti mampu meningkatkan kinerja NB tidak meningkat dalam dataset yang besar kinerja NB. Secara rinci ditunjukkan pada Tabel 1. , maka ACW-NB dapat menjadi pengklasifikasi dalam model Local Learning (LL). Dalam LL, metode Tabel 1. Pengembangan Algoritma Nayve Bayes klasifikasi lainnya dapat digunakan untuk memperoleh Year, 1st Author Proposed Method Categories Ref sub-dataset pelatihan . itunjukkan pada Tabel . Langley Greedy Bayesian 1997. Friedman TAN Kohavi WrappersAeNB Nurnberger ANFISAeNB Zhang ANB Ratanamahatana DTAeNB Zhang WNBAeG-HC Jiang Evolutional NB Webb AODEAeNB Hall DTAeCFSAeWNB Deng RSAeWNB Zhang Cloning NB Jiang Hidden NB DEAAeWNB Lin PSOAeWNB Taheri Adaptive WNB AISAeWNB Muktamar CNBC Asmono ACAeWNB Zhang GR & DTAeWNB Jiang DFAeWNB Song Multinomial NB Zhu NBAeDTAeJ48 Sun LPNB TAN CAVW Feature Selection . mengusulkan metode NBTree dengan Structure Extension . Kohavi Feature Selection . menggunakan Decision Tree (DT) sebagai LL . Structure Extension . Sementara Xie et al. , mengusulkan metode Selective Structure Extension . Neighborhood Based Naive Bayes (SNNB) dengan Feature Selection . menggunakan K-Nearest Neighbor (K-NN) sebagai LL Attribute Weighting . Begitupun Frank, mengusulkan metode Local Feature Selection . Weighted Naive Bayes (LWNB) dengan menggunakan Structure Extension . K-NN sebagai LL . Attribute Weighting . ACW-NB bekerja pada data numerik, begitupun Attribute Weighting . standar K-NN, sedangkan DT membutuhkan Data Expansion Dengan demikian K-NN lebih tepat Structure Extension . digunakan daripada DT untuk LL pada ACW-NB. Attribute Weighting . Selain itu. K-NN merupakan algoritma yang terkenal Attribute Weighting . sangat baik dalam LL . Attribute Weighting . Tabel 2. Pendekatan Local Learning pada Nayve Bayes Attribute Weighting . Attribute Weighting . Year, 1st Author Method Classifiers Ref Attribute Weighting . Kohavi NBTree Nayve Bayes Decision Tree . Feature Selection . Zheng LBR Ae NB LBR Nayve Bayes . Attribute Weighting . Xie SNNB Nayve Bayes k-NN Attribute Weighting . Frank LWNB Nayve Bayes k-NN Attribute Weighting . Safri NB Ae k-NN k-NN Nayve Bayes . Structure Extension . Structure Extension . Walaupun NB cukup kuat dalam menangani missing Attribute Weighting . value dan noisy data, namun tentu saja lebih efisien apabila masalah missing value dan noisy data dapat Akhir-akhir ini, umumnya pendekatan yang diterapkan ditangani sebelum NB bekerja. Dengan begitu untuk mengatasi masalah independensi atribut pada NB noise/bias dapat direduksi, sehingga efisiensi dan adalah attribute weighting . itunjukkan pada Tabel . kinerja NB dapat meningkat. Metode Absolute Correlation Coefficient (ACC) bekerja pada atribut numerik dan dapat menentukan Adanya missing value dapat menurunkan efisiensi dan kekuatan hubungan antar atribut, sehingga dapat akurasi model klasifikasi . Namun membuangnya digunakan untuk attribute weighting pada NB. bisa jadi menghilangkan informasi yang penting. Pendekatan ini dinamakan Absolute Correlation Ae sehingga mengakibatkan bias. Pendekatan imputasi merupakan strategi yang efisien untuk menangani Weighted Nayve Bayes (ACW-NB) . masalah tersebut, umumnya dengan melakukan Missing Furey, et al. , menggunakan nilai absolute dari Value Replacement (MVR) menggunakan pendekatan coefficient dalam penelitian yang dilakukan Golub . mean/mode . , . sebagai metode untuk feature selection pada Support Vector Machine dalam menangani klasifikasi kanker Sementara adanya outlier dapat menyebabkan noise . Sedangkan Zhang, menggunakan correlation . , berdampak buruk pula terhadap kinerja suatu Jurnal RESTI (Rekayasa Sistem dan Teknologi Informas. Vol . 4 No. 28 Ae 36 Azminuddin I. Azis. Budy Santoso. Serwin Jurnal RESTI (Rekayasa Sistem dan Teknologi Informas. Vol . 4 No. 28 Ae 36 model klasifikasi . Outlier sebaiknya dibuang Dipandang dari perlakukan terhadap data, penelitian ini dengan cara mendeteksinya lebih dahulu, misalnya merupakan penelitian konfirmatori. Machine Learning dengan model prediksi. Namun cara lain yang klasik dan klasifikasi dalam Data Mining merupakan subjek dan umum diterapkan untuk mereduksi noise yaitu penelitian ini. Sedangkan objek penelitian ini adalah dengan melakukan Data Normalization (DN) algoritma NB. Penelitian ini dilaksanakan selama satu menggunakan pendekatan Min-Max Normalization tahun lebih, dari Juli 2018 hingga Oktober 2019. Oleh karena itu, penerapan MVR dan DN dapat Secara keseluruhan, metode yang diusulkan diterapkan dalam tahap pra pengolahan data. ditunjukkan pada Gambar 1. Dimulai dari pengumpulan Berdasarkan berbagai latar belakang yang telah dataset, jika terdapat missing value pada dataset, maka dikemukakan, penelitian ini bertujuan untuk dilakukan MVR. Selanjutnya data dinormalisasikan meningkatkan kinerja NB (GNB dan KNB) dalam menggunakan Min-Max Normalization. Selanjutnya menangani klasifikasi pada data numerik melalui validasi data menggunakan teknik Holdout, dengan penerapan algoritma K-NN untuk LL, algoritma ACC komposisi 80% data latih dan 20% data uji. Selanjutnya untuk attribute weighting, pendekatan mean/mode K-NN bertugas membuat sub-dataset LL yang nantinya untuk MVR, dan metode Min-Max Normalization akan digunakan ACW-NB dalam pelatihannya. K-NN untuk DN. Metode yang diusulkan ini kami istilahkan melakukan pelatihan menggunakan data latih dari K = AyLL-KNN ACW-NB (Local Learning K-Nearest 0. 1*n hingga n-1, di mana n adalah banyaknya data. Neighbor in Absolute Correlation Ae Weighted Nayve Setiap iterasi K. K-NN dievaluasi menggunakan data Baye. Ay Data dalam K yang memiliki akurasi terbaik yang merupakan sub-dataset LL. Selanjutnya ACC Metode yang diusulkan tersebut diaplikasikan pada 11 melakukan attribute weighting pada GNB dalam berbeda-beda pelatihannya menggunakan sub-dataset LL. Langkah . itunjukkan pada Tabel . Hal ini agar metode yang terakhir adalah mengevaluasi metode yang diusulkan diusulkan ini dapat teruji dengan baik. Seluruh dataset ini menggunakan teknik Confusion Matrix. tersebut dikumpulkan dari UCI Machine Learning Repository. Tabel 3. Karakteristik Dataset Code Dataset Cleveland Ins. Statlog Horze Colic Hepatitis Labor Hypothyroid Newthyroid BCW Original BCW Diagnostic D10 BCW Prognostic D11 Vehicle Att. MV Classes Type 6 0 54,13% int, real, 1 18,15% bit, ord. 2 11,88% 3 11,55% 4 4,29% 0 1 55,56% int, real, 2 44,44% bit, ord. 28 1927 1 33,70% int, real, 2 66,30% bit, ord. 20 157 1 20,65% int, real, 2 79,35% bit. 17 326 1 64,91% int, real, 2 35,09% bit, ord. 26 5329 1 4,77% int, real, 2 95,23% bit. 0 1 69,77% int, real. 2 16,28% 3 13,95% 16 1 65,50% int. 2 34,50% 0 1 62,74% real. 2 37,26% 4 1 23,74% int, real. 2 76,26% 0 1 25,77% int. 2 25,06% 3 25,65% 4 23,52% Gambar 1. Metode yang Diusulkan Metode yang diusulkan ini (LL-KNN ACW-NB) dikomparasi kinerjanya dengan beberapa metode lainnya yang diuji coba pula dalam penelitian ini . itunjukkan pada Tabel . Metode Penelitian 1 Missing Value Replacement Penelitian ini merupakan penelitian eksperimental. Pendekatan yang digunakan untuk menangani MVR Tools yang digunakan dalam melakukan eksperimen yaitu mean/mode. Missing value dari atribut bertipe yaitu Matlab. Dipandang dari jenis informasi yang numerik diganti dengan nilai mean . Sedangkan diolah, penelitian ini merupakan penelitian kuantitatif. Jurnal RESTI (Rekayasa Sistem dan Teknologi Informas. Vol . 4 No. 28 Ae 36 Azminuddin I. Azis. Budy Santoso. Serwin Jurnal RESTI (Rekayasa Sistem dan Teknologi Informas. Vol . 4 No. 28 Ae 36 missing value dari atribut bertipe kategorikal . ominal, binominal, ordina. diganti dengan nilai mode. Tabel 4. Metode yang Diuji Coba Kode Metode GNB (Gausian Nayve Bayes without MVR & DN) KNB (Kernel Nayve Bayes without MVR & DN) GNB (Gausian Nayve Baye. K-NN (K-Nearest Neighbo. ACW-NB (Absolute Correlation Ae Weighted GNB) LL-KNN (Local Learning K-NN) LL-KNN-NB (Local Learning K-NN Ae GNB) LL-KNN ACW-NB (Proposed Metho. Oc Oc( ) ) 5 Absolute Correlation Coefficient Absolute Correlation Coefficient (ACC) . dapat menentukan kekuatan antar atribut dan bekerja pada atribut bertipe numerik. Metode ini menggunakan nilai AA . dan E . Dasarnya adalah Correlation Coefficient . yang dapat menentukan kekuatan hubungan antara dua variabel numerik . Oc( I)( Oc( I) Oc( 2 Data Normalization . I) I) . Pendekatan yang digunakan untuk menangani DN yaitu Notasi I menyatakan nilai mean . dari x, sedangkan I Min-Max Normalization . yang didefenisikan sebagai adalah nilai mean . dari y. Beberapa penelitian telah menggunakan dan . mengembangkan Correlation Coefficient tersebut. Guyon et al. , mengusulkan metode weighting . Notasi xi menyatakan data ke-i dari atribut x, xmin dengan menggunakan koefisien . dari penelitian yang menyatakan nilai minimum dari atribut x, xmax dilakukan Golub . , didefinisikan sebagai berikut. menyatakan nilai maksimum dari atribut x, nmin ( )) ( ( ) menyatakan jangkauan minimum ke nmax menyatakan ( ( ) ( )) jangkauan maksimum untuk hasil normalisasi data. Notasi menyatakan mean . dan 3 Data Validation standard deviation . dari atribut ke-j untuk class ( ) Teknik yang digunakan untuk validasi data yaitu dan class (A. masing-masing. wj dengan nilai positif Holdout dengan komposisi 80% data latih dan 20% yang besar menunjukkan kekuatan hubungan yang kuat dengan class ( ), sebaliknya wj dengan nilai negatif data uji. yang besar menunjukkan kekuatan hubungan yang kuat 4 Gaussian Nayve Bayes dengan class (A. Hasil keputusan klasifikasi metode NB didefinisikan Zhang, meningkatkan kinerja Weighted Nayve Bayes pada Persamaan . berikut ini. menggunakan Correlation Coefficient pula . Sementara Pavlidis, et al. , mengusulkan associated ( )Oa ( . yang didefinisikan sebagai berikut . ( ( ) ( )) Notasi yAo menyatakan label class hasil keputusan . ( ) ) klasifikasi suatu data uji/prediksi. menyatakan probabilitas label class . k, k = 1, 2. A, . , yang mana j Furey, et al. , menggunakan nilai absolute dari wi . adalah banyaknya label class. menyatakan sebagai metode untuk feature selection pada Support probabilitas atribut . i, i = 1, 2. A, . pada label class Vector Machine dalam menangani klasifikasi kanker . , yang mana m adalah banyaknya atribut. Begitupun Asmono. Wahono & Syukur. Untuk menangani data numerik, maka distribusi menggunakan nilai absolute dari wi . sebagai metode Gaussian dapat diterapkan, didefenisikan pada attribute weighting pada Nayve Bayes dalam menangani prediksi cacat software . Metode weighting tersebut Persamaan . berikut ini. kemudian dinamakan Absolute Correlation Coefficient . , didefinisikan sebagai berikut. Notasi AA menyatakan nilai mean yang didefinisikan I) pada Persamaan . , sedangkan notasi E adalah nilai standard deviation yang didefinisikan pada Persamaan Notasi wj menyatakan weight dari atribut ke-j, . dari distribusi Gaussian kemudian dapat menyatakan nilai mean . dari atribut ke-j pada class diterapkan pada Persamaan NB . , yang mana c. I menyatakan nilai mean . dari atribut ke-j pada penentuan P. sama seperti standar NB. class non c. menyatakan nilai standard deviation . dari atribut ke-j pada class c. I menyatakan Jurnal RESTI (Rekayasa Sistem dan Teknologi Informas. Vol . 4 No. 28 Ae 36 Azminuddin I. Azis. Budy Santoso. Serwin Jurnal RESTI (Rekayasa Sistem dan Teknologi Informas. Vol . 4 No. 28 Ae 36 nilai standard deviation . dari atribut ke-j pada class non c. Oc ( . 6 Absolute Correlation Weighted Nayve Bayes Notasi yAo menyatakan label class hasil keputusan Attribute weighting untuk NB disebut Weighted Naive klasifikasi suatu data uji/prediksi. v menyatakan jumlah Bayes (WNB), sehingga Persamaan NB . dapat data yang masuk dalam class . c, c = 1, 2. A, . , yang mana p menyatakan banyaknya class. Sedangkan diubah menjadi persamaan . berikut ini. Ao,x. merupakan jarak antara data prediksi/uji . ke ( )Oa ( . setiap data latih (L. yang disimpan dalam D dapat dihitung menggunakan salah satu metode pengukuran . Nilai wi . pada Persamaan . di atas dapat jarak Euclidean Persamaan . mengunakan pendekatan ACC . , sehingga menjadi Absolute Correlation Weighted Nayve Bayes (ACWNB) . Metode ACW-NB mampu bekerja pada atribut numerik, dapat menentukan kekuatan hubungan ) An . An oc( antar atribut, dan terbukti secara signifikan mampu meningkatkan kinerja NB . Sedangkan K-NN terkenal sangat baik dalam LL . (LL-KNN) dan Prosedur LL yang kami gunakan berdasarkan penelitian terbukti pula mampu meningkatkan kinerja NB . , yang telah dilakukan oleh Xie et al. , . K-NN Dengan demikian, kombinasi keduanya akan lebih bertugas membuat sub-dataset LL yang nantinya akan meningkatkan lagi kinerja NB. Secara rinci, algoritma digunakan ACW-NB dalam pelatihannya. K-NN melakukan pelatihan menggunakan data latih dari k = ACW-NB adalah sebagai berikut: 1*n hingga n-1, di mana n adalah banyaknya data. Hitung P. , yaitu probabilitas setiap atribut . Setiap iterasi K. K-NN dievaluasi menggunakan data pada setiap label class . menggunakan distribusi uji. Data dalam K yang memiliki akurasi terbaik yang Gaussian . merupakan sub-dataset LL. Selanjutnya ACW-NB Hitung Lk, yaitu weight likelihood setiap label class melakukan pelatihan dan klasifikasi menggunakan submenggunakan Persamaan . berikut ini, yang dataset LL tersebut. mana wi diperoleh menggunakan metode ACC . 8 Method Evaluation Oa ( . Pengukuran kinerja suatu model klasifikasi dapat dilakukan menggunakan pendekatan Confussion Matrix Hitung P. , yaitu probabilitas setiap label class untuk memperoleh accuracy, precision, recall . menggunakan Persamaan . berikut ini, yang . ensitivity dan specificit. , dan F-Measure yang mana Lk menyatakan weight likelihood label class ditunjukkan pada Tabel 5 berikut ini. ke-k, sedangkan I menyatakan weight likelihood Tabel 5. Confusion Matrix label class lainnya. inilah yang mengganti Actual Actual Precision P. standar NB. ( ) Predicted Predicted - TP/(TP FP) * TN/(TN FN) TP/(TP FN) TN/(TN FP) F-Measure . *Precision*Sensitivit. /(Precision Sensitivit. Accuracy (TP TN) / (TP TN FN FP) Keterangan: True (T). False (F). Positive (P). Negative (N) . Recall Akhirnya P. yang diperoleh dari distribusi Gaussian . roses/langkah . dan P. yang diperoleh dari proses/langkah 3 dapat diterapkan pada Persamaan NB . Hasil dan Pembahasan 7 Local Learning K-NN Pada tahap MVR, missing value diganti nilainya dengan nilai mode dari atribut yang bertipe ordinal atau Ide dasar dari LL adalah membangun model klasifikasi Sedangkan atribut yang bertipe numerik dari sub-dataset pelatihan saja . ocal learnin. nteger dan rea. , missing value diganti dengan nilai menggunakan seluruh dataset pelatihan . DT . dari atribut tersebut. Pada atribut bertipe dan K-NN . , . merupakan algoritma yang dapat integer, nilai mean yang diperoleh kemudian dibulatkan digunakan untuk LL. ACW-NB bekerja pada atribut sebagai hasil normalisasi data. Sedangkan pada atribut numerik, sehingga K-NN yang lebih tepat untuk LL bertipe real, nilai mean yang diperoleh tidak perlu dari pada DT yang membutuhkan diskretisasi dalam dibulatkan sebagai hasil normalisasi data. mengolah atribut numerik. Selanjutnya pada tahap DN menggunakan teknik MinHasil keputusan klasifikasi metode K-NN didefinisikan Max Normalization . dalam jangkauan . , . pada Persamaan . berikut ini. Misalnya data ke-1 dari atribut x . = 7, data Jurnal RESTI (Rekayasa Sistem dan Teknologi Informas. Vol . 4 No. 28 Ae 36 Azminuddin I. Azis. Budy Santoso. Serwin Jurnal RESTI (Rekayasa Sistem dan Teknologi Informas. Vol . 4 No. 28 Ae 36 maksimum dari atribut x = 10, dan data minimum dari NB yang sebesar 94,69%. Dataset D9 memilki dimensi atribut x = 0, maka hasil normalisasi data ke-1 dari yang cukup besar . atribut dengan 569 instance. , atribut x . Ao. adalah sebagai berikut. memilki masalah unbalanced class, tidak ada missing value, dan semua atribut bertipe numerik. Tabel 6. Hasil Evaluasi Setelah MVR dan DN dilakukan, prosedur terakhir DS Method Accuracy Precision Specificity Sensitivity Times dalam pra pengolahan data adalah data validation D1 M1 85,96 % 93,55 % 82,86 % 90,91 % 0,34 82,46 % 90,32 % 80,00 % 86,36 % 0,51 menggunakan teknik HoldOut dengan komposisi data 86,44 % 93,75 % 83,33 % 91,30 % 0,06 latih sebesar 80% dan data uji sebesar 20%. Setelah pra pengolahan data, langkah selanjutnya adalah melakukan pemodelan melalui pelatihan dan pengujian terhadap metode-metode yang diuji coba . da 8 metode yang diuji coba yang ditunjukkan pada D2 M1 Tabel . Berdasakan hasil beberapa percobaan yang telah dilakukan. GNB yang memang hanya untuk menangani data numerik bahkan kurang baik untuk data ordinal yang telah di transformasi dengan teknik Sementara itu, unbalanced class jadi masalah serius yang bahkan bisa menyebabkan error jika probabilitas Gaussian suatu atribut pada suatu class tidak diperoleh. Masalah ini sebenarnya bisa diselesaikan oleh KNB atau bisa pula dengan pendekatan ensemble untuk mereduksi unbalanced Namun penelitian ini hanya fokus pada pengembangan GNB. Selain itu, kompleksitas komputasi KNB yang relatif besar tidak efisien D8 M1 dibandingkan GNB. Contohnya pada dataset yang memiliki class 1 yang jauh lebih besar daripada class 2 dan lebih parah lagi dengan missing value yang begitu banyak. Hal ini menyebabkan data tidak terdistribusi dengan baik. Misalnya saja pada atribut A class 1 hanya memiliki D9 M1 data = 2, selebihnya adalah missing value, padahal atribut A merupakan data ordinal dengan nilai 1, 2, atau Missing value pada atribut A tidak boleh diganti dengan nilai mean karena bersifat ordinal. Tapi jika missing value diganti dengan nilai mode pada atribut A, maka missing value diganti menjadi nilai 2. Dengan demikian, class 1 pada atribut A hanya memiliki nilai = D10 M1 2, sehingga GNB tidak dapat menanganinya. Kasus seperti ini terjadi pada beberapa dataset, yaitu D3. D4. D5. D6, dan D11 yang tidak bisa ditangani GNB. Dengan demikian, dataset yang digunakan tinggal berjumlah enam, yaitu D1. D2. D7. D8. D9, dan D10. Secara rinci, kinerja accuracy, precision. Avg M1 specificity, sensitivity, dan lama proses . tiap-tiap metode yang diuji coba pada setiap dataset tersebut ditunjukkan pada Tabel 6. 83,05 % 86,44 % 84,75 % 86,44 % 86,44 % 92,59 % 90,74 % 92,59 % 90,74 % 94,44 % 92,59 % 92,59 % 94,44 % 97,67 % 97,67 % 69,77 % 93,02 % 97,67 % 95,56 % 96,30 % 95,68 % 93,53 % 95,68 % 93,53 % 96,40 % 96,40 % 93,81 % 95,58 % 93,81 % 96,46 % 94,69 % 95,58 % 93,81 % 94,69 % 71,79 % 66,67 % 71,79 % 76,92 % 76,92 % 76,92 % 71,79 % 76,92 % 89,56 % 88,62 % 89,67 % 85,08 % 91,36 % 89,40 % 89,79 % 91,48 % 93,75 % 93,75 % 93,75 % 93,75 % 93,33 % 93,33 % 93,33 % 93,33 % 93,33 % 96,67 % 93,33 % 93,33 % 95,45 % 97,73 % 95,60 % 97,80 % 95,60 % 98,90 % 97,80 % 97,80 % 92,96 % 94,37 % 92,96 % 98,59 % 92,96 % 97,18 % 92,96 % 92,96 % 33,33 % 44,44 % 33,33 % 0,00 % 66,67 % 0,00 % 33,33 % 66,67 % 84,77 % 86,70 % 84,83 % 80,58 % 90,39 % 82,13 % 85,20 % 90,75 % 78,95 % 83,33 % 78,05 % 83,33 % 83,33 % 93,33 % 90,32 % 93,33 % 90,32 % 96,55 % 90,63 % 93,33 % 96,55 % 96,77 % 96,77 % 81,08 % 90,91 % 96,77 % 97,67 % 96,63 % 97,75 % 92,71 % 97,75 % 91,84 % 96,74 % 96,74 % 97,06 % 98,53 % 97,06 % 95,89 % 98,51 % 95,83 % 97,06 % 98,51 % 37,50 % 33,33 % 37,50 % NaN 50,00 % NaN 37,50 % 50,00 % 84,20 % 83,14 % 84,29 % 87,79 % 87,69 % 89,45 % 84,12 % 87,52 % 90,48 % 91,30 % 91,30 % 91,30 % 91,67 % 91,30 % 91,67 % 91,30 % 92,00 % 95,45 % 91,67 % 92,00 % NaN 91,84 % 95,65 % 92,00 % 95,35 % 92,00 % 97,56 % 95,74 % 95,74 % 88,89 % 91,11 % 88,89 % 97,50 % 89,13 % 95,12 % 88,89 % 89,13 % 80,65 % 81,48 % 80,65 % 76,92 % 88,89 % 76,92 % 80,65 % 88,89 % 90,66 % 90,99 % 90,75 % 90,31 % 92,22 % 94,18 % 91,37 % 92,84 % 0,21 0,19 6,67 6,70 6,79 0,36 0,61 0,08 0,21 0,21 5,07 5,10 5,18 0,33 0,47 0,09 0,14 0,20 2,37 2,40 2,46 0,34 0,60 0,06 0,14 0,34 47,26 47,30 47,45 0,55 1,21 0,09 0,30 0,43 21,39 21,42 21,65 0,28 0,76 0,06 0,16 0,16 7,34 7,36 7,43 0,37 0,69 0,07 0,19 0,25 15,02 15,05 15,16 Hasil evaluasi menunjukkan bahwa akurasi rata-rata yang terbaik dari seluruh dataset diberikan oleh metode M8 (LL-KNN ACW-NB) atau metode yang diusulkan, yaitu sebesar 91,48%. Pada setiap dataset. LL-KNN Walaupun M4 (K-NN) memberikan akurasi terbaik ACW-NB memberikan akurasi yang paling tinggi, pada dataset D9, namun secara rata-rata dari seluruh kecuali pada dataset D9, yaitu M4 (K-NN) dengan dataset. M4 (K-NN) memberikan akurasi terburuk, akurasi 96,46%, selisih 1,77% dengan LL-KNN ACW- yaitu sebesar 85,08%, disusul metode M2 (KNB) sebesar 88,62%. Sedangkan akurasi 100% diberikan Jurnal RESTI (Rekayasa Sistem dan Teknologi Informas. Vol . 4 No. 28 Ae 36 Azminuddin I. Azis. Budy Santoso. Serwin Jurnal RESTI (Rekayasa Sistem dan Teknologi Informas. Vol . 4 No. 28 Ae 36 oleh metode LL-KNN ACW-NB. M5 (ACW-NB), dan lama proses rata-rata sebesar 0,25 detik, masih lebih M2 (KNB) pada dataset D7 yang memilki dimensi baik 0,11 detik daripada metode M1 (GNB tanpa MVR kecil . atribut dengan 215 instance. , memilki dan DN). masalah unbalanced class, tidak ada missing value, dan 8,00 semua atribut bertipe numerik. Secara keseluruhan, 6,00 akurasi rata-rata dari tiap-tiap metode ditunjukkan pada Gambar 2. 4,00 2,00 100,00 0,00 97,50 -2,00 -4,00 95,00 -6,00 M2 -0,94 92,50 90,00 87,50 85,00 82,50 M3 0,10 1,04 M4 -4,49 -3,54 -4,59 M5 1,80 2,74 1,70 6,29 M6 -0,17 0,78 -0,27 4,32 -1,97 M7 0,22 1,16 0,12 4,71 -1,58 0,39 M8 1,92 2,86 1,82 6,41 0,12 2,09 1,70 80,00 Gambar 3. Komparasi Kinerja Antar Metode (Selisih Akuras. 77,50 M1 M2 M3 M4 M5 M6 M7 M8 Acc 89,56 88,62 89,67 85,08 91,36 89,40 89,79 91,48 Sayangnya ketika pendekatan LL-KNN diterapkan, yaitu pada metode M6, waktu proses rata-rata yang dibutuhkan meningkat secara signifikan, yaitu sebesar Gambar 2. Akurasi Rata-Rata Setiap Metode 15,02 detik, lebih buruk 14,65 detik daripada metode Hasil evaluasi menunjukkan pula bahwa penerapan M1 (GNB tanpa MVR dan DN), 14,94 detik daripada MVR dan DN memberikan peningkatan kinerja GNB. M3 (GNB), dan 14,76 detik daripada M5 (ACW-NB). Hal ini dapat ditunjukkan melalui akurasi rata-rata yang Dengan begitu waktu proses metode-metode diperoleh metode M3 (GNB) sebesar 89,67%, lebih selanjutnya, yaitu metode M7 (LL-KNN-NB) dan baik 0,10% daripada M1 (GNB tanpa MVR dan DN). metode M8 (LL-KNN ACW-NB) tentu saja akan lebih Selisihnya lebih meningkat lagi ketika ACC diterapkan Secara keseluruhan, waktu proses rata-rata tiappada GNB (ACW-NB) dan terus meningkat hingga tiap metode ditunjukkan pada Gambar 4 berikut ini. diterapkannya LL pada metode M8 (LL-KNN ACWNB), hingga selisih 1,92% dengan M1 (GNB tanpa 17,50 MVR dan DN) dan 1,82% dengan metode M3 (GNB). 15,00 Sedangkan penerapan K-NN untuk LL, yaitu pada metode M6 (LL-KNN) menunjukkan pula akurasi yang lebih baik 4,32% daripada metode M4 (K-NN). Selanjutnya lebih baik lagi ketika LL-KNN diterapkan pada GNB, yaitu pada metode M7 (LL-KNN-NB), selisih 4,71% dengan metode M4 (K-NN), 0,12% dengan metode M3 (GNB), dan 0,22% dengan metode M1 (GNB tanpa MVR dan DN). Secara lengkap, komparasi antar metode-metode ditunjukkan pada Gambar 3. 12,50 10,00 7,50 5,00 2,50 0,00 M1 M2 M3 M4 M5 M6 M7 M8 Times 0,37 0,69 0,07 0,19 0,25 15,0215,0515,16 Gambar 4. Waktu Proses Rata-Rata Setiap Metode Namun kinerja akurasi biasanya berlawanan dengan Seperti yang telah dijelaskan sebelumnya, metode M8 kinerja kompleksitas komputasi. Hal ini dapat (LL-KNN ACW-NB) sebagai metode yang diusulkan, ditunjukkan melalui waktu . alam satuan deti. yang menunjukkan kinerja yang lebih baik dari pada metodedibutuhkan suatu metode dalam melakukan prosesnya. metode lainnya. Secara rinci, kinerja LL-KNN ACWPenerapan MVR dan DN memang justru menurunkan NB ditunjukkan pada Gambar 5. waktu proses, ditunjukkan pada lama proses rata-rata Hasil penelitian ini mengindikasikan bahwa: metode M3 (GNB) sebesar 0,07 detik, lebih baik 0,29 detik daripada metode M1 (GNB tanpa MVR dan DN) 1. Penerapan pendekatan mean/mode untuk Missing Value Replacement (MVR) dan Min-Max yang lama proses rata-ratanya sebesar 0,37 detik. Normalization untuk Data Normalization (DN) Bahkan masih tetap lebih baik ketika ACC diterapkan pada Gaussian Naive Bayes (GNB MVR & DN) pada GNB, yaitu pada metode M5 (ACW-NB) dengan Jurnal RESTI (Rekayasa Sistem dan Teknologi Informas. Vol . 4 No. 28 Ae 36 Azminuddin I. Azis. Budy Santoso. Serwin Jurnal RESTI (Rekayasa Sistem dan Teknologi Informas. Vol . 4 No. 28 Ae 36 menunjukkan akurasi sebesar 89,67%, lebih baik 0,10% dari pada GNB tanpa MVR & DN, dan lebih baik 1,04% daripada Kernel Naive Bayes (KNB). Begitupun waktu proses yang dibutuhkan menurun setelah MVR & DN diterapkan, yaitu selisih 0,29 Dengan demikian penerapan MVR & DN mampu meningkatkan kinerja akurasi dan efisiensi NB (GNB dan KNB). 100,00 95,00 90,00 85,00 80,00 75,00 70,00 65,00 60,00 55,00 KNN-NB dan ACW-NB dapat disatukan untuk lebih meningkatkan kinerja akurasi NB (GNB dan KNB). Hasilnya, akurasi rata-rata LL-KNN ACWNB sebesar 91,48%, lebih baik 1,82% daripada GNB MVR & DN, lebih baik 1,92% daripada GNB, dan lebih baik 2,86% daripada KNB. Dengan demikian penerapan pendekatan mean/mode untuk MVR. Min-Max Normalization untuk DN. K-NN untuk local learning, dan ACC untuk attribute weighting pada GNB mampu meningkatkan kinerja akurasi NB (GNB dan KNB). Kompleksitas komputasi . aktu prose. yang dibutuhkan sangat tinggi ketika pendekatan local learning menggunakan K-NN diterapkan, selisih 14,90 detik antara LL-KNN ACW-NB dengan ACW-NB. Hal ini karena LL-KNN ACW-NB memiliki sub proses . sebanyak 0,1*n hingga n-1 . adalah jumlah instance. dalam menentukan data latih untuk ACW-NB berdasarkan akurasi disetiap sub prosesnya. Kesimpulan 50,00 Berdasarkan indikasi-indikasi dari hasil penelitian, maka disimpulkan bahwa penerapan pendekatan mean/mode untuk missing value replacement. Min-Max Normalization untuk data normalization. K-Nearest Neighbor untuk local learning, dan Absolute Correlation Coefficient untuk attribute weighting pada Gaussian Nayve Bayes yang dinamakan LL-KNN ACW-NB (Local Learning K-Nearest Neighbor in Gambar 5. Kinerja LL-KNN ACW-NB Absolute Correlation Weighted Nayve Baye. mampu Akurasi rata-rata Absolute Correlation Weighted meningkatkan kinerja Nayve Bayes (Gaussian Nayve Naive Bayes (ACW-NB) sebesar 91,36%, lebih baik Bayes dan Kernel Nayve Baye. , yaitu dengan akurasi 1,70% daripada GNB MVR & DN, dan lebih baik rata-rata sebesar 91,48%, lebih baik 1,92% daripada 2,74% daripada KNB. Dengan demikian penerapan Gaussian Nayve Bayes dan lebih baik 2,86% daripada Absolute Correlation Coefficient (ACC) untuk Kernel Nayve Bayes. attribute weighting pada GNB MVR & DN mampu meningkatkan kinerja akurasi NB (GNB Namun kompleksitas komputasi waktu proses yang dibutuhkan untuk menerapkan local learning dan KNB). Akurasi rata-rata Local Learning K-Nearest menggunakan K-NN (LL-KNN) sangat tinggi Neighbor (LL-KNN) sebesar 89,40%, lebih baik dibandingkan tidak menerapkannya, selisih 14,90 detik 4,32% daripada K-NN. Dengan begitu LL-KNN antara LL-KNN ACW-NB dengan ACW-NB. dapat pula diterapkan pada GNB MVR & DN. Sementara selisih akurasi rata-rata antara LL-KNN Hasilnya, akurasi rata-rata LL-KNN-NB sebesar ACW-NB dengan ACW-NB tidak berbeda jauh, hanya 89,79%, lebih baik 0,12% daripada GNB MVR & selisih 0,12%, paling kecil dibandingkan selisih LLDN, dan lebih baik 1,16% daripada KNB. Dengan KNN-ACW-NB dengan metode-metode lainnya. demikian penerapan K-NN untuk local learning Dengan demikian metode ACW-NB lebih disarankan pada GNB MVR & DN mampu meningkatkan daripada LL-KNN ACW-NB jika mempertimbangkan sisi efisiensi secara keseluruhan. Kompleksitas kinerja akurasi NB (GNB dan KNB). Penerapan pendekatan mean/mode untuk MVR dan komputasi waktu proses yang tinggi ini dapat Min-Max Normalization untuk DN pada GNB diperbaiki pada penelitian berikutnya melalui strategi (GNB MVR & DN) menunjukkan akurasi yang local learning yang berbeda. lebih baik daripada NB (GNB dan KNB). Selanjutnya penerapan K-NN untuk local learning Ucapan Terima Kasih pada GNB MVR & DN (LL-KNN-NB) dan ACC Penelitian ini didukung dan didanai oleh: . Direktorat untuk attribute weighting pada GNB MVR & DN Riset dan Pengabdian Masyarakat. Kementerian (ACW-NB) menunjukkan akurasi yang lebih baik Riset dan Pendidikan Tinggi Republik Indonesia. daripada GNB MVR & DN. Dengan begitu LL45,00 D10 Avg Acc 86,44 94,44 100,00 96,40 94,69 76,92 91,48 Pre 93,75 93,33 100,00 97,80 92,96 66,67 90,75 Spe 83,33 96,55 100,00 96,74 98,51 50,00 87,52 Sen 91,30 92,00 100,00 95,74 89,13 88,89 92,84 Jurnal RESTI (Rekayasa Sistem dan Teknologi Informas. Vol . 4 No. 28 Ae 36 Azminuddin I. Azis. Budy Santoso. Serwin Jurnal RESTI (Rekayasa Sistem dan Teknologi Informas. Vol . 4 No. 28 Ae 36 Knowledge-Based Syst. , vol. 100, pp. 137Ae144, 2016. Song. Kim. Lee. Kim, and H. Youn. AuA novel . Jiang. Li. Wang, and L. Zhang. AuDeep feature classification approach based on Nayve Bayes for Twitter weighting for naive Bayes and its application to text sentiment analysis,Ay KSII Trans. Internet Inf. Syst. , vol. 11, no. classification,Ay Eng. Appl. Artif. Intell. , vol. 52, pp. 26Ae39, 6, pp. 2996Ae3011, 2017. Zhu. Xu. Zhang, and Y. Gao. AuMarine Fishing Ground . Asmono. Wahono, and A. Syukur. AuAbsolute Prediction Based on Bayesian Decision Tree Model,Ay in Correlation Weighted Nayve Bayes for Software Defect Proceedings of the 2017 International Conference on Prediction,Ay J. Softw. Eng. , vol. 1, no. 1, pp. 38Ae45, 2015. Management Engineering. Software Engineering and Service . Wu and Z. Cai. AuAttribute Weighting via Differential Sciences, 2017, pp. 316Ae320. Evolution Algorithm for Attribute Weighted Naive Bayes ( . Sun. Sun. Lin, and M. Wu. AuLossless Pruned WNB ),Ay J. Comput. Inf. Syst. , vol. 5, no. 5, pp. 1672Ae1679. Naive Bayes for Big Data Classifications,Ay Big Data Res. , vol. 14, pp. 27Ae36, 2018. Lin and J. Yu. AuWeighted Naive Bayes Classification . Wu. AuA Generalized Tree Augmented Naive Bayes Link Algorithm Based on Particle Swarm Optimization,Ay in 2011 Prediction Model,Ay J. Comput. Sci. , vol. 27, pp. 206Ae217, 2018. Ie 3rd International Conference on Communication . Yu. Jiang. Dianhong, and L. Zhang. AuToward naive Software and Networks, 2011, pp. 444Ae447. Bayes with attribute value weighting,Ay Neural Comput. Appl. Taheri. Yearwood. Mammadov, and S. Seifollahi, 5, pp. 1Ae15, 2018. AuAttribute weighted Naive Bayes classifier using a local . Golub et al. AuMolecular Classification of Cancer: Class optimization,Ay Neural Comput. Appl. , vol. 24, no. 5, pp. 995Ae Discovery and Class Prediction by Gene Expression 1002, 2014. Monitoring,Ay Science . , vol. 286, no. 5439, pp. 531Ae537, . Nurnberger. Borgelt, and A. Klose. AuNaive Bayes Classifiers Using Neuro-Fuzzy Learning Ao,Ay in ICONIPAo99. Furey. Cristianini. Duffy. Bednarski. ANZIISAo99 & ANNESAo99 & ACNNAo99. 6th International Schummer, and D. Haussler. AuSupport vector machine Conference on Neural Information Processing. Proceedings classification and validation of cancer tissue samples using (Cat. No. 99EX. , 1999, pp. 154Ae159. microarray expression data,Ay Bioinformatics, vol. 16, no. 10, pp. Langley and S. Sage. AuInduction of Selective Bayesian 906Ae914, 2000. Classifiers,Ay in Proceedings 10th Conference Uncertainty in . Kohavi. AuScaling Up the Accuracy of Naive-Bayes Artificial Intelligence, 1994, pp. 339Ae406. Classifiers: A Decision-Tree Hybrid,Ay in Proceedings Second . Friedman. Geiger, and M. Goldszmidt. AuBayesian International Conference Knowledge Discovery and Data Network Classifiers,Ay Mach. Learn. , vol. 29, pp. 131Ae163. Mining (KDD Ao. , 1996, pp. 202Ae207. Xie. Hsu. Liu, and M. Lee. AuSNNB: A Selective . Kohavi and G. John. AuWrappers for feature subset Neighborhood Based Naive Bayes for Lazy Learning,Ay in selection,Ay Artif. Intell. , vol. 97, no. 1Ae2, pp. 273Ae324, 1997. Proceedings Sixth Pacific-Asia Conference Knowledge . Zhang and C. Ling. AuAn Improved Learning Algorithm Discovery and Data Mining (KDD Ao. , 2002, pp. 104Ae114. for Augmented Naive Bayes,Ay Adv. Knowl. Discov. Data Min. , . Frank. Hall, and B. Pfahringer. AuLocally Weighted Naive 581Ae586, 2001. Bayes,Ay in Proceedings of the 19th Conference on Uncertainty . Ratanamahatana and D. Gunopulos. AuScaling up the in Artificial Intelligence, 2003, pp. 249Ae256. Naive Bayesian Classifier: Using Decision Trees for Feature . Zheng and G. Webb. AuLazy Learning of Bayesian Rules,Ay Selection,Ay in Proceedings Workshop Data Cleaning and Mach. Learn. , vol. 41, no. 1, pp. 53Ae84, 2000. Preprocessing (DCAP Ao. , 2002. Safri. Arifudin, and M. Muslim. AuK-Nearest . Zhang and S. Sheng. AuLearning Weighted Naive Bayes with Neighbor and Naive Bayes Classifier Algorithm in Determining Accurate Ranking,Ay in Fourth Ie International Conference The Classification of Healthy Card Indonesia Giving to The on Data Mining (ICDMAo. , 2004, pp. 567Ae570. Poor,Ay Sci. Informatics, vol. 5, no. 1, pp. 9Ae18, 2018. Jiang. Zhang. Cai, and J. Su. AuEvolutional Naive . Bielza and P. Larrayaga. AuDiscrete Bayesian Network Bayes,Ay in Proceedings First International Symposium on Classifiers: A Survey,Ay ACM Comput. Surv. , vol. 47, no. 1, pp. Intelligent Computation and Its Applications (ISICA Ao. , 2005, 5:1-5:43, 2014. 344Ae350. Zhang. Jin, and X. Zhu. AuMissing data imputation by . Webb. Boughton, and Z. Wang. AuNot So Naive utilizing information within incomplete instances,Ay J. Syst. Bayes: Aggregating One-Dependence Estimators,Ay Mach. Softw. , vol. 84, no. 3, pp. 452Ae459, 2011. Learn. , vol. 58, no. 1, pp. 5Ae24, 2005. Abreu. Santos. Abreu. Andrade, and D. Hall. AuA Decision Tree-Based Attribute Weighting Fiter for Silva. AuPredicting Breast Cancer Recurrence Using Machine Naive Bayes,Ay in International Conference on Innovative Learning Tehniques: A Systematic Review,Ay ACM Comput. Techniques and Applications of Artificial Intelligence, 2007, pp. Surv. , vol. 49, no. 3, pp. 52:1-52:40, 2016. 59Ae70. Suarez-Alvarez. -T. Pham. Prostov, and Y. Deng. Wang, and Y. Wang. AuWeighted Naive Bayes Prostov. AuStatistical approach to normalization of feature Classification Algorithm Based on Rough Set,Ay Comput. Sci. vectors and clustering of mixed datasets,Ay in Proceedings of the 34, pp. 204Ae206, 2007. Royal Society A: Mathematical. Physical and Engineering . Zhang. AuUsing Instance Cloning to Improve Naive Bayes for Sciences, 2012, vol. 468, no. 2145, pp. 2630Ae2651. Ranking,Ay Int. Pattern Recognit. Artif. Intell. , vol. 22, no. 6, . Freund and W. Wilson. Statistical Methods . nd ed. 1121Ae1140, 2008. Academic Press, 2003. Jiang. Zhang, and Z. Cai. AuA Novel Bayes Model: Hidden . Guyon. Weston. Barnhill, and V. Vapnik. AuGene Naive Bayes,Ay Ie Trans. Knowl. Data Eng. , vol. 21, no. Selection for Cancer Classification using Support Vector 1361Ae1371, 2009. Machine,Ay Mach. Learn. , vol. 46, no. 1Ae3, pp. 389Ae422, 2002. Wu. Pan. Cai. Zhu. Zhang, and C. Zhang. AuSelf- . Pavlidis. Weston. Cai, and W. Grundy. AuGene adaptive attribute weighting for Naive Bayes classification,Ay functional classification from heterogeneous data,Ay in Expert Syst. Appl. , vol. 42, no. 3, pp. 1487Ae1502, 2015. Proceedings of the fifth annual international conference on . Muktamar. Setiawan, and T. Adji. AuPembobotan Computational biology - RECOMB Ao01, 2001, no. 212, pp. 1Ae Korelasi Pada Nayve Bayes Classifier,Ay in Seminar Nasional Teknologi Informasi dan Multimedia 2015, 2015, no. 2, pp. 43Ae . Zhang. Jiang. Li, and G. Kong. AuTwo Feature Weighting Approaches for Naive Bayes Text Classifiers,Ay Daftar Rujukan Jurnal RESTI (Rekayasa Sistem dan Teknologi Informas. Vol . 4 No. 28 Ae 36