J-ICON. Vol. 5 No. Oktober 2017, pp. KLASIFIKASI JURUSAN MENGGUNAKAN METODE NAyaVE BAYES PADA SEKOLAH MENENGAH ATAS NEGERI (SMAN) 1 FATULEU TENGAH 1,2,3 Arddy H. Hailitik 1. Bertha S. Djahi 2. Yelly Y. Nabuasa 3 Jurusan Ilmu Komputer. Fakultas Sains dan Teknik. Universitas Nusa Cendana INTISARI Nayve bayes merupakan metode pengklasifikasian yang memanfaatkan probabilitas dan statistik untuk memprediksi peluang di masa depan dengan memanfaatkan pengalaman di masa Sistem penjurusan di Sekolah Menengah Atas (SMA) merupakan upaya untuk lebih mengarahkan siswa berdasarkan minat dan kemampuan akademiknya. Penjurusan pada SMA Negeri 1 Fatuleu Tengah terdiri dari jurusan IPA dan IPS. Penelitian ini menggunakan metode nayve bayes untuk mengklasifikasikan jurusan siswa. Data siswa yang digunakan merupakan data siswa kelas XI semester 2 tahun 2011-2015 dengan jumlah 470 data. Dalam proses pengujian digunakan 420 data . %) sebagai data latih dan 50 data . %) sebagai data uji. Hasil penelitian ini menunjukan akurasi sebesar 99. 31% dalam proses pengklasifikasian jurusan. Kata kunci: Nayve bayes. Data mining. Pengklasifikasian jurusan ABSTRACT Nayve bayes is the classification method which utilizes the both probabilities and statistics to predict the future opportunity by using the last experiance. The system of major in the senior high school is the means of students directing to be more based on their interest and academic competence. The major in East SMAN 1 Fatuleu consists of the Science and Social majors. This research is using the Method of Nayve bayesto classify the student major. The data of student that is used here is the grade XI for second semester in the years of 2011 to 2015 with the 470 for the total data. For the testing proces is used 420 data . %) as trains data and 50 data . %) as tests data. The result of this research shows the amount of 99. 31% accuracy in the process of major classification. Keyword: Nayve bayes. Data mining, the major classification. PENDAHULUAN Pemilihan jurusan bagi siswa SMA adalah upaya untuk mengenalkan siswa terhadap minat serta kemampuan akademik siswa. Banyak siswa yang bingung dalam memilih jurusan yang sesuai dengan minat atau kemampuan mereka. Hal ini juga dialami oleh para siswa di SMAN 1 Fatuleu Tengah, dimana mereka biasanya hanya berkonsultasi langsung dengan wali kelas atau dengan orang tua masing-masing. Setelah itu, pihak sekolah dalam hal ini wali kelas akan melakukan perhitungan data siswa berupa nilai rapor, nilai minat, dan nilai bakat untuk memutuskan jurusan yang tepat untuk siswa. Kegiatan ini membutuhkan waktu yang cukup lama karena perhitungan penentuan jurusan masih dilakukan secara manual. Untuk mengatasi masalah ini, terdapat beberapa metode yang dapat digunakan untuk menentukan jurusan pada SMAN 1 Fatuleu Tengah. Salah satunya dengan menggunakan metode klasifikasi menggunakan data siswa terdahulu sebagai acuan. Terdapat beberapa metode dalam pengklasifikasian antara lain algoritma ID3. C4. K-Nearest Neighbor (KNN), dan nayve bayes. Dalam penelitian ini, metode yang digunakan oleh peneliti adalah nayve bayes yang merupakan metode statistik sederhana dan memiliki akurasi yang baik dalam proses pengklasifikasian . ISSN 2337-7631 ISSN 2337-7631 II. MATERI DAN METODE Dataset siswa Data siswa yang digunakan dalam penelitian ini adalah data siswa SMAN 1 Fatuleu Tengah kelas XI semester 2 yaitu data nilai rapor . atematika, fisika, kimia, biologi, geografi, ekonomi, sosiologi, sejara. , data nilai bakat . ilai IQ, verbal, numeral, spasial, persepsional, tekni. dan data nilai minat . inat orangtua dan minat sisw. Data tersebut akan digunakan sebagai parameter yang akan diolah dalam sistem klasifikasi jurusan menggunakan algoritma Naive Bayes. Data yang digunakan terdiri dari 470 data, dengan perbandingan 420 data . %) sebagai data latih dan 50 data . %) sebagai data uji. Sistem penjurusan di Sekolah Menengah Atas (SMA) Pada pembelajaran tingkat SMA kita mengenal adanya sistem penjurusan. Penjurusan diperkenalkan sebagai upaya untuk lebih mengarahkan siswa berdasarkan minat dan kemampuan Hal ini diberlakukan karena siswa SMA berada pada jenjang yang strategis dan kritis bagi perkembangan dan masa depannya. Pada masa ini siswa berada di pintu gerbang untuk memasuki dunia perguruan tinggi yang merupakan wahana untuk membentuk integritas cita-cita yang diinginkan di masa mendatang . Dalam penentuan jurusan di SMA ada tiga sistem penentuan yang digunakan dalam memilih jurusan, yaitu penilaian jurusan berdasarkan prestasi akademik berupa nilai rapor, penilaian jurusan berdasarkan minat dan penilaian jurusan berdasarkan nilai tes bakat. Klasifikasi Klasifikasi adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Proses klasifikasi bertujuan untuk membentuk suatu model yang mampu membedakan data kedalam kelas-kelas yang berbeda berdasarkan aturan fungsi . Gambar 1. Blok diagram model klasifikasi Gambar 1 menjelaskan bahwa input-an akan di klasifikasi dan menghasilkan output berupa label kelas. Klasifikasi data terdiri dari 2 langkah proses. Pertama adalah learning . ase trainin. , dimana algoritma klasifikasi dibuat untuk menganalisa data training lalu direpresentasikan dalam bentuk rule klasifikasi. Proses kedua adalah klasifikasi, dimana data uji digunakan untuk memperkirakan akurasi dari rule klasifikasi. Algoritma Nayve Bayes Algoritma naive bayes merupakan pengklasifikasian dengan metode probabilitas dan statistik yang ditemukan oleh ilmuwan Inggris Thomas Bayes, yaitu memprediksi peluang di masa depan berdasarkan pengalaman di masa sebelumnya sehingga dikenal sebagai Teorema Bayes. Klasifikasi naive bayes diasumsikan bahwa ada atau tidak ciri tertentu dari sebuah kelas, tidak ada hubungannya dengan ciri dari kelas lainnya . Dimana variabel C merepresentasikan kelas, sementara variabel F1 . Fn merepresentasikan karakteristik petunjuk yang dibutuhkan untuk melakukan klasifikasi. Maka rumus tersebut menjelaskan bahwa peluang masuknya sampel karakteristik tertentu dalam kelas C . adalah peluang munculnya kelas C . ebelum masuknya sampel tersebut, seringkali disebut prio. J-ICON. Vol. 5 No. Oktober 2017 : 2127 J-ICON ISSN 2337-7631 dikali dengan peluang kemunculan karakteristik-karakteristik sampel pada kelas C . isebut juga likelihoo. , dibagi dengan peluang kemunculan karakteristik-karakteristik sampel secara global . isebut juga evidenc. Dari penjelasan tersebut dapat dirumuskan sebagai berikut : Nilai evidence selalu tetap untuk setiap kelas pada satu sampel. Nilai dari posterior tersebut nantinya akan dibandingkan dengan nilai-nilai posterior kelas lainnya untuk menentukan ke kelas apa suatu sampel akan diklasifikasikan. Perhitungan probabilitas untuk klasifikasi jurusan Dalam perhitungan nilai probabilitas terdapat 2 tipe data dari masing-masing parameter yaitu data yang bersifat numeric dan data yang bersifat text. Untuk menghitung nilai dari datadata tersebut, dapat digunakan persamaan sebagai berikut: Menghitung nilai probabilitas untuk data numeric. Untuk menghitung jumlah dan proabilitas dari data yang bersifat numeric harus dicari terlebih dahulu nilai rata-rata hitung . dan standar deviasi dari setiap parameter dari data yang memiliki data numeric. AA= ycu1 ycu2 ycu3 A ycuycu AA : rata-rata hitung . ycuycn : nilai sampel ke Aei : jumlah sampel dan persamaan untuk menghitung nilai standar deviasi adalah sebagai berikut: (Ocycu ycn=1. cuycn Oe AA) ) 1 yua= Oo ycuOe1 E : standar deviasi ycuycn : nilai sampel ke Aei AA : rata-rata hitung . : jumlah sampel Menghitung nilai probabilitas untuk data text. Untuk menghitung jumlah dan probabilitas data yang bersifat text akan digunakan rumus laplacian smoothing dengan nilai K=1 untuk menghindari P. = 0. = yaycuycycuyc. ya ycA y. : probabilitas dari variable x Count . : jumlah kemunculan dari sampel x : parameter smoothing : jumlah total kejadian dari sampel x . : jumlah kelas pada sampel Menghitung probabilitas menggunakan rumus dentitas gauss. Rumus dentitas gaus yang digunakan adalah sebagai berikut: = Oo2yuayuU cuOeAA)2 2yua2 : probabilitas : variabel : kelas : standar deviasi Klasifikasi Jurusan Menggunakan Metode Nayve Bayes Pada Sekolah Menengah Atas Negeri (SMAN) 1 Fatuleu Tengah (Arddy H. Hailiti. ISSN 2337-7631 : mean Menghitung nilai likelihood. Menghitung nilai likelihood dilakukan untuk mendapatkan hasil akhir. cU|C) = ycE. y ycE. y A y ycE. P : probabilitas ycU : variabel ya : kelas ya : atribut Normalisasi. Pada proses normalisasi dalam klasifikasi data, data ditransformasi ke dalam interval yang ternormalisasi rentang nilai [-1. Untuk menghasilkan nilai probabilitas maka dilakukan normalisasi terhadap likelihood kelas IPA dan kelas IPS. = ycU ycoycnycoyceycoycnEaycuycuycc ycyycycnycuyc ycoycnycoyceycoycnEaycuycuycc ycyycuycycyceycycnycuyc yaycnycoyceycoycnEaycuycuycc ycyycycnycuyc yaycnycoyceycoycnEaycuycuycc ycyycycnycuyc ycoycnycoyceycoycnEaycuycuyccycyycuycycyceycycnycuyc : probabilitas : variabel : kelas : atribut Secara garis besar, alur dari metode nayve bayes dapat dilihat pada gambar 2. Gambar 2. Flowchart nayve bayes Berdasarkan gambar 2, dapat dilihat bahwa proses pengklasifikasian nayve bayes dimulai dengan membaca data training, jika data tersebut merupakan data numerik maka akan dilanjutkan ke tahap perhitungan nilai mean dan standar deviasi dari tiap parameter, sedangkan apabila data J-ICON. Vol. 5 No. Oktober 2017 : 2127 J-ICON ISSN 2337-7631 training tersebut bukan data numerik maka akan masuk ke tahap perhitungan probabilitas dari tiap parameter. Setelah itu akan dilanjutkan ke tahap perhitungan nilai likelihood dimana dari hasil perhitungan tersebut akan diperoleh solusi. Kriteria Evaluasi Untuk permasalahan dalam binary classification, kriteria evaluasi yang biasa digunakan adalah sebagai berikut: Precision Dalam binary classification, precision dapat disamakan dengan positive predictive value atau nilai kelas yang diklasifikasi secara benar. Rumus precision adalah: ycNycycyce ycEycuycycnycycnyce ycEycyceycaycnycycnycuycu = ( ) y 100% . ycNycycyce ycyycuycycnycycnyce yaycaycoycyce ycyycuycycnycycnyce Recall Recall adalah pengambilan data yang berhasil dilakukan terhadap bagian data yang relevan dengan query. Rumus recall adalah: ycNycycyce ycuyceyciycaycycnyce ycIyceycaycaycoyco = . aycaycoycyce ycuyceyciycaycycnyce ycNycycyce ycuyceyciycaycycnyc. y 100% . Accuracy Accuracy adalah persentase dari total jurusan yang benar diidentifikasi. Rumus Accuracy ycNycycyce ycyycuycycnycycnyce ycNycycyce ycuyceyciycaycycnyce yaycaycaycycycaycayc = ( ) y 100% . ycycuycycaycoyccycaycyca F1-Measure F1-measure merupakan nilai rata-rata dari precision dan recall. Skor F1-measure mencapai nilai terbaik pada 1 dan skor terburuk pada 0. Rumus menghitung F1-measure adalah: 2yycEycyceycaycnycycnycuycuyycIyceycaycaycoyco ya1 = ycEycyceycaycnycycnycuycu ycIyceycaycaycoyco HASIL DAN PEMBAHASAN Hasil pengujian menggunakan weka Pengujian menggunakan weka dilakukan menggunakan 470 dataset yang dibagi dalam 5 kali pengujian dengan variasi data yang diambil secara manual. Tabel 1. Hasil pengujian menggunakan weka Data Uji Total Data Testing Precision Recall F1Measure Accuracy (%) True Negative (TN) True Positive (TP) False Positive (FP) False Negative (FN) Pada Tabel 1 menunjukan bahwa pengujian menggunakan weka dengan presentase tertinggi sebesar 100% diperoleh pada percobaan pertama dengan jumlah data 50 dengan Klasifikasi Jurusan Menggunakan Metode Nayve Bayes Pada Sekolah Menengah Atas Negeri (SMAN) 1 Fatuleu Tengah (Arddy H. Hailiti. ISSN 2337-7631 parameter precision sebesar 1. 000, recall sebesar 1. F1-measure sebesar 1. 000, true negative sebesar 27, true positif sebesar 23, false positif sebesar 0, false negative sebesar 0. Pada pengujian selanjutnya dengan menggunakan jumlah data lebih besar dari 50, diperoleh akurasi terbaik 6% pada percobaan ke 5 dengan jumlah data 250 data, dengan nilai parameter precision sebesar 0. 996, recall sebesar 0. F1-measure sebesar 0. 996, true negative sebesar 128, true positif sebesar 121, false positif sebesar 1, false negative sebesar 0. Hasil pengujian menggunakan model program Pengujian menggunakan model program dilakukan menggunakan 470 dataset yang dibagi dalam 5 kali pengujian dengan variasi data yang diambil secara acak. Tabel 2. Hasil pengujian menggunakan model program Data Uji Total Data Precision Recall F1Measure Accuracy (%) True Negative (TN) True Positive (TP) False Positive (FP) False Negative (FN) Pada Tabel 2 menunjukan bahwa pengujian menggunakan model program memiliki persentase tertinggi pada pengujian ke 1 dengan nilai akurasi sebesar 100%. Pada pengujian ke 1 dengan jumlah data 50 diperoleh parameter precision sebesar 1. 000, recall sebesar 1. 000, f1measure sebesar 1. 000, true negative sebesar 27, true positif sebesar 23, false positif sebesar 0, false negative sebesar 0. Pada pengujian selanjutnya dengan jumlah data lebih besar dari 50 diperoleh akurasi terbaik sebesar 99. 33% pada percobaan ke 3 dengan jumlah data 150 data, dengan nilai parameter precision sebesar 0. 987, recall sebesar 1. 000, f1-measure sebesar 0. true negative sebesar 74, true positif sebesar 75, false positif sebesar 1, false negative sebesar 0. Analisis Hasil Pengujian Berdasarkan hasil pengujian (Tabel 1 dan Tabel . maka diketahui bahwa penerapan metode nayve bayes pada pengujian untuk mengklasifikasi jurusan memiliki akurasi baik. Hal ini dapat ditunjukkan pada pengujian menggunakan weka diperoleh akurasi sebesar 100% pada percobaan ke 1 dan nilai akurasi terendah pada pengujian ke 2 sebesar 99% dimana pada proses klasifikasi terdapat 1 data yang tidak diklasifikasi secara tepat. Rata-rata akurasi pengujian menggunakan weka yaitu 99. Pada pengujian menggunakan model program, diperoleh nilai akurasi tertinggi sebesar 100% pada pengujian ke 1 dan terdapat dua pengujian yang memiliki nilai akurasi terendah sebesar 99%, masing-masing pada pengujian ke 2 diperoleh hasil klasifikasi terdapat 1 data yang tidak diklasifikasi secara tepat dan pada pegujian ke 4 diperoleh hasil klasifikasi terdapat 2 data yang tidak diklasifikasi secara tepat. Dari pengujian ke 1 sampai pengujian ke 5 maka diperoleh rata-rata akurasi dalam pengklasifikasian jurusan menggunakan model program yaitu 99. J-ICON. Vol. 5 No. Oktober 2017 : 2127 J-ICON ISSN 2337-7631 IV. KESIMPULAN DAN SARAN 1 Kesimpulan Berdasarkan hasil pengujian maka dapat disimpulkan: Nayve bayes dapat digunakan untuk klasifikasi jurusan dengan tingkat akurasi sebesar Hasil pengujian menggunakan weka dan model program memiliki nilai tingkat kecocokan yang baik karena hasil persentase akurasinya tidak berbeda jauh yaitu 0. 18% dimana weka memiliki akurasi sebesar 99. 49% dan model program memiliki akurasi sebesar 99. 2 Saran Diperlukan adanya penelitian lanjutan menggunakan algoritma nayve bayes untuk pengklasifikasian dengan jumlah data dan parameter yang lebih banyak. DAFTAR PUSTAKA