JURNAL SISTEM INFORMASI
STMIK ANTAR BANGSA [VOL.
VII NO.
1 FEBRUARI 2.
Opinion Mining Pada Review Produk Kecantikan Menggunakan Algoritma Nayve Bayes Dinda Ayu Muthia AbstractAi In recent years many sentiment analysis and opinion mining applications have been developed to analyze opinions, feelings and attitudes about products, brands, and news, etc.
These applications mine opinions from different sources like online forums and news sites and from movie, product and hotel reviews.
The Nayve Bayes algorithm is a popular machine learning technique for opinion mining, as it is very simple, efficient and performs well on many domains.
However.
Nayve Bayes has a deficiency that is very sensitive to features that are too numerous, resulting in low classification Therefore, this research used Genetic Algorithm feature selection method to improve the accuracy of Nayve Bayes.
This study produces text classification in the form of positive or negative from beauty product reviews.
Measurements based on Naive Bayes accuracy before and after the addition of feature selection methods.
The evaluation was performed using 10 fold cross validation.
Measurement accuracy is measured with confusion matrix and ROC curve.
The results showed an increase in the accuracy of Nayve Bayes from 65.
50% to 83%.
IntisariAi Dalam beberapa tahun terakhir banyak analisis sentimen dan aplikasi opinion mining telah dikembangkan untuk menganalisis pendapat, perasaan dan sikap tentang produk, merek, dan berita, dan sejenisnya.
Aplikasi ini menambang pendapat dari berbagai sumber seperti forum online dan situs berita dan dari ulasan film, produk dan hotel.
Algoritma Nayve Bayes adalah teknik machine learning yang populer untuk opinion mining, karena sangat sederhana, efisien dan memiliki performa yang baik pada banyak Namun.
Nayve Bayes memiliki kekurangan yaitu sangat sensitif pada fitur yang terlalu banyak, yang mengakibatkan akurasi klasifikasi menjadi rendah.
Oleh karena itu, dalam penelitian ini digunakan metode pemilihan fitur Genetic Algorithm agar bisa meningkatkan akurasi Nayve Bayes.
Penelitian ini menghasilkan klasifikasi teks dalam bentuk positif atau negatif dari review produk kecantikan.
Pengukuran berdasarkan akurasi Naive Bayes sebelum dan sesudah penambahan metode pemilihan fitur.
Evaluasi dilakukan menggunakan 10 fold cross validation.
Pengukuran akurasi diukur dengan confusion matrix dan kurva ROC.
Hasil penelitian menunjukkan peningkatan akurasi Nayve Bayes dari 65.
50% menjadi 83%.
Kata KunciAi Algoritma.
Naive Bayes.
Review.
Opinion Mining PENDAHULUAN Dalam beberapa tahun terakhir banyak analisis sentimen dan aplikasi opinion mining telah dikembangkan untuk menganalisis pendapat, perasaan dan sikap tentang produk, merek, dan berita, dan sejenisnya.
Aplikasi ini menambang Jurusan Manajemen Informatika AMIK BSI Bekasi.
Jl.
Cut Mutiah No.
88 Bekasi 17113 INDONESIA .
lp: 021-82425634.
fax: 02182425634.
e-mail: dinda.
dam@bsi.
ISSN 2098-8711 | Opinion Mining padaA pendapat dari berbagai sumber seperti forum online dan situs berita dan dari ulasan film, produk dan hotel .
Penelitian-penelitian yang sudah dilakukan dalam bidang opinion mining atau analisis sentimen pada review atau ulasan yang tersedia di internet diantaranya, penelitian yang dilakukan oleh Basari dan kawan-kawan pada tahun 2013, yaitu opinion mining pada review film yang diambil dari Twitter menggunakan pengklasifikasi Support Vector Machine dan Particle Swarm Optimization di mana proses Generate N-grams yang digunakan adalah unigram .
Penelitian yang dilakukan oleh Z.
Zhang dan kawan-kawan pada tahun 2011, yaitu opinion mining pada review restoran di internet yang ditulis dalam bahasa Canton menggunakan pengklasifikasi Nayve Bayes dan Support Vector Machine, di mana dalam penelitian tersebut dilakukan perbandingan proses Generate N-grams .
nigram, bigram, dan trigra.
Penelitian yang dilakukan oleh Moraes dan kawankawan pada tahun 2013, yaitu analisis sentimen pada review film dari IMDB, review produk seperti GPS, buku.
Amazon.
pengklasifikasi Support Vector Machine dan Artificial Neural Network .
Salah satu proses yang dianalisis di beberapa penelitian dalam bidang opinion mining yaitu penggunaan fitur ngram (Generate N-gram.
Fitur ini berfungsi untuk menggabungkan kata agar bisa dilihat perbedaan sentimen dari tiap gabungan kata.
Penggunaan fitur ini rupanya berpengaruh dengan akurasi yang dihasilkan pengklasifikasi seperti yang telah diteliti oleh Zhang dan kawan-kawan pada tahun 2011 .
Jika fitur yang digunakan 2-gram .
enggabungan dua kat.
atau 3-gram .
enggabungan tiga kat.
, maka otomatis jumlah kata yang diproses akan semakin banyak dan bisa mempengaruhi akurasi klasifikasi.
Berdasarkan penelitian, pengklasifikasi Nayve Bayes terbukti sangat sederhana dan efisien .
Di samping kesederhanaannya.
Nayve Bayes adalah salah satu teknik machine learning yang populer untuk klasifikasi teks, dan mempunyai performa yang baik pada banyak domain .
Akan tetapi.
Nayve Bayes ternyata mempunyai kekurangan, yaitu sangat sensitif dalam pemilihan fitur .
Jumlah fitur yang terlalu banyak dalam proses klasifikasi, tidak hanya meningkatkan waktu penghitungan tetapi juga menurunkan akurasi .
Pada beberapa penelitian di bidang opinion mining, tidak jarang ditemukan perbandingan hasil dari metode pemilihan fitur.
Pemilihan fitur terbukti dapat membuat pengklasifikasi menjadi lebih efisien dan efektif dengan mengurangi jumlah data yang dianalisis, maupun mengidentifikasi fitur yang sesuai untuk dipertimbangkan [VOL.
VII NO.
1 FEBRUARI 2.
dalam proses pembelajaran.
Terdapat dua macam metode pemilihan fitur dalam machine learning, yaitu wrapper dan Wrapper menggunakan akurasi klasifikasi dari beberapa algoritma sebagai fungsi evaluasinya.
Wrapper mengevaluasi fitur secara berulang dan menghasilkan akurasi klasifikasi yang tinggi.
Salah satu metode wrapper yang bisa digunakan adalah metode Genetic Algorithm (GA).
Tujuan dari penelitian ini adalah untuk menggabungkan metode pemilihan fitur Genetic Algorithm dalam menganalisis sentimen pada review produk kecantikan menggunakan algoritma Nayve Bayes.
II.
TINJAUAN PUSTAKA
Opinion Mining Opinion mining berfungsi untuk mendapatkan opini dari penulis tentang suatu entitas.
Menurut Tang dalam Haddi .
, analisis sentimen terhadap review yaitu suatu proses menganalisis review produk yang ada di internet guna menentukan opini terhadap suatu produk.
Menurut Thelwall dalam Haddi, analisis sentimen adalah mengklasifikasikan suatu teks ke dalam bentuk positif atau negatif .
Menurut Mejova dalam Basari .
, analisis sentimen bertugas untuk menentukan perilaku ataupun opini dari penulis terhadap suatu topik atau produk.
Perilaku penulis dapat menentukan alasan, opini atau penilaian terhadap produk tertentu dan dapat mempengaruhi penilaian orang lain yang membaca opini tersebut .
Pemilihan Fitur Pemilihan fitur berfungsi untuk menghilangkan fitur yang tidak sesuai yang mungkin menimbulkan kekacauan dalam klasifikasi, dengan menggunakan suatu metode.
Dalam machine learning, terdapat dua macam metode pemilihan fitur, yakni wrapper dan filter .
Metode pemilihan fitur wrapper menggunakan akurasi klasifikasi dari beberapa algoritma sebagai fungsi evaluasinya .
Genetic Algorithm (GA) merupakan metode wrapper yang bisa digunakan dalam pemilihan fitur .
Genetic Algorithm Genetic algorithm berupaya untuk menyatukan ide-ide evolusi alam .
Umumnya, pembelajaran genetic dimulai sebagai berikut:
Sebuah populasi awal dibuat dan terdiri dari aturan Setiap aturan dapat diwakili oleh string bit.
Sebagai contoh, sampel dalam satu set pelatihan yang diberikan dijelaskan oleh dua atribut Boolean.
A1 dan A2, dan bahwa ada dua kelas.
C1 dan C2.
Aturan "If A1 And Not A2 Then C2" bisa dikodekan sebagai string bit "100," di mana dua bit paling kiri mewakili atribut A1 dan A2, masing-masing, dan bit paling kanan mewakili kelas.
Demikian pula, aturan "If Not A1 And Not A2 Then C1 "dapat dikodekan sebagai" 001.
"Jika atribut memiliki nilai-nilai k, di mana k> 2, maka k bit dapat digunakan untuk JURNAL SISTEM INFORMASI
STMIK ANTAR BANGSA
mengkodekan nilai-nilai atribut tersebut.
Kelas dapat dikodekan dengan cara yang sama.
Berdasarkan gagasan ketahanan dari yang paling sesuai, populasi baru terbentuk, yang terdiri dari aturan yang paling sesuai dalam populasi saat ini, serta keturunan aturan ini.
Biasanya, fitness aturan dinilai dengan akurasi klasifikasi pada satu set sampel pelatihan.
Keturunan dihasilkan dengan menerapkan operator genetika seperti crossover dan mutasi.
Dalam crossover, substring dari sepasang aturan ditukar untuk membentuk pasangan aturan baru.
Dalam mutasi, bit yang dipilih secara acak dalam aturan string dibalik.
Proses menghasilkan populasi baru berdasarkan aturan populasi sebelumnya berlanjut sampai populasi.
P, berkembang di mana setiap aturan dalam P memenuhi ambang batas fitness yang sudah Genetic Algorithm kini telah digunakan untuk klasifikasi seperti masalah optimasi lainnya.
Dalam data mining, algoritma genetika bisa digunakan untuk mengevaluasi fitness algoritma lainnya.
Nayve Bayes Seperti yang sudah dijelaskan sebelumnya.
Nayve Bayes merupakan algoritma yang sederhana.
Tahapan-tahapan algoritma Nayve Bayes terdiri dari .
Hitung probabilitas bersyarat/likelihood:
P .
| C) = P.
1,x2.
A, xn | C) .
C = class x = vektor dari nilai atribut n P.
C) = proporsi dokumen dari class C yang mengandung nilai atribut xi .
Hitung probabilitas prior untuk tiap class:
ycAyc
P(C) =
Nj = jumlah dokumen pada suatu class N = jumlah total dokumen Hitung probabilitas posterior dengan rumus:
= ycE.
Dengan kata lain, rumus Bayes bisa diberikan sebagai ycEycuycycyceycycnycuyc = ycoycnycoyceycoycnEaycuycuycc ycu ycyycycnycuyc yceycycnyccyceycuycayce .
HASIL DAN PEMBAHASAN
Metode penelitian yang penulis lakukan adalah metode penelitian eksperimen, dengan tahapan sebagai berikut:
Pengumpulan Data Penulis mengumpulkan data review produk kecantikan Wardah BB Cream yang diambil dari situs khusus ISSN 2098-8711 | Opinion Mining pada A JURNAL SISTEM INFORMASI STMIK ANTAR BANGSA [VOL.
VII NO.
1 FEBRUARI 2.
review produk kecantikan di Indonesia, yaitu Review yang dikumpulkan terdiri dari 100 review positif dan 100 review negatif.
Dataset Pengolahan Awal Data Dalam tahap preprocessing, terdiri dari dua proses, .
Tokenization Mengumpulkan semua kata yang ada dalam review dan menghilangkan semua tanda baca maupun simbol apapun yang bukan huruf.
Generate N-grams Menggabungkan kata sifat yang sering muncul untuk menunjukkan sentimen, seperti kata AusangatAy dan kata AubagusAy.
Kata AubagusAy memang sudah menunjukkan sentimen bentuk opini positif.
Kata AusangatAy tidak akan berarti jika berdiri sendiri.
Namun jika dua kata tersebut digabung menjadi Ausangat bagusAy, maka akan sangat menguatkan opini positif tersebut.
Penulis hanya menggunakan penggabungan dua kata, yang disebut 2-grams .
Preprocessing:
Feature Selection:
Genetic Algorithm Population Initial population Evaluasi dan Validasi Hasil Validasi dilakukan menggunakan 10 fold cross Sedangkan pengukuran akurasi diukur dengan confusion matrix dan kurva ROC untuk mengukur nilai AUC.
Dengan confusion matrix, akurasi Nayve Bayes sebelum dan sesudah menggunakan metode pemilihan fitur.
Feature subset Generate Training Data 10 fold cross validation Metode Yang Diusulkan Metode yang diusulkan yakni dengan menerapkan Genetic Algorithm sebagai metode pemilihan fitur agar akurasi algoritma Nayve Bayes bisa meningkat.
Genetic Algorithm yang penulis terapkan adalah menggunakan Nayve Bayes yang diuji di dalam tahap Lihat pada Gbr 1 untuk model yang diusulkan secara lebih detail.
Eksperimen dan Pengujian Metode Untuk menggunakan Rapid Miner Studio untuk mengolah Ending Crossover Sedangkan untuk tahap transformation dengan melakukan pembobotan TF-IDF pada masing-masing Di mana prosesnya menghitung kehadiran atau ketidakhadiran sebuah kata di dalam dokumen.
Berapa kali sebuah kata muncul di dalam suatu dokumen juga digunakan sebagai skema pembobotan dari data Generate N-grams Tokenization Learning Method:
Nayve Bayes Testing Data Model Evaluation:
Confusion Matrix (Accurac.
ROC Curve (AUC) Sumber : Hasil Penelitian Gbr 1.
Model yang Diusulkan Hasil .
Klasifikasi Teks Menggunakan Algoritma Nayve Bayes Data training yang digunakan dalam pengklasifikasian teks ini terdiri dari 100 review positif dan 100 review negatif dari suatu produk kecantikan.
Sebelum masuk ke proses pengklasifikasian, data tersebut harus melalui beberapa tahapan proses, diantaranya:
Pengumpulan Data Data review positif disatukan dalam folder dengan nama POS.
Data review negatif disimpan dalam folder dengan nama NEG.
Tiap dokumen berekstensi .
txt yang dapat dibuka menggunakan aplikasi Notepad.
ISSN 2098-8711 | Opinion Mining padaA [VOL.
VII NO.
1 FEBRUARI 2.
Pengolahan Awal Data Proses yang dilalui terdiri dari tokenization dan generate N-grams.
Hasil pengolahan awal data dapat dilihat pada tabel 1 dan 2.
TABEL 1
PROSES TOKENIZATION
Review
suka sama produk ini walaupun harganya murah
tp kualitasnya ga jelek2
hehe shadenya juga pas buat kulit fair kaya aku teksturnya juga ringan
mengcover bekas2 jerawat
overall i love it ?? Tokenization suka sama produk ini walaupun harganya murah tp kualitasnya ga jelek amat hehe shadenya juga pas buat kulit fair kaya aku teksturnya juga ringan dikulit coveragenya medium lumayan mengcover bekas jerawat overall i love it Sumber : Hasil Penelitian TABEL 2
HASIL PENGOLAHAN 2-GRAM
Review setelah Tokenization suka sama produk ini walaupun harganya murah tp
kualitasnya ga jelek amat hehe shadenya juga pas buat dikulit coveragenya medium lumayan mengcover bekas jerawat overall i love it Generate 2-grams suka_sama sama_produk produk_ini ini ini_walaupun walaupun walaupun_harganya harganya_murah murah_tp tp_kualitasnya kualitasnya_ga ga ga_jelek jelek_amat amat_hehe hehe hehe_shadenya shadenya shadenya_juga juga juga_pas pas pas_buat buat buat_kulit kulit kulit_fair fair
fair_kaya kaya kaya_aku aku aku_teksturnya teksturnya_juga juga_ringan ringan_dikulit dikulit_coveragenya coveragenya_medium medium medium_lumayan lumayan_mengcover mengcover mengcover_bekas bekas bekas_jerawat jerawat
jerawat_overall overall_i i i_love love love_it it JURNAL SISTEM INFORMASI
STMIK ANTAR BANGSA
Penulis mendapatkan 6 kata dan 2 gabungan kata yang berhubungan dengan sentimen yang paling sering muncul, yaitu AuCocokAy.
AuBagusAy.
AuSukaAy.
AuOkeAy.
AuGakAy yang berarti AuTidakAy.
AuKurangAy.
AuAku SukaAy dan AuGa CocokAy yang berarti AuTidak CocokAy.
Pengujian Model dengan 10 Fold Cross Validation Pada penelitian ini, pengujian model dilakukan dengan menggunakan teknik 10 cross validation.
Proses ini membagi data secara acak ke dalam 10 bagian.
Proses pengujian dimulai dengan pembentukan model dengan data pada bagian pertama.
Model yang terbentuk akan diujikan pada 9 bagian data sisanya.
Kemudian proses akurasi dihitung dengan melihat seberapa banyak data yang sudah terklasifikasi dengan benar.
Optimasi Model dengan Menambahkan Metode Pemilihan Fitur Penulis menambahkan metode pemilihan fitur Genetic Algorithm dari wrapper, bertujuan untuk meningkatkan akurasi pengklasifikasi Nayve Bayes.
Penambahan metode ini tentu akan menambah lama durasi proses klasifikasi, namun hasil dari Algoritma Nayve Bayes dan Genetic Algorithm terbukti meningkatkan tingkat akurasi klasifikasi.
Eksperimen Terhadap Indikator Model Untuk mendapatkan model yang terbaik, beberapa indikator disesuaikan nilainya agar didapatkan hasil akurasi yang tinggi.
Dalam penyesuaian indikator pada Genetic Algorithm, akurasi paling tinggi diperoleh dengan kombinasi population size=30, maximum number of generations=50, p initialize=0.
5, p crossover=0.
5, dan p generate=0.
Hasil akurasi mencapai 83%.
Jika indikator lainnya turut diubah nilainya, dapat menyebabkan peningkatan durasi dalam mengolah data.
Sumber : Hasil Penelitian Pembahasan Dengan memiliki model klasifikasi teks pada review, pembaca dapat dengan mudah mengidentifikasi mana review yang positif maupun yang negatif.
Dari data review yang sudah ada, dipisahkan menjadi kata-kata, lalu diberikan bobot pada masing-masing kata tersebut.
Dapat dilihat kata mana saja yang berhubungan dengan sentimen yang sering muncul dan mempunyai bobot paling tinggi.
Dengan demikian dapat diketahui review tersebut positif atau negatif.
Dalam penelitian ini, hasil pengujian model akan dibahas melalui confusion matrix untuk menunjukkan seberapa baik model yang terbentuk.
Klasifikasi Proses klasifikasi berguna untuk menentukan sebuah kalimat sebagai anggota class positif atau class negatif berdasarkan nilai perhitungan probabilitas dari rumus Bayes yang lebih besar.
Jika hasil probabilitas kalimat tersebut untuk class positif lebih besar dari pada class negatif, maka kalimat tersebut termasuk ke dalam class positif.
Jika probabilitas untuk class positif lebih kecil dari pada class negatif, maka kalimat tersebut termasuk ke dalam class Pengukuran dengan Confusion Matrix Pengukuran menampilkan perbandingan dari hasil akurasi model Nayve Bayes sebelum ditambahkan metode pemilihan fitur yang bisa dilihat pada tabel 3 dan setelah ditambahkan metode pemilihan fitur Genetic algorithm yang bisa dilihat pada ISSN 2098-8711 | Opinion Mining pada A JURNAL SISTEM INFORMASI STMIK ANTAR BANGSA [VOL.
VII NO.
1 FEBRUARI 2.
TABEL 3
CONFUSION MATRIX MODEL NAyaVE BAYES SEBELUM PENAMBAHAN METODE PEMILIHAN FITUR Akurasi Naive Bayes: 65.
50% /- 10.
11% .
True True Class Positive Negative Pred.
Positive Pred.
Negative Class recall 77.
Sumber : Hasil Penelitian Tanpa menggunakan metode pemilihan fitur, algoritma Nayve Bayes dengan fitur 2-gram sudah menghasilkan akurasi sebesar 65.
Akurasi tersebut masih berada pada level poor classification, masih kurang akurat, sehingga perlu ditingkatkan lagi menggunakan metode pemilihan fitur.
Untuk pengujian data selanjutnya, akan dilanjutkan dari pengujian data menggunakan fitur 2gram.
Setelah menggunakan metode pemilihan fitur wrapper, yaitu Genetic Algorithm, akurasi algoritma Nayve Bayes meningkat menjadi 83% dan masuk ke level good classification, seperti yang bisa dilihat pada tabel 4.
TABEL 4
CONFUSION MATRIX MODEL NAyaVE BAYES SETELAH PENAMBAHAN METODE PEMILIHAN FITUR GENETIC
ALGORITHM
Akurasi Naive Bayes: 83.
00% /- 9.
27% .
True True Class Positive Negative Pred.
Positive Pred.
Negative Class recall Sumber : Hasil Penelitian Perbandingan kurva ROC pada penelitian ini bisa dilihat pada gambar 2 dan 3 di bawah ini.
Sumber : Hasil Penelitian Gbr 3.
Kurva ROC Model Nayve Bayes Setelah Penambahan Metode Pemilihan Fitur IV.
KESIMPULAN
Penerapan metode pemilihan fitur Genetic Algorithm terbukti bisa meningkatkan akurasi algoritma Nayve Bayes.
Data review produk kecantikan dapat diklasifikasi dengan baik ke dalam bentuk positif dan negatif.
Akurasi Nayve Bayes saat sebelum menggunakan metode pemilihan fitur hanya mencapai 65.
50% Sedangkan setelah menggunakan metode pemilihan fitur Genetic Algorithm, akurasinya meningkat hingga mencapai 83%.
Peningkatan akurasi Model yang dihasilkan bisa diterapkan pada seluruh data review produk kecantikan dengan teks bahasa Indonesia.
Model ini bisa membantu seseorang untuk menghemat waktu saat mencari review suatu produk kecantikan yang kini banyak tersedia online.
Saran dari peneliti untuk pengembangan penelitian membandingkan metode pemilihan fitur, baik itu dari jenis filter maupun wrapper.
Selain itu, bisa juga menggunakan data dari domain yang berbeda seperti review produk elektronik, film, buku, restoran dan lain-lain yang berasal dari sumber lainnya.
UCAPAN TERIMA KASIH
Terima kasih disampaikan kepada Tim JSI yang telah membantu dalam rangka menerbitkan jurnal ini.
Tidak lupa kepada institusi STMIK Antar Bangsa yang telah memberikan waktu untuk menyelesaikan penelitian ini.
REFERENSI