Seminar Nasional Rekayasa.
Sains dan Teknologi Vol 3 No 1Tahun 2023 Implementasi Metode Bidirectional Encoder Representations from Transformers (BERT) untuk Analisis Sentimen Komentar Pengguna Aplikasi Dana di Instagram Firdaus Ihsan Septian*1,Ivana Lucia Kharisma2.
Hermanto3,Kamdan4 Program Studi Teknik Informatika.
Universitas Nusa Putra1,2,3,4 ihsan_ti19@nusaputra.
id*1,ivana.
lucia@nusaputra.
hermanto@nusaputra.
id3,kamdan@nusaputra.
AbstrakAi Kemajuan teknologi yang pesat saat ini mempengaruhi berbagai aspek kehidupan serta memberi kemudahan serta efisiensi pada berbagai aspek.
Penerapan teknologi salah satunya di bidang finansial, yaitu dengan semakin banyak layanan keuangan digital yang memberi kemudahan bagi transaksi keuangan.
Salah satu jenis keuangan digital yang banyak digunakan di masyarakat adalah aplikasi Dana.
Dana menyediakan layanan yang dapat digunakan penggunanya serta sering memberikan informasi produk melalui akun media sosial Instagram.
Feedback serta komentar tentang aplikasi didapatkan dari pengguna.
Dengan menerapkan pemodelan Bidirectional Encoder Representations From Transformers (BERT) dari IndoBert pada proses analisa sentimen dari komentar pengguna Aplikasi DANA di Instagram pada penelitian ini , diharapkan dapat memberi informasi dan memudahkan dalam memahami opini dari pengguna, mendeteksi masalah dan keluhan, serta menjadikan wawasan bagi pengguna terhadap aplikasi Dana.
Dari latar belakang tersebut, penelitian tentang analisa sentimen komentar dari pengguna aplikasi Dana dilakukan .
Data yang digunakan didapat dari komentar akun Instagram Dana.
Data tersebut terbagi menjadi 2 kategori yaitu positif dan negatif berdasarkan pelabelan otomatis oleh transformer.
Dari hasil pemodelan dengan metode pretrained Bidirectional Encoder Representations From Transformers (BERT) dari IndoBert, diperoleh hasil accuracy 98% dari data latih serta validasi accuracy sebesar 93% dengan hyperparameter yaitu batch size 32 dan epoch pelatihan 10 dengan proporsi data latih dan data uji 70:30.
Pemodelan kemudian dilakukan proses deployment menggunakan streamlit, agar dapat diintegrasikan ke sistem atau aplikasi berbasis web.
Keywords Ai Dana, pre-trained Bidirectional Encorder Representations From Transformers (BERT).
IndoBert.
Analisis Sentimen AbstrakAi Rapid chnological advances are currently affecting various aspects of life and providing convenience and efficiency in various aspects.
One of the applications of technology is in the financial sector, namely with the increasing number of digital financial services that make financial transactions easier.
One type of digital finance that is widely used in society is the Dana application.
Dana provides services that its users can use and often provides product information via its Instagram social media account.
Feedback and comments about the application are obtained from users.
By applying Bidirectional Encorder Representations From Transformers (BERT) modeling from IndoBert to the sentiment analysis process from DANA Application user comments on Instagram in this research, it is hoped that it can provide information and make it easier to understand user opinions, detect problems and complaints, and provide insight for users.
to the Fund application.
From this background, research was conducted on sentiment analysis of comments from Dana application users.
The data used was obtained from comments on Dana's Instagram account.
The data is divided into 2 categories, namely positive and negative based on automatic labeling by the transformer.
From the modeling results using the pre-trained Bidirectional Encorder Representations From Transformers (BERT) method from IndoBert, results obtained were 98% accuracy from the training data and validation accuracy was 93% with hyperparameters, namely batch size 32 and training epoch 10 with the proportion of training data and test data 70:30.
The modeling process is then carried out using streamlit, so that it can be integrated into a web-based system or application.
Keywords Ai Dana, pre-trained Bidirectional Encorder Representations From Transformers (BERT).
IndoBert.
Sentimen Analytic Firdaus Ihsan Septian.
Ivana Lucia Kharisma.
Hermanto.
Kamdan
PENDAHULUAN
Kemajuan Teknologi yang pesat saat ini mempengaruhi berbagai aspek kehidupan menjadi serba mudah dan efisien, seiring dengan penetrasi teknologi digital yang sangat dalam dan digunakan secara luas, dampak teknologi digital akan semakin terasa, terutama di dunia Salah satunya industri finansial yang berinovasi menyediakan layanan dompet digital atau E-wallet.
Dana adalah dompet digital Indonesia yang dirancang untuk menangani semua transaksi tunai dan kartu digital online dan offline dengan kecepatan, kenyamanan dan keamanan yang Talenta terbaik Indonesia akan terus mengembangkan Dana sebagai dompet digital open platform yang dapat digunakan untuk mendukung segala aktivitas keuangan dan gaya hidup digital seluruh masyarakat Indonesia.
Dengan Dana, masyarakat dapat menjadi lebih produktif, efisien dan kompeten.
Dana juga dapat dioptimalkan untuk mendukung komitmen pemerintah dalam menekan biaya produksi dan distribusi uang fisik, serta meningkatkan literasi dan inklusi keuangan masyarakat Indonesia.
Dana merupakan bukti kemampuan Indonesia dalam membangun dan mengembangkan teknologi dan infrastruktur ekonomi digital yang dapat dipercaya setiap saat .
Pada penelitian aplikasi Dana dipilih karena berdasarkan survei yang dilakukan oleh merdeka.
Dana menjadi aplikasi popular setelah Gopay dan Ovo, dimana Dana memiliki tingkat penggunaanya .
Dana juga menyediakan banyak layanan yang dapat digunakan penggunanya, dari banyaknya layanan itu menimbulkan feedback dari pengguna seperti layanan top up yang gagal, tidak memperoleh cashback yang seharusnya, tidak sesuai dengan yang dikampanyekan dan lainnya.
Pada akun Instagram Dana.
Dana sering kali melakukan kampanye agar pengguna mengetahui informasi Kampanye tersebut menuai banyak komentar yang ditulis pengguna, dari banyaknya komentar yang diperoleh dari kampanye tersebut perlunya analisis sentiment agar perusahaan dapat terbantu dalam pemahaman opini pengguna, pemantauan respon pengguna untuk mengetahui bagaimana responnya, mendeteksi masalah dan keluhan, selain bagi perusahaan bagi pengguna juga mendapat wawasan terhadap aplikasi Dana, salah satunya reputasi perusahaan Dana .
Media sosial saat ini sudah menjadi tempat bagi masyarakat untuk mengeluarkan ekpresi dan pendapat dari berbagai macam topik salah satunya yaitu Instagram.
Instagram adalah sebuah platfrom media sosial untuk berbagi cerita dengan foto atau video ke sesama pengguna.
Indonesia merupakan negara pengguna Instagram terbanyak dengan 105 juta pengguna atau 37,8% dari jumlah populasi di Indonesia pada maret 2023 yang tercatat pada napoleoncat, jumlah pengguna tersebut merupakan terbesar keempat di dunia .
Pengguna Instagram dapat dengan bebas memberikan komentar untuk mengeluarkan pendapat terhadap postingan tersebut, tidak bisa dipungkiri pengguna sering kali berkomentar dengan kata-kata kasar dan tidak segan melontarkan ujaran kebencian.
Pada akun Instagram @Dana.
id yang postingannya selalu mendapatkan komentar, baik itu sebuah masukan yang bersifat membangun atau menjatuhkan.
banyaknya komentar yang disampaikan pemilik akun, perlu mengidentifikasikan masalah yang mengklasifikan setiap komentar perlu waktu yang lama dan tidak efektif.
Maka dari itu perlunya sebuah sistem yang dapat mengklasifikan komentar kedalam kelas sentimen secara otomatis serta analisis yang cocok.
Sentiment Analysis .
nalisis sentime.
atau sebuah opinion mining .
enambangan opin.
yang merupakan sebuah teknik pengolahan bahasa alami yang bertujuan untuk mengenali dan mengekspresikan opini, perasaan, evaluasi, sikap, subjektivitas, penilaian yang terkandung dalam suatu teks .
Penelitian pada bidang analisis sentimen sudah banyak diadakan dikarenakan persaingan pemasaran yang meningkat serta kebutuhan masyarakat yang berubah .
Analisis sentimen sangat berguna bagi pengembang EWallet bertransaksi pengguna.
Dengan membaca ulasan dari media sosial dapat memutuskan arah pengembangan dan peningkatan layanan dari EWallet .
Berdasarkan uraian diatas penulis memilih Implementasi Metode Bidirectional Encoder Representations from Transformers (BERT) untuk Analisis Sentimen Komentar Pengguna Aplikasi Dana di Instagram.
Seminar Nasional Rekayasa.
Sains dan Teknologi Vol 3 No 1Tahun 2023 dilakukan analisis perlunya pengukuran perfoma model agar dapat diketahui sejauh mana model menyelesaikan tugasnya.
METODE PENELITIAN
Penelitian ini memiliki beberapa tahapan, secara garis besar, alur penelitian dapat dilihat pada Gambar 1.
II.
Rumusan Masalah Rumusan masalah pada penelitian ini yaitu bagaimana implementasi metode Bidirectional Encoder Representations From Transformers (BERT) untuk analisis komentar Instagram pada akun Dana dan mengukur performa model analisis Pengumpulan Data Studi Pustaka dan Literatur Gambar 1.
Flowchart Penelitian Studi literatur merupakan sebuah proses berhubungan dengan judul penelitian yang digunakan untuk dipelajari.
Studi literatur dapat diperoleh dari beberapa sumber yaitu jurnal, buku, internet, dan penelitian sejenis.
Pada penelitian ini studi pustaka dan literatur yang dilakukan yaitu bersumber dari buku yang berkaitan dengan analisis sentimen yang ada pada perpustakan kampus dan jurnal yang diperoleh menggunakan internet dari situs google scholar menggunakan kata kunci Auanalisis sentimen menggunakan BERTAy.
Auimplementasi algoritma BERTAy, dan Auanalisis sentimen komentar Instagram menggunakan BERTAy dari kata kunci tersebut jurnal jurnal yang diperlukan dan berkaitan akan muncul.
Dari Gambar 1 diketahui alur dari penelitian dimana tahap pertama yang akan dilakukan adalah mengidentifikasi masalah dan membuat rumusan masalah, dilanjutkan oleh proses pengumpulan data yang diperlukan pada Setelah data terkumpul, data akan diberikan label dan akan masuk ke tahap Selanjutnya data akan masuk pada tahap splitting data, masuk pada tahap pemodelan.
Tahap pemodelan akan di evaluasi, selanjutnya akan dilakukan visualisasi dan deployment.
Pada penelitian ini metode yang digunakan yaitu metode kuantitatif deskriptif yang dimana penelitian mempelajari populasi atau sampel menggunakan alat tertentu .
Metode kuantitatif digunakan untuk mengukur penilaian dalam BERT dalam mengklasifikasin komentar secara numerik dengan skala atau nilai yang terukur.
Scraping Data Proses menggunakan bantuan alat yang ada pada ekstensi google chrome yaitu Data Miner.
Data yang diambil merupakan sebuah komentar dari beberapa postingan pada akun dana dimana komentar tersebut harus digulir agar mendapatkan data yang lebih banyak.
Data yang terkumpul sebanyak 1331, waktu yang diperlukan untuk pengumpulan data ini bergantung pada kecepatan internet yang digunakan untuk menggulir komentar pada setiap postingannya.
Identifikasi Masalah Aplikasi Dana merupakan dompet digital yang dari jumlah penggunaanya berkembang begitu pesat dibandingkan dompet digital popular lainnya.
Dana memiliki banyak layanan yang dapat dipergunakaan oleh penggunanya.
Dana juga sering melakukan kampanye lewat akun instagramnya agar infomasi terbaru tersampaikan ke penggunanya.
Tentunya dari banyak layanan dan kampanye yang dilakukan menimbulkan feedback dari penggunanya yang dilontarkan lewat komentar pada postingan akun intagram Dana salah satunya, banyak komentar yang bersifat membangun atau menjatuhkan, namun untuk membaca dan mengklasifikasikan setiap komentar memerlukan waktu yang lama dan tidak Maka perlunya sebuah sistem untuk mengklasifikan komentar pada kelas sentimen secara otomatis serta analisis yang cocok.
Setelah Pelabelan Dataset Pada tahapan ini dataset yang sudah dikumpulkan diberikan label untuk setiap record Pelabelan ini bertujuan memberikan kategori pada setiap komentar.
Label tersebut mengklasifikasikan data ke dalam kelompok atau kategori tertentu.
Pelabelan ini dilakukan secara otomatis menggunakan Natural Language processing (NLP) yang ada pada library Firdaus Ihsan Septian.
Ivana Lucia Kharisma.
Hermanto.
Kamdan transformer, data yang sudah diberi label berguna sebagai data latih.
Dataset yang sudah dilabel secara otomatis akan dicek kembali apakah hasil label sudah memadai atau perlu diperbaiki secara adanya panduan dalam data split.
Pada penelitian ini rasio yang digunakan 70:30 dimana 70% merupakan data latih dan sisanya 30% merupakan data uji.
Sampling Pemodelan Pada tahapan ini dataset yang sudah memiliki label akan dihitung jumlah sampel yang diperoleh, jika pada jumlah sampel yang diperoleh dataset menunjukan ketidakseimbangan yang signifikan maka diperlukan sampling agar nantinya klasifikasi dilakukan dengan tepat dan tidak bias terhadap sampel mayoritas.
Pada penelitian ini sampling yang digunakan yaitu Random Over Sampling dimana data pada sampel minoritas akan diduplikat agar jumlahnya sama dengan sampel mayoritas.
Pada penelitian ini model yang akan dipergunakan yaitu model pretrained model indobenchmark/IndoBert-base-p2 dimana model ini sudah melakukan pre-traning dan akan disesuaikan kembali .
ine-tunin.
Model IndoBert-base-p2 ini merupakan salah satu model dari indobencmark yang bertujuan untuk menyediakan dataset benchmark, model prapelatihan, dan metrik evaluasi untuk tugas pemrosesan bahasa alami (Natural Language Processing/NLP) dalam bahasa Indonesia .
Selanjutnya dilakukan setup optimizer.
Pada penelitian ini optimizer yang digunakan yaitu Adam, hal ini memungkingkan untuk menemukan learning rate yang optimal pada proses iterasi.
Optimizer Adam memiliki kemampuan untuk mengadaptasi learning rate secara otomatis untuk setiap parameter model, yang dapat membantu dalam mencapai konvergensi yang lebih cepat dan pelatihan yang lebih stabil.
Preprocessing Preprocessing merupakan sebuah tahapan pembersihan data atau menyiapkan dataset agar dapat digunakan untuk melakukan proses training Preprocessing ini memudahkan data yang dimasukan dikenali oleh komputer .
Ada beberapa tahapan yang dilakukan saat processing ditunjukkan pada Gambar 2 berikut:
Evaluasi Gambar 2.
Tahapan Pre-Processing Pada preprocessing ini dataset akan dilakukan beberapa tahapan sesuai pada Gambar 2 dimana dataset akan melakukan lowercase, selanjutnya akan menghapus kata yang tidak memiliki arti penting, menghapus simbol serta tanda baca, menghapus angka, kemudian dilakukan stemming, serta tokenisasi dan encorder.
Spliting Data Pada Tahapan ini dataset yang sudah melalui preprocessing dan sudah siap sebagai dataset untuk model dilakukan proses splitting data.
Spliting data merupakan pembagian dataset menjadi 2 bagian yaitu data latih dan data uji.
Data latih yaitu data yang akan dipergunakan untuk melatih model sedangkan data uji digunakan setelah proses training model selesai.
Rasio yang digunakan pada pembagian data itu bergantung kepada data yang dimiliki hal ini karena tidak Evaluasi dilakukan untuk memahami sejauh mana model atau metode tersebut berhasil mencapai tujuan yang ditetapkan dan untuk menentukan seberapa baik model tersebut dapat memprediksi atau menggeneralisasi data yang tidak terlihat sebelumnya .
Perhitungan akurasi pada penelitian ini menggunakan confusion Hal ini meliputi :
Akurasi Akurasi merupakan sebuah kinerja untuk menghitung seberapa akurat model yang digunakan dengan positif dan negatif yang diprediksi dengan benar terhadap total data.
Berikut rumus dari akurasi:
ycNycE ycNycA Akurasi = .
ycNycE ycNycA yaycE yaycA Precision Precision adalah rasio observasi positif yang diprediksi dengan benar terhadap total observasi positif yang diprediksi.
Berikut rumusnya ycNycE Precesion = .
ycNycE yaycE Recall Seminar Nasional Rekayasa.
Sains dan Teknologi Vol 3 No 1Tahun 2023 Recall adalah rasio observasi positif yang diprediksi dengan benar terhadap semua observasi di kelas aktual.
ycNycE Recall = .
ycNycE yaycA F1 Score F1 score adalah rata-rata tertimbang dari precision dan recall.
ycEycyceycayceycycnycuycu .
ycyceycaycaycoyco F1 = 2.
ycyycyceycayceycycnycuycu ycyceycaycaycoyco Visualisasi Pada Tahapan ini data akan divisualisasikan agar dapat mudah terbaca, salah satu visualisasi yang digunakan yaitu Wordcloud, wordcloud ini digunakan untuk menampilkan teks yang terdapat pada data dengan ukuran besar untuk kata yang lebih menonjol dalam data.
Deployment Pada Tabel 2 menunjukan beberapa rincian data yang sudah terkumpul, dimana hanya komentar saja yang discraping.
Labeling Pada tahapan ini dataset akan diberikan label agar model dapat mengenali pola atau karakteristik yang terkait setiap label, label ini dilakukan secara otomatis menggunakan library Transformer berikut merupakan hasil label yang Pada tahapan ini model yang sudah dilatih dan siap digunakan akan dilakukan deployment atau peluncuran aplikasi berbasis web yang menggunakan framework Streamlit agar dapat berfungsi dengan User Interface (UI), yang memungkinkan model dapat menerima input kalimat dan menghasilkan output analisis sentimen sesuai dengan prediksi model yang sudah dilatih sebelumnya.
HASIL DAN PEMBAHASAN
Dataset Tabel 3.
Hasil Labeling Otomatis Komentar Label Sejauh ini dana ku baik Positif baik aja,kalian aja norak mungkin gapake premium dana, seharusnya ikuti peraturan dana,kalo uang kalian ilang terus tidak pake dana premium ya tanggung sendiri.
Ni gimana dah pelayanan Negatif dana kok gada yang bener dah apa minta di viral in dulu ya katanya sih #bebasdrama kocak Dataset yang berupa sebuah komentar dari beberapa postingan Instagram akun Dana, teknik Pengumpulan (Scrapin.
menggunakan bantuan alat yang ada pada ektension google chrome yaitu Data Miner.
Total data yang berhasil dikumpulkan dapat dilihat pada tabel berikut :
Tabel 1.
Hasil Pengumpulan Data Sumber Data Postingan Instagram Dana Sejauh ini dana ku baik baik aja,kalian aja norak mungkin gapake premium dana, seharusnya ikuti peraturan dana,kalo uang kalian ilang terus tidak pake dana premium ya tanggung sendiri.
Ni gimana dah pelayanan dana kok gada yang bener dah apa minta di viral in dulu ya katanya sih #bebasdrama kocak Selamanya saya bakalan black campaign layanan sampah kalian.
Akun saya dibajak, uang saya dicuri, kalian tidak membantu saya sama sekali, bahkan sekedar memberitahu saya nomor rekening pembajak pun kalian tidak mau.
Dana gua premium setiap bulan limit abis mulu batas 40juta, tapi gak ada kendala, pada kenapa orang orang woy Jumlah Dari hasil pengumpulan data tersebut penulis hanya akan menampilkan beberapa rincian kolom sebagai berikut :
Dari hasil label otomatis ini dataset mendapatkan dua kategori yaitu positif dan negatif kemudian data akan dicek kembali untuk memastikan bahwa data yang sudah diberi label otomatis sudah sesuai, jika tidak sesuai akan dilakukan perbaikan secara manual, berikut Tabel 2.
Rincian Data
KOMENTAR
Viralka.
Aja DANA ini.
udah nggk jls saldo tiba2 hilang nggk ada tanggung jawabnya.
tutup aja DANA ini Firdaus Ihsan Septian.
Ivana Lucia Kharisma.
Hermanto.
Kamdan jumlah positif dan negatif dari hasil labeling Tabel 4.
Jumlah Hasil Label Otomatis Label Positif Negatif Jumlah Setelah dilakukan pengecekan kembali dari dataset yang sudah diberi label otomatis ada beberapa data yang diberi label tidak sesuai sehingga dilakukan label manual pada dataset sehingga jumlah data positif dan negatif mengalami perubahan sebagai berikut :
Jumlah Data Positif Negatif Diketahui dataset saat ini memiliki jumlah data sebanyak 2084 dengan label positif dan negatif yang jumlanya sama.
Preprocessing Lowercase Lowercase ini mengubah semua teks dalam dataset menjadi huruf kecil agar membantu dataset memiliki konsisten.
Tabel 5.
Jumlah Setelah Perbaikan Label Label Positif Negatif Jumlah Dari jumlah label positif dan negatif menunjukan adanya ketidak seimbangan data dimana data negatif lebih dominan dibandingkan Sampling Pada dataset yang sudah diberikan label diketahui jumlah label positif dan negatif tidak seimbang, maka dataset akan dilakukan random oversampling agar jumlah positif dan negatif seimbang dapat dilihat sebagai berikut :
Gambar 3.
Hasil Random Oversampling Dari Gambar 3 menunjukan jumlah label positif pada dataset sekarang seimbang dengan jumlah label negatif, dari hasil random oversampling dataset mengalami jumlah dataset sebagai berikut :
Tabel 7.
Lowercase Sebelum BAYAR
TAGIHAN
AIR.
SALDO SUDAH
BERKURANG.
TAPI
UDH
BULAN
STATUS SEDANG DI
PROSES
SAMPE
TAGIHAN
NUNGGAK !.
UDH
SAYA CHAT
GADA
RESPON
SAMPE SEKARANG.
KNP
DANA
SEKARANG SULIT
BANGET
DAN
JARANG DI TANGAN
SALDO NYANGKUT
DI TAMBAH KENA
TIPU LGI 500RB !
ANYINGG
EMNG
GRGR APK DANA
GAK
JELAS
INI
BANGSaT! saldo nyangkut di tambah kena tipu lgi 500rb ! anyingg emng grgr apk dana Menghapus Kata yang Tidak Memiliki Arti Penting Menghapus kata yang tidak penting ini merupakan sebuah istilah yang dikenal dengan Stopword ini adalah kata-kata umum yang tidak memiliki arti penting akan dihilangkan atau dihapus agar mengurangi komplek dan memfokuskan pada kata yang lebih informatif atau berarti .
Tabel 6.
Jumlah Dataset setelah Random Oversampling Data sebelum Data sesudah Sesudah bayar tagihan air.
tapi udh sedang di proses nunggak !.
udh saya chat cs gada respon knp dana sekarang sulit banget dan jarang di tangan Tabel 8.
Stopword Sebelum Sesudah Seminar Nasional Rekayasa.
Sains dan Teknologi Vol 3 No 1Tahun 2023 pelayanan dana kok gada yang bener dah apa minta di viral in dulu ya katanya sih #bebasdrama kocak dana gada bener apa minta viral dulu katanya #bebasdrama saldo nyangkut di tambah kena tipu lgi 500rb ! anyingg emng grgr apk dana gak jelas ini bangsat! tambah kena tipu lgi 500rb ! anyingg emng grgr apk dana gak jelas bangsat! 500rb anyingg emng anyingg emng grgr grgr apk dana gak apk dana gak jelas jelas bangsat Stemming Stemming pengolahan bahasa alami Natural Language Processing (NLP).
Pada penelitian ini stemming yang digunakan yaitu sastrawi, sastrawi ini adalah library untuk mengubah kata menjadi kata dasar .
Table 11.
Stemming Menghapus Simbol dan Tanda Baca Pada Tahapan ini kalimat pada dataset akan dibersihkan dari simbol dan tanda baca agar tidak mempengaruhi hasil analisis yang dapat menyebabkan klasifikasi kurang optimal.
Sebelum Sejauh dana baik baik kalian norak mungkin gapake premium dana peraturan dana kalo uang kalian ilang tidak pake dana premium tanggung sendiri Tabel 9.
Hapus simbol dan tanda baca Sebelum Sejauh dana baik baik ,kalian aja norak peraturan dana,kalo uang kalian ilang terus saldo nyangkut di tambah kena tipu lgi 500rb ! anyingg emng grgr apk dana gak jelas ini bangsat! Sesudah Sejauh dana baik baik kalian norak mungkin gapake premium dana peraturan dana kalo uang kalian ilang terus Tokenisasasi dan Data Encoder Pada proses tokenisasi ini akan ditambahkan token khusus yang dimiliki kosa kata model yaitu menambahkan [CLS] pada bagian depan untuk memberitahu model bahwa kita sedang akan melakukan klasifikasi, yang kedua menambahkan [SEP] yang menandakan akhir kalimat dan yang terakhir [PAD] yang merupakan padding digunakan untuk menyamakan panjang data yang ada .
Selanjutnya token tersebut diencode menjadi angka yang sesuai dengan daftar kosa kata yang dimiliki model.
Terakhir akan dibuat sebuah attention mask, attention mask ini menghasilkan token asli dan padding yang akan memberitahu model agar mengabaikan token padding, attention mask ini ditandai dengan 1 sebagai token asli dan 0 sebagi token padding.
tambah kena tipu 500rb anyingg emng grgr apk dana gak jelas bangsat Menghapus Angka Proses penghapusan angka ini dilakukan karena pada penelitian kali ini berfokus pada teks, jika mencocokan kata, menghapus angka kata-kata sebenarnya memiliki makna yang sama.
Tabel 12.
Tokenisasi dan Encoder Proses Tokenisasi Tabel 10.
Menghapus Angka Sebelum Kalo 500 emng salah, permasalahanya , gk percaya sama apk Sesudah jauh dana baik baik kalian aja norak premium dana harus ikut atur dana kalo uang kalian ilang tidak pake dana premium tanggung Sesudah Kalo emng salah, permasalahanya , gk percaya sama apk nyangkut saldo kena tipu tambah kena tipu rb Sebelum ya pihak dana tolong untuk hak orang lain Sesudah ['[CLS]', 'selamat', 'malam', '##saya', 'tunggu', 'kebijakan', '##nya', 'pihak', 'dana', 'tolong', 'tidak', 'mengambil'.
Firdaus Ihsan Septian.
Ivana Lucia Kharisma.
Hermanto.
Kamdan Encode Attention Mask 'hak', 'orang', '[SEP]', '[PAD]'] ['[CLS]', .
, 'selamat', 1217, 4660, 'malam', 4034, 2315, '##saya', 'tunggu', 1869, 3854, 'kebijakan', '##nya', 1319, 232, 3, 'pihak', 'dana', .
'tolong', 'tidak', 'mengambil', 'hak', 'orang', '[SEP]', '[PAD]'] .
, 2368, 1217, .
, 1, 1, 1, 1, 4660, 4034, 1, 1, 1, 1, 1, 1, 57, 1, 1, 1, 1, .
1241, 1869, 1632, 1319, 232, 3, .
Gambar 4 Hasil Pelatihan Model.
Pada saat Pelatihan model, model mendapatkan akurasi sebesar 98% dengan validasi akurasi sebesar Evaluasi Setelah pelatihan model yang dilakukan model akan dievaluasi untuk mengukur sejauh mana perfoma yang dimiliki oleh model terhadap data yang tidak terlihat sebelumnya.
Dengan pengujian menggunakan confusion matrix sebagai berikut:
Spliting Data Pada Tahapan ini data akan dibagi menjadi data latih dan data uji dengan proporsi 70:30 Hal ini karena dataset yang dimiliki tidak begitu banyak selain itu dengan memberikan 70% data untuk dilatih membantu dalam pembelajaran pola yang lebih baik.
Dari data uji akan dibagi kembali menjadi data test dan data validasi dengan proporsi 30:70 sehingga menghasilkan jumlah sebagai berikut :
Tabel 13.
Jumlah Pembagian data Nama Data Data Latih Data Test Data Validasi Gambar 5.
Confussion Matrix Dari confussion matrix tersebut didapatkan hasil laporannya sebagai berikut:
Jumlah Pemodelan Pada Tahapan ini data yang sudah siap akan dimasukan kedalam model Pretrained BERT dari IndoBert dengan parameter sebagai berikut :
A Epochs : 5
A BATCH_SIZE : 32
A LEARNING_RATE : 5e-5 Kemudian dilakukan setup optimizer menggunakan optimizer ADAM.
Pada Gambar 4 merupakan hasil pelatihan data menggunakan Gambar 6.
Classification Report Pada classification report yang dibuat menghasilkan presisi sebesar 0,92, recall 0.
88, f1score 0.
90 untuk negatif yang ditandai dengan 0 sedangkan positif yang ditandai 1 mendapatkan presisi sebesar 0.
89, recall 0.
93, f1-score 0.
91 dan berdasarkan classification report tersebut mendapatkan akurasi sebesar 0,91 Seminar Nasional Rekayasa.
Sains dan Teknologi Vol 3 No 1Tahun 2023 Merupakan tampilan user interface hasil modeling yang dibuat menggunakan framework streamlit dan dapat melakukan prediksi terhadap komentar yang dimasukan.
Visualisasi Dengan visualisasi ini memungkinkan data yang sebelumnya sulit dibaca dan tidak terlihat jelas dapat dibaca dengan jelas dan mudah, pada penelitian ini memanfaatkan wordcloud dengan menonjolkan data positif dan negatif yang dibedakaan berdasarkan warnanya.
Gambar 10.
Tampilan prediksi komentar positif Terlihat pada Gambar 10 jika dimasukkan komentar Aoaplikasi ini sangat membantuAo, hasil prediksi yang dilakukan oleh model berupa positif dengan akurasi 88.
hasil lain yang berupa masukan komentar negatif dapat dilihat pada Gambar 11.
Gambar 7.
Wordcloud Sentiment positif Dari Gambar 7 dapat diketahui kata yang menonjol pada sentimen positif yaitu AodanaAo.
AomasukAo.
AoadaAo.
AotopAo.
Aosaldo.
Selain dari sentimen positif terdapat sentimen negatif yang ditampilkan oleh wordcloud dapat dilihat pada Gambar 8.
Gambar 11.
Tampilan Prediksi Komentar Negatif Dari Gambar 11 diketahui masukan komentar Aobaru kali ini dana mengecewakanAo menghasilkan prediksi negatif dengan akurasi 95.
Gambar 8.
Wordcloud Sentimen Negatif Diketahui pada Gambar 8 kata yang menonjol pada sentiment negatif yaitu AodanaAo.
AouangAo.
AotolongAo.
Aotolong.
Aotransaksi Deployment IV.
KESIMPULAN
Berdasarkan pengujian dan penelitian Implementasi Metode Bidirectional Encoder Representations from Transformers (BERT) untuk Analisis Sentimen Komentar Pengguna Aplikasi Dana di Instagram dapat disimpulkan :
Dari data yang sudah terkumpul sebanyak 1331 menggunakan Data Miner yang merupakan data komentar di Instagram akun resmi Dana yang kemudian diberikan label memiliki data positif sebanyak 147 dan negatif sebanyak 1184, dari data yang yang sudah diberi label memiliki kesenjangan data yang sangat jauh antara positif dan negatif sehingga dilakukan oversampling agar data Hasil modeling yang sudah dilakukan sebelumnya menggunakan BERT akan dibangun kedalam sebuah sistem menggunakan framework streamlit, agar model ini memiliki user interface dan dapat melakukan input, ditunjukkan pada Gambar 9 berikut :
Gambar 9.
Tampilan UI Streamlit Firdaus Ihsan Septian.
Ivana Lucia Kharisma.
Hermanto.
Kamdan Dengan menggunakan model BERT dari IndoBert penulis dapat merancang dan membangun sebuah analisis sentiment berdasarkan kata yang menghasilkan sebuah prediksi positif maupun negatif.
Analisis Sentimen menggunakan BERT dari IndoBert menghasilkan akurasi sebesar 98% dan validasi akurasi sebesar 93% pada pelatihan selama 10 epoch dengan pembagian proporsi data 70:30, dapat disimpulkan bahwa model BERT dari IndoBert ini memiliki performa yang baik dalam menganalisis kata.
Berdasarkan pengujian model yang matrix, model mendapatkan akurasi sebesar 91% serta presisi sebesar 0,92, 88, f1-score 0.
90 untuk negatif sedangkan positif mendapatkan presisi 89, recall 0.
93, f1-score 0.
DAFTAR PUSTAKA