Jurnal Ilmu Siber dan Teknologi Digital (JISTED) Vol 1. No 1, 2022, 1-28 https://doi. org/10. 35912/jisted. Model Klasifikasi Berbasis Multiclass Classification dengan Kombinasi Indobert Embedding dan Long ShortTerm Memory untuk Tweet Berbahasa Indonesia (Classification Model Based on Multiclass Classification with a Combination of Indobert Embedding and Long Short-Term Memory for Indonesian-language Tweet. Thariq Iskandar Zulkarnain Maulana PutraA*. SupraptoA. Arif Farhan BukhoriA Program Studi Ilmu Komputer. Departemen Ilmu Komputer dan Elektronika. Fakultas Matematika dan Ilmu Pengetahuan Alam. Universitas Gadjah Mada. Yogyakarta1,2,3 thariqiskandar9@gmail. com 1,2,3 Abstract Purpose: This research aims to improve the performance of the text classification model from previous studies, by combining the IndoBERT pre-trained model with the Long Short-Term Memory (LSTM) architecture in classifying Indonesian-language tweets into several categories. Method: The classification text based on multiclass classification was used in this research, combined with pre-trained IndoBERT namely Long Short-Term Memory (LTSM). The dataset was taken using crawling method from API Twitter. Then, it will be compared with Word2Vec-LTSM and fined-tuned IndoBERT. Result: The IndoBERT-LSTM model with the best Riwayat Artikel Diterima pada 5 Oktober 2022 hyperparameter combination scenario . atch size of 16, learning Revisi 1 pada 15 Oktober 2022 rate of 2e-5, and using average poolin. managed to get an F1Revisi 2 pada 28 Oktober 2022 score of 98. 90% on the unmodified dataset . 70% increase from Disetujui pada 11 November 2022 the Word2Vec-LSTM model and 0. 40% from the fine-tuned IndoBERT mode. 83% on the modified dataset . increase from the Word2Vec-LSTM model and 0. 69% from the fine-tuned IndoBERT mode. However, the improvement from the fine-tuned IndoBERT model is not very significant and the Word2Vec-LSTM model has a much faster total training time. Keywords Text Classification. Indonesian Tweets. IndoBERT. Long Short-Term Memory How to cite: Putra. Suprapto. Bukhori. Model Klasifikasi Berbasis Multiclass Classification dengan Kombinasi Indobert Embedding dan Long Short-Term Memory untuk Tweet Berbahasa Indonesia. Jurnal Ilmu Siber dan Teknologi Digital, 1. , 1-28. Pendahuluan Twitter merupakan salah satu situs media sosial yang sedang berkembang pesat dengan lebih dari 3,7 juta pengguna aktif mem-posting sekitar 10 juta tweet per hari (Ayo et al. , 2. Selain digunakan untuk update status. Twitter juga digunakan sebagai platform penyebaran informasi berbagai topik yang cukup akurat dan terpercaya. Pencarian tweet pada aplikasi Twitter dapat menggunakan fitur search dengan mengetikkan kata kunci atau hashtag. Akan tetapi, penggunaan kata kunci atau hashtag terkadang kurang akurat ketika menggunakan kata yang memiliki beberapa arti, sehingga, perlu dilakukan pemberian kategori terhadap tweet berdasarkan konteksnya untuk menghindari adanya bias pada kata yang memiliki beberapa arti serta meningkatkan ranking pada hasil pencarian Google. Pemrosesan bahasa alami (Natural Language Processing - NLP) merupakan cabang dari kecerdasan buatan (Artificial Intelligenc. yang memberikan kemampuan pada komputer untuk memahami teks dan kata-kata yang diucapkan dengan cara yang sama seperti yang dapat dilakukan manusia. Klasifikasi teks merupakan salah satu tugas NLP yang dapat memberikan kategori terhadap teks secara otomatis berdasarkan konteks dari teks tersebut dengan bantuan metode machine learning maupun deep learning. Klasifikasi teks menjadi area penelitian yang sering muncul dalam pemrosesan bahasa alami karena meningkatnya jumlah unggahan pengguna di berbagai jejaring sosial (Alwehaibi et al. Proses pengklasifikasian teks dapat terbagi menjadi dua jenis, yaitu binary classification dan multiclass classification. Model pre-trained word embedding merupakan sebuah model word embedding yang telah dilatih pada dataset yang berukuran besar dan general, agar memiliki pemahaman semantik maupun sintaksis yang lebih baik. Pada tahun 2018. Devlin et al. mengusulkan sebuah model, yaitu Bidirectional Encoder Representations from Transformer (BERT) yang berhasil mendapatkan performa state-ofthe-art pada banyak studi terkait NLP. BERT menggunakan Transformer yang merupakan mekanisme yang mempelajari hubungan kontekstual antara kata- kata dalam teks menggunakan selfattention mechanism (Vaswani et al. , 2. Khusus untuk bahasa Indonesia. Koto et al. berhasil mengembangkanmodel pre-trained BERT yang bernama IndoBERT. Deep learning merupakan metode pembelajaran mesin yang terinspirasi oleh cara kerja sistem saraf otak manusia. Sistem ini dinamakan Jaringan Syaraf Tiruan (Artificial Neural Network - ANN). Pada model klasifikasi teks, vektor kata yang dihasilkan dari proses word embedding dapat dijadikan sebagai input pada lapisan neural network yang diklasifikasikan berdasarkan informasi yang dipelajari. Long Short-Term Memory (LSTM) merupakan modifikasi dari arsitektur Recurrent Neural Network (RNN) yang dapat mengatasi masalah vanishing gradient saat memproses data sequential yang Telah ditemukan beberapa penelitian mengenai pengembangan model klasifikasi teks pada dataset berbahasa Indonesia. Koto et al. melakukan fine-tuning pada model yang dia kembangkan, yaitu IndoBERT untuk tugas analisis sentimen dan berhasil mendapatkan F1-score sebesar 84,13%. Muhammad et al. juga mencoba mengembangkan model analisis sentimen menggunakan Word2Vec dan Long Short-Term Memory (LSTM) dengan akurasi mencapai 85,96%. Di sisi lain. Hilmiaji et al. mencoba mengidentifikasi emosi dari tweet berbahasa Indonesia ke dalam 5 kelas menggunakan word embedding dari library Keras dengan arsitektur CNN dan berhasil mendapatkan F1-score sebesar 90,2%. Sedangkan Ramadhan . mencoba mengklasifikasikan berita online Indonesia berdasarkan 4 topik yang sedang populer menggunakan Word2Vec dan KNearest Neighbor dengan akurasi 89,2%. Beberapa penelitian yang telah disebutkan sebelumnya telah berhasil mengembangkan model klasifikasi teks baik yang berbasis binary classification maupun multiclass classification, khususnya pada dataset berbahasa Indonesia. Akan tetapi, model yang dikembangkan masih memiliki potensi untuk ditingkatkan akurasinya dengan menerapkan model pre-trained word embedding yang memiliki performa state-of-the-art dan mengombinasikannya dengan arsitektur neural network. Oleh karena itu, pada penelitian ini diusulkan model klasifikasi teks yang mengombinasikan model pre-trained IndoBERT dengan salah satu arsitektur Recurrent Neural Network (RNN), yaitu Long Short-Term Memory (LSTM), dalam mengklasifikasikan tweet berbahasa Indonesia ke beberapa kategori sesuai dengan konteksnya. 1 Rumusan Masalah Berdasarkan latar belakang masalah yang telah diuraikan sebelumnya bahwa sudah terdapat beberapa penelitian tentang pengembangan model klasifikasi teks pada dataset berbahasa Indonesia. Akan tetapi, model-model yang sudah dikembangkan masih mungkin untuk ditingkatkan akurasinya. Oleh karena itu, pada penelitian ini diusulkan sebuah model klasifikasi teks berbasis multiclass classification untuk tweet berbahasa Indonesia yang mengombinasikan model pre- trained IndoBERT 2022 | Jurnal Ilmu Siber dan Teknologi Digital (JISTED) / Vol1 No1, 1-28 dengan salah satu arsitektur Recurrent Neural Network (RNN), yaitu Long Short-Term Memory (LSTM). 2 Tujuan Penelitian Penelitian ini bertujuan untuk meningkatkan performa model klasifikasi teks yang telah dikembangkan pada penelitian sebelumnya, dengan menggunakan kombinasi dari model pre-trained IndoBERT dengan arsitektur Long Short-Term Memory (LSTM) dalam mengklasifikasikan tweet berbahasa Indonesia kebeberapa kategori sesuai dengan konteksnya. Researchers in both advanced and developing economies have produced results when discussing liquidity ratio and profitability ratio in Nigeria. Duruechi et al . Bassey and Moses . , and Edem . all looked at liquidity management and performance from a macroeconomic viewpoint in Nigeria, with minimal attention paid to the pharmaceutical industry. Even in a few research that looked at other sectors, such as Kehinde . , and Idowu, et al, . , there were contradicting and varied results. Tinjauan Pustaka dan Pengembangan Hipotesis 1 Klasifikasi Teks Klasifikasi teks menjadi area penelitian yang sering muncul dalam pemrosesan bahasa alami karena meningkatnya jumlah unggahan pengguna di berbagai jejaring sosial (Alwehaibi et al. , 2. Klasifikasi teks merupakan proses pemberian kategori ke teks berdasarkan isi / topik dari teks Model klasifikasi teks dapat terbagi menjadi dua jenis, yaitu binary classification dan multiclass classification. Sebagian besar sistem klasifikasi teks dan kategorisasi dokumen dapat didekonstruksi menjadi empat fase, yaitu ekstraksi fitur, pengurangan dimensi, pemilihan pengklasifikasi, dan evaluasi. 2 Text Preprocessing Text preprocessing merupakan salah satu tahapan penting pada pengembangan model klasifikasi teks, karena data teks yang diambil melalui proses text mining tidak selamanya dalam kondisi yang ideal dan terstruktur untuk diproses. Dalam banyak algoritma, terutama algoritma pembelajaran statistik dan probabilistik, noise dan fitur yang tidak perlu dapat memiliki efek buruk pada kinerja sistem. Sehingga, diperlukan sebuah proses yang dapat mengubah data teks menjadi lebih terstruktur melalui beberapa metode, meliputi case folding, noise removal, penggantian slang dan singkatan, tokenizing, stemming, dan stopwords removal. 1 Case Folding Data teks tidak terlepas dari keberagaman kapitalisasi dalam membentuk sebuah kalimat. Keberagaman kapitalisasi ini dapat menjadi masalah besar saat mengklasifikasikan teks berukuran Kapitalisasi yang tidak konsisten dapat diatasi dengan mengubah setiap huruf kapital menjadi huruf kecil. Teknik ini memproyeksikan semua kata dalam teks ke dalam ruang fitur yang sama (Gupta & Lehal Professor, 2. 2 Noise Removal Noise removal merupakan proses untuk menghilangkan tanda baca atau karakter selain teks. Tanda baca dan karakter khusus penting untuk pemahaman manusia tentang dokumen, tetapi dapat merusak algoritma klasifikasi (Pahwa et al. , 2. 3 Slang dan Singkatan Slang dan singkatan merupakan salah satu anomali teks yang juga perlu ditangani pada tahapan Slang adalah jenis bahasa yang sering digunakan dalam percakapan informal namun memiliki sifat yang fleksibel (Sun et al. , 2. Proses untuk mengganti slang dan singkatan akan dibantu dengan kamus dari Taudata Analytics sebanyak 1682 kata (Sutanto, 2. 2022 | Jurnal Ilmu Siber dan Teknologi Digital (JISTED) / Vol1 No1, 1-28 4 Tokenizing Tokenizing adalah prosedur pemecahan teks menjadi kata, frasa, atau bagian lain yang bermakna, yaitu token (Uysal & Gunal, 2. Dengan kata lain, tokenizing adalah proses segmentasi teks, yang biasanya dilakukan dengan mempertimbangkan hanya karakter alfabet atau alfanumerik yang dibatasi oleh karakter non-alfanumerik . anda baca dan spas. Metode ini bertujuan sebagai penyelidikan kata-kata dalam sebuah kalimat. Proses tokenizing dapat dilakukan dengan menggunakan fungsi word_tokenize yang disediakan oleh libary NLTK. Proses tokenizing pada BERT dilakukan dengan menggunakan metode WordPiece, di mana setiap kalimat akan ditokenisasi menjadi per kata atau sub 5 Stemming Satu kata dapat muncul dalam berbagai bentuk, namun memiliki makna semantik yang sama. Pada kasus bahasa Indonesia, variasi bentuk kata muncul akibat adanya penambahan imbuhan . walan dan akhira. pada kata dasar, seperti kata AumakanAy ditambah dengan awalan Aume-Ay akan menjadi AumemakanAy atau ditambah dengan akhiran Au-anAy akan menjadi AumakananAy. Sehingga diperlukan sebuah metode yang dapat menggabungkan berbagai bentuk kata ke dalam ruang fitur yang sama. Salah satu metode yang dapat digunakan adalah stemming, yang bertujuan untuk mendapatkan bentuk kata dasar dari variasi kata turunannya. Proses stemming untuk bahasa Indonesia dilakukan dengan menggunakan library Sastrawi (Robbani, 2. 6 Stopwords Removal Stopwords adalah kata-kata yang biasa ditemui dalam teks tanpa ketergantungan pada topik tertentu . onjungsi, preposisi, artikel, dl. (Uysal & Gunal, 2. Stopwords memiliki frekuensi kemunculan yang tinggi. Oleh karena itu, keberadaan mereka dianggap tidak relevan dalam studi klasifikasi teks. Permasalahan ini dapat diatasi dengan menghilangkan stopwords dari teks tersebut. Namun, setiap bahasa memiliki daftar stopwords yang berbeda. Proses stopwords removal untuk bahasa Indonesia dapat menggunakan library Sastrawi (Robbani, 2. 3 Word Embedding Word embedding adalah salah satu poin paling penting untuk studi pemrosesan teks dan input paling penting untuk jaringan (Aydoan & Karci, 2. Word embedding adalah teknik pembelajaran fitur di mana setiap kata atau frasa dari kosakata dipetakan ke dalam vektor bilangan real berdimensi N. Fokus dari metode ini terletak pada penetapan vektor yang mirip dengan kata-kata yang memiliki arti yang serupa secara semantik (Goyal et al. , 2. 1 BERT Bidirectional Encoder Representations from Transformer (BERT) pertama kali diperkenalkan pada tahun 2018 oleh Devlin et al. yang merupakan peneliti dari Google AI Language. Sesuai dengan namanya. BERT menggunakan Transformer yang merupakan mekanisme yang mempelajari hubungan kontekstual antara kata-kata dalam teks menggunakan self-attention mechanism (Vaswani et al. , 2. Self-attention mechanism memungkinkan input untuk berinteraksi satu sama lain . dan mencari tahu siapa yang harus diberi perhatian lebih . Representasi urutan kata dari sebuah kalimat dihitung dengan menghubungkan kata-kata yang berbeda dalam urutan yang sama menggunakan mekanisme encoder dan decoder. 2 Word2Vec Mikolov et al. mengusulkan model yang merepresentasikan "word to vector" sebagai arsitektur word embedding yang ditingkatkan dari model Neural Network Language Model (NNLM). Pendekatan Word2Vec menggunakan shallow neural network dengan dua hidden layer. Terdapat dua arsitektur yang berbeda pada Word2Vec, yaitu Continuous Bag-of-Words (CBOW), dan Continuous Skip-gram untuk membuat vektor berdimensi tinggi dari setiap kata. Continuous Bag-of-Words 2022 | Jurnal Ilmu Siber dan Teknologi Digital (JISTED) / Vol1 No1, 1-28 Pada model Continuous Bag-of-Words, representasi terdistribusi dari konteks . ata-kata di sekitarny. digabungkan untuk memprediksi kata di tengah. Misalnya, kata "uang" dan "nasabah" sebagai konteks untuk kata target "bank". Continuous Skip-gram Arsitektur model lain yang sangat mirip dengan CBOW adalah model Continuous Skip-gram. Namun, alih-alih memprediksi kata saat ini berdasarkan konteksnya, ia mencoba memaksimalkan klasifikasi kata berdasarkan kata lain dalam kalimat yang sama. Skip-gram memiliki performa yang lebih baik dari CBOW pada sebagian besar evaluasi, tapi CBOW lebih cepat untuk dilatih (Mikolov et al. 4 Recurrent Neural Network (RNN) Ide dasar dari Recurrent Neural Network (RNN) adalah membuat topologi jaringan yang mampu merepresentasikan data sequential. RNN berfokus pada sifat data di mana instance waktu sebelumnya . Ae. mempengaruhi instance pada waktu berikutnya . Secara lebih umum, diberikan sebuah urutan input ycu = . cu1, ycu2. A , ycuy. Data ycuyc . , vektor, gambar, teks, suar. dipengaruhi oleh data sebelum-sebelumnya . yang ditulis sebagai ycE. ycu1, ycu2. A , ycuycOe. 1 Long Short-Term Memory (LSTM) Long Short-Term Memory (LSTM) pertama kali diperkenalkan oleh Hochreiter dan Schmidhuber . LSTM merupakan modifikasi dari arsitektur RNN dengan menambahkan memory cell yang dapat menyimpan informasi untuk jangka waktu yang lama. Arsitetur ini diusulkan sebagai solusi dalam mengatasi masalah vanishing gradient pada RNN saat memproses data sequential yang panjang. 5 Hugging Face Hugging Face merupakan open-source library untuk berbagai macam aplikasi NLP (Chaumond et al. Hugging Face menyediakan banyak model untuk kebutuhan NLP yang telah dikemas dan dapat secara langsung digunakan untuk pemodelan. 6 TensorFlow TensorFlow (TF) merupakan open source library yang sangat populer untuk pengembangan machine learning berskala besar (Google Brain Team, 2. TensorFlow mengemas model machine learning dan deep learning beserta algoritmanya yang dapat digunakan untuk berbagai kebutuhan. TensorFlow menggunakan Python sebagai front-end API-nya serta mengeksekusi aplikasinya menggunakan bahasa pemrograman C . 7 Scikit-learn Scikit-learn merupakan machine learning library untuk bahasa pemrograman Python yang dapat digunakan secara gratis (Cournapeau, 2. Scikit-learn memiliki banyak fitur, seperti pemrosesan data, berbagai algoritma klasifikasi, regresi, dan clustering, serta evaluasi model. Scikit-learn didesain untuk dapat dioperasikan bersama library NumPy, numerical dan scientific library milik Python. 8 Hyperparameter Hyperparameter adalah parameter dari algoritma pembelajaran yang tidak terpengaruh oleh algoritma pembelajaran itu sendiri ( ron, 2. Hyperparameter harus diatur sebelum pelatihan dan tetap konstan selama pelatihan. Melakukan hyperparameter tuning merupakan tahapan penting dalam membangun model machine learning maupun deep learning. Hal ini dilakukan agar didapatkan model dengan performa optimal. 1 Epoch Epoch merupakan hyperparameter yang menentukan berapa kali neural network melakukan proses pelatihan terhadap seluruh dataset. Satu epoch artinya ketika seluruh dataset sudah melalui proses 2022 | Jurnal Ilmu Siber dan Teknologi Digital (JISTED) / Vol1 No1, 1-28 pelatihan pada neural network sampai dikembalikan lagi ke awal (Digmi, 2. Proses pelatihan model tidak dapat dilakukan hanya dengan menggunakan satu epoch. Hal ini dikarenakan dataset yang digunakan terbatas dan untuk mengoptimalkan grafik gradient descent perlu adanya proses Penentuan jumlah epoch bergantung pada keberagaman data pada dataset yang dimiliki. 2 Batch Size Batch size adalah jumlah sampel yang dimasukkan ke dalam neural network sebelum bobot Pada akhir batch, prediksi dibandingkan dengan variabel output yang diharapkan untuk dihitung error-nya. Dari error ini, dilakukan pembaruan bobot untuk memperbaiki model dengan menggunakan algoritma back-propagation yang bergerak mundur dari layer terakhir menuju layer Gradient descent memiliki 3 variasi berbeda berdasarkan batch size yang digunakan untuk melakukan proses update bobot ( ron, 2. , yaitu: Batch Gradient Descent Batch gradient descent menggunakan batch size yang sama dengan ukuran dataset pelatihan. Sehingga proses update bobot hanya dilakukan sekali setelah seluruh proses forwardpropagation selesai. Stochastic Gradient Descent Stochastic gradient descent adalah proses pembelajaran yang melakukan update untuk setiap 1 data. Mini-batch Gradient Descent Mini-batch gradient descent menggunakan batch size sebesar 2 pangkat m. Dipilih faktor 2 jumlah data karena memori memiliki ukuran faktor 2, sehingga juga dapat mengoptimalkan memori yang 3 Learning Rate Learning rate digunakan untuk menentukan seberapa banyak bobot pada neural network yang akan Ukuran learning rate merupakan salah satu hyperparameter yang berpengaruh dalam tercapainya solusi optimal dari gradient descent seperti yang ditunjukkan oleh Gambar 3. 8 ( ron. Gambar 3. 8 Gradient Descent dengan Solusi Optimal ( ron, 2. 4 Probabilitas Dropout Dropout merupakan proses menetapkan unit input di dalam jaringan menjadi 0 secara acak dengan probabilitas antara 0 dan 1 (Keras Team, 2. Unit input yang tidak ditetapkan menjadi 0 2022 | Jurnal Ilmu Siber dan Teknologi Digital (JISTED) / Vol1 No1, 1-28 ditingkatkan sebesar 1/. Oe ycyycycuycaycaycaycnycoycnycycay. , sehingga jumlah dari semua input tidak berubah. Proses ini dapat mencegah terjadinya overfitting dan juga mempercepat proses pelatihan. 5 Metode Pooling Pooling layer digunakan untuk mengurangi input dari perspektif spasial serta memfasilitasi pengurangan jumlah parameter jaringan, sehingga meningkatkan kecepatan komputasi dan juga mencegah overfitting (Muhammad et al. , 2. 6 Activation Function Activation function merupakan fungsi dalam neural network yang mendefinisikan bagaimana weighted sum dari input diubah menjadi output dari node di setiap lapisan neural network (Brownlee. Beberapa activation function yang sering digunakan, yaitu: Rectified Linear Activation (ReLU) Rectified Linear Activation (ReLU) merupakan activation function yang sering digunakan pada hidden layer karena mudah diimplementasikan dan efektif dalam mengatasi keterbatasan dari activatiom function populer lainnya, seperti Sigmoid dan Tanh. Logistic (Sigmoi. Sigmoid activation function disebut juga logistic function yang digunakan dalam algoritma klasifikasi logistic regression. Fungsi ini mengambil sembarang nilai real sebagai nilai input dan output dalam rentang 0 hingga 1. Semakin besar nilai input . emakin positi. , maka semakin dekat nilai output ke 1. Sedangkan semakin kecil nilai input . emakin negati. , maka semakin dekat nilai output menjadi 0. Fungsi sigmoid secara matematis dirumuskan oleh persamaan . ( ) di mana yce merupakan konstanta matematika, yang merupakan basis dari logaritma natural. Pada LSTM layer, fungsi sigmoid digunakan sebagai activation function untuk forget gate . ), input gate . ), dan output gate . Sedangkan pada output layer, fungsi sigmoid dapat bekerja dengan baik pada tugas binary classification karena kelas target hanya akan memiliki nilai 0 atau 1. Hyperbolic Tangent (Tan. Hyperbolic tangent activation function juga disebut sebagai fungsi tanh, yang sangat mirip dengan fungsi sigmoid. Bedanya, fungsi ini mengambil sembarang nilai real sebagai nilai input dan output dalam rentang -1 hingga 1. Semakin besar nilai input . emakin positi. , maka semakin dekat nilai output menjadi 1. Sedangkan semakin kecil nilai input . emakin negati. , maka semakin dekat nilai output menjadi -1. Fungsi tanh secara matematis dirumuskan oleh persamaan . ( ) di mana yce merupakan konstanta matematika, yang merupakan basis dari logaritma natural. Pada LSTM layer, fungsi tanh digunakan sebagai activation function untuk candidate cell state . ) dan final output gate . Linear Linear activation function juga disebut AuidentitasAy . ikalikan dengan . atau Auno activationAy karena fungsi ini tidak mengubah weighted sum dari input dengan cara apa pun dan mengembalikan nilai secara langsung. Fungsi linear secara matematis dirumuskan oleh persamaan . = ycu . Softmax 2022 | Jurnal Ilmu Siber dan Teknologi Digital (JISTED) / Vol1 No1, 1-28 Softmax activation function mengeluarkan nilai vektor berjumlah 1 yang dapat diinterpretasikan sebagai probabilitas keanggotaan kelas. Fungsi ini mirip dengan fungsi argmax yang menghasilkan 0 untuk semua kelas dan 1 untuk kelas yang dipilih. Softmax merupakan "softer" version dari fungsi argmax yang memungkinkan output dari setiap kelas memiliki nilai probabilitas yang apabila dijumlahkan akan berjumlah 1. Fungsi softmax secara matematis dirumuskan oleh persamaan . = Oc . di mana ycu merupakan vektor input, exp () merupakan fungsi eksponensial standar, ycuycn adalah vektor input pada elemen ke-i, ycuyc vektor input pada elemen ke-j yang akan dijumlahkan hasil perhitungan eksponensialnyahingga elemen ke-n, dan ycu adalah jumlah kelas. Fungsi softmax dapat bekerja dengan baik pada output layer untuk tugas multiclass classification, karena dapat menghasilkan vektor dengan panjang sesuai dengan jumlah kelas dan dinormalisasi agar memiliki jumlah probabilitas sama dengan 1. Vektor ini nantinya akan dibandingkan Loss Function 7 Loss Function Loss function pada neural network berperan untuk menghitung loss atau error antara nilai prediksi yang dihasilkan oleh model machine learning pada output layer dengan nilai aktual / target (Chauhan. Dari loss tersebut diperoleh gradien yang digunakan untuk memperbarui bobot dari setiap layer pada proses back-propagation. Cross-entropy merupakan loss function yang biasa digunakan untuk skenario tugas klasifikasi. Crossentropy loss juga disebut sebagai logarithmic loss, log loss, atau logistic loss. Nilai probabilitas dari setiap kelas yang diprediksi dibandingkan dengan kelas aktual yang diinginkan, yaitu 0 atau 1 untuk dihitung skor / loss yang menghukum probabilitas berdasarkan seberapa jauh dari nilai yang Hukumannya bersifat logaritmik yang menghasilkan skor besar untuk perbedaan besar yang mendekati 1 dan skor kecil untuk perbedaan kecil yang mendekati 0. Cross-entropy secara matematis dirumuskan dengan persamaan . ya Oc yc . cy ) . di mana ycA merupakan jumlah kelas, ycycn adalah nilai aktual dari kelas ke-i, dan ycyycn adalah nilai probabilitas hasil prediksi dari kelas ke-i. Terdapat 2 metode perhitungan cross-entropy yang berbeda untuk masing- masing permasalahan binary classification dan multiclass classification, yaitu: Binary Cross-Entropy Binary cross-entropy adalah loss function yang digunakan dalam tugas binary classification. Fungsi ini menjawab pertanyaan dengan hanya dua pilihan . a atau tidak. A atau B, 0 atau 1, kiri atau kanan. Apabila jumlah M = 2, maka binary cross-entropy secara matematis dirumuskan oleh persamaan . Oc yc ya . cy ) . = Oe. og() . Oe ) log. Oe )] di mana ycycn adalah nilai aktual dari kelas ke-i dan ycyycn adalah nilai probabilitas sigmoid hasil prediksi dari kelas ke-i. Sigmoid adalah satu-satunya activation function yang kompatibel dengan binary cross-entropy loss function, karena loss function ini perlu menghitung logaritma dari ycy dan . Oe yc. yang hanya ada jika ycy bernilai antara 0 dan 1. Categorical Cross-Entropy 2022 | Jurnal Ilmu Siber dan Teknologi Digital (JISTED) / Vol1 No1, 1-28 Categorical cross entropy adalah loss function yang digunakan dalam tugas multiclass classification. Fungsi ini didesain untuk mengukur perbedaan antara 2 distribusi probabilitas. Jika M > 2 . ulticlass classificatio. , dihitung loss terpisah untuk setiap kelas yang diamati dan dijumlahkan hasilnya. Categorical cross-entropy secara matematis dirumuskan oleh persamaan . Oc yc ya . cy ) . di mana ycA merupakan jumlah kelas, ycycn adalah nilai aktual dari kelas ke-i, dan ycyycn adalah nilai probabilitas softmax hasil prediksi dari kelas ke-i. Softmax adalah satu-satunya activation function yang disarankan untuk digunakan dengan categorical cross-entropy loss function. 9 Confusion Matrix Confusion matrix merupakan sebuah pengukuran performa yang sering digunakan pada masalah klasifikasi di mana output dapat terdiri dari dua kelas atau lebih. Terdapat empat atribut yang merupakan kombinasi dari nilai yang diprediksi . dan nilai yang sebenarnya . True Positive: Jumlah data yang bernilai positif baik pada kategori yang diprediksi maupun kategori yang sebenarnya. False Positive: Jumlah data yang bernilai positif pada kategori yang diprediksi tetapi bernilai negatif pada kategori yang sebenarnya. True Negative: Jumlah data yang bernilai negatif baik pada kategori yang diprediksi maupun kategori yang sebenarnya. False Negative: Jumlah data yang bernilai negatif pada kategori yang diprediksi tetapi bernilai positif pada kategori yang sebenarnya. Keempat atribut tersebut akan menjadi dasar perhitungan beberapa metrikevaluasi, yaitu: Accuracy Accuracy merupakan rasio prediksi benar . ositif dan negati. dengan keseluruhan data. Metrik ini paling umum digunakan karena mudah dihitung dan digunakan. Akan tetapi, metrik ini memiliki kekurangan yaitu kurang akurat untuk data yang tidak seimbang. Nilai accuracy dapat diperoleh dengan persamaan . Precision Precision merupakan rasio antara True Positive (TP) dengan keseluruhan data yang diprediksi positif. Sehingga, precision berusaha memperkecil terjadinya False Positive (FP). Nilai precision dapat diperoleh denganpersamaan . Recall Recall merupakan rasio antara True Positive (TP) dengan keseluruhan data yang kenyataannya bernilai Sehingga, recall berusaha memperkecil terjadinya False Negative (FN). Nilai recall dapat diperoleh dengan persamaan . F1-score F1-score merupakan harmonic mean dari precision dan recall. Nilai F1- score dapat diperoleh dengan persamaan . 2022 | Jurnal Ilmu Siber dan Teknologi Digital (JISTED) / Vol1 No1, 1-28 Metode penelitian 1 Deskripsi Umum Model Pada penelitian ini, diusulkan model klasifikasi teks berbasis multiclass classification pada tweet berbahasa Indonesia yang mengombinasikan model pre-trained IndoBERT dengan salah satu arsitektur Recurrent Neural Network (RNN), yaitu Long Short-Term Memory (LSTM). Proses pengembangan model terdiri dari beberapa langkah utama, yaitu pembuatan dataset, text preprocessing, pembuatan arsitektur model, pelatihan, dan evaluasi model. Adapun dataset yang digunakan merupakan kumpulan tweet berbahasa Indonesia yang diambil dengan metode crawling dari API Twitter. Model yang telah dikembangkan akan dibandingkan performanya dengan dua baseline model, yaitu Word2Vec-LSTM dan fine-tuned IndoBERT. 2 Pembuatan Dataset Dataset yang digunakan pada penelitian ini berupa data tweet berbahasa Indonesia. Data tersebut didapatkan melalui proses crawling pada Twitter. Implementasi crawling pada Twitter memerlukan API Key yang terdaftar untuk dapat berinteraksi dengan Twitter. Crawling dilakukan menggunakan bahasa pemrograman Python dan library Tweepy, serta menggunakan metode API Search. Data yang sudah diambil melalui proses crawling akan diberi label sesuai dengan topiknya. Data yang dikumpulkan terdapat sekitar 10. 000 tweet yang akan terklasifikasi ke dalam 10 kelas, yaitu beasiswa, bulutangkis, demokrasi, film, investasi, kecantikan, konser, pajak, sepakbola, dan wisata. Proses pelabelan data akan dibantu oleh 3 sampai 5 teman agar mendapatkan kualitas data yang baik serta menghindari bias. Setelah dilakukan proses pelabelan data, dilakukan pembersihan data secara manual untuk menghilangkan data tweet yang kurang relevan dengan kelasnya dan data tweet yang masih duplikat. Kemudian dilakukan splitting atau pemisahan data menggunakan library scikit-learn dengan perbandingan 70% untuk train set, 20% untuk validation set, dan 10% untuk test set. Sebagai persiapan pelatihan model, dilakukan proses one-hot encoding yang akan merepresentasikan data bertipe kategori sebagai vektor biner yang bernilai integer, 0 dan 1, di mana semua elemen akan bernilai 0 kecuali satu elemen yang bernilai 1, yaitu elemen yang memiliki nilai kategori tersebut. Dataset akan dibuat menjadi 2 skenario. Skenario pertama merupakan dataset asli yang tidak dilakukan modifikasi. Sedangkan skenario kedua merupakan dataset yang akan dilakukan modifikasi dengan menghilangkan kata- kata yang memiliki nilai informasi yang terlalu tinggi, di mana kata-kata tersebut merupakan nama dari setiap kategori itu sendiri. 3 Rancangan Model Klasifikasi Teks Model yang diusulkan pada penelitian ini adalah IndoBERT-LSTM. Model ini nantinya akan dibandingkan dengan dua baseline model, yaitu Word2Vec-LSTM dan fine-tuned IndoBERT. Secara keseluruhan, alur rancangan model klasifikasi teks akan terlihat seperti pada Gambar 4. 2022 | Jurnal Ilmu Siber dan Teknologi Digital (JISTED) / Vol1 No1, 1-28 Gambar 4. 1 Diagram Alur Pengembangan Model Klasifikasi Teks 1 Rancangan Text Preprocessing Setelah dataset didapatkan, selanjutnya dilakukan text preprocessing. Text preprocessing bertujuan untuk membersihkan noise dan fitur yang tidak diperlukan dari data teks agar menjadi lebih terstruktur dan dapat digunakan pada proses selanjutnya. Proses text preprocessing untuk model BERT cukup berbeda dengan model word embedding yang lain, karena menggunakan metode WordPiece tokenizer serta perlu membuat representasi input yang dapat diterima oleh model BERT. Sehingga, rancangan text preprocessing untuk model IndoBERT-LSTM dan fine-tuned IndoBERT akan terlihat seperti Gambar 4. Gambar 4. 2 Text Preprocessing IndoBERT-LSTM dan fine-tuned IndoBERT Sedangkan pada model Word2Vec-LSTM, rancangan text preprocessing akanterlihat seperti Gambar 2022 | Jurnal Ilmu Siber dan Teknologi Digital (JISTED) / Vol1 No1, 1-28 Gambar 4. 3 Text Preprocessing Word2Vec-LSTM 2 Rancangan Model IndoBERT-LSTM Representasi input yang telah dibuat akan diterima oleh model IndoBERT dan akan terus melalui tumpukan encoder. Setiap encoder mengaplikasikan self- attention dan memberikan output melalui feed-forward network yang kemudian dilanjutkan oleh encoder selanjutnya. Pada penelitian ini, digunakan model pre- trained IndoBERT dengan ukuran BERTBASE, sehingga proses embedding akan berlanjut sebanyak 12 kali. Arsitektur model IndoBERT-LSTM diilustrasikan oleh Gambar 4. Gambar 4. 4 Arsitektur IndoBERT-LSTM Penentuan hyperparameter merupakan langkah penting untuk mendapatkan model dengan performa Terdapat dua kelompok hyperparameter yang akan digunakan. Kelompok pertama merupakan hyperparameter yang sudah ditetapkan dan tidak perlu dilakukan tuning. Sedangkan kelompok kedua merupakan hyperparameter yang masih harus dilakukan tuning untuk mendapatkan model dengan performa terbaik. Tabel 4. 2 menunjukkan daftar hyperparameter yang akan digunakan pada model IndoBERT-LSTM. Tabel 4. 2 Daftar Hyperparameter pada Model IndoBERT-LSTM Kelompok Tidak perlu Perlu tuning Hyperparameter Epoch Max sequence Probabilitas dropout Activation function Loss function Batch fize Learning rate Value Softmax Categorical cross-entropy 16 atau 32 2e-5 atau 5e-5 2022 | Jurnal Ilmu Siber dan Teknologi Digital (JISTED) / Vol1 No1, 1-28 Metode pooling Average pooling atau max pooling 3 Rancangan Model Baseline Word2Vec-LSTM Model Word2Vec-LSTM akan berperan sebagai baseline model untuk perbandingan penggunaan model pre-trained word embedding yang berbeda. Arsitektur model Word2Vec-LSTM akan terlihat seperti pada Gambar 4. 5 Arsitektur Word2Vec-LSTM. Gambar 4. 5 Arsitektur Word2Vec-LSTM Hyperparameter yang digunakan sebagian besar mengacu pada penelitian yang telah dilakukan oleh Muhammad et al. , . Tabel 4. 3 menunjukkan daftar hyperparameter yang akan digunakan pada model Word2Vec-LSTM. Tabel 4. 3 Daftar Hyperparameter pada Model Word2Vec-LSTM Hyperparameter Epoch Batch size Max sequence Vector dimension Learning rate 0,001 Probabilitas dropout 20% Value 2022 | Jurnal Ilmu Siber dan Teknologi Digital (JISTED) / Vol1 No1, 1-28 Metode pooling Activation function Loss function Average pooling Softmax Categorical cross-entropy 4 Rancangan Model Baseline Fine-tuned IndoBERT Model fine-tuned IndoBERT akan berperan sebagai baseline model untuk perbandingan model yang menggunakan arsitektur LSTM dan yang tidak. Token yang digunakan pada proses fine-tuning untuk tugas klasifikasi teks hanyalah token [CLS] yang akan merepresentasikan keseluruhan kalimat. Vektor output dari token [CLS] akan dikirimkan melalui feed forward neural network agar dapat dilakukan klasifikasi teks berbasis multiclass classification. Arsitektur model fine- tuned IndoBERT akan terlihat seperti pada Gambar 4. Gambar 4. 6 Arsitektur Fine-tuned IndoBERT Ukuran model IndoBERT yang digunakan adalah BERTBASE. Tabel 4. 4 menunjukkan daftar hyperparameter yang akan digunakan pada model fine-tuned IndoBERT. Tabel 4. 4 Daftar Hyperparameter pada Model Fine-tuned IndoBERT Hyperparameter Value Epoch Batch size Max sequence Learning rate Probabilitas dropout 20% Activation function Softmax Loss function Categorical cross-entropy 5 Perhitungan Loss Model klasifikasi yang dikembangkan pada penelitian ini berbasis multiclass classification dengan jumlah kelas sebanyak 10. Sehingga, perhitungan loss yang cocok digunakan adalah categorical cross-entropy, karena dapat mengukur perbedaan antara 2 distribusi probabilitas. Vektor hasil prediksi terlebih dahulu dinormalisasi menggunakan fungsi aktivasi softmax agar memiliki probabilitas Selanjutnya, perhitungan loss dilakukan pada output layer dengan membandingkan vektor hasil prediksi yang telah dinormalisasi dengan vektor biner dari kelas sesungguhnya yang didapatkan melalui proses one-hot encoding. 2022 | Jurnal Ilmu Siber dan Teknologi Digital (JISTED) / Vol1 No1, 1-28 6 Rancangan Evaluasi Model Pengukuran performa model klasifikasi teks dilakukan berdasarkan metrik-metrik yang dihitung dari confusion matrix. Terdapat 10 kelas yang digunakan, sehingga akan terdapat 10 kolom dan 10 baris untuk confusion matrix. Tabel 4. 5 mengilustrasikan confusion matrix untuk 10 kelas. Tabel 4. 5 Rancangan Confusion Matrix untuk 10 Kelas Predicted Class Confusion Matrix True Class Confusion matrix tersebut akan digunakan sebagai dasar perhitungan metrik dalam mengevaluasi performa model. Metrik yang akan digunakan dalam membantu mengevaluasi pelatihan model IndoBERT-LSTM adalah validation accuracy. Sedangkan metrik yang digunakan pada proses pengujian untuk ketiga model klasifikasi teks adalah precision, recall, dan F1-score, karena metrik ini dapat menghindari bias pada perhitungan dengan data yang kurang seimbang. Hasil dan Pembahasan 1 Pembuatan Dataset Pembuatan dataset dilakukan melalui proses crawling dari aplikasi Twitter dengan bantuan library Tweepy. Proses crawling dilakukan secara berulang untuk setiap kategori, yaitu beasiswa, bulutangkis, demokrasi, film, investasi, kecantikan, konser, pajak, sepakbola, dan wisata. Cuplikan hasil dataset yang telah dibuat dapat dilihat pada Gambar 6. 2022 | Jurnal Ilmu Siber dan Teknologi Digital (JISTED) / Vol1 No1, 1-28 Gambar 6. 1 Sampel data dalam Dataset Proses pelatihan model dilakukan dalam 2 skenario dataset. Skenario pertama merupakan dataset asli yang tidak termodifikasi. Sedangkan skenario kedua merupakan dataset yang termodifikasi dengan menghilangkan kata-kata yang memiliki nilai informasi yang terlalu tinggi dalam melakukan klasifikasiteks, di mana kata-kata tersebut merupakan nama dari setiap kategori itu sendiri. 2 Hasil Model IndoBERT-LSTM 1 Hasil pada Dataset tidak Termodifikasi Proses pelatihan model IndoBERT-LSTM dilakukan sesuai dengan skenario pelatihan yang telah dirancang sebelumnya. Terdapat 8 skenario pelatihan yang merupakan kombinasi dari 3 hyperparameter yang di-tuning, yaitu batch size sebesar 16 dan 32, learning rate sebesar 2e-5 dan 5e5, serta pooling layer menggunakan average pooling dan max pooling. Hal ini dilakukan untuk menguji pengaruh dari setiap hyperparameter tersebut dalam menghasilkan model IndoBERT-LSTM Tabel 6. 1 Hasil Evaluasi pada Pelatihan Model IndoBERT-LSTM No. Batch Size Learning Rate Pooling Average Max Average Max Average Max Average Max Validation Accuracy 99,20% 99,00% 99,10% 98,95% 99,15% 99,00% 99,10% 99,00% Tabel 6. 1 menunjukkan hasil validation accuracy dari setiap skenario pelatihan model IndoBERTLSTM. Terlihat model pada skenario pertama dengan batch size sebesar 16, learning rate sebesar 2e5, dan metode pooling menggunakan average pooling berhasil mendapatkan validation accuracy tertinggi yang mencapai 99,20%. Apabila melihat hasil pelatihan model pada skenario ke-1 dan ke-5, model dengan jumlah batch size 16 memiliki validation accuracy yang lebih tinggi daripada jumlah batch size 32 meskipun perbedaannya tidak terlalu signifikan. Hal ini dikarenakan batch size yang lebih kecil lebih menimbulkan noise dan menawarkan efek regularisasi, sehingga menghasilkan generalization error yang lebih rendah. Perbedaan learning rate juga mempengaruhi hasil pelatihan model, di mana learning rate 2e-5 memiliki validation accuracy lebih tinggi daripada learning rate 5e-5 seperti yang terlihat pada perbandingan skenario ke-1 dan ke-3. Learning rate yang lebih besar menyebabkan perubahan gradient descent yang lebih besar pula, sehingga menyebabkan kurang tercapainya solusi optimal yang diinginkan. Sedangkan pada skenario penggunaan metode pooling, metode average pooling menghasilkan validation accuracy yang lebih baik daripada metode max Hal ini disebabkan vektor output yang dihasilkan oleh metode average pooling lebih merepresentasikan keseluruhan rangkaian vektor yang dihasilkan oleh layer sebelumnya dengan cara mengambil rata-ratanya, di mana pada metode max pooling hanya diambil vektor tertinggi yang belum tentu dapat merepresentasikan keseluruhan rangkaian vektor. 2022 | Jurnal Ilmu Siber dan Teknologi Digital (JISTED) / Vol1 No1, 1-28 Gambar 6. 2 Plot Akurasi Pelatihan Model IndoBERT-LSTM . Grafik perkembangan akurasi hasil pelatihan model IndoBERT-LSTM dengan skenario terbaik pada dataset yang tidak termodifikasi dapat dilihat pada Gambar 6. Terlihat pada epoch pertama model ini telah mencapai validation accuracy di atas 95% dan puncaknya berada pada epoch ke-4 dengan validation accuracy sebesar 99,20%. Pada epoch selanjutnya, model tidak lagi mengalami peningkatan akurasi, sehingga pelatihan model berhenti pada epoch ke-9. Total waktu yang dibutuhkan untuk melatih model IndoBERT-LSTM pada dataset yang tidak termodifikasi sekitar 30 Model juga terlihat tidak mengalami overfit. Gambar 6. 3 Confusion Matrix Pengujian Model IndoBERT-LSTM . Model IndoBERT-LSTM skenario terbaik dengan validation accuracy sebesar 99,20% disimpan agar dapat diuji dengan melakukan prediksi pada data test yang belum pernah ditemui sebelumnya. Dari hasil prediksi tersebut, dibuat confusion matrix seperti yang terlihat pada Gambar 6. Dapat dilihat bahwa model dapat mengklasifikasikan data test ke setiap kelas dengan sangat baik. Terdapat 4 kelas 2022 | Jurnal Ilmu Siber dan Teknologi Digital (JISTED) / Vol1 No1, 1-28 yang diprediksi dengan benar 100% dan kelas lain hanya mengalami sedikit kesalahan. Kelas dengan kesalahan terbanyak adalah kelasinvestasi yang diprediksi sebagai kelas pajak sebanyak 2 kali. Kesalahan-kesalahan prediksi tersebut bisa terjadi karena adanya kata-kata yang secara kontekstual memiliki arti yang sama namun digunakan pada beberapa kelas, atau karena tidak adanya kata-kata dengan nilai informasi yang tinggi pada tweet tersebut yang dapat dijadikan tumpuan oleh model dalam melakukan klasifikasi. Dari confusion matrix tersebut dapat dihitung nilai macro-average dari precision sebesar 98,92%, recall sebesar 98,90%, dan F1-score sebesar 98,90%. Terlihat model IndoBERT-LSTM menunjukkan performa yang sangat baik dalam mengklasifikasikan dataset yang tidak termodifikasi. 2 Hasil pada Dataset Termodifikasi Pada percobaan pelatihan menggunakan dataset tidak termodifikasi. Model IndoBERT-LSTM dapat dengan sangat mudah melakukan klasifikasi. Hal ini dikarenakan hampir di setiap data tweet terdapat kata-kata yang memiliki nilai informasi yang tinggi, yaitu kata-kata yang merupakan nama dari setiap kategori itu sendiri yang memudahkan model dalam melakukan klasifikasi. Oleh karena itu, dilakukan juga percobaan untuk memodifikasi dataset dengan cara menghilangkan kata-kata penting tersebut yang bertujuan untuk melihat bagaimana performa model pada dataset yang lebih sulit dan saling berdekatan. Gambar 6. 4 Plot Akurasi Pelatihan Model IndoBERT-LSTM . Pelatihan model IndoBERT-LSTM pada dataset yang telah termodifikasi dilakukan dengan menggunakan skenario kombinasi hyperparameter terbaik yang telah didapatkan pada pelatihan model dengan dataset yang belum termodifikasi. Grafik perkembangan akurasi hasil pelatihan model pada dataset yang telah termodifikasi dapat dilihat pada Gambar 6. Terlihat adanya perkembangan di mana pada epoch pertama model ini mendapatkan validation accuracy di atas 80% dan puncaknya berada pada epoch ke-7 dengan validation accuracy sebesar 92%. Pada epoch selanjutnya, model tidak lagi mengalami peningkatan akurasi, sehingga pelatihan model berhenti pada epoch ke-12. Total waktu yang dibutuhkan untuk melatih model IndoBERT-LSTM pada dataset yang telah termodifikasi sekitar 45 menit. Model sedikit mengalami overfit namun masih terbilang wajar karena perbedaan antara validation accuracy dengan training accuracy tidak terlalu signifikan. 2022 | Jurnal Ilmu Siber dan Teknologi Digital (JISTED) / Vol1 No1, 1-28 Gambar 6. 5 Confusion Matrix Pengujian Model IndoBERT-LSTM . Model IndoBERT-LSTM yang telah dilatih pada dataset yang telah termodifikasi dengan validation accuracy 92% disimpan agar dapat diuji dengan melakukan prediksi pada data test yang juga sudah termodifikasi dan belum pernah ditemui sebelumnya. Dari hasil prediksi tersebut, dibuat confusion matrix seperti yang terlihat pada Gambar 6. Terlihat model bisa mengklasifikasikan data test ke setiap kelas dengan cukup baik walaupun masih mengalami beberapa kesalahan. Kelas dengan kesalahan terbanyak adalah kelas sepakbola yang diprediksi sebagai kelas bulutangkis sebanyak 6 kali. Kelas lain dengan kesalahan cukup banyak adalah kelas bulutangkis yang diprediksi sebagai kelas konser dan kelas pajak yang diprediksi sebagai kelas konser sebanyak 5 kali. Dapat dilihat jumlah kesalahan prediksi pada dataset yang telah termodifikasi yang didapatkan menjadi lebih banyak jika dibandingkan dengan kesalahan pada dataset yang tidak termodifikasi. Hal ini wajar terjadi karena dengan dihapusnya kata-kata dengan nilai informasi yang tinggi, membuat model menjadi lebih sulit dalam memahami konteks dan melakukan klasifikasi pada tweet tersebut. Dari confusion matrix tersebut dapat dihitung nilai macro-average dari precision sebesar 92,99%, recall sebesar 92,80%, dan F1-score sebesar 92,83%. Meskipun telah dilakukan modifikasi pada dataset, model IndoBERT-LSTM tetap berhasil mendapatkan nilai di atas 90% untuk ketiga metrik 3 Hasil Model Baseline Word2Vec-LSTM 1 Hasil pada Dataset tidak Termodifikasi Pelatihan model baseline Word2Vec-LSTM dilakukan dengan menggunakan hyperparameter yang sebagian besar mengacu pada model milik Muhammad et al. , . Grafik perkembangan akurasi hasil pelatihan model pada dataset yang tidak termodifikasi dapat dilihat pada Gambar 6. Pada epoch pertama model ini mendapatkan validation accuracy di atas 85% dan terus mengalami peningkatan di mana puncaknya berada pada epoch ke-11 dengan validation accuracy sebesar 98,25%. Pada epoch selanjutnya, model tidak lagi mengalami peningkatan akurasi dan berhenti pada epoch ke-16. Total waktu yang dibutuhkan untuk melatih model Word2Vec-LSTM pada dataset yang tidak termodifikasi sekitar 3 menit. Model juga terlihat tidak mengalami overfit. 2022 | Jurnal Ilmu Siber dan Teknologi Digital (JISTED) / Vol1 No1, 1-28 Gambar 6. 6 Plot Akurasi Pelatihan Model Word2Vec-LSTM . Model Word2Vec-LSTM dengan validation accuracy sebesar 99,20% disimpan agar dapat diuji dengan melakukan prediksi pada data test yang belum pernah ditemui sebelumnya. Dari hasil prediksi tersebut, dibuat confusion matrix seperti yang terlihat pada Gambar 6. Dapat dilihat bahwa model dapat mengklasifikasikan data test ke setiap kelas dengan sangat baik. Terdapat 3 kelas yang diprediksi dengan benar 100% dan kelas lain hanya mengalami sedikit kesalahan. Kelas dengan kesalahan terbanyak adalah kelas demokrasi yang diprediksi sebagai kelas kecantikan dan kelas sepakbola serta kelas kecantikan yang diprediksi sebagai kelas sepakbola dan sebaliknya dengan jumlah kesalahan sebanyak 2 kali. Dari confusion matrix tersebut dapat dihitung nilai macro-average dari precision sebesar 98,22%, recall sebesar 98,20%, dan F1-score sebesar 98,20%. Terlihat model Word2Vec-LSTM menunjukkan performa yang sangat baik dalam mengklasifikasikan dataset yang tidak termodifikasi. Gambar 6. 7 Confusion Matrix Pengujian Model Word2Vec-LSTM . 2022 | Jurnal Ilmu Siber dan Teknologi Digital (JISTED) / Vol1 No1, 1-28 2 Hasil pada Dataset Termodifikasi Pelatihan model baseline Word2Vec-LSTM juga dilakukan pada dataset yang telah termodifikasi. Grafik perkembangan akurasi hasil pelatihan model Word2Vec-LSTM pada dataset yang telah termodifikasi dapat dilihat pada Gambar 6. Pada epoch pertama model ini mendapatkan validation accuracy di atas 70% dan terus mengalami peningkatan di mana puncaknya berada pada epoch ke-10 dengan validation accuracy sebesar 90,10%. Pada epoch selanjutnya, model tidak lagi mengalami peningkatan akurasi dan berhenti pada epoch ke-15. Total waktu yang dibutuhkan untuk melatih model Word2Vec-LSTM pada dataset yang telah termodifikasi sekitar 3 menit. Akan tetapi, walaupun model berhasil mendapatkan validation accuracy yang cukup tinggi, model ini terlihat mengalami overfit yang cukup jelas jika dibandingkan dengan grafik perkembangan training accuracy. Gambar 6. 8 Plot Akurasi Pelatihan Model Word2Vec-LSTM . Model Word2Vec-LSTM yang telah dilatih pada dataset yang telah termodifikasi dengan validation accuracy 90,10% disimpan agar dapat diuji dengan melakukan prediksi pada data test yang juga sudah termodifikasi dan belum pernah ditemui sebelumnya. Dari hasil prediksi tersebut, dibuat confusion matrix seperti yang terlihat pada Gambar 6. Kelas dengan kesalahan terbanyak adalah kelas bulutangkis yang diprediksi sebagai kelas konser sebanyak 7 kali. Kelas lain dengan kesalahan cukup banyak adalah kelas wisata yang diprediksi sebagai kelas konser sebanyak 6 kali. Dari confusion matrix tersebut dapat dihitung nilai macro-average dari precision sebesar 88,53%, recall sebesar 88,30%, dan F1-score sebesar 88,32%. Terlihat model Word2Vec-LSTM belum cukup baik dalam mengklasifikasikan dataset yang telah termodifikasi, di mana nilai dari ketiga metrik evaluasipengujian tidak mencapai 90%. 2022 | Jurnal Ilmu Siber dan Teknologi Digital (JISTED) / Vol1 No1, 1-28 Gambar 6. 9 Confusion Matrix Pengujian Model Word2Vec-LSTM . 4 Hasil Model Baseline Fine-tuned IndoBERT 1 Hasil pada Dataset tidak Termodifikasi Pelatihan model baseline fine-tuned IndoBERT dilakukan dengan menggunakan hyperparameter yang mengacu pada model milik Koto et al. , . dalam melakukan fine-tuning untuk tugas sentiment analysis. Grafik perkembangan akurasi hasil pelatihan model fine-tuned IndoBERT pada dataset yang tidak termodifikasi dapat dilihat pada Gambar 6. Terlihat pada epoch pertama model ini telah mencapai validation accuracy sekitar 95% dan puncaknya berada pada epoch ke-6 dengan validation accuracy sebesar 99,15%. Pada epoch selanjutnya, model tidak lagi mengalami peningkatan akurasi, sehingga pelatihan model berhenti pada epoch ke-11. Total waktu yang dibutuhkan untuk melatih model fine-tuned IndoBERT pada dataset yang tidak termodifikasi sekitar 40 menit. Model juga terlihat tidak mengalami overfit. Gambar 6. 10 Plot Akurasi Pelatihan Model Fine-tuned IndoBERT . Model fine-tuned IndoBERT dengan validation accuracy sebesar 99,15% disimpan agar dapat diuji dengan melakukan prediksi pada data test yang belum pernah ditemui sebelumnya. Dari hasil prediksi 2022 | Jurnal Ilmu Siber dan Teknologi Digital (JISTED) / Vol1 No1, 1-28 tersebut, dibuat confusion matrix seperti yang terlihat pada Gambar 6. Dapat dilihat bahwa model dapat mengklasifikasikan data test ke setiap kelas dengan sangat baik. Terdapat 4 kelas yang diprediksi dengan benar 100% dan kelas lain hanya mengalami sedikit kesalahan. Kelas dengan kesalahan terbanyak adalah kelas bulutangkis yang diprediksi sebagai kelas sepakbola, kelas demokrasi yang diprediksi sebagai kelas pajak, dan kelas investasi yang diprediksi sebagai kelas pajak dengan jumlah kesalahan sebanyak 2 kali. Dari confusion matrix tersebut dapat dihitung nilai macro-average dari precision sebesar 98,54%, recall sebesar 98,50%, dan F1-score sebesar 98,50%. Terlihat model fine-tuned IndoBERT menunjukkan performa yang sangat baik dalam mengklasifikasikan dataset yang tidak termodifikasi. Gambar 6. 11 Confusion Matrix Pengujian Model Fine-tuned IndoBERT . 2 Hasil pada Dataset Termodifikasi Pelatihan model baseline fine-tuned IndoBERT juga dilakukan pada dataset yang telah termodifikasi. Grafik perkembangan akurasi hasil pelatihan model fine-tuned IndoBERT pada dataset yang telah termodifikasi dapat dilihat pada Gambar 6. Pada epoch pertama model ini mendapatkan validation accuracy di atas 70% dan terus mengalami peningkatan di mana puncaknya berada pada epoch ke-10 dengan validation accuracy sebesar 92,25%. Pada epoch selanjutnya, model tidak lagi mengalami peningkatan akurasi dan berhenti pada epoch ke-15. Total waktu yang dibutuhkan untuk melatih model fine-tuned IndoBERT pada dataset yang telah termodifikasi sekitar 55 menit. Model sedikit mengalami overfit namun masih terbilang wajar karena perbedaan antara validation accuracy dengan training accuracy tidak terlalu signifikan. 2022 | Jurnal Ilmu Siber dan Teknologi Digital (JISTED) / Vol1 No1, 1-28 Gambar 6. 12 Plot Akurasi Pelatihan Model Fine-tuned IndoBERT . Model fine-tuned IndoBERT yang telah dilatih pada dataset yang telah termodifikasi dengan validation accuracy 92,25% disimpan agar dapat diuji dengan melakukan prediksi pada data test yang juga sudah termodifikasi dan belum pernah ditemui sebelumnya. Dari hasil prediksi tersebut, dibuat confusion matrix seperti yang terlihat pada Gambar 6. Terlihat model bisa mengklasifikasikan data test ke setiap kelas dengan cukup baik walaupun masih mengalami beberapa kesalahan. Kelas dengan kesalahan terbanyak adalah kelas konser yang diprediksi sebagai kelas bulutangkis dan kelas pajak yang diprediksi sebagai kelas demokrasi dengan jumlah kesalahan sebanyak 7 kali. Kelas lain dengan kesalahan cukup banyak adalah kelas sepakbola yang diprediksi sebagai kelas bulutangkis sebanyak 6 Dari confusion matrix tersebut dapat dihitung nilai macro-average dari precision sebesar 92,36%, recall sebesar 92,10%, dan F1-score sebesar 92,14%. Meskipun telah dilakukan modifikasi pada dataset, model fine-tuned IndoBERT tetap berhasil mendapatkan nilai di atas 90% untuk ketiga metrik Gambar 6. 13 Confusion Matrix Pengujian Model Fine-tuned IndoBERT . 5 Perbandingan Model Hasil perhitungan nilai precision, recall, dan F1-score dari masing-masing model dapat dilihat pada 2022 | Jurnal Ilmu Siber dan Teknologi Digital (JISTED) / Vol1 No1, 1-28 Tabel 6. Dapat dilihat bahwa model IndoBERT-LSTM dengan skenario kombinasi hyperparameter terbaik berhasil mendapatkan nilai tertinggi di setiap metrik, baik pada dataset yang tidak termodifikasi maupun padadataset yang telah termodifikasi. Tabel 6. 2 Hasil Evaluasi pada Pengujian Ketiga Model Klasifikasi Teks F1Dataset Model Precision Recall IndoBERT98,92% 98,90% 98,90% LSTM Tidak Word2Vec98,22% 98,20% 98,20% Termodifikasi LSTM Fine-tuned 98,54% 98,50% 98,50% IndoBERT IndoBERT92,99% 92,80% 92,83% LSTM Termodifikasi Word2Vec88,53% 88,30% 88,32% LSTM Fine-tuned 92,36% 92,10% 92,14% IndoBERT Epoch Waktu Pelatihan A 30 menit A 3 menit A 40 menit A 45 menit A 3 menit A 55 menit 1 Perbandingan Penggunaan Word Embedding Model IndoBERT-LSTM mengalami peningkatan yang cukup signifikan dibandingkan dengan model baseline Word2Vec-LSTM. Dilihat dari hasil perhitungan F1-score, model IndoBERT-LSTM berhasil mengalami peningkatan sebanyak 0,70% pada dataset yang tidak termodifikasi dan 4,51% pada dataset yang telah termodifikasi. Apabila dilakukan perbandingan hasil confusion matrix pada dataset yang telah termodifikasi, hampir di setiap kelas jumlah kesalahan prediksi yang dihasilkan oleh model IndoBERT-LSTM lebih sedikit jika dibandingkan dengan model Word2Vec-LSTM. Persebaran kesalahan prediksi pada model IndoBERT-LSTM juga terlihat lebih terfokus pada kelas yang secara kontekstual cukup berdekatan dengan kelas yang sesungguhnya, di mana pada model Word2Vec-LSTM kesalahan prediksinya lebih tersebar ke beberapa kelas. Model IndoBERT-LSTM dapat bekerja lebih baik dibandingkan model Word2Vec-LSTM dikarenakan IndoBERT merupakan context-dependent embedding yang dapat menghasilkan lebih dari satu representasi vektor untuk kata yang sama berdasarkan konteks di mana kata tersebut digunakan dalam suatu kalimat. Di sisi lain. Word2Vec merupakan context-independent embedding yang hanya dapat menghasilkan satu representasi vektor untuk kata yang sama meskipun memiliki konteks yang berbeda dalam suatu kalimat. IndoBERT juga dapat menangani permasalahan out-of-vocabulary dengan baik karena menggunakan WordPiece tokenizer yang dapat memecah suatu kata menjadi subkata apabila kata tersebut tidak ada di vocabulary. Sedangkan Word2Vec hanya menggunakan tokenizer biasa, sehingga apabila terdapat kata-kata yang tidak tercantum dalam vocabulary, kata-kata tersebut akan diberi nilai vektor nol. Jika diperhatikan dari kompleksitas waktunya, total epoch yang dibutuhkan oleh model IndoBERTLSTM memang lebih sedikit dari model Word2Vec-LSTM. Akan tetapi, waktu yang dibutuhkan untuk menyelesaikan 1 epoch pada model IndoBERT-LSTM cukup lama, yaitu sekitar 3 - 4 menit, dibandingkan dengan model Word2Vec-LSTM yang hanya membutuhkan beberapa detik saja. Sehingga, total waktu pelatihan dari model Word2Vec-LSTM masih jauh lebih cepat dibandingkan model IndoBERT-LSTM. Hal ini dikarenakan IndoBERT perlu mempelajari konteks dari setiap kata dalam suatu kalimat, sedangkan Word2Vec tidak terikat pada konteks dan hanya melakukan pairing kata pada vocabulary. 2022 | Jurnal Ilmu Siber dan Teknologi Digital (JISTED) / Vol1 No1, 1-28 2 Perbandingan Penggunaan Metode Pengklasifikasi Model IndoBERT-LSTM juga mengalami peningkatan jika dibandingkan dengan model baseline fine-tuned IndoBERT meskipun peningkatannya tidak terlalu signifikan. Dilihat dari hasil perhitungan F1-score, model IndoBERT- LSTM berhasil mengalami peningkatan sebanyak 0,40% pada dataset yang tidak termodifikasi dan 0,69% pada dataset yang telah termodifikasi. Apabila dilakukan perbandingan hasil confusion matrix pada dataset yang telah termodifikasi, jumlah kesalahan prediksi yang dihasilkan oleh model IndoBERT-LSTM lebih sedikit jika dibandingkan dengan model fine-tuned IndoBERT meskipun tidak terjadi di setiap kelas. Dilihat dari persebaran kesalahan prediksinya, kedua model sama-sama terfokus pada kelas yang secara kontekstual cukup berdekatan dengan kelas yang sesungguhnya. Model IndoBERT-LSTM dapat bekerja lebih baik dibandingkan model fine-tuned IndoBERT dikarenakan LSTM memiliki feedback connection yang memungkinkan untuk mempertahankan informasi dalam memori dari waktu ke waktu dengan jangka waktu yang lama. Hal ini yang membuat LSTM dapat memproses seluruh rangkaian token dan memberikan pembelajaran yang lebih baik, dibandingkan dengan feedforward neural network standar yang hanya dapat memproses token Jika diperhatikan dari kompleksitas waktunya, total epoch yang dibutuhkan oleh model IndoBERTLSTM lebih sedikit dari model fine-tuned IndoBERT. Waktu yang dibutuhkan untuk menyelesaikan 1 epoch hampir sama untuk kedua model, yaitu sekitar 3 Ae 4 menit. Karena total epoch dari model IndoBERT-LSTM lebih sedikit, maka total waktu pelatihan model ini juga lebih cepat dibandingkan dengan model fine-tuned IndoBERT. Hal ini menunjukkan proses pelatihan pada model IndoBERTLSTM mampu mendapatkan validation accuracy tertinggi dengan lebih cepat. Kesimpulan Pada penelitian ini telah dibahas mengenai model klasifikasi teks berbasis multiclass classification pada tweet berbahasa Indonesia yang diberi nama IndoBERT-LSTM. Adapun kesimpulan yang dapat diambil dari penelitian yang telah dilakukan yaitu: Berdasarkan hasil pengujian dan perbandingan, kombinasi model pre- trained IndoBERT dan Long Short-Term Memory (LSTM) terbukti dapat memberikan pemahaman yang lebih baik dalam mengklasifikasikan teks, baik pada dataset yang tidak termodifikasi maupun dataset yang telah Model IndoBERT-LSTM dengan skenario kombinasi hyperparameter terbaik . atch size sebesar 16, learning rate sebesar 2e-5, dan menggunakan average poolin. berhasil mendapatkan F1-score sebesar 98,90% pada dataset yang tidak termodifikasi . eningkatan 0,70% dari model Word2VecLSTM dan 0,40% dari model fine-tuned IndoBERT) dan 92,83% pada dataset yang telah termodifikasi . eningkatan 4,51% dari model Word2Vec-LSTM dan 0,69% dari model fine-tuned IndoBERT). Peningkatan performa model IndoBERT-LSTM dari model fine-tuned IndoBERT tidak terlalu Total waktu pelatihan model Word2Vec-LSTM masih jauh lebih cepat, yaitu sekitar 3 menit untuk kedua dataset, dibandingkan dengan model IndoBERT-LSTM yang membutuhkan waktu sekitar 30 dan 45 menit. Akan tetapi, model IndoBERT-LSTM masih lebih cepat jika dibandingkan dengan model fine-tuned IndoBERT yang membutuhkan waktu sekitar 40 dan 55 menit. 1 Saran Pada penelitian ini telah dikembangkan model klasifikasi teks berbasis multiclass classification pada tweet berbahasa Indonesia dengan kombinasi IndoBERT dan Long Short-Term Memory (LSTM). Oleh sebab itu, saran untuk penelitian-penelitian berikutnya bisa mengombinasikan IndoBERT dengan metode pengklasifikasi yang lebih bervariasi, seperti Convolutional Neural Network (CNN). Bidirectional Long Short-Term Memory (Bi-LSTM), dsb, atau dengan melatih model pada multiclass dataset berbasis emosi atau sentimen karena memiliki tingkat pemahaman bahasa yang lebih sulit. 2022 | Jurnal Ilmu Siber dan Teknologi Digital (JISTED) / Vol1 No1, 1-28 Referensi