Journal of Computer System and Informatics (JoSYC) ISSN 2714-8912 . edia onlin. ISSN 2714-7150 . edia ceta. Volume 5. No. May 2024. Page 567-577 https://ejurnal. seminar-id. com/index. php/josyc DOI 10. 47065/josyc. Perbandingan Performa Klasifikasi Terjemahan Al-Qur'an Menggunakan Metode Random Forest dan Long Short Term Memory Dhea Putri Aftari. Nazruddin Safaat H*. Surya Agustian. Yusra. Iis Afrianty Fakultas Sains dan Teknologi. Teknik Informatika. Universitas Islam Negeri Sultan Syarif Kasim Riau. Pekanbaru. Indonesia Email: 112050120341@students. uin-suska. id, 2,*nazruddin. safaat@uin-suska. id, 3,surya. agustian@uin-suska. yusra@uin-suska. id 5,iis. afrianty@uin-suska. Email Penulis Korespondensi: nazruddin. safaat@uin-suska. Submitted: 10/05/2024. Accepted: 18/05/2024. Published: 30/05/2024 AbstrakOePenelitian ini berfokus pada penggunaan Al-Qur'an sebagai sumber utama ajaran Islam dengan tujuan mempermudah pemahaman umat Islam terhadap isinya. Untuk mencapai tujuan ini, dilakukan pengelompokan ayat terjemahan Al-Qur'an melalui proses klasifikasi. Dua metode yang jarang digunakan untuk data terjemahan Al-Qur'an adalah Random Forest (RF) dan Long Short Term Memory (LSTM), karena keduanya mampu mengolah data besar dan kompleks. Data yang digunakan dalam penelitian ini adalah terjemahan Al-Qur'an yang telah diklasifikasikan ke dalam 15 topik oleh penelitian sebelumnya, namun penelitian ini hanya berfokus pada 6 topik. Tujuan penelitian ini adalah membandingkan kinerja RF dan LSTM dalam mengklasifikasikan terjemahan Al-Qur'an ke dalam 6 kategori berbeda. Hasil penelitian menunjukkan bahwa pada kategori dakwah. LSTM secara konsisten mengungguli RF, dengan nilai F1-Score sebesar 57,3% dan accuracy 96,8%, sedangkan RF memiliki F1-Score sebesar 49,4% dan accuracy 97,5%. Temuan ini menunjukkan bahwa LSTM memiliki kinerja yang lebih baik, terutama dengan preprocessing yang tepat, penyetelan parameter optimal, dan data yang seimbang. Penelitian ini memberikan wawasan penting dalam pengembangan model klasifikasi untuk teks terjemahan Al-Qur'an, serta menekankan pentingnya proses preprocessing dan penyetelan parameter yang tepat. Kata Kunci: Accuracy. Klasifikasi. Long Short Term Memory. Preprocessing. Penyetelan Parameter. Terjemahan AlQur'an. Random Forest AbstractOeThis study focuses on the use of the Qur'an as the primary source of Islamic teachings, aiming to facilitate Muslims' understanding of its content. To achieve this, the classification of translated Qur'anic verses was conducted. Two methods that are rarely used for Qur'anic translation data are Random Forest (RF) and Long Short Term Memory (LSTM) due to their ability to process large and complex data. The data used in this study are translations of the Qur'an that have been classified into 15 topics by previous research, but this study will only focus on 6 topics. The objective of this research is to compare the performance of RF and LSTM in classifying Qur'anic translations into 6 different categories. The results show that in the preaching category. LSTM consistently outperformed RF, with an F1-Score of 57. 3% and an accuracy of 96. whereas RF achieved an F1-Score of 49. 4% and an accuracy of 97. These findings indicate that LSTM has better performance, especially with proper preprocessing, optimal parameter tuning, and balanced data. This study provides important insights into the development of classification models for Qur'anic translation texts, highlighting the importance of proper preprocessing and parameter tuning. Keywords: Accuracy. Classification. Quran Translation. Parameter Tuning. Preprocessing. Long Short Term Memory. Random Forest PENDAHULUAN Menurut Kemenag pada tahun 2023, proyeksi populasi dunia dan umat Muslim menunjukkan peningkatan signifikan dalam beberapa dekade mendatang. Diperkirakan populasi dunia akan tumbuh sebesar 32%, sementara umat Muslim diproyeksikan meningkat sekitar 70% hingga tahun 2060. Islam, sebagai agama yang diperkenalkan oleh Nabi Muhammad SAW. , memiliki sumber utama dari Al-Qur'an dan hadis. Al-Qur'an dianggap sebagai firman Allah yang diwahyukan kepada Nabi Muhammad SAW. melalui ruh al-amin (Jibri. dalam bahasa Arab. Kandungan Al-Qur'an dijamin kebenarannya dan dianggap sebagai panduan kerasulan Nabi, petunjuk ibadah, sumber hukum, dan landasan utama dalam kehidupan manusia . Sebagai umat Islam, tentunya diwajibkan untuk memahami dan mengamalkan Al-QurAoan sebagai pedoman hidup. Untuk memaksimalkannya, upaya yang dapat dilakukan yaitu dengan dilakukannya proses mengkategorikan ayat-ayat Al-QurAoan berdasarkan tema atau topik, melalui proses pengelompokan yang memanfaatkan terjemahan untuk memberikan kemudahan bagi umat Islam dalam memahami isi Al-Qur'an. Seperti pada penelitian yang mengklasifikasikan ayat-ayat Al-QurAoan menggunakan Doc2vec . Klasifikasi teks saat ini menjadi tren populer, seperti yang ditunjukkan dalam penelitian oleh Pane & Mubarok pada tahun 2018 yang mengklasifikasikan Al-Qur'an berdasarkan struktur, tema, dan gaya bahasa. Topik yang dibahas ayat-ayat Al-QurAoan dapat diklasifikasikan ke dalam 15 kelas, yaitu . Arkanul Islam, . Iman, . Al-QurAoan, . Ilmu dan Cabang-cabangnya, . Amal, . Dakwah, . Jihad, . Manusia dan Hubungan Kemasyarakatan, . Akhlak, . Peraturan yang Berhubungan dengan Harta, . Hal-hal yang Berkaitan dengan Hukum, . Negara dan Masyarakat, . Pertanian dan Perdagangan, . Sejarah dan Kisah-kisah, dan . Agama-agama. Dalam klasifikasi Al-Qur'an, setiap ayat memiliki potensi untuk termasuk ke beberapa kelas, yang dikenal sebagai klasifikasi multi-label. Namun, kelemahan penelitian ini Copyright A 2024 Author. Page 567 This Journal is licensed under a Creative Commons Attribution 4. 0 International License Journal of Computer System and Informatics (JoSYC) ISSN 2714-8912 . edia onlin. ISSN 2714-7150 . edia ceta. Volume 5. No. May 2024. Page 567-577 https://ejurnal. seminar-id. com/index. php/josyc DOI 10. 47065/josyc. adalah accuracy yang belum optimal karena ketidakseimbangan data antar kelas Al-Qur'an. Saran yang diajukan adalah melakukan penyeimbangan penggunaan data untuk meningkatkan hasil klasifikasi terjemahan ayat AlQur'an. Random Forest sangat banyak digunakan dalam proses klasifikasi, seperti untuk memprediksi win ratio pemain PUBG(Player Unknown Battle Groun. berdasarkan data statistik yang dimana tahap awal melibatkan pengumpulan dan seleksi atribut relevan . Klasifikasi dengan Bayesian weighted Random Forest juga digunakan untuk klasifikasi data yang berdimensi tinggi . Disisi lain, penggunaan algoritma Random Forest untuk klasifikasi kebakaran hutan di Riau . Implementasi Random Forest juga dilakukan untuk menentukan penerima bantuan raskin . , dan untuk klasifikasi kata sarkasme pada media social facebook. Klasifikasi dengan Random Forest juga digunakan untuk dataset credit approval . , dan pada kasus gagal jantung diklasifikasikan dengan menggunakan Random Forest dan Nayve Bayes . Random Forest, sebagai algoritma Machine Learning, memiliki keunggulan dalam memproses data besar secara efisien dan telah menjadi populer dalam penelitian beberapa tahun terakhir. Sebagai contoh. Penelitian . melakukan penelitian menggabungkan metode SIFT dan Random Forest dalam klasifikasi motif Songket Palembang, mencapai accuracy rata-rata sebesar 92,98%. Meskipun demikian, kelemahan muncul karena tidak semua objek citra dapat diklasifikasikan sepenuhnya, disarankan untuk memperbanyak dataset agar klasifikasi menggunakan Random Forest berjalan lebih baik. Penelitian lain oleh Husin, tentang membandingkan algoritma Random Forest. Naive Bayes, dan BERT untuk klasifikasi multi-class pada artikel CNN. Meski mencapai accuracy sempurna pada tahap pelatihan, terdapat kekurangan dalam lamanya proses pencarian kombinasi parameter, dengan saran untuk menggunakan dataset seimbang dan perangkat dengan spesifikasi memadai guna meningkatkan efisiensi selama penelitian. Selain algoritma Machine Learning, proses klasifikasi juga menggunakan pendekatan Deep Learning, khususnya dengan menggunakan Long Short Term Memory (LSTM). Keunggulan Deep Learning terletak pada kemampuannya untuk menganalisis hubungan nonlinier yang kompleks melalui representasi fitur hierarkis dan LSTM dapat mengatasi ketergantungan jangka panjang dalam data deret waktu, yang seringkali menjadi hambatan bagi metode tradisional . Penelitian . menunjukkan bahwa LSTM memiliki kinerja lebih baik daripada Convolutional Neural Network (CNN) dalam klasifikasi teks. Namun, masalah muncul pada waktu pelatihan yang lama ketika memproses teks dengan panjang yang signifikan. Untuk meningkatkan kinerja klasifikasi, disarankan untuk memaksimalkan penggunaan label, membagi data label, dan memperluas fitur node pada analisis sintaksis untuk meminimalkan masalah waktu pelatihan yang lama. Dalam konteks klasifikasi. LSTM digunakan untuk mengatasi masalah pemrosesan teks yang panjang dan urutan data. LSTM memiliki memori sel yang membantu sistem untuk mempertahankan kondisinya, sehingga dapat mengatasi masalah "exploding" dan "vanishing gradient" yang sering terjadi pada jaringan saraf rekuren. Dengan demikian. LSTM memungkinkan pengolahan teks yang lebih panjang dan kompleks, sehingga cocok digunakan dalam analisis sentimen terhadap teks panjang seperti ulasan hotel . Di sisi lain. LSTM digunakan pada penelitian klasifikasi Sentimen Vaksin Covid-19 pada twitter. Yang mana hasil dari penelitian tersebut dapat menghasilkan model menjadi kalimat baru . Penelitian lain yang menggunakan metode Long Short Term Memory (LSTM) untuk memprediksi harga saham, menguji beberapa parameter seperti jumlah layer, epoch, dan time step untuk mendapatkan model prediksi yang optimal . Penelitian yg serupa melakukan prediksi harga listrik berdasarkan model hibrida jaringan syaraf tiruan LSTM yang dioptimasi adam dan transformasi wavelet . Dari isu yang telah dijelaskan sebelumnya diatas. Penulis berencana melakukan penelitian dengan memanfaatkan dataset dari penelitian . yang berjumlah 15 topik. Tetapi dalam penelitian ini hanya akan berfokus pada 6 topik terjemahan Al-Qur'an, yakni Dakwah. Jihad. Manusia dan Hubungan Kemasyarakatan. Akhlak, dan Peraturan yang Berhubungan dengan Harta, serta satu topik tambahan untuk data yang tidak termasuk ke dalam kelas manapun . Penelitian ini menerapkan metode Random Forest dan Long Short Term Memory, yang masih jarang digunakan dalam penelitian klasifikasi Al-QurAoan, yang bertujuan untuk meningkatkan accuracy dari hasil klasifikasi pada data terjemahan Al-QurAoan yang tidak seimbang. Perbandingan hasil accuracy antara metode Random Forest dalam Machine Learning dan LSTM dalam Deep Learning juga menjadi fokus penelitian ini. METODOLOGI PENELITIAN 1 Tahapan Penelitian Dalam penelitian ini, berbagai tahapan metodologi akan dijalankan secara sistematis untuk mencapai tujuan yang telah ditetapkan. Berikut gambar 1 adalah langkah-langkah dari proses metodologi penelitian yang akan dijalankan pada penelitian ini. Copyright A 2024 Author. Page 568 This Journal is licensed under a Creative Commons Attribution 4. 0 International License Journal of Computer System and Informatics (JoSYC) ISSN 2714-8912 . edia onlin. ISSN 2714-7150 . edia ceta. Volume 5. No. May 2024. Page 567-577 https://ejurnal. seminar-id. com/index. php/josyc DOI 10. 47065/josyc. Gambar 1. Alur metode penelitian Random Forest dan Long Short Term Memory Dari Gambar 1, dapat dijelaskan bahwa penelitian ini menggunakan data dari terjemahan Al-QurAoan yang kemudian diolah dengan proses prepocessing, vectorizer, dan split data pada data training lalu diuji kedalam algoritma Machine Learning dengan menggunakan Random Forest dan algoritma Deep Learning menggunakan Long Short Term Memory. Sedangkan untuk data Testing tidak dilakukan split karena data sudah di split dari Dari proses tersebut menghasilkan hasil optimal score yang berisi nilai optimal dari masing- masing data. 2 Dataset Penelitian ini memanfaatkan dataset Al-Qur'an yang mulia. , sebagai sumber data terjemahan Al-QurAoan berbahasa indonesia, kemudian data telah diberi label oleh Pane dan Mubarok pada penelitiannya yang berjumlah 15 label . Adapun 15 topik yang terdapat pada data Al-QurAoan yaitu Arkanul Islam. Iman. AlQurAoan. Ilmu dan Cabang-cabangnya. Amal. Dakwah. Jihad. Manusia dan Hubungan Kemasyarakatan. Akhlak. Peraturan yang Berhubungan dengan Harta. Hal-hal yang Berkaitan dengan Hukum. Negara dan Masyarakat. Pertanian dan Perdagangan. Sejarah dan Kisah-kisah, dan Agama-agama. Dan 1 topik untuk kelas yang tidak termasuk ke dalam topik manapun . Tetapi pada penelitian ini hanya membahas 6 kelas saja yaitu Dakwah. Jihad. Manusia dan Hubungan Kemasyarakatan. Akhlak. Peraturan yang Berhubungan dengan Harta dan undefined class. Dataset bersumber dari data Al-QurAoan yang mulia berbahasa Indonesia. Data Training dan Validation Data training terdiri dari 22% yang digunakan pada penelitian ini menggunakan surah ke 2(Al-Baqara. sampai dengan surat ke 6 (Al-AnAoa. yang berjumlah 917 ayat, serta pada surah ke 67 (Al-Mul. berjumlah 431 ayat sampai dengan surah ke 77 (Al-Mursala. total dari data training yaitu 1244. Adapun untuk data Validation diambil dari 10% data training. Data Test Data Test yang digunakan dalam penelitian ini jumlah keseluruhannya terdapat 16 juz dan 3551 ayat. Pembagian juz berdasarkan kategori ayat-ayat panjang . uz 10 sampai juz . sebanyak 2003 ayat, ayat-ayat sedang . uz 25 sampai juz . sebanyak 977 ayat dan ayat-ayat pendek . uz 30 dan Al-Fatiha. sebanyak 571 3 Text Prepocessing Text prepocessing pada klasifikasi teks Al-Qur'an bertujuan untuk mencapai kinerja optimal dengan merepresentasikan dokumen sebagai vektor fitur. Proses ini melibatkan tokenisasi dokumen, representasi dalam ruang vektor data, penghapusan fitur non-informatif seperti stop words, angka, dan karakter khusus. Fitur-fitur yang tersisa mengalami standarisasi melalui proses stemming untuk mereduksi kata-kata ke bentuk akar. Meskipun telah dilakukan penghapusan fitur tidak informatif, proses stemming, dan standardisasi, diperlukan penerapan ambang batas untuk mengurangi dimensi ruang fitur pada setiap dokumen teks. 4 Vectorizer Feature Construction adalah proses kunci dalam analisis data yang melibatkan pembuatan fitur baru berdasarkan hubungan antara fitur yang ada, dengan tujuan meningkatkan kinerja algoritma klasifikasi . Dalam penelitian Copyright A 2024 Author. Page 569 This Journal is licensed under a Creative Commons Attribution 4. 0 International License Journal of Computer System and Informatics (JoSYC) ISSN 2714-8912 . edia onlin. ISSN 2714-7150 . edia ceta. Volume 5. No. May 2024. Page 567-577 https://ejurnal. seminar-id. com/index. php/josyc DOI 10. 47065/josyc. ini, menggunakan proses vectorizer yang merupakan sebuah konsep dalam pemrosesan teks yang menggabungkan teknik TF. IDF (Term Frequency-Inverse Document Frequenc. untuk mengekstraksi fitur dari TF. IDF memberikan bobot pada kata-kata berdasarkan frekuensi mereka dalam dokumen dan dataset secara Dengan menggunakan vectorizer, teks dapat diubah menjadi representasi vektor numerik yang berguna untuk tugas seperti klasifikasi atau analisis sentimen menggunakan algoritma pembelajaran mesin. Untuk menentukan nilai dari hasil klasifikasi pada penelitian ini menggunakan F1-Score. F1-Score adalah ukuran statistik yang menggabungkan presisi . dan recall dalam satu metrik tunggal. Presisi mengukur seberapa banyak dari prediksi positif yang sebenarnya benar, sedangkan recall mengukur seberapa banyak dari kelas positif yang diprediksi dengan benar. F1-Score memberikan keseimbangan antara presisi dan recall, dan nilainya berkisar dari 0 hingga 1, di mana 1 menunjukkan kinerja yang sempurna. F1-Score sangat berguna dalam evaluasi model klasifikasi, terutama ketika kelas yang dihasilkan oleh model tidak seimbang. Ini memberikan gambaran yang lebih komprehensif tentang seberapa baik model dapat mengidentifikasi kelas positif dan menghindari kesalahan klasifikasi. Adapun rumus untuk precision, recall, dan F1-Score adalah sebagai berikut: Precision (P) dihitung dengan rumus: Recall (R) dihitung dengan rumus: F1-Score dihitung dengan rumus: Di mana TP adalah true positive, yaitu jumlah dokumen teks yang secara benar diklasifikasikan ke dalam kategori tertentu. FP adalah false positive, yaitu jumlah dokumen teks yang secara keliru diklasifikasikan ke dalam kategori tertentu. FN adalah false negative, yaitu jumlah dokumen teks yang secara keliru ditolak diklasifikasikan ke dalam kategori tertentu. 5 Random Forest Random Forest adalah algoritma pembelajaran mesin yang bekerja dengan cara menggabungkan sejumlah besar pohon keputusan . ecision tree. secara acak. Setiap pohon keputusan dihasilkan dari sampel data yang diambil secara acak dari kumpulan data pelatihan. Ketika melakukan prediksi, setiap pohon memberikan prediksi dan hasil akhir diambil berdasarkan mayoritas suara dari semua pohon keputusan. Hal ini memungkinkan Random Forest untuk mengatasi overfitting dan meningkatkan accuracy prediksi . Dalam penelitian ini, metode Random Forest digunakan untuk memproses data terjemahan Al-QurAoan. Terdapat 2 pengaturan model yang diterapkan pada penelitian ini dengan menggunakan Random Forest yaitu, pengaturan pertama model yang tidak dilakukan penyetelan parameter. Kemudian model kedua dilakukan penyetelan parameter dengan proses pencarian best parameter RF untuk mendapatkan hasil yang optimal. Untuk Random Forest yang terdiri dari Ntrees dapat digunakan rumus sebagai berikut : Di sini, adalah tree ke-n dari total ycA pohon dalam ensemble, dan adalah fungsi indikator yang bernilai 1 jika tree Eaycuhn memprediksi instance sebagai kelas yca, dan 0 jika tidak. Penjumlahan Oc menghitung frekuensi prediksi kelas yca oleh semua pohon. Operasi kemudian mencari kelas yca yang paling sering diprediksi oleh pohon-pohon tersebut, sehingga adalah kelas dengan prediksi mayoritas, memastikan keputusan akhir berdasarkan konsensus terbanyak dalam Random Forest. 6 Long Short Term Memory Long Short Term Memory (LSTM) adalah variasi dari RRN, yang dapat berhubungan dengan konteks dan memproses data secara lebih baik. LSTM merupakan konfigurasi khusus dari RNN yang terdiri dari blok memori berulang, yang memiliki tiga gerbang: yaitu gerbang masukan, gerbang keluaran, dan gerbang lupakan. Gerbang-gerbang ini memungkinkan LSTM untuk mengingat informasi dalam jangka waktu yang lama, secara selektif melupakannya ketika suatu nilai tidak lagi penting. Pada penelitian ini. LSTM digunakan setelah lapisan embedding untuk memproses input teks, diikuti oleh dropout layer untuk mengurangi overfitting, dan dilanjutkan dengan lapisan dense untuk melakukan klasifikasi. Penggunaan callback ModelCheckpoint juga memastikan penyimpanan model pada setiap epoch hanya jika kinerja pada data Validation meningkat, yang memilih pemulihan model terbaik selama pelatihan. Untuk menghasilkan nilai LSTM dapat digunakan persamaan berikut . Copyright A 2024 Author. Page 570 This Journal is licensed under a Creative Commons Attribution 4. 0 International License Journal of Computer System and Informatics (JoSYC) ISSN 2714-8912 . edia onlin. ISSN 2714-7150 . edia ceta. Volume 5. No. May 2024. Page 567-577 https://ejurnal. seminar-id. com/index. php/josyc DOI 10. 47065/josyc. Persamaan diatas merupakan komponen dari Long Short-Term Memory (LSTM), sebuah tipe khusus dari Recurrent Neural Network (RNN) yang digunakan untuk memproses urutan data. Fungsi adalah fungsi sigmoid logistik yang mengatur nilai antara 0 dan 1. Rumus . menghitung nilai pintu masuk , rumus . menghitung nilai pintu lupa , dan rumus . menghitung nilai pintu keluar , semuanya berdasarkan input saat ini , status tersembunyi sebelumnya , dan status sel sebelumnya yca dengan bobot terkait dan bias masingmasing. Rumus . memperbarui nilai sel yca dengan menggabungkan informasi dari pintu lupa dan pintu masuk. Terakhir, rumus . menghitung vektor tersembunyi dengan mengalikan nilai pintu keluar dengan aktivasi tangens hiperbolik dari nilai sel yang diperbarui yca . Pintu-pintu ini membantu LSTM mengendalikan aliran informasi dan mengatasi masalah vanishing gradient yang sering terjadi pada RNN tradisional. HASIL DAN PEMBAHASAN Dari percobaan yang dilakukan, penulis menggunakan python sebagai bahasa pemrograman untuk memproses data terjemahan Al-QurAoan. Adapun proses yang digunakan terdiri dari dua macam yaitu Baseline dan Optimal. Berikut merupakan proses Baseline yang dilakukan pada penelitian ini. 1 Model Baseline Pada model baseline, dilakukan percobaan tanpa proses balancing dengan menggunakan metode Random Forest dan Long Short Term Memory tanpa mengatur parameternya. Dari percobaan tersebut di dapatkan hasil sebagai Tabel 1 Hasil Baseline RF pada Data Train dan Validation Kelas Dakwah Jihad Manusia dan hubungan kemasyarakatan Akhlak Peraturan yang berhubungan dengan harta Undefined Train F1-Score Accuracy 100,0% 100,0% 100,0% 100,0% 99,8% 99,9% 100,0% 100,0% 99,4% 99,8% 98,2% 99,6% Validation F1-Score Accuracy 48,4% 93,6% 47,9% 92,0% 46,6% 87,2% 58,1% 88,8% 63,3% 96,0% 48,4% 93,6% Pada tabel 1, menunjukkan hasil penggunaan metode Random Forest untuk klasifikasi. Meskipun model berhasil dengan baik pada data pelatihan dengan F1-Score dan accuracy mencapai tingkat tinggi . ahkan mencapai 100%), kinerjanya menurun drastis pada data Validation. Ini mengindikasikan adanya overfitting, di mana model tidak dapat menggeneralisasi dengan baik pada data baru yang belum pernah dilihat sebelumnya. Perlu dilakukan penyesuaian atau pengoptimalan lebih lanjut untuk meningkatkan kinerja pada data Validation. Selain pada data Training dan Validation, metode RF juga diujikan kedalam data Test. Dimana hasil dari pengujian proses baseline RF sebagai berikut : Tabel 2 Hasil Baseline RF pada Data Test Kelas Dakwah Jihad Manusia dan hubungan Akhlak Peraturan yang berhubungan dengan harta Undefined Rata-Rata Data Test Juz 30 F1-Score Accuracy 48,7% 94,8% 49,8% 99,1% Data Test Juz 10-20 F1-Score Accuracy 54,5% 97,4% 50,0% 94,0% Data Test Juz 25-28 F1-Score Accuracy 49,4% 97,4% 48,1% 92,6% 49,7% 84,1% 51,3% 91,0% 50,8% 91,0% 48,0% 92,1% 54,4% 87,2% 52,7% 91,0% 48,0% 92,3% 51,6% 96,3% 53,9% 96,2% 48,8% 48,9% 89,5% 91,4% 44,7% 50,4% 80,9% 89,9% 47,8% 50,7% 91,5% 92,5% Pada tabel 2, menampilkan hasil evaluasi metode Random Forest pada data uji yang dibagi berdasarkan bagian-bagian Al-QurAoan. Meskipun kinerja bervariasi, secara umum model menunjukkan kinerja yang baik dengan F1-Score sekitar 48-55% dan accuracy 80-99%. Namun, ada penurunan kinerja pada beberapa kasus. Copyright A 2024 Author. Page 571 This Journal is licensed under a Creative Commons Attribution 4. 0 International License Journal of Computer System and Informatics (JoSYC) ISSN 2714-8912 . edia onlin. ISSN 2714-7150 . edia ceta. Volume 5. No. May 2024. Page 567-577 https://ejurnal. seminar-id. com/index. php/josyc DOI 10. 47065/josyc. seperti kelas Undefined pada beberapa bagian terjemahan Al-QurAoan, menunjukkan perlunya analisis dan penyesuaian lebih lanjut pada model. Selain metode Random Forest, penelitian ini juga dilakukan dengan menggunakan metode Deep Learning yaitu Long Short Term Memory (LSTM). Pada metode LSTM baseline pengaturan parameter yang digunakan yaitu dense layer = 286, dropout = 0. 2, epochs = 50, batch size = 64. Berikut merupakan hasil dari pengujian baseline dengan LSTM : Tabel 3 Hasil Baseline LSTM pada Data Train dan Validation Kelas Parameter Tuning F1Score Dakwah Jihad Manusia dan hubungan Akhlak Peraturan yang berhubungan dengan harta Undefined dense layer = 286, dropout = 0. epochs = 50, batch size = 64 dense layer = 286, dropout = 0. epochs = 50, batch size = 64 dense layer = 286, dropout = 0. epochs = 50, batch size = 64 dense layer = 286, dropout = 0. epochs = 50, batch size = 64 dense layer = 286, dropout = 0. epochs = 50, batch size = 64 dense layer = 286, dropout = 0. epochs = 50, batch size = 64 Train Accuracy Validation F1Accuracy Score 100,0% 100,0% 74,6% 98,6% 100,0% 100,0% 76,2% 94,2% 100,0% 100,0% 77,2% 92,8% 93,2% 93,2% 47,6% 90,7% 99,8% 99,8% 59,8% 95,0% 99,5% 99,5% 47,9% 92,1% Pada tabel 3, menampilkan hasil penggunaan metode LSTM dengan penyetelan parameter pada data pelatihan dan Validation. Meskipun model mencapai kinerja yang tinggi pada data pelatihan, terutama dengan beberapa kelas mencapai 100% pada F1-Score dan Accuracy, kinerja menurun pada data Validation, menunjukkan adanya penurunan kemampuan generalisasi. Perlu dilakukan analisis lebih lanjut dan penyesuaian tambahan pada model untuk meningkatkan kinerja pada data yang belum terlihat sebelumnya. Selain pada data Training dan Validation, metode LSTM juga diujikan kedalam data Test. Dimana hasil dari pengujian proses baseline LSTM sebagai berikut : Tabel 4 Hasil Baseline LSTM pada Data Test Kelas Dakwah Jihad Manusia dan hubungan Akhlak Peraturan yang berhubungan dengan harta Undefined Rata-Rata Data Test Juz 30 F1-Score Accuracy 48,7% 94,8% 49,8% 99,1% Data Test Juz 10-20 F1-Score Accuracy 54,0% 97,2% 57,1% 94,2% Data Test Juz 25-28 F1-Score Accuracy 54,9% 96,8% 55,5% 92,8% 52,0% 82,5% 57,6% 89,1% 63,3% 86,7% 48,1% 92,8% 46,6% 87,1% 47,6% 90,9% 48,0% 92,3% 52,8% 96,3% 55,8% 96,1% 47,2% 49,0% 89,3% 91,2% 44,7% 51,8% 80,9% 89,5% 47,8% 54,0% 91,5% 91,6% Pada tabel 4 menampilkan hasil evaluasi metode LSTM pada data uji yang dibagi berdasarkan bagianbagian terjemahan Al-QurAoan. Secara umum, model menunjukkan kinerja yang baik dengan F1-Score berkisar antara 47-63% dan accuracy mencapai 80-99%. Namun, ada penurunan kinerja pada beberapa kelas dan bagianbagian terjemahan Al-QurAoan tertentu, menunjukkan perlunya analisis lebih lanjut dan mungkin penyesuaian pada model. 2 Model Optimal Untuk mendapatkan model dengan hasil yang optimal dilakukan balance data pada setiap kelas dengan menggunakan teknik oversampling. Terdapat 4 macam eksplorasi untuk mendapatkan nilai paling optimal pada data terjemahan ayat Al-QurAoan yaitu : Data yang tidak dilakukan proses balance dan prepocessing tetapi tidak dilakukan pencarian best parameter pada metode RF dan best model pada metode LSTM Data yang tidak dilakukan proses balance yang dilakukan proses prepocessing tetapi tanpa stemming dan stopword dan tidak dilakukan pencarian best parameter pada metode RF dan best model pada metode LSTM Data yang dilakukan proses balance dan prepocessing serta dilakukan pencarian best parameter tuning pada metode RF. Lalu pada metode LSTM dilakukan pencarian best model dan penyesuaian parameter tuning. Copyright A 2024 Author. Page 572 This Journal is licensed under a Creative Commons Attribution 4. 0 International License Journal of Computer System and Informatics (JoSYC) ISSN 2714-8912 . edia onlin. ISSN 2714-7150 . edia ceta. Volume 5. No. May 2024. Page 567-577 https://ejurnal. seminar-id. com/index. php/josyc DOI 10. 47065/josyc. Data yang dilakukan proses balance dan prepocessing dengan tidak menggunakan proses stemming dan stopword serta dilakukan pencarian best parameter tuning pada metode RF. Lalu pada metode LSTM dilakukan pencarian best model dan penyesuaian parameter tuning. Berikut merupakan hasil penelitian berupa F1-Score dan Accuracy tiap kelas pada metode Random Forest terhadap data Training dan Validation : Tabel 5 Hasil Pengujian Paling Optimal dari Data Training dan Validation dengan menggunakan RF Kelas Optimasi Proses Dakwah Full Prepocessing Jihad Full Prepocessing Manusia dan Full Prepocessing Akhlak Full Prepocessing Peraturan yang dengan harta Full Prepocessing Undefined Full Prepocessing Parameter Tuning Criterion : entropy. Max_depth : Max features : sqrt, n_estimators : 90 Criterion : entropy. Max_depth : Max features : sqrt, n_estimators : 75 Criterion : entropy. Max_depth : Max features : log2, n_estimators : 60 Criterion : gini. Max_depth : 68. Max features : sqrt, n_estimators : 50 Criterion : entropy. Max_depth : Max features : sqrt, n_estimators : 50 Criterion : entropy. Max_depth : Max features : sqrt, n_estimators : 36 Train F1Accura Score Validation F1Accura Score 100,0% 100,0% 49,5% 97,8% 97,3% 97,3% 75,3% 92,8% 99,1% 99,1% 56,9% 88,5% 99,8% 99,8% 55,6% 87,1% 100,0% 100,0% 48,5% 94,2% 98,8% 98,8% 56,5% 92,8% Pada tabel 5 tersebut menampilkan hasil optimal dari training dan Validation menggunakan metode Random Forest dengan pengaturan parameter yang berbeda untuk setiap kelas. Meskipun sebagian besar kelas mencapai tingkat kinerja yang tinggi pada data pelatihan, kinerja pada data Validation menunjukkan variasi. Ini menunjukkan pentingnya penyesuaian parameter dan teknik pemrosesan yang tepat untuk meningkatkan generalisasi model pada data yang belum terlihat sebelumnya, dengan tujuan mencapai kinerja yang lebih konsisten pada berbagai kelas. Selain pada data Training dan Validation, metode RF Optimal juga diujikan kedalam data Test. Dimana hasil dari pengujiannya dapat dilihat pada tabel 6 sebagai berikut : Tabel 6 Hasil Pengujian Paling Optimal pada Data Test menggunakan metode RF Kelas Dakwah Jihad Manusia dan hubungan Akhlak Peraturan yang berhubungan dengan harta Undefined Rata-Rata Data Test Juz 30 F1-Score Accuracy 48,7% 94,8% 49,7% 99,0% Data Test Juz 10-20 F1-Score Accuracy 52,8% 97,4% 53,1% 94,6% Data Test Juz 25-28 F1-Score Accuracy 49,4% 97,5% 56,5% 92,8% 46,6% 83,7% 51,7% 91,0% 51,8% 91,0% 53,1% 91,2% 59,4% 87,1% 58,3% 90,4% 52,2% 92,3% 60,6% 96,7% 62,2% 96,5% 51,5% 50,6% 89,1% 91,1% 45,7% 56,1% 80,9% 90,0% 47,7% 55,3% 91,2% 92,4% Dari tabel 6 tersebut, dapat dilihat performa model pada setiap klasifikasi dan bagian-bagian data tes. Misalnya, kelas Peraturan yang Berhubungan dengan Harta dengan proses Full Prepocessing memiliki F1-Score yang bervariasi tergantung pada bagian data tes yang digunakan, dengan nilai tertinggi pada Data Test Juz 25-28 . ,2%) dan terendah pada Data Test Juz 30 . ,6%). Hal ini menunjukkan bahwa performa model bisa berbeda tergantung pada bagian-bagian tertentu dari data tes. Selain itu, perbedaan dalam proses pengolahan data juga mempengaruhi performa model, seperti yang terlihat dari perbedaan F1-Score dan Accuracy antara klasifikasi dengan dan tanpa penggunaan stemming dan stopword prepocessing. Selain metode Random Forest, penelitian ini juga dilakukan dengan menggunakan metode Deep Learning yaitu Long Short Term Memory (LSTM). Berikut merupakan hasil dari pengujian dengan LSTM : Copyright A 2024 Author. Page 573 This Journal is licensed under a Creative Commons Attribution 4. 0 International License Journal of Computer System and Informatics (JoSYC) ISSN 2714-8912 . edia onlin. ISSN 2714-7150 . edia ceta. Volume 5. No. May 2024. Page 567-577 https://ejurnal. seminar-id. com/index. php/josyc DOI 10. 47065/josyc. Tabel 7 Hasil Paling Optimal dari Proses Training dan Validation dengan Metode LSTM Kelas Optimasi Proses Parameter Tuning F1Score Dakwah Full Prepocessing Jihad Prepocessing without stemming and stopword Manusia dan Full Prepocessing Akhlak Full Prepocessing Peraturan yang dengan harta Full Prepocessing Undefined Full Prepocessing dense layer = 347, dropout = 5, best model epochs = 10, batch size = 256 dense layer = 300, dropout = 5, best model epochs = 14, batch size = 64 dense layer = 340, dropout = 5, best model epochs = 14, batch size = 128 dense layer = 290, dropout = 5, best model epochs = 6, batch size = 256 dense layer = 340, dropout = 5, best model epochs = 9, batch size = 256 dense layer = 340, dropout = 5, best model epochs = 4, batch size = 32 Train Accuracy Validation F1Accuracy Score 100,0% 100,0% 78,0% 97,8% 100,0% 100,0% 78,5% 94,2% 99,7% 99,7% 74,5% 91,4% 93,2% 93,2% 58,9% 84,2% 99,8% 99,8% 71,8% 95,0% 99,5% 99,5% 62,4% 92,8% Dari tabel 7 tersebut merupakan hasil dari proses pelatihan . dan Validation menggunakan metode Long Short Term Memory (LSTM) untuk klasifikasi. Dari tabel tersebut, dapat dilihat bahwa performa model bervariasi tergantung pada klasifikasi dan proses yang dilakukan sebelumnya. Misalnya, kelas Jihad dengan proses Prepocessing without stemming and stopword memiliki F1-Score tertinggi pada data Validation . ,3%), sementara kelas Akhlak memiliki F1-Score terendah . ,9%). Penyetelan parameter tuning pada LSTM sangat berpengaruh untuk memberikan hasil optimal. Hal ini menunjukkan bahwa penggunaan LSTM dengan penyetelan parameter yang tepat dan proses prepocessing yang sesuai dapat meningkatkan kinerja model dalam melakukan klasifikasi. Selain pada data Training dan Validation, metode LSTM juga diujikan kedalam data Test. Dimana hasil dari pengujian proses optimal LSTM sebagai berikut : Tabel 8 Hasil Pengujian Data Test paling optimal dari proses Test pada metode LSTM Kelas Dakwah Jihad Manusia dan hubungan Akhlak Peraturan yang berhubungan dengan harta Undefined Rata-Rata Data Test Juz 30 F1-Score Accuracy 48,6% 94,8% 49,7% 99,0% Data Test Juz 10-20 F1-Score Accuracy 54,3% 96,6% 62,2% 94,4% Data Test Juz 25-28 F1-Score Accuracy 57,3% 96,8% 57,0% 92,5% 52,5% 83,2% 59,2% 88,2% 64,2% 89,1% 59,1% 91,6% 62,4% 85,8% 60,6% 87,4% 56,8% 91,9% 67,9% 96,4% 67,7% 95,9% 51,7% 54,0% 87,6% 90,6% 52,3% 60,8% 79,7% 88,9% 54,1% 60,7% 89,7% 90,9% Pada tabel 8 tersebut menunjukkan hasil pengujian menggunakan metode Long Short Term Memory (LSTM) pada data uji, yang diproses dengan parameter optimal dari proses pelatihan dan Validation Hasilnya menunjukkan variasi kinerja antara kelas dan bagian-bagian Al-QurAoan yang berbeda. Sebagian besar kelas mencapai tingkat kinerja yang cukup baik. Kinerja model bervariasi antar kategori dan bagian data tes, dengan rata-rata F1-Score berkisar antara 54,5% hingga 61,2% dan accuracy antara 88,9% hingga 90,8%, menunjukkan kemampuan model dalam mengklasifikasikan teks Al-Quran dengan baik meskipun ada perbedaan dalam tingkat kinerja antar kategori dan bagian data tes yang diuji. Tabel 9 Hasil Rata-Rata F1-Score dari Data Test dengan metode RF dan LSTM Model RF Optimal RF Baseline LSTM Optimal Data Test Juz 30 50,6% 48,9% 54,0% Accuracy 91,1% 91,4% 90,6% Data Test Juz 1020 56,1% 50,4% 60,8% Accuracy 89,9% 88,9% Data Test Juz 2528 55,3% 50,7% 60,7% Accuracy 92,4% 92,5% 91,2% Copyright A 2024 Author. Page 574 This Journal is licensed under a Creative Commons Attribution 4. 0 International License Journal of Computer System and Informatics (JoSYC) ISSN 2714-8912 . edia onlin. ISSN 2714-7150 . edia ceta. Volume 5. No. May 2024. Page 567-577 https://ejurnal. seminar-id. com/index. php/josyc DOI 10. 47065/josyc. LSTM Baseline 49,0% 91,2% 51,8% 89,5% 54,0% 91,6% Tabel 9 merupakan perbandingan hasil rata-rata F1-Score dari data Test dengan menggunakan Random Forest dan Long Short Term Memory. Dimana model RF optimal memiliki nilai rata-rata. -55%) lebih rendah dari model LSTM optimal yang rata-ratanya. -61%). Gambar 1. Grafik Perbandingan F1-Score Model Baseline dan Optimal Berdasarkan grafik diatas, yang merupakan perbandingan dari nilai data Test juz 30, juz 10-20, dan juz 25-28 antara proses baseline dan proses optimal yang dilakukan pada metode RF dan LSTM. Dapat dilihat bahwa pada LSTM optimal memiliki nilai yang lebih dominan tinggi di setiap data tes. Gambar diatas merupakan confusion matriks dari salah satu kelas yaitu kelas Dakwah pada Test juz 25-28. Pada gambar . merupakan confusion matriks dengan menggunakan metode RF baseline sedangkan pada gambar . merupakan confusion matriks dengan menggunakan RF optimal. Dapat dilihat dari gambar tersebut pada proses model RF tidak mengalami peningkatan di model optimalnya. Untuk gambar . merupakan confusion matriks dengan menggunakan metode LSTM baseline dan gambar . merupakan confusion matriks dengan menggunakan metode LSTM optimal. Pada confusion matriks di LSTM baseline menunjukkan proses baseline dapat membaca data 0 dan 1. Tetapi proses optimal masih memiliki nilai lebih tinggi dalam mengelola data 1 daripada proses Berikut merupakan tabel dari kelas jihad yang terdiri dari baseline dan optimal yang menunjukkan perbandingan F1-Score dan Accuracy. Tabel 10 Kesalahan Klasifikasi pada Data Test 2528 di Kelas Dakwah dengan metode RF Optimal Terjemahan Dan orang-orang yang mengambil pelindung-pelindung selain Allah. Allah mengawasi . adapun engkau (Muhamma. bukanlah orang yang diserahi mengawasi mereka. Maka sungguh, sekiranya Kami mewafatkanmu . ebelum engkau mencapai kemenanga. , maka sesungguhnya Kami akan tetap memberikan azab kepada mereka . i akhira. Data Label Hasil Prediksi Pada tabel 10, menampilkan hasil kesalahan klasifikasi pada data Test pada juz 25-28 dalam kelas dakwah menggunakan metode Random Forest (RF) yang dioptimalkan. Di dalam tabel, terdapat dua contoh ayat Al-Qur'an beserta terjemahan dan label asli dari data, serta hasil prediksi yang diberikan oleh model klasifikasi. Angka "1" menunjukkan bahwa ayat tersebut termasuk dalam kategori tertentu, sedangkan angka "0" menunjukkan sebaliknya. Pada contoh pertama, model memprediksi ayat sebagai kategori yang salah, sedangkan pada contoh kedua, hasil prediksi juga tidak sesuai dengan label yang seharusnya. Ini menunjukkan adanya kesalahan dalam klasifikasi oleh model terhadap data uji yang diberikan. Tabel 11 Kesalahan Klasifikasi pada Data Test 2528 di Kelas Dakwah dengan Metode LSTM Optimal Terjemahan Dan lenyaplah dari mereka apa yang dahulu selalu mereka sembah, dan mereka pun Data Label Hasil Prediksi Copyright A 2024 Author. Page 575 This Journal is licensed under a Creative Commons Attribution 4. 0 International License Journal of Computer System and Informatics (JoSYC) ISSN 2714-8912 . edia onlin. ISSN 2714-7150 . edia ceta. Volume 5. No. May 2024. Page 567-577 https://ejurnal. seminar-id. com/index. php/josyc DOI 10. 47065/josyc. Terjemahan tahu bahwa tidak ada jalan keluar . ari azab Alla. bagi mereka. Dan ketika putra Maryam (Is. dijadikan perumpamaan, tiba-tiba kaummu (Suku Qurais. bersorak karenanya. Data Label Hasil Prediksi Tabel 11 tersebut menampilkan hasil kesalahan klasifikasi pada data Test pada juz 25-28 dalam kelas dakwah menggunakan metode Long Short-Term Memory (LSTM) yang dioptimalkan. Dalam tabel ini, disajikan dua contoh ayat Al-Qur'an beserta terjemahannya, label asli dari data, dan hasil prediksi yang diberikan oleh model klasifikasi LSTM. Angka "1" menunjukkan bahwa ayat tersebut termasuk dalam kategori tertentu, sedangkan angka "0" menunjukkan sebaliknya. Pada contoh pertama, model memprediksi ayat sebagai kategori yang salah, sedangkan pada contoh kedua, hasil prediksi juga tidak sesuai dengan label yang seharusnya. Ini menunjukkan adanya kesalahan dalam klasifikasi oleh model terhadap data uji yang diberikan. Kesalahan klasifikasi pada metode RF dan LSTM terjadi karena model gagal memahami makna kompleks dan struktur kalimat yang rumit dalam ayat Al-Qur'an. Hal ini menyebabkan prediksi yang tidak sesuai dengan label yang seharusnya, baik untuk ayat yang seharusnya termasuk dalam kategori tertentu . maupun yang seharusnya tidak . Tabel 12 Perbandingan F1-Score dan Accuracy pada kelas Dakwah Kelas Dakwah Dakwah Dakwah Dakwah Metode RF Baseline RF Optimal LSTM Baseline LSTM Optimal F1-Score 49,4% 49,4% 54,9% 57,3% Accuracy 97,5% 97,5% 96,8% 96,8% Dapat dilihat pada tabel 12, model optimal memiliki nilai lebih tinggi daripada model baseline. Pada metode Random Forest optimal tidak mengalami kenaikan dari baseline. Sedangkan pada metode Long Short Term Memory model optimal. F1-Score mengalami peningkatan sebesar 2,4% dari baseline dan Accuracy yang masih sama dengan proses baseline. Dapat tarik kesimpulan bahwa model optimal LSTM memiliki peningkatan lebih besar daripada model optimal RF. Sehingga Long Short Term Memory dianggap sebagai model yang lebih baik dalam melakukan proses klasifikasi pada data terjemahan Al-QurAoan daripada model Random Forest. KESIMPULAN Dari percobaan yang telah dilakukan terhadap 6 kelas yaitu Dakwah. Jihad. Manusia dan Hubungan Kemasyarakatan. Akhlak. Peraturan yang Berhubungan dengan Harta dan undefined class. Metode Long Short Term Memory (LSTM) menghasilkan F1-Score dan Accuracy yang lebih baik daripada metode Random Forest (RF). Dari hasil penelitian yang dilakukan menggunakan metode Random Forest (RF) dan Long Short Term Memory (LSTM) untuk melakukan klasifikasi terhadap terjemahan Al-Qur'an, dapat disimpulkan bahwa performa model klasifikasi dipengaruhi oleh berbagai faktor, termasuk jenis proses prepocessing, penyetelan parameter, dan metode klasifikasi yang digunakan. Percobaan menunjukkan bahwa penggunaan prepocessing yang lengkap, penyetelan parameter yang optimal, dan data yang seimbang cenderung menghasilkan performa yang lebih baik dalam hal F1-Score dan Accuracy. Selain itu, pentingnya generalisasi model terhadap berbagai bagian data tes juga menjadi faktor kunci dalam mengembangkan model yang handal. Dengan demikian, hasil penelitian ini memberikan wawasan penting bagi peneliti atau praktisi dalam pengembangan model klasifikasi untuk kasus-kasus yang melibatkan teks terjemahan Al-Qur'an. Adapun saran untuk pengembangan penelitian selanjutnya yaitu dapat membahas tentang teknik lainnya seperti undersampling dalam mencapai nilai yang lebih Pada model RF dengan menggunakan best parameter tentunya telah menghasilkan nilai terbaik. Sedangkan pada metode LSTM tentunya masih bisa di kembangkan lagi dalam proses penyetelan parameternya agar mencapai hasil yang lebih optimal. REFERENCES