Institut Riset dan Publikasi Indonesia (IRPI) MALCOM: Indonesian Journal of Machine Learning and Computer Science Journal Homepage: https://journal.irpi.or.id/index.php/malcom Vol. 5 Iss. 3 July 2025, pp: 920-929 ISSN(P): 2797-2313 | ISSN(E): 2775-8575 Implementing a Qur'anic Tafsir Chatbot Through Chainlit with a Groq-Based Approach Implementasi Chatbot Tafsir Al-Qur'an Menggunakan Chainlit dengan Pendekatan Groq Muhammad Rizky Maulana1, Nazruddin Safaat Harahap2*, Okfalisa3 , Yusra4 1,2,3,4 Program Studi Teknik Informatika, Fakultas Sains dan Teknologi, Universitas Islam Negeri Sultan Syarif Kasim Riau, Indonesia E-Mail: 112150114879@students.uin-suska.ac.id, 2nazruddin.safaat@uin-suska.ac.id, 3 okfalisa@gmail.com, 4yusra@uin-suska.ac.id Received Apr 03rd 2025; Revised Jun 16th 2025; Accepted Jun 20th 2025; Available Online Jun 25th 2025; Published Jun 25th 2025 Corresponding Author: Nazruddin Safaat Harahap Copyright © 2025 by Authors, Published by Institut Riset dan Publikasi Indonesia (IRPI) Abstract Understanding the interpretation of the Qur'an is often a challenge in the world of education, especially for students, students, or the general public who do not have a background in interpretation or Arabic language skills. Limited access to easy-to-understand interpretations, as well as the absence of interactive learning media that can answer questions contextually, are obstacles in the process of learning Islam. This study aims to develop an artificial intelligence (AI)-based chatbot as a supporting media for learning responsive and adaptive interpretation of the Qur'an. The system is designed using the Chainlit framework as a web interface, supported by Groq to accelerate the inference process, and the integration of LangChain and Large Language Models (LLM) to understand the contents of the interpretation, especially the Jalalain Interpretation in Indonesian PDF format. The document used is a single representative digital file. The system process includes text extraction, text division (chunking), embedding formation, and vector-based semantic search. Evaluation using BERTScore produced an average precision value of 71.84%, recall of 78.11%, and F1-score of 74.80%, indicating the system's ability to provide semantically relevant answers. The results of this study contribute to providing efficient and contextual AI-based digital interpretation learning media, as well as being a potential solution to support a more interactive and modern Islamic education process. Keyword: Artificial intelligence, Chainlit, Chatbot, Groq, Tafsir Abstrak Pemahaman terhadap tafsir Al-Qur’an sering kali menjadi tantangan dalam dunia pendidikan, khususnya bagi siswa, mahasiswa, atau masyarakat umum yang tidak memiliki latar belakang ilmu tafsir maupun kemampuan bahasa Arab. Keterbatasan akses terhadap tafsir yang mudah dipahami, serta ketiadaan media pembelajaran yang interaktif dan mampu menjawab pertanyaan secara kontekstual, menjadi hambatan dalam proses pembelajaran keislaman. Penelitian ini bertujuan untuk mengembangkan chatbot berbasis kecerdasan buatan (AI) sebagai media pendukung pembelajaran tafsir Al-Qur’an yang responsif dan adaptif. Sistem dirancang menggunakan framework Chainlit sebagai antarmuka web, didukung oleh Groq untuk mempercepat proses inferensi, serta integrasi LangChain dan Large Language Models (LLM) untuk memahami isi tafsir, khususnya Tafsir Jalalain dalam format PDF berbahasa Indonesia. Dokumen yang digunakan berupa satu file digital utuh yang representatif. Proses sistem meliputi ekstraksi teks, pembagian teks (chunking), pembentukan embedding, dan pencarian semantik berbasis vektor. Evaluasi menggunakan BERTScore menghasilkan nilai rata-rata precision sebesar 71,84%, recall 78,11%, dan F1-score 74,80%, menunjukkan kemampuan sistem dalam memberikan jawaban yang baik secara semantik. Hasil penelitian ini berkontribusi dalam menyediakan media pembelajaran tafsir digital berbasis AI yang efisien dan kontekstual, serta menjadi solusi potensial untuk mendukung proses pendidikan Islam yang lebih interaktif dan modern. Kata Kunci: Chainlit Chatbot, Groq, Kecerdasan Buatan, Tafsir DOI: https://doi.org/10.57152/malcom.v5i3.2082 920 ISSN(P): 2797-2313 | ISSN(E): 2775-8575 1. PENDAHULUAN Al-Qur'an adalah kitab suci umat Islam yang berisi petunjuk hidup dan hukum-hukum Allah yang diturunkan untuk umat manusia. Bagi umat Muslim, memahami isi Al-Qur'an menjadi suatu kewajiban, karena dalam setiap ayatnya terdapat makna dan pelajaran yang menjadi pedoman hidup. Namun, bahasa Al-Qur'an yang menggunakan bahasa Arab klasik serta gaya bahasanya yang kaya akan makna menjadikan pemahaman terhadapnya tidak mudah, terutama bagi mereka yang tidak memiliki latar belakang pengetahuan bahasa Arab dan ilmu tafsir. Penelitian menunjukkan bahwa tafsir Al-Qur'an seperti karya Ibnu Katsir sangat membantu dalam menggali makna ayat-ayat Al-Qur'an. Namun, memahami tafsir ini juga memerlukan latar belakang pendidikan Islam yang mendalam [1]. Al-Qur'an adalah kalam Allah yang ditulis dalam bentuk mushaf, diturunkan kepada Nabi Muhammad SAW melalui Malaikat Jibril secara mutawatir baik lafazh maupun maknanya, dimulai dari al-Fatihah hingga an-Nas. Hal ini senada dengan salah satu penelitian yang menegaskan bahwa Al-Qur'an merupakan kalam Allah bersifat mu'jizat, membacanya adalah ibadah, dan berisi wahyu sebagai petunjuk dan Pelajaran [2] Tafsir Al-Qur'an, seperti Tafsir Al-Jalalain dan Tafsir Al-Azhar, memberikan panduan bagi umat Muslim dalam memahami wahyu Allah. Penelitian oleh Rizki et al [3]. menunjukkan bahwa teknologi modern seperti Large Language Models (LLMs) dapat membantu menyederhanakan akses terhadap tafsir dengan tingkat akurasi sebesar 84.29%, menjadikannya solusi praktis untuk memahami tafsir secara lebih efisien. Kecerdasan buatan (Artificial Intelligence/AI) merupakan teknologi yang semakin berkembang pesat dan telah digunakan secara luas di berbagai bidang, termasuk pendidikan. Salah satu implementasi AI yang menarik perhatian adalah chatbot, yang mampu merespons pertanyaan secara kontekstual dan cepat. Namun, dalam konteks pendidikan Islam, masih terdapat tantangan signifikan dalam memahami tafsir Al-Qur’an secara personal dan mendalam, khususnya bagi pengguna yang tidak memiliki latar belakang bahasa Arab atau ilmu tafsir. Selain itu, media digital yang interaktif dan mampu menjawab pertanyaan secara real-time tentang tafsir masih sangat terbatas. Hal ini menunjukkan adanya kebutuhan untuk menghadirkan sistem berbasis teknologi yang dapat menyederhanakan akses pemahaman tafsir Al-Qur’an. Dalam konteks aplikasi berbasis AI, penelitian oleh Topsakal et al. [4] dan Sreeram menunjukkan potensi LangChain dalam mendukung pengembangan aplikasi berbasis LLMs, seperti agen otonom dan chatbot, untuk eksplorasi lebih lanjut dalam aplikasi LLM. Framework LangChain digunakan untuk menciptakan sistem tanya jawab yang efektif, khususnya dalam mengekstrak informasi akurat dari dokumen PDF melalui aplikasi web interaktif. Penelitian terkait lainnya oleh Permadi et al. [5] juga mengungkapkan bahwa implementasi chatbot untuk Tafsir Al-Azhar dapat mencapai tingkat akurasi sebesar 83.71% melalui pengujian User Acceptance Test (UAT), menunjukkan potensinya dalam meningkatkan aksesibilitas dan pemahaman terhadap tafsir Al-Qur'an. Penelitian Mansurova [6] mengembangkan chatbot untuk domain blockchain yang menggabungkan LLM, LangChain, dan teknik pengayaan pengetahuan eksternal untuk meningkatkan keakuratan sistem dalam menjawab pertanyaan domain-spesifik dengan tingkat presisi yang tinggi. Sementara itu, Pesaru [7] mengimplementasikan LangChain dan LLM dalam asisten dokumen berbasis PDF yang memanfaatkan Pinecone sebagai basis data vektor, dengan penekanan pada pengelolaan dokumen yang efisien melalui pendekatan berbasis embedding. Dalam penelitian Soygazi [8] mengeksplorasi kinerja LLM seperti ChatGPT dan LangChain dalam pendidikan matematika, terutama dalam memahami dan menjawab soal cerita, yang memberikan wawasan tentang penerapan teknologi canggih untuk mendukung pembelajaran. Selain itu, penelitian oleh Soygazi et al. [8] berfokus pada penggunaan teknik Embedding-Based Retrieval (EBR) dalam sistem pencarian Facebook, memberikan wawasan tentang pengaplikasian sistem pengambilan berbasis embedding yang relevan untuk pengembangan chatbot. Penelitian serupa oleh Mar’arif [9] menerapkan chatbot Telegram untuk menjawab pertanyaan fiqih kontemporer menggunakan LangChain dan LLM, dan menunjukkan keberhasilan dari sisi akurasi dan penerimaan pengguna. Oleh karena itu, penelitian ini bertujuan untuk mengembangkan chatbot berbasis Chainlit sebagai antarmuka yang mampu menjawab pertanyaan pengguna mengenai tafsir Al-Qur'an khususnya pada Tafsir Jalalain dengan kontekstual dan akurat. Sistem ini akan mengintegrasikan LangChain dan Groq untuk mengoptimalkan pemrosesan LLM, dan ditujukan bagi Pelajar, Mahasiswa, serta Masyarakat umum sebagai media pembelajaran tafsir yang interaktif dan mudah diakses. Penelitian ini berkontribusi dalam pengembangan chatbot tafsir Al-Qur'an yang berfokus pada Tafsir Jalalain dengan pendekatan baru melalui integrasi Chainlit sebagai antarmuka, Groq untuk percepatan inferensi, dan Ollama untuk pemrosesan lokal. Berbeda dari penelitian Permadi et al [5] dan Mar’arif et al [9] yang mengembangkan chatbot berbasis Telegram dan bergantung pada layanan cloud, namun dalam penelitian ini sistem dirancang sebagai aplikasi web interaktif dengan pengolahan dokumen tafsir PDF secara langsung. Selain itu, kualitas jawaban sistem ini dievaluasi menggunakan metrik semantik BERTScore, yang belum diterapkan dalam studi Rizki et al [3] maupun lainnya. Kombinasi teknologi ini merupakan inovasi yang belum banyak dieksplorasi, dan diharapkan dapat memperluas akses pembelajaran Tafsir Jalalain yang lebih efisien, private, dan kontekstual bagi pelajar maupun masyarakat umum. MALCOM - Vol. 5 Iss. 3 July 2025, pp: 920-929 921 MALCOM-05(03): 920-929 2. METODOLOGI PENELITIAN Metodologi penelitian ini mengacu pada pendekatan pengembangan sistem tanya-jawab berbasis dokumen PDF yang memanfaatkan teknologi Large Language Models (LLM) dan framework LangChain. Penelitian oleh Rizki et al [3] serta Permadi et al [5] menunjukkan efektivitas penggunaan LangChain dalam membangun sistem chatbot berbasis teks keislaman. Sementara itu, Mansurova et al. [6] dan Pesaru et al [7] mendemonstrasikan integrasi LLM dengan basis data vektor dan teknik embedding dalam domain blockchain dan manajemen dokumen. Penelitian ini memperluas pendekatan tersebut dengan menerapkan model inferensi lokal menggunakan Ollama dan akselerasi Groq, yang belum digunakan dalam studi terdahulu. Selain itu, sistem ini memproses dokumen tafsir yang bersumber dari file PDF secara langsung mengacu pada pendekatan seperti Medeiros et al [10] yang mengimplementasikan chunking dan semantic retrieval pada dokumen manual otomotif. 2.1. Permasalahan Ekstraksi pada Dokumen PDF dengan Struktur Kompleks dan Hasil Pindai Masalah dalam penelitian ini diidentifikasi melalui studi literatur, observasi langsung, serta eksplorasi terhadap berbagai alat bantu ekstraksi data dari dokumen PDF seperti PyMuPDF, pdfminer.six, dan Tesseract OCR. Melalui proses eksplorasi dan pengujian, ditemukan sejumlah kendala teknis yang sering muncul saat pengguna mencoba mengambil informasi dari file PDF, khususnya yang berasal dari hasil pemindaian atau memiliki struktur tata letak yang kompleks. Salah satu permasalahan utama yang ditemukan adalah rendahnya akurasi dalam pengenalan teks pada file PDF hasil pemindaian. Dokumen jenis ini biasanya menyimpan teks dalam bentuk gambar, sehingga memerlukan proses Optical Character Recognition (OCR). Mengusulkan metode pra-pemrosesan gambar dan teknik thresholding adaptif yang dapat meningkatkan akurasi OCR secara signifikan dengan memfokuskan pada intensitas piksel utama dalam teks dan menghilangkan fitur yang tidak relevan. Selain itu, banyak dokumen PDF tidak dilengkapi dengan struktur semantik yang eksplisit, seperti heading, paragraf, atau tabel, sehingga menyulitkan sistem untuk memahami konteks isi dokumen. [11] mengembangkan PubLayNet, sebuah dataset besar untuk analisis tata letak dokumen, dengan mencocokkan representasi XML dan konten dari lebih dari satu juta artikel PDF yang tersedia secara publik di PubMed Central. Dataset ini memungkinkan pelatihan model deep learning yang lebih akurat dalam mengenali tata letak dokumen ilmiah. Masalah lainnya adalah keterbatasan alat ekstraksi dalam menangani PDF dengan struktur yang tidak standar, seperti tabel multi-kolom atau tata letak majalah. Tools seperti PyMuPDF dan pdfminer.six masih sering gagal mempertahankan urutan logis informasi dalam dokumen. Selain itu, format PDF yang tidak ramah mesin menjadi tantangan besar ketika digunakan bersama model berbasis AI seperti ChatGPT atau LLM lainnya, yang membutuhkan input teks yang bersih, terstruktur, dan semantik. Permasalahan-permasalahan ini menunjukkan bahwa proses pra-pemrosesan dokumen, rekonstruksi tata letak, serta penyusunan representasi semantik sangat diperlukan untuk memungkinkan sistem berbasis AI memahami dan merespons isi dokumen PDF secara kontekstual dan relevan. 2.2 Pengumpulan Data Dalam penelitian ini, proses pengumpulan data difokuskan pada pemanfaatan Tafsir Jalalain sebagai sumber utama penafsiran ayat-ayat Al-Qur’an. Tafsir Jalalain, karya Jalaluddin al-Mahalli dan Jalaluddin asSuyuthi, dipilih karena karakteristiknya yang ringkas, mudah dipahami, dan memiliki struktur narasi yang konsisten, menjadikannya cocok untuk integrasi dalam sistem pencarian tematik berbasis teknologi. Teks Tafsir Jalalain tersedia secara daring melalui platform seperti Tafsirweb.com dan Quran.com, yang menyediakan antarmuka pencarian ayat yang spesifik serta kompatibel dengan perangkat lunak pemrosesan bahasa alami atau Natural Language Processing (NLP). Alasan utama pemilihan tafsir ini adalah karena penggunaan luasnya dalam pendidikan Islam serta ketersediaan format digital yang stabil dan bersih, yang mendukung kebutuhan teknis seperti tokenisasi dan ekstraksi makna. Studi menunjukkan bahwa tafsir berbasis web seperti Tafsir Jalalain tidak hanya memperluas akses publik terhadap tafsir klasik, tetapi juga memfasilitasi pengembangan studi tafsir berbasis teknologi informasi melalui struktur naratifnya yang sistematis dan terorganisir [12]. Selain Tafsir Jalalain, data pendukung juga dikumpulkan dari jurnal akademik yang diperoleh melalui database seperti Google Scholar, JSTOR, dan ResearchGate. Pencarian literatur dilakukan dengan kata kunci seperti “tafsir Jalalain digital”, “tafsir klasik dan teknologi”, serta “digitalisasi tafsir Al-Qur’an”. Jurnal-jurnal yang digunakan merupakan publikasi terbaru (minimal sejak 2019) untuk memastikan relevansi konteks dan metodologi terhadap perkembangan teknologi dan isu-isu kontemporer dalam studi tafsir. 2.3 Analisa Sistem Pada tahap ini, analisis sistem dilakukan untuk memahami kebutuhan sistem dan bagaimana elemenelemen yang ada dapat mendukung tujuan penelitian. Proses analisis meliputi identifikasi fitur utama seperti pengolahan data PDF, integrasi tafsir Al-Qur'an, dan kemampuan respons interaktif. Alur sistem dirancang untuk memastikan efisiensi dalam membaca data dari file PDF dan menghasilkan jawaban berbasis tafsir menggunakan teknologi seperti Chainlit, Ollama, dan Groq. Analisis sistem ini mengacu pada prinsip-prinsip Implementasi Chatbot Tafsir Al-Qur'an Menggunakan... (Maulana et al, 2025) 922 ISSN(P): 2797-2313 | ISSN(E): 2775-8575 rekayasa perangkat lunak yang menekankan pada identifikasi kebutuhan fungsional dan non-fungsional sistem secara menyeluruh [13] Selain itu, penilaian juga mencakup potensi permasalahan teknis, seperti kompleksitas format file PDF, serta tantangan dalam mengoptimalkan pemrosesan pertanyaan berbasis teks menggunakan model bahasa besar (LLM) [14]. Kajian literatur oleh Safaat [15] mendukung pentingnya pengembangan sistem chatbot berbasis LLM, dengan menunjukkan peningkatan signifikan jumlah publikasi chatbot sejak tahun 2020. Studi tersebut juga mengidentifikasi tren riset terkini, termasuk pergeseran dari model berbasis aturan ke pendekatan generatif berbasis AI, serta potensi penerapan chatbot dalam konteks pendidikan dan keislaman. Gambar 1. Alur Perancangan Chatbot Tafsir Alur pada Gambar 1 menggunakan pendekatan dari penelitian sebelumnya [10] yang mencakup proses mengimpor file, mengekstrak konten, membagi teks menjadi potongan-potongan (chunks), mengubahnya menjadi embedding, membangun indeks AI semantik sebagai basis pengetahuan, kemudian melakukan pencarian terhadap basis tersebut untuk menemukan potongan yang paling relevan, dan akhirnya menghasilkan jawaban dengan bantuan model bahasa. Groq menggunakan pendekatan perangkat lunak yang fleksibel dan efisien dalam mempercepat beban kerja deep learning, menjadikannya ideal untuk aplikasi inferensi berskala besar seperti chatbot tafsir[16] Ollama merupakan sebuah framework open-source yang memungkinkan pengguna menjalankan LLMs secara lokal di perangkat mereka, tanpa perlu mengandalkan layanan cloud. Meskipun belum ada publikasi akademik khusus mengenai Ollama, pendekatan yang diusung sejalan dengan tren riset terbaru yang mendorong optimalisasi inferensi LLM secara lokal. [17] dalam penelitiannya menekankan pentingnya sistem local-cloud offloading untuk menjalankan LLM secara efisien dalam lingkungan multi-modal dan multi-tugas, guna meningkatkan kinerja sekaligus menjaga privasi data pengguna, membuktikan bahwa inferensi lokal dapat dicapai secara efektif. Ollama menghadirkan keunggulan serupa, seperti privasi data yang lebih tinggi karena tidak memerlukan pengiriman data ke server eksternal, kemudahan integrasi melalui antarmuka API dan CLI yang sederhana, serta kompatibilitas dengan beragam model LLM open-source seperti LLaMA, Mistral, dan Gemma. Dengan demikian, Ollama menjadi solusi praktis dan efisien dalam penerapan sistem LLM lokal, khususnya untuk aplikasi yang menuntut keamanan data dan respons real-time tanpa ketergantungan cloud. Chainlit adalah framework open-source berbasis Python yang memudahkan pengembangan chatbot dengan LLMs, mendukung antarmuka interaktif, integrasi mudah, visualisasi alur, dan multi-modalitas. Keunggulannya terletak pada kemudahan penggunaan dan fleksibilitas. Studi oleh Dasanayaka et al. membahas penerapan antarmuka percakapan interaktif dalam sistem AI berbasis LLM, yang sejalan dengan fitur Chainlit [18]. Penggunaan Groq, Chainlit, dan Ollama secara bersamaan memungkinkan optimalisasi sistem chatbot berbasis LLMs dengan pendekatan yang saling melengkapi. Groq menyediakan akselerasi hardware khusus yang mempercepat inferensi model AI secara signifikan dibandingkan CPU/GPU konvensional. Chainlit berfungsi sebagai framework pengembangan aplikasi chatbot yang modular dan interaktif, memudahkan integrasi dan visualisasi percakapan, yang sulit dicapai jika hanya mengandalkan dua komponen lainnya [19]. Sementara itu, Ollama berfokus pada manajemen dan penyajian model bahasa secara lokal dengan keamanan dan privasi yang lebih terjaga, mengoptimalkan kinerja model dan pengalaman pengguna [18]. Jika hanya menggunakan satu atau dua komponen saja, sistem akan kehilangan keunggulan tertentu. Misalnya, tanpa Groq, kecepatan pemrosesan bisa terhambat; tanpa Chainlit, interaksi pengguna dan pengembangan aplikasi menjadi kurang efisien; tanpa Ollama, manajemen model lokal dan privasi kurang MALCOM - Vol. 5 Iss. 3 July 2025, pp: 920-929 923 MALCOM-05(03): 920-929 optimal. Oleh karena itu, kombinasi ketiganya memberikan sinergi yang meningkatkan performa, pengembangan, dan keamanan aplikasi chatbot secara keseluruhan. Penggunaan representasi vektor (embedding) dalam sistem ini memungkinkan transformasi teks tafsir menjadi format numerik yang dapat diproses oleh model AI. Metode ini memungkinkan sistem untuk memahami konteks dan makna dari teks, sehingga dapat mencocokkan pertanyaan pengguna dengan bagian tafsir yang relevan. Dalam survei oleh Ziyaden[20] embedding vektor terbukti efektif dalam menangkap informasi sintaksis dan semantik, serta berguna sebagai fitur tambahan dalam berbagai tugas NLP [20]. 2.4 Implementasi Tahap implementasi merupakan proses penerapan sistem ke dalam lingkungan operasional yang sesungguhnya. Dalam penelitian ini, implementasi dilakukan melalui platform berbasis web untuk membangun chatbot yang dapat merespons pertanyaan berdasarkan isi dokumen PDF. Pada tahap ini, sistem dirancang untuk mengutamakan pertanyaan yang bersifat spesifik, guna memastikan hasil inferensi yang relevan dan kontekstual. Semakin terfokus pertanyaan yang diajukan, semakin tinggi tingkat kesesuaian jawaban yang dihasilkan oleh model bahasa yang digunakan. Model LLM yang digunakan dalam sistem ini dijalankan melalui layanan inferensi Groq untuk memastikan respons yang cepat dan efisien. 1. Pengembangan Chatbot Pengembangan chatbot dilakukan menggunakan Chainlit. Chainlit menawarkan sejumlah keuntungan dan fitur yang membuatnya menjadi platform yang menarik untuk pengembangan dan implementasi chatbot berbasis web. Selain itu, Chainlit memudahkan integrasi dengan berbagai model bahasa (LLM) dan menyediakan antarmuka yang interaktif untuk berkomunikasi dengan pengguna secara langsung melalui browser. Dengan pendekatan ini, pengguna dapat mengakses chatbot tanpa perlu menginstal aplikasi tambahan, cukup melalui peramban web [21]. 2. Pengembangan API Dalam mendukung pengembangan chatbot, digunakan konfigurasi Application Programming Interface (API) yang memungkinkan sistem untuk berkomunikasi dengan model bahasa besar (LLM) melalui layanan pihak ketiga. Penelitian ini memanfaatkan LangChain sebagai kerangka kerja untuk mengelola interaksi dengan model, serta Groq sebagai penyedia layanan pemrosesan LLM dengan performa tinggi. Beberapa variabel lingkungan dikonfigurasi untuk mendukung proses integrasi dengan layanan LangChain dan Groq. 2.5 Pengujian Pengujian ini bertujuan untuk menentukan kelayakan penggunaan sistem chatbot yang telah dikembangkan. Evaluasi dilakukan dengan membandingkan jawaban yang dihasilkan oleh sistem dengan referensi data yang tersedia, menggunakan BERTScore sebagai metrik utama untuk mengukur kualitas jawaban. BERTScore menghitung kesamaan semantik antara teks yang dihasilkan oleh model dengan teks referensi, dengan memanfaatkan embedding kontekstual dari model bahasa pra-latih seperti BERT. Pendekatan ini memungkinkan pengukuran yang lebih akurat terhadap kesamaan makna, bahkan ketika struktur kalimat atau pilihan kata berbeda. Keunggulan BERTScore dalam evaluasi sistem chatbot telah dibuktikan dalam berbagai penelitian. Misalnya, dalam penelitian [22] BERTScore menunjukkan korelasi yang lebih tinggi dengan penilaian manusia dibandingkan metrik tradisional seperti BLEU dan ROUGE dalam tugas-tugas generasi teks. Selain itu, penelitian [23] menemukan bahwa metrik berbasis embedding seperti BERTScore memiliki korelasi yang lebih baik dengan penilaian subjektif manusia dibandingkan metrik berbasis n-gram, menjadikannya pilihan yang lebih andal untuk mengevaluasi kualitas jawaban dalam sistem chatbot. 1. Precision Precision merupakan ukuran yang digunakan untuk mengevaluasi sejauh mana token-token dalam jawaban sistem (kandidat) sesuai atau relevan dengan token-token dalam kalimat referensi. Evaluasi ini dilakukan dengan mencocokkan setiap token dalam jawaban sistem terhadap token dalam referensi menggunakan pendekatan pairwise cosine similarity. Nilai Precision yang tinggi menunjukkan bahwa sebagian besar informasi yang dihasilkan oleh sistem memang relevan dan sesuai dengan konteks referensi. Dengan demikian, Precision merepresentasikan tingkat ketepatan sistem dalam menghasilkan token yang benar [22]. 2. Recall Recall mengukur kemampuan sistem dalam menangkap seluruh informasi penting yang terdapat dalam kalimat referensi. Penilaian dilakukan dengan membandingkan token-token dari referensi terhadap token-token yang terdapat dalam hasil keluaran sistem. Metode pairwise cosine similarity digunakan Implementasi Chatbot Tafsir Al-Qur'an Menggunakan... (Maulana et al, 2025) 924 ISSN(P): 2797-2313 | ISSN(E): 2775-8575 untuk mengidentifikasi tingkat kemiripan antar token. Nilai Recall yang tinggi menunjukkan bahwa sistem berhasil mengenali sebagian besar, atau bahkan seluruh, informasi yang penting dari referensi. Oleh karena itu, Recall mencerminkan tingkat kelengkapan hasil yang diberikan oleh sistem [24]. 3. F1-Score F1-Score merupakan metrik evaluasi yang mengombinasikan nilai Precision dan Recall ke dalam satu nilai agregat untuk memberikan gambaran yang lebih seimbang mengenai performa sistem. Nilai ini diperoleh dengan menggunakan rata-rata harmonis dari Precision dan Recall, sehingga F1-Score hanya akan tinggi apabila kedua metrik tersebut juga memiliki nilai yang tinggi. Penggunaan F1-Score sangat penting dalam konteks evaluasi sistem berbasis bahasa alami, karena mampu menunjukkan keseimbangan antara ketepatan dan kelengkapan informasi yang dihasilkan [14]. 3. HASIL DAN PEMBAHASAN Setelah model siap, implementasi chatbot tafsir diintegrasikan menggunakan Chainlit. Hasil implementasi dapat dilihat pada Gambar 1, di mana chatbot membentuk hubungan interaktif langsung antara pengguna dan sistem. Dengan memanfaatkan LLM yang dijalankan melalui Ollama serta diakselerasi oleh Groq, chatbot mampu merespons pertanyaan pengguna secara cepat dan relevan berdasarkan isi dokumen tafsir dalam format PDF. Chainlit berperan sebagai antarmuka interaktif yang memungkinkan pengguna menjelajahi isi tafsir secara intuitif dan mendalam. Integrasi ini memungkinkan pemrosesan dan pemahaman teks tafsir, khususnya dalam konteks Tafsir Jalalain, sehingga chatbot dapat memberikan respons yang personal, kontekstual, dan mudah dipahami. 3.1 Hasil Tahapan 3.1.1 Ekstraksi Teks dari Dokumen PDF Pada tahap ini, sistem melakukan ekstraksi isi teks dari dokumen PDF menggunakan pustaka pemrosesan dokumen (seperti PyPDF2). Tujuan dari proses ini adalah mengambil seluruh isi teks secara terstruktur agar dapat diolah lebih lanjut dalam tahapan berikutnya. Proses ekstraksi teks dari file PDF dapat ditunjukkan pada gambar 2. Gambar 2. Proses Ekstraksi Teks dari File PDF 3.1.2 Pembagian Teks ke dalam Chunk Teks hasil ekstraksi dibagi menjadi beberapa bagian kecil (chunks) agar dapat diproses secara lebih efisien oleh model bahasa. Pembagian ini mempertimbangkan batas panjang token tertentu sesuai dengan kapasitas model LLM yang digunakan. Ilustrasi pembagian teks menjadi beberapa chunk dapat dilihat pada Gambar 3. Gambar 3. Ilustrasi Pembagian Teks menjadi Beberapa Chunk MALCOM - Vol. 5 Iss. 3 July 2025, pp: 920-929 925 MALCOM-05(03): 920-929 3.1.3 Pembentukan Embedding Setiap chunk kemudian diubah menjadi bentuk vektor numerik menggunakan model embedding. Embedding ini merepresentasikan makna semantik dari setiap potongan teks dan akan digunakan untuk pencarian semantik. Visualisasi hasil transformasi chunck ke bentuk embedding ditunjukkanm pada gambar 4. Gambar 4. Visualisasi Hasil Transformasi Chunck ke Bentuk Embedding 3.1.4 Pembangunan Indeks Semantik Embedding yang telah dibentuk disimpan dan diindeks menggunakan basis data vektor (dalam hal ini Chroma). Indeks ini berfungsi sebagai knowledge base yang dapat digunakan untuk melakukan pencarian berdasarkan kemiripan semantik. 3.1.5 Inferensi dan Pembangunan Chatbot Setelah indeks terbentuk, chatbot diimplementasikan menggunakan antarmuka web berbasis Chainlit. Pertanyaan dari pengguna diubah menjadi embedding, kemudian dilakukan pencarian ke indeks semantik untuk menemukan chunk yang paling relevan. Potongan tersebut digunakan oleh model LLM via Groq untuk menghasilkan jawaban. 3.2 Pengujian Pengujian dilakukan dengan menggunakan 10 sampel pertanyaan seperti pada tabel 1 dengan menghitung nilai Precision, Recall, dan F1-Score setiap pertanyaan. Tabel 1. Sampel Pertanyaan No 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. Pertanyaan Apa makna dari ayat “Alhamdulillahi Rabbil ‘Aalamiin” menurut Tafsir Jalalain? Siapakah yang dimaksud dengan “al-‘aalamiin” dalam ayat kedua Surah Al-Faatihah? Mengapa Allah disebut "Maaliki Yawmiddiin"? Apa yang dimaksud dengan “ihdinaash-shiraathal mustaqiim”? Siapa yang dimaksud dengan “maghduubi ‘alaihim” dan “dhaalliin”? Apa maksud dari ayat “Alif laam miim” dalam Al-Baqarah ayat 1? Apa fungsi Al-Qur’an menurut Surah Al-Baqarah ayat 2? Siapa yang dimaksud dengan “orang-orang yang bertakwa” dalam Al-Baqarah 2? Apa yang dimaksud dengan “yu’minuuna bimaa unzila ilayka wa maa unzila min qablika”? Mengapa orang kafir tidak akan beriman meski diberi peringatan? (Al-Baqarah:6) Berikut adalah contoh jawaban referensi dan jawaban prediksi: 1. Jawaban Referensi soal no 1 Artinya adalah "Segala puji bagi Allah, Tuhan semesta alam." Allah adalah Zat yang memiliki semua pujian dan seluruh makhluk yang berakal termasuk dalam kategori 'alam'. 2. Jawaban Prediksi soal no 1 Menurut Tafsir Jalalain, "Alhamdulillahi Rabbil 'Aalamiin" berarti "Segala puji bagi Allah, Tuhan semesta alam". Allah adalah Zat yang memiliki semua pujian dan seluruh makhluk yang berakal termasuk dalam kategori 'alam. Lafal 'al-aalamiin' merupakan bentuk jamak dari lafal 'aalam', yaitu dengan memakai huruf ya dan huruf nun untuk menekankan makhluk berakal/berilmu atas yang lainnya. 3. Jawaban Referensi soal no 2 Mereka adalah semua makhluk yang berakal, seperti manusia, jin, malaikat, dan lainnya. Kata ini berasal dari kata `alaamah (tanda), karena menjadi tanda keberadaan pencipta. 4. Jawaban Prediksi soal no 2 Menurut Tafsir Jalalain, "al-‘aalamiin" dalam ayat kedua Surah Al-Faatihah berarti "semesta alam", yaitu semua makhluk yang berakal, termasuk jin dan manusia. Lafal 'al-aalamiin' merupakan bentuk jamak dari lafal 'aalam', yaitu dengan memakai huruf ya dan huruf nun untuk menekankan makhluk berakal/berilmu atas yang lainnya. Implementasi Chatbot Tafsir Al-Qur'an Menggunakan... (Maulana et al, 2025) 926 ISSN(P): 2797-2313 | ISSN(E): 2775-8575 Tabel 2. Hasil Evaluasi BERTScore Pertanyaan 1 2 3 4 5 6 7 8 9 10 Rata-Rata Precision 74,53% 67,57% 73,60% 69,57% 77,96% 77,05% 68,98% 68,97% 69,97% 70,16% 71,84% BERTScore (%) Recall 89,82% 72,39% 79,18% 77,43% 78,67% 80,76% 73,22% 72,00% 80,23% 77,45% 78,11% F1-Score 81,47% 69,89% 76,29% 73,29% 78,32% 78,86% 71,03% 70,45% 74,75% 73,63% 74,80% Berdasarkan Tabel 2 yang menampilkan hasil evaluasi menggunakan metrik BERTScore, dapat disimpulkan bahwa performa sistem dalam menjawab sepuluh pertanyaan menunjukkan hasil yang cukup baik. Evaluasi dilakukan berdasarkan tiga metrik utama, yaitu Precision, Recall, dan F1-Score. Nilai rata-rata yang diperoleh adalah 71,84% untuk Precision, 78,11% untuk Recall, dan 74,80% untuk F1-Score. Hal ini menunjukkan bahwa sistem mampu menghasilkan jawaban yang cukup akurat dan relevan dengan konteks pertanyaan. Pertanyaan ke-6 menunjukkan performa terbaik dengan nilai F1-Score sebesar 78,86%, sedangkan performa terendah terdapat pada pertanyaan ke-2 dengan nilai F1-Score sebesar 69,89%. Secara keseluruhan, sistem memiliki kemampuan yang cukup seimbang antara ketepatan dalam memberikan jawaban dan kelengkapan informasi yang ditangkap dari pertanyaan. 3.3. Tampilan Chatbot Tafsir Ketika Digunakan Berdasarkan implementasi dan pengujian yang telah dilakukan pada Gambar 5, sistem berhasil mengekstraksi teks dari file PDF, memecahnya menjadi bagian-bagian kecil (chunks), lalu melakukan embedding dan penerjemahan respons ke dalam Bahasa Indonesia. Namun, ditemukan bahwa agar sistem dapat memberikan jawaban yang akurat dan relevan, pertanyaan dari pengguna harus disampaikan secara jelas dan spesifik. Pertanyaan yang terlalu umum atau mengandung kesalahan pengetikan (typo) sering menyebabkan sistem kesulitan dalam memahami maksud dan konteks, sehingga jawabannya bisa menjadi kurang tepat. Gambar 5. Tampilan chatbot ketika menjawab pertanyaan dari user Untuk mengatasi hal ini, ke depannya dapat diterapkan preprocessing pada input pengguna, seperti spell checking otomatis, serta antarmuka bantu seperti autocomplete atau saran struktur kalimat. Selain itu, pelatihan ulang model dengan data pertanyaan berbahasa Indonesia yang telah dibersihkan dapat meningkatkan akurasi pemahaman. Menurut penelitian oleh Moslem et al [25] sistem NLP cenderung gagal ketika input berisi kesalahan linguistik, dan pendekatan berbasis koreksi otomatis terbukti meningkatkan performa pemahaman mesin terhadap bahasa alami. Jika dibandingkan dengan penelitian Permadi et al [5], yang mengembangkan chatbot tafsir Al-Azhar berbasis Telegram dan mengevaluasi hasil menggunakan User Acceptance Test (UAT), penelitian ini menunjukkan pendekatan evaluasi yang lebih objektif dengan menggunakan metrik BERTScore. Rata-rata F1Score sebesar 74,80% mencerminkan kualitas jawaban yang relevan secara semantik, bukan hanya dinilai MALCOM - Vol. 5 Iss. 3 July 2025, pp: 920-929 927 MALCOM-05(03): 920-929 secara manual. Selain itu, penelitian ini mengolah dokumen tafsir langsung dari format PDF, sedangkan penelitian Rizki et al [3] menggunakan data yang sudah terstruktur. Hal ini menunjukkan keunggulan sistem dalam menangani sumber data yang kompleks dan tidak selalu terorganisir. Secara teknis, sistem ini mengintegrasikan tiga komponen utama, yaitu Chainlit sebagai antarmuka web interaktif, Groq sebagai akselerator inferensi untuk mempercepat proses respon, dan Ollama sebagai solusi inferensi lokal tanpa bergantung pada layanan cloud. Kombinasi ketiganya belum ditemukan pada studi sebelumnya, menjadikan integrasi ini sebagai unsur kebaruan utama dalam penelitian. Hasilnya, sistem mampu memberikan jawaban yang cepat, kontekstual, serta menjaga privasi pengguna. Dengan pendekatan ini, sistem tidak hanya mendukung pembelajaran tafsir berbasis AI, tetapi juga menjadi langkah konkret dalam pengembangan media dakwah digital yang efisien, adaptif, dan mudah diakses. 4. KESIMPULAN Berdasarkan hasil penelitian, sistem chatbot tafsir berbasis Chainlit, Groq, dan Ollama berhasil dikembangkan dan diimplementasikan sesuai dengan tujuan utama penelitian, yaitu menyediakan media pembelajaran tafsir Al-Qur'an yang interaktif, cepat, dan kontekstual terkhusus pada Tafsir Jalalain. Sistem mampu memproses dokumen tafsir dalam format PDF melalui tahapan ekstraksi teks, pembagian chunk, embedding, dan pencocokan semantik menggunakan vector database Chroma. Hasil evaluasi menggunakan BERTScore terhadap sepuluh pertanyaan menunjukkan performa yang baik dengan rata-rata Precision sebesar 71,84%, Recall 78,11%, dan F1-Score 74,80%, menunjukkan bahwa sistem dapat memahami dan menjawab pertanyaan secara relevan sesuai konteks tafsir. Sistem ini juga menunjukkan efisiensi dari sisi waktu respons dan kemudahan penggunaan berbasis web, meskipun terdapat tantangan seperti keterbatasan dalam menangkap maksud inti pertanyaan, terutama yang bersifat umum atau ambigu. Oleh karena itu, untuk pengembangan selanjutnya, disarankan untuk mengintegrasikan teknik seperti query refinement, named entity recognition (NER), dan semantic parsing untuk meningkatkan pemahaman semantik sistem terhadap pertanyaan pengguna. Selain itu, eksplorasi terhadap model bahasa lokal yang telah di-fine-tune dengan data tafsir, serta dukungan multibahasa (Bahasa Arab dan Indonesia), menjadi langkah strategis untuk memperluas cakupan dan akurasi sistem dalam konteks pembelajaran Islam digital. REFERENSI [1] A. S. Prihatinoto, N. Safaat Harahap, M. Irsyad, and I. Iskandar, “Question Answering System Tafseer Ibnu Katsir Using Large Language Models,” Jurnal Informatika & Rekayasa Elektronika), vol. 7, no. 1, pp. 68–79, Apr. 2024, doi: 10.36595/jire.v7i1.1155. [2] I. Fadilatul Kasmar, F. Anwar, and U. N. Padang, “Metode Guru dalam Mengatasi Kesulitan Belajar Alquran Peserta Didik,” An-Nuha: Jurnal Pendidikan Islam, vol. 1, no. 4, pp. 617–629, Nov. 2021, doi: https://doi.org/10.24036/annuha.v1i4.140. [3] F. Rizki, A. Sutiyo, N. S. Harahap, S. Agustian, and R. M. Candra, “KLIK: Kajian Ilmiah Informatika dan Komputer Implementasi Question Answering Berbasis Chatbot Telegram Pada Tafsir Al-Jalalain Menggunakan Langchain dan LLM,” Media Online, vol. 4, no. 5, pp. 2464–2472, Apr. 2024, doi: 10.30865/klik.v4i5.1784. [4] O. Topsakal and T. C. Akinci, “Creating Large Language Model Applications Utilizing LangChain: A Primer on Developing LLM Apps Fast,” in International Conference on Applied Engineering and Natural Sciences (ICAENS), Vol. 1, No. 1, Halaman 1050–1056, Jul. 2023. doi: 10.59287/icaens.1127. [5] Aji Bayu Permadi, Nazruddin Safaat H, Lestari Handayani, and Yusra, “Implementasi Question Answering System Tafsir Al-Azhar Menggunakan LangChain dan Large Language Model Berbasis Chatbot Telegram,” Jurnal Teknoif Teknik Informatika Institut Teknologi Padang, vol. 12, no. 1, pp. 62–69, Apr. 2024, doi: 10.21063/jtif.2024.v12.1.62-69. [6] A. Mansurova, A. Nugumanova, and Z. Makhambetova, “Development of a Question Answering Chatbot for Blockchain Domain,” Scientific Journal of Astana IT University, vol. 15, pp. 27–40, Sep. 2023, doi: 10.37943/15xndz6667. [7] A. Pesaru, S. Gill, and A. Tangella, “AI assistant for document management Using Lang Chain and Pinecone,” International Research Journal of Modernization in Engineering Technology and Science, Jun. 2023, doi: 10.56726/irjmets42630. [8] F. Soygazi and D. Oguz, “An Analysis of Large Language Models and LangChain in Mathematics Education,” in Proceedings of the 15th International Conference on Educational Technology (ICET ’23), ACM, Oct. 2023, pp. 92–97. doi: 10.1145/3633598.3633614. [9] M. Mulky Mar’arif, N. Safaat Harahap, and M. Affandes, “Sistem Tanya-Jawab Berbasis Chatbot Telegram Tentang Fiqih Kontemporer Menggunakan Langchain Dan LLM,” TEKNIKA, vol. 19, no. 2, pp. 1–5, Apr. 2025. [10] T. Medeiros, M. Medeiros, M. Azevedo, M. Silva, I. Silva, and D. G. Costa, “Analysis of LanguageModel-Powered Chatbots for Query Resolution in PDF-Based Automotive Manuals,” Vehicles, vol. 5, no. 4, pp. 1384–1399, Dec. 2023, doi: 10.3390/vehicles5040076. Implementasi Chatbot Tafsir Al-Qur'an Menggunakan... (Maulana et al, 2025) 928 ISSN(P): 2797-2313 | ISSN(E): 2775-8575 [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] X. Zhong, J. Tang, and A. J. Yepes, “PubLayNet: largest dataset ever for document layout analysis,” Nat Commun, vol. 8, no. 1, Aug. 2019, doi: 10.1038/s41467-017-00439-1. M. Y. Firdaus, “Digitalisasi Khazanah Ilmu Al-Qur’an dan Tafsir di Era Digital: Studi Analisis pada Website Tanwir.id,” Reslaj: Religion Education Social Laa Roiba Journal, vol. 5, pp. 2710–2716, 2023, doi: 10.47476/as.v5i6.2552. W. Grosky and T. Ruas, Data Science for Software Engineers, 9th ed. McGraw-Hill Education, 2019. T. Wolf et al., “Transformers: State-of-the-Art Natural Language Processing,” in Proceedings ofthe 2020 EMNLP (Systems Demonstrations), Nov. 2020, pp. 38–45. doi: 10.18653/v1/2020.emnlpdemos.6. N. S. Harahap, A. Saad, and H. Ubaidullah, “Comprehensive Bibliometric Literature Review of Chatbot Research: Trends, Frameworks, and Emerging Applications,” (IJACSA) International Journal of Advanced Computer Science and Applications, vol. 16, no. 1, p. 2025, 2025, [Online]. Available: www.ijacsa.thesai.org S. Xiang et al., “HeteroFlow: An Accelerator Programming Model with Decoupled Data Placement for Software-Defined FPGAs,” in FPGA 2022 - Proceedings of the 2022 ACM/SIGDA International Symposium on Field-Programmable Gate Arrays, Association for Computing Machinery, Inc, Feb. 2022, pp. 78–88. doi: 10.1145/3490422.3502369. L. Yuan, D.-J. Han, S. Wang, and C. G. Brinton, “Local-Cloud Inference Offloading for LLMs in MultiModal, Multi-Task, Multi-Dialogue Settings,” ArXiv, vol. 1, pp. 1–15, Feb. 2025, doi: 10.48550/arXiv.2502.11007. C. Dasanayaka, K. Dandeniya, M. B. Dissanayake, C. Gunasena, and R. Jayasinghe, “Multimodal AI and Large Language Models for Orthopantomography Radiology Report Generation and Q&A,” Applied System Innovation, vol. 8, no. 2, Apr. 2025, doi: 10.3390/asi8020039. K. Hrushikesh Koundinya, A. K. Palakurthi, V. Putnala, and A. K. Kumar, “Smart College Chatbot using ML and Python,” in 2020 International Conference on System, Computation, Automation and Networking, ICSCAN 2020, Institute of Electrical and Electronics Engineers Inc., Jul. 2020. doi: 10.1109/ICSCAN49426.2020.9262426. A. Pak, A. Ziyaden, T. Saparov, I. Akhmetov, and A. Gelbukh, “Word Embeddings: A Comprehensive Survey,” Computacion y Sistemas, vol. 28, no. 4, pp. 2005–2029, 2024, doi: 10.13053/CyS-28-4-5225. E. Meiliverani and C. Yefta, “Web-Based Chatbot with Natural Language Processing and KnuthMorris-Pratt (Case Study: Universitas Internasional Batam),” Jurnal Sains dan Teknologi, vol. 11, pp. 132–141, 2022, doi: 10.23887/jst-undiksha.v11i1. T. Zhang, V. Kishore, F. Wu, K. Q. Weinberger, and Y. Artzi, “BERTScore: Evaluating Text Generation with BERT,” in Proceedings of the 8th International Conference on Learning Representations (ICLR 2020), Apr. 2019. doi: 10.48550/arXiv.1904.09675. M. Clinciu, A. Eshghi, and H. Hastie, “A Study of Automatic Metrics for the Evaluation of Natural Language Explanations,” in Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2021), Mar. 2021. doi: 10.18653/v1/2021.eaclmain.202. C. Sun, X. Qiu, Y. Xu, and X. Huang, “How to Fine-Tune BERT for Text Classification?,” in Proceedings of the Chinese Computational Linguistics (CCL 2019), Lecture Notes in Computer Science, Springer, May 2019. doi: 10.1007/978-3-030-32381-3_16. Y. Moslem, R. Haque, and A. Way, “Arabisc: Context-Sensitive Neural Spelling Checker,” in Proceedings of the 6th Workshop on Natural Language Processing Techniques for Educational Applications (NLPTEA), E. Yang, E. Xun, B. Zhang, and G. Rao, Eds., Suzhou: Association for Computational Linguistics, Feb. 2020, pp. 11–19. doi: https://doi.org/10.18653/v1/2020.nlptea-1.2. MALCOM - Vol. 5 Iss. 3 July 2025, pp: 920-929 929