JINACS: Volume 07 Nomor 03, 2026 (Journal of Informatics and Computer Scienc. ISSN : 2686-2220 Analisis Kinerja Retrieval Augmented Generation (RAG) Klasik Dalam Chatbot Akademik berbasis Multimodal Kartika Wulandari1. Yuni Yamasari2 Teknik Informatika. Fakultas Teknik. Universitas Negeri Surabaya 22145@mhs. 2yuniyamasari@unesa. AbstrakAi Akses informasi akademik di Universitas membantu sivitas akademika memperoleh informasi dengan Negeri Surabaya (UNESA) melalui website panduan saat cepat dan mandiri tanpa harus selalu menghubungi pihak ini dinilai belum optimal karena kurangnya interaktivitas, administrasi. Namun, kenyataannya di Universitas Negeri Surabaya sehingga mahasiswa seringkali harus menghubungi pihak administrasi secara langsung. Penelitian ini bertujuan (UNESA). Pemanfaatan website panduan sebagai sumber untuk melakukan evaluasi kinerja Retrieval-Augmented informasi utama masih belum berjalan secara optimal. Banyak Generation (RAG), yaitu RAG Klasik guna menguji mahasiswa lebih memilih untuk bertanya langsung kepada staf kinerja sistem dalam menghasilkan respon yang relevan, administrasi dibandingkan mencari informasi melalui website. akurat, dan kontekstual pada chatbot akademik. Lingkup Kondisi ini menunjukkan bahwa sistem informasi akademik penelitian ini difokuskan pada pengujian evaluasi kinerja yang tersedia masih memiliki keterbatasan, baik dari sisi dan efisiensi metode tersebut dalam mengolah data kemudahan penggunaan maupun kemampuan sistem dalam multimodal yang bersumber dari portal SSO UNESA, menjawab kebutuhan pengguna secara kontekstual. Sebagai alternatif Solusi, chatbot berbasis kecerdasan mencakup format teks, gambar, dan dokumen PDF. Metodologi tahap buatan menjadi teknologi yang semakin relevan untuk pengumpulan data, ekstraksi teks menggunakan Optical meningkatkan kualitas layanan informasi akademik. Chatbot Character Recognition (OCR), preprocessing, serta memungkinkan interaksi menggunakan bahasa alami sehingga penerapan dua strategi pelabelan, yakni manual dan pengguna dapat memperoleh informasi secara cepat, peronal. Penelitian ini menganalisis kinerja RAG Klasik dan interaktif . Penerapan chatbot juga terbukti mampu yang menggunakan algoritma BM25 dalam mengolah data mengurangi beban kerja staf administratif serta meningkatkan efisiensi layanan informasi di berbagai institusi pendidikan. Meskipun demikian, sebagian besar terdapat chatbot RAG Klasik diimplementasikan menggunakan algoritma BM25 berbasis kata kunci. Evaluasi dilakukan konvensional masih bergantung pada pendekatan pencocokan secara sistematis menggunakan metrik efektivitas pola atau string matching yang bersifat kaku. Pendekatan (Precision. Recall. F1-Score. Exact Match, dan Cosine tersebut sering kali gagal memahami konteks, maupun variasi bahasa alami dalam pertanyaan pengguna. Selain itu, banyak Similarit. serta metrik efisiensi . aktu respon. Hasil penelitian menunjukkan bahwa RAG Klasik sistem chatbot yang dirancang dengan data unimodal, yaitu memiliki efisiensi luar biasa dengan waktu respon rata- hanya memanfaatkan data teks, sehingga kurang mampu rata dibawah 0,01 detik. Namun, dari sisi kinerja, metode menangani informasi yang berasal dari dokumen dan gambar. ini sangat bergantung pada kualitas pelabelan, di mana Keterbatasan ini menyebabkan jawaban yang dihasilkan skenario label otomatis mencapai F1-Score 0. 52 dan menjadi tidak lengkap atau kurang relevan. Untuk mengatasi permasalahan tersebut, data multimodal Csoine Similarity 0. 51, mengungguli scenario label manual. penting karena memungkinkan sistem chatbot Penelitian menyimpulkan bahwa RAG Klasik sangat ideal berbagai jenis data. Data multimodal untuk informasi procedural yang membutuhkan respon basis pengetahuan karena informasi resmi instan meskipun memiliki keterbatsan dalam pemahaman dalam berbagai format seperti teks, semantic yang mendalam. dokumen, maupaun gambar. Salah satu pendekatan yang banyak digunakan dalam Kata KunciAi Retrieval Augmented Generation (RAG), chatbot adalah Retrieval Augmented RAG Klasik. BM25. Multimodal. UNESA. generation (RAG). RAG mengombinasikan proses pencarian informasi . dari kumpulan dokumen dengan proses PENDAHULUAN Perkembangan teknologi informasi yang pesat dalam era pembangkitan jawaban . Dalam implementasinya, digital telah membawa perubahan besar di berbagai bidang. RAG klasik, retrieval umimnya dilakukan menggunakan termasuk dalam sektor pendidikan tinggi . Perguruan metode berbasis kata kunci seperti TF-IDF dan cosine similarity, yang kemudian digunakan dasar dalam tinggi kini semakin bergantung pada sistem digital untuk mendukung kegiatan akademik dan administratif, seperti menghasilkan jawaban. Pendekatan ini relative sederhana dan portal akademik, sistem e-learning, dan website panduan efisien, namun masih memiliki keterbatasan dalam memahami informasi kampus. Sistem-sistem ini diharapkan dapat konteks semantic serta variasi bahsa pengguna JINACS: Volume 07 Nomor 03, 2026 (Journal of Informatics and Computer Scienc. ISSN : 2686-2220 Beberapa penelitian sebelumnya telah menunjukkan keunggulan RAG dalam meningkatkan kualitas chatbot. Hidayat dkk. membuktikan efektivitas RAG berbasis LLM pada integrasi Telegram. Danuarta dkk. meningkatkan presisi dan relevansi chatbot edukasi dengan RAG, dan Pratama dkk. mengembangkan chatbot administratif berbasis RAG yang lebih responsif di lingkungan nyata. Namun, sebagian besar penelitian tersebut masih terbatas pada data unimodal serta belum secara khusus mengevaluasi kinerja RAG klasik pada chatbot informasi Selain itu, kajian mendalam terkait peforma RAG klasik dalam menjawab berbagai jenis pertanyaan akademik masih relative terbatas. Berdasarkan kondisi tersebut, penelitian ini berfokus pada evaluasi kinerja Retrieval Augmented Generation (RAG) klasik dalam chatbot informasi akademik di lingkungan Universitas Negeri Surabaya (UNESA). II. METODE PENELITIAN menghasilkan respons yang relevan, akurat, dan kontekstual pada chatbot informasi akademik penerapan berbasis Studi Literatur Pada tahap ini, studi literatur dilakukan sebagai pendukung dan acuan penelitian dengan menelaah berbagai sumber yang membahas pengembangan chatbot, information Retrieval (IR). Natural Languange Processing (NLP), serta Retrieval Augmented Generation (RAG) klasik berbasis metode retrieval kata kunci, khususnya BM25. Literatur dikumpulkan dari buku, artikel ilmiah, dan prosiding konferensi untuk mempelajari konsep dasar, arsitektur, dan mekanisme kerja RAG kalsik dalam chatbot informasi akademik, sekaligus mengindentifikasi keterbatasan penelitian sebelumnya terkait evaluasi kinerja RAG klasik. Pengumpulan Data Data dalam penelitian ini diperoleh dari website akademik resmi Universitas Negeri Surabaya (UNESA) melalui portal Single Sign-On (SSO UNESA). Sumber data mencakup berbagai sistem dan layanan akademik yang umum digunakan mahasiswa untuk mengakses informasi perkuliahan, administrasi, dan panduan akademik. Data tersebut digunakan sebagai basis pengetahuan . nowledge bas. bagi system chatbot akademik yang dikembangkan. Secara keseluruhan, data yang digunakan terdiri dari tiga jenis format . , yaitu teks (. , gambar (. , dan dokumen (. Ekstraksi Data Gbr 1. Flowchart Alur Penelitian Identifikasi Masalah Berdasarkan hasil eksplorasi yang telah dilakukan, dirumuskan pertanyaan penelitian yang relevan dengan kebutuhan pengembangan sistem informasi akademik di era Perumusan masalah ini berangkat dari pemahaman mendalam terhadap keterbatasan chatbot konvensional yang masih berbasis pencocokan kata kunci . eyword-base. , yang cenderung kurang mampu memahami konteks serta variasi bahasa alami dalam pertanyaan pengguna. Kondisi tersebut mendorong perlunya pendekatan yang lebih adaptif dalam penyajian informasi akademik. Salah satu pendekatan yang banyak diterapkan untuk meningkatkan kualitas respons chatbot adalah Retrieval Augmented Generation (RAG). Pada pendekatan RAG klasik, proses pencarian informasi dilakukan menggunakan metode retrieval berbasis kata kunci, seperti BM25, yang kemudian dimanfaatkan sebagai dasar dalam menghasilkan jawaban. Meskipun pendekatan ini relative sederhana dan efisien, kinerjanya dalam konteks chatbot informasi akademik, khususnya dalam menghasilkan jawaban yang relevan dan akurat, masih perlu di evaluasi secara menyeluruh. Oleh karena itu, penelitian ini difokuskan untuk menjawab pertanyaan bagaimana kinerja pendekatan Retrieval Augmented Generation (RAG) klasik berbasis BM25 dalam Gbr 2. Ekstraksi Data Data multimodal yang telah dikumpulkan, selanjutnya dilakukan ekstraksi data multimodal yaitu mengubah jenis format data teks, gambar, dan dokumen menjadi satu format teks digital seragam. Proses ini bertujuan untuk menghasilkan dataset teks yang nantinya akan digunakan sebagai basis pengetahuan . nowledge bas. pada tahap penelitian Secara teknis, ekstraksi dilakukan langsung pada file teks, menggunakan OCR (Optical Character Recognitio. untuk file gambar, serta pustaka PyPDF2 atau konversi gambar untuk dokumen PDF. Pelabelan Data yang sudah berhasil di ekstraksi akan dilakukan pelabelan untuk menghasilkan pasangan data yang akan digunakan sebagai basis pengetahuan . nowledge bas. bagi sistem chatbot akademik. Proses ini menerapkan dua strategi utama yaitu label manual yang menghasilkan pasangan tanyajawab (QA) dan label otomatis menggunakan teknik lexicon JINACS: Volume 07 Nomor 03, 2026 (Journal of Informatics and Computer Scienc. ISSN : 2686-2220 Tahap ini bertujuan untuk memperkaya dataset serta menyediakan data acuan . orund trut. untuk proses evalausi model. Preprocessing Teks dibersihkan, ditokenisasi (NLTK), dan dipecah menjadi chunk sebesar 150 kata dengan overlap 30 kata untuk menjaga kesinambungan konteks. Pembangunan Model dari label manual yang hanya mencatat skor masing-masing 45 dan 0. Penggunaan strategi pelabelan otomatis berbasis lexicon matching terbukti efektif dalam memperkaya variasi data basis pengetahuan, sehingga meningkatkan kemampuan sistem dalam menemukan dokumen yang relevan. Namun, secara keseluruhan, rendahnya skor Cosine Similarity dan Exact Match mengonfirmasik keterbatasan algoritma BM25 yang hanya mengandalkan pencocokan kata kunci kaku. Sistem ini cenderung gagal memberikan jawaban akurat ketika pengguna menggunakan variasi bahasa alami atau parafrase yang tidak identik dengan dokumen sumber. Efisiensi Waktu Respon TABLE II HASIL EFISIENSI WAKTU RESPON Skenario Respon Time (S) Label Manual Label Otomatis Gbr 3. Alur kerja model BM25 Dokumen diindeks menggunakan BM25Okapi yang menghitung skor relevansi berdasaran frekuensi kemunculan kata kunci kueri terhadap dokumen. HASIL DAN ANALISIS Bagian ini membahas hasil implementasi model dan evaluasi sistem chatbot akademik berbasis Retrieval Augmented Generation (RAG) yang mencakup tahapan ekstraksi data multimodal, pelabelan data, preprocessing, serta analisis hasil pengujian model. Pembahasan difokuskan pada evaluasi kinerja pendekatan Retrieval Augmented Generation (RAG) klasik dalam menghasilkan respons yang relevan dan akurat untuk memenuhi kebutuhan informasi akademik di Universitas Negeri Surabaya. Hasil Evaluasi Kinerja Berdasarkan pengujian sistem, kinerja RAG Klasik dirangkum berikut: TABLE I HASIL EVALUASI KINERJA Metrik Label Manual Label Otomatis Precision Recall F1-Score Cosine Similarity Exact Match Hasil Evaluasi menunjukkan bahwa pendekaran RAG Klasik memiliki pefroma yang lebih optimal pada skenario label otomatis dibandingkan label manual diseluruh metrik Skenario label otomatis mencapai nilai F1-Score 52 dan Cosine Similarity sebesar 0. 51, lebih unggul RAG Klasik menunjukkan keunggulan pada aspek kecepatan sistem. Berdasarkan data tersebut, skenario label manual mencatat waktu respon rata-rata sebesar 0. 007 detik, sedangkan skenario label otomatis mencatat waktu yang jauh lebih cepat, yakni 0. 0017 detik. Kecepatan respon yang sangat singkat ini dimungkinkan karena mekanisme RAG Klasik hanya melibatkan proses pencarian dokumen . berbasis algoritma BM25 tanpa melalui tahapan model genaratif. Analisis Kesalahan TABLE i ANALISIS KESALAHAN Skenario Query Ground Truth Predic Jenis Kesala Label Manual gimana cara n unesa pakai sidia? Menjelask an SIDIA Tidak Label Otomat Bagaimana an UKT? Akses (QR Cod. pada SIDIA Tahapan n UKT Cara foto profil Halusina si / salah RAG Klasik ditemukan memiliki kelemahan pada variasi bahasa karena berbasis kata kunci kaku, system sering gagal jika kueri pengguna menggunakan paraphrase yang tidak ada di dokumen dan kelemahan pada kesalahan konteks, terkadang system mengalami Ausalah dokumenAy . alusinasi pengambila. jika terdapat kata kunci yang mirip pada kategori yang berbeda. JINACS: Volume 07 Nomor 03, 2026 (Journal of Informatics and Computer Scienc. ISSN : 2686-2220 IV. PEMBAHASAN Berdasarkan hasil pengujian pada Tabel I, scenario pelabelan otomatis secara konsisten mengunguli pelabelan manual diseluruh metrik pengujian, dengan pencapaian F1Score sebesar 0. 52 dan Cosine Similarity 0. keunggulan ini mengindikasikan bahwa penggunaan teknik lexicon matching sangat efektif dalam membantu algoritma BM25 untuk mengelompokkan data ke dalam kategori akademik yang tepat, sehingga meminimalisir kesalahan dalam pencarian dokumen Sebaliknya, pelabelan manual yang bersifat lebih spesifik justru menghasilkan skor yang lebih rendah karena keterbatasan mendasar algoritma BM25 yang hanya mengandalkan pencocokan kata kunci secara kaku tanpa kemampuan pemahaman semantic mendalam. Dari aspek efisiensi, penelitian ini menemukan bahwa pendekatan RAG Klasik memiliki kecepatan respon yang luar biasa dengan rata-rata waktu dibawah 0. 01 detik. Data pada Tabel II menunjukkan bahwa scenario label otomatis bahkan mampu memberikan jawaban dalam waktu secepat 0. Kecepatan respon yang sangat singkat ini dimungkinkan karena mekanisme kerja RAG Klasik hanya melibatkan proses pencarian dokumen . berbasis indeks frekuensi kata kunci tanpa melalui tahapan model generatif yang memrlukan beban komputasi tinggi. Hal ini menjadikan RAG Klasik sebagai Solusi yang sangat unggul untuk kebutuhan layanan informasi akademik yang menuntut respon instan dan efisisensi sumber daya. Meskipun menunjukkan efisisensi tinggi. RAG Klasik memiliki kelemahan mendasar dalam menangani variasi Bahasa alami dan paraphrase dari kueri pengguna. Analisis kesalahan pada Tabel i mengungkapkan bahwa system cenderung mengalami halusinasi apabila pertanyaan pengguna mengandung kata kunci yang mirip namun berada pada kategori yang berbeda. Rendahnya nilai Exact Match yang hanya berada pada rentang 0. 21 hingga 0. mengonfirmasikan bahwa algoritma berbasis kata kunci kaku ini sulit memberikan jawaban yang identik secara tekstual dengan referensi jika kueri pengguna bersifat ambigu. Keterbatasan ini menegaskan bahwa RAG Klasik lebih ideal untuk informasi prosedura statis dibandingkan untuk kebutuhan interaksi Bahasa alami yang kompleks. KESIMPULAN Penelitian ini berhasil mengimplementasikan dan mengevaluasi kinerja RAG Klasik untuk chatbot akademik berbasis data multimodal. Berdasarkan hasil analisis, dapat disimpulkan bahwa: RAG Klasik menawarkan efisiensi waktu yang sangat tinggi, dengan waktu respon rata-rata antara 0. 007 detik, menjadikannya sangat ideal untuk informasi procedural yang membutuhkan jawaban Kinerja sistem sangat beruntung pada strategi pelabelan, di mana pelabelan otomatis terbukti lebih optimal (F1-Score 0. dalam membantu proses pemetaan informasi dibandingkan pelabelan manual. Keterbatsan utama metode ini terletak pada pemahaman semantic yang rendah, di mana algoritma BM25 gagal memberikan jawaban yang relevan jika pengguna menggunakan variasi bahsa alami yang berbeda dari dokumen referensi. Untuk pengembangan penelitian selanjutnya, disarankan menggunakan Integrasi model modern yaitu menggabungkan arsitektur RAG dengan model generative seperti Sequence to Sequence (Seq2se. atau embedding seperti Word2Vec untuk meningkatkan pemahaman kontekstual dan mengatasi kelemahan pada variasi bahasa. REFERENSI