Jurnal Algoritma.
Logika dan Komputasi Versi Online: https://journal.
id/index.
php/alu DOI: http://dx.
org/10.
30813/j-alu.
Vol.
IX (No.
01 ) : 875 - 885.
Th.
p-ISSN: 2620-620X
e-ISSN: 2621-9840
PENGEMBANGAN CHATBOT ANALISIS DATA MAHASISWA
DENGAN TERM FREQUENCY - INVERSE DOCUMENT
FREQUENCY DAN LOGISTIC REGRESSION
[Development of Student Data Analysis Chatbot Using Term Frequency Inverse Document Frequency and Logistic Regressio.
Regina Hillary, reginahillaryy@gmail.
Aliya Cahyanti Wijaya, aliyawijaya67@gmail.
Melvin Wijaya Susanto, vinsjob90@gmail.
Kurniawan Sutanto.
L1917@lecturer.
*, dan Marta Lenah Haryanti, lenah@gmail.
Fakultas Teknologi dan Desain.
Universitas Bunda Mulia
Diterima 12 September 2025 / Disetujui 12 Oktober 2025
ABSTRACT
The development of information technology pushes the need of students and educational institutions to understand various academic data, such as test scores, attendance rate, and learning However, data presentation in tables or graphs is often difficult to understand, especially by users who are not familiar with statistical analysis.
This study aims to develop a student data analysis chatbot based on Natural Language Processing (NLP) and Machine Learning Method so that academic information can be accessed quickly, easily, and interactively.
The method used in this research is Term Frequency Ae Inverse Document Frequency (TF-IDF) to convert the user's question text into a numerical vector and Logistic Regression to classify intent.
The dataset contains academic data of 5,000 students and the model is trained by supervised learning with 80% training and 20% testing data division.
The chatbot evaluation result shows accuracy of 83% with precision value 0.
86, recall 0.
83, and F1-score The chatbot can answer various questions such as the number of students, the highest score to the average of attendance.
In conclusion, it can be seen that the integration of Natural Language Processing.
Term Frequency Ae Inverse Document Frequency, and Logistic Regression is proven could be efficient in academic data analysis and decision-making support in the educational environment.
Keywords: Chatbot.
NLP.
Machine Learning.
Logistic Regression ABSTRAK Perkembangan teknologi informasi mendorong akan kebutuhan mahasiswa dan lembaga pendidikan untuk memahami berbagai macam data akademik, seperti nilai ujian, tingkat kehadiran, dan kinerja belajar.
Namun, penyajian data di dalam bentuk tabel atau grafik seringkali dapat sulit dipahami, terutama oleh pengguna yang tidak familiar dengan analisis statistik.
Penelitian ini bertujuan untuk mengembangkan sebuah chatbot yang melakukan analisis data mahasiswa, berbasis teknologi Natural Language Processing (NLP) dan Machine Learning, supaya informasi akademik dapat diakses dengan cepat, mudah, dan interaktif.
Metode yang digunakan dalam penelitian ini adalah metode Term Frequency Ae Inverse Document Frequency (TF-IDF) untuk mengubah teks pertanyaan pengguna menjadi vektor numerik dan metode Logistic Regression untuk mengklasifikasikan intent.
Dataset yang dipakai berisi data akademik sebanyak 5.
000 mahasiswa dan model dilatih dengan metode supervised learning dengan menggunakan pembagian data sebanyak 80% untuk training / pelatihan dan sebanyak 20% untuk testing / Hasil evaluasi chatbot menunjukkan akurasi sebesar 83% dengan nilai precision 0,86, recall 0,83, dan F1-score 0,82.
Chatbot dapat menjawab berbagai pertanyaan seperti jumlah mahasiswa, nilai tertinggi, hingga rata-rata kehadiran.
Kesimpulannya, dapat terlihat bahwa integrasi Natural Language Processing.
Term Frequency Ae Inverse Document Frequency, dan Logistic Regression terbukti dapat efisien dalam melakukan analisis data akademik dan dukungan pengambilan keputusan di dalam lingkungan pendidikan.
Kata Kunci: Chatbot.
NLP.
Machine Learning.
Logistic Regression *Korespondensi Penulis:
E-mail: L1917@lecturer.
Jurnal Algoritma.
Logika dan Komputasi Versi Online: https://journal.
id/index.
php/alu DOI: http://dx.
org/10.
30813/j-alu.
Vol.
IX (No.
01 ) : 875 - 885.
Th.
p-ISSN: 2620-620X
e-ISSN: 2621-9840
PENDAHULUAN
Perkembangan teknologi informasi telah membawa perubahan besar dalam cara manusia mengakses dan memanfaatkan data, khususnya dalam dunia pendidikan.
Salah satu tantangan yang sering dihadapi oleh mahasiswa maupun pihak institusi adalah kesulitan dalam memahami dan menganalisis data akademik, seperti nilai tugas, hasil ujian, kehadiran, maupun performa keseluruhan.
Data tersebut seringkali disajikan dalam bentuk tabel atau grafik yang menginterpretasikannya dengan mudah dan cepat.
Kondisi ini menimbulkan kebutuhan akan sistem yang mampu menerjemahkan data kompleks menjadi informasi yang mudah dipahami dan dapat diakses secara interaktif.
Untuk menjawab kebutuhan tersebut, teknologi chatbot berbasis kecerdasan buatan menjadi salah satu solusi potensial.
Chatbot tidak hanya mampu melakukan percakapan layaknya manusia, tetapi juga dapat diintegrasikan dengan sistem data untuk memberikan analisis dan penjelasan secara langsung kepada pengguna.
Salah satu contoh penerapan chatbot dalam pendidikan adalah penggunaan chatbot untuk mata kuliah Sistem Operasi pada program studi Teknik Informatika di satu universitas .
Banyak manfaat chatbot selain pada pendidikan seperti pada penerapan chatbot pada layanan informasi penyakit diabetes yang berbasis Long Short-Term Memory dan Natural Language Processing .
dan chatbot konsultasi kesehatan mental yang dibangun dengan NLP.
js dan Firebase sebagai database .
Dalam penelitian ini, dikembangkan sebuah chatbot analisis data mahasiswa yang dirancang untuk membantu mahasiswa dan pihak institusi dalam mengakses informasi akademik secara praktis.
Chatbot ini mampu menjawab pertanyaan seperti "berapa rata-rata nilai siswa-siswi?", "Tingkat kehadiran siswa-siswi tertinggi / terendah?", berdasarkan dataset akademik yang telah dimasukkan ke dalam sistem.
Teknologi yang digunakan mencakup pemrosesan bahasa alami (Natural Language Processin.
untuk memahami maksud pengguna, serta penerapan algoritma TF-IDF dan Logistic Regression untuk mendeteksi intent pertanyaan dan memberikan respons yang sesuai.
Chatbot ini menggabungkan klasifikasi intent statis dengan kalkulasi data dinamis secara hybrid.
Pada tahapan intent classification digunakan model statis (Logistic Regression TF-IDF) yang sudah dilatih sebelumnya, tetapi tahapan pemrosesan data dilakukan secara realtime pada dataset CSV.
Identifikasi Masalah Algoritma kecerdasan buatan apa saja yang digunakan dalam pengembangan chatbot ini, dan bagaimana kontribusinya terhadap pemahaman intent dan pemberian respons? Sejauh mana tingkat akurasi dan relevansi jawaban yang diberikan oleh chatbot terhadap pertanyaan pengguna mengenai data akademik? Bagaimana penerapan chatbot dapat membantu pengguna dalam memperoleh informasi dan analisis berdasarkan dataset akademik mahasiswa secara otomatis? Tujuan dan Manfaat Penelitian Mengembangkan chatbot berbasis kecerdasan buatan yang mampu memahami dan menjawab pertanyaan pengguna berdasarkan data akademik mahasiswa.
Menganalisis akurasi dan relevansi respons chatbot terhadap pertanyaan-pertanyaan yang diajukan oleh pengguna.
Mengevaluasi kinerja algoritma TF-IDF dan Logistic Regression dalam proses deteksi intent dan pencocokan respons.
Jurnal Algoritma.
Logika dan Komputasi Versi Online: https://journal.
id/index.
php/alu DOI: http://dx.
org/10.
30813/j-alu.
Vol.
IX (No.
01 ) : 875 - 885.
Th.
p-ISSN: 2620-620X e-ISSN: 2621-9840 Memberikan solusi praktis yang dapat diakses oleh mahasiswa maupun pihak institusi untuk memahami data akademik tanpa harus mengolah atau membaca data mentah secara manual.
Meningkatkan efisiensi dalam penyampaian informasi berbasis data melalui sistem percakapan otomatis yang responsif dan informatif.
METODOLOGI PENELITIAN
Natural Language Processing (NLP) adalah cabang dari kecerdasan buatan (Artificial Intelligenc.
yang berfokus pada interaksi antara komputer dan bahasa manusia.
Teknologi ini memungkinkan mesin untuk memahami, memproses, dan menghasilkan bahasa manusia secara Dalam konteks chatbot.
NLP berperan penting dalam menganalisis dan merespons input yang diberikan oleh pengguna melalui percakapan berbasis teks .
Beberapa penerapan Natural Language Processing diantaranya adalah analisis sentimen sosial media dengan kata kunci tertentu .
, pendeteksian kalimat bernada sarkasme dalam media sosial .
, dan analisis sentimen terhadap suatu tempat usaha makan .
NLP memungkinkan chatbot untuk menginterpretasikan makna dari setiap kata atau kalimat yang dimasukkan, sehingga chatbot dapat memberikan tanggapan yang sesuai dengan konteks percakapan.
Tujuan utama penggunaan NLP dalam chatbot adalah untuk menciptakan pengalaman pengguna yang lebih alami dan interaktif .
Dengan NLP, chatbot dapat mengenali berbagai bentuk bahasa yang digunakan oleh pengguna, baik itu dalam kalimat formal, santai, atau bahkan dengan penggunaan slang.
Hal ini sangat penting untuk memastikan bahwa chatbot tidak hanya dapat memahami instruksi yang jelas, tetapi juga dapat beradaptasi dengan variasi bahasa yang digunakan oleh berbagai jenis pengguna.
NLP pada chatbot juga dapat menggunakan teknik machine learning untuk meningkatkan kualitas pemahaman bahasa secara berkelanjutan .
Dengan melatih chatbot menggunakan dataset percakapan yang besar, chatbot dapat belajar mengenali pola dalam komunikasi manusia dan memberikan respons yang semakin tepat seiring waktu.
Dalam machine learning, chatbot akan menilai dan memilih respons berdasarkan pengalaman sebelumnya, yang semakin memperkaya kemampuannya untuk menangani variasi bahasa yang lebih luas.
Untuk memperkaya pemahaman chatbot terhadap percakapan, konteks percakapan sangat penting.
Chatbot harus mampu melacak percakapan yang sedang berlangsung dan mengingat informasi yang telah dibahas sebelumnya.
Misalnya, jika pengguna bertanya tentang produk tertentu pada awal percakapan, chatbot perlu mengingat informasi tersebut ketika pertanyaan lanjutan muncul untuk memberikan respons yang lebih relevan.
Kemampuan ini penting untuk menciptakan pengalaman pengguna yang lebih konsisten dan tidak Dengan kemampuan ini, chatbot dapat memberikan jawaban yang lebih tepat dan mengurangi kebutuhan pengguna untuk mengulang informasi yang telah disebutkan Hal ini juga membantu menjaga alur percakapan tetap lancar dan lebih alami.
Pembelajaran Mesin (Machine Learnin.
adalah cabang dari kecerdasan buatan yang memungkinkan mesin untuk belajar dari data dan meningkatkan kinerjanya tanpa diprogram secara eksplisit.
Dalam konteks chatbot, pembelajaran mesin memungkinkan model untuk mengenali pola-pola dalam percakapan dan memberikan respons yang sesuai.
Ada dua jenis utama pembelajaran mesin: supervised learning, di mana model dilatih dengan data yang sudah diberi label .
eperti percakapan yang dikategorikan dengan intent tertent.
, dan unsupervised learning, di mana model belajar dari data tanpa label dan mencoba menemukan pola atau struktur yang tersembunyi.
Contoh penerapan machine learning adalah pemberian rekomendasi tanaman pertanian yang sesuai dengan tingkat curah hujan yang ada .
dan membuat pemodelan sekaligus prediksi biaya kerugian asuransi mobil .
Dalam pengembangan chatbot, supervised learning lebih umum digunakan karena memerlukan data berlabel yang jelas untuk mengklasifikasikan input pengguna dan Jurnal Algoritma.
Logika dan Komputasi Versi Online: https://journal.
id/index.
php/alu DOI: http://dx.
org/10.
30813/j-alu.
Vol.
IX (No.
01 ) : 875 - 885.
Th.
p-ISSN: 2620-620X e-ISSN: 2621-9840 menghasilkan respons yang tepat .
Chatbot ini menggunakan pendekatan supervised learning, yaitu model dilatih dengan data yang telah diberi label intent.
Dalam supervised learning, dataset yang digunakan untuk pelatihan terdiri dari pasangan input-output yang sudah diketahui, di mana input adalah teks percakapan dan outputnya adalah label intent yang relevan.
Label intent ini menunjukkan maksud atau tujuan dari percakapan pengguna.
Misalnya, dalam percakapan seorang pengguna yang bertanya AuBerapa jumlah siswi perempuan?Ay, intent-nya bisa dilabeli dengan kategori "jumlah perempuan.
" Proses ini memungkinkan chatbot untuk mempelajari hubungan antara kata-kata yang digunakan dalam pertanyaan dengan respons yang Dalam sistem chatbot berbasis Machine Learning, klasifikasi merupakan salah satu teknik utama yang digunakan.
Teknik ini bertujuan untuk mengidentifikasi kategori atau intent dari sebuah percakapan.
Setiap percakapan yang diterima oleh chatbot akan diproses untuk menentukan maksud dari percakapan tersebut dan diberikan respons yang sesuai.
Untuk melakukannya, chatbot akan mempelajari pola-pola dalam data percakapan yang telah dilabeli dan mencoba mencocokkan percakapan baru dengan pola-pola tersebut.
Misalnya, jika seorang pengguna bertanya "Berapa jumlah siswa laki-laki?", chatbot akan mencoba untuk mengklasifikasikan percakapan ini ke dalam kategori intent yang sesuai, seperti "jumlah siswa laki-laki", dan memberikan respons berdasarkan data yang telah ada.
Dengan cara ini, chatbot dapat memberikan jawaban yang relevan dan tepat sesuai dengan maksud pengguna.
TF-IDF adalah salah satu metode populer dalam pengolahan teks yang digunakan untuk mengubah data teks menjadi representasi numerik, sehingga dapat diproses oleh algoritma machine learning.
TF-IDF mengukur pentingnya suatu kata dalam sebuah dokumen relatif terhadap seluruh koleksi dokumen .
Konsep ini didasarkan pada asumsi bahwa kata yang sering muncul dalam satu dokumen namun jarang muncul di dokumen lain, memiliki bobot informasi yang lebih tinggi dan lebih signifikan .
Rumus dasar TF-IDF adalah hasil perkalian antara Term Frequency (TF) dan Inverse Document Frequency (IDF).
TF mengukur seberapa sering kata muncul dalam sebuah dokumen, sementara IDF mengukur seberapa penting kata tersebut dalam keseluruhan dokumen dengan mengurangi bobot kata-kata umum yang muncul di hampir semua dokumen.
Dalam konteks chatbot.
TF-IDF digunakan untuk mengubah teks input dari pengguna menjadi vektor numerik, yang kemudian digunakan untuk mencari kecocokan dengan data intent yang telah dilatih sebelumnya.
TF-IDF membantu chatbot memahami konteks dan makna dari pertanyaan berdasarkan kata-kata penting yang muncul, serta membedakan input pengguna berdasarkan bobot kata tersebut dalam kumpulan data.
Dengan cara ini, sistem dapat mengenali maksud pertanyaan secara lebih tepat dan relevan.
Logistic Regression adalah algoritma klasifikasi yang digunakan dalam machine learning untuk memprediksi probabilitas dari suatu input termasuk ke dalam salah satu kelas atau kategori.
Meskipun memiliki nama "regression", algoritma ini digunakan untuk tugas klasifikasi biner maupun multikelas, dan sangat efektif untuk permasalahan yang melibatkan prediksi kategori berdasarkan fitur numerik .
Dalam penelitian ini.
Logistic Regression digunakan sebagai model klasifikasi intent, yaitu untuk menentukan kategori pertanyaan pengguna berdasarkan input teks yang telah diubah menjadi vektor menggunakan TF-IDF.
Setelah pelatihan dilakukan, model Logistic Regression mempelajari hubungan antara fitur-fitur dalam data .
ata-kata dalam pertanyaa.
dan label intent yang sesuai.
Saat chatbot menerima input baru, model ini akan memprediksi ke kategori intent mana input tersebut paling mungkin Dalam konteks chatbot edukatif, penggunaan Logistic Regression memungkinkan sistem untuk membuat keputusan klasifikasi yang cepat dan cukup akurat untuk mendeteksi intent dari berbagai macam pertanyaan pengguna.
Implementasi Teknis Sistem Sistem chatbot mengimplementasikan arsitektur berbasis pemrosesan bahasa alami (Natural Language Processin.
dengan klasifikasi intent berbasis Logistic Regression yang Jurnal Algoritma.
Logika dan Komputasi Versi Online: https://journal.
id/index.
php/alu DOI: http://dx.
org/10.
30813/j-alu.
Vol.
IX (No.
01 ) : 875 - 885.
Th.
p-ISSN: 2620-620X e-ISSN: 2621-9840 diintegrasikan dengan pipeline ekstraksi fitur TF-IDF, dirancang untuk melakukan analisis data akademik mahasiswa melalui antarmuka grafis (Graphical User Interfac.
Adapun alur pemrosesan data dalam chatbot terdiri atas tiga lapisan yaitu:
Lapisan Klasifikasi Intent Berbasis Pembelajaran Mesin Lapisan pertama dalam sistem ini merepresentasikan permasalahan text classification dalam domain Natural Language Processing, yang bertujuan untuk memetakan input berupa teks ke dalam himpunan label diskrit .
Teks input dikonversikan ke dalam representasi numerik menggunakan metode TF-IDF (Term FrequencyAeInverse Document Frequenc.
, yang secara matematis didefinisikan sebagai berikut:
Sehingga representasi akhir suatu dokumen yang menghasilkan vektor berdimensi tinggi yang merepresentasikan distribusi bobot kata dalam dokumen dinyatakan sebagai Penerapan model klasifikasi Logistic Regression untuk menghitung probabilitas suatu teks termasuk ke dalam kelas tertentu diformulasikan dengan:
Untuk setiap intent i:
Dimana x adalah vektor TF-IDF.
Wi adalah parameter model untuk kelas ke-i, dan Operasi WiUIx adalah dot product kombinasi linear fitur.
Prediksi akhir diperoleh melalui prinsip maximum a posteriori (MAP):
Lapisan Ekstraksi Slot Berbasis Aturan Deterministik Lapisan kedua bertujuan untuk mengekstrak parameter semantik .
dari input Pendekatan yang digunakan bersifat deterministik berbasis aturan .
ulebased syste.
Mekanisme ekstraksi dilakukan dengan Regular Expression dan pemetaan eksplisit melalui struktur kamus .
ictionary mappin.
Mekanisme tersebut dinyatakan sebagai berikut:
dimana i.
adalah fungsi pencocokan pola terhadap input teks.
Berbeda dengan pendekatan probabilistik pada lapisan sebelumnya, sistem ini tidak melibatkan fungsi probabilitas, tidak melakukan pembelajaran dari data, dan sepenuhnya ditentukan oleh aturan eksplisit .
ardcoded rule.
Lapisan Komputasi Data Dinamis Jurnal Algoritma.
Logika dan Komputasi Versi Online: https://journal.
id/index.
php/alu DOI: http://dx.
org/10.
30813/j-alu.
Vol.
IX (No.
01 ) : 875 - 885.
Th.
p-ISSN: 2620-620X e-ISSN: 2621-9840 Lapisan ketiga merupakan komponen yang bertanggung jawab atas eksekusi komputasi numerik terhadap data aktual.
Adapun operasi yang dilakukan pada lapisan ini adalah operasi statistik yang mencakup rata-rata .
, nilai ekstrem .
ax, mi.
, seleksi himpunan, distribusi frekuensi, dan statistik deskriptif yang meliputi ukuran pemusatan, dispersi, dan kuantil.
Flowchart untuk implementasi teknis chatbot tertera sebagai berikut pada Gambar 1:
Gambar 1.
Flowchart Implementasi Teknis Tahap preprocessing data difokuskan pada persiapan korpus teks dari file json yang telah disiapkan untuk pelatihan klasifikasi intent.
Proses dimulai dengan normalisasi kasus .
ase foldin.
melalui konversi seluruh pattern teks ke huruf kecil, kemudian dilanjutkan dengan pembagian dataset dengan train-test split training .
untuk menjaga distribusi kelas yang Ekstraksi fitur numerik dilakukan secara implisit melalui Term Frequency-Inverse Document Frequency (TF-IDF) Vectorizer dalam pipeline scikit-learn, yang melakukan konversi teks ke ruang vektor.
Model Logistic Regression dioptimalkan dengan parameter iterasi maksimum 1000 untuk konvergensi, dievaluasi menggunakan classification report .
recision, recall.
F1-scor.
Setelah prediksi intent yang dilakukan oleh Logistic Regression, sistem melakukan slot filling melalui yang melakukan parsing tag intent menggunakan kamus pola regex untuk mengidentifikasi kolom target, agregasi statistik .
ax/min/mea.
, filter demografis .
ender, grad.
, serta kondisi ekstremum.
Selanjutnya sistem mengeksekusi komputasi dinamis pada salinan DataFrame dan dilakukan hasil komputasi ke template respons via string interpolation.
HASIL DAN PEMBAHASAN
Pada Gambar 2 adalah tampilan antarmuka chatbot dimana awal mula proses kerja, dataset yang berisi data statistik mahasiswa disiapkan dalam format CSV (Comma-Separated Value.
Dataset ini terdiri dari data sebanyak 5.
000 mahasiswa.
Setiap baris mewakili satu Jurnal Algoritma.
Logika dan Komputasi Versi Online: https://journal.
id/index.
php/alu DOI: http://dx.
org/10.
30813/j-alu.
Vol.
IX (No.
01 ) : 875 - 885.
Th.
p-ISSN: 2620-620X e-ISSN: 2621-9840 mahasiswa, sedangkan setiap kolom merepresentasikan atribut-atribut sebagai berikut: Email.
Jenis Kelamin (Gende.
Usia (Ag.
Persentase Kehadiran (Attendance %).
Nilai Ujian Tengah Semester (Midterm Scor.
Nilai Ujian Akhir Semester (Final Scor.
Rata-rata Tugas (Assignments Av.
Rata-rata Kuis (Quizzes Av.
Nilai Partisipasi (Participation Scor.
Nilai Proyek (Projects Scor.
Total Nilai (Total Scor.
, dan Nilai Akhir (Grad.
Setelah dataset disiapkan, langkah selanjutnya adalah membuat data dalam format JSON dengan nama file intents.
File ini berisi kumpulan intent .
aksud dari penggun.
, pattern .
ontoh kalimat atau pertanyaan dari penggun.
, dan response .
awaban atau tanggapan yang sesuai terhadap intent tersebu.
Berikut isi file intents.
json pada Gambar 3:
Gambar 2.
User Interface Chatbot Gambar 3.
Isi File intents.
Jurnal Algoritma.
Logika dan Komputasi Versi Online: https://journal.
id/index.
php/alu DOI: http://dx.
org/10.
30813/j-alu.
Vol.
IX (No.
01 ) : 875 - 885.
Th.
p-ISSN: 2620-620X e-ISSN: 2621-9840 Setelah intents.
json dan dataset selesai disiapkan, langkah berikutnya adalah membuat file Python untuk melakukan proses pelatihan .
terhadap data tersebut.
Tahap ini merupakan langkah awal dalam pengembangan program, di mana AI chatbot mulai mempelajari isi dari dataset.
Tujuannya adalah agar chatbot dapat memahami pertanyaan yang diajukan oleh pengguna dan memberikan respons yang sesuai berdasarkan informasi yang terdapat dalam Program membaca file intents.
json menggunakan modul json.
Setiap pola kalimat dari intent diubah menjadi huruf kecil dan disimpan dalam list texts, sedangkan tag dari intent-nya disimpan dalam list labels.
Setelah data dikumpulkan, dilakukan pembagian dataset menjadi dua bagian: data pelatihan dan data pengujian menggunakan train_test_split dari scikit-learn, dengan proporsi 80% untuk pelatihan dan 20% untuk pengujian, serta stratifikasi berdasarkan label agar distribusi kelas tetap seimbang.
Tabel 1.
Hasil Output Pelatihan Model Chatbot Intent Precision Recall F1-Score Support Keterangan distribusi_nilai cukup akurat Goodbye sangat baik grade_jumlah Greeting jumlah_laki jumlah_perempuan cukup baik jumlah_siswa perlu revisi kehadiran_rata_rata kehadiran_terendah kehadiran_tertinggi kuis_rata_rata kuis_terendah kuis_tertinggi nilai_final_rata_rata sangat baik nilai_final_terendah nilai_final_tertinggi nilai_midterm_rata_rata sangat baik nilai_midterm_terendah sangat baik nilai_midterm_tertinggi sangat baik nilai_total_rata_rata nilai_total_terendah cukup baik nilai_total_tertinggi cukup baik partisipasi_rata_rata partisipasi_terendah sangat baik partisipasi_tertinggi persentase_lulus sangat baik statistik_dataset sangat baik Thanks tugas_rata_rata tugas_terendah Jurnal Algoritma.
Logika dan Komputasi Versi Online: https://journal.
id/index.
php/alu DOI: http://dx.
org/10.
30813/j-alu.
Vol.
IX (No.
01 ) : 875 - 885.
Th.
p-ISSN: 2620-620X e-ISSN: 2621-9840 tugas_tertinggi sangat baik usia_rata usia_termuda sangat baik usia_tertua sangat baik Langkah selanjutnya adalah pembuatan pipeline machine learning menggunakan make_pipeline, yang terdiri dari dua komponen utama: TfidfVectorizer untuk mengubah teks menjadi vektor numerik dengan bobot TF-IDF, dan LogisticRegression sebagai algoritma Model ini kemudian dilatih menggunakan data pelatihan.
Setelah proses pelatihan selesai, model diuji dengan data pengujian untuk mengevaluasi performanya.
Hasil evaluasi ditampilkan dalam bentuk laporan klasifikasi yang mencakup metrik precision, recall.
F1-score, dan support untuk masing-masing label.
Terakhir, model yang telah dilatih disimpan ke dalam sebuah file menggunakan modul pickle, agar bisa digunakan kembali di masa depan tanpa perlu melatih ulang.
Seluruh proses ini bertujuan untuk menghasilkan model yang dapat mengklasifikasikan kalimat input dari pengguna ke dalam kategori intent tertentu, yang merupakan inti dari sistem chatbot berbasis intent.
Hasil atau output yang diperoleh setelah proses pelatihan tertera pada Tabel 1.
Berdasarkan hasil evaluasi pada Tabel 1, model chatbot memiliki performa yang cukup baik dengan akurasi sebesar 83%, artinya 83 dari setiap 100 prediksi berhasil sesuai dengan label yang benar.
Dari 185 data uji, sekitar 152 prediksi sudah tepat.
Nilai macro average menunjukkan bahwa model memiliki precision 0.
89, yang berarti cukup akurat saat memprediksi berbagai intent, dan recall 0.
80, menunjukkan model cukup mampu mengenali semua jenis intent secara merata.
F1-score 0.
81 menunjukkan keseimbangan antara akurasi dan cakupan prediksi tanpa memandang jumlah data tiap intent.
Sementara itu, weighted average mencerminkan performa yang memperhitungkan jumlah data di setiap intent.
Dengan precision 86, recall 0.
83, dan F1-score 0.
82, model dinilai cukup stabil dan akurat secara keseluruhan, termasuk untuk intent yang sering maupun jarang muncul.
Setelah proses training selesai dan diperoleh nilai akurasi, tahap selanjutnya adalah membuat program untuk generate response model Chatbot terhadap input user.
Chatbot ini dapat menjawab berbagai pertanyaan dari pengguna terkait data mahasiswa, seperti: berapa nilai UAS tertinggi, berapa nilai UAS terendah, berapa banyak mahasiswa perempuan, berapa banyak mahasiswa laki-laki, dan lain Aplikasi dimulai dengan mengimpor library yang diperlukan, sepertimengimpor library json, pandas, pickle, dan re untuk pemrosesan data dan regex pattern matching.
Input pengguna langsung diprediksi oleh model TF-IDF.
Setelah teks diproses, model memprediksi maksud dari pertanyaan tersebut.
Berdasarkan hasil prediksi intent, fungsi run_query kemudian digunakan untuk mengekstrak data yang relevan dari dataset, seperti nilai UAS tertinggi, jumlah mahasiswa laki-laki dan perempuan, dan lainnya.
Dari program ini, diperoleh jawaban atas rumusan masalah yang telah dibuat bahwa:
Algoritma yang digunakan dalam chatbot ini melibatkan TF-IDF dan Logistic Regression.
TF-IDF berfungsi untuk mengekstrak fitur dari teks pertanyaan yang diajukan oleh Logistic Regression, di sisi lain, berperan dalam mengklasifikasikan intent atau maksud dari pertanyaan tersebut.
Ketiga komponen algoritma ini bekerja secara sinergis untuk memahami maksud pengguna dan memberikan respons yang sesuai.
Tingkat akurasi chatbot ini sekitar 83%, yang menunjukkan kemampuan chatbot dalam mengenali dan memberikan jawaban yang relevan terhadap pertanyaan yang diajukan oleh pengguna.
Meskipun demikian, masih ada ruang untuk perbaikan, terutama dalam hal Jurnal Algoritma.
Logika dan Komputasi Versi Online: https://journal.
id/index.
php/alu DOI: http://dx.
org/10.
30813/j-alu.
Vol.
IX (No.
01 ) : 875 - 885.
Th.
p-ISSN: 2620-620X e-ISSN: 2621-9840 recall, di mana chatbot dapat lebih baik dalam mengenali pertanyaan yang lebih ambigu atau SIMPULAN Pengembangan chatbot berbasis kecerdasan buatan untuk menganalisis data akademik mahasiswa dilaksanakan dengan memanfaatkan berbagai teknologi yang efektif seperti Natural Language Processing (NLP), machine learning, dan algoritma klasifikasi seperti TF-IDF dan Logistic Regression.
Sistem chatbot ini dapat mengidentifikasi dan memahami pertanyaan yang diajukan oleh pengguna, serta memberikan respons yang relevan berdasarkan dataset akademik Melalui proses pelatihan model menggunakan dataset percakapan yang telah dilabeli, chatbot mampu mengenali berbagai macam intent dan memberikan jawaban yang Dari hasil evaluasi, chatbot menunjukkan akurasi yang cukup baik, yaitu 83%, dengan hasil precision, recall, dan F1-score yang solid pada sebagian besar intent yang diuji.
Model ini dapat menangani pertanyaan yang beragam, meskipun beberapa intent memerlukan perbaikan, terutama dalam meningkatkan recall dan menangani kasus-kasus yang ambigu.
Meskipun chatbot ini memiliki performa yang cukup baik, ada beberapa area yang dapat ditingkatkan di masa depan:
Peningkatan Model: Performa model masih bisa ditingkatkan, terutama dalam meningkatkan recall untuk beberapa intent yang kurang terdeteksi dengan baik.
Penggunaan teknik seperti cross-validation dan hyperparameter tuning dapat membantu meningkatkan akurasi model lebih Pengembangan Dataset: Penambahan lebih banyak data pelatihan, terutama untuk intent yang jarang muncul, akan membantu chatbot mengenali variasi pertanyaan yang lebih beragam.
Dengan dataset yang lebih kaya, chatbot dapat memberikan respons yang lebih tepat dan Integrasi Fitur Lanjutan: Dalam pengembangan lebih lanjut, chatbot ini dapat dilengkapi dengan fitur-fitur tambahan seperti analisis grafik atau visualisasi data untuk memberikan pengguna pengalaman yang lebih mendalam dalam memahami data akademik mereka.
Peningkatan Pengalaman Pengguna (UX/UI): Meskipun chatbot dapat memberikan respons yang relevan, antarmuka pengguna (UI) dapat ditingkatkan untuk membuatnya lebih ramah pengguna dan mudah dipahami.
DAFTAR PUSTAKA