JIKOMTI:
Jurnal Ilmiah Ilmu Komputer dan Teknologi Informasi e- ISSN: x-x Vol.
1 No.
Des 2024 Pengklasifikasian Dokumen Teks Bahasa Indonesia berbasis Vector Space Model dengan menggunakan Metode k-Nearest Neighbor .
-NN) dan Euclidean Distance Dita Setiawan1.
Ali Muhammad2.
Angge Firizkiansah3
1,2,3
Universitas Sains Indonesia.
Kabupaten Bekasi E-mail Korespondensi: dita.
setiawan@lecturer.
Abstrak Proses klasifikasi dokumen yang manual dalam memahami isi materi dan menentukan kategori membutuhkan waktu yang lama.
Terlebih jika dokumen dalam jumlah yang banyak dan jumlah kategori yang cukup beragam serta topik yang diulas memiliki kemiripan makna satu sama lain.
Hal ini sangat menyulitkan penggunanya karena dibutuhkan ketelitian dan waktu yang tidak sebentar dalam pengklasifikasian.
Untuk menangani hal tersebut diperlukan sebuah model sistem yang dapat mengklasifikasikan dokumen teks sesuai dengan kategorinya.
Diawali dengan tahap preprocessing dimana sebuah dokumen dilakukan penyeragaman dan kemudahaan pembacaan yang selanjutnya dilakukan pembobotan teks dan penentuan algoritma yang digunakan dalam proses pengklasifikasian.
Metode yang digunakan dalam penelitian ini adalah algoritma k-Nearest Neighbor .
-NN).
Metode k-NN bekerja dengan prinsip dasar mencari tingkat kemiripan suatu objek dengan beberapa objek Penggunaan metode k-NN akan lebih mudah jika telah menggunakan sebuah fungsi, kebanyakan fungsi yang digunakan adalah fungsi kesamaan cosinus karena k-NN bekerja dengan prinsip dasar mencari tingkat kemiripan antar objek.
Namun untuk dapat mengetahui tingkat kemiripan suatu objek dibutuhkan parameter jarak terdekat antara dua data dengan menggunakan Euclidean.
Pada penelitian ini menggunakan fungsi koefisien jarak yang menunjukan hubungan terbalik dengan derajat kesamaan dan sering disebut sebagai ukuran ketidaksamaan .
akan mempermudah dalam mengukur kesetaraan antar dua data.
Sehingga model yang diusulkan pada penelitian ini adalah mengklasifikasikan dokumen teks bahasa Indonesia berbasis Vector Space Model dengan menggunakan metode k-Nearest Neighbor dan Euclidean Distance.
Hasil dari penelitian ini menunjukan bahwa klasifikasi menggunakan k-NN dengan menghitung jarak antar vector menggunakan Euclidean Distance menghasilkan ketepatan klasifikasi yang paling baik, dengan nilai Accuracy sebesar 93.
Precision sebesar 96.
Recall sebesar 95.
2% dan F1-Score 6% dari pembandingan 30 dokumen .
dengan masing-masing dokumen uji.
Kata kunci: dokumen teks, klasifikasi, vector space model, k-nearest neighbor, euclidean distance.
Abstract The manual document classification process in understanding the content of the material and defining the category takes a long time.
Especially if the documents in large numbers and the number of categories are quite diverse and the topics reviewed have similar meanings to each other.
This is very difficult for users because it takes precision and time not for a while in the classification.
To handle this required a system model that can classify text documents in accordance with the category.
Beginning with the preprocessing stage where a document is done uniformity and kemudahaan readings which further weighted the text and the determination of algorithms used in the process of The method used in this research is k-Nearest Neighbor .
-NN) algorithm.
The k-NN method works with the basic principle of finding the level of similarity of an object with several other JIKOMTI:
Jurnal Ilmiah Ilmu Komputer dan Teknologi Informasi e- ISSN: x-x Vol.
1 No.
Des 2024 The use of k-NN method would be easier if it had used a function, most of the functions used are the function of cosine similarity because k-NN works with the basic principle of finding similarity levels between objects.
But to be able to know the level of similarity of an object required the closest distance parameters between two data using Euclidean.
In this study using the distance coefficient function which shows the inverse relationship with the degree of similarity and often referred to as the measure of inequality .
will facilitate in measuring equality between two data.
So the model proposed in this study is to classify Indonesian text documents using k-Nearest Neighbor and Euclidean Distance.
In this research, we get the result of Accuracy value of 93.
Precision value 2%.
Recall value of 95.
2% and F1-Score value of 92.
6% from comparison of 5 documents .
= .
with each test document.
Keywords: text document, classification, vector space model, k-nearest neighbor, euclidean distance.
PENDAHULUAN
Semakin majunya perkembangan dokumen berbasis teks khususnya melalui internet menyebabkan jumlah dokumen semakin Hal ini menyebabkan pengguna merasa kesulitan dalam mencari dokumen yang tepat sesuai dengan kebutuhannya.
Pengguna harus terlebih dahulu mengetahui isi dokumen dikelompokkan sesuai dengan kategorinya.
Jika dokumen dalam jumlah yang banyak dengan kategori yang cukup beragam dan topik yang diulas memiliki kemiripan makna satu sama lain, tentu akan merepotkan bagi penggunanya.
Hal ini membutuhkan ketelitian dan waktu yang tidak sebentar dalam sistem pengklasifikasian.
Oleh karena itu, perlu adanya sistem yang secara otomatis dapat mengklasifikasikan dokumen teks sesuai dengan kategorinya.
teks memiliki makna dan dapat digunakan sebagai dasar untuk menentukan kategori dari dokumen tersebut .
Menjelaskan text mining sebagai aplikasi teknik-teknik analitik untuk menemukan pola, relasi, dan pengetahuan berharga dari dokumen teks yang luas.
Mereka menyoroti pentingnya pemrosesan bahasa alami, ekstraksi fitur, dan teknik analisis yang tepat dalam text mining .
Dalam proses klasifikasi dokumen teks diawali dengan tahapan preprocessing yang terdiri dari beberapa tahapan yaitu case folding, tokenizing, filtering dan stemming .
Tahap ini bertujuan untuk penyeragaman dan kemudahan Tahap selanjutnya dilakukan representasi teks biasa dikenal dengan tahap pembobotan teks.
Proses ini menentukan seberapa jauh keterhubungan antar kata-kata dengan dokumen yang ada.
Setelah melakukan tahap pembobotan teks selanjutnya menentukan metode dan algoritma yang digunakan untuk mengklasifikasikan teks berdasarkan kategorikategori yang telah ditentukan.
Salah satu metode yang digunakan adalah algoritma kNearest Neighbor .
-NN), sebuah metode untuk melakukan klasifikasi terhadap objek yang berdasarkan dari data pembelajaran yang jaraknya paling dekat dengan objek tersebut .
k-NN bekerja dengan prinsip dasar mencari tingkat kemiripan suatu objek dengan beberapa objek lainnya.
Klasifikasi teks atau kategorisasi teks merupakan proses yang secara otomatis menempatkan dokumen teks ke dalam suatu kategori berdasarkan isi dari teks tersebut.
Sebuah dokumen dapat dikelompokkan dalam kategori tertentu berdasarkan kata-kata dan kalimat yang ada dalam isi dokumen.
Kata atau kalimat yang terdapat dalam dokumen berbasis Penelitian mengklasifikasikan document teks Bahasa Indonesia berbasis Vector Space Model (VSM) dengan metode yang digunakan adalah Algoritma k-Nearest Neighbor .
-NN).
Dengan penelitian ini diharapkan didapatkan alternatif model mesin klasifikasi teks berbahasa Indonesia.
JIKOMTI:
Jurnal Ilmiah Ilmu Komputer dan Teknologi Informasi e- ISSN: x-x Vol.
1 No.
Des 2024
METODE
Penelitian ini menggunakan metode CRISPDM (Cross Industry Standard Process for Data Minin.
sebagai metodologi yang solutif untuk bisnis dan penelitian.
Metodologi ini terdiri dari enam tahapan yaitu Pemahaman Bisnis (Business Understandin.
Pemahaman Data (Data Understandin.
Penyiapan Data (Data Preparatio.
Pemodelan (Modellin.
Evaluasi (Evaluatio.
, dan Penerapan (Deploymen.
Dalam penelitian ini tahapan-tahapan CRISPDM yang akan dilakukan secara ringkas dapat dilihat pada gambar dibawah ini.
diklasifikasikan, misalnya berupa artikel atau Selain itu, perlu juga dilakukan analisis karakteristik dokumen, seperti jumlah kata dalam dokumen, kata-kata yang sering muncul, dan Analisis ini akan membantu dalam melakukan preprocessing pada dokumen dan menentukan fitur yang akan digunakan pada proses selanjutnya.
Penyiapan Data Pada penelitian ini penulis melakukan pengumpulan data dari media online.
Adapun dokumen tersebut terdiri dari tiga dokumen klasifikasi dan tiga puluh dokumen yang akan Untuk kategori dokumen diantaranya dokumen kategori travel, kuliner dan otomotif.
Masing-masing kategori akan dibandingan dengan sepuluh dokumen uji.
Pada tahap ini juga perlu dilakukan Tujuan dari preprocessing adalah untuk memperbaiki kualitas data dan mempermudah proses selanjutnya.
Gambar 1.
CRISP-DM Model Application Selanjutnya, perlu dilakukan ekstraksi fitur dari dokumen dengan menggunakan metode Term Frequency-Inverse Document Frequency (TF-IDF).
Metode ini akan menghitung bobot kata-kata pada setiap dokumen sehingga setiap dokumen dapat direpresentasikan sebagai vektor yang memiliki bobot kata-kata yang terdapat di Dari sini, dapat dibuat matriks dokumen-term yang berisi bobot kata-kata pada setiap dokumen.
Pemahaman Bisnis/Penelitian Pada tahap ini, perlu dilakukan identifikasi masalah yang ingin dipecahkan, misalnya melakukan klasifikasi dokumen teks berbahasa Indonesia berdasarkan topik tertentu.
Selain itu, perlu juga ditentukan tujuan dari proses data mining, misalnya meningkatkan akurasi klasifikasi dokumen teks.
Hal ini penting untuk mengetahui tujuan akhir dari penggunaan metode ini sehingga langkah-langkah yang dilakukan dapat diarahkan untuk mencapai tujuan tersebut.
Pemodelan Pada tahap ini, perlu ditentukan nilai k yang akan digunakan pada k-NN.
k-NN adalah metode klasifikasi yang berdasarkan pada jarak antara vektor dokumen dan dokumen lainnya.
Selanjutnya, perlu dilakukan training pada data latih dengan menggunakan metode k-NN dan Euclidean Distance untuk menentukan kelas dari setiap dokumen.
k-NN akan membandingkan vektor dokumen yang baru dengan vektor dokumen yang telah ada pada data latih dan menentukan kelasnya berdasarkan mayoritas dari Pemahaman Data Tahap ini diawali dengan melakukan review literatur, mencari teori yang melandasi hubungan antar variabel dan menelusuri penelitianpenelitian terdahulu.
Kemudian dilakukan pengumpulan data dokumen teks berbahasa Indonesia yang didapat dari media online.
Selanjutnya dipilih tiga dokumen sebagai clasifier dengan kategori travel, kuliner dan Pada tahap ini perlu dikumpulkan dokumen teks bahasa Indonesia yang akan JIKOMTI:
Jurnal Ilmiah Ilmu Komputer dan Teknologi Informasi e- ISSN: x-x Vol.
1 No.
Des 2024 tetangga terdekat.
Euclidean Distance digunakan untuk mengukur jarak antara vektor dokumen.
dihasilkan dapat diandalkan dan sesuai dengan kebutuhan aplikasi yang diinginkan.
Evaluasi Tahapan evaluasi dilakukan untuk menilai kinerja model pada data testing yang belum pernah dilihat sebelumnya, dengan beberapa langkah penting.
Pertama, data testing yang terpisah dari data training dipersiapkan untuk memastikan representativitas dan kualitas label yang benar.
Selanjutnya, model yang telah dikembangkan diterapkan pada data testing, di mana setiap dokumen diuji dan diklasifikasikan ke dalam kelas tertentu, lalu hasil prediksi dibandingkan dengan label sebenarnya.
Kinerja model kemudian dievaluasi menggunakan metrik seperti akurasi, presisi, recall.
F1-score, dan confusion matrix.
Akurasi mengukur persentase klasifikasi yang benar, presisi mengukur ketepatan klasifikasi pada kelas tertentu, recall mengukur sensitivitas model terhadap data yang seharusnya termasuk dalam kelas tertentu, sedangkan F1-score adalah rata-rata harmonik antara presisi dan recall.
Confusion matrix memberikan gambaran jumlah klasifikasi benar dan salah untuk setiap kelas.
Tahap terakhir mengidentifikasi kelemahan model dan langkah perbaikan seperti tuning parameter atau penggunaan fitur berbeda.
Jika kinerja model sudah memuaskan, maka model dapat diterapkan pada data baru untuk tugas klasifikasi dokumen teks yang sebenarnya.
Evaluasi yang teliti memastikan bahwa model siap diaplikasikan atau membutuhkan optimasi lebih lanjut.
HASIL DAN PEMBAHASAN
Pada penelitian ini, data uji berupa dokumen-dokumen yang diunduh dari berbagai portal berita daring seperti tribunnews.
com, beritasatu.
com, detik.
dan antaranews.
Jumlah keseluruhan dokumen uji adalah sebanyak 30 dokumen, yang terbagi secara merata ke dalam tiga kategori, yaitu otomotif, travel, dan kuliner, dengan setiap kategori terdiri dari 10 dokumen uji.
Dokumendokumen yang digunakan telah melalui proses seleksi dan pembersihan, dimana elemen-elemen yang tidak relevan, seperti iklan, gambar, atau keterangan tambahan dihilangkan.
Proses ini dilakukan untuk memastikan bahwa dokumen uji yang digunakan memiliki fokus konten yang sesuai dengan kategori yang telah ditentukan, sehingga dapat menghasilkan evaluasi kinerja model klasifikasi yang lebih akurat.
Tabel 1.
Sumber Dokumen Pengujian Sumber Jumlah Dokumen Proses klasifikasi dilakukan dengan membandingkan dokumen data uji terhadap dokumen data latih menggunakan fungsi Euclidean Distance untuk mengukur tingkat ketidaksamaan antar dokumen.
Pendekatan ini bertujuan untuk menentukan jarak terdekat antara vektor dokumen uji dan data latih pada Setiap direpresentasikan dalam bentuk vektor, di mana setiap kata diberikan bobot berdasarkan frekuensi kemunculannya dalam dokumen Pembobotan dilakukan menggunakan metode TF-IDF (Term Frequency-Inverse Document Frequenc.
, yang memberikan bobot lebih tinggi pada kata-kata yang memiliki nilai diskriminatif besar dalam koleksi dokumen.
Formula untuk pembobotan frekuensi kata dan fungsi Euclidean Distance digunakan untuk mendukung proses ini, sehingga menghasilkan Penerapan (Deploymen.
Berdasarkan hal tersebut, model yang dianggap cukup baik, selanjutnya dideploy pada Model diimplementasikan pada berbagai aplikasi, seperti mesin pencari, analisis sentimen, atau Dalam tahapan development, perlu dilakukan eksperimen dan analisis terhadap berbagai parameter dan metode untuk mencari model yang optimal dan efektif dalam mengklasifikasikan dokumen teks.
Proses ini melibatkan berbagai tahap, mulai dari persiapan data hingga deployment, sehingga hasil yang JIKOMTI:
Jurnal Ilmiah Ilmu Komputer dan Teknologi Informasi e- ISSN: x-x Vol.
1 No.
Des 2024 klasifikasi yang akurat berdasarkan jarak terkecil antara vektor dokumen uji dan data latih.
Pembobotan Frekuensi kata yceycnycu ycOycnycu = yaycuyci ycoycu Tabel 3.
Hasil Pengklasifikasian Q2 untuk k=5 Kategori Klasifikasi Otomotif Keterangan:
fin = frekuensi kemunculan suatu term atau istilah i di dalam dokumen n.
Jika dimasukan dalam rumus matematika adalah f i.
n = freg i.
Kn = hasil penjumlahan dalam frekuensi kemunculan term atau istilah didalam sebuah dokumen.
yeycyco Oe yeycyco |A Jumlah Dokumen Relevan Tidak Relevan Relevan Relevan Tabel 4.
Hasil Pengklasifikasian Q3 untuk k=5 .
ycu Hasil Distance Adapun penjelasan dari tabel 3 diatas adalah dokumen klasifikasi (Q.
dari kategori otomotif diambil sebanyak k .
yang paling tinggi ketidaksamaannya dengan dokumen uji, semua kelas yang muncul adalah kategori otomotif, sehingga dapat disimpulkan Q2 masuk kedalam kategori otomotif dan hasil klasifikasi dikatakan Fungsi Euclidean Distance Oo Kategori Klasifikasi Otomotif Keterangan:
jk = nilai bobot dokumen K pada data yang ycyco = nilai bobot dokumen L pada data yang ycu = banyaknya data Hasil Distance Jumlah Dokumen Relevan Relevan Relevan Tidak Relevan Dokumen menggunakan algoritma k-NN, kemudian diambil sebanyak k .
yang paling tinggi ketidaksamaannya dengan dokumen uji.
Berikut dibawah ini adalah hasil pengambilan k .
dari klasifikasi distance.
Adapun penjelasan dari tabel 4 diatas adalah dokumen klasifikasi (Q.
dari kategori otomotif diambil sebanyak k .
yang paling tinggi ketidaksamaannya dengan dokumen uji, semua kelas yang muncul adalah kategori otomotif, sehingga dapat disimpulkan Q3 masuk kedalam kategori otomotif dan hasil klasifikasi dikatakan Tabel 2.
Hasil Pengklasifikasian Q1 untuk k=5 Tabel 5.
Hasil Pengklasifikasian Q4 untuk k=5 Kategori Klasifikasi Otomotif Hasil Distance Jumlah Dokumen Relevan Relevan Relevan Tidak Tidak Kategori Klasifikasi Otomotif Adapun penjelasan dari tabel 2 diatas adalah dokumen klasifikasi (Q.
dari kategori otomotif diambil sebanyak k .
yang paling tinggi ketidaksamaannya dengan dokumen uji, semua kelas yang muncul adalah kategori otomotif, sehingga dapat disimpulkan Q1 masuk kedalam kategori otomotif dan hasil klasifikasi dikatakan Hasil Distance Jumlah Dokumen Relevan Relevan Relevan Tidak Tidak Adapun penjelasan dari tabel 5 adalah dokumen klasifikasi (Q.
dari kategori otomotif diambil sebanyak k .
yang paling tinggi ketidaksamaannya dengan dokumen uji, semua kelas yang muncul adalah kategori otomotif, sehingga dapat disimpulkan Q4 masuk kedalam JIKOMTI:
Jurnal Ilmiah Ilmu Komputer dan Teknologi Informasi e- ISSN: x-x Vol.
1 No.
Des 2024 kategori otomotif dan hasil klasifikasi dikatakan Gambar 2.
Hasil Nilai Klasifikasi Penggunaan dokumen berita sebagai document learning dengan pembobotan frekuensi kata .
ogf_i.
dan fungsi distance, sebanyak 30 .
iga pulu.
dokumen dengan 3 .
kategori, untuk k=5 menghasilkan nilai rata-rata Accuracy 93.
Hasil diatas sesuai dengan dugaan pada saat hipotesa bahwa untuk mengukur kesetaraan antara dua data dalam klasifikasi dokumen teks dapat menggunakan pengukuran jarak dengan menggunakan euclidean distance.
Pembobotan ini menghasilkan nilai Accuracy yang paling KESIMPULAN Berdasarkan hasil penelitian dan analisis yang telah dilakukan, dapat disimpulkan bahwa penerapan algoritma k-Nearest Neighbor .
-NN) dan metode Euclidean Distance pada pengklasifikasian dokumen teks berbahasa Indonesia memberikan hasil yang signifikan dan Beberapa poin penting dari hasil penelitian ini adalah sebagai berikut:
Penerapan metode Euclidean Distance dalam mengukur jarak antar dokumen teks terbukti mampu menentukan jarak terdekat secara akurat.
Hal ini menjadi elemen penting dalam proses pengklasifikasian karena dokumen dengan jarak terdekat dari dokumen yang sudah terklasifikasi dapat diprediksi dengan tingkat keakuratan yang Dari penelitian ini, diperoleh nilai 92,6%, menunjukkan bahwa metode ini dapat diandalkan dalam menentukan kesamaan antar dokumen dalam ruang vektor.
Algoritma k-NN, yang memanfaatkan Vector Space Model (VSM), terbukti memberikan hasil klasifikasi dokumen yang lebih akurat dibandingkan algoritma lain, seperti Nayve Bayes.
Dengan keakuratan mencapai 92,6%, k-NN menunjukkan berdasarkan kedekatan jarak vektor.
Sementara itu, algoritma Nayve Bayes hanya mampu mencapai akurasi sebesar 86,3%, yang menunjukkan perbedaan kinerja yang cukup signifikan antara kedua pendekatan Representasi dokumen teks dalam bentuk Vector Space Model (VSM) memberikan struktur yang jelas untuk memetakan dokumen ke dalam ruang multidimensi.
Proses pembobotan menggunakan metode TF-IDF berkontribusi pada keberhasilan pengklasifikasian dengan memberikan bobot yang lebih tinggi pada kata-kata yang memiliki nilai diskriminatif yang besar dalam dokumen tertentu.
Hal ini memungkinkan proses klasifikasi menjadi lebih akurat, terutama dalam konteks dokumen berbahasa Indonesia.
Agar penelitian ini dapat dikembangkan lebih lanjut, beberapa saran yang diusulkan meliputi peningkatan jumlah data latih, karena semakin banyak data yang digunakan akan meningkatkan nilai akurasi model klasifikasi.
Selain itu, penelitian dapat diperluas dengan menambahkan variasi atribut dan melakukan seleksi fitur untuk mengamati pengaruh signifikan terhadap akurasi.
Untuk memastikan sistem klasifikasi tetap optimal seiring pertumbuhan data latih yang semakin besar, disarankan untuk melakukan cleansing data secara berkala, misalnya pada bulan keenam setelah implementasi, membangun data warehouse pada tahun pertama, serta meningkatkan spesifikasi perangkat keras pada tahun kedua jika diperlukan.
Langkah-langkah ini diharapkan dapat mendukung pengembangan model klasifikasi yang lebih efisien dan efektif dalam skala yang lebih besar.
DAFTAR PUSTAKA