Jurnal Ilmu Komputer dan Desain Komunikasi Visual Volume 10.
Nomor 1.
Juli 2025 ISSN (Ceta.
: 2541-4550 ISSN (Onlin.
: 2541-4585
Analisis Sentimen Pengunjung terhadap Objek Wisata Kabupaten Gresik Menggunakan Support Vector Machine (SVM) dan Linear Discriminant Analysis (LDA) Muhammad Hanafi1.
Mujib Ridwan2.
Subhan Nooriansyah3
1,2,3
Program Studi Sistem Informasi.
Fakultas Sains dan Teknologi.
UIN.
Sunan Ampe1 Surabaya Jalan.
Dr.
Ir.
Soekarno No.
Surabaya hanafim3000@gmail.
com, 2mujibrw@uinsby.
id, 3subhan.
nooriansyah@uinsby.
Abstrak.
Sektor pariwisata di pulau Jawa mendominasi arus perjalanan domestik di Indonesia.
Jawa Timur menyumbang angka tertinggi dengan 198,91 juta perjalanan.
Namun, kondisi ini masih belum merata ke seluruh daerah.
Berdasarkan data kunjungan wisatawan online (DAKUWISON) tercatat bahwa terjadi penurunan pengunjung wisata di Kabupaten Gresik pada Hal ini tidak sesuai dengan kebijakan PPKM yang ditiadakan pada tahun Penelitian ini bertujuan menganalisis sentimen ulasan menggunakan metode klasifikasi SVM-LDA untuk mengetahui persepsi mereka sebagai tambahan opini berbasis data bagi pengelola wisata.
Support Vector Machine (SVM) sebagai metode Supervised Learning diterapkan dalam penelitian, selain itu peningkatan klasifikasi dengan menambahkan metode reduksi dimensi Linear Discriminant Analysis (LDA).
Pengambilan data dari Google Maps dengan teknik web scrapping diperoleh 3460 ulasan.
Hasil dari penelitian dari perbandingan evaluasi masing-masing model menunjukkan bahwa model SVM dengan LDA dapat mengungguli dari model SVM yang tidak menerapkan LDA.
Nilai fI-score dari model SVM dengan LDA lebih tinggi di angka 66% dibandingkan dengan model SVM yang tidak menerapkan LDA dengan nilai fI-score 53%.
Berdasarkan hasil klasifikasi sentimen pada data 2023 menunjukkan bahwa sentimen pengunjung cenderung positif dari 511 ulasan diperoleh 456 sentimen positif, 33 sentimen negatif, dan 22 sentimen netral.
Kata.
kunciAi Ana1isis Sentimen.
Ulasan.
Wisata.
Support Vector Machine.
Linear-Discriminant Ana1ysis Abstract.
The tourism sector on the island of Java dominates the flow of domestic travel in Indonesia.
East Java contributed the highest number with 198.
91 million trips.
However, this condition is still not evenly distributed across all regions.
Based on the Online Tourist Visit Data (DAKUWISON), it was noted that there was a decrease in tourist visitors in Gresik Regency in 2023.
This is not following the PPKM policy that was eliminated in the previous year.
This research purposes to analyze the sentiment of reviews using the SVM-LDA classification method to determine their perceptions as an additional databased opinion for tourism managers.
Support Vector Machine (SVM) as a Supervised Learning method is applied in research, besides improving classification by adding the Linear Discriminant Analysis (LDA) dimension reduction method.
Data collection from Google Maps with a web scraping technique obtained 3460 reviews.
The results of research from the evaluation comparison of each model show that the SVM model with LDA is better than the SVM model without LDA.
The f1-score value of the SVM model with LDA is 66% higher than the SVM model without LDA, with an f1-score value of Based on the results of sentiment classification on 2023 data, it shows that visitor Ciptaan disebarluaskan di bawah Lisensi Creative Commons Attribution 4.
0 International License.
Jurnal Ilmu Komputer dan Desain Komunikasi Visual Volume 10.
Nomor 1.
Juli 2025 ISSN (Ceta.
: 2541-4550 ISSN (Onlin.
: 2541-4585 sentiment tends to be positive, with 511 reviews, 456 positive sentiments, 33 negative sentiments, and 22 neutral sentiments obtained.
KeywordsAi Sentiment Ana1ysis.
Reviews.
Tourism.
Support Vector Machine.
Linear Discriminant Ana1ysis PENDAHULUAN Indonesia merupakan salah satu wilayah di Asia yang memiliki keragaman sumber daya alam dan ekosistem yang melimpah.
Dalam beberapa sektor industri sangat terbantu dengan keragamannya, sehingga peningkatan perekonomian dapat dirasakan terutama pada sektor pariwisata terutama pada sektor pariwisata (Utami & Erfina, 2.
Berdasarkan data Badan Pusat Statistik (BPS) pada tahun 2022.
Pulau Jawa mendominasi arus perjalanan pariwisata domestik di Indonesia.
Tercatat angka tertinggi dengan 198,91 juta perjalanan pada provinsi=Jawa Timur mengungguli provinsi Jawa Barat dan Jawa Tengah (Santika, 2.
Tidak hanya BPS, terdapat data yang lain yaitu Produk Domestik RegionaI Bruto (PDRB), posisi kedua dihuni oleh Provinsi Jawa Timur dalam hal PDRB terkaya setelah DKI Jakarta, dengan total PDRB sekitar Rp 2.
499 miliar, sementara jumlah penduduknya mencapai sekitar 40.
800 orang.
Salah satu wilayah di provinsi tersebut, yakni Kabupaten Gresik memiliki pendapatan per kapita tahunan tertinggi sebesar 000, mengungguli 29 kabupaten lain di Jawa Timur.
(Saputra, 2.
Selain itu, bukti dari sumber lain yaitu Data Kunjungan Wisata Online (DAKUWISON) (Dakuwison, 2.
di tahun 2022, kondisi arus perjalanan pengunjung wisata di Kabupaten Gresik dalam keadaan stabil dengan rata-rata 300-350 pengunjung setiap bulan dari wisatawan nusantara atau mancanegara.
Namun kondisi tersebut tidak bertahan lama.
Pada tahun 2023, pengunjung wisata mengalami penurunan di setiap Pada bulan April tercatat hanya 100 ribu pengunjung.
Peraturan pemerintah mengenai Pemberlakuan Pembatasan Kegiatan Masyarakat (PPKM) telah ditiadakan sejak akhir tahun 2022.
Namun hal tersebut tidak menjadi perubahan terhadap pengunjung wisata Kabupaten Gresik yang menurun dibanding tahun sebelumnya.
Faktor lainnya terdapat pada ulasan pengunjung lain yang sebelumnya telah berkunjung ke wisata pilihannya, dan membuat penilaian terhadap wisata tersebut.
Informasi tersebut dapat dijadikan oleh pengunjung baru terkait bagaimana kondisi wisata yang akan dikunjunginya (Herlawati dkk.
, 2.
Informasi rating dan ulasan umumnya dapat diperoleh dari platform Google Maps.
Aplikasi ini menjadi aspek penting dalam era big data untuk memperoleh informasi tersebut (Haq, 2.
Namun terkadang terdapat beberapa ulasan atau komentar yang tidak sesuai dengan star rating yang Pengunjung atau penulis dapat secara bebas memberikan penilaian, yang secara otomatis muncul notifikasi dari Google Maps (Hesay dkk.
, 2.
Teknik yang dapat diimplementasikan dalam menganalisis data dengan skala besar salah satunya analisis sentimen.
Ulasan pengunjung lewat Google Maps digunakan sebagai data yang dianalisis dengan tujuan memberikan jawaban pola sudut pandang para pengunjung terhadap objek wisata di Kabupaten Gresik.
Kemudian ulasan diproses untuk menghasilkan klasifikasi sentimen diperuntukkan kepada para pengelola wisata sebagai solusi tambahan dalam menentukan keputusan yang sesuai untuk proses peningkatan fasilitas atau infrastruktur di wisata masing-masing.
Ciptaan disebarluaskan di bawah Lisensi Creative Commons Attribution 4.
0 International License.
Jurnal Ilmu Komputer dan Desain Komunikasi Visual Volume 10.
Nomor 1.
Juli 2025 ISSN (Ceta.
: 2541-4550 ISSN (Onlin.
: 2541-4585 Pratama, dkk .
melakukan penelitian dengan tujuan untuk menganalisa aspek dari opini pengunjung wisata pantai Malang menggunakan analisis sentimen.
Sebanyak 43 objek pantai di Malang Selatan digunakan dari sumber TripAdvisor.
Evaluasi SVM menghasilkan Accuracy sebesar 87%, dan berhasil melakukan klasifikasi pada tiap aspek.
Hasil Usability testing dari Dashboard memperoleh nilai 70 dan termasuk dalam kategori Acceptable dengan rating Good.
Penelitian Prasetyo dan Hidayatullah (Prasetyo & Hidayatullah, 2.
, mengidentifikasi dual sentimen dari ulasan objek wisata di Yogyakarta, dengan model Logistic Regression.
Nayve Bayes Classifier dan Support Vector Machine, menghasilkan performa terbaik pada model SVM dalam memprediksi kalimat dual sentiment dengan akurasi 83%.
Berdasarkan beberapa penelitian yang telah dilakukan, bahwa metode SVM memberikan hasil evaluasi yang baik dengan kasus klasifikasi sentimen dalam topik yang Namun pada penelitian Yue, penggunaan SVM memiliki kelemahan seperti waktu pelatihan atau training yang lama sehingga membuat biaya komputasi menjadi Penulis memberikan tambahan dengan menambahkan metode Dimensionality Reduction, karena pada kasus penelitian sebelumnya (Zebari dkk.
, 2.
, dapat mereduksi kompleksitas waktu dan pemakaian memori.
Linear Discriminant Analysis digunakan sebagai metode Dimensionality Reduction.
Pada penelitian ini terdapat beberapa tahapan, diawali dengan pengumpulan data, dan dilanjut data pre-processing.
Pelabelan data menggunakan TextBlob dengan validasi dari pengelola wisata.
Dalam proses vektorisasi kata menggunakan teknik word embedding dengan FastText.
Pada tahap klasifikasi menggunakan algoritma Support Vector Machine (SVM) karena memiliki hasil akurasi yang baik.
Namun pada model SVM memiliki kekurangan dari sisi penggunaan memori yang besar dan biaya.
Sebagai bahan pertimbangan, penulis menambahkan metode dimensionality reduction dengan Linear Discriminant Analysis sebagai solusi untuk masalah kelemahan dari SVM.
K-Fold Cross Validation akan digunakan untuk mengetahui hasil evaluasi training model.
Penelitian ini bertujuan menganalisis sentimen yang berdasar dari ulasan pengunjung di wisata di Kabupaten Gresik guna mengetahui persepsi mereka terhadap objek wisata tersebut, serta peningkatan teknik klasifikasi sentimen menggunakan metode SVM dengan LDA, sebagai tambahan opini berbasis data bagi pengelola wisata.
METODE PENELITIAN
Metode penelitian ini menerapkan kuantitatif deskriptif yang mana data dikumpulkan dan dianalisis sentimen ulasan atau review pengunjung.
Data yang digunakan berfokus pada ulasan objek wisata Kabupaten Gresik di Google Maps dengan rating 3 ke atas dan lebih dari 100 ulasan.
Diawali pengumpulan data, data preprocessing, labeling .
enentukan labe.
, feature extraction, dimensionality reduction, dan proses evaluasi model.
Beberapa langkah-langkah dalam penelitian sesuai alur pada Gambar 1.
Ciptaan disebarluaskan di bawah Lisensi Creative Commons Attribution 4.
0 International License.
Jurnal Ilmu Komputer dan Desain Komunikasi Visual Volume 10.
Nomor 1.
Juli 2025 ISSN (Ceta.
: 2541-4550 ISSN (Onlin.
: 2541-4585 Gambar 1.
Tahapan Penelitian Data Collection Teknik web scrapping dilakukan pada Google Review dengan bantuan pustaka Selenium yang tersedia dalam Python.
Ulasan yang diambil hanya pada objek wisata Kabupaten Gresik sesuai kriteria dan berkisar antara Mei 2020 sampai Mei 2023.
Pemilihan ini dilakukan karena pada tahun 2020 kasus pandemi covid-19 baru terjadi dan antara pada tahun 2022 Ae 2023, covid-19 sudah mereda.
Berdasarkan DAKUWISON (Dakuwison, 2.
per tahun 2022-2023, kondisi arus perjalanan pengunjung wisata di Kabupaten Gresik mengalami penurunan.
Hal tidak sejalan dengan kebijakan PPKM yang telah ditiadakan dari tahun 2022.
Total seluruh data terkumpul sebanyak 3460 data.
Rincian data setiap tahun dalam Tabel 1.
Ulasan pada tahun 2022 lebih banyak dibanding tahun lainnya.
Hal tersebut terjadi karena kasus Covid-19 mulai mereda dan masyarakat mulai melaksanakan aktivitas seperti biasa.
Data Total Tabel 1.
Data Terkumpul Periode Data Pre-processing Data Pre-processing adalah serangkaian proses dalam mempersiapkan data dengan membersihkan data, mengubah data, dan mereduksi data agar data lebih relevan saat pengolahan data tahap selanjutnya (Larasati dkk.
, 2.
Pada tahap ini dilakukan proses eksplorasi data untuk mengetahui duplikasi data dan kolom kosong.
Hasil setelah eksplorasi data seperti pada Tabel 2.
Total data sedikit berkurang dari proses ini.
Ciptaan disebarluaskan di bawah Lisensi Creative Commons Attribution 4.
0 International License.
Jurnal Ilmu Komputer dan Desain Komunikasi Visual Volume 10.
Nomor 1.
Juli 2025 ISSN (Ceta.
: 2541-4550 ISSN (Onlin.
: 2541-4585 Data Total Tabel 2.
Setelah Eksplorasi Periode Tahapan data pre-processing menyesuaikan dengan relevansi kasus yang dianalisis, berikut beberapa tahapannya:
1 Cleaning Proses awal dilakukan pembersihan terhadap data denganamenghapus beberapa komponen pendukung kalimat sepertiasimbol, tanda baca, angka, double space.
Atribut yang dihilangkan atau dihapus memang tidak berkaitan dengan tahap proses pengolahan data.
2 Case Folding Pada tahapan case folding seluruh teks akan diubah menjadi ke bentuk standar atau huruf kecil .
Perubahan teks dilakukan agar data diproses dalam kondisi sama.
3 Tokenizing Proses selanjutnya, dilakukan tokenizing atau pemisahan kata dari setiap kalimat.
Setiap kata akan dipisah berdasarkan whitespace atau setiap spasi dan menjadi token.
Proses dibantu dengan pustaka Natural Language Toolkit (NLTK) dari Python.
4 Normalizaation Proses normalization atau normalisasi kata digunakan untuk mengubah kata yang tidak baku atau slang menjadi kata standar.
Perubahan kata dipengaruhi oleh kamus slangwords yang digunakan.
Kaggle menjadi sumber baru dalam mencari kamus untuk proses sentimen, sehingga lebih mudah dalam menyeleksi kamus yang cocok untuk penelitian ini (Diandra, 2.
5 Remove Stopwordsas Proses berlanjut ke remove stopwords.
Kata-kata yang tidak bermakna atau tidak berhubungan dengan kasus akan dihilangkan.
Proses ini dibantu dengan pustaka NLTK dengan kamus stopwords yang sudah tersedia.
Penambahan pada kamus stopwords dilakukan seperti kata AumasszehAy, "cak", "cok", "tok", "mashok" dan kata lain yang tidak memiliki sentimen.
6 Stemming Proses terakhir, mengubah kata dengan imbuhan ke kata dasar berdasarkan kamus.
Pada tahap stemming, pustaka kamus bahasa Indonesia dari sastrawi pada Python.
Setelah rangkaian proses dilakukan, akan membuat data lebih mudah dalam proses pengolahan Labeling Data yang telah melewati pre-processing, selanjutnya diberikan label guna menentukan jenis data berlabel positif, negatif, atau netral.
Setiap data teks yang sebelumnya terbagi menjadi token akan digabungkan kembali untuk proses pelabelan.
Proses dibantu pustaka TextBlob dengan menghitung nilai polaritas setiap kata.
Penambahan kamus leksikon bahasa Indonesia (Anasta, 2.
dilakukan agar penilaian polaritas lebih sesuai.
Rumus penentuan nilai polaritas sebagai berikut.
yc yc A.
Polaritas = 1 yc2 ycu Ciptaan disebarluaskan di bawah Lisensi Creative Commons Attribution 4.
0 International License.
Jurnal Ilmu Komputer dan Desain Komunikasi Visual Volume 10.
Nomor 1.
Juli 2025 ISSN (Ceta.
: 2541-4550 ISSN (Onlin.
: 2541-4585 Nilai rata-rata polaritas diperoleh dari nilai polaritasosetiap0kata .
dibagi0dengan jumIah kata .
Hasil nilai tersebut akan digunakan sebagai tanda penentuan jenis label dari setiap teks pada data dengan kondisi sesuai Tabel 3.
Tabel 3.
Acuan Polaritas Polaritas Label Positif Netral Negatif Hasil pelabelan data akan divalidasi dengan label berdasarkan dari penilaian pengelola wisata.
Validasi dilakukan untuk mengetahui tingkat keakuratan antara mesin dan manusia dalam memberikan keputusan.
Penelitian Lai dan Tan (Lai & Tan, 2.
, menyatakan tingkat kecocokan mesin dan manusia antara 70-80%.
Data yang digunakan dalam validasi berupa data sampel dengan teknik judgement sampling.
Teknik ini tergolong dalam teknik non-probability sampling dan dapat diterapkan pada kasus analisis sentimen (Lappeman dkk.
, 2.
Proses validasi melibatkan 3 pengelola wisata yang berbeda.
Pengelola akan memberikan jawaban berdasarkan sudut pandang mereka terkait sentimen dalam ulasan.
Hasil validasi dan pelabelan TextBlob akan dihitung tingkat akurasi kesesuaian label.
Feature Extraction Proses feature extraction sangat penting dilakukan dalam machine learning.
Feature extraction merupakan proses mengekstrak fitur-fitur penting dalam data, berupa nilai .
(Cahyanti dkk.
, 2.
Word embedding sebagai salah satu teknik feature extraction berperan penting dalam menghasilkan nilai vektor dengan cara mengambil informasi semantik dari kata-kata dalam mengukur kesamaan kata .
NeliN K & Koy, 2.
1 FastText FastText merupakan pustaka dalam mempelajari teknik word embedding yang dikembangkan oleh Facebook.
FastText umumnya digunakan dalam kasus klasifikasi kalimat dan representasi kata (Agustiningsih dkk.
, 2.
Rumus FastText dapat dipresentasikan pada rumus .
OcycNyc=1[OcycaOOyayc Ee.
ycyca )) OcycuOOyeyc.
yca Ee(Oeyc.
)] .
Lambang dalam rumus tersebut memilik arti simbol s berarti nilai skor, bobot dengan simbol w, simbol l berasal dari log.
- -e-Oe-.
,0dan jumIah kata yang terkandung pada korpus atau n.
Setiap kata akan memiliki vektor dan tersimpan dalam model word Model word embedding yang telah dilatih memiliki panjang dimensi vektor 300 dan menghasilkan 3986 vocabulary.
Setiap vocabulary dari kata-kata yang tersimpan dalam model memiliki angka vektor masing-masing.
Hasil vektor ditampilkan pada Tabel 4.
Tabel 4.
Dimensi Vektor Vocabulary Vektor [-0.
Ciptaan disebarluaskan di bawah Lisensi Creative Commons Attribution 4.
0 International License.
Jurnal Ilmu Komputer dan Desain Komunikasi Visual Volume 10.
Nomor 1.
Juli 2025 ISSN (Ceta.
: 2541-4550 ISSN (Onlin.
: 2541-4585 Vocabulary Vektor [-0.
[-0.
Dimensi dari setiap vocabulary pada model adalah 300.
Model ini akan digunakan dalam membuat vektorisasi dari data pre-processing yang digunakan pada data fitur pembuatan model machine learning.
2 Linear Discriminant Analysis Data yang telah berbentuk vektor memiliki jumlah dimensi yang cukup besar.
Pada proses dimensionality reduction, setiap dimensi yang dimiliki setiap fitur akan direduksi sesuai nilai n_component.
Pendekatan reduksi dimensi yang umum digunakan dalam data mining dan machine learning sebagai tahapan pra-pemrosesan disebut Linear Discriminant Analysis (LDA) (Reddy dkk.
, 2.
Proses ini tidak menghilangkan informasi yang terdapat pada kelas.
Penelitian ini memiliki 3 kelas, nilai n_component yang digunakan dua.
Pemihan nilai n_componentoberdasarkan dari n-kelas dikurangi 1 .
-kelas Ae .
Klasifikasi SVM Pembentukan model menggunakan algoritma SVM menggunakan parameter optimal yang diperoleh lewat proses Cross Validation.
Pembagian data menjadi data latih atau fitur dengan lambang Xi-dan-nilai target-atau-label yi (Pratama dkk.
, 2.
Konsep klasifikasi SVM berfokus pada pencarian hyperplane atau garis pemisah yang dapat memaksimalkan margin antar kelas.
Kemampuan SVM dalam menemukan hyperplane yang optimal membuatnya memiliki tingkat generalisasi yang baik, sehingga berkontribusi pada peningkatan akurasi klasifikasi.
Classifier-akan terbentuk dengan persamaan .
cuycn ) = {Ou 0, ycycn = 1, < 0, ycycn = Oe.
Hyperplane diperoleh dengan rumus .
ycu yca = 0 Dengan W sebagai nilai bobot support vector, b sebagai nilai bias.
X yang berarti data Keterangan:
W: nilai dalam vektor b : nilai bias X : data latih 1 Cross Validation Proses berlanjut ke pemberlakuan cross validation.
Salah satu metodenya dengan kfold cross validation.
Penerapan proses ini untuk menghindari overfitting saat pelatihan Proses validasi akan berlangsung selama dengan pemberian nilai k yang diberikan.
Dalam tahap ini dilakukan hyperparameter tuning untuk menentukan parameter yang Pustaka GridSearchCV digunakan saat proses berlangsung.
Algoritma SVM bekerja dengan membuat garis linear atau hyperplane antara dua kelas berbeda.
Pada data multi kelas atau non-linear perlu ditambahkan fungsi kernel Ciptaan disebarluaskan di bawah Lisensi Creative Commons Attribution 4.
0 International License.
Jurnal Ilmu Komputer dan Desain Komunikasi Visual Volume 10.
Nomor 1.
Juli 2025 ISSN (Ceta.
: 2541-4550 ISSN (Onlin.
: 2541-4585 (Suryawan dkk.
, 2.
Berikut parameter-parameter yang digunakan dalam hyperparameter tuning.
Va1ue Tabel 5.
Paremeter Tuning Parameter Kerne1 RBF.
Sigmoid l, l0, l00 Gamma l0, l, 0,l 2 Modeling Training Tahap pertama data yang berupa vektor akan dibagi dengan rasio 80:20.
Dari seluruh data yang telah melalui proses vektorisasi, sebanyak 80% data dialokasikan untuk data latih dan 20% untuk data uji.
Data berupa vektorisasi angka yang diperoleh dari model word embedding sebelumnya.
Dalam tahap ini, terdapat dua model yang akan buat.
Model SVM .
idak menggunakan LDA), dan model SVM-dengan reduksi dimensi-LDA.
Evaluasi Paska model dibuat akan dievaluasi dengan beberapa metrik dari Confusion Matrix.
Tabel yang terbentuk dari Confusion Matrix mewakili setiap komponen antara label faktual dan prediksi.
Beberapa komponen tersebut diantaranya.
True Positiveo(TP).
True Negative (TN).
False Positive (FP) dan False Negative (FN).
Perhitungan evaluasi metrik akan berpengaruh terhadap angka yang dihasilkan setiap komponen pada Confusion Matrix Precision memberikan gambaran kecocokan dari data terhadap prediksi hasil dari Nilai diperoleh dari persamaan .
ycNycE Precision = ycNycE yaycE Recall adalah rasio perbandingan antara data klasifikasi terhadap jumlah data yang relevan, dihitung dari persamaan .
berikut ycNycE Recall = ycNycE yaycA F-measure atau F1-score adalah rata-rata harmonik antara nilai Precision dan RecaII.
Persamaan .
berikut dalam menentukan nilai F1-Score ycEycyceycaycnycycnycuycu y ycIyceycaycaycoyco F1-Score = 2 ycEycyceycaycnycycnycuycu ycIyceycaycaycoyco Accuracy adalah pengukuran nilai keakuratan model dalam melakukan klasifikasi.
Semakin besar nilai Accuracy, hasil klasifikasi mendekati akurat dengan mempertimbankan metrik lainnya.
Persamaan .
untuk menghitung nilai Accuracy.
ycNycE ycNycA Accuracy = ycNycE yaycE ycNycA yaycA Model yang selesai dibuat akan digunakan untuk memprediksi data baru.
Data tersebut diambil pada ulasan hanya pada tahun 2023.
Pemilihan model berdasarkan perbandingan hasil metrik evaluasi yang lebih baik.
Model yang memilik hasil yang lebih optimal tanpa adanya kendala digunakan sebagai model klasifikasi terkait sentimen terhadap objek wisata di Kabupaten Gresik Ciptaan disebarluaskan di bawah Lisensi Creative Commons Attribution 4.
0 International License.
Jurnal Ilmu Komputer dan Desain Komunikasi Visual Volume 10.
Nomor 1.
Juli 2025 ISSN (Ceta.
: 2541-4550 ISSN (Onlin.
: 2541-4585
HASIL DAN PEMBAHASAN
Data Penelitian Setelah data dieksplorasi, langkah berikutnya data pre-processing.
Terdapat 6 tahapan diantaranya cleaning, cas folding, tokenizing, normalization, remove stopwords, dan stemming.
Hasil processing terdapat pada beberapa Tabel 6 dan 7.
Tabel 6.
Hasil Data Pre-Processing I Ulasan Cleaning Case folding Good.
Semakin banyak Good Semakin banyak good semakin banyak permainan Sip permainan sip permainan Sip.
Wisatanya bersih.
Wisatanya bersih wisatanya rekomendasi berkunjung rekomendasi berkunjung rekomendasi berkunjung pada saat pagi dan pada saat pagi dan sore pada saat pagi dan sore Menjadi alternatif Menjadi alternatif menjadi eduwisata yg ada Gresik, eduwisata yg ada Gresik eduwisata yg ada gresik semoga tambah baik .
semoga tambah baik semoga tambah baik Biasa panas Biasa sj panas pengelolaan biasa sj panas pengelolaan pengelolaan ny krg ny krg ny krg Hasil berikutnya proses tokenizing, normalization, remove stopwords, stemming.
Tabel 7.
Hasil Data Pre-Processing II Tokenizing Normalization Stopwords Stemming ['good', 'semakin', ['bagus', 'semakin', ['bagus', 'banyak', ['bagus', 'banyak', 'banyak', 'banyak', 'permainan', 'main', 'mantap'] 'permainan', 'sip'] 'permainan', 'mantap'] 'mantap'] ['wisatanya', ['wisatanya', ['bersih', ['bersih', 'bersih', 'bersih', 'rekomendasi', 'rekomendasi', 'rekomendasi', 'rekomendasi', 'berkunjung', 'pagi', 'kunjung', 'pagi', 'berkunjung', 'pada', 'berkunjung', 'pada', 'sore'] 'sore'] 'saat', 'pagi', 'dan', 'saat', 'pagi', 'dan', 'sore'] 'sore'] ['menjadi', ['menjadi', ['alternatif', ['alternatif', 'alternatif', 'alternatif', 'eduwisata'] 'eduwisata'] 'eduwisata', 'yg', 'eduwisata', 'yang', 'ada', 'gresik', 'ada', 'gresik', 'semoga', 'tambah', 'semoga', 'tambah', 'baik'] 'baik'] ['biasa', 'sj', 'panas', ['biasa', 'saja', ['panas', ['panas', 'kelola', 'pengelolaan', 'ny', 'panas', 'pengelolaan', 'kurang'] 'krg'] 'pengelolaan', 'ny', 'kurang'] 'kurang'] Proses pelabelan dilakukan secara otomatis dengan pustaka TextBlob yang ditambah dengan kamus lexicon bahasa Indonesia.
Hasil pelabelan seperti pada Tabel 8.
Ciptaan disebarluaskan di bawah Lisensi Creative Commons Attribution 4.
0 International License.
Jurnal Ilmu Komputer dan Desain Komunikasi Visual Volume 10.
Nomor 1.
Juli 2025 ISSN (Ceta.
: 2541-4550 ISSN (Onlin.
: 2541-4585 Tabel 8.
Hasil Pelabelan Setelah Polaritas pre-processing bagus banyak main mantap 0,60000 bersih rekomendasi kunjung pagi sore
0,20000
alternatif eduwisata panas kelola kurang -0,40000 Label Hasil pelabelan seluruh data yang telah selesai sebanyak 3012 data.
Berikut rincian hasil persebaran label pada Gambar 2.
Gambar 2.
Hasil Pelabelan Data Dari seluruh data, mayoritas memiliki label positif.
Tercatat ada 2462 data yang berlabel positif, 356 data dengan label negatif, dan 194 data yang memiliki label netral.
Dari hasil pada Gambar 2, dilakukan validasi dengan pengelola wisata untuk melihat kecocokan label dari mesin.
Dari teknik judgement sampling sebanyak 355 data digunakan sebagai sampel untuk dicek sentimen oleh 3 pengelola wisata yang berbeda pada objek wisata Kabupaten Gresik.
Hasil validasi seperti pada Tabel 9.
Tabel 9.
Validasi Pelabelan Pengelola Label Ulasan TextBlob i Semakin indah, smg bsk makin anak, 1 mainan yg free.
Waktu kesana kebetulan pas tutup karena pandemi.
Tdk bisa 0 keliling melihat-lihat.
Tempatnya bagus tp syg bnyk yg g kerawat kyk kolam.
e air.
Tempatnya dekat dng makam
Tempatnya bagus,kasih wahana lagi kalau 1
M/U
Ciptaan disebarluaskan di bawah Lisensi Creative Commons Attribution 4.
0 International License.
Jurnal Ilmu Komputer dan Desain Komunikasi Visual Volume 10.
Nomor 1.
Juli 2025 ISSN (Ceta.
: 2541-4550 ISSN (Onlin.
: 2541-4585 Keterangan angka 0 berarti netral, 1 berarti positif, dan 2 berarti negatif.
Label M yaitu match atau cocok dan U berarti unmatch atau tidak cocok.
Hasil keseluruhan validasi terdapat pada Tabel 10, yang memuat prediksi dari TextBlob dan pengelola.
Secara akurasi mendapatkan nilai 81% yang menandakan bahwa label yang dibuat secara otomatis oleh mesin masih tergolong sesuai.
Tabel 10.
Hasil Validasi Label TextBlob Pengelola Wisata Positif Negatif Netral Positif Negatif Netral Secara akurasi mendapatkan nilai 81% yang menandakan bahwa label yang dibuat secara otomatis oleh mesin masih tergolong sesuai.
262 17 7
Akurasi = = 0.
262 17 7 7 15 15 16 13 3
Feature Extraction Data yang setelah melewati tahap pre-processing di vektorisasi menggunakan model word embedding fasttext.
Setiap vocabulary memiliki nilai vektor.
Nilai tersebut dihitung kembali rata-ratanya sesuai kata pada setiap baris data.
ApabiIa terdapat kata yang tidak terdeteksi atau tidak termasuk dalam vocabulary model, nilai vektor dianggap 0.
Hasil vektor setelah direduksi seperti pada Tabel 11.
Tabel 11.
Hasil Vektorisasi Model Dan Dimensionality Reduction Preprocess
Nilai Vektor
LDA
[-0.
[-0.
bagus malam [-0.
pandang tangga bagus air [-0.
[-2.
tidak sesuai Dimensi vektor pada setiap kalimat sebanyak 300.
Pada tahap dimensionality reduction, ukuran dimensi akan direduksi dan menyisihkan 2 dimensi.
Proses reduksi menggunakan Linear Discriminant Analysis pada pustaka Sklearn.
Analisis Sentimen Proses berlanjut ke cross validation.
Pengujian dilakukan dengan nilai k 10.
Data akan melakukan pelatian setiap fold dari nilai k yang diberikan.
Pada tahap ini, penentuan parameter dilakukan dahulu dari GridSearchCV.
Pada Tabel 12, hasil dari proses Hyperparameter Tuning menghasilkanparameter terbaik yang diperoleh dari model.
Ciptaan disebarluaskan di bawah Lisensi Creative Commons Attribution 4.
0 International License.
Jurnal Ilmu Komputer dan Desain Komunikasi Visual Volume 10.
Nomor 1.
Juli 2025 ISSN (Ceta.
: 2541-4550 ISSN (Onlin.
: 2541-4585 Tabel 12.
Hasil Hyperparameter Tuning Model
Parameter SVM
SVM LDA
Kernel
RBF
RBF
Gamma Parameter dari tiap model selanjutnya dilakukan pengujian Cross Validation Score sesuai yang ditentukan sebelumnya dengan scoring berdasarkan F1-Macro.
Setiap fold memiliki hasil yang berbeda, selengkapnya ditampilkan pada Tabel 13.
Tabel 13.
Hasil K-Fold Cross Validation Score
Fold
SVM
SVM LDA
0,44977188
0,74062619
0,47902639
0,77060932
0,52105509
0,74158551
0,46044487
0,72047242
0,61169066
0,81278233
0,4821534
0,80413089
0,47967153
0,81876484
0,47214486
0,88559671
0,55595188
0,80861678
0,52051282
0,7818057
Mean 0,50324234 0,78849907 Berdasarkan hasil pengujian cross validation, penerapan LDA dapat meningkatkan evaluasi F1-score.
Hasil rata-rat skor model SVM dengan LDA mencapai angka 0,78 terpaut jauh di bawahnya model SVM tanpa LDA dengan skor 0,50.
Berdasarkan hasil ini, model SVM dengan LDA terlihat lebih unggul.
Selanjutnya proses modeling yang dilakukan dengan rasio pembagian data 80:20, 2409 data latih dan 603 data uji dengan parameter dari hasil hyperparameter tuning.
Evaluasi model berdasarkan dari confusion Hasil dari model SVM terdapat pada Tabel 14.
Tabel 14.
Evaluasi Model SVM Label Netral Positif Negatif Precision l,00 Recall F1-Score Accuracy Pada model SVM tanpa LDA diperoleh akurasi 85%.
Pada setiap kelas menghasilkan nilai evaluasi yang berbeda.
Precision label netral memperoleh angka 100%, hasil ini tidak sesuai dengan keadaan persebaran label data pada Gambar 2, bahwa label netral dalam kondisi minoritas.
Pada hasil recall, nilai yang dihasilkan masih rendah pada label minoritas, hasil ini berpengaruh terhadap nilai f1-score pada label tersebut.
Ciptaan disebarluaskan di bawah Lisensi Creative Commons Attribution 4.
0 International License.
Jurnal Ilmu Komputer dan Desain Komunikasi Visual Volume 10.
Nomor 1.
Juli 2025 ISSN (Ceta.
: 2541-4550 ISSN (Onlin.
: 2541-4585 Selanjutnya pada model SVM dengan LDA menghasilkan evaluasi yang berbeda.
Sesuai dengan proses cross validatioon sebelumnya pada Tabel 13, pada model ini memang menunjukkan hasil yang lebih baik.
Hasil evaluasi SVM dengan LDA pada Tabel 15.
Tabel 15.
Evaluasi Model SVM LDA Label Netral Positif Negatif Precision Recall F1-Score Accuracy Hasil akurasi model SVM dengan LDA sebesar 87%, secara akurasi lebih unggul dari model sebelumnya.
Nilai evaluasi pada tiap model sudah lebih optimal walaupun pada label netral, nilai recall masih rendah.
Hasil tersebut mempengaruhi nilai f1-score dari label yang memiliki nilai rendah.
Berikut hasil perbandingan metrik evaluasi tiap model pada Tabel 16.
Tabel 16.
Perbandingan Hasil Evaluasi
Mode1
SVM
SVM LDA
Precision Recall F1-Score Accuracy Berdasarkan perbandingan setiap metrik evaluasi model SVM dengan reduksi dimensi LDA lebih unggul daripada model SVM tanpa reduksi dimensi dari LDA.
Perhitungan nilai metrik lainnya dari precision, recall, dan f1-score diambil dari sisi macro average, dari hasil setiap label pada hasil evaluasi sebelumnya.
Dari hasil precision secara kalkulasi model SVM saja tanpa reduksi dimensi dari LDA lebih-tinggi-dengan 86% berbeda 16% dari model SVM dengan reduksi dimensi LDA-yaitu 70%.
Sebelumnya pada label netral pada model SVM menghasilkan nilai precision 100% sedangkan label tersebut dalam kondisi minoritas, berdasarkan hal tersebut, model SVM mengalami overfit, walaupun hasil model SVM dengan LDA hanya 70%, tetapi sesuai dengan kondisi data yang diberikan.
Hasil perbandingan nilai recall, model SVM dengan reduksi dimensi LDA lebih unggul dengan 63% daripada model SVM tanpa LDA dengan 47%.
Pada perhitungan nilai f1-score, model SVM dengan reduksi dimensi LDA memperoleh nilai 66%.
Sedangkan-pada-model SVM tanpa reduksi dimensi LDA, nilai recall-nya rendah, berpengaruh terhadap hasil f1-score 53%.
Berdasarkan perbandingan yang telah dilakukan, model-SVM dengan reduksi dimensi dari LDA memiliki hasil-yang-lebih-baik.
Selanjutnya model-tersebut digunakan dalam memprediksi sentimen pada ulasan objek wisata di Kabupaten Gresik.
Data untuk prediksi difokuskan hanya data pada tahun 2023, karena sesuai dengan indikasi penurunan pengunjung pada tahun tersebut dan diperoleh data sebanyak 534 ulasan.
Proses prediksi sama dengan tahapan sebelumnya, diawali eksplorasi data untuk mengetahui kolom kosong dan duplikat data.
Berikutnya preprocessing, dengan tahapan Ciptaan disebarluaskan di bawah Lisensi Creative Commons Attribution 4.
0 International License.
Jurnal Ilmu Komputer dan Desain Komunikasi Visual Volume 10.
Nomor 1.
Juli 2025 ISSN (Ceta.
: 2541-4550 ISSN (Onlin.
: 2541-4585 dan proses yang sama.
Hasil data setelah tahap preprocessing menjadi 511 ulasan.
Tahap berikutnya pelaksanaan klasifikasi sentimen dengan model SVM LDA.
Gambar 3.
Hasil Prediksi Sentimen Hasil klasifikasi sentimen pada Gambar 3, menunjukkan bahwa sentimen dari ulasan pengunjung wisata-di-Kabupaten-Gresik mengarah ke argumen-positif.
-Jumlah rincian sentimen-yaitu positif sebanyak 456-ulasan,-negatif sebanyak 33 ulasan, dan netral sebanyak 22 ulasan.
Gambar 4.
Wordcloud Sentimen Positif Pada Gambar 4, frekuensi kata pada sentimen positif, yang paling sering digunakan.
AubagusAy.
AubersihAy.
AuwahanaAy.
AumainAy AunyamanAy, dan AukeluargaAy.
Kata-kata ini mengindikasikan keadaan objek wisata di Kabupaten Gresik yang memang menurutnya beberapa pengunjung bersih, bagus dan nyaman.
Kata lainnya.
AuwahanaAy.
AumainAy dan AukeluargaAy.
menunjukkan bahwa sebagian objek wisata cocok untuk liburan bersama keluarga dengan setiap wahana yang ada untuk bermain bagi-anak-anak.
Ciptaan disebarluaskan di bawah Lisensi Creative Commons Attribution 4.
0 International License.
Jurnal Ilmu Komputer dan Desain Komunikasi Visual Volume 10.
Nomor 1.
Juli 2025 ISSN (Ceta.
: 2541-4550 ISSN (Onlin.
: 2541-4585 Gambar 5.
Wordcloud -Sentimen-Negatif Pada sentimen negatif, beberapa-kata dengan frekuensi tinggi yaitu.
Aupanas", "tiket", "parkir", dan "mahal".
Gambar 5 menunjukkan kata AupanasAy menjadi kata yang paling banyak kemunculannya.
Secara umum, kondisi cuaca di Kabupaten Gresik memang Terdapat Kata AotiketAy dan AumahalAy yang dapat diartikan bahwa harga tiket pada salah satu objek wisata di Kabupaten Gresik dinilai masih mahal oleh sebagian Kata selanjutnya AuparkirAy kemungkinan kondisi lahan yang kurang luas atau penempatan posisi lokasi parkir yang kurang pas.
Berdasarkan hasil analisis sentimen ulasan objek wisata di-Kabupaten-Gresik lebih mengarah ke sentimen positif dibandingkan sentimen lainnya.
Hasil ini dapat menjadi solusi pengelola wisata dalam meningkatkan fasilitas maupun infrastruktur pada objek wisatanya masing-masing.
Walaupun dari hasil sentimen pengunjung terlihat positif, peningkatan kualitas tetap selalu diperhatikan pengunjung dapat merasa nyaman dan meningkat dari sebelumnya.
KESIMPULAN
Hasil dari klasifikasi sentimen dari 511 ulasan, diperoleh 456 sentimen positif, 33 sentimen negatif, dan 22 sentimen netral.
Model SVM dengan LDA dapat digunakan dalam klasifikasi sentimen dengan baik.
Berdasarkan hasil tersebut perspektif para pengunjung terhadap objek wisata di Kabupaten Gresik mengarah pada sentimen positif.
Model SVM dengan menerapkan LDA atau SVM-LDA dapat menghasilkan metrik evaluasi yang lebih unggul dibandingkan dari model SVM.
Model-SVM-LDA memperoleh nilai-F1-score 66%,-unggul 11 % daripada model-SVM .
idak dengan LDA) yang bernilai-F1-score 55%.
Model-SVM-LDA mengalami overfit yangmengakibatkan penurunan nilai evaluasi, sehingga selisih 11% antara kedua metode dengan satuan F1-Score menunjukkan bahwa pengurangan vektorisasi pada SVM sangat efektif untuk meningkatkan kualitas klasifikasi sentimen dengan SVM.
Ciptaan disebarluaskan di bawah Lisensi Creative Commons Attribution 4.
0 International License.
Jurnal Ilmu Komputer dan Desain Komunikasi Visual Volume 10.
Nomor 1.
Juli 2025 ISSN (Ceta.
: 2541-4550 ISSN (Onlin.
: 2541-4585
SARAN
Word embedding model berfungsi untuk memahami hubungan konteks antar kata.
Kualitas model sangat dipengaruhi oleh ukuran dan kualitas data.
Penerapan model word embedding yang sudah ada atau training model baru-dengan korpus lebih besar menerapkan metode-vektorisasi lainnya, dengan-GloVe atau-Word2Vec.
Memberikan rekomendasi peningkatan metode analisis dengan metode deep learning dengan LDA agar analisis lebih akurat, dan penanganan terhadap kondisi imbalance data
berikutnya terutama pada data teks dapat melakukan penambahan metode text
UCAPAN TERIMA KASIH
Terima-kasih-kepada para pengelola wisata yang-telah memberikan validasi dan informasi kepada peneliti, dan kepada penyedia korpus dari Kaggle yang telah mempublikasikan data tersebut sehingga dapat saya implementasikan pada penelitian ini.
DAFTAR PUSTAKA