Positif : Jurnal Sistem dan Teknologi Informasi Volume 10.
No 1, 2024.
Page : 9-18
E-ISSN 2460-9552
P-ISSN 2620-3227
Article history Received Nov 25, 2023
Accepted Feb 11, 2024
Published July 16, 2024
PEMANFAATAN METODE TOPIC MODELLING HIERARCHICAL DIRICHLET
PROCESS DALAM MENGEVALUASI KUALITAS KONTEN WEBSITE
BERDASARKAN ULASAN PENGGUNA
Sunu Jatmika.
Fransiska Sisilia Mukti.
Tria Aprilianto.
Naviza Yulia Al Zahwa.
Fakultas Teknologi dan Desain.
Institut Teknologi dan Bisnis Asia Malang email: sunu@asia.
id, ms.
frans@asia.
id, tria@asia.
id, navizayulia@gmail.
Abstract The evaluation of website content is important to ensure that the presented content aligns with users' needs and preferences.
This can be accomplished by analyzing user reviews regarding the website's This research leverages the Hierarchical Dirichlet Process (HDP) method to automatically identify primary topics from 32 users' reviews, resulting in three main recurring topics: 'good', 'bug', and 'update'.
Using the OSEMN framework, the final evaluation indicates that the 'good' topic exhibits the highest cosine similarity value compared to other topics.
This signifies that the positive aspects highlighted in users' reviews regarding the website's content dominate and possess significant similarities among the reviews.
These findings offer crucial insights into comprehending user evaluations of website content, serving as a basis for more effective and targeted content improvements moving forward.
Keywords: topic modelling, hierarchical dirichlet process, website content evaluation, user review analysis, cosine similarity Abstrak Evaluasi konten website penting dilakukan untuk memastikan bahwa konten yang disajikan sesuai dengan kebutuhan dan preferensi pengguna.
Hal ini dapat dilakukan melalui menganalisis hasil ulasan pengguna terhadap konten website.
Penelitian ini memanfaatkan metode HDP dalam mengidentifikasi topik-topik utama secara otomatis dari ulasan 32 pengguna dan menghasilkan tiga topik utama yang paling sering muncul AobagusAo.
AobugAo.
AoupdateAo.
Dengan menggunakan kerangka kerja OSEMN, evaluasi akhir menunjukkan bahwa topik 'bagus' memiliki nilai cosine similarity tertinggi dibandingkan dengan topik lainnya.
Hal ini menandakan bahwa aspek positif dalam ulasan pengguna tentang kualitas konten website mendominasi dan memiliki kesamaan yang signifikan di antara ulasan-ulasan tersebut.
Temuan ini memberikan wawasan yang penting dalam memahami evaluasi pengguna terhadap kualitas konten website dan dapat menjadi dasar untuk perbaikan konten yang lebih efektif dan terarah ke depannya.
Kata Kunci: pemodelan topik, hierarchical dirichlet process, evaluasi konten website, analisis ulasan pengguna, cosine similarity PENDAHULUAN Dalam ekosistem digital yang terus berkembang, review atau ulasan pengguna telah menjadi sumber daya kritis dalam membentuk persepsi dan keputusan konsumen.
Informasi yang terkandung dalam ulasan ini mencakup beragam aspek, mulai dari kualitas produk hingga pengalaman Oleh karena itu, memahami struktur dan konten dari ulasan-ulasan ini adalah esensial dalam mengidentifikasi preferensi dan kebutuhan Metode analisis teks tradisional sering kali kompleksitas dan dimensi yang berkembang dari dataset ulasan, terutama dalam konteks review website yang cenderung memiliki topik-topik yang beragam dan seringkali tidak terbatas.
Oleh karena itu, ulasan secara online dianggap memberikan sumber data yang lebih kaya dibandingkan metode tradisional dalam hal memahami pengalaman holistik pelanggan dengan lebih baik .
Penggunaan alat analisis teks memiliki peran penting dalam membantu menyederhanakan serta mengotomatisasi proses pengambilan informasi dari review customer.
Namun terdapat tantangan teknis yang dihadapi, antara lain akibat singkatan yang tidak standar, dialek lokal, ataupun kesalahan pengejaan .
Metode analisis teks, seperti topic modelling, adalah teknik penting dalam pengolahan dan pemahaman data teks.
Topic modelling merupakan pendekatan statistik pada text mining yang mengekstrak topik atau pola yang tersembunyi dalam kumpulan teks .
, .
Salah satu manfaat penggunaan metode topic modelling dalam review website adalah untuk mengidentifikasi sentimen atau perasaan umum pengguna yang terkait dengan produk atau layanan tertentu.
Melalui metode ini, web developer dapat melihat apakah review yang disampaikan oleh pengguna cenderung positif, negatif, atau netral terhadap aspek-aspek tertentu.
Beberapa algoritma yang dikembangkan untuk topic modelling antara lain latent dirichlet allocation (LDA), latent semantic analysis, hierarchical dirichlet process (HDP), correlated topic modeling, dan probabilistic latent semantic analysis .
LDA adalah metode yang sudah terbukti dan banyak digunakan dalam pemodelan Keuntungan LDA kesederhanaannya dan kemampuannya untuk topik-topik diinterpretasi dengan baik.
Di sisi lain.
HDP adalah ekstensi dari LDA yang memungkinkan jumlah topik menjadi variabel dan dipelajari dari data.
HDP secara otomatis menentukan jumlah topik yang sesuai dengan data, sehingga mengatasi kekurangan LDA di mana jumlah topik harus ditentukan sebelumnya.
HDP
juga dapat menangani situasi di mana dokumen memiliki campuran topik yang kompleks dan tidak terbatas .
Inilah alasan utama mengapa metode HDP mendapat perhatian yang signifikan.
HDP
membedakan dirinya dengan kemampuannya untuk menangani jumlah topik yang tidak terbatas, mengatasi tantangan yang umumnya dihadapi dalam metode konvensional.
Dengan mengadopsi pendekatan hierarkis.
HDP memungkinkan untuk memetakan ulasan-ulasan ke dalam struktur yang lebih dalam, mengidentifikasi topik utama serta sub-topik yang mungkin tidak terlihat dalam analisis konvensional .
Dengan demikian, penerapan HDP dalam analisis review website bukan hanya sekadar peningkatan metode analisis, melainkan sebuah langkah maju yang mampu menghadirkan pemahaman yang lebih mendalam dan kontekstual terkait preferensi serta kecenderungan pengguna dalam ranah digital yang semakin luas.
METODE PENELITIAN
Penelitian ini mengadopsi kerangka kerja OSEMN (Obtain.
Scrub.
Explore.
Model, dan iNterpre.
, yang menyediakan panduan struktur untuk mengelola proyek data science dari awal hingga akhir.
Pemilihan OSEMN sebagai metodologi penelitian merupakan langkah penting dalam memastikan bahwa penelitian ini dilakukan secara terstruktur dan komprehensif .
Gambar 1 menunjukkan penjelasan singkat mengenai OSEMN framework.
Gambar 1.
OSEMN Framework .
Positif : Jurnal Sistem dan Teknologi Informasi Volume 10.
No 1, 2024.
Page : 9-18
OBTAIN
Pada tahap ini, fokus utama yang dilakukan adalah pengumpulan data dalam bentuk ulasan pengguna yang didapatkan dari hasil penyebaran kuesioner kepada sejumlah pengguna website, dengan jumlah sample sebanyak 32 pengguna.
Hasil kuesioner ini disimpan dalam bentuk format spreadsheet yang menjadi data input untuk proses SCRUB Proses scrubbing dalam siklus proyek data science dikenal sebagai data preprocessing, karena di dalamnya terkandung proses pembersihan data, khususnya untuk data dengan tipe teks yang cenderung tidak terstruktur dan terdapat banyak noise.
Selain itu, pada proses scrubbing juga dilakukan konversi format data ke dalam satu standarisasi yang sama.
Tiga tahapan utama proses scrubbing dalam penelitian ini diuraikan sebagai berikut:
Tokenization: proses memecah teks atau kalimat menjadi unit-unit yang lebih kecil, yang disebut "token".
Token bisa berupa kata, frasa, atau simbol, tergantung pada tingkat detail yang diinginkan.
Tujuan dari tokenization adalah untuk mempersiapkan teks sehingga dapat diolah lebih lanjut dalam .
Stopwords: kata-kata umum yang sering muncul dalam teks tetapi cenderung kurang informatif dalam konteks analisis teks.
Menghapus stopwords dari teks dapat membantu mengurangi kebisingan dan meningkatkan kualitas analisis.
Lemmatization: proses dalam pengolahan bahasa alami yang mengubah kata-kata menjadi bentuk dasar atau kata dasar.
Proses ini dilakukan untuk mengurangi kompleksitas dan dimensi dari dataset dan membantu dalam meningkatkan efisiensi analisis.
EXPLORE
Proses eksplorasi data untuk memberikan pemahaman secara mendalam terhadap data dalam mencari karakteristik dan tren.
Salah satu teknik eksplorasi data yang dapat digunakan adalah TF-IDF (Term Frequency-Inverse Document Frequenc.
TF-IDF digunakan untuk mengekstrak kata-kata kunci yang paling penting dari dokumen.
Kata-kata kunci ini kemudian E-ISSN 2460-9552
P-ISSN 2620-3227
dapat digunakan untuk mengelompokkan dokumen ke dalam topik-topik tertentu .
, .
MODEL
Setelah data dieksplorasi, langkah selanjutnya adalah membangun model untuk mengevaluasi kualitas konten website berdasarkan ulasan Pada penelitian ini, metode yang digunakan adalah Topic Modelling Hierarchical Dirichlet Process (HDP).
Metode HDP efektif digunakan untuk masalah yang melibatkan banyak kelompok data, dan metode ini merupakan ekstensi hirarkis dari Dirichlet Process (DP) .
Melalui metode HDP, ulasan pengguna website akan dikelompokkan ke dalam topik-topik tertentu untuk selanjutnya dilakukan evaluasi terhadap kualitas konten website berdasarkan topik-topik tersebut.
INTERPRET
Hasil dari pemodelan perlu divisualisasikan melalui tahapan interpret.
Algoritma HDP membantu dalam proses ekstraksi istilah-intilah penting dalam hasil ulasan pengguna, dan proses visualisasi dibutuhkan untuk gambaran pemahaman yang lebih baik mengenai topik-topik individual dan hubungannya.
Tujuan akhir dari penelitian ini adalah mengetahui masalah umum yang dialami pelanggan, sehingga mengoptimalkan kualitas konten website.
HASIL DAN PEMBAHASAN
Data Pre-processing Kuesioner yang dirancang dalam penelitian mencakup pertanyaan yang relevan dengan evaluasi konten website, yang dapat menggali pemahaman dan persepsi pengguna terhadap konten yang diakses.
Beberapa aspek yang dijadikan sebagai bahan pertanyaan pada kuesioner meliputi aspek kejelasan informasi, kerelevanan dengan topik, kegunaan, kepuasan pengguna, dan aspek lain yang relevan dengan evaluasi kualitas konten.
Data yang dikumpulkan dari kuesioner tersebut akan menjadi dasar utama untuk melakukan analisis.
Hasil kuesioner selanjutnya diolah menggunakan library pandas python sebagai data input metode HDP, sebagaimana yang terlihat pada Gambar 2.
Kata yang termasuk ke dalam stoplist akan dibuang dan tidak digunakan pada proses Dalam penelitian ini, mekanisme pembersihan stopwords dilakukan dengan stopwords sastrawi.
Gambar 2.
Tampilan Hasil Read Kuesioner Tokenization Hasil dari pembacaan data kuesioner akan membantu rangkaian kalimat yang tak Proses tokenizing dilakukan untuk menguraikan setiap kalimat review pengguna ke dalam kata-kata, untuk memudahkan dalam proses perhitungan kata.
Sebagai contoh Auweb yang menarikAAy akan diubah menjadi [AuwebAy.
AuyangAy.
AumenarikAy.
AuAA.
Proses ini dilakukan pada seluruh data dan menghasilkan data baru seperti yang terlihat pada Gambar 3.
Gambar 3.
Hasil Tokenization Stopwords Dalam memproses penghilangan kata-kata yang dianggap tidak penting, dibutuhkan stoplist, yaitu daftar kata umum yang mempunyai fungsi tapi tidak mempunyai arti, sebagaimana yang terlihat pada Gambar 4.
Gambar 4.
Database Stopwords Kata yang dicetak miring dan berwarna merah merupakan kata-kata yang termasuk dalam stoplist, sehingga dari hasil stopwords removal akan menghapus kata tersebut, sebagaimana yang terlihat di Tabel 1 pada kolom di sebelah kanan.
Lemmatization Proses penguraian kata-kata imbuhan menjadi kata dasar dengan tujuan untuk mendapatkan bentuk kata dasar yang benar.
Proses ini dilakukan dengan menggunakan SpaCy library Hasil dari lemmatization dalam bentuk daftar kata dasar, sebagai contoh kalimat pada Tabel 1 AuUI dan UX nya mudah dipahamiAy menjadi [AoUIAo.
AoUXAo.
AopahamA.
Pembobotan Term dengan TF-IDF Pada tahap ini merupakan tahap pembobotan yang dimana akan dilakukan pengubahan data yang berbentuk kata menjadi dalam bentuk numerik dengan menggunakan pembobotan TF-IDF.
Pembobotan TF-IDF adalah gabungan dari metode Term Frequency (TF) dengan metode Inverse Document Frequency (IDF).
Term Frequency (TF) TF mengukur seberapa sering suatu kata muncul dalam suatu dokumen.
Setiap kata pada dokumen akan diberi nilai 1 .
ika muncu.
dan 0 .
ika tidak muncu.
pada kolom TERM, dimulai dari term pada dokumen ke-1 (D.
hingga dokumen ke-32 .
Sample hasil perhitungan TF pada dokumen kuesioner ditunjukkan melalui Gambar 5.
Positif : Jurnal Sistem dan Teknologi Informasi Volume 10.
No 1, 2024.
Page : 9-18
E-ISSN 2460-9552
P-ISSN 2620-3227
Gambar 5.
Sample Perhitungan TF pada Kolom ke-1 Untuk menghindari adanya anomaly data, maka dibutuhkan proses normalisasi terhadap perhitungan TF.
Hal ini dapat dilakukan dengan menggunakan persamaan berikut.
ycNycNycNycN.
cyc, yccycc ) = ycycycycycycycycycycEa ycoycoycoycoycoycoycoycoycoycoycoycoycoycoycoycoycoycoycoyco ycycycycycycycyc ycyc yccyccyccyccyccyccyccyccyccycc yccyccyccyccyccyccyccyccyccyccyccyccyccycc yccycc ycycycycycycycycycyc ycycycycycycycycycycEa ycycycycycycycyc yccyccyccyccyccyccyccyccyccycc yccyccyccyccyccyccyccyccyccyccyccyccyccycc yccycc dimana, t adalah term .
yang dianalisis, dan d adalah dokumen yang sedang Perhitungan memberikan nilai relatif antara 0 dan 1, yang menunjukkan frekuensi kemunculan kata dalam dokumen terhadap total kata dalam dokumen tersebut.
Nilai TF yang lebih tinggi menunjukkan kata tersebut lebih penting atau relevan dalam dokumen.
Gambar 6 menunjukkan hasil normalisasi dari data TF kolom ke-a.
Gambar 4.
Perhitungan Normalisasi untuk Kolom ke-1 .
Inverse Document Frequency (IDF) IDF mengukur seberapa penting suatu kata dalam seluruh koleksi dokumen .
Untuk dapat menghitung nilai IDF, terlebih dahulu harus dilakukan proses kalkukasi terhadap nilai DF, dengan menghitung kemunculan term atau kata yang muncul pada dokumen ke-1 hingga dokumen ke-32, dengan menggunakan persamaan berikut ini.
ycNycNycNycN.
cyc, yccycc ) = ycycycycycycycycycycEa ycoycoycoycoycoycoycoycoycoycoycoycoycoycoycoycoycoycoycoyco ycycycycycycycyc ycyc yccyccyccyccyccyccyccyccyccycc yccyccyccyccyccyccyccyccyccyccyccyccyccycc yccycc yccyccyccyccyccyccyccyccyccyccyccyccyccycc ycoycoycoyco Oe ycuycu Hasil perhitungan DF dalam penelitian ini ditunjukkan melalui Gambar 7.
Hanya data dengan nilai term > 0 yang akan dimunculkan.
Gambar 5.
Hasil Perhitungan DF Setelah mengetahui nilai DF, maka perhitungan IDF dapat dengan mudah dilakukan dengan menggunakan persamaan berikut ini.
yayayayayayaycyc = log( ycAycA yayayayaycyc dimana.
N merupakan jumlah keseluruhan Perhitungan ini memberikan nilai yang lebih tinggi untuk kata-kata yang jarang muncul dalam seluruh koleksi dokumen, menunjukkan kata-kata yang lebih unik dan mungkin lebih penting.
Hasil perhitungan IDF ditunjukkan melalui Gambar 8.
Gambar 6.
Hasil Perhitungan IDF
TF-IDF
Setelah menghitung TF dan IDF, nilai TFIDF dari suatu term dalam suatu dokumen dapat diperoleh dengan mengalikan nilai TF dengan nilai IDF.
Perhitungan ini memberikan bobot pada kata-kata yang sering muncul dalam dokumen tersebut (TF mempertimbangkan seberapa unik kata tersebut dalam seluruh koleksi dokumen (IDF yang tingg.
Hasil perhitungan TFIDF ditunjukkan melalui Gambar 9.
Positif : Jurnal Sistem dan Teknologi Informasi Volume 10.
No 1, 2024.
Page : 9-18
E-ISSN 2460-9552
P-ISSN 2620-3227
Gambar 7.
Sample Pehitungan TF-IDF pada Kolom ke-1 Cosine Similarity (CS) Setelah mendapatkan nilai pembobotan pada masing-masing term, selanjutnya dilakukan perangkingan dokumen untuk menghitung nilai cosine similarity, yaitu metode yang menghitung tingkat kemiripan antara dua objek atau lebih.
Dalam HDP atau model-topic-based lainnya, setiap dokumen direpresentasikan sebagai vektor distribusi topik, di mana setiap koordinat vektor menunjukkan seberapa banyak topik tertentu memengaruhi dokumen tersebut.
Berdasarkan proses pembobotan TF-IDF pada penjelasan sebelumnya, didapatkan 3 topik atau keywords yang dihasilkan dalam penelitian ini, yaitu [AobagusAo.
AobugAo.
AoupdateA.
Dari ketiga topik ini, selanjutnya akan dilakukan perhitungan keywords atau kata kunci dari dokumen yang tersedia, dengan cara mencari nilai TF-IDF untuk masing-masing keywords, untuk kemudian dicari nilai vektornya dengan menggunakan persamaan berikut ini yayayaya = ycycycycycycycyc12 ycycycycycycycyc22 ycycycycycycycyc32 Berdasarkan hasil perhitungan TF-IDF pada tahapan sebelumnya, didapatkan hasil value dari keywords [AobagusA.
sebesar 0,43.
value keywords [AobugA.
sebesar 1,51.
dan value keywords [AoupdateA.
sebesar 0,9.
Maka, dari persamaan di atas, didapatkan nilai vector keywords (KK) sebesar 0,584 yang nantinya akan digunakan sebagai vector distribusi topik pada perhitungan CS.
Cosine similarity digunakan dalam penelitian ini sebagai metrik yang efektif untuk mengukur kesamaan antara vektor-vektor yang mewakili dokumen-dokumen tersebut.
Perhitungan cosine similarity antara dua vektor distribusi topik .
isalnya, dua dokume.
dilakukan dengan menggunakan persamaan berikut ini:
aya, yaAyaA) = yaya .
yaAyaA AnyayaAn y AnyaAyan dimana A menunjukkan nilai vector KK dan B menunjukkan nilai vector dari setiap dokumen.
Hasil dari perhitungan tingkat kemiripan setiap dokumen dengan KK ditunjukkan melalui Gambar 10.
Gambar 8.
Visualisasi Akhir HasilPemodelan Topik Review Website INTERPRET Langkah terakhir dalam pemodelan topik menggunakan metode HDP dalam penelitian ini ditunjukkan dalam bentuk visualisasi hasil review Terdapat tiga topik utama yang dihasilkan berdasarkan kuesioner pengguna, dan term [AobagusA.
menunjukkan tingkat probabilitas tertinggi sebagaimana yang terlihat pada Gambar Gambar 9.
Perhitungan CS untuk Seluruh Dokumen Hasil pemodelan topik menggunakan HDP perlu memberikan pemahaman perspektif pengguna dengan lebih baik, mengidentifikasi area-area yang perlu diperbaiki, dan membuat keputusan yang lebih terarah untuk meningkatkan kualitas konten dan pengalaman pengguna untuk pengelola website.
Temuan ini memberikan pemahaman yang mendalam bahwa kebanyakan pengguna memberikan ulasan positif tentang kualitas konten website, yang dapat menjadi fokus utama untuk dipertahankan atau ditingkatkan.
Oleh karena itu, pemilik website dapat menggunakan temuan ini sebagai dasar untuk mengembangkan strategi yang bertujuan untuk memperkuat dan mempertahankan aspek-aspek yang dinilai 'bagus' oleh pengguna, sambil terus memperbaiki areaarea lain yang mungkin memerlukan perhatian lebih lanjut seperti aspek 'bug' atau 'update'.
Positif : Jurnal Sistem dan Teknologi Informasi Volume 10.
No 1, 2024.
Page : 9-18
PENUTUP
Kesimpulan Evaluasi kualitas konten website penting untuk dilakukan demi meningkatkan kepuasa pengguna terhadap website, baik dari segi konten maupun secara visual.
Banyaknya hasil ulasan yang diberikan maupun variasi data yang dihasilkan menbuat metode HDP menjadi salah satu tools yang cukup efisien dalam melakukan proses evaluasi dengan cepat dan tepat.
Dalam penelitian ini, melibatkan 32 pengguna dalam pengisian kuesioner memberikan wawasan yang berharga terhadap aspek-aspek kunci yang dibahas dalam ulasan mereka.
Dari analisis HDP, teridentifikasi tiga topik utama yang mencakup aspek 'bagus', 'bug', dan 'update'.
Namun, hasil kajian cosine similarity menunjukkan bahwa topik 'bagus' memiliki nilai cosine similarity tertinggi dibandingkan dengan topik lainnya.
Hal ini menandakan bahwa aspek-aspek positif yang diungkapkan oleh pengguna dalam ulasan mereka mengenai kualitas konten website lebih dominan dan memiliki kesamaan yang lebih tinggi di antara ulasan-ulasan tersebut.
Dengan demikian, pemanfaatan metode HDP dalam evaluasi ulasan pengguna dapat memberikan wawasan yang berharga bagi pengambil keputusan dalam meningkatkan kualitas konten website secara keseluruhan.
Saran Sebagai kelanjutan penelitian, dibutuhkan menggabungkan metode analisis sentimen pada setiap topik yang diidentifikasi untuk menyediakan gambaran yang lebih rinci tentang aspek mana yang dianggap positif, negatif, atau netral oleh pengguna.
Selanjutnya, dibutuhkan cakupan data yang lebih luas dengan menambahkan jumlah ulasan pengguna.
UCAPAN TERIMA KASIH
Ucapan terima kasih ditujukan kepada Institut Asia Malang, melalui Lembaga Penelitian.
Pengembangan Pengabdian Masyarakat (LPPM) yang telah memberi dukungan secara finansial untuk terselesaikannya penelitian ini, dalam program hibah penelitian E-ISSN 2460-9552
P-ISSN 2620-3227
0098/B.
1/LP2M/ITB-ASIA/i/2023.
REFERENSI