Terakreditasi SINTA Peringkat 3 Surat Keputusan Direktur Jenderal Pendidikan Tinggi, Riset, dan Teknologi, Nomor: 72/E/KPT/2024 masa berlaku mulai Volume 10 Nomor 1 Tahun 2023 sampai Volume 14 Nomor 2 Tahun 2027 Terbit online pada laman web jurnal: https://jurnal.plb.ac.id/index.php/tematik/index Jurnal Teknologi Informasi Komunikasi (e -Journal) Vol. 11 No. 2 (2024) 195 - 203 ISSN Media Elektronik: 2443-3640 Identifikasi Opini Publik Terhadap Kendaraan Listrik dari Data Komentar YouTube: Pemodelan Topik Menggunakan BERTopic Identifying Public Opinion on Electric Vehicles from YouTube Comment Data: Topic Modelling Using BERTopic Kristine Angelina Simanjuntak1, Muhamad Koyimatu2, Yolla Putri Ervanisari3, Tasmi4 1,2,3,4Ilmu Komputer, Sains dan Ilmu Komputer, Universitas Pertamina 1kristineangelina12@gmail.com, 2koyimatu@universitaspertamina.ac.id, 3yolaep.yp@gmail.com Abstract The Indonesian government is encouraging the transition to electric vehicles to reduce the use of fossil fuels and the negative environmental impact. This transition sparked controversy because Indonesia is still heavily dependent on coal-fired power plants, and many argue that the transition is not ready without adequate renewable energy and supporting infrastructure. Public opinion analysis is crucial in considering the introduction of electric vehicles in Indonesia due to the controversial nature of the transition. The opinion is transmitted through YouTube by taking comment data, then grouped into a topic to identify public opinion. The topic modeling method used is a BERTopic transformer model using IndoBERTweet in embedding. Once public opinion is modeled into a topic, changes in public opinion are evaluated using coherence score metrics and topic diversity as a measure of the consistency and diversity of the topic. The resulting topics have a coherence value of around 0.6 to 1 and a diversity value of 0.95838. This indicates that the resulting themes have strong semantic similarities and high diversity in terms of word usage and capture various aspects of text documents well. Keywords: BERTopic, coherence score, electric vehicles, public opinion, topic modeling Abstrak Pemerintah Indonesia mendorong transisi ke kendaraan listrik untuk mengurangi penggunaan bahan bakar fosil dan dampak negatif lingkungan. Namun, transisi ini memicu perdebatan karena Indonesia masih sangat bergantung pada pembangkit listrik berbahan bakar batu bara, dan banyak yang berpendapat bahwa transisi ini belum siap tanpa energi terbarukan yang memadai dan infrastruktur pendukung. Aspek sosial dan penerimaan masyarakat menjadi kunci dalam mempercepat adopsi kendaraan listrik. Analisis opini publik sangat penting dalam mempertimbangkan pengenalan kendaraan listrik di Indonesia karena sifat kontroversial dari transisi. Opini tersebut disampaikan melalui YouTube dengan mengambil data komentar, kemudian dikelompokkan menjadi sebuah topik untuk mengidentifikasi opini masyarakat. Metode topic modeling yang dipergunakan adalah model transformer BERTopic dengan memanfaatkan IndoBERTweet dalam melakukan embedding. Setelah opini publik dimodelkan menjadi sebuah topik, perubahan opini publik dievaluasi menggunakan metrik coherence score dan topic diversity sebagai pengukur koherensi dan keberagaman dari topik. Topik-topik yang dihasilkan memiliki nilai koherensi disekitar angka 0.6 hingga 1 dan nilai diversity sebesar 0.95838. Hal tersebut menunjukkan topik yang dihasilkan memiliki kesamaan semantik yang kuat dan keragaman yang tinggi dalam hal penggunaan kata-kata dan menangkap berbagai aspek dari dokumen teks dengan baik Kata kunci: BERTopic, coherence score, kendaraan listrik, opini publik, topic modeling 1. Pendahuluan Pemerintah Indonesia sedang melakukan transisi ke kendaraan listrik untuk mengurangi penggunaan kendaraan berbahan bakar fosil, karena bahan bakar fosil memberikan dampak negatif terhadap lingkungan. Salah satu langkah yang diambil adalah dengan menetapkan Peraturan Presiden Nomor 55 Tahun 2019 tentang Percepatan Program Kendaraan Bermotor Listrik Berbasis Baterai (KBLBB) [1]. Namun, transisi ini memicu perdebatan mengenai dampak ekonomi dan lingkungan, karena sebagian besar sumber listrik masih berasal dari batu bara, sedangkan batu bara dapat meningkatkan emisi 𝐶𝑂2 [2]. Diterima Redaksi: 12-11-2024 | Selesai Revisi: 12-11-2024 | Diterbitkan Online: 20-12-2024 195 Kristine Angelina Simanjuntak, Muhamad Koyimatu, Yolla Putri Ervanisari, Tasmi Tematik: Jurnal Teknologi Informasi Komunikasi (e-Journal) Vol. 11 No. 2 (2024) Indonesia menghadapi tantangan besar dalam transisi ke kendaraan listrik, seperti kebutuhan energi yang masih bergantung pada batu bara, infrastruktur pengisian daya yang terbatas, harga tinggi, dan kurangnya fasilitas pendukung seperti bengkel listrik [3]. Masyarakat juga memiliki pandangan yang beragam; meskipun ada yang melihat kendaraan listrik sebagai solusi untuk mengurangi ketergantungan pada minyak, ada juga yang khawatir tentang kemacetan dan kesiapan infrastruktur [4]. Dengan adanya beragam pandangan masyarakat terkait kendaraan listrik tersebut, maka pada penelitian ini bertujuan untuk memahami opini publik mengenai kendaraan listrik di Indonesia melalui analisis komentar pada video YouTube. Opini masyarakat dapat memberikan wawasan penting bagi pembuat kebijakan untuk mengatasi hambatan dan mempromosikan penerimaan kendaraan listrik [3][5]. Terdapat peneliti yang telah mengkaji topik terkait kendaraan listrik yaitu Suresha (2021) melakukan pemodelan topik terhadap kendaraan listrik dengan menerapkan teknik pemodelan Latent Dirichlet Allocation (LDA) dengan menggunakan data Twitter, dalam tulisannya Suresha menjelaskan LDA kesulitan dalam menginterpretasi topik dan terbatas dalam mempertimbangkan urutan kata, karena LDA menganggap setiap kata dalam dokumen sebagai independent satu sama lain, sehingga hal tersebut mempengaruhi akurasi identifikasi topik. Pada tahun 2023, Ogunleye melakukan penelitian dan hasilnya menunjukkan bahwa KernelPCA dan K-means dalam arsitektur BERTopic menghasilkan topik yang koheren dengan skor koherensi 0.8463, serta menangani batasan LDA dalam interpretasi topik dan pertimbangan urutan kata [6]. Oleh karena itu, dalam penelitian ini memanfaatkan BERTopic sebagai teknik pemodelan topik yang mampu mengatasi permasalahan LDA, sesuai untuk menganalisis data tentang kendaraan listrik di Indonesia agar mendapatkan pemahaman yang lebih mendalam tentang isu-isu utama yang dihadapi, mengidentifikasi kebutuhan masyarakat yang belum terpenuhi, mengembangkan strategi yang lebih efektif dalam meningkatkan adopsi kendaraan listrik, dan mengatasi hambatan-hambatan yang ada. Data-data ini dapat memberikan wawasan kepada pemerintah, produsen mobil listrik, dan masyarakat umum untuk mengambil langkah-langkah yang tepat dalam menghadapi tantangan dan kesempatan yang terkait dengan perkembangan kendaraan listrik. 2. Metode Penelitian Gambar 1 menjelaskan mengenai alur metodologi penelitian yang dilakukan dalam penelitian. Gambar 1. Flowchart Metodologi Penelitian 2.1. Data Colllection Penelitian ini merupakan sebuah modifikasi atau lanjutan dalam penulisan yang dilakukan oleh [7]. Pengumpulan data dilakukan menggunakan metode web crawling. Data yang dikumpulkan berupa komen publik dari berbagai video youtube yang muncul sesuai dengan kata kunci yang diberikan. Tabel 1 menunjukkan pengumpulan data video mengambil dari tahun 2018 hingga tahun 2024. DOI: https://doi.org/10.38204/tematik.v11i2.2096 Lisensi: Creative Commons Attribution 4.0 International (CC BY 4.0) 196 Kristine Angelina Simanjuntak, Muhamad Koyimatu, Yolla Putri Ervanisari, Tasmi Tematik: Jurnal Teknologi Informasi Komunikasi (e-Journal) Vol. 11 No. 2 (2024) Pengumpulan data komentar menggunakan YouTube Data API yang disediakan oleh Google. YouTube Data API mengizinkan pengguna untuk mengakses komentar-komentar dengan memasukkan video id yang ada di setiap video YouTube, kemudian API mengumpulkan data komentar tersebut kedalam sebuah file CSV terlihat pada Tabel 1. Tabel 1. Rincian Jumlah Data Video dan Komentar Setiap Tahun Tahun 2018 2019 2020 2021 2022 2023 2024 Jumlah Video 548 96 144 7770 3508 5943 4571 Jumlah Data Komentar 851 145 218 10392 4719 9038 5918 2.2. Data Pre-Processing Setelah proses crawling telah dilakukan, raw dataset atau kumpulan data mentah yang tidak memiliki format yang teratur dibersihkan terlebih dahulu dengan tahap pre-processing. Pre-processing dilakukan agar meningkatkan kualitas data dengan mempersiapkan raw dataset agar dapat diolah lebih lanjut untuk menghasilkan analisis yang lebih akurat dan bermakna. Beberapa tahapan pre-processing yang dilakukan antara lain: Indonesian Language Data Filter: Melakukan proses menseleksi data komentar pada DataFrame yang hanya berbahasa Indonesia menggunakan library langid. Word Distribution Filter: Melakukan proses menseleksi data komentar yang hanya mengandung minimal delapan kata menggunakan word_distribution yang berfungsi untuk menghitung distribusi kata dalam sebuah kalimat. Exploratory Data Analysis (EDA): Melakukan proses awal untuk menganalisis data untuk memahami struktur dan isi dari data. EDA penting untuk mempersiapkan data sebelum melanjutkan ke tahap analisis lebih lanjut atau ke dalam tahap pemodelan. Dengan menggunakan plot dan grafik untuk memahami distribusi, struktur pola, dan hubungan antar variabel dalam data. 2.3. Topic Modeling: BERTopic Tahapan-tahapan topic modeling yang digunakan dalam penelitian terdiri dari proses-proses yang dijelaskan oleh dokumentasi github yang ditulis oleh Maarten Grootendorst dalam paper yang berjudul “BERTopic: Neural topic modeling with a class-based TF-IDF procedure” [8]. BERTopic bekerja dengan mengubah dokumen menjadi nilai numerik, yang disebut embeddings. Representasi numerik dilakukan agar dapat diolah oleh algoritma pengelompokkan dan pemodelan topik. Proses ini mengubah kalimat menjadi kumpulan vector yang dapat digunakan untuk mengindentifikasi semantik dan kemiripan antar kalimat. Model embedding yang digunakan adalah IndoBERT sebagai model embedding Bahasa Indonesia yang dibangun menggunakan metode transfer learning dari model BERT. Dalam BERTopic, algoritma dimensionality reduction digunakan untuk mengurangi jumlah dimensi atau fitur dalam sekumpulan data untuk mencegah masalah yang muncul ketika bekerja dengan ruang yang berdimensi tinggi. Proses dimensionality reduction dilakukan dengan tujuan untuk mengurangi kompleksitas data dan menghapus data yang tidak relevan agar lebih mudah untuk melakukan visualisasi pada data. Clustering dilakukan untuk membantu memahami dan mengidentifikasi topik-topik yang terdapat dalam data dengan mengelompokkan data dengan sifat yang sama ke dalam kelompok-kelompok kecil. Clustering sebagai pengontrol jumlah topik dengan menggunakan parameter n_clusters. Hal tersebut merupakan parameter yang mendukung pembuatan jumlah topik yang tetap. Dengan menggunakan CountVectorizer, dapat dilakukan beberapa hal seperti: Menghapus stopwords kata-kata umum yang tidak memberi makna seperti “dan”, “atau”, dan sebagainya; Mengabaikan kata-kata yang jarang muncul dan tidak relevan; Tokenisasi, memecah teks menjadi kata-kata atau token dengan memisahkan teks menjadi unit-unit yang lebih kecil seperti berdasarkan spasi atau pola tertentu. Weighting scheme adalah teknik yang digunakan untuk mengurangi pengaruh kata yang tidak relevan dan mengemukakan kata yang lebih relevan dalam proses pemodelan topik. Dalam BERTopic, weighting scheme terdiri atas dua bagian: term frequency (tf) dan inverse document frequency (idf). Term frequency (tf) adalah frekuensi kata dalam cluster, yang menggambarkan berapa banyak kali kata tersebut muncul dalam cluster tersebut. Inverse document frequency (idf) adalah logaritma dari 1 plus jumlah cluster yang mengandung kata tersebut, dibagi dengan jumlah cluster yang mengandung kata tersebut. Representation default dari topik dihitung melalui c-TF-IDF namun, c-TF-IDF diperkuat oleh CountVectorizer dengan mengubah teks menjadi representasi bag-of-words, dilakukan dengan menghitung frekuensi kata-kata. Proses mengubah representasi topik yang dihasilkan oleh model BERTopic. Representation tuning dapat dilakukan dengan menggunakan beberapa model yang telah terimplementasikan dalam BERTopic, seperti MaximalMarginalRelevance, OpenAI, KeyBERTInspired, dan lain-lain. OpenAI adalah model yang menggunakan API OpenAI untuk mengelompokkan topik untuk mengelompokkan topik yang lebih baik dan memperbaiki kualitas topik. DOI: https://doi.org/10.38204/tematik.v11i2.2096 Lisensi: Creative Commons Attribution 4.0 International (CC BY 4.0) 197 Kristine Angelina Simanjuntak, Muhamad Koyimatu, Yolla Putri Ervanisari, Tasmi Tematik: Jurnal Teknologi Informasi Komunikasi (e-Journal) Vol. 11 No. 2 (2024) KeyBERTInspired adalah model yang menggunakan algoritma KeyBERT untuk membantu memperbaiki kualitas topik dan memperingkatkan koherensi topik. N adalah Jumlah topik, |𝑊𝑖 | adalah Jumlah kata unik dalam topik I, 𝑊 adalah Total jumlah kata unik di semua topik. 2.4. Model Evaluation Untuk menghitung topic diversity, langkah pertama adalah mengidentifikasi kata-kata unik dalam setiap topik dan menghitung jumlahnya. Kemudian, hitung total kata unik dari semua topik. Selanjutnya, bagi jumlah kata unik dalam setiap topik dengan total kata unik untuk mendapatkan proporsi kata unik per topik. Setelah itu, rata-rata proporsi ini dibagi dengan jumlah topik untuk mendapatkan nilai rata-rata normalisasi. Akhirnya, kurangi nilai rata-rata normalisasi dari satu untuk mendapatkan nilai topic diversity. Nilai ini menunjukkan seberapa beragam topik yang dihasilkan oleh model. Hasil dari pemodelan topik dapat dievaluasi dan dibandingkan dengan menggunakan beberapa metrik evaluasi. Metrik seperti coherence score dan topic diversity banyak diterapkan untuk digunakan sebagai metrik evaluasi [9]. Coherence score dalam BERTopic adalah metrik yang digunakan untuk mengukur kemiripan antara kumpulan kata dalam sebuah topik dengan kumpulan kata yang dapat dijumpai dalam dokumen lain. Coherence score yang dihasilkan berupa skala dari 0 hingga 1 di mana konsisten yang baik (kesamaan tinggi) memiliki skor dari 1, dan konsistenitas yang buruk (kesaman rendah) mempunyai skor dari 0. Metrik evaluasi menggunakan coherence score menggunakan rumus UMass Coherence dalam Persamaan 1 untuk mengukur kualitas topik. 𝐶𝑈𝑀𝑎𝑠𝑠 = 𝐷(𝑤𝑚 ,𝑤𝑙 )+𝜖 𝑚−1 ∑𝑀 𝑚=2 ∑𝑙=1 𝑙𝑜𝑔 𝐷(𝑤 ) 𝑙 (1) 𝑤𝑚 , 𝑤𝑙 adalah kata-kata dalam topik, 𝐷(𝑤𝑚 , 𝑤𝑙 ) adalah Jumlah dokumen yang mengandung kedua kata 𝑤𝑚 𝑑𝑎𝑛 𝑤𝑙 , 𝐷(𝑤𝑙 ) adalah Jumlah dokumen yang mengandung kata 𝑤𝑙 , 𝜖 adalah Smoothing parameter untuk menghindari log(0), 𝑀 adalah Jumlah kata dalam topik. Untuk menghitung UMass coherence score, langkah pertama adalah mengumpulkan frekuensi kata dari dokumen, menghitung jumlah dokumen yang mengandung setiap kata dan pasangan kata. Selanjutnya, hitung frekuensi kemunculan bersama setiap pasangan kata dalam topik. Untuk menghindari logaritma dari nol, tambahkan parameter smoothing ϵ. Kemudian, hitung logaritma dari rasio antara cooccurrence dan frekuensi kata individu. Terakhir, jumlahkan semua nilai logaritma rasio untuk semua pasangan kata dalam topik. Hasilnya adalah UMass coherence score yang menunjukkan koherensi topik. Topic diversity dikaitkan dengan eksekusi spekulatif yang dapat dikendalikan oleh pengguna, di mana keragaman dalam cluster digunakan untuk membedakan nodes dengan potensi untuk perbaikan dari nodes topik spesifik [10]. Nilai dari topic diversity berkisar dari 0 hingga 1, dengan nilai yang lebih rendah atau mendekati 0 menunjukkan topik yang berlebihan dan nilai yang tinggi atau mendekati 1 menunjukkan keragaman topik yang lebih baik [8]. Untuk menghitung metrik evaluasi topic diversity, rumus yang digunakan adalah Persamaan 2. 1 |𝑊𝑖 | N 𝑊 𝑇𝑜𝑝𝑖𝑐 𝐷𝑖𝑣𝑒𝑟𝑠𝑖𝑡𝑦 = 1 − ∑𝑁 𝑖=1 (2) 3. Hasil dan Pembahasan Rangkaian 3.1. Data Collection Proses pengumpulan data dengan metode crawling menggunakan sumber data penelitian dari media sosial YouTube. Pengumpulan data komentar masyarakat menggunakan keyword ‘Kendaraan Listrik di Indonesia’ dan di ‘sort by relevance’ filter untuk hanya mengambil video yang relevan dengan keyword saja. Video-video yang dipilih hanya berbahasa Indonesia, memiliki kualitas audio-visual yang baik, dan bersifat edukatif atau informatif. Isi konten dari video yang diambil harus mengandung tiga kriteria antara lain: Menjelaskan tentang adopsi kendaraan listrik di Indonesia oleh berbagai perusahaan mobil luar negeri ataupun dalam negeri; Membahas kebijakan pemerintah Indonesia terkait kendaraan listrik; Membahas perkembangan kendaraan listrik di Indonesia. Setelah pencarian video yang memenuhi ketiga kriteria diatas dilakukan, maka diperoleh 20 video. Proses crawling yang dilakukan dimulai pada tanggal 1 Juni 2024. Gambar 2. Hasil Data Collection Gambar 2 menunjukkan hasil crawling, sehingga data yang diperoleh sebanyak 36.896 data komentar, hasil crawling tersebut merupakan sebuah data mentah yang DOI: https://doi.org/10.38204/tematik.v11i2.2096 Lisensi: Creative Commons Attribution 4.0 International (CC BY 4.0) 198 Kristine Angelina Simanjuntak, Muhamad Koyimatu, Yolla Putri Ervanisari, Tasmi Tematik: Jurnal Teknologi Informasi Komunikasi (e-Journal) Vol. 11 No. 2 (2024) nantinya di pre-processing (tahapan pembersihan data) sebelum digunakan ke tahapan pemodelan. 3.2. Data Pre-Processing Sesudah proses crawling data berhasil, kemudian hasil crawling data tersebut disimpan ke dalam sebuah data frame untuk memudahkan proses pembersihan data atau proses preprocessing dilakukan. Beberapa tahapan pre-processing yang dilakukan antara lain: Indonesian Language Data Filter: Tahapan pertama dalam pre-processing, data frame yang masih tidak terstruktur dari hasil crawling di filter hanya komentar yang menggunakan bahasa Indonesia dengan hasil akhir ditunjukkan oleh Gambar 3 dengan jumlah data yang diperoleh sebanyak 31.281 data, dengan kata lain ada sebanyak 5.615 data yang tidak berbahasa Indonesia. Gambar 4. Distribusi Kata dalam Data Komentar Proses word distribution filter ditunjukkan pada Gambar 5 dengan jumlah data yang diperoleh sebanyak 22.649 data yang berarti ada sebanyak 8.632 data yang tidak memenuhi syarat penyeleksian jumlah kata. Gambar 5. Hasil Data Pre-Processing Menggunakan Word Distribution Filter Gambar 3. Hasil Data Pre-Processing Menggunakan Indonesian Language Data Filter Word Distribution Filter: Tahapan kedua dalam preprocessing dilakukan proses menyeleksi data komentar berdasarkan jumlah kata yang dimiliki. Pemilihan data komentar yang ingin diseleksi pada setiap komen didasarkan pada perhitungan word distribution untuk melihat distribusi kata dalam setiap kalimat data komentar. Hal tersebut diperlihatkan pada Gambar 4, yang menunjukkan bahwa pada kuartil pertama dari data (25% bagian dari total keseluruhan data komentar) memiliki data komentar yang mengandung delapan kata, sehingga data komentar yang diambil hanya data komentar yang mengandung minimal delapan kata dalam suatu kalimat. Gambar 6. Grafik Perbandingan Perubahan Jumlah Kata Pada Data Komentar Penggunaan word distribution filter mengurangi noise, meningkatkan kualitas topik, dan distribusi kata yang lebih baik, sehingga model dapat fokus pada konten yang lebih informatif. Proses word distribution filter DOI: https://doi.org/10.38204/tematik.v11i2.2096 Lisensi: Creative Commons Attribution 4.0 International (CC BY 4.0) 199 Kristine Angelina Simanjuntak, Muhamad Koyimatu, Yolla Putri Ervanisari, Tasmi Tematik: Jurnal Teknologi Informasi Komunikasi (e-Journal) Vol. 11 No. 2 (2024) juga membantu dalam mendapatkan distribusi kata yang lebih kaya dan bervariasi, sehingga mendasar untuk mengidentifikasi topik yang lebih akurat dan bermakna [11]. Gambar 6 menunjukkan perubahan distribusi jumlah kata dalam data komentar sebelum dan setelah dilakukannya word distribution filter. Grafik “Distribusi Jumlah Kata Setelah Difilter” menunjukkan bahwa tidak ada lagi kalimat yang memiliki jumlah kata dibawah delapan. Pasca kedua tahapan data pre-processing sebelumnya dilakukan, tahap akhir dalam mempersiapkan data bersih yang digunakan sebagai data akhir dalam pemodelan BERTopic merupakan penghapusan data duplikat dan data entri yang kosong. Gambar 7 menunjukkan hasil akhir jumlah data yang diperoleh sebanyak 22.580 data komentar. Gambar 7. Data Bersih dari Hasil Data Pre-Processing Gambar 8. Word Cloud dari Hasil Data Pre-Processing Exploratory Data Analysis (EDA): Gambar 8 menampilkan berbagai kata dalam bahasa Indonesia yang sering digunakan dalam data komentar. Kata-kata yang paling menonjol termasuk "dan," "yang," "untuk," "mobil," dan "listrik," menunjukkan fokus utama pada topik mobil listrik. Selain itu, kata-kata seperti "Indonesia," "bisa," "anak," dan "bangsa" menunjukkan adanya kebanggaan nasional dan harapan bahwa teknologi ini bisa dikembangkan dan dimanfaatkan oleh anak bangsa. Kata "pemerintah" dan "harga" juga sering muncul, mengindikasikan adanya diskusi tentang peran pemerintah dan aspek biaya dalam pengembangan dan adopsi mobil listrik. Kata-kata lain seperti "karena," "kalau," dan "saya" menunjukkan pendapat pribadi dan alasan di balik dukungan atau keraguan terhadap mobil listrik. Secara keseluruhan, word cloud ini memberikan gambaran tentang berbagai aspek yang dibicarakan dalam konteks mobil listrik di Indonesia, mencakup aspek teknologi, ekonomi, kebijakan, dan kebanggaan nasional. 3.3. Embeddings IndoBERTweet merupakan sebuah transformer encoder dengan 12 hidden layers (768 dimensi), 12 attention heads, dan 3 feed-forward hidden layers (3.072 dimensi). IndoBERTweet berguna untuk embedding dikarenakan adaptasi model yang efisien di bawah kelemahan kata. Pada penelitian Koto melakukan train terhadap lima IndoBERTweet model terhadap tujuh datasets berbasis Twitter menghasilkan embedding menggunakan IndoBERTweet membuat pretraining lima kali lebih cepat dan lebih efektif daripada metode lainnya [12]. Tahapan awal dari pemodelan topik menggunakan BERTopic merupakan proses embeddings. Proses embeddings mengolah data komentar yang telah bersih di embedded menggunakan sebuah pre-trained language model dalam sebuah kerangka SentenceTransformer dengan menggunakan model “indolem/indobertweet-base-uncased”. Model ini telah dilatih menggunakan data bahasa Indonesia, termasuk teks-teks dari Twitter atau yang sekarang dikenal sebagai X. Model ini memiliki pemahaman yang lebih baik tentang struktur bahasa, kata, dan konteks yang sering digunakan dalam percakapan di platform media sosial. Proses embeddings dengan menggunakan IndoBERTweet menghasilkan vektor 768 dimensi dengan setiap baris dan kolom merepresentasikan fitur atau karakteristik dari satu teks data komentar. Angka desimal yang dihasilkan bernilai positif dan negatif menunjukkan kontribusi masing-masing fitur terhadap representasi keseluruhan dari teks. Gambar 9 menunjukkan hasil dari perubahan data teks (data bersih) menjadi sebuah representasi numerik untuk setiap data komentar. Gambar 9. Hasil Proses Embeddings Menggunakan IndoBERTweet DOI: https://doi.org/10.38204/tematik.v11i2.2096 Lisensi: Creative Commons Attribution 4.0 International (CC BY 4.0) 200 Kristine Angelina Simanjuntak, Muhamad Koyimatu, Yolla Putri Ervanisari, Tasmi Tematik: Jurnal Teknologi Informasi Komunikasi (e-Journal) Vol. 11 No. 2 (2024) 3.4. Dimensionality Reduction UMAP untuk dimensionality reduction disarankan dalam pendekatan BERTopic, meskipun teknik lain dapat diintegrasikan ke dalam tahap ini juga. UMAP merupakan algoritma yang didasarkan pada teknik dan ide pembelajaran manifold dari analisis data topologi [13]. Studi sebelumnya [14][15] mengkonfirmasi bahwa UMAP lebih optimal untuk kualitas pengelompokan daripada metode lain dari dimensionality reduction, seperti t-distributed stochastic neighbor embedding (t-SNE) dan PCA. UMAP efektif untuk menemukan penyematan dimensi rendah yang mempertahankan struktur topologi penting dari data. Gambar 10. Hasil Dimensionality Reduction Menggunakan UMAP, PCA, dan t-SNE Secara Urut dari Kiri Gambar 10 menunjukkan dimensionality reduction menggunakan UMAP data tersebar dengan lebih banyak cluster yang berbeda, hal tersebut dikarenakan UMAP mempertahankan struktur lokal dan global dari data dengan baik, sehingga data yang serupa di ruang berdimensi tinggi tetap berdekatan di ruang dimensi rendah. Sedangkan PCA tidak mengelompokkan data menjadi cluster yang jelas seperti UMAP, dikarenakan PCA hanya mempertahankan struktur lokal data. PCA menunjukkan bahwa data tersebar dalam bentuk elips memanjang dengan lebih banyak data terpusat ditengah. Sementara itu, hasil dimensionality reduction dengan tSNE menghasilkan visualisasi dengan varian yang lebih besar pada satu sumbu, sehingga menyulitkan dalam identifikasi pola, hal tersebut diakibatkan t-SNE menangkap varians terbesar dalam data dan mempertahankan hanya struktur global data. Oleh karena itu, t-SNE sulit dalam mengidentifikasi clustercluster kecil dan PCA sulit dalam mengidentifikasi cluster-cluster besar, sehingga dimensionality reduction menggunakan UMAP pada penelitian ini lebih optimal dibandingkan dengan PCA dan t-SNE. 3.5. Clustering Penggunaan K-means di BERTopic mencapai kinerja yang mirip dengan HDBSCAN, tetapi tanpa adanya outliers, sehingga memungkinkan pemodelan topik yang lebih akurat [8]. Algoritma clustering K-means menunjukkan tingkat konvergensi yang lebih cepat, efektif, dan efisien daripada Birch dalam pemodelan topik menggunakan BERTopic [16]. Gambar 11 menunjukkan clustering menggunakan KMeans mengelompokkan data berdasarkan banyak cluster yang telah ditetapkan sebelumnya parameter “n_clusters”. Cluster-cluster yang dihasilkan K-Means direpresentasikan dengan warna-warna yang berbeda dengan besar cluster sebanding dengan jumlah kalimat dalam cluster tersebut. Letak cluster dalam plot mewakili rata-rata dari embeddings kalimat dalam cluster tersebut. Proses clustering dengan K-Means ini mengidentifikasi cluster-cluster kalimat yang mirip satu sama lain. Gambar 11. Hasil Clustering Menggunakan K-Means, HDBSCAN, dan Birch Secara Urut dari Kiri Sedangkan HDBSCAN mengidentifikasi cluster dengan ukuran yang bervariasi dikarenakan, jumlah cluster ditentukan otomatis berdasarkan kepadatan data, sehingga cluster yang dihasilkan tidak beraturan bentuk dibandingkan dengan K-Means. Pembentukan cluster dengan HDBSCAN juga membutuhkan kecepatan yang lambat yaitu sekitar 15 menit dalam proses clustering. Sementara itu, hasil clustering dengan Birch mengidentifikasi jumlah cluster secara otomatis dengan mengeksplorasi cluster pada tingkat granularitas yang berbeda. Proses komputasi dalam clustering dilakukan, Birch memerlukan waktu yang cukup lama sekitar 10 menit. Pada kasus penelitian ini, Birch kurang optimal untuk digunakan dikarenakan, skalabilitas Birch lebih sesuai menganalisis koleksi teks yang besar. 3.6. Weighting Scheme Penggunaan c-TF-IDF lebih baik daripada menggunakan algoritma lain untuk proses weighting scheme dalam BERTopic karena meningkatkan kemampuan dalam memproses data teks dengan distribusi yang tidak seimbang, serta meningkatkan akurasi klasifikasi teks [9]. Dalam representasi TF-IDF biasa, setiap kata memiliki bobot yang berat dalam mempertimbangkan istilah lokal: Term Frequency (TF) dan Global term: Inverse Document Frequency (IDF). Seperti yang ditunjukkan dalam persamaan (1), frekuensi istilah tft,d dihitung untuk istilah t dan dokumen d dan frekuensinya terbalik diperhitungkan sebagai logaritma dari jumlah dokumen N dalam dokumen atau dataset dibagi oleh jumlah total dokumen yang berisi istilah t. (dft). 1+𝑁 𝑊𝑡,𝑑 = 𝑡𝑓𝑡,𝑑 ∙ log ( 𝑑𝑓𝑡 ) (3) Jadi versi modifikasi TF-IDF seperti yang ditunjukkan dalam Persamaan 3. Frekuensi istilah tft,c dihitung dengan mengikat semua dokumen ke dalam satu cluster dan menganggapnya sebagai satu dokumen cluster c. IDF juga dimodifikasi dan ditempatkan kembali oleh frekuensi cluster terbalik. Dihitung dengan mengambil logaritma dari jumlah rata-rata kata per cluster (A) DOI: https://doi.org/10.38204/tematik.v11i2.2096 Lisensi: Creative Commons Attribution 4.0 International (CC BY 4.0) 201 Kristine Angelina Simanjuntak, Muhamad Koyimatu, Yolla Putri Ervanisari, Tasmi Tematik: Jurnal Teknologi Informasi Komunikasi (e-Journal) Vol. 11 No. 2 (2024) dibagi oleh frekuensi istilah t di seluruh cluster. (tft), sehingga mengukur seberapa banyak informasi istilah memberikan ke cluster tertentu seperti pada Persamaan 4. Secara keseluruhan, pendekatan berbasis TF-IDF menghasilkan distribusi kata topik untuk setiap cluster dokumen 1+𝐴 𝑊𝑡,𝑐 = 𝑡𝑓𝑡,𝑐 ∙ log ( 𝑡𝑓𝑡 ) (4) Gambar 12. Setiap topik menunjukkan nilai coherence score disekitar angka 0.6 hingga 1, dengan angka coherence score yang paling rendah pada topik ke-7 yaitu sebesar 0.60 dan angka coherence score paling tinggi pada topik ke-8 sebesar 0.81. Dengan demikian, topik ke-8 yaitu topik “Car Purchase Simplicity” yang terbentuk dari 1821 data komentar menjadi topik yang memiliki kesamaan semantik paling kuat. 3.7. Hasil Topik dengan BERTopic Seusai proses pre-processing data telah selesai, maka output dari proses tersebut merupakan data akhir yang digunakan agar diproses ke dalam tahapan BERTopic untuk pembentukan topik. Tabel 2 menunjukkan hasil representation tuning dari BERTopic dengan memanfaatkan OpenAI untuk mempermudah pemahaman terhadap topik yang dihasilkan. Tabel 2 menunjukkan kekhawatiran tentang keterjangkauan kendaraan listrik menjadi topik yang sering muncul, serta masyarakat masih merasa harga kendaraan listrik masih terlalu mahal. Selain itu, analisis biaya kendaraan listrik, yang mencakup biaya pembelian, perawatan, dan efisiensi bahan bakar, juga menjadi perhatian utama. Tantangan yang dihadapi oleh bangsa Indonesia dalam mengadopsi kendaraan listrik, termasuk infrastruktur, regulasi, dan kesadaran masyarakat, merupakan isu penting lainnya. Permintaan untuk kendaraan listrik yang sederhana dan terjangkau juga sering dibahas, menunjukkan kebutuhan masyarakat akan solusi mobilitas yang lebih ekonomis. Tabel 2. Hasil Representation Tuning dari Pemodelan Topik Menggunakan Keseluruhan Data No 0 1 2 3 4 5 6 Count 3091 2526 2407 2386 2278 2150 2119 7 8 9 2037 1821 1765 Topic Electric Vehicle Affordability Concerns Electric Vehicle Cost Analysis Challenges Facing Indonesian Nation Affordable Simple Electric Vehicles Electric Vehicle Emission Testing Innovation for Affordable Mobility Challenges in Indonesian National Development Nationalistic Pride and Innovation Car Purchase Simplicity Electric Vehicle Technology Challenges 3.8. Model Evaluation dengan Coherence Score dan Topic Diversity Topik-topik yang terbentuk dievaluasi menggunakan coherence score dan topic diversity. Pada topik yang dihasilkan oleh data komentar tahun 2018 hingga 2024 memiliki nilai diversity score sebesar 0.95838, hal tersebut menunjukkan bahwa topik-topik yang dihasilkan oleh model memiliki keragaman yang tinggi dalam hal penggunaan kata-kata dan menangkap berbagai aspek dari dokumen teks dengan baik dan masing-masing topik memiliki fokus yang jelas. Sedangkan coherence score yang dihasilkan sebesar 0.73321, dengan nilai koheren setiap topik tertera pada Gambar 12. Representasi dari Variasi Coherence Scores dari Setiap Topik Tabel 3. Perbandingan Algoritma UMAP, K-Means, PCA, SVD, HDBSCAN, dan BIRCH Menggunakan Dua Metrik Evaluasi Algoritma Dimensionality Reduction UMAP PCA t-SNE UMAP UMAP Clustering Coherence Score Topic Diversity K-Means K-Means K-Means HDBSCAN BIRCH 0.73883 0.70506 0.64477 0.53926 0.61141 0.95838 0.85917 0.89374 0.99996 0.97407 Tabel 3 menunjukkan pemilihan algoritma bergantung pada prioritas antara koherensi dan keberagaman topik yang dihasilkan. Algoritma yang dibandingkan merupakan algoritma yang digunakan pada proses dimensionality reduction dan clustering. UMAP dan KMeans memberikan hasil terbaik dalam hal keseimbangan antara koherensi dan keberagaman topik, HDBSCAN menghasilkan topik yang sangat beragam, tetapi dengan koherensi yang rendah, PCA dan tSNE mencari keseimbangan antara koherensi dan keberagaman, dengan PCA sedikit lebih baik dalam hal koherensi, BIRCH menawarkan keberagaman topik yang sangat tinggi dengan koherensi yang lebih baik dibandingkan HDBSCAN, tetapi masih di bawah UMAP & K-Means dan PCA. Oleh karena itu, UMAP dan KMeans digunakan dalam proses dimensionality reduction dan clustering pada penelitian ini. 4. Kesimpulan Dengan menggunakan BERTopic, topik yang dihasilkan mencapai nilai evaluasi yang baik berdasarkan kriteria kemiripan semantik yang tinggi serta, keragaman topik yang dihasilkan. Hasil evaluasi tersebut menunjukkan kinerja BERTopic yang unggul dalam menggunakan metrik pemodelan topik untuk menghasilkan topik-topik yang berbeda dan koheren. DOI: https://doi.org/10.38204/tematik.v11i2.2096 Lisensi: Creative Commons Attribution 4.0 International (CC BY 4.0) 202 Kristine Angelina Simanjuntak, Muhamad Koyimatu, Yolla Putri Ervanisari, Tasmi Tematik: Jurnal Teknologi Informasi Komunikasi (e-Journal) Vol. 11 No. 2 (2024) Dari hasil analisis topik ditemukan kekhawatiran utama masyarakat terhadap keterjangkauan kendaraan listrik, serta pandangan masyarakat yang masih merasa harga kendaraan listrik terlalu mahal. Selain itu, analisis biaya kendaraan listrik, yang mencakup biaya pembelian, perawatan, dan efisiensi bahan bakar juga menjadi perhatian utama. Tantangan yang dihadapi oleh bangsa Indonesia dalam mengadopsi kendaraan listrik, seperti infrastruktur, regulasi, dan kesadaran masyarakat, menjadi isu penting lainnya. Permintaan untuk kendaraan listrik yang sederhana dan terjangkau juga sering dibahas, menunjukkan adanya kebutuhan masyarakat akan solusi mobilitas yang lebih ekonomis. Temuan ini dapat membantu pemerintah dalam mendengarkan opini publik dengan lebih baik, memahami dan mengatasi kekhawatiran, serta menghormati kehendak publik. Kemudian, dapat memberikan referensi penting untuk mengoptimalkan layanan publik dan merumuskan kebijakan yang masuk akal. Daftar Rujukan [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] ESDM, “Transisi Energi Bersih Melalui Kendaraan Bermotor Listrik,” ESDM, 2020. https://www.esdm.go.id/id/beritaunit/direktorat-jenderal-ketenagalistrikan/transisi-energibersih-melalui-kendaraan-bermotor-listrik (accessed July. 17, 2024). V. Pirmana, A. S. Alisjahbana, A. A. Yusuf, R. Hoekstra, and A. Tukker, “Economic and environmental impact of electric vehicles production in Indonesia,” Clean Technologies and Environmental Policy, vol. 25, Feb. 2023, doi: https://doi.org/10.1007/s10098-023-02475-6. M Askinatin, N Heldini, Y Supriyanto, None Saparudin, and N Ariyanto, “Analysis of market readiness for the safe use of electric vehicles in Indonesia post-pandemic era,” IOP Conference Series Earth and Environmental Science, vol. 1267, no. 1, pp. 012042–012042, Dec. 2023, doi: https://doi.org/10.1088/1755-1315/1267/1/012042. Mardhi, Lu, “Pandangan Generasi Terkini Mengenai Kendaraan Listrik di Indonesia”, Whiteboardjournal, 2023. (accessed by July. 17, 2024). Candra dan C, “Evaluasi hambatan untuk adopsi kendaraan listrik di Indonesia melalui pendekatan prioritas ordinal abuabu”, International Journal of Grey Systems, 2(1), 38-56, 2022 [13] [14] [15] [16] B. Ogunleye, T. Maswera, L. Hirsch, J. Gaudoin, and T. Brunsdon, “Comparison of Topic Modelling Approaches in the Banking Context,” Applied Sciences, vol. 13, no. 2, p. 797, Jan. 2023, doi: https://doi.org/10.3390/app13020797. Simanjuntak, K. A., Koyimatu, M., & Ervanisari, Y. P, “Analisis Perubahan Opini Publik Terhadap Kendaraan Listrik di Indonesia Melalui Komentar YouTube: Pendekatan Topic Modeling BERTopic”, Jurnal Inovasi Kewirausahaan, 1(3), 19, 2024, https://doi.org/10.37817/jurnalinovasikewirausahaan.v1i3 Groot, M. Aliannejadi, and M. R. Haas, “Experiments on Generalizability of BERTopic on Multi-Domain Short Text,” arXiv (Cornell University), Jan. 2022, doi: https://doi.org/10.48550/arxiv.2212.08459. Z. Jiang, B. Gao, Y. He, Y. Han, P. Doyle, and Q. Zhu, “Text Classification Using Novel Term Weighting Scheme-Based Improved TF-IDF for Internet Media Reports,” Mathematical Problems in Engineering, vol. 2021, pp. 1–30, Mar. 2021, doi: https://doi.org/10.1155/2021/6619088. H. P. Suresha and K. Kumar Tiwari, “Topic Modeling and Sentiment Analysis of Electric Vehicles of Twitter Data,” Asian Journal of Research in Computer Science, pp. 13–29, Oct. 2021, doi: https://doi.org/10.9734/ajrcos/2021/v12i230278. A. Uteuov, “Topic model for online communities’ interests prediction,” Procedia Computer Science, vol. 156, pp. 204– 213, 2019, doi: https://doi.org/10.1016/j.procs.2019.08.196. F. Koto, J. H. Lau, and T. Baldwin, “IndoBERTweet: A Pretrained Language Model for Indonesian Twitter with Effective Domain-Specific Vocabulary Initialization,” Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, 2021, doi: https://doi.org/10.18653/v1/2021.emnlp-main.833. L. McInnes, J. Healy, N. Saul, and L. Großberger, “UMAP: Uniform Manifold Approximation and Projection,” Journal of Open Source Software, vol. 3, no. 29, p. 861, Sep. 2018, doi: https://doi.org/10.21105/joss.00861. K. Kukushkin, Y. Ryabov, and A. Borovkov, “Digital Twins: A Systematic Literature Review Based on Data Analysis and Topic Modeling,” Data, vol. 7, no. 12, p. 173, Nov. 2022, doi: https://doi.org/10.3390/data7120173. Y. Yang et al., “Dimensionality reduction by UMAP reinforces sample heterogeneity analysis in bulk transcriptomic data,” Cell Reports, vol. 36, no. 4, p. 109442, Jul. 2021, doi: https://doi.org/10.1016/j.celrep.2021.109442. F. Nie, Z. Li, R. Wang, and X. Li, “An Effective and Efficient Algorithm for K-Means Clustering With New Formulation,” vol. 35, no. 4, pp. 3433–3443, Jan. 2022, doi: https://doi.org/10.1109/tkde.2022.3155450. DOI: https://doi.org/10.38204/tematik.v11i2.2096 Lisensi: Creative Commons Attribution 4.0 International (CC BY 4.0) 203