Journal of Information System. Graphics. Hospitality and Technology Volume 4. Nomor 1. Maret 2022 P-ISSN : 2622-1594 E-ISSN : 2685-449X Analisa Klasifikasi Genre Game PC Terpopuler Muhammad Rivaldy Hisham*. Jumiliono Pratama. Luky Andito. Andy Kho. Hendry Wijaya Program Studi Sistem Informasi. Fakultas Ilmu Komputer. Universitas Internasional Batam E-mail: 1831032. muhammad@uib. edu, 1831090. jumilliono@uib. edu, 1831106. luky@uib. andy@uib. edu, 1831113. hendry@uib. AbstrakAi Kemajuan teknologi yang terus berkembang dengan pesat memungkinkan banyak perusahaan memanfaatkan teknologi dengan menciptakan berbagai macam cara dengan menggunakan sistem serta aplikasi dari Teknologi Informasi, salah satu contoh dari sistem TI ialah video game. Maraknya aplikasi video game dengan berbagai kategori yang telah dirancang dan diimplementasikan lalu dipublikasikan pada platform Google Play Store sangat memungkinkan penggunanya memberikan penilaian dan akan berdampak pada peringkat video game yang dipublikasikan. Pada penelitian ini, penulis menggunakan dataset Google Play Store yang diperoleh dari situs website Kaggle untuk memprediksi aplikasi yang populer menggunakan dua model klasifikasi yaitu Random Forest Classifier (RFC) dan Gradient Boosting Decision (GBD) dan membandingkan akurasi model ini. Penelitian ini menghasilkan prediksi aplikasi manakah yang populer dan tidak menggunakan dua model serta menentukan kategori video gamenya. Penelitian ini diharapkan dapat membantu perusahaan mempertimbangkan aplikasi atau video game apa yang baik untuk dikembangkan pada masa yang akan datang. Kata KunciAi Gradient Boosting Decicision. Random Forest Classifier. Klasifikasi. Video Game PENDAHULUAN erkembagan aplikasi mobile saat ini begitu pesat, hal ini di akibatkan karena jumlah pengguna smartphone yang meningkat dratis. Per 20 Januari tahun 2020 saja dicatat setidaknya ada sekitar 3,2 miliar pengguna dan juga perangkat yang aktif sekitar 3,8 miliar unit . Google Play Store merupakan distribusi layanan digital yang dikembangkan oleh Google dan pertama kali di luncurkan pada tanggal 6 Maret tahun 2012, yang bertujuan untuk menyatukan pasar Android. Google Music dan Google eBookstore dalam satu aplikasi. Sehingga sekarang Google Play Store menjadi toko aplikasi resmi untuk sistem operasi Android yang di dalamnya kita dapat menginstal aplikasi seperti toko digital, musik, film, buku, maupun video game. Google Play Store mempunyai beragam aplikasi termasuk yang berbayar ataupun gratis untuk pengguna Android. Naskah Masuk : 10 Mei 2021 Naskah Direvisi : 28 Desember 2021 Naskah Diterima : 19 Januari 2022 *Corresponding Author : 1831032. muhammad@uib. Saat tahun 2016 silam, aplikasi yang terunduh pada GPS sebanyak 82 miliar, lebih dari 3,5 juta aplikasi yang sudah dipublikasikan di GPS pada tahun 2017, sehingga banyak perusahaan yang melakukan pengembangan pada operasi sistem Android dan salah satunya adalah video game. Peningkatan pengguna dalam video game juga terlihat pada situasi pandemi COVID-19 dikarenakan kita diharuskan untuk melakukan social distancing. Setiap perusahaan berusaha untuk menghasilkan video game yang berkualitas, sehingga perusahaan akan mendapatkan profit dari video game yang sudah Keuntungan dari aplikasi video game bukan hanya dari iklan yang ditayangkan tetapi juga dari pembelian dari dalam aplikasi dan/atau video game tersebut. Ada beberapa faktor yang dapat mepengaruhi keseruan bermain game, yaitu : keterhubungan, penghargaan, fleksibilitas akses dan peringkat . Game yang berkualitas tentu saja tidak hanya dilihat dari sisi desain ataupun grafik tetapi masih ada faktor lain seperti suara, alur cerita, ataupun gameplay yang merupakan kebutuhan untuk meningkatkan kualitas game tersebut . Banyaknya jumlah game yang terah dirilis oleh GPS membuat penulis ingin melakukan penelitian video game dengan genre apa yang populer di GPS. Pada penelitian sebelumnya, telah dilakukan klasifikasi yang bertujuan untuk memprediksi dan membandingkan tingkatan akurasi dan popularitas pada video game di GPS menggunakan beberapa algoritma . yaitu Random Forest Classifier (RFC) yang merupakan salah satu teknik pembelajaran asambel yang paling sukses. Teknik ini telah terbukti menjadi teknik yang sangat populer dalam pengenalan pola dan pembelajaran mesin untuk klasifikasi . Gradient Boosting Decision (GBD) adalah algoritma Machine Learning yang menggunakan banyak decision tree sebagai pembelajar dasar. Setiap decision tree tidak independen dikarenakan decision tree baru yang ditambahkan meningkatkan sampel yang akan di klasifikasikan dari decision tree sebelumnya . dengan menggunakan algoritma RFC dan GBD untuk memprediksi kategori game apa yang sedang populer sehingga dengan adanya penelitian ini para pengembang dan programmer pihak video game dapat bisa mengetahui video game apa yang akan dikembangkan dalam masa yang akan datang. This work is licensed under a Creative Commons Attribution-ShareAlike 4. 0 International License. Departemen Sistem Informasi. Institut Sains dan Teknologi Terpadu Surabaya DOI : 10. 37823/insight. Hisham, dkk. : Analisa Klasifikasi Genre Game PC Terpopuler II. METODE PENELITIAN Data Understanding Pada setiap penelitian, dibutuhkan suatu cara dan/atau metode untuk menyelesaikan sebuah permasalahan. Pada penelitian ini, dibutuhkan suatu metode yang dapat memandu penulis dalam pendekatan data sains yaitu metode Cross-Industry Standard Process for Data Mining (CRISPDM) . Terdapat beberapa tahapan proses yang perlu dijalankan agar penelitian ini dapat berjalan dengan baik, antara lain : Business Understanding Pada tahap ini penulis diminta melakukan pemahaman bisnis, yang dimana penulis perlu mengetahui tujuan, sasaran, dan juga urgensi dari permintaan tersebut. Setelah menganalisa kebutuhan bisnis, penulis perlu mengindetifikasi teknik yang cocok untuk mencapai hasil yang diinginkan, yang dimana hasil dari penelitian ini adalah menprediksi tipe kategori video game apa yang terpopuler. Data Understanding Pada tahap ini penulis akan menentukan data-data apa saja yang akan digunakan, karena data-data tersebut akan memiliki pengaruh pada algoritma yang digunakan nantinya. Penulis menggunakan dataset yang telah disediakan oleh website Kaggle. merupakan tempat set data yang sudah disediakan dan juga sudah terdapat daftar dari aplikasi yang sudah dipublikasikan pada GPS dikarenakan penelitian ini bertujuan untuk menganalisa tipe kategori game yang populer sehingga penulis hanya menggunakan beberapa atribut set data yang tersedia pada web Data Preparation Pada tahap ini penulis akan mempersiapkan data untuk masuk kedalam tahap pemodelan, dimana penulis akan memisahkan beberapa atribut yang berupa kalimat dan menentukan atribut apa saja yang dapat digunakan untuk klasifikasi, data tersebut akan dibagi lagi menjadi 2 dataset yang dimana itu adalah dataset training dan Modeling Pada tahap ini penulis akan melakukan modeling terhadap dataset yang telah tersedia menggunakan algoritma Random Forest Classifier dan Gradient Boosting Decision, jika hasil prediksi yang dihasilkan kurang memuaskan. maka penulis akan kembali lagi ke tahap Data Preparation. Hasil dari tahap modeling ini akan berupa angka yang menentukan berapa tinggi tingkat keakurasian dalam memprediksi menggunakan algoritma tersebut. Evaluation Pada tahap yang terakhir penulis akan mengevaluasi dan membandingkan performa model yang telah Departemen Sistem Informasi. Institut Sains dan Teknologi Terpadu Surabaya Gambar 1. Flowchart CRISP-DM . iolah penuli. Random Forest Decision RFC merupakan kombinasi dari masing-masing tree yang kemudian dikombinasikan kedalam suatu model. RFC bergantung pada sebuah nilai random vector dengan nilai distribusi sama pada semua turunan yang mana masingmasing decision tree memiliki kedalaman yang maksimal. Hal ini banyak mengunakan algoritma agar kesederhanaan dan kemudahan dalam mengukur faktor prediksi menjadi mudah. Model RFC bekerja pada konsep corelated decision trees. Untuk mendapatkan hasil yang akurat dan RFC menggabungkannya dalam suatu hutan acak keputusan masing-masing pohon dan membantu meningkatkan akurasi. Analisis penggunaan kembali perangkat lunak pendekatan menggunakan hutan acak gradient boosting machine (GBM) untuk meningkatkan akurasi. Formula ini menggunakan bagging untuk keacakan. Bagging adalah singkatan dari bootstrap aggregating, dimana akurasi dan stabilitas algoritma ditingkatkan secara matematis, dimana xA adalah prediksi untuk sampel tak terlihat, b adalah jumlah pohon yaitu, b = 1,2,3A B. dan fb = Latih fb DT pada Xb. Yb. yaA ycaycayciyciycnycuyci = Oc fb. A ) yaA yca=1 Gradient Boosting Machine GBM merupakan model algoritma percabangan dari RFC tetapi sementara algoritma GBM mampu menangani campuran tipe data, menghasilkan daya prediksi yang baik, dan kuat terhadap outlier . engan fungsi loss yang kua. , mereka mungkin tidak diparalelkan karena sifat peningkatan yang berurutan. HASIL DAN PEMBAHASAN Penulis menggunakan dataset GPS yang telah tersedia pada web Kaggle dan didapatkanlah 17 atribut yang akan digunakan untuk memprediksi jumlah kategori video game Penulis memisahkan atribut yang tersedia dengan tidak menggunakan aplikasi akuntansi Microsoft Excel dan berikut adalah atribut yang akan digunakan dalam penelitian ini: DOI : 10. 37823/insight. Hisham, dkk. : Analisa Klasifikasi Genre Game PC Terpopuler Gambar 2 : Atribut Dataset Kolom Ranking Nama Platform Tahun Genre Penerbit Penjualan Amerika Utara Penjualan Uni Eropa Penjualan Jepang Penjualan yang lain Penjualan Internasional Non-Null Count 960 non-null 960 non-null 960 non-null 960 non-null 960 non-null 960 non-null 960 non-null Tipe Data Int64 Objek Objek Float64 Objek Objek Float64 960 non-null Float64 960 non-null Float64 960 non-null Float64 960 non-null Float64 Gambar 3 : Correlation Heatmap Kemudian terdapat box-plot untuk menuntukan hasil ratarata rating dari keseluruhan aplikasi yang di group berdasarkan kategori. Dapat dilihat pada Gambar 4, terdapat beberapa kategori yang bar nya menyentuh angka 0 karena dataset yang didapatkan, aplikasi tersebut tidak diketahui jumlah ratingnya. Tabel 1. Atribut Dataset Correlation heatmap adalah hubungan antar variabel yang terdapat dalam set data, tidak semua variable dapat digunakan dalam visualisasi korelasi map panas, hanya variabel dataset numerik saja yang dapat digunakan. Salah nya pengambilan set data dapat mempengaruhi saat penelitian atau pembelajaran suatu algoritma . Departemen Sistem Informasi. Institut Sains dan Teknologi Terpadu Surabaya Gambar 4 : Box-plot Rating Data Preparation Pada tahap Data preparation penulis mengconvert atribut price dan currency ke bentuk USD, kemudian mengubah size ke kb, mengubah column Varies with device pada atribut size dan Minimum Android menjadi 0 meggunakan Excel. Kami mengklasifikasikan aplikasi populer dalam 2 nilai yaitu unpopuler . dan populer . Kami menetapkan bahwa aplikasi yang di install lebih dari 100 ribu kali akan ditetapkan sebagai aplikasi yang populer dan membagi data menjadi 80:20 yang dimana data training 80% dan data test 20%. DOI : 10. 37823/insight. Hisham, dkk. : Analisa Klasifikasi Genre Game PC Terpopuler classification yang sering digunakan menentukan threshold dari suatu model. Gambar 5 : Populer dan tidak populer aplikasi Modelling RFC Random Forest merupakan algoritma yang populer dalam pengenal pola dan klasifikasi. Pertimbangkan pembelajaran Random Forest adalah L = ((M1. , (Mn. ) yang dimana n vektor. M OO X dimana X himpunan observasi dalam bentuk numerik dan N OO Y dimana Y adalah himpunan kelasnya. Sistem pembelajaran menghasilkan pengklasifikasi dari sample dan menggabungkan semua pengklasifikasi yang dihasilkan dari uji coba yang berbeda untuk membentuk pengklasifikasi akhir. Kami mengset n_estimators sebesar 20 yang artinya terdapat 20 decision tree yang ada dalam proses training Modelling GBD Gradient Boosting Decision merupakan algoritma yang dapat membangun decision tree berdasarkan peningkatan dari pohon pembelajaran yang lemah untuk memperbaiki kesalahan pohon dan mencegah terjadinya potensi Algoritma ini juga mampu memecahkan masalah dengan menyesuaikan pembelajaran lemah dengan gradien negatif dari fungsi kerugian . oss functio. dan meningkatkan pohon . dengan parameter yang mewakili variabel split yang dipasang pada setiap node terminal pohon. Gambar 7 : Receiver Operating Characteristic Random Forest Pada classification report gradient boosting tingkat keakurasian pada algoritma sebesar 94. Berdasarkan hasil dari confusion matrix diatas, hasil prediksi di baris pertama dengan kategori unpopuler sudah sesuai dengan dataset pada kolom pertama yang dilambangkan dengan 0 terdapat sekitar 11000 data. Pada baris kedua kolom pertama, hasil prediksi dengan kategori populer tidak sesuai dengan dataset yaitu terdapat sekitar 2300 data. Pada baris kedua kolom kedua, hasil prediksi dengan kategori populer sudah sesuai dengan dataset pada kolom kedua yang dilambangkan dengan 1 yaitu terdapat sekitar 20000 data. Pada gambar 10, ditunjukkan bahwa dengan menggunakan algoritma gradient boosting dapat belajar, dengan melihat terjadi nya peningkatan pada gambar. Evaluation Gambar 8 : Receiver Operating Characteristic Gradient boosting Decision Gambar 6 : Confusion Matrix & Accuracy Dari gambar diatas disimpulkan bahwa, penggunaan algoritma Random Forest dalam pengklasifikasian game populer sudah tepat, dengan tingkat akuarsi 100% dan jumlah data yang di training sebanyak 33089. Berdasarkan hasil dari confusion matrix diatas, hasil prediksi di baris pertama dengan kategori unpopuler sudah sesuai dengan dataset pada kolom pertama yang dilambangkan dengan 0. Pada baris kedua, hasil prediksi dengan kategori populer sudah sesuai dengan dataset pada kolom kedua yang dilambangkan dengan 1. Receiver Operating Characteristics (ROC) merupakan alat ukur performance untuk Departemen Sistem Informasi. Institut Sains dan Teknologi Terpadu Surabaya Gambar 9 : Classification Report Gradient Boosting Decision Kemudian penulis menentukan aplikasi yang populer dengan cara pemfilteran yang dimana rating diatas 4 rating count diatas 50 ribu, dan maximum install lebih dari 100 Kemudian data tersebut di group berdasarkan category dan menggunakan function count untuk menghitung jumlah aplikasi pada category tersebut. Dari pemfilteran menunjukan bahwa aplikasi yang paling banyak adalah Puzzle. DOI : 10. 37823/insight. Hisham, dkk. : Analisa Klasifikasi Genre Game PC Terpopuler . Sandhu and R. Batth. AuSoftware reuse analytics using integrated random forest and gradient boosting machine learning algorithm,AySoftw. - Pract. Exp. , vol. 51, no. 4, pp. 735Ae747, 2021, doi: 10. 1002/spe. Kadiyala and A. Kumar. AuApplications of python to evaluate the tree-based algorithms,AyEnviron. Prog. Sustain. Energy, vol. 37, no. 2, pp. 618Ae623, 2018, doi: 10. 1002/ep. Chakradar. Aggarwal, and R. Forests. AuFEATURE SELECTION FOR INSULIN RESISTANCE USING,Ay vol. 04, pp. 4861Ae4879, 2021. Gambar 10 : Filter Populer Game IV. KESIMPULAN Berdasarkan pengujian dan analisis dari klasifikasi game populer di Google Playstore menggunakan model Random Forest Classifier dan Gradient Boosting Decision, maka kita dapat menyimpulkan bahwa: Dengan menggunakan algoritma Random Forest Classifier dan Gradient Boosting Decision penulis berhasil melakukan pengklasifikasian aplikasi video game Dari 17 category game dalam dataset, aplikasi yang rating lebih dari 4 dengan jumlah terbanyak adalah Puzzle. Pada algoritma Gradient Boosting Decision terjadi Overfitting adalah keadaannya data digunakan untuk pelatihan adalah yang terbaik, sehingga saat dilakukan model training menggunakan data yang berbeda dapat mengurangi tingkat keakurasian. hal ini dapat diatasi dengan meningkatkan learning rate pada proses training yang dimana default nya adalah 0. Dengan tinggi nya tingkat keakurasian yang didapatkan dari kedua model diatas, menandakan kita dapat menentukan aplikasi yang populer berdasarkan dari jumlah maximum installs dari aplikasi tersebut. DAFTAR PUSTAKA