JURNAL SAINS DAN INFORMATIKA Research of Science and Informatic V9. Vol. 09 No. http://publikasi. id/index. php/jsi Vol. 09 No. http://publikasi. id/index. php/jsi Klasifikasi Malicious URL Menggunakan Algoritma Improved Random Forest dan Random Forest Berbasis Web Octavan Adiputraa . Eman Setiawanb abProgram Studi Sistem Infomrasi. Universitas Narotama. Surabaya adiputraoctavan@gmail. com, eman. setiawan@narotama. Submitted: 21-07-2022. Reviewed: 29-08-2022. Accepted 29-11-2022 http://doi. org/10. 22216/jsi. Abstract URLs are very much on the network of computer systems. Moreover, nowadays all activities use an online system. Starting from social media, and marketplaces to group chat applications. An early prevention system from malicious URL attacks is needed to counteract the large number of URLs circulating in the online system. Previously, malicious URL detection based on Blacklisting and Heuristic URLs could not recognize the new type of malicious URL without first being analyzed. For this reason, a technique is needed to detect malicious URLs using machine learning. The lack of machine learning in the detection of malicious URLs is that it is not 100% able to detect malicious URLs precisely. This study will use an improved random forest approach with a random forest as a classifier to detect malicious URLs. Improved Random Forest is a Random Forest that is used using evaluator features and filter instances to improve the accuracy of ordinary random forests. This study concluded that both methods of improved random forest and ordinary random forest have an accuracy value above 99%. Keywords: malicious URL, improved random Forest, random forest Abstrak URL sangat banyak berada pada jaringan sistem komputer. Apalagi saat ini semua kegiatan menggunakan sistem online. Mulai dari media sosial, marketplace hingga aplikasi chatting grup. Untuk menangkal banyaknya URL yang beredar di sistem online tersebut, maka dibutuhkan sistem pencegahan dini dari serangan URL berbahaya. Sebelumnya deteksi malicious URL berbasis Blacklisting dan URL Heuristic tidak dapat mengenali malicious URL jenis baru tanpa di analisis terlebih dahulu. Untuk itu diperlukan teknik mendeteksi malicious URL menggunakan machine leaning. Kekurangan machine learning dalam pendeteksian malicious URL bahwa tidak 100% dapat mendeteksi malicious URL secara tepat. Pada penelitian ini akan digunakan pendekatan improved random forest dengan random forest sebagai classifier untuk mendeteksi malicious URL. Improved Random Forest merupakan Random Forest yang dipakai menggunakan feature evaluator dan instance filter untuk meningkatkan akurasi dari random forest biasa. Penelitian ini menghasilkan kesimpulan bahwa kedua metode baik improved random forest maupun random forest biasa memiliki nilai akurasi diatas 99%. Kata kunci: malicious URL, improved random Forest, random forest A 2023 Jurnal Sains dan Informatika Laporan keamanan Symantec menguraikan tentang Internet menjadi hal yang penting dan signifikan berbagai ancaman global yang mencakup data terhadap kehidupan kita sehari-hari. Banyak layanan perusahaan, pelanggaran, serangan terhadap situs web yang dapat dilakukan internet yang bergantung pada dan berbagai kegiatan lainnya. Laporan tersebut juga fungsionalitas dan keamanannya, misalnya bisnis, mengungkapkan bahwa di masa pandemic ini, penjahat pembelajaran, perbankan, jejaring sosial, kesehatan dan dunia maya telah memanfaatkan krisis kesehatan untuk banyak lainnya yang merupakan aplikasi berbasis meningkatkan serangan siber terhadap rumah sakit, web. Web menjadi semakin penting, penjahat dunia fasilitas kesehatan dan penelitian medis serta terhadap maya secara ilegal dapat megeksploitasi kerentanan dan personel medis dan organisasi kesehatan masyarakat memiliki peluang untuk melakukan banyak serangan internasional. terhadap aplikasi web. Pendahuluan Octavan Adiputra. Eman Setiawan. / Jurnal Sains dan Informatika : Vol. 09 No. Pendekatan machine learning dapat menjadi solusi dari permasalahan yang telah diuraikan diatas. Dan algoritma Fitur Leksikal adalah fitur yang diperoleh dari nama klasifikasi yang digunakan adalah random forest yang URL itu sendiri. Berdasarkan tampilan URL digabungkan dengan pemilihan fitur . eature selectio. memungkinkan untuk mengidentifikasi apakah URL untuk memilih fitur yang relevan dengan malicious berbahaya atau tidak. Fitur leksikal tidak cukup dalam URL, dan dengan pendekatan random sampling untuk menentukan bahwa web tersebut berbahaya atau tidak, mengatasi imbalance dataset. Pendekatan ini dinamakan tetapi harus digunakan bersama fitur lainnya seperti fitur improved random forest. host, fitur nama dan fitur konten. Fitur Leksikal terbagi atas dua kategori yaitu, fitur leksikal tradisional Beberapa penelitian tentang machine learning untuk dan fitur leksikal lanjutan. Fitur leksikal tradisional melakukan kasifikasi malicious URL, yaitu penelitian mencakup property umum yang dimiliki URL sendiri yang dilakukan oleh Tao dkk. , tentang penggunaan seperti, panjang URL, jumlah titik didalamnya, jumlah machine learning untuk mengklasifikasi situs web karakter khusus, panjang nama domainnya, protokol informasi yang digunakan. TLD yang digunakan dll. berdasarkan sesi HTTP dan fitur berbasis domain. Dari penelitian ini akurasi mencapai 92,2%. Kemudian 2. 4 Host Based Features penelitian yang dilakukan oleh Sirageldin dkk. , yang meenggunakan 2 fitur yaitu, fitur leksikal dan fitur Fitur berbasis host dapat menginformasikan dimana berbasis konten. Dari penelitian tersebut akurasi situs web dihosting yaitu, negara, lokasi, waktu hosting, mencapai 96%. Lalu penelitian yang dilakukan oleh tidak hanya itu, kita juga bisa mengetahui siapa pemilik Altaher. , dimana beliau melakukan klasifikasi web website, pembuat website dan bagaimana website phising dengan menggunakan metode SVM dan KNN, tersebut dikelola. Inilah beberapa properti dari fitur dan akurasi yang diperoleh sebesar 90,04%. Kemudian berbasis host yang diidentifikasi oleh hostname dari penelitian yang dilakukan oleh Cui dkk. , yang URL. menggunakan analisis statistik dan level sigmoidal IP Address Properties dalam pemilihan fiturnya serta penggunaan Nayve Ini menjelaskan fitur alamat IP URL. Alamat IP Bayes. Decision Tree dan SVM untuk metode adalah sebuah set dari set 0s dan 1s, dan itu terbuat klasifikasinya, penelitian ini mendapatkan akurasi dari 32 bit. Setiap 4. set terdiri dari 8 bit. sebesar 98,7%. Dan yang terakhir yaitu penelitian yang Properti alamat IP menginformasikan apakah alamat dilakukan oleh Liu dkk. , dimana beliau menggunakan IP digunakan dalam URL. 6 teknik klasifikasi dari proses machine learning, dan WHOIS Properties hasilnya Teknik Random Foresr yang memiliki akurasi Kata WHOIS menunjukkan siapa yang paling tinggi. bertanggung jawab atas nama domain, ini menunjukkan siapa yang menciptakan domain, di Tujuan dari penelitian ini adalah melakukan klasifikasi Negara mana web terbuat, kapan waktu malicious URL dengan pendekatan machine learning pembuatannya dll. Properti ini menunjukkan yang menggunakan fitur leksikal dan fitur berbasis host informasi mengenai nama domain. pada web serta metode klasifikasi yang digunakan Domain Name Properties adalah Random Forest yang akan dibandingkan dengan Nama Random Forest yang ditambah dengan pemilihan fitur mengidentifikasi alamat IP, misalnya,nama domain dan mengatasi imbalance data dengan teknik sampling com memiliki selusin alamat IP. Nama yang bisa disebut juga sebagai teknik Improved Random URL Forest dengan harapan dapat memperbaiki akurasi dan mengidentifikasi halaman web tertentu. performa model machine learning. Geographic Properties Ini menunjukkan lokasi alamat IP, yaitu di benua. Negara atau kota mana alamat IP tersebut Tinjauan Pustaka 1 Website 5 Feature Selection Website merupakan halaman yang berisi informasi yang Fitur Selection merupakan sebuah metode untuk mengidentifikasi fitur yang berkaitan dan tidak diakses melalui jaringan internet diseluruh dunia. berkaitan dari sebuah dataset. Kegunaan dari fitur evaluator ialah untuk meningkatkan performa dari 2 Features Representation Ini merupakan sekumpulan informasi dari sebuah URL machine learning. Metode ini juga digunakan sebagai agar dapat dikenali dan memberikan informasi yang data reduction agar proses komputasi menjadi lebih berguna untuk mendukung proses pengenalan terhadap cepat. Peneliti disini menggunakan Feature Importance sebagai Teknik pemilihan fiturnya URL yang dianalisis. 3 Lexical Features Octavan Adiputra. Eman Setiawan. / Jurnal Sains dan Informatika : Vol. 09 No. 6 Machine Learning Approach Pendekatan ini menganalisis informasi yang berbeda mengenai URL dan halaman webnya. Teknik ini menganalisis beberapa informasi dari nama, alamat IP, nama domain, nama host dll. Informasi ini dikenal dengan nama fitur, kemudain fitur inilah yang digunakan Gambar 1. Tahapan dalam proses machine learning untuk melatih model dan model tersebut akan Tahapan proses machine learning adalah sebagai diumpankan ke model klasifikasi, lalu model klasifikasi akan memprediksi apakah URL termasuk yang berbahaya atau jinak . Memahami permasalahan . Manipulasi dan analisis data 7 Random Forest . Membuat model machine learning . Evaluasi model Random Forest merupakan algoritma dalam klasifikasi . Meningkatkan model data supervised, menggabungkan beberapa tree, yang . Mengulangi proses masing-masing dilatih secara terpisah dimana model dasar dilath dan dikombinasikan menggunakan skema pembobotan yang canggih, biasanya tree dilatih secara Langkah langkah dalam proses machine learning adalah independen dan prediksi tree digabungkan melalui rata- sebagai berikut. Memahami permasalahan rata. Memahami permasalahan adalah tahap awal dimana kita melakukan proses pengumpulan 8 Improved Random Forest dataset yang akan kita olah. Dataset yang Metode improved random forest berdasar pada metode digunakan adalah dataset URL jinak . random forest biasa dengan menambahkan fitur dan URL berbahaya. evaluator dan mengatasi imbalance data dengan teknik Manipulasi dan analisis data Fitur evaluator digunakan untuk memilih fitur Pada tahap ini dilakukan proses manipulasi yang relevan. Sampling digunakan untuk mengatasi data data seperti penghilangan duplikasi data, agar akurasi dapat semakin meningkat. Arsitektur dari menghilangkan data yang berisi null. Sehingga metode improved random forest. menjadi data yang bersih dari segala noise. Membuat model machine learning 9 Evaluasi Model Pada tahap ini akan dilakukan proses menyusun model machine learning yang diinginkan. Evaluasi Model adalah rangkaian tahapan dalam mulai dari mengekstrak fitur data URL, melatih melakukan proses machine learning dimana dalam data menjadi sebuah data training dan mengatur proses ini akan diperoleh hasil daripada model data menjadi data test. Data training yang klasifikasi yang telah dilakukan sebelumnya. Pada digunakan adalah sebesar 80% dari jumlah proses ini akan diperoleh beberapa data angka yakni keseluruhan data, sedangkan data test sebesar nilai Precision. Recall dan F-1 Score yang dapat dilihat 20% dari jumlah keseluruhan data. pada persamaan 1, 2, dan persamaan 3. Evaluasi Model Pada tahap ini akan dilakukan proses . O ya | perhitungan performa dari suatu model yang ycEycyceycaycnycycnycuycu. = 100ycu | telah kita atur sebelumnya, mulai dari . ecall, precision, f1 scor. , menghitung akurasi O ya | dengan model kfold-cross validation dengan ycIyceycaycaycoyco. = 100ycu a | ketentuan fold sebanyak 5 fold. Dari beberapa tahapan diatas jika hasil dari cross validation sebanyak 5 fold belum stabil, maka akan 2 ycu ycyycyceycaycnycycnycuycu. ycu ycyceycaycaycoyco. dilakukan proses ulang dengan cara mengatur kembali . = model yang dibuat agar menghasilkan nilai fold yang ycyycyceycaycnycycnycuycu. Metodologi Penelitian Hasil dan Pembahasan Metodologi penelitian pada penelitian ini akan Hasil dari penelitian ini menghasilkan beberapa pembahasan sebagai berikut. mencakup beberapa hal seperti gambar dibawah ini. Octavan Adiputra. Eman Setiawan. / Jurnal Sains dan Informatika : Vol. 09 No. Perancangan model Count-w Count_dir Count embed domain Short url Count https Count-http Count% Count? Count- Count= url_length Pada gambar 2 ditunjukkan jumlah dataset kedua class yakni URL jinak . yang diberi label 0 dan URL malware yang diberi label 1. Hostname_length Sus url Fd_length Tld_length Count-digits Count-letter Dataset Dataset yang digunakan pada penelitian ini adalah dataset URL jenis malware dan URL benign . yang diperoleh dari dari website UNB (University of New Braunswic. yang telah dikumpulkan menjadi suatu kumpulan URL yang berisi URL benign sebanyak 378 URL dan URL malware 11. Gambar 2. Jumlah Dataset URL Malware dan URL Benign Data Preprocessing Dari dataset diatas, dengan proses data preprocessing yang dilakukan dengan menghilangkan duplicate data dan data yang benilai null. Kode untuk melakukan penghilangan duplicate data dapat dilihap pada gambar 3 dibawah ini. Tabel 1 diatas merupakan nama-nama fitur yang akan digunakan untuk mngklasifikasikan class URL. Yang mana telah dighitung nilai feature importance nya. Gambar 3. Teknik data Preprocessing Implementasi Model Seleksi fitur (Feature Selectio. Berikut ini fitur yang akan dijadikan acuan untuk mengklasifikasikan URL benign dan malware. Tabel 1 Nama Fitur untuk klasifikasi URL Nama Fitur RF Feature Importance Use_of_ip Abnormal_url Gambar 4. Nama fitur untuk algoritma random forest Octavan Adiputra. Eman Setiawan. / Jurnal Sains dan Informatika : Vol. 09 No. Pada gambar 4 diatas merupakan fitur yang akan digunakan saat menggunakan algoritma Random Forest 4. Accuracy yang berjumlah 21 fitur. Tabel 2. Hasil uji coba dengan Kfold Cross Validation Dari fitur-fitur URL diatas nantinya akan dipilih Meto Fold1 Fold Fold Fold Fold berdasarkan nilai feature importance yang paling tinggi ke yang rendah. Dari fitur diatas akan dipilih jumlah fitur sebanyak 10 fitur. Berikut 10 fitur yang memiliki Acc Acc Acc Acc nilai feature importance. Acc Rando Forest Impro Rando Forest Gambar 5. Nama fitur untuk algoritma improved random forest pada gambar 5 diatas merupakan fitur yang telah dilakukan proses feature selection. Jumlah fitur yang telah disaring diambil sebanyak 10 fitur. 99,96 99,96 99,96 99,35 99,39 99,92 99,92 99,92 Pada tabel 2 menunjukkan hasil testing yang menggunakan kfold cross validation dengan 2 metode klasifikasi yang dilakukan. Terlihat dari ketiga metode klasifikasi bahwa dengan percobaan sebanyak 5 fold ketiga metode ini sama-sama memiliki nilai akurasi yang tinggi. Tabel 3. Hasil rata-rata akurasi dari 5 kali percobaan Metode Rata-rata akurasi Random Forest 99,99% Class Balancing Improved Random Forest Jika kita melihat jumlah dataset yang ada, jumlahnya sangat tidak seimbang . , maka dari itu akan dilakukan proses balance dataset agar kedua class Pada tabel 3 merupakan rata-rata akurasi dari kedua tersebut seimbang. Teknik yang digunakan untuk metode klasifikasi malicious URL. menyeimbangkan jumlah class adalah Random Confusion Matrix Oversampling. Tabel 4. Confusion Matrix data testing model Metode Random Forest Improved Random Forest Confusion Matrix Pada tabel 4 dapat dilihat terdapat dua kolom yang Pada gambar 6 merupakan proses class balancing yang berwarna pink yang menandakan berapa banyak URL yang salah dideteksi oleh model machine learning dan dilakukan untuk menyeimbangkan jumlah class . kolom dua kolom yang berwarna biru menandakan bahwa berapa banyak URL yang benar dideteksi oleh Uji Coba dan Evaluasi Model model machine learning. Dimana pada tabel diatas Pada tahap ini akan ditampilkan performa dari suatu untuk model Random Forest jumlah yang benar metode klasifikasi yang telah dilakukan uji coba dengan mendeteksi sebagai URL benign . sebanyak 7047 record, sedangkan benar mendeteksi URL malware data training 80% dan data testing 20%. sebeanyak 543 record. Dan sebanyak 18 URL yang salah Gambar 6. Teknik class balancing Random Over Sampling Octavan Adiputra. Eman Setiawan. / Jurnal Sains dan Informatika : Vol. 09 No. mendeteksi URL jinak dan sebanyak 6 URL yang salah mendeteksi sebagai URL malware. Selanjutnya untuk model klasifikasi Improved Random Forest model berhasil mendeteksi sebanyak 7048 URL jinak dan 544 sebagai URL malware. Sementara sebanyak 5 URL yang salah deteksi sebagai URL malware dan sebanyak 17 URL salah deteksi sebagai URL jinak. Classification Report Tabel 5. Classification report kedua metode Metode Precision Recall Gambar 6. Tampilan web saat menjalankan klasifikasi URL Score Pada gambar 7 dapat dijelaskan bahwa pada tampilan Random saat web dijalankan maka akan muncul beberapa Forest informasi diantaranya yakni, user input features adalah Improved informasi fitur yang diekstrak dari URL yang Random Selanjutnya ada hasil deteksi yang Forest menunjukkan URL diatas adalah URL jinak. Selain itu Pada tabel 5 dapat dilihat bahwa dari kedua model ada informasi hasil deteksi dan probabilitas deteksi yang klasifikasi diatas, menghasilkan nilai precision, recall merupakan besarnya probabilitas deteksi. dan F1 Score yang sama. Kesimpulan Kesimpulan yang diperoleh dari hasil pengujian diatas adalah pertama hasil akurasi dari kedua algoritma diatas Graphical User Interface (GUI) dari penerapan kedua algoritma sama-sama memiliki akurasi diatas improved random forest untuk mendeteksi malware 99%. URL yang dilakukan pada penelitian ini. Web GUI dari aplikasi ini dihasilkan dengan web framework untuk Penelitian ini masih bisa dikembangkan lagi dengan bahasa python yakni Streamlit yang mana berbasis web. menambahkan fitur berbasis konten sebagai informasi Graphical User Interface (GUI) pendukung dalam mengklasifikasi malicious URL. Daftar Pustaka