JURNAL ILMU KOMPUTER DAN DESAIN KOMUNIKASI VISUAL (JIKDISKOMVIS) Volume 2 No. 1 Desember 2017 ISSN: 2541-4585 Perbandingan Penggunaan Algoritma Cosinus dan Wu Palmer untuk Mencari Kemiripan Kata dalam Plagiarism Checker Aslihatul Millah, 2Siti Nurazizah Program Studi Sistem Informasi. Fakultas Sains dan Teknologi. UIN Sunan Ampel Surabaya. Jalan Ahmad Yani No. Jemur Wonosari. Wonocolo. Kota Surabaya. Jawa Timur azzaalmillah@gmail. com 2azaizah8@gmail. Abstrak Plagiasi merupakan hal yang sangat penting ditekan dan dihindari,khususnya di lingkungan akademisi. Seringkali plagiasi ini terjadi baik dengan disengaja maupun tidak disengaja, namun hal ini dapat diminimalisisr dengan menggunakan plagiarism checker. Tujuan makalah ini adalah untuk perbandingan penggunaan algoritma cosinus dan wu palmer dalam mendeteksi plagiat berdasarkan kemiripan kata. Metode yang digunakan adalah menggunakan algoritma cosinus dan wu palmer yang kemudian dilakukan pengujian terhadap dua algoritma tersebur. Makalah ini mendapatkan hasil bahwa Cosinus bisa digunakan sebagai algoritma dalam mendeteksi plagiasi berdasarkan kemiripan kata. Jika hasil nilai perhitungan cosinus 0 Ae 0,5 maka tidak plagiat, jika > 0,5 Ae 1 maka plagiasi. Algoritma cosinus lebih efektif digunakan untuk mendeteksi plagiasi daripada algoritma wu palmer. Kata Kunci : Cosinus. Cosine Similarity. Wu Palmer PENDAHULUAN Latar Belakang Pada dasarnya beberapa ide dan karya yang kita tuliskan tidak sepenuhnya murni dari pemikiran kita. Jelas wajar bagi kita karena memang begitulah fitrah manusia,terbatas pengetahuannya. Hal ini dapat disikapi dengan beberapa Teknik seperti sitasi dan pengutipan yang benar. Namun,sering kali kita lupa menyebutkan sumber darimana kita mengutip ide atau karya tersebut atau mengutip dengan cara yang salah sehingga mengakibatkan karya yang kita hasilkan berpotensi terdeteksi sebagai plagiat. Dewasa ini banyak kasus yang terjadi seputar plagiat seperti berita yang ditayangkan dalam salah satu situs berita bahwa demi mengejar gelar guru besar, 3 dosen dari salah satu universitas di Indonesia yang tidak dapat disebutkan identitasnya nekat melakukan plagiat untuk melancarkan aksinya (Anang. JURNAL ILMU KOMPUTER DAN DESAIN KOMUNIKASI VISUAL (JIKDISKOMVIS) Volume 2 No. 1 Desember 2017 ISSN: 2541-4585 Sanksi di perguruan tinggi pun juga mulai disemarakkan bahwa ada sanksi tegas pada akademisi yang nekat melakukan plagiarisme dalam menunaikan Tri Dharma Perguruan Tinggi mereka. Untuk berhati-hati dan menjauhkan dari hal-hal yang tidak diinginkan terkait plagiarism, beberapa cara bisa ditempuh seperti melakukan Teknik sitasi yang baik atau menggunakan tools seperti plagiarism checker. Algoritma dan metode yang diterapkan antar tools pun juga berbeda-beda. Dalam sebuah jurnal karya Radiant Victor,dkk memaparkan bahwa algoritma cosinus dapat diimplementasikan bersamaan dengan algoritma swith waterman dalam mendeteksi kemiripan teks (Radiant Victor Imbar,dkk, 2. Makalah ini membahas perbandingan penggunaan algoritma cosinus dan wu palmer dalam mendeteksi plagiat berdasarkan kemiripan kata. Makalah ini diharap mampu memberikan pernyataan yang signifikan algoritma mana diantara keduanya yang lebih efektif digunakan sebagai algoritma penyusun sistem plagiarism checker. Karena sering kali kita menyalin tulisan seseorang kemudian kita mengganti struktur kalimatnya saja ataupun tanpa menyebutkan sumbernya. Identifikasi Masalah Menentukan apakah kalimat tersebut plagiat atau tidak dengan menggunakan perhitungan cosinus berdasarkan kemiripan kata. Semakin besar nilai kemiripannya maka semakin berpotensi mengandung plagiat. TINJAUAN PUSTAKA Plagiat Plagiat merupakan pengambilan karangan . endapat dan sebagainy. orang lain dan menjadikannya seolah-olah karangan . endapat dan sebagainy. sendiri, misalnya menerbitkan karya tulis orang lain atas nama dirinya sendiri. jiplakan (Anang. , 2. Sudah seharusnya para peneliti dan akademisi menghindari hal ini, dan bahkan plagiasi merupakan sebuah kejahatan dalam dunia akademis (KBBI). Berikut adalah contoh beberapa implementasi yang sering dilakukan dan dihitung sebagai plagiat (Radiant Victor Imbar,dkk, 2. JURNAL ILMU KOMPUTER DAN DESAIN KOMUNIKASI VISUAL (JIKDISKOMVIS) Volume 2 No. 1 Desember 2017 ISSN: 2541-4585 Menyebut karya dan ide milik orang lain sebagai miliknya atau menyalin tulisan tanpa memberikan kredit pada penulis atau bahkan tanpa menulis Mengutip ide orang lain tanpa memberikan tanda kutip maupun tanda Mengutip dengan cara yang salah Membuat ide serupa hanya dengan merubah struktur kalimat tanpa penambahan variabel apapun dan tidak mencantumkan sumber. Cosinus Metode cosinus merupakan metode yang digunakan untuk menghitung similarity . ingkat kesamaa. antar dua buah objek (NaAofirul Hasna Ariyani,dkk. Cosinus adalah metode untuk pengukuran kesamaan antara kata. Cosinus masih belum bisa menangani makna semantik teks dengan sempurna (Ogie Nurdiana, dkk. , 2. Dengan cosinus ini, sebuah kata bisa diteliti tingkat kemiripannya, mirip dalam artian ini bukan berarti sama. Cosinus memiliki range nilai antara 0-1. Text Mining Text mining adalah mencari dan mengukur data yang berupa teks dimana sumber data biasanya di dapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat merepresentasikan isi dan maksud dari sebuah dokumen untuk kemudian dilakukan Analisa lebih lanjut (Departemen Pendidikan Nasional. Analisa yang dimaksud seperti mencari makna semantic, kemiripan kata, dan lainnya. Text mining juga bisa dianggap sebagai penerapan dari konsep data mining dalam mencari pola di dalam teks. Pola yang dimaksud adalah mencari intisari dari kata yang mewakili isi dari dokumen tersebut untuk mendapatkan JURNAL ILMU KOMPUTER DAN DESAIN KOMUNIKASI VISUAL (JIKDISKOMVIS) Volume 2 No. 1 Desember 2017 ISSN: 2541-4585 Metode Term Frequency and Inverse Document Frequency (TF IDF) TF adalah term frequency dan IDF adalah inverse term frequency. Metode ini merupakan metode untuk menghitung bobot setiap setiap kata yang paling umum digunakan dalam multi disiplin ilmu natural language processing (Ogie Nurdiana, dkk. , 2. Dengan menggunakan TF IDF ini dapat diketahui bobot dari setiap kata/term. Dengan menggunakan TF IDF ini dapat diketahui bobot dari setiap kata/term. TF IDF ini merupakan suatu algoritma yang paling umum digunakan dalam information retrieval. Wu Palmer Wu palmer adalah sebuah algoritma path based. Wu palmer juga biasa disebut dengan algoritma Wu and Palmer (WUP). Algoritma ini adalah algoritma kemiripan semantik sehingga mampu mengukur derajat keterkaitan atau relevansi antar dokumen ataupun antar term (Paratisa Kharismadita dan Faisal Rahutomo. Algoritma ini bisa memberikan rekomendasi pada kasus-kasus yang membutuhkan pemeringkatan makna semantik berdasarkan kemiripan makna semantic tersebut. Penelitian Terdahulu Sebuah penelitian yang dilakukan oleh Paratisa Kharismadita dan Faisal Rahutomo dengan judul AuImplementasi Tokenizing Plus Pada Sistem Pendeteksi Kemiripan Jurnal SkripsiAy membahas tentang pendeteksi kemiripan jurnal skripsi untuk mengetahui apakah sebuah jurnal dapat dikatakan plagiarisme atau Metode yang digunakan yaitu dengan menghitung 2 dokumen dengan menggunakan metode Term Frequency and Inverse Document Frequency (TFIDF) sebagai perhitungan term disetiap dokumennya dan Cosine Similarity untuk menghitung kemiripan antara 2 jurnal yang menghasilkan nilai 0 jika kedua jurnal sangatlah berbeda dan nilai 1 jika kedua jurnal mempunyai term yang sama (Ogie Nurdiana, dkk. , 2. Menurut Hanto dan Harianto Kristanto dalam jurnalnya yang berjudul AuProgram Bantu Pemilihan Lagu Pujian Berdasarkan Tema Kebaktian Dengan Menggunakan Metode Cosinus Similarity Studi Kasus: GKI NgupasanAy bahwa JURNAL ILMU KOMPUTER DAN DESAIN KOMUNIKASI VISUAL (JIKDISKOMVIS) Volume 2 No. 1 Desember 2017 ISSN: 2541-4585 untuk memutuskan penggunaan lagu pujian dalam suatu kebaktian bukanlah perkara yang mudah. Peneliti membuat sebuah sistem yang menghasilkan suatu informasi berupa nilai perhitungan dari cosine similarity dengan bentuk persentase yang nantinya dapat menjadi acuan dalam memilih lagu yang sesuai dengan tema Dengan demikian penggunaan metode ini akan memperhitungkan antara kata dari tema kebaktian dengan kata pada lirik dari lagu (Akip Maulana, dkk, 2. METODE PENELITIAN Rancangan Penelitian Penelitian ini menggunakan metode cosinus untuk menguji plagiat bedasarkan kemiripan kata. Algoritma cosinus hanya dapat memberikan nilai range antara 0-1. Berikut adalah langkah-langkah untuk mendeteksi plagiat dengan menggunakan algoritma cosinus : Misal : teks sumber : Peneliti membuat program dengan bahasa java teks target : Peneliti melakukan coding dengan bahasa java Start End Kalimat Penghitungan kemiripan kata dengan cosinus Perhitungan term dengan TF IDF Case Folding Tokenizing Filtering Stemming Gambar 1. Alur Pengujian JURNAL ILMU KOMPUTER DAN DESAIN KOMUNIKASI VISUAL (JIKDISKOMVIS) Volume 2 No. 1 Desember 2017 ISSN: 2541-4585 Kalimat yang dimaksud di sini adalah karya tulis ilmiah maupun abstrak yang akan dideteksi plagiasinya. Namun,dalam perhitungan ini peneliti membahasi dengan menggunakan teks sumber dan teks target dengan kalimat yang telah disebutkan di atas. Tahap Case Folding Membuat semua teks menjadi seragam huruf kecil, dan hanya menerima huruf A-Z saja. Contoh : Peneliti membuat program dengan bahasa java menjadi Aupeneliti membuat program dengan bahasa javaAy. Tahap Tokenizing Memisahkan seluruh tiap-tiap teks penyusunan komponen dokumen. Contoh : Peneliti membuat program dengan bahasa java menjadi peneliti, membuat, program, dengan, bahasa, java. Filtering Memisahkan kata yang penting dari kata yang tidak penting dalam teks Maksudnya adalah memisahkan teks dari kata yang dinilai tidak layak menjadi pembeda atau menunjukkan isi dari teks. Contoh : Peneliti membuat program dengan bahasa java menjadi peneliti, membuat, program, bahasa, java. Stemming Stemming adalah proses mengubah kata yang sudah di filter menjadi bentuk kata dasarnya. Langkah ini dinilai sangat membantu mengemukakan deteksi Stem . kar kat. adalah bagian dari kata yang tersisa setelah dihilangkan imbuhanya . walan atau akhira. Contoh : peneliti, membuat, program, bahasa, java menjadi teliti, buat, program, java. Setelah melalui proses di atas,kalimat siap dianalisis lebih lanjut untuk mengetahui apakah kalimat ini mengandung kemiripan kata yang plagiat atau JURNAL ILMU KOMPUTER DAN DESAIN KOMUNIKASI VISUAL (JIKDISKOMVIS) Volume 2 No. 1 Desember 2017 ISSN: 2541-4585 HASIL DAN PEMBAHASAN Perhitungan TF IDF Perhitungan ini adalah salah satu cara yang digunakan untuk menghitung kata dalam satu atau semua dokumen. Dengan menggunakan rumus sebagai Keterangan: : term frequency : inverse document frequency : bobot kalimat terhadap kata Perhitungan Cosinus Similarity Perhitungan ini digunakan untuk menghitung kemiripan kata pada kalimat. Berikut rumus perhitungan Cosinus Similarity: Keterangan: Cos t1. : nilai kemiripan antarakalimat ke - 1 dan kalimat ke - 2 : jumlah kata dalam kalimat ke - 1 dan kalimat ke - 2 : total kata dalam kalimat ke - 1 dan kalimat ke - 2 Untuk menghitung kalimat yang memiliki kemiripan kata, maka perlu memiliki 2 kalimat yaitu kalimat ke - 1 dan kalimat ke - 2. Dengan ketentuan kalimat sebagai berikut: Kalimat ke - 1 : Peneliti membuat program dengan bahasa java Kalimat ke - 2 : Peneliti melakukan coding dengan bahasa java program dengan melakukan coding JURNAL ILMU KOMPUTER DAN DESAIN KOMUNIKASI VISUAL (JIKDISKOMVIS) Volume 2 No. 1 Desember 2017 ISSN: 2541-4585 Cos t1 x t2 = Cos t1 x t2 = Cos t1 x t2 = 0,666666667 Jadi 0,666666667yang artinya kalimat tersebut plagiat. Perhitungan cosinus telah disebutkan di atas untuk mengetahui kemiripan kata di tiap dokumen untuk mendeteksi plagiasi, namun sayangnya cosinus ini hanya mampu mendeteksi dari segi kemiripan kata. Wu palmer mampu mengukur derajat kemiripan makna semantik antar kata. Depth s1 merupakan kedalaman dari kata ke pertama dalam wordnet . eksikal databas. yang berisi banyak dataset atau disebut ontology, depht s2 juga Score yang dihasilkan dalam rentang nilai 0 sampai 1 . O score O . Wu palmer ini memiliki kinerja dengan proses perhitungan mencari jalur terpendek dari setiap concept, kemudian setiap jalur yang terbentuk digabungkan untuk mencari lcs-nya. Pencarian LCS (Lowest Common Subsume. dengan cara mencari sense yang sering dimuncul dari dua jalur yang dihubungkan (Akip Maulana, dkk, 2. Wu palmer akan mencari kata dengan makna semantic yang terkait baik dari segi sinonim, hipernim dan akronimnya. Validasi Range Nilai Perhitungan TF IDF yang dilanjutkan dengan perhitungan cosinus akan menghasilkan nilai kemiripan antar teks. Jika kedua dokumen bernilai 1 maka dokumen tersebut sama/plagiat (Paratisa Kharismadita dan Faisal Rahutomo. Peneliti mengadopsi sistem rule base yang terdapat fuzzy untuk mengklarifikasikan batasan nilai/range nilai mendeteksi plagiat atau tidak. Jika semakin ke angka 1 maka semakin plagiat dan sebaliknya, maka peneliti menyimpulkan setengah/separuh dari jarak 0 Ae 1 yang merupakan nilai yang dihasilkan oleh cosinus. Maka range nilai yang di dapat adalah : JURNAL ILMU KOMPUTER DAN DESAIN KOMUNIKASI VISUAL (JIKDISKOMVIS) Volume 2 No. 1 Desember 2017 ISSN: 2541-4585 Jika nilai 0 Ae 0,5 maka tidak plagiat Jika > 0,5 Ae 1 maka plagiat Sedangkan untuk algoritma wu palmer, perhitungan tidak akan selesai jika tidak ada dataset sebelumnya. Data set ini berfungsi sebagai word net atau leksikal database. Hal ini ibarat kamus thesaurus yang dapat manafsirkan makna semantik atau makna terkait. Pengujian Pengujian plagiarism checker menggunakan algoritma cosinus dilakukan menggunakan program sederhana berbasis java. Dengan menggunakan fasilitas library wordnet similarity for java (WS4J), makan akan lebih mudah mengimplementasikan algoritma cosinus dengan bahasa java. Seluruh proses mulai dari case folding hingga perhitungan cosinus dilakukan dengan program berikut ini : Gambar 2. Perhitungan Cosinus Hasil perhitungan cosinus dari kalimat AuPeneliti membuat program dengan bahasa javaAy dan AuPeneliti melakukan coding dengan bahasa javaAu adalah 0,8 yang berarti kedua kalimat tersebut terdeteksi plagiat berdasarkan kemiripan kata menggunakan algorita cosinus. JURNAL ILMU KOMPUTER DAN DESAIN KOMUNIKASI VISUAL (JIKDISKOMVIS) Volume 2 No. 1 Desember 2017 ISSN: 2541-4585 Untuk menguji penggunaan algoritma wu palmer dalam studi kasus mendeteksi plagiasi, peneliti menggunakan situs ws4jdemo. yang diperoleh adalah, wu palmer lebih mudah mendeteksi kata saja dalam word net nya bukan kalimat. Sehingga hasil yang diperoleh ketika menginputkan kalimat adalah tampilan Auinvalid inputAy. KESIMPULAN Dari hasil penelitian dapat disimpulkan bahwa : Cosinus bisa digunakan sebagai algoritma dalam mendeteksi plagiasi berdasarkan kemiripan kata. Jika hasil nilai perhitungan cosinus 0 - 0,5 maka tidak plagiat, jika > 0,5 1 maka plagiat Algoritma cosinus lebih efektif digunakan untuk mendeteksi plagiasi daripada algoritma wu palmer. SARAN Peneliti menyadari bahwa dalam penyusunan makalah ini banyak sekali keterbatasan,sehingga makalah ini jauh dari sempurna. Keterbatasan waktu dan yang lainnya menjadi penyebabnya, oleh karena itu peneliti menyarankan hal berikut untuk penelitian selanjutnya : Pengembangan sistem plagiarism checker yang berbasis web dengan algoritma cosinus yang dikombinasikan dengan algoritma lainnya. Penggunaan wu palmer untuk mencari keyword dalam open jurnal system. UCAPAN TERIMA KASIH Penulis mengucapkan terima kasih kepada Program Studi Sistem Informasi. Fakultas Sains dan Teknologi. UIN Sunan Ampel Surabaya selaku instansi tempat penulis berasal. DAFTAR PUSTAKA