Volume 1. Nomor 2, 2015 ISSN : 2442 - 4512 Pembangunan Sistem Manajemen Pengetahuan Menggunakan Pendekatan Clustering untuk Ekstraksi Pengetahuan Yoseph Pius Kurniawan Kelen Universitas Timor. NTT Abstract The importance of knowledge management in any organization encourages the development of a knowledge management system with features that can facilitate knowledge management processes such as storing, organizing, filtering, searching, and most important is the transfer of knowledge. The purpose of this research is to develop a knowledge management system with a clustering approach for knowledge extraction by using a knowledge of publication writing. This study uses clustering k-means method which is used for cluster knowledge feature where at the same time can help the process of organizing, filtering, browsing and searching knowledge. The results of this research showed that the clustering k-means can be used for knowledge management system with the best value of purity = 0,8454 which is found by using k = 20. Clustering approach in the system again can help the process for knowledge searching based on knowledge cluster. This can be proved by carried out 15 times experiments which result in average level of accuracy . 13% and the average rate of completeness . 73 %. Keywords : Knowledge Management System. Extraction. K-means Clustering Pendahuluan Suatu pengetahuan di dalam organisasi yang termasuk dalam aset tak berwujud . , apabila dikelola dan dimanfaatkan dengan baik maka organisasi tersebut dapat mempunyai sumber pengetahuan untuk daya saing bagi organisasi itu sendiri. Namun, pengetahuan tersebut sering hanya dimiliki oleh satu orang. Hal inilah yang menyebabkan sering adanya ketergantungan pengetahuan dari setiap individu apabila tidak adanya suatu referensi atau pengetahuan yang memadai (Kurniawan, 2. Oleh karena itu, suatu pengetahuan hendaknya perlu didokumentasikan dan tersedia, agar tidak adanya ketergantungan pada individu yang lain apabila individu tersebut sudah tidak berada pada organisasi. Salah satu sistem untuk mendukung pengelolaan pengetahuan dari suatu organisasi adalah Sistem Manajemen Pengetahuan (SMP). Proses yang dilakukan dalam pengelolaan pengetahuan terdiri dari penciptaan, penyimpanan, penelusuran, pemindahan, dan penerapan (Butler et all. , 2. Adapun peran Sistem Informasi untuk SMP ini adalah untuk proses penyimpanan, penelusuran dan pemindahan. Hasil dari SMP dapat menjawab pertanyaan AoapaAo dan AobagaimanaAo (Boahene et , 2. yang dapat mendukung proses pembelajaran dan meningkatkan efektivitas organisasi (Maier, 2. Publikasi pada universitas merupakan suatu hasil yang dapat membantu universitas mendapatkan keunggulan Perkembangan gagasan dari para pakar . engetahuan taci. yang berhubungan dengan penulisan publikasi harusnya dapat dikonversikan ke bentuk eksplisit, terdokumentasi dan dikelola bersama pengetahuan eksplisit yang berbentuk dokumen/arsip. Pengetahuan tersebut juga sebaiknya tersebar secara merata agar dapat menjadi bahan diskusi untuk C mendapatkan standar prosedur dan strategi dalam penulisan publikasi ilmiah universitas. Pengetahuan yang terdokumentasi akan terus berkembang dan jumlahnya akan semakin bertambah. Oleh sebab itu, proses penelusuran pengetahuan diperlukan untuk membantu menelusuri setiap pengetahuan yang dibutuhkan. Pada penelitian ini, dibangun suatu SMP yang didasari dengan penggunaan data mining untuk ekstraksi Salah satu metode data mining yang digunakan adalah clustering. Pemilihan clustering digunakan untuk proses ekstraksi pengetahuan dan sekaligus sebagai metode yang dipilih karena dapat mendukung fitur dari SMP seperti knowledge cluster. Hasil dari prototipe SMP ini adalah sistem yang dapat mendukung proses pengelolaan pengetahuan seperti penyimpanan, penelusuran, penyebaran untuk mendukung pengambilan keputusan, dan hasil cluster pengetahuan dapat mendukung pemberi keputusan dalam hal menentukan pakar untuk setiap cluster yang dihasilkan SMP atau mendukung aktifitas lain yang dapat membantu proses perkembangan universitas dalam penulisan Kerangka Teori Sistem Manajemen Pengetahuan Pengetahuan terdiri dari pengharapan bersifat kognitif, yang merupakan pengamatan yang mempunyai makna, telah teroganisir, terakumulasi dan tertanam dalam konteks yang diperoleh melalui kesimpulan dari pengalaman dan (Maier. Sistem pengetahuan (SMP) berperan untuk menggabungkan dan mengintegrasikan fungsi untuk penanganan kontekstual dari pengetahuan eksplisit dan pengetahuan tacit pada seluruh atau bagian dari organisasi yang ditargetkan untuk yosepkelen@gmail. Jurnal Ilmu Komputer | FIKOM UNASMAN Volume 1. Nomor 2, 2015 dilakukan pengelolaan pengetahuan (Maier, 2. Tujuan utama SMP untuk mendukung dinamika organisasi pembelajaran dan efektivitas organisasi (Maier, 2. Terdapat empat proses inti yang harus tersirat dalam Sistem Manajemen Pengetahuan, yang terdiri dari (Babu et , 2. Capturing (Menangka. Fase memperoleh data pengetahuan yang berasal dari email, file audio, file text, file digital dan sejenisnya. Organizining (Mengatu. Data atau informasi yang diperoleh dapat diambil dan digunakan untuk menghasilkan pengetahuan yang Untuk melakukan proses organisasi ini dapat menggunakan pengindeksan. Information Retrieval dan metode lainnya. Refining (Menyempurnaka. Pada fase ini, data mining bisa diimplementasikan. Trasferring (Mentransfe. Pengetahuan harus disebarkan dan ditransfer dengan menjadikan pengetahuan dapat tersedia untuk pengguna. Peran Data Mining dalam Sistem Manajemen Pengetahuan Data mining bertujuan untuk memenuhi kebutuhan keluaran SMP untuk pengguna. Kebutuhan informasi dinyatakan dalam konteks data mining memiliki tingkat yang lebih tinggi mengandung ketidakjelasan dan ketidaklengkapan dari suatu informasi maka perlu diungkapkan dalam konteks information retrieval (Baets. Analisis Prapemrosesan Tahapan prapemrosesan untuk membantu proses penelusuran dalam membangun SMP ini terdiri dari proses tokenization, stopword removal, dan document indexing . erm weightin. Tokenization Tokenization digunakan untuk memecah setiap kalimat dari seluruh dokumen pengetahuan ke dalam kata Ae kata . dengan menggunakan pembatas tab dan karakter spasi (Darawaty et all. , 2. Stopword Removal Stopword removal bertugas dalam penghapusan stopword yang merupakan langkah penting dalam Stopword merupakan kata Ae kata spesifik atau fungsional yang biasanya tidak berisi suatu informasi atau yang tidak diperlukan dalam suatu penelusuran . iasanya adalah kata ganti, kata depan, konjungs. (Srividhya et all. , 2. Term Weighting Tiga komponen utama yang mempengaruhi pentingnya term dalam dokumen adalah term frequency (TF). Inverse Document Frequency (IDF) dan normalisasi panjang TF dan IDF adalah bobot yang tergantung dalam distribusi setiap kata dalam dokumen. Hal tersebut menerangkan pentingnya suatu kata dalam dokumen. TF. IDF adalah suatu teknik yang menggunakan TF dan IDF untuk menentukan bobot dari istilah pada dokumen. Hasil dari TF. IDF adalah vektor dengan berbagai istilah Jurnal Ilmu Komputer | FIKOM UNASMAN ISSN : 2442 - 4512 bersama dengan pembobotan dari istilah tersebut (Srividhya et all. , 2. Adapun persamaan TF. IDF adalah sebagai berikut (Srividhya et all. , 2. ycyco,ycn = ycyceycyceycyco,ycn y ycoycuyci2 ( ycA dimana, wm,i = Bobot term m terhadap dokumen i = Term m = Dokumen i tfreqm,i = Frekuensi kemunculan suatu term m di dalam suatu dokumen i dibandingkan dengan frekuensi term m yang sering muncul pada dokumen. = Jumlah seluruh dokumen. = Jumlah dokumen i yang mengandung Algoritma Clustering K-Means K-Means dianggap sebagai algoritma yang efektif untuk mengelompokkan suatu data (Larose, 2. Tahapan algoritmanya adalah sebagai berikut (Larose, 2. Tahapan algoritma adalah sebagai berikut: Menginisialisasi nilai k sebagai jumlah cluster. Jumlah k disesuaikan dengan kebutuhan. Menentukan secara acak bobot pada dokumen yang akan menjadi pusat cluster sebanyak jumlah k yang sesuai dengan tahap 1. Menentukan jarak antara bobot setiap term pada masing - masing dokumen yang bukan pusat cluster dengan bobot setiap term pada masing - masing dokumen pusat cluster menggunakan jarak Euclidean . yccycn = ocN i=1. m,i Oe ym,i ) . dimana, dm = jarak dari setiap dokumen, i = setiap dokumen. N = jumlah dokumen, xi = bobot pada dokumen terhadap yang termasuk pusat cluster yi = bobot pada dokumen terhadap yang bukan pusat cluster Setelah mendapatkan jarak antar bobot dokumen dengan pusat cluster, maka tentukan jarak yang bernilai minimum untuk menjadi anggota cluster. Menentukan pusat cluster . baru yca ycayceycuycycycuycnycc ycycaycoycyce = Oc ycn yca dimana, ai = jumlah bobot m terhadap setiap i yang terpilih menjadi anggota cluster c, c = jumlah anggota cluster pada setiap c yang terbentuk. Mengulangi tahap 3- 5 sampai nilai centroid atau anggota cluster sudah tidak berubah Validasi Proses Clustering Validasi Clustering diperlukan untuk menghindari adanya pola pada noise, membandingkan algoritma cluster, dan membandingkan dua set cluster atau lebih (Kumar et all. , 2. Salah satu metode yang digunakan Volume 1. Nomor 2, 2015 ISSN : 2442 - 4512 dalam validasi ini adalah purity (Manning et all. , 2. Purity adalah salah satu metode pengukuran validasi clustering untuk mengukur kemurnian dari setiap atau keseluruhan cluster dengan dihubungkan dengan label kelas yang telah diberikan (Xiong et all. , 2. Semakin besar nilai dari purity maka semakin baik solusi clustering yang dihasilkan (Xiong et all. , 2. Adapun persamaan dari purity adalah sebagai berikut (Wibisono, 2. ycEycycycnycyc. u, y. = Ocyco ycoycaycuyc . uiyco O yayc | . ycA Nilai = {O1. O2. Ok } adalah kumpulan anggota dari setiap cluster. Nilai N = Jumlah Objek data yang dicluster. Nilai K = {K1. K2. A Kj,} adalah kumpulan anggota dari setiap cluster yang ideal. Penelitian ini bertujuan untuk menghasilkan suatu SMP dimana terdapat pendekatan clustering sebagai metode data mining untuk ekstraksi pengetahuan yang sekaligus menyempurnakan proses keluaran SMP. Adapun target pengetahuan dalam penelitian ini menggunakan 110 dokumen pengetahuan penulisan publikasi berbahasa Indonesia diperoleh dari masukan langsung melalui SMP yang berasal dari hasil wawancara, pedoman penulisan Metodologi KMS menggunakan KM-IRIS (Chalmeta dan Grangel. Identifikasi Metodologi Ekstraksi Target pengetahuan pada pembangunan SMP ini berfokus pengetahuan yang terdiri dari strategi, kebijakan tentang publikasi, keahlian, pengalaman, knowledge knowhow, prosedur dan arsip tentang penulisan publikasi Pada bagian ekstraksi dilakukan pendekatan clustering k-means. Pada bagian ini hal pertama yang dilakukan adalah menentukan variabel input kemudian dilakukan prapemrosesan terkait proses tokenization, stopword removal dan term weighting menggunakan TF-IDF. Hal tersebut dilakukan untuk mendapatkan bobot dari setiap term pada setiap dokumen pengetahuan. Dari prapemrosesan dilanjutkan dengan melakukan uji skenario dimana dilakukannya proses clustering k-means dengan skenario pertama menggunakan jumlah cluster . hasil dari persamaan Rule of thumb . (Mardia et all. , 1. dan skenario selanjutnya menggunakan persamaan menemukan nilai k pada basis data teks . (Can dan Ozkarahan, 1. yco OO OoycuAE2 Nilai n adalah jumlah objek yang dicluster. Nilai k adalah jumlah cluster. Dalam menentukan nilai k diperlukan jumlah objek/dokumen . , jumlah term . , dan jumlah record . yang berisi nilai lebih dari 0 dari matriks jumlah dokumen y jumlah term. Hasil dari proses clustering tersebut divalidasi dengan melihat purity dari masing Ae masing hasil. Hasil yang menghasilkan purity terbaik yang akan digunakan SMP khususnya untuk proses retrieval pada penelusuran Gambar 1 menerangkan ilustrasi kerangka penelitian yang mengacu pada proses pembangunan SMP menggunakan metodologi KM-IRIS. Hasil dan Pembahasan Studi literatur Analisis dan identifikasi target pengetahuan Wawancara Mengekstraksi pengetahuan untuk menentukan variabel input dan pemodelan prosedur pre-processing . okenization, stemming/ stopword removal (Darawaty dkk, 2. , term-weighted TF-IDF) Pemetaan . Representasi Knowledge Management Operator (Cheng dkk. , 2. dan perancangan SMP Prosesing Implementasi SMP (Pengkodea. Purity terbaik Pemanfaatan Penunjang penggunaan dan pemeliharaan KMS, seperti training penggunaan KMS Menentukan lokasi pusat Analisis dan Validasi hasil Menentukan jarak terdekat (Euclidean Distanc. Menentukan pusat cluster Cluster Pengetahuan Gambar 1. Kerangka Penelitian buku, jurnal dan sumber lain dari artikel Ae artikel di Internet yang terkait dengan penulisan publikasi. Dokumen pengetahuan yang telah diperoleh dilakukan Prapemrosesan mendapatkan bobot dari setiap term pada setiap dokumen. Jumlah term yang dihasilkan dari prapemrosesan setelah dilakukan tokenization, stopword removal dan TF-IDF adalah sebanyak 153 term serta banyaknya bobot dari setiap term pada setiap dokumen yang nilainya lebih besar dari 0 adalah sebanyak 853. Setelah dilakukan prapemrosesan maka dilakukan clustering k-means. Tahapan pertama algoritma k-means adalah menentukan nilai k. Untuk melakukan tahapan ini dilakukan dua kali percobaan. Percobaan pertama menggunakan persamaan rule of thumb . yco OO OoycuAE2 OO Oo110AE2 OO 7 Dari percobaan pertama diperoleh nilai k = 7. Kemudian menentukan nilai k menggunakan percobaan kedua dengan persamaan menemukan nilai k pada basis data teks . dan diperoleh nilai k = 20. Jurnal Ilmu Komputer | FIKOM UNASMAN Inisialisasi k Uji Coba Clustering kmeans dengan beberapa skenario OO 20 Volume 1. Nomor 2, 2015 ISSN : 2442 - 4512 Setelah memperoleh nilai k maka dilanjutkan dengan semua tahapan kmeans sampai anggota dari setiap hasil cluster sudah tidak berubah untuk masing Ae masing Untuk menentukan hasil cluster digunakan dalam pembangunan SMP dilakukan dengan cara menghitung masing Ae masing purity dari setiap hasil cluster yang diperoleh. Perbandingan hasil purity pada setiap percobaan terlihat pada Tabel 1. Tabel 1 Perbandingan Purity dari Setiap Percobaan Percobaan Nilai k Purity 0,7909 0,8454 Persentase Presisi Berdasarkan Tabel 1, terlihat bahwa yang mempunyai purity terbesar atau semakin mendekati angka 1 adalah percobaan kedua dengan k = 20 dan nilai puritynya 0,8454. Berdasarkan hal tersebut, maka hasil percobaan kedua yang akan diekstrak sebagai acuan pada penentuan kata kunci dan keluaran dari proses retrieval pada proses penelusuran SMP. Setelah SMP dibangun dilakukan beberapa pengujian untuk validasi hasil pendekatan clustering pada proses retrieval untuk penelusuran pengetahuan. Pengujian dilakukan sebanyak 15 kali dengan memilih kata kunci untuk penelusuran pengetahuan. Grafik Validasi pengukuran presisi dan recall pada proses penelusuran pengetahuan setelah SMP dibangun terlihat pada Gambar 2 dan Gambar 3. 1 2 3 4 5 6 7 8 9 101112131415 Pengujian Persentase Recall Gambar 2. Grafik Tingkatan Persentase Presisi pada Proses Penelusuran SMP 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Pengujian Gambar 3. Grafik Tingkatan Persentase Recall pada Proses Penelusuran SMP Kesimpulan Berdasarkan penelitian yang dilakukan, maka dapat diambil kesimpulan bahwa pendekatan clustering dapat pembangunan SMP. Clustering juga dapat digunakan Jurnal Ilmu Komputer | FIKOM UNASMAN untuk mendukung salah satu fitur utama SMP yaitu knowledge cluster dan dapat menyempurnakan keluaran dari SMP. Pendekatan clustering secara khusus dapat membantu dalam penelusuran pengetahuan dengan kata kunci berbentuk cluster pengetahuan yang dibuktikan dengan pengukuran rata Ae rata nilai presisi dan recall di atas 80%. Ucapan Terima Kasih Terima kasih diucapkan pada Ketua LEMLIT UNDANA yang bersedia di wawancarai untuk keperluan data pengetahuan dalam penelitian ini. Daftar Pustaka