JIRE (Jurnal Informatika & Rekayasa Elektronik.
http://e-journal.
id/index.
php/jire ISSN.
2620-6900 (Onlin.
2620-6897 (Ceta.
Volume 3.
No 1.
April 2020 JIRE (Jurnal Informatika & Rekayasa Elektronik.
http://e-journal.
id/index.
php/jire Volume 3.
No 1.
April 2020
DEWAN REDAKSI
Jurnal Manager Wire Bagye.
Kom.
,M.
Kom (STMIK Lombok.
SINTA ID : 5992.
Reviewer :
Resad Setyadi.
,S.
,S.
Si.
,MMSI.
,Ph,D .
- Institut Teknologi Telkom Purwokerto
SCOPUS ID : 57204172534 SINTA ID : 6113570
Yesaya Tommy Paulus.
Kom.
MT.
Ph.
- STMIK Dipanegara Makassar
SCOPUS ID : 57202829909 SINTA ID : 6002004
Dr.
Cucut Susanto.
Kom.
MSi.
- STMIK Dipanegara Makassar
SINTA ID : 6138863
Muhamad Malik Mutoffar.
ST.
MM.
CNSS- Sekolah Tinggi Teknologi Bandung
SINTA ID : 6013819
David.
Cs.
,M.
Kom - STMIK Pontianak
SCOPUS ID : 57200208543 SINTA ID : 5977352
Indo Intan.
STMIK - Dipanegara Makassar
SCOPUS ID : 57200209088 SINTA ID : 6127241
I Wayan Agus Arimbawa.
ST.
,M.
Eng.
- Universitas Mataram
SINTA ID : 5973017
Muhammad FauziZulkarnaen.
ST.
,M.
Eng.
- STMIK Lombok
SINTA ID : 6663733
Yunanri.
Kom - UniversitasTeknologi Sumbawa (U.
SINTA ID : 6723103
Sitti Aisa.
Kom.
,M.
T - STMIK Dipanegara Makassar
SINTA ID : 6153893
Sanjaya Pinem.
Kom.
Sc .
- Universitas Efarina
SINTA ID : 6689679
Zamah Sari.
- Universitas Muhammadiyah Prof Dr Hamka
SINTA ID : 6145745
Fredy Windana.
Kom.
MT - Sekolah Tinggi Teknologi Stikma Internasional SINTA ID : 5974460 Hijrah Saputra.
ST.
Sc.
- STMIK Lombok
SINTA ID : 6667974
Hairul Fahmi.
Kom.
- STMIK Lombok
SINTA ID : 5983160
Sofiansyah Fadli.
Kom.
,M.
Kom.
- STMIK Lombok
SINTA ID : 6073057
Editor :
Wire Bagye.
Kom.
,M.
Kom- STMIK Lombok.
SINTA ID : 5992010 Saikin.
Kom.
,M.
Kom.
- STMIK Lombok Halena Muna Bekata.
Pd.
- Universitas Tribuana Kalabahi.
SINTA ID : 6168815 Desain Grafis& Web Maintenance Jihadul Akbar,S.
Kom.
- STMIK Lombok Secretariat Ahmad Susan Pardiansyah.
Kom - STMIK Lombok ISSN.
2620-6900 (Onlin.
2620-6897 (Ceta.
JIRE (Jurnal Informatika & Rekayasa Elektronik.
http://e-journal.
id/index.
php/jire Volume 3.
No 1.
April 2020
DAFTAR ISI
KLASIFIKASI ARITMIA DENGAN HEART RATE VARIABILITY ANALISIS
MENGGUNAKAN METODE BACKPROPAGATION
IMPLEMENTASI METODE MRP (MATERIAL REQUIREMENT PLANNING)
UNTUK MENCAPAI TARGET PRODUKSI PAKAIAN BERBASIS WEB (STUDI
KASUS: UD.
DARMAWAN DESA SELAGEK)
Wayan Rimba Bazudewa1.
I Putu Satwika2.
I Gede Putu Krisna Juliharta3 Mohammad Taufan Asri Zaen1.
Siti Fatmah2.
Khairul Imtihan3
DETEKSI KUALITAS BERAS MENGGUNAKAN SEGMENTASI CITRA
BERDASARKAN PECAHAN BULIR DAN SEBARAN WARNA
Eko Supriyadi1.
Achmad Basuki2 .
Riyanto Sigit3
PERMODELAN VISUAL TINGKAT KETAKUTAN PADA SIMULASI EVAKUASI
KEBAKARAN 3D MENGGUNAKAN SELF ASSASSEMENT MANIKIN
SISTEM KEAMANAN PEMANTAUAN CCTV ONLINE BERBASIS ANDROID
PADA RUMAH CANTIK SYIFA MASBAGIK
KOMPARASI ALGORITMA MACHINE LEARNING DAN DEEP LEARNING
UNTUK NAMED ENTITY RECOGNITION : STUDI KASUS DATA
KEBENCANAAN
Iqbal Sabilirrasyad1.
Achmad Basuki2.
Tri Harsono3 Ahmad Tantoni1.
Mohammad Taufan Asri Zaen2 Nuli Giarsyani1.
Ahmad Fathan Hidayatullah2.
Ridho Rahmadi 3
SISTEM PENDUKUNG KEPUTUSAN PENENTUAN RESIKO KEMUNGKINAN
TERJADI REAKSI DARAH
MONITORING PENGATUR KECEPATAN KIPAS ANGIN MENGGUNAKAN
SISTEM FUZZY BERBASIS WEB DI SMP BAKTI KELUARGA LUBUKLINGGAU
Abd.
Halim1.
Sri Kusumadewi2.
Linda Rosita3 Novi Lestari2.
Nelly Khairani Daulay1.
Armanto3
IMPLEMENTASI JARINGAN INTER-VLAN ROUTING BERBASIS MIKROTIK
RB260GS DAN MIKROTIK RB1100AHX4
Ahmad Tantoni1.
Khairul Imtihan2.
Wire Bagye3
PERANCANGAN APLIKASI CETAK DOKUMEN ONLINE BERBASIS ANDROID
DI BINER JOMBANG
Fauzan Adhim1.
Ali Murtadho2.
Chandra Sukma A3 ISSN.
2620-6900 (Onlin.
2620-6897 (Ceta.
JIRE (Jurnal Informatika & Rekayasa Elektronik.
http://e-journal.
id/index.
php/jire Volume 3.
No 1.
April 2020
KOMPARASI ALGORITMA MACHINE LEARNING DAN DEEP LEARNING
UNTUK NAMED ENTITY RECOGNITION : STUDI KASUS DATA
KEBENCANAAN
Nuli Giarsyani1.
Ahmad Fathan Hidayatullah2.
Ridho Rahmadi 3 123,Program Studi Informatika Program Magister.
Universitas Islam Indonesia Jln.
Kaliurang Km 14,5Yogyakarta55584 giarsyani@students.
id, 2 fathan@uii.
id, 3ridho.
rahmadi@uii.
Abstract This study aims to classify entity on tweet and analysis the results of two approaches.
Machine Learning and Deep Learning.
The named entity type included disaster name, location, time, magnitude and others.
Deep Learning algoritm used are Long Short-Term Memory.
Gated Recurrent Units, and Convolutional Neural Network.
Machine Learning algoritm used are Nayve Bayes.
Decision Tree.
Support Vector Machine and Random Forest.
Based on the results of experiments.
Deep Learning obtains accuracy that is superior to Machine Learning.
It can be seen from the acquisition of the best Deep Learning accuracy value generated from the Gated Recurrent Units and Long Short-Term Memory with a value of 0.
While the best Machine Learning accuracy generated from the Random Forest with a value of 0.
Keywords : named entity recognition, disaster, machine learning, deep learning Abstrak Penelitian ini bertujuan untuk melakukan Named Entity Recognition guna mengidentifikasi dan mengklasifikasi kata pada tweet yang memuat informasi bencana ke dalam entitas-entitas yang telah Entitas yang diidentifikasi yaitu jenis bencana, lokasi, waktu, magnitude dan others.
Adapun algoritma klasifikasi yang digunakan adalah Machine Learning dan Deep Learning.
Algoritma Deep Learning yang digunakan yaitu Long Short-Term Memory.
Gated Recurrent Units, dan Convolutional Neural Network.
Sedangkan algoritma Machine Learning yang digunakan yaitu Nayve Bayes.
Decision Tree.
Support Vector Machine dan Random Forest.
Berdasarkan hasil eksperimen.
Deep Learning memperoleh akurasi yang lebih unggul dari Machine Learning.
Hal tersebut dilihat dari perolehan nilai accuracy terbaik Deep Learning dihasilkan dari algoritma Gated Recurrent Units dan Long Short-Term Memory dengan Sedangkan perolehan accuracy terbaik Machine Learning dihasilkan dari algoritma Random Forest sebesar 0.
Kata kunci : named entity recognition, disaster, machine learning, deep learning PENDAHULUAN Saat ini, media sosial telah menjadi bagian penting dari kehidupan seseorang.
Berbagai kalangan, usia, dan hampir semua lapisan masyarakat Indonesia telah memiliki dan menggunakan media sosial sebagai salah satu sarana guna memperoleh dan menyampaikan informasi kepada publik .
Pada prakteknya, media sosial sering mengambil peran media tradisional dalam melaporkan peristiwa atau kejadian terkini .
, seperti bencana alam, di ISSN.
2620-6900 (Onlin.
2620-6897 (Ceta.
mana laporan atau informasi yang hadir bisa lebih cepat dan berasal langsung dari lokasi bencana .
Oleh sebab itu, media sosial banyak dimanfaatkan oleh organisasi atau lembaga yang bergerak pada bidang penanggulangan bencana untuk memberikan informasi terkait bencana.
Salah satu media sosial yang dimanfaatkan dalam melaporkan informasi bencana alam adalah Twitter.
Dalam beberapa tahun terakhir.
Twitter telah menjadi saluran utama untuk komunikasi selama bencana alam .
Hal tersebut dikarenakan Twitter merupakan salah satu JIRE (Jurnal Informatika & Rekayasa Elektronik.
http://e-journal.
id/index.
php/jire media jejaring sosial dengan pengguna terbanyak diantara beberapa situs jejaring sosial yang ada .
Data menunjukkan bahwa Twitter memiliki sekitar 288 juta pengguna aktif, memposting lebih dari 500 juta tweet per hari, dan memiliki jaringan yang paling cepat berkembang .
Sedangkan untuk di negara Indonesia sendiri jumlah pengguna Twitter menempati peringkat ke 5 terbesar di dunia.
Indonesia merupakan negara yang rawan akan bencana.
Beberapa bencana alam yang sering terjadi di Indonesia mulai dari gempa, tsunami, banjir, tanah longsor, gunung meletus dan masih banyak lagi yang lainnya.
Adanya kejadian ini mendorong pengguna Twitter atau lembaga penanggulangan kebencanaan untuk mengunggah informasi tentang kondisi bencana dari tempat terjadinya bencana.
Namun tidak semua tweet yang diunggah tersebut memuat Untuk memanfaatkan informasi tersebut seperti mendapatkan informasi jenis bencana, lokasi bencana, dan waktu kejadian, maka seseorang harus membaca secara keseluruhan isi tweet Apabila jumlahnya banyak, maka seseorang akan membutuhkan waktu yang cukup lama untuk mendapatkan informasi bencana pada tweet tersebut.
Oleh sebab itu, dibutuhkan named entity recognition (NER) yang dapat digunakan untuk mendapatkan informasi penting secara otomatis dari tweet-tweet tersebut dalam waktu yang relatif singkat.
Named entity recognition adalah proses yang mengekstraksi entitas bernama yang dianggap penting di dalam sebuah teks dan menentukan kategorinya ke dalam kategori yang telah terdefinisi .
Pada penelitian ini, entitas yang akan diidentifikasi yaitu jenis bencana, lokasi bencana, waktu kejadian, magnitude dan others.
NER pada tweet informasi bencana biasanya mengidentifikasi bencana, dan memantau keadaan ketika terjadi bencana.
Penelitian ini bertujuan untuk melakukan named entity recognition guna mengidentifikasi dan mengklasifikasikan kata pada tweet yang memuat informasi bencana ke dalam entitasentitas yang telah ditentukan.
Selain itu, penelitian ini juga akan memberikan kontribusi terhadap NER pada domain kebencanaan dalam bahasa Indonesia, karena NER pada domain tersebut masih sangat terbatas.
NER pada domain kebencanaan ini merupakan langkah awal untuk topik penelitian terkait information extraction, question answering system, dan sistem monitoring Pendekatan yang digunakan dalam penelitian ini adalah machine learning dan deep learning.
Algoritma machine learning yang digunakan pada penelitian adalah naive bayes, support vector machines, decision tree, danrandom forest.
ISSN.
2620-6900 (Onlin.
2620-6897 (Ceta.
Volume 3.
No 1.
April 2020 Sedangkan algoritma deep learning yang digunakan adalah long short-term memory (LSTM), convolutional neural network (CNN), dangated recurrent units (GRU).
Pendekatan dengan berbagai macam metode ini bertujuan komprehensif terhadap performa masing-masing metode yang harapannya dapat dijadikan landasan saintifik bagi kasus-kasus yang serupa.
Penulisan makalah ini terdiri dari lima Bagian pertama merupakan pendahuluan yang memuat latar belakang dari penelitian Bagian kedua membahas tentang penelitian terdahulu yang mendukung penelitian ini.
Bagian Bagian keempat membahas hasil eksperimen yang diperoleh.
Bagian kelima adalah bagian terakhir yang membahas kesimpulan dari TINJAUN PUSTAKA DAN TEORI Penelitian recognition pada domain kebencanaan telah dilakukan oleh beberapa peneliti sebelumnya.
Dermawan .
yang membangun model untuk mengklasifikasi apakah suatu tweet termasuk kategori bencana atau tidak.
Apabila tweet tersebut masuk dalam kategori bencana, maka akan dilakukan pengenalan entitas seperti lokasi, kondisi, dan kebutuhan masyarakat.
Algoritma yang digunakan adalah Support Vector Machine (SVM).
Metode pembobotan yang digunakan pada penelitian ini untuk klasifikasi tweet ada dua yaitu tf dan tf-idf.
Hasil yang diperoleh berupa tfidf lebih unggul dari tf dengan rata-rata akurasi Menurut Ashktorab dalampenelitiannya membuat sebuah tool yang bernama Twitter for Disaster Response (Tweed.
Tool ini digunakan untuk memberikan informasi yang relevan selama terjadi bencana kepada petugas penanggulangan bencana.
Data bencana yang digunakan bersumber dari Twitter.
Tujuan dari penelitian ini adalah untuk Penelitian ini terdiri dari tiga bagian utama yaitu klasifikasi, ekstraksi dan klastering.
Tahap mengidentifikasi tweet yang melaporkan kerusakan atau korban menggunakan metode Knearestneighbors, decisiontrees, naivebayes dan Selanjutnya pada tahap klastering dilakukan filter untuk menggabungkan tweet yang mirip.
Pada tahap terakhir yaitu ekstraksi menggunakan conditional random fields (CRF), bagian ini mengekstrak token dan frasa yang memberikan laporan informasi spesifik tentang berbagai kerusakan infrastruktur, tipe kerusakan, dan korban jiwa.
JIRE (Jurnal Informatika & Rekayasa Elektronik.
http://e-journal.
id/index.
php/jire Penelitian Dela Cruz et al.
mengusulkan sebuah model NER guna membuat model NER yang dapat digunakan untuk mengenali entitas terkait bencana.
Data dalam penelitian ini bersumber dari situs berita Pilipino Star NGAYON.
Data dibagi menjadi data training dan data testing.
Data training berjumlah 171 artikel berita tahun 2014 dan data testing berjumlah 74 artikel berita tahun 2015.
Entitas yang dikenali adalah jenis bencana, waktu terjadi bencana dan lokasi bencana.
Penelitian ini menggunakan deep learning dengan pendekatan long short-term memory (LSTM) dan conditional random fields (CRF).
Nilai akurasi yang diperoleh dari model ini 55 dan F-measure sebesar 66.
Berdasarkan beberapa penelitian di atas, belum ada penelitian yang secara spesifik berbahasa Indonesia pada Twitter dan belum ada yang melakukan analisa terhadap dua metode yaitu Machine Learning dan Deep Learning.
Oleh karena itu, penelitian ini bertujuan untuk berbahasa Indonesia pada Twitter dan membandingkan akurasi dari kedua metode Penelitian memberikan kontribusi terhadap NER pada domain kebencanaan dalam bahasa Indonesia, karena NER pada domain tersebut masih sangat Machine Learning Machine learning adalah salah satu cabang dari Artificial Intellgence (AI) yang mengadopsi prinsip dari ilmu komputer dan statistik untuk membuat model yang merefleksikan pola-pola data .
Model tersebut dilatih dengan pendekatan Machine Learning sehingga bisa melakukan klasifikasi terhadap entitas bencana.
Algoritma machine learning yang digunakan adalah sebagai berikut :
Nayve Bayes Nayve Bayes merupakan algoritma yang ditemukan oleh seorang ilmuwan asal Inggirs yang bernama Thomas Bayes.
Algoritma ini digunakan untuk melakukan klasifikasi dengan menggunakan metode probabilitas dan statistik .
Nayve Bayes metode klasifikasi yang berakar pada teorema Bayes .
Nayve Bayes memiliki asumsi bahwa ada atau tidaknya fitur tertentu dari sebuah kelas tidak ada kaitannya dengan fitur yang ada pada kelas lainnya.
Persamaan Teorema Bayes adalah sebagai berikut:
ISSN.
2620-6900 (Onlin.
2620-6897 (Ceta.
Volume 3.
No 1.
April 2020 Keterangan :
= Bukti.
= Hipotesis.
P(H|X) = Probabilitas bahwa hipotesis H benar untuk bukti X atau probabilitas posterior H dengan syarat X.
P(X|H) = Probabilitas bahwa bukti X benar untuk hipotesis H atau probabilitas posterior X dengan syarat H.
P(H)
= Probabilitas prior hipotesis H.
P(X)
= Probabilitas prior bukti X.
Decision Tree Decision Tree merupakan metode klasfikasi diagram alir yang memiliki bentuk seperti struktur pohon dimana setiap internalnodedapat menyatakan pengujian terhadap suatu atribut, setiap cabang menyatakan output dari pegujian tersebut dan leaf node menyatakan distribusi kelas .
Decision Tree terdiri dari tiga bagian sebagai berikut :
Root Nodemerupakannode yang berada paling atas dari sebuah pohon.
Internal Node adalah node percabangan, node ini memiliki satu input dan minimal dua output.
Leaf Node adalah node akhir yang memiliki satu input dan tidak memiliki output.
Pada decision tree, setiap leaf node digunakan untuk menandai label kelas.
Algoritma Decision Tree yang akan digunakan dalam penelitian ini adalah Algoritma C4.
Algoritma ini merupakan pengembangan dari algoritma ID3.
Menurut .
algoritma C4.
pengembangan dari algoritma ID3 sehingga bisamenghasilkan sebuah sistem yang dapat berpengaruh untuk decision tree.
Perbaikan yang dilakukan pada algoritma C4.
5 terdiri dari beberapa metode yang digunakan menangani numeric attributes, missing values, noisy data, dan aturan yang menghasilkan rules dari trees.
Support Vector Machine Support Vector Machines (SVM) adalah kelas populer dari algoritma supervised dari machine learning.
SVM berupaya menemukan hyperplane pemisah antara dua kelas data berlabel (Stamp, 2.
SVM biasanya digunakan untuk klasifikasi (Support Vector Classificatio.
dan regresi (Support Vector Regressio.
Namun, sebagian besar digunakan dalam masalah Ide dasar metode SVM adalah mengubah fitur input menjadi ruang dimensi yang lebih tinggi untuk memisahkan data secara linear menjadi dua kelas dengan hyper-plane JIRE (Jurnal Informatika & Rekayasa Elektronik.
http://e-journal.
id/index.
php/jire meminimalkan kesalahan .
Random Forest Metode umum random forest pertama kali diusulkan oleh Ho pada tahun 1995.
Random forest adalah kelas algoritma machine learning yang digunakan untuk memecahkan masalah pengenalan pola .
Menurut .
Random forest merupakan salah satu metodeyang Metode baggingdigunakan untuk meningkatkan akurasi dari hasil prediksi pada algoritma klasifikasi.
Metode ini yang nantinya akanmembangkitkan sejumlah tree dari datasample dimana pembuatan satu tree pada saat training tidak bergantung pada tree sebelumnya kemudian Menurut .
bahwa random forest memiliki dua konsep yaitu :
Membangun ensemble.
Ensemble merupakan metode untuk mencari solusi prediksi sehingga bisa memperoleh hasil yang terbaik.
Penyeleksian fitur.
Penyeleksian fitur dilakukan secara acak pada setiap tree yang telah dibangun.
Hal yang pertama berarti tiap sampel yang diambil dari data set untuk training tree bisa dipakai lagi untuk training tree yang lain, sedangkan hal yang kedua berarti bahwa fitur yang digunakan pada saat training untuk tiap tree merupakan subset dari fitur yang dimiliki oleh data set.
Volume 3.
No 1.
April 2020 Deep Learning Deep Learning adalah bagian dari NeuralNetwork yang memiliki memiliki arsitektur lebih kompleks dan lebih banyak jumlah layer yang digunakan, sehingga diharapkan mampu menangani permasalahan yang lebih rumit dengan lebih banyak data .
Gambar 1.
Deep Learning ISSN.
2620-6900 (Onlin.
2620-6897 (Ceta.
Recurrent Neural Network Recurrent NeuralNetwork bagian dari NeuralNetwork yang dapat .
RNN menerima datainput dalam bentuk sequence, dan pada prosesnya tidak mengharuskan memiliki ukuran yang sama antara input dan output yang ditangani .
RNN
dapat menyimpan informasi dari masa lalu dengan cara melakukan looping di dalam Potongan model RNN dapat dilihat pada gambar berikut.
Gambar 2.
RNN
Recurrent neural network pada bagian input digambarkan dengan simbol Xt, bagian output dengan simbol ht, dan kotak A merupakan hidden Long Short-Term Memory Long Short-Term Memory (LSTM) mulai diperkenalkan pada tahun 1997 oleh Hochreiter Schmidhuber.
LSTM
pengembangan dari Recurrent Neural Network (RNN).
Alasan dari munculnya model LSTM adalah karena adanya keterbatasan model RNN dalam memproses data yang relatif panjang .
ong term dependenc.
Ketika RNN memproses input sequence yang panjang, maka semakin banyak hidden layer yang tebentuk.
Hidden layer yang terbentuk dari input sequence yang panjang akan menjadi masalah pada RNN, sehingga dapat menyulitkan proses training.
LSTM memiliki 4 komponen mengolah informasi yang masuk.
Komponen tersebut adalah input gate, forget gate, output gate dan cell Gambar 3.
LSTM
JIRE (Jurnal Informatika & Rekayasa Elektronik.
http://e-journal.
id/index.
php/jire Gated Recurrent Units Gated Recurrent Unit hampir mirip dengan LSTM, namun pada GRU hanya memiliki 2 gate yaitu reset gate dan update gate.
Reset gatesama seperti forget gate dan input gate pada LSTM, yang akan memilih informasi mana yang harus disimpan atau dibuang.
Sedangkan update gate digunakan untuk menentukan seberapa banyak data yang perlu dibuang.
Gambar 4.
GRU
Convolutional Neural Network Convolutional Neural Networks memiliki kemampuan baik dalam menyelesaikan masalah visi komputer karena dapat beroperasi secara konvolusional, yaitu melakukan ekstraksi fitur dari patch masukan lokal yang memungkinkan modularitas representasi dan efisiensi data .
CNN merupakan sebuah konstruk matematika yang disusun oleh 3 tipe layer yaitu Convolution.
Pooling, dan Fully Connected.
Convolution dan Pooling layer biasa digunakan untuk feature Sedangkan Fully Connected layer menempatkan hasil featureextraction menjadi hasil akhir keluaran.
METODOLOGI PENELITIAN
Gambar 5.
Tahapan Penelitian ISSN.
2620-6900 (Onlin.
2620-6897 (Ceta.
Volume 3.
No 1.
April 2020 1 Pengumpulan Data Data yang digunakan pada penelitian ini bersumber dari Twitter.
Data tersebut merupakan data mentah dari tweet-tweet yang berisi informasi tentang bencana di Indonesia.
Jumlah data yang dikumpulkan sebanyak 378.
602 tweet.
Data tersebut diambil dari akun Twitter BMKG (Badan Meteorologi.
Klimatologi, dan Geofisik.
dan BNPB (Badan Nasional Penanggulangan Bencan.
baik yang berada di pemerintah pusat sampai dengan pemerintah daerah.
Data tweet diambil dengan menggunakan library tweepy dalam bahasa python.
Proses pengumpulan data menggunakan tweepy dimulai dari melakukan proses autentikasi ke Twitter dengan menggunakan method atau function yang telah disediakan oleh tweepy.
Proses autentikasi membutuhkan beberapa data diantaranya consumer key, consumer secret, access token, dan access token secret.
Data untuk proses autentikasi diperoleh dari layanan Twitter Developer.
Layanan tersebut disediakan oleh Twitter agar pengguna bisa menggunakan fitur-fitur yang ada pada Twitter.
Setelah selanjutnya akan dilakukan proses pengambilan data tweet dengan memanfaatkan method atau function pada library tweepy.
Kemudian data tweet tersebut dikumpulkan menjadi satu kedalam satu dokumen.
Pada penelitian ini, data tweet akan dibagi menjadi dua bagian yaitu data training dan data Data training nantinya akan digunakan untuk melatih dengan menggunakan beberapa algoritma klasifikasi dalam machine learning maupun deep learning sehingga menghasilkan sebuah model.
Data testingakan digunakan untuk mengetes performa dari model yang telah dibuat.
2 Pra Pemrosesan Preprocessing merupakan tahap untuk mempersiapkan tweet yang telah dikumpulkan menjadi dokumen text atau clean data yang siap untuk digunakan pada tahap selanjutnya.
Pada tahap preprocessing ini akan dilakukan beberapa proses di antaranya :
Menghapus URL.
Tahap digunakan untuk menghapus URL yang ada pada Tweet.
Menghapus punctuation atau tanda baca.
Proses ini dilakukan untuk menghapus tanda baca pada Tweet seperti hashtag, emoticon dan lain-lain.
JIRE (Jurnal Informatika & Rekayasa Elektronik.
http://e-journal.
id/index.
php/jire Tokenizing.
Tokenizing adalah proses pemotongan Tweet atau text menjadi kata-kata atau yang biasa disebut token.
Stopword Removal.
Proses ini digunakan untuk menghilangkan kata-kata yang tidak penting dalam Tweet 3 POS Tagging Untuk mempermudah dalam melakukan entity labeling, maka perlu melakukan proses POS tagging terlebih dahulu.
POS tagging digunakan untuk memberikan kelas kata .
secara gramatikal ke setiap kata dalam suatu kalimat teks .
Kelas kata ini nantinya akan digunakan untuk memudahkan pelabelan entitas.
Proses POS tagging yang dilakukan pada penelitian ini menggunakan tools yang dikembangakan oleh Wibisono pada tahun Sedangkan data yang digunakan dalam pembuatan POS tagger tersebut bersumber dari .
POS
Tagging mengkategorikan kata ke dalam beberapa jenis kelas kata yang dapat dilihat pada Tabel 1.
TABEL 1.
Kelas Kata POS
PRL
PRN
PRP
NNP
NNG
Nama Open Parenthesis Close Parenthesis Slash Preposition Modal Locative Pronouns Number Pronouns Cardinal Number Personal Pronouns Adjective Foreign Words Coor-Conjunction Subor-Conjunction Determiner Adverb Common Noun Proper Noun Genitive Noun Verb 4 Entity Tagging Pada tahap entity taggingakan dilakukan pelabelan entitas pada setiap kata dalam kalimat.
Adapun entitas yang akan digunakan dalam penelitian ini adalah AuDISAy untuk menandakan jenis bencana.
AuTIMAy untuk waktu bencana.
AuLOCAy sebagai nama tempat atau lokasi terjadinya bencana.
AuMAGAy untuk ukuran kekuatan jika bencana yang terjadi adalah gempa dan AuOAy untuk kata yang tidak memiliki entitas.
ISSN.
2620-6900 (Onlin.
2620-6897 (Ceta.
Volume 3.
No 1.
April 2020 TABEL 2.
Entitas Bencana
Entitas DIS
TIM
LOC
MAG
Keterangan Jenis Bencana Waktu Kejadian Lokasi Bencana Kekuatan .
ika jenis bencana Gemp.
Others atau kata yang tidak memiliki entitas Pada tahap entity tagging terdapat dua proses yang dilakukan.
Proses pertama, chunking.
Proses ini melakukan entity tagging dengan cara Teknik memanfaatkan part of speech ini dilakukan dengan membaca pola pada token yang sudah dilabeli dengan part of speech.
Proses chunking memanfaatkan methodAuRegexpParserAy yang ada pada Natural Language Toolkit.
5 Feature Extraction Menurut .
feature extraction atau ekstraksi fitur adalah sebuah proses dimana properti-properti diekstrak dari suatu data.
Feature extraction merupakan salah satu proses penting yang harus dilakukan sebelum tahap training, karena algoritma machine learning yang akan digunakan untuk training hanya bisa menerima masukan atau input berupa angka.
Feature extraction yang digunakan pada penelitian ini adalah Term Frequency Ae Inverse Document Frequency (TF-IDF).
Tf-idf merupakan metode untuk menghitung seberapa penting sebuah kata yang berada di dalam dokumen atau Tf-idf terdiri dari term-frequency dan inverse document frequency.
Term Frequency adalah frekuensikemunculan term atau kata di dalam dokumen.
Metode TF-IDF dihitung dengan persamaan .
tft,dmerupakan dokumen d.
Sedangkan idf t merupakan nilai yang diperoleh dari persamaan .
D merupakan total keseluruhan dokumen, sedangkan dft mengandung term t.
6 Training Sebelum dilakukan proses training, data akan dibagi menjadi dua bagian yaitu training set dan test set.
Bagian training set adalah data latih yang akan digunakan pada saat training model, sedangkan test set digunakan untuk menguji JIRE (Jurnal Informatika & Rekayasa Elektronik.
http://e-journal.
id/index.
php/jire performa dari model yang telah ditraining.
Pembagian antara training set dan test set dengan rasio pembagian 70%-30% dan 80%-20%.
Studi empiris menunjukkan bahwa model terbaik diperoleh jika menggunakan 20-30% data untuk testing dan 70-80% data untuk training .
Jumlah tweet yang digunakan pada penelitian ini sebanyak 378.
602 tweet.
Dari tweet beberapa sample size.
Jumlah sample size dapat dilihat pada Tabel 3.
TABEL 3.
Sampel Size Jumlah Tweet Sample Size Tahap training ini akan menggunakan dua pendekatan yaitu machine learning dan deep Algoritma pendekatan machine learning adalah random forest, decision tree, nayve bayes dan support vector machines.
Sedangkan pada pendekatan deep learning menggunakan algoritma long shortterm memory (LSTM), convolutional neural network (CNN) dan gated recurrent units (GRU).
Setiap algoritma pada machine learning dan deep learningakan menggunakan semua sample size dari 50% sampai dengan 90%.
Berikut adalah skenario dari setiap algoritma machine learning dan deep learning.
TABEL 4.
Skenario Algoritma Machine Learning Algoritma Parameter alpha : 1 Nayve Bayes Support Vector Machine penalty : L2 splitting : criterion Decision Tree -splitting : criterion Random Forest -n estimators : 100 TABEL 5.
Skenario Algoritma Deep Learning Algoritma Parameter -unit : 50 Long Short-Term -dropout : 0.
Memory -batch size : 32 -filter : 50 Convolutional Neural -kernel size : 1 Network -batch size : 32 -unit : 50 Gated Recurrent Units -dropout : 0.
-batch size : 32 ISSN.
2620-6900 (Onlin.
2620-6897 (Ceta.
Volume 3.
No 1.
April 2020 7Evaluasi Evaluasi terhadap model yang telah dibangun dari proses training merupakan hal yang sangat Tujuan evaluasi adalah untuk mengukur apakah model mampu melakukan klasifikasi dengan baik atau tidak.
Hasil dari proses evaluasi ini digunakan untuk mengetahui kinerja dari Sehingga memperoleh mana model terbaik yang dihasilkan dari setiap algoritma yang telah disebutkan di atas.
Metode evaluasi yang digunakan pada penelitian ini adalah perbandingan akurasi.
Akurasi sebuah algoritma mengindikasikan persentase dari prediksi yang Formula dari akurasi adalah .
atau lebih detailnya, .
di mana PB = Positif Benar.
NB = Negatif Benar.
PP = Positif Palsu, dan NP = Negatif Palsu.
Keterangan :
PB: Jumlah data positif yang terklasifikasi dengan NB : Jumlah data negatif yang terklasifikasi dengan benar.
PP : Jumlah data negatif namun terklasifikasi sebagai data positif.
NP : Jumlah data positif namun terklasifikasi sebagai data negatif.
HASIL DAN PEMBAHASAN
Hasil penelitian named entity recognition ini berfokus pada analisis dari variasi ukuran sampel data set terhadap kinerja algoritma machine learning dan deep learning.
Analisis performa kinerja dari algoritma diperoleh berdasarkan 1 Hasil Akurasi Hasil akurasi dibagi menjadi dua bagian, yaitu akurasi pada rasio 70%-30% dan akurasi pada rasio 80%-20%.
Setiap algoritma pada kedua rasio menggunakan sample size yang berbedabeda.
Sample size yang digunakan mulai dari 50%, 60%, 70%, 80%, dan 90% dari data tweet yang berjumlah 378.
Rasio 70%-30% TABEL 6.
Akurasi Rasio 70%-30% Sample Size Algoritma NBayes SVM D Tree JIRE (Jurnal Informatika & Rekayasa Elektronik.
http://e-journal.
id/index.
php/jire R Forest
LSTM
CNN
GRU
Berdasarkan dari hasil akurasi yang ditampilkan pada Tabel 6 di atas dapat disimpulkan bahwa pada sample size 50% akurasi terbaik dihasilkan oleh algoritma GRU 999, pada sample size 60% akurasi terbaik dihasilkan oleh algoritma LSTM dan GRU 999, pada sample size 70% dan 80% akurasi terbaik dihasilkan oleh algoritma GRU, pada sample size 90% akurasi terbaik dihasilkan oleh algoritma LSTM dan GRU.
Setiap algoritma pada setiap sample size memiliki selisih yang berbeda- beda, seperti pada sample size 50% rentang perbedaan akurasinya ada diantara 001- 0.
067, pada sample size 60% selisihnya 065, pada sample size 70% antara 064, pada sample size 80% antara 0.
061, pada sample size 90% berada diantara Selain dilihat berdasarkan sample size, juga dapat disimpulkan berdasarkan algoritma, seperti pada algoritma nayve bayes mendapatkan akurasi terbaik dengan nilai 0.
938 pada sample size 80%, dan akurasi terburuk dengan nilai 932 pada sample size 50%.
Algoritma SVM memperoleh akurasi terbaik pada sample size 90% dengan nilai 0.
Algoritma decision tree memperoleh hasil akurasi terbaik sebesar 0.
pada sample size 90%.
Algoritma random forest memperoleh hasil akurasi terbaik pada sample size 90% dengan nilai 0.
Algoritma LSTM memperoleh akurasi terbaik dengan nilai 0.
pada sample size 60%, dan 90%.
Algoritma CNN memperoleh akurasi terbaik dengan nilai 0.
pada sample size 60%, 70% dan 80%.
Algoritma GRU memperoleh akurasi terbaik dengan nilai 999 pada semua sample size.
Gambar 7.
Grafik Akurasi Rasio 70%-30% ISSN.
2620-6900 (Onlin.
2620-6897 (Ceta.
Volume 3.
No 1.
April 2020 Keterangan Gambar 7 :
- Garis lurus menunjukkan algoritma machine - Garis putus-putus menunjukkan algoritma deep Pada Gambar 7 dapat dilihat secara keseluruhan bahwa pendekatan deep learning menunjukkan nilai akurasi lebih tinggi dibandingkan dengan pendekatan machine Pada pendekatan machine learning, nilai akurasi tertinggi dihasilkan oleh algoritma random forest dan terburuk dihasilkan oleh nayve Sedangkan pendekatan deep learning, nilai akurasi tertinggi dihasilkan oleh algoritma GRU dan nilai akurasi terburuk dihasilkan oleh algoritma CNN.
Rasio 80%-20% TABEL 7.
Akurasi Rasio 80%-20% Sample Size
Algoritma
N Bayes SVM
D Tree
R Forest
LSTM
CNN
GRU
Berdasarkan dari hasil akurasi yang ditampilkan pada Tabel 7 di atas dapat disimpulkan bahwa pada sample size 50% akurasi terbaik dihasilkan oleh algoritma GRU 999, pada sample size 60% sampai dengan 90% akurasi terbaik dihasilkan oleh algoritma LSTM dan GRU dengan nilai 0.
Setiap sample size memiliki selisih yang berbeda-beda, seperti pada sample size 50%, rentang perbedaan akurasi setiap algoritmanya ada diantara 0.
067, pada sample size 60% selisihnya antara 0.
065, pada sample size 70% antara 0.
064, pada sample size 80% 061, pada sample size 90% antara Selain dilihat berdasarkan sample size, juga dapat dilihat berdasarkan algoritma, seperti pada algoritma nayve bayes mendapatkan akurasi terbaik dengan nilai 0.
938 pada sample size 80%, dan akurasi terburuk dengan nilai 0.
932 pada sample size 50%.
Algoritma SVM memperoleh akurasi terbaik pada sample size 90% dengan Algoritma decision tree memperoleh JIRE (Jurnal Informatika & Rekayasa Elektronik.
http://e-journal.
id/index.
php/jire hasil akurasi terbaik sebesar 0.
972 pada sample size 90%.
Algoritma random forest memperoleh hasil akurasi terbaik pada sample size 90% dengan nilai 0.
Algoritma LSTM memperoleh akurasi terbaik dengan nilai 0.
999 pada sample size 60%, sampai 90%.
Algoritma CNN memperoleh akurasi terbaik dengan nilai 0.
pada sample size 60% dan 80%.
Algoritma GRU memperoleh akurasi terbaik dengan nilai 0.
pada semua sample size.
Gambar 8.
Grafik Akurasi Rasio 80%-20% Keterangan Gambar 8 :
- Garis lurus merupakan algoritma machine - Garis putus-putus merupakan algoritma deep Pada Gambar 8 dapat dilihat secara keseluruhan bahwa pendekatan deep learning menunjukkan nilai akurasi lebih tinggi dibandingkan dengan pendekatan machine Pada pendekatan machine learning, nilai akurasi tertinggi dihasilkan oleh algoritma random forest dan terburuk dihasilkan oleh algoritma naive bayes.
Sedangkan pada pendekatan deep learning, nilai akurasi tertinggi dihasilkan oleh algoritma GRU dan nilai akurasi terburuk dihasilkan oleh algoritma CNN 2 Perbandingan Hasil Pengujian Hasil komputasi menggunakan algoritma machine learning dan deep learning pada kasus data kebencanaan di Indonesia dengan data yang bersumber dari Twitter dengan rasio 70-30 dan 80-20 pada Tabel 6 dan Tabel 7 menghasilkan beberapa perbedaan akurasi, diantara :
Hasil akurasi menggunakan algoritma decision tree pada rasio 80-20 untuk sample size 50%, 60%, 70% dan 80% sedikit lebih baik daripada rasio 70-30, selisih antara keduanya adalah sebesar 0.
Pada sample size 90% selisihnya sebesar 0.
Hasil akurasi algoritma random forest pada rasio 80-20 untuk sample size 50% sedikit lebih baik dari rasio 70-30, dengan perbedaan ISSN.
2620-6900 (Onlin.
2620-6897 (Ceta.
Volume 3.
No 1.
April 2020 Sedangkan pada sample size 60%, 70%, dan 90% selisihnya sebesar 0.
Pada algoritma long short-term memory, akurasi yang lebih baik dihasilkan oleh rasio 80-20 untuk sample size 70% dan 80% dengan selisih sebesar 0.
Pada algoritma convolutional neural network, akurasi yang lebih baik dihasilkan oleh rasio
70-30 pada sample size 70% dengan selisih
KESIMPULAN
Berdasarkan hasil penelitian yang telah dilakukan maka, guna mendapatkan model terbaik, dilakukan proses training menggunakan algoritma machine learning dan deep learning.
Algoritma machine learning yang digunakan pada penelitian adalah nayve bayes.
Support vector machines, decision tree, danrandom forest.
Sedangkan algoritma deep learning yang digunakan adalah long short-term memory, convolutional neural network, dangated recurrent Berdasarkan eksperimen, metode deep learning menghasilkan akurasi yang lebih baik daripada metode machine learning dengan akurasi terbaik dihasilkan dari algoritma deep learning yaitu gated recurrent units dan long short-term memory sebesar 0.
Adapun hasil akurasi terbaik pada metode machine learning dihasilkan oleh algoritma random forest dengan Kemudian pada proses training, diketahui bahwa semakin besar ukuran sample size, maka akurasinya semakin tinggi.
Namun selisih akurasi antara sample size terkecil hingga terbesar tidak terlalu jauh dan pada algoritma deep learning menunjukkan bawah ukuran sample size tidak terlalu mempengaruhi Akurasi yang dihasilkan oleh algoritma deep learning cenderung stabil, baik pada sample size terkecil maupun sample size terbesar.
Daftar Pustaka: