JOISIE Journal Of Information System And Informatics Engineering Vol.
No.
Desember 2023.
Hlm 358-363
p- ISSN: 2503-5304
e- ISSN: 2527-3116
PENERAPAN ALGORITMA K-NEAREST NEIGHBOUR (K-NN) SEBAGAI
KLASIFIKASI TWEETS PADA TWITTER
Cian Ramadhona Hassolthine1*.
Riad Sahara2 .
Fesa Asy Syifa Nurul Haq3.
Syahid Abdullah4
1,2,4
PJJ Informatika.
Universitas Siber Asia PJJ Sistem Informasi Universitas Siber Asia Jl.
RM Harsono No.
Pasar Minggu.
Jakarta Selatan, .
2780-6189 e-mail : 1cianhassolthine@lecturer.
id, 2riadsahara@lecturer.
fesasyifa@lecturer.
id, syahidabdullah@lecturer.
Abstract As technology develops so rapidly in collecting data, it results in a huge pile of data.
Due to the large amount of data, it becomes necessary to utilize this data.
The aim of using data is of course to receive crucial news from the data patterns that are formed.
Data that can be used can be obtained from social media, one of which is Twitter.
Twitter is a social media with approximately 50 million users in Indonesia.
With so many users in Indonesia, it can be used to use a lot of data.
To get this data, use one of the K-Nearest Neighbor algorithms.
The KNN algorithm is a classification of a set of data based on learning data that has been previously classified.
The classification result of the KK Algorithm is that the data that has been processed falls into class B because of the three closest neighbors, two are in class B, while only one is in class A.
The accuracy produced by the KNN Algorithm is also quite good, namely above 80% .
This model provides better sensitivity in the data classification process.
Keywords : Algorrithm.
Classification.
K-Nearest Neighbor (K-NN).
Text Mining.
Preprocessing Abstrak Seiring berkembangnya teknologi yang begitu pesat dalam melakukan pengumpulan data mengakibatkan sebuah tumpukan data yg sangat banyak.
Melalui banyaknya data tersebut,sehingga menjadi suatu kebutuhan untuk memanfaatkan data tersebut.
Pemanfaatan data tentunya bertujuan agar menerima berita yg krusial dari pola-pola data yang terbentuk.
Data yang bisa digunakan dapat diperoleh dari media sosial, salah satunya twitter.
Twitter merupakan media sosial yang tercatat kurang lebih 50 juta orang pengguna di Indonesia.
Dengan banyaknya pengguna di Indonesia, maka dapat dimanfaatkan dalam penggunaan data yang banyak.
Untuk mendapatkan data tersebut yaitu dengan salah satu algoritma K-Nearest Neighbor.
Algoritma KNN merupakan klasifikasi terhadap sekumpulan data berdasarkan pembelajaran data yang sudah terklasifikasikan sebelumya.
Hasil klasifikasi dari Algoritma KK yaitu data yang sudah diolah masuk ke dalam kelas B karena dari tiga tetangga terdekat, ada dua yang masuk kelas B, sementara hanya satu yang masuk kelas A.
Akurasi yang dihasilkan oleh Algoritma KNN juga cukup baik yaitu di atas 80%.
Model ini memberikan sensitivity yang lebih baik dalam proses klasifikasi data.
Keywords : Algoritma.
K-Nearest Neighbor (K-NN).
Klasifikasi.
Text Mining.
Preprocessing adalah salah satu jejaring sosial paling PENDAHULUAN populer saat ini (Muhammad Naja Maskuri.
Twitter Harliana.
Kadek Sukerti, 2.
Tweet dapat dilihat oleh siapa saja yang mengunjungi pengguna untuk berkomunikasi melalui profil pengguna, tetapi mereka juga dapat pesan singkat yang dikenal sebagai "tweet," disembunyikan dari semua orang kecuali 359 | Jurnal JOISIE.
Volume 7.
Nomor 2.
Desember 2023 pengikut pengguna (Yusuf et al.
, 2.
Dengan basis pengguna yang terus berkembang.
Twitter telah menjadi alat yang ampuh untuk menyebarkan berita dan konten lainnya dengan cepat.
Informasi, termasuk berita, pemikiran, pertanyaan, pernyataan, dan kritik .
aik yang menguntungkan maupun yang buru.
, dikumpulkan dan disebarluaskan secara bebas melalui media (Wie & Siddik, 2.
Analisis sentimen bagaimana perasaan orang lain tentang suatu topik, yang dapat mempercepat dan keputusan kita sendiri (Amrizal, 2.
Kurangnya penghalang utama bagi pengguna yang ingin membaca buletin atau artikel di halaman utama Twitter.
Dalam penambangan teks, klasifikasi mengumpulkan data berdasarkan seberapa mirip skrip tersebut (Hardiyanto & Rozi.
Dengan menggunakan kriteria ini.
Twitter dapat mengelompokkan tweet serupa bersama-sama, seperti tentang olahraga yang berbeda .
eperti sepak bola, bola voli, dan teni.
ke dalam satu kategori.
Karena buletin dan liputan Twitter diatur menurut kategori, kebiasaan mengkategorikan tweet dapat membuat mendengarkan buletin atau laporan jauh lebih sederhana (Suharno et al.
, 2.
K-Nearest Neighbor sebagai kriteria kategorisasi (KNN) (Ghani Muttaqin et al.
, 2.
Salah satu prinsip pembelajaran mesin.
KNN menggunakan data pelatihan yang paling mirip dengan item yang diklasifikasikan untuk menentukan kategorisasinya (Hadi & Sukamto, 2.
Ada dua elemen untuk alasan di balik pengamatan ini: tujuan yang luas dan yang lebih sempit.
Tujuan utamanya adalah untuk K-Nearest Neighbor untuk mengkategorikan pesan di Twitter.
Tujuan penelitian ini adalah teknik KNN untuk mengkategorikan tweet di Twitter.
Penulis tertarik untuk mempelajari kategorisasi tweet di Twitter menggunakan pendekatan K-Nearest Neighbor karena studi yang diselesaikannya berdasarkan melihat tantangan yang dilakukan oleh sarjana lain dalam penelitian klasifikasi twitter.
Bahasa pemrograman R akan digunakan untuk membangun sistem ini.
Mulai Input Data Tetapkan nilai K Menghitung jarak Euclidean Perhitungan jarak nilai k terdekat Penentuan Selesai Gambar 1.
Tahapan Penelitian METODE PENELITIAN Pada penelitian ini melalui beberapa tahapan yaitu Input data, tetapkan nilai K.
Menghitung jarak Euclidean, perhitungan jarak nilai k terdekat dan penentuan Tahapan penelitian dapat dilihat pada Gambar berikut :
1 KLASIFIKASI
Klasifikasi teks adalah proses menetapkan teks ke kategori yang paling sesuai dengan fiturnya sesuai dengan kriteria yang telah ditentukan (Triyanto et al.
, 2.
Dengan klasifikasi teks di tangan, itu melukiskan gambaran mental dari proses klasifikasi arsip, yang merupakan langkah penting dalam membuat kontribusi dunia nyata (Hadi & Sukamto, 2.
Naive Bayes.
Artificial Neural Networks.
Support Vector Machines.
Genetic Techniques.
K-Nearest Hassolthine.
Penerapan Algoritma K-Nearest Neighbour (K-NN) Sebagai Klasifikasi Tweets Pada Twitter,358-363 .
Neighbors, dan Fuzzy C-means adalah contoh algoritma klasifikasi populer.
2 TEXT MINING
Text Mining adalah metode berbantuan komputer untuk mengekstraksi informasi dari dokumen.
Dokumen-dokumen itu sendiri biasanya terdiri dari data tekstual (MaAorifah et al.
, 2.
Data teks membutuhkan tahapan praprocessing untuk mengidentifikasi dan merepresentasikan data tidak terstruktur menjadi data terstruktur sehingga mudah untuk dipahami.
Menurut (Salahudin et al.
, 2.
text mining memiliki beberapa tahapan praproses yaitu sebagai berikut :
Case folding: mengubah semua karakter huruf menjadi huruf nonkapital .
ower casin.
Remove punctuation: menghapus semua karakter tanda baca seperti tanda titik (.
), titik dua (:), koma (,), tanda tanya (?), tanda seru (!), tanda petik (A.
, dan sebagainya.
Remove hashtag: simbol hashtag (#) dalam tweet digunakan untuk judul pengelompokan percakapan.
Clean number: menghapus angka yang terdapat pada teks serta angka yang terdapat di depan dan di belakang kata.
Penyertaan angka di depan atau di belakang kata menunjukkan kata tersebut diulang seperti lari2 maksudnya larilari, namun hal tersebut tidak dibenarkan dalam Kamus Besar Bahasa Indonesia sehingga perlu dihapus.
Remove URL: URL atau alamat web perlu dihapus karena dijadikan halaman promosi bagi sebagian URL yang muncul pada tweet tidak memiliki arti.
Remove stopword: menghapus kata yang tidak mencirikan isi dari suatu dokumen .
seperti kata AudiAy.
AupadaAy.
AuolehAy, dan sebagainya.
Proses remove stopword dilakukan setelah dibuat daftar stopword .
ALGORITMA
K-NEAREST
NEIGHBOR (KNN)
Salah satu cara termudah untuk menyelesaikan masalah klasifikasi adalah menggunakan algoritma K-Nearest Neighbor (KNN) (Setiyorini et al.
, n.
Klasifikasi teks dan data adalah aplikasi umum dari pendekatan ini (Handayani et al.
, 2.
Mengklasifikasikan hal-hal menggunakan informasi yang secara geografis dekat digunakan dalam pendekatan ini (Qaiser et , 2.
Untuk menentukan kesenjangan antara dua posisi x1 dan x2, kami menggunakan rumus:
cu1, ycu2 ) = ocycuycn=0.
cu1ycn Oe ycu2ycn )2 .
Ket :
Jarak dalam ruang 1 dimensi ditentukan oleh variabel independen tunggal, dalam ruang 2 dimensi oleh dua, dan dalam ruang multi-dimensi oleh lebih dari dua (Rizkya Rani et al.
, 2.
HASIL DAN PEMBAHASAN
Berikut terdapat data pelanggan yang tercantum dalam tabel di bawah ini:
Tabel 1.
Data Pelanggan Age Income Class Ada enam data yang telah diberi label dan satu data yang perlu diidentifikasi oleh kelas berdasarkan informasi yang diberikan pada tabel di atas.
Ada 2 kelas yaitu kelas A dan kelas B Nilai usia dan pendapatan, yang independen, akan digunakan dalam 361 | Jurnal JOISIE.
Volume 7.
Nomor 2.
Desember 2023 perhitungan jarak karena tidak terpengaruh oleh faktor lain.
Sebagai variabel dependen, nilai kelas tergantung pada ada atau tidaknya faktor-faktor lain (Usia dan Pendapata.
Gunakan rumus yang diberikan untuk pendekatan Euclidean.
Enam informasi perlu Data 1 yccycnyc = Oo.
Oe .
Oe .
2 = 40.
Data 2 yccycnyc = Oo.
Oe .
Oe .
2 = 43.
Data 3 yccycnyc = Oo.
Oe .
Oe .
2 = 100.
Gambar 2.
Grafik Data Point Dari gambar di atas dapat dianalisa, ada sejumlah data point yang terbagi menjadi dua kelas yaitu A .
dan B .
Misalnya ada data baru .
yang akan kita prediksi kelasnya menggunakan algoritma KNN.
Dari contoh di atas, nilai K yang digunakan adalah Setelah dihitung jarak antara titik hitam ke masing-masing didapatkan 3 titik terdekat yang terdiri dari 2 titik kuning dan satu titik biru seperti yang diilustrasikan di dalam kotak merah, maka kelas untuk data baru .
itik hita.
adalah B .
ANALISIS
ALGORITMA
KLASIFIKASI TENTUKAN NILAI K
Jika kelasnya adalah bilangan genap, nilai K harus berupa bilangan ganjil, dan Karena ada tepat dua kelompok.
A dan B, setiap nilai K sama-sama mungkin menghasilkan hasil yang sama .
arena pasangan tetangga terdekat selalu memiliki tepat dua anggota dari kelompok yang sam.
Namun, jika Anda memilih nilai ganjil K, seperti 3 atau 5, hasilnya akan selalu menjadi total populasi yang lebih besar.
Dalam pemrograman R, misalnya, nilai K optimal dapat ditentukan dengan menggunakan rentang nilai K yang mungkin .
atakanlah, dari K = 2 hingga K = .
2 Hitung jarak antara data baru dan masingmasing data lainnya Data 4 yccycnyc = Oo.
Oe .
Oe .
2 = 135.
Data 5 yccycnyc = Oo.
Oe .
Oe .
2 = 20.
Data 6 yccycnyc = Oo.
Oe .
Oe .
2 = 14.
2 AMBIL TIGA DATA DENGAN JARAK
TERDEKAT
Jika kita memilih jarak terdekat dari perhitungan jarak Euclidean sebelumnya, kita mendapatkan yang berikut.
Tabel 2.
Perhitungan Euclidean Data Age Income Jarak dengan data Analisa dari Tabel 2 di atas yaitu data baru tersebut masuk ke dalam kelas B karena dari tiga tetangga terdekat, ada dua yang Hassolthine.
Penerapan Algoritma K-Nearest Neighbour (K-NN) Sebagai Klasifikasi Tweets Pada Twitter,358-363 .
masuk kelas B, sementara hanya satu yang masuk kelas A.
3 AKURASI
Setelah dilakukan tahap klasifikasi menggunakan Algoritma KNN, selanjutnya dilakukan pengujian dengan teknik Confision Matrix.
Hasil akurasi dapat dilihat pada Gambar 3 di bawah ini.
Gambar 3.
Model Akurasi Confision Matrix Akurasi yang dihasilkan oleh Algoritma KNN juga cukup baik yaitu di atas 80%.
Model ini memberikan sensitivity yang lebih baik dalam proses klasifikasi data.
SIMPULAN
Berdasarkan data sebelumnya, kita dapat menyimpulkan bahwa dari tiga tetangga terdekat, dua jatuh ke kelas B sementara yang tersisa tetap di kelas A, menempatkan data baru di kelas B.
Algoritma KNN menghitung KNN dengan menemukan sampel pelatihan yang paling dekat dengan sampel uji.
Setelah KNN dikumpulkan, sebagian besar informasi berdasarkan sampel uji.
DAFTAR PUSTAKA