ISSN 2356-3974
I-Robot Jurnal.
Vol 9 No.
2 - September 2025 Penerapan Algoritma Nazief & Adriani Dalam Stemming Bahasa Batak Angkola Muhammad Rosikhu, 1Ema Utami, 1Ainul Yaqin 1 Teknik Informatika Program Pascasarjana Universitas Amikom rosikhu@students.
id, ema.
u@amikom.
id, ainulyaqin@amikom.
ABSTRAK
Penelitian dengan judul AuPenerapan Algoritma Nazief & Adriani Dalam Stemming Bahasa Batak AngkolaAy dimulai dengan mengumpulkan data berupa kata-kata dan jenis imbuhan yang digunakan dalam bahasa Batak Angkola.
Selanjutnya dianalisis untuk menghasilkan daftar kata dasar serta aturan dari penggunaan imbuhan.
Kemudian berdasarkan daftar kata dasar dan aturan imbuhan tersebut, disusun sebuah algoritma dengan melakukan modifikasi dari algortima Nazief & Adriani dan juga algoritma Arifin Setiono yang dapat digunakan dalam melakukan stemming kata-kata dalam bahasa Batak Angkola, pada penerapan algoritma stemming Nazief dan Andriani dengan sampel data yang diujikan berjumlah 3280 kata dibuat menjadi satu kamus dengan type data JSON.
Algoritma ini mampu memberikan tingkat akurasi dan presisi yang sangat tinggi, yaitu 99,33%, dimana kata yang mengalami Overstemming berjumlah 7 kata dan yang mengalami Understemming berjumlah 15 dari keseluruhan kata dalam kamus yang berjumlah 3280 kata.
Keyword: Algoritma.
Nazief & Adriani.
Stemming PENDAHULUAN Bahasa sebagai alat komunikasi yang mempunyai kekhasan tertentu yang menjadi jati diri dari suatu bangsa, negara maupun daerahnya (Taufik dkk.
, 2.
Banyak keistimewaan yang dimiliki oleh bangsa Indonesia.
Selain bahasa Indonesia yang menjadi bahasa resmi.
Indonesia juga memiliki beragam bahkan ratusan bahasa daerah yang tersebar di setiap suku yang terdapat diseluruh penjuru Indonesia.
Bahasa daerah adalah penanaman identitas karakter budaya dari suku bangsa.
Bahasa daerah dapat juga di katakan sebagai induk bahasa karena awal anak mengenal bahasa yang di mengerti adalah bahasa daerah.
Simalungun.
Kabupaten Serdang Begadai.
Kota Pematang Siantar.
Kabupaten Deli Serdang.
Kabupaten Karo, dan Kabupaten Dairi.
Begitu banyaknya suku dan bahasa daerah yang ada di Indonesia, dengan jumlah bahasa daerah 718 menurut Kementerian Pendidikan dan Kebudayaan pada tahun 2022, dengan suku bangsa lebih dari 1340 yang terdapat di Indonesia menurut Badan Pusat Statistik pada tahun 2010.
Suku Batak adalah suku dengan jumlah penduduk terbanyak ketiga di Indonesia dengan jumlah lebih dari 14 juta jiwa sesuai dengan data yang di dapat oleh Badan Pusat Statistik pada Tahun 2020.
Dalam suku batak sendiri terdapat beberapa rumpun bahasa daerah batak, antara lain :
Bahasa Batak Toba: Digunakan di Kabupaten Toba.
Kabupaten Samosir.
Kabupaten Tapanuli Utara dan Kabupaten Humbang Hasundutan.
Bahasa Batak Angkola: Digunakan di Kabupaten Tapanuli Selatan.
Kabupaten Padang Sidempuan.
Kabupaten Padang Lawas Utara.
Kabupaten Padang Lawas, dan sebagian Kabupaten Mandailing Natal.
Bahasa Batak Mandailing: Digunakan di Kabupaten Mandailing Natal dan sebagian juga digunakan di Riau Bagian Utara dan sedikit di Sumatera Barat.
Bahasa Batak Simalungun: Digunakan di Kabupaten CopyrightA 2025 Penulis http://e-jurnal.
Bahasa Batak Karo: Digunakan di Kabupaten Karo.
Langkat.
Dairi.
Deli Serdang.
Medan.
Bahasa Batak Pakpak: Digunakan di Kabupaten Dairi.
Pakpak Barat, sebagian di wilayah Humbang Hasundutan dan Tapanuli Tengah.
Bahasa Batak Angkola adalah salah satu dari beberapa jenis bahasa batak yang ada di daerah Sumatera Utara, yaitu yang terdapat didaerah Tapanuli Bagian Selatan.
Di karenakan wilayah pengguna bahasa Batak Angkola berdekatan dengan Toba dan Mandailing, bahasa mereka pun mempunyai kemiripan, namun di bedakan dari intonasi bahasa Batak Angkola yang lebih halus dibandingkan bahasa Batak Toba dan lebih tegas dibandingkan bahasa Batak Mandailing.
Sejumlah kata bahasa Indonesia memiliki padanan yang tepat di dalam Bahasa Batak Angkola.
Namun, tidak sedikit kata bahasa Indonesia yang tidak memiliki padanan kata dalam bahasa batak Angkola tersebut.
Stemming adalah teknik untuk mendapatkan kata dasar, dari suatu kata yang memiliki atau mengandung prefiks .
, suffiks .
, infiks .
, dan konfiks .
walan-akhira.
(Adriani dkk.
, 2.
Stemming sebagai alat yang efektif dan efisien untuk mengolah kata dasar dalam pengambilan teks.
Stemming merupakan salah satu tahapan dalam text preprosessing.
Algoritma stemming beredar sangat banyak dalam teknik pencarian kata dasar suatu kata atau kalimat.
Stemming digunakan pada pengambilan informasi untuk mengurangi varian bentuk kata menjadi akar kata atau kata dasar untuk meningkatkan efektifitas pengambilan suatu kata atau Beberapa jenis Algoritma Stemming yang beredar:
I-Robot Jurnal.
Vol 9 No.
2 - September 2025
ISSN 2356-3974
Algoritma Nazief & Adriani: Algoritma yang saat ini 2.
3 Metode Analisis Data poluler dan banyak dipakai dalam pemprosesan stemming Pada penelitian ini akan dikumpulkan data berupa katabahasa Indonesia.
Waktu yang digunakan biasanya lebih kata dan jenis imbuhan yang digunakan dalam bahasa Batak lama, namun akurasi lebih baik dibandingkan dengan Angkola.
Selanjutnya dianalisis untuk menghasilkan daftar algoritma stemming lainnya.
Algoritma Arifin Setiono: Algoritma ini mempunyai cara kata dasar serta aturan dari penggunaan imbuhan.
Kemudian dengan mengurangi awalan terlebih dahulu baru akhiran.
berdasarkan daftar kata dasar dan aturan imbuhan tersebut.
Namun apabila tidak menemukan kata dasarnya, ia akan disusun sebuah algoritma dengan melakukan modifikasi dari mengambalikan awalan tersebut dan kembali melakukan algortima Nazief & Adriani dan juga algoritma Arifin Setiono yang dapat digunakan dalam melakukan stemming kata-kata Algoritma Porter: Merupakan algoritma yang banyak dalam bahasa Batak Angkola digunakan dalam proses stemming bahasa Inggris.
Dan masih banyak lagi algoritma stemming yang bisa 4 Alur Penelitian digunakan dengan berbagai kelebihan dan kekurangannya Bagian ini berisi diagram alur langkah penelitian secara masing-masing.
Dengan memilih yang tepat atau cocok untuk lengkap dan terinci termasuk di dalamnya tercermin algoritma, stemming bahasa atau kata tertentu.
rute, pemodelan-pemodelan, desain, yang terkait dengan aspek Beberapa penelitian sebelumnya mengatakan bahwa perancangan sistem Algoritma Porter dapat melakukan proses stemming dengan waktu yang lebih cepat, dan Algoritma Nazief & Adriani dapat menghasilkan akurasi stemming yang lebih baik (Wahyudi , 2.
Penggunaan kamus dalam proses menggunakan algoritma Nazief & Adriani sangat mempengaruhi hasil stemming, semakin lengkap kamus yang dimasukkan maka hasil proses stemming akan semakin akurat (Agusta, 2.
Begitu pula dengan kesimpulan bahwa algoritma Nazief Adriani lebih unggul 0,1% dalam tingkat akurasinya dengan algoritma Arifin Setiono, dan juga lebih unggul 0,9% dengan algoritma Porter (Rezalina, 2.
Dalam pengujian yang menggunakan algoritma Vega dengan komparasi algoritma Nazief & Adriani, terdapat beberapa kesimpulan bahwa untuk rata-rata waktu proses stemming, algoritma Nazief & Adriani lebih lama dibandingkan dengan algoritma Vega.
Sedangkan untuk tingkat akurasi, algoritma Nazief & Adriani Gambar 1.
Alur Penelitian mendapatkan hasil yang lebih baik dari pada algoritma Vega
HASIL DAN PEMBAHASAN
(Sahat & Simarangkir, 2.
METODOLOGI
1 Jenis.
Sifat dan Pendekatan Penelitian Sifat penelitian yang dilakukan menggunakan metode deskriptif kuantitatif.
Dengan menggunakan imbuhan dan kelompok kata dalam bahasa Batak Angkola yang kemudian dengan memberi batasan parameter dan juga sejumlah dataset yang telah di dapat ditetapkan dan dilakukan pengujian untuk mengetahui tingkat akurasi.
Dan juga kumpulan kata dasar dan imbuhan tersebut hendak digunakan sebagai dasar dalam proses stemming untuk bahasa Batak Angkola.
1 Implementasi Aplikasi Stemming Bahasa Batak Angkola Graphical User Interface (GUI) merupakan tampilan yang berfungsi sebagai window atau jendela yang menghubungkan pengguna dengan aplikasi stemming bahasa Batak Angkola.
Pada penerapan penggabungan algoritma watermarking dan parameternya menggunakan pemrograman Java Script.
Tampilan GUI dapat dilihat pada gambar 4.
2 Metode Pengumpulan Data Penelitian ini dilakukan melalui studi pustaka dengan menggunakan bahan referensi yang terkait dengan penelitian, baik melalui buku, artikel, jurnal, dan lainnya yang berkaitan dengan algoritma Nazief & Adriani dan algoritma Arifin Setiono dan tata bahasa dalam bahasa Batak Angkola.
Menggunakan data kumpulan morfem, imbuhan dan kata dalam bahasa Batak Angkola CopyrightA 2025 Penulis http://e-jurnal.
Gambar 2.
Interface Proses Upload Kamus Gambar di atas adalah tampilan awal saat aplikasi Stemming dengan algoritma Nazief & Adriani dijalankan.
I-Robot Jurnal.
Vol 9 No.
2 - September 2025
ISSN 2356-3974
Pada halaman ini ada satu tombol atau button yang berfungsi untuk mengupload kamus Bahasa Batak Angkola sehingga aplikasi bisa digunakan dalam melakukan Stemming Bahasa Batak Angkola.
Setelah kamus di upload maka akan terlihat seperti pada gambar 2 di bawah.
Gambar 3.
Interface Kamus setah di Upload Pada gambar di atas dapat dilihat bahwa kamus yang sudah peneliti uploade langsung didetailkan mulai dari kata yang diberi imbuhan, terjemahan, kata dasar dan hasil stemmingnya.
Setelah itu baru peneliti bisa melakukan stemming kata.
Kamus Bahasa Batak Angkola ini dibuat dalam bentuk file bertype data .
JSON, karena type data ini merupakan type data yang general dan mudah dibaca oleh semua bahasa pemrograman pada saat melakukan stemming.
Adapun jumlah kata dalam kamus Bahasa Batak Angkola ini adalah 3280 kata.
Gambar 4.
Uji Coba Perkata Interface di atas adalah tempat untuk melakukan stemming kata Bahasa Batak Angkola.
Pada uji coba ini peneliti mencoba kata AuadeadeAy yang artinya Aucacing pitaAy dengan kata dasar dari hasil stemming AuadeAy ketika peneliti mengecek kamus menunjukkan hasil stemming benar artinya tidak ada overstemming ataupun Understemming.
Uji coba berikutnya peneliti lakukan dengan melakukan stemming kalimat atau lebih dari satu kata dapat dilihat pada gambar berikut.
2 Parameter Pengujian Algoritma Stemming Nazief dan Andriani Pada penelitian ini peneliti menggunakan dua parameter pengujian, yaitu mengukur tingkat akurasi dan presisi dalam penerapan algoritma stemming Nazief dan Andriani pada Bahasa Batak Angkola.
Akurasi - Menghitung presentase kata yang berhasil di-stemming dengan benar dibandingkan total kata yang di uji.
- Rumus : ( Jumlah kata yang benar di-stemming / total kata yang diuj.
x 100%.
Presisi - Mengukur ketepatan algoritma dalam menghasilkan kada dasar yang benar - Rumus : True Positive / (True Positive False Positiv.
Gambar 5.
Uji Coba Kalimat Pengujian stemming kata pada kalimat atau lebih dari satu kata termasuk berhasil atau aplikasi mampu menampilkan kata dasar dari tiap kata pada bahasa batak Angkola ini dengan benar selama kata yang di stemming berada dalam kamus data bahasa batak Angkola yang di upload.
Uji coba di atas menggunakan kata Auadatua soada adeadeAy yang artinya AuSukurlah tidak ada cacing pitaAy dan aplikasi stemming kata dengan algoritma Nazief & Adriani mampu menampilkan kata dasar dari tiap kata yaitu Auada ada adeAy.
3 Data Penelitian dan Pembahasan Pengujian dilakukan dengan mencoba melakukan stemming pada beberapa kata pada bahasa Batak Angkola.
Pengujiannya dapat dilihat pada gambar di bawah.
Gambar 6.
Overstemming Overstemming adalah kondisi di mana proses stemming menghapus bagian kata yang seharusnya tidak dihapus.
CopyrightA 2025 Penulis http://e-jurnal.
ISSN 2356-3974
I-Robot Jurnal.
Vol 9 No.
2 - September 2025 sehingga menghasilkan kata dasar yang salah dalam algoritma Nazief dan Andriani.
Tabel 1.
Overstemming Urutan Kata mekel-ekel Terjemahan berita terakhir membuat demam tertawa-tawa agak pelan Kata Dasar Stemming Imbar Ada beberapa penyebab utama terjadinya overstemming dalam algoritma Nazief dan Andriani:
Penghapusan Imbuhan yang Sebenarnya Bagian dari Kata Dasar - Kata "ambila" dianggap memiliki ahiran "an" sehingga menjadi "ambil" - Kata "palan" dianggap memiliki awalan "pa" sehingga menjadi "lan" Padahal kata AuambilaAy dan AupalanAy itu adalah kada Kesalahan dalam Pengenalan Pola Imbuhan Algoritma dapat salah dalam mengenali pola huruf yang mirip dengan imbuhan:
- Mengira bagian awal kata sebagai awalan - Mengira bagian akhir kata sebagai akhiran - Kesalahan identifikasi kombinasi imbuhan Kompleksitas Morfologi Bahasa Batak Angkola Bahasa Batak Angkola memiliki struktur morfologi yang kompleks dengan berbagai kombinasi imbuhan.
Hal ini membuat algoritma kesulitan membedakan: Mana yang benarbenar imbuhan.
Mana yang merupakan bagian dari kata dasar dan Bagaimana urutan penghapusan imbuhan yang tepat.
Aturan Penghapusan yang Terlalu Agresif Algoritma mungkin menerapkan aturan penghapusan imbuhan secara berlebihan tanpa mempertimbangkan konteks kata secara keseluruhan.
batu memakai balang dan berdebabAy dengan kata dasar Aubaling dan babAy menjadi Auambalang dan bababAy dimana hasil stemmingnya melebihi kata dasar atau disebut dengan Ada beberapa pengujian yang mengalami understemming dapat dilihat pada tabel berikut.
Tabel 2.
Understemming Urutan Kata Terjemahan batu memakai bertambah subur cara tidur tempat tidur Kata Dasar Stemming Dung Modom Modom Berikut adalah penyebab-penyebab utama terjadinya understemming pada algoritma stemming Nazief dan Andriani:
Ketidakmampuan Mengenali Variasi Morfologis Algoritma gagal mengenali beberapa variasi bentuk imbuhan dalam Bahasa Batak Angkola, seperti:
- Perubahan fonem pada proses pengimbuhan - Variasi penulisan yang tidak standar - Bentuk-bentuk tidak beraturan Keterbatasan Aturan Transformasi Algoritma memiliki keterbatasan dalam menangani:
- Kombinasi imbuhan yang kompleks - Urutan penghapusan imbuhan yang tidak tepat - Kasus-kasus khusus dalam pembentukan kata Kesalahan dalam Urutan Penghapusan Imbuhan Algoritma mungkin tidak menghapus imbuhan dalam urutan yang benar, menyebabkan:
- Imbuhan tertentu tetap tertinggal - Kegagalan mengenali imbuhan berikutnya - Proses stemming berhenti sebelum selesai Kompleksitas Kata Majemuk Kesulitan dalam menangani:
- Kata majemuk yang mengandung imbuhan - Gabungan kata dengan struktur kompleks - Kata-kata dengan makna khusus Penanganan Konfiks yang Tidak Sempurna Gambar 7.
Understemming Understemming adalah kondisi dimana proses stemming tidak berhasil menghapus semua imbuhan yang seharusnya dihilangkan, sehingga kata yang dihasilkan masih mengandung imbuhan dan bukan merupakan kata dasar yang sebenarnya, seperti uji coba di atas menggunakan kata Aumangambalang dan marbababAy yang artinya Aumelemparkan CopyrightA 2025 Penulis http://e-jurnal.
Masalah dalam menangani:
- Konfiks yang terpisah .
e-kan, ber-an, dl.
- Kombinasi konfiks dengan imbuhan lain - Perubahan bentuk konfiks I-Robot Jurnal.
Vol 9 No.
2 - September 2025 Conclusion Dari Penelitian Dengan Judul AuPenerapan Algoritma Nazief & Adriani Dalam Stemming Bahasa Batak AngkolaAy Dapat Disimpulkan Bahwa Pada Penerapan Algoritma Stemming Nazief Dan Adriani Dengan Sampel Data Yang Diujikan Berjumlah 3280 Kata Dibuat Menjadi Satu Kamus Dengan Type Data Json.
Algoritma Ini Mampu Memberikan Tingkat Akurasi Dan Presisi Yang Sangat Tinggi.
Yaitu 99,33%.
Dimana Kata Yang Mengalami Overstemming Berjumlah 7 Kata Dan Yang Mengalami Understemming Berjumlah 15 Dari Keseluruhan Kata Dalam Kamus Yang Berjumlah 3280 Kata.
References