Article Algoritma Cocke-Younger-Kasami untuk Sistem Deteksi Kesalahan Pola Kalimat Bahasa Sunda Oktavia Putri Handayani1*. Sony Kartika Wibisono2. Khoirun Nisa3 1-3Informatika. Universitas Harapan Bangsa. Purwokerto. Indonesia * Correspondence: oktaviaputri378@gmail. Abstract: This study develops a sentence error detection system for the Sundanese language using the Cocke-Younger-Kasami (CYK) algorithm, implemented through a website platform. The system aims to efficiently and accurately detect errors in the structure of Sundanese sentences. The CYK algorithm is used to analyze sentences based on a predefined context-free grammar (CFG). The system is built using HTML. PHP, and CSS to create the user interface and process the Based on testing results, the system successfully identifies both valid and invalid sentence patterns with an accuracy of 94. This research is expected to contribute to the preservation and understanding of the Sundanese language, as well as make it easier for people to correct errors in their everyday communication. Received: 05 January 2025 Revised: 20 February 2025 Accepted: 22 February 2025 Published: 24 February 2025 Copyright: A 2025 by the authors. License Universitas Harapan Bangsa. Purwokerto. Indonesia. This article is an open access article distributed under the terms and conditions of the Creative Commons Attribution (CC BY) license Keywords: Error detection. sentence patterns. sundanese language. ttps://creativecommons. org/licenses/by/4. 0/). CYK algorithm. web-based system. Pendahuluan Bahasa merupakan alat komunikasi utama yang digunakan manusia untuk menyampaikan ide, gagasan, dan Bahasa memiliki sifat yang arbitrer, produktif, dan dinamis (Syahrun Effendi, 2. Selain itu, bahasa juga berfungsi sebagai identitas budaya dan warisan tradisional yang sangat berharga (Meko et al. , 2. Indonesia memiliki lebih dari 700 bahasa daerah, termasuk Bahasa Sunda, yang merupakan salah satu bahasa daerah dengan jumlah penutur terbesar di Indonesia (Maksum et al. , 2. Bahasa Sunda memiliki keunikan pada pola kalimat, tata bahasa, dan struktur yang khas, sehingga keberadaannya menjadi bagian penting dari identitas budaya masyarakat Sunda. Namun, di tengah modernisasi dan globalisasi, minat masyarakat terhadap penggunaan Bahasa Sunda mulai Hal ini tidak hanya berdampak pada berkurangnya pengguna aktif, tetapi juga pada meningkatnya kesalahan dalam penggunaan tata bahasa, baik dalam penulisan maupun pengucapan(Fatimah Djaja Sudarma et , 2. Kesalahan ini sering kali terjadi karena kurangnya pemahaman terhadap kaidah kebahasaan, khususnya pola kalimat yang menjadi inti dari struktur tata bahasa (Annyzaq Pitri Nasution, 2. KORISA 2025. Page 24-33 https://ejournal. id/index. php/korisa Jurnal Kolaborasi Riset Sarjana. Vol. 2 No. 1 Tahun 2025 Page 25 of 33 Dalam perkembangan teknologi digital, pengembangan sistem berbasis komputer menjadi solusi untuk mendukung pelestarian dan pemahaman bahasa daerah. Salah satu metode yang dapat digunakan untuk mendeteksi kesalahan pola kalimat adalah Algoritma Cocke-Younger-Kasami (CYK), yang dikenal efektif dalam menganalisis tata bahasa bebas konteks . ontext-free gramma. (Hopcroft et al. , 2. Algoritma CYK menggunakan pendekatan parsing bottom-up dengan pemrograman dinamis untuk menganalisis struktur kalimat secara efisien (Jurafsky & Martin, 2. Penelitian sebelumnya menunjukkan bahwa Algoritma CYK berhasil diterapkan untuk deteksi kesalahan struktur kalimat dalam berbagai bahasa. Misalnya. Prabowo, dkk. menggunakan algoritma ini untuk mendeteksi kesalahan tata bahasa dan memberikan rekomendasi perbaikan, dengan akurasi mencapai 96%. Sementara itu. Sulianto dan Herwati menggunakan algoritma CYK untuk menganalisis kalimat sesuai kaidah EYD, yang hasilnya menunjukkan efisiensi tinggi dalam identifikasi elemen kalimat (Prabowo et al. , 2. Algoritma CYK yang diimplementasikan dalam penelitian ini diharapkan dapat meningkatkan kualitas penggunaan Bahasa Sunda dan mendukung pelestarian bahasa serta budaya daerah. Sistem ini dirancang menggunakan PHP sebagai bahasa pemrograman utama untuk logika aplikasi, dan CSS untuk desain antarmuka pengguna (Fitrina Annisa Mustada, 2. Sistem ini diharapkan dapat membantu pengguna memahami tata bahasa Sunda secara lebih baik, serta mendukung pelestarian bahasa daerah dengan memanfaatkan teknologi modern (Sulianto & Herawati, 2. Dengan ini, masyarakat dapat meminimalkan kesalahan dalam penulisan Bahasa Sunda sekaligus meningkatkan kesadaran akan pentingnya melestarikan warisan budaya. Metode Penelitian Desain dan Komponen Sistem Penelitian ini bertujuan untuk mengembangkan sistem berbasis website yang mampu mendeteksi kesalahan pola kalimat dalam Bahasa Sunda menggunakan algoritma Cocke-Younger-Kasami (CYK). Sistem ini dikembangkan menggunakan PHP untuk pemrosesan server. HTML dan CSS untuk antarmuka pengguna. Komponen utama yang membangun sistem ini meliputi: Index. php berisi struktur utama halaman web menggunakan HTML, formulir untuk menerima input teks dari pengguna, dan logika pemrosesan menggunakan algoritma CYK untuk memvalidasi pola kalimat berdasarkan tata bahasa Sunda yang telah didefinisikan dalam variabel $grammar. Algoritma ini bekerja dengan memeriksa susunan kata menggunakan aturan tata bahasa dalam bentuk CNF dan menampilkan hasil validasi apakah kalimat tersebut sesuai atau tidak. Styles. css berfungsi untuk mengatur tampilan halaman, termasuk desain latar belakang dengan gambar, tata letak responsif, serta elemen visual seperti form, tombol, dan hasil validasi agar terlihat menarik dan Algoritma CYK Algoritma Cocke-Younger-Kasami (CYK) adalah metode parsing yang digunakan untuk menganalisis sintaksis kalimat berdasarkan tata bahasa bebas konteks (Context-Free Grammar. CFG) yang dinyatakan dalam Chomsky Normal Form (CNF). Algoritma ini merupakan metode parsing bottom-up, yang artinya mulai memeriksa bagian terkecil dari kalimat dan secara bertahap membangun struktur sintaksis yang lebih besar. CYK menggunakan tabel dua dimensi untuk menyimpan informasi tentang kemungkinan non-terminal yang dapat menghasilkan substrings dari kalimat input. Algoritma ini bekerja dengan langkah-langkah sebagai berikut: KORISA 2025. Page 24-33 https://ejournal. id/index. php/korisa Jurnal Kolaborasi Riset Sarjana. Vol. 2 No. 1 Tahun 2025 Page 26 of 33 Inisialisasi Tabel Tabel dua dimensi P berukuran . , di mana n adalah jumlah kata dalam kalimat input. Setiap elemen P. dalam tabel menyimpan himpunan non-terminal yang dapat menghasilkan substring dari posisi i hingga j dalam kalimat. Diagonal tabel, ycE. cn, ycn . , diisi dengan non-terminal yang sesuai dengan kata terminal pada posisi ycn dari kalimat input menggunakan aturan unary. Pengisian Tabel Setelah tabel diinisialisasi, tabel diisi menggunakan aturan biner yang ada dalam tata bahasa. Untuk setiap substring yang lebih panjang dari satu kata, algoritma memeriksa semua kemungkinan pembagian substring menjadi dua bagian. Jika ada non-terminal yang dapat menghasilkan kedua bagian tersebut, nonterminal yang sesuai ditambahkan ke tabel. Validasi Kalimat Setelah tabel terisi, kalimat dianggap valid jika simbol awal tata bahasa . tart symbo. ada di dalam entri tabel yang mewakili keseluruhan kalimat, yaitu pada P. , yang mewakili keseluruhan kalimat tersebut. Jika simbol awal ditemukan, kalimat tersebut valid sesuai dengan aturan tata bahasa yang digunakan. Implementasi Algoritma CYK dalam Sistem Implementasi algoritma Cocke-Younger-Kasami (CYK) pada sistem deteksi kesalahan pola kalimat bertujuan untuk menganalisis struktur sintaksis kalimat secara sistematis berdasarkan tata bahasa bebas konteks (CFG). Algoritma CYK dipilih karena keandalannya dalam memproses parsing bottom-up dengan menggunakan pendekatan pemrograman dinamis. Dalam sistem ini, algoritma diterapkan untuk memverifikasi kesesuaian susunan kata pada kalimat input dengan aturan tata bahasa yang telah didefinisikan. Berikut adalah tahapnya: Input dan Pemrosesan Pada tahap Input dan Pemrosesan, pengguna memulai dengan memasukkan kalimat melalui antarmuka web yang disediakan oleh sistem, yang diolah oleh file index. Kalimat yang dimasukkan kemudian dipecah menjadi kata-kata individu menggunakan fungsi explode() dalam PHP. Setelah itu, setiap kata dicocokkan dengan aturan tata bahasa yang telah didefinisikan dalam sistem, seperti aturan yang ada dalam variabel $grammar. Pola kalimat disusun berdasarkan urutan kelas kata yang telah dipetakan, seperti subjek, predikat, objek, atau lainnya, sehingga membentuk representasi struktural dari kalimat Validasi Pola Kalimat Pada tahap Validasi Pola Kalimat, sistem menginisialisasi tabel dua dimensi untuk menyimpan nonterminal yang dapat menghasilkan substring dari kalimat input. Diagonal tabel diisi dengan non-terminal yang sesuai dengan kata terminal yang ada pada kalimat tersebut. Kemudian, tabel diisi menggunakan aturan produksi biner dari tata bahasa yang berlaku. Sebagai contoh, jika sebuah non-terminal S dapat menghasilkan kombinasi dua bagian kalimat, tabel akan mencatat informasi tersebut. Pada akhirnya, sistem memeriksa apakah simbol awal tata bahasa, seperti S, terdapat pada entri tabel yang mewakili keseluruhan kalimat. Jika simbol tersebut ada, kalimat dianggap valid sesuai dengan aturan tata bahasa yang telah ditentukan. Pengujian dan Evaluasi pengujian dilakukan untuk memastikan bahwa sistem dapat mendeteksi kesalahan dalam kalimat dengan benar. Pengujian positif dilakukan dengan menggunakan kalimat yang benar dan sesuai dengan aturan tata bahasa untuk memastikan sistem dapat memvalidasi kalimat yang valid. Sebaliknya, pengujian negatif dilakukan dengan memasukkan kalimat yang salah, misalnya dengan mengacak urutan kata, untuk memastikan bahwa sistem dapat mendeteksi kesalahan dan menandainya sebagai kalimat yang tidak valid. Evaluasi sistem dilakukan dengan KORISA 2025. Page 24-33 https://ejournal. id/index. php/korisa Jurnal Kolaborasi Riset Sarjana. Vol. 2 No. 1 Tahun 2025 Page 27 of 33 memperhatikan dua aspek utama, yaitu akurasi dalam mendeteksi kalimat yang benar dan salah serta waktu pemrosesan yang efisien. Pengujian positif memastikan kalimat yang sesuai dengan aturan dapat divalidasi dengan benar, sementara pengujian negatif memastikan kesalahan dapat terdeteksi. Dengan demikian, metode pengujian ini memberikan gambaran yang jelas mengenai kinerja dan efektivitas sistem dalam mendeteksi kesalahan pola kalimat. Tahap ini menggunakan confusion matrix yang memiliki dua kelas yaitu sesuai harapan dan tidak sesuai harapan. Dimana TP. TN. FN dan FN merupakan singkatan dari true positives, true negatives, false positives, dan false negatives. Akurasi. Presisi, recall, dan f1 score digunakan sebagai metrik pada evaluasi performa dari klasifikasi. Metrik tersebut diformulasikan pada persamaan . , . , . !"#!$ Akurasi = !"#!$#%"#%$ y 100% . Presisi = !"#%" y 100% . Recall = !"#%$ F1 Oe Score = y 100% & y ")* , , y -*. /00 ")* , ,#-*. /00 Hasil dan Pembahasan Sistem deteksi kesalahan pola kalimat Bahasa Sunda berbasis algoritma Cocke-Younger-Kasami (CYK) telah berhasil dikembangkan dan diimplementasikan dengan menggunakan beberapa komponen penting. Sistem ini dibuat menggunakan HTML. PHP, dan CSS. HTML berfungsi untuk menyusun struktur halaman website dengan menggunakan tag-tag untuk menata setiap elemen yang ada di dalam halaman. HTML adalah bahasa standar untuk membangun struktur dokumen web, yang dapat dikelola dan disesuaikan oleh penggunanya melalui W3C (World Wide Web Consortiu. (Canggih Ajika Pamungkas, 2. PHP adalah bahasa pemrograman yang digunakan sebagai interpreter untuk menerjemahkan kode sumber menjadi instruksi yang dipahami oleh mesin saat kode tersebut dieksekusi. PHP adalah bahasa pemrograman dengan lisensi sumber terbuka, yang memungkinkan pengguna untuk menyesuaikan dan mengembangkan fungsinya sesuai dengan kebutuhan. Sedangkan CSS digunakan untuk menentukan tampilan elemen-elemen HTML di halaman web, memberikan desain visual yang lebih menarik dan konsisten dengan memisahkan struktur dan desain dari konten (Satria Utama et al. , 2. Sistem deteksi ini dibangun untuk mendeteksi kesalahan pola kalimat Bahasa Sunda secara struktural, menggunakan algoritma CYK untuk melakukan analisis pola kalimat. Diagram alur sistem deteksi kesalahan pola kalimat Bahasa Sunda yang dikembangkan dalam penelitian ini disajikan pada Gambar 1. KORISA 2025. Page 24-33 https://ejournal. id/index. php/korisa Page 28 of 33 Jurnal Kolaborasi Riset Sarjana. Vol. 2 No. 1 Tahun 2025 Gambar 1. Diagram Alur Sistem Deteksi Kesalahan Pola Kalimat Bahasa Sunda Berdasarkan Diagram Alur Sistem Deteksi Kesalahan Pola Kalimat Bahasa Sunda pada Gambar 1, pengembangan sistem dilakukan menggunakan HTML. PHP, dan CSS untuk menghasilkan website yang terdiri dari halaman utama dan halaman deteksi kalimat. Berikut adalah pembahasan mengenai dua halaman utama dalam sistem ini: Halaman Utama Halaman utama menyediakan antarmuka pengguna yang sederhana dan intuitif untuk memasukkan kalimat Bahasa Sunda yang ingin dianalisis. Pengguna dapat mengetikkan kalimat di kolom yang disediakan dan sistem akan melakukan deteksi pola kalimat apakah sesuai dengan aturan yang telah Tampilan antarmuka halaman utama dapat dilihat pada Gambar 2. Gambar 2. Halaman Utama Website Halaman Deteksi Bahasa Setelah kalimat dimasukkan, halaman deteksi akan menampilkan hasil analisis menggunakan algoritma CYK. Algoritma ini menganalisis struktur kalimat berdasarkan aturan yang didefinisikan dalam tata bahasa yang ada di dalam variabel $grammar. Jika kalimat yang dimasukkan sesuai dengan aturan yang KORISA 2025. Page 24-33 https://ejournal. id/index. php/korisa Page 29 of 33 Jurnal Kolaborasi Riset Sarjana. Vol. 2 No. 1 Tahun 2025 ditentukan, sistem akan menampilkan hasil AuvalidAy. Sebaliknya, jika kalimat tidak sesuai dengan pola yang telah ditentukan, hasil yang ditampilkan adalah Autidak validAy. Gambar 3. Hasil Deteksi AuValidAy Gambar 4. Hasil Deteksi AuTidak ValidAy Hasil Pengujian Kalimat Bahasa Sunda Pengujian terhadap sistem deteksi kesalahan pola kalimat Bahasa Sunda dilakukan dengan menggunakan beberapa kalimat uji yang bervariasi. Tujuan dari pengujian ini adalah untuk memastikan bahwa sistem dapat mendeteksi apakah susunan kata dalam kalimat tersebut sesuai dengan pola yang benar atau tidak. Tabel 1 menunjukkan hasil deteksi sistem terhadap beberapa kalimat yang diuji. KORISA 2025. Page 24-33 https://ejournal. id/index. php/korisa Page 30 of 33 Jurnal Kolaborasi Riset Sarjana. Vol. 2 No. 1 Tahun 2025 Tabel 1. Hasil Pengujian Kalimat Bahasa Sunda Kalimat Pola Kalimat "ani maca buku" "budi dahar roti" "sari nulis air" "kucing nginum peuyeum" "anjing lila piring" "guru ngajual balon" "ani maca gancang" "budi dahar pelan" "sari nulis gancang" "kucing nginum pelan" "guru ngajual pelan" "budi kucing" "ani roti" "sari beureum" "kucing dahar" "anjing maca" "maca buku" "dahar air" Benar Benar Benar Benar Benar Benar Benar Benar Benar Benar Salah Salah Salah Salah Salah Salah Salah Salah Hasil Deteksi Sistem Valid Valid Valid Valid Valid Valid Valid Valid Valid Valid Valid Tidak Valid Tidak Valid Tidak Valid Tidak Valid Tidak Valid Tidak Valid Tidak Valid Hasil Pengujian Sesuai Harapan Sesuai Harapan Sesuai Harapan Sesuai Harapan Sesuai Harapan Sesuai Harapan Sesuai Harapan Sesuai Harapan Sesuai Harapan Sesuai Harapan Tidak Sesuai Harapan Tidak Sesuai Harapan Tidak Sesuai Harapan Tidak Sesuai Harapan Tidak Sesuai Harapan Tidak Sesuai Harapan Tidak Sesuai Harapan Tidak Sesuai Harapan Berdasarkan hasil pengujian sistem didapatkan tabel untuk menghitung confusion matrix berupa TN. FN. FP, dan TP tertuang pada tabel 2. Tabel 2. Confusion Matrix Eksperimen Kelas Aktual Positif(Vali. Negatif(Tidak Vali. Kelas Prediksi Positif(Vali. Negatif(Tidak Vali. Evaluasi model klasifikasi merupakan tahapan penting dalam mengukur keandalan dan akurasi algoritma terhadap data yang diolah. Pada penelitian ini, performa model dinilai menggunakan confusion matrix, sebagaimana ditampilkan pada Gambar 5. KORISA 2025. Page 24-33 https://ejournal. id/index. php/korisa Page 31 of 33 Jurnal Kolaborasi Riset Sarjana. Vol. 2 No. 1 Tahun 2025 Gambar 5. Performa Model Menggunakan Confusion Matrix Hasil analisis menunjukkan bahwa model mampu memprediksi 10 data dalam kelas aktual "Positif (Vali. " dengan benar sebagai "Positif (Vali. ", menghasilkan nilai TP = 10. Model juga berhasil mengklasifikasikan dengan benar sebanyak 7 data dalam kelas aktual "Negatif (Tidak Vali. " sebagai "Negatif (Tidak Vali. " (TN = Namun, terdapat 1 data dari kelas "Negatif (Tidak Vali. " yang salah diprediksi sebagai "Positif (Vali. " (FP = . , sementara tidak ada data yang salah diklasifikasikan dari "Positif (Vali. " ke "Negatif (Tidak Vali. " (FN = . Data tersebut digunakan untuk menghitung akurasi, presisi, recall dan f1-score. Akurasi Akurasi = 10 7 y 100% 10 7 1 0 Akurasi = y 100% Akurasi = 94. Presisi Presisi = y 100% 10 1 Presisi = y 100% Presisi = 90. Recall Recall = KORISA 2025. Page 24-33 y 100% 10 0 https://ejournal. id/index. php/korisa Page 32 of 33 Jurnal Kolaborasi Riset Sarjana. Vol. 2 No. 1 Tahun 2025 Recall = y 100% Recall = 100% F1-Score F1 Oe Score = 2 y 90. 91 y 100 F1 Oe Score = F1 Oe Score = 95. Berdasarkan hasil Confusion Matrix yang diperoleh, evaluasi performa model menunjukkan akurasi sebesar 94,44%. Nilai ini diperoleh dengan membandingkan jumlah prediksi benar (True Positive dan True Negativ. terhadap total data. Selanjutnya, presisi model dihitung sebesar 90,91%, yang menunjukkan kemampuan model dalam memprediksi kelas Positif (Vali. secara benar dari seluruh prediksi Positif yang dibuat. Recall, yang mengukur kemampuan model dalam mengidentifikasi seluruh data Positif yang sebenarnya, tercatat sebesar 100%, menandakan bahwa semua data Positif (Vali. berhasil teridentifikasi oleh model. Kombinasi antara presisi dan recall kemudian diukur menggunakan metrik F1-Score, yang dihasilkan sebesar 95,24%. Nilai ini menggambarkan keseimbangan antara presisi dan recall yang cukup baik, menunjukkan bahwa model mampu memberikan performa yang optimal dalam klasifikasi data. Berdasarkan hasil evaluasi ini, model memiliki performa yang sangat baik dan konsisten dalam mengklasifikasikan data dengan tingkat kesalahan yang Hasil ini memberikan kepercayaan bahwa model dapat digunakan untuk tugas klasifikasi serupa dengan tingkat akurasi yang tinggi. Kesimpulan Penelitian ini berhasil mengembangkan sistem deteksi kesalahan pola kalimat Bahasa Sunda berbasis algoritma Cocke-Younger-Kasami (CYK) yang diimplementasikan dalam platform website. Sistem ini mampu mendeteksi pola kalimat yang valid dan tidak valid dengan tingkat akurasi sebesar 94,44%, presisi 90,91%, recall 100%, dan F1-score 95,24%. Hasil ini menunjukkan bahwa algoritma CYK efektif dalam menganalisis struktur kalimat sesuai tata bahasa bebas konteks (CFG) yang telah didefinisikan, memberikan solusi cepat dan akurat dalam mendeteksi kesalahan sintaksis pada kalimat Bahasa Sunda. Sistem ini memberikan manfaat praktis dalam membantu masyarakat memeriksa dan memperbaiki kesalahan kalimat dengan mudah, serta mendukung pelestarian bahasa daerah, khususnya Bahasa Sunda, di era digital. Meski telah menunjukkan performa yang memuaskan, penelitian lebih lanjut diperlukan untuk meningkatkan akurasi dan cakupan sistem. Salah satu langkah yang dapat dilakukan adalah memperluas database kosakata dan aturan tata bahasa, serta mengintegrasikan algoritma parsing yang lebih canggih untuk menangani struktur kalimat yang lebih kompleks. Dengan pengembangan yang berkelanjutan, sistem ini berpotensi menjadi alat bantu penting dalam pendidikan bahasa dan pelestarian budaya Sunda, sekaligus berkontribusi terhadap kemajuan teknologi bahasa di Indonesia. KORISA 2025. Page 24-33 https://ejournal. id/index. php/korisa Page 33 of 33 Jurnal Kolaborasi Riset Sarjana. Vol. 2 No. 1 Tahun 2025 Sistem ini tidak hanya membantu pelestarian budaya tetapi juga memperkuat pengembangan teknologi lokal yang relevan di masa depan. Daftar Pustaka