Jurnal AL-AZHAR INDONESIA SERI HUMANIORA. Vol . No. Maret 2016 Penyusunan Model Korpus Al-QurAoan Digital Nur Hizbullah1. Fazlurrahman2. Fuzi Fauziah3 1, 2, 3 Program Studi Sastra Arab. Fakultas Sastra. Universitas Al Azhar Indonesia Jalan Sisingamangaraja. Kebayoran Baru. Jakarta Selatan 12110 Penulis untuk Korespondensi/E-mail: nurhz@uai. Abstrak Ae Penelitian ini bertujuan menyusun sebuah model file korpus Al-Qur'an digital yang dapat digunakan sebagai bahan data primer bagi penelitian kebahasaan dalam kerangka cabang ilmu linguistik korpus yang berkenaan dengan daftar kata . ord lis. dan konkordansi . dalam Al-Qur'an. Penelitian ini menggunakan metode kombinasi antara eksplorasi dan eksperimen yang digunakan untuk mencari berbagai aplikasi pengolah korpus dan menguji coba satu persatu aplikasi itu untuk mengolah korpus teks Al-Qur'an bertulisan Arab dengan segala karakteristiknya. Setelah aplikasi yang tepat ditemukan, langkah berikutnya menggunakan metode deskriptif yaitu menguraikan secara faktual mekanisme pengolahan bahan digital menjadi format korpus Al-Qur'an sekaligus menyusun dafar kata dan konkordansinya dalam Al-Qur'an. Penelitian ini menunjukkan bahwa aplikasi WordSmith adalah yang paling memadai untuk melakukan pengolahan teks berbahasa Arab dalam kerangka linguistik korpus. Dengan prosedur dan langkah-langkah yang sesuai dengan sistematika aplikasi tersebut, dapat dihasilkan file Al-Qur'an digital yang memenuhi syarat teknis untuk diolah guna menyusun daftar kata dan konkordansi. Kata kunci : linguistik korpus, korpus Al-Qur'an, daftar kata, konkordansi Abstract Ae This research aims to develop a model of the corpus file digital Qur'an that can be used as primary data for the study of language in terms of corpus linguistics branch of science with regard to word list and concordance in the Qur'an. This research is using a combination method of exploration and experimentation that are used to search for a variety of corpus processing applications and tested one by one to process Arabic Qur'an text with all its And after having found the right application, the next step is using descriptive method that describes in factual material processing mechanisms into digital format at the same corpus of the Qur'an and its concordance and word list. This study shows that the WordSmith software is the most adequate to do the Arabic text processing within the framework of corpus With procedures and measures in accordance with the application, it can produces a digital file of the Qur'an that is technically qualified to be processed in order to compile a list of words and a concordance. Keywords: corpus linguistics, corpus Al-Qur'an, word list, concordance PENDAHULUAN Al-QurAoan menjadi sumber utama bagi ajaran Islam. Selain Al-QurAoan kedudukannya sebagai acuan utama berbagai disiplin ilmu, baik ilmu alam, ilmu pasti, maupun ilmu sosial-humaniora. Bagi salah satu cabang dalam rumpun ilmu humaniora, yaitu ilmu bahasa, dalam hal ini bahasa Arab. AlQur'an merupakan sumber data primer karena memiliki ragam bahasa yang baku dan tinggi, baik dalam aspek gramatika, retorika, stilistika, maupun sisi kebahasaan Arab yang lain. Kajian kebahasaan terhadap Al-Qur'an sudah menjadi perhatian para linguis Arab maupun non-Arab sejak dahulu kala. Orientasi kajian pun beragam, mulai dari tataran bahasa paling Jurnal AL-AZHAR INDONESIA SERI HUMANIORA. Vol . No. Maret 2016 rendah, seperti fonem, morfem, lalu setingkat di atasnya, seperti kajian kosa kata, sampai ke tataran yang lebih tinggi dan luas, yaitu kajian struktur kalimat, kajian makna, dan kajian Beragam kajian itu memposisikan AlQur'an sebagai sebuah teks, dalam hal ini teks Namun, model teks Al-Qur'an sendiri berkembang dari zaman ke zaman. Sebelum era digital, teks Al-Qur'an hanya dituliskan dengan tangan di atas kertas kuno atau tertera di atas lembaran kertas yang dicetak secara konvensional lazimnya beredar di kalangan umat Islam dan bangsa lain. Di era modern, khususnya di era digital, teks AlQur'an telah dikonversi ke banyak model teks dan bisa diolah melalui ber-bagai piranti lunak maupun aplikasi digital khusus, sekali lagi, dalam konteks Al-QurAoan sebagai sebuah teks Situasi itu kemudian memposisikan Al-Qur'an sebagai AukorpusAy. Dalam ilmu linguistik, korpus adalah sekumpulan data, bisa konvensional maupun digital, dalam bentuk tertulis yang mengandung berbagai informasi kebahasaan untuk diteliti mulai dari tataran kata, struktur, makna, dan wacana. Dalam perkembangan terkini, teks Al-Qur'an banyak diolah dalam bentuk digital dan menjadi bahan utama yang sangat penting bagi kajian linguistik terhadap kitab suci pada era penelitian lebih lanjut. Di masa kini, berkembang suatu cabang ilmu di bawah rumpun ilmu linguistik, yaitu linguistik Menurut pengertiannya, linguis-tik korpus meneliti bahasa melalui seperangkat data yang sifatnya alamiah, apa adanya, baik itu data tulisan maupun data lisan yang ditranskripsikan atau dituliskan (Adolphs, 2006: . Menurut Cheng . 2: . , linguistik korpus menganalisis data dengan berdasarkan kategori dan satuan analisisnya. Lebih lanjut, kategori dan satuan analisis yang paling penting dalam linguistik korpus adalah daftar kata . ord lis. dan korkondansi . Daftar kata berisi semua kata yang terdapat dalam data dan disertai dengan jumlah frekuensi kemunculan kata dalam teks. Adapun konkordansi adalah daftar kata-kata yang berkolokasi dan membentuk suatu makna berdasarkan konteks dan koteksnya (Adolphs, 2006: . Dahulu kala, semua data kebahasaan tulisan masih berupa manuskrip atau tulisan konvensional. Sejak ditemukannya teknologi komputer dan dimulainya era digital, kini data kebahasaan berupa tulisan atau teks serta bahasa lisan yang dituliskan dapat disimpan dan diolah secara digital dengan lebih Di sinilah linguistik korpus mengambil bagian, yaitu mengolah data kebahasaan yang sudah berbentuk digital. Apabila dulu Al-Qur'an hanya berupa mushaf konvensional bertulisan tangan dan lalu dicetak dengan berbagai bentuk dan variasi tulisan, seiring dengan perkem-bangan dan kemajuan teknologi, kini Al-Qur'an pun memasuki era Format digital Al-Qur'an kini tersedia dalam berbagai versi: ada yang berupa gambar dalam aplikasi Al-Qur'an digital, ada yang berupa font yang dapat diinstalasikan ke dalam sistem operasi komputer, maupun teks digital biasa yang bisa diakses dan diolah dengan aplikasi pengolah kata. Berbagai bentuk teks digital yang sudah ada setakat ini cukup bisa dimanfaatkan dalam beberapa penggunaan yang terbatas, seperti aplikasi Al-QurAoan digital untuk bacaan, dan lain sebagainya. Namun, untuk penelitian yang memanfaatkan format digital teks Al-QurAoan, format yang ada masih harus diolah dan diverifikasi agar dapat dijadikan bahan dasar bagi format baru yang disebut dengan korpus Al-Qur'an. Untuk menyusun format tersebut, penelitian ini akan melakukan sejumlah langkah guna menyiapkan suatu model data yang nantinya dapat dimanfaatkan untuk berbagai kajian kebahasaan terhadap Al-Qur'an oleh berbagai pihak yang berminat kepada kajian bahasa Arab Al-Qur'an, terutama yang menggunakan linguistik korpus. Diharapkan agar produk atau hasil kajian itu nantinya dapat membantu mempermudah masyarakat dalam memahami Al-Qur'an serta dan menyingkap banyak sisi kebahasaan yang kaya akan informasi penting seputar ajaran dan nilai Islam. Dengan latar belakang situasi tersebut, menyusun sebuah model file korpus Al-Qur'an digital yang dapat digunakan sebagai bahan data primer bagi penelitian kebahasaan dalam kerangka cabang ilmu linguistik korpus yang berkenaan dengan daftar kata . ord lis. dan konkordansi . dalam Al-Qur'an. Jurnal AL-AZHAR INDONESIA SERI HUMANIORA. Vol . No. Maret 2016 Dengan mengacu kepada tujuan penelitian tersebut, maka rumusan masalah penelitian ini terfokus pada model file korpus Al-Qur'an digital yang dapat dijadikan bahan data primer bagi penelitian kebahasaan dalam kerangka Adapun penelitian yang diajukan adalah: Aplikasi apa yang paling representatif digunakan untuk membuat model file korpus Al-Qur'an digital? Bagaimana format file yang dapat diolah aplikasi tersebut? Bagaimana format isi teks digital yang akan diolah dengan aplikasi tersebut? Bagaimana teknik membuat daftar kata dan konkordansi dalam Al-Qur'an dengan menggunakan aplikasi tersebut? Bidang sesungguhnya sangatlah luas. Demikian pula dengan Al-QurAoan sebagai objek penelitian. Oleh karena itu, lingkup penelitian ini dibatasi hanya pada aspek pengolahan bahan data digital bernama AuAl-Mushaf Al-ImlaAoiAy dengan menggunakan aplikasi pengolah korpus yang representatif untuk menghasilkan format digital standar yang dapat digunakan untuk melakukan pemetaan daftar kata dan konkordansi dalam Al-Qur'an. Penelitian ini diharapkan nantinya secara khusus dapat memberikan kontribusi berupa : Terbentuknya model teks digital Al-Qur'an yang bisa digunakan untuk pemetaan daftar kata dan konkordansi. contoh model pemetaan daftar dan konkordansi kata dan kalimat dalam AlQur'an, serta sistematika penelitian korpus Al-Qur'an menggunakan bahan digital. Penelitian ini memang hanya terfokus pada AlQuran digital sebagai model awal. Namun demikian, nantinya model dan prosedur yang ada dapat digunakan secara luas dalam berbagai kajian maupun keperluan di bidang bahasa Arab. Sebagai contoh, penyusunan daftar kata ataupun kamus bahasa di bidang khusus dapat menggunakan pendekatan ini. Daftar istilah bahasa Arab di bidang diplomasi, misalnya, dapat diambilkan dari sejumlah teks berbahasa Arab yang berkisar pada topik-topik Manfaat berikutnya, daftar istilah tersebut dapat digunakan sebagai salah satu bahan ajar bahasa Arab diplomasi sebagai kosa kata yang harus dikenali dan dikuasai oleh mahasiswa/pembelajar. Demikian pula di bidang-bidang lainnya, penelitian ini nantinya penyusunan korpus dari suatu teks sumber TEORI TENTANG LINGUISTIK KORPUS Penelitian ini sesungguhnya adalah sebuah model dari kajian dalam bidang ilmu linguistik Menurut pengertiannya, linguistik korpus adalah sebuah metode empiris dalam analisis dan deskripsi linguistik untuk meneliti bahasa yang dipakai oleh para penutur secara Bahasa berdasarkan kategori tertentu lalu diteliti dengan tujuan mencapai pemahaman yang benar dari pemakaian bahasa tersebut (Cheng, 2012:6, 29-. Pada tahun 1980-an. Linguistik Korpus mulai me-rambah kepada pemanfan metodologi korpus. Sejak itu, kemunculan sejumlah korpus dan kajian berbasis korpus semakin meningkat drastis. Pada masa kini, metodologi korpus sudah sangat populer dan bahkan digunakan di berbagai macam riset multidisiplin ilmu pengetahuan. Dalam hal penyusunan korpus bahasa, kini sudah tersedia banyak sekali model korpus Wikipedia, misalnya, mendata ada sejumlah korpus bahasa yang dibagi ke dalam beberapa kelompok bahasa. Uniknya, bahasa Inggris berada dalam kelompok tersendiri karena ketersediaan banyak sekali ragam dan sumber korpusnya, seperti yang paling terkemuka dan termutakhirkan adalah British National Corpus (BNC). American National Corpus (ANC). Corpus of Contemporary American English (COCA), dan lain Selain bahasa Inggris korpus bahasa-bahasa dunia dimuat daftarnya di laman wikipedia dalam kelompok-kelompok bahasa Eropa, bahasa Timur Tengah, bahasa Asia Timur, korpus paralel multibahasa, dan korpus perbandingan antarbahasa. https://en. org/wiki/List_of_text_ corpora, diakses 29 Juli 2016 Jurnal AL-AZHAR INDONESIA SERI HUMANIORA. Vol . No. Maret 2016 Dalam penyusunan korpus bahasa Arab, melalui aplikasi Sketch Engine, misalnya, telah tersedia korpus yang berisi lebih kurang 5,8 juta kata . dan dikembangkan menjadi 8,3 juta kata . 2 yang diambil dari berbagai sumber. Selain itu, tercatat ada sekitar 18 jenis korpus dari berbagai sumber dalam sublaman University of Leeds, di antaranya Corpus of Contemporary Arabic. Arabic Gigaword, dan yang sedang dalam pengembangan adalah International Corpus of Arabic oleh University of Alexandria. Mesir. Di samping sudah tersedianya korpus bahasa Arab, disusun pula korpus khusus mengenai Al-Qur'an dengan menggunakan berbagai pendekatan dan aplikasi. Yang paling representatif kiranya adalah karya University of Leed, yaitu The Quranic Arabic Corpus. 4 Lebih dari sekadar korpus Al-Qur'an, laman itu menyediakan berbagai peta analisis kebahasaan Al-Qur'an, seperti terjemah kata-per-kata dengan bahasa Inggris, kamus Al-Qur'an. AupohonAy sintaksis struktur konsep dan kata dalam Al-Qur'an, dan gramatika Al-Qur'an. Laman ini menyediakan pula file Al-Qur'an digital dalam format *. txt yang bisa diunduh untuk bahan analisis. Namun, file tersebut hanya berisi teks Al-Qur'an bertransliterasi latin, bukan Arab, meski dilengkapi dengan status gramatikal setiap kata dalam Al-Qur'an. Hal itu menjadi tantangan tersendiri bagi langkah analisis teks Al-Qur'an dengan aplikasi pengolah korpus. Pendalaman lebih lanjut dilakukan Sharaf . Melalui situs resminya. Sharaf memperkenalkan serangkaian kajiannya berikut hasil pemetaan konseptual dengan aplikasi Namun, tidak dapat ditemukan bahan digital olahannya yang dapat diunduh dan dimanfaatkan oleh para peneliti lain untuk melakukan ataupun melanjutkan pekerjaannya. Selain laman web, ada pula beberapa aplikasi khusus yang berisi data dan analisis gramatika https://w. uk/artenten-corpus/ diakses 29 Juli 2016 http://w. uk/eric/latifa/arabic_c htm, diakses 29 Juli 2016 http://corpus. com/ diakses 29 Juli 2016 http://w. com/wiki/QurCo ncord, diakses 29 Juli 2016 kebahasaan Al-Qur'an, di antaranya adalah QuranCode. Namun, aplikasi ini hanya memberikan gambaran jumlah kata dan gramatika kata-kata dalam Al-Qur'an meski dilengkapi dengan informasi klasifikasi ayat berdasarkan kategori makiyah dan madaniyah, pencarian kata, dan lain-lain. 6 Aplikasi ini belum optimal fungsinya jika harus digunakan untuk keperluan analisis korpus yang lebih Yang menjadi catatan penelitian ini sampai bagian ini adalah belum adanya model file AlQur'an digital yang tersedia dan dapat digunakan untuk melakukan analisis korpus serta cara pengolahan file tersebut dengan aplikasi tertentu. Atas dasar itulah, penelitian ini memandang perlunya penyusunan model korpus Al-Qur'an digital untuk penelitian dengan pendekatan linguistik korpus. Penelitian ini mengacu antara lain kepada sejumlah penelitian terdahulu yang terkait dengan korpus bahasa Arab dan khususnya korpus Al-Qur'an. Di Indonesia, kajian linguistik korpus tergolong baru, apalagi terhadap teks-teks keagamaan seperti AlQur'an. Oleh karena itu, dipilihlah beberapa penelitian dari luar negeri yang berkenaan dengan korpus Al-Qur'an berikut ini. Khan dan Alginahi . menulis laporan penelitian tentang tantangan dan keperluan digitalisasi Al-Qur'an. Dengan metode survei menggunakan kuesioner, mereka mencoba melihat sejauh mana kebutuhan umat Islam terhadap upaya digitalisasi Al-Qur'an dalam konteks penggunaannya untuk keperluan rutin seperti membaca dan mempelajarinya. Para peneliti menyimpulkan, secara umum, umat Islam yang menjadi responden penelitian mereka, terlebih generasi muda yang sudah akrab dengan teknologi, merasa perlunya langkah segera dan menyeluruh bagi digitalisasi Al-Qur'an. Untuk mendukung hal itu, penelitian mereka merekomendasikan agar format digital Al-Qur'an dibuat semudah dan seramah mungkin dengan pengguna serta diawasi dan dikendalikan oleh lembaga yang berwenang agar tidak terjadi dan tersebar kesalahan-kesalahan yang dapa merusak kesucian Al-Qur'an. http://heliwave. com, diakses 29 Juli 2016 Jurnal AL-AZHAR INDONESIA SERI HUMANIORA. Vol . No. Maret 2016 Salah satu langkah penyusunan korpus bahasa Arab yang mencantumkan Al-Qur'an sebagai salah satu sumbernya adalah yang dilakukan oleh Alrabia . , 2. Mereka menamakan korpusnya dengan King Saud University Corpus of Classical Arabic. Sesuai namanya, mereka hanya mengambil korpus dari bahasa Arab periode klasik dan Al-Qur'an termasuk ke dalam periode itu. Mereka beralasan bahwa pola bahasa Arab klasik adalah basis teori linguistik Arab dan harus diperlakukan serta dipahami secara akademis. Korpus ini mencakup 50 juta kata dari khazanah bahasa Arab klasik dan digunakan untuk kepentingan studi distribusi semantik leksikal Al-Qur'an dan bahasa Arab klasik dengan pendekatan linguistik komputasional. Namun, selain menggambarkan struktur korpus, penelitian mereka juga mendeskripsikan gejala perubahan bahasa dari masa klasik ke masa kini. Berdasarkan informasi dari sejumlah penelitian terdahulu, dapat dikatakan bahwa belum ada atau belum ditemukan karya yang khusus mengkaji teknik pembuatan model file digital Al-Qur'an untuk keperluan penelitian linguistik Dari segi hasil pun, peneliti melihat belum ada model korpus Al-Qur'an yang sederhana dan dapat dijadikan model bagi pembuatan korpus, dalam hal ini, yang berbahasa Arab. Oleh karena itu, yang berbeda dari hasil penelitian ini bila dibandingkan dengan hasil penelitian terdahulu adalah pada model korpus yang dihasilkan. Selain hasil, penelitian ini juga memberikan langkahlangkah aplikatif tentang cara pembuatan model file korpus terutama terkait data yang berbahasa Arab. Sharaf dan Atwell . Mereka membuat AuQurAnaAy, korpus Al-Qur'an beranotasi pada anafora pronominal. Penelitian mereka hanya terfokus pada analisis pronomina dalam AlQur'an dan pola kemunculan anafora yang terkait dengan pronomina dan antesedennya dalam teks-teks ayat Al-Qur'an. Model analisis penelitian ini berguna bagi analisis pronomina, anafora, dan antesedennya dalam wacana bahasa Arab modern dan perbandingan antara kedua masa itu. Penelitian ini menggunakan kombinasi beberapa metode terkait dengan kondisi data dan tujuan penelitian. Metode pertama adalah kombinasi antara eksplorasi dan eksperimen yang digunakan untuk mencari berbagai aplikasi pengolah korpus dan menguji coba satu persatu aplikasi itu untuk mengolah korpus teks Al-Qur'an bertulisan Arab dengan segala Setelah aplikasi yang tepat ditemukan, langkah berikutnya menggunakan metode deskriptif yaitu menguraikan secara faktual mekanisme pengolahan bahan digital menjadi format korpus Al-Qur'an sekaligus menyusun dafar kata dan konkordansinya dalam Al-Qur'an. Salah satu contoh lain penelitian korpus AlQur'an namun lebih spesifik adalah karya Imad dan Abdelhak . melakukan penelitian untuk menyusun korpus Al-Qur'an khusus untuk penelitian morfologi Arab. Mereka menggunakan teks Al-Qur'an dan tabel morfologi Al-Khalil. Mereka menggunakan Quranic Arabic Corpus milik University of Leeds dan Quranic Corpus of Haifa milik University of Haifa sebagai pedoman dan lalu membuat analisis dan kritik terhadap konsep dasar akar kata, serta diakhiri dengan perbandingan antara keduanya dan pola rumusan si peneliti sendiri. Dalam pengolahan data, mereka menggunakan teknik anotasi semiotomatis dan rumusan CSV (Comma Separated Value. yang cukup kompleks. Hasilnya, rumusan pola dasar konsep morfologi mereka lebih kompleks bila dibandingkan dengan dua model acuannya dan menghasilkan lebih banyak lema atau entri kata dari keseluruhan kata dalam isi Al-Qur'an. METODE PENELITIAN Berikut digambarkan prosedur dan mekanisme kerja dari penelitian ini menurut tahapantahapannya. Pemerolehan teks digital Al-Qur'an dan Teks dalam bentuk dokumen (*. yang telah diunduh diformat ulang ke dalam bentuk teks (*. dengan konversi model UTF-8 pada proses save-asnya di MS Word. Bahan korpus diverifikasi dengan cara dibaca secara manual dan otomatis untuk memastikan kelengkapan ayat Al-Qur'an secara keseluruhan dan meng-hindari jangan sampai ada ayat yang hilang akibat proses konversi digital. Penelusuran, percobaan, dan pemilihan memungkinkan proses pengolahan teks Jurnal AL-AZHAR INDONESIA SERI HUMANIORA. Vol . No. Maret 2016 berbahasa Arab dan penerapan fungsi penyusunan daftar kata dan konkordansi. Dari bahan korpus yang sudah diverifikasi, dibuatlah contoh model penyusunan daftar kata dan konkordansi kata dalam Al-Qur'an secara digital. Data penelitian ini berupa ayat-ayat Al-Qur'an yang terdiri atas kata dan kalimat yang bersumber dari teks digital AuAl-Mushaf AlImlaAoiyAy. Bahan tersebut diunduh dari 7 Karakteristik teks ini di antaranya berasal dari teks periwayatan termasyhur di kalangan para ahli qiraah, yaitu riwayat Hafs dari AoAshim. Teks ini juga mengacu kepada mushaf dengan ortografi Usmani, yaitu mushaf yang merujuk kepada kodifikasi Usman bin AoAffan. Lebih lanjut, karena ada perbedaan ortografi dengan model ortografi Arab standar modern, maka ortografi Usmani itu disesuaikan menjadi ortografi Arab standar modern. Itulah yang disebut dengan Al-Mushaf Al-ImlaAoiy. HASIL DAN PEMBAHASAN Pemerolehan File Al-Qur'an Digital Mushaf ImlaAoi dan Pengoversiannya Ismail dan Rahman . 6: . menyebutkan, mushaf ImlaAoi merupakan versi mushaf AlQuran yang ditulis berdasarkan kaidah penulisan bahasa Arab biasa atau standar baku yang disebut Rasm ImlaAoi atau Rasm Qiyasi. Struktur penulisan kata dalam Al-Quran . dan tanda-tanda . abt atau diakriti. dalam Mushaf ImlaAo memiliki perbedaan dari apa yang ada dalam Mushaf AuUsmani, yaitu mushaf standar yang ditulis sejak era Khalifah Usman bin AoAffan. Secara khusus, perbedaan tersebut dapat dilihat pada lima faktor teknik ortografi, yaitu pembuangan huruf . , penambahan huruf . , penukaran huruf . , penyambungan dua kata . , dan pemisahan kata . http://tanzil. Gambar 1. Contoh perbedaan Mushaf ImlaAoi dari Mushaf Usmani dalam penelitian Ismail dan Rahman . 6: . Secara digital, kedua jenis tulisan Mushaf Usmani dan Mushaf ImlaAoi sudah ada dan tersebar luas penggunaannya dalam berbagai Namun, untuk aplikasi digital pengolahan kata. Mushaf ImlaAoi lebih banyak dipakai karena bentuknya yang standar dengan kaidah penulisan Arab standar baku hingga Adapun Mushaf Usmani tidak banyak digunakan karena kekhasan karakteristik tulisannya dan dianggap tulisan baku Al-Qur'an sejak masa awal penulisannya dan bahkan ada Arab memperlakukannya sebagai tulisan yang AusakralAy dan tak boleh diganggu-gugat apalagi dimodifikasi menjadi format lainnya. Untuk keperluan pengolahan teks digital, penelitian ini memanfaatkan teks yang tersedia pada laman tanzil. 8 Teks yang tersedia ada dua jenis, yaitu Usmani dan ImlaAoi. Namun, yang dimanfaatkan untuk penelitian ini adalah yang berjenis ImlaAoi. Lebih lanjut, teks yang dipilih tidak mengandung tanda-tanda diakritik, jadi hanya berisi rangkaian huruf dalam semua Dengan demikian, pengolahan file dalam aplikasi korpus akan lebih mudah dan terbebas dari kendala teknis. Setelah file tersebut didapatkan, perlu dipastikan bahwa encoding konversinya menggunakan UTF-8 dan disimpan dengan ekstensi *. txt dari semula *. Pemilihan dan penggunaan encoding UTF-8 disarankan dalam petunjuk teknis penggunaan dan pengolahan file di laman tanzil. Setelah diuji coba, dapat dikonfirmasikan bahwa mode konversi selain encoding UTF-8 tak berterima bagi hampir semua aplikasi pengolah korpus. Secara teknis, hanya file dengan ekstensi *. txt dengan mode konversi UTF-8 saja yang dapat diolah dengan aplikasi korpus. http://tanzil. net/download Jurnal AL-AZHAR INDONESIA SERI HUMANIORA. Vol . No. Maret 2016 Gambar 2. Mekanisme konversi file Al-Qur'an digital dari *. doc ke *. txt dengan encoding menggunakan UTF-8 dan contoh teks Mushaf ImlaAoi Verifikasi Bahan Korpus Sebelum diolah dengan aplikasi, bahan korpus yang sudah dikonversi kemudian harus diverifikasi dengan cara dibaca secara manual untuk memastikan kelengkapan ayat Al-Qur'an secara keseluruhan dan menghindari jangan sampai ada ayat yang hilang akibat proses konversi digital. Hal ini sengaja dilakukan secara khusus terhadap teks Al-Qur'an karena statusnya sebagai kitab suci demi menjaga agar jangan sampai ada unsur teks yang hilang karena pasti berdampak kepada hasil akhir dari proses pengolahan korpus. Bagaimana pun, proses konversi teks dari suatu format ke format lain selalu berisiko terhadap kondisi teks, terlebih jika teks itu ditulis dalam bahasa dengan sistem ortografi yang tidak sama dengan sistem ortografi bahasa latin. Cara verifikasi manual yang dilakukan adalah dengan membaca teks ayat demi ayat, sambil merujuknya ke bacaan tilawah Al-Qur'an dengan tempo yang lambat. Pembacaan dilakukan secara bertahap surah demi surah, juz demi juz, sampai tuntas sebanyak 114 surah dalam 30 juz. Penting untuk dipastikan ada atau tidak unsur teks yang hilang dalam file digital Al-Qur'an yang akan diolah. Setelah dipastikan kelengkapan dan keutuhan teks, barulah file tersebut bisa diolah melalui aplikasi khusus. Pemilihan Aplikasi Pengolah Korpus Setelah file digital didapat dan dikonversi, langkah berikutnya adalah pencarian, uji coba, dan pemilihan aplikasi pengolah korpus. Aplikasi itu sesungguhnya cukup banyak yang bisa dipilih. Namun, karakteristik bahasa Arab dan ortografinya yang relatif berbeda dari banyak bahasa pada umumnya, seperti arah tulisan dari kanan ke kiri, keberadaan tanda diakritik, dan jenis serta bentuk huruf yang spesifik, membuat pilihan menjadi terbatas. Beberapa aplikasi yang ada, misalnya, hanya mampu membaca teks Arab, tetapi tidak mampu membuat susunan kalimat dengan pola yang berlaku pada tulisan Arab . ari kanan ke Untuk memecahkan masalah tersebut, selain mencari dan mengonsultasikan masalah ini ke praktisi dan ahli linguistik korpus dari Universitas Indonesia, mengeksplorasi dan mempelajari beberapa pola korpus bahasa Arab yang ada dan model-model eksperimen pengolahan korpus dengan aplikasi Berikut ulasan tentang beberapa aplikasi yang ditemukan dan dicoba untuk mengolah korpus teks Al-Qur'an. Nooj Nooj adalah sebuah aplikasi pengolah korpus yang memungkinkan ahli bahasa untuk melakukan analisis linguistik terhadap ortografi dan ejaan, kamus suatu topik tertentu, pola-pola kalimat, dan sebagainya. Nooj memfasilitasi penggunanya untuk dapat memberikan deskripsi setiap fenomena linguistik serta alat yang digunakan untuk penentuan klasifikasi kelas kata dalam kalimat suatu bahasa yang dirancang dengan sangat efisien. Aplikasi ini juga memungkinkan penggunanya untuk kuantifikasi teks secara otomatis, menyusun konkordansi, menyortir lema untuk kamus, melakukan analisis statistik, dan lain-lain. Nooj tersedia dan dapat diunduh secara cumacuma dengan beberapa modul untuk multibahasa, antara lain Acadian. Arab. Armenia. Bulgaria. Catalan. Cina. Kroasia. Prancis. Inggris. Jerman. Ibrani. Yunani. Hungaria. Italia. Polandia. Portugis. Spanyol dan Turki. Nooj dapat bekerja dalam sistem operasi MS-Windows. Mac OS X. LINUX dan BSD Unix. Saat dicoba digunakan untuk analisis teks AlQur'an, aplikasi ini menunjukkan kekurangan dan itu menjadi kendala teknis yang tidak memungkinkan bagi analisis linguistik korpus lebih lanjut, yaitu: Program ini selalu memerlukan aplikasi penunjang Java untuk menjalankanya. File eksekutor Nooj. exe tidak terdapat dalam folder program yang sudah terinstalasi, sehingga seringkali program Jurnal AL-AZHAR INDONESIA SERI HUMANIORA. Vol . No. Maret 2016 Program ini tidak menunjang untuk kalkulasi daftar kata dan kolokasi, hanya bisa untuk konkordansi saja. Program ini tidak memiliki material lexical resources untuk bahasa Arab sehingga tidak bisa dipakai untuk menganalisis data berbahasa Arab yang kompleks dan Berikut contoh halaman aplikasi Nooj untuk mengolah teks Al-Qur'an juz 30. Gambar 4. Contoh halaman aplikasi TextStat MonoconcEsy MonoconcEsy adalah program yang didesain untuk melakukan pencarian kata ataupun ungkapan kebahasaan. Kelebihan program ini dapat mencari kata berikut dengan perubahan bentuk grammatikanya, contoh: speak Ae speaks Ae spoke Ae speaking, dll. Program ini merupakan program yang dapat dijalankan dalam windows 95 hingga versi yang terbaru windows 7/8/10. Gambar 3. Contoh halaman aplikasi Nooj TextSTAT TextStat adalah program yang terhitung sederhana dan mudah digunakan untuk menganalisis teks. Program ini dapat membaca berbagai macam teks dalam banyak model encoding dan file dalam bentuk HTML. Dengan program ini, pengguna dapat mengetahui frekuensi kemunculan kata dan konkordansi dari setiap file yang dibuka. TextStat dapat membaca file MS Word maupun OpenOffice tanpa harus dikonversi. Selain itu program ini dapat digunakan untuk membuka file dengan berbagai macam bahasa dan mode Program ini dapat di jalankan dalam system operasi windows, linux, maupun MacOS. Namun, saat dicoba untuk mengolah teks AlQur'an, program ini menampilkan dalam menu word frequency dan word form masih banyak kata-kata yang terpenggal, seperti: kata AEOIA /alladzi:na/, kata A OIAmenjadi 1 penggalan kata sendiri, terpisah dari bagian depannya A EA. Hal ini menandakan ada masalah sistemik dalam aplikasi itu untuk berinteraksi dengan teks berbahasa Arab. Amat riskan kiranya jika aplikasi itu digunakan untuk analisis teks AlQur'an karena pasti akan menimbulkan banyak masalah pada bentuk-bentuk kata yang terpotong dan tidak bisa diidentifikasi lebih lanjut untuk analisis linguistik. Tidak jauh berbeda dari dua aplikasi sebelumnya, aplikasi ini tidak bisa digunakan untuk menganalisis teks berbahasa Arab dengan baik sebagaimana yang diperlukan untuk analisis korpus teks Al-Qur'an . Itu karena aplikasi ini hanya memiliki fitur yang terbatas, hanya dapat membaca file dengan format (. , tidak bisa membaca file selain itu, dan dalam fitur konkordansi, hasil pencarian kata yang ditampilkan terbalik-balik, sehingga penyulitkan pengguna untuk membaca hasil olahan teks. Gambar 5. Contoh halaman aplikasi MonoconcEsy AntConc Seperti aplikasi yang lainnya. AntConc merupakan aplikasi yang digunakan untuk melakukan analisis teks dan konkordansi. Namun, dibandingkan dengan yang lainnya, aplikasi ini relatif lebih berkembang dan kaya menu untuk mengolah teks. Artinya, aplikasi ini mampu melakukan analisis dan penyusunan daftar kata, dan konkordansi. Lebih dari itu, menu-menu statistik pada aplikasi ini sangat Jurnal AL-AZHAR INDONESIA SERI HUMANIORA. Vol . No. Maret 2016 membantu dan memperkaya analisis linguistik sampai ke aspek kuantitatif yang lebih luas. Aplikasi ini bahkan bisa mengolah file dalam ukuran yang besar dan berisi jumlah kata yang lebih banyak. Tidak hanya itu, aplikasi ini dapat berjalan dalam sistem operasi Windows. Linux, maupun MasOS. Meski secara umum lebih unggul dibanding aplikasi pengolah korpus lainnya, program ini tetap saja memiliki kendala untuk mengolah teks berbahasa Arab, yaitu: seringkali gagal membaca file. program ini hanya dapat membaca file dengan format *. txt, maka pengguna harus mengkonversi file dengan format yang berbeda agar dapat dibaca. program ini tidak dapat konsisten membaca teks berbahasa arab dengan sempurna meski encoding sudah menggunakan UTF-8. Gambar 6. Contoh halaman aplikasi AntCont untuk melihat file konversian ke *. Dalam fitur word list, kata-kata terpecah menjadi huruf sehingga fitur ini tidak maksimal fungsinya untuk menghitung jumlah kata dalam sebuah file. kalimat dalam teks menjadi tidak teratur sebagaimana aslinya dan itu tidak memungkinkan untuk melakukan proses analisis konkordansi. Gambar 8. Contoh halaman aplikasi AntCont untuk melihat hasil pengolahan konkordansi WordSmith Dibanding aplikasi-aplikasi WordSmith adalah yang paling lengkap dan paling representatif. Yang lebih utama, multibahasa sudah memadai, lengkap dengan konten penyesuaian sistem yang diperlukan untuk menganalisis teks berbagai bahasa yang memiliki keunikan ortografi dan kesulitan teknis lainnya. Lebih lanjut, aplikasi ini menyediakan fasilitas konversi teks yang memungkinkan kustomisasi yang optimal bagi teks yang akan dianalisis. Selain daftar kata dan konkordansi, aplikasi ini juga menyediakan fasilitas untuk menganalisis kata-kata kunci dalam suatu wacana yang terkandung dalam teks. Kata kunci adalah sejumlah kata yang paling produktif muncul dalam suatu teks dan diasumsikan sebagai Aupusat wacanaAy dari teks tersebut. Namun, kata kunci bukanlah kata tugas, seperti preposisi, kata sambung dll yang memang sering muncul dalam wacana. Gambar 7. Contoh halaman aplikasi AntCont untuk melihat hasil pengolahan word list Dalam fitur concordance, susunan kata dalam hasil pencarian tidak teratur. Artinya, aplikasi AntCont gagal membaca teks berbahasa Arab dengan sistem arah tulisan dari kanan-ke-kiri. Lebih dari itu, susunan Gambar 9. Contoh halaman aplikasi WordSmith untuk melihat hasil pengolahan daftar kata berikut frekuensi kemunculannya Jurnal AL-AZHAR INDONESIA SERI HUMANIORA. Vol . No. Maret 2016 Dalam gambar tersebut, aplikasi WordSmith memperlihatkan sejumlah kata yang terdapat Al-Qur'an kemunculannya, persentase jumlah kemunculan suatu kata, dan variasi kedudukan kata tersebut, apakah kata itu berdiri sendiri sebagai kata tunggal atau membentuk kata majemuk berangkai dengan pronomina posesif. Fungsi itu dimanfaatkan antara lain untuk melihat produktivitas kemunculan kata yang, dalam konsep linguistik korpus, dikaitkan dengan asumsi bahwa kata itu menjadi pokok pikiran dalam suatu wacana kebahasaan. Setelah daftar kata, fungsi lain yang dapat dilakukan oleh WordSmith adalah analisis Konkordansi berisi daftar kata dalam suatu wacana, tapi tidak berurusan dengan frekuensi kemunculannya, melainkan dengan ada kata apa di sekitar kata yang Dalam analisis ini, suatu kata dilihat dalam kaitannya dengan kata lain di Model analisis ini erat kaitannya dengan telaah makna kontekstual dalam bidang ilmu semantik leksikal dan leksikologi serta kajian wacana pada umumnya. Secara mudah, aplikasi ini mengurutkan daftar kata yang dicari dan ingin dilihat kaitannya dengan kata lain secara kolokasional dalam kalimat tempat kata itu berada. Dari situlah peneliti dapat mengidentifikasi satu persatu aspek kontekstual dan kotekstual dari suatu kata untuk kemudian ditentuan maknanya secara lebih akurat. Gambar 10. Contoh halaman aplikasi WordSmith untuk melihat hasil pengolahan konkordansi kata al-jannah AosurgaAo berikut highlight pada kata sebelumnya untuk menandakan kolokasi Penyusunan Daftar Kata dan Konkordansi dengan Aplikasi WordSmith Setelah digambarkan kemampuan teknis aplikasi WordSmith untuk menganalisis teks berbahasa Arab, berikut akan dideskripsikan langkah-langkah penyusunan daftar kata. Buka aplikasi WordSmith, lalu klik menu WordList di bagian kanan atas halaman menu utama aplikasi, sampai muncul halaman awal WordList. Gambar 11. Halaman awal aplikasi WordSmith dan menu WordList Buat file baru melalui menu File lalu submenu New maka akan muncul halaman Semula, menu Change Selection belum menunjukkan ada file yang dipilih. Setelah diklik, akan muncul halaman seperti di bagian kanan bawah berikut, lalu cari folder tempat file Al-Qur'an digital berada dan pindahkan ke halaman bagian kanan Files selected, lalu klik OK di bagian kanan atas halaman. Gambar 12. Halaman menu dan pemilihan file yang akan dianalisis Jurnal AL-AZHAR INDONESIA SERI HUMANIORA. Vol . No. Maret 2016 Setelah teks yang dipilih muncul di halaman semula, klik menu Make a word list now, maka akan muncul halaman seperti di kanan bawah berikut. Gambar 14. Halaman awal aplikasi WordSmith dan menu Concord Gambar 13. Halaman eksekusi penyusunan daftar kata dan kemunculan hasil dalam peringkat 20 besar teratas. Dari gambar tersebut, terlihat bahwa kata AuAllahAy adalah kata yang paling produktif atau paling banyak muncul di dalam Al-Qur'an. Sekali lagi, kata-kata tugas seperti A IIA/min/. AAOA /fi:/ dan beberapa kata tugas lain yang tampak dalam daftar tidak dihitung karena sifat dan kedudukannya yang suplementer dalam susunan kalimat ayat-ayat Al-Qur'an maupun dalam wacana tekstual yang umum. Yang menarik, misalnya, ada kata kerja yang paling produktif muncul dalam Al-Qur'an, yaitu ACEA /qa:la/ AoberkataAo . AoberfirmanAo (Alla. AobersabdaAo (Rasu. Secara semantis, fenomena itu mengisyaratkan sesuatu terkait wacana dalam Al-Qur'an secara umum dan bisa didalami lebih lanjut berdasarkan kontekskonteks tertentu yang tersebar dalam berbagai ayat di dalam Al-Qur'an. Setelah gambaran proses penyusunan daftar kata, berikut gambaran proses penyusunan konkordansi dalam Al-Qur'an. Buka aplikasi WordSmith, lalu klik menu Concord di bagian kiri atas halaman menu utama aplikasi, sampai muncul halaman awal Concord. Buat file baru melalui menu File lalu submenu New maka akan muncul halaman Semula, menu Change Selection belum menunjukkan ada file yang dipilih. Setelah diklik, akan muncul halaman seperti di bagian kanan bawah berikut, lalu cari folder tempat file Al-Qur'an digital berada dan pindahkan ke halaman bagian kanan Files selected, lalu klik OK di bagian kanan atas halaman. Gambar 15. Halaman menu dan pemilihan file yang akan dianalisis Setelah teks yang dipilih muncul di halaman semula, klik menu Search Word, maka akan muncul halaman seperti berikut. Jurnal AL-AZHAR INDONESIA SERI HUMANIORA. Vol . No. Maret 2016 Gambar 16. Halaman eksekusi penyusunan konkordansi dan kemunculan hasil dalam susunan 20 teratas. Dari gambar tersebut, kita misalnya akan mencari konkordansi kata A EEIOIA/al-Aoa:lami:n/ Aoalam semestaAo. Terlihat bahwa kata itu sangat dekat kata cA A/rabb/ AoPenguasaAo AoTuhanAo. Secara semantis, fenomena itu mengisyaratkan bahwa kata A EEIOIAberkolokasi erat dengan kata cA A/rabb/. Oleh karena itu, dapat disimpulkan bahwa kedua kata membentuk kolokasi berupa kata majemuk dan bermakna tunggal atau menyatu antara keduanya. Demikian secara ringkas gambaran proses dan langkah-langkah penyusunan daftar kata dan konkordansi dalam Al-Qur'an dengan aplikasi WordSmith yang ternyata secara teknis mampu mengatasi masalah-masalah teknis ortografi nonbahasa Latin. KESIMPULAN DAN SARAN Berdasarkan gambaran pada bab-bab terdahulu, berikut dirumuskan simpulan dan saran dari penelitian ini. Aplikasi digunakan untuk membuat model file korpus Al-Qur'an digital adalah WordSmith. Itu karena aplikasi tersebut tidak hanya mampu mengatasi masalah teknis ortografi tulisan nonbahasa Latin, tetapi juga menyediakan fungsi-fungsi yang beragam dan sangat berguna bagi kepentingan analisis linguistik korpus. Format file yang dapat diolah aplikasi tersebut haruslah dikonversi terlebih dahulu menjadi berekstensi *. txt, lebih khusus lagi, mode konversi file menggunakan encoding UTF-8. Format isi teks digital berbahasa Arab yang akan diolah dengan aplikasi tersebut haruslah berisi karakter huruf sepenuhnya, tanpa menyertakan tanda-tanda diakritik . yang dapat mengganggu teknis pengolahan file. Proses konkordansi dalam Al-Qur'an dengan menggunakan aplikasi tersebut didasarkan sepenuhnya atas teknik-teknik yang tersedia dalam aplikasi secara memadai untuk mendapatkan hasil yang maksimal dan minim kendala teknis. Secara khusus, model file digital semacam ini dapat digunakan oleh para peneliti pemula yang ingin menggunakan Al-Qur'an sebagai korpus data penelitiannya. Selain itu, mekanisme yang diuraikan dalam penelitian ini diharapkan dapat menjadi model bagi peneliti lain dalam hal tata laksana pembuatan korpus data berbahasa Arab. Untuk lebih jauh lagi melanjutkan dan mengembangkan penelitian sederhana ini, berikut saran-saran yang diajukan. Perlunya penelitian linguistik korpus secara komprehensif terhadap Al-Qur'an khususnya untuk dihubungkan dengan bidang ilmu linguistik yang lain, seperti morfosintaksis, semantik, pragmatik, wacana, leksikografi, kaitannya dengan penerjemahan Al-Qur'an ke dalam bahasa Indonesia. Perlunya lebih digalakkan pendekatan linguistik korpus sebagai titik tolak dalam penelitian linguistik untuk memaksimalkan pemanfaatan data-data kebahasaan terkini yang sudah lebih banyak berbentuk digital. DAFTAR PUSTAKA