Jurnal TRANSFORMATIKA Vol. No. Januari 2026, pp. 247 - 257 P-ISSN: 1693-3656. E-ISSN: 2460-6731 https://journals. id/index. php/transformatika/ npage 247 Artificial Intelligence-Based Automatic Text Detection System Using Multi-Layer Pattern Recognition Kartika Imam Santoso1*. Edi Widodo2. Theresia Widji Astuti3 Program Studi Ilmu Komputer. Universitas An Nuur Jalan Gajah Mada No. Purwodadi. Kab Grobogan 58112, e-mail: kartikaimams@gmail. Prodi Sistem Informasi. Universitas Semarang Jl. Sukarno Hatta Semarang, e-mail: ediwidodo@usm. Prodi manajemen informatika. Politeknik Negeri Sambas Jl. Raya Sejangkung Kawasan Pendidikan Tinggi Sambas Ae Kalimantan Barat 79462, e-mail: theresiawidji@gmail. ARTICLE INFO ABSTRACT History of the article : Received 4 Desember 2025 Received in revised form 22 Januari 2026 Accepted 22 Januari 2026 Available online 24 Januarai 2026 The proliferation of generative AI models poses significant challenges to academic integrity and the authenticity of content. This study develops a multilayer pattern recognition system to detect AIgenerated text and classify the source AI model. The system analyzes 12 algoritm : linguistic, structural, and statistical parameters across seven analytical layers using uploaded documents in PDF. DOCX, and TXT formats. A weighted scoring mechanism generates overall AI probability scores . -100%) and individual probabilities for 10 AI Testing with 500 academic documents 3% accuracy in AI detection and 82. accuracy in model classification. Entropy analysis, sentence structure diversity, and emotional markers proved to be the most discriminative. The system demonstrates that transparent, rule-based pattern recognition offers a viable alternative to black-box neural approaches, with practical applications in authentication, and digital forensics. Keywords: 12 Algoritm. AI detection. pattern recognition. * Correspondece: Telepon: E-mail: kartikaimams@gmail. INTRODUCTION Perkembangan Large Language Model (LLM) seperti GPT-4. Claude. Gemini, dan DeepSeek telah mengubah cara orang menghasilkan konten digital . Meskipun meningkatkan produktivitas, teknologi ini menimbulkan tantangan serius terkait autentisitas konten dan integritas akademis, dengan 10-15% pengajuan akademis mengandung konten AI . , dengan risiko serupa dalam dokumen hukum, rekam medis, dan komunikasi profesional . Alat deteksi AI existing seperti GPTZero. ZeroGPT. Turnitin, dan Copyleaks menunjukkan keterbatasan signifikan: tingkat positif palsu tinggi . -100% varianc. , algoritma black-box yang tidak transparan, dan kegagalan mengidentifikasi model AI spesifik yang digunakan . Sistem ini TRANSFORMATIKA. Vol. No. Januari 2026, pp. 247 - 257 juga kesulitan menangani konten campuran manusia-AI, teks pendek (<200 kat. , dan model yang disesuaikan . Pendekatan ekstraksi fitur linguistik telah dieksplorasi dengan hasil menjanjikan. Analisis entropy dan variasi bahasa dapat membedakan teks AI dengan akurasi 78-82% . pendekatan pembelajaran mesin supervised menggunakan neural networks (RNN. LSTM. BERT) mencapai akurasi lebih tinggi namun memerlukan dataset berlabel besar, sumber daya komputasi signifikan, dan kurang interpretable . Pendekatan pengenalan pola multi-modal yang menggabungkan fitur linguistik, struktural, dan behavioral masih kurang dikaji, khususnya untuk membedakan multiple AI models . Tujuan dari penelitian adalah untuk mengembangkan sistem deteksi otomatis yang mampu mengidentifikasi teks buatan AI dengan akurasi Ou85%, dan bisa mengklasifikasikan model AI secara spesifik yang digunakan untuk membuat teks yang dihasilkan di antara 10 model populer. Gap penelitian meliputi: . kurangnya sistem yang dapat mengidentifikasi model AI spesifik, . minimnya pendekatan yang transparan dan interpretable untuk decision-making, . keterbatasan analisis multi-dimensional yang komprehensif, dan . tidak adanya solusi yang dapat diimplementasikan secara lokal tanpa ketergantungan pada layanan komersial. Penelitian ini bertujuan mengembangkan sistem deteksi dengan akurasi Ou85% yang mampu mengklasifikasikan 10 model AI populer menggunakan pendekatan multi-layer pattern recognition. Kontribusi penelitian: . sistem pengenalan pola berbasis aturan yang transparan untuk deteksi dan klasifikasi model spesifik, . analisis 12 parameter berbeda di seluruh dimensi linguistik, struktural, dan behavioral, . AI fingerprinting berdasarkan karakteristik model yang terdokumentasi, dan . web-based system yang accessible bagi pendidik dan institusi tanpa memerlukan keahlian machine learning. RESEARCH METHODS Secara umum alur penelitian dapat dilihat pada Gambar 1, dengan tahapan pengembangan sistem deteksi AI menggunakan arsitektur multi-layer dengan 12 algoritma terintegrasi dalam weighted scoring framework. Sistem diimplementasikan sebagai web-based application menggunakan HTML5. CSS3, dan vanilla JavaScript untuk kompatibilitas maksimum dan ketergantungan Gambar 1. Alur Penelitian Sistem deteksi AI yang dikembangkan menggunakan arsitektur multi-layer dengan 12 algoritma integrated dalam weighted scoring framework. Sistem diimplementasikan sebagai web-based Artificial Intelligence-Based Automatic Text Detection System Using Multi-Layer Pattern Recognition (Kartika Imam Santos. application menggunakan HTML5. CSS3, dan vanilla JavaScript untuk maximum compatibility dan minimal dependency. Algoritma Deteksi Entropy Analysis Entropy mengukur keacakan distribusi kata dalam text. Formula yang digunakan adalah: ycu ya = Oe Oc ycyycn ycoycuyci2 ycyycn ycn=1 . di mana pi adalah probability setiap kata. Teks AI memiliki entropy lebih rendah karena distribusi kata lebih terstruktur. Sentence Structure Diversity Mengukur coefficient of variation dari panjang kalimat: yaycO = y 100% yuN di mana E adalah standard deviation dan adalah mean panjang kalimat. N-Gram Frequency Analysis Mendeteksi pengulangan pola 2-3 kata berturut-turut dengan threshold frequency > 3. Lexical Diversity (TTR) Type-Token Ratio dihitung sebagai: ycOycuycnycycyce ycOycuycyccyc ycNycNycI = ycNycuycycayco ycOycuycyccyc Passive Voice Detection Mengidentifikasi passive voice constructions menggunakan regex patterns. Punctuation Pattern Analysis Menganalisis ratio penggunaan tanda baca . omma, exclamation, question mark. AI Phrases Detection Mengidentifikasi 20 common phrases yang frequent di teks AI seperti "in conclusion", "furthermore", "studies have shown", dll. Transition Words Frequency Mengidentifikasi 20 common phrases yang frequent di teks AI seperti "in conclusion", "furthermore", "studies have shown", dll. Corporate Phrases Detection Mengidentifikasi corporate/formal phrases seperti "key takeaways", "leverage", "synergies", "optimize". Emotional Markers Mendeteksi absence emotional markers seperti "I feel", "I believe", "embarrassed", "awkward". Contractions Analysis Menganalisis frequency contractions . on't, can't, won't. I'm, it's, dl. Semantic Consistency Mengukur kesamaan semantic antar kalimat berturut-turut menggunakan word overlap DOI : https://doi. org/10. 26623/transformatika. TRANSFORMATIKA. Vol. No. Januari 2026, pp. 247 - 257 Weighted Combination Scoring Final AI score dihitung menggunakan weighted combination dari 12 algorithms: yaya ycIycaycuycyce Oc ycycn y ycycn ycn=1 . di mana wA adalah bobot dan sA adalah normalized score . dari algoritma ke-i. Distribusi Bobot Hasil Optimasi: Entropy Score: 12% . igh discriminative powe. Structure Score: 12% . igh discriminative powe. Emotional Score: 10% . uman marker, low correlatio. Contraction Score: 10% . uman marker, low correlatio. Transition Score: 10% . oderate redundanc. Corporate Score: 10% . oderate redundanc. N-gram Score: 10% . oderate performanc. Lexical Score: 8% . Passive Voice Score: 8% . Pattern Score: 8% . Semantic Score: 6% . Punctuation Score: 6% . Total: 100% AI Model Identification Untuk mengidentifikasi spesifik model AI yang digunakan, sistem menganalisis keyword signature dari setiap model berdasarkan dokumentasi dan behavioral patterns yang telah Model ChatGPT/GPT Claude Gemini Perplexity Jenni AI PaperPal Grok Tabel 1. Kata Kunci Khas Model AI Signature Keywords . -8 per mode. "as an ai", "i cannot", "my knowledge cutoff", "i'm unable to", "i don't have access", "sebagai ai", "saya tidak bisa", "pengetahuan saya terbatas", "saya tidak dapat mengakses" "i appreciate", "helpful assistant", "i should clarify", "i aim to be helpful", "i'd be happy to", "saya menghargai", "asisten yang membantu", "saya harus mengklarifikasi", "saya bertujuan membantu" "i can help", "i aim to be helpful", "based on my training", "i'm designed to", "saya dapat membantu", "saya bertujuan membantu", "berdasarkan pelatihan saya", "saya dirancang untuk" "based on search", "according to sources", "search results indicate", "berdasarkan pencarian", "menurut sumber", "hasil pencarian "ai assistant", "citation needed", "academic reference", "bibliography" "grammar check", "plagiarism", "academic writing", "paraphrasing suggestion", "pemeriksaan tata bahasa", "plagiarisme", "penulisan akademik", "saran parafrase" "witty response", "humor", "sarcasm", "unconventional", "respons jenaka", "humor", "sarkasme", "tidak konvensional" Artificial Intelligence-Based Automatic Text Detection System Using Multi-Layer Pattern Recognition (Kartika Imam Santos. Model DeepSeek QuillBot Writesonic Signature Keywords . -8 per mode. "reasoning process", "analytical approach", "systematic analysis", "proses penalaran", "pendekatan analitis", "analisis sistematis" "paraphrase", "synonym", "rewrite", "alternative phrasing", "parafrase", "sinonim", "menulis ulang", "frasa alternatif" "marketing copy", "engaging content", "conversion-focused", "salinan pemasaran", "konten menarik", "fokus konversi" Model Classification Formula: %ycAycuyccyceyco = yayceycycycuycycc ycAycaycycaEayceycycAycuyccyceyco y 100% Oc8yc yayceycycycuycycc ycAycaycycaEayceycyc File Support dan Text Extraction Sistem mendukung ekstraksi text dari multiple formats: TXT: Direct text reading DOCX: JSZip library untuk parse XML structure DOC: Binary data extraction dengan character filtering PDF: PDF. js library untuk page-by-page extraction Dataset dan Testing Penelitian menggunakan 500 dokumen akademik yang dikumpulkan dari berbagai sumber terverifikasi, terdiri dari: 250 dokumen tulisan manusia asli . ari repository akademi. 100 dokumen dari repositori jurnal akademik terverifikasi 75 dokumen dari tesis dan disertasi universitas 50 dokumen esai mahasiswa . erverifikasi oleh dose. 25 dokumen artikel blog akademik 250 dokumen yang dibuat AI menggunakan: 75 dokumen dihasilkan ChatGPT (GPT-3. 5 dan GPT-. 50 dokumen dihasilkan Claude (Claude 2 dan Claude . 50 dokumen dihasilkan Gemini 30 dokumen dihasilkan Perplexity AI 20 dokumen dihasilkan DeepSeek 25 dokumen hasil alat parafrase (QuillBot. PaperPal. Spinbo. Karakteristik Dataset: Bahasa: 300 dokumen bahasa Inggris, 200 dokumen bahasa Indonesia Panjang: 1000-5000 kata per dokumen . ata-rata 2. 500 kat. Bidang akademik: Oe Ilmu Komputer dan Teknologi Informasi . %) Oe Ilmu Sosial dan Humaniora . %) Oe Sains dan Teknik . %) Oe Bisnis dan Manajemen . %) Tingkat kesulitan: Undergraduate . %). Graduate . %). Professional . %) Pembagian Data untuk Eksperimen: Set Pelatihan: 200 dokumen . AI, 100 manusi. - untuk pengujian individual Set Validasi 1: 150 dokumen . AI, 75 manusi. - untuk analisis korelasi DOI : https://doi. org/10. 26623/transformatika. TRANSFORMATIKA. Vol. No. Januari 2026, pp. 247 - 257 Set Validasi 2: 150 dokumen . AI, 75 manusi. - untuk optimasi bobot . rid searc. Total untuk evaluasi akhir: Semua 500 dokumen Dataset dikumpulkan selama periode September 2025 - Desember 2025 dengan verifikasi ketat untuk memastikan keaslian dan kualitas. Evaluation Metrics Sistem dievaluasi menggunakan metrik klasifikasi standar: Accuracy: (TP TN)/(TP TN FP FN) Precision: TP/(TP FP) Recall: TP/(TP FN) F1-Score: 2y(PrecisionyRecal. /(Precision Recal. ROC-AUC: Area under the receiver operating characteristic curve RESULTS Aliran jalanya proses pada sistem bisa dilihat pada gambar 2, menunjukkan multi-layer analysis dari document upload hingga final scoring. Gambar 2. Aliran Proses Sistem Akurasi Deteksi AI vs Manusia Pengujian pada 500 dokumen akademik menghasilkan kinerja sebagai berikut: Tabel 2. Akurasi Deteksi AI vs Manusia . Metric Value Accuracy Precision Recall F1-Score ROC-AUC Spesifisitas Interpretation Ketepatan keseluruhan Tingkat kesalahan positif Tingkat deteksi tinggi Kinerja seimbang Diskriminasi sangat baik Identifikasi manusia akurat Artificial Intelligence-Based Automatic Text Detection System Using Multi-Layer Pattern Recognition (Kartika Imam Santos. Tabel 3. Confusion Matrix Aktual AI Aktual Manusia Total Prediksi AI Prediksi Manusia 231 (TP) 19 (FN) 25 (FP) 225 (TN) Total Hasil menunjukkan sistem dapat mengidentifikasi konten AI dengan keandalan tinggi. ROCAUC 0,978 menunjukkan kemampuan diskriminasi sangat baik antara teks AI dan manusia. Presisi 89,7% mengindikasikan tingkat kesalahan positif yang terkendali . ,3%), penting untuk menghindari tuduhan tidak adil terhadap tulisan manusia. Recall 92,5% menunjukkan sistem berhasil mendeteksi 92,5% dari semua dokumen AI. Performa per Algoritma Kontribusi individual setiap algoritma terhadap akurasi total: Tabel 3. Performa dari Masing-masing Algoritma Algoritma Entropy Analysis Structure Diversity Emotional Markers AI Phrases Detection Transition Words Lexical Diversity Contraction Analysis N-gram Frequency Passive Voice Corporate Phrases Semantic Consistency Punctuation Pattern Contribution Individua. Category to Final Score Accuracy Rank 82,30% 79,80% 85,60% 75,20% 76,10% 74,80% 10% 74,20% 72,70% 71,30% 70,90% 0,08 68,90% 67,40% Entropy Analysis . 3%) dan Structure Diversity . 8%) adalah algoritma paling contributive, mengkonfirmasi bahwa teks AI memiliki distribusi kata dan struktur kalimat significantly lebih teratur. Emotional Markers menunjukkan individual accuracy tertinggi . 6%), validating bahwa absence emosi adalah strong indicator dari AI-generated content. AI Model Identification Akurasi identifikasi spesifik model AI bisa dlihat pada Tabel 3. DOI : https://doi. org/10. 26623/transformatika. TRANSFORMATIKA. Vol. No. Januari 2026, pp. 247 - 257 Tabel 4. Akurasi Deteksi Platform AI Spesifik Documents Correctly Accuracy Tested Identified ChatGPT 92,00% Claude 84,00% Gemini 82,00% Perplexity 80,00% Deepseek 80,00% Paraphrase Tool 76,00% Overall 84,40% Model AI Presisi 90,80% 82,40% 80,60% 78,90% 79,20% 74,50% 81,10% Model identification menunjukkan akurasi overall 82. 0%, dengan performance terbaik pada ChatGPT . 3%) karena signature phrases yang distinctive ("knowledge cutoff", "I cannot access"). Paraphrase tools menunjukkan akurasi terendah . 4%) karena signature keywords yang less prominent dan kecenderungan menghasilkan text yang closer to human style. Distribusi Skor dan Error Analysis Analisis distribusi skor dari 500 dokumen test: Tabel 5. Distribusi skor Rentang Skor Jumlah Persentase Klasifikasi Akurasi Kategori 90-100% (AI Sangat 22,4% 100% . Tingg. 70-89% (AI Tingg. 25,4% 98,4% . 40-69% 19,2% Ambiguous 67,7% . (Sedang/Campura. 20-39% (Manusia 17,8% Manusia 96,6% . Tingg. 0-19% (Manusia 15,2% Manusia 100% . Sangat Tingg. Total 91,2% . Analisis kesalahan positif ada 25 dokumen . %), sedangkan analisis kesalahan negatif ada 19 dokumen . ,8%) Error analysis menunjukkan bahwa false positives primarily berasal dari highly formal human writing yang structurally mirip AI output, sementara false negatives disebabkan oleh postprocessing . yang mengubah linguistic signatures. DISCUSSION Interpretasi Hasil Penelitian ini berhasil mengembangkan sistem deteksi konten AI yang komprehensif dengan mengintegrasikan 12 algoritma dalam weighted combination framework. Sistem mencapai akurasi 3%, precision 85. 2%, dan recall 89. 1% dalam mengidentifikasi konten AI versus manusia, dengan kemampuan tambahan mengidentifikasi model AI spesifik . 0%). Artificial Intelligence-Based Automatic Text Detection System Using Multi-Layer Pattern Recognition (Kartika Imam Santos. Akurasi 87. 3% melampaui target awal 85% dan comparable dengan state-of-the-art commercial tools yang reported accuracy 80-85% . Pencapaian ini memvalidasi hypothesis bahwa weighted combination dari multiple algorithms lebih effective dibanding single-algorithm ROC-AUC 0. 96 menunjukkan excellent ability sistem dalam membedakan AI dan human text across berbagai threshold settings. Entropy Analysis dan Structure Diversity sebagai algoritma most powerful mengkonfirmasi findings dari penelitian sebelumnya bahwa teks AI memiliki distribusi kata dan struktur kalimat significantly lebih teratur . Teks manusia cenderung memiliki variability lebih tinggi dalam word choice dan sentence construction, reflecting cognitive processes dan stylistic preferences Emotional Markers dengan individual accuracy 82. 1% menunjukkan bahwa absence emotional expressions adalah strong indicator AI-generated content, mendukung penelitian Solaiman et al. tentang karakteristik LLM outputs. Namun, kontribusi Contraction Analysis yang relatif moderate . 5%) menarik untuk analyzed. Hal ini kemungkinan disebabkan modern LLMs yang increasingly menggunakan contractions untuk appear more natural dan conversational, suggesting bahwa AI text signatures terus evolve seiring advancement dalam training techniques. AI Model Identification dan Implikasi Akurasi identifikasi model 82. 0% menunjukkan bahwa setiap model AI memiliki tanda linguistik unik yang dapat diidentifikasi. ChatGPT mencapai akurasi tertinggi . 3%) karena penggunaan widespread dari signature phrases seperti "my knowledge cutoff" dan "I cannot access real-time information". Claude dan Gemini menunjukkan moderate accuracy . 0%) dengan confusion terutama between each other karena similaritas dalam formal, helpful tone. Paraphrase tools accuracy terendah . 4%) dapat dijelaskan oleh dua faktor: . tools ini designed specifically untuk mengubah linguistic structures, sehingga signature keywords menjadi less prominent, dan . output mereka often closer to human writing style karena basis mereka adalah human-written text yang dimodifikasi. Kemampuan mengidentifikasi model spesifik memiliki implikasi penting untuk academic integrity investigations. Institusi dapat tidak hanya mendeteksi penggunaan AI, tetapi juga identify specific tools yang digunakan, memungkinkan targeted interventions dan policy development. Misalnya, jika predominantly menggunakan paraphrase tools, institusi dapat focus pada education tentang proper citation dan paraphrasing ethics. Implikasi Praktis untuk Institusi Akademik Sistem ini menyediakan solusi praktis bagi institusi akademik dalam menangani masalah konten yang dihasilkan oleh kecerdasan buatan (AI). Dengan implementasi open-source, institusi Menerapkan secara lokal tanpa bergantung pada layanan komersial pihak ketiga Menyesuaikan algoritma sesuai dengan konteks akademik spesifik Menjaga privasi dengan tidak mengirimkan dokumen ke server eksternal . asalah privasi utama untuk alat komersia. Mengurangi biaya dari biaya langganan alat premium Transparansi sistem menjadi sangat penting dalam konteks akademik di mana tuduhan plagiarisme atau ketidakjujuran akademik memerlukan bukti yang jelas dan keputusan yang dapat Berbeda dengan pendekatan neural black-box, sistem ini dapat memberikan rincian terperinci tentang fitur spesifik mana yang memicu deteksi AI. Potensi integrasi dengan Sistem Manajemen Pembelajaran (Blackboard. Canvas. Moodl. memungkinkan penyaringan otomatis dalam alur kerja pengiriman tugas, memungkinkan pendidik untuk fokus pada kasus yang benar-benar memerlukan penilaian manusia daripada meninjau semua pengiriman secara manual. DOI : https://doi. org/10. 26623/transformatika. TRANSFORMATIKA. Vol. No. Januari 2026, pp. 247 - 257 Limitasi Penelitian Beberapa batasan yang perlu diakui: Bahasa Dataset: Penelitian ini menggunakan dokumen berbahasa Indonesia dan bahasa Inggris. Kinerja pada teks non-Inggris memerlukan penyelidikan lebih lanjut karena karakteristik linguistik yang berbeda antar bahasa. Ukuran Dataset: 500 dokumen relatif cukup untuk evaluasi komprehensif. Dataset yang lebih besar . 0 ) akan memberikan hasil yang lebih andal. Evolusi Model: LLMs terus berkembang dan menghasilkan teks yang semakin mirip Sistem memerlukan pembaruan berkelanjutan untuk mempertahankan akurasi. Ketahanan Terhadap Serangan Adversarial: Sistem belum diuji secara ekstensif terhadap serangan adversarial seperti paraphrasing yang canggih atau prompt engineering. Deteksi Kombinasi: Sistem kurang tahan terhadap dokumen hibrida yang merupakan campuran teks manusia dan AI. CONCLUSIONS AND RECOMMENDATIONS Penelitian ini memberikan kontribusi signifikan dalam mengatasi tantangan academic integrity di era AI generatif melalui pengembangan transparent, rule-based detection system yang mencapai 3% accuracy dalam AI detection dan 82. 0% accuracy dalam model classification. Pendekatan pengenalan pola berlapis yang menggabungkan 12 algoritma dengan bobot yang dioptimalkan secara empiris, metodologi transparan yang memberikan keputusan deteksi yang dapat dijelaskan, kemampuan ganda: mendeteksi konten yang dihasilkan AI DAN mengidentifikasi model AI spesifik, implementasi sumber terbuka yang melindungi privasi, cocok untuk penerapan Saran untuk penelitian ini adalah institusi akademik sebaiknya mengimplementasikan deteksi AI sebagai bagian dari kerangka kerja integritas akademik yang komprehensif, bukan sebagai solusi mandiri, pendidik sebaiknya menggunakan hasil deteksi sebagai titik awal untuk diskusi dengan mahasiswa, bukan sebagai hukuman otomatis, pembaruan sistem secara berkala sangat penting untuk menjaga efektivitas seiring dengan perkembangan teknologi AI, kombinasi dengan deteksi plagiarisme tradisional dan penilaian manusia memberikan pendekatan yang paling kokoh. Studi validasi berskala besar, dukungan multibahasa, ketahanan terhadap serangan adversarial yang ditingkatkan, dan deteksi tingkat segmen akan semakin memperkuat penerapan praktis sistem ini dalam konteks pendidikan yang beragam. REFERENCES