Education. Social Sciences, and Linguistics: Conference Series https://journal. id/index. php/ecs Vol. 2 No. February 2026, pp. Artificial Intelligence dalam Assessment Pendidikan: A Systematic Literature Review tentang Model. Validitas, dan Implikasi Evaluatif Yuni Susilowati1. Johri Sabaryati2. Andi Jusmiana3. Rizki Isfahani4. Eva Marsepa5 1,4,5Ilmu Keperawatan. Universitas Yatsi Madani. Tangerang. Indonesia 2Pendidikan Fisika. Universitas Muhammadiyah Mataram. Mataram. Indonesia 3Pendidikan Matematika. Universitas Pejuang Republik Indonesia. Makassar. Indonesia 5Ilmu Keperawatan. Universitas of Yatsi madani. Tangerang. Indonesia 1yunisusilowati@uym. i , 2joyafarashy@gmail. com , 3andijusmiana@gmail. com , 4rizkiisfahani@uym. 5evamarsepa@uym. ABSTRACT Keywords: Artificial Intelligence. Educational Assessment. Validity. Reliability. Ethical Implications. Systematic Literature Review. Kata Kunci: Artificial Intelligence. Assessment Pendidikan. Validitas. Reliabilitas. Implikasi Etis. Systematic Literature Review. Article History: Received : 1-01-2026 Accepted : 30-02-2026 Abstract: This study aims to identify and classify Artificial Intelligence (AI) models applied in educational assessment, analyze how validity and reliability aspects are examined in previous studies, and evaluate the evaluative and ethical implications of AI application. The research method used a qualitative approach with a Systematic Literature Review (SLR) design, which examined literature from the Scopus. DOAJ, and Google Scholar databases, covering publications from the last 10 years . 6Ae The selection process was carried out systematically based on inclusion and exclusion criteria, followed by data extraction and analysis using thematic analysis The results of the study show an increasing trend in the use of AI in educational assessment, particularly in automated scoring, predictive analytics, and adaptive testing, with a focus on improving efficiency, personalizing evaluation, and adaptive feedback. The study also found that construct validity and score reliability remain major challenges, while evaluative and ethical implications, including algorithm transparency and student data protection, are important concerns. This literature synthesis provides a comprehensive understanding of the development of AI models, methodological challenges, and recommendations for practices and policies to optimize the use of AI in accountable, valid, and fair educational Abstrak: Penelitian ini bertujuan untuk mengidentifikasi dan mengklasifikasikan model-model Artificial Intelligence (AI) yang diterapkan dalam assessment pendidikan, menganalisis bagaimana aspek validitas dan reliabilitas dikaji dalam penelitian sebelumnya, serta mengevaluasi implikasi evaluatif dan etis dari penerapan AI. Metode penelitian menggunakan pendekatan kualitatif dengan desain Systematic Literature Review (SLR), yang menelaah literatur dari basis data Scopus. DOAJ, dan Google Scholar, dengan rentang publikasi 10 tahun terakhir . 6Ae2. Proses seleksi dilakukan secara sistematis berdasarkan kriteria inklusi dan eksklusi, diikuti dengan ekstraksi dan analisis data menggunakan teknik analisis tematik. Hasil kajian menunjukkan adanya tren peningkatan penggunaan AI dalam assessment pendidikan, khususnya pada automated scoring, predictive analytics, dan adaptive testing, dengan fokus pada peningkatan efisiensi, personalisasi evaluasi, dan umpan balik adaptif. Studi juga menemukan bahwa validitas konstruk dan reliabilitas skor tetap menjadi tantangan utama, sementara implikasi evaluatif dan etis, termasuk transparansi algoritma dan perlindungan data peserta didik, menjadi perhatian Sintesis literatur ini memberikan pemahaman komprehensif mengenai perkembangan model AI, tantangan metodologis, serta rekomendasi praktik dan kebijakan untuk mengoptimalkan penggunaan AI dalam evaluasi pendidikan yang akuntabel, sahih, dan adil. This is an open access article under the CCAeBY-SA license AiAiAiAiAiAiAiAiAiAi I AiAiAiAiAiAiAiAiAiAi 212 | Education. Social Sciences, and Linguistics: Conference Serie. Vol. No. February 2026. Hal 211-219 LATAR BELAKANG Perkembangan teknologi digital telah mendorong transformasi signifikan dalam praktik assessment pendidikan. Artificial Intelligence (AI) semakin banyak digunakan untuk mendukung proses penilaian, mulai dari skoring otomatis hingga analisis performa belajar berbasis data besar. Dalam konteks ini. AI tidak hanya dipahami sebagai alat bantu teknis, tetapi sebagai sistem yang berpotensi mengubah paradigma evaluasi pembelajaran menjadi lebih adaptif, efisien, dan responsif terhadap kebutuhan peserta didik. Sejumlah kajian menunjukkan bahwa integrasi AI dalam assessment mampu meningkatkan efisiensi proses penilaian serta menyediakan umpan balik yang lebih cepat dibandingkan metode konvensional (Holmes et al. , 2019. Zawacki-Richter et al. , 2. Oleh karena itu, pemanfaatan AI dalam assessment pendidikan menjadi isu strategis yang memerlukan kajian ilmiah yang mendalam dan sistematis. Dalam praktiknya. AI dalam assessment diwujudkan melalui berbagai model, seperti automated essay scoring, intelligent tutoring systems, adaptive testing, serta learning analytics berbasis machine Model-model tersebut dirancang untuk meningkatkan akurasi pengukuran dan personalisasi pembelajaran. Penelitian terdahulu menunjukkan bahwa sistem automated scoring berbasis AI memiliki tingkat konsistensi yang mendekati penilai manusia dalam konteks tertentu (Alsafy et al. , 2. Selain itu, adaptive assessment berbasis algoritma dinilai mampu menyesuaikan tingkat kesulitan soal secara dinamis berdasarkan respons peserta didik (Wang & Chen, 2. Namun demikian, integrasi teknologi ini juga menimbulkan tantangan metodologis dan konseptual dalam kerangka evaluasi pendidikan (Widiada, 2. Meskipun berbagai model AI telah dikembangkan, isu validitas tetap menjadi perhatian utama dalam assessment pendidikan. Dalam perspektif teori validitas kontemporer, validitas tidak hanya berkaitan dengan ketepatan pengukuran, tetapi juga dengan interpretasi serta penggunaan skor dalam pengambilan keputusan pendidikan. Sejumlah kajian pada jurnal nasional terakreditasi menunjukkan bahwa implementasi sistem penilaian berbasis kecerdasan buatan dan machine learning di Indonesia masih menghadapi tantangan dalam memastikan kesesuaian antara konstruk yang diukur dengan indikator algoritmik yang digunakan (Huda & Kusumawati, 2022. Misbah et al. Secara empiris, penelitian pada pengembangan sistem penilaian otomatis di pendidikan tinggi melaporkan tingkat korelasi skor AI dengan penilai manusia berada pada rentang 0,68Ae0,82, namun masih ditemukan inkonsistensi pada respons esai yang bersifat argumentatif kompleks (Pratama & Widodo, 2. Selain itu, studi lain mengungkapkan adanya perbedaan akurasi lebih dari 8Ae12% ketika sistem diuji pada kelompok mahasiswa dengan latar belakang literasi digital yang berbeda, yang mengindikasikan potensi bias algoritmik dan keterbatasan generalisasi model (Rahmawati et al. , 2. Dari sisi reliabilitas, stabilitas model sangat dipengaruhi oleh kualitas dan keragaman data pelatihan. perubahan dataset tanpa proses retraining dan kalibrasi ulang dilaporkan menurunkan konsistensi skor secara signifikan (Sari & Nugroho, 2. Oleh karena itu, integrasi AI dalam assessment perlu tetap berpijak pada prinsip-prinsip psikometrik yang ketat agar interpretasi skor yang dihasilkan tetap sahih, konsisten, dan adil secara evaluatif dalam konteks pendidikan Indonesia. Di sisi lain, implikasi evaluatif dan etis dari penggunaan AI dalam assessment semakin menjadi perhatian global. Transparansi algoritma, akuntabilitas pengambilan keputusan, serta perlindungan data peserta didik merupakan isu krusial yang tidak dapat diabaikan. Studi terbaru menunjukkan bahwa tanpa regulasi dan kerangka evaluatif yang memadai, penggunaan AI berpotensi memperkuat ketimpangan pendidikan (Selwyn, 2019. Williamson, 2. Dengan demikian, diperlukan pendekatan evaluasi yang komprehensif untuk memastikan bahwa penerapan AI dalam assessment tidak hanya efisien secara teknis, tetapi juga adil, transparan, dan berorientasi pada peningkatan kualitas pembelajaran. Yuni Susilowati. Artificial Intelligence. Berdasarkan uraian tersebut, penelitian ini bertujuan untuk melakukan Systematic Literature Review guna mengidentifikasi dan mengklasifikasikan model-model Artificial Intelligence yang digunakan dalam assessment pendidikan, menganalisis bagaimana aspek validitas dan reliabilitas dikaji dalam penelitian-penelitian sebelumnya, serta mengevaluasi implikasi evaluatif dan etis dari Kajian ini diharapkan dapat memberikan sintesis konseptual yang komprehensif bagi pengembangan teori dan praktik evaluasi pendidikan berbasis AI, sekaligus menjadi landasan akademik bagi pengambilan kebijakan dan pengembangan sistem assessment yang lebih akuntabel dan berkualitas. METODE PENELITIAN Penelitian ini menggunakan pendekatan kualitatif dengan desain Systematic Literature Review (SLR) yang bertujuan untuk mengidentifikasi dan mengklasifikasikan model-model Artificial Intelligence (AI) yang digunakan dalam assessment pendidikan, menganalisis bagaimana aspek validitas dan reliabilitas dikaji dalam penelitian-penelitian sebelumnya, serta mengevaluasi implikasi evaluatif dan etis dari penerapannya. Pendekatan SLR dipilih karena memungkinkan proses sintesis literatur dilakukan secara sistematis, transparan, dan terstruktur sehingga mampu menghasilkan pemetaan konseptual yang komprehensif mengenai perkembangan AI dalam evaluasi pendidikan. Dengan pendekatan ini, kajian tidak hanya mendeskripsikan tren penelitian, tetapi juga menelaah kualitas argumentasi metodologis serta konsistensi kerangka validasi yang digunakan dalam studistudi terdahulu. Strategi pencarian literatur dilakukan melalui basis data ilmiah bereputasi, yaitu Scopus. DOAJ, dan Google Scholar, dengan mempertimbangkan publikasi dalam kurun waktu sepuluh tahun terakhir . 6Ae2. untuk menjamin relevansi dan kebaruan kajian. Proses pencarian menggunakan kombinasi kata kunci dengan operator Boolean, seperti: AuArtificial IntelligenceAy OR AuAIAy AND AuEducational AssessmentAy OR AuAutomated ScoringAy OR AuAdaptive TestingAy AND AuValidityAy OR AuReliabilityAy OR AuAlgorithmic FairnessAy OR AuEthicsAy. Pemilihan kata kunci tersebut disesuaikan secara langsung dengan fokus tujuan penelitian, yakni model AI, aspek validitas dan reliabilitas, serta implikasi evaluatif dan etis. Kriteria inklusi penelitian meliputi: . artikel jurnal peer-reviewed yang secara eksplisit membahas penerapan AI dalam assessment pendidikan. studi yang mengkaji model atau pendekatan AI dalam konteks penilaian. penelitian yang membahas aspek validitas, reliabilitas, fairness, atau implikasi etis dalam penggunaan AI. artikel tersedia dalam teks lengkap . Adapun kriteria eksklusi mencakup: . penelitian yang hanya membahas AI dalam pembelajaran tanpa konteks assessment. artikel berupa prosiding, editorial, atau opini tanpa landasan metodologis yang jelas. publikasi di luar rentang tahun yang ditetapkan. artikel duplikat atau yang tidak memenuhi standar kualitas metodologis. Proses seleksi literatur dilakukan melalui tahapan identifikasi, screening, eligibility, dan inclusion dengan mengacu pada kerangka PRISMA (Preferred Reporting Items for Systematic Reviews and Meta-Analyse. Setelah proses penghapusan duplikasi, artikel diseleksi berdasarkan judul dan abstrak untuk menilai relevansi terhadap tujuan penelitian. Tahap berikutnya adalah penelaahan teks lengkap guna memastikan kesesuaian dengan kriteria inklusi dan eksklusi. Ekstraksi data dilakukan secara sistematis menggunakan instrumen tabulasi . ata extraction for. yang memuat: identitas studi . enulis dan tahu. , konteks dan jenjang pendidikan, jenis dan model AI yang digunakan, pendekatan validasi dan pengujian reliabilitas, serta temuan terkait implikasi evaluatif dan etis. Data yang terkumpul dianalisis menggunakan teknik analisis tematik untuk mengelompokkan modelmodel AI, pola pendekatan validitas dan reliabilitas, serta bentuk implikasi evaluatif yang muncul. Hasil sintesis ini menjadi dasar dalam merumuskan kontribusi konseptual bagi pengembangan teori 214 | Education. Social Sciences, and Linguistics: Conference Serie. Vol. No. February 2026. Hal 211-219 dan praktik evaluasi pendidikan berbasis AI yang lebih akuntabel dan berkualitas, seperti terlihat pada Gambar 1. Gambar 1. Proses Metodologi Systematic Literature Review dalam Penelitian AI pada Assessment Pendidikan HASIL DAN PEMBAHASAN Penerapan Artificial Intelligence (AI) dalam assessment pendidikan telah berkembang secara signifikan dalam sepuluh tahun terakhir, mencakup berbagai model dan pendekatan yang mendukung efisiensi, personalisasi, dan kualitas evaluasi. Analisis literatur mengungkap bahwa penelitian terkait dapat dikelompokkan ke dalam beberapa fokus utama, yakni tren dan model AI, validitas, reliabilitas, implikasi evaluatif, dan pertimbangan etis. Setiap kelompok fokus menyoroti aspek berbeda dari implementasi AI: mulai dari pengembangan sistem penilaian otomatis dan adaptif, pengujian validitas dan reliabilitas skor AI, hingga dampak evaluatif dan tantangan etis yang Pendekatan pengelompokan ini memungkinkan pemetaan temuan penelitian secara sistematis, memberikan gambaran komprehensif tentang kemajuan teknologi, tantangan metodologis, serta implikasi praktis dan pedagogis dari penggunaan AI dalam assessment pendidikan, seperti terlihat pada Tabel 1. Yuni Susilowati. Artificial Intelligence. Tabel 1. Analisis Literatur AI dalam Assessment Pendidikan Berdasarkan Fokus Penelitian Bidang / Fokus Penulis Insight / Variabel Penelitian Tren dan Model AI Prasetyo & Nugroho . Pengembangan sistem penilaian otomatis, dalam Assessment Hidayat et al. Setiawan adaptive testing, dan intelligent tutoring Pendidikan & Widodo . Rahmawati systems. penggunaan machine learning, & Sari . Kusumawati & predictive analytics, dan natural language Amalia . Lestari & responsif terhadap pola belajar Utami . efisiensi dan personalisasi dalam Validitas dalam Fauzi & Hendri . SyafiAoi Pendekatan konvergen untuk validitas. Assessment & Lestari . Anwar & isi melalui keterlibatan pakar. validitas kriteria Berbasis AI Putri . melalui perbandingan skor AI dengan penilai triangulasi data untuk memastikan makna pedagogis skor AI. Reliabilitas dalam Hadi & Nur . Suryanto Stabilitas skor AI dipengaruhi kualitas dan Assessment & Wulandari . Fikri & representativitas dataset pelatihan. Berbasis AI Ambarwati . ukuran dan keragaman data meningkatkan evaluasi berkala untuk menjaga konsistensi jangka panjang. Implikasi Evaluatif Utami & Budi . Ali & AI mendukung evaluasi cepat dan visualisasi Rahma . Mirza & Lestari capaian belajar. membantu pengambilan . keputusan akademik berbasis data. integrasi dengan kerangka evaluatif yang lebih luas agar bermakna secara pedagogis. Pertimbangan Etis Pramesti & Hadi . Risiko bias algoritmik akibat dataset yang tidak dalam Assessment Yuliana & Santoso . transparansi algoritma untuk Kusuma & Ratna . menjamin akuntabilitas. perlindungan data pribadi peserta didik krusial. aspek etika tidak dapat dipisahkan dari praktik implementasi AI. Tren dan Model AI dalam Assessment Pendidikan Implementasi Artificial Intelligence (AI) dalam assessment pendidikan menunjukkan tren peningkatan yang signifikan dalam dekade terakhir, terutama pada pengembangan sistem penilaian otomatis dan adaptif. Penelitian oleh Prasetyo & Nugroho . menunjukkan bahwa penggunaan machine learning dalam scoring otomatis mampu mengantisipasi keterbatasan penilaian manual dan mempercepat distribusi umpan balik. Selain itu, studi dari Hidayat et al. mengungkap adopsi AI dalam asesmen formatif yang meningkatkan respons adaptif terhadap kebutuhan belajar peserta didik. Sementara itu, pengembangan intelligent tutoring systems berbasis AI juga dilaporkan mampu menyesuaikan jalur penilaian berdasarkan pola belajar individu (Setiawan & Widodo, 2. Temuan-temuan ini menunjukkan bahwa model AI tidak hanya berorientasi pada efisiensi, tetapi juga mulai diposisikan sebagai instrumen inovatif untuk mendukung evaluasi pembelajaran yang lebih responsif. Lebih lanjut, karakteristik model AI yang dikembangkan bervariasi, tetapi cenderung terkonsentrasi pada tiga ranah utama: klasifikasi teks . utomated essay scorin. , prediksi pencapaian . redictive analytic. , dan personalisasi evaluasi . daptive testin. Dalam kajian teknologi assessment di pendidikan tinggi. Rahmawati & Sari . menekankan bahwa automated scoring systems memanfaatkan natural language processing untuk mendeteksi koherensi dan kualitas argumen peserta didik. Di sisi lain, penelitian oleh Kusumawati & Amalia . melaporkan bahwa predictive analytics berbasis AI dapat memetakan risiko gagal kompetensi sejak awal. Selain itu, penelitian oleh Lestari & Utami . menggarisbawahi perkembangan adaptive testing yang lebih responsif terhadap tingkat kemampuan peserta didik. Secara keseluruhan, literatur memperlihatkan diversifikasi model AI yang semakin kompleks dan fungsional dalam konteks assessment pendidikan. 216 | Education. Social Sciences, and Linguistics: Conference Serie. Vol. No. February 2026. Hal 211-219 Perkembangan AI dalam assessment pendidikan selama sepuluh tahun terakhir menunjukkan pergeseran paradigma dari evaluasi yang bersifat statis menuju pendekatan berbasis data yang lebih dinamis dan adaptif. AI tidak lagi sekadar digunakan untuk mempercepat proses koreksi, tetapi telah berkembang menjadi sistem analitik yang mampu mengidentifikasi pola belajar, memprediksi capaian peserta didik, serta mendukung fungsi diagnostik dan formatif. Secara teknologis, terjadi evolusi dari penggunaan supervised learning sederhana menuju penerapan deep learning dan natural language processing yang lebih canggih, termasuk integrasi predictive analytics dan adaptive Namun demikian, implementasinya masih menghadapi tantangan, terutama dalam aspek validitas konstruk, potensi bias akibat keterbatasan data pelatihan, serta kurangnya transparansi model algoritmik. Oleh karena itu, pengembangan AI dalam assessment perlu mengintegrasikan dimensi teknologis, psikometrik, dan etis agar hasil evaluasi tidak hanya akurat secara statistik, tetapi juga sahih dan dapat dipertanggungjawabkan secara akademik. Analisis Validitas dan Reliabilitas dalam Assessment Berbasis AI Kajian terhadap validitas dalam assessment berbasis AI menunjukkan bahwa banyak penelitian mulai mengadopsi pendekatan konvergen untuk menilai kesesuaian antara skor AI dan konstruk evaluatif yang dimaksud. Studi oleh Fauzi & Hendri . menekankan perlunya pengujian validitas isi melalui keterlibatan ahli evaluasi pendidikan untuk memastikan indikator yang dipakai mewakili kompetensi yang diukur. Penelitian lain oleh SyafiAoi & Lestari . menunjukkan bahwa validitas kriteria dapat ditingkatkan melalui perbandingan skor sistem AI dengan penilaian instruktur Selain itu. Anwar & Putri . menegaskan pentingnya triangulasi data dalam memastikan bahwa output AI tidak sekadar mencerminkan kesamaan statistik semata, tetapi juga makna pedagogis yang valid. Temuan ini menegaskan bahwa pengujian validitas masih merupakan ranah penting yang memerlukan perhatian analitis dalam pengembangan AI untuk assessment. Dari sisi reliabilitas, literatur menunjukkan bahwa kestabilan skor yang dihasilkan AI sangat dipengaruhi oleh prosedur pelatihan data dan representativitas dataset. Dalam studi oleh Hadi & Nur . , reliabilitas sistem scoring otomatis ditentukan oleh konsistensi dataset pelatihan yang digunakan untuk menguji model. Penelitian oleh Suryanto & Wulandari . memperlihatkan bahwa peningkatan ukuran sampel dan diversifikasi data latih dapat meningkatkan reliabilitas model hingga mencapai tingkat konsistensi yang sebanding dengan penilai manusia. Selain itu, studi oleh Fikri & Ambarwati . mencatat bahwa evaluasi berkala terhadap parameter model perlu dilakukan untuk menjaga stabilitas jangka panjang. Dengan demikian, analisis reliabilitas dalam konteks AI tidak hanya melibatkan aspek teknis, tetapi juga manajemen data yang sistematis untuk memastikan kesesuaian hasil evaluasi. Kajian validitas dalam assessment berbasis AI menunjukkan bahwa sistem ini mulai menggabungkan prinsip psikometrik klasik dengan teknologi komputasional, sehingga validitas tidak hanya dilihat dari kesesuaian statistik antara input dan output, tetapi juga dari sejauh mana skor AI mencerminkan konstruk yang sesungguhnya diukur. Di sisi reliabilitas, konsistensi skor sangat tergantung pada kualitas dan representativitas dataset serta prosedur pelatihan model, yang menuntut pemantauan dan pengelolaan data secara berkelanjutan. Meski demikian, evaluasi kritis mengungkap bahwa sebagian penelitian masih berfokus pada validitas kriteria tanpa eksplorasi mendalam terhadap validitas konstruk, sementara reliabilitas dapat terpengaruh oleh bias data dan model black-box yang kurang transparan. Oleh karena itu, pengembangan assessment berbasis AI memerlukan pendekatan yang holistik, mengintegrasikan validitas pedagogis, konsistensi teknis, dan transparansi algoritmik agar hasil evaluasi dapat diandalkan dan sahih. Yuni Susilowati. Artificial Intelligence. Implikasi Evaluatif dan Tantangan Etis Penggunaan AI Penerapan AI dalam assessment pendidikan membawa dampak signifikan terhadap praktik evaluasi, terutama dalam hal keputusan akademik dan akuntabilitas penilaian. Studi oleh Utami & Budi . menunjukkan bahwa sistem AI mampu membantu pendidik dalam mengevaluasi hasil belajar secara cepat, namun hasil tersebut perlu dikombinasikan dengan pertimbangan evaluatif yang lebih luas agar bermakna secara pedagogis. Sementara itu. Ali & Rahma . mencatat bahwa penggunaan AI juga memicu kebutuhan untuk pembentukan kerangka evaluatif yang mengintegrasikan prosedur validasi internal dan eksternal. Selain itu, penelitian oleh Mirza & Lestari . memperlihatkan bahwa AI dapat memperkaya laporan capaian belajar melalui visualisasi data, namun tetap memerlukan pengawasan akademik agar interpretasi skor tidak bias. Temuan-temuan ini menunjukkan bahwa implikasi evaluatif AI tidak sekadar teknis, melainkan juga normatif dan Dari sisi etika, tantangan terbesar dalam penggunaan AI untuk assessment berkaitan dengan prinsip keadilan, transparansi, dan hak peserta didik. Menurut Pramesti & Hadi . , bias algoritmik dapat muncul apabila dataset pelatihan tidak mencerminkan keberagaman peserta didik, sehingga menimbulkan disparitas evaluasi antar kelompok. Studi oleh Yuliana & Santoso . menegaskan bahwa transparansi algoritma penting untuk menjamin akuntabilitas proses penilaian dan memberikan ruang bagi peserta didik untuk memahami bagaimana skor dihasilkan. Selain itu, penelitian oleh Kusuma & Ratna . menunjukkan bahwa perlindungan data pribadi peserta didik menjadi aspek etika yang krusial dalam pengembangan sistem AI berbasis cloud. Keseluruhan temuan ini menegaskan bahwa tantangan etis tidak dapat dipisahkan dari praktik implementasi AI dalam assessment pendidikan. Temuan menunjukkan bahwa implikasi penggunaan AI dalam assessment pendidikan melampaui aspek teknis, mencakup dimensi normatif dan kontekstual. AI mampu meningkatkan efisiensi penilaian, menyediakan visualisasi capaian belajar yang informatif, dan mendukung pengambilan keputusan akademik berbasis data, namun skor yang dihasilkan tetap perlu diinterpretasikan dalam kerangka evaluasi pendidikan yang mempertimbangkan tujuan dan prinsip Dari sisi etika, risiko bias muncul jika dataset tidak mencerminkan keragaman peserta didik, sehingga transparansi algoritma dan perlindungan data menjadi kunci untuk menjamin keadilan, akuntabilitas, dan hak privasi. Kendati AI menawarkan akurasi dan kemudahan, keterbatasan seperti kurangnya konteks pedagogis, potensi bias algoritmik, dan sifat model blackbox menuntut pengawasan yang lebih ketat. Dengan demikian, implementasi AI dalam assessment harus mengintegrasikan analisis teknis, pedagogis, dan etis secara seimbang agar hasil evaluasi sahih, dapat dipertanggungjawabkan, dan adil bagi semua peserta didik. Gambar 2. Perkembangan Variabel Riset AI dalam Assessment Pendidikan . 6Ae2. 218 | Education. Social Sciences, and Linguistics: Conference Serie. Vol. No. February 2026. Hal 211-219 Pada Gambar 2 terlihat adanya evolusi signifikan dalam penerapan Artificial Intelligence (AI) untuk assessment pendidikan. Pada periode awal 2016Ae2017, fokus penelitian masih berorientasi pada stabilitas skor, konsistensi model, manajemen data, representativitas dataset, dan pengukuran reliabilitas seperti CronbachAos Alpha, menandakan perhatian pada validitas teknis dan keandalan sistem scoring otomatis. Memasuki 2018Ae2019, fokus penelitian mulai bergeser ke automated scoring, validitas isi, perbandingan skor, dan asesmen formatif, yang menekankan integrasi prinsip psikometrik dengan teknologi AI. Pada periode 2020Ae2021, penelitian mulai menekankan intelligent tutoring, predictive analytics, dan diversifikasi data, memperlihatkan upaya meningkatkan responsivitas pembelajaran individual dan prediksi performa peserta didik. Periode 2022Ae2023 menunjukkan kematangan aplikasi AI, dengan adaptive testing, risiko kompetensi, bias algoritmik, dan transparansi algoritma sebagai fokus utama, mencerminkan kebutuhan akan keadilan, akuntabilitas, dan evaluasi berorientasi pedagogis. Akhirnya, pada 2024Ae2025, perhatian penelitian semakin holistik dengan integrasi kebijakan, evaluasi berkelanjutan, audit algoritma, akuntabilitas penilaian, dan etika AI, menegaskan bahwa implementasi AI harus mempertimbangkan aspek teknis, pedagogis, dan normatif secara simultan. Secara keseluruhan, interpretasi ini menunjukkan bahwa evolusi variabel riset tidak hanya mengikuti perkembangan teknologi, tetapi juga berfokus pada kesesuaian pedagogis, kualitas data, keadilan algoritmik, dan tanggung jawab etis, sehingga membentuk kerangka komprehensif untuk assessment berbasis AI. SIMPULAN DAN SARAN Berdasarkan kajian literatur sistematis, dapat disimpulkan bahwa penerapan Artificial Intelligence (AI) dalam assessment pendidikan telah menghadirkan inovasi signifikan dalam meningkatkan efisiensi, personalisasi, dan responsivitas evaluasi pembelajaran, sekaligus mendukung prediksi performa dan pengambilan keputusan akademik berbasis data. Namun, penerapan AI masih menghadapi tantangan kritis terkait validitas konstruk, reliabilitas yang bergantung pada kualitas dan representativitas dataset, transparansi algoritma, serta potensi bias yang dapat memengaruhi keadilan dan akuntabilitas penilaian. Oleh karena itu, disarankan agar penelitian dan pengembangan ke depan fokus pada integrasi dimensi teknis, psikometrik, dan etis dalam satu kerangka evaluasi AI, termasuk mitigasi bias algoritmik, audit transparansi model, serta pemantauan dampak jangka panjang terhadap kualitas dan keadilan evaluasi pendidikan, sehingga penerapan AI dapat menghasilkan penilaian yang sahih, dapat dipertanggungjawabkan, dan adil bagi seluruh peserta didik. REFERENSI