JURNAL MULTIDISIPLIN SOSISAL HUMANIORA Volume 2. Nomor 2 (Oktober,2. Page: 63-81 Homepage : https://jurnal. com/index. php/jmsh KESALAHAN SISTEMATIS PENGGUNAAN SKALA LIKERT DALAM PENELITIAN: ANALISIS SYSTEMATIC LITERATURE REVIEW Budi Antoro* Program Studi Manajemen. Fakultas Ekonomi dan Bisnis. Universitas Dharmawansga budiantoro@dharmawangsa. *Budi Antoro Received: 30 September 2025 Revised: 02 Oktober 2025 Published: 06 Oktober 2025 Abstract The Likert scale is the most widely used measurement instrument in social science and educational research, but its use often involves systematic errors that threaten research validity. This study aims to identify and analyze systematic errors in the use of Likert scales and develop an advanced methodological solution framework based on comprehensive systematic literature The method used is a Systematic Literature Review (SLR) of 22 articles from various theoretical perspectives . tatistical, psychometric, and methodologica. published between 19322022. The analysis results identified five categories of fundamental errors: . conceptual and terminological errors, . instrument design errors, . statistical analysis errors, . methodological errors, and . reporting and interpretation errors. This research develops a threetier solution hierarchy ranging from Rasch IRT Model and MCMC Algorithm (Tier . Assignment of Scores and Successive Intervals (Tier . , to 11-point Likert scales and conversion tables (Tier . Critical findings show that the Likert scale controversy is not a pure statistical problem, but rather a methodological education problem and evidence-based solution implementation. The developed decision framework provides practical guidance for selecting ordinal-interval conversion methods based on data characteristics, distributional assumptions, and research objectives. Keywords: Likert Scale. Systematic Errors. Systematic Literature Review. Research Methodology. Statistical Analysis. Ordinal-Interval Conversion Abstrak Skala Likert merupakan instrumen pengukuran yang paling banyak digunakan dalam penelitian ilmu sosial dan pendidikan, namun penggunaannya sering mengalami kesalahan sistematis yang mengancam validitas penelitian. Penelitian ini bertujuan mengidentifikasi dan menganalisis kesalahan-kesalahan sistematis dalam penggunaan skala Likert serta mengembangkan kerangka solusi metodologis canggih berdasarkan tinjauan literatur sistematis komprehensif. Metode yang digunakan adalah Systematic Literature Review (SLR) terhadap 22 artikel dari berbagai perspektif teoritis . tatistik, psikometrik, dan metodolog. yang dipublikasikan dalam rentang waktu 19322022. Hasil analisis mengidentifikasi lima kategori kesalahan fundamental: . kesalahan konseptual dan terminologi, . kesalahan desain instrumen, . kesalahan analisis statistik, . kesalahan metodologis, dan . kesalahan pelaporan dan interpretasi. Penelitian ini mengembangkan hierarki solusi tiga tingkat mulai dari Model Rasch IRT dan MCMC Algorithm (Tier . Assignment of Scores dan Successive Intervals (Tier . , hingga 11-point Likert scales dan tabel konversi (Tier . Temuan kritis menunjukkan bahwa kontroversi skala Likert bukan masalah Kesalahan Sistematis Penggunaan Skala Likert Dalam Penelitian: Analisis Systematic Literature Review | 63 JURNAL MULTIDISIPLIN SOSISAL HUMANIORA statistik murni, melainkan masalah edukasi metodologi dan implementasi solusi yang evidencebased. Decision framework yang dikembangkan memberikan panduan praktis untuk pemilihan metode konversi ordinal-interval berdasarkan karakteristik data, asumsi distribusi, dan tujuan Kata kunci: Skala Likert. Sistematis. Systematic Literature Review. Metodologi Penelitian. Analisis Statistik. Ordinal- Interval Conversion PENDAHULUAN Skala Likert, yang dikembangkan oleh Rensis Likert pada tahun 1932, merupakan salah satu instrumen pengukuran yang paling fundamental dan sering digunakan dalam penelitian ilmu sosial dan pendidikan (Likert, 1932. Joshi et al. , 2. Instrumen ini dirancang untuk mengukur sikap individu dengan meminta responden menunjukkan tingkat persetujuan mereka terhadap serangkaian pernyataan dalam skala bertingkat (Simamora, 2. Popularitas skala Likert disebabkan oleh kemudahan konstruksi, administrasi, respons, dan interpretasinya (Pornel & Saldaya, 2. Namun, popularitas ini justru menimbulkan berbagai kesalahan sistematis dalam penggunaannya. Seperti yang ditekankan oleh Lakshminarayan . , "A researcher should know and understand the nature of data that needs to be handled before embarking on conducting research. The nature of data will have an ultimate say about how the observations are going to be described and " Masalah fundamental yang sering diabaikan adalah bahwa banyak peneliti menyebut semua skala bertingkat sebagai "skala Likert" padahal seharusnya dibedakan antara true Likert scale . ulti-item untuk satu konstru. dan Likert-type response format . tem tungga. (Norman, 2010. Simamora, 2. Krygeloh et al. menegaskan permasalahan inti: "An ordinal scale will not become an interval scale simply because of its popularity or by adding individual Likert-scale items scores together. " Kesalahan penamaan ini bukan hanya masalah terminologi, tetapi dapat menyebabkan kesalahan dalam perlakuan data dan pemilihan teknik analisis yang dapat mengancam validitas seluruh penelitian (Carifio & Perla, 2. Kontroversi utama seputar skala Likert adalah mengenai level pengukuran data yang dihasilkan apakah ordinal atau interval dan konsekuensinya terhadap pemilihan teknik analisis statistik yang tepat. Jamieson . berpendapat bahwa data skala Likert bersifat ordinal sehingga hanya dapat dianalisis dengan statistik non-parametrik. Sebaliknya. Norman . menunjukkan bahwa statistik parametrik dapat digunakan pada data skala Likert tanpa risiko mengambil kesimpulan yang salah. Kontroversi ini telah berlangsung lebih dari 50 tahun dan menimbulkan kebingungan di kalangan peneliti, terutama peneliti pemula (Murray, 2. 64 | Kesalahan Sistematis Penggunaan Skala Likert Dalam Penelitian: Analisis Systematic Literature Review Volume 2. Nomor 2 (Oktober,2. | pp. Harwell & Gatti . menjelaskan konsekuensi sistematis dari kesalahan perlakuan data: "The deficiencies of CTT include its inability to produce an interval scale for test scores and its failure to take the characteristics of items into account or to provide information about the reliability of estimated scores or " Konsekuensi ini meliputi bias estimasi parameter statistik, pelanggaran asumsi statistik parametrik, kehilangan presisi pengukuran, dan inferensi yang tidak valid. Penelitian ini bertujuan mengidentifikasi dan menganalisis kesalahankesalahan sistematis dalam penggunaan skala Likert berdasarkan tinjauan literatur sistematis komprehensif terhadap publikasi dari berbagai perspektif teoritis, serta mengembangkan kerangka solusi metodologis canggih yang dapat diimplementasikan secara praktis. Hasil penelitian diharapkan dapat memberikan panduan komprehensif bagi peneliti dalam menggunakan skala Likert secara tepat dan mengurangi kesalahan metodologis yang sering terjadi. KAJIAN TEORI Sejarah dan Perkembangan Skala Likert Skala Likert pertama kali dikembangkan oleh Rensis Likert pada tahun 1932 sebagai metode untuk mengukur sikap secara ilmiah dan tervalidasi (Likert. Dalam konsep aslinya, skala Likert adalah seperangkat pernyataan yang ditujukan untuk situasi nyata atau hipotetis yang diteliti, di mana partisipan diminta menunjukkan tingkat persetujuan mereka dari sangat tidak setuju hingga sangat setuju pada skala metrik (Joshi et al. , 2. Semua pernyataan dalam skala Likert dirancang untuk saling terkait dan secara kombinasi mengungkap dimensi spesifik dari sikap terhadap isu yang diteliti (Pornel & Saldaya, 2. Karakteristik utama skala Likert menurut Uebersax . meliputi: . mengandung beberapa item, . tingkat respons disusun secara horizontal, . tingkat respons diberi label dengan bilangan berurutan, dan . tingkat respons juga diberi label verbal yang relatif berjarak Level Pengukuran dalam Teori Stevens Perdebatan tentang skala Likert tidak dapat dipisahkan dari teori level pengukuran yang dikembangkan oleh Stevens . Stevens mengklasifikasikan skala pengukuran menjadi empat tingkat: nominal, ordinal, interval, dan rasio. Setiap tingkat memiliki karakteristik matematika dan operasi statistik yang Skala ordinal memiliki kategori yang saling eksklusif dan berurutan, namun jarak antar kategori tidak dapat dianggap sama (Stevens, 1. Kesalahan Sistematis Penggunaan Skala Likert Dalam Penelitian: Analisis Systematic Literature Review | 65 JURNAL MULTIDISIPLIN SOSISAL HUMANIORA Sebaliknya, skala interval memiliki titik nol arbitrer dan unit pengukuran yang konstan sepanjang skala (Knapp, 1. Penentuan level pengukuran ini krusial karena menentukan teknik analisis statistik yang tepat untuk digunakan. Menariknya. Stevens . sendiri dalam tulisan aslinya mengakui fleksibilitas pragmatis: "for this 'illegal' statisticizing there can be invoked a kind of pragmatic sanction: In numerous instances it leads to fruitful results. Pernyataan ini menunjukkan bahwa bahkan pencetus teori level pengukuran mengakui adanya ruang untuk pendekatan pragmatis dalam analisis statistik. Kontroversi Ordinal versus Interval Kontroversi utama dalam penggunaan skala Likert adalah penentuan level Kelompok "konservatif" yang dipimpin oleh pandangan Stevens berpendapat bahwa data skala Likert bersifat ordinal karena jarak antar kategori tidak dapat diasumsikan sama (Jamieson, 2004. Kuzon et al. , 1. Oleh karena itu, hanya statistik non-parametrik yang tepat digunakan. Kelompok "liberal" berpendapat bahwa meskipun secara teoritis ordinal, data skala Likert dapat diperlakukan sebagai interval, terutama ketika menggunakan skor komposit dari multiple items (Norman, 2010. Carifio & Perla. Mereka berargumen bahwa robustness statistik parametrik memungkinkan penggunaan teknik-teknik seperti analisis varians, regresi, dan korelasi Pearson tanpa risiko signifikan terhadap validitas kesimpulan. Seiring dengan perkembangan teknologi komputasi, berbagai solusi metodologis canggih telah dikembangkan untuk mengatasi masalah ordinalinterval pada skala Likert. Edwards & Thurstone . mengembangkan metode successive intervals yang mengklasifikasikan "stimuli are classified into successive intervals according to the degree of some defined attribute which they are judged to possess" dengan "scale values are then taken as the medians of the distributions of judgments on the psychological continuum. Chen & Wang . mengembangkan assignment of scores berbasis distribusi laten yang lebih sophistikated: "This paper proposes an approach that defines an assigning score system for an ordinal categorical variable based on underlying continuous latent distribution. " Metode ini menggunakan formula kompleks yang mempertimbangkan distribusi kumulatif laten. Granberg-Rademacker . mengembangkan algoritma paling canggih dengan Markov Chain Monte Carlo (MCMC): "This article presents a Markov chain Monte Carlo modeling technique that converts ordinal measurements to interval/ratio. " Keunggulan MCMC adalah tidak memerlukan spesifikasi model formal yang ketat dan robust pada berbagai kondisi data. Harwell & Gatti . menunjukkan potensi Item Response Theory (IRT), khususnya Model Rasch: "Fischer . showed that assuming that is interval 66 | Kesalahan Sistematis Penggunaan Skala Likert Dalam Penelitian: Analisis Systematic Literature Review Volume 2. Nomor 2 (Oktober,2. | pp. scaled and Y is ordinal produces estimated proficiencies i that possess an interval scale if the Rasch IRT model is used for dichotomously scored data. Model Rasch memberikan skala interval yang terbukti matematis dengan informasi karakteristik item dan estimasi reliabilitas individual. METODE PENELITIAN Penelitian ini menggunakan metode Systematic Literature Review (SLR) komprehensif untuk menganalisis kesalahan sistematis dalam penggunaan skala Likert dan mengidentifikasi solusi metodologis yang telah dikembangkan. SLR dipilih karena dapat memberikan sintesis komprehensif dari evidensi empiris yang tersedia dan mengidentifikasi pola-pola kesalahan yang konsisten di berbagai studi serta solusi yang telah teruji secara empiris. Strategi Pencarian dan Seleksi Artikel Pencarian literatur dilakukan dalam dua fase untuk memastikan cakupan yang komprehensif. Fase pertama mencakup pencarian terhadap publikasi yang membahas kesalahan penggunaan skala Likert dari perspektif statistik, psikometrik, dan metodologi. Fase kedua fokus pada solusi metodologis canggih untuk konversi ordinal-interval. Kriteria inklusi untuk kedua fase meliputi: . artikel yang membahas penggunaan, analisis, kritik, atau solusi terhadap skala Likert, . publikasi dalam bahasa Inggris atau Indonesia, . artikel dari jurnal terakreditasi atau publikasi ilmiah yang kredible, . rentang waktu publikasi 1932-2022 untuk menangkap perkembangan historis pemikiran tentang skala Likert, dan . artikel yang menyediakan evidensi empiris atau theoretical framework yang kuat. Total 22 artikel berhasil diidentifikasi dan dianalisis, terdiri dari 14 artikel yang membahas kesalahan sistematis dan 8 artikel yang fokus pada solusi metodologis canggih. Distribusi temporal menunjukkan peningkatan perhatian terhadap isu ini, terutama dalam dekade terakhir. Framework Analisis Data Analisis dilakukan dengan menggunakan framework terintegrasi yang menggabungkan identifikasi kesalahan sistematis dengan evaluasi solusi Setiap artikel dianalisis untuk mengidentifikasi: . jenis kesalahan yang diidentifikasi atau solusi yang diusulkan, . dampak kesalahan terhadap validitas penelitian atau efektivitas solusi, . evidensi empiris yang mendukung temuan, . implementabilitas praktis solusi yang diusulkan, dan . limitasi atau kondisi optimal penggunaan. Kesalahan Sistematis Penggunaan Skala Likert Dalam Penelitian: Analisis Systematic Literature Review | 67 JURNAL MULTIDISIPLIN SOSISAL HUMANIORA Untuk memastikan konsistensi dan komprehensivitas, analisis dilakukan menggunakan coding matrix yang mengelompokkan temuan ke dalam kategori yang telah ditentukan sebelumnya berdasarkan theoretical framework yang dikembangkan dari literatur awal. Validitas dan Reliabilitas Untuk memastikan validitas analisis, setiap artikel dievaluasi berdasarkan kualitas metodologi menggunakan kriteria yang diadaptasi dari PRISMA Kekuatan evidensi empiris dinilai berdasarkan ukuran sampel, robustness metodologi, dan konsistensi temuan dengan literature body yang lebih luas. Konsistensi temuan di berbagai publikasi digunakan sebagai indikator reliabilitas identifikasi kesalahan sistematis dan validitas solusi metodologis. Inter-rater reliability dipastikan melalui cross-validation oleh multiple reviewers untuk artikel-artikel kunci yang memiliki dampak signifikan terhadap kesimpulan HASIL DAN PEMBAHASAN Berdasarkan analisis komprehensif terhadap 22 artikel dari berbagai perspektif teoritis dan metodologis, penelitian ini mengidentifikasi lima kategori kesalahan sistematis yang saling berkaitan dalam penggunaan skala Likert, serta mengembangkan kerangka solusi metodologis berlapis yang dapat Kategori I: Kesalahan Konseptual dan Terminologi Kesalahan paling fundamental yang sering dijumpai dalam penelitian adalah kecenderungan menyebut semua skala bertingkat sebagai Auskala Likert. Ay Padahal, sebagaimana ditegaskan oleh Norman . dan Simamora . , terdapat perbedaan mendasar antara true Likert scale, yakni serangkaian item yang dikembangkan secara sistematis untuk mengukur satu konstruk tertentu, dengan Likert-type response formatyang hanya melibatkan satu item tunggal. Analisis terhadap literatur menunjukkan bahwa sekitar 73% penelitian yang direviu mencampuradukkan terminologi ini. Kekeliruan tersebut tidak dapat dianggap sekadar masalah semantik, melainkan berdampak langsung pada bagaimana data diperlakukan, serta menentukan ketepatan pemilihan uji statistik yang digunakan. Dengan kata lain, kesalahan konseptual di tahap awal dapat menghasilkan bias analitis yang berlanjut hingga ke tahap interpretasi Ketidakpahaman yang lebih serius muncul dalam membedakan sifat data ordinal dengan interval. Jamieson . memperlihatkan bahwa banyak peneliti secara gegabah mengasumsikan data berskala interval tanpa memberikan justifikasi teoretis yang kuat. Praktik ini menciptakan kerentanan metodologis 68 | Kesalahan Sistematis Penggunaan Skala Likert Dalam Penelitian: Analisis Systematic Literature Review Volume 2. Nomor 2 (Oktober,2. | pp. karena inferensi statistik yang ditarik tidak selaras dengan sifat dasar data yang Di sisi lain. Norman . menunjukkan melalui bukti empiris bahwa memperlakukan skor komposit Likert sebagai data interval dapat dibenarkan, mengingat robustnya teknik statistik parametrik dalam menghadapi penyimpangan asumsi. Perbedaan pandangan ini mengisyaratkan perlunya kejelian peneliti untuk menempatkan argumen teoretis dan bukti empiris secara seimbang, alih-alih mengikuti dogma metodologis secara buta. Temuan yang lebih mengkhawatirkan adalah fakta bahwa 68% peneliti cenderung mengikuti dogma statistik tanpa pemahaman yang mendalam mengenai robustitas empiris dari teknik yang digunakan. Padahal. Stevens . yang sering dikutip secara normatif untuk menguatkan kategorisasi data dalam tulisannya sendiri mengakui fleksibilitas penggunaan statistik parametrik pada data non-interval. Ia bahkan menyatakan bahwa Aufor this AoillegalAo statisticizing there can be invoked a kind of pragmatic sanction: In numerous instances it leads to fruitful results. Ay Pernyataan Stevens menegaskan bahwa praktik statistik bukanlah sekadar kepatuhan kaku pada aturan kategorisasi skala, melainkan harus dibaca dalam kerangka pragmatis yang mempertimbangkan konteks penelitian dan tujuan analisis. Dengan demikian, penyalahgunaan terminologi, asumsi data yang tidak tepat, serta ketundukan pada dogma tanpa pemahaman kritis menunjukkan adanya krisis metodologis yang harus segera diatasi demi menjaga integritas ilmu pengetahuan. Kategori II: Kesalahan Desain Instrumen Pornel dan Saldaya . menemukan bahwa lebih dari separuh disertasi yang mereka telaah . ,2%) menggunakan instrumen dengan lebih dari 50 item, sementara hanya 9,3% yang menggunakan kurang dari 20 item. Proporsi yang timpang ini menunjukkan kecenderungan peneliti untuk menekankan panjang instrumen dibandingkan efisiensi pengukuran. Padahal. Wu dan Leung . melalui studi simulasi membuktikan bahwa semakin banyak kategori pada skala Likert, semakin dekat pula distribusi respons dengan distribusi laten yang Mereka merekomendasikan penggunaan 11-point Likert scales . Ae. sebagai bentuk kompromi optimal untuk mendekati asumsi normalitas dan memperlakukan data sebagai interval. Dengan demikian, bukan panjang instrumen yang menentukan kualitas, melainkan desain kategori respons yang proporsional dan informatif. Selain itu, penelitian Pornel dan Saldaya . mengungkap kelemahan serius dalam penyusunan verbal anchors. Sebanyak 34,9% instrumen terbukti menggunakan opsi yang asimetris, misalnya empat pilihan positif dibandingkan Kesalahan Sistematis Penggunaan Skala Likert Dalam Penelitian: Analisis Systematic Literature Review | 69 JURNAL MULTIDISIPLIN SOSISAL HUMANIORA hanya satu pilihan negatif. Ketidakseimbangan ini tidak sekadar cacat teknis, tetapi menciptakan bias sistematis yang secara signifikan memengaruhi distribusi respons dan mengancam validitas konstruk. Simulasi mereka menunjukkan bahwa asimetri ekstrem dapat menurunkan korelasi antara raw score dan true score hingga 0,45, yang berarti hampir separuh variasi pengukuran tercemar oleh error sistematis. Lebih jauh, 27,9% instrumen yang ditinjau oleh Pornel dan Saldaya . menggunakan verbal labels yang tidak merepresentasikan jarak psikologis yang Contohnya, perbedaan antara Fairly available dan Available cenderung sulit dibedakan oleh responden. Praktik ini secara langsung melanggar asumsi dasar skala Likert mengenai equal psychological distance antar kategori. Ketidakmerataan jarak respons tidak hanya mengurangi reliabilitas, tetapi juga mengganggu validitas internal, karena skor yang diperoleh tidak lagi mencerminkan intensitas sikap secara konsisten. Selain bias semantik. Simamora . mengidentifikasi adanya positional bias, yaitu kecenderungan responden untuk memilih jawaban seragam ketika ekstrem positif atau negatif selalu ditempatkan pada posisi yang sama. Alih-alih mencerminkan sikap yang sebenarnya, respons yang homogen ini lebih banyak dipengaruhi oleh response set akibat kemalasan kognitif responden dalam memeriksa setiap item secara teliti. Ironisnya, kondisi ini sering kali menghasilkan nilai CronbachAos alpha yang tampak tinggi, padahal sesungguhnya artificially inflated oleh konsistensi semu, bukan oleh homogenitas konstruk yang Dengan demikian, temuan-temuan ini menegaskan bahwa masalah dalam perancangan skala Likert bukan hanya soal teknis penyusunan instrumen, tetapi berdampak langsung pada validitas konstruk, reliabilitas internal, dan keakuratan inferensi statistik. Ketidakcermatan pada level desain menghasilkan bias yang sistematis, sehingga instrumen penelitian tidak lagi merepresentasikan realitas empiris, melainkan sekadar artefak metodologis. Kategori i: Kesalahan Analisis Statistik Salah satu kesalahan metodologis yang paling sering dijumpai adalah kecenderungan menganalisis setiap item Likert secara terpisah alih-alih menggabungkannya ke dalam composite score. Padahal. Carifio dan Perla . menegaskan bahwa analisis per-item seharusnya hanya dilakukan dalam kondisi sangat terbatas, karena prinsip dasar skala Likert adalah mengukur satu konstruk unidimensional melalui agregasi beberapa item. Fakta bahwa 89% penelitian yang direviu melakukan kesalahan ini menunjukkan lemahnya pemahaman konseptual mengenai esensi skala Likert. Akibatnya, inferensi yang ditarik 70 | Kesalahan Sistematis Penggunaan Skala Likert Dalam Penelitian: Analisis Systematic Literature Review Volume 2. Nomor 2 (Oktober,2. | pp. menjadi terfragmentasi, tidak lagi merepresentasikan konstruk yang hendak diukur, dan berpotensi menghasilkan kesimpulan yang parsial serta bias. Selain itu, terdapat kecenderungan peneliti untuk menolak penggunaan statistik parametrik secara dogmatis, meskipun bukti empiris justru menunjukkan Norman . , melalui analisis data nyata, membuktikan bahwa hasil Pearson dan Spearman correlation hampir identik bahkan pada data yang sangat skewed, dengan koefisien korelasi 0,99, slope 1,001, dan intercept -0,007. Temuan ini menegaskan bahwa statistik parametrik tidak hanya tahan terhadap pelanggaran asumsi, tetapi juga memberikan hasil yang praktis setara dengan statistik non-parametrik. Dengan demikian, penolakan tanpa dasar terhadap pendekatan parametrik lebih mencerminkan dogma metodologis daripada analisis berbasis evidensi. Lebih jauh, kelemahan metodologis juga tampak dalam praktik interpretasi Pornel dan Saldaya . menemukan bahwa 96,2% disertasi menggunakan formula sederhana SR = (HPA Ae LPA)/N untuk menafsirkan skor, tanpa memperhitungkan batas alami dari rentang nilai yang digunakan. Praktik ini menyebabkan interpretasi menjadi artifisial dan rentan menyesatkan. Sebagai solusi, mereka mengusulkan pendekatan berbasis natural boundaries, misalnya 1,00Ae1,49 dikategorikan sebagai sangat negatif, 1,50Ae2,49 sebagai negatif, dan seterusnya, sehingga interpretasi lebih selaras dengan realitas psikometrik dari data yang dikumpulkan. Lebih penting lagi, ketidakpahaman terhadap ketahanan statistik parametrik memperburuk kualitas analisis. Norman . , dengan mengacu pada penelitian sejak tahun 1930-an, menegaskan bahwa ANOVA maupun korelasi Pearson terbukti robust terhadap pelanggaran asumsi normalitas maupun homogenitas varians. Bahkan, tingkat Type I error tetap berada dalam batas yang dapat diterima, menunjukkan bahwa kekhawatiran berlebihan terhadap asumsi distribusional sering kali tidak beralasan. Sayangnya, banyak peneliti masih mengabaikan bukti ini, sehingga terjebak pada pemilihan metode yang justru mengurangi kekuatan analisis dan memiskinkan interpretasi hasil Secara keseluruhan, kesalahan dalam analisis per-item, penolakan dogmatis terhadap parametrik, serta praktik interpretasi yang serampangan mengindikasikan adanya krisis literasi metodologis. Alih-alih memperkuat keabsahan penelitian, kekeliruan-kekeliruan tersebut justru memperlemah validitas konstruk, menurunkan reliabilitas, dan mengaburkan makna empiris yang sesungguhnya. Untuk itu, peningkatan kesadaran metodologis menjadi agenda mendesak demi menjaga integritas riset berbasis skala Likert. Kesalahan Sistematis Penggunaan Skala Likert Dalam Penelitian: Analisis Systematic Literature Review | 71 JURNAL MULTIDISIPLIN SOSISAL HUMANIORA Kategori IV: Kesalahan Metodologis Simamora . menekankan pentingnya mengacak urutan pertanyaan dalam instrumen survei untuk meminimalisasi bias primacy dan recency effect. Pertanyaan yang ditempatkan di awal cenderung memperoleh perhatian lebih tinggi dibandingkan dengan yang muncul di akhir, dengan effect size yang dapat mencapai CohenAos d = 0,3. Fakta ini menunjukkan bahwa sekadar urutan penyajian item dapat memengaruhi pola respons secara sistematis, sehingga tanpa pengacakan, hasil pengukuran berisiko merefleksikan posisi pertanyaan alih-alih konstruk yang sebenarnya diukur. Kesalahan lain yang sering terjadi adalah penggunaan skala genap . orced choic. tanpa justifikasi teoretis yang memadai. Tsang . membuktikan bahwa penghilangan opsi tengah atau midpoint dapat menghilangkan suara responden yang benar-benar netral, yang dalam isu-isu kontroversial bisa mencapai 15Ae20% dari populasi. Konsekuensinya, distribusi respons menjadi terdistorsi karena individu yang seharusnya memilih netral AudipaksaAy berpihak, menghasilkan bias interpretasi yang berpotensi mengubah arah kesimpulan Dengan demikian, keputusan untuk menggunakan skala genap seharusnya dilandasi oleh pertimbangan konseptual yang kuat, bukan sematamata preferensi peneliti. Selain itu, terdapat kesalahpahaman yang meluas mengenai persyaratan ukuran sampel minimum. Norman . menegaskan bahwa dalam kerangka statistik parametrik, tidak ada batasan baku terkait jumlah sampel untuk validitas Batas kritis sekitar lima responden per grup hanya berhubungan dengan robustness, bukan validitas inferensial. Namun demikian, dalam konteks analisis yang lebih kompleks seperti confirmatory factor analysis (CFA) terhadap skala Likert, diperlukan paling sedikit 200 responden untuk menghasilkan solusi yang stabil dan dapat diandalkan. Mengabaikan kebutuhan sampel yang memadai pada analisis semacam ini akan mengarah pada estimasi parameter yang tidak konsisten, kesalahan pengukuran laten, dan hasil penelitian yang sulit Secara keseluruhan, bias posisi pertanyaan, penghilangan midpoint tanpa dasar empiris, dan miskonsepsi tentang ukuran sampel minimum mencerminkan lemahnya kesadaran metodologis dalam penelitian berbasis skala Likert. Kekeliruan ini tidak hanya bersifat teknis, tetapi juga merusak validitas internal, reliabilitas instrumen, serta generalisasi temuan, sehingga mengancam kredibilitas penelitian dalam jangka panjang. Kategori V: Kesalahan Pelaporan dan Interpretasi Kurangnya transparansi dalam menjelaskan perlakuan data, apakah diposisikan sebagai interval atau ordinal, masih menjadi kelemahan mendasar 72 | Kesalahan Sistematis Penggunaan Skala Likert Dalam Penelitian: Analisis Systematic Literature Review Volume 2. Nomor 2 (Oktober,2. | pp. dalam sejumlah penelitian. Knapp . menekankan bahwa setiap peneliti perlu memberikan justifikasi teoretis yang jelas atas pemilihan jenis analisis yang digunakan, sebab asumsi yang tidak dijelaskan dapat menimbulkan keraguan terhadap validitas temuan. Analisis terkini bahkan mengungkap bahwa hanya sekitar 23% penelitian yang benar-benar memberikan justifikasi memadai atas perlakuan data yang mereka pilih, sehingga mayoritas studi berpotensi meninggalkan celah interpretasi yang lemah. Masalah lain yang kerap muncul adalah pembuatan cut-off secara artificial untuk tujuan interpretasi tanpa dasar empiris yang kuat. Pornel dan Saldaya . menunjukkan bahwa skema interpretasi tradisional justru berisiko menimbulkan bias dalam klasifikasi responden, dengan tingkat kesalahan klasifikasi . isclassification rat. yang dapat mencapai 30% ketika menggunakan asumsi equal-interval. Temuan ini memperlihatkan bahwa pendekatan interpretatif yang tidak hati-hati dapat mengaburkan realitas data serta menurunkan reliabilitas hasil penelitian. Selain itu, kecenderungan sebagian peneliti dalam memilih uji statistik lebih sering didasarkan pada preferensi personal ketimbang pertimbangan metodologis yang tepat. Murray . menegaskan bahwa keputusan antara penggunaan uji parametrik atau non-parametrik seharusnya ditentukan oleh karakteristik distribusi data dan tujuan penelitian, bukan oleh kecenderungan subjektif peneliti atau praktik AufishingAy untuk menemukan hasil yang signifikan. Jika preferensi pribadi lebih dominan daripada pertimbangan metodologis, maka validitas inferensi penelitian akan diragukan dan berpotensi menghasilkan kesimpulan yang bias. Jika kelemahan-kelemahan ini terus dibiarkan, maka dampaknya akan melampaui sekadar kualitas metodologis individual. Praktik yang tidak transparan, bias interpretasi, serta manipulasi dalam pemilihan uji statistik akan berkontribusi pada meningkatnya replication crisis, di mana hasil penelitian sulit direplikasi secara konsisten. Kondisi ini pada akhirnya akan mengikis kepercayaan komunitas ilmiah maupun publik terhadap temuan penelitian, menjadikan sains rentan dianggap tidak dapat diandalkan. Oleh karena itu, penegakan standar metodologis yang ketat bukan hanya kebutuhan teknis, tetapi juga prasyarat moral dan epistemologis untuk menjaga integritas ilmu pengetahuan. VALIDASI EMPIRIS DAN IMPLEMENTASI PRAKTIS Krygeloh et al. mendemonstrasikan penerapan konversi ordinalAe interval secara praktis melalui instrumen standar WHOQOL-BREF. Mereka menegaskan bahwa Auusing the ordinal-to-interval conversion tables presented Kesalahan Sistematis Penggunaan Skala Likert Dalam Penelitian: Analisis Systematic Literature Review | 73 JURNAL MULTIDISIPLIN SOSISAL HUMANIORA here will increase precision of WHOQOL domains and permit statistical analysis without the need to break assumptions of parametric statistics. Ay Implementasi ini terbukti mampu meningkatkan presisi estimasi domain scores hingga 34% serta menurunkan standard error sebesar 28%, menunjukkan bahwa transformasi data bukan sekadar prosedur teknis, tetapi juga berimplikasi nyata pada akurasi Wu dan Leung . melengkapi diskursus ini dengan validasi empiris berbasis simulasi Monte Carlo yang melibatkan 10. 000 replikasi. Hasilnya mengungkap bahwa kekuatan korelasi antara raw score dan true score sangat dipengaruhi oleh karakteristik distribusi data: >0,85 pada distribusi simetris, turun menjadi 0,65Ae0,80 pada distribusi moderately skewed, dan bahkan jatuh di bawah 0,60 pada distribusi yang sangat skewed. Temuan ini menggarisbawahi bahwa transformasi ordinalAeinterval tidak dapat dipandang sebagai proses yang netral, melainkan sangat bergantung pada kondisi distribusional yang mendasari Sejak lama. Edwards dan Thurstone . telah memvalidasi metode successive intervals dengan internal consistency check, menghasilkan rata-rata error yang sangat rendah . pada skala terstandarisasi. Keunggulan metode ini terletak pada robustnya terhadap variasi distribusi respons, sekaligus konsistensi hasil antar-sampel. Namun, analisis komparatif kontemporer menunjukkan bahwa tidak ada pendekatan tunggal yang universal. GranbergRademacker . mendemonstrasikan bahwa algoritma Markov Chain Monte Carlo (MCMC) memberikan performa terbaik untuk data dengan distribusi tidak diketahui atau multimodal, dengan Mean Squared Error (MSE) 23% lebih rendah dibandingkan metode successive intervals pada kondisi tersebut. Harwell dan Gatti . membuktikan superioritas Model Rasch ketika asumsi unidimensionalitas terpenuhi. Berbeda dari metode berbasis transformasi numerik semata. Rasch model secara matematis menghasilkan true interval scale, dengan reliabilitas pemisahan individu . erson separation reliabilit. yang konsisten melebihi 0,90 pada sampel besar (>500 responde. dengan item yang terkalibrasi secara tepat. Di sisi lain. Chen dan Wang . mengusulkan pendekatan berbasis latent distribution assignmen yang menunjukkan kinerja optimal ketika distribusi laten dapat diasumsikan dengan tingkat keyakinan Metode ini mampu mengurangi bias hingga 45% dibandingkan skoring berbasis bilangan bulat sederhana, khususnya pada distribusi lognormal atau Dari perspektif implementasi, berbagai solusi metodologis ini telah diintegrasikan ke dalam platform analisis populer. Untuk SPSS, telah tersedia syntax khusus untuk transformasi successive intervals. Sementara itu, paket R seperti likert dan ordinalCont menawarkan fungsi untuk berbagai metode 74 | Kesalahan Sistematis Penggunaan Skala Likert Dalam Penelitian: Analisis Systematic Literature Review Volume 2. Nomor 2 (Oktober,2. | pp. konversi, dan perangkat lunak berbasis Bayesian seperti WinBUGS serta JAGS terbukti menghasilkan estimasi yang andal . dan dapat direplikasi . Secara keseluruhan, bukti empiris dan solusi praktis ini menegaskan bahwa konversi ordinal interval tidak dapat direduksi menjadi pendekatan Pilihan metode harus disesuaikan dengan sifat distribusi data, asumsi unidimensionalitas, serta tujuan analisis. Dengan demikian, pendekatan yang reflektif dan berbasis evidensi merupakan prasyarat mutlak untuk meminimalisasi bias sekaligus meningkatkan validitas hasil penelitian. Tabel 1. Konversi Praktis untuk Skala 5-Point Original Score Successive Intervals Normal Score Lognormal Score Berdasarkan sintesis terhadap temuan empiris dan pengalaman implementasi praktis, penelitian ini mengusulkan suatu hierarki solusi tiga tingkat sebagai panduan pemilihan metode konversi ordinalAeinterval. Hierarki ini tidak hanya mengklasifikasikan metode berdasarkan kekuatan metodologisnya, tetapi juga mempertimbangkan kondisi data, sumber daya yang tersedia, dan tujuan penelitian. Tier 1 (Gold Standar. Metode yang masuk ke dalam kategori ini memiliki justifikasi teoretis yang sangat kuat sekaligus bukti empiris yang konsisten. Model Rasch dalam kerangka Item Response Theory (IRT) dipandang sebagai pilihan optimal untuk data dikotomis maupun politomus yang memenuhi asumsi unidimensionalitas. Dengan landasan mathematical proof. Rasch menghasilkan skala interval sejati yang tidak sekadar bersifat aproksimasi. Namun, syarat yang harus dipenuhi meliputi jumlah responden minimal 200, item yang terkalibrasi dengan baik, serta unidimensionalitas dengan eigenvalue ratio > 2,0. Alternatif lain yang juga masuk Tier 1 adalah algoritma Markov Chain Monte Carlo (MCMC). Pendekatan ini optimal untuk data kompleks dengan distribusi tidak diketahui atau mengandung multiple covariates. Kelebihannya terletak pada fleksibilitas yang tidak mengharuskan spesifikasi model formal yang ketat. Meski demikian, metode ini menuntut sumber daya komputasi yang memadai, jumlah iterasi minimal 1000 untuk menjamin convergence, serta keahlian khusus dalam pemodelan Bayesian. Kesalahan Sistematis Penggunaan Skala Likert Dalam Penelitian: Analisis Systematic Literature Review | 75 JURNAL MULTIDISIPLIN SOSISAL HUMANIORA Tier 2 (Practical Excellenc. Kategori ini meliputi metode yang secara praktis dapat diimplementasikan dengan hasil yang sangat baik, meskipun tidak sekuat Tier 1 dalam justifikasi Pertama, assignment of scores berbasis distribusi laten menunjukkan keunggulan ketika distribusi dasar dapat diasumsikan dengan tingkat keyakinan Metode ini terbukti mengurangi bias hingga 45% dibandingkan dengan skoring bilangan bulat sederhana, dengan prasyarat tersedianya minimal 100 responden untuk setiap kategori. Kedua, metode successive intervals yang disertai internal consistency check mampu menghasilkan error rata-rata hanya 0,025. Robustness-nya terhadap variasi distribusi respons menjadikannya pilihan yang praktis, asalkan ukuran sampel tidak kurang dari 50 responden dan distribusi tidak ekstrem . kewness < 2,. Tier 3 (Pragmatic Solution. Solusi pada level ini bersifat pragmatis dan dapat diterapkan ketika keterbatasan sumber daya menjadi kendala utama. Skala Likert dengan 11 kategori dapat digunakan ketika distribusi mendekati normal dan responden familiar dengan perbedaan tingkat yang lebih halus. Dalam kondisi ini, korelasi dengan true score dapat mencapai >0,85. Selain itu, tabel konversi yang tersedia untuk instrumen standar seperti WHOQOL-BREF juga merupakan solusi praktis, dengan bukti peningkatan presisi estimasi hingga 34%. Namun, syarat utamanya adalah bahwa instrumen telah tervalidasi dan karakteristik populasi penelitian serupa dengan sampel validasi sebelumnya. Untuk membantu peneliti memilih metode yang paling sesuai, kerangka decision tree dikembangkan dengan tiga langkah utama. Pertama, peneliti perlu menilai karakteristik data: jika data unidimensional. Rasch model sangat jika distribusi diketahui, metode assignment of scores dapat sedangkan untuk data kompleks atau multimodal, algoritma MCMC lebih tepat digunakan. Kedua, evaluasi sumber daya harus dilakukan: penelitian dengan keahlian tinggi dan sumber daya komputasi memadai sebaiknya menggunakan Tier 1, sementara penelitian dengan keterbatasan moderat dapat memilih Tier 2, dan penelitian dengan keterbatasan tinggi dapat mengandalkan Tier 3. Ketiga, tujuan penelitian perlu diperjelas: untuk high-stakes decision making, hanya Tier 1 yang memadai. untuk penelitian akademis yang ditujukan publikasi, minimal Tier 2 diperlukan. sedangkan untuk studi eksploratori atau uji coba awal, solusi Tier 3 masih dapat diterima. Selain memberikan panduan seleksi, analisis ini juga menyoroti kondisi yang sebaiknya dihindari. Pertama, penjumlahan langsung skor Likert tanpa konversi tidak boleh digunakan dalam konteks pengambilan keputusan yang bersifat high-stakes. Kedua, penerapan statistik parametrik pada satu butir Likert tanpa justifikasi metodologis yang kuat sangat tidak disarankan. Ketiga, 76 | Kesalahan Sistematis Penggunaan Skala Likert Dalam Penelitian: Analisis Systematic Literature Review Volume 2. Nomor 2 (Oktober,2. | pp. penerapan MCMC pada sampel kecil (<. berisiko menghasilkan estimasi yang tidak stabil. Keempat, metode successive intervals tidak dapat diandalkan jika data menunjukkan distribusi yang sangat skewed dengan nilai skewness melebihi 2,0. Berdasarkan akumulasi temuan empiris lebih dari sembilan dekade, penelitian ini merumuskan sebuah framework komprehensif untuk meminimalisasi kesalahan sistematis dalam penggunaan dan analisis skala Likert. Framework ini disusun dalam lima domain utama: . perbaikan konseptual dan edukasi, . optimalisasi desain instrumen, . perbaikan analisis statistik, . penguatan praktik metodologis, serta . transparansi dalam pelaporan. Perbaikan Konseptual Kesalahan konseptual sering muncul akibat penggunaan istilah yang tidak Oleh karena itu, diperlukan kejelasan terminologi, yakni penggunaan istilah Likert scale hanya untuk instrumen multi-item yang mengukur satu konstruk unidimensional, sedangkan istilah Likert-type response format diperuntukkan bagi butir tunggal. Edukasi konseptual ini seharusnya menjadi bagian dari kurikulum metodologi penelitian, baik pada tingkat sarjana maupun Selanjutnya, paradigma penelitian harus bergeser dari rulefollowing yang kaku menuju evidence-based decision making, yakni pengambilan keputusan analitik yang didasarkan pada bukti empiris mengenai robustness metode (Norman, 2. Dalam hal ini, pemahaman terhadap asumsi distribusi menjadi krusial, sehingga pemilihan metode analisis tidak lagi ditentukan oleh preferensi personal atau dogma metodologis, melainkan oleh karakteristik data dan tujuan penelitian. Optimalisasi Desain Instrumen Desain instrumen yang baik merupakan fondasi bagi validitas hasil Jumlah item ideal berkisar antara 20Ae40 untuk menyeimbangkan reliabilitas dan response burden. Untuk konstruk yang kompleks, disarankan penggunaan beberapa subscale dengan masing-masing 15Ae25 item. Dari sisi pilihan respons, perlu dijaga simetri antara kategori positif dan negatif, dengan uji awal berupa semantic differential pre-test untuk memastikan jarak psikologis yang setara antar kategori. Terkait format respons, skala 11 poin . Ae. terbukti memberikan presisi maksimal ketika responden terbiasa dengan diferensiasi halus, sementara untuk populasi umum, skala 5Ae7 poin tetap optimal. Selain itu, strategi randomisasi, baik pada posisi ekstrem maupun urutan item, sangat penting untuk mengurangi bias posisi dan efek primacy/recency (Simamora. Kesalahan Sistematis Penggunaan Skala Likert Dalam Penelitian: Analisis Systematic Literature Review | 77 JURNAL MULTIDISIPLIN SOSISAL HUMANIORA Perbaikan Analisis Statistik Kesalahan umum yang kerap terjadi adalah menganalisis item secara terpisah alih-alih menggunakan composite score. Analisis per-item sebaiknya terbatas pada fungsi diagnostik atau eksplorasi awal, sementara untuk pengujian konstruk harus digunakan skor komposit. Pendekatan statistik juga perlu fleksibel, dengan penggunaan statistik parametrik untuk skor komposit dan nonparametrik sebagai robustness check, serta pelaporan keduanya untuk Lebih lanjut, fokus analisis harus diarahkan pada practical significance melalui pelaporan effect size, bukan sekadar p-value hunting. Setiap analisis juga wajib disertai prosedur pemeriksaan asumsi yang sistematis, mencakup normalitas, homogenitas varians, maupun linearitas. Penguatan Praktik Metodologis Perencanaan ukuran sampel menjadi aspek kritis dalam penelitian berbasis skala Likert. Analisis Rasch, misalnya, menuntut minimal 200 responden, sementara analisis faktor memerlukan sekurang-kurangnya lima responden per item atau total 200 responden, mana yang lebih besar. Strategi validasi juga harus mencakup cross-validation untuk menjamin stabilitas hasil lintas sampel atau periode waktu yang berbeda. Lebih jauh, penerapan multiple method triangulation perlu didorong, yakni membandingkan hasil dari berbagai pendekatan analitik pada dataset yang sama guna meningkatkan kepercayaan terhadap temuan. Transparansi dalam Pelaporan Akhirnya, standar pelaporan transparan harus menjadi komitmen utama. Peneliti wajib menyajikan justifikasi eksplisit atas perlakuan data sebagai interval atau ordinal, serta mendokumentasikan semua keputusan analitik dan alasan di Hasil dari pendekatan alternatif perlu dilaporkan sebagai bentuk robustness check, disertai diskusi mengenai implikasi perbedaan tersebut terhadap kesimpulan penelitian. Keterbatasan metode yang dipilih harus diakui secara eksplisit, termasuk dampaknya terhadap generalisasi hasil. Dalam semangat open science, ketersediaan data mentah untuk diverifikasi atau dianalisis ulang dengan metode alternatif juga sangat dianjurkan. KESIMPULAN Hasil systematic literature review komprehensif terhadap 22 publikasi akademik dari rentang waktu 1932-2022 mengungkap bahwa kontroversi skala Likert sebenarnya bukan masalah statistik murni, melainkan masalah edukasi metodologi dan implementasi solusi yang evidence-based. Lima kategori kesalahan sistematis yang diidentifikasiAikonseptual-terminologi, desain instrumen, analisis statistik, metodologi, dan pelaporanAisaling berkaitan dan dapat dimitigasi melalui pendekatan berlapis yang telah divalidasi secara empiris. 78 | Kesalahan Sistematis Penggunaan Skala Likert Dalam Penelitian: Analisis Systematic Literature Review Volume 2. Nomor 2 (Oktober,2. | pp. Temuan kritis menunjukkan bahwa evidensi empiris mendukung penggunaan statistik parametrik untuk composite scores dari true Likert scales, sebagaimana ditunjukkan oleh Norman . dengan korelasi 0. 99 antara Pearson dan Spearman bahkan pada data skewed. Namun, untuk mengoptimalkan precision dan validity, diperlukan implementasi solusi metodologis canggih yang disesuaikan dengan karakteristik data dan tujuan Hierarki solusi tiga tingkat yang dikembangkanAidari Model Rasch IRT dan MCMC Algorithm (Tier . Assignment of Scores dan Successive Intervals (Tier . , hingga 11-point Likert scales dan tabel konversi (Tier . Aimemberikan framework praktis untuk researchers dengan berbagai level expertise dan Decision framework yang terintegrasi memungkinkan pemilihan metode yang optimal berdasarkan data characteristics, distributional assumptions, dan research objectives. Validasi empiris menunjukkan bahwa implementasi solusi-solusi canggih dapat meningkatkan precision hingga 34% dan mengurangi bias hingga 45% dibandingkan dengan traditional integer scoring. Hal ini memiliki implikasi signifikan untuk validity dan reliability dari research findings, particularly dalam high-stakes decision making contexts. Peneliti perlu bergerak dari "rule-following" menuju "evidence-based decision making" dengan mempertimbangkan robustness empiris dari berbagai pendekatan analisis. Yang terpenting adalah transparansi dalam reporting, systematic assumption checking, dan justifikasi teoretis untuk setiap keputusan metodologis berdasarkan accumulated evidence selama 90 tahun pengembangan measurement theory. Kontribusi utama penelitian ini adalah provision of actionable guidelines yang dapat langsung diimplementasikan oleh researchers untuk meningkatkan quality dari Likert scale research. Framework komprehensif yang dikembangkan tidak hanya mengatasi kesalahan-kesalahan existing tetapi juga memberikan roadmap untuk methodological excellence dalam penggunaan skala Likert di masa depan. DAFTAR PUSTAKA