AoEJ: Academy of Education Journal Vol.
10 No.
1 Tahun 2019 Aplikasi Bootstrap Pada Analisis Regresi untuk Data Kecelakaan Kerja Toto Hermawan Pendidikan Matematika.
Universitas Cokroaminoto Yogyakarta Jl.
Perintis Kemerdekaan.
Gambiran.
Umbulharjo.
Kota Yogyakarta 55161 Email: toto.
hermawan@mail.
ABSTRAK
Untuk mengetahui hubungan antara dua variable atau lebih dapat digunakan analisis regresi.
Pengertian analisis regresi sendiri adalah metode analisis data yang memanfaatkan hubungan antara dua variable atau lebih.
Hal yang menjadi perhatian dalam analisis regresi salah satunya adalah standar error dari estimasi koefisien regresi.
Dalam regresi sudah terdapat formula untuk mengestimasi standar error.
Selain itu, standar error juga dapat diestimasi dengan metode resampling, yaitu bootstrap.
Bootstrap sangat berguna sebagai alternatif untuk estimasi parameter atau standar errornya ketika peneliti merasa ragu dapat memenuhi asumsi pada data mereka, misal data tidak berdistribusi normal.
Selain itu bootstrap juga berguna ketika inferensi parametric memerlukan rumus yang sangat rumit untuk menghitung standar error (Widhiarso.
Dalam tulisan ini akan dibandingkan estimasi standar error yang diperoleh melalui formula yang sudah ada dengan estimasi standar error yang diperoleh melalui resampling Kata kunci: Analisis Regresi.
Metode resampling.
Standar Error .
Estimasi Koefisien Regresi.
Bootstrap, program R
ABSTRACT
To find out the relationship between two or more variables, regression analysis can be used.
The definition of regression analysis itself is a data analysis method that utilizes the relationship between two or more variables.
One concern in regression analysis is one of them is the standard error of estimation of the regression coefficient.
In a regression there is already a formula for estimating standard errors.
In addition, the standard error can also be estimated by the resampling method, which is bootstrap.
Bootstrapping is very useful as an alternative to estimating parameters or standard errors when researchers feel hesitant to meet the assumptions in their data, for example the data are not normally distributed.
In addition, bootstrapping is also useful when parametric inference requires a very complicated formula for calculating standard errors (Widhiarso, 2.
In this paper we will compare the standard error estimates obtained through existing formulas with the standard error estimates obtained through bootstrap resampling.
Keywords: Regression Analysis.
Resampling Method.
Error Standards.
Regression Coefficient Estimation.
Bootstrap.
R program
PENDAHULUAN
Analisis regresi adalah metode analisis data yang memanfaatkan hubungan antara dua variable atau lebih.
Secara umum, tujuan dari analisis regresi adalah:
AoEJ: Academy of Education Journal Vol.
10 No.
1 Tahun 2019 Menyelidiki pola hubungan antara variabel prediktor dan variabel respon.
Untuk melakukannya dapat dilakukan dengan membuat diagram pencar.
Mengestimasi nilai pada variabel respon berdasarkan nilai variabel prediktor yang dimiliki.
Menyelidiki variabel prediktor yang mana saja yang berpengaruh secara signifikan terhadap variabel respon.
Pada tahap estimasi koefisien parameter regresi, perhatian tertuju pada standar error dari estimator tersebut.
Untuk mengestimasi standar error dari estimator parameter, dalam analisis regresi terdapat formula yang closed-form untuk menghitungnya.
Pada beberapa kasus, seringkali tidak terdapat formula tersebut sehingga digunakan metode resampling bootstrap.
Dalam paper ini akan digunakan formula biasa dan metode resampling bootstrap untuk menghitung standar error.
Selanjutnya akan dibandingkan untuk mengetahui apakah keduanya memberikan hasil yang berbeda atau tidak.
Data yang digunakan dalam studi kasus yang dilakukan adalah data tentang kecelakaan kerja.
PEMBAHASAN
Analisis Regresi Linear Pembahasan akan dimulai dari model klasik regersi linier yang dibahas Legendre dan Gauss early pada tahun 1900an menurut (Efron, 1.
Data set x untuk model regresi linear dimana terdapat n buah observasi didefinisikan sebagai berikut:
= ( , ).
= , .
U ,
c = 1, c , c .
U , c adalah vektor kovariat atau prediktor, sedangkan yi adalah bilangan real yang menyatakan variabel responnya.
Banyaknya variabel prediktor dinyatakan dengan p.
Model regresi linear dinyatakan sebagai berikut .
, = , ,U.
Vektor parameter regresi = , .
U , tidak diketahui nilainya dan akan diestimasi berdasarkan x.
Error Ai diasumsikan sebagai sampel random dari suatu distribusi, misal F, dengan E(A ) = 0.
Ie ( , ,U, ) = Berdasarkan persamaan .
diperoleh harga harapan untuk yi jika diketahui ci adalah .
= E.
) = E .
A ).
= E.
) E(A .
) =c Untuk n buah sampel random, model regresi .
dapat ditulis sebagai berikut .
Dengan y= U .
U c
U c
U U
U c AoEJ: Academy of Education Journal Vol.
10 No.
1 Tahun 2019 a a = aa auau, dan A = U a au a a Estimator untuk dapat diperoleh melalui metode kuadrat terkecil.
Jika S menyatakan jumlah kuadrat dari error, maka A = a = .
Oe .
A .
Oe .
= yAy Oe yAc Oe .
A y .
A .
= yAy Oe .
Ay Oe .
A y .
A .
= yAy Oe 2.
A y .
A .
Jika S diturunkan terhadap dan disamadengankan nol diperoleh OCS = 0 Ii Oe2cAy 2cAc = 0 2cAc = 2cAy .
=( A ) A Untuk mengetahui keakuratan estimator di atas dapat dilakukan dengan menghitung standar Didefinisikan matriks G sebagai berikut .
= A Variansi dari estimator adalah var = var(.
= (.
cA)var.
cA)A = (.
cA)var.
) = E .
Karena var.
= E I, dimana I adalah matriks identitas, maka Sehingga standar error elemen ke-j dari vektor adalah dimana G adalah elemen diagonal ke-j dari G-1 (G inver.
Dalam prakteknya.
E dapat diestimasi dengan .
(Efron, 1.
Estimator di atas termasuk estimator yang bias.
Oleh karena itu seringkali digunakan estimator berikut E = Oc y Oec nOep Jadi estimasi standar error dari adalah AoEJ: Academy of Education Journal Vol.
10 No.
1 Tahun 2019 Bootstrap pada Analisis Regresi Linear Model probabilitas P Ie x untuk regresi linear, sebagaimana pada persamaan .
, mempunyai dua komponen, yaitu:
P = (.
Keduanya adalah parameter yang perlu diestimasi.
Estimasi untuk telah diperoleh melalui metode kuadrat terkecil, yaitu .
Jika telah diketahui, maka bisa dihitung estimasi untuk error
= Oe
= , ,U,
Karena A yang diestimasi adalah sejumlah n, maka distribusi empiris dari A adalah .
= ( )= = , ,U.
Untuk melakukan bootstrap pada analisis regresi, diambil sampel berjumlah n secara random dengan pengembalian dari error estimasi AO = (AO .
AO .
U .
AO ).
Dari AO yang diperoleh dihitung variabel respon bootstrap sebagai berikut O O .
= , ,U,
Jika data asli adalah x = .
, y ) .
ihat persamaan .
), maka data hasil bootstrap adalah x O = .
O , x O .
U , x O ) dimana x O = .
, y O ).
Jadi model regresi bootstrap-nya adalah O dimana E(AOO ) = 0 dan var(AOO ) = E .
Jadi E.
O ) = c dan var.
O ) = E .
Dari data hasil
bootstrap tersebut dapat dihitung estimasi parameter regresi bootstrap, yaitu sebagai berikut O
A O
=( A )
Cara untuk memperoleh estimasi di atas analog dengan cara pada bagian 2.
Variansi dari O var = var(.
c A y O ) = (.
cA)var.
O )(.
cA)A = (.
cA)var.
O ).
) = E .
Karena var.
O ) = E I, dimana I adalah matriks identitas, maka O Sehingga standar error elemen ke-j dari vektor adalah O Estimator untuk E adalah E = O AoEJ: Academy of Education Journal Vol.
10 No.
1 Tahun 2019 Jika diperhatikan ternyata persamaan .
sama dengan persamaan .
Jadi dapat dikatakan bahwa untuk mengestimasi standar error dari bootstrap dapat dilakukan dengan formula untuk mencari standar error yang biasa.
Yang membedakannya hanyalah nilai E -nya saja.
Selain itu, standar error dari koefisien parameter regresi dapat pula diestimasi dengan langkahlangkah sebagai berikut:
Diambil sampel berjumlah n secara random dengan pengembalian dari error estimasi AO = (AO .
AO .
U .
AO ).
Dari AO y = c A .
i = 1,2.
U , n, sehingga dimiliki set data x = .
, x .
U , x ) dimana x O = .
, y O ).
Berdasarkan set data bootstrap yang diperoleh, yaitu x *, dihitung koefisien parameter O regresi dengan rumus = .
c A y O .
Langkah nomor a sampai c diulang sebanyak B kali sehingga dimiliki B buah nilai .
Dihitung standar error dari koefisien parameter regresi melalui hasil bootstrap pada nomor d, yaitu:
dengan (.
) =
Studi Kasus O Oe (.
) /.
0 Oe .
j = 0,1,2.
U , p Dalam studi kasus ini digunakan data tentang jumlah kecelakaan kerja pada suatu perseroan (PT).
Pengamatan dilakukan terhadap 43 orang karyawan PT tersebut.
Untuk setiap karyawan dilakukan pencatatan jumlah jam kerja dalam satu tahun, divisi dimana karyawan tersebut ditempatkan, dan jumlah kecelakaan kerja yang dialami dalam satu tahun.
Pada PT tersebut, terdapat empat buah divisi yaitu produksi .
, weaving .
, quality control, dan gudang/logistik.
Berdasarkan data yang terkumpul, dapat dilakukan analisis regresi linear untuk menyelidiki pengaruh jam kerja dan divisi terhadap jumlah kecelakaan kerja.
Diperoleh model regresi estimasi sebagai berikut:
)Oe , = , .
Oe .
Oe , divisi weaving divisi yang lain divisi q.
divisi yang lain divisi yang lain AoEJ: Academy of Education Journal Vol.
10 No.
1 Tahun 2019 Berdasarkan persamaan di atas diketahui bahwa koefisien parameter regresi variabel jam bernilai positif walaupun nilainya cukup kecil.
Artinya penambahan jam kerja yang banyak akan menambah jumlah kecelakaan kerja.
Selain itu diperoleh koefisien regresi untuk ketiga variabel dummy bernilai negatif.
Artinya divisi yang menjadi reference category, yaitu produksi .
, memiliki angka kecelakaan kerja yang paling tinggi dibandingkan jumlah kecelakaan kerja pada divisi lain.
Pertanyaan selanjutnya adalah seberapa akurat estimator koefisien parameter regresi di atas? Untuk menjawabnya maka dihitung standar error untuk setiap estimator.
Tabel 1.
Estimasi Parameter Regresi dan Standar Error
Parameter Estimasi
2,886
1,0068
1,0572
0,001019 0,0004041 0,0004243
-0,4953
0,8676
0,911
-0,1998
0,8341
0,8758
-1,5804
1,1784
1,2373
Pada kebanyakan paket program, estimasi untuk standar error yang biasa dipakai adalah se, yaitu estimator yang tak bias.
Berdasarkan estimasi parameter di atas dapat diperoleh qq plot residual sebagai berikut:
QQ Plot Residualnya Dapat diketahui bahwa residual mendekati distribusi normal sehingga asumsi normalitas dalam analisis regresi terpenuhi.
Untuk kasus regresi linear, terdapat formula yang closed-form untuk mengestimasi standar error.
Berdasarkan tabel di atas, diperoleh nilai estimasi standar error yang cukup kecil.
Jadi dapat dikatakan bahwa estimator koefisien regresi cukup akurat.
Seandainya tidak terdapat formula yang closed-form dapat dilakukan bootstrap untuk mengestimasi standar errornya.
Yang pertama dilakukan adalah menghitung residual berdasarkan nilai koefisien regresi yang Berdasarkan residual tersebut dilakukan pengambilan sampel secara random dengan pengembalian, namakan AO .
Sampel yang terambil digunakan untuk menghitung y O = c AO .
Berdasarkan nilai y O yang diperoleh dihitung nilai estimasi parameter regresi yang baru.
Jika dilakukan iterasi sebanyak 100 kali terhadap proses tersebut diperoleh estimasi untuk standar error adalah:
AoEJ: Academy of Education Journal Vol.
10 No.
1 Tahun 2019 Tabel 2.
Estimasi Parameter Regresi dan Standar Error Menggunakan Bootstrap
Parameter Estimasi
2,8956
1,0133
0,00102 0,0004225
-0,4053 0,8124
-0,1472 0,8461
-1,48
1,1483
Diperoleh pula qq plot untuk residual bootstrap sebagai berikut:
QQ Plot Residualnya Ternyata diperoleh bahwa asumsi normalitas residual tetap terpenuhi.
Jika antara tabel 1 dan tabel 2 dibandingkan ternyata diperoleh hasil yang tidak jauh berbeda.
Semakin banyak iterasi yang dilakukan maka hasil yang diperoleh akan mendekati hasil estimasi standar error Secara seO OO se .
KESIMPULAN
Berdasarkan hasil pada bagian 4 diperoleh kesimpulan bahwa jumlah jam kerja dan jumlah kecelakaan kerja yang terjadi memiliki korelasi yang positif, artinya penambahan jam kerja diperkirakan akan menambah jumlah kecelakaan yang terjadi.
Oleh karena itu, jika jumlah kecelakaan kerja yang terjadi berada pada kisaran yang mengkhawatirkan .
ukup tingg.
, maka salah satu solusi yang dapat dilakukan adalah dengan mengurangi jam kerja karyawan.
Selain itu diperoleh pula kesimpulan bahwa angka kecelakaan kerja paling tinggi terjadi pada divisi produksi .
Oleh karena itu, divisi tersebut perlu mendapatkan perhatian khusus dalam hal penanggulangan kecelakaan kerja.
Berkaitan dengan analisis data, estimasi standar error menggunakan bootstrap mempunyai hasil yang tidak jauh berbeda dari estimasi menggunakan formula yang sudah ada.
Seandainya tidak terdapat formula yang closed-form untuk mengestimasi standar error, maka bootstrap merupakan salah satu alternatif yang dapat dipilih.
Penerapan bootstrap pada bagian 4 di atas merupakan salah satu dari sekian cara penerapan bootstrap untuk analisis regresi.
AoEJ: Academy of Education Journal Vol.
10 No.
1 Tahun 2019
DAFTAR PUSTAKA