Vol.
VII (No.
01 ) : 652 Ae 660 Th.
p-ISSN: 2620-620X e-ISSN: 2621-9840 Jurnal Algoritma.
Logika dan Komputasi Versi Online: https://journal.
id/index.
php/alu DOI: http://dx.
org/10.
30813/j-alu.
MODEL KLASIFIKASI HIBRIDA BARU DARI JARINGAN SYARAF
TIRUAN DAN MODEL REGRESI LINIER BERGANDA
NEW HYBRID CLASSIFICATION MODEL OF ARTIFICIAL NEURAL
NETWORKS AND MULTIPLE LINEAR REGRESSION MODELS
Andre Valerian, miukuchan1@gmail.
& Honni, honni2482@gmail.
Program Studi Informatika.
Fakultas Teknik dan Desain.
Universitas Bunda Mulia Program Studi Sistem Informasi.
Fakultas Teknik dan Desain.
Universitas Bunda Mulia
Diterima 26 Maret 2024 / Disetujui 31 Juli 2024
ABSTRACT
This paper examines a more accurate and broader classification model and has significant implications in these Combining multiple models or using hybrid models has become common practice to overcome the shortcomings of a single model and can be a more effective way to improve its predictive performance, especially when the models are in very different combinations.
In this paper, a new hybridization of artificial neural networks (ANN) is proposed using multiple linear regression models to produce more accurate models than traditional artificial neural networks for solving classification problems.
Empirical results show that the proposed hybrid model shows to effectively improve classification accuracy compared to traditional artificial neural networks and also several other classification models such as linear discriminant analysis, quadratic discriminant analysis, and vector machine using benchmarks and real-world application datasets.
These datasets vary in number of classes and data sources.
Therefore, it can be applied as a suitable alternative approach to solve classification problems, especially when higher forecasting accuracy is required.
Keywords: Artificial Neural Network.
Classification model.
Linear regression model.
ABSTRAK
Paper ini mengkaji model klasifikasi yang lebih akurat dan lebih luas serta memiliki implikasi yang signifikan dalam bidang-bidang ini.
Menggabungkan beberapa model atau menggunakan model hibrida telah menjadi praktik umum untuk mengatasi kekurangan model tunggal dan dapat menjadi suatu cara yang lebih efektif untuk meningkatkan kinerja prediktif tersebut, terutama ketika model dalam kombinasi yang sangat berbeda.
Dalam tulisan ini, hibridisasi baru dari jaringan saraf tiruan (JST) diusulkan menggunakan model regresi linier berganda untuk menghasilkan model yang lebih akurat daripada jaringan saraf tiruan tradisional untuk memecahkan masalah klasifikasi.
Hasil empiris menunjukkan bahwa model hibrida yang diusulkan menunjukkan secara efektif meningkatkan akurasi klasifikasi dibandingkan dengan jaringan saraf tiruan tradisional dan juga beberapa model klasifikasi lain seperti analisis diskriminan linier, analisis diskriminan kuadrat, dan vector machine menggunakan patokan dan kumpulan data aplikasi dunia nyata.
Set data ini bervariasi dalam jumlah kelas dan sumber data.
Oleh karena itu, dapat diterapkan sebagai pendekatan alternatif yang tepat untuk memecahkan masalah klasifikasi, khususnya ketika akurasi peramalan yang lebih tinggi Kata Kunci : Jaringan Saraf Tiruan.
Model klasifikasi.
Model regresi linier.
PENDAHULUAN
Klasifikasi adalah bidang penting dari penelitian yang berkaitan dengan menugaskan suatu objek ke salah satu dari satu set kelas, berdasarkan atribut dari objek itu.
Kinerja proses klasifikasi tergantung pada seberapa baik fungsi diskriminan untuk masalah khusus.
Diskriminan dikembangkan untuk meminimalkan tingkat kesalahan klasifikasi, dari beberapa sampel yang diberikan dari pasangan vektor input dan output, yang disebut sebagai kumpulan data pelatihan.
Fungsi diskriminan ini kemudian digunakan untuk mengklasifikasikan pengamatan baru ke dalam kelompok yang didefinisikan sebelumnya dan untuk menguji akurasi klasifikasi.
Masalah klasifikasi telah diperiksa di berbagai bidang seperti bisnis, obat-obatan, biologi, pengenalan citra, dll.
Dan penggunaan modelmodel ini telah menjadi sangat diperlukan di bidang-bidang yang telah disebutkan di atas, terutama *Korespondensi Penulis:
E-mail: honni2482@gmail.
Vol.
VII (No.
01 ) : 652 Ae 660 Th.
p-ISSN: 2620-620X e-ISSN: 2621-9840 Jurnal Algoritma.
Logika dan Komputasi Versi Online: https://journal.
id/index.
php/alu DOI: http://dx.
org/10.
30813/j-alu.
dalam bisnis dan keuangan.
Pendekatan klasifikasi umumnya dikategorikan dalam dua kategori utama, pendekatan linear dan nonlinier.
Pendekatan klasifikasi linear mempartisi ruang input menjadi kumpulan daerah yang terpisah, dipisahkan oleh batas keputusan linier.
Contoh terkenal dari teknik klasifikasi linier yang telah banyak digunakan dalam klasifikasi termasuk yang dengan regresi linier berganda, analisis diskriminan linier, regresi logistik, memisahkan bidang hiper, dll.
Teknik klasifikasi ini bekerja dengan baik ketika kelas terpisah secara linier .
Namun, dalam banyak masalah dunia nyata data mungkin tidak dapat dipisahkan secara linier dan juga data sangat berdekatan dan oleh karena itu diperlukan batas keputusan yang sangat nonlinier untuk memisahkan data.
Beberapa kelas teknik klasifikasi nonlinier telah diusulkan dalam literatur untuk mengatasi keterbatasan linear dari teknik klasifikasi linier.
Teknik-teknik ini termasuk teknik klasik seperti analisis diskriminan kuadrat, dll.
Dan pendekatan jaringan saraf tiruan seperti pohon neural, multilayer perceptrons, jaringan saraf probabilistik, vector machine, dll.
Beberapa fitur yang membedakan jaringan saraf tiruan yang membuat menarik adalah Pertama, dibandingkan dengan teknik berbasis model tradisional, jaringan syaraf tiruan adalah metode self-adaptif data-driven karena hanya ada sedikit asumsi untuk model masalah yang diteliti.
Kedua, jaringan saraf tiruan dapat Setelah mempelajari data yang disajikan kepada mereka .
, jaringan syaraf tiruan sering dapat atau dengan tepat menyimpulkan bagian populasi yang tidak terlihat bahkan jika data sampel mengandung informasi yang tidak akurat.
Ketiga, jaringan saraf tiruan adalah aproksimator fungsional universal.
Telah ditunjukkan bahwa suatu jaringan dapat memperkirakan fungsi kontinu untuk keakuratan yang diinginkan.
Akhirnya, jaringan saraf tiruan bersifat nonlinear .
Definisi Jaringan Saraf Tiruan n Hecht-Nielsend .
AuSuatu neural network (NN), adalah suatu struktur pemroses informasi yang terdistribusi dan bekerja secara paralel, yang terdiri atas elemen pemroses .
ang memiliki memori lokal dan beroperasi dengan informasi loka.
yang diinterkoneksi bersama dengan alur sinyal searah yang disebut koneksi.
Setiap elemen pemroses memiliki koneksi keluaran tunggal yang bercabang .
an ou.
ke sejumlah koneksi kolateral yang diinginkan .
etiap koneksi membawa sinyal yang sama dari keluaran elemen pemroses tersebu.
Keluaran dari elemen pemroses tersebut dapat merupakan sebarang jenis persamaan matematis yang diinginkan.
Seluruh proses yang berlangsung pada setiap elemen pemroses harus benar-benar dilakukan secara lokal, yaitu keluaran hanya bergantung pada nilai masukan pada saat itu yang diperoleh melalui koneksi dan nilai yang tersimpan dalam memori lokalAy.
n Haykin.
Sebuah jaringan saraf adalah sebuah prosesor yang terdistribusi paralel dan mempuyai kecenderungan untuk menyimpan pengetahuan yang didapatkannya dari pengalaman dan membuatnya tetap tersedia untuk digunakan.
Hal ini menyerupai kerja otak dalam dua hal yaitu: 1.
Pengetahuan diperoleh oleh jaringan melalui suatu proses belajar.
Kekuatan hubungan antar sel saraf yang dikenal dengan bobot sinapsis digunakan untuk menyimpan pengetahuan.
n Zurada.
Sistem saraf tiruan atau jaringan saraf tiruan adalah sistem selular fisik yang dapat memperoleh, menyimpan dan menggunakan pengetahuan yang didapatkan dari .
n DARPA Neural Network Study .
Sebuah jaringan syaraf adalah sebuah sistem yang dibentuk dari sejumlah elemen pemroses sederhana yang bekerja secara paralel dimana fungsinya ditentukan oleh stuktur jaringan, kekuatan hubungan, dan pegolahan dilakukan pada komputasi elemen atau nodes.
n JJ Siang, sistem pemrosesan informasi yang memiliki karakteristik mirip dengan jaringan syaraf Asumsi Jaringan Saraf Tiruan Jaringan syaraf tiruan dibentuk sebagai generalisasi model matematika dari jaringan syaraf manusia, dengan asumsi JST:.
n Pemrosesan terjadi pada banyak elemen yang sederhana Vol.
VII (No.
01 ) : 652 Ae 660 Th.
p-ISSN: 2620-620X e-ISSN: 2621-9840 Jurnal Algoritma.
Logika dan Komputasi Versi Online: https://journal.
id/index.
php/alu DOI: http://dx.
org/10.
30813/j-alu.
n n n n Sinyal dikirim diantara neuron2 melalui sinapsis Sinapsis memiliki bobot yang akan memperkuat atau memperlemah sinyal.
Output ditentukan menggunakan fungsi aktivasi yang dikenakan pada jumlah input yang Output dibandingan dengan suatu tracehold.
Pengertian Analisis Regresi.
Analisis Regresi adalah analisis yang mengukur pengaruh variabel bebas terhadap variabel Pengukuran pengaruh ini melibatkan satu variabel bebas (X) dan variabel terikat (Y), yang dinamakan analisis regresi linier sederhana dengan rumus Y= a bX.
Nilai AuaAy adalah konstanta dan nilai AubAy adalah koefisien regresi untuk variabel X.
Harga AoaAo dapat dicari dengan rumus .
Harga AobAo dapat dicari dengan rumus .
Koefisien regresi AobAo adalah kontribusi besarnya perubahan nilai variabel bebas, semakin besar nilai koefisien regresi maka kontribusi perubahan semakin besar, demikian pula sebaliknya akan semakin Kontribusi perubahan variabel bebas (X) juga ditentukan oleh koefisien regresi positif atau .
Pengukuran Analisis Regresi Pengukuran pengaruh variabel yang melibatkan lebih dari satu variabel bebas (X1,X2,X3,A,X.
, digunakan analisis regresi linier berganda, disebut linier karena setiap estimasi atas nilai diharapkan memgalami peningkatan atau penurunan mengikuti garis lurus.
Rumus .
merupakan estimasi regresi linier berganda :.
Y=a b1X1 b2X2 b3X3 A bnXn Keterangan :
: variabel terikat .
X .
,2,3,A) : variabel bebas .
: nilai konstanta b .
,2,3,A) : nilai koefisien regresi Penggunaan nilai konstanta secara statistik dilakukan jika satuan-satuan variabel X .
dan variabel Y .
tidak sama.
Sedangkan, bila variabel X .
dan variabel Y .
, baik linier sederhana maupun berganda, memiliki satuan yang sama maka nilai konstanta diabaikan dengan asumsi perubahan variabel Y .
akan proposional dengan nilai perubahan variabel X .
Dalam menentukan nilai AoaAo dan Aob1A,Aob2A,Aob3Ao,.
, digunakan persamaan regresi linier berganda:
SY = an b1SX1 b2SX2 b3SX3 A SX1Y = aSX1 b1SX1A b2SX1X2 A SX2Y = aSX2 b2SX1X2 b2SX21A A Vol.
VII (No.
01 ) : 652 Ae 660 Th.
p-ISSN: 2620-620X e-ISSN: 2621-9840 Jurnal Algoritma.
Logika dan Komputasi Versi Online: https://journal.
id/index.
php/alu DOI: http://dx.
org/10.
30813/j-alu.
dan seterusnya.
Untuk menghitung nilai AoaAo,Aob1A,Aob2A,Aob3A,A pada persamaan regresi linier berganda dapat dirumuskan =nx-1 di mana nx = banyaknya variabel bebas (X).
Definisi K-Nearest Neighbors .
-NN) K-nearest neighbors atau knn adalah algoritma yang berfungsi untuk melakukan klasifikasi suatu data berdasarkan data pembelajaran .
rain data set.
, yang diambil dari k tetangga terdekatnya .
earest neighbor.
Dengan k merupakan banyaknya tetangga terdekat.
Cara Kerja Algoritma K-Nearest Neighbors (KNN) K-nerest neaighbors melakukan klasifikasi dengan proyeksi data pembelajaran pada ruang berdimensi banyak.
Ruang ini dibagi menjadi bagian-bagian yang merepresentasikan kriteria data Setiap data pembelajaran direpresentasikan menjadi titik-titik c pada ruang dimensi .
Klasifikasi Terdekat (Nearest Neighbor Classificatio.
Data baru yang diklasifikasi selanjutnya diproyeksikan pada ruang dimensi banyak yang telah memuat titik-titik c data pembelajaran.
Proses klasifasikasi dilakukan dengan mencari titik c terdekat dari c-baru .
earest neighbo.
Teknik pencarian tetangga terdekat yang umum dilakukan dengan menggunakan formula jarak euclidean.
Berikut beberapa formula yang digunakan dalam algoritma knn.
A Euclidean Distance Jarak Euclidean adalah formula untuk mencari jarak antara 2 titik dalam ruang dua dimensi.
dapat dilihat pada Rumus .
A Hamming Distance Jarak Hamming adalah cara mencari jarak antar 2 titik yang dihitung dengan panjang vektor biner yang dibentuk oleh dua titik tersebut dalam block kode biner.
A Manhattan Distance Manhattan Distance atau Taxicab Geometri adalah formula untuk mencari jarak d antar 2 vektor p,q pada ruang dimensi n.
A Minkowski Distance Minkowski distance adalah formula pengukuran antar 2 titik pada ruang vektor normal yang merupakan hibridisasi yang mengeneralisasi euclidean distance dan mahattan distance.
Teknik pencarian tetangga terdekat disesuaikan dengan dimensi data, proyeksi, dan kemudahan implementasi oleh pengguna.
HASIL DAN PEMBAHASAN
Model Perumusan hybrid Terlepas dari banyaknya model klasifikasi yang tersedia, akurasi merupakan hal mendasar bagi banyak proses keputusan, dan karenanya, tidak ada yang meneliti cara-cara untuk meningkatkan keefektifan model-model klasifikasi yang telah diberikan.
Banyak peneliti telah menggabungkan prediksi dari beberapa pengklasifikasi untuk menghasilkan pengklasifikasi yang lebih baik, yang telah dilaporkan untuk meningkatkan kinerja.
Efektivitas hibrida bergantung pada sejauh mana pengklasifikasiannya membuat kesalahan yang berbeda, atau tidak independen.
Kesalahan berasal dari empat aspek, yaitu metode sampling data yang berbeda, pengaturan parameter yang berbeda, pengklasifikasi berbeda, dan strategi kombinasi yang berbeda.
Dengan menggunakan prediksi gabungan dari beberapa pengklasifikasi, kinerja yang lebih baik daripada penggolong individu dicari.
Vol.
VII (No.
01 ) : 652 Ae 660 Th.
p-ISSN: 2620-620X e-ISSN: 2621-9840 Jurnal Algoritma.
Logika dan Komputasi Versi Online: https://journal.
id/index.
php/alu DOI: http://dx.
org/10.
30813/j-alu.
Breiman mengacu pada beberapa ahli pengklasifikasi yang telah menunjukkan potensi untuk mengurangi kesalahan generalisasi dari model classifier dari 5% hingga 70%.
Dengan kata lain, beberapa pengklasifikasi dapat memberikan hasil klasifikasi yang lebih akurat daripada pengklasifikasi tunggal.
Model hibrida baru dari jaringan saraf tiruan diusulkan untuk menghasilkan hasil yang lebih akurat menggunakan model regresi linier berganda.
Tujuan utama dari model yang diusulkan adalah untuk menggunakan keuntungan unik dari model regresi linier berganda dalam pemodelan linier untuk mengatasi keterbatasan pemodelan linear dari jaringan saraf tiruan tradisional.
Oleh karena itu, pada fase pertama dari model yang diusulkan, model regresi linier berganda digunakan untuk memperbesar komponen linier dalam atribut untuk penggunaan yang lebih baik oleh jaringan saraf pada fase kedua.
Kemudian komponen linier diperbesar dirangkum dalam atribut baru sebagai L .
tribut n 1t.
Tujuan utama menggunakan model regresi linier berganda adalah untuk mengevaluasi hubungan antara atribut sebagai variabel independen atau variabel prediktor dan kelas sebagai variabel Ini dilakukan dengan memasang garis lurus ke sejumlah observasi.
Secara khusus, garis diproduksi sehingga penyimpangan kuadrat dari titik-titik yang diamati dari garis yang diminimalkan.
Dengan demikian prosedur ini umumnya disebut sebagai estimasi kuadrat terkecil.
Secara matematis, jika nilai kelas adalah linearitas bergantung pada nilai atributnya, maka model regresi berganda adalah sebagai berikut:
di mana xi .
= 0, 1, 2, .
, .
adalah atribut dan ai .
= 0, 1, 2, .
, .
adalah koefisien tidak diketahui yang diperkirakan dengan metode kuadrat terkecil.
Kemudian, pada fase kedua dari model yang Kemudian, pada tahap kedua, jaringan saraf digunakan untuk bersama- sama memodelkan struktur linier dan nonlinier dan mengklasifikasikan menggunakan atribut asli dan atribut linier yang dihasilkan oleh regresi linier berganda sebagai berikut:
adalah bobot koneksi, n 1 adalah nomor dari semua atribut .
ode inpu.
, dan q adalah jumlah node Meskipun, dalam makalah ini, model yang diusulkan hanya digunakan untuk membangun model hibrida dengan multilayer perceptrons (MLP) untuk tujuan klasifikasi, metodologi ini secara umum dapat diterapkan pada berbagai jaringan syaraf tiruan seperti support vector machine (SVM), umum jaringan saraf regresi, jaringan saraf probabilistik, dll untuk pemodelan, perkiraan santai, dan tujuan klasifikasi.
Model klasifikasi dua kelas Masalah klasifikasi berbeda karena outputnya berbeda.
Namun, klasifikasi juga dapat dilihat sebagai proses menggambar partisi antara kelas.
Model yang diusulkan dapat digunakan untuk memperkirakan fungsi yang mengidentifikasi partisi ini.
Model yang kami usulkan tidak mengasumsikan bentuk partisi, tidak seperti analisis diskriminan linear dan kuadratik.
Berbeda dengan metode tetangga K-terdekat, model yang diusulkan tidak memerlukan penyimpanan data Vol.
VII (No.
01 ) : 652 Ae 660 Th.
p-ISSN: 2620-620X e-ISSN: 2621-9840 Jurnal Algoritma.
Logika dan Komputasi Versi Online: https://journal.
id/index.
php/alu DOI: http://dx.
org/10.
30813/j-alu.
Setelah model telah dilatih, ia melakukan jauh lebih cepat daripada KNN karena tidak perlu iterate melalui sampel pelatihan individu.
Model yang diusulkan tidak memerlukan eksperimen dan pemilihan akhir fungsi kernel dan parameter penalti seperti yang dibutuhkan oleh mesin vektor Model yang kami usulkan hanya bergantung pada proses pelatihan untuk mengidentifikasi model penggolong akhir.
Untuk menerapkan model yang diusulkan untuk klasifikasi, modifikasi tertentu pada model perlu dibuat.
Seperti halnya model klasifikasi lain .
engan pengecualian KNN), output dari model yang diusulkan bersifat kontinu, sementara klasifikasi membutuhkan hasil yang berbeda.
Mirip dengan model lain, keluaran kontinu dari model yang diusulkan diubah ke kelas diskrit dengan menetapkan sampel ke kelas yang outputnya paling dekat.
Setiap kelas diberi nilai numerik.
Perbedaan antara output dan masing-masing nilai numerik kemudian dihitung, dan sampel dimasukkan ke dalam kelas yang outputnya memiliki perbedaan terkecil.
Dalam model yang diusulkan untuk masalah klasifikasi dua kelas, nilai-nilai .
, .
, .
masing-masing dianggap sebagai nilai kelas, ketika fungsi hiperbolik dan logistik digunakan sebagai fungsi transfer output dari model yang diusulkan.
Namun, dalam kasus menggunakan fungsi transfer linear untuk lapisan output dari model yang diusulkan mungkin lebih baik untuk menerapkan nilai .
, .
, .
sebagai nilai kelas.
Nilai kelas yang lebih besar memperluas perbedaan kecil dalam output, membantu model menjadi lebih sensitif terhadap variasi input.
Perencanaan model hirarki untuk klasifikasi kelas ganda Alasan untuk menggunakan pengklasifikasi hirarki fokus pada pengurangan kompleksitas.
Dan mendeskripsikan pengklasifikasi hirarki sebagai bagian dari penggolong modular.
Mereka menyarankan bahwa penggolong modular sering muncul ketika kombinasi faktor termasuk sejumlah besar kelas, kelas memiliki bentuk yang sulit .
idak kompak, cembung, atau terhubun.
, kelas tidak memiliki batas yang jelas, batas-batas sangat nonlinear, dan kesalahan klasifikasi beberapa poin membawa hukuman yang tinggi.
mendeskripsikan klasifikasi hirarki sebagai cara untuk mendeteksi data yang lebih sulit diklasifikasi untuk mengklasifikasikan data ini secara berbeda.
Dalam pendekatan AoAo satu lawan sisanya Ao, untuk kasus kelas k, kelas dari kelas-kelas k ini pertama-tama dianggap sebagai kategori, dan kelas-kelas k 1 sisanya sebagai kategori lain, dan pengklasifikasi dua kelas dikonstruksi.
Selanjutnya, kelas ini dikecualikan, dan kemudian proses yang dijelaskan diulang untuk kasus kelas k 1.
Di sisi lain, kelas dari kelas k 1 yang tersisa dianggap sebagai kategori, dan sisanya k 2 = .
1 kelas sebagai kategori lain, dan classifier dua kelas kedua dibangun, dan seterusnya dan seterusnya sampai classifier dua kelas terakhir dibangun.
Dengan cara ini, pengklasifikasi kelas dua k1 harus dibangun seluruhnya untuk kasus kelas k.
Pendekatan AoAo one versus all AoAo mirip dengan pendekatan AoAo one versus rest Aodengan perbedaan sedikit.
Dalam pendekatan AoAo satu lawan semua Ao, untuk kasus kelas k, kelas dari kelas k ini juga dianggap sebagai kategori, dan kelas k 1 sisanya sebagai kategori lain, dan classifier twoclass dibangun.
Namun, kelas ini tidak Dengan cara ini, k classifier kelas dua harus dibangun seluruhnya untuk kasus kelas k.
Hasil Pembahasan Perbandingan dengan model klasifikasi lainnya untuk benchmark dua kelas set data Sebuah arsitektur yang terdiri dari dua input, tiga neuron tersembunyi dan satu output (N .
) yang digunakan oleh Ripley .
telah ditemukan menjadi yang paling akurat di antara semua arsitektur JST lainnya, dengan tingkat kesalahan 9.
4% .
Namun, model yang kami usulkan mengungguli model ini pada bagian uji dari kumpulan data, dengan tingkat kesalahan sebesar 8,9%, peningkatan 5,32% dibandingkan dengan hasil jaringan syaraf tradisional terbaik sebesar 9,4%.
Selain itu, berdasarkan sifat dari kumpulan data, diharapkan bahwa analisis diskriminan linear dan kuadratik tidak akan menjadi pengklasifikasi yang optimal seperti kelas-kelas ini.
Setiap set data dibagi menjadi satu set pelatihan dan satu set tes, dan masing-masing model diterapkan dengan tepat.
Tingkat kesalahan klasifikasi untuk setiap kelas dihitung dan disajikan, serta peningkatan persen dalam tingkat kesalahan untuk model yang diusulkan.
Vol.
VII (No.
01 ) : 652 Ae 660 Th.
p-ISSN: 2620-620X e-ISSN: 2621-9840 Jurnal Algoritma.
Logika dan Komputasi Versi Online: https://journal.
id/index.
php/alu DOI: http://dx.
org/10.
30813/j-alu.
Multiple class data sets Klasifikasi ke dalam beberapa kelas jauh lebih kompleks daripada klasifikasi dua kelas set Banyak metode klasifikasi menentukan partisi antara dua kelas set data.
Kelas tambahan memerlukan penyesuaian pada metode klasifikasi yang sering menghasilkan tingkat kesalahan yang lebih tinggi.
Untuk analisis diskriminan linear dan kuadratik, model n1 one-versus-all .
i mana n adalah jumlah kela.
dan mengklasifikasikan setiap sampel seperti yang dijelaskan di atas.
Fisher iris data set Kumpulan data Fisher iris mungkin merupakan kumpulan data klasifikasi tertua dan paling banyak digunakan.
Kumpulan data ini dinamai Fisher, yang menggunakannya dalam makalahnya yang semusim tahun 1936 tentang analisis diskriminan linear (Fisher, 1.
Set data terdiri dari 150 sampel, dibagi secara merata di antara tiga kelas.
Kelas-kelas mewakili tiga spesies iris: Iris Setosa.
Iris Versicolour, dan Iris Virginica.
Setiap iris ditandai oleh empat atribut, .
panjang sepal, .
lebar sepal, .
panjang kelopak, dan .
lebar kelopak.
Set data secara acak dibagi menjadi 75 pelatihan dan 75 sampel uji.
Gambar.
Struktur jaringan yang paling pas .
et data Fisher iri.
N .
-2-.
Perbandingan dengan model-model klasifikasi lainnya untuk benchmark kelas set data ganda.
Dalam kasus klasifikasi data Fisher iris, mirip dengan bagian sebelumnya, beberapa arsitektur yang berbeda dari jaringan saraf tiruan telah dirancang dan diperiksa.
Sebuah arsitektur yang terdiri dari empat input, dua neuron tersembunyi dan satu output (N .
-2-.
) sebagaimana diperiksa oleh Curram.
Mingers, dan jaringan .
telah ditemukan menjadi yang paling akurat di antara semua arsitektur jaringan saraf lainnya, dengan tingkat kesalahan 4,6% pada bagian uji dari kumpulan data.
Namun, model yang diusulkan hirarki mengungguli model ini pada bagian uji dari kumpulan data, dengan tingkat kesalahan 1,3%, peningkatan 71,74%.
Model yang diusulkan hirarki dan mesin vektor pendukung melakukan yang terbaik pada kedua pelatihan dan sampel uji dengan tingkat kesalahan 0,0% dan 1,3% masing-masing dalam pelatihan dan sampel uji, masing-masing.
Analisis diskriminan kuadrat juga berkinerja terbaik dengan tingkat kesalahan 1,3% pada bagian uji dari kumpulan data .
isclassifying hanya satu sampe.
Namun, kinerjanya pada bagian pelatihan dari kumpulan data lebih buruk daripada model yang diusulkan hirarki dan mendukung model mesin vektor.
Model yang diusulkan non-hirarki dan KNN keduanya memiliki tingkat kesalahan 2,7% pada bagian uji dari kumpulan data.
Namun, tingkat kesalahan dari model yang diusulkan non-hirarki pada bagian pelatihan dari kumpulan data lebih baik daripada model KNN.
Dengan cara yang sama, untuk KNN, semua atribut diskalakan oleh skor-z mereka sebelum menggunakan model KNN.
Analisis diskriminan linear melakukan yang terburuk dalam pelatihan dan sampel uji dengan tingkat kesalahan masing-masing 10,7% dan 12,0%.
Gambar 1.
Multi Layer NN Dalam kasus klasifikasi data kaca Forensik, model usulan hirarki kami juga memiliki kesalahan terendah pada bagian pengujian dari kumpulan data dibandingkan dengan model-model lain yang digunakan untuk set data kaca Forensik, dengan tingkat kesalahan klasifikasi sebesar 26,8%.
Seperti kasus sebelumnya, beberapa arsitektur jaringan syaraf tiruan yang berbeda telah dirancang dan Arsitektur berkinerja terbaik terdiri dari sembilan input, enam neuron tersembunyi dan satu output (N .
-6-.
) yang dirancang oleh Ripley .
untuk jaringan syaraf tiruan tradisional.
Vol.
VII (No.
01 ) : 652 Ae 660 Th.
p-ISSN: 2620-620X e-ISSN: 2621-9840 Jurnal Algoritma.
Logika dan Komputasi Versi Online: https://journal.
id/index.
php/alu DOI: http://dx.
org/10.
30813/j-alu.
menghasilkan tingkat kesalahan 33,0%.
Namun, kinerja ini adalah 18,79% lebih rendah dari model yang diusulkan hirarki.
Selain itu, tingkat kesalahan klasifikasi untuk analisis diskriminan linear adalah 32,3%.
Model yang diusulkan hirarki meningkatkan ini dengan 17,03%.
Set data kaca forensik menyajikan tantangan tambahan untuk analisis diskriminan kuadrat karena atribut komposisi barium dan besi hanya memiliki nilai nol untuk kelas-kelas tertentu, menghasilkan sarana dan varians nol.
Kebalikan dari varians ini karenanya tidak terdefinisi.
Karena fungsi diskriminan kuadrat membutuhkan matriks kovarian terbalik untuk setiap kelas, atribut ini harus dikecualikan untuk analisis diskriminan kuadrat.
Analisis diskriminan kuadratik, dihambat oleh penghilangan dua atribut, misclassified 72,9% dari sampel, melakukan 63,24% lebih buruk daripada model yang diusulkan hirarki.
KNN memiliki tingkat kesalahan terendah berikutnya dengan 29,2% salah diklasifikasi, 8,22% lebih tinggi dibandingkan dengan model yang diusulkan hirarki.
Mesin vektor pendukung tingkat kesalahan 30,2%, 11,26% lebih tinggi dari model yang diusulkan hirarki.
Untuk kedua klasifikasi klasifikasi data kelas ganda, model yang diusulkan hirarki bekerja lebih baik daripada jaringan saraf tiruan tradisional.
Peningkatan bervariasi dari 71,74% menjadi 18,79% dibandingkan dengan jaringan saraf untuk data iris Fisher yang ditetapkan ke set data kaca Forensik.
Selain itu, model yang diusulkan secara hirarki bekerja sebaik atau lebih baik daripada mendukung mesin vektor dan juga model klasifikasi tradisional lainnya seperti analisis diskriminan linier, analisis diskriminan kuadratik, dan KNN untuk kedua kumpulan data yang diperiksa.
Hasil ini lagi menunjukkan bahwa model yang diusulkan menghasilkan hasil yang baik secara konsisten dalam berbagai kasus.
Kesimpulan Klasifikasi memainkan peran penting dalam banyak aplikasi yang berkaitan dengan kecerdasan buatan dalam arti keputusan prediktif dalam pemrosesan informasi.
Aplikasi ini mencakup berbagai bidang penelitian termasuk bisnis, kedokteran, biologi, pengenalan citra, penambangan data.
Banyak penelitian dalam klasifikasi telah menyatakan bahwa kinerja meningkat dalam model Dalam model hibrida, tujuannya adalah untuk mengurangi risiko menggunakan model yang tidak pantas dengan menggabungkan beberapa model untuk mengurangi risiko kegagalan dan mendapatkan hasil yang lebih akurat.
Biasanya, ini dilakukan karena proses yang mendasarinya tidak dapat ditentukan dengan mudah.
Motivasi untuk menggabungkan model berasal dari asumsi bahwa salah satu tidak dapat mengidentifikasi proses pembuatan data yang benar atau bahwa model tunggal mungkin tidak cukup untuk mengidentifikasi semua karakteristik dari rangkaian waktu.
Dalam makalah ini, model hibrida baru dari jaringan saraf tiruan diusulkan sebagai model alternatif untuk masalah klasifikasi menggunakan model regresi linier berganda.
Tujuan utama dari model yang diusulkan adalah menggunakan keuntungan unik dari model regresi linier berganda dalam pemodelan linier untuk mengatasi kekurangan pemodelan linear dari jaringan saraf tiruan tradisional.
Model yang diusulkan terdiri dari dua fase, .
meringkas komponen linier dalam atribut dalam atribut baru untuk pemodelan yang lebih baik dengan jaringan saraf, dan .
mengklasifikasi data dengan jaringan saraf menggunakan atribut asli dan atribut linier yang dihasilkan oleh beberapa linier regresi.
Enam tolok ukur terkenal .
intetis dan kehidupan nyat.
dan kumpulan data dunia nyata Ai kumpulan data sintetis Ripley, set data Pima Indian Diabetes, kumpulan data Fisher iris, set data kaca Forensik, kumpulan data kredit Jepang, dan set data ekspresi gen - digunakan dalam makalah ini untuk menunjukkan kelayakan dan keefektifan model yang diusulkan untuk tugas klasifikasi dua kelas dan beberapa kelas.
Hasil yang diperoleh dari masalah dua kelas menunjukkan bahwa model yang diusulkan menjadi lebih unggul untuk semua model alternatif untuk kedua set data benchmark sintetis dan kehidupan nyata.
Untuk menyelesaikan masalah multi-kelas, dalam makalah ini versi hirarki dari model yang diusulkan dikembangkan dengan memeriksa tiga pendekatan yang berbeda termasuk '' satu lawan satu '', '' satu lawan istirahat '', dan '' satu lawan semua ' '.
Di antara pendekatan ini, pendekatan AoAo satu banding semua Aomenghasilkan hasil yang lebih akurat dan mengajukan permohonan untuk membangun versi hirarki dari model yang diusulkan.
Hasil empiris untuk kelompok masalah ini Vol.
VII (No.
01 ) : 652 Ae 660 Th.
p-ISSN: 2620-620X e-ISSN: 2621-9840 Jurnal Algoritma.
Logika dan Komputasi Versi Online: https://journal.
id/index.
php/alu DOI: http://dx.
org/10.
30813/j-alu.
menunjukkan bahwa model hirarki yang diusulkan secara konsisten mengungguli perceptrons multilayer tradisional dan model lain yang digunakan dalam makalah ini seperti analisis diskriminan linear, analisis diskriminan kuadratik, tetangga K-terdekat, dan mesin pendukung vektor.
DAFTAR PUSTAKA