Cogito Smart Journal | VOL. 6 - NO. JUNE 2020 Analisis Seleksi Tingkat Kecocokan Gambar pada MDID Multimedia Database Dengan Menggunakan Metode ImageDNA Analysis of Image Match Level Selection in MDID Multimedia Database Using the ImageDNA Method Jimmy H. Moedjahedy1. Hamada Zein2. Isdayani B3. Erfan Tongalu4. Kusrini5. M Syukri Mustafa6 Universitas Amikom Yogyakarta. Universitas Klabat Airmadidi Program Studi Magister Teknik Informatika Universitas Amikom Yogyakarta e-mail: *jimmy@unklab. id, hz831@umkt. Isdayani. b@gmail. erfantongalu27@gmail. com, kusrini@amikom. id, syukri@dipanegara. Abstrak Dengan semakin tersedianya pilihan informasi digital saat ini, definisi multimedia yang umum diterima adalah kombinasi dari berbagai media seperti teks, gambar, suara, video, animasi. Dalam teoris basis data, multimedia basis data mulai dikenalkan yaitu kumpulan data multimedia terkait. Basis data yang dipilih untuk optimasi dalam penelitian ini adalah MDID (Multiply Distorted Image Databas. yang terdiri dari 20 gambar referensi dan 1600 gambar yang sudah diberikan Tujuan dari penelitian ini adalah untuk menguji kecocokan dari 1600 gambar tersebut dan dicocokkan dengan 20 gambar referensi dengan menggunakan metode ImageDNA. Nilai ImageDNA kemudian dilakukan uji data pencilan, sehingga gambar yang nilai ImageDNAnya ekstrim akan dikeluarkan dari basis data MDID. Hasil dari penelitian ini adalah ada 100 gambar yang dikeluarkan dari basis data multimedia MDID. Kata kunciAi Multimedia Database. MDID. Image DNA Abstract With the increasing availability of digital information choices today, the commonly accepted definition of multimedia is a combination of various media such as text, images, sound, video. In database theorists, multimedia databases began to be introduced, namely related multimedia data sets. The database chosen for optimization in this study is MDID (Multiply Distorted Image Databas. which consists of 20 reference images and 1600 images that have been given distortion. The purpose of this study was to test the suitability of 1600 images and match them with 20 reference images using the ImageDNA method. The ImageDNA value is then carried out with an outlier data test, so that images with extreme ImageDNA values will be removed from the MDID database. The results of this study are that there are 100 images that were removed from the MDID multimedia database. KeywordsAi Multimedia Database. MDID. Image DNA PENDAHULUAN Basisdata multimedia adalah basisdata yang menyimpan data multimedia biasanya mencakup teks, gambar, audio, video, animasi, grafik, dan format kompleks lainnya. Dalam Fakultas Ilmu Komputer | Universitas Klabat | CORIS | ISSN: 2541-2221 | E-ISSN: 2477-8079 Cogito Smart Journal | VOL. 6 - NO. JUNE 2020 beberapa tahun terakhir, pemrosesan data multimedia di komputer dan transmisi melalui jaringan berkembang pesat . Dalam pencarian atau kueri informasi tekstual, ada beberapa metode yang biasa digunakan, namun metode-metode tersebut hanya untuk basisdata tradisional yang fokus kepada pencarian berbasis teks, sedangkan metode pencarian untuk gambar, suara atau video belum terlalu banyak dan masih dalam studi . Beberapa penelitian terkait basisdata multimedia diantaranya MDID (Multiply Distorted Image Databas. yang dilakukan oleh . , basisdata wajah berdasarkan text-video . , basisdata video multimodal biometric . , basisdata UNMC-VIER yang berisi audio dan dan visual . , basisdata GAID (Gait from Audio. Image and Dept. , basis data deteksi wajah KinectfaceDB . Dari beberapa penelitian tersebut, yang akan menjadi referensi dengan tujuan optimasi adalah MDID. MDID merupakan basisdata multimedia yang terdiri dari 20 gambar referensi yang diambil dari beberapa basis data yang popular kemudian masing-masing gambar tersebut diberikan distorsi. Proses pemberian distorsi dengan menggunakan MATLAB, segment linear function dan Kakadu tools. Total gambar dalam basisdata tersebut adalah 1600 gambar yang didapatkan dari 20 gambar yang digandakan menjadi masing-masing 80 gambar yang terdistorsi. Adapun jenis distorsi yang digunakan adalah gaussian noise, gaussion blur, contrast change. JPEG, dan JPEG2000. Basisdata ini digunakan untuk mengukur kualitas metriks dari gambar. Tujuan dari penelitian ini adalah peneliti ingin menggunakan basisdata ini untuk menganalisa kecocokan gambar dari kumpulan dgambar yang Selanjutnya, mengidentifikasi mana data yang sudah terlalu banyak distorsi sehingga gambar tersebut sudah berbeda jauh dengan gambar referensinya. Uji kecocokan diimplentasikan dengan menggunakan open source ImageDNA. Data observasi yang muncul dengan nilai ekstrim atau data pencilan akan diidentifikasi kemudian data tersebut akan dikeluarkan dari basisdata ini. Adapun beberapa penelitian terkait dengan topik yang akan diteliti adalah yang dilakukan oleh . tujuan dari penelitian yang mereka lakukan adalah untuk mencocokkan properti gambar spasial yang menggunakan semua piksel yang diperoleh dalam gambar dengan cara, pertama, satu gambar dipilih sebagai referensi, sedangkan gambar lainnya atau disebut gambar sekunder dipindahkan sehubungan dengan yang pertama. Proses simetris yang dilakukan, tidak memperdulikan berapa banyak gambar yang dipilih sebagai referensi. Ada tiga parameter yang menentukan perpindahan gambar sekunder. Studi ini telah diuji dalam dua situasi representatif yang berbeda, yaitu sampel gambar dengan kontur yang jelas dan sampel gambar tanpa kontur yang ditentukan. Penelitian selanjutnya adalah yang dilakukan oleh . , dimana tujuan dari penelitian mereka adalah untuk mencocokan gambar berdasarkan template kecocokan gambar dengan menggunakan metode fixed match pixel. Hasil dari penelitian mereka adalah untuk gambar bebas noise, pencocokan gambar dapat diselesaikan secara akurat oleh pencocokan templat dasar tetapi kecepatan pencocokan gambar terlihat lambat. Sedangkan untuk gambar yang memiliki noise, pencocokan gambar dapat diselesaikan secara akurat oleh pencocokan templat dasar, tetapi kecepatan pencocokannya lambat. Berikutnya adalah studi yang dilakukan oleh . , metode penelitian mereka adalah pertama, kecocokan awal diperoleh dengan menggunakan ASIFT dan kendala geometri epipolar. Kedua, pertandingan awal dibagi menjadi kelompokkelompok yang berbeda berdasarkan kendala homografi dan matriks homografi diperkirakan menggunakan strategi berbasis RANSAC untuk setiap kelompok. Ketiga, fitur FAST dan batasan homografi digunakan untuk memperpanjang kecocokan awal. Akhirnya, kendala homografi diperbarui menggunakan pencocokan diperpanjang dan pencilan dihapus dengan kendala geometri epipolar. Penelitian yang dilakukan oleh . tujuan penelitian mereka adalah membangun deskriptor baru dengan menggabungkan deskriptor bentuk geometris yang diusulkan dan deskriptor SIFT tradisional untuk lebih meningkatkan tingkat pencocokan yang benar. Hasil eksperimen mereka menunjukkan validitas metode yang diusulkan. Kemudian penelitian yang dilakukan oleh . , mereka merumuskan serangkaian ekstensi dari operator SIFT dan SURF, dengan mengganti pendeteksi titik bunga yang mendasari dan digunakan untuk menghitung deskriptor SIFT atau SURF oleh sekelompok titik minat ruang-skala umum. Fakultas Ilmu Komputer | Universitas Klabat | CORIS | ISSN: 2541-2221 | E-ISSN: 2477-8079 Cogito Smart Journal | VOL. 6 - NO. JUNE 2020 Kontribusi dari penelitian ini dapat dilihat pada tabel 1 yang merupakan rangkuman dari penelitian serupa berikut dengan perbedaannya dengan penelitian ini. Tabel 1. Perbandingan dengan penelitian sebelumnya Peneliti Metode Perbandingan Piqueras Solsona. Mencocokan properti gambar Peneliti menggunakan Maeder. Tauler, and A. de dengan semua piksel metode nilai ImageDNA Juan . Xu and J. Zhang . Mencocokan gambar dengan Peneliti menggunakan metode fixed match pixel metode nilai ImageDNA Zhai. Yu. Wang, and Menghapus pencilan dengan Peneliti menggunakan Guo . menggunakan geometri metode nilai ImageDNA untuk menghapus data Zhang. Li. Blum. Mencocokan gambar dengan Peneliti menggunakan and P. Xiang . menggabungan metode metode nilai ImageDNA geometri SIFT tradisional Lindeberg . Mencocokan gambar dengan Peneliti menggunakan metode SIFT dan SURF metode nilai ImageDNA METODE PENELITIAN Jenis penelitian yang digunakan dalam penelitian ini adalah eksperimen, dimana peneliti menerapkan dan menggabungkan metode dalam hal ini ImageDNA. Selanjutnya sifat dari penelitian ini adalah deskriptif karena penulis akan mendeskripsikan mana gambar yang nilainya jauh berbeda dari gambar asli atau yang termasuk dalam data gambar pencilan. Pada gambar 1, merupakan diagram alir atau tahapan dalam menyelesaikan penelitian ini. Gambar 1. Diagram Alur Penelitian Fakultas Ilmu Komputer | Universitas Klabat | CORIS | ISSN: 2541-2221 | E-ISSN: 2477-8079 Cogito Smart Journal | VOL. 6 - NO. JUNE 2020 Tahapan penelitian yang dilakukan adalah: Peneliti menentukan ide penelitian untuk topik optimasi multimedia database Memilih MDID sebagai multimedia database yang terdiri dari 20 gambar referensi atau asli, masing-masing gambar tealah diberikan distorsi sehingga menjadi 1600 gambar. Masing-masing dari 1600 gambar tersebut akan dicari nilai ImageDNA dengan menerapkan script PHP open source yang diambil dari . Algoritma untuk mendapatkan DNA dari image adalah: Konversi gambar ke hitam putih Merubah ukuran gambar menjadi 512x512 piksel Memecah-mecahkan gambar menjadi 32x32 piksel kemudian membuat rata-rata dari gambar piksel Menggabungkan kembali gambar-gambar pada langkah c Merubah ukuran gambar yang berukuran 1 piksel ke 16 piksel Setelah semua langkah selesai, piksel dikonversi ke byte 0xFF dan disimpan dalam array yang bertindak sebagai DNA, yang menghasilkan 16x16 gambar DNA dalam 256 nilai. Ini dijumlahkan untuk menghitung delta yang mudah dilihat ketika membandingkan dengan DNA gambar lain. Tabulasi hasil dari pencarian nilai ImageDNA Menentukan nilai pencilan dari masing-masing gambar sesuai dengan gambar referensi dengan Rapidminer menggunakan operator detect outlier distance Alur tabulasi nilai dan nilai pencilan dapat dilihat pada gambar 2 Gambar 2. Alur Tabulasi dan Pencarian Data Pencilan Fakultas Ilmu Komputer | Universitas Klabat | CORIS | ISSN: 2541-2221 | E-ISSN: 2477-8079 Cogito Smart Journal | VOL. 6 - NO. JUNE 2020 Pada gambar 1 dan 2, tanda dengan garis putus-putus adalah bagian lebih detail dari langkah-langkah yang ada Digambar. 1 Metode Pencarian Nilai PhotoDNA ImageDNA mendapatkan ide untuk membuat program open source berdasarkan metode PhotoDNA yang dikeluarkan oleh Microsoft. Dalam website Microsoft . pada tahun 2009. Microsoft bermitra dengan Dartmouth College untuk mengembangkan PhotoDNA, sebuah teknologi yang membantu dalam menemukan dan menghapus gambar eksploitasi anak yang Saat ini. PhotoDNA digunakan oleh organisasi di seluruh dunia dan telah membantu dalam pendeteksian, gangguan, dan pelaporan jutaan gambar eksploitasi anak. PhotoDNA membuat tanda tangan digital unik dikenal sebagai hash dari suatu gambar yang kemudian dibandingkan dengan tanda tangan atau hashes dari foto lain untuk menemukan salinan dari gambar yang sama. Ketika dicocokkan dengan database yang berisi hash dari gambar ilegal yang sebelumnya diidentifikasi. PhotoDNA adalah alat yang luar biasa untuk membantu mendeteksi, mengganggu dan melaporkan distribusi bahan eksploitasi anak. PhotoDNA bukan perangkat lunak pengenalan wajah dan tidak dapat digunakan untuk mengidentifikasi seseorang atau objek dalam suatu gambar. Hash PhotoDNA tidak dapat dibalik, dan oleh karena itu tidak dapat digunakan untuk membuat ulang gambar 2 Metode Pencarian Data Pencilan Menurut . dalam buku mereka, sebuah obyek dalam data disebut data pencilan jika menyimpang dari perilaku normal data tersebut, nilai yang jauh dari nilai yang diharapkan, atau tidak mirip dengan objek lain dalam hal karakteristiknya. Ada 3 karakteristik dalam data pencilan yaitu berdasarkan ukuran, berdasarkan keragaman dan berdasarkan peran. Ada 2 taksonomi dalam pendeteksian data pencilan, yaitu parametrik dan non parametrik seperti yang ditunjukkan pada Jika masuk dalam kategori parametrik maka metode statistik yang akan digunakan, sedengankan jika data masuk dalam kategori non parametrik maka bisa menggunakan 3 pendekatan yaitu metode distance-based, metode density-based, dan metode clustering-based. Parametrik Metode Statistik Deteksi Data Pencilan Non Parametrik Metode distance-based Metode density-based Metode clustering-based Gambar 3. Taksonomi Deteksi data Pencilan Ada beberapa metode pencarian data pencilan, dalam . metode pertama adalah average k-nearest neighbors detection, yang adalah varian yang kuat dari detektor k-nearest neighbor yang tepat. Gagasan dasar dalam metode ini adalah untuk menghitung jarak rata-rata titik data ke k-nearest neighbors sebagai nilai pencilan. Kemudian metode yang berikutnya adalah Fakultas Ilmu Komputer | Universitas Klabat | CORIS | ISSN: 2541-2221 | E-ISSN: 2477-8079 Cogito Smart Journal | VOL. 6 - NO. JUNE 2020 harmony k-nearest neighbor detector, yang merupakan metode yang jarang digunakan, tetapi merupakan teknik dengan beberapa sifat menarik dan tidak biasa. Seperti average k-nearest neighbors detection, ide dasarnya adalah menggunakan rata-rata dari semua jarak k ke tetangga terdekat k. perbedaan utamanya adalah bahwa rata-rata harmonik digunakan sebagai ganti ratarata aritmatika. Berikutnya adalah Local Outlier Factor (LOF), dimana LOF menormalkan jarak tetangga k-terdekat dengan jarak di lokalitasnya. Misalnya, jika suatu wilayah diharapkan mengandung nilai yang lebih kecil dari jarak tetangga k-terdekat, maka skor tersebut disesuaikan dengan fakta ini. Ide dasarnya adalah untuk menyesuaikan skor pencilan untuk variasi dalam kepadatan di berbagai lokasi data. HASIL DAN PEMBAHASAN Setelah dilakukan pencarian semua nilai ImageDNA dari 1600 gambar, nilai ImageDNA seperti terlihat pada gambar 4 yaitu nilai sesudah tanda sama dengan. Nilai ini didapat dengan menjalankan script PHP yang sudah dimodifikasi untuk basisdata MDID. Langkah selanjutnya adalah tabulasi nilai-nilai tersebut. Gambar 4. Hasil Pencarian Nilai ImageDNA Setelah 1600 gambar ditambah dengan 20 gambar referensi didapatkan nilai ImageDNA, maka masing-masing nilai tersebut pada setiap kategori gambar dicari data pencilan. Data Fakultas Ilmu Komputer | Universitas Klabat | CORIS | ISSN: 2541-2221 | E-ISSN: 2477-8079 Cogito Smart Journal | VOL. 6 - NO. JUNE 2020 pencilan dicari dengan menggunakan Rapidminer operator outlier detection distances dengan pengaturan 10 data outlier yang akan dikeluarkan pada 20 kelompok gambar. Pada gambar 5 merupakan salah satu hasil grafik visualisasi, titik berwarna hijau merupakan data pencilan sehinga pada tabel 1 dan tabel 2 merupakan hasil tabulasi gambar yang harus dikeluarkan dari database MDID. Gambar 5. Grafik Hasil Data Pencilan Tabel 2. Hasil deteksi data pencilan pada img01-img10 Tabel 2 merupakan data atau gambar dari gambar 1 sampai gambar 10 yang merupakan hasil tabulasi dari aplikasi Rapidminer. Untuk kelompok gambar 1, dari 80 gambar yang terdistorsi, ada 10 gambar yang akan dikeluarkan yaitu gambar 01_09, 01_17, 01_21, 01_37, 01_44, 01_48, 01_50, 01_55, 01_56, 01_62. Untuk kelompok gambar 2, dari 80 gambar yang terdistorsi, ada 10 gambar yang akan dikeluarkan yaitu gambar 02_03, 02_09, 02_14, 02_18. Fakultas Ilmu Komputer | Universitas Klabat | CORIS | ISSN: 2541-2221 | E-ISSN: 2477-8079 Cogito Smart Journal | VOL. 6 - NO. JUNE 2020 02_21, 02_37, 02_52, 02_66, 02_72, 02_75. Untuk kelompok gambar 3, dari 80 gambar yang terdistorsi, ada 10 gambar yang akan dikeluarkan yaitu gambar 03_05, 03_10, 03_15, 03_19, 03_40, 03_52, 03_57, 03_60, 03_63, 03_78. Untuk kelompok gambar 4, dari 80 gambar yang terdistorsi, ada 10 gambar yang akan dikeluarkan yaitu gambar 04_11, 04_19, 04_20, 04_30, 04_36, 04_50, 04_52, 04_64, 04_66, 04_69. Untuk kelompok gambar 5, dari 80 gambar yang terdistorsi, ada 10 gambar yang akan dikeluarkan yaitu gambar 05_14, 05_25, 05_27, 05_31, 05_32, 05_34, 05_54, 05_58, 05_69, 05_70. Untuk kelompok gambar 6, dari 80 gambar yang terdistorsi, ada 10 gambar yang akan dikeluarkan yaitu gambar 06_01,06_06, 06_09, 06_14, 06_32, 06_43, 06_62, 06_68, 06_76, 06_78. Untuk kelompok gambar 7, dari 80 gambar yang terdistorsi, ada 10 gambar yang akan dikeluarkan yaitu gambar 07_16, 07_21, 07_23, 07_30, 07_33, 07_46, 07_56, 07_60, 07_66, 07_73. Untuk kelompok gambar 8, dari 80 gambar yang terdistorsi, ada 10 gambar yang akan dikeluarkan yaitu gambar 08_21, 08_22, 08_24, 08_28, 08_35, 08_ 47, 08_51, 08_61, 08_64, 08_65. Untuk kelompok gambar 9, dari 80 gambar yang terdistorsi, ada 10 gambar yang akan dikeluarkan yaitu gambar 09_05, 09_09, 09_10, 09_14, 09_16, 09_22, 09_26, 09_37, 09_57, 09_72. Untuk kelompok gambar 10, dari 80 gambar yang terdistorsi, ada 10 gambar yang akan dikeluarkan yaitu gambar 10_06, 10_09, 10_26, 10_30, 10_39, 10_40, 10_42, 10_51, 10_53, 10_77. Tabel 3. Hasil deteksi data pencilan pada img11-img20 Tabel 3 merupakan data atau gambar dari gambar 11 sampai gambar 20 yang merupakan hasil tabulasi dari aplikasi Rapidminer. Untuk kelompok gambar 11, dari 80 gambar yang terdistorsi, ada 10 gambar yang akan dikeluarkan yaitu gambar 11_02, 01_16, 11_17, 11_20, 11_42, 11_47, 11_57, 11_67, 11_72, 11_74. Untuk kelompok gambar 12, dari 80 gambar yang terdistorsi, ada 10 gambar yang akan dikeluarkan yaitu gambar 12_05, 12_14, 12_19, 12_24, 12_31, 12_44, 12_67, 12_68, 12_69, 12_71. Untuk kelompok gambar 13, dari 80 gambar yang terdistorsi, ada 10 gambar yang akan dikeluarkan yaitu gambar 13_01, 13_03, 13_26, 13_30, 13_58, 13_61, 13_62, 13_66, 13_67, 13_79. Untuk kelompok gambar 14, dari 80 gambar yang terdistorsi, ada 10 gambar yang akan dikeluarkan yaitu gambar 14_01, 14_16, 14_26, 14_29, 14_34, 14_50, 14_61, 14_63, 14_66, 14_76. Untuk kelompok gambar 15, dari 80 gambar yang terdistorsi, ada 10 gambar yang akan dikeluarkan yaitu gambar 15_16, 15_17, 15_21, 15_32, 15_37, 15_44, 15_50, 15_56, 15_62, 15_78. Untuk kelompok gambar 16, dari 80 gambar yang terdistorsi, ada 10 gambar yang akan dikeluarkan yaitu gambar 16_19,16_20, 16_28, 16_33, 16_35, 16_50, 16_70, 16_71, 16_75, 16_79. Untuk kelompok gambar 17, dari 80 gambar yang terdistorsi, ada 10 gambar yang akan dikeluarkan yaitu gambar 17_03, 17_10, 17_22, 17_23, 17_40, 17_43, 17_51, 17_60, 17_73, 17_74. Untuk kelompok gambar 18, dari 80 gambar yang terdistorsi, ada 10 gambar yang akan dikeluarkan yaitu gambar 18_07, 18_10, 18_30, 18_31, 18_32, 18_62, 18_68, 18_71, 18_74, 18_80. Untuk kelompok gambar 19, dari 80 gambar yang terdistorsi, ada 10 gambar yang akan dikeluarkan yaitu gambar 19_10, 19_16, 19_20, 19_28. Fakultas Ilmu Komputer | Universitas Klabat | CORIS | ISSN: 2541-2221 | E-ISSN: 2477-8079 Cogito Smart Journal | VOL. 6 - NO. JUNE 2020 19_36, 19_52, 19_53, 19_54, 19_62, 19_79. Terakhir, untuk kelompok gambar 20, dari 80 gambar yang terdistorsi, ada 10 gambar yang akan dikeluarkan yaitu gambar 20_04, 20_14, 20_26, 20_29, 20_32, 20_36, 20_41, 20_49, 20_71, 20_74. KESIMPULAN Setelah mendapatkan hasil penelitian, kesimpulan dari penelitian ini adalah agar terjadi peningkatan waktu pencarian dan tingkat kecocokan data dengan menggunakan basisdata MDID maka 100 gambar dari 1600 gambar yang didistorsi harus dikeluarkan sebelum menguji menggunakan algortima kecocokan gambar. Hal ini disebakan, 100 gambar yang dikeluarkan tersebut, nilai ImageDNAnya sudah melewati gambar referensi yang diambil. Adapun gambargambar yang harus dikeluarkan dapat dilihat pada tabel 2 dan tabel 3. SARAN Saran dari penelitian ini adalah, bagi para peneliti lainnya yang ingin mengembangkan penelitian ini, dapat melakukan uji coba dengan implementasi algortima tingkat kecocokan Kemudian membandingan waktu pencarian dengan menghilangkan 100 gambar seperti pada tabel 1 dan tabel 2 kemudian menguji kembali menggunakan semua gambar yang ada pada basisdata MDID. UCAPAN TERIMA KASIH