Terbit online pada laman web jurnal: https://jurnal. id/index. php/tematik/index Jurnal Teknologi Informasi Komunikasi . -Journa. Vol. 12 No. 200 - 205 ISSN Media Elektronik: 2443-3640 Algoritma Value Based Untuk Pembangunan Bot Trading Yahoo Finance Value Based Algorithm for Developing Yahoo Finance Trading Bot Acep Hendra1. Handoko Supeno2 Prodi Sistem Informasi. Fakultas Teknologi dan Informatika. Universitas Informatika dan Bisnis Indonesia Prodi Teknik Informatika. Fakultas Teknik. Universitas Informatika dan Bisnis Indonesia acephendra@unibi. id, handoko@unpas. Abstract Advancements in artificial intelligence, particularly reinforcement learning (RL), have driven innovation in automated decision-making within financial markets. Although Deep Reinforcement Learning (DRL) is commonly used, it requires substantial computational resources and lacks transparency. This study proposes the development of a lightweight, transparent, and easily reproducible trading bot based on a value-based RL algorithm (Q-Learnin. , utilizing open data from Yahoo Finance. The system is built including data acquisition, preprocessing. RL agent design, and strategy evaluation. The Q-Learning agent is trained to determine daily actions . uy, sell, hol. with the objective of maximizing cumulative returns while minimizing risk. Experimental results show that the Q-Learning bot achieves a cumulative return of 180%, a Sharpe Ratio of 1. 2, and a win rate of 55%. These findings indicate that tabular Q-Learning has strong potential as an effective, adaptive trading approach with low computational cost. Keyword: reinforcement learning. Q-Learning, trading bot. Yahoo Finance, value-based Abstrak Perkembangan kecerdasan buatan, khususnya reinforcement learning (RL), telah mendorong inovasi dalam otomatisasi pengambilan keputusan di pasar keuangan. Meskipun Deep Reinforcement Learning (DRL) sering digunakan, pendekatan ini membutuhkan sumber daya besar dan kurang transparan. Penelitian ini mengusulkan pembangunan bot trading berbasis algoritma value-based RL (Q-Learnin. yang ringan, mudah direplikasi, dan menggunakan data terbuka dari Yahoo Finance. Sistem dikembangkan meliputi akuisisi data, preprocessing, desain agen RL, dan pengujian strategi. Agen Q-Learning dilatih untuk menentukan aksi harian . uy, sell, hol. dengan tujuan memaksimalkan cumulative return dan meminimalkan risiko. Hasil eksperimen menunjukkan Q-Learning Bot menghasilkan cumulative return 180%. Sharpe Ratio 1,2, dan win rate 55%. Temuan ini menunjukkan bahwa Tabular Q-Learning memiliki potensi sebagai pendekatan trading adaptif yang efektif dengan biaya komputasi rendah. Kata kunci: reinforcement learning. Q-Learning, bot trading. Yahoo Finance, value-based. Pendahuluan Perkembangan teknologi kecerdasan buatan, khususnya di bidang reinforcement learning (RL), telah membawa dampak signifikan terhadap otomatisasi sistem pengambilan keputusan dalam dunia keuangan. menunjukkan keberhasilan agen RL dalam melakukan asset allocation . , portfolio optimization. , hingga aksi buy-sell-hold berdasarkan pembelajaran dari data historis pasar. Namun demikian, mayoritas Deep Reinforcement Learning (DRL), yang memerlukan sumber daya komputasi besar, proses pelatihan kompleks, dan terkadang tidak transparan dalam pengambilan keputusan. Di sisi lain, pendekatan klasik berbasis nilai seperti QLearning atau SARSA, yang bersifat lebih ringan dan dapat dijelaskan . , masih jarang dieksplorasi dalam konteks pembangunan bot trading yang praktis, terutama menggunakan data terbuka seperti yang disediakan oleh Yahoo Finance. Padahal. Yahoo Finance adalah salah satu sumber data paling mudah diakses dan banyak digunakan oleh investor ritel maupun akademisi pemula. Kondisi ini menimbulkan beberapa tantangan nyata: Tidak adanya sistem bot trading berbasis algoritma value-based sederhana yang dapat secara langsung diterapkan dengan data Yahoo Finance. Minimnya kerangka kerja yang end-to-end, dari proses pengambilan data, pelatihan agen, hingga eksekusi sinyal trading. Kurangnya pendekatan komparatif terhadap strategi konvensional atau sinyal pasar Diterima Redaksi: 06-11-2025 | Selesai Revisi: 01-12-2025 | Diterbitkan Online: 20-12-2025 Acep Hendra. Handoko Supeno Tematik : Jurnal Teknologi Informasi Komunikasi . -Journa. Vol. 12 No. sederhana untuk menilai efektivitas agen RL. Keterbatasan literatur lokal maupun open-source tools yang dapat digunakan dalam konteks pendidikan, eksperimen, dan riset skala kecil. Jika permasalahan ini tidak ditangani, maka: Pemanfaatan RL untuk edukasi dan riset praktis akan tetap terhambat pada pendekatan-pendekatan kompleks dan tidak mudah direplikasi. Penelitian ini dilakukan untuk bagaimana membangun sebuah bot trading sederhana yang berbasis algoritma value-based reinforcement learning . hususnya QLearnin. , yang mampu mengambil keputusan beli/jual saham secara otomatis, dengan menggunakan data terbuka dari Yahoo Finance, serta dapat diimplementasikan dan diuji secara praktis dalam konteks simulasi pasar. Kontribusi penelitian ini adalah: Implementasi QLearning tabular yg ringan untuk trading saham menggunakan data Yahoo Finance. Menganalisis performa bot trading yang dihasilkan. Dan mengusulkan algoritma peningkatan yang berdampak pada pelatihan bot trading berbasis tabular q learning. Dalam beberapa tahun terakhir, reinforcement learning (RL) berkembang pesat dalam algoritma trading, khususnya untuk optimasi portofolio dan pengambilan keputusan otomatis. Gu . mengembangkan Pro Trader RL berbasis behavior cloning untuk meniru pola trader profesional. efektif pada pasar stabil namun kurang fleksibel saat volatilitas tinggi. Studi oleh Yasin & Gill . serta Sun . membahas kerangka umum RL untuk quantitative trading dengan penekanan pada simulasi realistis dan pengujian kondisi pasar, namun kebanyakan menggunakan data global atau premium, berbeda dari penggunaan data terbuka Yahoo Finance pada penelitian ini. Studi lokal seperti Ridho et al. dan Sari et al. menyoroti pentingnya representasi dan normalisasi data dalam penerapan DRL, tetapi belum mengeksplorasi integrasi praktis DRL dengan data Yahoo Finance di konteks Indonesia. Penelitian lain, seperti Varela . dan uEEAC . , membahas implementasi RL pada bot trading nyata, sementara Mohammadshafie et al. menekankan adaptasi strategi hold/buy/sell berdasarkan profil aset. Pendekatan non-RL seperti permutation decision trees (Ramraj & Nagaraj, 2. menunjukkan metode klasik masih kompetitif. Praghaadeesh et al. menggabungkan sentiment analysis dengan RL untuk memperkaya konteks keputusan, dan Liu et al. menekankan pentingnya dynamic dataset, relevan bagi penggunaan data Yahoo Finance. Metode Penelitian Penelitian ini bertujuan membangun dan mengevaluasi bot trading saham otomatis berbasis algoritma valuebased reinforcement learning (Q-Learnin. dengan sumber data terbuka dari Yahoo Finance. Sistem yang dikembangkan terdiri dari tiga komponen utama: 1 Data Acquisition Module Proses akuisisi data pada penelitian ini dirancang agar sederhana, dapat direplikasi, dan memanfaatkan sumber data terbuka. Data harga saham historis diperoleh melalui Application Programming Interface (API) Yahoo Finance menggunakan pustaka yfinance pada Python. Modul akuisisi data bertugas mengunduh data harga penutupan harian . djusted close pric. berdasarkan ticker saham yang ditentukan, periode waktu penelitian, dan batas pemisahan data pelatihan serta pengujian. Pertama peneliti membangun fungsi download_data() memanggil API dengan parameter ticker, tanggal awal, dan tanggal akhir. Data yang diterima kemudian diproses untuk memastikan konsistensi struktur, menghapus nilai hilang, dan menyederhanakan kolom menjadi hanya harga penutupan yang sudah disesuaikan. Pendekatan ini memastikan bahwa data yang digunakan telah bebas dari corporate actions seperti stock split atau dividend adjustment, sehingga lebih representatif untuk analisis pergerakan harga. Selain akuisisi data harga dasar, modul ini juga membangun serangkaian fitur teknikal awal melalui fungsi make_features(). Fitur yang dihasilkan mencakup simple moving average (SMA) periode 5 dan 20 hari, beserta rasio deviasinya terhadap harga terkini, serta momentum 10 hari yang dihitung melalui perubahan persentase harga. Seluruh fitur ini penting untuk menyandikan informasi tren jangka pendek dan menengah yang menjadi masukan bagi agen QLearning. Data yang telah dibersihkan dan diperkaya kemudian dipisahkan menjadi dua bagian: data pelatihan . 5Ae2. dan data pengujian . 3Ae 2 Preprocessing Tahapan preprocessing dilakukan untuk mengubah data harga mentah menjadi representasi numerik yang dapat diolah oleh agen Reinforcement Learning. Modul ini terdiri dari dua proses utama, yaitu feature discretization dan state encoding, yang bertujuan mengonversi ruang keadaan . tate spac. menjadi diskrit dan berdimensi terbatas menggunakan metode quantile-based binning. Proses ini diimplementasikan discretize_features() memanfaatkan KBinsDiscretizer dari pustaka scikitlearn. Setiap fitur dibagi ke dalam enam interval . menggunakan strategi quantile, sehingga setiap interval mengandung jumlah sampel yang relatif seimbang. Teknik ini dipilih karena mampu mengurangi DOI: https://doi. org/10. 38204/tematik. Lisensi: Creative Commons Attribution 4. 0 International (CC BY 4. Acep Hendra. Handoko Supeno Tematik : Jurnal Teknologi Informasi Komunikasi . -Journa. Vol. 12 No. sensitivitas terhadap outlier dan menjaga distribusi data tetap stabil. Hasil diskretisasi kemudian diubah ke bentuk bilangan bulat untuk memudahkan pemetaan ke ruang keadaan. batasan posisi maksimum (MAX_POS), sehingga agen tidak hanya mengejar return tetapi juga memperhatikan stabilitas portofolio sebagaimana yang dijabarkan oleh Tabel 2. Selanjutnya, representasi state yang menggabungkan informasi posisi portofolio saat ini dan kategori fitur yang telah Fungsi state_from_bins() mengodekan seluruh informasi tersebut ke dalam satu indeks keadaan unik. Posisi portofolio yang berada dalam rentang {Oe1, 0, . dimodifikasi menjadi indeks . , 1, . , kemudian digabungkan dengan nilai bins melalui teknik mixed radix encoding. Proses ini memastikan setiap kombinasi fitur dan posisi memiliki identifikasi unik dalam bentuk indeks integer, sehingga agen QLearning dapat memetakan state-action value secara Dengan desain preprocessing seperti ini, ruang keadaan menjadi kompak namun informatif. Q-Learning melakukan pembelajaran secara stabil, tanpa memerlukan jaringan saraf atau arsitektur kompleks seperti pada Deep RL. Tabel 2. Trading Parameter 3 Reinforcement Learning Agent Pada penelitian ini, agen trading dirancang menggunakan algoritma value-based Reinforcement Learning dengan beberapa peningkatan, yaitu Double Q-Learning, multi-step return, dan prioritized updates. Seluruh mekanisme pembelajaran dibangun dalam kerangka tabular sehingga tidak memerlukan jaringan saraf, tetap ringan secara komputasi, namun tetap memiliki kemampuan untuk menangkap dinamika Agen dikonfigurasi menggunakan sejumlah parameter penting, sebagaimana yang dijabarkan pada Tabel 1. Tabel 1. Hyperparameter Agen Hyperparameter N_EPISODES . aju pembelajara. aktor diskont. A max A min A decay N STEP PRIORITY REPLAY SIZE PRIORITY UPDATES PRIORITY EPS PRIORITY DECAY Nilai Beberapa parameter pelatihan yang penting antara lain jumlah episode pelatihan (N_EPISODES), laju pembelajaran ( = 0. , faktor diskonto ( = 0. , serta strategi eksplorasi A-greedy dengan nilai awal A = 1. dan penurunan eksponensial hingga batas minimum A = Parameter ini memastikan adanya keseimbangan antara eksplorasi peluang baru dan eksploitasi strategi terbaik yang telah dipelajari. Selain itu, pembelajaran juga memasukkan pearameter trading risiko melalui parameter RISK_AVERSION, biaya transaksi, dan Parameter Trading cost penalty RISK AVERSION TRANSACTION COST INITIAL CASH Nilai Untuk mengatasi masalah overestimation bias pada QLearning standar, penelitian ini menggunakan pendekatan Double Q-Learning. Dua tabel aksikeadaan dikonstruksi, yaitu: Q1 dan Q2. Keduanya diperbarui secara bergantian. Ketika memperbarui Q1, pemilihan aksi terbaik dilakukan menggunakan Q1, namun nilai target diambil dari Q2, dan sebaliknya. Strategi ini memberikan estimasi nilai aksi yang lebih stabil dan tidak bias, sehingga meningkatkan ketahanan agen terhadap fluktuasi harga pasar. Pembelajaran diperkuat dengan mekanisme n-step return, di mana agen tidak hanya mempertimbangkan imbal hasil satu langkah ke depan, tetapi akumulasi imbal hasil selama N_STEP = 5 langkah. Teknik ini memiliki beberapa keuntungan: Mempercepat propagasi informasi nilai dari masa depan ke masa kini. Mengurangi varian estimasi TD error. Memperbaiki sensitivitas agen terhadap tren jangka pendek yang relevan dalam trading harian. Implementasi dilakukan dengan buffer n-step yang mencatat rangkaian stateAeactionAereward selama beberapa langkah sebelum menghasilkan pembaruan Kemudian agar pembelajaran lebih efisien, penelitian ini menerapkan prioritized replay, yaitu mekanisme yang memberikan prioritas lebih tinggi kepada pengalaman dengan Temporal-Difference (TD) error besar. Replay buffer disusun sebagai deque dengan kapasitas maksimum 5000 entri, masing-masing berisi informasi state . , action . , n-step return (R), state berikutnya . _nex. , status terminal . , nilai Proses pelatihan mengintegrasikan tiga teknik peningkatan stabilitas pada algoritma Q-Learning, yaitu Double Q-Learning, multi-step bootstrapping, dan prioritized updates. Ketiga mekanisme ini terbukti memiliki dampak positif pada pelatihan agen sebagai Double Q-Learning . mengurangi overestimation bias yang umum terjadi pada Q-Learning standar ketika aksi terbaik dipilih menggunakan tabel Q yang Dua tabel nilai, ycE1 dan ycE2 , diperbarui secara bergantian sehingga estimasi aksi dan evaluasi aksi dilakukan oleh tabel yang berbeda. Multi-step bootstrapping . -step retur. digunakan untuk mempercepat penyebaran sinyal reward ke DOI: https://doi. org/10. 38204/tematik. Lisensi: Creative Commons Attribution 4. 0 International (CC BY 4. Acep Hendra. Handoko Supeno Tematik : Jurnal Teknologi Informasi Komunikasi . -Journa. Vol. 12 No. state sebelumnya. Alih-alih menggunakan reward satu langkah, digunakan n-step cumulative return sehingga informasi reward menjadi lebih stabil dan informatif terutama pada pergerakan harga saham. Prioritized updates digunakan untuk meningkatkan efisiensi belajar. Setiap transisi disimpan dalam prioritized replay buffer dengan bobot prioritas proporsional terhadap besar kesalahan temporaldifference (TD erro. Sampel dengan TD error tinggi diproses lebih sering sehingga percepatan konvergensi dapat dicapai sehingga pelatihan agen menjadi lebih optimal. Gabungan algoritma ketiga mekanisme diatas bekerja pada setiap langkah disetiap episode pelatihan. Dimana pada setiap langkah: Agen memilih aksi dengan Agreedy. Hasil transaksi dihitung berdasarkan perubahan ekuitas, penalti risiko, dan biaya transaksi. Dimana fungsi hadiah didefinisikan pada Persamaan . sebagai 1, ycycnycoyca ycyycycuyceycnyc > 0 ycIyc = {Oe1, ycycnycoyca ycyycycuyceycnyc < 0 0, ycycnycoyca ycyycycuyceycnyc = 0 Transisi dicatat dalam buffer n-step. Setelah horizon nstep terpenuhi, pembaruan Q dilakukan terhadap table Q1. Kemudian setiap beberapa episode konten Q1 akan disalin ke Q2. Persamaan update nilai Q pada tabel didefinisikan pada Persamaan . sebagai berikut: c, yc. Ia ycE. c, yc. c yuycoycaycuycaA ycE. c A , ycaA ) Oe ycE. c, yc. ] . Setelah episode selesai, agen melakukan prioritized replay untuk memperdalam pembelajaran. Penjelasan komponen-komponen pada Persamaan . diatas adalah sebagai berikut: ycE. c, yc. Ie nilai estimasi quality . euntungan jangka panjan. saat di state yc melakukan aksi yca. yu adalah learning rate yang digunakan untuk seberapa besar pembaruan memperhitungkan informasi baru . Ae. yc adalah ycyceycycaycycc yang didapat dari transisi . c, yc. Ie ycA. yu adalah factor diskon untuk reward masa depan . Ae. Ao ycE. c A , ycaA) estimasi terbaik untuk aksi berikutnya A yca dari state baru ycA. ycA adalah state berikutnya. ycaA adalah aksi berikutnya yang diuji pada ycaA. Hasil dan Pembahasan Setelah proses pelatihan selesai, kinerja agen QLearning dievaluasi pada periode data uji yang tidak pernah terlihat selama pelatihan. Pada tahap ini, parameter A tidak lagi digunakan untuk eksplorasi. bertindak secara deterministik dengan memilih aksi yang memaksimalkan nilai fungsi aksi-keadaan gabungan ycEycaycuycoyca . c, yc. = ycE1 . c, yc. ycE2 . c, yc. Untuk setiap hari pada periode pengujian, fitur harga saham didiskretisasi dan dikonversi menjadi indeks state menggunakan fungsi state_from_bins(). Berdasarkan ycayc OO {"Eaycuycoycc", "ycaycyc", "ycyceycoyco"} ycayc = ycaycyciycoycaycuyca ycEycaycuycoyca . cyc , yc. Aksi yang dipilih kemudian diterjemahkan menjadi perubahan posisi portofolio: 0 Ie hold, mempertahankan posisi saat ini. 1 Ie buy, meningkatkan posisi hingga batas maksimum (MAX_POS). 2 Ie sell, mengurangi posisi hingga batas minimum . isalnya posisi short atau no. Setiap keputusan transaksi dieksekusi menggunakan harga penutupan hari berjalan, sehingga menghasilkan pembaruan kas, posisi, dan nilai ekuitas portofolio. Nilai ekuitas harian yaycycycnycycyc dihitung sebagaimana pada persamaan . dibawah ini: yaycycycnycycyc = yaycaycEayc ycEycuycycnycycnycuycuyc O ycEycycnycayceyc Beberapa metrik kuantitatif digunakan mengevaluasi kinerja agen, yaitu: Cumulative Return: Kinerja total diukur dari selisih ekuitas akhir dengan modal awal sesuai pada Persamaan . Total PnL = yaycycycnycycakhir Oe yaycuycnycycnycaycoyaycaycEa Nilai ini dihitung baik untuk agen Q-Learning maupun strategi buy-and-hold. Sharpe Ratio: untuk menilai apakah strategi trading menghasilkan keuntungan yang sebanding dengan risiko yang diambil, digunakan Sharpe ratio. Nilai ini dihitung dari perubahan ekuitas harian, sehingga menunjukkan seberapa besar keuntungan yang diperoleh dibandingkan tingkat fluktuasi risikonya. Win rate menghitung persentase hari di mana perubahan ekuitas harian bernilai positif Jumlah Transaksi dan Turnover, aktivitas trading dievaluasi melalui: Jumlah transaksi non-nol . rekuensi buy/sel. Turnover, yaitu total jumlah unit saham yang diperdagangkan sepanjang periode uji. Metrik ini penting untuk menilai apakah kinerja tinggi dicapai dengan frekuensi transaksi yang wajar dan tidak Hasil dari trading bot adalah sebagai berikut: cumulative return 180%. Sharpe Ratio 1. win rate 55%, dan Transaction Trade 246. Untuk memberikan gambaran visual terhadap perilaku agen, dua jenis kurva utama ditampilkan: Grafik pertama yang ditunjukkan Gambar 1 menampilkan pergerakan harga saham pada periode uji, disertai penanda aksi beli dan jual yang dilakukan agen. Titik beli ditandai dengan simbol panah ke atas . arker ^), sedangkan titik jual dengan panah ke bawah . arker Visualisasi ini membantu perilaku keputusan agen, disini dapat terihat bahwa agen cenderung mengikuti tren walau masih bersifat terlalu aktif. DOI: https://doi. org/10. 38204/tematik. Lisensi: Creative Commons Attribution 4. 0 International (CC BY 4. Acep Hendra. Handoko Supeno Tematik : Jurnal Teknologi Informasi Komunikasi . -Journa. Vol. 12 No. Grafik kedua yang ditunjukkan Gambar 2 menampilkan kurva ekuitas portofolio agen QLearning dibandingkan dengan baseline buy-and-hold. Disini terlihat bahwa agen berhasil memberikan keuntungan 80% dari yang awalnya 100 menjadi 180. Gambar 1. Perilaku Agen Gambar 2. Performa Agen Model masih menggunakan quantile discretization sehingga informasi pasar yang kompleks tereduksi menjadi level-level diskrit. Hal ini dapat menyebabkan hilangnya pola halus . ine-grained pattern. pada harga dan volatilitas. Eksperimen hanya dilakukan pada satu aset . isal AAPL) dan tidak mempertimbangkan faktor ekonomi makro, sentimen berita, atau korelasi antar aset yang sering berpengaruh pada keputusan trading di dunia nyata. Biaya transaksi ditetapkan secara tetap, padahal kondisi nyata sangat bervariasi bergantung volatilitas, likuiditas, dan mekanisme pasar. Meskipun penelitian ini masih menggunakan Tabular Q-Learning, terdapat beberapa arah pengembangan yang dapat meningkatkan performa tanpa perlu beralih ke metode deep learning. Pada sisi representasi state, skema discretization yang saat ini statis dapat diganti dengan adaptive binning yang menyesuaikan lebar bin berdasarkan volatilitas atau distribusi harga, sehingga perubahan pola pasar dapat ditangkap lebih efektif tanpa menambah beban komputasi. Perbaikan lain dapat dilakukan pada mekanisme value update. Penggunaan Q() memungkinkan propagasi reward yang lebih cepat ke state sebelumnya, mempercepat konvergensi sekaligus perubahan harga, tetap dalam kerangka tabular yang Strategi eksplorasi juga dapat ditingkatkan. Pendekatan A-greedy yang digunakan saat ini dapat diganti dengan metode yang lebih adaptif seperti Upper Confidence Bound (UCB), yang lebih efisien dalam menyeimbangkan eksplorasi dan eksploitasi, terutama pada lingkungan pasar yang penuh noise dan reward yang jarang. Secara keseluruhan, kombinasi representasi state yang lebih adaptif, update nilai yang lebih efisien, dan eksplorasi yang lebih cerdas berpotensi meningkatkan performa Tabular Q-Learning secara signifikan, tetap dengan kompleksitas rendah dan relevan untuk aplikasi trading nyata. Kesimpulan Dari eksperimen ini, dapat disimpulkan bahwa pendekatan Tabular Q-Learning memiliki potensi untuk memberikan return yang cukup tinggi dibandingkan strategi pasif. Peningkatan kinerja berasal dari kemampuan Q-Learning ditambah dengan stabilisasi dari double Q learning, horizon pengamatan yang lebih luas dengan multi step, serta konvergensi yang lebih baik dengan prioritized update. Penggabungan beragam Teknik ini memungkinkan agen dapat menyesuaikan posisi berdasarkan pola harga dan indikator teknikal yang di-discretize, sehingga keputusan perdagangan lebih adaptif terhadap kondisi pasar yang berubah-ubah walaupun masih menggunakan teknik tabular yang ringan dan dapat diimplementasikan tanpa memerlukan GPU maupun kebutuhan sumber daya yang besar. Daftar Rujukan . Oshingbesan. Ajiboye. Kamashazi, and T. Mbaka. AuModel-Free Reinforcement Learning for Asset Allocation,Ay ArXiv Prepr. ArXiv220910458, 2022. Jang and N. Seong. AuDeep reinforcement learning for stock portfolio optimization by connecting with modern portfolio theory,Ay Expert Syst. Appl. , vol. 218, p. 119556, 2023. Otabek and J. Choi. AuMulti-level deep Q-networks for Bitcoin trading strategies,Ay Sci. Rep. , vol. 14, no. 1, p. DOI: https://doi. org/10. 38204/tematik. Lisensi: Creative Commons Attribution 4. 0 International (CC BY 4. Acep Hendra. Handoko Supeno Tematik : Jurnal Teknologi Informasi Komunikasi . -Journa. Vol. 12 No. Van Hasselt. Hado. Arthur Guez, and David Silver. "Deep reinforcement learning with double q-learning. " Proceedings of the aI conference on artificial intelligence. Vol. No. Mnih. Badia. Mirza. Graves. Lillicrap. Harley. , . & Kavukcuoglu. Jun. Asynchronous methods for deep reinforcement learning. In International conference on machine learning . PmLR. Gu and others. AuPro Trader RL: Reinforcement learning framework for generating trading knowledge by mimicking the decision-making patterns of professional traders,Ay Expert Syst. Appl. , vol. 254, p. 124465, 2024. Yasin and P. Gill. AuReinforcement Learning Framework for Quantitative Trading,Ay ArXiv Prepr. ArXiv241107585, 2024. Sun. AuReinforcement learning for financial trading: algorithms, evaluations and platforms,Ay 2024. Ridho. Fajrah, and F. Fifi. AuLiteratur Review: Penerapan Deep Reinforcement Learning Dalam Business Intelligence,Ay J. Desain Dan Anal. Teknol. , vol. 3, no. 2, pp. 96Ae103, 2024. Sari. Mustamin. Atnang. Fajar, and others. AuStudi Literatur Deep Learning dan Machine Learning untuk Analisis dan Prediksi Pasar Saham: Metodologi. Representasi Data, dan Studi Kasus,Ay J. Teknol. Dan Sains Mod. , vol. 1, pp. 19Ae28, 2024. Varela. AuAchilles. Neural Network to Predict the Gold Vs US Dollar Integration with Trading Bot for Automatic Trading,Ay ArXiv Prepr. ArXiv241021291, 2024. MEEoAC. AuReinforcement learning-based stock trading: training, evaluation and integration of an agent into a brokerage platform botAy. Mohammadshafie. Mirzaeinia. Jumakhan, and A. Mirzaeinia. AuDeep reinforcement learning strategies in finance: Insights into asset holding, trading behavior, and purchase diversity,Ay in World Congress in Computer Science. Computer Engineering & Applied Computing. Springer, 2024, pp. 449Ae463. Ramraj. Nagaraj, and others. AuPredicting Stock Prices using Permutation Decision Trees and Strategic Trailing,Ay ArXiv Prepr. ArXiv250412828, 2025. Praghaadeesh. Maniappan. Doss, and others. AuEnhancing Algorithmic Trading Strategies with Sentiment Analysis: A Reinforcement Learning Approach,Ay in 2024 Ie 3rd World Conference on Applied Intelligence and Computing (AIC). Ie, 2024, pp. 107Ae112. -Y. Liu et al. AuDynamic datasets and market environments for financial reinforcement learning,Ay Mach. Learn. , vol. 5, pp. 2795Ae2839, 2024. DOI: https://doi. org/10. 38204/tematik. Lisensi: Creative Commons Attribution 4. 0 International (CC BY 4.