Adaptive stock trading strategies with deep reinforcement learning methods
Wu, Xing, et al. "Adaptive stock trading strategies with deep reinforcement learning methods." Information Sciences 538 (2020): 142-158.
Highlights
- Gated Recurrent Unit is proposed to extract informative features from raw financial data.
- Reward function is designed with risk-adjusted ratio for trading strategies for stable returns in the volatile condition.
- Two adaptive stock trading strategies are proposed for quantitative stock trading.
- The system outperforms the Turtle trading strategy and achieve more stable returns.
Abstract
The increasing complexity and dynamical property in stock markets are key challenges of the financial industry, in which inflexible trading strategies designed by experienced financial practitioners fail to achieve satisfactory performance in all market conditions. To meet this challenge, adaptive stock trading strategies with deep reinforcement learning methods are proposed. For the time-series nature of stock market data, the Gated Recurrent Unit (GRU) is applied to extract informative financial features, which can represent the intrinsic characteristics of the stock market for adaptive trading decisions. Furthermore, with the tailored design of state and action spaces, two trading strategies with reinforcement learning methods are proposed as GDQN (Gated Deep Q-learning trading strategy) and GDPG (Gated Deterministic Policy Gradient trading strategy). To verify the robustness and effectiveness of GDQN and GDPG, they are tested both in the trending and in the volatile stock market from different countries. Experimental results show that the proposed GDQN and GDPG not only outperform the Turtle trading strategy but also achieve more stable returns than a state-of-the-art direct reinforcement learning method, DRL trading strategy, in the volatile stock market. As far as the GDQN and the GDPG are compared, experimental results demonstrate that the GDPG with an actor-critic framework is more stable than the GDQN with a critic-only framework in the ever-evolving stock market.
๋ณธ ๋
ผ๋ฌธ์์๋ GDQN(Gate Deep Q-Learning Trade Strategy)๊ณผ GDPG(Gate Decisionistic Policy Gradient Trade Strategy) ๋ฑ ๊ฐํํ์ต ๋ฐฉ์์ ๋ ๊ฐ์ง ๊ฑฐ๋์ ๋ต์ ์ ์ํ๋ ๋
ผ๋ฌธ์.
๊ฐ๊ตญ์ ๋ณ๋์ฑ์ด ํฐ ์ฃผ์์์ฅ์์ ๋ชจ๋ ํ
์คํธํ๋ค๊ณ ํด์ U.S / U.K / Chinese ์ฃผ์์ฅ์์ ํ
์คํธ ํ๋ค๊ณ ํจ.
์ ์๋ GDQN๊ณผ GDPG๋ ๋ณ๋์ฑ์ด ํฐ ์ฃผ์์์ฅ์์ ์ต์ฒจ๋จ ์ง์ ๊ฐํํ์ต ๋ฐฉ์์ธ DRL ํธ๋ ์ด๋ฉ ์ ๋ต๋ณด๋ค ์์ ์ ์ธ ์์ต๋ฅ ์ ๋ฌ์ฑํ๋ค๊ณ ํ๋ฉด์, ์กํฐ-ํฌ๋ฆฌํฑํ์ ๊ฐ์ถ ๊ตญ๋ด์ด์์ฐ(GDPG)์ด ๋นํ๊ฐ ์ ์ฉ ํ์ ๊ฐ์ถ ๊ตญ๋ด์ด์์ฐ(GDQN)๋ณด๋ค ์์ ์ ์ด๋ผ๋ ์คํ ๊ฒฐ๊ณผ๊ฐ ๋์๋ค๊ณ ํจ.
Deep Reinforcement Learning์ผ๋ก ์ ์ํ ์ฃผ์ ๊ฑฐ๋ ์ ๋ต ์ ์ํ๊ณ , ๋ฉ์ธ์ ์๋์ ๊ฐ๋ค๊ณ ํจ.
1. ์์ ๊ธ์ต ๋ฐ์ดํฐ์ ๊ธฐ์ ์งํ์์ ์ ๋ณด ํน์ง์ ์ถ์ถํด ์ฆ์ ํํ์ ๋ํ ์ ํ์ฑ๊ณผ ๊ฒฌ๊ณ ์ฑ์ ๋์ด์๋ ๊ฒ์ด GRU(Gate Recurrent Unit)๋ค.
2. ์๋ก์ด ๋ณด์ ๊ธฐ๋ฅ์ ๋ณ๋์ฑ์ด ํฐ ์ฃผ์์์ฅ์์๋ ์์ ์ ์ธ ์์ต์ ๋ณด์ฅํ๊ธฐ ์ํด ์ ์๋ GDQN๊ณผ GDPG ๊ฑฐ๋ ์ ๋ต์ ๋ํด ์ํ ์กฐ์ ๋น์จ์ ์ ์ฉํ ๊ฒ์ด๋ค.
3. ๊ตญ๊ฐ์ ํ๋๊ณต๊ฐ์ ๋ง์ถคํ ์ค๊ณ๋ก ์์ ์ฃผ์๊ฑฐ๋๋ฅผ ์ํ ์ ์ํ ์ฃผ์๊ฑฐ๋ ์ ๋ต GDQN๊ณผ GDPG ๋ ๊ฐ์ง๊ฐ ์ ์๋๋๋ฐ, ์ด๋ ํ์ต๋ฐฉ์์ด ๊ฐํ๋ ์ต์ฒจ๋จ ๊ฑฐ๋์ ๋ต์ธ DRL ๊ฑฐ๋์ ๋ต๋ณด๋ค Turtle๊ฑฐ๋ ์ ๋ต์ ๋ฅ๊ฐํ๊ณ ๋ณด๋ค ์์ ์ ์ธ ์์ต์ ๋ฌ์ฑํ๋ค.
๋ฅ ๋ฌ๋ ๋ฐฉ๋ฒ์ ์ฃผ์ ์์ฅ์ ์์ต๋ฅ ์ด๋ ์์ง์์ ์์ธกํ๋ ๋ฐ ํ์ฉ๋.
์๋ฅผ ๋ค์ด, Qiu et al. ์ด ๋
ผ๋ฌธ์์ ์ฃผ์ ์์ฅ์ ์ผ์ผ ๋ฐฉํฅ์ ์์ธกํ๊ธฐ ์ํด ์ ๊ฒฝ๋ง๊ณผ ์ฐจ์ ์ถ์ ๊ธฐ์ ์ ์กฐํฉ์ ํ์ฉํจ.
๊ทผ๋ฐ ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ๊ธ์ต ๋ฐ์ดํฐ์ ํน์ฑ์ ์ถฉ๋ถํ ํ์ฉํ์ง ๋ชปํ๊ณ ๋ณ๋์ฑ์ด ํฐ ์์ฅ์์ ๋ถ์์ ํ ์์ต๋ฅ ์ ๋ณด์.
์ด ๋ฐ์ดํฐ์๋ ๋ง์ ์์ ๋ ธ์ด์ฆ, ๋ถ์์ ํ ์์ง์ ๋ฑ ์๋นํ ๋ง์ด ์ ์์ ์ด์ง ์์ ์ํ๋ก ์ด์ด์ง๊ณ ์๋ค๊ณ ํจ.
๋ฐ์ดํฐ ๋
ธ์ด์ฆ ๋ฐ ๋ถํ์ค์ฑ์ ์ํํ๊ธฐ ์ํ ์ ์ํ ์ฃผ์ ๊ฑฐ๋ ์ ๋ต์ ๊ตฌ์ถํ๊ธฐ ์ํด ๊ธฐ์ ์งํ๋ฅผ ํ์ฉํ์ฌ ์ฃผ์ ์์ฅ ์ํฉ์ ๋ํ๋ด๊ณ , ๊ธ์ต ๋ฐ์ดํฐ์ ์๊ณ์ด ํน์ฑ๋ก ์ฃผ์ ์์ฅ์ ์์ ์์ค ํน์ฑ์ ์ถ์ถํ๊ธฐ ์ํด ๋ฅ ๋ฌ๋์ ์ ์ฉํจ.
๊ตฌ์ฒด์ ์ผ๋ก RNN(Recurrent Neural Network) ๊ณผ CNN(Convolutional Neural Network)์ ์ฌ์ฉํ์.
์ฅ๊ธฐ-๋จ๊ธฐ ๊ธฐ์ต(LSTM) ๊ฐ์ ์ํ๋ง ๋คํธ์ํฌ์ด๋ฉฐ ์๊ณ์ด ๋ชจ๋ธ๋ง ๋ฐ ์์ธก์ ํจ๊ณผ์ ์ธ ๊ฒ์ผ๋ก ์ ์ฆ๋์๋๋ฐ, ์ด LSTM์ ๋ณด๋ค ์ข์์ง ์ต๊ทผ์ ๋์์ GRU(gated recurrent unit)์ฌ์ ๋ณธ ๋ ผ๋ฌธ์์๋ ์ฃผ์ ๋ฐ์ดํฐ์ ์ ์ตํ ํน์ง์ ์ถ์ถํ๊ธฐ ์ํด GRU๋ฅผ ์ฌ์ฉํ ๊ฒ์ ์ ์ํจ.
ํ๊ณ๋ก๋ ์์ฅ์ ์์ง์์ ์ค๋ช ํ ์ ์๋๋ฐ ์์ฅ์ ์งํํ๋ ์ํ ์ด๋ฉด์ ํจํด์ด๋ ํน์ง์ ๋ฐํ ์๋ ์์.
GRU์๋ ์ ๋ฐ์ดํธ ๊ฒ์ดํธ์ ๋ฆฌ์ ๊ฒ์ดํธ๊ฐ ์์ผ๋ฉฐ,
๋ฆฌ์ ๊ฒ์ดํธ ๊ธฐ๋ฅ์ ์ด์ ์ฃผ์ ์์ฅ ์ ๋ณด๋ฅผ ์ผ๋ง๋ ๋ฌด์ํ ์ ์๋์ง ๊ฒฐ์ ํ๊ณ ์ ๋ฐ์ดํธ ๊ฒ์ดํธ ๊ธฐ๋ฅ์ ์จ๊ฒจ์ง ์ํ๋ฅผ ํ์ฌ ์ฃผ์ ์์ฅ์ผ๋ก ์ ๋ฐ์ดํธํ ์ง ์ฌ๋ถ๋ฅผ ์ ํํจ.
์ ๋ฐ์ดํธ ๊ฒ์ดํธ๋ ์ด์ ์๊ฐ์ ์์ฅ ํ๊ฒฝ ์ ๋ณด๋ฅผ ํ์ฌ ์ํ๋ก ๊ฐ์ ธ์ค๋ ์ ๋๋ฅผ ์ ์ดํ๋ โโ๋ฐ ์ฌ์ฉ๋๊ณ ์ ๋ฐ์ดํธ ๊ฒ์ดํธ์ ๊ฐ์ด ํด์๋ก ์ด์ ์๊ฐ์ ๋ ๋ง์ ์์ฅ ํ๊ฒฝ ์ ๋ณด๊ฐ ์ ์ ๋.
์ข์ ๊ฑฐ๋ ์ ๋ต์ ๋ชจ๋ ๋จ์ผ ๊ฑฐ๋์์ ์ต๋์ ์ด์ต์ ๋ด๋ ๊ฒ์ด ์๋๋ผ ๋๋ถ๋ถ์ ๊ฑฐ๋์์ ์ต๋์ ์ด์ต์ ๋ง๋ค์ด ์ฃผ์ ์์ฅ์์ ์ฅ๊ธฐ์ ์ธ ์ด์ต์ ๋ณด์ฅํ๋ ๊ฒ์.
์ ์๋ GDQN์ ์ฃผ์ ๊ฑฐ๋๋ฅผ ์ํ Critic-only๊ฐํ ํ์ต ๋ฐฉ๋ฒ์ด๋ฉฐ ์ฅ๊ธฐ์ ์ผ๋ก ์์ต์ ๋ด๊ธฐ ์ํด GDQN ์์ด์ ํธ์ ๋ชฉํ๋ ์ฃผ์ ์์ฅ ํ๊ฒฝ๊ณผ ์ํธ ์์ฉํ๊ณ ์ ์ ํ ์กฐ์น๋ฅผ ์ ํํ์ฌ ์ํ ์กฐ์ ์์ต์ ๊ทน๋ํํ๋ ๊ฒ์.
๊ทธ๋ฌ๋ ๊ธฐ์กด์ DQN ์ ์ผ๋ฐ์ ์ผ๋ก action-value๋ฅผ ๊ณผ๋ํ๊ฐํ๊ณ , ๊ฑฐ๋์ก์ด ๋ง์์๋ก ์ถ์ ์ค์ฐจ๊ฐ ์ปค์ ธ ์์ด์ ํธ๊ฐ ์ต์ ์ ์ ๋ต์ ์ฐพ๊ธฐ ์ด๋ ต๋ค๋ ๊ฒ์ด ์ ์ฆ๋์ด์, ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Q ๋คํธ์ํฌ์ ๋์ Q ๋คํธ์ํฌ ๋ผ๋ ๋ ๊ฐ์ ์ ๊ฒฝ๋ง์ ์์ฑํ๊ณ , Q ๋คํธ์ํฌ๋ ํ๋์ ์ ํํ๋ ๋ฐ ์ฌ์ฉํจ.