[논문리뷰] Adaptive stock trading strategies with deep reinforcement learning methods

2022. 3. 4. 23:51Artificial_Intelligence/Reinforcement Learning

Adaptive stock trading strategies with deep reinforcement learning methods

Wu, Xing, et al. "Adaptive stock trading strategies with deep reinforcement learning methods." Information Sciences 538 (2020): 142-158.

 

Highlights

- Gated Recurrent Unit is proposed to extract informative features from raw financial data.
- Reward function is designed with risk-adjusted ratio for trading strategies for stable returns in the volatile condition.
- Two adaptive stock trading strategies are proposed for quantitative stock trading.
- The system outperforms the Turtle trading strategy and achieve more stable returns.

 

Abstract

The increasing complexity and dynamical property in stock markets are key challenges of the financial industry, in which inflexible trading strategies designed by experienced financial practitioners fail to achieve satisfactory performance in all market conditions. To meet this challenge, adaptive stock trading strategies with deep reinforcement learning methods are proposed. For the time-series nature of stock market data, the Gated Recurrent Unit (GRU) is applied to extract informative financial features, which can represent the intrinsic characteristics of the stock market for adaptive trading decisions. Furthermore, with the tailored design of state and action spaces, two trading strategies with reinforcement learning methods are proposed as GDQN (Gated Deep Q-learning trading strategy) and GDPG (Gated Deterministic Policy Gradient trading strategy). To verify the robustness and effectiveness of GDQN and GDPG, they are tested both in the trending and in the volatile stock market from different countries. Experimental results show that the proposed GDQN and GDPG not only outperform the Turtle trading strategy but also achieve more stable returns than a state-of-the-art direct reinforcement learning method, DRL trading strategy, in the volatile stock market. As far as the GDQN and the GDPG are compared, experimental results demonstrate that the GDPG with an actor-critic framework is more stable than the GDQN with a critic-only framework in the ever-evolving stock market.

 

본 논문에서는 GDQN(Gate Deep Q-Learning Trade Strategy)과 GDPG(Gate Decisionistic Policy Gradient Trade Strategy) 등 강화학습 방식의 두 가지 거래전략을 제안하는 논문임.
각국의 변동성이 큰 주식시장에서 모두 테스트한다고 해서 U.S / U.K / Chinese 주식장에서 테스트 했다고함.
제안된 GDQN과 GDPG는 변동성이 큰 주식시장에서 최첨단 직접 강화학습 방식인 DRL 트레이딩 전략보다 안정적인 수익률을 달성했다고 하면서, 액터-크리틱틀을 갖춘 국내총생산(GDPG)이 비평가 전용 틀을 갖춘 국내총생산(GDQN)보다 안정적이라는 실험 결과가 나왔다고함.

GDQN과 GDPG의 딥러닝모듈

Deep Reinforcement Learning으로 적응형 주식 거래 전략 제안했고, 메인은 아래와 같다고함.

1. 원시 금융 데이터와 기술 지표에서 정보 특징을 추출해 증시 표현에 대한 정확성과 견고성을 높이자는 것이 GRU(Gate Recurrent Unit)다.

2. 새로운 보상 기능은 변동성이 큰 주식시장에서도 안정적인 수익을 보장하기 위해 제안된 GDQN과 GDPG 거래 전략에 대해 위험 조정 비율을 적용한 것이다.

3. 국가와 행동공간의 맞춤형 설계로 양적 주식거래를 위한 적응형 주식거래 전략 GDQN과 GDPG 두 가지가 제시되는데, 이는 학습방식이 강화된 최첨단 거래전략인 DRL 거래전략보다 Turtle거래 전략을 능가하고 보다 안정적인 수익을 달성한다.

GDQN의 신경망 구조
GDPG의 Framework

딥 러닝 방법은 주식 시장의 수익률이나 움직임을 예측하는 데 활용됌.
예를 들어, Qiu et al. 이 논문에서 주식 시장의 일일 방향을 예측하기 위해 신경망과 차원 축소 기술의 조합을 활용함.

 

근데 기존 연구들은 금융 데이터의 특성을 충분히 활용하지 못하고 변동성이 큰 시장에서 불안정한 수익률을 보임.

이 데이터에는 많은 양의 노이즈, 불안정한 움직임 등 상당히 많이 정상적이지 않은 상태로 이어지고 있다고함.

데이터 노이즈 및 불확실성을 완화하기 위한 적응형 주식 거래 전략을 구축하기 위해 기술 지표를 활용하여 주식 시장 상황을 나타내고, 금융 데이터의 시계열 특성로 주식 시장의 상위 수준 특성을 추출하기 위해 딥 러닝을 적용함.
구체적으로 RNN(Recurrent Neural Network) 과 CNN(Convolutional Neural Network)을 사용했음.

장기-단기 기억(LSTM) 같은 순환망 네트워크이며 시계열 모델링 및 예측에 효과적인 것으로 입증되었는데, 이 LSTM에 보다 좋아진 최근의 대안은 GRU(gated recurrent unit)여서 본 논문에서는 주식 데이터의 유익한 특징을 추출하기 위해 GRU를 사용할 것을 제안함.

 

한계로는 시장의 움직임은 설명할수 있는데 시장의 진화하는 상태 이면의 패턴이나 특징을 밝힐 수는 없음.

 

GRU에는 업데이트 게이트와 리셋 게이트가 있으며,

리셋 게이트 기능은 이전 주식 시장 정보를 얼마나 무시할 수 있는지 결정하고 업데이트 게이트 기능은 숨겨진 상태를 현재 주식 시장으로 업데이트할지 여부를 선택함.

업데이트 게이트는 이전 순간의 시장 환경 정보를 현재 상태로 가져오는 정도를 제어하는 ​​데 사용되고 업데이트 게이트의 값이 클수록 이전 순간에 더 많은 시장 환경 정보가 유입됌.

좋은 거래 전략은 모든 단일 거래에서 최대의 이익을 내는 것이 아니라 대부분의 거래에서 최대의 이익을 만들어 주식 시장에서 장기적인 이익을 보장하는 것임.

제안된 GDQN은 주식 거래를 위한 Critic-only강화 학습 방법이며 장기적으로 수익을 내기 위해 GDQN 에이전트의 목표는 주식 시장 환경과 상호 작용하고 적절한 조치를 선택하여 위험 조정 수익을 극대화하는 것임.

그러나 기존의 DQN 은 일반적으로 action-value를 과대평가하고, 거래액이 많을수록 추정 오차가 커져 에이전트가 최적의 전략을 찾기 어렵다는 것이 입증되어서, 이 문제를 해결하기 위해 Q 네트워크와 대상 Q 네트워크 라는 두 개의 신경망을 생성하고, Q 네트워크는 행동을 선택하는 데 사용함.

 

GDPG 네트워크 구조

 

728x90