[논문리뷰]Multi-DQN An ensemble of Deep Q-learning agents for stock market forecasting

2022. 2. 20. 20:22Artificial_Intelligence/Reinforcement Learning

Multi-DQN An ensemble of Deep Q-learning agents for stock market forecasting

Carta, Salvatore, et al. "Multi-DQN: An ensemble of Deep Q-learning agents for stock market forecasting." Expert systems with applications 164 (2021): 113820.

 

주요 하이라이트

  • A novel ensembling methodology of RL agents with different training experiences.
  • Validation of such ensemble in intraday stock market trading.
  • Different combinations of ensemble decisions in stock markets.
  • Validation in different markets and periods of trading.
  • A multi-resolution feature set, which captures data prices at multiple time frames.

 

Abstract

주식 시장 예측은 애초 과거 데이터가 노이즈가 많고 불안정하기 때문에 기계 학습에서 가장 어려운 응용 중에 하나임.

기존 접근 방식에서는 훈련 데이터를 상승장, 하락장으로 분류하면서 지도학습을 때려버리는데,

주식장은 다른 시장 동향, 정치적인 여러 사건같이 여러 외부 요인과도 밀접하게 관련있고 의존하기에 과적합 현상이 많이 발생함.

본 논문에서는 상승장, 하락장 안따지고 모델 훈련 단계에서 리워드 반환을 극대화하는 방법으로 학습하는 강화학습 접근법을 앙상블 해서 사용하고자 했고, 여러 문제들을 최소화하는 것을 목표로 한다고함.

이 목표를 이루기위해서 동일한 훈련 데이터셋으로 여러 번 훈련된 QL 에이전트를 앙상블 해서 활용함.

결과로 보면 주식 품목을 매수하고 존버하는 Buy and Hold 전략보다 더 나은 결과가 나왔다고함.

 

논문 내용

대부분의 논문에서는 TA 접근법으로 주식 시장의 예측 문제를 분류 문제로 접근함.

근데 Abstract에서 말했다 싶이 데이터가 혼란스럽고 비선형적인걸 고려 안하고 과거 데이터만 보기에 어려움이 있음.

이 논문에서 예측 회귀 접근 방식에서 거래 비용 고려하는게 어렵고 예측할 때 이전 결정 사용안한다고 말하고

이 논문에서는 RL 접근방식이 성공적으로 검증 되긴 했는데 앙상블을 쓰진 않아서 본 논문에서 앙상블 하고자 한 것 같음.

 

즉, 본 논문에서는 서로 다른 모델로 학습해서 멀티 에이전트들을 앙상블 하는 DQL 전략을 사용하였고, 다양한 결정 조합을 고려해서 실험하고 괜찮아보이는 조합으로 분석해보는 작업도 한다고함.

3개중 하나 행동 정해서 하는거임.

  • 구매하고 종가전에 판매
  • 매도한 다음에 시장마감전에 매수
  • 하루동안 투자X

가격 상승 or 하락 여부에 따라 
상승할것같으면 long action 취하고
하락할거같으면 short action 취하고
확신안되고 가격 안변할거같으면 아무것도 X

 

심층 강화 학습 에이전트 제안된 앙상블 모델.

환경 보고 여러번 반복을 수행해서, 학습한 멀티 에이전트들이 여러 조합중에 선택해서 주식 거래를 수행함.

여기서 결정 임계값이라고 부르는 결정을 하기위한 조건을 따르게됌.

본 논문에서 제안된 다중 DQN 에이전트의 신경망 아키텍처.

이런식으로 이루어짐.

 


멀티 에이전트를 이용해서 앙상블 모델 만들어서 거래하면 어떨까 하는 논문.

long, short, opt-out 3개의 action을 조합하여 비교분석함.(매도, 매수, 투자X)

DQL써서 앙상블모델 만들고 네트워크 LSTM으로 씀.

only long 에이전트는 상승장에서 괜찮은 성과나오고 long+short 에이전트는 하락장에서 좋음.

 

접근법상 과거 가격 데이터만 쓰기기에 여기서는 뉴스데이터 기반 분석이 추가로 필요하다고함

 

이를 LSTM 네트워크를 다르게 바꾸거나 하이퍼 파라미터 성능을 높이면 좋을듯

 
728x90