Multi-DQN An ensemble of Deep Q-learning agents for stock market forecasting
Carta, Salvatore, et al. "Multi-DQN: An ensemble of Deep Q-learning agents for stock market forecasting." Expert systems with applications 164 (2021): 113820.
์ฃผ์ ํ์ด๋ผ์ดํธ
- A novel ensembling methodology of RL agents with different training experiences.
- Validation of such ensemble in intraday stock market trading.
- Different combinations of ensemble decisions in stock markets.
- Validation in different markets and periods of trading.
- A multi-resolution feature set, which captures data prices at multiple time frames.
Abstract
์ฃผ์ ์์ฅ ์์ธก์ ์ ์ด ๊ณผ๊ฑฐ ๋ฐ์ดํฐ๊ฐ ๋ ธ์ด์ฆ๊ฐ ๋ง๊ณ ๋ถ์์ ํ๊ธฐ ๋๋ฌธ์ ๊ธฐ๊ณ ํ์ต์์ ๊ฐ์ฅ ์ด๋ ค์ด ์์ฉ ์ค์ ํ๋์.
๊ธฐ์กด ์ ๊ทผ ๋ฐฉ์์์๋ ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ์์น์ฅ, ํ๋ฝ์ฅ์ผ๋ก ๋ถ๋ฅํ๋ฉด์ ์ง๋ํ์ต์ ๋๋ ค๋ฒ๋ฆฌ๋๋ฐ,
์ฃผ์์ฅ์ ๋ค๋ฅธ ์์ฅ ๋ํฅ, ์ ์น์ ์ธ ์ฌ๋ฌ ์ฌ๊ฑด๊ฐ์ด ์ฌ๋ฌ ์ธ๋ถ ์์ธ๊ณผ๋ ๋ฐ์ ํ๊ฒ ๊ด๋ จ์๊ณ ์์กดํ๊ธฐ์ ๊ณผ์ ํฉ ํ์์ด ๋ง์ด ๋ฐ์ํจ.
๋ณธ ๋ ผ๋ฌธ์์๋ ์์น์ฅ, ํ๋ฝ์ฅ ์๋ฐ์ง๊ณ ๋ชจ๋ธ ํ๋ จ ๋จ๊ณ์์ ๋ฆฌ์๋ ๋ฐํ์ ๊ทน๋ํํ๋ ๋ฐฉ๋ฒ์ผ๋ก ํ์ตํ๋ ๊ฐํํ์ต ์ ๊ทผ๋ฒ์ ์์๋ธ ํด์ ์ฌ์ฉํ๊ณ ์ ํ๊ณ , ์ฌ๋ฌ ๋ฌธ์ ๋ค์ ์ต์ํํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค๊ณ ํจ.
์ด ๋ชฉํ๋ฅผ ์ด๋ฃจ๊ธฐ์ํด์ ๋์ผํ ํ๋ จ ๋ฐ์ดํฐ์ ์ผ๋ก ์ฌ๋ฌ ๋ฒ ํ๋ จ๋ QL ์์ด์ ํธ๋ฅผ ์์๋ธ ํด์ ํ์ฉํจ.
๊ฒฐ๊ณผ๋ก ๋ณด๋ฉด ์ฃผ์ ํ๋ชฉ์ ๋งค์ํ๊ณ ์กด๋ฒํ๋ Buy and Hold ์ ๋ต๋ณด๋ค ๋ ๋์ ๊ฒฐ๊ณผ๊ฐ ๋์๋ค๊ณ ํจ.
๋ ผ๋ฌธ ๋ด์ฉ
๋๋ถ๋ถ์ ๋ ผ๋ฌธ์์๋ TA ์ ๊ทผ๋ฒ์ผ๋ก ์ฃผ์ ์์ฅ์ ์์ธก ๋ฌธ์ ๋ฅผ ๋ถ๋ฅ ๋ฌธ์ ๋ก ์ ๊ทผํจ.
๊ทผ๋ฐ Abstract์์ ๋งํ๋ค ์ถ์ด ๋ฐ์ดํฐ๊ฐ ํผ๋์ค๋ฝ๊ณ ๋น์ ํ์ ์ธ๊ฑธ ๊ณ ๋ ค ์ํ๊ณ ๊ณผ๊ฑฐ ๋ฐ์ดํฐ๋ง ๋ณด๊ธฐ์ ์ด๋ ค์์ด ์์.
์ด ๋ ผ๋ฌธ์์ ์์ธก ํ๊ท ์ ๊ทผ ๋ฐฉ์์์ ๊ฑฐ๋ ๋น์ฉ ๊ณ ๋ คํ๋๊ฒ ์ด๋ ต๊ณ ์์ธกํ ๋ ์ด์ ๊ฒฐ์ ์ฌ์ฉ์ํ๋ค๊ณ ๋งํ๊ณ
์ด ๋ ผ๋ฌธ์์๋ RL ์ ๊ทผ๋ฐฉ์์ด ์ฑ๊ณต์ ์ผ๋ก ๊ฒ์ฆ ๋๊ธด ํ๋๋ฐ ์์๋ธ์ ์ฐ์ง ์์์ ๋ณธ ๋ ผ๋ฌธ์์ ์์๋ธ ํ๊ณ ์ ํ ๊ฒ ๊ฐ์.
์ฆ, ๋ณธ ๋ ผ๋ฌธ์์๋ ์๋ก ๋ค๋ฅธ ๋ชจ๋ธ๋ก ํ์ตํด์ ๋ฉํฐ ์์ด์ ํธ๋ค์ ์์๋ธ ํ๋ DQL ์ ๋ต์ ์ฌ์ฉํ์๊ณ , ๋ค์ํ ๊ฒฐ์ ์กฐํฉ์ ๊ณ ๋ คํด์ ์คํํ๊ณ ๊ด์ฐฎ์๋ณด์ด๋ ์กฐํฉ์ผ๋ก ๋ถ์ํด๋ณด๋ ์์ ๋ ํ๋ค๊ณ ํจ.
3๊ฐ์ค ํ๋ ํ๋ ์ ํด์ ํ๋๊ฑฐ์.
- ๊ตฌ๋งคํ๊ณ ์ข ๊ฐ์ ์ ํ๋งค
- ๋งค๋ํ ๋ค์์ ์์ฅ๋ง๊ฐ์ ์ ๋งค์
- ํ๋ฃจ๋์ ํฌ์X
๊ฐ๊ฒฉ ์์น or ํ๋ฝ ์ฌ๋ถ์ ๋ฐ๋ผ
์์นํ ๊ฒ๊ฐ์ผ๋ฉด long action ์ทจํ๊ณ
ํ๋ฝํ ๊ฑฐ๊ฐ์ผ๋ฉด short action ์ทจํ๊ณ
ํ์ ์๋๊ณ ๊ฐ๊ฒฉ ์๋ณํ ๊ฑฐ๊ฐ์ผ๋ฉด ์๋ฌด๊ฒ๋ X
์ฌ์ธต ๊ฐํ ํ์ต ์์ด์ ํธ ์ ์๋ ์์๋ธ ๋ชจ๋ธ.
ํ๊ฒฝ ๋ณด๊ณ ์ฌ๋ฌ๋ฒ ๋ฐ๋ณต์ ์ํํด์, ํ์ตํ ๋ฉํฐ ์์ด์ ํธ๋ค์ด ์ฌ๋ฌ ์กฐํฉ์ค์ ์ ํํด์ ์ฃผ์ ๊ฑฐ๋๋ฅผ ์ํํจ.
์ฌ๊ธฐ์ ๊ฒฐ์ ์๊ณ๊ฐ์ด๋ผ๊ณ ๋ถ๋ฅด๋ ๊ฒฐ์ ์ ํ๊ธฐ์ํ ์กฐ๊ฑด์ ๋ฐ๋ฅด๊ฒ๋.
๋ณธ ๋ ผ๋ฌธ์์ ์ ์๋ ๋ค์ค DQN ์์ด์ ํธ์ ์ ๊ฒฝ๋ง ์ํคํ ์ฒ.
์ด๋ฐ์์ผ๋ก ์ด๋ฃจ์ด์ง.
๋ฉํฐ ์์ด์ ํธ๋ฅผ ์ด์ฉํด์ ์์๋ธ ๋ชจ๋ธ ๋ง๋ค์ด์ ๊ฑฐ๋ํ๋ฉด ์ด๋จ๊น ํ๋ ๋ ผ๋ฌธ.
long, short, opt-out ์ด 3๊ฐ์ action์ ์กฐํฉํ์ฌ ๋น๊ต๋ถ์ํจ.(๋งค๋, ๋งค์, ํฌ์X)
DQL์จ์ ์์๋ธ๋ชจ๋ธ ๋ง๋ค๊ณ ๋คํธ์ํฌ LSTM์ผ๋ก ์.
only long ์์ด์ ํธ๋ ์์น์ฅ์์ ๊ด์ฐฎ์ ์ฑ๊ณผ๋์ค๊ณ long+short ์์ด์ ํธ๋ ํ๋ฝ์ฅ์์ ์ข์.
์ ๊ทผ๋ฒ์ ๊ณผ๊ฑฐ ๊ฐ๊ฒฉ ๋ฐ์ดํฐ๋ง ์ฐ๊ธฐ๊ธฐ์ ์ฌ๊ธฐ์๋ ๋ด์ค๋ฐ์ดํฐ ๊ธฐ๋ฐ ๋ถ์์ด ์ถ๊ฐ๋ก ํ์ํ๋ค๊ณ ํจ
์ด๋ฅผ LSTM ๋คํธ์ํฌ๋ฅผ ๋ค๋ฅด๊ฒ ๋ฐ๊พธ๊ฑฐ๋ ํ์ดํผ ํ๋ผ๋ฏธํฐ ์ฑ๋ฅ์ ๋์ด๋ฉด ์ข์๋ฏ