아무것도 μ•ˆμ•Œλ €μ£Όκ³  일단 μ‹œλ„ν•΄λ³΄κ³  μ‹œν–‰μ°©μ˜€ κ²ͺμœΌλ©΄μ„œ μ‹€λ ₯을 ν‚€μ›Œλ‚˜κ°€κ²Œ ν•˜λŠ” λ°©λ²•μž„.

Agentκ°€ μ˜¬λ°”λ₯Έ 행동을 ν•˜λ©΄ 보상(rewards)을 μ£Όκ³ , λΆˆλ¦¬ν•œ 행동을 ν•˜λ©΄ λ²Œμ μ„ λΆ€μ—¬ν•΄μ€Œ.

μ΄λ ‡κ²Œ 행동 ν•˜λ‚˜ν•˜λ‚˜κ°€ μŒ“μ—¬μ„œ 보상이 μ΅œλŒ€ν™”κ°€ 되게 λ§Œλ“œλŠ” ν•™μŠ΅λ°©λ²•μž„.

 

Agentκ°€ μžμ‹ μ΄ μž˜ν•˜κ³  μžˆλŠ” 것인지, 잘 λͺ»ν•˜κ³  μžˆλŠ” 것인지 ν™•μ‹€ν•˜κ²Œ μ•Œμ•„μ•Όν•˜κΈ°μ— 무쑰건 scalar feedback을 해야함.

ex) +1, -3, +2.6, +2 ...

 

ν™˜κ²½μ— λŒ€ν•œ 사전지식이 μ—†λŠ” μƒνƒœλ‘œ ν•™μŠ΅μ΄ μ‹œμž‘λ˜κ³ , 보상을 ν†΅ν•˜μ—¬ ν•™μŠ΅μ„ 함. μ–΄λ– ν•œ 행동을 ν–ˆμ„ λ•Œ ν™˜κ²½μ΄ μ–΄λ–»κ²Œ λ°˜μ‘ν•˜λŠ”μ§€μ— λ”°λ₯Έ 보상이 주어짐.  μ–΄λ–»κ²Œ 보상이 μ΅œλŒ€ν™”κ°€ 될 수 μžˆλŠ”μ§€ ν•™μŠ΅μ„ ν•˜λŠ” 것이 κ°•ν™”ν•™μŠ΅.

 

 

μ–΄λ–»κ²Œ λŒμ•„κ°€λŠ”μ§€ 전체적인 λͺ¨μŠ΅

 

Agent : 주어진 문제 λ‚΄μ—μ„œ 행동을 ν•˜λŠ” 주체. 

 

State (μƒνƒœ) : ν˜„μž¬ μ‹œμ μ—μ„œ 상황이 어떀지 μ•Œλ €μ£ΌλŠ” κ°’. κ°€λŠ₯ν•œ λͺ¨λ“  μƒνƒœμ˜ 집합을 state space라고 뢀름. λ‹€μŒ 행동을 κ²°μ •ν•˜λŠ” 정보λ₯Ό ν™•μΈν•˜λŠ” 것이닀.

 

Markov state : λ°”λ‘œ 직전 State만 고렀함. μ§€κΈˆμ˜ μƒνƒœκ°€ μ€‘μš”ν•¨. κ³Όκ±°λŠ” 보지 μ•Šκ³  ν˜„μž¬μ˜ stateλ₯Ό λ³΄λ©΄μ„œ 결정함.

 

Action (행동) : agentκ°€ μ·¨ν•  수 μžˆλŠ” 선택지듀.

 

Reward (보상) : agentκ°€ μ–΄λ– ν•œ Action을 μ·¨ν•˜μ˜€μ„ λ•Œ λ”°λΌμ˜€λŠ” 보상. 

ν˜„μž¬ μƒνƒœμ™€ ν˜„μž¬ 행동에 λŒ€ν•΄μ„œλ§Œ ν‰κ°€ν•˜λŠ” 즉각적인 κ°’μž„. 

 

Policy (μ •μ±…) : μƒνƒœμ— λ”°λ₯Έ ν–‰λ™μ˜ 쑰건뢀 ν™•λ₯ . MDP(순차적 행동 κ²°μ •λ¬Έμ œ) μ—μ„œ ꡬ해야할 λ‹΅.

λͺ¨λ“  μƒνƒœμ— λŒ€ν•΄ agentκ°€ μ–΄λ–€ action을 μ·¨ν•΄μ•Όν•˜λŠ”μ§€ 정해놓은 것.

졜적의 μ •μ±…(Optimal Policy)λ₯Ό μ°Ύμ•„μ•Ό 함.

 

Environment (ν™˜κ²½) : agentκ°€ μ·¨ν•  수 μžˆλŠ” 행동에 λŒ€ν•΄ 보상을 μ£ΌλŠ” 문제 μ„ΈνŒ…. λŒ€λΆ€λΆ„μ˜ 정해진 것듀.

 

728x90
λ°˜μ‘ν˜•
Liky