μ무κ²λ μμλ €μ£Όκ³ μΌλ¨ μλν΄λ³΄κ³ μνμ°©μ€ κ²ͺμΌλ©΄μ μ€λ ₯μ ν€μλκ°κ² νλ λ°©λ²μ.
Agentκ° μ¬λ°λ₯Έ νλμ νλ©΄ 보μ(rewards)μ μ£Όκ³ , λΆλ¦¬ν νλμ νλ©΄ λ²μ μ λΆμ¬ν΄μ€.
μ΄λ κ² νλ νλνλκ° μμ¬μ 보μμ΄ μ΅λνκ° λκ² λ§λλ νμ΅λ°©λ²μ.
Agentκ° μμ μ΄ μνκ³ μλ κ²μΈμ§, μ λͺ»νκ³ μλ κ²μΈμ§ νμ€νκ² μμμΌνκΈ°μ 무쑰건 scalar feedbackμ ν΄μΌν¨.
ex) +1, -3, +2.6, +2 ...
νκ²½μ λν μ¬μ μ§μμ΄ μλ μνλ‘ νμ΅μ΄ μμλκ³ , 보μμ ν΅νμ¬ νμ΅μ ν¨. μ΄λ ν νλμ νμ λ νκ²½μ΄ μ΄λ»κ² λ°μνλμ§μ λ°λ₯Έ 보μμ΄ μ£Όμ΄μ§. μ΄λ»κ² 보μμ΄ μ΅λνκ° λ μ μλμ§ νμ΅μ νλ κ²μ΄ κ°ννμ΅.
Agent : μ£Όμ΄μ§ λ¬Έμ λ΄μμ νλμ νλ 주체.
State (μν) : νμ¬ μμ μμ μν©μ΄ μ΄λ€μ§ μλ €μ£Όλ κ°. κ°λ₯ν λͺ¨λ μνμ μ§ν©μ state spaceλΌκ³ λΆλ¦. λ€μ νλμ κ²°μ νλ μ 보λ₯Ό νμΈνλ κ²μ΄λ€.
Markov state : λ°λ‘ μ§μ Stateλ§ κ³ λ €ν¨. μ§κΈμ μνκ° μ€μν¨. κ³Όκ±°λ λ³΄μ§ μκ³ νμ¬μ stateλ₯Ό 보면μ κ²°μ ν¨.
Action (νλ) : agentκ° μ·¨ν μ μλ μ νμ§λ€.
Reward (보μ) : agentκ° μ΄λ ν Actionμ μ·¨νμμ λ λ°λΌμ€λ 보μ.
νμ¬ μνμ νμ¬ νλμ λν΄μλ§ νκ°νλ μ¦κ°μ μΈ κ°μ.
Policy (μ μ± ) : μνμ λ°λ₯Έ νλμ μ‘°κ±΄λΆ νλ₯ . MDP(μμ°¨μ νλ κ²°μ λ¬Έμ ) μμ ꡬν΄μΌν λ΅.
λͺ¨λ μνμ λν΄ agentκ° μ΄λ€ actionμ μ·¨ν΄μΌνλμ§ μ ν΄λμ κ².
μ΅μ μ μ μ± (Optimal Policy)λ₯Ό μ°ΎμμΌ ν¨.
Environment (νκ²½) : agentκ° μ·¨ν μ μλ νλμ λν΄ λ³΄μμ μ£Όλ λ¬Έμ μΈν . λλΆλΆμ μ ν΄μ§ κ²λ€.