[RL] Bellman Equation

Study/RL

서졍 2023. 9. 23. 12:22

Week 2 Lecture Note 中

(주요결론 정리. 증명 생략)

이어서 정의할 가치함수(Value function)를 즉각 보상과 뒤따르는 보상의 합으로 풀어서 쓴 식을 의미합니다.

즉, 현재 state의 Value functon과 이후 state의 value function과의 관계식입니다.

각각의 식으로부터 Bellman Equation 형태로 나타내면 다음과 같이 파란 글씨로 표현 가능합니다.

v(s) : State-Value Function

q(s, a) : Action-Value Function

G_t : Return(Accumulation of Rewards)

P_ss' : State Trasition Probability(Matrix)

저작자표시 (새창열림)