Study/RL
[RL] Bellman Equation
서졍
2023. 9. 23. 12:22
Week 2 Lecture Note 中
(주요결론 정리. 증명 생략)
0. Bellman Equation
이어서 정의할 가치함수(Value function)를 즉각 보상과 뒤따르는 보상의 합으로 풀어서 쓴 식을 의미합니다.
즉, 현재 state의 Value functon과 이후 state의 value function과의 관계식입니다.
1. Value-function for MRP
2. Value-function for MDP
각각의 식으로부터 Bellman Equation 형태로 나타내면 다음과 같이 파란 글씨로 표현 가능합니다.
3. Optimality Equation
v(s) : State-Value Function
q(s, a) : Action-Value Function
G_t : Return(Accumulation of Rewards)
P_ss' : State Trasition Probability(Matrix)