OK ROCK

[RL] Bellman Equation 본문

Study/RL

[RL] Bellman Equation

서졍 2023. 9. 23. 12:22

Week 2 Lecture Note 中

(주요결론 정리. 증명 생략)

0. Bellman Equation

이어서 정의할 가치함수(Value function)를 즉각 보상과 뒤따르는 보상의 합으로 풀어서 쓴 식을 의미합니다.

즉, 현재 state의 Value functon과 이후 state의 value function과의 관계식입니다.

 

1. Value-function for MRP


2. Value-function for MDP

Policy를 도입한 State-value function 유도 (line 3 => 4 아직 이해안됨)
Policy를 도입한 Action-value function 유도 (마찬가지)

 

각각의 식으로부터 Bellman Equation 형태로 나타내면 다음과 같이 파란 글씨로 표현 가능합니다.

파란 글씨 형태(Bellman equation)로 유도가 된다


3. Optimality Equation

마찬가지로 파란 글씨처럼 유도가 된다


v(s) : State-Value Function

q(s, a) : Action-Value Function

G_t : Return(Accumulation of Rewards)

P_ss' : State Trasition Probability(Matrix)

'Study > RL' 카테고리의 다른 글

[RL] Policy Iteration  (0) 2023.09.23