Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- deep daiv. WIL
- deep daiv. 2주차 팀 활동 과제
- deep daiv. week3 팀활동과제
- deep daiv. project_paper
- deep daiv. week4 팀활동과제
Archives
- Today
- Total
OK ROCK
[RL] Bellman Equation 본문
Week 2 Lecture Note 中
(주요결론 정리. 증명 생략)
0. Bellman Equation
이어서 정의할 가치함수(Value function)를 즉각 보상과 뒤따르는 보상의 합으로 풀어서 쓴 식을 의미합니다.
즉, 현재 state의 Value functon과 이후 state의 value function과의 관계식입니다.
1. Value-function for MRP
2. Value-function for MDP
각각의 식으로부터 Bellman Equation 형태로 나타내면 다음과 같이 파란 글씨로 표현 가능합니다.
3. Optimality Equation
v(s) : State-Value Function
q(s, a) : Action-Value Function
G_t : Return(Accumulation of Rewards)
P_ss' : State Trasition Probability(Matrix)
'Study > RL' 카테고리의 다른 글
[RL] Policy Iteration (0) | 2023.09.23 |
---|