일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- deep daiv. project_paper
- deep daiv. week3 팀활동과제
- deep daiv. week4 팀활동과제
- deep daiv. 2주차 팀 활동 과제
- deep daiv. WIL
- Today
- Total
목록Study/RL (2)
OK ROCK
week 3 구성 :(1) Policy Iteration (2) Value Iteration (3) Dynamic Programming 中 Policy Iteratiion Review1-1. Policy EvaluationProblem : 임의의 policy가 주어진 채, state-value function v_π 를 계산하는 것 (Prediction문제)Solution : For all s ∈ S , 이렇게 반복을 통해 value function v_π를 계산하고 업데이트하는 것을 Iterative Policy Evaluation단계라고 한다. (예제) Evaluating a Random Policy in the Small Grid World상황 설정 :Episodic MDP(discount fact..
Week 2 Lecture Note 中 (주요결론 정리. 증명 생략) 0. Bellman Equation 이어서 정의할 가치함수(Value function)를 즉각 보상과 뒤따르는 보상의 합으로 풀어서 쓴 식을 의미합니다. 즉, 현재 state의 Value functon과 이후 state의 value function과의 관계식입니다. 1. Value-function for MRP 2. Value-function for MDP 각각의 식으로부터 Bellman Equation 형태로 나타내면 다음과 같이 파란 글씨로 표현 가능합니다. 3. Optimality Equation v(s) : State-Value Function q(s, a) : Action-Value Function G_t : Return(Ac..