티스토리 뷰
AI/강화학습 (Reinforcement Learning)
[RL 강화학습] 정책과 2가지 가치 함수: Policy, Value function
Life4AI 2024. 10. 2. 13:45정책, 정책 함수 (Policy, Policy function) in MDP
각 상태(state)에서 어떤 액션(action)을 선택할지 정해주는 함수를 정책 혹은 정책 함수라고 한다.

정책함수는 에이전트 안에 존재하며, 더 큰 보상을 얻기 위해 계속해서 정책을 교정해나간다.

상태 가치 함수(state-value function) in MDP
에이전트의 액션이 있으므로 agent의 정책 \(\pi\)에 따라서 return G가 달라진다. 즉, MDP의 value function은 정책 함수에 의존적이며, value function을 정의하기 위해서는 먼저 정책 함수 \(\pi\)가 정의되어야 한다.

value function은 \(s\)부터 끝까지 \(\pi\)를 따라 움직일 때 얻는 리턴의 기댓값으로 정의된다.
액션 가치 함수 (action-value function) in MDP
각 상태에서 액션을 평가하는, 액션에 대한 가치를 평가하는 함수이다.

\(s\)에서 \(a\)를 선택하고, 그 이후에 쭉 \(\pi\)를 따라 움직일 때 얻는 리턴의 기대값이다.
- 상태 가치 함수 (state value function) : 상태 \(s\)에서 정책 \(\pi\)가 액션 \(a\)을 선택
- 액션 가치 함수 (action value function) : 상태 \(s\)에서 강제로 액션 \(a\)을 선택
상태 가치 함수(state-value function) in MRP
MDP에서의 value function과 달리, 에이전트의 액션이 없으므로, 상태 \(s\)에서 그 시점으로부터 미래에 일어날 보상을 기댓값을 사용하여 value를 계산한다.

'AI > 강화학습 (Reinforcement Learning)' 카테고리의 다른 글
[RL 강화학습] Markov Process, Markov Reward Process, Markov Decision Process 개념 (0) | 2024.07.03 |
---|---|
[RL 강화학습] 강화학습이란? (0) | 2024.05.20 |
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 경사하강법
- policy function
- baekjoon
- 비용함수
- **
- computation graph
- 11870
- numpy 배열 속성
- 숏코딩
- **kwargs
- 백준
- sorted
- Andrew Ng
- Sort
- action value function
- 강의노트 정리
- *
- numpy 배열 생성
- omp: error #15
- 강화학습
- state value function
- adrew ng 머신러닝 강의
- 손실함수
- *args
- python
- NumPy
- 앤드류응
- 로지스틱 회귀
- 딥러닝
- 파이썬
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
글 보관함