
정책, 정책 함수 (Policy, Policy function) in MDP각 상태(state)에서 어떤 액션(action)을 선택할지 정해주는 함수를 정책 혹은 정책 함수라고 한다. 정책함수는 에이전트 안에 존재하며, 더 큰 보상을 얻기 위해 계속해서 정책을 교정해나간다.상태 가치 함수(state-value function) in MDP에이전트의 액션이 있으므로 agent의 정책 \(\pi\)에 따라서 return G가 달라진다. 즉, MDP의 value function은 정책 함수에 의존적이며, value function을 정의하기 위해서는 먼저 정책 함수 \(\pi\)가 정의되어야 한다. value function은 \(s\)부터 끝까지 \(\pi\)를 따라 움직일 때 얻는 리턴의 기댓값으로 정의..
AI/강화학습 (Reinforcement Learning)
2024. 10. 2. 13:45
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- **
- 파이썬
- 비용함수
- 경사하강법
- state value function
- baekjoon
- numpy 배열 속성
- 딥러닝
- Andrew Ng
- 강화학습
- 백준
- omp: error #15
- sorted
- Sort
- 앤드류응
- NumPy
- *
- 강의노트 정리
- adrew ng 머신러닝 강의
- **kwargs
- *args
- numpy 배열 생성
- action value function
- 11870
- policy function
- 로지스틱 회귀
- computation graph
- python
- 손실함수
- 숏코딩
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
글 보관함