
정책, 정책 함수 (Policy, Policy function) in MDP각 상태(state)에서 어떤 액션(action)을 선택할지 정해주는 함수를 정책 혹은 정책 함수라고 한다. 정책함수는 에이전트 안에 존재하며, 더 큰 보상을 얻기 위해 계속해서 정책을 교정해나간다.상태 가치 함수(state-value function) in MDP에이전트의 액션이 있으므로 agent의 정책 \(\pi\)에 따라서 return G가 달라진다. 즉, MDP의 value function은 정책 함수에 의존적이며, value function을 정의하기 위해서는 먼저 정책 함수 \(\pi\)가 정의되어야 한다. value function은 \(s\)부터 끝까지 \(\pi\)를 따라 움직일 때 얻는 리턴의 기댓값으로 정의..

강화학습은 순차적 의사결정 문제(sequential decision making)를 푸는 방법론이다. 문제를 잘 풀기 위해서는 문제를 잘 정의해야 한다. 따라서, 강화학습에서 문제를 정의할 때는 주어진 상황을 MDP (Markov Decision Process)의 형태로 변환해야 한다. MDP는 순차적 의사결정 문제를 수학적으로 정확하게 모델링하는 개념이다. MDP에 대해 자세히 알아보기 전에, 간단히 MP (Markov Process)와 MRP (Markov Reward Process)에 대해 설명하겠다.마르코프 성질 (markov property)마르코프 성질은 확률 과정(stochastic process)의 특수한 형태로, memoryless하다. 이는 과거에 일어났던 일들과 무관하게 현재의 상태만..

강화학습 (Reinforcement Learning, RL) 은 무엇인가? 강화학습의 정의에 대해 살펴보기 전, 강화학습이 속해있는 Machine learning에 대해서 살펴보자.Machine Learning = Supervised + Unsupervised + Reinforcement learning으로 구성된다. Supervised learning (지도학습) : label이라는 정답 data를 가지고 있어 이로부터 즉각적인 feedback을 받으며 학습하는 것을 말한다. 현재의 data들을 바탕으로 미래를 예측하거나, 정답이 있는 결과를 맞추는데에 목적이 있다. ex) classification (분류), Regression (회귀)Unsupervised learning (비..
- Total
- Today
- Yesterday
- 파이썬
- 손실함수
- 11870
- NumPy
- action value function
- 강의노트 정리
- Sort
- *args
- Andrew Ng
- 백준
- *
- omp: error #15
- computation graph
- sorted
- **kwargs
- **
- policy function
- 딥러닝
- 강화학습
- 로지스틱 회귀
- baekjoon
- state value function
- adrew ng 머신러닝 강의
- numpy 배열 생성
- 앤드류응
- 비용함수
- 경사하강법
- numpy 배열 속성
- 숏코딩
- python
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |