
정책, 정책 함수 (Policy, Policy function) in MDP각 상태(state)에서 어떤 액션(action)을 선택할지 정해주는 함수를 정책 혹은 정책 함수라고 한다. 정책함수는 에이전트 안에 존재하며, 더 큰 보상을 얻기 위해 계속해서 정책을 교정해나간다.상태 가치 함수(state-value function) in MDP에이전트의 액션이 있으므로 agent의 정책 \(\pi\)에 따라서 return G가 달라진다. 즉, MDP의 value function은 정책 함수에 의존적이며, value function을 정의하기 위해서는 먼저 정책 함수 \(\pi\)가 정의되어야 한다. value function은 \(s\)부터 끝까지 \(\pi\)를 따라 움직일 때 얻는 리턴의 기댓값으로 정의..

의사결정트리 (Decision Tree) 란? 지도학습에 속하는 모델로, 분류와 회귀에 모두 사용 가능하다. 의사결정트리는 데이터에서 규칙을 자동으로 학습하여 이를 기반으로 트리 구조의 분류 규칙을 만든다. 쉽게 말해, 스무고개를 생각하면 쉽다. 일반적으로 가장 쉽게 표현하는 방법은 if/else 기반으로 나타내는 것이다. 의사결정트리의 기본 개념한 분기마다 변수 영역을 두 개로 구분한다. 이진트리의 개념으로 생각하면 된다.루트 노드 (Root Node): 트리의 시작점으로 전체 데이터를 포함하는 노드규칙 노드 (Internal Node): 나무 구조의 중간에 있는 노드끝 노드 (Leaf Node): 트리의 끝에 위치한 노드로 최종적으로 분류된 결과를 나타냄의사결정트리의 목표는 데이터를 잘 나눠서 lea..

강화학습은 순차적 의사결정 문제(sequential decision making)를 푸는 방법론이다. 문제를 잘 풀기 위해서는 문제를 잘 정의해야 한다. 따라서, 강화학습에서 문제를 정의할 때는 주어진 상황을 MDP (Markov Decision Process)의 형태로 변환해야 한다. MDP는 순차적 의사결정 문제를 수학적으로 정확하게 모델링하는 개념이다. MDP에 대해 자세히 알아보기 전에, 간단히 MP (Markov Process)와 MRP (Markov Reward Process)에 대해 설명하겠다.마르코프 성질 (markov property)마르코프 성질은 확률 과정(stochastic process)의 특수한 형태로, memoryless하다. 이는 과거에 일어났던 일들과 무관하게 현재의 상태만..

모델링(modeling) 머신러닝과 딥러닝의 기본적인 컨셉은 대용량의 데이터를 가지고 모델을 만들고, 이 모델을 통해 새로운 데이터를 예측하는 것이다. 과거의 데이터에서 패턴을 파악하여 이를 이용해 미래를 예측하고자 한다. 이러한 데이터 내 존재하는 관계, 패턴, 규칙 등을 탐색하여 하나의 모형으로 만드는 과정을 '모델링(modeling)'이라고 한다. 모델링은 데이터를 잘 설명하는 하나의 수식(\(y=f(x)\))을 생성해내는 것이라고도 할 수 있다. 손실 함수, 비용 함수, 목적 함수의 차이 그렇다면 내가 만든 모델이 잘 예측하고 있는 지 어떻게 알 수 있을 까? 모델이 잘 예측하고 있는 지 평가하기 위해 실제 데이터 값과 모델이 예측한 값 간의 차이를 측정하면 된다. 이를 '에러(Error)..

K-NN 알고리즘이란?유유상종이라는 속담은 K-NN 알고리즘을 설명하기 좋은 표현이다. K-NN 알고리즘은 머신러닝에서 데이터를 가장 가까운 유사 속성에 따라 분류하여 레이블링하는 알고리즘이다. 유유상종 : 같은 날개를 가진 새들끼리 함께 모인다즉, 비슷한 속성이나 특성을 가진 것들끼리 가깝게 모여있다는 개념을 기반으로 한다. K-NN 알고리즘은 데이터 포인트를 주변의 'k'개의 다른 데이터의 레이블을 참조하여 분류하는 알고리즘이다. 예를 들어, A라는 사람이 '영웅'이라는 특성을 가진 사람들과 가장 유사하다면, K-NN 알고리즘은 A를 '영웅'으로 분류할 것이다. 반대로 B라는 사람이 '빌런'과 유사한 속성을 가지고 있다면, B를 '빌런'으로 추정할 수 있다. K-NN은 간단한 알고리즘이지만 이미지..

강화학습 (Reinforcement Learning, RL) 은 무엇인가? 강화학습의 정의에 대해 살펴보기 전, 강화학습이 속해있는 Machine learning에 대해서 살펴보자.Machine Learning = Supervised + Unsupervised + Reinforcement learning으로 구성된다. Supervised learning (지도학습) : label이라는 정답 data를 가지고 있어 이로부터 즉각적인 feedback을 받으며 학습하는 것을 말한다. 현재의 data들을 바탕으로 미래를 예측하거나, 정답이 있는 결과를 맞추는데에 목적이 있다. ex) classification (분류), Regression (회귀)Unsupervised learning (비..
- Total
- Today
- Yesterday
- 11870
- 앤드류응
- NumPy
- baekjoon
- 비용함수
- Sort
- *
- action value function
- computation graph
- 숏코딩
- 딥러닝
- **kwargs
- omp: error #15
- numpy 배열 속성
- numpy 배열 생성
- policy function
- state value function
- 강의노트 정리
- 로지스틱 회귀
- sorted
- 강화학습
- 파이썬
- adrew ng 머신러닝 강의
- *args
- 백준
- 경사하강법
- **
- python
- 손실함수
- Andrew Ng
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |