티스토리 뷰

이전 글에서 우리는 좋은 모델을 만들기 위해 데이터를 적절히 분할하고, 과소적합과 과적합을 피하며, 모델의 복잡도와 데이터 특성을 균형 있게 조절해야 한다는 것을 살펴보았다. 그렇다면 이렇게 만들어진 모델이 정말 ‘좋은 모델’인지 어떻게 판단할 수 있을까요? 또, 성능을 어떻게 개선해나가야 할까? 이를 위해 필요한 것이 바로 모델 평가이다.

 

 

좋은 모델을 어떻게 평가할까?

모델 평가는 모델이 주어진 문제를 얼마나 잘 해결하는 지를 수치적으로 측정하는 과정이다. 분류 문제에서는 주로 정확도(Accuracy)를 사용하여 전체 샘플 중 정답을 맞힌 비율을 평가 지표로 사용한다. 그리고 회귀문제에서는 주로 결정계수(R2)를 사용하며, 이는 전체 데이터의 분산 중에서 모델이 설명할 수 있는 분산의 비율을 의미한다.

 

문제 유형에 따라 다른 평가 지표

사용할 평가 지표는 문제의 특성, 모델의 목적, 데이터의 분포 등에 따라 달라진다회귀 문제에서는 예측값과 실제값 사이의 차이를 줄이는 것이 핵심이다. 따라서  MSE(Mean Squared Error), MAE(Mean Absolute Error), RMSE(Root Mean Squared Error) 등 모두 실제 값과 예측 값의 차이를 나타내는 지표들을 사용한다. 

 

분류 문제에는 기본적으로 전체 데이터에서 클래스를 맞춘 비율, 즉 정확도(Accuracy)를 평가지표로 사용한다. 그러나 데이터 클래스에 불균형이 심한 경우, 정확도만으로 평가하기에 부족한 경우가 많다. 예를 들어, 코로나 검사 데이터 1,000건 중 확진자가 단 10명이라면, 전부 "음성"으로 예측해도 정확도는 99%에 달한다. 하지만 이 모델은 실제로 중요한 확진자를 하나도 잡아내지 못한 것이다. 이럴 때에는 정밀도(Precision), 재현율(Recall), F1 score, ROC-AUC 등을 사용한다.

 

마무리

모델의 성능을 올바르게 평가하기 위해서는 다음 요소들을 고려해야 한다.

  • 문제 유형(회귀/분류)
  • 데이터의 클래스 분포 (불균형 여부)
  • 모델의 목적(오류 최소화, 위험 탐지 등)
  • 평가지표의 특성과 해석 방법

단순히 숫자가 높은 지표만 찾기보다는, 문제의 본질에 맞는 평가 지표를 선택해야 정말 좋은 모델인지 판단할 수 있으며, 모델 개선의 방향도 구체화할 수 있다.

 

공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2026/02   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
글 보관함