데이터 불균형이란?데이터 불균형은 머신러닝 모델을 훈련할 때 특정 클래스의 데이터 개수가 다른 클래스에 비해 현저히 적거나 많은 경우를 말합니다. 주로 분류(classification) 문제에서 발생하며, 모델이 데이터가 많은 클래스에 편향되어 학습하는 문제가 생깁니다.예를 들어 금융 사기 탐지 모델인 경우, 정상 거래에 비해 사기 거래가 현저히 적으므로 모델이 사기 거래를 거의 탐지하지 못하는 경우가 있습니다. 불균형 데이터에서 다수를 차지하는 범주를 ‘다수 범주(majority class)’라고 하고, 적은 수를 차지하는 범주는 ‘소수 범주 (minority class)’ 라고 합니다. 해결 방법1. 샘플링 방법 ✅ 언더샘플링(Undersampling)데이터가 많은 클래스의 샘플 수를 줄여 균형을 맞..