Zzong's Notes

Home

❯

machine_learning

❯

overfitting

overfitting

2026년 6월 14일1 min read

Overfitting 이란

모델이 특정 데이터 셋에 과도하게 적합된 것을 의미

B) Overfitting 문제를 완화하기 위한 접근들

  1. 더 많은 training data
  2. Data Augmentation
  3. regularization
  4. dropout
  5. Early Stopping

C) Related

D) References


링크된 언급

10
AdaBoost

... 를 기반으로 올바른 분류를 수행할 수 있다. C) 평가 AdaBoost 는 잘 동작하지만 왜 잘 동작하는지 설명하기는 어렵다. 일부는 silver bullet 으로 이해하지만, 단순히 overfitting 되었다는 평가도 많다. 특히 데이터의 outlier 가 많은 경우에 overfitting 문제에 더 취약하다. 이런 약점에 대응하기 위해 AdaBoost 대신 GBM 을 사용할 수 있다...

autoencoder

...비슷한 형질을 지닌 데이터만 올바르게 복원할 수 있다. 어떻게 생각하면 autoencoder 의 디코더의 기능이 인코더가 특정 데이터를 인코딩 해 놓은 좌표에만 잘 작동하게끔 오버피팅 (overfitting) 되어 있는 상태라고도 말할 수 있을 것이다. AE 학습을 위해서는 축소된 차원을 복원하는 과정을 거쳐야 하는데, hidden layer 의 unit 이 일정 차원수 이상을 보장하지 않...

bagging

... 줄일 수 있다. B) Vs. Boosting bagging 은 boosting 에 비해 구조의 단순성 때문에 정확도가 상대적으로 낮은 편이다. variance 를 낮추는 전략으로 인해 overfitting 에 robust 한 편이다. C) Bagging Model random forest 는 feature selection 주로 사용된다. D) Related E) References

boosting

...t Extreme Gradient Boosting Machine (XGBM, XGBoost) LightGBM CatBoost C) 특징 boosting 방식이 bagging 모델에 비해 overfitting 에 취약하다. D) Related bootstrap E) References

BPR - Bayesian Personalized Ranking from Implicit Feedback

... sampling (of training triples) 을 이용한 stochastic gradient descent 기반의 방법 C) Related Works SVD 를 통한 MF 는 overfitting 에 취약하다는 문제점이 있다. 이를 해결하기 위해 a regularized least square optimization with case weights (WR MF) 를 제안한다. 해...

Convolution Neural Network

...etwork 왜 단순한 DNN 이 아니라 CNN 이 필요한 것일까? 이미지를 일반적인 fully neural network 로 학습하게 된다면 많은 parameters 를 가져야 하므로 overfitting 위험과 연산량 증가 이슈가 있다. 예시를 들어보면 아래와 같다. 위 사진은 1000\times1000\times3 크기를 가지는 고양이 사진이다. 이 사진을 입력 벡터로 사용하기 위해서...

cross-validation

...s validation cross validation 은 데이터를 나눠서 모델을 검증하는 방식을 의미한다. B) 교차 검증을 사용해야 하는 이유? 고정된 training set 에 대한 overfitting 현상을 막기 위해서 사용한다. 즉, 더 일반화된 모델을 학습하기 위해서 사용한다. C) Cross Validation 종류 C.1) Holdout Cross validation 가장 일...

Data Augmentation

Data Augmentation overfitting 에 대응하기 위해서는 많은 training data 를 이용해서 학습하는 것이 좋다. 특히, 이미지 데이터의 경우, 기존 이미지를 변형해서 새로운 이미지 학습 데이터를 만들 수 있다. ...

Decision Tree

... 매우 효율적입니다. C) 단점 Decision tree 학습자는 데이터를 과도하게 복잡하게 분할(over complex tree)하여 일반화 성능이 떨어질 수 있습니다. 이러한 현상을 overfitting이라고 합니다. D) 선형 분류기와의 비교 decision tree는 선형 분류기(e.g., logistic regression, linear SVM)와 비교했을 때, 별도의 데이터 정제...

distortion

... centroid update 를 반복하면서 distortion 을 줄인다. cluster 수 K 를 늘리면 distortion 은 보통 감소하지만, 너무 큰 K 는 해석력을 떨어뜨리고 overfitting 에 가까운 clustering 을 만들 수 있다. C) Related K means silhouette score Elbow Method

  • Overfitting 이란
  • B) Overfitting 문제를 완화하기 위한 접근들
  • C) Related
  • D) References