새소식

Interview

앙상블 방법에는 어떤 것들이 있나요?

  • -

강력한 하나의 모델을 사용하는 것보다 약한 모델 여러개를 조합하는 방식을 앙상블이라고 합니다.

많은 모델들을 이용하기 때문에, 한 모델에서 예측이 엇나가더라도 어느정도 보정이 되기 때문에 보다 일반화된 모델을 만들 수 있습니다.

 

앙상블에는 Bagging, Boosting, Voting이 있습니다.

 

Bagging은 주어진 데이터셋에서 여러번의 복원 랜덤 샘플링을 통해 새로운 데이터셋들을 만들어낸 뒤(Bootstrap) 이를 weak learner로 훈련시켜 결과를 Voting하는 방식입니다.

대표적인 예시로는 Random Forest가 있습니다.

 

Voting은 여러 개의 모델을 학습 시킨 뒤 투표를 통해 결과를 결정하는 방식으로 Hard Voting과 Soft Voting이 있습니다.

Hard Voting은 weak learner들의 예측 결과를 다수결 투표로 선정하는 방식이고 Soft Voting은 weak learner들의 예측 확률값의 평균 또는 가중치 합을 최종 결과로 선정하는 방식입니다.

 

Boosting은 이전 모델의 오답 데이터에 가중치를 높게 부여한 뒤 다음 모델에서 학습을 하는 방법입니다. 오답을 맞추기 위해 오답에 더 집중하여 학습시키기 때문에 오버피팅의 문제가 발생할 수 있습니다.

대표적인 예시로는 XGBoost, LightGBM이 있습니다.

728x90
Contents