배깅

위키백과, 우리 모두의 백과사전.
둘러보기로 가기 검색하러 가기

배깅(영어: bagging)은 bootstrap aggregating의 줄임말로 통계적 분류회귀 분석에서 사용되는 기계 학습 알고리즘의 안정성과 정확도를 향상시키기 위해 고안된 일종의 앙상블 학습법메타 알고리즘이다. 또한 배깅은 분산을 줄이고 과적합(overfitting)을 피하도록 해준다. 결정 트리 학습법이나 랜덤 포레스트에만 적용되는 것이 일반적이기는 하나, 그 외의 다른 방법들과 함께 사용할 수 있다.

설명[편집]

n크기의 훈련 집합(training set) 가 주어졌을 때, 배깅은 m개의 복원 표본추출(sampling with replacement) 방법과 균등 확률분포를 이용해 각각 n′크기를 갖는 새로운 훈련 집합 을 생성한다. 복원 표본추출 방법에 의해 일부 관측 데이터는 각 에서 반복해서 나타날 수 있다. 만약 n′=n이라고 하면, 보다 큰 n에 대해 집합 에 대해 고유한 샘플의 비율은 (1 - 1/e) (≈63.2%)을 가질 것으로 기대된다.[1] 이러한 샘플을 부트스트랩(bootstrap) 샘플이라 한다. m개의 모델은 m개의 부트스트랩 샘플들을 이용해 만들어지고 결과를 평균(회귀분석의 경우) 또는 투표(분류의 경우)를 통해 결합한다.

각주 및 참고자료[편집]

  1. Aslam, Javed A.; Popa, Raluca A.; and Rivest, Ronald L. (2007); On Estimating the Size and Confidence of a Statistical Audit, Proceedings of the Electronic Voting Technology Workshop (EVT '07), Boston, MA, August 6, 2007.