Bagging
# Tag:
- Source/KU_ML2
Bagging
Bootstrap + Aggregating 으로 이루어진 Ensemble의 일종.
- Bootstrap: 통계에서 Sampling Distribution을 구하기 위해 데이터를 여러 번 Random하게 복원 추출하는 것. 여러 번 추출하는 과정에서 Dataset의 특징을 잘 추출해낼 수 있다고 가정한다.
- 나무 수: 추정기(estimators)
- 각 나무 당 최대 샘플 수: 원래 데이터 수(기본값)으로 보통 설정한다.
- Aggregating: Bootstrap를 통해 얻은 여러 개의 Dataset에, 각각 Decision Tree를 키워 그 값들을 Ensemble한다.
기본적으로 Unstable learning algorithm을 이용해야 하는데, 데이터가 조금만 바뀌어도 결과가 달라지도록 하여 Data의 subset에 따라 상이한 model이 만들어지게 해 Ensemble한다.
후의 각각의 모델에 대하여 Voting 등의 방식을 활용해 Prediction한다.
Problem
개의 Learner model에 대해 개의 데이터를 복원 추출한다.
하지만, Randomness로 인해 그에 의존적이게 되어 반드시 complementary한 base-leaner가 만들어진다는 보장이 존재하지 않는다.