Validation
# Tag:
- Source/KU_ML
toc test
Validation
train data와 vadliation data로 나누어서, validation data를 이용해 최적의 parameter를 찾는 과정.
복잡한 parameter, 혹은 복잡한 model을 사용함에 따라 Version Space가 복잡해지게 되고 이에 따라 Consistent함은 상승할 수 있어도, 새로운 데이터셋에 대한 Consistent함은 낮아지게 된다.
이를 방지하기 위해, 별도의 Validation Data를 이용해 최적의 Hyperparameter를 찾는다. validation data의 사용은 필수적이다. 만일 test-data를 이용해 hyperparameter를 조정한다면, 정답을 학습시켜놓고 예측을 하라하는 것과 같다. 즉, hyperparameter가 test data에 맞추어 오염(polluted)된다.
Trade-off
Bias와 Variance는 Trade-off 관계에 있고, 이의 조화가 적절히 이루어져야 Underfitting혹은 Overfitting이 발생하지 않는다.
즉, 이를 방지하기 위하여, train data와 Validation Data의 Error가 적절히 조화를 이루는 어떠한 complexity를 결정한다.
