Yiksan0315's Blog

Version Space

# Tag:

  • Source/KU_ML

Version space

train data에 Consistent에 속하는 Hypothesis들의 집합.

즉, specific hypothesis , general hypothesis 에 대하여, 인 어떠한 에 속하는 집합 h들의 집합이라고 할 수 있다.

  • : train data를 모두 만족시키며, 데이터에 맞추기 위한 필수적인 조건만 포함된 hypothesis set.
  • : train data를 모두 만족시키며, 가능한 한 적은 조건을 포함해 다양한 데이터를 포괄할 수 있는 hypothesis set.

Consistent하며, 즉 positive한 example(or instance)만 포함한다.

train data가 추가됨에 따라 점진적으로 업데이트 된다. 이 때, 새로운 데이터를 설명하지 못하는 (혹은 Shattering하지 못하는) hypothesis는 Version Space에서 제거된다.

즉, Shattering 혹은 설명 여부가 Version Space의 dimension을 결정한다.

Ill-posed problem

해를 찾기 어려운 문제. Machine Learning에서는, Overfitting등에 의해 나타나는 문제가 되기도 한다.

Overfitting이 발생하게 된다면, Version Space의 가설들이 지나치게 train data에 Consistent하게 되어서, test data에 대한 prediction이 제대로 이루어지지 못하는 문제를 말한다.

  • Version Space 너무 넓은 경우:
    • 데이터에 noise가 많거나, 학습 데이터가 충분하지 않아 여러 hypothesis가 train data를 만족시켜 version space가 커지는 경우.
    • 이 경우 진짜 해의 구분이 어려워진다.
  • Version Space가 너무 작은 경우:
    • 과도한 제약의 모델로 인해, 데이터의 다양한 패턴을 설명 불가능한 경우.
    • Train data 마저도 제대로 설명하지 못하는 경우가 생길 수 있다.

즉, 너무 복잡한 Version Space가 생기게 되어 발생하는 문제가 된다.

Inductive bias

새로운 instance에 대해 prediction 가능하도록 model selection을 하는 것. Ill-posed problem을 방지한다.

보통, 단순한 모델일수록 Generalization이 더 잘 이루어지게 한다.
곧 이는 VarianceBias의 trade-off 관계로 이루어지는데, Bias가 상승함에 따라 Variance가 적어지게 되며 Overfitting을 방지한다.

다만, 너무 단순한 모델이라면 Underfitting이 발생하게 되니 이에 유의해야 한다.

toc test

이 페이지는 리디주식회사에서 제공한 리디바탕 글꼴이 사용되어 있습니다. 리디바탕의 저작권은 리디주식회사가 소유하고 있습니다.

This Font Software is licensed under the SIL Open Font License, Version 1.1.

Copyright 2025. yiksan0315 All rights reserved.