Hypothesis
# Tag:
- Source/KU_ML
가설(Hypothesis)
과거의 경험, 지식, 연구의 결과 등으로 모수가 취할 것으로 알려진 값을 서술한 것.
**모수: **모집단의 특성치, 모집단 확률분포의 특성을 규정짓는 척도
Machine Learning에서는 learning algorithm에 의해 표현되는 어떠한 Concept를 의미한다.
그리고 이 learning algorithm의 가능한 모든 가설을 모은 집합을 Hypothesis Space(or class) : 라고 한다.
Error of a hypothesis
- Generalization Error: 학습 데이터에 없는 새로운 데이터에 의해 나타나는 error. Overfitting과 관련된다고 볼 수 있다.
- Empirical error:
- train data 에 대하여 생기는 오류. Overfitting과 trade-off의 관계에 있다.
- FP and NP: Confusion Matrix
귀무 가설과 대립 가설
- 귀무 가설(null hypothesis, ): 다르지 않다. 으로 나타낸다. 별다른 문제가 없는 한 나타날 것으로 예상되는 형상에 대한 기존의 입장
- 대립 가설(alternative hypothesis, ,): 귀무 가설에 대립되는 가설, 연구 대상, 관심이 되는 가설
가설 검정은 표본을 통해 을 지지할 만한 통계적 증거를 확인하는데 목적을 둔다.
하지만 표본에 의해 얻어진 부분적인 정보를 근거로 모수에 대한 결론을 내리기 때문에, 가설검정은 표본오차로 인한 오류의 가능성을 항상 갖고 있다.
: 이 오류가 일어날 가능성을 최소로 해야한다.
| not reject | reject | |
|---|---|---|
| true | 올바른 결정 | 제 1종 오류(type 1 error) : |
| false | 제 2종 오류(type 2 error): | 올바른 결정 |
일반적으로 두 종류의 오류는 반비례의 관계가 있기 때문에, 동시에 두 오류가 일어날 확률을 줄이기는 쉽지 않다.
Solution
보통 제 1종 오류를 범할 때 더 큰 손실이나 비용이 발생하는 경우가 많다.
제 1종 오류 α의 최대 허용 한계 (**유의 수준(significance level))**를 고정시켜 놓고 제 2종 오류를 최소화 해주는 검정 방법을 선택한다
- 검정 통계량(test statistic): 가설 검정을 위해 사용되는 통계량. 귀무가설의 기각, 채택 여부를 판단 보통 모수의 잘 알려진 점추정량을 표준화하여 사용
- 유의 수준 (significance level): 귀무 가설이 사실이지만 기각될 최대 허용 확률, α = 0.01, 0.1, 0.5, 주로 사용
검정방법
- 이표본 t-검정(Two sample t-test): 두 독립적인 표본의 평균을 비교하는 데 사용