Yiksan0315's Blog

Hypothesis

# Tag:

  • Source/KU_ML

가설(Hypothesis)

과거의 경험, 지식, 연구의 결과 등으로 모수가 취할 것으로 알려진 값을 서술한 것.

**모수: **모집단의 특성치, 모집단 확률분포의 특성을 규정짓는 척도

Machine Learning에서는 learning algorithm에 의해 표현되는 어떠한 Concept를 의미한다.

그리고 이 learning algorithm의 가능한 모든 가설을 모은 집합을 Hypothesis Space(or class) : 라고 한다.

Error of a hypothesis

  • Generalization Error: 학습 데이터에 없는 새로운 데이터에 의해 나타나는 error. Overfitting과 관련된다고 볼 수 있다.
    • Variance가 높아짐에 따라 생기는 것으로 볼 수 있다. 즉, Variance와 Bias간의 어떠한 trade-off를 잘 조정해야 한다.
  • Empirical error:
    • train data 에 대하여 생기는 오류. Overfitting과 trade-off의 관계에 있다.
  • FP and NP: Confusion Matrix

귀무 가설과 대립 가설

  • 귀무 가설(null hypothesis, ): 다르지 않다. 으로 나타낸다. 별다른 문제가 없는 한 나타날 것으로 예상되는 형상에 대한 기존의 입장
  • 대립 가설(alternative hypothesis, ,): 귀무 가설에 대립되는 가설, 연구 대상, 관심이 되는 가설

가설 검정은 표본을 통해 을 지지할 만한 통계적 증거를 확인하는데 목적을 둔다.

하지만 표본에 의해 얻어진 부분적인 정보를 근거로 모수에 대한 결론을 내리기 때문에, 가설검정은 표본오차로 인한 오류의 가능성을 항상 갖고 있다.
: 이 오류가 일어날 가능성을 최소로 해야한다.

not reject reject
true올바른 결정제 1종 오류(type 1 error) :
false제 2종 오류(type 2 error): 올바른 결정

일반적으로 두 종류의 오류는 반비례의 관계가 있기 때문에, 동시에 두 오류가 일어날 확률을 줄이기는 쉽지 않다.

Solution

보통 제 1종 오류를 범할 때 더 큰 손실이나 비용이 발생하는 경우가 많다.
제 1종 오류 α의 최대 허용 한계 (**유의 수준(significance level))**를 고정시켜 놓고 제 2종 오류를 최소화 해주는 검정 방법을 선택한다

  • 검정 통계량(test statistic): 가설 검정을 위해 사용되는 통계량. 귀무가설의 기각, 채택 여부를 판단 보통 모수의 잘 알려진 점추정량을 표준화하여 사용
  • 유의 수준 (significance level): 귀무 가설이 사실이지만 기각될 최대 허용 확률, α = 0.01, 0.1, 0.5, 주로 사용

검정방법

  1. 이표본 t-검정(Two sample t-test): 두 독립적인 표본의 평균을 비교하는 데 사용
toc test

이 페이지는 리디주식회사에서 제공한 리디바탕 글꼴이 사용되어 있습니다. 리디바탕의 저작권은 리디주식회사가 소유하고 있습니다.

This Font Software is licensed under the SIL Open Font License, Version 1.1.

Copyright 2025. yiksan0315 All rights reserved.