Yiksan0315's Blog

Nonparametric Methods

# Tag:

  • Source/KU_ML

Nonparametric Methods

memory-based learning or instance-based learning라고도 한다.

비슷한 inputs는 비슷한 outputs를 가질 것이라는 가정 외에는 Probabilty density/distribution에 대한 어떤 가정도 하지 않는 기법.
distribution을 알거나, 가정하는 Parametric Methods나 semi-Parametric Methods와는 차이가 있다.

데이터의 일부에 대해서 local하게 학습시키는 Local model에 대해서 데이터를 기억하게 하고, 새로운 데이터가 들어오면 비슷한 local model을 이용한다.

즉, 데이터 전체에 걸친 전역전인 패턴을 학습하기 보다는 데이터의 특정 부분을 학습하는 방식이다.

이는 곧, 데이터의 구간에 따라 모델을 달리할 수 있어 유연성이 높아지고 비선형적인 관계를 설명할 수 있다.

Methods

Histogram

특정한 크기 로 일정하게 bin을 나누고, 확률을 해당 bin을 이용해 계산하는 방식.
즉, : bin size

  • : 로 나누어, 전체 bin에 대해 각각 확률을 다 더했을때 그 합이 1이 되도록 한다. (Probability에 맞춤.)
  • bin: : 시작점 에서부터 가 변화하며 구간이 설정됨.

문제점

  1. 만약 bin안에 어떠한 데이터도 없다면, 확률이 0이 된다.
  2. 계단식 개형이 나타나므로, 연속이 아니게 된다.
  3. origin 을 어디로 잡는지에 따라 Probability 그래프가 달라지게 된다.

Naive estimator

Histogram을 origin 문제를 해결 가능하다.
허나, 확률이 0이 되거나 연속이 아니게 되는 문제점은 동일하게 발생한다.

  • : 알고자 하는 에 대해 bin size만큼 앞뒤로의 구간.
  • , when

Parzen windows

혹은 Kernel estimator 라고도 불린다. 확률이 0이 되는 것을 방지한다.

: 이 때의 는 Kernel function이며 Guassian Kernel 이 쓰인다.

이를 이용해 를 계산하면: : 이 때 앞의 Variance, 를 평균인 Gaussian Distribution이라고 볼 수 있다.

K-means Clustering를 이용한 Semi-Parametric Methods density estimation에서, Prior :가 으로 전부 동일하게 두었을 때의 확률하고 일치한다.

Multivariate Distribution Kernel Density Estimator

: when

Guassian Kernel function: :
평균 벡터가 0, Covariance Matrix가 Indentity Matrix인 꼴로 사용된다.

혹은, Train Data를 이용해 구한 Sample Covariance Matrix 를 Covariance Matrix로 사용하기도 한다. 이 때, 확률 분포 는 Mahalonobis Distance를 가지게 된다.

K-Nearest Neighbor Estimator

KNeighbor 을 이용한 Estimator. 어떠한 data point 에 대해 가장 가까운 개의 이웃 data point를 이용한다.

:이 때 변화하는 값은 분모의 뿐이며, 개의 이웃까지 포함하려면 binSize가 얼마나 커야 하는지를 나타낸다고 볼 수도 있다.

: Distance to the -th nearest neighbor.

  • 확률이 0이 되지 않는다.
  • 연속이다.
  • 모든 샘플을 이용하지 않으므로 계산량이 많지 않다.

Smoothing k-nn estimator

: Kernel 함수를 이용한 것으로, 는 곧 번째 이웃이 멀리 있다면 Variance가 증가함을 의미한다.

Multivariate Distribution K-nearest Neighbor estimator

: when : 를 중심으로 하는 반지름이 차원의 hypersphere의 Volume. 즉, -nearest neighbor까지만 포함하는 hypersphere이다.

toc test

이 페이지는 리디주식회사에서 제공한 리디바탕 글꼴이 사용되어 있습니다. 리디바탕의 저작권은 리디주식회사가 소유하고 있습니다.

This Font Software is licensed under the SIL Open Font License, Version 1.1.

Copyright 2025. yiksan0315 All rights reserved.