MAP
# Tag:
- Source/KU_ML
MAP(Maximum a Posteriori Estimation)
반면, Posterior는 특정한 파라미터 값이 주어진 데이터에서 얼마나 가능성이 높은지를 찾는 것으로, 사전 지식과 데이터를 결합해 더 직관적인 추정을 가능하게 한다.
- MAP는 Prior를 반영하므로, 데이터가 적거나 노이즈가 많은 경우 Overfitting을 방지하면서 Estimation 가능하다. 즉, MLE에 비해 Prior를 활용해 보완하는 것이라 할 수 있다.
- MLE는 Prior가 없더라도 데이터를 최대한 활용해 Estimation이 가능하다.
- Likelihood : 인 경우라고도 볼 수 있다. 즉, 관측되지 않은 경우를 고려하지 않고 관찰된 경우에서만 따지므로 이에 대한 Parameter의 확률은 1일 수 밖에 없다.
Conjugate Prior
간단히 하여, Prior와 Posterior의 distribution이 동일한 distribution family( ex) posterior: Gaussian Distribution prior: Gaussian Distribution)를 유지하도록 하는 것이다.
이를 통해 Posterior의 계산 과정을 단순화하고, Posterior를 구하기 위해 Likelihood와 Prior의 곱을 정규화하는 과정을 생략할 수 있게 해준다.
MAP for Categorical Distribution
- Likelihood: , and
- Conjugate Prior: Dirichlet distribution,
By IID:
: when,
이를 Lagrange Multiplier를 이용해 Optimization 문제로 전환하면
- : 이 때, : 가 나온 횟수를 다 더하면 .
: 연립하면,
결국에 이는 NBC의 문제를 보완하기 위해 고안된 M-estimate와 동일하게 된다.
(, ): 라면, [[MLE]]와 동일해진다.
MAP for Gaussian Distribution
Variance에 상관 없이, 데이터의 중심(평균)에 대한 불확실성을 반영하기 위함이다. 새로운 데이터가 반영될 수록, 평균에 대한 불확실성(평균 역시 Guassian Distribution이므로, 이에 대한 분산이 존재하며 이는 곧 불확실성이 된다)를 점점 줄여나가게 된다.
Likelihood 자체가 이미 Variance에 대한 정보를 반영하고 있으므로, Variance에 대한 Prior를 별도로 명시하지 않아도 데이터를 통해 Variance를 반영하게 된다.
여전히 Variance에 대한 불확실성은 존재하지만, 아래에서는 평균에 대해서만 따진다.
MAP Estimation of for Gaussian Distribution
- : 에 대한 guassian distribution. 즉, conjugate prior.
는 Evidence 등 적절히 정리된 상수이고, 이 상수에 와 관련 없는 개별적 term들을 묶어내면,
: 에 대해서 를 적당히 잘 조절하여서 다음과 같이 만들면
즉, conjugate prior을 사용한 이유에 따라 train Data에 대한 평균의 posterior distribution과 동일해야 하므로 와 에 대한 coefficient 를 일치시키면
- :
- : :when
- : : 데이터를 보고 판단한 평균.
- : : 데이터를 관찰 전에 구한 prior 평균.
에서, 와 는 각각 합했을 때 이므로 weighted sum이라 할 수 있다.
이는, : (데이터 개수 혹은 관찰된 횟수)가 높아짐에 따라 MLE(데이터에 대한 믿음)에 대한 비중을 크게 두고, 작아짐에 따라 Prior(사전의 믿음)이 커진다는 결론이 된다.
이 때, 는 prior에 대한 Variance(:평균으로부터 벗어날 불확실성)이므로 0에 가까울 수록 prior에 대한 믿음이 커진다.
Bayesian estimation
- : 알고자 하는 parameter : label.
- : 예측 값 (추정). 일 때, : error를 가장 작게 만드는 것이다.
: 이 때, 만 조정 가능하므로 를 평균값으로 추정할 때 Error가 가장 작아질 것이라 예측해 볼 수 있다.
즉, 우리가 추정하고자 하는 최적의 parameter
이고, 이는 uniform prior, likelihood 추정, gaussian posterior 등에 대해 등으로 변한다.
(결국, 최적의 parameter 는 MAP에 의해 계산된다.)