MLE

or
Maximum Likelihood Estimation,
최대 우도법

Study /

AI /

Machine Learning /

Bayesian Decision /

MLE

Create : 2024년 10월 14일 24:00Update : 2025년 8월 22일 23:31

# Tag:

Source/KU_ML

MLE(Maximum Likelihood Estimaion)

training data에서

D

가 관측될 확률이 최대가 될 때의

θ

를 찾아내는 방법으로 Parametric Methods의 일종이다.

Posterior를 찾아내는데 있어 Prior을 아는 것을 힘드므로, Prior를 균일하게 두고 이에 따라 Likelihood를 최대가 되게 하여 Posterior를 커지게 하는 방법이다. 이는 MAP에서 Prior를 균등 분포로 두느냐에 차이라고도 할 수 있다.

P (θ ∣ D) = \frac{P ( D ∣ θ ) P ( θ )}{P ( D )}

Likelihood : $P (D ∣ θ) = P (x^{1}, x^{2}, \dots, x^{N} ∣ θ) = \prod_{t} P (x^{t} ∣ θ)$
⇒ IID samples $D$ 에 대하여 likehood를 추정하는 것으로, 독립에 의해 Multiplication Rule이 적용 가능하다.

이 중, $ar g θ max$ 를 구하는 것이므로, log를 씌워도 동일하다. 따라서 곱이 합으로 나타난다.

ar g θ max lo g P (D ∣ θ) = ar g θ max lo g t \sum P (x^{t} ∣ θ)

보통 $θ$ 에 대해 미분해 극점을 찾지만, 항상 극대점이라는 보장이 없으므로 분포에 따라 이계도함수까지 확인을 하거나, 다른 최적화 기법을 활용해야 할 수도 있다.

MLE for Bernoulli Distribution

성공의 확률이 $θ$ 가 parameter이므로, $P (x = 1) = θ, P (x = 0) = 1 - θ$
$P (x ∣ θ) = θ^{x} (1 - θ)^{1 - x}$
와 같이 Parametric Methods방법을 따라 분포를 정해놓고 전개된다.

ar g θ max lo g P (D ∣ θ) = ar g θ max t \sum [x^{t} lo g θ + (1 - x^{t}) l o g (1 - θ)]

이 때, Lagrange function: $L = t \sum [x^{t} lo g θ + (1 - x^{t}) l o g (1 - θ)]$
이를 최소화하기 위한 convex를 찾으면,

\frac{\partial L}{\partial θ} = t \sum [x^{t} \frac{1}{θ} - (1 - x^{t}) \frac{1}{1 - θ}] = 0

t \sum [x^{t} - θ] = 0 \to θ = \frac{t \sum x ^{t}}{N}

⇒ $N$ 은 총 데이터의 개수.

MLE for Multinoulli Distribution

$P (x = v_{i}) = θ_{i}, \sum_{i} θ_{i} = 1$
$P (x ∣ θ) = i \prod θ_{i}^{1 (x = v_{i})}$

ar g θ, i \sum θ_{i} = 1 max P (D ∣ θ) = ar g θ max t \sum i \sum [1 (x^{t} = v_{i}) lo g θ_{i} - λ (i \sum θ_{i} - 1)]

: Lagrange Multiplier를 이용해, $θ_{i}$ 의 합이 1임을 constraints로 하는 convex optimizaiton을 해결한다.

\frac{\partial L}{\partial θ _{i}} = t \sum 1 (x^{t} = v_{i}) \frac{1}{θ _{i}} - λ = 0

\frac{\partial L}{\partial λ} = - i \sum θ_{i} + 1 = 0

∴ θ_{i} = \frac{t \sum 1 ( x ^{t} = v _{i} )}{N}, λ = N

for Supervised Learning

$D = {x^{t}, r^{t}}_{t = 1}^{N}$ : $r^{t}$ 는 one-hot vector이다.
$P (D ∣ θ) = t \prod P (x^{t}, r^{t} ∣ θ) = t \prod P (r^{t} ∣ θ) P (x^{t} ∣ r^{t}, θ) = t \prod P (r^{t} ∣ θ) i \prod P (x_{i}^{t} ∣ r^{t}, θ)$
: $x_{i}$ 들 끼리는 IID함을 가정한다.

$θ = {\dot{θ}, \ddot{θ}}$ 라 할 때,

$\dot{θ}$ : $r$ 에 대한 parameter set.
$\ddot{θ}$ : $x$ 에 대한 paratmeter set.

lo g P (D ∣ θ) = t \sum lo g P (r^{t} ∣ θ) + t \sum i \sum lo g P (x_{i}^{t} ∣ r^{t}, θ)

= t \sum lo g k \prod P (c_{k} ∣ \dot{θ})^{r_{k}^{t}} + i \sum k \sum t \sum r_{k}^{t} lo g P (x_{i}^{t} ∣ c_{k}, \ddot{θ})

ar g θ max P (D ∣ θ) = ⎩ ⎨ ⎧ ar g max_{\dot{θ}, ∣ \dot{θ} ∣ = 1} t \sum lo g \prod_{k} P (c_{k} ∣ \dot{θ})^{r_{k}^{t}} ar g max_{\ddot{θ_{k, i}}, ∣ \ddot{θ_{k, i}} ∣ = 1} t, r_{k}^{t} = 1 \sum lo g P (x_{i}^{t} ∣ c_{k}, \ddot{θ_{k, i}}) for all k and i

: $r_{k}^{t}$ 에 대해서, 0인 경우는 의미가 없으므로 1인 경우에만 대해 합산한다.

이에 대한 convec optimization을 구하면

$P (c_{k}) = \frac{t \sum r _{k}^{t}}{N}$ : $\dot{θ_{k}}$
$P (x_{i} = v_{j} ∣ c_{k}) = \frac{t \sum r _{k}^{t} 1 ( x _{i}^{t} = v _{j} )}{t \sum r _{k}^{t}}$ : $\ddot{θ}_{k, i, j}$

MLE for Gaussian Distribution

$θ = μ, σ^{2}$
$P (x ∣ θ) = \frac{1}{2 π σ} exp (- \frac{1}{2} \frac{( x - u ) ^{2}}{σ ^{2}})$

ar g θ max t \sum lo g P (x^{t} ∣ θ) = ar g μ, σ^{2} max t \sum [- \frac{1}{2} lo g 2 π - \frac{1}{2} lo g σ^{2} - \frac{1}{2} \frac{( x ^{t} - μ ) ^{2}}{σ ^{2}}]

위에서 $\frac{1}{2} lo g 2 π$ 는 최적화 대상이 아니므로, 제외하고 생각한다.

이에 대한 convec optimization을 구하면

\frac{\partial L}{\partial μ} = t \sum [\frac{x ^{t} - μ}{σ ^{2}}] = 0

\frac{\partial L}{\partial σ ^{2}} = t \sum [\frac{- σ ^{2} + ( x ^{t} - μ ) ^{2}}{2 σ ^{4}}] = 0

$μ = \frac{t \sum x ^{t}}{N}$ ; sample mean
$σ^{2} = \frac{t \sum ( x ^{t} - μ ) ^{2}}{N} = \frac{t \sum ( x ^{t} ) ^{2}}{N} - μ^{2}$ ; sample variance

for Supervised learning

$lo g P (x_{i}^{t} ∣ c_{k}, \ddot{θ_{k, i}}) for all k and i = \frac{1}{2 π σ _{k, i}} exp (- \frac{1}{2} \frac{( x _{i}^{t} - u _{k, i} ) ^{2}}{σ _{k, i}^{2}})$

$μ_{k, i} = \frac{t \sum r _{k}^{t} x _{i}^{t}}{t \sum r _{k}^{t}}$
$σ_{k, i}^{2} = \frac{t \sum r _{k}^{t} ( x _{i}^{t} - μ _{k, i} ) ^{2}}{t \sum r _{k}^{t}} = \frac{t \sum r _{k}^{t} ( x _{i}^{t} ) ^{2}}{t \sum r _{k}^{t}} - μ_{k, i}^{2}$ $k$ class에 대해서, $i$ 번째 feature에 대한 paramter들이 된다.

MLE for MVN

$θ = {μ, Σ}$
$P (x ∣ θ) = \frac{1}{( 2 π ) ^{d /2} ∣Σ ∣ ^{1/2}} exp (- \frac{1}{2} (x - μ)^{⊤} Σ^{- 1} (x - μ)) \equiv N (x; μ, Σ)$

ar g θ max t \sum lo g P (x^{t} ∣ θ) = ar g μ, Σ max t \sum [- \frac{d}{2} lo g 2 π - \frac{1}{2} lo g ∣Σ∣ - \frac{1}{2} (x - μ)^{⊤} Σ^{- 1} (x - μ))]

이에 대한 convex optimization을 구하면

\frac{\partial L}{\partial μ} = t \sum \frac{1}{2} (Σ^{- 1} + Σ^{- ⊤}) (x^{t} - μ) = 0

\frac{\partial L}{\partial Σ ^{- 1}} = t \sum \frac{1}{2} [Σ^{⊤} - ((x^{t} - μ)^{⊤} (x^{t} - μ))^{⊤}] = 0 I

$μ = \frac{t \sum x ^{t}}{N}$
$Σ = \frac{t \sum ( x ^{t} - μ ) ( x ^{t} - μ ) ^{⊤}}{N}$

for Supervised Learning

$lo g P (x_{i}^{t} ∣ c_{k}, \ddot{θ_{k, i}}) for all k and i = \frac{1}{( 2 π ) ^{d /2} ∣ Σ _{k} ∣ ^{1/2}} exp (- \frac{1}{2} (x - μ_{k})^{⊤} Σ_{k}^{- 1} (x - μ_{k})) \equiv N (x; μ, Σ)$

$Σ_{k} = \frac{t \sum r _{k}^{t} ( x ^{t} - μ _{k} ) ( x ^{t} - μ _{k} ) ^{⊤}}{t \sum r _{k}^{t}} = \frac{t \sum r _{k}^{t} x ^{t} ( x ^{t} ) ^{⊤}}{t \sum r _{k}^{t}} - μ_{k} μ_{k}^{⊤}$ : $k$ class의 Covariance
$μ_{k} = \frac{t \sum r _{k}^{t} x ^{t}}{t \sum r _{k}^{t}}$ : $k$ classs의 Expectation