Multivariate Distribution
- or
- 다번량 분포
Study /
# Tag:
- Source/KU_ML
Multivariate Distribution(다변량 분포)
혹은 여러 변수가 포함된 데이터. 단일 관측치에 대해 두 개 이상의 변수를 동시에 측정한 데이터를 의미한다. 보통 하나의 instance가 차원의 vector로 표현된다.
Expectation
\mathbb{E}[X]=\sum\limits_\vec{x}\vec{x}P(\vec{x})=\begin{bmatrix}
\sum_\vec{x}x_1P(\vec{x}) \\ \vdots \\ \sum_\vec{x}x_dP(\vec{x})
\end{bmatrix}=\begin{bmatrix}
\sum_{x_1}x_1P(x_1) \\ \vdots \\ \sum_{x_d}x_{d}P(x_d)
\end{bmatrix}=
\begin{bmatrix}
\mu_{1} \\ \vdots \\ \mu_{d}
\end{bmatrix}=\vec{\mu}
:평균을 계산할 때, 와 관련한 항만 상관이 있으므로 는 로 치환한다.
sample(train Data )에 대해서는, 으로 표기한다.
Covariance Matrix
\mathbb{CV}[X]\equiv\mathbb{E}[(X-\vec{\mu})(X-\vec{\mu})^\top]=\sum\limits_\vec{x}\begin{bmatrix}
&\vdots \\ \cdots & (x_i-\mu_{i})(x_{j}- \mu_{j)}& \cdots \\ & \vdots
\end{bmatrix}P(\vec{x})=\begin{bmatrix}
\sigma_{11}&\cdots \sigma_{1d} \\ \vdots & \ddots & \vdots \\
\sigma_{d1} & \cdots & \sigma_{dd}
\end{bmatrix}\equiv\mathbf{\Sigma}
이 때의 Covariance Matrix는, Symmetric-Positive-definite하게 정의되므로, Eigen decomposition이 항상 가능하고, 이 성립한다.
sample(train Data )에 대해서는, 으로 표기한다.
와 같이 계산된다.
Correlation Matrix
이 때, corrleation matrix는
: 즉, 로 표현된다