GMM

GMM 이란, 여러 Gaussian distribution 이 혼합된 모델을 의미한다.

B) GMM

주어진 데이터 $x$ 가 GMM 에서 발생할 확률

p (x) = k = 1 \sum K π_{k} N (x ∣ μ_{k}, Σ_{k})

$π_{k}$ 는 mixing coefficients 라고 부르며, 일종의 weight 역할을 한다. 즉, 어떤 가우시안 분포에 포함되는지 soft clustering 같은 의미 부여 역할을 한다.

$\sum_{k = 1}^{K} π_{k} = 1, 0 \leq π_{k} \leq 1$
$π_{k}$ 도 확률 분포의 특성을 가지므로, multinomial distribution 을 따른다.

$k$ 개의 가우시안 분포에서 $x$ 가 발생할 확률을 전부 더한다고 생각하고, 특정 분포가 선택된 것을 표기할때 $z$ 로 둔다고 하면 다음과 같이 표현이 가능하다.

p (x) = k = 1 \sum K P (z_{k}) P (x ∣ z) = k = 1 \sum K π_{k} N (x ∣ μ_{k}, Σ_{k})

selection variable $z_{k}$ 는 다음과 같은 특성을 갖는다

: $z_{k} \in {0, 1}, \sum_{k} z_{k} = 1, P (z_{k} = 1) = π_{k}$

Log likelihood of the dataset
- $ln P (X ∣ π, μ, Σ) = \sum_{n = 1}^{N} ln {\sum_{k = 1}^{K} π_{k} N (x_{n} ∣ μ_{k}, Σ_{k})}$
Classification of GMM
- $x_{n}$ 이 주어졌을 때, $k$ 번째 가우시안 분포에 포함될 확률을 계산
  - 이 확률을 responsibility $γ (z_{nk})$ 라고 표현한다.

γ (z_{nk}) \equiv p (z_{k} = 1 ∣ x_{n}) = \frac{P ( z _{k} = 1 ) P ( x ∣ z _{k} = 1 )}{\sum _{j = 1}^{K} P ( z _{j} = 1 ) P ( x ∣ z _{j} = 1 )} = \frac{π _{k} N ( x ∣ μ _{k} , Σ _{k} )}{\sum _{j = 1}^{K} π _{j} N ( x ∣ μ _{j} , Σ _{j} )}

분수 형태로 바뀐 이유는 Bayes theorem 을 적용했기 때문

C) Training GMM: EM algorithm

C.1) Expectation Step: the Assignment Probability

Given the parameters and the data point, calculate the likelihood

$x, π, μ, Σ$ 가 주어졌을 때, $γ (z_{nk})$ 를 계산한다. 즉, 각각의 데이터 포인트가 어떤 가우시안 분포에 속하는지의 확률을 계산한다.

C.2) Maximization step

Update the parameters given $γ (z_{nk})$

총 3 개의 변수들에 대해서 likelihood 를 각각 미분한 후, 0 이 되는 값을 찾음

\frac{d}{d μ _{k}} ln P (X ∣ π, μ, Σ)

\frac{d}{d Σ _{k}} ln P (X ∣ π, μ, Σ)

\frac{d}{d π _{k}} ln P (X ∣ π, μ, Σ) + λ (k = 1 \sum K π_{k} - 1)

mixing coefficient $π_{k}$ 는 constraint 이 존재하므로 Lagrange multiplier method 를 적용하였다.

각 parameter 는 $γ (z_{nk})$ 를 활용하여 다음과 같이 계산될 수 있음

$μ_{k} = \frac{\sum _{n = 1}^{N} γ ( z _{nk} ) x _{n}}{\sum _{n = 1}^{N} γ ( z _{nk} )}$
$Σ_{k} = \frac{\sum _{n = 1}^{N} γ ( z _{nk} ) ( x _{n} - μ _{k} ) ( x _{n} - μ _{k} ) ^{T}}{\sum _{n = 1}^{N} γ ( z _{nk} )}$
$π_{k} = \frac{1}{N} n = 1 \sum N γ (z_{nk})$
모든 parameter 를 계산하면, 다시 E-step 으로 돌아가서 $γ (z_{nk})$ 를 재 계산한다. 이를 수렴할때까지 반복한다.

C.3) Why not Use Gradient Descent Method?

stochastic gradient descent 를 이용해서 학습할 수 있지만, 두 가지 이유로 EM 보다는 비 효율적이다.

GMM 에서의 가우시안 분포들의 covariance matrix $Σ_{k}$ 는 [positive semi-definite](positive definite) 여야 한다는 조건이 붙는다. 하지만 SGD 로는 이러한 제약조건을 명시하면서 학습할 수 없다.
EM 방식은 주어진 문제의 structure 를 활용할 수 있다. 즉, SGD 보다 EM 이 더욱 적은 iteration 만으로도 optimal 한 결과에 다다를 수 있다 (더 낮은 loss 또는 높은 likelihood 포함).

D) Expression of GMM by Bayesian network

파란색 원은 parameters, 갈색 원은 observations, $N$ 은 데이터셋 개수를 의미

Zzong's Notes

탐색기

Gaussian Mixture Model

GMM

B) GMM

C) Training GMM: EM algorithm

C.1) Expectation Step: the Assignment Probability

C.2) Maximization step

C.3) Why not Use Gradient Descent Method?

D) Expression of GMM by Bayesian network

링크된 언급

목차

탐색기

Gaussian Mixture Model

GMM

B) GMM

C) Training GMM: EM algorithm

C.1) Expectation Step: the Assignment Probability

C.2) Maximization step

C.3) Why not Use Gradient Descent Method?

D) Expression of GMM by Bayesian network

링크된 언급

함께 보면 좋은 글

목차