Reparametrization Trick

variational inference 에서 사용하는 sampling $z \sim q_{ϕ} (z ∣ x)$ 값을 잘 변환 (reparameterization) 해서 미분 가능한 것으로 바꾸는 trick 을 의미한다.

이 trick 에서는 미분 가능한 함수인 변환 함수 $g_{ϕ} (ϵ, x)$ 와 noise variable $ϵ$ 을 통해서 sampling 값을 표현할 수 있다: $\tilde{z} = g_{ϕ} (ϵ, x)$ with $ϵ \sim p (ϵ)$

이제 임의의 함수 $f (z)$ 의 $q_{ϕ} (z ∣ x)$ 에 대한 Monte Carlo expectation estimate 는 다음과 같다.

E_{q_{ϕ} (z ∣ x^{(i)})} [f (z)] = E_{p (ϵ)} [f (g_{ϕ} (ϵ, x^{(i)}))] = \frac{1}{L} l = 1 \sum L f (g_{ϕ} (ϵ^{(l)}, x^{(i)}))

위 수식을 기반으로 Evidence Lower Bound 는 다음과 같이 바뀔 수 있다.

\tilde{L} (θ, ϕ; x^{(i)}) = - D_{K L} (q_{ϕ} (z ∣ x^{(i)}) ∥ p_{θ} (z)) + \frac{1}{L} l = 1 \sum L (lo g p_{θ} (x^{(i)} ∣ z^{(i, l)}))

여기서 $z^{(i, l)} = g_{ϕ} (ϵ^{(i, l)}, x^{(i)})$ 이다.

왜 Reparameterization Trick 이 필요한가?

ELBO 에서 $E_{q_{ϕ} (z ∣ x (i))} [lo g p_{θ} (x^{(i)} ∣ z)]$ 를 계산할 때, $q$ 로 $z$ 를 sampling 한 뒤에 $lo g p_{θ} (x^{(i)} ∣ z)$ 를 계산한다. 이 계산 방식을 NN 에서 푸는 경우 feed-forward 계산에서는 아무 문제가 없지만, backpropagation 에서는 문제가 있다. 왜냐하면 sampling 은 미분 가능한 연산이 아니기 때문이다.

즉, 고정된 parameter 가 있을 때, 같은 입력값에 대해서는 같은 출력값이 나와야 하는데, sampling 과정에서는 모델 자체에 stochasticity 를 넣어버려서 동일한 출력값이 나올 수 없기 때문에 문제가 된다.

하지만 reparameterization trick 을 활용하면 다음과 같이 sampling 을 위해 고른 분포 (e.g. Gaussian distribution: $μ, Σ$ ) 의 parameter 에 대해 미분을 수행할 수 있다.

예시) VAE

Variational Autoencoder 에서 다음과 같은 데이터의 log marginal likelihood 의 lower-bound(ELBO) 를 계산한다고 생각해보자.

lo g p (x_{u}; θ) \geq E_{q_{ϕ} (z_{u} ∣ x_{u})} [lo g p_{θ} (x_{u} ∣ z_{u})] - KL (q_{ϕ} (z_{u} ∣ x_{u}) ∥ p (z_{u})) \equiv L (x_{u}; θ, ϕ)

이 경우, reparametrization trick 을 활용하면 $z_{u} = μ_{ϕ} (x_{u}) + ϵ ⊙ σ_{ϕ} (x_{u})$ 의 형태로 표현할 수 있다 ( $ϵ \sim N (0, I_{K})$ 는 sampling).

Zzong's Notes

탐색기

reparametrization trick

Reparametrization Trick

왜 Reparameterization Trick 이 필요한가?

예시) VAE

References

링크된 언급

목차

탐색기

reparametrization trick

Reparametrization Trick

왜 Reparameterization Trick 이 필요한가?

예시) VAE

Related

References

링크된 언급

함께 보면 좋은 글

목차