KL-Divergence
KL-Divergence(Kullback-Leibler Divergence) 는 서로 다른 두 분포의 차이 (dissimilarity) 를 측정하는데 쓰이는 metric 이다.
두 분포, (실제) 와 (예측) 가 있을 때, KL-Divergence 는 다음과 같다.
보다시피, cross-entropy 값에 entropy 값을 뺀 것이 KL-Divergence 다. Cross-entropy 의 값은 entropy 값보다 항상 크므로, KL-Divergence 값은 보다 항상 크다.
A.1) KL-Divergence 의 의미
예측 분포인 를 실제분포 에 가깝게 하는 것이, 예측 모형이 이루고자 하는 것이며, 가 에 가까이갈 수록 KL-Divergence 값은 에 가까워질 것이다.
는 고정이기 때문에, 를 최소화 시키는 것이 예측 모형을 최적화 시키는 것이라고 할 수 있다. 따라서 cross-entropy 를 최소화 시키는 것이 KL-Divergence 를 최소화 시키는 것이며, 이것이 불확실성을 제어하고자 하는 예측 모형의 실질적인 목적이라고 볼 수 있다.
A.2) KL-divergence Properties
이라고 가정할때 아래를 만족한다.
- 그리고
A.2.1) Proof
여기서 log 함수는 concave function 이므로, Jensen’s inequality 에 의해 Expectation sign 이 안으로 들어갈 수 있다. 또한, 이다.
- Forward KL vs. Reverse KL (link)
B) As Objective Function
