Kullback-Leibler Divergence
- 두 분포 사이의 다름을 측정한다.
(assymmetric이여서 거리라고 할 수는 없다.)
두 분포가 비슷할 수록 작은 값을 반환하고 두 분포가 같으면 KL-Divergence의 값은 0이다.
DNN Optimization using KL-Divergence
KL-Divergence를 minimize하는 방향으로 DNN을 Optimization을 할 수 있다.
KL-Divergence는 두 분포간의 dissimilarity를 측정해주기 때문에
ground truth 확률분포와 DNN가 나타내는 확률분포간의 dissimilarity를 측정하고 이를 mimimize하도록 gradient descent를 해주면 된다.