새소식

딥러닝

Information & Entropy

  • -

Information(정보량)

  • 불확실성(Uncertainty)를 나타내는 값
  • 확률이 높아질수록 → 0에 가까워지고 확률이 낮아질수록 →∞에 가까워진다.
    (불확실하다 == 일어날 확률이 낮다.)

 

 

1. 올 여름 대한민국의 평균 여름 기온은 27도 이다. → 높은 확률로 가능

2. 올 여름 대한민국의 평균 여름 기온은 3도 이다. → 이럴 경우는 거의 0에 가깝다. 그러나 만약 사실이라면 이 것은 큰 정보가 된다.

 

∴ 확률이 낮을수록 큰 정보량을 갖고 있다.


Entropy

  • 정보량의 기대값(평균)
  • 분포의 평균적인 uncertainty를 나타내는 값

Cross Entropy

  • 분포 P의 관점에서 본 분포 Q의 정보량의 평균
  • 두 분포가 비슷할수록 작은 값을 갖는다.

 

 

  • KL-Divergence와 Cross Entropy를 θ로 미분하면 같다.

 

 

확률 분포 P(x)로부터 수집한 데이터셋 D를 통해, 확률 분포 함수 P(y|x)를 근사하는 것이 목적이다.
∴ 확률 분포 함수 신경망을 통해 KL-Divergence 또는 Cross Entropy가 최소가 되도록 gradient descent를 수행한다.

 


우리가 머신러닝 모델을 만드는 목적은 여태까지 있었던 데이터를 가지고 Ground truth 확률 분포 함수에 근사한 확률 분포 함수를 만드는 것이다.
근사한 확률 분포 함수를 만들 수록 미래에 들어올 데이터에 대한 태스크를 정확히 수행할 수 있을 것이다.

 

1. Ground truth 확률분포함수에 근사한 확률분포함수의 파라미터 θ를 찾는다.

  • MLE(Maximize Likelihood Estimation):  NLL(Negative Log Likelihood)를 minimize하는 것인데 이는 Cross Entropy로 최적화를 하는 과정과 같다.
  • 정보이론 관점에서 본다면 Cross Entropy를 minimize하는 것은 ground truth 확률 분포와 비슷하게(Similarity) 만드는 과정이다.

2. minimize하기 위해서 Gradient descent를 수행한다.

     Gradient descent를 수행하기 위해서는 파라미터 θ를 가지고 미분해야하므로 back propagation을 수행하게 된다.

728x90

'딥러닝' 카테고리의 다른 글

Manifold Hypothesis  (0) 2022.06.23
PCA  (0) 2022.06.23
KL-Divergence  (0) 2022.06.23
MLE(Maximum Likelihood Estimation)  (0) 2022.06.23
Autoencoder  (0) 2022.06.22
Contents