본 논문에서는 Contrastive Learning이 negative sample이무한하다는 조건 하에 alignment와 uniformity라는 두 가지 속성을 만족한다고 설명한다.
alignment: 유사한 sample은 유사한 feature을 가진다.
uniformity: feature의 분포는 정보를 최대한 보존한다.
위 설명은 Self-Supervised Contrastive Learning에 대한 설명이었다.Supervised Contrastive Learning의 경우에는 label이 존재하므로 아래 그림처럼 label 값을 point로 Simplex 형태의 모습으로 수렴하게 된다.
2. Connection to Mutual Information
Mutual Information
: 두 변수가 서로 얼마나 의존적인지를 측정
위 수식처럼 $x$는 anchor point, $x^+$는 positive point라고 한다면,
두 pair에 대한 joint distribution과 marginal distribution을 KL Divergence한 값을 구한다.
만약 이 pair가 서로 독립적이라면 $p(x, x^+)$는 $p(x)p(x^+)$와 같을 것이다. → Mutual Information 값은 0이 된다.
Mutual Information 값을 Maximize한다면 이 두 값을 dependent하게 하는 것이고
Mutual Information 값을 Minimize한다면 이 두 값을 independent하는 방향으로 학습하는 것이다.
InfoNCE
: Softmax loss를 사용해 하나의 Positive sample을 N-1개의 negative sample들로부터 구별해낸다고 볼 수 있음
이 InfoNCE를 Mutual Information을 Maximizing하는 과정으로 해석할 수 있다.