차원의 저주 문제
: 차원이 높을수록 데이터는 희소(sparse)하게 분포되어 학습이 어렵다는 문제점이 있다.
PCA (Principal Component Analysis) : Linear Dimension Reduction
n차원의 공간에 샘플들의 분포가 주어져있을 때, 분포를 잘 설명할 수 있는 axis를 찾아내는 과정이다.
분포를 잘 설명할 수 있는 axis는 두 가지 조건을 만족해야 한다.
1. 빨간점 사이의 거리의 합이 최대가 되어야 한다.
2. 검은 점과 검은 선 사이 거리의 합이 최소가 되어야 한다.
: projection된 거리가 잃어버린 정보이기 때문에 최소가 되어야 한다. (손실압축)
두 조건을 만족시켜야 차원을 축소해도 데이터를 잘 설명할 수 있다.
아래는 두 조건을 만족시키지 않는 axis이다.
그러나 Linear Dimenstion Reduction에는 한계가 있다.
아래 그림과 같은 복잡한 decision boundary를 찾기에는 선형 축소만으로는 어렵다.
→ 해결책: dnn의 non-linear 차원축소