딥러닝

PCA

차원의 저주 문제

: 차원이 높을수록 데이터는 희소(sparse)하게 분포되어 학습이 어렵다는 문제점이 있다.

PCA (Principal Component Analysis) : Linear Dimension Reduction

n차원의 공간에 샘플들의 분포가 주어져있을 때, 분포를 잘 설명할 수 있는 axis를 찾아내는 과정이다.
분포를 잘 설명할 수 있는 axis는 두 가지 조건을 만족해야 한다.

1. 빨간점 사이의 거리의 합이 최대가 되어야 한다.

2. 검은 점과 검은 선 사이 거리의 합이 최소가 되어야 한다.
: projection된 거리가 잃어버린 정보이기 때문에 최소가 되어야 한다. (손실압축)

두 조건을 만족시켜야 차원을 축소해도 데이터를 잘 설명할 수 있다.

아래는 두 조건을 만족시키지 않는 axis이다.

아래 그림과 같은 복잡한 decision boundary를 찾기에는 선형 축소만으로는 어렵다.

→ 해결책: dnn의 non-linear 차원축소

728x90

CNN (0)	2022.06.24
Manifold Hypothesis (0)	2022.06.23
Information & Entropy (0)	2022.06.23
KL-Divergence (0)	2022.06.23
MLE(Maximum Likelihood Estimation) (0)	2022.06.23

Contents