새소식

Interview

PCA는 차원 축소 기법이면서, 데이터 압축 기법이기도 하고, 노이즈 제거기법이기도 합니다. 왜 그런지 설명해주실 수 있나요?

  • -

PCA는 데이터를 축에 사영했을 때 가장 높은 분산을 가지는 데이터의 축을 찾아 그 축으로 차원을 축소하는 기법입니다.

 

차원은 곧 입력 데이터의 feature를 의미하므로 데이터 압축 기법이라고 볼 수 있습니다.

 

또한 PCA는 데이터의 분산이 가장 큰 순으로 주성분 벡터를 추출하는데,

먼저 추출되는 주성분 벡터가 데이터를 더 잘 설명할 수 있기 때문에 이렇게 높은 주성분들만 선택하면 설명력이 낮은 feature들은 배제되기 때문에 노이즈 제거 기법이라고도 볼 수 있습니다.

728x90
Contents