Interview
-
PCA는 데이터를 축에 사영했을 때 가장 높은 분산을 가지는 데이터의 축을 찾아 그 축으로 차원을 축소하는 기법입니다. 차원은 곧 입력 데이터의 feature를 의미하므로 데이터 압축 기법이라고 볼 수 있습니다. 또한 PCA는 데이터의 분산이 가장 큰 순으로 주성분 벡터를 추출하는데, 먼저 추출되는 주성분 벡터가 데이터를 더 잘 설명할 수 있기 때문에 이렇게 높은 주성분들만 선택하면 설명력이 낮은 feature들은 배제되기 때문에 노이즈 제거 기법이라고도 볼 수 있습니다.
PCA는 차원 축소 기법이면서, 데이터 압축 기법이기도 하고, 노이즈 제거기법이기도 합니다. 왜 그런지 설명해주실 수 있나요?PCA는 데이터를 축에 사영했을 때 가장 높은 분산을 가지는 데이터의 축을 찾아 그 축으로 차원을 축소하는 기법입니다. 차원은 곧 입력 데이터의 feature를 의미하므로 데이터 압축 기법이라고 볼 수 있습니다. 또한 PCA는 데이터의 분산이 가장 큰 순으로 주성분 벡터를 추출하는데, 먼저 추출되는 주성분 벡터가 데이터를 더 잘 설명할 수 있기 때문에 이렇게 높은 주성분들만 선택하면 설명력이 낮은 feature들은 배제되기 때문에 노이즈 제거 기법이라고도 볼 수 있습니다.
2022.11.16 -
차원 축소 기법은 크게 Feature Selection과 Feature Extraction으로 나눌 수 있습니다. Feature Selection은 말 그대로 데이터의 특징을 잘 표현하는 주요 피쳐만 선택하는 방법입니다. Feature Extraction은 기존 feature를 저차원으로 매핑하여 feature를 함축적으로 잘 설명할 수 있도록 하는 방법입니다. 대표적인 방법으로는 PCA, LDA, t-SNE 가 있습니다. ▮ PCA 데이터를 축에 사영했을 때 가장 높은 분산을 가지는 데이터의 축을 찾아 그 축으로 차원을 축소하는 것인데, 이 축을 주성분이라고 말합니다. 사영했을 때 분산이 크다는 것은 원래 데이터의 분포를 잘 설명할 수 있다는 것을 뜻하고 정보의 손실을 최소화 할 수 있다는 것을 뜻합니..
차원 축소 기법으로 어떤 것들이 있나요?차원 축소 기법은 크게 Feature Selection과 Feature Extraction으로 나눌 수 있습니다. Feature Selection은 말 그대로 데이터의 특징을 잘 표현하는 주요 피쳐만 선택하는 방법입니다. Feature Extraction은 기존 feature를 저차원으로 매핑하여 feature를 함축적으로 잘 설명할 수 있도록 하는 방법입니다. 대표적인 방법으로는 PCA, LDA, t-SNE 가 있습니다. ▮ PCA 데이터를 축에 사영했을 때 가장 높은 분산을 가지는 데이터의 축을 찾아 그 축으로 차원을 축소하는 것인데, 이 축을 주성분이라고 말합니다. 사영했을 때 분산이 크다는 것은 원래 데이터의 분포를 잘 설명할 수 있다는 것을 뜻하고 정보의 손실을 최소화 할 수 있다는 것을 뜻합니..
2022.11.16 -
차원의 저주는 차원이 증가하면서 학습데이터 수가 차원 수보다 적어져 성능이 저하되는 현상이다. 데이터 차원이 증가할수록 공간의 크기가 증가하고 학습에 필요한 데이터수도 증가하게 된다. 그러나 학습 데이터 수는 고정되어있기 때문에 기존 데이터 간 거리가 멀어지고 빈 공간은 아무런 정보도 담겨있지 않은 0으로 채워지는 sparse한 현상이 발생한다. 정보가 없는 공간이 많아지기 때문에 학습을 하면 성능이 저하될 수 밖에 없다. 차원의 저주 문제를 해결하려면? 더 많은 데이터를 추가 차원 축소 기법을 사용한다. (PCA, LDA, LLE, MDS 등) + 차원 축소 기법에는 어떤 것들이 있나요?
차원의 저주에 대해 설명해주세요차원의 저주는 차원이 증가하면서 학습데이터 수가 차원 수보다 적어져 성능이 저하되는 현상이다. 데이터 차원이 증가할수록 공간의 크기가 증가하고 학습에 필요한 데이터수도 증가하게 된다. 그러나 학습 데이터 수는 고정되어있기 때문에 기존 데이터 간 거리가 멀어지고 빈 공간은 아무런 정보도 담겨있지 않은 0으로 채워지는 sparse한 현상이 발생한다. 정보가 없는 공간이 많아지기 때문에 학습을 하면 성능이 저하될 수 밖에 없다. 차원의 저주 문제를 해결하려면? 더 많은 데이터를 추가 차원 축소 기법을 사용한다. (PCA, LDA, LLE, MDS 등) + 차원 축소 기법에는 어떤 것들이 있나요?
2022.11.16 -
Normalization(정규화) vs Regularization(정규화) Normalization : 데이터 feature들의 분포(scale)를 조절하여 균일하게 만드는 방법입니다. 데이터 자체를 정규화 시키는 것 Regularization : 모델에 테크닉적으로 정규화 시키는 것 Early Stopping Dropout data augmentation 둘 다 목적은 같다 → train에서 나온 성능을 test에서도 잘 발현시키고자 함 (generalization 성능) Normalization을 사용하는 이유? feature간의 분포(scale)차이가 매우 큰 경우, 큰 scale을 가지는 feature가 작은 scale을 가지는 feature보다 모델에 더 많이 반영되기 때문에 Normalizat..
Normalization은 무엇이고 왜 필요한가요?Normalization(정규화) vs Regularization(정규화) Normalization : 데이터 feature들의 분포(scale)를 조절하여 균일하게 만드는 방법입니다. 데이터 자체를 정규화 시키는 것 Regularization : 모델에 테크닉적으로 정규화 시키는 것 Early Stopping Dropout data augmentation 둘 다 목적은 같다 → train에서 나온 성능을 test에서도 잘 발현시키고자 함 (generalization 성능) Normalization을 사용하는 이유? feature간의 분포(scale)차이가 매우 큰 경우, 큰 scale을 가지는 feature가 작은 scale을 가지는 feature보다 모델에 더 많이 반영되기 때문에 Normalizat..
2022.11.16 -
회귀분석은 변수들 사이의 경향성 파악 및 실제값을 예측하는 모형을 구축하는 문제로, 예측값과 실제값 간 차이를 표현할 수 있는 metric을 사용한다. 따라서 MAE, MSE, RMSE 등의 값의 차이를 표현하는 metric을 사용한다. MAE (L1 Loss) 예측값과 실제값의 차이의 절댓값 평균 → MSE보다 이상치에 덜 민감하지만 MAE로 학습된 결과가 데이터의 중앙값으로 수렴하기 때문에 MSE에 비해 상대적으로 해석이 어렵다. MSE (L2 Loss) / RMSE 예측값과 실제값의 차이들의 제곱 평균 → 제곱을 하기 때문에 이상치에 민감하다. RMSLE RMSE처럼 MSE 값에 루트를 씌우는데, RMSE와의 차이점은 예측값과 정답값에 각각 로그를 씌운다는 점이다. 특징1. 상대적인 Error를 측..
회귀/분류 시 사용하는 metric에는 무엇이 있을까요?회귀분석은 변수들 사이의 경향성 파악 및 실제값을 예측하는 모형을 구축하는 문제로, 예측값과 실제값 간 차이를 표현할 수 있는 metric을 사용한다. 따라서 MAE, MSE, RMSE 등의 값의 차이를 표현하는 metric을 사용한다. MAE (L1 Loss) 예측값과 실제값의 차이의 절댓값 평균 → MSE보다 이상치에 덜 민감하지만 MAE로 학습된 결과가 데이터의 중앙값으로 수렴하기 때문에 MSE에 비해 상대적으로 해석이 어렵다. MSE (L2 Loss) / RMSE 예측값과 실제값의 차이들의 제곱 평균 → 제곱을 하기 때문에 이상치에 민감하다. RMSLE RMSE처럼 MSE 값에 루트를 씌우는데, RMSE와의 차이점은 예측값과 정답값에 각각 로그를 씌운다는 점이다. 특징1. 상대적인 Error를 측..
2022.11.16 -
우리가 머신러닝 모델을 만드는 이유는 여태까지 있었던 데이터를 가지고 목적하는 task의 Ground truth 확률 분포 함수에 근사한 확률 분포 함수를 통해 미래에 들어올 데이터에 대한 태스크를 정확히 수행하기 위해서이다. Ground truth 확률분포함수에 근사한 확률분포함수의 파라미터 θ를 찾기 위해 Likelihood function에 목표확률분포로부터 수집한 데이터를 입력하여 θ에 대한 확률 값의 곱을 통해 Likelihood를 최대화 하는 파라미터 θ를 찾는다. 이 Likelihood를 최대화 하는 파라미터를 찾아나가는 과정을 MLE(Maximum Likelihood Estimation)이라고 한다. + Likelihood function 더보기 입력으로 주어진 확률 분포를 표현하는 파라미..
MLE이란? Cross Entropy란?우리가 머신러닝 모델을 만드는 이유는 여태까지 있었던 데이터를 가지고 목적하는 task의 Ground truth 확률 분포 함수에 근사한 확률 분포 함수를 통해 미래에 들어올 데이터에 대한 태스크를 정확히 수행하기 위해서이다. Ground truth 확률분포함수에 근사한 확률분포함수의 파라미터 θ를 찾기 위해 Likelihood function에 목표확률분포로부터 수집한 데이터를 입력하여 θ에 대한 확률 값의 곱을 통해 Likelihood를 최대화 하는 파라미터 θ를 찾는다. 이 Likelihood를 최대화 하는 파라미터를 찾아나가는 과정을 MLE(Maximum Likelihood Estimation)이라고 한다. + Likelihood function 더보기 입력으로 주어진 확률 분포를 표현하는 파라미..
2022.09.25 -
💡 인공지능 안에 머신러닝, 머신러닝 안에 딥러닝이 있는 포함관계로 볼 수 있습니다. 인공지능 사람의 지적 능력을 컴퓨터를 통해 구현하는 기술 머신러닝 이런 인공지능의 연구 분야 중 하나가 머신러닝 머신러닝을 한국어로 직역하면 “기계학습” → 인공지능을 만들기 위해 기계를 학습시키는 다양한 방법 딥러닝 신경망을 깊게 쌓는 방식을 이용한 머신러닝의 한 종류 머신러닝과 딥러닝의 가장 큰 차이점은 사람의 개입 여부입니다. 예를 들어 머신러닝은 사람이 먼저 개와 고양이의 사진을 보고 개와 고양이의 특징을 추출한 후 많은 예시를 통해 컴퓨터를 학습시켜 추론할 수 있게 만듭니다. 딥러닝은 머신러닝에서 사람이 하던 패턴 추출 작업이 생략됩니다. 딥러닝에서는 스스로 개, 고양이의 특성을 훈련하여 개와 고양이를 분류하도..
인공지능 / 머신러닝 / 딥러닝에 대해 설명해주세요💡 인공지능 안에 머신러닝, 머신러닝 안에 딥러닝이 있는 포함관계로 볼 수 있습니다. 인공지능 사람의 지적 능력을 컴퓨터를 통해 구현하는 기술 머신러닝 이런 인공지능의 연구 분야 중 하나가 머신러닝 머신러닝을 한국어로 직역하면 “기계학습” → 인공지능을 만들기 위해 기계를 학습시키는 다양한 방법 딥러닝 신경망을 깊게 쌓는 방식을 이용한 머신러닝의 한 종류 머신러닝과 딥러닝의 가장 큰 차이점은 사람의 개입 여부입니다. 예를 들어 머신러닝은 사람이 먼저 개와 고양이의 사진을 보고 개와 고양이의 특징을 추출한 후 많은 예시를 통해 컴퓨터를 학습시켜 추론할 수 있게 만듭니다. 딥러닝은 머신러닝에서 사람이 하던 패턴 추출 작업이 생략됩니다. 딥러닝에서는 스스로 개, 고양이의 특성을 훈련하여 개와 고양이를 분류하도..
2022.08.03 -
전체 데이터셋을 일정 비율로 train dataset과 test dataset으로 나누어 train dataset을 이용해 모델을 학습하고 test dataset을 통해 최종적인 모델의 성능을 평가하는 것이 일반적이다. 그러나 고정된 train dataset으로 학습하고 고정된 test dataset으로 성능 평가를 통해 최적의 하이퍼 파라미터를 찾을 경우 test dataset에 overfitting할 위험이 크다. Cross validation 따라서 일반화된 모델을 만들고 신뢰성있는 모델 평가를 진행하기 위해서 Cross Validation를 수행한다. 교차 검증에는 다양한 종류가 존재한다. Hold-out Cross-Validation K-Fold Cross-Validation Stratified..
Cross Validation은 무엇인가요?전체 데이터셋을 일정 비율로 train dataset과 test dataset으로 나누어 train dataset을 이용해 모델을 학습하고 test dataset을 통해 최종적인 모델의 성능을 평가하는 것이 일반적이다. 그러나 고정된 train dataset으로 학습하고 고정된 test dataset으로 성능 평가를 통해 최적의 하이퍼 파라미터를 찾을 경우 test dataset에 overfitting할 위험이 크다. Cross validation 따라서 일반화된 모델을 만들고 신뢰성있는 모델 평가를 진행하기 위해서 Cross Validation를 수행한다. 교차 검증에는 다양한 종류가 존재한다. Hold-out Cross-Validation K-Fold Cross-Validation Stratified..
2022.08.02