딥러닝
-
부스트코스의 모델 경량화 강의를 듣고 정리하였습니다. 1. 모델 경량화 관점에서의 AutoML 1.1 Conventional Deep Learning Training Pipeline 일반적으로 "데이터 엔지니어링"은 데이터 클린징, 전처리, 피쳐 엔지니어링, ML 알고리즘 선택, 하이퍼파라미터 설정이라는 일련의 과정을 의미한다. 딥러닝에서는 ML 알고리즘 선택은 백본 모델을 선택하는 과정, 하이퍼파라미터 설정에는 Loss, Optimizer 등을 조정하는 과정이다. 모델을 학습하고 하이퍼 파라미터를 선정하는 과정은, 주어진 Task와 데이터셋이 있다면 성능이 잘 나올 것 같은 Model Architecture를 선정하고 하이퍼파라미터를 선택한다. 그 다음 성능이 얼마나 잘 나오는지 Train & Eval..
[모델 경량화] 작은 모델, 좋은 파라미터 찾기 - AutoML부스트코스의 모델 경량화 강의를 듣고 정리하였습니다. 1. 모델 경량화 관점에서의 AutoML 1.1 Conventional Deep Learning Training Pipeline 일반적으로 "데이터 엔지니어링"은 데이터 클린징, 전처리, 피쳐 엔지니어링, ML 알고리즘 선택, 하이퍼파라미터 설정이라는 일련의 과정을 의미한다. 딥러닝에서는 ML 알고리즘 선택은 백본 모델을 선택하는 과정, 하이퍼파라미터 설정에는 Loss, Optimizer 등을 조정하는 과정이다. 모델을 학습하고 하이퍼 파라미터를 선정하는 과정은, 주어진 Task와 데이터셋이 있다면 성능이 잘 나올 것 같은 Model Architecture를 선정하고 하이퍼파라미터를 선택한다. 그 다음 성능이 얼마나 잘 나오는지 Train & Eval..
2023.04.24 -
부스트코스의 모델 경량화 강의를 듣고 정리하였습니다. 1. 경량화의 목적 1.1 On device AI 개발된 모델이 휴대폰이나 스마트 워치 등 IoT 기기들에서 돌아가게 된다면 여러 제약사항들이 존재한다. 경량화를 통해 아래와 같은 한계점들을 해소할 수 있다. Power Usage (Battery) RAM Memory Usage Storage Computing Power 1.2 AI on Cloud(Server) 배터리, 저장공간, 연산능력의 제약은 줄어드나, latency(한 요청의 소요 시간)와 throughput(단위 시간 당 처리 가능한 요청 수)의 제약이 존재한다. 경량화를 통해 같은 자원으로 적은 latency와 많은 throughput이 가능하다. 1.3 Computation as a ke..
[모델 경량화] 경량화란부스트코스의 모델 경량화 강의를 듣고 정리하였습니다. 1. 경량화의 목적 1.1 On device AI 개발된 모델이 휴대폰이나 스마트 워치 등 IoT 기기들에서 돌아가게 된다면 여러 제약사항들이 존재한다. 경량화를 통해 아래와 같은 한계점들을 해소할 수 있다. Power Usage (Battery) RAM Memory Usage Storage Computing Power 1.2 AI on Cloud(Server) 배터리, 저장공간, 연산능력의 제약은 줄어드나, latency(한 요청의 소요 시간)와 throughput(단위 시간 당 처리 가능한 요청 수)의 제약이 존재한다. 경량화를 통해 같은 자원으로 적은 latency와 많은 throughput이 가능하다. 1.3 Computation as a ke..
2023.04.20 -
Vision Transformer 논문에 inductive bias라는 단어가 등장한다. Transformers lack some of the inductive biases inherent to CNNs, such as translation equivariance and locality, and therefore do not generalize well when trianed on insufficient amounts of data. Transformer에는 CNN에 고유한 inductive bias가 부족하므로 충분하지 않은 양의 데이터로 학습할 때 일반화가 어렵다고 말한다. Inductive bias을 무엇이라고 이해하면 될까? Bias Bias하면 Bias와 Variance의 trade-off 관계..
Inductive BiasVision Transformer 논문에 inductive bias라는 단어가 등장한다. Transformers lack some of the inductive biases inherent to CNNs, such as translation equivariance and locality, and therefore do not generalize well when trianed on insufficient amounts of data. Transformer에는 CNN에 고유한 inductive bias가 부족하므로 충분하지 않은 양의 데이터로 학습할 때 일반화가 어렵다고 말한다. Inductive bias을 무엇이라고 이해하면 될까? Bias Bias하면 Bias와 Variance의 trade-off 관계..
2023.04.07 -
Batch Normalization Batch-size가 32이고 활성화 함수로 ReLU를 사용했다고 가정한다. 그러면 한 노드에 대해서 32개의 데이터가 각각 통과할 것이다. ReLU 함수에 모두 양수값의 형태로 들어간다면 자기 자신 그대로의 값이 나올 것이다. 그러면 활성화 함수로 ReLU를 사용한 건지 linear 함수를 사용한건지 구별할 수 없다. 그러면 이 노드는 비선형성이 없는 노드가 된다는 것이다. 즉, ReLU 함수는 이런 선형적인 특성 때문에 Sigmoid의 문제점인 Vanishing Gradient를 해결해주지만 위와 같은 입력 현상이 발생했을 때 비선형적인 관계를 잘 표현하기 어렵다. (ReLU 함수에 모두 음수값의 형태로 들어간다면 0이 출력될 것이다. 그러면 Vanishing Gr..
Batch Normalization / Layer NormalizationBatch Normalization Batch-size가 32이고 활성화 함수로 ReLU를 사용했다고 가정한다. 그러면 한 노드에 대해서 32개의 데이터가 각각 통과할 것이다. ReLU 함수에 모두 양수값의 형태로 들어간다면 자기 자신 그대로의 값이 나올 것이다. 그러면 활성화 함수로 ReLU를 사용한 건지 linear 함수를 사용한건지 구별할 수 없다. 그러면 이 노드는 비선형성이 없는 노드가 된다는 것이다. 즉, ReLU 함수는 이런 선형적인 특성 때문에 Sigmoid의 문제점인 Vanishing Gradient를 해결해주지만 위와 같은 입력 현상이 발생했을 때 비선형적인 관계를 잘 표현하기 어렵다. (ReLU 함수에 모두 음수값의 형태로 들어간다면 0이 출력될 것이다. 그러면 Vanishing Gr..
2023.04.02 -
▮ MSE의 단점 아래는 MSE(평균제곱오차)의 식이다. $$ e = \frac{1}{2} \parallel y-o \parallel ^{2}_{2} $$ 목표로 하는 값 $ y $와 모델의 출력값 $ o $의 차이가 클수록 모델에게 주는 벌점($e$)도 커지는 것이 학습하는데 있어서 적합해보인다. 그러나 왜 딥러닝에서는 MSE를 사용하지 않을까? 예를 들어 입력이 1.5이고 출력값이 0인 샘플이 모델에 입력되었다고 가정하고, 아래에 다음과 같은 두 모델이 있다고 가정하자 1) $ \hat{y} = \sigma (0.4x + 0.5) $ → $ \hat{y} = 0.7503 $ 2) $ \hat{y} = \sigma (1.9x + 3.0) $ → $ \hat{y} = 0.9971 $ 2번 모델이 원래 목..
딥러닝에서 왜 목적함수로 MSE가 아닌 Cross Entropy를 사용할까?▮ MSE의 단점 아래는 MSE(평균제곱오차)의 식이다. $$ e = \frac{1}{2} \parallel y-o \parallel ^{2}_{2} $$ 목표로 하는 값 $ y $와 모델의 출력값 $ o $의 차이가 클수록 모델에게 주는 벌점($e$)도 커지는 것이 학습하는데 있어서 적합해보인다. 그러나 왜 딥러닝에서는 MSE를 사용하지 않을까? 예를 들어 입력이 1.5이고 출력값이 0인 샘플이 모델에 입력되었다고 가정하고, 아래에 다음과 같은 두 모델이 있다고 가정하자 1) $ \hat{y} = \sigma (0.4x + 0.5) $ → $ \hat{y} = 0.7503 $ 2) $ \hat{y} = \sigma (1.9x + 3.0) $ → $ \hat{y} = 0.9971 $ 2번 모델이 원래 목..
2023.03.31 -
Part 1: Foundations of Contrastive Learning Contrastive Learning Objectives Contrastive Data Sampling and Augmentation Strategies Analysis of Contrastive Learning 아래와 같이 3가지 측면에서 Contrastive Learning을 살펴볼 예정이다. ● Geometric Interpretation ● Connection to Mutual Information ● Robustness and Security 1. Geometric Interpretation Understanding Contrastive Representation Learning through Alignment and..
[Contrastive Data and Learning for Natural Language Processing] - 1.3 Analysis of Contrastive LearningPart 1: Foundations of Contrastive Learning Contrastive Learning Objectives Contrastive Data Sampling and Augmentation Strategies Analysis of Contrastive Learning 아래와 같이 3가지 측면에서 Contrastive Learning을 살펴볼 예정이다. ● Geometric Interpretation ● Connection to Mutual Information ● Robustness and Security 1. Geometric Interpretation Understanding Contrastive Representation Learning through Alignment and..
2023.03.06 -
Part 1: Foundations of Contrastive Learning Contrastive Learning Objectives Contrastive Data Sampling and Augmentation Strategies Analysis of Contrastive Learning 1. Self-Supervised Contrastive Learning 대부분의 Contrastive Learning 프레임워크는 Self-Supervised Learning이다. 보통 Positive Pair의 경우 Data Augmentation을 진행하고 Negative Pair의 경우 랜덤으로 선정한다. (e.g. In-batch Negatives) 이렇게 Self-Supervised Learning을 할 때 ..
[Contrastive Data and Learning for Natural Language Processing] - 1.2 Contrastive Data Sampling and Augmentation StrategiesPart 1: Foundations of Contrastive Learning Contrastive Learning Objectives Contrastive Data Sampling and Augmentation Strategies Analysis of Contrastive Learning 1. Self-Supervised Contrastive Learning 대부분의 Contrastive Learning 프레임워크는 Self-Supervised Learning이다. 보통 Positive Pair의 경우 Data Augmentation을 진행하고 Negative Pair의 경우 랜덤으로 선정한다. (e.g. In-batch Negatives) 이렇게 Self-Supervised Learning을 할 때 ..
2023.03.01 -
Part 1: Foundations of Contrastive Learning Contrastive Learning Objectives Contrastive Data Sampling and Augmentation Strategies Analysis of Contrastive Learning 1. What is Contrastive Learning 최근의 NLP 모델들은 representation learning 알고리즘에 크게 의존한다. Contrastive Learning은 유사한 데이터 샘플 쌍은 가깝게 representation되고, 유사하지 않은 데이터 샘플 쌍은 멀리 떨어져 있도록 임베딩 공간을 학습하는 기법이다. Contrastive Learning을 하기위해서는 두 가지 필수 요소가 필요하다..
[Contrastive Data and Learning for Natural Language Processing] - 1.1 Contrastive Learning ObjectivesPart 1: Foundations of Contrastive Learning Contrastive Learning Objectives Contrastive Data Sampling and Augmentation Strategies Analysis of Contrastive Learning 1. What is Contrastive Learning 최근의 NLP 모델들은 representation learning 알고리즘에 크게 의존한다. Contrastive Learning은 유사한 데이터 샘플 쌍은 가깝게 representation되고, 유사하지 않은 데이터 샘플 쌍은 멀리 떨어져 있도록 임베딩 공간을 학습하는 기법이다. Contrastive Learning을 하기위해서는 두 가지 필수 요소가 필요하다..
2023.02.24