딥러닝
-
auto-regressive은 문장의 확률값을 구하듯이 이전의 단어들로 다음 단어의 probability distribution을 추정한다. (입력값은 prompt이고 출력값은 prompt 다음에 오는 단어의 확률 분포) 현재 transformers에서 auto-regressive 언어 생성을 사용할 수 있는 모델은 GPT2, XLNet, CTRL, TransfoXL, Bart, T5등이 있다. 학습된 distribution 에서 어떤 단어를 선택하는지에 따라 greedy search, beam search, Top-K, Top-p 같은 방법이 존재한다. Greedy Search The에서 시작해서 3번째 토큰으로 적절한 것을 선택하려면 위의 그림에서는 총 9가지의 경우의 확률 분포를 계산해보아야 한다...
How to generate text: decoding methodsauto-regressive은 문장의 확률값을 구하듯이 이전의 단어들로 다음 단어의 probability distribution을 추정한다. (입력값은 prompt이고 출력값은 prompt 다음에 오는 단어의 확률 분포) 현재 transformers에서 auto-regressive 언어 생성을 사용할 수 있는 모델은 GPT2, XLNet, CTRL, TransfoXL, Bart, T5등이 있다. 학습된 distribution 에서 어떤 단어를 선택하는지에 따라 greedy search, beam search, Top-K, Top-p 같은 방법이 존재한다. Greedy Search The에서 시작해서 3번째 토큰으로 적절한 것을 선택하려면 위의 그림에서는 총 9가지의 경우의 확률 분포를 계산해보아야 한다...
2022.06.15 -
Generated Sentence를 평가하는 방식은 크게 BLEU와 ROUGE가 존재한다. Reference Setence의 단어가 Generated Sentence에 포함되는 정도 → ROUGE Generated Sentence의 단어가 Reference Sentence에 포함되는 정도 → BLEU (모델로부터 생성되는 문장: Generated Sentence, 정답 문장: Reference Sentence) ROUGE Score는 주로 Text Summarization에서 사용 n-gram Recall에 기반 BLEU Score는 일반적으로 Machine Translation에서 사용 n-gram Precision에 기반 BLEU(Bilingual Evaluation Understudy) BLEU는 ..
[LM metric] BLEU(Bilingual Evaluation Understudy)Generated Sentence를 평가하는 방식은 크게 BLEU와 ROUGE가 존재한다. Reference Setence의 단어가 Generated Sentence에 포함되는 정도 → ROUGE Generated Sentence의 단어가 Reference Sentence에 포함되는 정도 → BLEU (모델로부터 생성되는 문장: Generated Sentence, 정답 문장: Reference Sentence) ROUGE Score는 주로 Text Summarization에서 사용 n-gram Recall에 기반 BLEU Score는 일반적으로 Machine Translation에서 사용 n-gram Precision에 기반 BLEU(Bilingual Evaluation Understudy) BLEU는 ..
2022.06.08 -
Evaluate Language Models 언어 모델의 평가 방식은 크게 2가지로 구분할 수 있다. 외부적 평가(Extrinsic): 언어모델을 특정 태스크에 적용해서 loss/accuracy를 사용하여 확인하는 방법 내부적 평가(Intrinsic): 태스크에 적용하지 않고 언어모델의 자체적인 역량을 평가하는 방법 외부적 평가방법에 비해 정확하지는 않겠지만 모델별 비교에 적합 Perplexity Perplexity는 내부적 평가 방식에 해당한다. Perplexity is the inverse probability of the test set, normalized by the number of words Perplexity는 단어의 수로 정규화된 테스트 데이터셋에 대한 확률의 역수이다. : 테스트 문장에..
[LM metric] PerplexityEvaluate Language Models 언어 모델의 평가 방식은 크게 2가지로 구분할 수 있다. 외부적 평가(Extrinsic): 언어모델을 특정 태스크에 적용해서 loss/accuracy를 사용하여 확인하는 방법 내부적 평가(Intrinsic): 태스크에 적용하지 않고 언어모델의 자체적인 역량을 평가하는 방법 외부적 평가방법에 비해 정확하지는 않겠지만 모델별 비교에 적합 Perplexity Perplexity는 내부적 평가 방식에 해당한다. Perplexity is the inverse probability of the test set, normalized by the number of words Perplexity는 단어의 수로 정규화된 테스트 데이터셋에 대한 확률의 역수이다. : 테스트 문장에..
2022.06.07 -
보통 라벨링 된 데이터를 바탕으로 지도학습을 진행한다. 그러나 라벨링 된 데이터는 제한적이며 unlabeled된 데이터가 훨씬 많기 때문에 이를 활용한다면 시간과 비용을 절약할 수 있다. Unlabeled data의 한계점 1. 어떤 목적함수(Optimization objective)가 효과적인지 알 수 없다. 2. 주어진 task에 대해서 어떤 방식으로 transfer 하는지에 대해서도 정해진 효율적인 방법이 없다. GPT는 해당 한계점을 보완하고자 unlabeled 데이터에 언어 모델링 목적함수(Language Modeling Objective)를 사용하여 Pre-training을 진행하고 Labeled 데이터를 이용하여 Fine-tuning하여 특정 task에 적용시키는 방식이다. Unsupervi..
GPT & GPT2보통 라벨링 된 데이터를 바탕으로 지도학습을 진행한다. 그러나 라벨링 된 데이터는 제한적이며 unlabeled된 데이터가 훨씬 많기 때문에 이를 활용한다면 시간과 비용을 절약할 수 있다. Unlabeled data의 한계점 1. 어떤 목적함수(Optimization objective)가 효과적인지 알 수 없다. 2. 주어진 task에 대해서 어떤 방식으로 transfer 하는지에 대해서도 정해진 효율적인 방법이 없다. GPT는 해당 한계점을 보완하고자 unlabeled 데이터에 언어 모델링 목적함수(Language Modeling Objective)를 사용하여 Pre-training을 진행하고 Labeled 데이터를 이용하여 Fine-tuning하여 특정 task에 적용시키는 방식이다. Unsupervi..
2022.06.04 -
[CS244n] Transformers & Pretraining 2022.05.31
-
[CS244n] Self-Attention & Transformer 2022.05.29
-
[CS244n] Machine Translation with Seq2Seq and Attention 2022.05.27
-
OO홈쇼핑: 요즘 가장 핫 한 패션을 기반으로 다음 시즌에 잘 팔릴 패션을 예측하고 싶어요. AI Engineer: ??? → 모델 입출력 정의: - 입력: 현재 및 이전 두 시즌에서 핫 한 패션 데이터 - 출력: 다음 시즌 핫 한 패션 데이터 → 모델 정의: - 시간에 따른 입력 데이터의 경향성을 파악하여 미래를 예측 - Predictive Problems: Classify, Forecast, Anomaly, Cluster, Time Series → 데이터 구축: - OO홈쇼핑 자체 데이터 구성 확인 - 불충분할 시, 추가 데이터 확보 필요 ↦ 데이터 크롤링 기반 문제 해결 (타 업체 명예훼손하지 않는 선에서 데이터 크롤링으로 해결 가능) - 데이터 구성은 어떻게 할지 - 모델에 맞는 데이터 구성 필요..
머신러닝 프로젝트 FlowOO홈쇼핑: 요즘 가장 핫 한 패션을 기반으로 다음 시즌에 잘 팔릴 패션을 예측하고 싶어요. AI Engineer: ??? → 모델 입출력 정의: - 입력: 현재 및 이전 두 시즌에서 핫 한 패션 데이터 - 출력: 다음 시즌 핫 한 패션 데이터 → 모델 정의: - 시간에 따른 입력 데이터의 경향성을 파악하여 미래를 예측 - Predictive Problems: Classify, Forecast, Anomaly, Cluster, Time Series → 데이터 구축: - OO홈쇼핑 자체 데이터 구성 확인 - 불충분할 시, 추가 데이터 확보 필요 ↦ 데이터 크롤링 기반 문제 해결 (타 업체 명예훼손하지 않는 선에서 데이터 크롤링으로 해결 가능) - 데이터 구성은 어떻게 할지 - 모델에 맞는 데이터 구성 필요..
2022.05.26