딥러닝/자연어 처리
-
[CS244n] Transformers & Pretraining 2022.05.31
-
[CS244n] Self-Attention & Transformer 2022.05.29
-
[CS244n] Machine Translation with Seq2Seq and Attention 2022.05.27
-
[CS244n] LSTM 2022.05.21
-
트랜스포머 트랜스포머(Transformer)는 2017년 구글이 발표한 논문인 "Attention is all you need"에서 나온 모델로 기존의 seq2seq의 구조인 인코더-디코더를 따르면서도, 논문의 이름처럼 어텐션(Attention)만으로 구현한 모델이다. 이 모델은 RNN을 사용하지 않고, 인코더-디코더 구조를 설계하였음에도 번역 성능에서도 RNN보다 우수한 성능을 보인다. 트랜스포머는 시퀀스-투-시퀀스(sequence-to-sequence) 태스크를 수행하기 위한 모델이다. 시퀀스-투-시퀀스는 특정 속성을 지닌 시퀀스를 다른 속성의 시퀀스로 변환하는 작업을 의미한다. 시퀀스-투-시퀀스 태스크의 예시로 기계번역이 있다. (어떤 언어(source language)의 단어 시퀀스 → 다른 언어..
트랜스포머트랜스포머 트랜스포머(Transformer)는 2017년 구글이 발표한 논문인 "Attention is all you need"에서 나온 모델로 기존의 seq2seq의 구조인 인코더-디코더를 따르면서도, 논문의 이름처럼 어텐션(Attention)만으로 구현한 모델이다. 이 모델은 RNN을 사용하지 않고, 인코더-디코더 구조를 설계하였음에도 번역 성능에서도 RNN보다 우수한 성능을 보인다. 트랜스포머는 시퀀스-투-시퀀스(sequence-to-sequence) 태스크를 수행하기 위한 모델이다. 시퀀스-투-시퀀스는 특정 속성을 지닌 시퀀스를 다른 속성의 시퀀스로 변환하는 작업을 의미한다. 시퀀스-투-시퀀스 태스크의 예시로 기계번역이 있다. (어떤 언어(source language)의 단어 시퀀스 → 다른 언어..
2022.05.17 -
언어 모델(language model)은 단어 시퀀스에 확률을 부여하는 모델이다. 확률을 부여한다는 것은 단어/문장을 선택하거나 생성해야 하는 경우 더 적절한 단어/문장을 선택하는데 사용될 수 있다는 것을 의미한다. 그렇기 때문에 음성 인식, 기계 번역등 언어와 관련된 여러 과제에서 널리 쓰이고 있다. 언어 모델은 처음에는 단순한 구조에서 출발하여 한계를 극복하기 위해 조금씩 발전하는 형태로 진화하고 있다.
[CS244n] RNN언어 모델(language model)은 단어 시퀀스에 확률을 부여하는 모델이다. 확률을 부여한다는 것은 단어/문장을 선택하거나 생성해야 하는 경우 더 적절한 단어/문장을 선택하는데 사용될 수 있다는 것을 의미한다. 그렇기 때문에 음성 인식, 기계 번역등 언어와 관련된 여러 과제에서 널리 쓰이고 있다. 언어 모델은 처음에는 단순한 구조에서 출발하여 한계를 극복하기 위해 조금씩 발전하는 형태로 진화하고 있다.
2022.03.02