ETC/컨퍼런스 정리
-
Langcon 2023 문상환님의 "한국어 토크나이징의 현재와 미래"를 듣고 정리한 내용입니다. 1. 토크나이징의 정의 및 한국어 적용 1.1 토크나이징 토크나이징이란 문자열을 특정 규칙에 의해 "토큰"으로 분절하는 여러 기법Subword 이전 한국어의 표준 분절은 형태소 기반 분절이었다. ex) KoNLPy토크나이징은 Transfer Learning에 있어 성능을 좌우하는 중요한 요소이다. 1.2 토큰 단위와 장단점 한국어의 경우 토큰은 어절 / 형태소 / 서브워드 / 음절로 분절하여 사용 가능하다. 토큰은 Representation Robustness, 토큰의 길이, OOV에 대한 Robustness 측면에서 균형이 필요하다. Representation Robustness : Embedding에 얼마..
[Langcon_2021] 한국어 토크나이징의 현재와 미래Langcon 2023 문상환님의 "한국어 토크나이징의 현재와 미래"를 듣고 정리한 내용입니다. 1. 토크나이징의 정의 및 한국어 적용 1.1 토크나이징 토크나이징이란 문자열을 특정 규칙에 의해 "토큰"으로 분절하는 여러 기법Subword 이전 한국어의 표준 분절은 형태소 기반 분절이었다. ex) KoNLPy토크나이징은 Transfer Learning에 있어 성능을 좌우하는 중요한 요소이다. 1.2 토큰 단위와 장단점 한국어의 경우 토큰은 어절 / 형태소 / 서브워드 / 음절로 분절하여 사용 가능하다. 토큰은 Representation Robustness, 토큰의 길이, OOV에 대한 Robustness 측면에서 균형이 필요하다. Representation Robustness : Embedding에 얼마..
2023.04.17 -
Langcon 2023 박장원님의 "특정 도메인에 맞는 언어 모델은 어떻게 만들까"를 듣고 정리한 내용입니다. 도메인 특화 언어모델 (Domain-Specific Language Model) Domain-Specific Language Model BioBERT, SciBERT, LegalBERT ... General Domain LM 뉴스, 위키, 책, 웹 크롤링 데이터로 학습 언어모델 Pretraining 학습 방법 Pretraining From Scratch 처음부터 특수 도메인 데이터로 학습 Continual Pretraining 처음부터 학습하기에는 비용이 많이 들기 때문에 BERT같은 기존에 학습된 언어모델을 가지고 학습 도메인 특화 언어모델을 만들 때 고려해야할 점 1. Data ▮ 지금 학습..
[Langcon_2023] 특정 도메인에 맞는 언어 모델은 어떻게 만들까Langcon 2023 박장원님의 "특정 도메인에 맞는 언어 모델은 어떻게 만들까"를 듣고 정리한 내용입니다. 도메인 특화 언어모델 (Domain-Specific Language Model) Domain-Specific Language Model BioBERT, SciBERT, LegalBERT ... General Domain LM 뉴스, 위키, 책, 웹 크롤링 데이터로 학습 언어모델 Pretraining 학습 방법 Pretraining From Scratch 처음부터 특수 도메인 데이터로 학습 Continual Pretraining 처음부터 학습하기에는 비용이 많이 들기 때문에 BERT같은 기존에 학습된 언어모델을 가지고 학습 도메인 특화 언어모델을 만들 때 고려해야할 점 1. Data ▮ 지금 학습..
2023.04.17