Preprocessing Workflow
1. 코퍼스 수집 : 구입,외주,크롤링
2. 정제 : Task에 따른 노이즈 제거, 인코딩 변환
(3. 레이블링 : Task에 따른 문장 or 단어마다 labeling 수행)
4. Tokenization : 형태소 분석기 활용하여 분절 수행
(5. Subword Segmentation : 단어보다 더 작은 의미 추가 분절 수행)
6. Batchify : 사전 생성 및 word2index 맵핑 수행, 효율화를 위한 전/후처리
아래와 같은 case들에서 label이 필요하다.
- Text Classification
- input: sentence
- output: class
Sentence → Class인 경우는 TSV 형태의 하나의 파일로 저장하는 것이 좋다.
(각 row가 문장과 대응되는 레이블로 이루어져있는 형태)
(csv는 문장 내에 ,가 있어서 NLP에서 자주 사용하지 않는다.)
- Token Classification (e.g. 형태소 분석)
- input: sentence
- output: tag for each token → sequence
- Sequence-to-Sequence
- input: sentence
- output: sentence
각 row가 대응되는 문장 쌍으로 이루어진 TSV 형태의 하나의 파일로 구성하거나
같은 순서의 row가 대응되는 문장 쌍으로 두 개 이상의 파일로 구성할 수 도 있다.