새소식

딥러닝/자연어 처리

NLP_Preprocessing : 3)Labeling

  • -

Preprocessing Workflow

1. 코퍼스 수집 : 구입,외주,크롤링

2. 정제 : Task에 따른 노이즈 제거, 인코딩 변환

(3. 레이블링 : Task에 따른 문장 or 단어마다 labeling 수행)

4. Tokenization : 형태소 분석기 활용하여 분절 수행

(5.  Subword Segmentation : 단어보다 더 작은 의미 추가 분절 수행)

6. Batchify : 사전 생성 및 word2index 맵핑 수행, 효율화를 위한 전/후처리

 


아래와 같은 case들에서 label이 필요하다.

  • Text Classification
    - input: sentence
    - output: class

Sentence → Class인 경우는 TSV 형태의 하나의 파일로 저장하는 것이 좋다.
(각 row가 문장과 대응되는 레이블로 이루어져있는 형태)

(csv는 문장 내에 ,가 있어서 NLP에서 자주 사용하지 않는다.)

 

  • Token Classification (e.g. 형태소 분석)
    - input: sentence
    - output: tag for each token → sequence

 

  • Sequence-to-Sequence
    - input: sentence
    - output: sentence

각 row가 대응되는 문장 쌍으로 이루어진 TSV 형태의 하나의 파일로 구성하거나

같은 순서의 row가 대응되는 문장 쌍으로 두 개 이상의 파일로 구성할 수 도 있다.

 

 

 

728x90
Contents