[NLP 데이터 제작] 4. 데이터 구축 작업 설계
1. 데이터 구축 작업 설계
1.1 데이터 구축 프로세스
1.2 데이터 주석
1.3 데이터 검수
1.4 데이터 구축 프로세스 설계 시 유의 사항
1. 데이터 구축 작업 설계
1.1 데이터 구축 프로세스
▮ 데이터 구축 예시


1.2 데이터 주석
▮ 데이터 주석 유형 1 : 분류
- 문장 또는 텍스트에 대한 분류 레이블 주석하는 유형 : 감성 분석, 주제 분류, 자연어 추론 등
- 구축 난이도는 일반적으로 낮은 편
▮ 데이터 주석 유형 2 : 특정 범위(span) 주석 - NER
- 텍스트의 일부를 선택하여 특정한 레이블을 주석하는 유형
▮ 데이터 주석 유형 2 : 특정 범위(span) 주석 - 형태 분석
- NER은 텍스트의 일부만 선택하여 레이블링을 하지만 형태분석은 모든 텍스트에 대해서 형태 분석을 진행
▮ 데이터 주석 유형 3 : 대상 간 관계 주석 - 개체명 연결
- 대상 간 관계를 주석하는 유형 - 관계 추출, 개체명 연결, 구문 분석 등
- 두 단계에 걸쳐 구축 해야 하므로 구축 난이도는 높은 편
▮ 데이터 주석 유형 3 : 대상 간 관계 주석 - 구문 분석
▮ 데이터 주석 유형 4 : 텍스트 생성 - 번역
- 주어진 텍스트에 대한 텍스트 또는 발화를 생성하는 유형 - 대화문, 번역, 요약 등
▮ 데이터 주석 유형 5 : 그 외 - 복합 유형
- 앞선 유형의 데이터 구축 방식을 복합적으로 사용하여 다양한 정보를 주석하는 유형
- 질의 응답, 슬롯필링 대화 등
1.3 데이터 검수
▮ 오류 원인 분석
- 구축방법 측면의 오류 원인
모델 데이터의 대상 선정, 수집, 정제, 라벨링 등의 통제 미흡으로 인하여 구축절차, 구조, 학습모델 측면의 다양한 오류 데이터 생성 - 가이드라인 측면의 오류 원인
구축 가이드라인의 불완전성, 미준수로 인하여 작업자간 서로 상이하게 작업을 수행하거나 데이터간 일관성 위배 - 데이터셋 측면의 오류 원인
데이터셋 설계의 부족, 구문정확성 위배, 데이터 구축 중복 등 - 학습모델 측면의 오류 원인
학습모델에 적합한 데이터 구축이 수행되지 않았거나, 잘못된 학습모델 선정으로 데이터 구축 방향이 잘못된 경우
▮ 데이터 검수 유형
- 표본 추출
- 전수 검사
▮ 데이터 평가
- 작업자 간 일치도 (IAA, Inter-Annotator Agreemen)
- cohen's
- Fleiss
- 모델 평가
- 정확도
- 정밀도
- 재현율
- F1
1.4 데이터 구축 프로세스 설계 시 유의 사항
- 데이터 구축 기간은 넉넉하게 설정할 것
- 검수에 충분한 시간을 확보할 것
- 검수 내용을 어느 시점에 어떻게 반영할 것인가 하는 계획을 세울 것
- 품질 미달인 경우의 보완책을 마련할 것
- 작업 난이도에 따라 참여 인력을 산정하고, 참여 인력 모집 및 관리를 어떻게 할 것인지 고민할 것
- 각 단계별 작업의 주체를 고려할 것
- 각 단계별 검수 유형을 지정해둘 것
- 외부 인력 및 자원을 활용하는 경우 비용 산정을 위해 기본 단가 산정 기준을 잘 세울 것
부스트캠프 AI Tech 교육 자료를 참고하였습니다.