전체 프로젝트에서 데이터 관련 작업에 소요되는 시간 비율은 80%이다.
데이터 구축 과정
- 원시 데이터 선정 및 확보
- 구축 및 가공 프로세스 확립
- 구축 및 가공 지침 작성
- 데이터 구축 및 가공
- 데이터 검수
AI 데이터 설계의 구성요소
1. 데이터 설계
- 데이터의 유형
- 데이터의 In/Out 형식
- train/dev/test 별 규모와 구문 분석
- 규모 선정에 필요한 정보 : 확보 가능한 원시데이터의 규모, 주석 작업 시간
- 구분 방식 : 데이터 별 비율과 기준 정하기
- 데이터 주석(annotation) 유형
주석 유형 (Annotation Type) |
주요 활용 용도 |
클래스 라벨 (단일, 다중) |
텍스트 분류 |
단어(구문) 라벨 |
명명된 개체명(Entity) 인식 (Named Entity Recognition) |
텍스트 라벨 |
문장 번역/문장 요약 |
단어(구문) 라벨링 및 두 단어 사이의 관계 |
관계-의존성 정의 (Relation-Dependencies) |
기타 |
그 밖의 용도 |
2. 데이터 수집-가공 설계 (앞선 데이터 구축 과정)
- 원시 데이터 수집 방식
- 전산화, 스크래핑, 작업자 작성, 모델 생성 : 적합한 데이터란 무엇인지 기준 세우기
- 작업자 선정
- 주석 작업의 난이도와 구축 규모에 맞는 작업자 선정 및 작업관리
- 구축 및 검수 설계
- 구축 작업의 난이도와 구축 규모, 태스크 특성에 맞는 구축 및 검수 방식 설계
- 파일럿 (보통 문장 3만개의 10%) → 본 구축
- 데이터 구축 및 가공
- 파일럿
- 설계 시 발견하지 못한 이슈 발굴 및 해결
- 가이드라인 보완 및 개정
- 작업자 선정
- 본 구축
- 작업 일정 관리
- 작업자 관리
- 중간 검수를 통한 데이터 품질 관리
- 데이터 검수 및 분석
- 평가 지표 설정
- 전문가 평가 및 분석
- 자동 평가 및 분석
- 데이터 형식
- 레이블 별 분포 파악
- 일괄 수정 사항 반영