부스트캠프 AI Tech 4기

[NLP 데이터 제작] 1. 데이터 제작의 전체적인 흐름

StoneSeller 2022. 12. 9. 21:19

전체 프로젝트에서 데이터 관련 작업에 소요되는 시간 비율은 80%이다. 

 

데이터 구축 과정

  1. 원시 데이터 선정 및 확보
    • 저작권, 태스크 적합성을 신경 써야 함
  2. 구축 및 가공 프로세스 확립
    • 구축 및 검수 절차, 작업자 선정
  3. 구축 및 가공 지침 작성
    • 플랫폼 소통 및 작업자 교육
  4. 데이터 구축 및 가공
    • 파일럿, 작업자 관리
  5. 데이터 검수
    • 품질 평가 기준, 데이터 규격, 내용

 

 

AI 데이터 설계의 구성요소

1. 데이터 설계

  • 데이터의 유형
    • 소리
    • 텍스트
    • 이미지
    • 영상
  • 데이터의 In/Out 형식
    • HTML, XML, CSV, TSV ...
  • train/dev/test 별 규모와 구문 분석
    • 규모 선정에 필요한 정보 : 확보 가능한 원시데이터의 규모, 주석 작업 시간
    • 구분 방식 : 데이터 별 비율과 기준 정하기
  • 데이터 주석(annotation) 유형
주석 유형 (Annotation Type) 주요 활용 용도
클래스 라벨 (단일, 다중) 텍스트 분류
단어(구문) 라벨 명명된 개체명(Entity) 인식 (Named Entity Recognition)
텍스트 라벨 문장 번역/문장 요약
단어(구문) 라벨링 및 두 단어 사이의 관계 관계-의존성 정의 (Relation-Dependencies)
기타 그 밖의 용도

 

2. 데이터 수집-가공 설계 (앞선 데이터 구축 과정)

  • 원시 데이터 수집 방식
    • 전산화, 스크래핑, 작업자 작성, 모델 생성 : 적합한 데이터란 무엇인지 기준 세우기
  • 작업자 선정
    • 주석 작업의 난이도와 구축 규모에 맞는 작업자 선정 및 작업관리
      • 전문가, 크라우드 소싱
  • 구축 및 검수 설계
    • 구축 작업의 난이도와 구축 규모, 태스크 특성에 맞는 구축 및 검수 방식 설계
      • 파일럿 (보통 문장 3만개의 10%) → 본 구축
  • 데이터 구축 및 가공
    • 파일럿
      • 설계 시 발견하지 못한 이슈 발굴 및 해결
      • 가이드라인 보완 및 개정
      • 작업자 선정
    • 본 구축
      • 작업 일정 관리
      • 작업자 관리
      • 중간 검수를 통한 데이터 품질 관리
  • 데이터 검수 및 분석
    • 평가 지표 설정
      • 전문가 평가 및 분석
        • 샘플링 검사
        • 가이드라인 적합도 분석
      • 자동 평가 및 분석
        • 데이터 형식
        • 레이블 별 분포 파악
        • 일괄 수정 사항 반영

 

728x90