새소식

부스트캠프 AI Tech 4기

[NLP 데이터 제작] 5. 데이터 구축 가이드라인 작성 기초

  • -
1. 데이터 구축 가이드라인 작성 기초
    1.1 가이드라인의 유형
    1.2 가이드라인의 구성요소
    1.3 가이드라인의 버전 관리
    1.4 가이드라인 작성 도구
    1.5 가이드라인 작성 시 유의 사항

 

1. 데이터 구축 가이드라인 작성 기초

1.1 가이드라인의 유형

  • 주석을 위한 가이드라인은 필수
  • 수집과 검수를 위한 가이드라인은 선택적

 

 

 

 

1.2 가이드라인의 구성 요소

데이터 구축 목적 정의가 제일 중요함

 

 

▮ 데이터 구축 목적 정의 예시

작업자들의 작업에 대한 이해도를 높여 더 높은 품질의 데이터를 만들 수 있도록 돕는 역할

[인공지능 (AI) 학습용 데이터 품질관리 가이드라인 (v.1.0)] 한국지능정보사회진흥원 [인공지능 (AI) 학습용 데이터셋 구축 안내서] 한국지능정보사회진흥원

 

 

▮데이터 구축 가이드라인 용어 정의 예시

https://alt.qcri.org/semeval2016/task5/data/uploads/absa2016_annotationguidelines.pdf

 

 

▮데이터 수집 가이드라인 제시

https://kcorpus.korean.go.kr/boardFileDownload.data?seq=63

 

 

▮데이터 체계 제시 예시

https://kcorpus.korean.go.kr/boardFileDownload.data?seq=63

 

 

▮데이터 구축 도구 사용법 예시

섬세하게 도구의 사용법을 알려주는게 좋음

https://balsamiq.com/learn/articles/wireframe-annotations/

 

 


 

1.3 가이드라인의 버전 관리

  • 가이드라인은 구축과 검수 과정을 통해 지속적으로 개정되어야 함
  • 개정 전과 개정 후 어떤 것이 변화하였는지 비교하여 볼 수 있도록 버전 관리가 되는 것이 가장 좋음
  • 버전별로 작성자와 개정일을 기입해두는 것이 관리에 도움이 됨

 


 

1.4  가이드라인 작성 도구

▮ Google Docs

  • 공유가 자유롭고 중간중간 자동으로 저장이 됨
  • 가이드라인 초안을 작성할 때 좋음

 

▮ Notion

 

 


 

1.5  가이드라인 작성 시 유의 사항

  • 가이드라인의 유형별 특성을 이해하고 그에 알맞는 정보를 작성한다.
  • 작업자의 작업 이해도를 고려하여 작성한다.
  • 작업자에게 공개해야 하는 필수 정보와 부가적인 정보가 무엇인지 사전에 고려한다.
  • 가이드라인 구성 요소의 배치를 어떻게 할 지 고민한다.
  • 작업자의 가독성을 고려한다.
  • 꼭 필요한 정보만 넣고 중요한 정보는 강조한다.

 


부스트캠프 AI Tech 교육 자료를 참고하였습니다.

728x90
Contents