새소식

부스트캠프 AI Tech 4기

[NLP 데이터 제작] 4. 데이터 구축 작업 설계

  • -
1. 데이터 구축 작업 설계
    1.1 데이터 구축 프로세스
    1.2 데이터 주석
    1.3 데이터 검수
    1.4 데이터 구축 프로세스 설계 시 유의 사항

 

1. 데이터 구축 작업 설계

1.1 데이터 구축 프로세스

 

▮ 데이터 구축 예시

 

[인공지능 (AI) 학습용 데이터 품질관리 가이드라인 (v.1.0)] 한국지능정보사회진흥원

 


 

1.2 데이터 주석

▮ 데이터 주석 유형 1 :  분류

  • 문장 또는 텍스트에 대한 분류 레이블 주석하는 유형 : 감성 분석, 주제 분류, 자연어 추론 등
  • 구축 난이도는 일반적으로 낮은 편

https://opendatahub.io/news/2019-09-04/sentiment-analysis-blog.html

 

▮ 데이터 주석 유형 2  : 특정 범위(span) 주석 - NER

  • 텍스트의 일부를 선택하여 특정한 레이블을 주석하는 유형

https://medium.com/@b.terryjack/nlp-pretrained-named-entity-recognition-7caa5cd28d7b

 

▮ 데이터 주석 유형 2 :  특정 범위(span) 주석 - 형태 분석

  • NER은 텍스트의 일부만 선택하여 레이블링을 하지만 형태분석은 모든 텍스트에 대해서 형태 분석을 진행

http://habit-project.eu/wiki/CorpusAnnotationTool

 

 

▮ 데이터 주석 유형 3 : 대상 간 관계 주석 - 개체명 연결

  • 대상 간 관계를 주석하는 유형 - 관계 추출, 개체명 연결, 구문 분석 등
  • 두 단계에 걸쳐 구축 해야 하므로 구축 난이도는 높은 편

https://brat.nlplab.org/introduction.html

 

▮ 데이터 주석 유형 3 : 대상 간 관계 주석 - 구문 분석

https://aclanthology.org/W17-7604.pdf

 

 

▮ 데이터 주석 유형 4 : 텍스트 생성 - 번역

  • 주어진 텍스트에 대한 텍스트 또는 발화를 생성하는 유형 - 대화문, 번역, 요약 등

https://www.researchgate.net/figure/The-HUME-annotation-tool-The-top-orange-box-contains-the-translation-The-source_fig2_312250884

 

 

▮ 데이터 주석 유형 5 : 그 외 - 복합 유형

  • 앞선 유형의 데이터 구축 방식을 복합적으로 사용하여 다양한 정보를 주석하는 유형
  • 질의 응답, 슬롯필링 대화 등

https://medium.com/uaslava/top-nlp-tools-for-chatbot-creators-38f5ecdc3655

 

 


 

1.3 데이터 검수

 

▮ 오류 원인 분석

  • 구축방법 측면의 오류 원인
    모델  데이터의 대상 선정, 수집, 정제, 라벨링 등의 통제 미흡으로 인하여 구축절차, 구조, 학습모델 측면의 다양한 오류 데이터 생성
  • 가이드라인 측면의 오류 원인 
    구축 가이드라인의 불완전성, 미준수로 인하여 작업자간 서로 상이하게 작업을 수행하거나 데이터간 일관성 위배
  • 데이터셋 측면의 오류 원인
    데이터셋 설계의 부족, 구문정확성 위배, 데이터 구축 중복 등
  • 학습모델 측면의 오류 원인
    학습모델에 적합한 데이터 구축이 수행되지 않았거나, 잘못된 학습모델 선정으로 데이터 구축 방향이 잘못된 경우

 

▮ 데이터 검수 유형

  • 표본 추출
  • 전수 검사

 

▮ 데이터 평가

  • 작업자 간 일치도 (IAA, Inter-Annotator Agreemen)
    • cohen's
    • Fleiss
  • 모델 평가
    • 정확도
    • 정밀도
    • 재현율
    • F1

 


 

1.4  데이터 구축 프로세스 설계 시 유의 사항

  1. 데이터 구축 기간은 넉넉하게 설정할 것
  2. 검수에 충분한 시간을 확보할 것
  3. 검수 내용을 어느 시점에 어떻게 반영할 것인가 하는 계획을 세울 것
  4. 품질 미달인 경우의 보완책을 마련할 것
  5. 작업 난이도에 따라 참여 인력을 산정하고, 참여 인력 모집 및 관리를 어떻게 할 것인지 고민할 것
  6. 각 단계별 작업의 주체를 고려할 것
  7. 각 단계별 검수 유형을 지정해둘 것
  8. 외부 인력 및 자원을 활용하는 경우 비용 산정을 위해 기본 단가 산정 기준을 잘 세울 것

 

 

 


부스트캠프 AI Tech 교육 자료를 참고하였습니다.

 
 
728x90
Contents