새소식

부스트캠프 AI Tech 4기

[NLP 데이터 제작] 8. 관계 추출 데이터 구축 실습

  • -
1. 과제 정의
2. 구축 프로세스 설계
3. 가이드라인 작성

 

1. 과제 정의

▮ 과제 정의 시 고려할 요소

  1. 과제의 목적
  2. 데이터 구축 규모
  3. 원시 데이터
  4. 데이터의 주석 체계
  5. 데이터 주석 도구
  6. 데이터의 형식
  7. 데이터 검수
  8. 데이터 평가

 

1. 과제 목적

관계추출(RelataionExtraction)이란 문장에 등장하는 두 개체 간의 관계를 주석하는 것이다.

관계 추출의 대상이 되는개체명을 인식하고,각 개체가 주체(subject)인지 대상(object)를 파악한뒤 그 둘 간의 관계를 주석한다. 주체와 대상,관계로 이루어진 트리플(triplet)을 완성한다.

특정한 도메인에 맞추어 관계 분류(Class)목록을 확장하고, 확장된 관계를 주석한 데이터를만든다.

 

2. 데이터 구축 규모

기존 데이터 규모

3. 원시 데이터

둘 이상의 개체와 개체 간의 관계를 추출할 만한 문장이 포함된 텍스트를 선정한다.

(구어 text 에서는 관계 추출을 하기 쉽지 않다.)

 

기존 데이터의 출처

- TACRED

TAC KBP challenge 2009 ~ 2014

 

- KLUE

WIKIPEDIA, WIKITREE, 정책브리핑

 

4. 데이터의 주석 체계

 

5. 데이터 주석 도구

주석 단계 세분화 후, 주석 도구 결정

트리플(Triplet) 형태의 주석이 가능한 도구 선정 필요

 

필요기능

- 문자열에서 개체명 선택

- 개체명에 대한 레이블(label) 선택

- 개체명에 대한 관계선(edge) 그리기

- 관계선에 대한 레이블(label) 선택

 

 

6. 데이터 형식

TACRED - CoNLL

 

TACRED - JSON

 

KLUE

 

 

7. 데이터 검수

검수 규모 정하기 : 전수 또는 특정 비율

  • 데이터 형식의 정확도
  • 관계 레이블의 정확도
  • 관계 추출 정확도

 

8. 데이터 평가

작업자간 일치도(IAA, Inter-Annotator Agreement):

  • Fleiss’k (TACRED)
  • Krippendorff’s a(KLUE) : 결측치가 있어도 보정하여 측정 가능

모델 성능 평가:

  • 정밀도(Precision), 재현율(Recall), F1 (TACRED)
  • Micro F1, AUPRC(area under the precisionrecall curve) (KLUE)
  • Micro F1 을 쓴 이유는 label 들의 분포가 서로 불균형하기 때문 사용했음

 

 

2. 구축 프로세스 설계

 

 

3. 가이드라인 작성

핵심 내용 : 주석 작업을 위한 가이드라인

  1. 작업 목적
  2. 작업 도구 사용법
  3. 작업 대상 문장과 아닌 문장 구분 기준
  4. 레이블별 주석 기준

가이드라인이 복잡하면 가이드라인을 꼼꼼하게 읽고 작업하지 않는 경우도 있으니

꼭 작업자가 숙지해야할 내용만 포함하는 것이 중요하다.

 

 


부스트캠프 AI Tech 교육 자료를 참고하였습니다.

 

728x90
Contents