1. 과제 정의
2. 구축 프로세스 설계
3. 가이드라인 작성
1. 과제 정의
▮ 과제 정의 시 고려할 요소
- 과제의 목적
- 데이터 구축 규모
- 원시 데이터
- 데이터의 주석 체계
- 데이터 주석 도구
- 데이터의 형식
- 데이터 검수
- 데이터 평가
1. 과제 목적
관계추출(RelataionExtraction)이란 문장에 등장하는 두 개체 간의 관계를 주석하는 것이다.
관계 추출의 대상이 되는개체명을 인식하고,각 개체가 주체(subject)인지 대상(object)를 파악한뒤 그 둘 간의 관계를 주석한다. 주체와 대상,관계로 이루어진 트리플(triplet)을 완성한다.
특정한 도메인에 맞추어 관계 분류(Class)목록을 확장하고, 확장된 관계를 주석한 데이터를만든다.
2. 데이터 구축 규모
기존 데이터 규모
3. 원시 데이터
둘 이상의 개체와 개체 간의 관계를 추출할 만한 문장이 포함된 텍스트를 선정한다.
(구어 text 에서는 관계 추출을 하기 쉽지 않다.)
기존 데이터의 출처
- TACRED
TAC KBP challenge 2009 ~ 2014
- KLUE
WIKIPEDIA, WIKITREE, 정책브리핑
4. 데이터의 주석 체계
5. 데이터 주석 도구
주석 단계 세분화 후, 주석 도구 결정
트리플(Triplet) 형태의 주석이 가능한 도구 선정 필요
필요기능
- 문자열에서 개체명 선택
- 개체명에 대한 레이블(label) 선택
- 개체명에 대한 관계선(edge) 그리기
- 관계선에 대한 레이블(label) 선택
6. 데이터 형식
TACRED - CoNLL
TACRED - JSON
KLUE
7. 데이터 검수
검수 규모 정하기 : 전수 또는 특정 비율
- 데이터 형식의 정확도
- 관계 레이블의 정확도
- 관계 추출 정확도
8. 데이터 평가
작업자간 일치도(IAA, Inter-Annotator Agreement):
- Fleiss’k (TACRED)
- Krippendorff’s a(KLUE) : 결측치가 있어도 보정하여 측정 가능
모델 성능 평가:
- 정밀도(Precision), 재현율(Recall), F1 (TACRED)
- Micro F1, AUPRC(area under the precisionrecall curve) (KLUE)
- Micro F1 을 쓴 이유는 label 들의 분포가 서로 불균형하기 때문 사용했음
2. 구축 프로세스 설계
3. 가이드라인 작성
핵심 내용 : 주석 작업을 위한 가이드라인
- 작업 목적
- 작업 도구 사용법
- 작업 대상 문장과 아닌 문장 구분 기준
- 레이블별 주석 기준
가이드라인이 복잡하면 가이드라인을 꼼꼼하게 읽고 작업하지 않는 경우도 있으니
꼭 작업자가 숙지해야할 내용만 포함하는 것이 중요하다.
부스트캠프 AI Tech 교육 자료를 참고하였습니다.