부스트캠프 AI Tech 4기

[NLP 데이터 제작] 8. 관계 추출 데이터 구축 실습

1. 과제 정의
2. 구축 프로세스 설계
3. 가이드라인 작성

1. 과제 정의

▮ 과제 정의 시 고려할 요소

과제의 목적
데이터 구축 규모
원시 데이터
데이터의 주석 체계
데이터 주석 도구
데이터의 형식
데이터 검수
데이터 평가

1. 과제 목적

관계추출(RelataionExtraction)이란 문장에 등장하는 두 개체 간의 관계를 주석하는 것이다.

관계 추출의 대상이 되는개체명을 인식하고,각 개체가 주체(subject)인지 대상(object)를 파악한뒤 그 둘 간의 관계를 주석한다. 주체와 대상,관계로 이루어진 트리플(triplet)을 완성한다.

특정한 도메인에 맞추어 관계 분류(Class)목록을 확장하고, 확장된 관계를 주석한 데이터를만든다.

2. 데이터 구축 규모

기존 데이터 규모

3. 원시 데이터

둘 이상의 개체와 개체 간의 관계를 추출할 만한 문장이 포함된 텍스트를 선정한다.

(구어 text 에서는 관계 추출을 하기 쉽지 않다.)

기존 데이터의 출처

- TACRED

TAC KBP challenge 2009 ~ 2014

- KLUE

WIKIPEDIA, WIKITREE, 정책브리핑

4. 데이터의 주석 체계

5. 데이터 주석 도구

주석 단계 세분화 후, 주석 도구 결정

트리플(Triplet) 형태의 주석이 가능한 도구 선정 필요

필요기능

- 문자열에서 개체명 선택

- 개체명에 대한 레이블(label) 선택

- 개체명에 대한 관계선(edge) 그리기

- 관계선에 대한 레이블(label) 선택

6. 데이터 형식

TACRED - CoNLL

TACRED - JSON

KLUE

7. 데이터 검수

검수 규모 정하기 : 전수 또는 특정 비율

데이터 형식의 정확도
관계 레이블의 정확도
관계 추출 정확도

8. 데이터 평가

작업자간 일치도(IAA, Inter-Annotator Agreement):

Fleiss’k (TACRED)
Krippendorff’s a(KLUE) : 결측치가 있어도 보정하여 측정 가능

모델 성능 평가:

정밀도(Precision), 재현율(Recall), F1 (TACRED)
Micro F1, AUPRC(area under the precisionrecall curve) (KLUE)
Micro F1 을 쓴 이유는 label 들의 분포가 서로 불균형하기 때문 사용했음

2. 구축 프로세스 설계

3. 가이드라인 작성

핵심 내용 : 주석 작업을 위한 가이드라인

작업 목적
작업 도구 사용법
작업 대상 문장과 아닌 문장 구분 기준
레이블별 주석 기준

가이드라인이 복잡하면 가이드라인을 꼼꼼하게 읽고 작업하지 않는 경우도 있으니

꼭 작업자가 숙지해야할 내용만 포함하는 것이 중요하다.

부스트캠프 AI Tech 교육 자료를 참고하였습니다.

728x90

'부스트캠프 AI Tech 4기' 카테고리의 다른 글

[WEEK12] 회고 (0)	2022.12.09
Huggingface BERT 분석 (0)	2022.12.09
[NLP 데이터 제작] 7. 관계 추출 관련 논문 (0)	2022.12.09
[NLP 데이터 제작] 6. 관계 추출(Relation Extraction) 과제의 이해 (0)	2022.12.09
[NLP 데이터 제작] 5. 데이터 구축 가이드라인 작성 기초 (0)	2022.12.09

Contents

새소식

[NLP 데이터 제작] 8. 관계 추출 데이터 구축 실습

1. 과제 정의

2. 구축 프로세스 설계

3. 가이드라인 작성

'부스트캠프 AI Tech 4기' 카테고리의 다른 글

당신이 좋아할만한 콘텐츠

티스토리툴바