새소식

부스트캠프 AI Tech 4기

[NLP 데이터 제작] 7. 관계 추출 관련 논문

  • -
1. Position-aware Attention and Supervised Data Improve Slot Filling
2. KLUE : Korean Language Understanding Evaluation

 

 

1. Position-aware Attention and Supervised Data Improve Slot Filling

 

▮ Overview

document에서 자동으로 knowledge base를 추출해서 확장시키기 위한 방법론으로 RE를 선택하였다.Slot Filling 과제는 Subject, Object에 대해서 relation tag를 채우는 것이 주 목적이다.TAC KBP라는 챌린지를 위해 공개된 데이터를 기초로 사용하여 TAC RED 데이터셋을 제작하였다.새로운 데이터셋으로 실험한 결과 TAC KBP 챌린지에서 F1 score가 22.2%에서 26.7%로 향상되었음을 확인하였다.

 

 

▮ The TAC Relation Extraction Dataset

KBP는 Knoweldge Base Population의 약자로 Knowelege base를 확장하기 위한 Task이다.

TAC KBP 나 SemEval-2010 데이터셋은 양이적고 Task에 적합하지 않아서 데이터셋을 만들었다.

 

Data Collection

TACRED는 TAC KBP에서 공개된 데이터를 사용하였고 Mechanical Turk를 이용해 작업자들에게 주석을 받았다.

 

Data Stratification

Train/Dev/Test는 기존의 데이터를 연도별로 나누었다. (이런 방식은 빠르게 나눌 수 있겠지만 레이블이 균형있게 들어갈지는 미지수이다. 통계를 내보고 조정을 하는 것이 더 좋을 것이다.)

  • Train : 2009 ~ 2012
  • Dev : 2013
  • Test : 2014

 

Discussion

  • 더 많은 Relation을 보유하고 있다.
  • Negative Sample들을 주석을 하여서 Slot Filling에서는 더 좋은 성능을 보여줄 것이다.
  • 문장 길이 자체도 이전 데이터셋들보다 길어졌다. (SemEval : 19.1  / TACRED : 36.4)
    → 문장이 더 복잡해졌다. →  Task 난이도의 향상 

 

 

▮ AppendixData

  • Collection 은 LDC 방법과 generated 방법을 사용
    • LDC : document의 해당 개체명을 tagging하고 HIT(Human intelligence Task: 데이터를 작업자들에게 질문을 주는 방식으로 주석 작업하는 방식)
      10000개 정도를 제작
    • generated : 이미 존재하는 Stanford의 상호참조 시스템을 가지고 pseudo labeling을 진행한 후에 그것에 대해 관계를 tagging하는 방식으로 진행
      주체와 대상이 나온 상태에서 관계만을 주석하는 방식
      11만개 정도를 제작
  • 데이터 검수
    • 작업자들의 신뢰도향상을 위해 Gold Set을 만들고 모든 작업자들에게 제공하여 25% 이상을 넘는 작업자들에게는 재작업을 하도록 하는 제도를 도입하였다.
    • 작업자들간의 작업일치도를 확인하기 위해 Fleiss Kappa를 측정하였고 결과는 아래와 같다.

 

 

 

2. KLUE : Korean Language Understanding Evaluation

 

▮ Overview

RE Task를 Single Sentence classification task로 설정하였다.

Subject Entity와 Object Entity와 Entity 간의 relation에 해당하는 triplet을 만드는 것이 과제의 목적이다.

30개의 relation label을 사용하고 있는데 18개의 person related relation, 11개의 organization related realtion, no-relation가 있다.

모델을 평가하는데 있어서는 no relation을 제외한 micro-f1-score를 사용하고, no relation을 포함하여 계산할 경우는 auprc 평가지표를 사용하였다.

 

 

▮ Data Construction

 

1. Collect Candidate Sentences

  • Wikipedia
  • Wikitree
  • Policy

KSS 라이브러리를 사용해 문장 분리를 진행하였다.

Korean hate speech data를 가지고 훈련시킨 classifier를 가지고 social bias나 hate speech를 제거하였다.

 

2. Define Relation Schema

TAC-KBP 스키마를 참고하였으며 한국어의 특성 때문에 사용하지 않은 scheme도 있고 새로 만든 scheme도 있다.

 

3. Detect Entities

ELECTRA 기반 NER 모델을 통해 pseudo labeling을 진행하고 관계만을 주석하는 방법으로 데이터셋을 만들었다.

 

4. Select Entity Pairs

KB-based Sampling : knoweldge base 기반 sampling 방법으로 위키피디아와 나무위키의 input box 정보에서 KB를 만들고 데이터를 구축

Uniform Sampling : KB-based Sampling과는 독립적인 데이터를 만들기 위해 Samlping을 진행해 문장을 만들었다.

 

5. Annotate Relations

DeepNatural이라는 클라우드소싱 플랫폼을 활용하였다. 

163명의 작업자들은 5개의 문제를 맞추는 task를 통해서 4개 이상 맞추는 작업자를 선발하였다.

 

 

 

 Evaluation Metrics

모델을 평가하는데 있어서는 no relation을 제외한 micro-f1-score를 사용하고, no relation을 포함하여 계산할 경우는 auprc 평가지표를 사용하였다.

 

 

 


부스트캠프 AI Tech 교육 자료를 참고하였습니다.

728x90
Contents