새소식

부스트캠프 AI Tech 4기

[NLP 데이터 제작] 6. 관계 추출(Relation Extraction) 과제의 이해

  • -
1. 관계 추출 관련 과제의 개요
2. 데이터 제작 시 문제점

 

1. 관계 추출 관련 과제의 개요

개체명(Entity) 인식 : NER (Named Entity Recognition)

  • 개체명이란 인명, 지명, 기관명 등과 같은 고유명사나 명사구를 의미
  • 개체명 인식 태스크는 문장을 분석 대상으로 삼아서 문장에 출현한 개체명의 경계를 인식하고, 각 개체명에 해당하는 태그를 주석함
  • KLUE 에서는 국제적인 기준에서 가장 널리 알려진 CoNLL 2003의 태그 체계 및 Stanford NER 을 바탕으로 국내 TTA 표준 지침의 주석 가이드라인에 따라 데이터를 구축함
  • PS(사람), LC(지역), OG(기관), DT(날짜), TI(시간), QT(수량)

 

관계 (Relation) 추출 :  RE (Relation Extract)

  • 관계 추출은 문장에서 나타난 개체명 쌍(Entity Pair)의 관계(Relation)을 판별하는 태스크
  • 개체명 쌍은 관계의 주체(Subject)와 대상(Object)로 구성됨
  • KLUE 에서는 TACLED 에 기반하여 30개 관계 Class 를 설정하여 데이터를 구축함

 

개체명 연결 :  EL (Entity Linking)

  • 개체명을 인식(Named Entity Recognition)하고 모호성을 해소(Named Entity Disambiguation)하는 과제를 결합한 것
  • 텍스트에서 추출된 개체명을 지식 베이스(knowledge base)와 연결하여 모호성을 해소함

지식 베이스

 

2. 데이터 제작 시 문제점

KLUE 데이터 구축 시 문제점 : NER

 

2개 이상의 태그로 주석될 수 있는 개체명

요즘은 맥락에 기반한 주석 (그러나 작업자마다 일치도가 떨어질 수 있는 문제점이 존재)

서울시는 정책을 발표했다.  # 서울시 : ORG
그 카페는 서울시 서대문구 연희동에 있다. # 서울시 : LOC

▮ 주석 대상의 범주

 구체적 범주 및 기준 명시
(가이드라인은 처음부터 완벽할 수는 없으므로 이슈리포팅을 통해 지속적으로 고쳐나가야한다.)

A급, B급, C급, 삼류(3류)

 

 

KLUE 데이터 구축시 문제점 : RE

 

▮ 한국어 데이터 현실에 맞지 않는 주석

 태그 통폐합 및 추가

지역 관련 태그 통합, 사람, 기관의 작품 및 생산물 관련 태그  추가

▮ KB(Knowledge base)의 활용

일부만 활용

 

 

데이터 구축시 문제점 : EL

 

▮ 적합한 KB(Knowledge base) 선정의 문제

  • 현재 AI HUB 에 공개된 KB 의 경우 제한적인 저작권 아래서 활용이 가능함
  • 위키 데이터를 활용하여 자체적인 지식베이스를 구축하여 활용하거나, 서비스 도메인에 맞는 지식베이스를 구축하여 활용할 수 있음
  • 지식베이스를 구축하는 것 자체가 많은 비용과 자원이 드는 일이므로 이에 대한 대비가 필요함

 

 

이러한 데이터를 만드는 이유?

  • NER, RE, EL 은 기본적으로 비구조화된 텍스트에서 정보를 추출하여 구조화하려는 것이 목적
  • 따라서 이 과정에서 지식 베이스가 활용되기도 하고, 이 결과물이 지식 베이스가 되기도 함
  • 정보처리의 관점에서 구조화된 정보의 활용도가 높기 때문에 이러한 시도는 앞으로도 계속 될 것

이러한 구조들은 knowledge graph로부터 왔다.

node들이 개체명이되고 edge가 relation 이 된다.

https://edezhic.medium.com/understanding-knowledge-graphs-5cb05593eb84

 Subject - Predicate - Object 로 구성된 triple set이 Knowledge graph의 기초라고 할 수 있다. (Head - relation - Tail)

 

 

https://ahrefs.com/blog/google-knowledge-graph/

구조를 확장해나가다보면 위 그림같은 knowleged graph를 확장시켜나갈 수 있다.

 

 

NER, RE, EL의 활용

  • 검색 시스템

https://medium.com/analytics-vidhya/entity-linking-a-primary-nlp-task-for-information-extraction-22f9d4b90aa8

  • HR 챗봇

https://cobusgreyling.medium.com/fundamentals-of-chatbot-information-extraction-visualization-cc4a42e69c62

 

  • 구글 핀포인트

 


부스트캠프 AI Tech 교육 자료를 참고하였습니다.

728x90
Contents