1. 관계 추출 관련 과제의 개요
2. 데이터 제작 시 문제점
1. 관계 추출 관련 과제의 개요
개체명(Entity) 인식 : NER (Named Entity Recognition)
- 개체명이란 인명, 지명, 기관명 등과 같은 고유명사나 명사구를 의미
- 개체명 인식 태스크는 문장을 분석 대상으로 삼아서 문장에 출현한 개체명의 경계를 인식하고, 각 개체명에 해당하는 태그를 주석함
- KLUE 에서는 국제적인 기준에서 가장 널리 알려진 CoNLL 2003의 태그 체계 및 Stanford NER 을 바탕으로 국내 TTA 표준 지침의 주석 가이드라인에 따라 데이터를 구축함
- PS(사람), LC(지역), OG(기관), DT(날짜), TI(시간), QT(수량)
관계 (Relation) 추출 : RE (Relation Extract)
- 관계 추출은 문장에서 나타난 개체명 쌍(Entity Pair)의 관계(Relation)을 판별하는 태스크
- 개체명 쌍은 관계의 주체(Subject)와 대상(Object)로 구성됨
- KLUE 에서는 TACLED 에 기반하여 30개 관계 Class 를 설정하여 데이터를 구축함
개체명 연결 : EL (Entity Linking)
- 개체명을 인식(Named Entity Recognition)하고 모호성을 해소(Named Entity Disambiguation)하는 과제를 결합한 것
- 텍스트에서 추출된 개체명을 지식 베이스(knowledge base)와 연결하여 모호성을 해소함
지식 베이스
2. 데이터 제작 시 문제점
KLUE 데이터 구축 시 문제점 : NER
▮ 2개 이상의 태그로 주석될 수 있는 개체명
→ 요즘은 맥락에 기반한 주석 (그러나 작업자마다 일치도가 떨어질 수 있는 문제점이 존재)
서울시는 정책을 발표했다. # 서울시 : ORG
그 카페는 서울시 서대문구 연희동에 있다. # 서울시 : LOC
▮ 주석 대상의 범주
→ 구체적 범주 및 기준 명시
(가이드라인은 처음부터 완벽할 수는 없으므로 이슈리포팅을 통해 지속적으로 고쳐나가야한다.)
KLUE 데이터 구축시 문제점 : RE
▮ 한국어 데이터 현실에 맞지 않는 주석
→ 태그 통폐합 및 추가
지역 관련 태그 통합, 사람, 기관의 작품 및 생산물 관련 태그 추가
▮ KB(Knowledge base)의 활용
→일부만 활용
데이터 구축시 문제점 : EL
▮ 적합한 KB(Knowledge base) 선정의 문제
- 현재 AI HUB 에 공개된 KB 의 경우 제한적인 저작권 아래서 활용이 가능함
- 위키 데이터를 활용하여 자체적인 지식베이스를 구축하여 활용하거나, 서비스 도메인에 맞는 지식베이스를 구축하여 활용할 수 있음
- 지식베이스를 구축하는 것 자체가 많은 비용과 자원이 드는 일이므로 이에 대한 대비가 필요함
이러한 데이터를 만드는 이유?
- NER, RE, EL 은 기본적으로 비구조화된 텍스트에서 정보를 추출하여 구조화하려는 것이 목적
- 따라서 이 과정에서 지식 베이스가 활용되기도 하고, 이 결과물이 지식 베이스가 되기도 함
- 정보처리의 관점에서 구조화된 정보의 활용도가 높기 때문에 이러한 시도는 앞으로도 계속 될 것
이러한 구조들은 knowledge graph로부터 왔다.
node들이 개체명이되고 edge가 relation 이 된다.
https://edezhic.medium.com/understanding-knowledge-graphs-5cb05593eb84
Subject - Predicate - Object 로 구성된 triple set이 Knowledge graph의 기초라고 할 수 있다. (Head - relation - Tail)
https://ahrefs.com/blog/google-knowledge-graph/
구조를 확장해나가다보면 위 그림같은 knowleged graph를 확장시켜나갈 수 있다.
NER, RE, EL의 활용
https://medium.com/analytics-vidhya/entity-linking-a-primary-nlp-task-for-information-extraction-22f9d4b90aa8
https://cobusgreyling.medium.com/fundamentals-of-chatbot-information-extraction-visualization-cc4a42e69c62
부스트캠프 AI Tech 교육 자료를 참고하였습니다.