부스트캠프 AI Tech 4기
-
1. Introduction to Machine Reading Comprehension 2. Unicode & Tokenization 3. Looking into the Dataset 1. Introduction to Machine Reading Comprehension ▮ MRC의 개념 기계 독해 주어진 지문(Context)를 이해하고, 주어진 질의(Query/Question)의 답변을 추론하는 문제 주어진 지문에서 질문에 대한 답변을 하는 방식이지만 이걸 응용하게되면 지문이 주어져있지 않은 상태에서 질문이 들어와도 질문과 관련이있는 지문을 웹상에서 찾아가지고 답변을 줄 수 있는 형태, 즉 Question Answering system 을 만들 수 있다. ▮ MRC의 종류 1. Extractive An..
[ODQA] 1. MRC Intro & Python Basics1. Introduction to Machine Reading Comprehension 2. Unicode & Tokenization 3. Looking into the Dataset 1. Introduction to Machine Reading Comprehension ▮ MRC의 개념 기계 독해 주어진 지문(Context)를 이해하고, 주어진 질의(Query/Question)의 답변을 추론하는 문제 주어진 지문에서 질문에 대한 답변을 하는 방식이지만 이걸 응용하게되면 지문이 주어져있지 않은 상태에서 질문이 들어와도 질문과 관련이있는 지문을 웹상에서 찾아가지고 답변을 줄 수 있는 형태, 즉 Question Answering system 을 만들 수 있다. ▮ MRC의 종류 1. Extractive An..
2022.12.19 -
Wrap Up Report page
[WEEK13] Data Annotation for RE Task Wrap-Up ReportWrap Up Report page
2022.12.19 -
annotator들의 일치도를 평가하기 위해 사용하는 지표들에는 여러 종류가 있다. Fleiss’ Kappa는 검사자가 3명 이상이면서 명목형(Nominal) 변수일 때 사용한다. Cohen's kappa는 검사자가 2명이면서 명목형 변수일 때 사용한다. Kendalls W는 순서형(Ordinal) 변수일 때 사용한다. Intra-class correlation(ICC)는 연속형(Continuous) 변수일 때 사용한다. 우리의 Data Annotation 프로젝트의 평가자는 5명이므로 Fleiss' Kappa 평가지표를 사용하였다. Kappa 계산 공식은 아래와 같다. $P_e$를 구하는 방법은 전체 라벨링 한 데이터들에서 각 라벨마다의 합에 전체 라벨 수를 나눈 값을 제곱해서 더해준다. $$ P_e ..
[WEEK13] Fleiss Kappaannotator들의 일치도를 평가하기 위해 사용하는 지표들에는 여러 종류가 있다. Fleiss’ Kappa는 검사자가 3명 이상이면서 명목형(Nominal) 변수일 때 사용한다. Cohen's kappa는 검사자가 2명이면서 명목형 변수일 때 사용한다. Kendalls W는 순서형(Ordinal) 변수일 때 사용한다. Intra-class correlation(ICC)는 연속형(Continuous) 변수일 때 사용한다. 우리의 Data Annotation 프로젝트의 평가자는 5명이므로 Fleiss' Kappa 평가지표를 사용하였다. Kappa 계산 공식은 아래와 같다. $P_e$를 구하는 방법은 전체 라벨링 한 데이터들에서 각 라벨마다의 합에 전체 라벨 수를 나눈 값을 제곱해서 더해준다. $$ P_e ..
2022.12.15 -
Relation Extraction 프로젝트를 마치고 이번주는 RE task의 데이터 제작 프로젝트를 진행중에 있다. 우리나라 대통령이라는 도메인의 위키 데이터셋을 가지고 RE task 데이터 제작을 하고 있는데 데이터 제작 프로젝트는 생각보다 더 어렵다는 것을 몸소 체험하고 있다. relation_map을 1차적으로 설정하고 파일럿 태깅 과정을 통해서 relation_map을 수정하면서 annotation 가이드라인을 작성했다. 그러나 이를 기반으로 Entity를 annotation을 하는 과정에서 모호한 부분도 너무 많았고 고려해야할 부분이 끊임없이 생겨났다. annotation의 기준을 세울 때 비슷한 연구의 robust한 다른 데이터셋을 근거로 삼아서 기준을 세워보면 좋을 것 같다. RE task..
[WEEK12] 회고Relation Extraction 프로젝트를 마치고 이번주는 RE task의 데이터 제작 프로젝트를 진행중에 있다. 우리나라 대통령이라는 도메인의 위키 데이터셋을 가지고 RE task 데이터 제작을 하고 있는데 데이터 제작 프로젝트는 생각보다 더 어렵다는 것을 몸소 체험하고 있다. relation_map을 1차적으로 설정하고 파일럿 태깅 과정을 통해서 relation_map을 수정하면서 annotation 가이드라인을 작성했다. 그러나 이를 기반으로 Entity를 annotation을 하는 과정에서 모호한 부분도 너무 많았고 고려해야할 부분이 끊임없이 생겨났다. annotation의 기준을 세울 때 비슷한 연구의 robust한 다른 데이터셋을 근거로 삼아서 기준을 세워보면 좋을 것 같다. RE task..
2022.12.09 -
1. Tokenizer 모델에 입력하는 텍스트를 그대로 입력하는 것이 아니라 Tokenizer를 이용하여 텍스트를 tokenize한 후 각 token들을 고유의 id값으로 반환하여 BertEmbeddings에 입력해야한다. from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("klue/bert-base") tokenizer가 반환하는 출력값은 `input_ids`, 'token_type_ids`, `attention_mask`의 정보가 들어있는 객체이고 각 정보들의 값은 list이다. input_ids : token들의 id 리스트 token_type_ids : BERT는 입력으로 두 문장을 받을 수 있는데(Se..
Huggingface BERT 분석1. Tokenizer 모델에 입력하는 텍스트를 그대로 입력하는 것이 아니라 Tokenizer를 이용하여 텍스트를 tokenize한 후 각 token들을 고유의 id값으로 반환하여 BertEmbeddings에 입력해야한다. from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("klue/bert-base") tokenizer가 반환하는 출력값은 `input_ids`, 'token_type_ids`, `attention_mask`의 정보가 들어있는 객체이고 각 정보들의 값은 list이다. input_ids : token들의 id 리스트 token_type_ids : BERT는 입력으로 두 문장을 받을 수 있는데(Se..
2022.12.09 -
1. 과제 정의 2. 구축 프로세스 설계 3. 가이드라인 작성 1. 과제 정의 ▮ 과제 정의 시 고려할 요소 과제의 목적 데이터 구축 규모 원시 데이터 데이터의 주석 체계 데이터 주석 도구 데이터의 형식 데이터 검수 데이터 평가 1. 과제 목적 관계추출(RelataionExtraction)이란 문장에 등장하는 두 개체 간의 관계를 주석하는 것이다. 관계 추출의 대상이 되는개체명을 인식하고,각 개체가 주체(subject)인지 대상(object)를 파악한뒤 그 둘 간의 관계를 주석한다. 주체와 대상,관계로 이루어진 트리플(triplet)을 완성한다. 특정한 도메인에 맞추어 관계 분류(Class)목록을 확장하고, 확장된 관계를 주석한 데이터를만든다. 2. 데이터 구축 규모 기존 데이터 규모 3. 원시 데이터 ..
[NLP 데이터 제작] 8. 관계 추출 데이터 구축 실습1. 과제 정의 2. 구축 프로세스 설계 3. 가이드라인 작성 1. 과제 정의 ▮ 과제 정의 시 고려할 요소 과제의 목적 데이터 구축 규모 원시 데이터 데이터의 주석 체계 데이터 주석 도구 데이터의 형식 데이터 검수 데이터 평가 1. 과제 목적 관계추출(RelataionExtraction)이란 문장에 등장하는 두 개체 간의 관계를 주석하는 것이다. 관계 추출의 대상이 되는개체명을 인식하고,각 개체가 주체(subject)인지 대상(object)를 파악한뒤 그 둘 간의 관계를 주석한다. 주체와 대상,관계로 이루어진 트리플(triplet)을 완성한다. 특정한 도메인에 맞추어 관계 분류(Class)목록을 확장하고, 확장된 관계를 주석한 데이터를만든다. 2. 데이터 구축 규모 기존 데이터 규모 3. 원시 데이터 ..
2022.12.09 -
1. Position-aware Attention and Supervised Data Improve Slot Filling 2. KLUE : Korean Language Understanding Evaluation 1. Position-aware Attention and Supervised Data Improve Slot Filling ▮ Overview document에서 자동으로 knowledge base를 추출해서 확장시키기 위한 방법론으로 RE를 선택하였다.Slot Filling 과제는 Subject, Object에 대해서 relation tag를 채우는 것이 주 목적이다.TAC KBP라는 챌린지를 위해 공개된 데이터를 기초로 사용하여 TAC RED 데이터셋을 제작하였다.새로운 데이터셋으로 실험한..
[NLP 데이터 제작] 7. 관계 추출 관련 논문1. Position-aware Attention and Supervised Data Improve Slot Filling 2. KLUE : Korean Language Understanding Evaluation 1. Position-aware Attention and Supervised Data Improve Slot Filling ▮ Overview document에서 자동으로 knowledge base를 추출해서 확장시키기 위한 방법론으로 RE를 선택하였다.Slot Filling 과제는 Subject, Object에 대해서 relation tag를 채우는 것이 주 목적이다.TAC KBP라는 챌린지를 위해 공개된 데이터를 기초로 사용하여 TAC RED 데이터셋을 제작하였다.새로운 데이터셋으로 실험한..
2022.12.09 -
1. 관계 추출 관련 과제의 개요 2. 데이터 제작 시 문제점 1. 관계 추출 관련 과제의 개요 개체명(Entity) 인식 : NER (Named Entity Recognition) 개체명이란 인명, 지명, 기관명 등과 같은 고유명사나 명사구를 의미 개체명 인식 태스크는 문장을 분석 대상으로 삼아서 문장에 출현한 개체명의 경계를 인식하고, 각 개체명에 해당하는 태그를 주석함 KLUE 에서는 국제적인 기준에서 가장 널리 알려진 CoNLL 2003의 태그 체계 및 Stanford NER 을 바탕으로 국내 TTA 표준 지침의 주석 가이드라인에 따라 데이터를 구축함 PS(사람), LC(지역), OG(기관), DT(날짜), TI(시간), QT(수량) 관계 (Relation) 추출 : RE (Relation Ext..
[NLP 데이터 제작] 6. 관계 추출(Relation Extraction) 과제의 이해1. 관계 추출 관련 과제의 개요 2. 데이터 제작 시 문제점 1. 관계 추출 관련 과제의 개요 개체명(Entity) 인식 : NER (Named Entity Recognition) 개체명이란 인명, 지명, 기관명 등과 같은 고유명사나 명사구를 의미 개체명 인식 태스크는 문장을 분석 대상으로 삼아서 문장에 출현한 개체명의 경계를 인식하고, 각 개체명에 해당하는 태그를 주석함 KLUE 에서는 국제적인 기준에서 가장 널리 알려진 CoNLL 2003의 태그 체계 및 Stanford NER 을 바탕으로 국내 TTA 표준 지침의 주석 가이드라인에 따라 데이터를 구축함 PS(사람), LC(지역), OG(기관), DT(날짜), TI(시간), QT(수량) 관계 (Relation) 추출 : RE (Relation Ext..
2022.12.09