부스트캠프 AI Tech 4기
-
1. Cloud Cloud 서비스의 다양한 제품 - Computing Server 연산을 수행하는(Computing) 서비스 가상 컴퓨터, 서버 CPU, Memory, GPU 등 선택 가능 인스턴스 생성 후 사용 가능 Cloud 서비스의 다양한 제품 - Serverless Computing Computing Server와 유사하지만, 서버 관리를 클라우드쪽에서 진행 코드를 클라우드에 제출하면 그 코드를 가지고 서버를 실행해주는 형태 Cloud 서비스의 다양한 제품 - Stateless Container Docker를 사용한 Container 기반 서버 실행 구조 Docker Image를 업로드하면 해당 이미지 기반으로 서버 실행 Cloud 서비스의 다양한 제품 - Object Storage 다양한 Obj..
[Product Serving Part.4] Cloud1. Cloud Cloud 서비스의 다양한 제품 - Computing Server 연산을 수행하는(Computing) 서비스 가상 컴퓨터, 서버 CPU, Memory, GPU 등 선택 가능 인스턴스 생성 후 사용 가능 Cloud 서비스의 다양한 제품 - Serverless Computing Computing Server와 유사하지만, 서버 관리를 클라우드쪽에서 진행 코드를 클라우드에 제출하면 그 코드를 가지고 서버를 실행해주는 형태 Cloud 서비스의 다양한 제품 - Stateless Container Docker를 사용한 Container 기반 서버 실행 구조 Docker Image를 업로드하면 해당 이미지 기반으로 서버 실행 Cloud 서비스의 다양한 제품 - Object Storage 다양한 Obj..
2023.01.13 -
Wrap-up Report ODQA task가 어떤 것인지 배울 수 있는 기회가 되어서 좋은 것 같다. 또한 해당 Task가 매력적으로 다가왔고 흥미가 생겼다. 전보다 논문을 읽고 원하는 부분을 구현하는 것에 있어서 발전한 것 같다. 해당 능력을 꾸준히 갈고닦아야 겠다. 또한 이전에는 계속 모델링하고 원하는 기능을 구현하는 일을 중점적으로 진행했어서 데이터 관련 역할을 다음번에는 꼭 해보겠다 다짐했는데 현재 최종 프로젝트에서 데이터 수집 및 처리 관련 역할을 맡아 진행중이다. 근데 모델링보다 훨씬 어려운 것 같다... 직접 수집부터 하다보니 노이즈도 너무 많고 고려해야할 부분도 너무 많아서 어디서 부터 시작해야할지 어지러워서 머리가 아프다..! 우선 보통 이럴때는 어떻게 하는지 reference를 먼저 ..
[WEEK14/15/16] Open-Domain Question Answering 대회 Wrap-up 및 회고Wrap-up Report ODQA task가 어떤 것인지 배울 수 있는 기회가 되어서 좋은 것 같다. 또한 해당 Task가 매력적으로 다가왔고 흥미가 생겼다. 전보다 논문을 읽고 원하는 부분을 구현하는 것에 있어서 발전한 것 같다. 해당 능력을 꾸준히 갈고닦아야 겠다. 또한 이전에는 계속 모델링하고 원하는 기능을 구현하는 일을 중점적으로 진행했어서 데이터 관련 역할을 다음번에는 꼭 해보겠다 다짐했는데 현재 최종 프로젝트에서 데이터 수집 및 처리 관련 역할을 맡아 진행중이다. 근데 모델링보다 훨씬 어려운 것 같다... 직접 수집부터 하다보니 노이즈도 너무 많고 고려해야할 부분도 너무 많아서 어디서 부터 시작해야할지 어지러워서 머리가 아프다..! 우선 보통 이럴때는 어떻게 하는지 reference를 먼저 ..
2023.01.13 -
▮Knock Knock 학습 후 메일, 슬랙 등 원하는 곳으로 학습 종료 알람을 해주는 라이브러리 pip install knockknock from knockknock import email_sender @email_sender(recipient_emails=["", ""], sender_email="
[WEEK14/15/16] TIPS▮Knock Knock 학습 후 메일, 슬랙 등 원하는 곳으로 학습 종료 알람을 해주는 라이브러리 pip install knockknock from knockknock import email_sender @email_sender(recipient_emails=["", ""], sender_email="
2023.01.08 -
1. Passage Retrieval and Similarity Search 2. Approximating Similarity Search 3. Introduction to FAISS 실제 문서 검색이 이루어지길 원하는 실제 상황에서는 그 문서의 수가 기하급수적으로 늘어나게 된다. 위키피디아 문서에서 검색하는 상황을 가정하더라도 5백만 개 이상의 문서에서 검색을 수행해야 하고, 실제로는 수천만 ~ 억 개의 문서가 존재할 수 있다. 이런 상황에서는 모든 문서들에 대해 검색을 수행하는 방법이 굉장히 오랜 시간과 많은 자원을 요구하게 된다. 이렇게 scale이 커진 상황에서 어떻게 효율적으로 검색을 수행할 수 있을지에 대해 정리하고 보다 효율적인 approximate search가 무엇인지 그리고 approx..
[ODQA] 6. Passage Retrieval - Scaling Up1. Passage Retrieval and Similarity Search 2. Approximating Similarity Search 3. Introduction to FAISS 실제 문서 검색이 이루어지길 원하는 실제 상황에서는 그 문서의 수가 기하급수적으로 늘어나게 된다. 위키피디아 문서에서 검색하는 상황을 가정하더라도 5백만 개 이상의 문서에서 검색을 수행해야 하고, 실제로는 수천만 ~ 억 개의 문서가 존재할 수 있다. 이런 상황에서는 모든 문서들에 대해 검색을 수행하는 방법이 굉장히 오랜 시간과 많은 자원을 요구하게 된다. 이렇게 scale이 커진 상황에서 어떻게 효율적으로 검색을 수행할 수 있을지에 대해 정리하고 보다 효율적인 approximate search가 무엇인지 그리고 approx..
2022.12.21 -
1. Introduction to Dense Embedding 2.Training Dense Encoder 3. Passage Retrieval with Dense Encoder sparse embedding이 가지는 한계점들에 대해 알아보고, 이를 해결할 수 있는 dense embedding에 대해 설명한다. Dense embedding의 개념을 알아보고, 어떻게 dense embedding을 학습하고 문서 검색을 수행할 수 있는지 설명한다. 1. Introduction to Dense Embedding ▮ Limitation of Sparse Embedding Passage Embedding : Passage를 벡터로 변환하는 것 Sparse Embedding의 한계점 벡터의 크기는 아주 크지만 벡터..
[ODQA] 5. Passage Retrieval - Dense Embedding1. Introduction to Dense Embedding 2.Training Dense Encoder 3. Passage Retrieval with Dense Encoder sparse embedding이 가지는 한계점들에 대해 알아보고, 이를 해결할 수 있는 dense embedding에 대해 설명한다. Dense embedding의 개념을 알아보고, 어떻게 dense embedding을 학습하고 문서 검색을 수행할 수 있는지 설명한다. 1. Introduction to Dense Embedding ▮ Limitation of Sparse Embedding Passage Embedding : Passage를 벡터로 변환하는 것 Sparse Embedding의 한계점 벡터의 크기는 아주 크지만 벡터..
2022.12.21 -
1. Introduction to Passage Retrieval 2. Passage Embedding & Sparse Embedding 3. TF-IDF 문서 검색(Passage retrieval)을 하기 위해서는 문서를 embedding의 형태로 변환해 줘야 하는데, 이를 passage embedding 이라고 한다. 이번 글에서는 passage embedding이 무엇인지 알아보는 동시에, 단어 기반으로 만들어진 passage embedding인 sparse embedding, 그 중에서도 자주 쓰이는 TF-IDF에 대해 정리하였다. 1. Introduction to Passage Retrieval ▮ Passage Retrieval 질문(Query)에 맞는 문서(Passage)를 찾는 것 Pass..
[ODQA] 4. Passage Retrieval - Sparse Embedding1. Introduction to Passage Retrieval 2. Passage Embedding & Sparse Embedding 3. TF-IDF 문서 검색(Passage retrieval)을 하기 위해서는 문서를 embedding의 형태로 변환해 줘야 하는데, 이를 passage embedding 이라고 한다. 이번 글에서는 passage embedding이 무엇인지 알아보는 동시에, 단어 기반으로 만들어진 passage embedding인 sparse embedding, 그 중에서도 자주 쓰이는 TF-IDF에 대해 정리하였다. 1. Introduction to Passage Retrieval ▮ Passage Retrieval 질문(Query)에 맞는 문서(Passage)를 찾는 것 Pass..
2022.12.21 -
라이브러리 및 데이터 로드 import random import numpy as np import torch from datasets import load_dataset, load_metric # 데이터셋 로드 datasets = load_dataset("squad_kor_v1") # len(datasets["train"]) == 60407 # 평가지표 로드 metric = load_metric("squad") ▮ PLM 로드 from transformers import AutoConfig, AutoModelForQuestionAnswering, AutoTokenizer model_name = "bert-base-multilingual-cased" config = AutoConfig.from_pretra..
[ODQA] 3. MRC 데이터 전처리: prepare_train_features라이브러리 및 데이터 로드 import random import numpy as np import torch from datasets import load_dataset, load_metric # 데이터셋 로드 datasets = load_dataset("squad_kor_v1") # len(datasets["train"]) == 60407 # 평가지표 로드 metric = load_metric("squad") ▮ PLM 로드 from transformers import AutoConfig, AutoModelForQuestionAnswering, AutoTokenizer model_name = "bert-base-multilingual-cased" config = AutoConfig.from_pretra..
2022.12.21 -
1. Extraction-based MRC 2. Generation-based MRC 3. Summary 1. Extraction-based MRC ▮ Extraction-based 문제 정의 질문과 답변이 항상 주어진 지문(context)내에 span으로 존재 SQuAD, KorQuAD, NewsQA 등 ▮ Extraction-based 평가 방법 Exact Match (EM) Score : 예측값과 정답이 character 단위로 완전히 똑같을 경우에만 1점, 하나라도 다른 경우 0점 F1 Score : 예측값과 정답의 overalp을 비율로 계산, 0점~1점 ▮ Extraction-based MRC Pre-processing Context와 Question이 Tokenization을 통해 토큰화 되..
[ODQA] 2. Extraction-based MRC & Generation-based MRC1. Extraction-based MRC 2. Generation-based MRC 3. Summary 1. Extraction-based MRC ▮ Extraction-based 문제 정의 질문과 답변이 항상 주어진 지문(context)내에 span으로 존재 SQuAD, KorQuAD, NewsQA 등 ▮ Extraction-based 평가 방법 Exact Match (EM) Score : 예측값과 정답이 character 단위로 완전히 똑같을 경우에만 1점, 하나라도 다른 경우 0점 F1 Score : 예측값과 정답의 overalp을 비율로 계산, 0점~1점 ▮ Extraction-based MRC Pre-processing Context와 Question이 Tokenization을 통해 토큰화 되..
2022.12.21