부스트캠프 AI Tech 4기
-
1. 데이터 구축 가이드라인 작성 기초 1.1 가이드라인의 유형 1.2 가이드라인의 구성요소 1.3 가이드라인의 버전 관리 1.4 가이드라인 작성 도구 1.5 가이드라인 작성 시 유의 사항 1. 데이터 구축 가이드라인 작성 기초 1.1 가이드라인의 유형 주석을 위한 가이드라인은 필수 수집과 검수를 위한 가이드라인은 선택적 1.2 가이드라인의 구성 요소 데이터 구축 목적 정의가 제일 중요함 ▮ 데이터 구축 목적 정의 예시 작업자들의 작업에 대한 이해도를 높여 더 높은 품질의 데이터를 만들 수 있도록 돕는 역할 ▮데이터 구축 가이드라인 용어 정의 예시 ▮데이터 수집 가이드라인 제시 ▮데이터 체계 제시 예시 ▮데이터 구축 도구 사용법 예시 섬세하게 도구의 사용법을 알려주는게 좋음 1.3 가이드라인의 버전 관리..
[NLP 데이터 제작] 5. 데이터 구축 가이드라인 작성 기초1. 데이터 구축 가이드라인 작성 기초 1.1 가이드라인의 유형 1.2 가이드라인의 구성요소 1.3 가이드라인의 버전 관리 1.4 가이드라인 작성 도구 1.5 가이드라인 작성 시 유의 사항 1. 데이터 구축 가이드라인 작성 기초 1.1 가이드라인의 유형 주석을 위한 가이드라인은 필수 수집과 검수를 위한 가이드라인은 선택적 1.2 가이드라인의 구성 요소 데이터 구축 목적 정의가 제일 중요함 ▮ 데이터 구축 목적 정의 예시 작업자들의 작업에 대한 이해도를 높여 더 높은 품질의 데이터를 만들 수 있도록 돕는 역할 ▮데이터 구축 가이드라인 용어 정의 예시 ▮데이터 수집 가이드라인 제시 ▮데이터 체계 제시 예시 ▮데이터 구축 도구 사용법 예시 섬세하게 도구의 사용법을 알려주는게 좋음 1.3 가이드라인의 버전 관리..
2022.12.09 -
1. 데이터 구축 작업 설계 1.1 데이터 구축 프로세스 1.2 데이터 주석 1.3 데이터 검수 1.4 데이터 구축 프로세스 설계 시 유의 사항 1. 데이터 구축 작업 설계 1.1 데이터 구축 프로세스 ▮ 데이터 구축 예시 1.2 데이터 주석 ▮ 데이터 주석 유형 1 : 분류 문장 또는 텍스트에 대한 분류 레이블 주석하는 유형 : 감성 분석, 주제 분류, 자연어 추론 등 구축 난이도는 일반적으로 낮은 편 ▮ 데이터 주석 유형 2 : 특정 범위(span) 주석 - NER 텍스트의 일부를 선택하여 특정한 레이블을 주석하는 유형 ▮ 데이터 주석 유형 2 : 특정 범위(span) 주석 - 형태 분석 NER은 텍스트의 일부만 선택하여 레이블링을 하지만 형태분석은 모든 텍스트에 대해서 형태 분석을 진행 ▮ 데이터 ..
[NLP 데이터 제작] 4. 데이터 구축 작업 설계1. 데이터 구축 작업 설계 1.1 데이터 구축 프로세스 1.2 데이터 주석 1.3 데이터 검수 1.4 데이터 구축 프로세스 설계 시 유의 사항 1. 데이터 구축 작업 설계 1.1 데이터 구축 프로세스 ▮ 데이터 구축 예시 1.2 데이터 주석 ▮ 데이터 주석 유형 1 : 분류 문장 또는 텍스트에 대한 분류 레이블 주석하는 유형 : 감성 분석, 주제 분류, 자연어 추론 등 구축 난이도는 일반적으로 낮은 편 ▮ 데이터 주석 유형 2 : 특정 범위(span) 주석 - NER 텍스트의 일부를 선택하여 특정한 레이블을 주석하는 유형 ▮ 데이터 주석 유형 2 : 특정 범위(span) 주석 - 형태 분석 NER은 텍스트의 일부만 선택하여 레이블링을 하지만 형태분석은 모든 텍스트에 대해서 형태 분석을 진행 ▮ 데이터 ..
2022.12.09 -
1. 원시 데이터의 수집과 가공 1.1 원시 데이터의 정의 1.2 원시 데이터 수집 시 고려 사항 1.3 원시 데이터 전처리 1.4 원시 데이터의 가공 - 주석 도구 1. 원시 데이터의 수집과 가공 1.1 원시 데이터의 정의 ▮ 원시 데이터란? 과제를 해결하기 위해 특정 도메인, 장르, 주제 등에 대하여 조건에 맞춰 수집하였으나, 주석 단계를 거치지 않은 상태의 데이터 원하는 형태로 가공하기 이전의 데이터로 목적에 맞는 전처리 과정을 거쳐 가공이 되어야 활용할 수 있음 ▮ 원시 텍스트 수집 시 검토 사항 ▮ 원시 데이터의 종류 웹스크래핑 직접 사람들이 만들어서 입력하는 방식 모델을 통해서 생성하는 방법 모두의 말뭉치, AI Hub 등의 기존의 데이터를 활용하는 방안 ▮ 원시 텍스트 데이터 사용역(장르)에..
[NLP 데이터 제작] 3. 원시 데이터의 수집과 가공1. 원시 데이터의 수집과 가공 1.1 원시 데이터의 정의 1.2 원시 데이터 수집 시 고려 사항 1.3 원시 데이터 전처리 1.4 원시 데이터의 가공 - 주석 도구 1. 원시 데이터의 수집과 가공 1.1 원시 데이터의 정의 ▮ 원시 데이터란? 과제를 해결하기 위해 특정 도메인, 장르, 주제 등에 대하여 조건에 맞춰 수집하였으나, 주석 단계를 거치지 않은 상태의 데이터 원하는 형태로 가공하기 이전의 데이터로 목적에 맞는 전처리 과정을 거쳐 가공이 되어야 활용할 수 있음 ▮ 원시 텍스트 수집 시 검토 사항 ▮ 원시 데이터의 종류 웹스크래핑 직접 사람들이 만들어서 입력하는 방식 모델을 통해서 생성하는 방법 모두의 말뭉치, AI Hub 등의 기존의 데이터를 활용하는 방안 ▮ 원시 텍스트 데이터 사용역(장르)에..
2022.12.09 -
인공지능 개발을 위한 데이터 데이터의 종류 워드넷, 시소러스 : 단어간의 관계를 나타낸 것 온톨로지, 지식그래프 : 지식을 표상하기 위한 체계에 따라서 각각 어휘들을 연결해 놓은 것 혹은 어휘들의 의미를 분석해 놓은 것 인공지능 기술의 발전 1950년대 규칙기반 → 1990년대 통계 기반(단어 기반/문장 기반) → 2000년대 기계학습 기반 (지도학습/비지도학습/강화학습) 기술 자체는 변화했어도 과제(Task)와 데이터는 여전히 같다. 언어 모델 평가를 위한 종합적인 벤치마크 등장 이전에는 특정 과제만을 해결할 수 있는 데이터들이 존재하였지만 PLM이 개발된 이후에는 과제를 하나하나 해결하는 것이 아니라 언어모델이라는 것이 가지고 있는 종합적인 언어 능력을 평가하기 위해 벤치마크 데이터와 모델이 등장하게..
[NLP 데이터 제작] 2. 자연어처리 데이터의 특성인공지능 개발을 위한 데이터 데이터의 종류 워드넷, 시소러스 : 단어간의 관계를 나타낸 것 온톨로지, 지식그래프 : 지식을 표상하기 위한 체계에 따라서 각각 어휘들을 연결해 놓은 것 혹은 어휘들의 의미를 분석해 놓은 것 인공지능 기술의 발전 1950년대 규칙기반 → 1990년대 통계 기반(단어 기반/문장 기반) → 2000년대 기계학습 기반 (지도학습/비지도학습/강화학습) 기술 자체는 변화했어도 과제(Task)와 데이터는 여전히 같다. 언어 모델 평가를 위한 종합적인 벤치마크 등장 이전에는 특정 과제만을 해결할 수 있는 데이터들이 존재하였지만 PLM이 개발된 이후에는 과제를 하나하나 해결하는 것이 아니라 언어모델이라는 것이 가지고 있는 종합적인 언어 능력을 평가하기 위해 벤치마크 데이터와 모델이 등장하게..
2022.12.09 -
전체 프로젝트에서 데이터 관련 작업에 소요되는 시간 비율은 80%이다. 데이터 구축 과정 원시 데이터 선정 및 확보 저작권, 태스크 적합성을 신경 써야 함 구축 및 가공 프로세스 확립 구축 및 검수 절차, 작업자 선정 구축 및 가공 지침 작성 플랫폼 소통 및 작업자 교육 데이터 구축 및 가공 파일럿, 작업자 관리 데이터 검수 품질 평가 기준, 데이터 규격, 내용 AI 데이터 설계의 구성요소 1. 데이터 설계 데이터의 유형 소리 텍스트 이미지 영상 데이터의 In/Out 형식 HTML, XML, CSV, TSV ... train/dev/test 별 규모와 구문 분석 규모 선정에 필요한 정보 : 확보 가능한 원시데이터의 규모, 주석 작업 시간 구분 방식 : 데이터 별 비율과 기준 정하기 데이터 주석(annot..
[NLP 데이터 제작] 1. 데이터 제작의 전체적인 흐름전체 프로젝트에서 데이터 관련 작업에 소요되는 시간 비율은 80%이다. 데이터 구축 과정 원시 데이터 선정 및 확보 저작권, 태스크 적합성을 신경 써야 함 구축 및 가공 프로세스 확립 구축 및 검수 절차, 작업자 선정 구축 및 가공 지침 작성 플랫폼 소통 및 작업자 교육 데이터 구축 및 가공 파일럿, 작업자 관리 데이터 검수 품질 평가 기준, 데이터 규격, 내용 AI 데이터 설계의 구성요소 1. 데이터 설계 데이터의 유형 소리 텍스트 이미지 영상 데이터의 In/Out 형식 HTML, XML, CSV, TSV ... train/dev/test 별 규모와 구문 분석 규모 선정에 필요한 정보 : 확보 가능한 원시데이터의 규모, 주석 작업 시간 구분 방식 : 데이터 별 비율과 기준 정하기 데이터 주석(annot..
2022.12.09 -
Wrap up 멘토링에서도 여러번 말씀드렸지만 딥러닝 프로젝트는 어떤 데이터, 어떤 방법론을 사용하더라도 아래의 프로세스를 따라 정의됩니다. “데이터 처리 (데이터 분석, 전처리, 증강 기법 등) - 모델링 (베이스라인 구현, 모델 구조 개선, 하이퍼파라미터 튜닝, 모델 앙상블) - 성능 산출 - 결과분석” 한번에 순서대로 프로젝트가 진행되는 것이 아니기 때문에 모델 성능과 결과 분석 과정을 통해 추가적인 데이터 분석과 전처리, 증강기법이 지속적인 사이클을 이루어 진행됩니다. 이 부분은 첫번째 대회를 통해 충분 히 많이 느끼셨을거라 생각해요. 그리고 모든 과정은 단순히 "잘될것 같은데?"가 아니라 우리의 생각과 선행 연구(혹은 기타 자료들)를 기반으로 적절한 가설을 세워 진행됩니다.좀더 자세히 말씀드려보..
[WEEK09/10/11] 문장 내 개체간 관계 추출(Relation Extraction, RE) 대회 Wrap-up 및 회고Wrap up 멘토링에서도 여러번 말씀드렸지만 딥러닝 프로젝트는 어떤 데이터, 어떤 방법론을 사용하더라도 아래의 프로세스를 따라 정의됩니다. “데이터 처리 (데이터 분석, 전처리, 증강 기법 등) - 모델링 (베이스라인 구현, 모델 구조 개선, 하이퍼파라미터 튜닝, 모델 앙상블) - 성능 산출 - 결과분석” 한번에 순서대로 프로젝트가 진행되는 것이 아니기 때문에 모델 성능과 결과 분석 과정을 통해 추가적인 데이터 분석과 전처리, 증강기법이 지속적인 사이클을 이루어 진행됩니다. 이 부분은 첫번째 대회를 통해 충분 히 많이 느끼셨을거라 생각해요. 그리고 모든 과정은 단순히 "잘될것 같은데?"가 아니라 우리의 생각과 선행 연구(혹은 기타 자료들)를 기반으로 적절한 가설을 세워 진행됩니다.좀더 자세히 말씀드려보..
2022.12.09 -
▮ SCP Secure Copy의 줄임말로 ssh를 이용하여 네트워크로 연결된 호스트 간에 파일을 주고받는 명령어 옵션 r 디렉토리 내 모든 파일/디렉토리 복사 scp -r P 포트 번호 지정 scp -P [포트번호] p 원본 권한 속성 유지 scp -p 내 Local → 특정 서버 scp -P 포트번호 경로/올릴파일명 아이디@서버주소:저장할경로 특정 서버의 디렉토리 다운로드 scp -P 포트번호 -r 아이디@서버주소:서버의경로 내컴퓨터의경로 해당 서버의 password가 필요하다. 서버의 password를 만드는 방법은 passwd를 입력하여 설정 가능함 ▮.gitignore에 있었던 파일을 다시 추적하고 싶을 경우 1. git -f 다시추적하고싶은파일명 git add -f 파일명 2. git comm..
[WEEK9/10/11] TIPS▮ SCP Secure Copy의 줄임말로 ssh를 이용하여 네트워크로 연결된 호스트 간에 파일을 주고받는 명령어 옵션 r 디렉토리 내 모든 파일/디렉토리 복사 scp -r P 포트 번호 지정 scp -P [포트번호] p 원본 권한 속성 유지 scp -p 내 Local → 특정 서버 scp -P 포트번호 경로/올릴파일명 아이디@서버주소:저장할경로 특정 서버의 디렉토리 다운로드 scp -P 포트번호 -r 아이디@서버주소:서버의경로 내컴퓨터의경로 해당 서버의 password가 필요하다. 서버의 password를 만드는 방법은 passwd를 입력하여 설정 가능함 ▮.gitignore에 있었던 파일을 다시 추적하고 싶을 경우 1. git -f 다시추적하고싶은파일명 git add -f 파일명 2. git comm..
2022.12.09 -
Typed Entity Marker 모델의 알고리즘은 같아도 학습한 데이터가 다르다면 완전 다른 모델이기 때문에 논문과 같은 결과를 낼 수는 없다. 현재 진행중인 모델과 task에서는 Type Entity Marker가 유의미하다 라고 결론을 내릴 수 있다. TAPT DAPT는 현존하는 한국어 Relation Extraction task 데이터를 가지고 pretrain하는 것 최근 논문들에서는 TAPT를 오래 학습하면 catastrophe forgetting이라고 원래 LM이 가지고 있는 지식들을 잊어버리는 현상들이 목격되었다. 데이터에 따라 다르지만 1 ~ 5 epoch이 좋은 경우가 많다. TAPT는 다운스트림 Task를 적용해보기 전까지는 loss값만으로는 비교하기가 어렵다. epoch이 높을 수록..
[WEEK9/10/11] Relation Extraction 대회 진행 중의 기록Typed Entity Marker 모델의 알고리즘은 같아도 학습한 데이터가 다르다면 완전 다른 모델이기 때문에 논문과 같은 결과를 낼 수는 없다. 현재 진행중인 모델과 task에서는 Type Entity Marker가 유의미하다 라고 결론을 내릴 수 있다. TAPT DAPT는 현존하는 한국어 Relation Extraction task 데이터를 가지고 pretrain하는 것 최근 논문들에서는 TAPT를 오래 학습하면 catastrophe forgetting이라고 원래 LM이 가지고 있는 지식들을 잊어버리는 현상들이 목격되었다. 데이터에 따라 다르지만 1 ~ 5 epoch이 좋은 경우가 많다. TAPT는 다운스트림 Task를 적용해보기 전까지는 loss값만으로는 비교하기가 어렵다. epoch이 높을 수록..
2022.12.09