새소식

딥러닝/논문 리뷰(GitBook으로 이전)

[Paper Review] AEDA: An Easier Data Augmentation Technique for Text Classification

  • -

 

 

 

Abstract

 

AEDA는 원 문장의 Sequence length를 기준으로 1/3 ~ 1 사이의 숫자를 랜덤으로 선택하여 6가지 punctuation (".", ";", "?", ":", "!", ",") 중 하나를 랜덤으로 대체시키는 기법이다.

 

AEDA 기법은 EDA 기법(Wei and Zou, 2019)보다 더 간단한 기법이다.

또한 본 논문은 text classification을 위한 5개의 데이터셋에 대해 EDA기법과 AEDA기법에 대해 성능을 비교했을 때 AEDA에 대해 좀 더 좋은 성능을 보임을 확인하였다.

 

 

Related Works

 

Text Augmentation 기법들의 종류는 아래와 같다.

 

1. Neural Machine Translation

영어로 된 문장을 프랑스어로 translation하고 다시 영어로 translation 하는 기법

 

2. Mix-Transformer 

Sentence1(positive) 40%와 Sentence2(negative) 60%의 embedding된 값을 combination한 문장을 positive 0.4, negative 0.6 인 문장으로 활용하는 기법

 

3. LM을 활용한 Contextual word

This is very cool이라는 문장이 BERT로 들어갔을 때 very라는 토큰 embedding이 어디에 contextual embedding으로 주어졌는지 보고 해당 embedding에 가까이 있는 것들을 동의어로 생각해서 대체시켜주는 기법

 

4. 빈도 기반 단어 대체

Unigram으로 단어들간의 출현빈도를 살펴보고 가장 많이 동시에 출현한 단어를 동의어로 보고 대체시켜주는 기법

 

 

EDA 논문의 기법(Wei and Zou, 2019)

  1. 유의어로 교체(Synonym Replacement, SR): 문장에서 랜덤으로 stop words가 아닌 n 개의 단어들을 선택해 임의로 선택한 동의어들 중 하나로 바꾸는 기법.
  2. 랜덤 삽입(Random Insertion, RI): 문장 내에서 stop word를 제외한 나머지 단어들 중에서, 랜덤으로 선택한 단어의 동의어를 임의로 정한다. 그리고 동의어를 문장 내 임의의 자리에 넣는걸 n번 반복한다.
  3. 랜덤 교체(Random Swap, RS): 무작위로 문장 내에서 두 단어를 선택하고 위치를 바꾼다. 이것도 n번 반복
  4. 랜덤 삭제(Random Deletion, RD): 확률 p를 통해 문장 내에 있는 각 단어들을 랜덤하게 삭제한다.

 

위의 기법들은 대부분 Augmentation을 위해 일부 보조 데이터 또는 복잡한 언어 모델을 사용해야한다.

또한 RD을 해줄 경우, 단어 자체가 sentence에 의미론적으로 중요한 단어일 수도 있기 때문에 문장 자체의 정보를 잃을 수 도 있다.

RI의 경우 시퀀스의 레이블이 변경될 수 도 있기 때문에 학습의 misleading을 유발할 수 도 있다는 문제점이 있다.

 

그러나, AEDA는 구현이 매우 간단하며 추가 데이터가 필요하지 않다.

 

 

AEDA Augmentation

 

AEDA는 원 문장의 Sequence length를 기준으로 1/3 ~ 1 사이의 숫자를 랜덤으로 선택하여 6가지 punctuation (".", ";", "?", ":", "!", ",") 중 랜덤으로 삽입시키는 기법이다.

 

AEDA는 모든 입력 정보를 보존하고, 단어가 오른쪽으로 이동한다는 점에서 위치를 바꾸면서 어순을 그대로 유지하므로 모델 학습을 misleading하지 않는다.

 

Origin Sentence : the deletion operation in EDA can cause loss of information.

Augmentation : the deletion operation in EDA  can cause loss of  ;  information.

 

 

Experiment

RNN과 CNN 모델에서 AEDA 기법이 EDA기법보다 더 좋은 성능을 냄을 확인할 수 있다.

 

RNN 모델에 기반한 5가지 데이터셋에 대한 성능 평과 결과도 AEDA 기법이 EDA 기법보다 더 좋은 성능을 보이고 있다.

 

 

RNN 기반 모델로 학습했을 때, 데이터셋이 작을 경우 Augmentation의 성능 향상의 효과를 볼 수 있었으며 데이터셋이 큰 경우에는 성능향상의 폭은 작지만 그래도 성능이 향상되기는 함을 보여주고 있다.

 

 

 

BERT 모델로 학습한 결과 효과적인 성능 향상을 보이지는 못하였다.

그러나 EDA 기법의 경우 성능이 떨어진다.

 

Transformer 기반의 모델이 Contextual하게 representational learning을 하기 때문에 EDA 기법은 문맥적으로 알맞지 않는 augmentation 기법으로 보인다.

AEDA는 구두점만 찍어주다보니 Context를 건드리지 않지만 좋은 Augmentation 효과를 볼 수는 없었다.

 

 

 

Review

AEDA기법은 EDA 논문의 기법보다 간단하면서 더 좋은 성능을 보여주었다는 것이 장점인 것같다.

그러나 RNN, CNN 모델에 한해서 뛰어난 성능향상을 보이고 Transformer기반의 모델에서는 큰 성능을 보이지 못한점이 아쉬웠다.

또한 EDA 기법이 tranformer 기반 모델에서는 오히려 성능을 낮춘다는 것을 알게 되었다. 랜덤 삭제나 랜덤 교체같은 방법이 context를 해치기 때문인 것 같다.

 

 


Paper : https://arxiv.org/pdf/2108.13230.pdf

 

Reference:

https://www.youtube.com/watch?v=E9rcpKtGars 

728x90
Contents