BOW(Bag of Words)는 텍스트를 단어의 순서는 전혀 고려하지 않고 단어 단위로 나누어, 단어들의 출현 빈도(frequency)에만 집중하는 텍스트 데이터의 수치화 표현 방법이다.
(Bag of Words라는 이름에서부터 알 수 있듯이 텍스트 데이터의 단어들을 모두 가방에 넣고 흔들어 섞는다면, 단어의 순서는 중요하지 않게 되며 가방안에 특정 단어가 몇 개 있는지만 중요하게 된다.)
이렇게 단어 단위로 쪼갠 텍스트를 하나의 긴 벡터로 표현한다.
벡터 중의 각 차원은 하나의 단어를 대표하고, 해당 차원에 대응하는 가중치는 해당 단어가 문장에서 얼마나 중요한지를 나타낸다.
일반적으로 가중치는 TF-IDF를 사용하여 계산한다.
TF-IDF
Tf-idf(t,d) = TF(t,d) X IDF(t)
Tf-idf는 주로 문서의 유사도를 구하는 작업, 검색 시스템에서 검색 결과의 중요도를 정하는 작업, 문서 내에서 특정 단어의 중요도를 구하는 작업 등에 사용된다.
d: 문서 t: 단어 n: 문서의 총 개수 tf(d,t) : (term frequency) : 특정 문서 d에서의 특정 단어 t의 등장 횟수 idf(d, t) : df(t)에 반비례하는 수 df(t) : (document frequency) : 특정 단어 t가 등장한 문서의 수