이 문장은 순서가 엉망이지만 텍스트를 표현하는 방법에 대해 이야기한다는 것을 파악할 수는 있다.
BOW(Bag of Words)는 텍스트를 단어의 순서는 전혀 고려하지 않고 단어 단위로 나누어, 단어들의 출현 빈도(frequency)에만 집중하는 텍스트 데이터의 수치화 표현 방법이다.
(Bag of Words라는 이름에서부터 알 수 있듯이 텍스트 데이터의 단어들을 모두 가방에 넣고 흔들어 섞는다면, 단어의 순서는 중요하지 않게 되며 가방안에 특정 단어가 몇 개 있는지만 중요하게 된다.)
이렇게 단어 단위로 쪼갠 텍스트를 하나의 긴 벡터로 표현한다.
벡터 중의 각 차원은 하나의 단어를 대표하고, 해당 차원에 대응하는 가중치는 해당 단어가 문장에서 얼마나 중요한지를 나타낸다.
일반적으로 가중치는 TF-IDF를 사용하여 계산한다.
TF-IDF
Tf-idf(t,d) = TF(t,d) X IDF(t)
Tf-idf는 주로 문서의 유사도를 구하는 작업, 검색 시스템에서 검색 결과의 중요도를 정하는 작업, 문서 내에서 특정 단어의 중요도를 구하는 작업 등에 사용된다.
d: 문서 t: 단어 n: 문서의 총 개수 tf(d,t) : (term frequency) : 특정 문서 d에서의 특정 단어 t의 등장 횟수 idf(d, t) : df(t)에 반비례하는 수 df(t) : (document frequency) : 특정 단어 t가 등장한 문서의 수