단어 가방 모형
단어 가방(bag-of-words) 모형은 자연어 처리 및 정보 검색 (IR)에 사용되는 단순화 된 표현이다. 이 모델에서 텍스트 (문장 또는 문서 등)는 문법 및 단어 순서는 무시하고 다중성을 유지하면서 단어의 가방(멀티 세트)으로 표시된다. 단어 가방 모델은 컴퓨터 비전에도 사용되었다.
단어 가방 모델은 각 단어의 발생 빈도가 분류자[1]를 훈련시키는 특성으로 사용되는 문서 분류 방법에 일반적으로 사용된다.
언어적 맥락에서 "단어 가방"에 대한 초기 언급은 분포 구조에 관한 Zellig Harris 의 1954년 논문에서 찾을 수 있다.[2]
응용
[편집]실제로 단어 가방 모델은 주로 특성 생성 도구로 사용된다. 텍스트를 "단어"로 변환 한 후에는 텍스트를 특성화 하기 위한 다양한 측정 값을 계산할 수 있다. 단어 가방 모델에서 계산 된 가장 일반적인 유형의 특성 또는 기능은 용어 빈도, 즉 용어가 텍스트에 나타나는 횟수이다.
n-그램 모델
[편집]단어 가방 모델은 단어 수가 중요한 순서없는 문서 표현이다. 예를 들어 "철수는 영화를 보는 것을 좋아한다. 영희는 영화도 좋아한다." 라는 단어를 표현하면 동사 "좋아한다"가 항상 이 텍스트에서 사람의 이름을 따른다는 것을 나타내지 않는다. 대안으로, n-그램 모델은 이 공간 정보를 저장할 수 있다. 바이그램(bigram) 모델은 텍스트를 단어 2개 단위로 구문 분석하고 이전과 같이 각 단위의 빈도라는 용어를 저장한다.
개념적으로 단어 가방 모델은 n-그램 모델의 특수 사례(n = 1)로 볼 수 있다. n > 1의 경우 모델 이름은 w-shingling(여기서 w는 그룹화 된 단어 수를 나타내는 n 과 같다). 자세한 내용은 언어 모델 참조.
같이 보기
[편집]각주
[편집]- ↑ McTear et al 2016, p. 167.
- ↑ Harris, Zellig (1954). “Distributional Structure”. 《Word》 10 (2/3): 146–62.
And this stock of combinations of elements becomes a factor in the way later choices are made ... for language is not merely a bag of words but a tool with particular properties which have been fashioned in the course of its use