벡터 공간 모델

벡터 공간 모델(―空間―, 영어: vector space model) 또는 단어 벡터 모델(單語―, 영어: term vector model)은 텍스트 문서를 단어 색인 등의 식별자로 구성된 벡터로 표현하는 대수적 모델이다. 정보 검색, 정보 필터링 및 검색 엔진의 색인이나 연관도 순위에 사용된다. 이 모델이 최초로 적용된 것은 코넬 대학교의 게오르그 셀튼 교수 연구실의 SMART 정보 검색 시스템이었다.

정의[편집]

문서와 질의는 다음과 같이 벡터로 표현된다.

d_{j}=(w_{1,j},w_{2,j},\dotsc ,w_{t,j})

q=(w_{1,q},w_{2,q},\dotsc ,w_{t,q})

각각의 차원은 개별 단어에 대응된다. 어떤 단어가 문서에 포함되면, 해당 단어는 0이 아닌 벡터값을 갖는다. 단어 가중치라고도 불리는 이 값을 산출하는 방법에는 여러 가지가 있다. 가장 널리 알려진 방식은 TF-IDF 방식이다.(아래 사례 항목 참조)

벡터 공간 모델에서 단어(term)의 의미는 그 적용 대상에 따라 달라진다. 일반적으로는 하나의 단어(word)나 키워드, 또는 좀더 긴 구를 의미한다. 벡터의 차원의 크기는 말뭉치에 포함된 단어의 개수와 같다.

벡터 연산은 문서들간의 유사성을 비교하는 데에도 사용될 수 있다.

응용[편집]

키워드 검색에서 사용되는 문서의 연관도는 문서 유사도 이론으로 계산될 수 있다. 문서 유사도 이론에서 문서 유사도는 문서 벡터간의 각도의 편차를 이용하여 산출된다.

실제 적용시에는, 문서 벡터간의 각도 자체보다는 다음과 같이 각도의 코사인값을 이용하는 것이 더 간단하다.

\cos {\theta }={\frac {\mathbf {d_{2}} \cdot \mathbf {q} }{\left\|\mathbf {d_{2}} \right\|\left\|\mathbf {q} \right\|}}

$\mathbf {d_{2}} \cdot \mathbf {q}$ 는 문서 벡터(오른쪽 그림의 d₂)와 질의 벡터(그림의 q)의 교차점(스칼라곱)에 해당하며, $\left\|\mathbf {d_{2}} \right\|$ 는 벡터 d₂의 노름, $\left\|\mathbf {q} \right\|$ 는 벡터 q의 노름이다. 벡터의 노름의 다음과 같이 계산된다.

\left\|\mathbf {q} \right\|={\sqrt {\sum _{i=1}^{n}q_{i}^{2}}}

벡터의 모든 요소는 음수가 아닌 값이므로, 코사인값이 0인 경우 질의 벡터와 문서 벡터가 직교하며 겹치는 부분이 전혀 없음(서로 동일하게 포함하고 있는 단어가 하나도 없음)을 의미한다. 벡터간 각도의 코사인값을 이용한 유사도 계산에 대해서는 코사인 유사도를 참조하라.

사례: TF-IDF 가중치[편집]

제라드 솔튼, 웡(Wong), 그리고 양(Yang)의 연구^[1]에서 제안된 전통적 벡터 공간 모델에서, 문서내 특정 단어의 가중치는 지역 매개변수와 전역 매개변수의 곱으로 계산된다. 이러한 모델을 단어 빈도-역 문서 빈도 모델이라 한다. 문서 d의 가중치 벡터는 $\mathbf {v} _{d}=[w_{1,d},w_{2,d},\ldots ,w_{N,d}]^{T}$ 이며, 여기서 $w_{t,d}$ 는 다음과 같다.

w_{t,d}=\mathrm {tf} _{t,d}\cdot \log {\frac {|D|}{|\{d'\in D\,|\,t\in d'\}|}}

그리고,

$\mathrm {tf} _{t,d}$ 는 문서 d에서 단어 t의 빈도(지역 매개변수),
$\log {\frac {|D|}{|\{d'\in D\,|\,t\in d'\}|}}$ 는 역 문서 빈도(전역 매개변수)이다. $|D|$ 는 문서 집합내 전체 문서의 개수이며, $|\{d'\in D\,|\,t\in d'\}|$ 는 단어 t를 포함하는 문서의 개수이다.

문서 d_j와 질의 q의 코사인 유사도를 이용하여 다음과 같이 문서간 유사도를 계산할 수 있다.

\mathrm {sim} (d_{j},q)={\frac {\mathbf {d_{j}} \cdot \mathbf {q} }{\left\|\mathbf {d_{j}} \right\|\left\|\mathbf {q} \right\|}}={\frac {\sum _{i=1}^{N}w_{i,j}w_{i,q}}{{\sqrt {\sum _{i=1}^{N}w_{i,j}^{2}}}{\sqrt {\sum _{i=1}^{N}w_{i,q}^{2}}}}}

장점[편집]

벡터 공간 모델은 불린 모델에 비해 다음과 같은 장점을 지닌다.

선형 대수에 기반한 단순한 모델
비(非)이진 단어 가중치
문서와 질의간의 유사도를 연속적인 값으로 계산 가능
연관도에 의한 문서 순위 결정 가능
부분 일치 고려 가능

한계[편집]

벡터 공간 모델은 다음과 같은 한계를 지닌다.

길이가 긴 문서는 낮은 유사도값(작은 스칼라곱과 큰 차원)으로 인해 제대로 표현할 수 없다.
검색 키워드는 문서내의 단어와 정확히 일치해야 한다. 부분 일치하는 단어는 거짓 양성 결과를 가져올 수 있다.
의미 유사성 관련 ― 유사한 내용을 담고 있더라도 사용된 단어들 다르다면 그 문서들의 유사성은 매우 낮게 나오며, 이는 거짓 음성 결과에 해당한다.
단어가 나타나는 순서에 관한 정보가 활용되지 못한다.
단어들이 통계적으로 서로 독립적이라는 이론적 가정에 기반하고 있다.
가중치 계산 방식이 직관적이기는 하지만 포멀한 형식이 아니다.

벡터 공간 모델의 이러한 여러 문제점들은 다양한 방법으로 극복될 수 있다. 여기에는 특잇값 분해와 같은 수학적 기법과 워드넷과 같은 어휘 데이터베이스 활용이 포함된다.

더 읽어 보기[편집]

(영어) G. Salton, A. Wong, and C. S. Yang (1975), "A Vector Space Model for Automatic Indexing," Communications of the ACM, vol. 18, nr. 11, pages 613–620. (벡터 공간 모델이 소개된 논문)
(영어) David Dubin (2004), "The Most Influential Paper Gerard Salton Never Wrote^{[깨진 링크(과거 내용 찾기)]}": (벡터 공간 모델의 역사 및 잘못된 관련 논문 인용에 대한 지적)
(영어) 벡터 공간 모델에 대한 설명
(영어) 전통적 벡터 공간 모델에 대한 설명
(영어) "k-Nearest Neighbor" 탐색과 벡터 공간 모델의 관계

같이 보기[편집]

각주[편집]

↑ (영어) G. Salton , A. Wong , C. S. Yang, A vector space model for automatic indexing, Communications of the ACM, v.18 n.11, p.613-620, Nov. 1975

[1] (영어) G. Salton , A. Wong , C. S. Yang, A vector space model for automatic indexing, Communications of the ACM, v.18 n.11, p.613-620, Nov. 1975

[1]