벡터공간 모델

위키백과, 우리 모두의 백과사전.
이동: 둘러보기, 검색

벡터공간 모델(―空間―, 영어: vector space model) 또는 단어 벡터 모델(單語―, 영어: term vector model)은 텍스트 문서를 단어 색인 등의 식별자로 구성된 벡터로 표현하는 대수적 모델이다. 정보 검색, 정보 필터링 및 검색 엔진의 색인이나 연관도 순위에 사용된다. 이 모델이 최초로 적용된 것은 코넬 대학교SMART 정보 검색 시스템이었다.

정의[편집]

문서와 질의는 다음과 같이 벡터로 표현된다.

d_j = ( w_{1,j} ,w_{2,j} , \dotsc ,w_{t,j} )
q = ( w_{1,q} ,w_{2,q} , \dotsc ,w_{t,q} )

각각의 차원은 개별 단어에 대응된다. 어떤 단어가 문서에 포함되면, 해당 단어는 0이 아닌 벡터값을 갖는다. 단어 가중치라고도 불리는 이 값을 산출하는 방법에는 여러 가지가 있다. 가장 널리 알려진 방식은 TF-IDF 방식이다.(아래 사례 항목 참조)

벡터공간 모델에서 단어(term)의 의미는 그 적용 대상에 따라 달라진다. 일반적으로는 하나의 단어(word)나 키워드, 또는 좀더 긴 구를 의미한다. 벡터의 차원의 크기는 말뭉치에 포함된 단어의 개수와 같다.

벡터 연산은 문서들간의 유사성을 비교하는 데에도 사용될 수 있다.

응용[편집]

Vector space model.jpg

키워드 검색에서 사용되는 문서의 연관도는 문서 유사도 이론으로 계산될 수 있다. 문서 유사도 이론에서 문서 유사도는 문서 벡터간의 각도의 편차를 이용하여 산출된다.

실제 적용시에는, 문서 벡터간의 각도 자체보다는 다음과 같이 각도의 코사인값을 이용하는 것이 더 간단하다.


\cos{\theta} = \frac{\mathbf{d_2} \cdot \mathbf{q}}{\left\| \mathbf{d_2} \right\| \left \| \mathbf{q} \right\|}

\mathbf{d_2} \cdot \mathbf{q}는 문서 벡터(오른쪽 그림의 d2)와 질의 벡터(그림의 q)의 교차점(스칼라곱)에 해당하며, \left\| \mathbf{d_2} \right\|는 벡터 d2노름, \left\| \mathbf{q} \right\|는 벡터 q의 노름이다. 벡터의 노름의 다음과 같이 계산된다.


\left\| \mathbf{q} \right\| = \sqrt{\sum_{i=1}^n q_i^2}

벡터의 모든 요소는 음수가 아닌 값이므로, 코사인값이 0인 경우 질의 벡터와 문서 벡터가 직교하며 겹치는 부분이 전혀 없음(서로 동일하게 포함하고 있는 단어가 하나도 없음)을 의미한다. 벡터간 각도의 코사인값을 이용한 유사도 계산에 대해서는 코사인 유사도를 참조하라.

사례: TF-IDF 가중치[편집]

제라드 솔튼, 웡(Wong), 그리고 양(Yang)의 연구[1]에서 제안된 전통적 벡터공간 모델에서, 문서내 특정 단어의 가중치는 지역 매개변수와 전역 매개변수의 곱으로 계산된다. 이러한 모델을 단어 빈도-역 문서 빈도 모델이라 한다. 문서 d의 가중치 벡터는 \mathbf{v}_d = [w_{1,d}, w_{2,d}, \ldots, w_{N,d}]^T이며, 여기서 
w_{t,d}는 다음과 같다.


w_{t,d} = \mathrm{tf}_{t,d} \cdot \log{\frac{|D|}{|\{d' \in D \, | \, t \in d'\}|}}

그리고,

  • \mathrm{tf}_{t,d}는 문서 d에서 단어 t의 빈도(지역 매개변수),
  • \log{\frac{|D|}{|\{d' \in D \, | \, t \in d'\}|}}는 역 문서 빈도(전역 매개변수)이다. |D|는 문서 집합내 전체 문서의 개수이며, |\{d' \in D \, | \, t \in d'\}|는 단어 t를 포함하는 문서의 개수이다.

문서 dj와 질의 q의 코사인 유사도를 이용하여 다음과 같이 문서간 유사도를 계산할 수 있다.

\mathrm{sim}(d_j,q) = \frac{\mathbf{d_j} \cdot \mathbf{q}}{\left\| \mathbf{d_j} \right\| \left \| \mathbf{q} \right\|} = \frac{\sum _{i=1}^N w_{i,j}w_{i,q}}{\sqrt{\sum _{i=1}^N w_{i,j}^2}\sqrt{\sum _{i=1}^N w_{i,q}^2}}

장점[편집]

벡터공간 모델은 불린 모델에 비해 다음과 같은 장점을 지닌다.

  1. 선형 대수에 기반한 단순한 모델
  2. 비(非)이진 단어 가중치
  3. 문서와 질의간의 유사도를 연속적인 값으로 계산 가능
  4. 연관도에 의한 문서 순위 결정 가능
  5. 부분 일치 고려 가능

한계[편집]

벡터공간 모델은 다음과 같은 한계를 지닌다.

  1. 길이가 긴 문서는 낮은 유사도값(작은 스칼라곱큰 차원)으로 인해 제대로 표현할 수 없다.
  2. 검색 키워드는 문서내의 단어와 정확히 일치해야 한다. 부분 일치하는 단어는 거짓 양성 결과를 가져올 수 있다.
  3. 의미 유사성 관련 ― 유사한 내용을 담고 있더라도 사용된 단어들 다르다면 그 문서들의 유사성은 매우 낮게 나오며, 이는 거짓 음성 결과에 해당한다.
  4. 단어가 나타나는 순서에 관한 정보가 활용되지 못한다.
  5. 단어들이 통계적으로 서로 독립적이라는 이론적 가정에 기반하고 있다.
  6. 가중치 계산 방식이 직관적이기는 하지만 포멀한 형식이 아니다.

벡터공간 모델의 이러한 여러 문제점들은 다양한 방법으로 극복될 수 있다. 여기에는 특이값 분해와 같은 수학적 기법과 워드넷과 같은 어휘 데이터베이스 활용이 포함된다.

관련 모델[편집]

벡터공간 모델에 기반하거나 이를 확장한 모델에는 다음과 같은 것들이 있다.

관련 소프트웨어[편집]

다음의 소프트웨어들은 벡터공간 모델을 연구하거나 구현할 경우 참고가 될 수 있다.

무료 오픈 소스 소프트웨어[편집]

  • Apache Lucene: 전체가 자바로 작성된 고성능 다기능 텍스트 검색 엔진 라이브러리
  • SemanticVectors: Apache Lucene으로 생성한 단어-문서 매트릭스에 랜덤 프로젝션 알고리즘을 적용해 구현한 의미 벡터 색인(잠재 의미 분석과 유사)
  • Gensim: 벡터공간 모델링을 위한 Python+NumPy 프레임워크. TF-IDF, 잠재 의미 색인, 국지성 민감 해싱잠재 디리클레 할당을 위한 점증적(메모리-효율적) 알고리즘을 포함함
  • Weka: WordVectords 및 단어주머니 모델을 자바로 구현한 널리 알려진 데이터 마이닝 패키지
  • Compressed vector space in C++ by Antonio Gulli
  • Text to Matrix Generator (TMG): 다음과 같은 다양한 텍스트 마이닝 작업에 사용될 수 있는 MATLAB 툴박스 - 1)색인, 2)검색, 3)차원 절감, 4)클러스터링, 5)분류. TMG의 대부분은 MATLAB으로 작성되었으며 일부는 Perl로 작성되었다. LSI, clustered LSI, NMF 및 다른 방식들을 포함한다.
  • SenseClusters: 잠재 의미 분석 및 단어 동시발생 행렬을 이용한 텍스트 및 단어 클러스터링을 지원하는 오픈소스 패키지
  • S-Space Package: 통계적 의미론과 관련한 탐색 및 작업을 위한 알고리즘 모음

더 읽어 보기[편집]

같이 보기[편집]

주석[편집]

  1. (영어) G. Salton , A. Wong , C. S. Yang, A vector space model for automatic indexing, Communications of the ACM, v.18 n.11, p.613-620, Nov. 1975