일반화 벡터공간 모델

위키백과, 우리 모두의 백과사전.
이동: 둘러보기, 검색

일반화 벡터공간 모델(一般化―空間―, 영어: generalized vector space model)은 정보 검색에서 사용되는 벡터공간 모델을 일반화한 모델이다. 웡은 그의 연구[1]에서 벡터 공간 모델의 상호 직교성 가정이 갖는 문제점을 분석하였으며, 기존의 모델을 보완하는 일반화 벡터공간 모델을 제안하였다.

정의[편집]

일반화 벡터공간 모델은 상호 직교성 가정을 버리고 단어간 상관도 개념을 도입하였다. 이에 각 단어 벡터 ti2n개의 벡터 mr의 선형 조합으로 표현되는 새로운 공간 개념이 사용된다. 여기서 r = 1...2n이다.

문서 dk와 질의 q의 유사도는 다음과 같이 계산된다.

sim(d_k,q) = \frac{\sum _{j=1}^n \sum _{i=1}^n w_{i,k}*w_{j,q}*t_i \cdot t_j }{\sqrt{\sum _{i=1}^n w_{i,k}^2}*\sqrt{\sum _{i=1}^n w_{i,q}^2}}

titj2n차원 공간의 벡터이다.

단어 상관도 t_i \cdot t_j는 여러 가지 방식으로 구현될 수 있다. 웡의 논문에서는 자동 색인에 의해 생성된 단어 빈도 행렬을 입력으로 받아 모든 색인 단어쌍에 대한 상관도를 출력하는 알고리즘을 적용하였다.

의미 정보의 처리[편집]

전체 단어 일치 방식을 제외했을 때, 정보 검색 모델에서 단어간 관련성을 고려하는 방향에는 크게 다음의 두 가지가 있다.

  1. 단어간의 의미적 상관도를 계산하는 방식
  2. 대량의 말뭉치에서 단어들의 동시 발생 빈도를 통계적으로 계산하는 방식

최근 차차로니스에 의한 발표된 논문[2]에서 첫 번째 방식에 대해 자세히 다루었다. 이 논문에서는 의미적 관련성(semantic relatedness, SR)을 워드넷과 같은 유의어 사전(O)을 이용해 계산했다. 밀도(compactness, SCM)에 의해 구해지는 경로 길이(path length)와 의미적 길이 합성(sementic path elaboration, SPE)에 의해 구해지는 경로 깊이(path depth) 개념이 사용되었다. 유사도 공식에 포함된 t_i \cdot t_j 값은 다음과 같이 계산되었다.

t_i \cdot t_j = SR((t_i, t_j), (s_i, s_j), O)

sisj는 각각 단어 titj의 의미이며, SCM \cdot SPE를 최대화하는 값으로 결정된다.

주석[편집]

  1. S. K. M. Wong, Generalized vector spaces model in information retrieval, SIGIR ACM, 1985년 6월 5일.
  2. George Tsatsaronis, A Generalized Vector Space Model for Text Retrieval Based on Semantic Relatedness, EACL ACM, 2009년 4월 2일.