분포 의미론

위키백과, 우리 모두의 백과사전.

특정 언어에서 단어가 어떻게 관련되어 있는지는 수학적으로 벡터 공간에 해당하는 "시맨틱 공간"에서 보여진다.

분포 의미론[1](Distributional semantics)은 대규모 언어 데이터 샘플에서 언어 항목 간의 의미적 유사성을 그 분포 특성을 기반으로 정량화하고 분류하기 위한 이론 및 방법을 개발하고 연구하는 연구 분야이다. 분포 의미론의 기본 아이디어는 소위 분포 가설로 요약될 수 있다. 유사한 분포를 갖는 언어 항목은 유사한 의미를 갖는다.

분포 가설[편집]

언어학의 분포 가설(distributional hypothesis)은 언어 사용의 의미론에서 파생된다. 즉, 동일한 맥락에서 사용되고 발생하는 단어는 유사한 의미를 나타내는 경향이 있다.[2]

"단어는 그것이 유지하는 회사에 의해 특징지어진다"는 근본적인 생각은 1950년대 존 루퍼트 퍼스에 의해 대중화되었다.[3]

분포 가설은 통계 의미론의 기초이다. 분포 가설은 언어학에서 시작되었지만[4] 이제는 특히 단어 사용의 맥락과 관련하여 인지과학에서 주목을 받고 있다.[5]

최근 수 년 동안 분포 가설은 언어 학습에서 유사성 기반 일반화 이론의 기초를 제공했다. 즉, 어린이가 유사한 단어의 분포를 통해 그 사용에 대해 일반화함으로써 이전에 거의 접하지 못했던 단어를 사용하는 방법을 알아낼 수 있다는 아이디어이다.[6][7]

분포 가설은 두 단어가 의미적으로 유사할수록 분포적으로 더 유사할 것이며 따라서 유사한 언어적 맥락에서 더 많이 발생하는 경향이 있음을 시사한다.

같이 보기[편집]

각주[편집]

  1. Lenci, Alessandro; Sahlgren, Magnus (2023). 《Distributional Semantics》. Cambridge University Press. ISBN 9780511783692. 
  2. Harris 1954
  3. Firth 1957
  4. Sahlgren 2008
  5. McDonald & Ramscar 2001
  6. Gleitman 2002
  7. Yarlett 2008

출처[편집]

외부 링크[편집]