본문으로 이동

점별 상호정보량

위키백과, 우리 모두의 백과사전.

점별 상호정보량(Pointwise mutual information, PMI)[1]통계학, 확률론, 정보 이론에서 상관의 척도이다. 두 사건이 함께 발생할 확률을 사건이 독립적인 경우의 확률과 비교한다.[2]

PMI(특히 긍정 점별 상호정보량 변형)는 "NLP에서 가장 중요한 개념 중 하나"로 설명되었으며, 여기서 "두 단어 사이의 연관성을 평가하는 가장 좋은 방법은 얼마나 더 많은지 묻는 것"이라는 직관을 이끌어낸다. 두 단어는 우리가 선험적으로 두 단어가 우연히 나타날 것이라고 기대했던 것보다 말뭉치에서 동시에 발생한다."[2]

이 개념은 1961년 로버트 파노(Robert Fano)가 "상호정보"(mutual information)라는 이름으로 선보였지만 오늘날 이 용어는 대신 무작위 변수 간의 관련 의존성을 측정하는 데 사용된다.[2] 두 이산 무작위 변수의 상호정보(MI)는 평균을 나타낸다. 이는 가능한 모든 이벤트의 PMI이다.

각주[편집]

  1. Kenneth Ward Church and Patrick Hanks (March 1990). “Word association norms, mutual information, and lexicography”. 《Comput. Linguist.》 16 (1): 22–29. 
  2. Dan Jurafsky and James H. Martin: Speech and Language Processing (3rd ed. draft), December 29, 2021, chapter 6

외부 링크[편집]