연어 (언어학)

위키백과, 우리 모두의 백과사전.

연어(連語, collocation)는 동일한 맥락에서 일반적인 경우보다 높은 빈도로 나타나는 어휘의 쌍이다. 가령 한국어 화자는 ‘감을 붙잡다’보다는 ‘감을 잡다’를 자연스럽게 여기며, 영어 화자는 ‘strong computer’보다는 ‘powerful computer’를 선호한다.

공기(共起)하는 모든 어휘가 연어가 되는 것은 아니며, 두 어휘의 공기 빈도가 통계적인 기대 빈도보다 높은 경우에 연어가 된다. 그러나 ‘미역국을 먹다’처럼 문자 그대로의 의미로 쓰이지 않고 수사적 의미를 강하게 갖는 경우에는 연어라고 하지 않고 관용구라고 한다. 즉 연어는 일반적인 공기어와 관용구의 사이에 있다.

연어는 언어적, 문화적, 심리적 맥락에서 함께 쓰이는 것이 선호되므로, 사전 편찬이나 외국어 교육에서 중요하게 다루어져야 한다. 가령 모국어 화자는 직관적으로 알 수 있지만 해당 언어를 배우는 학습자는 잘 알지 못하는 연어가 높은 빈도로 사용된다면, 말뭉치에서 그 빈도를 파악하여 빈도에 따라 자세히 다룰 필요가 존재한다.

연어 추출 공식[편집]

통계학적으로 유의미한 연어를 추출하기 위해서는 T-test, 상호의존정보(MI score), 로그 가능도 등이 주로 사용된다. 그 중 어휘 A와 어휘 B가 연이어 있을 때 이것이 연어인지 판정하는 T-test의 공식은 다음과 같다.

  • : 말뭉치의 크기
  • : 말뭉치 전체에서 어휘 A의 빈도
  • : 말뭉치 전체에서 어휘 B의 빈도
  • : 어휘 A의 양 옆에서 어휘 A와 B의 공기 빈도

같이 보기[편집]