사전 편찬

위키백과, 우리 모두의 백과사전.

사전 편찬(辭典編纂)이란 사전을 만들어내는 일련의 과정을 통틀어 말한다. 사전은 새로 만들어내는 것이라기보다는 편집하는 것이며 산만하게 흩어진 것을 모아 정리하는 것이기 때문에 편찬이라는 명칭이 붙었다.

사전 편찬은 예전부터 이루어졌는데 예전의 방법론은 개인이 수십 년에 걸쳐 수작업으로 하는 것이 대부분이었다. 상자와 종이를 이용한 초기적인 데이터베이스였으며 이것의 비교적 최근 형태로는 도서관의 장서카드함을 들 수 있다. 이 과정에서 앞 세대의 사전은 매우 중요한 참고서였으며 이는 지금도 마찬가지이다. 컴퓨터가 나온 이후 말뭉치언어학(corpus linguistics)이라는 분야가 형성될 정도로 사전 편찬의 방법론은 획기적으로 바뀌었다. 이 과정에서 규모의 경제가 발생하여 예전처럼 다수의 출판사에서 사전이 출간되지 못하고 어느 정도 기술력과 자본을 가지지 못한 곳에서는 새로운 사전을 편찬해내기 어렵게 된 측면도 있다. 21세기 들어 인쇄사전은 전자사전에 비해 경쟁력을 잃게 되어 사전을 전자사전으로 편찬하는 문제를 고민해야 하는 시기가 되었다.

사전 편찬의 과정은 편찬 자료의 수집, 표제어 선정과 원고 집필, 편찬 도구 개발의 세 가지가 상호 보완적으로 교차되면서 이루어진다. 사전은 대규모의 자료를 일관성 있게 처리해야 하므로 이 작업을 도와줄 편찬 도구의 개발은 필수적이며 컴퓨터를 이용해 사전을 편찬할 수 있게 되면서 생긴 가장 중요한 변화 중 하나이다.

사전 편찬의 자료와 지원 도구[편집]

사전을 편찬할 때에는 어떤 사용자를 대상으로 어느 정도 크기의 사전을 만들 것인가, 어떤 기술 태도를 취할 것인가 등의 목적을 정하는 것이 가장 중요하다. 이 목적에 따라 사전을 분류할 수 있다.

사전을 분류하는 방법은 여러 가지가 있다. 어휘의 범위, 기술의 범위, 기술의 관점, 분류/검색 방식, 어휘수, 사용자의 언어 이해 수준, 기술 언어수와 기점언어, 사전이 다루는 시대, 편집자의 기술태도 등 다양한 기준을 찾아볼 수 있으며, 이에 따라서 균형사전(범용사전), 방언사전, 속담사전, 전문용어사전, 부사사전, 연어사전, 시소러스, 갈래사전, 어원사전 등 다양한 사전으로 분류할 수 있다.

사전 이용자가 다양한 목적으로 사전을 찾기 때문에 자연히 이렇게 다양한 사전이 나오게 된 것이며, 따라서 사전을 편찬할 때에는 어떤 이용자에게 어떤 내용을 전달할 것인가 하는 기준을 명확히 세우는 것이 중요하다. 이용자의 성향에 따라 최초의 가정부터 달라질 수 있기 때문이다. 예를 들어 학습자에게 실질적으로 도움 되는 사전을 만들려면 그들이 어떤 실수를 자주 하는가에 대한 정보가 필요한데 이는 범용 말뭉치를 구성해서는 알 수가 없는 정보이다. 이를 위해서는 학습자 오류 말뭉치를 구축해 둘 필요가 있다. 또 어딘가 기존 사전이 해결해주지 못하는 틈새를 강화한 사전을 만들려면 그에 적합한 말뭉치를 구성해야 한다. 어원사전 같은 사전을 만들기 위해서는 범용 말뭉치가 아닌 역사 말뭉치가 필요한 것이다.

한정된 예산과 한정된 지면을 사용해 사전을 만들기 위해서는 모든 것을 담으려는 시도보다는 처음에 세운 기준에 맞춰 목적의식을 가져야 한다. 일단 중도에서 그만두면 안하느니만 못한데 사전은 많은 인력이 수년간 지속적으로 만들지 않으면 안되는 프로젝트인지라 적당한 범위에서 마무리짓는 것 또한 쉽지 않다. OED를 비롯한 여러 역사적 사례를 봐도 사전 만들기는 결코 계획대로 되지 않음을 알 수 있다. 그렇다고 해서 계획마저 없다면 더욱 무모한 시도가 되는 것은 불을 보듯 뻔한 일이다. 그리고 처음부터 공익적 프로젝트로 계획한 것이 아니라면야 하나의 사전이 읽히기 위해서는 우선 팔려야 하는데, 그 경제성을 확보하기 위해서도 계획은 무척 중요한 일이며 이를 위해서도 명확한 목표의 설정은 중요하다.

사전 편찬의 자료는 주요 자료와 보조 자료로 나눌 수 있다.[1]

  1. 주요 자료 : 말뭉치(문어, 구어), 모국어 화자의 직관(제보), 사전편찬자의 언어직관
  2. 보조 자료 : 이전에 편찬된 사전들

말뭉치(corpus)는 언어를 표본추출한 결과물이다. 사전 편찬시 모든 언어를 다룰 수 없기 때문에 다루고자 하는 언어 영역의 범위에 따라 대표성을 가질 수 있는 정도의 표본을 추출하여 검토 대상으로 삼는 것이다. 따라서 말뭉치를 잘 다루기 위해서는 전산학과 통계학적 지식이 필요하다.[2]

사전 편찬이 말뭉치 언어학에 기반을 두고있다 하더라도 사전편찬자의 직관은 절대적이라 할 수 있다. 언어처럼 예외가 많고 미묘한 것에 대한 기술은 통계적인 방법으로 이루어질 수 없기 때문이다. 말뭉치를 통해 걸러진 자료를 판단하는 것은 편찬자의 몫이다. 또 이전에 편찬된 사전들은 주요 자료가 될 수 없다. 앞선 사전의 오류가 계속 다음 사전으로 이어질 수 있기 때문이다. 하지만 보조자료로서는 의미를 가지는데 그것은 표제어 목록이 잘 추출되었는지 비교해본다거나, 구축한 말뭉치의 신뢰성을 검토해본다거나, 표제어의 중요도를 선정한다거나 할 때 매우 유용하다.

사전 편찬에서 컴퓨터의 활용이 절대적인만큼 말뭉치를 잘 다루는 도구를 잘 만드는 것이 또한 매우 중요하다. 특히 사전 집필은 여러 사람들의 공동작업이기 때문에 네트워크가 잘 갖춰진 환경을 구축해야 한다. 위키위키 시스템은 이러한 공동작업의 특성을 잘 가지고 있어서 위키백과위키낱말사전 등의 공동 사전 프로젝트에 유용하게 활용되고 있다.

  1. 빈도와 용례 추출기 : 형태소분석, 정렬, 예문의 시기/분야 표시, 출전 표시 등의 기능 필요[3]
  2. 편집기 : 검색, 집필, 집필자 관리, 초고와 교정된 원고의 관리, 기존 사전 참조 등의 기능 필요

표제어 선정[편집]

표제어 선정은 사전에 무엇을 풀이할 것인가를 결정하는 매우 중요한 작업이다. 표제어 선정 결과에 따라 사전의 성격이 결정된다고 볼 수 있기 때문이다. 현대어 사전이라면 옛말을 실을 필요가 없고, 방언을 싣지 않기로 결정했다면 그 사전은 표준어 제공 쪽에 좀 더 중점을 둔 사전이 되는 것이다.

한국어사전 편찬사는 최초로 말뭉치를 사용한 한국어사전인 연세한국어사전(1998)이 출간되는 시점 이전과 이후로 크게 나눌 수 있는데 연세한국어사전 이전에는 중사전/대사전 가릴 것 없이 기존 사전의 표제어를 대부분 이어받으면서 사전 편찬자의 직관에 따라 새로운 표제어를 더하는 방식으로 만들어져 왔다. 말뭉치를 어느 정도 활용한 표준국어대사전(1999) 역시 표제어 선정과정에서는 기존 관습에서 크게 벗어나지 못했으며 그 이전에 나왔던 사전들은 더욱 그러했다.

사전 편찬 시에 가장 손쉽게 참고할 수 있는 대상으로 어휘 목록을 들 수 있다. 학계에서는 여러 가지 목적에 의해 어휘 목록을 만들어왔다. 예를 들어 초등학생을 대상으로 하는 교재를 만들기 위해서는 초등학생이 알아야 하는 기초 어휘를 뽑지 않으면 안된다. 그러한 여러 가지 목적에 의해 교육용 기초 한자라거나 일본어 능력시험 1급용 어휘 목록 등의 어휘 목록이 만들어져 왔으므로 이것들은 기본적으로 사전 편찬 시에 활용할 수 있다. 하지만 이 어휘 목록들은 수백에서 수천 단위이므로 이를 이용해서 십만 이상 어휘를 다루는 사전을 위한 목록을 만들 수는 없다. 또 그 선정의 자의성이라는 문제도 여전히 남아있다.

표제어를 선정하는 데 있어 기본은 말뭉치에서 어휘 빈도를 조사하는 것이다. 실제 사용례에서 얼마나 사용되었는가를 검토하면 기존 사전에 실리지 못했던 많은 단어들을 찾아낼 수 있다. 말뭉치를 시대적으로 구축하면 단어의 생성-성장-사멸의 과정을 추적할 수 있고 신조어와 유령어를 파악할 수 있는 것이다. 유령어는 사전에 있지만 실제로는 거의 쓰이지 않는 단어를 말한다.

말뭉치를 이용한 표제어 선정은 아래의 세 단계를 거친다.

  1. 목적에 맞는 말뭉치의 구성
  2. 말뭉치로부터 어휘 빈도 자료 추출
  3. 편찬자가 개입하여 표제어를 선정

말뭉치에서 만들어진 단어의 목록을 목적에 따라 검토하여 표제어를 선정해야 한다. 어느 정도의 규모로 만들 것인지, 사전의 독자는 어떤 연령층이며 모국어 화자인지 학습자인지 등을 고민해야 한다. 전문용어사전을 편찬한다면 해당 분야의 문헌들로 말뭉치를 구축해야 할 것이며, 목록 검토도 당연히 해당 분야 전문가가 해야 할 것이다.

의미 주석이 달려있는 말뭉치가 마련되었다면 거기서 어휘 빈도를 뽑는 것은 그리 어려운 일이 아니다. 어휘별로 숫자를 세어 정렬하기만 하면 된다. 한국어 어휘 빈도 조사 중에서 비교적 광범위하게 조사되었으면서도 가장 쉽게 찾을 수 있는 것은 국립국어원의 결과물이 있다.[4]

대한민국에서 말뭉치를 이용해 출간한 최초의 사전인 《연세한국어사전》의 경우 4300만 어절의 연세 한국어 말뭉치를 이용해 제작되었는데 이 중 빈도 14 이상의 항목을 표제어로 삼았다. 그러나 기존 어휘목록이나 사전들과 비교하여 표제어의 목록을 보완하였는데 예를 들면 빈도 8의 '청바지'가 그러하다.[5]

구축한 말뭉치를 통해 빈도 조사가 되었으면 편찬자가 그 안에서 어떤 기준으로 표제어를 선정할 것인가를 결정해야 한다. 고빈도어를 선정한다는 기본적인 원칙은 단순하지만, 실제로 그 고빈도어가 표제어로 적절한지는 검증을 거쳐야 한다.

먼저 빈도 결과를 살펴보고 형태 분석 과정에서 오분석이 된 것은 없는지 점검해야 한다. 기계적으로 작업한 결과물에는 예측 못한 오류가 숨어있기 마련이기 때문이다. 형태 분석에 오류가 발견되었다면 해당 케이스만 재처리를 하거나 아니면 형태 분석기의 사전을 수정한다거나 하는 식으로 보정이 필요하다. 문제가 적은 범위에서만 발생했다면 괜찮은데 로직상의 문제라면 말뭉치 전반에 걸쳐 대규모로 발생했을 가능성도 있으므로 면밀한 조사가 필요하다.

이 문제해결 과정에서 자동으로 해결한 것과 수동으로 해결한 것을 구분하여 따로 정리해두면 이후 작업자가 같은 작업을 할 때 도움을 받을 수 있다. 수동 처리 결과를 잘 보관하지 않으면 매번 동일한 작업을 해야 할 수도 있기 때문이다.

정렬된 고빈도어 중 기존 사전이나 어휘목록에 없었던 것들은 왜 고빈도어가 되었을지 확인해봐야 한다. 일시적인 요인에 의해 고빈도어가 되었다면 다른 어휘들보다 우선순위를 낮추는 것이 더 나을 수도 있다. 이러한 확인 작업은 편찬자의 언어직관에 의지하는 수밖에 없다. 기존 사전에 있던 어휘들 중에서 저빈도어는 더욱 비판적으로 접근해야 한다. 많은 경우는 이미 죽은 단어가 되었을 가능성이 높다. 어떻게 하면 필수적인 표제어 위주로 사전을 구성할 것인가에 집중해야 한다.

표제어를 선정할 때 사전의 균형감각 역시 고려할 대상이다. 균형감각이라는 것은 대표성을 말하는 것이다. 말뭉치가 언어의 표본 역할을 한다면 사전은 언어의 대표 역할을 한다. 따라서 그 사전은 언어 전반을 대변할 수 있어야 하므로 균형이 필요하다. 예를 들어 품사별로 어느 정도의 비중을 가질 것인가, 전문용어의 영역을 어떻게 할당할 것인가, 방언의 비중을 어떻게 할 것인가 등이 그러하다. 그런가 하면 좀 더 미시적인 균형감각도 있다. '빨간색'이 빈도가 높다 하여 '검은색'을 아예 안 싣는 것은 문제가 될 수 있으므로 기본적인 12색이나 8색 정도는 빈도가 떨어져도 실을 수 있는 것이다. 그렇다고 이런 균형감각을 모두 발휘하다 보면 결국 모든 단어가 다 들어가야 할 것이기 때문에 적당한 선에서 절제하는 것 역시 필요한 감각이라 할 수 있다.

요약하자면 사전 편찬 목적과 해당 어휘의 사용 빈도수를 우선적으로 고려하여 표제어를 선정하되 해당 목록이 적절하게 선별되었는지 사전 편찬자가 검증을 해야 한다는 것이다. 검증 방법으로는 기존 사전 표제어와의 비교, 각종 어휘 목록과의 비교, 다른 어휘들과의 균형성 검토 등이 있다.

표제어와 부표제어, 가표제어[편집]

표제어(headword)와 표제항(entry)은 구분될 필요가 있다. 표제어는 해당 단어를 말하며 표제항은 단어와 그 설명과 예문까지 포함하는 개념이다. 표제어는 자립성이 강한 단어들을 말하며 부표제어는 표제어와 관련도가 높고 비자립적인 단어를 말한다.

사전에는 기본적으로 품사를 가진 단어가 올라가지만 접사, 어미, 어근, 축약형, 관용구, 연어 등의 다양한 범주가 올라갈 수 있다. 이것들은 사전편찬자의 관점에 따라 표제어와 부표제어로 나뉜다. 예를 들어 《표준국어대사전》에서는 '-하다', '-되다'의 꼴이 부표제어지만 《연세한국어사전》에서는 표제어이다.

주로 부표제어로 표현되는 것들은 아래와 같은 유형을 가진다.

  1. 관용표현: 비행기를 태우다, 미역국을 먹다
  2. 연어: 감을 잡다, 경을 치다
  3. 패턴: ~뿐만 아니라 ~도
  4. 속담: 가는 날이 장날이다
  5. 상투적 표현: 안녕하세요
  6. 고빈도의 자유 표현: 담배 가게, 수질 오염

가표제어는 비표준어나 이형태를 찾은 사람에게 정확한 정보를 제공하기 위해 설정된 표제어이다. 전자사전에서는 주로 동의어 처리를 하거나 이동(redirect)등의 방법으로 처리한다. 하지만 단순하게 넘겨버리고 끝내서는 안되며 이런 이형태가 생겨난 이유를 가지는 경우가 있으므로 그에 따라 상세한 설명을 해줄 필요도 있다.

가표제어의 설정이 책 사전에서의 검색을 고민한 결과물인 것과 같이 부표제어를 어떻게 배열할 것인가도 책 사전의 검색을 효과적으로 하기 위한 고민이다. 기본적으로 가나다순 배열이 맞지만 종종 가나다순 배열에 어긋나는 경우기 있기 때문이다. 예를 들어 '교육'의 부표제어로 '사교육'이 있다고 할 때 사교육을 사생활 앞에 넣을 것인가 교육의 뒤에 넣을것인가라는 문제인 것이다. 단순 가나다 형태와 기본어를 중심으로 묶는 형태가 기본이고 그 중간을 절충한 형태도 있는데 어느 하나가 우수하다고 할 수 없다. 전자 사전에서는 어디에 위치해도 검색이 되므로 이런 종류의 고민 자체가 없다.

표제어 관련 정보 제시[편집]

발음 정보[편집]

발음 정보는 사전에서 제시하기가 쉽지 않다. 국제음성기호(IPA)를 사용하는 방법이 가장 표준적이고 한국어사전에서는 한글로, 일본어사전에서는 가나로 표기하는 방법도 활용된다. 그러나 IPA는 사전 사용자가 잘 모른다는 단점이 있고 자국어 문자로 표기할 경우 발음의 미세한 변화를 표현하기 어렵다는 단점이 있다.

발음 정보를 제공함에 있어 예전에 비해 달라진 것은 두가지다. 하나는 CD롬 사전과 인터넷 사전이 발달함에 따라 IPA와 함께 모국어 화자의 발음을 함께 제공하는 경우가 많아지고 있다는 것이다. 영어의 경우 점차 남성, 여성, 미국식, 영국식 발음 등을 다양하게 제공하는 추세이다. 또 하나는 활용형이나 굴절형에서의 발음 변화 등을 자세히 적어주게 되었다는 점이다. 한국어는 교착어이므로 용언이 원형 그대로 쓰이는 일이 적기 때문에 구체적으로 활용되는 형태에서의 발음을 적어주는 것이 중요하다. 국내 출간된 사전 중 활용형의 발음까지 가장 잘 적어준 것은 《외국인을 위한 한국어 학습사전》이다.

표준 발음을 어디까지 명기할 것인가에 대해서는 여러 이견이 있다. 외국인이 신라를 [실라]라고 발음하지 않았다 해서 우리와 의사소통하는데 지장이 있는 것은 아니기 때문이다. [신라]로 발음하다보면 자연스럽게 [실라]가 되기도 하기 때문에 굳이 [실라]로 발음하게끔 한국어 교육을 하기보다는 변별 가능한 최소한의 발음만 잘 가르쳐 한국어 학습자들의 부담을 줄여야 한다는 주장이다. 하지만 사전은 규범성을 가지고 있기 때문에 최대한 표준적인 발음을 상세히 적어주는 것은 중요한 일이다.

품사 정보[편집]

학교문법에서는 기본적으로 9품사 체계를 따라가지만 사실 학계에서는 9품사 체계에 대해 이견을 많이 가지고 있다. 사전처럼 많은 단어를 실은 책에 품사 표지를 붙이려하면 9품사 체계로는 처리할 수 없는 단어들이 많이 발견된다. 그 예로는 품사간의 경계를 넘나드는 품사통용어, '이다', 어근, 어미, 준꼴 등을 들 수 있다.

그래서 《콜린스 코빌드 영영사전》같은 경우는 품사보다는 의미에 무게를 두어 설명하는 쪽을 택하여 의미의 하위에 품사를 두고있다. 특히 이 사전에서는 자, 타동사 표지를 없애고 이를 문형정보와 예문에 녹여넣었는데 논란의 여지는 있으나 상당한 지지를 받고 있다.

사전에서 품사를 표시해주는 것은 해당 단어의 성격을 보여주기 위한 것이지 품사체계에 단어를 끼워넣을 수 있는 것은 아니다. 따라서 기존 품사체계에서 쉽게 처리할 수 있는 요소는 그대로 이용하되 그에 맞지 않는 문법 범주가 있다 하더라도 일관성있게 규정하기만 하면 된다.

실례로 《표준국어대사전》과 《연세한국어사전》에서는 기존 9품사에 '어미'와 '접사'를 취하고 있다는 점에서 공통적이고 《연세한국어사전》이 '준꼴'과 '형성(소)'라는 두개의 범주를 더 가지고 있다. 《표준국어대사전》에서 어근으로 처리하고 있는 것을 《연세한국어사전》에서는 '형성'으로 처리하고 있다는 점은 유사하면서도 미묘하게 다른 점이다.

형태 정보[편집]

형태론 중에서 사전과 관계깊은 것은 아래의 두 영역이다.[5]

  1. 활용론 : 용언의 활용, 체언의 조사결합
  2. 조어론 : 합성어 정보, 파생어 정보
  • 용언

영어사전이나 불어사전을 보면 불규칙 동사표나 용언활용표를 대체로 싣고 있다. 한국어는 교착어이므로 매우 복잡한 활용을 가지고 있어 더더욱 이 정보를 보여줘야 하지만 너무 복잡하여 쉽게 보여줄 수 없다는 한계가 있다. 그래서 많은 한국어사전은 기본형을 표제어로 두고 두세 개의 규칙적인 활용을 제시하는 정도에 그치며 불규칙적인 활용을 부가정보로 제시하는 편이다. 《표준국어대사전》은 '-어', '-으니'를 제시하고 있고 《연세한국어사전》은 '-는/ㄴ', '-아', '-습니다'를 제시하고 있다.

한국어에서 용언이 활용될 수 있는 경우는 단순하게 산술적으로 따지면 2000여 가지라고 하지만 실제로는 많은 제약을 받아 극히 한정적으로 사용된다. 이런 용언의 활용 제약을 명시적으로 보여주는 것이 바로 말뭉치의 용례들이다. 이러한 불구동사(不具動詞)들의 존재는 경험적으로 알고 있었으나 말뭉치의 용례를 통해 좀 더 일반적인 방법으로 명확하게 파악할 수 있게 되었다.

  1. 활용에 제약이 있는 경우
    1. *관하다 : 관한(86%), 관(해/하여)(서)(14%)
    2. *가로다 : 가로되
    3. *각설하다 : 각설하고
    4. *데리다 : 데리고
  2. 활용에 따라 의미가 달라지는 경우
    1. 덥다 : 날이 덥다(더운, 더워, 덥습니다) / 더운 밥(더운)
    2. 죽다 : 죽도록 일하다(죽도록, 죽어라고) / 배고파 죽겠다(죽겠다)
  • 체언

체언을 기술할 때도 용언 때와 마찬가지로 곡용시 주로 결합하는 조사들을 찾아줄 수 있다. 특정 조사와 결합하여 용언이나 부사처럼 곡용되는 경우가 있으므로 그런 경우를 명시하면 학습자가 해당 어휘를 부적절하게 사용해 비문을 만들지 않도록 할 수 있다. 또 단김에, 괜히 등의 사례를 접하게 되면 사전 편찬자의 입장에서 이것들을 굳이 명사로 환원시켜서 서술하는 것이 옳은 것인가 하는 관점의 변화가 생길 수도 있다.

  1. 조사 결합에 제약이 있는 경우
    1. ?단김 : 단김에
    2. ?괜 : 괜히, 괜한
    3. ?가관 : 가관이(다)
    4. ?고도 : 고도의 (기술/능력/...)
  2. -적 파생어
    1. 객관적 : 주로 관형사로, '-으로', '-이다'와 결합
    2. 비교적 : 부사로만
    3. 가급적 : 주로 부사로, 일부 조사와 결합

이렇듯 기본형을 억지로 만들어서 표제어로 삼는 것은 한국어에 없는 유령어를 만드는 결과가 되므로 피하는 것이 바람직하며, 의미나 기능에 따라 활용이 달라지는 경우는 별도의 기술과 예문 제시가 필요하다. 그리고 제약이 있는 단어는 주로 쓰이는 결합 형태 위주로 예문을 제시해야 하며 필요하다면 빈도를 함께 제시할 수도 있다.

인터넷 사전에서는 이러한 형태 정보의 한계를 기계적으로 해소하고 있는데 사용자가 질의어로 활용형을 넣으면 형태소분석을 하여 기본형을 찾아 검색해주는 것이다. 이는 불규칙 동사의 기본형을 사용자가 잘 찾아낼 수 없을 때 특히 유용하다. 하지만 그것은 미봉책이며 집필단계에서 이러한 단어들의 특성을 파악해 사전에 싣는 것이 중요하다.

  • 축약형, 연어

축약형도 단순하게 형태만 달라지는 것이 아니다. 사용되는 환경이 함께 달라지며 학습자가 자연스러운 한국어를 쓰기 위해서는 이러한 것까지 사전에 개별적으로 기술해야 한다. ‘가지가지’와 ‘갖가지’의 경우 ‘가지가지’보다 ‘갖가지’의 사용빈도가 더 높으며, ‘가지가지’는 조사 ‘의’와 결합을 하지만 ‘갖가지’는 홀로 쓰이는 등 배타적인 사용환경을 가진다.

활용이나 곡용뿐만 아니라 중심어 주위에 주로 출현하는 어휘나 구가 있으면 그것을 관찰하여 연어 구성이나 공기(共起)관계를 뽑아낼 수도 있다. 연어는 사전에 별도로 기술해 줄 수도 있지만 해당 연어가 들어있는 예문을 추가하여 보다 대표적인 예문을 사전에서 제시할 수도 있다. ‘만약 ~ 하면’처럼 모국어 화자라면 직관적으로 알고있고 학습 교재에 잘 설명된 것들도 있지만, ‘장갑을 끼다’, ‘양말을 신다’처럼 외국인이라면 파악하기 어려운 연어와 공기관계는 말뭉치에서 찾아 그 빈도에 따라 상세하게 기술해줄 필요가 있다.

유사한 형태로 사용되는 용례가 특히 많이 나오면 좀 더 부가적인 설명을 하는 것도 가능하다. 화용적인 내용이나 담화분석적인 내용 심지어는 백과사전적인 내용까지 적어줄 수 있다. 유사 용례가 많이 출현한다는 것은 그만큼 비중을 두고 설명해도 된다는 의미로 보는 것이 말뭉치 언어학다운 방법이다.

통사 정보[편집]

한국어 문장은 술어를 바탕으로 그에 따르는 명사구들로 구성된다. 이렇게 서술어와 그에 따라 반드시 나와야만 하는 명사구의 구조를 격틀이라 부르며 격틀에서 술어에 따라나오는 명사구를 논항이라 부른다.

격틀은 문장의 필수요소를 알려준다는 점에서 사전에 실려야 하는 정보이나 관점에 따라 다르게 서술될 수 있다. 《외국인을 위한 한국어 학습사전》이 논항의 성격까지 가장 상세하게 서술해주는 편이다.

  1. 《표준국어대사전》
    1. 「…에/에게」그는 얄밉게도 부장 대우를 받는 조건으로 경쟁 회사에 갔다.
    2. 「…으로」이번 인사 발령으로 총무과로 가게 되었다.
  2. 《연세한국어사전》
    1. {[1]이 [2]에/로 가다} 오늘 나는 바닷가에 갔었어요.
    2. {[1]에 [2]가 가다} 순녀의 그 곱던 얼굴에도 주름이 가고 몸은 하루하루 말라만 갔다.
  3. 《외국인을 위한 한국어 학습사전》
    1. 그는 조기축구회의 명예 코치로 뛰고 있다. {[1]이 [2]로 뛰다, [2]자격을 나타내는 명사}

격틀은 비교적 유용한 정보이지만 해석하기에 따라 교체 가능한 격틀도 존재하며 복수 격틀을 가지는 경우도 있다. 또 격틀이 달라짐에 따라 의미가 바뀌는 경우도 있지만 격틀이 달라졌음에도 불구하고 의미는 크게 변하지 않는 경우도 많다. 따라서 격틀은 예문의 이해를 돕는 도구정도로 받아들이는 편이 좋다.

의미 정보[편집]

  • 뜻풀이

의미정보는 사전 사용자들이 사전에서 가장 많이 찾아보는 내용이며 따라서 가장 중요하다. 사전의 뜻풀이에는 언어사전식과 백과사전식의 두가지가 있다. 언어사전식은 해당 대상이 무엇인지 인지 가능한 수준으로까지 설명하고 그 이외에는 비유나 다른 의미로 쓰이는 경우 등으로 분화하여 설명한다. 반면에 백과사전식은 해당 대상 자체에 대해 상세히 설명하며 그것의 역사, 의미, 상식 등을 다룬다.

곰과(―科 Ursidae)에 속하는 큰 식육류(食肉類).
개과(Canidae)의 개나 아메리카너구리과(Procyonidae)의 아메리카너구리와 계통상 근연이다. 곰은 식육류 중에서 가장 최근에 진화한 동물인데, 아마도 마이오세(世)에 개과 무리에서부터 갈라져 나온 후에 플라이오세의 유럽·아시아 및 북아메리카에서 살았던 히아이나르크토스(Hyaenarctos)를 거쳐 현생의 검은곰이나 갈색곰(Ursus)으로 발달했다.
 
— 곰 , 브리태니커 백과사전[6]
1 [동물]포유동물 식육목 곰과의 동물을 통틀어 이르는 말. 몸이 비대하며 다리가 굵고 짧다. 꼬리는 털에 가려져 보일 듯 말 듯 하다. 털은 갈색, 검은색 따위가 있으며 길고 거칠다. 깊은 산에 살며 나무에 잘 오르고 저녁 무렵부터 활동한다. 잡식성으로 겨울에는 굴속에서 겨울잠을 잔다. 대부분 북반구에 분포한다.
2 미련하거나 행동이 느린 사람을 놀림조로 이르는 말.
3 범죄 집단의 은어로, ‘경찰’이나 ‘형사’를 이르는 말.
 
— 곰 , 표준국어대사전[7]

츠구스타의 사전 뜻풀이 원칙은 아래와 같다.[8]

  1. 뜻풀이에 있는 모든 단어는 설명되어야 한다.
  2. 사전적 뜻풀이는 뜻풀이에 사용되는 단어보다 이해하기 어려운 말을 넣어서는 안된다.
    1. 영어권 사전에서는 뜻풀이용 기본어휘를 2000이나 3000단어로 제한하는 것이 일반적으로 정착되었다.
  3. 뜻풀이에 사용되는 말이 그 뜻풀이에 이용되어서는 안된다.
  4. 뜻풀이는 뜻풀이되는 말의 품사에 대응해야 한다.
    1. 품사에 따라 뜻풀이를 다른 방식으로 하는 것도 가능하다.

톰 매카더가 제시한 사전을 풀이할 때 고려해야 하는 요소들을 소개하면 다음과 같다.[9]

  1. 참조의 틀
    1. 사전 사용자의 문화적 배경까지 고려해야 한다
  2. 뜻이 아주 명백한 뜻풀이
    1. 표제어보다 어렵지 않은 단어를 써야한다는 원칙을 고수한다면 결국 쉬운 단어일수록 풀이하기 어려워진다는 딜레마에 빠지게 된다
  3. 순환적 뜻풀이
    1. 유의어들을 이용하여 순환적인 뜻풀이는 지양해야 한다
    2. 예) 깨끗하다/맑다/깔끔하다/순수하다/말끔하다/말쑥하다
    3. 이러한 유의어 관계들을 한번에 보여주거나 예문을 다수 노출하는 것으로 일부 해결이 가능하다
  4. 동의어 또는 풀어쓰기에 의한 뜻풀이
    1. 뜻풀이에서 동의어의 이용은 최소화해야 한다.
    2. 동의어를 함부로 사용하면 의미의 미묘한 차이를 놓칠 수 있다
    3. 예) 할아버지 != 조부
  5. 종과 특이성에 의한 뜻풀이
    1. 《연세한국어사전》의 경우 뜻풀이가 '것'(19%), '사람'(5%), '일'(2.5%), '곳'(1.5%)으로 끝나는 것들이 많아 상당수의 표제어가 상하위어 관계에 의해 유/종차 개념으로 풀이되었음을 알 수 있다[10]
  6. 뜻풀이를 생략하는 방식
    1. 파생어의 경우 문법적 특성만 드러내고 뜻풀이는 생략하는 경우가 많다
  • 의미의 배열

여러 의미를 중요도에 따라 직관적으로 노출하는 방법으로는 해당 의미의 중요도를 숫자로 쓰거나 그래프로 보여주는 것을 들 수 있다. 롱맨을 비롯한 여러 영어권 사전들이 이러한 방법을 채택해 표제어 쪽에서 노출하고 있다. 이는 항목 내에서 의미의 우선순위를 보여주는 데에도 유용하게 활용될 수 있는 방법이다. 이를 위해선 계산된 빈도수를 정규화하여 직관적인 수치로 바꿔주는 것이 좋다.

의미를 기술할 때는 기본 의미를 먼저, 확장된 의미를 나중에 기술하되 여러 가지 의미를 기술할 경우 말뭉치 내 사용 빈도를 의식해서 의미를 기술하는 것이 좋다. 그것은 많은 사전 사용자가 주요한 의미(고빈도 활용 의미)만을 보고 떠나기 때문이며 이는 웹 사전의 로그에서도 확인할 수 있다. 또 주요한 의미를 강조하기 위해 의미에 따른 빈도를 표시하거나(롱맨), 아예 주요한 의미만을 강조하는(능률 주니어) 사전이 나오는 등의 추세도 이를 뒷받침한다.

화용 정보[편집]

화용론은 언어 사용에 관한 연구분야로 언어 구조와는 관계없이 대화나 기술의 흐름에 의존적인 언어 양상을 다룬다. 사전에서는 사용역 표지, 참고 상자, 예문, 설명 등의 여러 요소들에 화용 정보를 담을 수 있다.

뜻풀이에서는 괄호를 이용하여 화용 정보를 많이 표현한다. (놀림조로), (유아어에서), (주로 손윗사람에게) 등의 설명이 그것이다.

해당 단어의 의미를 가장 잘 설명할 수 있는 전형적인 예문을 선택하는 것으로 화용 정보를 표현할 수 있다. 위에서 예로 든 조부와 할아버지의 경우 '할아버지! 여기 병아리가 놀아요.'라는 문장을 적어주어 호칭에 있어서는 조부가 할아버지를 대체할 수 없음을 보여줄 수 있다. 이것은 화용 정보 뿐 아니라 불규칙 활용을 하는 용언의 경우라거나 대부분의 특수한 경우를 반영할 수 있는 가장 좋은 방법이다. 《콜린스 코빌드 영어사전》은 예문 뿐 아니라 뜻풀이에서까지 이런 풀어쓰기를 확장해서 사용자들에게 각광받기도 했다.

화용 정보는 따로 구분해서 보여준다고 해도 사전 사용자가 인지하기 어렵기 때문에 참고 정보란을 두어 여러 가지 다른 정보들과 함께 보여주는 경우가 많다. 또 사회 문화적인 정보가 표제어의 사용 범위를 규정하는 경우도 많은데 역시 화용 정보의 일종으로 보기도 한다.

시대, 지역, 장르 등의 정보 역시 화용 정보라고 볼 수 있는데 이러한 정보는 어원에서 보여줄기도 하고 사용역(register) 정보를 별도로 표시하기도 한다. 담화 정보도 화용 정보의 하나인데 맥락의 전환이나 대화의 전개 등의 의도 등을 참고 정보쪽에 노출하는 경우도 많다.

관련 어휘 정보[편집]

관련 어휘는 사실 애매한 개념으로 유의어, 반의어, 동족어, 파생어 등을 포괄한다. 유의어도 여러 가지 계열관계를 가지는데 준말, 큰말, 작은말, 센말, 여린말과 같은 관계도 있지만 부사나 형용사 등에서 정도의 차이를 가지거나 미묘한 변이를 가지는 유의어도 있어 범위가 매우 넓다. 또 연어와 관용 표현 또한 관련 어휘라고 볼 수 있다.

이러한 관련 어휘는 표제어를 입체적으로 파악할 수 있도록 도와주는 역할을 한다. 어린이를 대상으로 한 사전들에는 장소에 대한 그림이 있고 그 장소에 있는 모든 요소들의 단어를 나열한다거나 하는 방식으로 관련 어휘를 제시하기까지 한다.

참고[편집]

각주[편집]

  1. Bo Sevensen(1993), Sinclair(1991)
  2. 서상규, 한영균 : 국어정보학 입문(1999)
  3. '깜짝새'와 세종계획 결과물인 '글잡이'가 대표적이다.
  4. 김한샘(2005), 현대 국어 사용 빈도 조사 2, 국립국어원
  5. 유현경, 남길임 : 한국어 사전편찬학 개론(2007)
  6. 곰 - Daum 백과사전
  7. 곰 - Daum 국어사전[깨진 링크(과거 내용 찾기)]
  8. Zgusta, Ladislav(1971)
  9. McArthur, Tom(1992)
  10. 이기황(2007)