워드넷

위키백과, 우리 모두의 백과사전.
이동: 둘러보기, 검색

워드넷(WordNet)은 영어의 의미 어휘목록이다. 워드넷은 영어 단어를 'synset'이라는 유의어 집단으로 분류하여 간략하고 일반적인 정의를 제공하고, 이러한 어휘목록 사이의 다양한 의미 관계를 기록한다. 그 목적은 두가지이다. 하나는 사전(단어집)과 시소러스(유의어·반의어 사전)의 배합을 만들어, 보다 직관적으로 사용할 수 있고 자동화된 본문 분석과 인공 지능 응용을 뒷받침하려는 것이다.

데이터베이스와 프로그램 툴은 BSD 형태의 라이선스로 배포되었고, 다운로드 받아 자유롭게 사용할 수 있다. 데이터베이스는 온라인으로도 검색할 수 있다.

워드넷은 심리학 교수인 조지 A. 밀러가 지도하는 프린스턴 대학의 인지 과학 연구소에 의해 만들어졌고 유지되고 있다. 개발은 1985년에 시작되었다. 수 년에 걸쳐, 프로젝트는 3백만 달러의 기금을 모았는데, 주로 기계 번역에 관심이 있는 정부 기관에 의한 것이었다. 최근 몇 년간은, 크리스티안 펠바움(Christiane Fellbaum) 박사가 워드넷의 개발을 살피고 있다.

자료 내용[편집]

2006년, 데이터베이스에는 15만 단어가 11만 5천 개의 동의어집합(synset)과 총 20만 7천의 단어-의미 쌍이 조직되었다. 압축된 형태의 용량은 12 MB 정도 된다.[1]

워드넷은 명사, 동사, 형용사, 부사들을 서로 구분하는데, 이는 이들이 서로 다른 문법적인 법칙을 따르기 때문이다. 모든 '신셋(synset; 동의어 집합)'은 단어의 동의어 집합 또는 연어 관계를 포함한다. ('연어 관계'는 단어들이 순서대로 놓여 특정 의미를 형성하는 것을 의미한다.) 서로 다른 의미의 단어는 서로 다른 '신셋'에 포함된다. '신셋'의 의미는 간략하게 정의하는 주석(정의 또는 예문)으로 보다 명확해진다. 주석이 붙은 전형적인 '신셋'의 예는 다음과 같다.

good, right, ripe -- (가장 적합하거나 특정 용도에 알맞음; "a good time to plant tomatoes"; "the right time to act"; "the time is ripe for great sociological changes")

대부분의 '신셋'은 다른 동의어집합과 몇 개의 의미적 관계로 연결되어 있다. 이러한 관계들은 단어의 유형에 따라 다르며, 다음과 같은 것들이 포함되어 있다.

  • 명사
    • 상위어(hypernym) : X가 Y의 한 종류이면 Y는 X의 상위어이다
    • 하위어(hyponym) : Y가 X의 한 종류이면 Y는 X의 하위어이다
    • 등위어(coordinate term) : X와 Y가 동일한 상위어를 가지고 있으면 Y는 X의 등위어이다
    • 전체어(holonym) : X가 Y의 부분이면 Y는 X의 전체어이다
    • 부분어(meronym) : Y가 X의 부분이면 Y는 X의 부분어이다
  • 동사
    • 상위어(hypernym) : X라는 행동이 Y의 한 종류라면 동사 Y는 동사 X의 상위어이다. (움직이다는 여행하다의 상위어)
    • 양태어(troponym) : Y라는 행동이 특정 상황에서 X를 하는 경우라면 동사 Y는 X의 양태어이다. (더듬다는 말하다의 양태어)
    • 수반(entailment) : X를 할 때 반드시 Y를 하게된다면 Y는 X에 수반되는 것이다.(코골이는 잠에 수반됨; sleeping by snoring)
    • 등위어(coordinate terms)
  • 형용사
    • 관계있는 명사(related nouns)
    • 동사의 분사(participle of verb)
  • 부사
    • 파생된 형용사(root adjectives)

주석[편집]

  1. WNSTATS(7WN) manual page

참고 문헌[편집]

바깥 고리[편집]