단어 의미 중의성 해소
단어 의미 중의성 해소(Word-sense disambiguation, WSD)는 문장 (언어학)이나 문맥의 다른 부분에서 낱말의 어떤 뜻이 의도되는지 식별하는 프로세스이다. 인간의 언어 처리 및 인식에서는 일반적으로 잠재의식적/자동적이지만, 자연어에 널리 퍼져 있는 중의성을 고려할 때 모호함이 의사소통의 명확성을 손상시킬 때 종종 의식적으로 주의를 끌 수 있다. 전산언어학에서는 담론, 웹 검색 엔진의 관련성 향상, 아나포라 해결, 일관성 및 추론과 같은 다른 컴퓨터 관련 글쓰기에 영향을 미치는 열린 문제이다.
자연어는 뇌의 신경망이 제공하는 능력에 따라 형성되는 신경학적 현실의 반영이 필요하다는 점을 감안할 때, 컴퓨터 과학은 자연어 처리 및 기계 학습을 수행하는 컴퓨터의 능력을 개발하는 데 장기적인 과제를 안겨 왔다.
어휘 자원에 인코딩된 지식을 사용하는 사전 기반 방법, 수동으로 의미 주석이 달린 예 모음의 각 고유 단어에 대해 분류기를 훈련하는 지도 기계 학습 방법, 클러스터링하는 완전히 비지도 방법을 포함하여 많은 기술이 연구되었다. 단어의 출현을 통해 단어 감각을 유도한다. 이 중에서 지도 학습 접근법은 현재까지 가장 성공적인 알고리즘이었다.
현재 알고리즘의 정확성은 여러 가지 주의 사항 없이는 말하기 어렵다. 영어의 경우, 거친(동형이의어) 수준의 정확도는 일반적으로 90% 이상(2009년 기준)이며, 특정 동형이의어에 대한 일부 방법은 96% 이상을 달성한다. 보다 세분화된 감각 구별에 대해 평가 연습(SemEval-2007, Senseval-2)에서 59.1%에서 69.0%까지의 최고 정확도가 보고되었다. 여기서 항상 가장 빈번한 의미를 선택하는 가장 간단한 가능한 알고리즘의 기본 정확도는 각각 51.4%, 57%였다.
같이 보기
[편집]외부 링크
[편집]- Computational Linguistics Special Issue on Word Sense Disambiguation (1998)
- Word Sense Disambiguation Tutorial by Rada Mihalcea and Ted Pedersen (2005).