언어 모델

언어 모델(language model) 또는 언어 모형은 일련의 단어들의 확률 분포이다.^[1] 길이 m의 단어들의 시퀀스가 주어졌을 때 언어 모델은 확률 $P(w_{1},\ldots ,w_{m})$ 을 전체 시퀀스에 할당한다. 언어들이 무한하고 다양한, 유효한 문장들을 표현하기 위해 사용할 수 있을 때 언어 모델링은 0이 아닌 확률들을 언어적으로 유효한 (훈련 데이터에 마주친 적이 없을 수 있는) 문장들에 할당하는 문제에 직면한다. 이 문제를 극복하기 위한 여러 모델링 접근법들이 설계되고 있는데, 예를 들면 마르코프 추정을 적용하거나 순환 신경망 또는 변환기 등의 신경 아키텍처를 사용하는 것을 들 수 있다.

언어 모델은 전산언어학의 다양한 문제에 유용하다.

같이 보기[편집]

각주[편집]

↑ Jurafsky, Dan; Martin, James H. (2021). 〈N-gram Language Models〉. 《Speech and Language Processing》 3판. 2022년 5월 24일에 확인함.

추가 문헌[편집]

J M Ponte and W B Croft (1998). 〈A Language Modeling Approach to Information Retrieval〉. 《Research and Development in Information Retrieval》. 275–281쪽. CiteSeerX 10.1.1.117.4237.
F Song and W B Croft (1999). 〈A General Language Model for Information Retrieval〉. 《Research and Development in Information Retrieval》. 279–280쪽. CiteSeerX 10.1.1.21.6467.
Chen, Stanley; Joshua Goodman (1998). 《An Empirical Study of Smoothing Techniques for Language Modeling》 (기술 보고서). Harvard University. CiteSeerX 10.1.1.131.5458.

[1] Jurafsky, Dan; Martin, James H. (2021). 〈N-gram Language Models〉. 《Speech and Language Processing》 3판. 2022년 5월 24일에 확인함.

[1]