잠재 디리클레 할당
위키백과, 우리 모두의 백과사전.
잠재 디리클레 할당(Latent Dirichlet allocation, LDA)은 주어진 문서에 대하여 각 문서에 어떤 주제들이 존재하는지에 대한 확률 모형이다.[1]
모형 [편집]
잠재 디리클레 할당 모형은
개의 문서가 주어져 있고, 문서들에는
개의 주제가 존재한다는 것을 기반으로 한다. 먼저 모형에 사용되는 확률변수는 다음과 같다.
는
번째 문서가
번째 주제에 속할 확률을 가리킨다.
는
번째 문서의
번째 단어가 어떤 주제에 속하는지를 가리킨다.
은
번째 문서의
번째 단어를 가리킨다.
여기에서
는 실제 문서를 통해 주어져 있으며, 다른 변수는 관측할 수 없는 잠재 변수이다. 각 변수는 다음과 같은 분포를 따른다.
이때
는 디리클레 분포의 매개변수이고,
는
개의 주제에 대해 각각
가지의 단어가 생성될 확률을 담고 있는
크기의 행렬 매개변수이다.
이 모형은 다음과 같이 해석할 수 있다. 각 문서에 대해 각각 k가지의 주제에 대한 가중치
가 존재하며, 각 단어의 주제
는 가중치에 의한 다항 분포로 선택된다. 마지막으로 실제 단어
가 특정 주제
에 기반하여 선택된다.
주석 [편집]
- ↑ lei, David M.; Ng, Andrew Y.; Jordan, Michael I (2003년 1월). Latent Dirichlet allocation.
는
번째 문서가
번째 단어가 어떤 주제에 속하는지를 가리킨다.
:
:
를 따른다.