잠재 디리클레 할당

위키백과, 우리 모두의 백과사전.
이동: 둘러보기, 검색

잠재 디리클레 할당(Latent Dirichlet allocation, LDA)은 주어진 문서에 대하여 각 문서에 어떤 주제들이 존재하는지에 대한 확률 모형이다.[1]

모형[편집]

LDA의 그래프 도식

잠재 디리클레 할당 모형은 M개의 문서가 주어져 있고, 문서들에는 k개의 주제가 존재한다는 것을 기반으로 한다. 먼저 모형에 사용되는 확률변수는 다음과 같다.

  • \theta_{ik}i번째 문서가 k번째 주제에 속할 확률을 가리킨다.
  • z_{ij}i번째 문서의 j번째 단어가 어떤 주제에 속하는지를 가리킨다.
  • w_{ij}i번째 문서의 j번째 단어를 가리킨다.

여기에서 w_{ij}는 실제 문서를 통해 주어져 있으며, 다른 변수는 관측할 수 없는 잠재 변수이다. 각 변수는 다음과 같은 분포를 따른다.

  • \theta_{i} \sim \mathrm{Dir}(\alpha): k차원 디리클레 분포 를 따른다.
  • z_{ij} \sim \mathrm{Multinomial}(\theta_i): 다항 분포를 따른다.
  • w_{ij}z_{ij}가 가리키는 주제에 대해, 그 주제에서 단어가 생성될 확률 p(w_{ij} | z_{ij}, \beta)를 따른다.

이때 \alpha는 디리클레 분포의 매개변수이고, \betak개의 주제에 대해 각각 V가지의 단어가 생성될 확률을 담고 있는 k \times V 크기의 행렬 매개변수이다.

이 모형은 다음과 같이 해석할 수 있다. 각 문서에 대해 각각 k가지의 주제에 대한 가중치 \theta_i가 존재하며, 각 단어의 주제 z_{ij}는 가중치에 의한 다항 분포로 선택된다. 마지막으로 실제 단어 w_{ij}가 특정 주제 z_{ij}에 기반하여 선택된다.

주석[편집]

  1. lei, David M.; Ng, Andrew Y.; Jordan, Michael I (2003년 1월). Latent Dirichlet allocation.

바깥 고리[편집]