다항 분포

위키백과, 우리 모두의 백과사전.
이동: 둘러보기, 검색
다항 분포
기호 \mathrm{Multinomial}
매개변수 n: 자연수, (p_1, \cdots, p_n): 합이 1인 양의 실수들
지지집합 X_i: 0부터 n까지의 정수, \sum_i X_i = n
확률 질량 \frac{n!}{x_1!\cdots x_k!} p_1^{x_1} \cdots p_k^{x_k}
기대값 E\{X_i\} = np_i
분산 \textstyle{\mathrm{Var}}(X_i) = n p_i (1-p_i),

\textstyle {\mathrm{Cov}}(X_i,X_j) = - n p_i p_j~~(i\neq j)

모멘트생성함수 \biggl( \sum_{i=1}^k p_i e^{t_i} \biggr)^n

다항 분포는 여러 개의 값을 가질 수 있는 독립 확률변수들에 대한 확률분포로, 여러 번의 독립적 시행에서 각각의 값이 특정 횟수가 나타날 확률을 정의한다.

다항 분포에서 차원이 2인 경우 이항 분포가 된다.

정의[편집]

어떤 시행에서 k가지의 값이 나타날 수 있고, 그 값들이 나타날 확률을 각각 p_1, p_2, \cdots, p_k라고 할 때, n번의 시행에서 i번째 값이 x_i회 나타날 확률은 다음과 같다.

p(x_1, x_2, \cdots, x_n; n, p_1, \cdots, p_k) = \frac{n!}{x_1! x_2! \cdots x_k!} p_1^{x_1} p_2^{x_2} \cdots p_k^{x_k}

이때 x_1 + \cdots + x_k = n이어야 한다. 그렇지 않은 경우의 확률값은 0으로 정의된다.

경우에 따라서, 다항 분포는 값이 나타나는 횟수가 아니라 독립 시행에서 나타나는 값 자체를 가리키기도 한다. 엄밀하게는 이러한 분포는 categorical 분포라고 부르며, 다음과 같이 정의된다. 만약 i번째 값이 c_i일 경우,

p(c_i ; p_1, \cdots, p_k) = p_i

가 된다.