다항 분포

다항 분포는 여러 개의 값을 가질 수 있는 독립 확률변수들에 대한 확률분포로, 여러 번의 독립적 시행에서 각각의 값이 특정 횟수가 나타날 확률을 정의한다.

다항 분포에서 차원이 2인 경우 이항 분포가 된다.

정의[편집]

어떤 시행에서 $k$ 가지의 값이 나타날 수 있고, 그 값들이 나타날 확률을 각각 $p_{1},p_{2},\cdots ,p_{k}$ 라고 할 때, $n$ 번의 시행에서 $i$ 번째 값이 $x_{i}$ 회 나타날 확률은 다음과 같다.

p(x_{1},x_{2},\cdots ,x_{k};n,p_{1},\cdots ,p_{k})={\frac {n!}{x_{1}!x_{2}!\cdots x_{k}!}}p_{1}^{x_{1}}p_{2}^{x_{2}}\cdots p_{k}^{x_{k}}

이때 $x_{1}+\cdots +x_{k}=n$ 이어야 한다. 그렇지 않은 경우의 확률값은 0으로 정의된다.

경우에 따라서, 다항 분포는 값이 나타나는 횟수가 아니라 독립 시행에서 나타나는 값 자체를 가리키기도 한다. 엄밀하게는 이러한 분포는 categorical 분포라고 부르며, 다음과 같이 정의된다. 만약 $i$ 번째 값이 $c_{i}$ 일 경우,

p(c_{i};p_{1},\cdots ,p_{k})=p_{i}

가 된다.

다항 분포
기호	$\mathrm {Multinomial}$
매개변수	$n$ : 자연수, $(p_{1},\cdots ,p_{n})$ : 합이 1인 양의 실수들
지지집합	$X_{i}$ : 0부터 n까지의 정수, $\sum _{i}X_{i}=n$
확률 질량	${\frac {n!}{x_{1}!\cdots x_{k}!}}p_{1}^{x_{1}}\cdots p_{k}^{x_{k}}$
기댓값	$E\{X_{i}\}=np_{i}$
분산	$\textstyle {\mathrm {Var} }(X_{i})=np_{i}(1-p_{i})$ , $\textstyle {\mathrm {Cov} }(X_{i},X_{j})=-np_{i}p_{j}~~(i\neq j)$
적률생성함수	${\biggl (}\sum _{i=1}^{k}p_{i}e^{t_{i}}{\biggr )}^{n}$
특성함수	${\biggl (}\sum _{j=1}^{k}p_{j}e^{it_{j}}{\biggr )}^{n}$