베셀 보정

통계학에서 베셀 보정(Bessel’s Correction)은 표본분산이나 표본표준편차에 대한 식에서 표본크기 n을 대신하여 n-1을 사용하는 것을 말한다. 이러한 방법은 모분산을 추정하는데에 있어서 편향(bias)를 보정하는 역할을 하며, 이를 통해 표본분산을 불편 추정량(Unbiased estimator)이라 할 수 있다. 그러나 이러한 보정은 평균제곱오차를 증가시키는 문제점이 있다. 이러한 보정밥법은 Friedrich Bessel에 의해 처음 사용되었다.

모평균이 불분명한 상황에서 모분산을 추정할 때, 보정되지 않은 표본 분산은 표본평균에서 표본값의 편차의 제곱평균이다. 이 경우 분산은 표본 분산의 모분산의 편향 추정량(Biased estimator)이다. 이 값에 다음 인자를 곱함으로써 모분산의 불편 추정량(Unbiased estimator)을 얻을 수 있다.

{\frac {n}{n-1}}

일부에서는 이 인자를 베셀 보정 인자(Bessel’s Correction)이라 부르기도 한다.

베셀 보정 인자를 표본자료의 자유도(degrees of freedom)로 해석할 수도 있다. 표본크기가 n일 때, 이들의 편차 합은 0이므로 독립적인 편차(independent residuals)는 n-1개이다. 베셀 보정의 필요성에 대한 더 자세한 설명은 아래를 참조하도록 한다.

편향(bias)의 원인[편집]

모평균이 1000이라고 가정하자. 통계를 취득하는 과정에서 이를 알 수 없으므로, 이는 무작위로 추출된 표본으로부터 추정해야한다. 만약 아래 다섯개의 표본을 취득하였다면 표본평균은 다음과 같다.

1001,\quad 1003,\quad 1005,\quad 1000,\quad 1001

(mean)={\frac {1}{5}}(1001+1003+1005+1000+1001)=1002

이는 취득할 수 없는 평균에 대한 ‘추정치’이므로 이를 이용하여 모분산을 추정하는데에 있어서 오류가 발생한다. 만약 정확한 모평균 값을 알고 있다면 모분산은 다음과 같이 추정할 수 있다.

{\begin{aligned}{}&{\frac {1}{5}}\left[(1001-1000)^{2}+(1003-1000)^{2}+(1005-1000)^{2}+(1000-1000)^{2}+(1001-1000)^{2}\right]\\={}&{\frac {36}{5}}=7.2\end{aligned}}

그러나 우리는 정확한 모평균을 알 수 없으며, 따라서 표본평균인 1002를 사용할 수밖에 없다.

{\begin{aligned}{}&{\frac {1}{5}}\left[(1001-1002)^{2}+(1003-1002)^{2}+(1005-1002)^{2}+(1000-1002)^{2}+(1001-1002)^{2}\right]\\={}&{\frac {16}{5}}=3.2\end{aligned}}

이는 전자의 모분산 추정치보다 훨씬 작은 값이며, 실제로 이러한 방식으로 취득한 모분산은 모평균과 같지 않을 때 실제보다 항상 작다. 모분산을 모평균으로부터의 거리제곱합라고 해석하였을 때, 모평균이 아닌 표본평균을 사용하였을 때 더 작은 거리제곱합을 가질 수 밖에 없다.

이는 대수적으로도 증명이 가능하다.