분산

위키백과, 우리 모두의 백과사전.
이동: 둘러보기, 검색

확률론통계학에서 어떤 확률변수분산(分散, 영어: variance, 변량)은 그 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 숫자이다. 기댓값은 확률변수의 위치를 나타내고 분산은 그것이 얼마나 넓게 퍼져 있는지를 나타낸다. 분산보다는 분산의 제곱근표준편차가 더 자주 사용된다.

정의[편집]

\mu = \operatorname{E}(X)가 확률변수 X기댓값(혹은 평균)일 때, 분산 \operatorname{var}(X)는 다음과 같이 계산한다.

\operatorname{var}(X) = \operatorname{E}((X - \mu)^2)

즉, X의 평균에서 떨어진 거리의 제곱의 평균과 같다.

편차의 제곱의 평균으로 표현할 수 있다. X의 분산은 보통 \operatorname{var}(X) 또는 \sigma _X ^2, 혹은 간단히 \sigma ^2\,으로 표현한다. \sigma\,표준편차를 가리킨다.

위의 정의는 이산확률변수연속확률변수에 모두 적용될 수 있다.

성질[편집]

어떤 실수의 제곱은 0 이상이므로 만약 분산이 존재한다면 그 값은 음수가 될 수 없다. 분산의 단위는 확률변수를 나타내는 데 사용된 단위의 제곱이 되어야 한다. 예를 들면 센티미터로 잰 높이 집단의 분산은 제곱센티미터가 될 것이다. 이것은 여러 가지 불편을 유발하므로 많은 통계학자들은 집단과 같은 단위를 사용하는 표준편차를 주로 쓴다.

정의에 의해 분산이 평균값 μ에 대해 독립변수라는 것은 쉽게 알 수 있다. 즉, 전체 집단의 값이 b만큼 이동해 X + b가 되어도 전체 집단의 분산은 변하지 않는다. 그러나 전체 집단에 같은 값 a를 곱하면 분산은 a2배가 된다. 식으로 쓰면 다음과 같다.

\operatorname{var}(aX + b) = a^2 \operatorname{var}(X)

평균값의 선형성으로부터 다음과 같은 식을 얻을 수 있다.

\operatorname{var} (X) = \operatorname{E}( X ^2) - 2\,X\,\operatorname{E}(X) + ( \operatorname{E}(X)) ^2 ) = \operatorname{E}(X ^2) - ( \operatorname{E}(X)) ^2

이 식은 실제로 분산을 구할 때 자주 사용된다.

분포를 가늠하는 여러 가지 수치 가운데 분산을 사용하는 이유 중에 하나로는 독립된 두 확률변수의 합의 분산은 각각의 분산의 합과 같다는 성질이 있다. 더 일반적으로 쓰면 다음과 같다.

\operatorname{var}(aX + bY) = a^2 \operatorname{var}(X) + b^2 \operatorname{var}(Y) + 2ab\, \operatorname{cov}(X, Y)

여기서 \operatorname{cov}공분산을 나타내며, 두 변수가 독립일 경우 0이 된다.

통계적 추정[편집]

모집단의 분산은 \sigma^2로 나타내고, 표본의 분산은 s^2로 나타낸다. s^2은 모집단 분산의 추정치라고 할 수 있다. 표본 내의 어떤 변인 Y가 가지는 모집단 분산의 추정치 s^2는 다음과 같다.

s^2 = \frac{\Sigma(y-\overline{y})^2}{n-1} = \frac{SS}{df}
s : 표본의 표준편차
y : 변인
\overline{y} : 표본의 평균
n : 표본의 크기
SS : 제곱합
df : 자유도

같이 보기[편집]