분산
확률론과 통계학에서 어떤 확률변수의 분산(分散, variance, 변량)은 그 확률변수가 기대값으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 숫자이다. 기대값은 확률변수의 위치를 나타내고 분산은 그것이 얼마나 넓게 퍼져 있는지를 나타낸다. 분산보다는 분산의 제곱근인 표준편차가 더 자주 사용된다.
목차 |
정의 [편집]
가 확률변수 X의 기대값(혹은 평균)일 때, 분산
는 다음과 같이 계산한다.
즉, X의 평균에서 떨어진 거리의 제곱의 평균과 같다.
즉 편차의 제곱의 평균으로 표현할 수 있다. X의 분산은 보통
또는
, 혹은 간단히
으로 표현한다.
는 표준편차를 가리킨다.
위의 정의는 이산확률변수와 연속확률변수에 모두 적용될 수 있다.
성질 [편집]
어떤 실수의 제곱은 0 이상이므로 만약 분산이 존재한다면 그 값은 음수가 될 수 없다. 분산의 단위는 확률변수를 나타내는 데 사용된 단위의 제곱이 되어야 한다. 예를 들면 센티미터로 잰 높이 집단의 분산은 제곱센티미터가 될 것이다. 이것은 여러 가지 불편을 유발하므로 많은 통계학자들은 집단과 같은 단위를 사용하는 표준편차를 주로 쓴다.
정의에 의해 분산이 평균값 μ에 대해 독립변수라는 것은 쉽게 알 수 있다. 즉, 전체 집단의 값이 b만큼 이동해 X + b가 되어도 전체 집단의 분산은 변하지 않는다. 그러나 전체 집단에 같은 값 a를 곱하면 분산은 a2배가 된다. 식으로 쓰면 다음과 같다.
평균값의 선형성으로부터 다음과 같은 식을 얻을 수 있다.
이 식은 실제로 분산을 구할 때 자주 사용된다.
분포를 가늠하는 여러 가지 수치 가운데 분산을 사용하는 이유 중에 하나로는 독립된 두 확률변수의 합의 분산은 각각의 분산의 합과 같다는 성질이 있다. 더 일반적으로 쓰면 다음과 같다.
여기서
는 공분산을 나타내며, 두 변수가 독립일 경우 0이 된다.
통계적 추정 [편집]
모집단의 분산은
로 나타내고, 표본의 분산은
로 나타낸다.
은 모집단 분산의 추정치라고 할 수 있다. 표본 내의 어떤 변인 Y가 가지는 모집단 분산의 추정치
는 다음과 같다.





: 표본의 표준편차
: 변인
: 표본의 평균
: 표본의 크기
:
: