공분산

위키백과, 우리 모두의 백과사전.
이동: 둘러보기, 검색

공분산(共分散, Covariance)은 확률론통계학분야에서 2개의 확률변수상관정도를 나타내는 값이다.(1개의 변수의 이산정도를 나타내는 분산과는 별개임) 만약 2개의 변수중 하나의 값이 상승하는 경향을 보일 때, 다른 값도 상승하는 경향의 상관관계에 있다면, 공분산의 값은 양수가 될 것이다. 반대로 2개의 변수중 하나의 값이 상승하는 경향을 보일 때, 다른 값이 하강하는 경향을 보인다면 공분산의 값은 음수가 된다. 이렇게 공분산은 상관관계의 상승 혹은 하강하는 경향을 이해할 수 있으나 2개 변수의 측정 단위의 크기에 따라 값이 달라지므로 상관분석을 통해 정도를 파악하기에는 부적절하다. 상관분석에서는 상관관계의 정도를 나타내는 단위로 모상관계수 ρ를 사용한다.

공식[편집]

실수값을 지니는 2개의 확률변수 XY에 대해서 공분산의 기대값E(X)=\mu and E(Y)=\nu은 아래와 같이 나타낼 수 있다.

\operatorname{Cov}(X, Y) = \operatorname{E}((X - \mu) (Y - \nu)), \,

기대값 연산자 E를 정리하면 아래와 같이 나타낼 수 있다.

\operatorname{Cov}(X, Y) = \operatorname{E}(X \cdot Y) - \mu \nu. \,

만약 XY통계적독립이라면 공분산은 0이 될 것이고 이 경우 아래와 같이 나타낼 수 있다.

E(X \cdot Y)=E(X) \cdot E(Y)=\mu\nu.

2번째 식을 3번째식에 대입하면 아래과 같은 결과를 얻을 수 있다.

\operatorname{Cov}(X, Y) = \mu \nu - \mu \nu = 0.

반대로 XY가 독립이 아니라면 위의 식은 성립하지 않는다.

Cov(X, Y)의 단위XY의 곱이다. 상관관계는 공분산값을 필요로하며, 선형독립무원차수로 볼 수 있다.

공분산이 0인 확률변수를 비상관 확률변수라고 한다.

성질[편집]

만약 X, Y가 실수값인 확률변수이고 a, b상수라면, 공분산에 대해서 아래와 같은 법칙이 성립한다.

\operatorname{Cov}(X, X) = \operatorname{Var}(X)\,
\operatorname{Cov}(X, Y) = \operatorname{Cov}(Y, X)\,
\operatorname{Cov}(aX, bY) = ab\, \operatorname{Cov}(X, Y)\,

확률변수인 X1, ..., XnY1, ..., Ym에 대해서 아래와 같은 법칙이 성립한다.

\operatorname{Cov}\left(\sum_{i=1}^n {X_i}, \sum_{j=1}^m{Y_j}\right) =    \sum_{i=1}^n{\sum_{j=1}^m{\operatorname{Cov}\left(X_i, Y_j\right)}}.\,

확률변수인 X1, ..., Xn에 대해서 아래와 같은 법칙이 성립한다.

\operatorname{Var}\left(\sum_{i=1}^n X_i \right) = \sum_{i=1}^n \operatorname{Var}(X_i) + 2\sum_{i,j\,:\,i<j} \operatorname{Cov}(X_i,X_j).

내적의 성질[편집]

공분산의 많은 성질은 내적이 가지는 성질과 유사하다.:

(1) 이중선형연산: 상수 ab 그리고 확률변수 X, Y, U, Cov(aX + bY, U) = a Cov(X, U) + bCov(Y, U)
(2) 대칭성: Cov(X, Y) = Cov(Y, X)
(3) 양수값: Var(X) = Cov(X, X) ≥ 0이고 Cov(X, X) = 0 이란 것은 X가 상수확률변수(K)라는 뜻이다.

공분산은 확률변수들의 벡터 공간 상에서의 내적을 의미한다. 벡터에서 적용되는 벡터합 X + YaX와 같은 스칼라곱의 성질도 지닌다.

공분산행렬[편집]

열벡터값을 가지는 확률변수XY 가 각각 μ 와 ν라는 기대값을 가질 때 공분산벡터m×n 행렬은 아래와 같다.

\operatorname{Cov}(X, Y) = \operatorname{E}((X-\mu)(Y-\nu)^\top).\,

벡터확률변수를 가지는 Cov(X, Y) 와 Cov(Y, X)는 각각의 전치행렬이다.

공분산은 때때로 2개의 확률변수간의 선형의존성을 나타내는 척도로도 사용된다. 이것은 선형대수에서 의미하는 선형의존성을 말하는 것은 아니다. 공분산을 정규화시키면 상관관계 행렬을 얻을 수 있다. 이로부터 Pearson Coefficient값을 얻을 수 있고 두개의 확률변수의 관계를 최적으로 설명가능한 선형함수를 표현가능하게 해준다. 이러한 점에서 공분산은 독립성이 선형척도로 볼 수 있다.

함께 보기[편집]

  • 공분산 함수
  • 공분산 행렬
  • Correlation
  • Eddy covariance
  • Law of total covariance
  • Autocovariance
  • Analysis of covariance
  • Sample mean and sample covariance
  • Algorithms for calculating variance#Covariance