통계학 에서 가우스-마르코프 정리 (영어 : Gauss–Markov theorem , 또는 일부 저자는 가우스 정리 [ 1] 라고 표기)는 선형 회귀 모형의 오차가 상관관계가 없고, 오차의 분산이 일정하며, 오차의 기대값이 0이며 설명변수가 외생변수일 때 보통 최소제곱 추정량(OLS)은 다른 선형 불편 추정량에 비하여 표본 분산이 가장 낮다고 명시한다.[ 2] 오차항이 정규분포를 따를 필요는 없다.
이 정리는 비록 가우스의 작품이 마르코프의 작품보다 현저히 앞섰지만 칼 프리드리히 가우스와 안드레이 마르코프의 이름을 따서 명명되었다.[ 3] 그러나 가우스가 독립성과 정규성을 가정하여 그 결과를 도출하는 동안 마르코프는 위에서 언급한 형식으로 가정들을 줄였다.[ 4] 비구형 오류에 대한 추가 일반화는 알렉산더 에이트켄에 의해 이루어졌다.[ 5]
선형 회귀 모델로서 목적 변수 Y와 p개의 설명 변수 X i , i = 1, ..., p 및 오차항
ε
k
{\displaystyle \varepsilon _{k}}
의 관계를 다음과 같이 모델화한 것을 생각한다.
Y
k
=
β
0
+
β
1
X
1
+
β
2
X
2
+
⋯
+
β
p
X
p
+
ε
k
,
k
=
1
,
…
,
n
.
{\displaystyle Y_{k}=\beta _{0}+\beta _{1}X_{1}+\beta _{2}X_{2}+\cdots +\beta _{p}X_{p}+\varepsilon _{k},\ k=1,\dots ,n.}
목적 변수 및 설명 변수 측정 결과의 조(yk ; x k, 1 ,...,xk,p ) 를 하나의 데이터로 하여 n( ≧ p)개의 데이터를 이용하여 잔차의 제곱합
∑
k
=
1
n
{
y
i
−
(
β
0
+
β
1
x
i
,
1
+
β
2
x
i
,
2
+
⋯
+
β
p
x
i
,
p
)
}
2
{\displaystyle \sum _{k=1}^{n}\left\{y_{i}-(\beta _{0}+\beta _{1}x_{i,1}+\beta _{2}x_{i,2}+\cdots +\beta _{p}x_{i,p})\right\}^{2}}
가 최소가 되다
(
β
0
,
β
1
,
⋯
,
β
p
)
{\displaystyle (\beta _{0},\beta _{1},\cdots ,\beta _{p})}
를 최소 제곱 추정량이라고 부른다.여기서
Y
=
[
Y
1
Y
2
⋮
Y
n
]
,
X
=
[
1
x
11
x
12
…
x
1
p
1
x
21
x
22
…
x
2
p
⋮
⋮
⋮
⋮
1
x
n
1
x
n
2
…
x
n
p
]
,
β
=
[
β
0
β
1
⋮
β
p
]
,
ε
=
[
ε
1
ε
2
⋮
ε
n
]
{\displaystyle \mathbf {Y} ={\begin{bmatrix}Y_{1}\\Y_{2}\\\vdots \\Y_{n}\end{bmatrix}},\ \mathbf {X} ={\begin{bmatrix}1&x_{11}&x_{12}&\dots &x_{1p}\\1&x_{21}&x_{22}&\dots &x_{2p}\\\vdots &\vdots &\vdots &&\vdots \\1&x_{n1}&x_{n2}&\dots &x_{np}\end{bmatrix}},\ {\boldsymbol {\beta }}={\begin{bmatrix}\beta _{0}\\\beta _{1}\\\vdots \\\beta _{p}\end{bmatrix}},\ {\boldsymbol {\varepsilon }}={\begin{bmatrix}\varepsilon _{1}\\\varepsilon _{2}\\\vdots \\\varepsilon _{n}\end{bmatrix}}}
라고 놓으면 선형 회귀 모델은
Y
=
X
β
+
ε
{\displaystyle \mathbf {Y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}}
라며, 최소 제곱 추정량
β
^
{\displaystyle {\widehat {\boldsymbol {\beta }}}}
β
^
=
(
X
⊤
X
)
−
1
X
⊤
Y
{\displaystyle {\widehat {\boldsymbol {\beta }}}=(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {Y} }
으로 주어진다. 또한, 상부 첨자은 전치 행렬을 나타낸다.
오차항
ε
{\displaystyle {\boldsymbol {\varepsilon }}}
에 대해서
E
[
ε
]
=
0
{\displaystyle E[{\boldsymbol {\varepsilon }}]=0}
(불편성)
Cov
[
ε
]
=
σ
2
I
{\displaystyle \operatorname {Cov} [{\boldsymbol {\varepsilon }}]=\sigma ^{2}{\boldsymbol {I}}}
(등분산성·무상관성)
를 가정한다. 여기서
I
{\displaystyle {\boldsymbol {I}}}
는 단위 행렬을 나타낸다.
무상관성은 독립성보다도 약한 가정이며, 또 정규 분포 등 특정 분포를 따르는 것을 가정하고 있지 않다.
최소 제곱 추정량
β
^
{\displaystyle {\widehat {\boldsymbol {\beta }}}}
는 최우수 선형 불편 추정량 (best linear unbiased estimator, BLUE )이다. 즉 임의의 선형 불편 추정량
β
~
{\displaystyle {\widetilde {\boldsymbol {\beta }}}}
에 대해서
Cov
[
β
~
]
⪰
Cov
[
β
^
]
{\displaystyle \operatorname {Cov} \left[{\widetilde {\boldsymbol {\beta }}}\right]\succeq \operatorname {Cov} \left[{\widehat {\boldsymbol {\beta }}}\right]}
가 성립한다.
β
~
{\displaystyle {\widetilde {\boldsymbol {\beta }}}}
는 선형 추정량이므로
(
p
+
1
)
{\displaystyle (p+1)}
n
{\displaystyle n}
행렬의 행렬
C
{\displaystyle \mathbf {C} }
를 이용하여
β
~
=
C
Y
{\displaystyle {\widetilde {\boldsymbol {\beta }}}=\mathbf {C} \mathbf {Y} }
고 하다.
β
~
{\displaystyle {\widetilde {\boldsymbol {\beta }}}}
가 불편성을 갖기 위한 조건을 요구하면
E
[
β
~
]
=
C
X
β
=
β
{\displaystyle E[{\widetilde {\boldsymbol {\beta }}}]=\mathbf {C} \mathbf {X} {\boldsymbol {\beta }}={\boldsymbol {\beta }}}
가 항등적으로 성립되기 때문에
C
X
=
I
{\displaystyle \mathbf {C} \mathbf {X} =\mathbf {I} }
이다.
다음에
β
~
{\displaystyle {\widetilde {\boldsymbol {\beta }}}}
의 분산 공분산 행렬을 정리하면
Cov
[
β
~
]
=
E
[
(
C
Y
−
β
)
(
C
Y
−
β
)
⊤
]
=
E
[
C
ε
(
C
ε
)
⊤
]
=
C
E
[
ε
ε
⊤
]
C
T
=
σ
2
C
C
⊤
{\displaystyle {\begin{alignedat}{2}\operatorname {Cov} \left[{\widetilde {\boldsymbol {\beta }}}\right]&=E\left[(\mathbf {C} \mathbf {Y} -{\boldsymbol {\beta }})(\mathbf {C} \mathbf {Y} -{\boldsymbol {\beta }})^{\top }\right]\\&=E\left[\mathbf {C} {\boldsymbol {\varepsilon }}(\mathbf {C} {\boldsymbol {\varepsilon }})^{\top }\right]\\&=\mathbf {C} E[{\boldsymbol {\varepsilon }}{\boldsymbol {\varepsilon }}^{\top }]\mathbf {C} ^{T}\\&=\sigma ^{2}\mathbf {C} \mathbf {C} ^{\top }\end{alignedat}}}
가 된다 여기서
C
^
=
(
X
⊤
X
)
−
1
X
⊤
{\displaystyle {\hat {\mathbf {C} }}=(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }}
라고 했을 때의 추정량이 최소 제곱 추정량
β
^
{\displaystyle {\widehat {\boldsymbol {\beta }}}}
이 되기 때문에
C
C
⊤
⪰
C
^
C
^
⊤
{\displaystyle \mathbf {C} \mathbf {C} ^{\top }\succeq {\hat {\mathbf {C} }}{\hat {\mathbf {C} }}^{\top }}
을 나타내면 된다. 불편성보다
C
X
=
I
{\displaystyle \mathbf {C} \mathbf {X} =\mathbf {I} }
그래서
(
C
−
C
^
)
C
^
⊤
=
(
C
−
C
^
)
X
(
X
⊤
X
)
−
1
=
(
C
X
−
C
^
X
)
(
X
⊤
X
)
−
1
=
O
{\displaystyle {\begin{alignedat}{2}(\mathbf {C} -{\hat {\mathbf {C} }}){\hat {\mathbf {C} }}^{\top }&=(\mathbf {C} -{\hat {\mathbf {C} }})\mathbf {X} (\mathbf {X} ^{\top }\mathbf {X} )^{-1}\\&=(\mathbf {C} \mathbf {X} -{\hat {\mathbf {C} }}\mathbf {X} )(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\\&=\mathbf {O} \end{alignedat}}}
에 주의하면
C
C
⊤
=
(
C
−
C
^
+
C
^
)
(
C
−
C
^
+
C
^
)
⊤
=
(
C
−
C
^
)
(
C
−
C
^
)
⊤
+
C
^
C
^
⊤
⪰
C
^
C
^
⊤
{\displaystyle {\begin{alignedat}{2}\mathbf {C} \mathbf {C} ^{\top }&=(\mathbf {C} -{\hat {\mathbf {C} }}+{\hat {\mathbf {C} }})(\mathbf {C} -{\hat {\mathbf {C} }}+{\hat {\mathbf {C} }})^{\top }\\&=(\mathbf {C} -{\hat {\mathbf {C} }})(\mathbf {C} -{\hat {\mathbf {C} }})^{\top }+{\hat {\mathbf {C} }}{\hat {\mathbf {C} }}^{\top }\\&\succeq {\hat {\mathbf {C} }}{\hat {\mathbf {C} }}^{\top }\end{alignedat}}}
가 성립한다. 따라서
Cov
[
β
~
]
⪰
Cov
[
β
^
]
{\displaystyle \operatorname {Cov} \left[{\widetilde {\boldsymbol {\beta }}}\right]\succeq \operatorname {Cov} \left[{\widehat {\boldsymbol {\beta }}}\right]}
가 성립하며, 최소 제곱 추정량
β
^
{\displaystyle {\widehat {\boldsymbol {\beta }}}}
는 최우수 선형 불편 추정량이 된다.