통계 에서 잔차제곱합 (SSR ) 또는 오차제곱합 (SSE ) 이라고도 알려진 잔차 제곱합(RSS )은 잔차 의 제곱합 (실제 경험적 데이터 값과 예측된 값의 차이)이다. 이는 선형회귀 와 같은 추정모델과 데이터간의 불일치를 측정한다. 작은 RSS는 모델이 데이터에 꼭 맞는다는 것을 의미한다. 이는 매개변수 선택 및 모델 선택 시 최적기준으로 사용된다.
일반적으로, 총제곱합(TSS) = 회귀제곱합(SSE) + 잔차제곱합(SSR)이다. 다변량 최소제곱법 (OLS) 사례에 대한 증명은, 일반적인 최소제곱법 모델에서의 파티셔닝을 참고.
독립변수가 하나인 모델에서 RSS는 다음과 같다.[ 1]
RSS
=
∑
i
=
1
n
(
y
i
−
f
(
x
i
)
)
2
{\displaystyle \operatorname {RSS} =\sum _{i=1}^{n}(y_{i}-f(x_{i}))^{2}}
여기서 y i 는 i 번째 예측할 변수 값이고, x i 는 i 번째 독립변수의 값이며,
f
(
x
i
)
{\displaystyle f(x_{i})}
는 y i 의 예측값이다(
y
i
^
{\displaystyle {\hat {y_{i}}}}
라도도 함). 표준 선형 단순 회귀모델 에서는
y
i
=
α
+
β
x
i
+
ε
i
{\displaystyle y_{i}=\alpha +\beta x_{i}+\varepsilon _{i}\,}
, 여기서
α
{\displaystyle \alpha }
와
β
{\displaystyle \beta }
는 계수 이고, y 와 x는 각각 종속변수 와 독립변수이고 , ε는 오차이다. 잔차의 제곱합은
ε
^
i
{\displaystyle {\widehat {\varepsilon \,}}_{i}}
의 제곱합이며, 다음과 같다.
RSS
=
∑
i
=
1
n
(
ε
^
i
)
2
=
∑
i
=
1
n
(
y
i
−
(
α
^
+
β
^
x
i
)
)
2
{\displaystyle \operatorname {RSS} =\sum _{i=1}^{n}({\widehat {\varepsilon \,}}_{i})^{2}=\sum _{i=1}^{n}(y_{i}-({\widehat {\alpha \,}}+{\widehat {\beta \,}}x_{i}))^{2}}
여기서
α
^
{\displaystyle {\widehat {\alpha \,}}}
는 상수
α
{\displaystyle \alpha }
의 추정 값이고,
β
^
{\displaystyle {\widehat {\beta \,}}}
는 기울기 계수
β
{\displaystyle \beta }
의 추정 값이다.
n 개의 관측값과 k 개의 설명자가 있는 일반 회귀 모델(첫 번째 설명자는 계수가 회귀 절편인 상수 단위 벡터임)은 다음과 같다.
y
=
X
β
+
e
{\displaystyle y=X\beta +e}
여기서 y 는 종속 변수 관측값의 n × 1 벡터이고, n × k 행렬 X 의 각 열은 k 설명자 중 하나에 대한 관측값 벡터이다.
β
{\displaystyle \beta }
는 실제 계수의 k × 1 벡터이고, e 는 실제 기본오차의 n × 1 벡터이다. 최소제곱법 추정값
β
{\displaystyle \beta }
는 다음과 같다.
X
β
^
=
y
⟺
{\displaystyle X{\hat {\beta }}=y\iff }
X
T
X
β
^
=
X
T
y
⟺
{\displaystyle X^{\operatorname {T} }X{\hat {\beta }}=X^{\operatorname {T} }y\iff }
β
^
=
(
X
T
X
)
−
1
X
T
y
.
{\displaystyle {\hat {\beta }}=(X^{\operatorname {T} }X)^{-1}X^{\operatorname {T} }y.}
잔차 벡터
e
^
=
y
−
X
β
^
=
y
−
X
(
X
T
X
)
−
1
X
T
y
{\displaystyle {\hat {e}}=y-X{\hat {\beta }}=y-X(X^{\operatorname {T} }X)^{-1}X^{\operatorname {T} }y}
; 따라서 잔차 제곱합은 다음과 같다:
RSS
=
e
^
T
e
^
=
‖
e
^
‖
2
{\displaystyle \operatorname {RSS} ={\hat {e}}^{\operatorname {T} }{\hat {e}}=\|{\hat {e}}\|^{2}}
,
(잔차 놈(norm) 제곱과 동일) 전체를 다시 정리하면 다음과 같다:
RSS
=
y
T
y
−
y
T
X
(
X
T
X
)
−
1
X
T
y
=
y
T
[
I
−
X
(
X
T
X
)
−
1
X
T
]
y
=
y
T
[
I
−
H
]
y
{\displaystyle \operatorname {RSS} =y^{\operatorname {T} }y-y^{\operatorname {T} }X(X^{\operatorname {T} }X)^{-1}X^{\operatorname {T} }y=y^{\operatorname {T} }[I-X(X^{\operatorname {T} }X)^{-1}X^{\operatorname {T} }]y=y^{\operatorname {T} }[I-H]y}
,
여기서 H 는 모자행렬 또는 선형회귀의 투영 행렬이다.
최소제곱 회귀선은 다음과 같다.
y
=
a
x
+
b
{\displaystyle y=ax+b}
,
여기서
b
=
y
¯
−
a
x
¯
{\displaystyle b={\bar {y}}-a{\bar {x}}}
그리고
a
=
S
x
y
S
x
x
{\displaystyle a={\frac {S_{xy}}{S_{xx}}}}
, 여기서
S
x
y
=
∑
i
=
1
n
(
x
¯
−
x
i
)
(
y
¯
−
y
i
)
{\displaystyle S_{xy}=\sum _{i=1}^{n}({\bar {x}}-x_{i})({\bar {y}}-y_{i})}
그리고
S
x
x
=
∑
i
=
1
n
(
x
¯
−
x
i
)
2
.
{\displaystyle S_{xx}=\sum _{i=1}^{n}({\bar {x}}-x_{i})^{2}.}
그러므로,
RSS
=
∑
i
=
1
n
(
y
i
−
f
(
x
i
)
)
2
=
∑
i
=
1
n
(
y
i
−
(
a
x
i
+
b
)
)
2
=
∑
i
=
1
n
(
y
i
−
a
x
i
−
y
¯
+
a
x
¯
)
2
=
∑
i
=
1
n
(
a
(
x
¯
−
x
i
)
−
(
y
¯
−
y
i
)
)
2
=
a
2
S
x
x
−
2
a
S
x
y
+
S
y
y
=
S
y
y
−
a
S
x
y
=
S
y
y
(
1
−
S
x
y
2
S
x
x
S
y
y
)
{\displaystyle {\begin{aligned}\operatorname {RSS} &=\sum _{i=1}^{n}(y_{i}-f(x_{i}))^{2}=\sum _{i=1}^{n}(y_{i}-(ax_{i}+b))^{2}=\sum _{i=1}^{n}(y_{i}-ax_{i}-{\bar {y}}+a{\bar {x}})^{2}\\[5pt]&=\sum _{i=1}^{n}(a({\bar {x}}-x_{i})-({\bar {y}}-y_{i}))^{2}=a^{2}S_{xx}-2aS_{xy}+S_{yy}=S_{yy}-aS_{xy}=S_{yy}\left(1-{\frac {S_{xy}^{2}}{S_{xx}S_{yy}}}\right)\end{aligned}}}
여기서
S
y
y
=
∑
i
=
1
n
(
y
¯
−
y
i
)
2
.
{\displaystyle S_{yy}=\sum _{i=1}^{n}({\bar {y}}-y_{i})^{2}.}
이다.
피어슨 상관관계 는 다음과 같다.
r
=
S
x
y
S
x
x
S
y
y
;
{\displaystyle r={\frac {S_{xy}}{\sqrt {S_{xx}S_{yy}}}};}
그러므로,
RSS
=
S
y
y
(
1
−
r
2
)
.
{\displaystyle \operatorname {RSS} =S_{yy}(1-r^{2}).}
Archdeacon, Thomas J. (1994). 《Correlation and regression analysis : a historian's guide》. University of Wisconsin Press. 161–162쪽. ISBN 0-299-13650-7 . OCLC 27266095 .
↑ Archdeacon, Thomas J. (1994). 《Correlation and regression analysis : a historian's guide》. University of Wisconsin Press. 161–162쪽. ISBN 0-299-13650-7 . OCLC 27266095 .
Draper, N.R.; Smith, H. (1998). 《Applied Regression Analysis》 3판. John Wiley. ISBN 0-471-17082-8 .