제곱합

위키백과, 우리 모두의 백과사전.
이동: 둘러보기, 검색

제곱합(sum of squares, 자승합)는 표본 내의 각 사례의 변인 값과 평균 사이의 편차를 제곱한 값들의 총합으로, 표본 내의 변산성(개인차)의 총량을 나타내는 수치이다.

SS = \Sigma(Y-\overline{Y})^2

성질[편집]

  • 제곱합은 0보다 크거나 같다.
    • 표본 내 모든 사례의 Y값이 같다면 제곱합이 0이다.
    • 제곱합이 0이라면 표본 내 모든 사례의 Y값이 같다.

분할[편집]

분산분석[편집]

분산분석의 목적은 종속변인이 독립변인에 미치는 효과를 알아보는 것이다. 실험에서 나타나는 전체 편차는 집단간 편차(처치 효과의 크기)와 집단내 편차(무선 오차)의 합으로 이루어지는데, 이들을 분리해내는 일을 분할이라 한다.

SST = SSB + SSW
SST : 전체 제곱합(total sum of squares, 총 제곱합), SS_{total}로 표기하기도 한다.
SSB : 집단간 제곱합(between-groups sum of squares, 간 제곱합), SS_{between}로 표기하기도 한다.
SSW : 집단내 제곱합(within-groups sum of squares 내 제곱합), SS_{within}로 표기하기도 한다.
SST = \Sigma(Y-\overline{Y}.)^2
SSB = \Sigma(\overline{Y_i} - \overline{Y}.)^2
SSW = \Sigma(Y - \overline{Y}_i)^2

선형회귀[편집]

정리

n번 관측한 표본  (y_i, x_{i1}, \ldots, x_{ip}), \, i = 1, \ldots, n 로 구성된 선형 회귀 모형  y_i = \beta_0 + \beta_1 x_{i1} + \cdots + \beta_p x_{ip} + \varepsilon_i 이 주어지면, 총제곱합  \sum_{i = 1}^n (y_i - \bar{y})^2 을 다음과 같이 분해할 수 있다.


\begin{align}
\left\| y - \bar{y} \iota \right\|^2 &= \left\| \hat{\varepsilon} \right\|^2 + \left\| \hat{y} - \bar{y} \iota \right\|^2, \quad \iota = (1, 1, \ldots, 1) \\
\sum_{i = 1}^n (y_i - \bar{y})^2 &= \sum_{i = 1}^n (\hat{y}_i - \bar{y})^2 + \sum_{i = 1}^n (y_i - \hat{y}_i)^2 \\
\sum_{i = 1}^n (y_i - \bar{y})^2 &= \sum_{i = 1}^n (\hat{y}_i - \bar{y})^2 + \sum_{i = 1}^n \hat{\varepsilon}_i^2 \\
\mathrm{TSS} &= \mathrm{ESS} + \mathrm{RSS}
\end{align}
증명


\begin{align}
\sum_{i = 1}^n (y_i - \overline{y})^2 &= \sum_{i = 1}^n (y_i - \overline{y} + \hat{y}_i - \hat{y}_i)^2
= \sum_{i = 1}^n ((\hat{y}_i - \bar{y}) + \underbrace{(y_i - \hat{y}_i)}_{\hat{\varepsilon}_i})^2 \\
&= \sum_{i = 1}^n ((\hat{y}_i - \bar{y})^2 + 2 \hat{\varepsilon}_i (\hat{y}_i - \bar{y}) + \hat{\varepsilon}_i^2) \\
&= \sum_{i = 1}^n (\hat{y}_i - \bar{y})^2 + \sum_{i = 1}^n \hat{\varepsilon}_i^2 + 2 \sum_{i = 1}^n \hat{\varepsilon}_i (\hat{y}_i - \bar{y}) \\
&= \sum_{i = 1}^n (\hat{y}_i - \bar{y})^2 + \sum_{i = 1}^n \hat{\varepsilon}_i^2 + 2 \sum_{i = 1}^n \hat{\varepsilon}_i(\hat{\beta}_0 + \hat{\beta}_1 x_{i1} + \cdots + \hat{\beta}_p x_{ip} - \overline{y}) \\
&= \sum_{i = 1}^n (\hat{y}_i - \bar{y})^2 + \sum_{i = 1}^n \hat{\varepsilon}_i^2 + 2 (\hat{\beta}_0 - \overline{y}) \underbrace{\sum_{i = 1}^n \hat{\varepsilon}_i}_0 + 2 \hat{\beta}_1 \underbrace{\sum_{i = 1}^n \hat{\varepsilon}_i x_{i1}}_0 + \cdots + 2 \hat{\beta}_p \underbrace{\sum_{i = 1}^n \hat{\varepsilon}_i x_{ip}}_0 \\
&= \sum_{i = 1}^n (\hat{y}_i - \bar{y}) + \sum_{i = 1}^n \hat{\varepsilon}_i^2 = \mathrm{ESS} + \mathrm{RSS} \\
\end{align}

같이 보기[편집]