회귀분석

위키백과, 우리 모두의 백과사전.
이동: 둘러보기, 검색
독립변수 1개와 종속변수 1개를 가진 선형회귀의 예

통계학에서, 회귀분석(回歸分析, 영어: regression analysis)은 관찰된 연속형 변수들에 대해 독립변수와 종속변수 사이의 상관관계를 나타내는 선형 관계식을 구하는 기법 및 이렇게 얻은 모형의 적합도를 측정하는 분석 방법이다.

회귀분석은 시간에 따라 변화하는 데이터나 어떤 영향, 가설적 실험, 인과 관계의 모델링등의 통계적 예측에 이용될 수 있다. 그러나 많은 경우 가정이 맞는지 아닌지 적절하게 밝혀지지 않은 채로 이용되어 그 결과가 오용되는 경우도 있다. 특히 통계 소프트웨어의 발달로 분석이 용이해져서 결과를 쉽게 얻을 수 있지만 적절한 분석 방법의 선택이였는지 또한 정확한 정보 분석인지 판단하는 것은 연구자에 달려 있다.

전개[편집]

하나의 종속변수와 하나의 독립변수 사이의 관계를 분석할 경우를 단순회귀분석(영어: simple regression analysis), 하나의 종속변수와 여러 독립변수 사이의 관계를 규명하고자 할 경우를 다중회귀분석(영어: multiple regression analysis)이라고 한다.

회귀분석의 표준 가정[편집]

회귀분석은 다음의 가정을 바탕으로 한다.

  1. 잔차(residuals)는 모든 독립변수 값에 대하여 동일한 분산을 갖는다.
  2. 잔차의 평균은 0이다.
  3. 수집된 데이터의 분산은 정규분포를 이루고 있다.
  4. 독립변수 상호간에는 상관관계가 없어야 한다.
  5. 시간에 따라 수집한 데이터들은 잡음의 영향을 받지 않아야 한다.

독립변수들간에 상관관계가 나타나는 경우 다중공선성문제라고 한다.

회귀모형 적합도[편집]

회귀모형이 적합한지 확인하기 위해 결정계수 R2을 사용한다. 이는 회귀모형의 독립변수가 종속변수 변동의 몇%를 설명하고 있는지를 나타내는 지표이다.

역사[편집]

회귀(영어: regress 리그레스[*])의 원래 의미는 옛날 상태로 돌아가는 것을 의미한다. 영국의 유전학자 프랜시스 골턴은 부모의 키와 아이들의 키 사이의 연관 관계를 연구하면서 부모와 자녀의 키사이에는 선형적인 관계가 있고 키가 커지거나 작아지는 것보다는 전체 키 평균으로 돌아가려는 경향이 있다는 가설을 세웠으며 이를 분석하는 방법을 "회귀분석"이라고 하였다. 이러한 경험적 연구 이후, 칼 피어슨은 아버지와 아들의 키를 조사한 결과를 바탕으로 함수 관계를 도출하여 회귀분석 이론을 수학적으로 정립하였다.

같이 보기[편집]

바깥 고리[편집]