다중공선성

위키백과, 우리 모두의 백과사전.
(다중공선성문제에서 넘어옴)

다중공선성(多重共線性)문제(Multicollinearity)는 통계학회귀분석에서 독립변수들 간에 강한 상관관계가 나타나는 문제이다. 독립변수들간에 정확한 선형관계가 존재하는 완전공선성의 경우와 독립변수들간에 높은 선형관계가 존재하는 다중공선성으로 구분하기도 한다. 이는 회귀분석의 전제 가정을 위배하는 것이므로 적절한 회귀분석을 위해 해결해야 하는 문제가 된다.

진단법[편집]

  1. 결정계수 R2값은 높아 회귀식의 설명력은 높지만 식안의 독립변수의 P값(P-value)이 커서 개별 인자들이 유의하지 않는 경우가 있다. 이런 경우 독립변수들 간에 높은 상관관계가 있다고 의심된다.
  2. 독립변수들간의 상관계수를 구한다.
  3. 분산팽창요인(VIF, Variance Inflation Factor)을 구하여 이 값이 10을 넘는다면 보통 다중공선성의 문제가 있다.

해결법[편집]

  1. 상관관계가 높은 독립변수중 하나 혹은 일부를 제거한다.
  2. 변수를 변형시키거나 새로운 관측치를 이용한다.
  3. 자료를 수집하는 현장의 상황을 보아 상관관계의 이유를 파악하여 해결한다.
  4. 주성분 분석(PCA, Principal Component Analysis)을 이용한 diagonal matrix의 형태로 공선성을 없애준다.

같이 보기[편집]

참고[편집]

  • (한국심리학회지 : 일반 Korean Journal of Psychology: General 2013, Vol. 32, No. 1, 23-43 모녀간 자기분화의 세대 간 전이와 여대생의 자기분화, 세대 간 가족관계가 자아존중감 및 주관적 안녕감에 미치는 영향,김혜원 KCI)