상관분석

위키백과, 우리 모두의 백과사전.
이동: 둘러보기, 검색

상관분석(Correlation Analysis)은 확률론통계학에서 두 변수간에 어떤 선형적 관계를 갖고 있는 지를 분석하는 방법이다. 두변수는 서로 독립적인 관계로부터 서로 상관된 관계일 수 있으며 이때 두 변수간의 관계의 강도를 상관관계(Correlation, Correlation coefficient)라 한다. 상관분석에서는 상관관계의 정도를 나타내는 단위로 모상관계수 ρ를 사용한다.

상관관계의 정도를 파악하는 상관계수(Correlation coefficient)는 두 변수간의 연관된 정도를 나타낼 뿐 인과관계를 설명하는 것은 아니다. 두 변수간에 원인과 결과의 인과관계가 있는지에 대한 것은 회귀분석을 통해 인과관계의 방향, 정도와 수학적 모델을 확인해 볼 수 있다.

기본가정[편집]

  • 선형성: 두 변인 X와 Y의 관계가 직선적인지를 알아보는 것으로 이 가정은 분포를 나타내는 산포도를 통하여 확인할 수 있다.
  • 동변량성: X의 값에 관계없이 Y의 흩어진 정도가 같은 것을 의미한다. 이분산성이 반대어이다.
  • 두 변인의 정규분포성: 두 변인의 측정치 분포가 모집단에서 모두 정규분포를 이루는 것이다.
  • 무선독립표본: 모집단에서 표본을 뽑을 때 표본대상이 확률적으로 선정된다는 것이다. [1]

분석방법[편집]

단순히 두 개의 변수가 어느 정도 강한 관계에 있는가를 측정하는 단순상관분석(simple correlation analysis), 3개 이상의 변수들간의 관계에 대한 강도를 측정하는 다중상관분석이 있다. 다중상관분석에서 다른 변수들과의 관계를 고정하고 두 변수만의 관계에 대한 강도를 나타내는 것을 편상관계분석(partial correlation analysis)이라고 한다.

이때 상관관계가 0<ρ≤+1 이면 양의 상관, -1≤ρ<0 이면 음의 상관, ρ=0이면 무상관이라고 한다. 하지만 0인 경우 상관이 없다는 것이 아니라 선형의 상관관계가 아니라는 것이다.

피어슨 상관계수[편집]

피어슨 상관계수(Pearson correlation coefficient) 는 두 변수간의 관련성을 구하기 위해 보편적으로 이용된다. 개념은 다음과 같다.

r = X와 Y가 함께 변하는 정도 / X와 Y가 따로 변하는 정도

  • 결과의 해석

r 값은 X 와 Y 가 완전히 동일하면 +1, 전혀 다르면 0, 반대방향으로 완전히 동일 하면 –1 을 가진다. 결정계수 (coefficient of determination) 는 r^2 로 계산하며 이것은 X 로부터 Y 를 예측할 수 있는 정도를 의미한다.

일반적으로

r이 -1.0과 -0.7 사이이면, 강한 음적 선형관계,
r이 -0.3과 -0.7 사이이면, 뚜렷한 음적 선형관계,
r이 -0.1과 -0.3 사이이면, 약한 음적 선형관계,
r이 -0.1과 +0.1 사이이면, 거의 무시될 수 있는 선형관계,
r이 +0.1과 +0.3 사이이면, 약한 양적 선형관계,
r이 +0.3과 +0.7 사이이면, 뚜렷한 양적 선형관계,
r이 +0.7과 +1.0 사이이면, 강한 양적 선형관계

로 해석한다.

스피어만 상관계수[편집]

스피어만 상관계수(Spearman correlation coefficient) 는 데이터가 서열척도인 경우 즉 자료의 값 대신 순위를 이용하는 경우의 상관계수로서, 데이터를 작은 것부터 차례로 순위를 매겨 서열 순서로 바꾼 뒤 순위를 이용해 상관계수를 구한다. 두 변수 간의 연관 관계가 있는지 없는지를 밝혀주며 자료에 이상점이 있거나 표본크기가 작을 때 유용하다. 스피어만 상관계수는 -1과 1 사이의 값을 가지는데 두 변수안의 순위가 완전히 일치하면 +1이고, 두 변수의 순위가 완전히 반대이면 -1이 된다. 예를 들어 수학 잘하는 학생이 영어를 잘하는 것과 상관있는지 없는지를 알아보는데 쓰여질 수 있다.

크론바흐 알파 계수 신뢰도[편집]

크론바흐 알파 계수(Cronbach's alpha)의 신뢰도 계수 α는 검사의 내적 일관성을 나타내는 값으로서 한 검사 내에서의 변수들 간의 평균상관관계에 근거해 검사문항들이 동질적인 요소로 구성되어 있는지를 분석하는 것이다. 동일한 개념이라면 서로 다른 독립된 측정 방법으로 측정했을 때 결과가 비슷하게 나타날 것이라는 가정을 바탕으로 한다.예를 들어 설문지 조사의 경우 잘 만들어 같은 내용의 질문을 다른 형태로 반복하여 질문한 다음 같게 대답했는지를 검사하여 신뢰도를 알아 볼 수 있다. 일반적으로는 요인분석을 하여 요인들을 추출하고 이들 요인들이 동질 변수들로 구성되어 있는지를 확인할 때 이용한다. 사전조사나 같은 속성의 질문을 반복하여 신뢰도를 높일 수 있다.

같이보기[편집]

참고[편집]

  1. 김석우, 《기초통계학》, 학지사, 2007, p.96-97