통계학 에서 , 피어슨 상관 계수(Pearson Correlation Coefficient ,PCC)란 두 변수 X 와 Y 간의 선형 상관 관계 를 계량화한 수치다. 피어슨 상관 계수는 코시-슈바르츠 부등식 에 의해 +1과 -1 사이의 값을 가지며, +1은 완벽한 양의 선형 상관 관계, 0은 선형 상관 관계 없음, -1은 완벽한 음의 선형 상관 관계를 의미한다. 일반적으로 상관관계는 피어슨 상관관계를 의미하는 상관계수 이다.
서로 다른 상관 계수 값 (ρ)을 갖는 산포도 다이어그램의 예
여러 데이터셋와 각 셋의 x 와 y 의 상관 계수. 상관 관계는 선형 관계의 비선형성 및 방향을 반영하지만 그 관계의 기울기 또는 비선형 관계의 여러 측면을 반영하지 않는다. NB : 중앙의 그림은 기울기가 0이지만이 경우 Y 의 분산이 0이므로 상관 계수가 정의되지 않는다.
표본(sample) 피어슨 상관 계수는 등간척도 (간격척도)나 비례척도 (비율척도)의 데이타에서 두 변수의 공분산 (covariance) 을 각각의 표준 편차 의 곱으로 나눈 값 이다.
피 어 슨 상 관 계 수
=
공 분 산
표 준 편 차
⋅
표 준 편 차
{\displaystyle {\text{피 어 슨 상 관 계 수 }}={{\text{공 분 산 }} \over {{\text{표 준 편 차 }}\cdot {\text{표 준 편 차 }}}}}
r
X
Y
=
∑
i
n
(
X
i
−
X
¯
)
(
Y
i
−
Y
¯
)
n
−
1
∑
i
n
(
X
i
−
X
¯
)
2
n
−
1
∑
i
n
(
Y
i
−
Y
¯
)
2
n
−
1
{\displaystyle r_{XY}={{{\sum _{i}^{n}\left(X_{i}-{\overline {X}}\right)\left(Y_{i}-{\overline {Y}}\right)} \over {n-1}} \over {{\sqrt {{\sum _{i}^{n}\left(X_{i}-{\overline {X}}\right)^{2}} \over {n-1}}}{\sqrt {{\sum _{i}^{n}\left(Y_{i}-{\overline {Y}}\right)^{2}} \over {n-1}}}}}}
따라서
r
X
Y
=
∑
i
n
(
X
i
−
X
¯
)
(
Y
i
−
Y
¯
)
∑
i
n
(
X
i
−
X
¯
)
2
∑
i
n
(
Y
i
−
Y
¯
)
2
{\displaystyle r_{XY}={{\sum _{i}^{n}\left(X_{i}-{\overline {X}}\right)\left(Y_{i}-{\overline {Y}}\right)} \over {{\sqrt {\sum _{i}^{n}\left(X_{i}-{\overline {X}}\right)^{2}}}{\sqrt {\sum _{i}^{n}\left(Y_{i}-{\overline {Y}}\right)^{2}}}}}}
피어슨의 상관 계수는 모집단 에 적용될 때 일반적으로 ρ (그리스문자,로)로 표시되며 모집단 상관 계수 또는 모집단 피어슨 상관 계수 라고 할 수 있다.
피어슨의 상관 계수를 제곱해줌으로써 결정계수 를 얻을수있다.
표본 피어슨의 상관 계수
r
{\displaystyle r}
로부터 표본 결정계수
r
2
{\displaystyle r^{2}}
을 얻을수있다.
모집단 피어슨의 상관 계수
ρ
{\displaystyle \rho }
로부터 모집단 결정계수
ρ
2
{\displaystyle \rho ^{2}}
을 얻을수있다.
컴퓨팅 프로그램에서 일반적인 상관관계 분석 함수로서 피어슨 상관계수가 사용되며 스프레드 시트 에서는 Correl()함수를 사용할 수 있다.[ 1] SPSS 및 PSPP 에서는 이변량 상관분석 (bivariate analysis 또는 bivariate correlation analysis)등에서 보편적으로 이용된다.