본문으로 이동

정준상관분석

위키백과, 우리 모두의 백과사전.

통계학에서 정준상관분석(canonical-correlation analysis, CCA)은 정준변량분석(canonical variates analysis)이라고도 하며, 교차공분산 행렬로부터 정보를 추론하는 방법이다. 두 벡터 X = (X1, ..., Xn)과 Y = (Y1, ..., Ym)의 확률 변수가 있고, 두 변수 사이에 상관관계가 있다면, 정준상관분석은 서로 최대 상관관계를 갖는 X와 Y의 선형 결합을 찾는다.[1] T. R. 냅은 "흔히 접하는 모수적 유의성 검정은 사실상 두 변수 집합 간의 관계를 조사하는 일반적인 절차인 정준상관분석의 특수한 경우로 취급할 수 있다"고 지적한다.[2] 이 방법은 1936년 해럴드 호텔링(Harold Hotelling)에 의해 처음 도입되었지만,[3] 평면 사이의 각도와 관련하여 이 수학적 개념은 1875년 카미유 조르당(Camille Jordan)에 의해 발표되었다.[4]

CCA는 현재 다변량 통계 및 다중 시점 학습의 초석이며, 확률적 CCA, 희소 CCA, 다중 시점 CCA, 심층 CCA, DeepGeoCCA 등 다양한 해석과 확장이 제안되었다. 안타깝게도, 아마도 CCA의 인기로 인해 관련 문헌의 표기법이 일치하지 않을 수 있다. 본 논문에서는 독자가 기존 문헌과 이용 가능한 기법을 최대한 활용할 수 있도록 이러한 불일치를 강조하고자 한다.

자매 방법인 PCA와 마찬가지로, CCA는 모집단 형태(확률 벡터와 그 공분산 행렬에 해당) 또는 표본 형태(데이터 집합과 그 표본 공분산 행렬에 해당)로 볼 수 있다. 이 두 형태는 서로 거의 완벽하게 유사하기 때문에 그 구분이 종종 간과되지만, 고차원 환경에서는 매우 다르게 동작할 수 있다. 다음으로 모집단 문제에 대한 명확한 수학적 정의를 제시하고, 소위 정준 분해(canonical decomposition)에서 다양한 객체들을 강조한다. 이러한 객체들 간의 차이점을 이해하는 것은 이 기법을 해석하는 데 매우 중요하다.

같이 보기

[편집]

각주

[편집]
  1. Härdle, Wolfgang; Simar, Léopold (2007). Canonical Correlation Analysis. Applied Multivariate Statistical Analysis. 321–330쪽. CiteSeerX 10.1.1.324.403. doi:10.1007/978-3-540-72244-1_14. ISBN 978-3-540-72243-4.
  2. Knapp, T. R. (1978). Canonical correlation analysis: A general parametric significance-testing system. Psychological Bulletin 85 (2): 410–416. doi:10.1037/0033-2909.85.2.410.
  3. Hotelling, H. (1936). Relations Between Two Sets of Variates. Biometrika 28 (3–4): 321–377. doi:10.1093/biomet/28.3-4.321. JSTOR 2333955.
  4. Jordan, C. (1875). Essai sur la géométrie à dimensions. Bull. Soc. Math. France 3: 103.

외부 링크

[편집]
  1. Haghighat, Mohammad; Abdel-Mottaleb, Mohamed; Alhalabi, Wadee (2016). Discriminant Correlation Analysis: Real-Time Feature Level Fusion for Multimodal Biometric Recognition. IEEE Transactions on Information Forensics and Security 11 (9): 1984–1996. doi:10.1109/TIFS.2016.2569061. S2CID 15624506.