정준상관분석
| 기계 학습과 데이터 마이닝 |
|---|
통계학에서 정준상관분석(canonical-correlation analysis, CCA)은 정준변량분석(canonical variates analysis)이라고도 하며, 교차공분산 행렬로부터 정보를 추론하는 방법이다. 두 벡터 X = (X1, ..., Xn)과 Y = (Y1, ..., Ym)의 확률 변수가 있고, 두 변수 사이에 상관관계가 있다면, 정준상관분석은 서로 최대 상관관계를 갖는 X와 Y의 선형 결합을 찾는다.[1] T. R. 냅은 "흔히 접하는 모수적 유의성 검정은 사실상 두 변수 집합 간의 관계를 조사하는 일반적인 절차인 정준상관분석의 특수한 경우로 취급할 수 있다"고 지적한다.[2] 이 방법은 1936년 해럴드 호텔링(Harold Hotelling)에 의해 처음 도입되었지만,[3] 평면 사이의 각도와 관련하여 이 수학적 개념은 1875년 카미유 조르당(Camille Jordan)에 의해 발표되었다.[4]
CCA는 현재 다변량 통계 및 다중 시점 학습의 초석이며, 확률적 CCA, 희소 CCA, 다중 시점 CCA, 심층 CCA, DeepGeoCCA 등 다양한 해석과 확장이 제안되었다. 안타깝게도, 아마도 CCA의 인기로 인해 관련 문헌의 표기법이 일치하지 않을 수 있다. 본 논문에서는 독자가 기존 문헌과 이용 가능한 기법을 최대한 활용할 수 있도록 이러한 불일치를 강조하고자 한다.
자매 방법인 PCA와 마찬가지로, CCA는 모집단 형태(확률 벡터와 그 공분산 행렬에 해당) 또는 표본 형태(데이터 집합과 그 표본 공분산 행렬에 해당)로 볼 수 있다. 이 두 형태는 서로 거의 완벽하게 유사하기 때문에 그 구분이 종종 간과되지만, 고차원 환경에서는 매우 다르게 동작할 수 있다. 다음으로 모집단 문제에 대한 명확한 수학적 정의를 제시하고, 소위 정준 분해(canonical decomposition)에서 다양한 객체들을 강조한다. 이러한 객체들 간의 차이점을 이해하는 것은 이 기법을 해석하는 데 매우 중요하다.
같이 보기
[편집]각주
[편집]- ↑ Härdle, Wolfgang; Simar, Léopold (2007). 〈Canonical Correlation Analysis〉. 《Applied Multivariate Statistical Analysis》. 321–330쪽. CiteSeerX 10.1.1.324.403. doi:10.1007/978-3-540-72244-1_14. ISBN 978-3-540-72243-4.
- ↑ Knapp, T. R. (1978). “Canonical correlation analysis: A general parametric significance-testing system”. 《Psychological Bulletin》 85 (2): 410–416. doi:10.1037/0033-2909.85.2.410.
- ↑ Hotelling, H. (1936). “Relations Between Two Sets of Variates”. 《Biometrika》 28 (3–4): 321–377. doi:10.1093/biomet/28.3-4.321. JSTOR 2333955.
- ↑ Jordan, C. (1875). “Essai sur la géométrie à dimensions”. 《Bull. Soc. Math. France》 3: 103.
외부 링크
[편집]- Discriminant Correlation Analysis (DCA)[1] (MATLAB)
- Hardoon, D. R.; Szedmak, S.; Shawe-Taylor, J. (2004). “Canonical Correlation Analysis: An Overview with Application to Learning Methods”. 《Neural Computation》 16 (12): 2639–2664. CiteSeerX 10.1.1.14.6452. doi:10.1162/0899766042321814. PMID 15516276. S2CID 202473.
- A note on the ordinal canonical-correlation analysis of two sets of ranking scores (Also provides a FORTRAN program)- in Journal of Quantitative Economics 7(2), 2009, pp. 173–199
- Representation-Constrained Canonical Correlation Analysis: A Hybridization of Canonical Correlation and Principal Component Analyses (Also provides a FORTRAN program)- in Journal of Applied Economic Sciences 4(1), 2009, pp. 115–124
- ↑ Haghighat, Mohammad; Abdel-Mottaleb, Mohamed; Alhalabi, Wadee (2016). “Discriminant Correlation Analysis: Real-Time Feature Level Fusion for Multimodal Biometric Recognition”. 《IEEE Transactions on Information Forensics and Security》 11 (9): 1984–1996. doi:10.1109/TIFS.2016.2569061. S2CID 15624506.