통계적 학습이론

통계적 학습이론(統計的學習理論, 영어: Statistical learning theory)은 통계학 및 함수해석학 분야에서 기계학습 도면을 위한 체계이다.^[1]^[2] 통계적 학습이론은 데이터에 근거하는 예측함수를 찾는 문제를 다룬다. 통계적 학습이론은 컴퓨터 비전 및 음성인식, 생물정보학, 야구 따위의 스포츠 분야에서 성공적인 응용을 이끌어냈다.^[3]

개요[편집]

학습의 목표는 이해와 예측이다. 학습은 지도 학습, 비지도 학습, 온라인 학습 및 강화 학습을 비롯한 여러 범주로 분류된다. 통계적 학습이론의 관점에서는 지도 학습이 가장 잘 이해된다.^[4] 지도 학습은 훈련된 데이터 집합으로부터 학습하는 것을 포함한다. 훈련의 모든 포인트는 입·출력쌍이며, 입력은 출력에 매핑된다. 학습 문제는 학습된 함수가 미래의 입력으로부터의 결과를 예측하는 데 사용될 수 있도록, 입력과 출력 사이를 매핑하는 함수를 추론하는 것으로 구성된다.

출력 유형에 따르는 지도학습 문제는, 회귀문제이거나 분류문제 중 하나이다. 출력값에 연속범위가 있다면 회귀문제이다. 옴의 법칙으로 예를 들면, 회귀분석은 전압을 입력으로, 전류를 출력으로 수행될 수 있다. 회귀분석은 전압과 전류 사이의 함수적 관계는 다음과 같이 $R$ 로 파악된다.

U=RI

분류 문제에서 출력은 별개의 라벨 집합의 요소가 된다. 분류는 기계학습 응용에서 매우 일반적이다. 이를테면, 안면인식에서는 사람의 얼굴 화상이 입력되고, 출력 라벨은 그 사람의 이름이 된다. 입력은 화상에서 픽셀을 나타내는 다차원 벡터로 표현된다.

훈련 집합을 기반으로 함수를 학습한 다음에는, 해당 함수가 훈련 집합에 나타나지 않는 데이터의 테스트 집합에서 그 유효성이 평가된다.

형식 기술[편집]

$X$ 를 벡터공간의 모든 가능한 입력으로 취하고, $Y$ 를 벡터공간의 모든 가능한 출력으로 취한다. 통계적 학습이론에서는 곱공간 $Z=X\times Y$ 위에 미지의 확률분포가 존재한다는 관점을 취한다. 이를테면 미지의 $p(z)=p({\vec {x}},y)$ 가 존재한다. 훈련집합은 이 확률분포 위에 있는 $n$ 개의 샘플로 이루어져 있고, 다음과 같이 적힌다.

S=\{({\vec {x}}_{1},y_{1}),\dots ,({\vec {x}}_{n},y_{n})\}=\{{\vec {z}}_{1},\dots ,{\vec {z}}_{n}\}

${\vec {x}}_{i}$ 는 훈련집합에서의 입력벡터이며, $y_{i}$ 는 그것에 상응하는 출력이다.

이러한 형식주의에서, 추론문제(inference problem)는 $f({\vec {x}})\sim y$ 일 때의 함수 $f:X\to Y$ 를 찾는 것으로 구성된다. ${\mathcal {H}}$ 를 함수의 공간이고 할 때, $f:X\to Y$ 는 가설공간(hypothesis space)이라고 불린다. 가설공간은 알고리즘이 검색할 함수의 공간이다. $V(f({\vec {x}}),y)$ 를 손실함수, 예측치 간의 차이에 대한 측정단위를 $f({\vec {x}})$ , 실제 값을 $y$ 라고 하자. 기대위험(영어판)은 다음과 같이 정의된다.

I[f]=\displaystyle \int _{X\times Y}V(f({\vec {x}}),y)\,p({\vec {x}},y)\,d{\vec {x}}\,dy

목표함수, 즉 선택가능한 최적의 함수 $f$ 는 이하를 만족할 때 주어진다.

f=\inf _{h\in {\mathcal {H}}}I[h]

확률분포 $p({\vec {x}},y)$ 는 미지이기 때문에, 기대위험에는 대리측정(proxy measure)이 쓰여야만 한다. 이 측정은, 미지의 확률분포 위에 있는 샘플들로 이루어진 훈련집합에 기초한다. 이는 경험적 위험(영어판)이라고 불린다.

I_{S}[f]={\frac {1}{n}}\displaystyle \sum _{i=1}^{n}V(f({\vec {x}}_{i}),y_{i})

경험적 위험(empirical risk)을 최소화하는 함수 $f_{S}$ 를 선택하는 학습 알고리즘을 경험적 위험 최소화(영어판)라고 부른다.

손실함수[편집]

문제가 회귀인지 분류인지에 따라 상이한 손실함수가 사용된다. 손실함수의 선택은, 학습 알고리즘에 의해 선택될 함수 $f_{S}$ 의 결정요인이다. 손실함수는 또한 알고리즘의 수렴률에 영향을 미친다. 손실함수가 볼록해지는 것이 중요하다.^[5]

문제가 회귀의 일종인지 분류의 일종인지에 따라 다른 손실함수가 쓰인다.

회귀문제[편집]

회귀에 대한 가장 일반적인 손실함수는 제곱 손실함수(L2-노름)이다. 이 손실함수는 범용 최소제곱법이다.

V(f({\vec {x}}),y)=(y-f({\vec {x}}))^{2}

때때로 절댓값 손실(L1-노름)이 활용된다.

V(f({\vec {x}}),y)=|y-f({\vec {x}})|

분류문제[편집]

어떤 의미에서 0-1 지시함수는 분류에 있어서 가장 자연스러운 손실함수이다. 예측 출력이 실제 출력과 동일할 경우 0값을 지니며, 그렇지 아니할 경우에는 1값을 지닌다. 이진분류(binary classification) $Y=\{-1,1\}$ 에서 이는 다음과 같다.

V(f({\vec {x}}),y)=\theta (-yf({\vec {x}}))

이 때, $\theta$ 는 단위계단함수이다.

정칙화[편집]

기계학습 문제에서 발생하는 주요한 문제로는 과적합이 있다. 학습은 예측문제이므로, 학습목표는 (전례가 있는) 데이터에 최적인 함수를 찾지 않고 미래의 입력의 결과를 가장 정확하게 예측할 수 있는 함수를 얻는 것이다. 경험적 위험 최소화는, 이러한 과적합의 위험을 갖는다. 즉, 데이터와 정확히 일치하지만 미래의 출력을 잘 예측하지 못하는 함수를 찾는 것이다.

과적합은 불안정한 해답을 빚을 징후를 보인다. 훈련 집합의 작은 섭동(攝動)은 학습된 함수에 큰 변동을 일으킬 수 있다. 해답의 안정성이 보장될 수 있다면, 일반화와 일관성도 보장된다는 것을 알 수 있다.^[6]^[7] 정칙화는 과적합 문제를 해결하고 문제를 안정화한다.

정칙화는 가설 공간 ${\mathcal {H}}$ 를 제한함으로써 이루어질 수 있다. 일반적인 예는 ${\mathcal {H}}$ 를 선형 함수로 제한하는 것이다. 이것은 선형 회귀를 표준 문제로 환원하는 것으로 볼 수 있다. ${\mathcal {H}}$ 는 또한 최고차항 $p$ 의 다항식, 지수함수, 또는 L1으로 구획된 함수로 제한될 수 있다. 가설공간의 제한은 과적합을 회피하는데, 이는 포텐셜 함수(potential function)의 형태가 유한하기 때문이고, 따라서 임의로 0에 근접하는 경험적 위험을 제공하는 함수의 선택을 허용하지 않는다.

정칙화의 한 예로는 티호노프 정칙화가 있다:

{\frac {1}{n}}\displaystyle \sum _{i=1}^{n}V(f({\vec {x}}_{i}),y_{i})+\gamma \|f\|_{\mathcal {H}}^{2}

이 때, $\gamma$ 는 고정된 양수 매개변수이고, 정칙화 매개변수이다. 티호노프 정칙화는 해답의 존재와 독창성, 안정성을 보장한다.^[8]

같이 보기[편집]

재생핵 힐베르트 공간

각주[편집]

↑ Trevor Hastie, Robert Tibshirani, Jerome Friedman (2009) The Elements of Statistical Learning, Springer-Verlag ISBN 978-0-387-84857-0.
↑ Mohri, Mehryar; Rostamizadeh, Afshin; Talwalkar, Ameet (2012). 《Foundations of Machine Learning》. USA, Massachusetts: MIT Press. ISBN 9780262018258.
↑ Gagan Sidhu, Brian Caffo. Exploiting pitcher decision-making using Reinforcement Learning. Annals of Applied Statistics
↑ Tomaso Poggio, Lorenzo Rosasco, et al. Statistical Learning Theory and Applications, 2012, Class 1
↑ Rosasco, L., Vito, E.D., Caponnetto, A., Fiana, M., and Verri A. 2004. Neural computation Vol 16, pp 1063-1076
↑ Vapnik, V.N. and Chervonenkis, A.Y. 1971. On the uniform convergence of relative frequencies of events to their probabilities. Theory of Probability and its Applications Vol 16, pp 264-280.
↑ Mukherjee, S., Niyogi, P. Poggio, T., and Rifkin, R. 2006. Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization. Advances in Computational Mathematics. Vol 25, pp 161-193.
↑ Tomaso Poggio, Lorenzo Rosasco, et al. Statistical Learning Theory and Applications, 2012, Class 2

[1] Trevor Hastie, Robert Tibshirani, Jerome Friedman (2009) The Elements of Statistical Learning, Springer-Verlag ISBN 978-0-387-84857-0.

[2] Mohri, Mehryar; Rostamizadeh, Afshin; Talwalkar, Ameet (2012). 《Foundations of Machine Learning》. USA, Massachusetts: MIT Press. ISBN 9780262018258.

[3] Gagan Sidhu, Brian Caffo. Exploiting pitcher decision-making using Reinforcement Learning. Annals of Applied Statistics

[4] Tomaso Poggio, Lorenzo Rosasco, et al. Statistical Learning Theory and Applications, 2012, Class 1

[5] Rosasco, L., Vito, E.D., Caponnetto, A., Fiana, M., and Verri A. 2004. Neural computation Vol 16, pp 1063-1076

[6] Vapnik, V.N. and Chervonenkis, A.Y. 1971. On the uniform convergence of relative frequencies of events to their probabilities. Theory of Probability and its Applications Vol 16, pp 264-280.

[7] Mukherjee, S., Niyogi, P. Poggio, T., and Rifkin, R. 2006. Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization. Advances in Computational Mathematics. Vol 25, pp 161-193.

[8] Tomaso Poggio, Lorenzo Rosasco, et al. Statistical Learning Theory and Applications, 2012, Class 2

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]