통계적 학습이론

위키백과, 우리 모두의 백과사전.

통계적 학습이론(統計的學習理論, 영어: Statistical learning theory)은 통계학함수해석학 분야에서 기계학습 도면을 위한 체계이다.[1][2] 통계적 학습이론은 데이터에 근거하는 예측함수를 찾는 문제를 다룬다. 통계적 학습이론은 컴퓨터 비전음성인식, 생물정보학, 야구 따위의 스포츠 분야에서 성공적인 응용을 이끌어냈다.[3]

개요[편집]

학습의 목표는 이해와 예측이다. 학습은 지도 학습, 비지도 학습, 온라인 학습강화 학습을 비롯한 여러 범주로 분류된다. 통계적 학습이론의 관점에서는 지도 학습이 가장 잘 이해된다.[4] 지도 학습은 훈련된 데이터 집합으로부터 학습하는 것을 포함한다. 훈련의 모든 포인트는 입·출력쌍이며, 입력은 출력에 매핑된다. 학습 문제는 학습된 함수가 미래의 입력으로부터의 결과를 예측하는 데 사용될 수 있도록, 입력과 출력 사이를 매핑하는 함수를 추론하는 것으로 구성된다.

출력 유형에 따르는 지도학습 문제는, 회귀문제이거나 분류문제 중 하나이다. 출력값에 연속범위가 있다면 회귀문제이다. 옴의 법칙으로 예를 들면, 회귀분석은 전압을 입력으로, 전류를 출력으로 수행될 수 있다. 회귀분석은 전압과 전류 사이의 함수적 관계는 다음과 같이 로 파악된다.

분류 문제에서 출력은 별개의 라벨 집합의 요소가 된다. 분류는 기계학습 응용에서 매우 일반적이다. 이를테면, 안면인식에서는 사람의 얼굴 화상이 입력되고, 출력 라벨은 그 사람의 이름이 된다. 입력은 화상에서 픽셀을 나타내는 다차원 벡터로 표현된다.

훈련 집합을 기반으로 함수를 학습한 다음에는, 해당 함수가 훈련 집합에 나타나지 않는 데이터의 테스트 집합에서 그 유효성이 평가된다.

형식 기술[편집]

를 벡터공간의 모든 가능한 입력으로 취하고, 를 벡터공간의 모든 가능한 출력으로 취한다. 통계적 학습이론에서는 곱공간 위에 미지의 확률분포가 존재한다는 관점을 취한다. 이를테면 미지의 가 존재한다. 훈련집합은 이 확률분포 위에 있는 개의 샘플로 이루어져 있고, 다음과 같이 적힌다.

는 훈련집합에서의 입력벡터이며, 는 그것에 상응하는 출력이다.

이러한 형식주의에서, 추론문제(inference problem)는 일 때의 함수 를 찾는 것으로 구성된다. 를 함수의 공간이고 할 때, 는 가설공간(hypothesis space)이라고 불린다. 가설공간은 알고리즘이 검색할 함수의 공간이다. 손실함수, 예측치 간의 차이에 대한 측정단위를 , 실제 값을 라고 하자. 기대위험(영어판)은 다음과 같이 정의된다.

목표함수, 즉 선택가능한 최적의 함수 는 이하를 만족할 때 주어진다.

확률분포 는 미지이기 때문에, 기대위험에는 대리측정(proxy measure)이 쓰여야만 한다. 이 측정은, 미지의 확률분포 위에 있는 샘플들로 이루어진 훈련집합에 기초한다. 이는 경험적 위험(영어판)이라고 불린다.

경험적 위험(empirical risk)을 최소화하는 함수 를 선택하는 학습 알고리즘을 경험적 위험 최소화(영어판)라고 부른다.

손실함수[편집]

문제가 회귀인지 분류인지에 따라 상이한 손실함수가 사용된다. 손실함수의 선택은, 학습 알고리즘에 의해 선택될 함수 의 결정요인이다. 손실함수는 또한 알고리즘의 수렴률에 영향을 미친다. 손실함수가 볼록해지는 것이 중요하다.[5]

문제가 회귀의 일종인지 분류의 일종인지에 따라 다른 손실함수가 쓰인다.

회귀문제[편집]

회귀에 대한 가장 일반적인 손실함수는 제곱 손실함수(L2-노름)이다. 이 손실함수는 범용 최소제곱법이다.

때때로 절댓값 손실(L1-노름)이 활용된다.

분류문제[편집]

어떤 의미에서 0-1 지시함수는 분류에 있어서 가장 자연스러운 손실함수이다. 예측 출력이 실제 출력과 동일할 경우 0값을 지니며, 그렇지 아니할 경우에는 1값을 지닌다. 이진분류(binary classification) 에서 이는 다음과 같다.

이 때, 단위계단함수이다.

정칙화[편집]

이 화상은 기계학습에서의 과적합의 예시이다. 빨간색 점은 훈련 집합(training dataset)를 나타낸다. 녹색 선은 유의미한 함수 관계를 나타내는 반면, 파란색 선은 학습 함수를 나타내며, 이는 과적합의 결과이다.

기계학습 문제에서 발생하는 주요한 문제로는 과적합이 있다. 학습은 예측문제이므로, 학습목표는 (전례가 있는) 데이터에 최적인 함수를 찾지 않고 미래의 입력의 결과를 가장 정확하게 예측할 수 있는 함수를 얻는 것이다. 경험적 위험 최소화는, 이러한 과적합의 위험을 갖는다. 즉, 데이터와 정확히 일치하지만 미래의 출력을 잘 예측하지 못하는 함수를 찾는 것이다.

과적합은 불안정한 해답을 빚을 징후를 보인다. 훈련 집합의 작은 섭동(攝動)은 학습된 함수에 큰 변동을 일으킬 수 있다. 해답의 안정성이 보장될 수 있다면, 일반화와 일관성도 보장된다는 것을 알 수 있다.[6][7] 정칙화는 과적합 문제를 해결하고 문제를 안정화한다.

정칙화는 가설 공간 를 제한함으로써 이루어질 수 있다. 일반적인 예는 를 선형 함수로 제한하는 것이다. 이것은 선형 회귀의 표준 문제에 대한 감소로 볼 수 있다. 는 또한 최고차항 의 다항식, 지수함수, 또는 L1으로 구획된 함수로 제한될 수 있다. 가설공간의 제한은 과적합을 회피하는데, 이는 포텐셜 함수(potential function)의 형태가 유한하기 때문이고, 따라서 임의로 0에 근접하는 경험적 위험을 제공하는 함수의 선택을 허용하지 않는다.

정칙화의 한 예로는 티호노프 정칙화가 있다:

이 때, 는 고정된 양수 매개변수이고, 정칙화 매개변수이다. 티호노프 정칙화는 해답의 존재와 독창성, 안정성을 보장한다.[8]

같이 보기[편집]

각주[편집]

  1. Trevor Hastie, Robert Tibshirani, Jerome Friedman (2009) The Elements of Statistical Learning, Springer-Verlag ISBN 978-0-387-84857-0.
  2. Mohri, Mehryar; Rostamizadeh, Afshin; Talwalkar, Ameet (2012). 《Foundations of Machine Learning》. USA, Massachusetts: MIT Press. ISBN 9780262018258. 
  3. Gagan Sidhu, Brian Caffo. Exploiting pitcher decision-making using Reinforcement Learning. Annals of Applied Statistics
  4. Tomaso Poggio, Lorenzo Rosasco, et al. Statistical Learning Theory and Applications, 2012, Class 1
  5. Rosasco, L., Vito, E.D., Caponnetto, A., Fiana, M., and Verri A. 2004. Neural computation Vol 16, pp 1063-1076
  6. Vapnik, V.N. and Chervonenkis, A.Y. 1971. On the uniform convergence of relative frequencies of events to their probabilities. Theory of Probability and its Applications Vol 16, pp 264-280.
  7. Mukherjee, S., Niyogi, P. Poggio, T., and Rifkin, R. 2006. Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization. Advances in Computational Mathematics. Vol 25, pp 161-193.
  8. Tomaso Poggio, Lorenzo Rosasco, et al. Statistical Learning Theory and Applications, 2012, Class 2