확률적 경사 하강법

확률적 경사 하강법(Stochastic gradient descent, SGD)은 적절한 평활성 특성(예: 미분 가능 또는 하위 미분 가능)을 사용하여 목적 함수를 최적화하기 위한 반복 방법이다. 이는 실제 기울기(전체 자료 집합에서 계산됨)를 해당 추정치(데이터의 무작위로 선택된 하위 집합에서 계산됨)로 대체하기 때문에 경사 하강법 최적화의 확률론적 근사치로 간주될 수 있다. 특히 고차원 최적화 문제에서 이는 매우 높은 계산 부담을 줄여 수렴률을 낮추는 대신 더 빠른 반복을 달성한다.^[1]

확률적 근사의 기본 아이디어는 1950년대 로빈스-몬로(Robbins-Monro) 알고리즘으로 거슬러 올라간다. 오늘날 확률적 경사 하강법은 기계 학습에서 중요한 최적화 방법이 되었다.^[2]

같이 보기[편집]

선형 분류

각주[편집]

↑ Bottou, Léon; Bousquet, Olivier (2012). 〈The Tradeoffs of Large Scale Learning〉. Sra, Suvrit; Nowozin, Sebastian; Wright, Stephen J. 《Optimization for Machine Learning》. Cambridge: MIT Press. 351–368쪽. ISBN 978-0-262-01646-9.
↑ Bottou, Léon (1998). 〈Online Algorithms and Stochastic Approximations〉. 《Online Learning and Neural Networks》. Cambridge University Press. ISBN 978-0-521-65263-6.

외부 링크[편집]

Using stochastic gradient descent in C++, Boost, Ublas for linear regression
Machine Learning Algorithms
“Gradient Descent, How Neural Networks Learn”. 《3Blue1Brown》. 2017년 10월 16일. 2021년 12월 22일에 원본 문서에서 보존된 문서 – YouTube 경유.
Goh (2017년 4월 4일). “Why Momentum Really Works”. 《Distill》 2 (4). doi:10.23915/distill.00006. Interactive paper explaining momentum.

[1] Bottou, Léon; Bousquet, Olivier (2012). 〈The Tradeoffs of Large Scale Learning〉. Sra, Suvrit; Nowozin, Sebastian; Wright, Stephen J. 《Optimization for Machine Learning》. Cambridge: MIT Press. 351–368쪽. ISBN 978-0-262-01646-9.

[Bottou_1998-2] Bottou, Léon (1998). 〈Online Algorithms and Stochastic Approximations〉. 《Online Learning and Neural Networks》. Cambridge University Press. ISBN 978-0-521-65263-6.

[1]

[2]