학습률

학습률(Learning rate)은 기계 학습 및 통계학에서 손실 함수의 최소값을 향해 이동하면서 각 반복에서 단계 크기를 결정하는 최적화 알고리즘의 조정 매개변수이다. 새로 획득한 정보가 기존 정보보다 우선하는 정도에 영향을 주기 때문에 기계 학습 모델이 '학습'하는 속도를 은유적으로 나타낸다. 적응형 제어 문헌에서는 학습률을 일반적으로 이득(gain)이라고 한다.

학습률을 설정할 때 수렴률과 오버슈팅 사이에는 균형이 있다. 하강 방향은 일반적으로 손실 함수의 기울기에 따라 결정되지만 학습률은 해당 방향으로 얼마나 큰 단계를 수행하는지 결정한다. 학습률이 너무 높으면 학습이 최소값을 뛰어넘게 되지만 학습률이 너무 낮으면 수렴하는 데 너무 오랜 시간이 걸리거나 바람직하지 않은 로컬 최소값에 갇히게 된다.

더 빠른 수렴을 달성하고 진동을 방지하고 바람직하지 않은 로컬 최소값에 갇히는 것을 방지하기 위해 학습 속도는 학습 속도 일정에 따라 또는 적응형 학습 속도를 사용하여 훈련 중에 변경되는 경우가 많다. 학습률과 그에 대한 조정도 매개변수마다 다를 수 있으며, 이 경우 뉴턴 방법의 헤세 행렬의 역행렬에 대한 근사치로 해석할 수 있는 대각 행렬이다. 학습률은 준뉴턴 방법 및 관련 최적화 알고리즘의 부정확한 선 검색에 의해 결정된 스텝 길이와 관련된다.

같이 보기

외부 링크

de Freitas, Nando (2015년 2월 12일). “Optimization”. 《Deep Learning Lecture 6》. University of Oxford – YouTube 경유.