기울기 소멸 문제

위키백과, 우리 모두의 백과사전.
(기울기 소실 문제에서 넘어옴)

기울기 소멸 문제(vanishing gradient problem)는 신경망의 활성함수의 도함수 값이 계속 곱해지다 보면 가중치에 따른 결과값의 기울기가 0이 되어 버려서, 경사 하강법을 이용할 수 없게 되는 문제이다. 문제는 경우에 따라 기울기가 너무 작아져서 가중치가 값을 바꾸는 것을 효과적으로 막게 된다는 것이다.[1] 최악의 경우 아예 신경망의 훈련이 멈춰버릴 수 있다.[1] ReLU처럼 활성함수를 개선하는 방법, 층을 건너뛴 연결을 하는 ResNet, 배치 정규화(batch normalization) 등의 해법이 나왔다.

오차 역전파를 통해 연구자들은 지도 심층 인공신경망을 처음부터 훈련할 수 있게 되었으나, 초기에는 거의 성공을 거두지 못했다. 셉 호하이터(Sepp Hochreiter)는 이런 실패의 이유를 1991년 공식적으로 "기울기 소멸 문제"로 확인하였다.[2][3] 이는 다층 순방향 신경망뿐 아니라,[4] 순환 신경망에도 영향을 미쳤다.[5]

한편 기울기 소멸 문제와 반대로 기울기값이 계속 증폭될 경우 기울기 폭발 문제(exploding gradient problem)가 발생한다.

각주[편집]

  1. Basodi, Sunitha; Ji, Chunyan; Zhang, Haiping; Pan, Yi (September 2020). “Gradient amplification: An efficient way to train deep neural networks”. 《Big Data Mining and Analytics》 3 (3): 198. doi:10.26599/BDMA.2020.9020004. ISSN 2096-0654. S2CID 219792172. 
  2. Hochreiter, S. (1991). 《Untersuchungen zu dynamischen neuronalen Netzen》 (PDF) (Diplom thesis). Institut f. Informatik, Technische Univ. Munich. 
  3. Hochreiter, S.; Bengio, Y.; Frasconi, P.; Schmidhuber, J. (2001). 〈Gradient flow in recurrent nets: the difficulty of learning long-term dependencies〉. Kremer, S. C.; Kolen, J. F. 《A Field Guide to Dynamical Recurrent Neural Networks》. IEEE Press. ISBN 0-7803-5369-2. 
  4. Goh, Garrett B.; Hodas, Nathan O.; Vishnu, Abhinav (2017년 6월 15일). “Deep learning for computational chemistry”. 《Journal of Computational Chemistry》 (영어) 38 (16): 1291–1307. arXiv:1701.04503. Bibcode:2017arXiv170104503G. doi:10.1002/jcc.24764. PMID 28272810. S2CID 6831636. 
  5. Pascanu, Razvan; Mikolov, Tomas; Bengio, Yoshua (2012년 11월 21일). “On the difficulty of training Recurrent Neural Networks”. arXiv:1211.5063 [cs.LG].