L-BFGS

L-BFGS (혹은 Limited-memory BFGS, LM-BFGS) 준-뉴턴 방식 (quasi-Newton methods)의 최적화 알고리즘이다. 제한된 컴퓨터 메모리를 이용하여 기존 BFGS (Broyden–Fletcher–Goldfarb–Shanno algorithm) 알고리즘을 속도면에서 개선한 알고리즘이다. (결과는 근사값). 본 알고리즘은 Adam과 함께 머신 러닝^[1]^[2]에 있어서 널리 사용되는 파라메터 추정 알고리즘이다. 본 알고리즘의 목적함수는 $f(\mathbf {x} )$ 의 최소값을 찾는 것이며, 여기서, $\mathbf {x}$ 는 unconstrained value의 real-vector이고, $f$ 는 미분가능한 스칼라 함수이다.

원래의 BFGS와 같이, L-BFGS 알고리즘은 variable space의 검색을 조정하는 추정된 inverse Hessian matrix를 이용한다. 하지만 BFGS는 inverse Hessian에서 추정된 전체 $n\times n$ 을 이용하고, L-BFGS는 단지 몇개의 벡터만을 저장한다. 비록 일부의 벡터이지만 이런 일부의 벡터 역시 암시적으로 대표성을 지니고 있다. (주로 홀수개의 벡터를 지정하고 10 이하. 문헌에서 봤는데 이유는 기억이 가물가물.. ) 여기서 n은 문제에서 변수의 갯수를 의미한다. 선형 메모리의 요구사항으로 인해, L-BFGS는 많은 변수를 가진 최적화 문제에 적합하다고 알려져 있다. inverse Hessian H_k 대신에 L-BFGS는 과거 m update의 기록과 gradient ∇f(x) 이용한다. 일반적으로 과거 기록인 m 의 크기는 주로 10 이하를 선정한다.

(문서는 Wikipedia의 영어판에 게재된 Limited-memory BFGS 문서의 한국어 번역이며, 필자의 판단으로 일부 내용은 의역하였음.)

알고리즘 (Algorithm)[편집]

알고리즘은 최적 변수의 초기 추정값, $\mathbf {x} _{0}$ ,과 함께 시작하고, 반복적으로 더 나은 추정값 $\mathbf {x} _{1},\mathbf {x} _{2},\ldots$ 을 평가하는 과정으로 진행된다. 목적 함수의 미분, $g_{k}:=\nabla f(\mathbf {x} _{k})$ , steepest descent의 방향을 정하고, 이차 미분 함수인 Hessian 메트릭스의 추정를 구성하는데 아주 중요한 요소이다.

L-BFGS는 다른 quasi-Newton 알고리즘과 많은 특징을 공유하지만, 메트릭스-벡터의 곱, $d_{k}=-H_{k}g_{k}$ , 이 수행되는 방식에서 매우 다르다. 여기서, $d_{k}$ 는 대략적인 뉴튼의 방향이고, $g_{k}$ 는 현재의 gradient, $H_{k}$ 는 Hessian 메트릭스의 역행렬이다. 이러한 방향 벡터를 정하기 위한 업데이트의 기록을 이용하는 많은 접근방식이 있으며, 여기서는 소위 "two loop recursion"^[3]^[4]이라고 불리는 일반적인 접근법 (알고리즘)을 소개한다.

k번째 iteration에서의 위치와 gradient를 $x_{k}$ , $g_{k}\equiv \nabla f(x_{k})$ 라 하자. 여기서 $f$ 는 최소화되어야 함수이고, 모든 벡터들은 컬럼 벡터이다. 마지막 $m$ 업데이트는 저장했다고 가정하자.

s_{k}=(x_{k+1}-x_{k})

,

y_{k}=(g_{k+1}-g_{k})

.

$\rho _{k}={\frac {1}{y_{k}^{\top }s_{k}}}$ 이고, $H_{k}^{0}$ 는 inverse Hessian의 초기 가정이라고 하자. BFGS를 기반으로 inverse Hessian은 아래와 같다.

H_{k+1}=(I-\rho _{k}s_{k}y_{k}^{\top })H_{k}(I-\rho _{k}y_{k}s_{k}^{\top })+\rho _{k}s_{k}s_{k}^{\top }.

하나의 고정된 $k$ 에서 벡터의 시퀀스를 $q_{k-m},\ldots ,q_{k}$ as $q_{k}:=g_{k}$ 와 $q_{i}:=(I-\rho _{i}y_{i}s_{i}^{\top })q_{i+1}$ 로 정의하자. 그때, $q_{i+1}$ 로부터 $q_{i}$ 를 계산하는 번복 알고리즘은 $\alpha _{i}:=\rho _{i}s_{i}^{\top }q_{i+1}$ 로 정의하고, 다음과 같이 $q_{i}=(q_{i+1}-\alpha _{i}y_{i})$ 를 정한다.

또 하나의 벡터의 시퀀스 $z_{k-m},\ldots ,z_{k}$ 는 $z_{i}:=H_{i}q_{i}$ 로 정한다. $z_{k-m}=H_{k}^{0}q_{k-m}$ , $\beta _{i}:=\rho _{i}y_{i}^{\top }z_{i}$ , $z_{i+1}=z_{i}+(\alpha _{i}-\beta _{i})s_{i}$ 를 결정하는 또하나의 recursive 알고리즘이 있다. $z_{k}$ 의 값은 이제 오르막 방향이며, 다음과 같이 내리막 방향을 계산할 수 있다.

{\begin{array}{l}q=g_{k}\\{\mathtt {For}}\ i=k-1,k-2,\ldots ,k-m\\\qquad \alpha _{i}=\rho _{i}s_{i}^{\top }q\\\qquad q=(q-\alpha _{i}y_{i})\\\gamma _{k}={\frac {s_{k-1}^{\top }y_{k-1}}{y_{k-1}^{\top }y_{k-1}}}\\H_{k}^{0}=\gamma _{k}I\\z=H_{k}^{0}q\\{\mathtt {For}}\ i=(k-m,k-m+1,\ldots ,k-1)\\\qquad \beta _{i}=\rho _{i}y_{i}^{\top }z\\\qquad z=z+s_{i}(\alpha _{i}-\beta _{i})\\z=-z\end{array}}

상기의 공식은 최소화 문제 $z=-H_{k}g_{k}$ 를 위한 방향 검색을 제공한다. 최대화 문제에 대해서는, $z$ 의 부호를 변경해야 한다. 초기 inverse Hessian $H_{k}^{0}$ 근사값은 대각 행렬값이나, 효율적인 계산 방식인 identity 메트릭스의 배수로 선택한다.

초기 메트릭스 $\gamma _{k}$ 의 스케일은 방향 검색이 잘 되도록 배율되어야 하고, 단위 스텝의 길이가 대부분의 iteration에서 적용가능하여야 한다. Wolfe line search는 curvature조건을 만족하고, BFGS의 업데이트를 안정시키기 위해 사용된다.

어떤 소프트웨어에서는 backtracking line search를 이용하지만, 이것은 선택된 스텝에 의해 curvature 조건 $y_{k}^{\top }s_{k}>0$ 만족되어 져야 함을 보증하지 못한다. 어떤 알고리즘 구현에서는 $y_{k}^{\top }s_{k}$ 가 음수이거나, zero (영)에 가까우면 건너 뛰는 방식을 취하지만, 이런 접근법은 일반적으로 권장하지는 않는다. 왜냐하면 너무 자주 건너 뛰므로써 중요한 곡면 정보를 파악하기 힘들고, 적절한 Hessian 추정을 못할 수 있기 때문이다.

이러한 two loop update는 단지 inverse Hessian 잘 작동한다. 다른 방식으로 inverse Hessian 추정하는 직접 근사 Hessian $B_{k}$ ^[5]를 이용하는 방식도 개발되어 있다.

변형된 알고리즘들 (Variants)[편집]

BFGS와 L-BFGS는 구속조건들 없이 Smooth 함수를 최적화하도록 설계되었기 때문에, L-BFGS 알고리즘은 미분이 되지 않은 함수나 구속들을 포함하는 함수에 적용하기 위해서는 수정이 필요하다. 가장 인기있는 변형된 알고리즘은 active-set방식이라 불린다. 이 아이디어는 현재 iterate의 작은 근사값으로 구속했을 때, 함수와 구속을 단순화 할 수 있다는 것이다.

L-BFGS-B[편집]

L-BFGS-B 알고리즘은 simple box 구속들을 다루기 위해서 확장된 방식이다. 단순화된 구속은 하한과 상한 경계가 있는 $l i \leq x i \leq u i$ 형식이며, 각 $x i$ 를 위해, 양 방향 혹은 한쪽 방향의 경계는 제거되어 질 수도 있다^[6]^[7] . 이 방법은 (단순 gradient 방식을 이용하는) 각 스텝에서 고정과 자유 변수들을 결정하고, 높은 정확도을 얻기 위해서 자유 변수에 L-BFGS를 이용하고, 과정을 반복함으로써 동작한다.

OWL-QN[편집]

Orthant-wise limited-memory quasi-Newton (OWL-QN)는 $\ell _{1}$ -regularized 모델을 피팅하고, inherent sparsity 모델을 이용하기 위해 변형된 L-BFGS알고리즘이다^[2]. 아래의 형태의 함수를 최소화 (최적화)한다.

f({\vec {x}})=g({\vec {x}})+C\|{\vec {x}}\|_{1}

여기서 $g$ 는 미분가능한 convex 손실 함수이다. 이 방식은 하나의 active-set 방식이며, 변수들의 각 요소의 부호를 평가(추정, 예측)하고, 같은 부호를 가지기 위해 서브 시퀀스 스텝을 제약한다. 일단 부호가 고정되면, 미분이 가능하지 않은 $\|{\vec {x}}\|_{1}$ term은 하나의 smooth linear term 이 된다. 이런 smooth linear term은 L-BFGS에 의해 이용될 수 있다. 하나의 L-BFGS스텝 이후, 이 방식은 부호를 변경하기 위한 일부 변수들을 허용하고, 과정을 반복한다.

O-LBFGS[편집]

Schraudolph 둥은 BFGS와 L-BFGS에 대한 온라인 근사법을 제안했다^[8]. Stochastic gradient descent (SGD)와 유사하게, 이 방법은 에러 함수와 각 iteration에서의 전체 데이터 셋에 대한 randomly drawn subset의 gradient를 평가함으로써, 계산의 복잡성을 감소시키기 위해 사용될 수 있다. BFGS 혹은 O-BFGS의 온라인 근사법은 반드시 수렴하지는 않지만^[9], O-LBFGS는 거의 글로벌하게 수렴함^[10]을 보여준다.

각주[편집]

↑ Malouf, Robert (2002). 〈A comparison of algorithms for maximum entropy parameter estimation〉. 《Proceedings of the Sixth Conference on Natural Language Learning (CoNLL-2002)》. 49–55쪽. doi:10.3115/1118853.1118871.
↑ ^가 ^나 Andrew, Galen; Gao, Jianfeng (2007). 〈Scalable training of L₁-regularized log-linear models〉. 《Proceedings of the 24th International Conference on Machine Learning》. doi:10.1145/1273496.1273501. ISBN 9781595937933. S2CID 5853259.
↑ Matthies, H.; Strang, G. (1979). “The solution of non linear finite element equations”. 《International Journal for Numerical Methods in Engineering》 14 (11): 1613–1626. Bibcode:1979IJNME..14.1613M. doi:10.1002/nme.1620141104.
↑ Nocedal, J. (1980). “Updating Quasi-Newton Matrices with Limited Storage”. 《Mathematics of Computation》 35 (151): 773–782. doi:10.1090/S0025-5718-1980-0572855-7.
↑ Byrd, R. H.; Nocedal, J.; Schnabel, R. B. (1994). “Representations of Quasi-Newton Matrices and their use in Limited Memory Methods”. 《Mathematical Programming》 63 (4): 129–156. doi:10.1007/BF01582063. S2CID 5581219.
↑ Byrd, R. H.; Lu, P.; Nocedal, J.; Zhu, C. (1995). “A Limited Memory Algorithm for Bound Constrained Optimization”. 《SIAM J. Sci. Comput.》 16 (5): 1190–1208. doi:10.1137/0916069.
↑ Zhu, C.; Byrd, Richard H.; Lu, Peihuang; Nocedal, Jorge (1997). “L-BFGS-B: Algorithm 778: L-BFGS-B, FORTRAN routines for large scale bound constrained optimization”. 《ACM Transactions on Mathematical Software》 23 (4): 550–560. doi:10.1145/279232.279236. S2CID 207228122.
↑ Schraudolph, N.; Yu, J.; Günter, S. (2007). 《A stochastic quasi-Newton method for online convex optimization》. AISTATS.
↑ Mokhtari, A.; Ribeiro, A. (2014). “RES: Regularized Stochastic BFGS Algorithm”. 《IEEE Transactions on Signal Processing》 62 (23): 6089–6104. arXiv:1401.7625. Bibcode:2014ITSP...62.6089M. CiteSeerX 10.1.1.756.3003. doi:10.1109/TSP.2014.2357775. S2CID 15214938.
↑ Mokhtari, A.; Ribeiro, A. (2015). “Global convergence of online limited memory BFGS” (PDF). 《Journal of Machine Learning Research》 16: 3151–3181.

읽을거리[편집]

Liu, D. C.; Nocedal, J. (1989). “On the Limited Memory Method for Large Scale Optimization”. 《Mathematical Programming B》 45 (3): 503–528. CiteSeerX 10.1.1.110.6443. doi:10.1007/BF01589116. S2CID 5681609.
Haghighi, Aria (2014년 12월 2일). “Numerical Optimization: Understanding L-BFGS”.
Pytlak, Radoslaw (2009). 〈Limited Memory Quasi-Newton Algorithms〉. 《Conjugate Gradient Algorithms in Nonconvex Optimization》. Springer. 159–190쪽. ISBN 978-3-540-85633-7.

[malouf-1] Malouf, Robert (2002). 〈A comparison of algorithms for maximum entropy parameter estimation〉. 《Proceedings of the Sixth Conference on Natural Language Learning (CoNLL-2002)》. 49–55쪽. doi:10.3115/1118853.1118871.

[owlqn-2] 가 ^나 Andrew, Galen; Gao, Jianfeng (2007). 〈Scalable training of L₁-regularized log-linear models〉. 《Proceedings of the 24th International Conference on Machine Learning》. doi:10.1145/1273496.1273501. ISBN 9781595937933. S2CID 5853259.

[:0-3] Matthies, H.; Strang, G. (1979). “The solution of non linear finite element equations”. 《International Journal for Numerical Methods in Engineering》 14 (11): 1613–1626. Bibcode:1979IJNME..14.1613M. doi:10.1002/nme.1620141104.

[:1-4] Nocedal, J. (1980). “Updating Quasi-Newton Matrices with Limited Storage”. 《Mathematics of Computation》 35 (151): 773–782. doi:10.1090/S0025-5718-1980-0572855-7.

[5] Byrd, R. H.; Nocedal, J.; Schnabel, R. B. (1994). “Representations of Quasi-Newton Matrices and their use in Limited Memory Methods”. 《Mathematical Programming》 63 (4): 129–156. doi:10.1007/BF01582063. S2CID 5581219.

[LBFGSB1-6] Byrd, R. H.; Lu, P.; Nocedal, J.; Zhu, C. (1995). “A Limited Memory Algorithm for Bound Constrained Optimization”. 《SIAM J. Sci. Comput.》 16 (5): 1190–1208. doi:10.1137/0916069.

[algo778-7] Zhu, C.; Byrd, Richard H.; Lu, Peihuang; Nocedal, Jorge (1997). “L-BFGS-B: Algorithm 778: L-BFGS-B, FORTRAN routines for large scale bound constrained optimization”. 《ACM Transactions on Mathematical Software》 23 (4): 550–560. doi:10.1145/279232.279236. S2CID 207228122.

[8] Schraudolph, N.; Yu, J.; Günter, S. (2007). 《A stochastic quasi-Newton method for online convex optimization》. AISTATS.

[9] Mokhtari, A.; Ribeiro, A. (2014). “RES: Regularized Stochastic BFGS Algorithm”. 《IEEE Transactions on Signal Processing》 62 (23): 6089–6104. arXiv:1401.7625. Bibcode:2014ITSP...62.6089M. CiteSeerX 10.1.1.756.3003. doi:10.1109/TSP.2014.2357775. S2CID 15214938.

[10] Mokhtari, A.; Ribeiro, A. (2015). “Global convergence of online limited memory BFGS” (PDF). 《Journal of Machine Learning Research》 16: 3151–3181.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]