본문으로 이동

탐색-이용 딜레마

위키백과, 우리 모두의 백과사전.

탐색-이용 딜레마 (탐색-이용 교체)는 다양한 영역에서 발생하는 의사 결정에 기본적인 개념으로[1][2], 대치되는 두 가지 전략 사이에서 균형을 잡는 행동을 말한다. 이용은 시스템이 현재 가진 지식에 (불완전하거나 잘못된 방향으로 인도할 수도 있는) 기초해서 최선의 선택을 하는 것을 말하는 반면, 탐색은 이용의 기회를 희생하더라도 앞으로의 나은 결과를 위해 새로운 방안을 시도해 보는 것을 말한다. 이러한 두 가지 전략 사이에서 최선의 균형을 찾는 것은 장기적으로 이익을 극대화하는 것이 목표인 다양한 의사 결정 과정에서 중요한 문제이다.[3]

기계 학습에 적용[편집]

탐색-이용 교체는 기계 학습의 한 종류인 강화 학습 (환경으로부터의 피드백에 기초해서 행위자가 의사 결정을 하도록 훈련시키는 기계 학습의 한 종류) 에서 중요하다. 결정적으로, 환경으로부터의 피드백이 불완전하거나 지연될 수 있으므로[4], 행위자는 현재에 최선인 것을 선택할 것인지, 성과를 향상시키기위해 새로운 것을 탐색해볼지 정해야 한다. 엡실론-그리디 (epsilon-greedy), 톰슨 샘플링 (Thomson sampling) 및 신뢰 상한 (upper confidence bound)과 같은 다양한 알고리즘이 이러한 문제를 해결하기 위해 개발되었다.

참고자료[편집]

  1. Berger-Tal, Oded; Nathan, Jonathan; Meron, Ehud; Saltz, David (2014년 4월 22일). “The Exploration-Exploitation Dilemma: A Multidisciplinary Framework”. 《PLOS ONE》 9 (4): e95693. Bibcode:2014PLoSO...995693B. doi:10.1371/journal.pone.0095693. PMC 3995763. PMID 24756026. 
  2. Rhee, Mooweon; Kim, Tohyun (2018). 〈Exploration and Exploitation〉. 《The Palgrave Encyclopedia of Strategic Management》. London: Palgrave Macmillan UK. 543–546쪽. doi:10.1057/978-1-137-00772-8_388. ISBN 978-0-230-53721-7. 
  3. Fruit, R. (2019). Exploration-exploitation dilemma in Reinforcement Learning under various form of prior knowledge (Doctoral dissertation, Université de Lille 1, Sciences et Technologies; CRIStAL UMR 9189).
  4. Richard S. Sutton; Andrew G. Barto (2020). Reinforcement Learning: An Introduction (2nd edition). http://incompleteideas.net/book/the-book-2nd.html