SARSA

위키백과, 우리 모두의 백과사전.

SARSA(State-action-reward-state-action)는 마르코프 결정 과정 정책을 학습하기 위한 알고리즘으로 기계 학습의 강화 학습 영역에서 사용된다. 이는 MCQ-L(Modified Connectionist Q-Learning)이라는 이름의 기술 노트에서 러머리(Rummery)와 니란잔(Niranjan)에 의해 제안되었다. 리치 서튼(Rich Sutton)이 제안한 대체 이름 SARSA는 각주로만 언급되었다.

이 이름은 Q-값을 업데이트하는 주요 기능이 에이전트 "S1"의 현재 상태, 에이전트가 "A1"을 선택하는 작업, 에이전트가 이 작업을 선택하여 얻는 보상 "R2", 에이전트가 해당 작업을 수행한 후 입력하는 "S2"를 지정하고 마지막으로 에이전트가 새 상태에서 선택하는 다음 작업 "A2"를 지정한다. 5중(St, At, Rt+1, St+1, At+1)의 약어는 SARSA이다. 일부 저자는 약간 다른 규칙을 사용하여 보상이 공식적으로 할당되는 시간 단계에 따라 5중(St, At, Rt, St+1, At+1)을 쓴다.

같이 보기[편집]