시간차 학습: 두 판 사이의 차이

내용 삭제됨 내용 추가됨

인라인

2016년 6월 27일 (월) 16:57 판

시간차 학습(Temporal difference learning)은 예측 기반 기계 학습의 한 방법이다. 시간차 학습은 주로 강화 학습 문제에 사용되며, "몬테 카를로 방법과 동적 계획법의 조합"이라고 불리기도 한다.^[1] 이는 시간차 학습이 어떤 정책에 따라 환경의 표본을 추출해서 학습을 진행하는 몬테 카를로 방법의 특징과, 과거에 학습한 추정치를 사용하여 현재의 추정치를 구하는 동적 계획법의 특징을 지니고 있기 때문이다. 시간차 학습 알고리즘은 동물들의 시간차 학습 모델과도 관련이 있다.^[2]

시간차 학습은 이어지는 예측들이 어떤 식으로 관련되어 있다고 생각한다. 일반적인 예측 기반 지도 학습에서는 오직 실제로 관측된 값을 통해서만 학습이 이루어진다. 즉, 예측을 하고, 결과가 관측되면, 비로소 관측된 결과에 더 잘 부합하도록 예측 메커니즘이 수정된다. 리처드 서튼이 잘 설명하듯, 시간차 학습의 핵심 아이디어는 예측이 관측된 결과 뿐만이 아니라 미래에 대한 다른 예측에 잘 부합하도록 수정된다는 것이다.^[3] 이러한 과정은 부트스트랩이라고 불린다. 다음의 예시를 보자.

"당신이 토요일의 날씨를 예측하고 싶어한다고 해 보자. 그리고 당신은 주간 날씨 정보가 주어졌을 때 토요일의 날씨를 예측할 수 있는 어떤 모델을 가지고 있다고 하자. 일반적인 알고리즘의 경우에, 당신은 토요일까지 기다렸다가 당신의 모델을 한꺼번에 수정할 것이다. 그러나, 가령 금요일이 되었을 때, 당신은 이미 토요일의 날씨가 어떨지 대강 예측할 수 있을 것이다. 따라서 토요일이 되기 전에 월요일의 모델을 수정할 수 있게 될 것이다."^[3]

수학적으로 말하면, 일반적인 알고리즘과 시간차 학습 알고리즘은 모두 어떤 확률 변수 $z$ 의 기댓값 $\mathrm {E} (z)$ 에 대한 예측의 오차와 관련된 어떤 비용 함수(cost function)를 최적화하려 할 것이다. 그러나, 일반적인 알고리즘은 $\mathrm {E} (z)=z$ ( $z$ 는 관측치)라고 가정하는 반면, 시간차 학습은 어떤 모델을 사용한다. 특별히 시간차 학습이 주요하게 사용되는 강화 학습의 경우에는, 총 보상을 나타내는 $z$ 에 대하여, E[z]는 보상에 대한 벨만 방정식으로 주어진다.

각주

↑ Richard Sutton & Andrew Barto (1998). 《Reinforcement Learning》. MIT Press. ISBN 0-585-02445-6.
↑ Schultz, W, Dayan, P & Montague, PR. (1997). “A neural substrate of prediction and reward”. 《Science》 275 (5306): 1593–1599. doi:10.1126/science.275.5306.1593. PMID 9054347. CS1 관리 - 여러 이름 (링크)
↑ ^가 ^나 Richard Sutton (1988). “Learning to predict by the methods of temporal differences”. 《Machine Learning》 3 (1): 9–44. doi:10.1007/BF00115009. (A revised version is available on Richard Sutton's publication page)

[RSutton-1998-1] Richard Sutton & Andrew Barto (1998). 《Reinforcement Learning》. MIT Press. ISBN 0-585-02445-6.

[WSchultz-1997-2] Schultz, W, Dayan, P & Montague, PR. (1997). “A neural substrate of prediction and reward”. 《Science》 275 (5306): 1593–1599. doi:10.1126/science.275.5306.1593. PMID 9054347. CS1 관리 - 여러 이름 (링크)

[RSutton-1988-3] 가 ^나 Richard Sutton (1988). “Learning to predict by the methods of temporal differences”. 《Machine Learning》 3 (1): 9–44. doi:10.1007/BF00115009. (A revised version is available on Richard Sutton's publication page)

[1]

[2]

[3]