Incremental Implementation

는 action 번 선택한 이후의 action-value function 의 추정값을 의미한다.

이 계산 방법을 실제로 구현하려면, 모든 보상값들을 전부 저장해야 하므로, 많은 메모리가 요구된다.

이러한 현상을 완화하기 위해 다음과 같은 수식이 유도된다.

는 다음과 같이 생각할 수 있다.

  • 는 estimation 의 오차로, 학습을 진행할수록 에 가까워진다.
  • 또한 StepSize 는 수렴을 위해 사이를 만족해야 한다.

편의를 위해 로 정의한다.

B) Related

C) References