Incremental Implementation
Qn 는 action a 를 n−1 번 선택한 이후의 action-value function 의 추정값을 의미한다.
Qn≐n−1R1+R2+⋯+Rn−1
이 계산 방법을 실제로 구현하려면, 모든 보상값들을 전부 저장해야 하므로, 많은 메모리가 요구된다.
이러한 현상을 완화하기 위해 다음과 같은 수식이 유도된다.
Qn+1=n1i=1∑nRi=n1(Rn+i=1∑n−1Ri)=n1(Rn+(n−1)n−11i=1∑n−1Ri)=n1(Rn+(n−1)Qn)=n1(Rn+nQn−Qn)=Qn+n1[Rn−Qn]
Qn+n1[Rn−Qn] 는 다음과 같이 생각할 수 있다.
NewEstimate←OldEstimate+StepSize[Target−OldEstimate]
- [Target−OldEstimate] 는 estimation 의 오차로, 학습을 진행할수록 0 에 가까워진다.
- 또한 StepSize 1/n=α 는 수렴을 위해 0<α<1 사이를 만족해야 한다.
편의를 위해 Q0≜0 로 정의한다.
C) References