1 min read
...했는지 여부에 따른 보상을 나타내고, \mathrm{r} {\text {future}} 는 미래 보상에 대한 agent 의 projection (예측) 을 의미한다. \gamma 은 discount factor 를 의미한다. 구체적으로 DDQN 을 통해서 현재 state s 가 주어졌을 때, timestamp t 에서 a 를 선택할 경우 받게되는 전체 reward 의 예측값은 다음과 같다....
...{t+1}+\gamma R {t+2}+\gamma^{2}R {t+3}+\cdots=\sum {k=0}^{\infty}\gamma^{k}R {t+k+1} 여기서 \gamma 는 감가율 discount factor 라 부름 (0\leq\gamma\leq1) 좀 더 general 하게 다음과 같이 쓴다. \displaystyle G {t}\doteq\sum {k=t+1}^{T}\gamma^{k ...
... (S, P, R, \gamma) 로 충분히 표현이 가능하다. 여기서 S 는 states 집합, P 는 전이 확률 행렬, R 은 보상 함수 그리고 \gamma \in [0, 1] 은 discount factor 이다. Related References