Expected Return

누적 보상을 의미하며, Reinforcement Learning 에서 agent 의 목표는 이 값을 최대화 하는 것을 의미한다.

끝이 있는 학습 (episode 가 존재하는 학습, episodic tasks) 에서는 return $G_{t}$ 다음과 같이 표현될 수 있다.

G_{t} ≐ R_{t + 1} + R_{t + 2} + R_{t + 3} + \dots + R_{T}

B) Discounted Return

만약 끝이 없는 학습 (continuing tasks) 에서는 보상값이 무한대로 치솟을 수 있다 (e.g. Markov Reward Process). 이를 막기 위해 discounting return $G_{t}$ 를 사용한다.

G_{t} ≐ R_{t + 1} + γ R_{t + 2} + γ^{2} R_{t + 3} + \dots = k = 0 \sum \infty γ^{k} R_{t + k + 1}

여기서 $γ$ 는 감가율 discount factor 라 부름 ( $0 \leq γ \leq 1$ )

좀 더 general 하게 다음과 같이 쓴다.

G_{t} ≐ k = t + 1 \sum T γ^{k - t - 1} R_{k}

$G_{t}$ 와 $G_{t + 1}$ 의 관계는 다음과 같다.

G_{t} ≐ R_{t + 1} + γ R_{t + 2} + γ^{2} R_{t + 3} + γ^{3} R_{t + 4} + \dots = R_{t + 1} + γ (R_{t + 2} + γ R_{t + 3} + γ^{2} R_{t + 4} + \dots) = R_{t + 1} + γ G_{t + 1}

만약 보상 ( $R_{k}$ ) 이 1 인 경우, 무한대의 시간이 흐르는 경우 $G_{t}$ 의 값은 어떻게 수렴하는가?

G_{t} = k = 0 \sum \infty γ^{k} = \frac{1}{1 - γ}