Expected Return

누적 보상을 의미하며, Reinforcement Learning 에서 agent 의 목표는 이 값을 최대화 하는 것을 의미한다.

끝이 있는 학습 (episode 가 존재하는 학습, episodic tasks) 에서는 return 다음과 같이 표현될 수 있다.

B) Discounted Return

만약 끝이 없는 학습 (continuing tasks) 에서는 보상값이 무한대로 치솟을 수 있다 (e.g. Markov Reward Process). 이를 막기 위해 discounting return 를 사용한다.

여기서 는 감가율 discount factor 라 부름 ()

좀 더 general 하게 다음과 같이 쓴다.

의 관계는 다음과 같다.

만약 보상 () 이 1 인 경우, 무한대의 시간이 흐르는 경우 의 값은 어떻게 수렴하는가?

C) Related

D) References